精品国产蜜桃一区二区三区_满足的呻吟小芳笫二章_97成人在线观看_纯肉大尺度肉动漫在线观看

全球首個(gè)混合推理模型Claude 3.7降世!最強(qiáng)編程大腦暴擊DeepSeek R1

【新智元導(dǎo)讀】就在剛剛,Anthropic祭出首個(gè)混合推理Claude 3.7 Sonnet,堪稱(chēng)擴(kuò)展思考模式的最強(qiáng)模型。在最新編碼測(cè)試中,新模型暴擊o3-mini、DeepSeek R1,AI編碼王者出世了。

憋了大半年,Anthropic終于放出大招——首款混合推理模型Claude 3.7 Sonnet重磅登場(chǎng)!

這是Claude系列中,迄今為止最智能的模型,幾乎能夠及時(shí)響應(yīng),并進(jìn)行可擴(kuò)展的、逐步的思考。

簡(jiǎn)言之,一個(gè)模型,兩種思考方式。

假設(shè)你想破解一個(gè)博弈論數(shù)學(xué)問(wèn)題——蒙提霍爾問(wèn)題,扔給Claude 3.7 Sonnet,然后同時(shí)選擇「Extended」模式。

它便會(huì)展示詳細(xì)CoT過(guò)程,用時(shí)52秒就完成了。

最關(guān)鍵的是,Claude 3.7 Sonnet目前所有人免費(fèi)可用,目前「擴(kuò)展思考」模式還沒(méi)有上線。

在多項(xiàng)基準(zhǔn)測(cè)試中,「擴(kuò)展思考」模式加持下的Claude 3.7 Sonnet,在數(shù)學(xué)、物理、指令執(zhí)行、編程等刷新SOTA。

相較于上一代Claude 3.5 Sonnet,數(shù)學(xué)、編碼能力更是暴漲10%以上。

除了數(shù)學(xué),Claude 3.7 Sonnet(64k extended thinking)幾乎完全碾壓o3-mini,DeepSeek R1,與Grok 3不相上下。

API用戶(hù)可以精確控制模型的思考時(shí)間

可以說(shuō),Claude 3.7 Sonnet完全是一個(gè)最強(qiáng)「軟件工程AI」。在SWE-bench上,創(chuàng)下了70.3%的高分。

與此同時(shí),首款「智能體編程」工具Claude Code(預(yù)覽版)也在今天問(wèn)世了。

如今,它已經(jīng)成為Anthropic內(nèi)部,不可或缺的工具。在早期測(cè)試中,Claude一次性就完成人類(lèi)需要45分鐘的任務(wù)。

也就是說(shuō),你做產(chǎn)品經(jīng)理,AI給你打工寫(xiě)代碼。

雖沒(méi)有Claude 4,Anthropic這波突如其來(lái)的打法,實(shí)屬給AI界又一震撼。

這半個(gè)月,注定是2025開(kāi)年以來(lái)AI含金量最高的。

Grok 3上周剛發(fā)布,這周DeepSeek連續(xù)開(kāi)源5天,OpenAI GPT-4.5據(jù)稱(chēng)也要上線,再加上Claude 3.7 Sonnet,大模型領(lǐng)域的混戰(zhàn)又開(kāi)始了。

全球首款「混合推理」模型誕生

在官方博文中,Anthropic稱(chēng),Claude 3.7 Sonnet是Anthropic迄今為止最智能的模型,也是市場(chǎng)上首個(gè)混合推理模型。

Claude 3.7 Sonnet能夠產(chǎn)生幾乎即時(shí)的響應(yīng)或逐步展示思考過(guò)程的詳細(xì)步驟,這些步驟對(duì)用戶(hù)是可見(jiàn)的。API用戶(hù)還可以精細(xì)控制模型的思考時(shí)間。

在編碼和前端網(wǎng)頁(yè)開(kāi)發(fā)方面,Claude 3.7 Sonnet得到顯著提升。

除此之外,他們還推出了一款名為Claude Code的命令行工具,用于智能體編碼。

目前,Claude Code僅作為有限的研究預(yù)覽版提供,它使開(kāi)發(fā)人員能夠直接從他們的終端將大量的工程任務(wù)委托給Claude。

推理,是一個(gè)LLM整體能力

Claude 3.7 Sonnet的設(shè)計(jì)理念與市場(chǎng)上其他推理模型不同。

Anthropic相信,就像人類(lèi)使用一個(gè)大腦來(lái)處理快速反應(yīng)和深度思考一樣,推理應(yīng)該是前沿模型的整體能力,而不是一個(gè)完全獨(dú)立的模型。這種統(tǒng)一的方法為用戶(hù)提供了更流暢的體驗(yàn)。

Claude 3.7 Sonnet在幾個(gè)方面體現(xiàn)了這一理念。

首先,Claude 3.7 Sonnet既是普通的語(yǔ)言模型(LLM),也是一個(gè)推理模型:可以選擇在什么時(shí)候希望模型正常回答,什么時(shí)候希望它在回答之前思考更長(zhǎng)的時(shí)間。

在標(biāo)準(zhǔn)模式下,Claude 3.7 Sonnet是Claude 3.5 Sonnet的升級(jí)版本。

在擴(kuò)展思考模式下,它在回答之前進(jìn)行自我反思,這提高了在數(shù)學(xué)、物理、指令遵循、編碼和其他許多任務(wù)上的性能。

通常,兩種模式對(duì)模型的提示效果相似。

其次,通過(guò)API使用Claude 3.7 Sonnet時(shí),用戶(hù)還可以控制思考的預(yù)算——

你可以告訴Claude在回答時(shí)最多思考N個(gè)tokens,N的最大值為128K tokens的輸出限制。這使得用戶(hù)可以在速度(和成本)與回答質(zhì)量之間進(jìn)行權(quán)衡。

第三,在開(kāi)發(fā)推理模型時(shí),Anthropic在數(shù)學(xué)和計(jì)算機(jī)科學(xué)競(jìng)賽問(wèn)題上的優(yōu)化程度稍微降低,而是將重點(diǎn)轉(zhuǎn)向了更能反映企業(yè)實(shí)際使用LLM的現(xiàn)實(shí)世界任務(wù)。

Claude 3.7 Sonnet在SWE-bench Verified上刷線SOTA,該評(píng)測(cè)旨在評(píng)估AI模型解決現(xiàn)實(shí)世界軟件問(wèn)題的能力

Claude 3.7 Sonnet在TAU-bench上刷新SOT,TAU-bench是一個(gè)測(cè)試AI智能體在復(fù)雜現(xiàn)實(shí)世界任務(wù)中與用戶(hù)和工具交互能力的框架

如前所述,Claude 3.7 Sonnet幾乎在各大基準(zhǔn)測(cè)試中,性能得到了顯著提升。

相較于最新Grok 3 Beta模型,Claude 3.7 Sonnet(64k extended thinking)在推理方面幾乎打成平手。而在數(shù)學(xué)、視覺(jué)推理方面,又略遜色于Grok 3 Beta。

與o3-mini、DeepSeek R1相比,除了數(shù)學(xué),帶有擴(kuò)展思考模式的Claude 3.7 Sonnet拿下最高分。

Claude 3.7 Sonnet在任務(wù)指令跟隨、通用推理、多模態(tài)能力和自主編程方面表現(xiàn)出色,擴(kuò)展思考模式在數(shù)學(xué)和科學(xué)領(lǐng)域帶來(lái)了顯著提升。除了傳統(tǒng)基準(zhǔn)測(cè)試外,它甚至在寶可夢(mèng)游戲測(cè)試中超越了所有先前模型

AI編碼智能體,一次完成45分鐘任務(wù)

自2024年6月以來(lái),Sonnet系列一直是全球開(kāi)發(fā)者的首選模型。

今天,Anthropic的首個(gè)智能體編碼工具Claude Code誕生,目前以限量研究預(yù)覽的形式發(fā)布。

Claude Code主動(dòng)與人協(xié)作,能夠搜索和閱讀代碼、編輯文件、編寫(xiě)和運(yùn)行測(cè)試、提交并將代碼推送至GitHub,以及使用命令行工具——同時(shí)確保用戶(hù)在每一步都能參與其中。

此外,本次更新還改進(jìn)了Claude.ai上的編碼體驗(yàn)。

現(xiàn)在,所有Claude套餐都支持GitHub集成——開(kāi)發(fā)者能夠?qū)⒋a倉(cāng)庫(kù)直接連接到Claude。

作為Anthropic迄今為止最強(qiáng)大的編碼模型,Claude 3.7 Sonnet能更深入地理解個(gè)人項(xiàng)目、工作項(xiàng)目和開(kāi)源項(xiàng)目,并一舉成為修復(fù)bug、開(kāi)發(fā)新功能以及編寫(xiě)GitHub文檔的強(qiáng)大助手。

目前,Claude Code還處于早期階段,但已經(jīng)成為Anthropic團(tuán)隊(duì)不可或缺的工具,尤其是在測(cè)試驅(qū)動(dòng)開(kāi)發(fā)、調(diào)試復(fù)雜問(wèn)題和大規(guī)模重構(gòu)方面。

在早期測(cè)試中,它能夠一次性完成了通常需要手動(dòng)工作45分鐘以上的任務(wù),顯著減少了開(kāi)發(fā)時(shí)間和工作量。

在接下來(lái)的幾周里,Anthropic計(jì)劃根據(jù)使用情況不斷改進(jìn)它:提升工具調(diào)用的可靠性、增加對(duì)長(zhǎng)時(shí)間運(yùn)行命令的支持、改進(jìn)應(yīng)用內(nèi)渲染效果,并擴(kuò)展Claude對(duì)自身能力的理解。

全新的測(cè)試時(shí)Scaling

Claude作為AI智能體

Claude 3.7 Sonnet具備了一項(xiàng)被稱(chēng)為「行為擴(kuò)展」(action scaling)的新特性——這種改進(jìn)使其能夠迭代調(diào)用函數(shù)、響應(yīng)環(huán)境變化,并持續(xù)操作直到完成開(kāi)放式任務(wù)。

例如在計(jì)算機(jī)使用方面:Claude能夠通過(guò)發(fā)出虛擬鼠標(biāo)點(diǎn)擊和鍵盤(pán)按鍵來(lái)代替用戶(hù)完成任務(wù)。與前代相比Claude 3.7 Sonnet能夠在計(jì)算機(jī)使用任務(wù)中投入更多的交互次數(shù),同時(shí)配備更充足的時(shí)間和計(jì)算資源,因此往往能取得更好的結(jié)果。

這一進(jìn)步在OSWorld評(píng)估中得到了充分體現(xiàn),這是一個(gè)用于評(píng)估多模態(tài)AI智能體能力的測(cè)試平臺(tái)。

Claude 3.7 Sonnet在初始階段就展現(xiàn)出了較好的表現(xiàn),而隨著其持續(xù)與虛擬計(jì)算機(jī)交互,其性能優(yōu)勢(shì)還會(huì)隨時(shí)間推移而不斷擴(kuò)大。

Claude的擴(kuò)展思考模式與AI智能體訓(xùn)練相結(jié)合,不僅幫助它在OSWorld等眾多標(biāo)準(zhǔn)評(píng)估中取得了更好的表現(xiàn),還讓它在一些其他意想不到的任務(wù)中實(shí)現(xiàn)了重大突破。

以玩游戲?yàn)槔貏e是在Game Boy掌機(jī)經(jīng)典游戲「口袋妖怪:紅」中的表現(xiàn)。他們?yōu)镃laude配備了基礎(chǔ)記憶能力、屏幕像素輸入功能,以及按鍵操作和屏幕導(dǎo)航的函數(shù)調(diào)用能力,使其能夠突破常規(guī)上下文限制,持續(xù)進(jìn)行游戲,實(shí)現(xiàn)長(zhǎng)達(dá)數(shù)萬(wàn)次的持續(xù)交互。

在下圖中,他們對(duì)比了具備擴(kuò)展思考能力的Claude 3.7 Sonnet與之前版本的Claude Sonnet在口袋妖怪游戲中的進(jìn)度。

如圖所示,早期版本在游戲伊始就難以推進(jìn),Claude 3.0 Sonnet甚至無(wú)法走出故事起點(diǎn)真新鎮(zhèn)的初始小屋。

而Claude 3.7 Sonnet憑借改進(jìn)后的AI智能體能力取得了顯著進(jìn)展,成功挑戰(zhàn)并擊敗了三位道館館主,獲得了相應(yīng)的徽章。

Claude 3.7 Sonnet在嘗試多種策略和重新審視既有假設(shè)方面表現(xiàn)出色,這使它能夠在游戲過(guò)程中不斷提升自身能力。

串行與并行測(cè)試時(shí)計(jì)算Scaling

當(dāng)Claude 3.7 Sonnet運(yùn)用其擴(kuò)展思考能力時(shí),可以說(shuō)它利用了「串行測(cè)試時(shí)計(jì)算」機(jī)制。

具體而言,它會(huì)在生成最終輸出之前,執(zhí)行多個(gè)連續(xù)的推理步驟,并在此過(guò)程中持續(xù)增加計(jì)算資源投入。

總體來(lái)看,這種機(jī)制能夠以可預(yù)測(cè)的方式提升其性能表現(xiàn):例如,在數(shù)學(xué)問(wèn)題求解方面,其準(zhǔn)確率會(huì)隨著允許采樣的「思考Token」數(shù)量的增加呈對(duì)數(shù)增長(zhǎng)。

Claude的研究人員還在探索使用并行測(cè)試時(shí)計(jì)算來(lái)提升模型性能。

具體方法是通過(guò)采樣多個(gè)獨(dú)立的思維過(guò)程,并在不預(yù)先知道正確答案的情況下選擇最佳結(jié)果。這可以通過(guò)多數(shù)表決或共識(shí)投票機(jī)制來(lái)實(shí)現(xiàn),即選擇出現(xiàn)頻率最高的答案作為「最佳」答案。

另外也可以使用另一個(gè)LLM來(lái)驗(yàn)證其工作成果,或采用經(jīng)過(guò)訓(xùn)練的評(píng)分函數(shù)來(lái)選擇最優(yōu)答案。

這些優(yōu)化策略(及相關(guān)研究工作)已在多個(gè)AI模型的評(píng)估報(bào)告中得到驗(yàn)證。

在GPQA評(píng)估中,他們通過(guò)并行測(cè)試時(shí)計(jì)算Scaling取得了突破性進(jìn)展。

具體而言,通過(guò)調(diào)用等同于256個(gè)獨(dú)立樣本的計(jì)算資源,結(jié)合訓(xùn)練優(yōu)化的評(píng)分模型,并設(shè)置最大64,000個(gè)Token的推理限額,Claude 3.7 Sonnet在GPQA測(cè)試中達(dá)到了84.8%的總體得分(其中物理學(xué)部分高達(dá)96.5%)。

值得注意的是,即使超出常規(guī)多數(shù)表決的限制范圍,模型性能仍在持續(xù)提升。

下圖列出了評(píng)分模型方法和多數(shù)表決方法的詳細(xì)結(jié)果。

這些方法能夠提升Claude回答的質(zhì)量,而且通常無(wú)需等待其完成推理過(guò)程。同時(shí)進(jìn)行多個(gè)不同的深度思維運(yùn)算,Claude能夠探索更多問(wèn)題解決思路,顯著提升正確答案的輸出頻率。

三步路線圖,Claude合作者已來(lái)

Claude 3.7 Sonnet和Claude Code標(biāo)志著,向真正增強(qiáng)人類(lèi)能力的人工智能系統(tǒng)邁出的重要一步。

憑借其深入推理、自主工作和有效協(xié)作的能力,它們讓我們更接近一個(gè)未來(lái),在那里人工智能豐富了人類(lèi)所能實(shí)現(xiàn)的事情。

如今,Claude合作者已來(lái)。

最新版,可以免費(fèi)用了

值得一提的是,Claude 3.7 Sonnet目前已經(jīng)在Claude.ai平臺(tái)上線,Web、iOS和Android用戶(hù)皆可免費(fèi)體驗(yàn)。

對(duì)于希望構(gòu)建自定義AI解決方案的開(kāi)發(fā)者,可以通過(guò)Anthropic API、Amazon Bedrock以及Google Cloud的Vertex AI進(jìn)行訪問(wèn)。

在標(biāo)準(zhǔn)模式和擴(kuò)展思考模式下,Claude 3.7 Sonnet的價(jià)格與其前代產(chǎn)品相同:3美元/百萬(wàn)輸入token,15 美元/百萬(wàn)輸出token ——這其中包括了思考token的費(fèi)用。

Anthropic套餐定價(jià)

AI大佬測(cè)試

賓夕法尼亞大學(xué)沃頓商學(xué)院的教授Ethan Mollick已經(jīng)在過(guò)去幾天對(duì)Claude 3.7進(jìn)行了測(cè)試,

Claude 3.7經(jīng)常給他帶來(lái)與第一次使用ChatGPT-4時(shí)相同的感覺(jué):既驚嘆不已,又對(duì)它們的能力感到一絲不安。以 Claude的原生編碼能力為例,我們現(xiàn)在可以通過(guò)自然對(duì)話或文檔獲得可運(yùn)行的程序,而無(wú)需任何編程技能。

例如,他向Claude提供了一份關(guān)于新型AI教育工具的提案,并在對(duì)話中要求它「以3D形式展示所提議的系統(tǒng)架構(gòu),并使其具有交互性」。結(jié)果,它生成了我們論文中核心設(shè)計(jì)的交互式可視化效果,沒(méi)有任何錯(cuò)誤。

這些圖形雖然很簡(jiǎn)潔,但并不是最令人印象深刻的部分。真正讓人驚嘆的是,Claude自主決定將其制作成一個(gè)逐步演示來(lái)解釋相關(guān)概念,而這并不是我們要求它做的。

這種對(duì)需求的預(yù)判和對(duì)新方法的思考是AI領(lǐng)域中的一項(xiàng)新突破。

再舉一個(gè)更有趣的例子,Ethan Mollick告訴Claude:「給我做一個(gè)交互式的時(shí)間機(jī)器裝置,讓我可以穿越回過(guò)去,并發(fā)生一些有趣的事情。挑選一些不尋常的時(shí)間點(diǎn)讓我回去...」 以及 「添加更多圖像。」

僅僅這兩條提示之后,就出現(xiàn)了一個(gè)功能齊全的交互式體驗(yàn),甚至還配有粗糙但迷人的像素圖像(這些圖像實(shí)際上令人驚訝地印象深刻——AI必須使用純代碼「繪制」這些圖像,而無(wú)法看到它正在創(chuàng)建的內(nèi)容,就像一個(gè)被蒙住眼睛的藝術(shù)家。

參考資料:

https://www.anthropic.com/news/claude-3-7-sonnet

https://x.com/alexalbert__/status/1894093648121532546

https://x.com/AnthropicAI/status/1894092430560965029

https://www.oneusefulthing.org/p/a-new-generation-of-ais-claude-37


相關(guān)內(nèi)容