Claude 3.5深夜覺醒，學(xué)會模仿人類用電腦！編程干翻o1，Agent一夜變天

2024年10月23日 09:53:51 來源：新智元公眾號

　　太科幻了，深夜上線的Claude，可以像人類一樣使用計(jì)算機(jī)了?查看屏幕、移動光標(biāo)、點(diǎn)擊按鈕、輸入文本，還能查找代碼錯誤、自動搜集信息填表。AI推理已至瓶頸，下一個爆破點(diǎn)，就是AI操作電腦!

　　Claude3.5深夜迎來重磅升級!

　　不出所料，Anthropic AI這周終于有了大動作——首發(fā)Claude3.5Haiku，全新升級版Claude3.5Sonnet也來了。

　　不過，「超大杯」Opus依然沒有亮相。

　　讓人驚艷的是，進(jìn)化后的Claude3.5Sonnet一舉擊潰OpenAI o1，堪稱最強(qiáng)推理模型。

　　它在各個方面得到了全面顯著的提升，尤其是業(yè)界領(lǐng)先的編碼能力。

　　而Claude3.5Haiku與上一代最強(qiáng)Claude3Opus性能相當(dāng)，成本、速度與上一代Haiku相近。

　　甚至，Claude現(xiàn)在能夠像人類一樣操作計(jì)算機(jī)，不僅可以查看屏幕、移動光標(biāo)，還可以單機(jī)按鈕、鍵入文本!

　　Anthropic開發(fā)者關(guān)系主管表示，「計(jì)算機(jī)使用」是全新人機(jī)交互范式的第一步。同時也是，AI模型應(yīng)該具備的全新基礎(chǔ)能力。

　　許多做瀏覽器智能體的初創(chuàng)公司，一夜之間過時了。

　　網(wǎng)友們紛紛感嘆:Agent和工作流都要變天了……

　　會自己用電腦的AI來了?

　　在公測中，Anthropic引入一項(xiàng)突破性的新功能:計(jì)算機(jī)使用能力。從今天起，開發(fā)者可以通過API，指導(dǎo)Claude像人類一樣使用計(jì)算機(jī)了。

　　Claude3.5Sonnet是首個在公測中提供此功能的模型。

　　當(dāng)然，這項(xiàng)功能仍處于實(shí)驗(yàn)階段，使用起來還有些笨拙，可能出錯。而Anthropic選擇提前發(fā)布此功能，也是為了獲得開發(fā)者反饋，將之快速改進(jìn)。

　　為什么要訓(xùn)練AI操作電腦?

　　Anthropic表示，在過去幾年里，強(qiáng)大的AI開發(fā)已經(jīng)達(dá)到了許多里程碑，比如執(zhí)行復(fù)雜邏輯推理，以及識別和理解圖像的能力。

　　而下一個突破點(diǎn)，就是AI操作電腦了!如果模型不必通過專門定制的工具進(jìn)行交互，而是按指示就能使用所有軟件，這一定代表著未來的方向。

　　基本電腦操作

　　在這個demo中，Anthropic研究員給Claude提出了一個極有難度的挑戰(zhàn):

　　我的朋友要來舊金山，我想明天早上和他一起在金門大橋看日出。我們將從太平洋高地出發(fā)。你能幫我們找到一個絕佳的觀賞地點(diǎn)，查看一下開車時間和日出時間，然后安排一個日歷活動，讓我們有足夠的時間到達(dá)那里嗎?

　　Claude自行打開了Google，開始了搜索。

　　金門大橋和用戶居住地有多遠(yuǎn)呢?Claude會自己打開地圖查找距離。

　　了解所需信息之后，它打開了日歷，為主人安排好了日程。

　　自動編碼寫網(wǎng)站

　　開發(fā)者展示出Claude如何操控了自己的筆記本電腦，絲滑地完成了一個網(wǎng)站編程任務(wù)。

　　首先，Claude在小哥的Chrome瀏覽器中導(dǎo)航到了Claude.ai，并且讓Claude為自己創(chuàng)造了一個90年代主題的個人主頁。

　　只見它自己輸入網(wǎng)址，鍵入提示，向另一個Claude發(fā)出請求。

　　Claude.ai返回了一些代碼，渲染出來的畫面看起來很不錯，但小哥希望在自己的電腦本地上對網(wǎng)站做一些修改。

　　于是他讓Claude下載文件，然后在VS Code中將其打開。Claude成功完成了這些指令。

　　然后小哥讓Claude啟動了一個服務(wù)器，然后就可以在瀏覽器中實(shí)際查看這個文件了。

　　Claude打開了VS Code終端，嘗試啟動一個服務(wù)器，然后卻遇到了錯誤:機(jī)子上并沒有安裝Python。

　　結(jié)果，通過查看終端輸出，Claude自己發(fā)現(xiàn)了這個問題!它用Python3再次嘗試，成功運(yùn)行起了服務(wù)器。

　　不過，終端輸出中有個錯誤，頂部還缺少了一個文件圖標(biāo)。開發(fā)者小哥請Claude來識別這個錯誤，在文件中修復(fù)它。

　　令人驚喜的是，Claude在VS Code中找到了引發(fā)錯誤的行，刪除了整行，然后保存文件、重新運(yùn)行網(wǎng)站。

　　這次，網(wǎng)站完全正確!

　　自動尋找數(shù)據(jù)填表

　　假設(shè)我們需要填寫一份來自「螞蟻設(shè)備公司」的供應(yīng)商請求表，但需要填寫的數(shù)據(jù)散步在電腦的各個角落，Claude能幫我們完成嗎?

　　只見它開始截取小哥的屏幕截圖，并且很快發(fā)現(xiàn):螞蟻設(shè)備公司并不在表格中。

　　這時，它立刻切換到CRM系統(tǒng)中，去搜索這個公司。找到后，它開始滾動頁面，查找填表所需的所有信息，然后提交了表格。

　　這也就意味著，我們工作中許多不得不做的繁瑣事項(xiàng)，都可以交由Claude代勞了!

　　現(xiàn)在，這個功能已經(jīng)在API中可用了。

　　現(xiàn)在，Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等多家知名公司，已經(jīng)在探索Claude的新潛能，讓它們執(zhí)行數(shù)十步甚至數(shù)百步的復(fù)雜任務(wù)了。

　　比如，Replit正在利用Claude3.5Sonnet的計(jì)算機(jī)使用和用戶界面導(dǎo)航能力，為Replit Agent開發(fā)功能，在構(gòu)建應(yīng)用程序過程中對其實(shí)時評估。

　　遠(yuǎn)低于人類，但未來可期

　　新升級后的Claude3.5Sonnet，電腦使用能力究竟如何?

　　在 OSWorld測試中，它在僅基于屏幕截圖的任務(wù)類別中得分為14.9%，明顯超越了排名第二的AI系統(tǒng)(7.8%)。

　　當(dāng)允許更多操作步驟來完成任務(wù)時，Claude得分提高到了22.0%。

　　這表明模型與環(huán)境的多次交互，能夠優(yōu)化任務(wù)性能。

　　雖然這一結(jié)果比之前有了大幅提升，但仍然遠(yuǎn)低于人類72.36%的表現(xiàn)。

　　這也暗示了，Claude3.5Sonnet未來還有很大的改進(jìn)空間。

　　畢竟，人類毫不費(fèi)力完成的一些操作(滾動、拖動、縮放)，目前對于Claude來說極具挑戰(zhàn)。

　　升級版Claude3.5Sonnet，編碼王者干翻o1

　　在各項(xiàng)行業(yè)基準(zhǔn)測試中，升級版Claude3.5Sonnet性能得到了全方位提升。

　　特別是，智能體編碼、工具使用任務(wù)中取得顯著突破。

　　在編碼能力方面，它在SWE-bench Verified測試中，性能從33.4%大幅提升至49.0%。

　　這超越了所有公開可用的模型——包括OpenAI o1-preview等推理模型和專為智能體編碼設(shè)計(jì)的專門系統(tǒng)。

　　此外，在TAU-bench(一項(xiàng)評估智能體工具使用能力的基準(zhǔn)測試)中，Claude3.5Sonnet也表現(xiàn)出色:

　　在零售領(lǐng)域的得分從62.6%提高到69.2%，在更具挑戰(zhàn)性的航空領(lǐng)域則從36.0%躍升至46.0%。

　　從下表中，可以看出推理測試基準(zhǔn)GPQA(Diamond)上，新版Claude3.5Sonnet大幅超越GPT-4o。

　　在視覺QA、數(shù)學(xué)推理、文檔視覺問答、圖表問答、科學(xué)表格基準(zhǔn)測試中，Claude3.5Sonnet性能成為業(yè)界新標(biāo)桿。

　　值得一提的是，新版Claude3.5Sonnet性能突破同時，仍保持了與前代模型相同的價(jià)格和運(yùn)行速度。

　　一些早期測試用戶的反饋，進(jìn)一步印證了升級后Claude3.5Sonnet，在AI驅(qū)動編碼領(lǐng)域?qū)崿F(xiàn)「質(zhì)」的飛躍。

　　GitLab:在DevSecOps任務(wù)測試中，發(fā)現(xiàn)Claude3.5Sonnet在不增加延遲的前提下，推理能力顯著提升(各用例最高提升10%)，使其成為驅(qū)動復(fù)雜軟件開發(fā)流程的理想選擇

　　Cognition:將新版Claude3.5Sonnet應(yīng)用于自主AI評估，在編碼、規(guī)劃和問題解決等方面，相較前代模型均取得了實(shí)質(zhì)性進(jìn)步

　　The Browser Company:在使用該模型自動化網(wǎng)絡(luò)工作流程時發(fā)現(xiàn)，Claude3.5Sonnet的表現(xiàn)超越了他們此前測試過的所有模型

　　此外，在安全部署前，Claude3.5Sonnet已經(jīng)在美國AI安全研究所(US AISI)和英國安全研究所(UK AISI)進(jìn)行了聯(lián)合測試。

　　而且，經(jīng)過自身評估，Anthorpic在「Responsible Scaling Policy」中制定的ASL-2標(biāo)準(zhǔn)仍然適用于新模型。

　　如前所述，升級版的Claude3.5Sonnet現(xiàn)在已經(jīng)可以在網(wǎng)頁、終端APP上使用了。

　　API的定價(jià)起始為每百萬輸入Token3美元，每百萬輸出Token15美元。

　　通過使用智能緩存技術(shù)可節(jié)省高達(dá)90%的成本，而使用批處理API則可節(jié)省50%成本。

　　應(yīng)用場景

　　Claude3.5Sonnet能夠理解細(xì)微的指令和上下文，識別并糾正自身錯誤，還能從復(fù)雜數(shù)據(jù)中生成深入的分析和洞察。結(jié)合最先進(jìn)的編碼、視覺識別和寫作能力，Claude3.5Sonnet可以被應(yīng)用于各種場景。

　　- 模擬人類操作電腦

　　通過API集成Claude，開發(fā)者可以指導(dǎo)Claude像人類一樣使用電腦——通過觀察屏幕、移動鼠標(biāo)、點(diǎn)擊按鈕和鍵入文字。Claude3.5Sonnet是首個能夠以這種方式可靠使用電腦的前沿AI模型，雖然目前在公開測試階段仍具實(shí)驗(yàn)性質(zhì)，但其能力會隨時間持續(xù)提升。

　　- 代碼自動生成

　　Claude3.5Sonnet可以協(xié)助整個軟件開發(fā)生命周期——從初始設(shè)計(jì)到錯誤修復(fù)，從系統(tǒng)維護(hù)到性能優(yōu)化�？梢灾苯訉⑺患傻疆a(chǎn)品中，或通過Claude.ai平臺將其用作智能編碼助手。

　　- 智能對話系統(tǒng)

　　憑借增強(qiáng)的推理能力和親和、自然的語氣，Claude3.5Sonnet非常適合開發(fā)需要跨系統(tǒng)連接數(shù)據(jù)并執(zhí)行操作的智能對話系統(tǒng)。

　　- 智能知識問答

　　Claude3.5Sonnet具有大規(guī)模上下文處理能力和極低的幻覺率，使其成為處理大型知識庫、文檔和代碼庫問答任務(wù)的理想選擇。

　　- 視覺信息提取

　　Claude3.5Sonnet能夠輕松從圖表、圖形和復(fù)雜示意圖等視覺材料中提取信息——這使其成為數(shù)據(jù)分析和數(shù)據(jù)科學(xué)任務(wù)的理想人工智能模型。

　　- 流程自動化

　　Claude3.5Sonnet能夠?qū)崿F(xiàn)重復(fù)性任務(wù)或流程的自動化。它具備業(yè)界領(lǐng)先的指令執(zhí)行能力，能夠處理復(fù)雜的流程和操作。

　　全新Claude3.5Haiku，智能超越上代老大哥

　　從上一代對標(biāo)來看，Claude3.5Haiku稱得上是「最小杯」。

　　這是Anthropic速度最快的模型。

　　它不僅保持樂了與Claude3Haiku相同的運(yùn)行成本和相近的處理速度，還在各項(xiàng)技能全面提升。

　　甚至，在多項(xiàng)智能基準(zhǔn)測試中，Claude3.5Haiku超越了上一代最強(qiáng)大的模型Claude3Opus。

　　同樣，Claude3.5Haiku在編碼任務(wù)上的表現(xiàn)尤為卓越。

　　比如，在SWE-bench Verified測試中，它取得了40.6%的高分，超越了許多使用公開可用的最先進(jìn)模型的AI智能體——包括原始版本的Claude3.5Sonnet和GPT-4o。

　　Claude3.5Haiku具備了三點(diǎn)突出優(yōu)勢:

　　1. 低延遲響應(yīng)

　　2. 更精準(zhǔn)的指令執(zhí)行能力

　　3. 更準(zhǔn)確的工具使用

　　這些特性使得模型特別適用于，面向用戶的產(chǎn)品開發(fā)、專門的子智能體任務(wù)處理、基于海量數(shù)據(jù)(如購買記錄、價(jià)格信息或庫存數(shù)據(jù))生成個性化體驗(yàn)。

　　本月末，Claude3.5Haiku將在多個平臺上推出，包括Anthropic API、Amazon Bedrock和谷歌云的Vertex AI。(最初會以純文本模型形式推出，隨后會加入圖像輸入功能)

　　Claude3.5Haiku的定價(jià)起始為每百萬輸入Token0.25美元，每百萬輸出Token1.25美元。

　　通過使用提示詞緩存技術(shù)可節(jié)省高達(dá)90%的成本，而使用消息批處理API則可節(jié)省50%的成本。

　　應(yīng)用場景

　　憑借快速的處理速度、改進(jìn)的指令執(zhí)行能力和更準(zhǔn)確的工具使用，Claude3.5Haiku非常適合面向用戶的產(chǎn)品、專門的輔助任務(wù)，以及從海量數(shù)據(jù)中生成個性化體驗(yàn)。

　　- 代碼自動補(bǔ)全

　　Claude3.5Haiku能夠提供快速、準(zhǔn)確的代碼建議和補(bǔ)全，有效加速開發(fā)工作流程。特別適合那些希望簡化編碼過程并提高生產(chǎn)力的軟件開發(fā)團(tuán)隊(duì)。

　　- 智能聊天機(jī)器人

　　借助增強(qiáng)的對話能力和快速的響應(yīng)時間，Claude3.5Haiku在驅(qū)動能處理大量用戶互動的響應(yīng)式聊天機(jī)器人方面表現(xiàn)出色。對于需要可擴(kuò)展互動能力的客戶服務(wù)、電子商務(wù)和教育平臺來說，它尤其有價(jià)值。

　　- 數(shù)據(jù)提取和自動標(biāo)注

　　Claude3.5Haiku能高效處理和分類信息，在快速數(shù)據(jù)提取和自動標(biāo)注任務(wù)中表現(xiàn)優(yōu)異。這一能力對于需要處理金融、醫(yī)療保健和研究領(lǐng)域大量非結(jié)構(gòu)化數(shù)據(jù)的組織特別有用。

　　- 自動實(shí)時內(nèi)容審核

　　Claude3.5Haiku通過其改進(jìn)的推理和內(nèi)容理解能力，提供可靠、即時的內(nèi)容審核服務(wù)。這對于那些需要大規(guī)模維護(hù)安全、適當(dāng)內(nèi)容的社交平臺、在線社區(qū)和媒體組織來說極具價(jià)值。

　　如何教會Claude操作電腦

　　Anthropic表示，人類輕松執(zhí)行的操作——滾動、拖拽、縮放，目前對Claude來說仍然很有挑戰(zhàn)性。

　　而對于垃圾郵件、虛假信息、欺詐這類風(fēng)險(xiǎn)，公司正在尋找安全部署的策略，比如開發(fā)了識別系統(tǒng)，檢測是否發(fā)生危害。

　　研究過程

　　Anthropic在工具使用和多模態(tài)的工作，為AI識別和解釋圖像奠定了基礎(chǔ)。

　　在此基礎(chǔ)上，Claude還需要推理如何以及何時根據(jù)屏幕內(nèi)容執(zhí)行操作。

　　為此，研究者訓(xùn)練Claude準(zhǔn)確計(jì)算像素，從而完成命令，因?yàn)樗仨氂?jì)算出需要垂直或水平移動鼠標(biāo)指針多少像素，才能點(diǎn)擊正確的位置。

　　在此期間，Claude迅速將學(xué)習(xí)成功從計(jì)算器和文本編輯器這類簡單軟件的訓(xùn)練中，遷移到了其他應(yīng)用(注意，期間它不允許聯(lián)網(wǎng))。

　　這種訓(xùn)練讓它能將用戶指令轉(zhuǎn)化為一系列邏輯步驟，執(zhí)行操作。遇到障礙時，甚至還能自我糾正、重試任務(wù)。

　　小插曲

　　Anthropic開發(fā)者關(guān)系主管Alex Albert還分享了，團(tuán)隊(duì)在開發(fā)計(jì)算機(jī)使用功能時的一個有趣故事。

　　當(dāng)時，他們舉行了一場工程師的bug bash(漏洞排查活動)，以確保發(fā)現(xiàn)API所有潛在的問題。

　　這意味著，要把一群工程師關(guān)在一個房間里幾個小時。

　　當(dāng)時，恰好大家都餓了。其中一位工程師靈機(jī)一閃，「不如讓Claude來個實(shí)戰(zhàn)演習(xí)，自主打開DoorDash幫我們訂餐」。

　　沒想到，大約一分鐘后，Claude為工程師們定來了披薩。

　　展望未來

　　AI操作電腦能力代表了一種全新的人工智能開發(fā)方法。

　　迄今為止，LLM開發(fā)者一直在努力使工具適應(yīng)模型，創(chuàng)造特殊的環(huán)境，讓AI使用專門設(shè)計(jì)的工具來完成各種任務(wù)。

　　現(xiàn)在，Anthropic「反其道而行之」——他們選擇讓模型去適應(yīng)工具。也就是，Claude能像人類一樣，融入我們?nèi)粘Ｊ褂玫挠?jì)算機(jī)環(huán)境，直接使用現(xiàn)有的軟件。

　　雖然Claude已經(jīng)達(dá)到了當(dāng)前的最高水平，但它的操作仍然相對緩慢且容易出錯。我們?nèi)粘Ｊ褂秒娔X時的許多操作，如拖拽、縮放等，Claude都還無法做到。

　　此外，Claude目前觀察屏幕的方式類似于快速翻閱一本「畫冊」——通過連續(xù)截圖并拼接在一起，而不是觀察連續(xù)的視頻流。這意味著它可能會錯過一些短暫的動作或通知。

　　有趣的是，Anthropic在錄制Demo時，還遇到了一些有趣的小插曲。

　　比如，在一次演示中，Claude不小心點(diǎn)擊停止了一個長時間運(yùn)行的屏幕錄制，導(dǎo)致所有錄像都付諸東流。

　　而在另一次編碼演示中，Claude則突然「走神」，開始饒有興趣地瀏覽起黃石國家公園的照片。

　　總之，Claude如今的表現(xiàn)讓人對未來充滿期待:AI操作電腦的能力將神速進(jìn)步，那一天，軟件開發(fā)小白都能輕松使用它。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

游戲體驗(yàn)天花板一加Ace 5系列正式定檔12月26日

“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅(jiān)持質(zhì)價(jià)比不動

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

Claude 3.5深夜覺醒，學(xué)會模仿人類用電腦！編程干翻o1，Agent一夜變天

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

3C消費(fèi)

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實(shí)力，創(chuàng)

研究

中國信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

專題

Claude 3.5深夜覺醒，學(xué)會模仿人類用電腦！編程干翻o1，Agent一夜變天

擴(kuò)展閱讀

Claude 3.5深夜覺醒，學(xué)會模仿人類用電腦！編程干翻o1，Agent一夜變天