零下25℃如何取暖?海爾水暖通溫暖驛站亮相冰雪大世界馬太效應(yīng),強(qiáng)者恒強(qiáng)?——《中國企業(yè)科創(chuàng)力研究報(bào)告(2024)》美團(tuán)年度報(bào)告竟然用上了AI和短。窟@下是真出圈了消息稱上汽大眾正開發(fā)三款新車,技術(shù)分別來自小鵬、智己和榮威鴻蒙智行泊車代駕VPD正式開啟全量推送!升級自動泊車/接駕等多項(xiàng)功能華為官方翻新手機(jī)最高降價(jià)4000元曝蘋果研發(fā)帶Face ID的智能家居門鈴:內(nèi)置自研W-Fi芯片李斌回應(yīng)螢火蟲外觀設(shè)計(jì):看過實(shí)車的人都喜歡這個設(shè)計(jì)林杰:未來 A 級、A0 級、A00 級車型都將是領(lǐng)克純電的“主場”豐巢存包柜亮相南寧地鐵站,助力城市韌性建設(shè)與智慧出行萬象分區(qū)、絢彩XDR、量子點(diǎn)Pro 2025齊出手,TCL引領(lǐng)觀影體驗(yàn)新變革!QQ音樂年度聽歌報(bào)告發(fā)布:誰是你最喜歡的歌手?OpenAI正式發(fā)布o(jì)3 - 通往AGI的路上,已經(jīng)沒有了任何阻礙「送禮物」難撬動社交電商,微信小店缺的是供給微軟Phi-4封神,14B小模型數(shù)學(xué)擊敗GPT-4o,合成數(shù)據(jù)占比40%,36頁技術(shù)報(bào)告出爐2024年結(jié)束,哪里是原創(chuàng)動畫的應(yīng)許之地?深扒一個正被游戲行業(yè)「搶占」的流量帝國百思買重新進(jìn)軍跨境電商領(lǐng)域視頻生成大模型賽道,只是看上去擁擠GGII:預(yù)計(jì)2024年中國工業(yè)機(jī)器人全年銷量約30萬臺,同比下滑5%左右
  • 首頁 > 云計(jì)算頻道 > 大模型

    Claude 3.5深夜覺醒,學(xué)會模仿人類用電腦!編程干翻o1,Agent一夜變天

    2024年10月23日 09:53:51   來源:新智元公眾號

      太科幻了,深夜上線的Claude,可以像人類一樣使用計(jì)算機(jī)了?查看屏幕、移動光標(biāo)、點(diǎn)擊按鈕、輸入文本,還能查找代碼錯誤、自動搜集信息填表。AI推理已至瓶頸,下一個爆破點(diǎn),就是AI操作電腦!

      Claude3.5深夜迎來重磅升級!

      不出所料,Anthropic AI這周終于有了大動作——首發(fā)Claude3.5Haiku,全新升級版Claude3.5Sonnet也來了。

      不過,「超大杯」Opus依然沒有亮相。

      讓人驚艷的是,進(jìn)化后的Claude3.5Sonnet一舉擊潰OpenAI o1,堪稱最強(qiáng)推理模型。

      它在各個方面得到了全面顯著的提升,尤其是業(yè)界領(lǐng)先的編碼能力。

      而Claude3.5Haiku與上一代最強(qiáng)Claude3Opus性能相當(dāng),成本、速度與上一代Haiku相近。

      甚至,Claude現(xiàn)在能夠像人類一樣操作計(jì)算機(jī),不僅可以查看屏幕、移動光標(biāo),還可以單機(jī)按鈕、鍵入文本!

      Anthropic開發(fā)者關(guān)系主管表示,「計(jì)算機(jī)使用」是全新人機(jī)交互范式的第一步。同時也是,AI模型應(yīng)該具備的全新基礎(chǔ)能力。

      許多做瀏覽器智能體的初創(chuàng)公司,一夜之間過時了。

      網(wǎng)友們紛紛感嘆:Agent和工作流都要變天了……

      會自己用電腦的AI來了?

      在公測中,Anthropic引入一項(xiàng)突破性的新功能:計(jì)算機(jī)使用能力。從今天起,開發(fā)者可以通過API,指導(dǎo)Claude像人類一樣使用計(jì)算機(jī)了。

      Claude3.5Sonnet是首個在公測中提供此功能的模型。

      當(dāng)然,這項(xiàng)功能仍處于實(shí)驗(yàn)階段,使用起來還有些笨拙,可能出錯。而Anthropic選擇提前發(fā)布此功能,也是為了獲得開發(fā)者反饋,將之快速改進(jìn)。

      為什么要訓(xùn)練AI操作電腦?

      Anthropic表示,在過去幾年里,強(qiáng)大的AI開發(fā)已經(jīng)達(dá)到了許多里程碑,比如執(zhí)行復(fù)雜邏輯推理,以及識別和理解圖像的能力。

      而下一個突破點(diǎn),就是AI操作電腦了!如果模型不必通過專門定制的工具進(jìn)行交互,而是按指示就能使用所有軟件,這一定代表著未來的方向。

      基本電腦操作

      在這個demo中,Anthropic研究員給Claude提出了一個極有難度的挑戰(zhàn):

      我的朋友要來舊金山,我想明天早上和他一起在金門大橋看日出。我們將從太平洋高地出發(fā)。你能幫我們找到一個絕佳的觀賞地點(diǎn),查看一下開車時間和日出時間,然后安排一個日歷活動,讓我們有足夠的時間到達(dá)那里嗎?

      Claude自行打開了Google,開始了搜索。

      金門大橋和用戶居住地有多遠(yuǎn)呢?Claude會自己打開地圖查找距離。

      了解所需信息之后,它打開了日歷,為主人安排好了日程。

      自動編碼寫網(wǎng)站

      開發(fā)者展示出Claude如何操控了自己的筆記本電腦,絲滑地完成了一個網(wǎng)站編程任務(wù)。

      首先,Claude在小哥的Chrome瀏覽器中導(dǎo)航到了Claude.ai,并且讓Claude為自己創(chuàng)造了一個90年代主題的個人主頁。

      只見它自己輸入網(wǎng)址,鍵入提示,向另一個Claude發(fā)出請求。

      Claude.ai返回了一些代碼,渲染出來的畫面看起來很不錯,但小哥希望在自己的電腦本地上對網(wǎng)站做一些修改。

      于是他讓Claude下載文件,然后在VS Code中將其打開。Claude成功完成了這些指令。

      然后小哥讓Claude啟動了一個服務(wù)器,然后就可以在瀏覽器中實(shí)際查看這個文件了。

      Claude打開了VS Code終端,嘗試啟動一個服務(wù)器,然后卻遇到了錯誤:機(jī)子上并沒有安裝Python。

      結(jié)果,通過查看終端輸出,Claude自己發(fā)現(xiàn)了這個問題!它用Python3再次嘗試,成功運(yùn)行起了服務(wù)器。

      不過,終端輸出中有個錯誤,頂部還缺少了一個文件圖標(biāo)。開發(fā)者小哥請Claude來識別這個錯誤,在文件中修復(fù)它。

      令人驚喜的是,Claude在VS Code中找到了引發(fā)錯誤的行,刪除了整行,然后保存文件、重新運(yùn)行網(wǎng)站。

      這次,網(wǎng)站完全正確!

      自動尋找數(shù)據(jù)填表

      假設(shè)我們需要填寫一份來自「螞蟻設(shè)備公司」的供應(yīng)商請求表,但需要填寫的數(shù)據(jù)散步在電腦的各個角落,Claude能幫我們完成嗎?

      只見它開始截取小哥的屏幕截圖,并且很快發(fā)現(xiàn):螞蟻設(shè)備公司并不在表格中。

      這時,它立刻切換到CRM系統(tǒng)中,去搜索這個公司。找到后,它開始滾動頁面,查找填表所需的所有信息,然后提交了表格。

      這也就意味著,我們工作中許多不得不做的繁瑣事項(xiàng),都可以交由Claude代勞了!

      現(xiàn)在,這個功能已經(jīng)在API中可用了。

      現(xiàn)在,Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等多家知名公司,已經(jīng)在探索Claude的新潛能,讓它們執(zhí)行數(shù)十步甚至數(shù)百步的復(fù)雜任務(wù)了。

      比如,Replit正在利用Claude3.5Sonnet的計(jì)算機(jī)使用和用戶界面導(dǎo)航能力,為Replit Agent開發(fā)功能,在構(gòu)建應(yīng)用程序過程中對其實(shí)時評估。

      遠(yuǎn)低于人類,但未來可期

      新升級后的Claude3.5Sonnet,電腦使用能力究竟如何?

      在 OSWorld測試中,它在僅基于屏幕截圖的任務(wù)類別中得分為14.9%,明顯超越了排名第二的AI系統(tǒng)(7.8%)。

      當(dāng)允許更多操作步驟來完成任務(wù)時,Claude得分提高到了22.0%。

      這表明模型與環(huán)境的多次交互,能夠優(yōu)化任務(wù)性能。

      雖然這一結(jié)果比之前有了大幅提升,但仍然遠(yuǎn)低于人類72.36%的表現(xiàn)。

      這也暗示了,Claude3.5Sonnet未來還有很大的改進(jìn)空間。

      畢竟,人類毫不費(fèi)力完成的一些操作(滾動、拖動、縮放),目前對于Claude來說極具挑戰(zhàn)。

      升級版Claude3.5Sonnet,編碼王者干翻o1

      在各項(xiàng)行業(yè)基準(zhǔn)測試中,升級版Claude3.5Sonnet性能得到了全方位提升。

      特別是,智能體編碼、工具使用任務(wù)中取得顯著突破。

      在編碼能力方面,它在SWE-bench Verified測試中,性能從33.4%大幅提升至49.0%。

      這超越了所有公開可用的模型——包括OpenAI o1-preview等推理模型和專為智能體編碼設(shè)計(jì)的專門系統(tǒng)。

      此外,在TAU-bench(一項(xiàng)評估智能體工具使用能力的基準(zhǔn)測試)中,Claude3.5Sonnet也表現(xiàn)出色:

      在零售領(lǐng)域的得分從62.6%提高到69.2%,在更具挑戰(zhàn)性的航空領(lǐng)域則從36.0%躍升至46.0%。

      從下表中,可以看出推理測試基準(zhǔn)GPQA(Diamond)上,新版Claude3.5Sonnet大幅超越GPT-4o。

      在視覺QA、數(shù)學(xué)推理、文檔視覺問答、圖表問答、科學(xué)表格基準(zhǔn)測試中,Claude3.5Sonnet性能成為業(yè)界新標(biāo)桿。

      值得一提的是,新版Claude3.5Sonnet性能突破同時,仍保持了與前代模型相同的價(jià)格和運(yùn)行速度。

      一些早期測試用戶的反饋,進(jìn)一步印證了升級后Claude3.5Sonnet,在AI驅(qū)動編碼領(lǐng)域?qū)崿F(xiàn)「質(zhì)」的飛躍。

      GitLab:在DevSecOps任務(wù)測試中,發(fā)現(xiàn)Claude3.5Sonnet在不增加延遲的前提下,推理能力顯著提升(各用例最高提升10%),使其成為驅(qū)動復(fù)雜軟件開發(fā)流程的理想選擇

      Cognition:將新版Claude3.5Sonnet應(yīng)用于自主AI評估,在編碼、規(guī)劃和問題解決等方面,相較前代模型均取得了實(shí)質(zhì)性進(jìn)步

      The Browser Company:在使用該模型自動化網(wǎng)絡(luò)工作流程時發(fā)現(xiàn),Claude3.5Sonnet的表現(xiàn)超越了他們此前測試過的所有模型

      此外,在安全部署前,Claude3.5Sonnet已經(jīng)在美國AI安全研究所(US AISI)和英國安全研究所(UK AISI)進(jìn)行了聯(lián)合測試。

      而且,經(jīng)過自身評估,Anthorpic在「Responsible Scaling Policy」中制定的ASL-2標(biāo)準(zhǔn)仍然適用于新模型。

      如前所述,升級版的Claude3.5Sonnet現(xiàn)在已經(jīng)可以在網(wǎng)頁、終端APP上使用了。

      API的定價(jià)起始為每百萬輸入Token3美元,每百萬輸出Token15美元

      通過使用智能緩存技術(shù)可節(jié)省高達(dá)90%的成本,而使用批處理API則可節(jié)省50%成本。

      應(yīng)用場景

      Claude3.5Sonnet能夠理解細(xì)微的指令和上下文,識別并糾正自身錯誤,還能從復(fù)雜數(shù)據(jù)中生成深入的分析和洞察。結(jié)合最先進(jìn)的編碼、視覺識別和寫作能力,Claude3.5Sonnet可以被應(yīng)用于各種場景。

      - 模擬人類操作電腦

      通過API集成Claude,開發(fā)者可以指導(dǎo)Claude像人類一樣使用電腦——通過觀察屏幕、移動鼠標(biāo)、點(diǎn)擊按鈕和鍵入文字。Claude3.5Sonnet是首個能夠以這種方式可靠使用電腦的前沿AI模型,雖然目前在公開測試階段仍具實(shí)驗(yàn)性質(zhì),但其能力會隨時間持續(xù)提升。

      - 代碼自動生成

      Claude3.5Sonnet可以協(xié)助整個軟件開發(fā)生命周期——從初始設(shè)計(jì)到錯誤修復(fù),從系統(tǒng)維護(hù)到性能優(yōu)化?梢灾苯訉⑺患傻疆a(chǎn)品中,或通過Claude.ai平臺將其用作智能編碼助手。

      - 智能對話系統(tǒng)

      憑借增強(qiáng)的推理能力和親和、自然的語氣,Claude3.5Sonnet非常適合開發(fā)需要跨系統(tǒng)連接數(shù)據(jù)并執(zhí)行操作的智能對話系統(tǒng)。

      - 智能知識問答

      Claude3.5Sonnet具有大規(guī)模上下文處理能力和極低的幻覺率,使其成為處理大型知識庫、文檔和代碼庫問答任務(wù)的理想選擇。

      - 視覺信息提取

      Claude3.5Sonnet能夠輕松從圖表、圖形和復(fù)雜示意圖等視覺材料中提取信息——這使其成為數(shù)據(jù)分析和數(shù)據(jù)科學(xué)任務(wù)的理想人工智能模型。

      - 流程自動化

      Claude3.5Sonnet能夠?qū)崿F(xiàn)重復(fù)性任務(wù)或流程的自動化。它具備業(yè)界領(lǐng)先的指令執(zhí)行能力,能夠處理復(fù)雜的流程和操作。

      全新Claude3.5Haiku,智能超越上代老大哥

      從上一代對標(biāo)來看,Claude3.5Haiku稱得上是「最小杯」。

      這是Anthropic速度最快的模型。

      它不僅保持樂了與Claude3Haiku相同的運(yùn)行成本和相近的處理速度,還在各項(xiàng)技能全面提升。

      甚至,在多項(xiàng)智能基準(zhǔn)測試中,Claude3.5Haiku超越了上一代最強(qiáng)大的模型Claude3Opus。

      同樣,Claude3.5Haiku在編碼任務(wù)上的表現(xiàn)尤為卓越。

      比如,在SWE-bench Verified測試中,它取得了40.6%的高分,超越了許多使用公開可用的最先進(jìn)模型的AI智能體——包括原始版本的Claude3.5Sonnet和GPT-4o

      Claude3.5Haiku具備了三點(diǎn)突出優(yōu)勢:

      1. 低延遲響應(yīng)

      2. 更精準(zhǔn)的指令執(zhí)行能力

      3. 更準(zhǔn)確的工具使用

      這些特性使得模型特別適用于,面向用戶的產(chǎn)品開發(fā)、專門的子智能體任務(wù)處理、基于海量數(shù)據(jù)(如購買記錄、價(jià)格信息或庫存數(shù)據(jù))生成個性化體驗(yàn)。

      本月末,Claude3.5Haiku將在多個平臺上推出,包括Anthropic API、Amazon Bedrock和谷歌云的Vertex AI。(最初會以純文本模型形式推出,隨后會加入圖像輸入功能)

      Claude3.5Haiku的定價(jià)起始為每百萬輸入Token0.25美元每百萬輸出Token1.25美元

      通過使用提示詞緩存技術(shù)可節(jié)省高達(dá)90%的成本,而使用消息批處理API則可節(jié)省50%的成本。

      應(yīng)用場景

      憑借快速的處理速度、改進(jìn)的指令執(zhí)行能力和更準(zhǔn)確的工具使用,Claude3.5Haiku非常適合面向用戶的產(chǎn)品、專門的輔助任務(wù),以及從海量數(shù)據(jù)中生成個性化體驗(yàn)。

      - 代碼自動補(bǔ)全

      Claude3.5Haiku能夠提供快速、準(zhǔn)確的代碼建議和補(bǔ)全,有效加速開發(fā)工作流程。特別適合那些希望簡化編碼過程并提高生產(chǎn)力的軟件開發(fā)團(tuán)隊(duì)。

      - 智能聊天機(jī)器人

      借助增強(qiáng)的對話能力和快速的響應(yīng)時間,Claude3.5Haiku在驅(qū)動能處理大量用戶互動的響應(yīng)式聊天機(jī)器人方面表現(xiàn)出色。對于需要可擴(kuò)展互動能力的客戶服務(wù)、電子商務(wù)和教育平臺來說,它尤其有價(jià)值。

      - 數(shù)據(jù)提取和自動標(biāo)注

      Claude3.5Haiku能高效處理和分類信息,在快速數(shù)據(jù)提取和自動標(biāo)注任務(wù)中表現(xiàn)優(yōu)異。這一能力對于需要處理金融、醫(yī)療保健和研究領(lǐng)域大量非結(jié)構(gòu)化數(shù)據(jù)的組織特別有用。

      - 自動實(shí)時內(nèi)容審核

      Claude3.5Haiku通過其改進(jìn)的推理和內(nèi)容理解能力,提供可靠、即時的內(nèi)容審核服務(wù)。這對于那些需要大規(guī)模維護(hù)安全、適當(dāng)內(nèi)容的社交平臺、在線社區(qū)和媒體組織來說極具價(jià)值。

      如何教會Claude操作電腦

      Anthropic表示,人類輕松執(zhí)行的操作——滾動、拖拽、縮放,目前對Claude來說仍然很有挑戰(zhàn)性。

      而對于垃圾郵件、虛假信息、欺詐這類風(fēng)險(xiǎn),公司正在尋找安全部署的策略,比如開發(fā)了識別系統(tǒng),檢測是否發(fā)生危害。

      研究過程

      Anthropic在工具使用和多模態(tài)的工作,為AI識別和解釋圖像奠定了基礎(chǔ)。

      在此基礎(chǔ)上,Claude還需要推理如何以及何時根據(jù)屏幕內(nèi)容執(zhí)行操作。

      為此,研究者訓(xùn)練Claude準(zhǔn)確計(jì)算像素,從而完成命令,因?yàn)樗仨氂?jì)算出需要垂直或水平移動鼠標(biāo)指針多少像素,才能點(diǎn)擊正確的位置。

      在此期間,Claude迅速將學(xué)習(xí)成功從計(jì)算器和文本編輯器這類簡單軟件的訓(xùn)練中,遷移到了其他應(yīng)用(注意,期間它不允許聯(lián)網(wǎng))。

      這種訓(xùn)練讓它能將用戶指令轉(zhuǎn)化為一系列邏輯步驟,執(zhí)行操作。遇到障礙時,甚至還能自我糾正、重試任務(wù)。

      小插曲

      Anthropic開發(fā)者關(guān)系主管Alex Albert還分享了,團(tuán)隊(duì)在開發(fā)計(jì)算機(jī)使用功能時的一個有趣故事。

      當(dāng)時,他們舉行了一場工程師的bug bash(漏洞排查活動),以確保發(fā)現(xiàn)API所有潛在的問題。

      這意味著,要把一群工程師關(guān)在一個房間里幾個小時。

      當(dāng)時,恰好大家都餓了。其中一位工程師靈機(jī)一閃,「不如讓Claude來個實(shí)戰(zhàn)演習(xí),自主打開DoorDash幫我們訂餐」。

      沒想到,大約一分鐘后,Claude為工程師們定來了披薩。

      展望未來

      AI操作電腦能力代表了一種全新的人工智能開發(fā)方法。

      迄今為止,LLM開發(fā)者一直在努力使工具適應(yīng)模型,創(chuàng)造特殊的環(huán)境,讓AI使用專門設(shè)計(jì)的工具來完成各種任務(wù)。

      現(xiàn)在,Anthropic「反其道而行之」——他們選擇讓模型去適應(yīng)工具。也就是,Claude能像人類一樣,融入我們?nèi)粘J褂玫挠?jì)算機(jī)環(huán)境,直接使用現(xiàn)有的軟件。

      雖然Claude已經(jīng)達(dá)到了當(dāng)前的最高水平,但它的操作仍然相對緩慢且容易出錯。我們?nèi)粘J褂秒娔X時的許多操作,如拖拽、縮放等,Claude都還無法做到。

      此外,Claude目前觀察屏幕的方式類似于快速翻閱一本「畫冊」——通過連續(xù)截圖并拼接在一起,而不是觀察連續(xù)的視頻流。這意味著它可能會錯過一些短暫的動作或通知。

      有趣的是,Anthropic在錄制Demo時,還遇到了一些有趣的小插曲。

      比如,在一次演示中,Claude不小心點(diǎn)擊停止了一個長時間運(yùn)行的屏幕錄制,導(dǎo)致所有錄像都付諸東流。

      而在另一次編碼演示中,Claude則突然「走神」,開始饒有興趣地瀏覽起黃石國家公園的照片。

      總之,Claude如今的表現(xiàn)讓人對未來充滿期待:AI操作電腦的能力將神速進(jìn)步,那一天,軟件開發(fā)小白都能輕松使用它。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。