加強版Claude3.5正式上線，一句話操控電腦的時代真的要來了

2024年10月23日 09:49:14 來源：數(shù)字生命卡茲克公眾號

　　夜里十一點，大洋彼岸早上8點整。

　　Claude帶著大貨閃亮登場了。

　　升級版的Claude3.5Sonnet，新模型Claude3.5Haiku，還有全新的新功能:computer use，翻譯過來后，我把他稱為，“計算機操控”。

　　一個一個來說。

　　首先新模型升級版Claude3.5Sonnet。

　　Claude的模型一直分為三個尺寸，分別是Opus、Sonnet、Haiku。從大到小。

　　3月的時候，Claude正式推出Claude3代的全系模型，從Opus到Haiku都有。

　　然后6月的時候推出了Claude3.5Sonnet，只推了這一個，沒有3.5Opus和Haiku，參見這篇文章:我體驗完剛發(fā)布的Claude3.5，發(fā)現(xiàn)最強的是這個新功能。

　　那時候Claude3.5Sonnet的能力就吊打了舊的最大參數(shù)的模型。

　　而今天，推送的是升級版的Claude3.5Sonnet，還有新的Claude3.5Haiku。

　　有趣的是，Claude3.5Haiku還是后訓(xùn)的，知識截止時間是7月，而升級版Claude3.5Sonnet知識時間并沒有變，也就是加了更多的強化學(xué)習(xí)的合成數(shù)據(jù)以及“計算機控制”的訓(xùn)練。

　　而Claude3.5Sonnet的整體性能上，基本傲視群雄。

　　不管是推理、還是本科的知識、還是編程能力啥的，都是No.1，而且Claude的跑分不像很多模型那種刷榜，他的跑分是真的可信的。

　　我相信6月Claude3.5Sonnet上線后，直接一波科技躍遷，帶著cursor之類的A編程一波升天，就不會有任何人會懷疑Claude的代碼能力了吧。

　　最特別的評測基準(zhǔn)其實是那個第七行的SWE-bench Verified，大概就是測試寫代碼解決問題的真實能力，這個評測基準(zhǔn)是8月份OpenAI提的，然后這波Claude3.5直接把這個基準(zhǔn)加在自己的跑分里。

　　GPT4o在這項的跑分是33.2%，o1不知道。

　　但是按Claude的話說，o1是個什么臟東西，不認識。

　　而新版的Claude3.5Sonnet，目前也在Claude官網(wǎng)上上線了。

　　可以看到有了new的標(biāo)簽。

　　我直接發(fā)了最簡單的一句話:給我生成一個非常精美的俄羅斯方塊游戲。

　　然后，升級版Claude3.5Sonnet，就開始嘟嘟嘟的生成。

　　直接一次性生成了280行代碼，而且這個游戲，是真的可以直接玩的。。

　　也可以直接讓它生成一個隨時可調(diào)可互動的動效模擬器，徹底改變學(xué)習(xí)方式。

　　就，非常的酷。

　　其次是Claude3.5Haiku。

　　這個其實就沒太多可說的了，常規(guī)升級，但是是目前最快、性價比最高的模型。

　　在跟Claude3Haiku的相同成本和速度下，直接擊敗了參數(shù)量最大的Claude3Opus。

　　在編碼任務(wù)上，居然能直接打敗沒升級前的Claude3.5Sonnet，這個是最離譜的。

　　只能說，Anthropic的強化學(xué)習(xí)范式走的還是太超前了，合成數(shù)據(jù)的質(zhì)量實在是太高太高了。

　　那最后，也是最重磅的一點，Claude的“computer use”，也就是新功能，計算機控制。

　　這個點就非常的科幻，能夠?qū)崟r分析用戶計算機屏幕上的活動，并自主執(zhí)行在線任務(wù)，比如瀏覽、點擊和輸入。

　　我直接放一個官方case吧。

　　Anthropic是這么描述這個“計算機控制”的功能的:“Claude3.5Sonnet可以按照用戶的命令在計算機屏幕上移動光標(biāo)，點擊相關(guān)位置，并通過虛擬鍵盤輸入信息，模擬人們與自己計算機的互動方式。”

　　這，就是一個能理解用戶意圖，并幫他自主實現(xiàn)的真正的Agent。

　　以前的Agent，說實話，看上去更像一個RPA，就是根據(jù)預(yù)設(shè)好的工作流，一步一步的執(zhí)行下去，但是真正的Agent應(yīng)該是什么樣?

　　在我看來，他就應(yīng)該跟人一樣，能理解你的復(fù)雜語義，把這個復(fù)雜語義具象成可執(zhí)行的步驟，就像我說現(xiàn)在“凌晨3點半了我太困了，但是文章還沒有寫完，你幫我看看附近有沒有咖啡買，有的話幫我買一杯，沒有的話就算了。”

　　如果是個人，那肯定是會打開美團外賣或者餓了么，看看附近有沒有咖啡店開著，如果有開著的，看看我最喜歡喝的冰美式有沒有的，沒有冰美式的話問我一句要換什么口味?然后下單，等待送達。

　　如果3點半附近都關(guān)門了，那也應(yīng)該告訴我，附近沒賣的了，哥們你自己撐一撐吧，一會就能睡了。

　　這才是AI，這才是我們身邊，能進入到普通人生活中的，最酷的AI助手。

　　而這種AI助手，它勢必，需要學(xué)會操作手機或者電腦。

　　我們不止要讓AI學(xué)會寫文章，學(xué)會畫圖，也要讓他學(xué)會操作。

　　這樣，才能有很強的，自主探索、解決問題的泛化能力。

　　而升級版Claude3.5，只是在一些簡單軟件上進行了訓(xùn)練，就有了操作一些不復(fù)雜軟件的能力，甚至還會自我糾錯，不斷重試，這又何嘗不是一種強化學(xué)習(xí)、自我博弈呢?

　　Anthropic，真的吧Self-Play玩出花了。

　　目前，在測試開發(fā)者讓模型使用計算機的一個基準(zhǔn)評估(OSWorld)中，Claude 目前得分為14.9%。

　　而人類水平通常為70-75%，雖然差距很大，還有一些路要走，但已經(jīng)遠高于目前其他最好AI模型的7.7%這個分數(shù)了。

　　不過現(xiàn)在這個功能普通用戶還用不到，只對開發(fā)者進行開放，有API接入，Anthropic的本意是還在前期測試階段，怕有危險，所以讓開發(fā)先幫忙測試一下。

　　我們也花了N久時間，把API接入進來，做了一些簡單的測試。

　　先裝了一個類似于模擬系統(tǒng)的東西，一切行為都會在這個模擬系統(tǒng)里運行，Anthropic還是怕對你的系統(tǒng)會有一個不可逆轉(zhuǎn)的損害影響。

　　我測了很多個case，但是說實話，一是速度實在太磨嘰了...二是成功率，確實還有點低下。

　　比如這個案例:“打開淘寶網(wǎng)站頁面，找到小米手機官方旗艦店，找一個2000左右的手機，加到購物車。”

　　其實不算難，說實話。

　　但是Claude翻車了，翻車的點也很搞笑，是在輸入店名上，人明明叫小米官方旗艦店，它非要寫“方店”，后面又試了一次，這次連兩個字都不寫了，直接寫了一個字“艦”，這能搜到才有鬼了...

　　而且，這個視頻我已經(jīng)兩倍速了，你們可以感受一下它有多慢。。

　　不過，讓他玩2048，它玩的倒是非常的開心。這一次，是三倍速。

　　玩的還挺好，我感覺在這放著，他一個人能玩到天荒地老。

　　這倒也是挺有趣的。

　　當(dāng)然，也能做一些很實際的事情，比如給我的瀏覽器裝一個可以屏蔽廣告的插件。

　　他居然把插件地址背下來了，直接輸入，給我搜索+安裝一步到位。

　　起飛。

　　雖然總體任務(wù)的成功率還比較一般，但是還好，畢竟Claude自己也說了，成功率沒那么高。

　　而且，這只是第一代。

　　他們堅信，使模型適應(yīng)工具，這是必然，而模型也可以融入我們每天使用的環(huán)境里，成為我們生活的方方面面。

　　他們的目標(biāo)是讓Claude使用現(xiàn)有的計算機軟件，就像人一樣。

　　就像人一樣。

　　真好。

　　希望這個愿景，能在不遠的未來達成。

　　我真的，很想擁有一個自己的。

　　賈維斯。

　　以上，既然看到這里了，如果覺得不錯，隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧，如果想第一時間收到推送，也可以給我個星標(biāo)⭐～謝謝你看我的文章，我們，下次再見。

　　>/ 作者:卡茲克、東毅

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

游戲體驗天花板一加Ace 5系列正式定檔12月26日

“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅持質(zhì)價比不動

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

加強版Claude3.5正式上線，一句話操控電腦的時代真的要來了

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

3C消費

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實力，創(chuàng)

研究

中國信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

專題

加強版Claude3.5正式上線，一句話操控電腦的時代真的要來了

擴展閱讀

加強版Claude3.5正式上線，一句話操控電腦的時代真的要來了