• 加強版Claude3.5正式上線,一句話操控電腦的時代真的要來了

    2024年10月23日 09:49:14   來源:數(shù)字生命卡茲克公眾號

      夜里十一點,大洋彼岸早上8點整。

      Claude帶著大貨閃亮登場了。

      升級版的Claude3.5Sonnet,新模型Claude3.5Haiku,還有全新的新功能:computer use,翻譯過來后,我把他稱為,“計算機操控”。

      一個一個來說。

      首先新模型升級版Claude3.5Sonnet。

      Claude的模型一直分為三個尺寸,分別是Opus、Sonnet、Haiku。從大到小。

      3月的時候,Claude正式推出Claude3代的全系模型,從Opus到Haiku都有。

      然后6月的時候推出了Claude3.5Sonnet,只推了這一個,沒有3.5Opus和Haiku,參見這篇文章:我體驗完剛發(fā)布的Claude3.5,發(fā)現(xiàn)最強的是這個新功能。

      那時候Claude3.5Sonnet的能力就吊打了舊的最大參數(shù)的模型。

      而今天,推送的是升級版的Claude3.5Sonnet,還有新的Claude3.5Haiku。

      有趣的是,Claude3.5Haiku還是后訓(xùn)的,知識截止時間是7月,而升級版Claude3.5Sonnet知識時間并沒有變,也就是加了更多的強化學(xué)習(xí)的合成數(shù)據(jù)以及“計算機控制”的訓(xùn)練。

      而Claude3.5Sonnet的整體性能上,基本傲視群雄。

      不管是推理、還是本科的知識、還是編程能力啥的,都是No.1,而且Claude的跑分不像很多模型那種刷榜,他的跑分是真的可信的。

      我相信6月Claude3.5Sonnet上線后,直接一波科技躍遷,帶著cursor之類的A編程一波升天,就不會有任何人會懷疑Claude的代碼能力了吧。

      最特別的評測基準(zhǔn)其實是那個第七行的SWE-bench Verified,大概就是測試寫代碼解決問題的真實能力,這個評測基準(zhǔn)是8月份OpenAI提的,然后這波Claude3.5直接把這個基準(zhǔn)加在自己的跑分里。

      GPT4o在這項的跑分是33.2%,o1不知道。

      但是按Claude的話說,o1是個什么臟東西,不認(rèn)識。

      而新版的Claude3.5Sonnet,目前也在Claude官網(wǎng)上上線了。

      可以看到有了new的標(biāo)簽。

      我直接發(fā)了最簡單的一句話:給我生成一個非常精美的俄羅斯方塊游戲。

      然后,升級版Claude3.5Sonnet,就開始嘟嘟嘟的生成。

      直接一次性生成了280行代碼,而且這個游戲,是真的可以直接玩的。。

      也可以直接讓它生成一個隨時可調(diào)可互動的動效模擬器,徹底改變學(xué)習(xí)方式。

      就,非常的酷。

      其次是Claude3.5Haiku。

      這個其實就沒太多可說的了,常規(guī)升級,但是是目前最快、性價比最高的模型。

      在跟Claude3Haiku的相同成本和速度下,直接擊敗了參數(shù)量最大的Claude3Opus。

      在編碼任務(wù)上,居然能直接打敗沒升級前的Claude3.5Sonnet,這個是最離譜的。

      只能說,Anthropic的強化學(xué)習(xí)范式走的還是太超前了,合成數(shù)據(jù)的質(zhì)量實在是太高太高了。

      那最后,也是最重磅的一點,Claude的“computer use”,也就是新功能,計算機控制。

      這個點就非常的科幻,能夠?qū)崟r分析用戶計算機屏幕上的活動,并自主執(zhí)行在線任務(wù),比如瀏覽、點擊和輸入。

      我直接放一個官方case吧。

      Anthropic是這么描述這個“計算機控制”的功能的:“Claude3.5Sonnet可以按照用戶的命令在計算機屏幕上移動光標(biāo),點擊相關(guān)位置,并通過虛擬鍵盤輸入信息,模擬人們與自己計算機的互動方式。”

      這,就是一個能理解用戶意圖,并幫他自主實現(xiàn)的真正的Agent。

      以前的Agent,說實話,看上去更像一個RPA,就是根據(jù)預(yù)設(shè)好的工作流,一步一步的執(zhí)行下去,但是真正的Agent應(yīng)該是什么樣?

      在我看來,他就應(yīng)該跟人一樣,能理解你的復(fù)雜語義,把這個復(fù)雜語義具象成可執(zhí)行的步驟,就像我說現(xiàn)在“凌晨3點半了我太困了,但是文章還沒有寫完,你幫我看看附近有沒有咖啡買,有的話幫我買一杯,沒有的話就算了。”

      如果是個人,那肯定是會打開美團外賣或者餓了么,看看附近有沒有咖啡店開著,如果有開著的,看看我最喜歡喝的冰美式有沒有的,沒有冰美式的話問我一句要換什么口味?然后下單,等待送達(dá)。

      如果3點半附近都關(guān)門了,那也應(yīng)該告訴我,附近沒賣的了,哥們你自己撐一撐吧,一會就能睡了。

      這才是AI,這才是我們身邊,能進(jìn)入到普通人生活中的,最酷的AI助手。

      而這種AI助手,它勢必,需要學(xué)會操作手機或者電腦。

      我們不止要讓AI學(xué)會寫文章,學(xué)會畫圖,也要讓他學(xué)會操作。

      這樣,才能有很強的,自主探索、解決問題的泛化能力。

      而升級版Claude3.5,只是在一些簡單軟件上進(jìn)行了訓(xùn)練,就有了操作一些不復(fù)雜軟件的能力,甚至還會自我糾錯,不斷重試,這又何嘗不是一種強化學(xué)習(xí)、自我博弈呢?

      Anthropic,真的吧Self-Play玩出花了。

      目前,在測試開發(fā)者讓模型使用計算機的一個基準(zhǔn)評估(OSWorld)中,Claude 目前得分為14.9%。

      而人類水平通常為70-75%,雖然差距很大,還有一些路要走,但已經(jīng)遠(yuǎn)高于目前其他最好AI模型的7.7%這個分?jǐn)?shù)了。

      不過現(xiàn)在這個功能普通用戶還用不到,只對開發(fā)者進(jìn)行開放,有API接入,Anthropic的本意是還在前期測試階段,怕有危險,所以讓開發(fā)先幫忙測試一下。

      我們也花了N久時間,把API接入進(jìn)來,做了一些簡單的測試。

      先裝了一個類似于模擬系統(tǒng)的東西,一切行為都會在這個模擬系統(tǒng)里運行,Anthropic還是怕對你的系統(tǒng)會有一個不可逆轉(zhuǎn)的損害影響。

      我測了很多個case,但是說實話,一是速度實在太磨嘰了...二是成功率,確實還有點低下。

      比如這個案例:“打開淘寶網(wǎng)站頁面,找到小米手機官方旗艦店,找一個2000左右的手機,加到購物車。”

      其實不算難,說實話。

      但是Claude翻車了,翻車的點也很搞笑,是在輸入店名上,人明明叫小米官方旗艦店,它非要寫“方店”,后面又試了一次,這次連兩個字都不寫了,直接寫了一個字“艦”,這能搜到才有鬼了...

      而且,這個視頻我已經(jīng)兩倍速了,你們可以感受一下它有多慢。。

      不過,讓他玩2048,它玩的倒是非常的開心。這一次,是三倍速。

      玩的還挺好,我感覺在這放著,他一個人能玩到天荒地老。

      這倒也是挺有趣的。

      當(dāng)然,也能做一些很實際的事情,比如給我的瀏覽器裝一個可以屏蔽廣告的插件。

      他居然把插件地址背下來了,直接輸入,給我搜索+安裝一步到位。

      起飛。

      雖然總體任務(wù)的成功率還比較一般,但是還好,畢竟Claude自己也說了,成功率沒那么高。

      而且,這只是第一代。

      他們堅信,使模型適應(yīng)工具,這是必然,而模型也可以融入我們每天使用的環(huán)境里,成為我們生活的方方面面。

      他們的目標(biāo)是讓Claude使用現(xiàn)有的計算機軟件,就像人一樣。

      就像人一樣。

      真好。

      希望這個愿景,能在不遠(yuǎn)的未來達(dá)成。

      我真的,很想擁有一個自己的。

      賈維斯。

      以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標(biāo)⭐~謝謝你看我的文章,我們,下次再見。

      >/ 作者:卡茲克、東毅

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    唯品會雙11銷量前十品牌中有7個國貨品牌

    11月11日,據(jù)網(wǎng)經(jīng)社數(shù)字零售臺(DR.100EC.CN)數(shù)據(jù)顯示,秋冬服飾仍是雙11的C位,女士針織衫、女士外套、女士羽絨服等位居服飾消費前列,女士夾克銷量同比增長72%,女士棉衣、女士羊毛衫銷量同比增長50%以上。男士外套銷量同比增長30%以上。

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。