夜里十一點,大洋彼岸早上8點整。
Claude帶著大貨閃亮登場了。
升級版的Claude3.5Sonnet,新模型Claude3.5Haiku,還有全新的新功能:computer use,翻譯過來后,我把他稱為,“計算機操控”。
一個一個來說。
首先新模型升級版Claude3.5Sonnet。
Claude的模型一直分為三個尺寸,分別是Opus、Sonnet、Haiku。從大到小。
3月的時候,Claude正式推出Claude3代的全系模型,從Opus到Haiku都有。
然后6月的時候推出了Claude3.5Sonnet,只推了這一個,沒有3.5Opus和Haiku,參見這篇文章:我體驗完剛發(fā)布的Claude3.5,發(fā)現(xiàn)最強的是這個新功能。
那時候Claude3.5Sonnet的能力就吊打了舊的最大參數(shù)的模型。
而今天,推送的是升級版的Claude3.5Sonnet,還有新的Claude3.5Haiku。
有趣的是,Claude3.5Haiku還是后訓(xùn)的,知識截止時間是7月,而升級版Claude3.5Sonnet知識時間并沒有變,也就是加了更多的強化學(xué)習(xí)的合成數(shù)據(jù)以及“計算機控制”的訓(xùn)練。
而Claude3.5Sonnet的整體性能上,基本傲視群雄。
不管是推理、還是本科的知識、還是編程能力啥的,都是No.1,而且Claude的跑分不像很多模型那種刷榜,他的跑分是真的可信的。
我相信6月Claude3.5Sonnet上線后,直接一波科技躍遷,帶著cursor之類的A編程一波升天,就不會有任何人會懷疑Claude的代碼能力了吧。
最特別的評測基準(zhǔn)其實是那個第七行的SWE-bench Verified,大概就是測試寫代碼解決問題的真實能力,這個評測基準(zhǔn)是8月份OpenAI提的,然后這波Claude3.5直接把這個基準(zhǔn)加在自己的跑分里。
GPT4o在這項的跑分是33.2%,o1不知道。
但是按Claude的話說,o1是個什么臟東西,不認(rèn)識。
而新版的Claude3.5Sonnet,目前也在Claude官網(wǎng)上上線了。
可以看到有了new的標(biāo)簽。
我直接發(fā)了最簡單的一句話:給我生成一個非常精美的俄羅斯方塊游戲。
然后,升級版Claude3.5Sonnet,就開始嘟嘟嘟的生成。
直接一次性生成了280行代碼,而且這個游戲,是真的可以直接玩的。。
也可以直接讓它生成一個隨時可調(diào)可互動的動效模擬器,徹底改變學(xué)習(xí)方式。
就,非常的酷。
其次是Claude3.5Haiku。
這個其實就沒太多可說的了,常規(guī)升級,但是是目前最快、性價比最高的模型。
在跟Claude3Haiku的相同成本和速度下,直接擊敗了參數(shù)量最大的Claude3Opus。
在編碼任務(wù)上,居然能直接打敗沒升級前的Claude3.5Sonnet,這個是最離譜的。
只能說,Anthropic的強化學(xué)習(xí)范式走的還是太超前了,合成數(shù)據(jù)的質(zhì)量實在是太高太高了。
那最后,也是最重磅的一點,Claude的“computer use”,也就是新功能,計算機控制。
這個點就非常的科幻,能夠?qū)崟r分析用戶計算機屏幕上的活動,并自主執(zhí)行在線任務(wù),比如瀏覽、點擊和輸入。
我直接放一個官方case吧。
Anthropic是這么描述這個“計算機控制”的功能的:“Claude3.5Sonnet可以按照用戶的命令在計算機屏幕上移動光標(biāo),點擊相關(guān)位置,并通過虛擬鍵盤輸入信息,模擬人們與自己計算機的互動方式。”
這,就是一個能理解用戶意圖,并幫他自主實現(xiàn)的真正的Agent。
以前的Agent,說實話,看上去更像一個RPA,就是根據(jù)預(yù)設(shè)好的工作流,一步一步的執(zhí)行下去,但是真正的Agent應(yīng)該是什么樣?
在我看來,他就應(yīng)該跟人一樣,能理解你的復(fù)雜語義,把這個復(fù)雜語義具象成可執(zhí)行的步驟,就像我說現(xiàn)在“凌晨3點半了我太困了,但是文章還沒有寫完,你幫我看看附近有沒有咖啡買,有的話幫我買一杯,沒有的話就算了。”
如果是個人,那肯定是會打開美團外賣或者餓了么,看看附近有沒有咖啡店開著,如果有開著的,看看我最喜歡喝的冰美式有沒有的,沒有冰美式的話問我一句要換什么口味?然后下單,等待送達(dá)。
如果3點半附近都關(guān)門了,那也應(yīng)該告訴我,附近沒賣的了,哥們你自己撐一撐吧,一會就能睡了。
這才是AI,這才是我們身邊,能進(jìn)入到普通人生活中的,最酷的AI助手。
而這種AI助手,它勢必,需要學(xué)會操作手機或者電腦。
我們不止要讓AI學(xué)會寫文章,學(xué)會畫圖,也要讓他學(xué)會操作。
這樣,才能有很強的,自主探索、解決問題的泛化能力。
而升級版Claude3.5,只是在一些簡單軟件上進(jìn)行了訓(xùn)練,就有了操作一些不復(fù)雜軟件的能力,甚至還會自我糾錯,不斷重試,這又何嘗不是一種強化學(xué)習(xí)、自我博弈呢?
Anthropic,真的吧Self-Play玩出花了。
目前,在測試開發(fā)者讓模型使用計算機的一個基準(zhǔn)評估(OSWorld)中,Claude 目前得分為14.9%。
而人類水平通常為70-75%,雖然差距很大,還有一些路要走,但已經(jīng)遠(yuǎn)高于目前其他最好AI模型的7.7%這個分?jǐn)?shù)了。
不過現(xiàn)在這個功能普通用戶還用不到,只對開發(fā)者進(jìn)行開放,有API接入,Anthropic的本意是還在前期測試階段,怕有危險,所以讓開發(fā)先幫忙測試一下。
我們也花了N久時間,把API接入進(jìn)來,做了一些簡單的測試。
先裝了一個類似于模擬系統(tǒng)的東西,一切行為都會在這個模擬系統(tǒng)里運行,Anthropic還是怕對你的系統(tǒng)會有一個不可逆轉(zhuǎn)的損害影響。
我測了很多個case,但是說實話,一是速度實在太磨嘰了...二是成功率,確實還有點低下。
比如這個案例:“打開淘寶網(wǎng)站頁面,找到小米手機官方旗艦店,找一個2000左右的手機,加到購物車。”
其實不算難,說實話。
但是Claude翻車了,翻車的點也很搞笑,是在輸入店名上,人明明叫小米官方旗艦店,它非要寫“方店”,后面又試了一次,這次連兩個字都不寫了,直接寫了一個字“艦”,這能搜到才有鬼了...
而且,這個視頻我已經(jīng)兩倍速了,你們可以感受一下它有多慢。。
不過,讓他玩2048,它玩的倒是非常的開心。這一次,是三倍速。
玩的還挺好,我感覺在這放著,他一個人能玩到天荒地老。
這倒也是挺有趣的。
當(dāng)然,也能做一些很實際的事情,比如給我的瀏覽器裝一個可以屏蔽廣告的插件。
他居然把插件地址背下來了,直接輸入,給我搜索+安裝一步到位。
起飛。
雖然總體任務(wù)的成功率還比較一般,但是還好,畢竟Claude自己也說了,成功率沒那么高。
而且,這只是第一代。
他們堅信,使模型適應(yīng)工具,這是必然,而模型也可以融入我們每天使用的環(huán)境里,成為我們生活的方方面面。
他們的目標(biāo)是讓Claude使用現(xiàn)有的計算機軟件,就像人一樣。
就像人一樣。
真好。
希望這個愿景,能在不遠(yuǎn)的未來達(dá)成。
我真的,很想擁有一個自己的。
賈維斯。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標(biāo)⭐~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克、東毅
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
11月11日,據(jù)網(wǎng)經(jīng)社數(shù)字零售臺(DR.100EC.CN)數(shù)據(jù)顯示,秋冬服飾仍是雙11的C位,女士針織衫、女士外套、女士羽絨服等位居服飾消費前列,女士夾克銷量同比增長72%,女士棉衣、女士羊毛衫銷量同比增長50%以上。男士外套銷量同比增長30%以上。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。