Claude 3.5兩小時(shí)暴虐50多名專家，編程10倍速飆升！但8小時(shí)曝出驚人短板

2024年11月25日 10:24:15 來源：新智元公眾號(hào)

　　AI自主研發(fā)會(huì)真的「失控」了嗎?最新研究顯示，Claude3.5Sonnet和o1-preview在2小時(shí)內(nèi)的研發(fā)任務(wù)中，擊敗了50多位人類專家。但另一個(gè)耐人尋味的現(xiàn)象是，給予更長時(shí)間周期后，人類專家在8小時(shí)任務(wù)中優(yōu)勢顯現(xiàn)。

　　AI智能體離自主研發(fā)，還有多遠(yuǎn)?

　　Nature期刊的一篇研究曾證明了，GPT-4能自主設(shè)計(jì)并開展化學(xué)實(shí)驗(yàn)，還能閱讀文檔學(xué)習(xí)如何使用實(shí)驗(yàn)室設(shè)備。

　　另有Transformer作者之一研發(fā)的「世界首個(gè)AI科學(xué)家」，一口氣肝出10篇論文，完全不用人類插手。

　　如今，AI在研發(fā)領(lǐng)域的入侵速度，遠(yuǎn)超人類預(yù)期。

　　來自非營利組織METR的最新研究稱:

　　同時(shí)給定2個(gè)小時(shí)，Claude3.5Sonnet和o1-preview在7項(xiàng)具有挑戰(zhàn)性研究工程中，擊敗了50多名人類專家。

　　令人印象深刻的是，AI編程速度能以超越人類10倍速度生成并測試各種方案。

　　在一個(gè)需要編寫自定義內(nèi)核以優(yōu)化前綴和運(yùn)算的任務(wù)中，o1-preview不僅完成了任務(wù)，還創(chuàng)造了驚人的成績:將運(yùn)行時(shí)間壓縮到0.64毫秒，甚至超越了最優(yōu)秀的人類專家解決方案(0.67毫秒)。

　　不過，當(dāng)比賽時(shí)間延長至8小時(shí)，人類卻展現(xiàn)出了明顯的優(yōu)勢。

　　由下可以看出，隨著時(shí)間逐漸拉長，Claude3.5Sonnet和o1-preview的性能提升逐漸趨于平緩。

　　有趣的是，為了獲得更高的分?jǐn)?shù)，AI智能體居然會(huì)違反規(guī)則「作弊」。

　　原本針對(duì)一個(gè)任務(wù)，智能體應(yīng)該減少訓(xùn)練腳本運(yùn)行時(shí)間，o1-preview直接復(fù)制了輸出的代碼。

　　頂級(jí)預(yù)測者看到這一結(jié)果驚嘆道，基于這個(gè)進(jìn)步速度，AI達(dá)到高水平人類能力的時(shí)間可能會(huì)比之前預(yù)計(jì)的更短。

　　RE-Bench設(shè)計(jì)架構(gòu)，遍歷七大任務(wù)

　　為了能夠快速迭代，并以合理的成本收集數(shù)據(jù)，研究人員設(shè)定了運(yùn)行限制:人類專家的評(píng)估不超過8小時(shí)，且所有環(huán)境都只能使用8個(gè)或更少的***GPU運(yùn)行。

　　在環(huán)境設(shè)計(jì)時(shí)，主要考慮最大化覆蓋前沿AI難題，同時(shí)確保人類專家與智能體能夠持續(xù)推進(jìn)任務(wù)，不會(huì)遇到研究瓶頸或得分上限。

　　RE-Bench包含了七個(gè)精心設(shè)計(jì)的評(píng)估環(huán)境，其中每個(gè)環(huán)境都提出了一個(gè)獨(dú)特的機(jī)器學(xué)習(xí)優(yōu)化問題，要取得高分需要大量的實(shí)驗(yàn)、實(shí)現(xiàn)和高效使用計(jì)算資源。

　　每個(gè)評(píng)估環(huán)境包括三部分:

　　1、評(píng)分函數(shù)(scoring function)，定義了環(huán)境的目標(biāo)，智能體可以隨時(shí)運(yùn)行該函數(shù)。每次運(yùn)行評(píng)分函數(shù)時(shí)，都會(huì)在得分日志中添加一個(gè)帶時(shí)間戳的事項(xiàng)。智能體可以看到得分日志，并檢查評(píng)分函數(shù)的細(xì)節(jié)，有助于理解研究目標(biāo)。

　　2、簡單但性能不佳的初始解決方案(starting solution)，提供給智能體，以展示有效的解決方案是什么樣子，有助于說明環(huán)境設(shè)置，可以讓智能體更快地開始研究問題中更具挑戰(zhàn)性的部分。比如說，在「優(yōu)化核函數(shù)」環(huán)境中，智能體的輸入為一個(gè)簡單但運(yùn)行緩慢的Python解決方案。

　　3、由任務(wù)作者創(chuàng)建的參考解決方案(reference solution)，得分很高。但該解決方案不會(huì)提供給智能體，只用于歸一化得分(normalize score)，作為一個(gè)優(yōu)秀解決方案的示例。下式中ys為初始方案得分，yr為參考方案得分，y為模型得分，yn為歸一化分?jǐn)?shù)。

　　除了「Scaling Law Experiment」采用最終分?jǐn)?shù)進(jìn)行評(píng)估外，其他實(shí)驗(yàn)都使用得分日志中的最高分。

　　8小時(shí)極限，人類專家吊打AI

　　研究人員使用開源的Vivaria平臺(tái)來設(shè)置安全的虛擬機(jī)，配備20-48個(gè)虛擬CPU、200-400GB的RAM，以及0到6個(gè)***GPU，對(duì)比模型選擇了claude-3-5-sonnet-20241022以及o1-preview，框架選擇為METR和AIDE

　　時(shí)間限制下的性能

　　在相同時(shí)間下，可以看到，o1-preview和Claude3.5Sonnet在最初階段進(jìn)展迅速，但在幾個(gè)小時(shí)后速度減慢;而人類專家起步較慢，但隨后迅速取得進(jìn)展。

　　采樣限制下的性能

　　除了長時(shí)間運(yùn)行外，研究人員還評(píng)估了模型是否能在更短的時(shí)間限制下取得更好的性能:對(duì)每個(gè)環(huán)境進(jìn)行k次采樣，并選擇所有k次運(yùn)行中取得的最高分?jǐn)?shù)。

　　結(jié)果發(fā)現(xiàn)，模塊化框架中的智能體在30分鐘嘗試中表現(xiàn)得更好，而AIDE框架中的智能體則在2小時(shí)嘗試中表現(xiàn)最佳。

　　還可以發(fā)現(xiàn)，在AIDE框架中的o1-preview和在模塊化框架中的Claude3.5Sonnet總體上取得了最高的分?jǐn)?shù)，分別達(dá)到了人類專家的第36和第37百分位。

　　隨著樣本數(shù)量的增加，最佳-k次分?jǐn)?shù)(score@k)也會(huì)發(fā)生變化:Claude3.5Sonnet在30分鐘時(shí)，樣本數(shù)量增加，性能也穩(wěn)步提高，但即使在k=128個(gè)樣本下，智能體的表現(xiàn)也遠(yuǎn)遠(yuǎn)落后于頂尖人類的表現(xiàn)。

　　總體而言，人類起步較慢，但改進(jìn)軌跡更陡峭，即進(jìn)步更快，并且在32小時(shí)的時(shí)間預(yù)算內(nèi)達(dá)到了比任何智能體都更高的分?jǐn)?shù)。

　　按環(huán)境評(píng)估

　　研究人員對(duì)比了兩個(gè)智能體(模塊化框架中的Claude3.5Sonnet和AIDE框架中的o1-preview)在32小時(shí)內(nèi)的最高性能分配與人類結(jié)果(四次8小時(shí)運(yùn)行中的最佳表現(xiàn))以匹配智能體的時(shí)間預(yù)算。

　　結(jié)果發(fā)現(xiàn)不同智能體在不同環(huán)境中的表現(xiàn)存在顯著差異:Claude3.5Sonnet智能體在「微調(diào)GPT-2進(jìn)行問答」和「擴(kuò)展法則實(shí)驗(yàn)」環(huán)境中接近人類的表現(xiàn)，而o1-preview在這些環(huán)境中表現(xiàn)不佳;o1-preview在「優(yōu)化核函數(shù)」環(huán)境中的表現(xiàn)超過了人類。

　　人類-AI差距之間定性分析

　　為了更好地了解人類專家在哪些條件下，比AI智能體做得更好或更差的原因，研究人員對(duì)智能體成績和解決方案進(jìn)行了定性分析。

　　AI智能體:知識(shí)儲(chǔ)備大，嘗試頻率37次/h

　　雖然AI智能體通常無法找到與頂級(jí)人類專家相匹配的解決方案，但它們也取得了一些顯著的成功。

　　比如，在AIDE加持下，Claude3.5Sonnet(新版)和o1-preview都能找到「優(yōu)化內(nèi)核」的解決方案，運(yùn)行速度約為參考解決方案的2倍。

　　如下圖所示，其中，o1-preview的解決方案甚至超過了9位人類專家。

　　這些都是復(fù)雜且新穎的算法，能有效繞過GPU通信限制，并使用一種缺少良好公開文檔的低資源編程語言(Triton)。

　　這個(gè)令人驚訝的結(jié)果可能部分歸因于，AI智能體和許多人類專家之間的專業(yè)知識(shí)差距，因?yàn)榇蠖鄶?shù)人類專家并不具備編程GPU內(nèi)核的專門知識(shí)。

　　這種情況在多個(gè)環(huán)境中都有體現(xiàn):一些不太熟悉該領(lǐng)域的人類專家需要花費(fèi)大量時(shí)間學(xué)習(xí)或復(fù)現(xiàn)標(biāo)準(zhǔn)方法(有時(shí)甚至完全失敗)，而AI智能體憑借其廣泛的知識(shí)基礎(chǔ)往往能輕松完成。

　　AI智能體成功的另一個(gè)關(guān)鍵因素可能是，它們能比人類專家嘗試更多的解決方案。

　　平均而言，AIDE和模塊化智能體每小時(shí)分別運(yùn)行36.8次和25.3次，而人類專家僅為3.4次。

　　這通常導(dǎo)致智能體找到高度優(yōu)化的「局部最優(yōu)」解決方案，僅通過調(diào)整初始解決方案的參數(shù)和代碼，就能實(shí)現(xiàn)顯著的改進(jìn)。

　　例如，許多智能體在解決「優(yōu)化內(nèi)核」環(huán)境時(shí)，并非通過編寫成功的Triton解決方案(這很困難)，而是通過仔細(xì)調(diào)整初始的Pytorch解決方案，使其運(yùn)行速度顯著提高。

　　也就是說，它們能夠有效優(yōu)化現(xiàn)有解決方案。

　　如下，是「微調(diào)GPT-2用于問答」最佳智能體解決方案中，Claude3.5Sonnet調(diào)整了初始解決方案的參數(shù)，并在訓(xùn)練軌跡和評(píng)估中獲得了準(zhǔn)確結(jié)果。

　　不過，這一高分有可能是對(duì)噪聲過度擬合的結(jié)果。

　　總而言之，AI智能體的成功在于能夠進(jìn)行大量參數(shù)微調(diào)和代碼優(yōu)化，偶爾還會(huì)提出創(chuàng)造性有效的解決方案，尤其是在評(píng)估成本低的環(huán)境在非常有效。

　　失敗因素

　　但在大多數(shù)環(huán)境中，智能體仍然沒有達(dá)到強(qiáng)大的人類專家的水平。

　　造成這種情況的原因之一是，AI智能體提出的解決方案缺乏多樣性。

　　例如，在「受限架構(gòu)MLM」任務(wù)中，智能體在84%的情況下，都在嘗試使用稍作修改的Transformer架構(gòu)。即使在不能使用除法和指數(shù)運(yùn)算的情況下，仍固守這種方案。

　　另一個(gè)局限性是，持續(xù)性的指令理解錯(cuò)誤，特別是在「受限架構(gòu)MLM」和「優(yōu)化LLM Foundry」任務(wù)中。

　　在某些情況下，這些對(duì)環(huán)境的誤讀可能導(dǎo)致智能體找到令人印象深刻且意想不到的漏洞，這些漏洞在自動(dòng)評(píng)估中得分很高，但在人工檢查時(shí)明顯違反了環(huán)境規(guī)則。

　　縮小差距

　　基于以上的觀察，研究人員認(rèn)為AI智能體在以下特征的環(huán)境中，會(huì)比人類表現(xiàn)更好:

　　- 短期且高保真循環(huán)反饋，可以讓AI智能體充分發(fā)揮嘗試多個(gè)解決方案的優(yōu)勢

　　- 工程復(fù)雜度低，使得AI智能體通過幾個(gè)步驟就解決問題

　　- 需要專業(yè)知識(shí)的任務(wù)，AI智能體比人類專家具備更全的知識(shí)

　　- 環(huán)境中有顯著的噪聲，這種情況下AI智能體可以進(jìn)行大量嘗試的優(yōu)勢會(huì)超過人類專家較少的嘗試次數(shù)。

　　- 不易出現(xiàn)意外情況，不需要太多的探索和發(fā)現(xiàn)

　　Re-Bench局限性

　　評(píng)估環(huán)境的代表性不足

　　為了創(chuàng)建符合設(shè)計(jì)標(biāo)準(zhǔn)的高可靠性評(píng)估，研究人員需要努力確保指令和評(píng)分容易理解，8小時(shí)內(nèi)可以取得顯著進(jìn)展，并且提供所有必要的資源，還必須選擇易于構(gòu)建和評(píng)估的環(huán)境。

　　這些限制使得評(píng)估環(huán)境不太能代表真實(shí)的研究，常見問題包括不明確的目標(biāo)、糟糕的指令、慢反饋和無法解決的問題。

　　結(jié)果噪聲

　　由于環(huán)境數(shù)量較少，且智能體得分嚴(yán)重向右傾斜，大多數(shù)運(yùn)行得分為0，只有少數(shù)得分非常高，所以結(jié)果評(píng)估對(duì)抽樣噪聲很敏感。

　　評(píng)估的成本和復(fù)雜性

　　使用***GPU運(yùn)行智能體數(shù)小時(shí)需要相應(yīng)的基礎(chǔ)設(shè)施和大量預(yù)算，對(duì)于普通研究人員來說壓力很大，運(yùn)行大規(guī)模實(shí)驗(yàn)來對(duì)比多個(gè)模型、框架和參數(shù)也更具挑戰(zhàn)性。

　　缺乏框架迭代

　　選擇不同的智能體框架或提示，有可能導(dǎo)致模型在相近的時(shí)間內(nèi)，在基準(zhǔn)測試上取得更好的成績。

　　研究人員的預(yù)期是，通過為智能體提供管理GPU資源的工具，或是通過并行探索解決方案來利用更多的token等來實(shí)現(xiàn)更好的性能。

　　覆蓋前沿研究的局限性

　　由于硬件訪問有限，并且前沿AI研究也大多是閉源的，評(píng)估所涵蓋的研究類型與推動(dòng)前沿AI進(jìn)步的研究類型之間可能存在差異。

　　方案可能過度擬合

　　除了「擴(kuò)展法則實(shí)驗(yàn)」之外，所有環(huán)境都向智能體提供了測試分?jǐn)?shù)輸出，以最小化誤解或混淆的風(fēng)險(xiǎn);在未來的迭代中，研究人員考慮只在大多數(shù)環(huán)境中向智能體提供驗(yàn)證分?jǐn)?shù)，把測試分?jǐn)?shù)隱藏起來。

　　「擴(kuò)展法則實(shí)驗(yàn)」得分存在運(yùn)氣成分

　　雖然良好的實(shí)驗(yàn)可以幫助人類專家在環(huán)境中做出明智的預(yù)測，但智能體還是主要依賴猜測，更多是運(yùn)氣而不是技巧的問題。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信