OpenAI發(fā)布AI智能體的評測集：MLE-bench

2024年10月12日 15:28:02 來源：AIbase基地

　　在近期的一項研究中，OpenAI研究團隊推出了名為 MLE-bench 的全新基準(zhǔn)測試，旨在評估AI智能體在機器學(xué)習(xí)工程方面的表現(xiàn)。

　　這項研究特別關(guān)注75個來自 Kaggle 的機器學(xué)習(xí)工程相關(guān)競賽，旨在測試代理在現(xiàn)實世界中所需的多種技能，包括模型訓(xùn)練、數(shù)據(jù)集準(zhǔn)備和實驗運行等。

　　為了更好地進行評估，研究團隊使用了 Kaggle 公開排行榜的基礎(chǔ)數(shù)據(jù)，確立了每個競賽的人類基準(zhǔn)。在實驗中，他們利用開源的智能體架構(gòu)，對幾種前沿語言模型進行了測試。結(jié)果顯示，最佳表現(xiàn)的配置 ——OpenAI 的 o1-preview 與 AIDE 架構(gòu)結(jié)合使用 —— 在16.9% 的競賽中，達到了 Kaggle 銅牌的水平。

　　不僅如此，研究團隊還對 AI 智能體的資源擴展形式進行了深入探討，并研究了預(yù)訓(xùn)練對結(jié)果的污染影響。他們強調(diào)，這些研究結(jié)果為今后進一步理解 AI 智能體在機器學(xué)習(xí)工程方面的能力提供了基礎(chǔ)。為了促進未來的研究，團隊還將基準(zhǔn)測試的代碼進行了開源，供其他研究人員使用。

　　這項研究的推出，標(biāo)志著機器學(xué)習(xí)領(lǐng)域的一次重要進展，特別是在如何評估和提升 AI 智能體的工程能力方面�？茖W(xué)家們希望，通過 MLE-bench，可以為 AI 技術(shù)的發(fā)展提供更科學(xué)的評估標(biāo)準(zhǔn)和實踐依據(jù)。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信