當你擁有一個智能家居生活的好“搭子”,是什么感受?由 Arm 驅(qū)動的 NVIDIA Project DIGITS 為數(shù)百萬開發(fā)者帶來高性能 AI 算力京東“洗烘套裝節(jié)”真便宜 海爾云溪洗烘套裝176L到手價5839元官方展示 OPPO Find N5 折疊屏手機單邊厚度:跟兩枚一元硬幣相當央視揭秘黃牛搶票細節(jié):一面“手機墻”幫一人搶票安全公司曝光 FunkSec 勒索木馬,據(jù)稱由 AI 大模型生成得力加入京東我給老家送年貨活動 為安徽學子送去5000套文具谷歌搜索霸主地位受挑戰(zhàn),自 2015 年來份額首次跌破 90%開發(fā)者成功在Xbox 360上運行Llama語言模型,挑戰(zhàn)老舊硬件極限安全公司警告:FunkSec 勒索木馬或由AI自動生成,85家企業(yè)受害AI語音廠商思必馳完成5億元融資三星首款三折疊Q2量產(chǎn):G型方案蘋果將推三款全新Apple Watch:衛(wèi)星連接、血壓監(jiān)測齊上陣阿里媽媽推出淘寶星辰視頻生成大模型、圖生視頻應用微軟畫圖應用新增 AI 擦除功能免費用,輕松刪除任意元素!新AI模型 LlamaV-o1,測試推理能力超越Claude3.5SonnetAdobe推出AI驅(qū)動Bulk Create,可一鍵批量編輯1萬張圖像連續(xù)三年獲獎!妙手ERP喜獲Shopee 2024年度最佳ERP合伙伙伴獎項!清華、復旦與斯坦福聯(lián)合開源 “Eko” 框架,讓Agent自動化操作電腦Mistral推出新一代編程模型Codestral25.01,編程速度提高兩倍
  • AI博士智能體自主科研,o1-preview封神成本暴降84%!AMD霍普金斯新作爆火

    2025年01月14日 09:17:59   來源:新智元公眾號

      AI已經(jīng)能夠自主科研了!AMD霍普金斯祭出「智能化實驗室」不僅能獨立完成文獻調(diào)研到論文撰寫全流程工作,還能將研究成本暴降84%。

      AI離自主科研,真的越來越近了!

      最近,Hyperbolic聯(lián)創(chuàng)Jasper Zhang在采訪中稱,AI智能體已經(jīng)可以自主租用GPU,利用PyTorch進行開發(fā)了。

      其實,在科研方面,AI智能體也是一把能手。

      只要腦海里有科研的奇思妙想,一份高質(zhì)量的研究報告甚至連代碼,都能很快呈現(xiàn)在你眼前。

      這不,AMD聯(lián)手霍普金斯打造出的一款「智能體實驗室」,瞬間在全網(wǎng)爆火。

      這個超牛的AI系統(tǒng),代號叫做Agent Laboratory,全程靠LLM驅(qū)動!

      從文獻綜述開始,到開展實驗,再到最后生成報告,就像一位不知疲倦的科研小能手,一站式搞定整個科研流程。

      Agent Laboratory由LLM驅(qū)動的多個專業(yè)智能體組成,自動處理編碼、文檔編寫等重復耗時的任務。

      在研究的每個階段,用戶都可以提供反饋與指導。Agent Laboratory旨在助力研究人員實現(xiàn)研究創(chuàng)意,加速科學發(fā)現(xiàn),提高研究效率。

      研究發(fā)現(xiàn):

      由o1-preview驅(qū)動的Agent Laboratory產(chǎn)出的研究成果最佳;

      與現(xiàn)有方法相比,Agent Laboratory生成的代碼達到先進水平;

      人類在各階段提供的反饋,顯著提升了研究的整體質(zhì)量;

      Agent Laboratory大幅降低研究費用,與傳統(tǒng)研究方法相比,費用減少了84%。

      Agent Laboratory有三個關鍵階段:文獻綜述、實驗設計和報告撰寫。

      由LLM驅(qū)動的專業(yè)智能體(如博士、博士后等)協(xié)同工作,承擔文獻綜述、實驗規(guī)劃、數(shù)據(jù)準備和結(jié)果解釋等工作。這些智能體還會集成arXiv、Hugging Face、Python和LaTeX等外部工具,來優(yōu)化結(jié)果。

      文獻綜述

      文獻綜述階段,旨在收集、整理與給定研究主題相關的論文,為后續(xù)研究提供參考。

      在這個過程中,博士智能體借助arXiv API檢索相關論文,并執(zhí)行三個主要操作:摘要、全文和添加論文。

      摘要:從與初始查詢相關的前20篇論文中提取摘要

      全文:提取特定論文的完整內(nèi)容

      添加論文:將選定的摘要或全文納入到文獻綜述

      該過程并非一次性完成,而是迭代進行。智能體多次執(zhí)行查詢,依據(jù)論文內(nèi)容評估其相關性,篩選出合適的論文,構建全面的文獻綜述。

      當通過「添加論文」命令達到指定數(shù)量(N=max)的相關文獻后,文獻綜述才會完成。

      實驗環(huán)節(jié)

      實驗環(huán)節(jié)包括制定計劃、數(shù)據(jù)準備、運行實驗和結(jié)果解釋。

      制定計劃

      在這個階段,依據(jù)文獻綜述和研究目標,智能體需要制定一份詳盡且可行的研究計劃。

      博士和博士后智能體通過對話協(xié)作,明確研究方法,比如要采用哪些機器學習模型、使用什么數(shù)據(jù)集,以及實驗的主要步驟。

      達成一致后,博士后智能體通過「計劃」命令提交該計劃,作為后續(xù)子任務的行動指南。

      數(shù)據(jù)準備

      在此階段,ML工程師智能體負責執(zhí)行Python命令來運行代碼,為實驗籌備可靠的數(shù)據(jù)。該智能體有權限訪問 HuggingFace數(shù)據(jù)集。

      代碼完成后,ML工程師智能體通過「提交代碼」命令提交。在正式提交前,代碼會先經(jīng)過Python編譯器檢查,確保不存在編譯問題。若代碼有錯誤,這個過程將反復進行,直至代碼無誤。

      運行實驗

      在運行實驗階段,ML工程師智能體借助mle-solver模塊來執(zhí)行之前制定的實驗計劃。

      mle-solver是一個專門的模塊,主要功能是自主生成、測試以及優(yōu)化機器學習代碼,其工作流程如下:

      A. 命令執(zhí)行

      在命令執(zhí)行階段,初始程序是從預先維護的高性能程序中選取的。

      mle-solver通過「REPLACE」和「EDIT」這兩個操作,對這個程序進行迭代優(yōu)化。

      「EDIT」操作會選定一系列行,用新生成的代碼替換指定的內(nèi)容!窻EPLACE」操作會直接生成一個全新的Python文件。

      B. 代碼執(zhí)行

      執(zhí)行代碼命令后,編譯器會檢查新程序在運行時是否存在錯誤。

      若程序成功編譯,系統(tǒng)會給出一個得分。若該得分高于現(xiàn)有程序,頂級程序列表就會更新。

      要是程序編譯失敗,智能體就會嘗試修復代碼,最多嘗試3次。如果修復失敗,就會返回錯誤提示,重新選擇或生成代碼。

      C. 程序評分

      通過基于LLM獎勵模型對編譯成功的代碼打分,評估m(xù)le-solver生成的機器學習代碼的有效性。

      該獎勵模型會依據(jù)研究計劃、生成的代碼以及觀察到的輸出,對程序進行評分,評分范圍是0到1。得分越高,表明程序能夠更有效地實現(xiàn)研究目標。

      D. 自我反思

      無論代碼運行成功與否,mle-solver都會依據(jù)實驗結(jié)果或者錯誤信號進行反思。智能體會思考每個步驟,力求優(yōu)化最終結(jié)果。

      如果程序編譯失敗,求解器就會琢磨下一次迭代時該怎么解決這個問題。要是代碼成功編譯且有了得分,求解器則會思考怎樣提高這個分數(shù)。這些反思旨在幫助系統(tǒng)從錯誤中學習,并在后續(xù)迭代中提高代碼質(zhì)量和穩(wěn)定性。

      E. 性能穩(wěn)定化

      為避免性能出現(xiàn)波動,采用了兩種機制:頂級程序采樣和批量并行化。這兩種策略在探索新解決方案和優(yōu)化現(xiàn)有方案之間找到平衡,讓代碼修改過程更加穩(wěn)定 。

      頂級程序采樣:指維護一組評分最高的程序。在執(zhí)行命令前,會從這組程序中隨機挑選一個,既能保證程序的多樣性,又能確保質(zhì)量。

      批量并行化:求解器每進行一步操作,都會同時對程序做出N次修改,然后從這些修改中挑選出評分最高的,去替換頂級集合里評分最低的程序。

      研究者在MLE-bench的10個ML挑戰(zhàn)中單獨評估了mle-solver。mle-solver始終優(yōu)于其他求解器,獲得了更多獎牌,并在10個基準中的6個中達到了高于中位數(shù)的人類表現(xiàn)。

      解釋結(jié)果

      在此階段,博士和博士后智能體一同探討對mle-solver得出的實驗結(jié)果的理解,旨在從實驗結(jié)果中提煉出有價值的見解。

      當他們就某個有意義的解釋達成共識,且認為該解釋能為學術論文增添價值時,博士后智能體便會通過「解釋」命令提交該解釋,為后續(xù)的報告撰寫提供支撐。

      撰寫研究報告

      報告寫作階段,博士和教授智能體負責把研究成果整理成一份完整的學術報告。這一過程借助名為paper-solver的模塊,來迭代生成并完善報告。

      paper-solver并非要完全取代學術論文的寫作過程,而是以人類易于理解的格式,對已完成的研究成果進行總結(jié)。

      該模塊生成的報告遵循學術論文的標準結(jié)構。paper-solver模塊的工作流程如下:

      A. 初始報告框架

      paper-solver的首要任務是生成研究論文的初始框架。該框架框架遵循學術規(guī)范,采用了LaTeX編譯所需的格式,生成的論文能直接進入審閱和修改環(huán)節(jié)。

      B. ArXiv研究

      paper-solver可按文獻綜述接口訪問arXiv,探索與當前撰寫主題相關的文獻,還可以查找可引用的論文。

      C. 報告編輯

      使用「EDIT」命令,對LaTeX代碼進行迭代和修改,確保論文與研究計劃相符、論點清晰且滿足格式要求。

      D. 論文審閱

      這個系統(tǒng)借助基于LLM的代理,模擬科學論文的審閱過程,遵循NeurIPS會議的審稿指南對論文進行評估。

      E. 論文完善

      在論文修改階段,根據(jù)三個評審代理給出的反饋意見,博士智能體負責決定論文是需要修訂。這一過程能夠持續(xù)優(yōu)化研究報告,直至達到較高標準。

      輔助駕駛模式

      Agent Laboratory有兩種運行模式:自主模式和輔助駕駛模式。

      自主模式下,用戶僅需提供初始研究思路,此后整個過程完全無需人工干預。每完成一個子任務,系統(tǒng)便會自動按順序推進至下一個子任務。

      輔助駕駛模式下,同樣是先提供研究思路。不同的是,每個子任務結(jié)束時設有檢查點。在這些檢查點,人工審閱者會對代理在該階段的工作成果(如文獻綜述總結(jié)、生成的報告等)進行審閱。

      人工審閱者有兩個選擇:一是讓系統(tǒng)繼續(xù)推進到下一個子任務;二是要求代理重復當前子任務,并給出改進建議,助力代理在后續(xù)嘗試中表現(xiàn)更佳。

      o1-preview總分最高

      通過比較15篇由10位博士審閱的論文,研究者分析了3個LLM(gpt-4o、o1-mini、o1-preview)在實驗質(zhì)量、報告質(zhì)量和實用性方面的表現(xiàn)。人類評審者使用NeurIPS風格的標準來評估論文。

      o1-preview的總分最高(4.0/10),其次是o1-mini(3.8)和gpt-4o(3.5)。o1-preview在實用性和報告質(zhì)量方面表現(xiàn)出色,o1-mini在質(zhì)量上領先。

      而在重要性和貢獻這兩項上,所有模型的表現(xiàn)都較為普通,這反映出模型在原創(chuàng)性和影響力方面存在局限。

      所有模型的得分均低于NeurIPS的平均分,表明生成的論文在技術性和方法論的嚴謹性上顯著不足。凸顯了進一步優(yōu)化Agent Laboratory的必要性,讓其生成的內(nèi)容符合高質(zhì)量出版物的標準。

      在輔助駕駛模式下,研究人員對論文的實用性(3.5/5)、延續(xù)性(3.75/5)、滿意度(3.63/5)和可用性(4.0/5)進行了評分。輔助駕駛模式下的論文質(zhì)量從3.8/10提高到4.38/10。

      運行時間和成本分析顯示,gpt-4o的計算效率和成本效益最佳,完成時間為1165.4秒,成本為2.33美元,優(yōu)于o1-mini(3616.8秒,7.51美元)和o1-preview(6201.3秒,13.10美元)。

      報告撰寫是成本最高的階段,尤其是o1-preview(9.58美元)。

      Agent Laboratory的出現(xiàn),無疑是科研領域的一次重大革新,展現(xiàn)了AI在助力科研上的巨大潛力。

      盡管它還存在一些需要完善的地方,如生成論文在某些方面與高質(zhì)量出版物標準尚有差距,但它所帶來的高效、便捷以及新思路,已經(jīng)讓我們看到了未來科研發(fā)展的新方向。

      文章內(nèi)容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。