E Ink元太科技連三年入選道瓊可持續(xù)雙指數(shù)撬動6000億GTV后,抖音計劃偷襲美團大本營AGI Open Network(AON):賦能每個人創(chuàng)建、部署和貨幣化AI Agent貸款利率史上最低了嗎?東融教你看懂歷年啥水平“客服來電”有詐?抖音客服上線“驗證助手”助用戶識別詐騙OpenAI新模型GPT-5研發(fā)未達預(yù)期:成本高昂 效果不佳曝天馬打入果鏈:為蘋果HomePod供應(yīng)LCD屏 每塊屏僅10美元曝OPPO或首發(fā)新款天璣次旗艦芯片 兩大子品牌Q2發(fā)力諾基亞攜手阿聯(lián)酋運營商e&,展示全球首個固網(wǎng)游戲端到端網(wǎng)絡(luò)切片方案零下25℃制熱26℃!海爾水暖通黑科技亮相冰雪大世界三星沒放棄曲面屏開發(fā)!最新專利曝光暗示有望回歸三大運營商11月成績單:用戶數(shù)據(jù)增幅放緩打造下一個英偉達,孫正義的2026芯片計劃曝光瞭望2025全球6G技術(shù)發(fā)展趨勢AI時代云安全新范式,暢捷通智能守護小微企業(yè)安全上云百川智能發(fā)布全鏈路領(lǐng)域增強金融大模型 Baichuan4-Finance年末家電消費觀察:品質(zhì)生活類產(chǎn)品熱賣,將持續(xù)迎來剛需式普及?GPT-5研發(fā)受阻:OpenAI 新一代模型難見突破性進展新一代語言模型ModernBERT發(fā)布,RAG等任務(wù)處理速度快四倍、成本低新研究顯示:Anthropic 的 Claude AI 在合作能力上領(lǐng)先于 OpenAI 和谷歌模型
  • 首頁 > 云計算頻道 > 大模型

    AlphaGo核心算法增強,7B模型數(shù)學(xué)能力直逼GPT-4,阿里大模型新研究火了

    2024年05月09日 10:21:01   來源:量子位公眾號

      把AlphaGo的核心算法用在大模型上,“高考”成績直接提升了20多分。

      在MATH數(shù)據(jù)集上,甚至讓7B模型得分超過了GPT-4。

      一項來自阿里的新研究引發(fā)關(guān)注:

      研究人員用蒙特卡洛樹搜索(MCTS)給大語言模型來了把性能增強,無需人工標(biāo)注解題步驟,也能生成高質(zhì)量數(shù)據(jù),有效提升大模型的數(shù)學(xué)成績。

      論文發(fā)布,讓不少網(wǎng)友重新關(guān)注到了蒙特卡洛樹搜索這個在前大模型時代的明星算法。

      有人直言:

      蒙特卡洛樹搜索+LLM是通往超級智能之路。

      因為“樹搜索本身更接近人類思維”。

      用蒙特卡洛樹搜索增強大模型

      具體來說,阿里的研究人員提出了一種名為AlphaMath的方法,用大語言模型+MCTS來自動生成數(shù)學(xué)推理數(shù)據(jù),并提升大模型在完成數(shù)學(xué)推理任務(wù)時的性能表現(xiàn)。

      嗯,名字就很有蒙特卡洛樹搜索內(nèi)味兒了。

      這里有個前情提要:

      思維鏈(CoT)、思維程序(PoT)等方法已經(jīng)被證明能夠有效提高大模型的數(shù)學(xué)能力,但問題在于,它們都需要人類手動喂詳細的解題步驟,即訓(xùn)練當(dāng)中需要用到人工標(biāo)注的高質(zhì)量數(shù)學(xué)推理數(shù)據(jù)。

      AlphaMath的一個核心目的就在于,在這個步驟中去人工化——數(shù)據(jù)格式就是簡單的數(shù)學(xué)問題-答案對。

      AlphaMath的技術(shù)路線主要涵蓋三個階段:

      首先,研究人員收集了一個數(shù)學(xué)數(shù)據(jù)集,其中包含數(shù)學(xué)問題及其對應(yīng)的正確答案。

      然后,利用預(yù)訓(xùn)練的大模型(即策略模型)根據(jù)問題生成初始的解題路徑,并通過MCTS對解題路徑進行探索和改進,搜索更優(yōu)的解題思路。

      在MCTS過程中,同時訓(xùn)練一個價值模型來預(yù)測解題路徑的質(zhì)量,引導(dǎo)搜索方向。

      最后,第二階段獲得的數(shù)據(jù)會被用來優(yōu)化策略模型和價值模型。

      這三個階段會通過迭代優(yōu)化地方式執(zhí)行,以實現(xiàn)無需人工標(biāo)注的自動數(shù)據(jù)生成和模型數(shù)學(xué)能力優(yōu)化。

      另外,研究人員還基于價值模型提出了Step-level Beam Search方法,以提高大模型的數(shù)學(xué)推理效率,平衡推理時的解題質(zhì)量和運行時間。

      簡單來說,Step-level Beam Search是將MCTS推理過程做了個簡化:

      利用價值模型對候選路徑進行評估,以更準(zhǔn)確地選擇高質(zhì)量的解題路徑。

      通過逐步擴展和剪枝,在搜索過程中動態(tài)調(diào)整候選路徑集合,提高搜索效率。

      搜索過程中考慮了完整的解題路徑,而不僅僅是局部的下一步動作,可以得到更全局優(yōu)化的解題方案。

      MATH成績超GPT-4

      為了驗證AlphaMath的效果,研究人員設(shè)計了這樣的實驗:

      對開源的數(shù)學(xué)大模型DeepSeekMath-Base-7B,用AlphaMath方法進行訓(xùn)練,并在GSM8K、MATH和Gaokao2023基準(zhǔn)上,與GPT-4為代表的閉源模型、Llama2為代表的開源模型,以及專門做過數(shù)學(xué)SFT的MathCoder等模型進行對比。

      結(jié)果顯示,不依賴于人類(或GPT-4)標(biāo)注的高質(zhì)量數(shù)據(jù),AlphaMath調(diào)教下的7B數(shù)學(xué)大模型,已經(jīng)能在MATH上取得63%的分?jǐn)?shù),超過了GPT-4原版的42.5%和外掛代碼解釋器版的51.8%。

      另外,在執(zhí)行3輪MCTS并訓(xùn)練策略模型和價值模型的情況下,AlphaMath能讓大模型在涵蓋小學(xué)數(shù)學(xué)題的GSM8K上提升10多分,在MATH和Gaokao2023上提升20多分。

      還可以看到,Step-level Beam Search在MATH數(shù)據(jù)集上取得了良好的效率和準(zhǔn)確率平衡。

      論文的共同一作是Guoxin Chen、Mingpeng liao、Chengxi Li和Kai Fan。

      通訊作者Kai Fan本碩畢業(yè)于北京大學(xué),2017年從杜克大學(xué)博士畢業(yè),2018年加入阿里巴巴達摩院。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。