阿里巴巴 Qwen 團隊近日發(fā)布了題為《數(shù)學推理中過程獎勵模型的開發(fā)經(jīng)驗教訓》的論文,并推出了 Qwen2.5-Math-PRM 系列中的兩個新模型,分別具有7B 和72B 參數(shù)。這些模型在數(shù)學推理中突破了現(xiàn)有 PRM 框架的限制,通過創(chuàng)新技術(shù)顯著提高了推理模型的準確性和泛化能力。
數(shù)學推理一直是大型語言模型(LLM)面臨的重大挑戰(zhàn),尤其是在中間推理步驟中,錯誤往往會影響最終輸出的準確性,這對于教育、科學計算等對精確度要求高的領(lǐng)域尤其成問題。傳統(tǒng)評估方法,如 Best-of-N(BoN)策略,無法充分捕捉推理過程的復(fù)雜性,因此,過程獎勵模型(PRM)應(yīng)運而生,旨在通過評估中間步驟的正確性來提供更詳細的監(jiān)督。
然而,構(gòu)建高效的 PRM 面臨數(shù)據(jù)注釋和評估方法上的挑戰(zhàn),這也是現(xiàn)有模型無法完全解決的難題。因此,需要一種更符合穩(wěn)健、過程驅(qū)動推理的模型。
Qwen 團隊的創(chuàng)新方法結(jié)合了蒙特卡洛(MC)估計和“LLM 作為判斷”的機制。該混合方法提高了分步注釋的質(zhì)量,使得 PRM 能夠更有效地識別并減輕數(shù)學推理中的錯誤。通過這一技術(shù),Qwen2.5-Math-PRM 系列的模型在 PROCESSBENCH 等基準測試中表現(xiàn)出色,特別是在找出中間推理錯誤的能力上。
共識過濾:僅當 MC 估計和 LLM 作為判斷者都同意步驟正確性時,才保留數(shù)據(jù),從而顯著減少訓練中的噪音。硬標記:經(jīng)過雙重機制驗證的確定性標簽增強了模型區(qū)分有效和無效推理步驟的能力。高效數(shù)據(jù)利用:將 MC 估計與 LLM 作為判斷相結(jié)合的共識過濾策略,確保了高質(zhì)量的數(shù)據(jù),并保持了可擴展性。
這些創(chuàng)新幫助 Qwen2.5-Math-PRM 模型不僅提高了準確性,還增強了其在自動輔導和復(fù)雜問題解決等應(yīng)用中的表現(xiàn)。
Qwen2.5-Math-PRM 系列在多個評估指標上表現(xiàn)優(yōu)異。例如,Qwen2.5-Math-PRM-72B 模型的 F1得分高達78.3%,超過了許多開源替代品。特別是在需要逐步識別錯誤的任務(wù)中,它的表現(xiàn)優(yōu)于 GPT-4-0806等專有模型。
共識過濾機制有效降低了數(shù)據(jù)噪聲約60%,顯著提高了訓練數(shù)據(jù)的質(zhì)量。此外,Qwen2.5-Math-PRM 強調(diào)分步評估,而非傳統(tǒng)的基于結(jié)果的 BoN 策略,這解決了早期模型通常過于依賴最終答案而忽視推理準確性的問題。
Qwen2.5-Math-PRM 系列的推出標志著數(shù)學推理領(lǐng)域的重大進步。通過解決 PRM 開發(fā)中的難題,如數(shù)據(jù)注釋的噪聲和過程到結(jié)果的偏差,Qwen 團隊提供了一個提高推理準確性和可靠性的實用框架。隨著該技術(shù)的不斷發(fā)展,預(yù)計未來 PRM 模型將在更廣泛的 AI 應(yīng)用中發(fā)揮重要作用,提升機器推理系統(tǒng)的可靠性和有效性。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。