阿里云通義開源最強(qiáng)過程獎(jiǎng)勵(lì)PRM模型 7B尺寸比GPT-4o更能發(fā)現(xiàn)推理錯(cuò)誤

2025年01月16日 16:21:20 來源：快科技

　　今日，阿里云通義開源全新的數(shù)學(xué)推理過程獎(jiǎng)勵(lì)模型Qwen2.5-Math-PRM，72B及7B尺寸模型性能均大幅超越同類開源過程獎(jiǎng)勵(lì)模型。

　　據(jù)了解，在識別推理錯(cuò)誤步驟能力上，Qwen2.5-Math-PRM以7B的小尺寸超越了GPT-4o。同時(shí)，通義團(tuán)隊(duì)還開源了首個(gè)步驟級的評估標(biāo)準(zhǔn) ProcessBench，此項(xiàng)評估標(biāo)準(zhǔn)填補(bǔ)了大模型推理過程錯(cuò)誤評估的空白。

　　與此同時(shí)，為更好衡量模型識別數(shù)學(xué)推理中錯(cuò)誤步驟的能力，通義團(tuán)隊(duì)還提出了全新的評估標(biāo)準(zhǔn)ProcessBench。該基準(zhǔn)由3400個(gè)數(shù)學(xué)問題測試案例組成，其中還包含奧賽難度的題目，每個(gè)案例都有人類專家標(biāo)注的逐步推理過程，可綜合全面評估模型識別錯(cuò)誤步驟能力。這一評估標(biāo)準(zhǔn)也已開源。

阿里云通義開源最強(qiáng)過程獎(jiǎng)勵(lì)PRM模型 7B尺寸比GPT-4o更能發(fā)現(xiàn)推理錯(cuò)誤

　　此外，在ProcessBench上對錯(cuò)誤步驟的識別能力的評估中，72B及7B尺寸的Qwen2.5-Math-PRM均顯示出顯著的優(yōu)勢，7B版本的PRM模型不但超越同尺寸開源PRM模型，甚至超越了閉源GPT-4o-0806。這證明了過程獎(jiǎng)勵(lì)模型(PRM)能夠顯著提高推理的可靠性，為未來開發(fā)推理過程監(jiān)督技術(shù)開辟了新的途徑。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信