豆包團(tuán)隊(duì)開源SuperGPQA：挑戰(zhàn)285學(xué)科AI推理極限

2025年03月04日 17:26:05 來源：Citnews中文科技資訊

　　近日，字節(jié)跳動豆包大模型團(tuán)隊(duì)聯(lián)合M-A-P開源社區(qū)發(fā)布SuperGPQA，一個覆蓋285個研究生級學(xué)科、包含26，529道專業(yè)問題的知識推理基準(zhǔn)測試。

　　該數(shù)據(jù)集不僅涵蓋數(shù)學(xué)、物理等主流學(xué)科，還首次將輕工業(yè)、農(nóng)業(yè)、服務(wù)科學(xué)等長尾學(xué)科納入評估體系，填補(bǔ)了現(xiàn)有基準(zhǔn)測試在長尾知識領(lǐng)域的空白。SuperGPQA已被用于揭示開源與閉源模型的性能差距，成為AI發(fā)展的重要工具。

　　傳統(tǒng)基準(zhǔn)如MMLU和GPQA學(xué)科覆蓋不足50個，長尾學(xué)科占比不到5%，且因數(shù)據(jù)來源單一(如維基百科)和眾包標(biāo)注不可靠，難以衡量模型在復(fù)雜場景中的推理能力。SuperGPQA通過專家-LLM協(xié)同機(jī)制，從權(quán)威來源篩選問題，歷時半年構(gòu)建而成。其題目平均提供9.67個選項(xiàng)，42.33%需數(shù)學(xué)計(jì)算或形式推理，兼具廣度與深度。實(shí)驗(yàn)顯示，最優(yōu)模型DeepSeek-R1準(zhǔn)確率僅61.82%，表明當(dāng)前大語言模型在多樣知識領(lǐng)域仍有提升空間。

　　SuperGPQA采用三階段流程提升質(zhì)量:專家篩選原始問題、規(guī)范化轉(zhuǎn)錄、多層質(zhì)量檢驗(yàn)(規(guī)則過濾、LLM檢測、專家復(fù)審)。評測結(jié)果表明，指令微調(diào)顯著提升性能，如DeepSeek-V3得分超基礎(chǔ)版，但開源模型在困難題目上仍落后閉源方案。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信