近日,字節(jié)跳動豆包大模型團(tuán)隊(duì)聯(lián)合M-A-P開源社區(qū)發(fā)布SuperGPQA,一個覆蓋285個研究生級學(xué)科、包含26,529道專業(yè)問題的知識推理基準(zhǔn)測試。
該數(shù)據(jù)集不僅涵蓋數(shù)學(xué)、物理等主流學(xué)科,還首次將輕工業(yè)、農(nóng)業(yè)、服務(wù)科學(xué)等長尾學(xué)科納入評估體系,填補(bǔ)了現(xiàn)有基準(zhǔn)測試在長尾知識領(lǐng)域的空白。SuperGPQA已被用于揭示開源與閉源模型的性能差距,成為AI發(fā)展的重要工具。
傳統(tǒng)基準(zhǔn)如MMLU和GPQA學(xué)科覆蓋不足50個,長尾學(xué)科占比不到5%,且因數(shù)據(jù)來源單一(如維基百科)和眾包標(biāo)注不可靠,難以衡量模型在復(fù)雜場景中的推理能力。SuperGPQA通過專家-LLM協(xié)同機(jī)制,從權(quán)威來源篩選問題,歷時半年構(gòu)建而成。其題目平均提供9.67個選項(xiàng),42.33%需數(shù)學(xué)計(jì)算或形式推理,兼具廣度與深度。實(shí)驗(yàn)顯示,最優(yōu)模型DeepSeek-R1準(zhǔn)確率僅61.82%,表明當(dāng)前大語言模型在多樣知識領(lǐng)域仍有提升空間。
SuperGPQA采用三階段流程提升質(zhì)量:專家篩選原始問題、規(guī)范化轉(zhuǎn)錄、多層質(zhì)量檢驗(yàn)(規(guī)則過濾、LLM檢測、專家復(fù)審)。評測結(jié)果表明,指令微調(diào)顯著提升性能,如DeepSeek-V3得分超基礎(chǔ)版,但開源模型在困難題目上仍落后閉源方案。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。