• 首頁 > 云計算頻道 > 大模型

    智源研究院推出全球首個中文大模型辯論平臺FlagEval Debate

    2024年09月30日 16:52:17   來源:AIbase基地

      北京智源人工智能研究院(BAAI)最近推出了全球首個中文大模型辯論平臺FlagEval Debate。這一新平臺旨在通過模型辯論這一競爭機制,為大語言模型的能力評估提供新的度量方式。它是智源模型對戰(zhàn)評測服務FlagEval大模型角斗場的擴展,目標是甄別大語言模型之間的能力差異。

      現有的大模型對戰(zhàn)存在一些問題,如模型對戰(zhàn)結果往往平局,難以區(qū)分模型間的差異;測試內容依賴用戶投票,需要大量用戶參與;現有對戰(zhàn)方式缺乏模型間的交互。為了解決這些問題,智源研究院采用了大模型辯論的形式進行評估。

      辯論作為一種語言類智力活動,能夠體現參與者的邏輯思維、語言組織、信息分析與處理能力。模型辯論能夠展現大模型在信息理解、知識整合、邏輯推理、語言生成和對話能力等方面的水平,同時測試其在復雜語境中的信息處理深度和遷移應變能力。

      智源研究院發(fā)現,辯論這種交互性對戰(zhàn)形式能夠凸顯模型之間的差距,并可以基于少量數據樣本計算模型有效排名。因此,他們推出了基于眾測的中文大模型辯論平臺FlagEval Debate。

      該平臺支持兩個模型圍繞辯題展開辯論,辯題由平臺隨機抽取,辯題庫主要由熱搜話題、評測專家以及頂級辯論專家命制的辯題構成。所有用戶均可在平臺上對每場辯論進行評判,以提高用戶體驗。

      每場模型辯論包括5輪意見發(fā)表,正反雙方各有一次機會。為避免正反方位置帶來的偏差,兩個模型都會各做一次正方一次反方。每個大模型會與其他模型進行多場辯論,最終根據獲勝積分計算模型排名。

      模型辯論對戰(zhàn)采取開放性眾測和專家評測兩種方式,其中專家評審團由專業(yè)辯論賽的選手和評委組成。開放性眾測觀眾可以自由鑒賞和投票。

      智源研究院表示,將繼續(xù)探索模型辯論的技術路徑與應用價值,堅持科學、權威、公正、開放的原則,不斷完善FlagEval大模型評測體系,為大模型評測生態(tài)提供新的洞察與思考。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    即時

    唯品會雙11銷量前十品牌中有7個國貨品牌

    11月11日,據網經社數字零售臺(DR.100EC.CN)數據顯示,秋冬服飾仍是雙11的C位,女士針織衫、女士外套、女士羽絨服等位居服飾消費前列,女士夾克銷量同比增長72%,女士棉衣、女士羊毛衫銷量同比增長50%以上。男士外套銷量同比增長30%以上。

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(AVC)推總數據顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯網標識解析體系

    9月14日,2024全球工業(yè)互聯網大會——工業(yè)互聯網標識解析專題論壇在沈陽成功舉辦。