中國品牌,讓東南亞感受“消費升級”小紅書本地“坐抖望團”CrowdStrike“全球滅霸響指”事件后續(xù),德國 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實況照片了蘋果有線耳機或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測屏幕指紋殘留,提高手機安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性
  • 首頁 > 云計算頻道 > 大模型

    誰在給大模型打分?

    2023年07月26日 12:28:36   來源:科技新知

      當(dāng)新賽道擠滿了摩拳擦掌的選手,場邊的裁判員也應(yīng)運而生。

      5月,國家科技部下屬的中國科學(xué)技術(shù)信息研究所,發(fā)布了《中國人工智能大模型地圖研究報告》。內(nèi)容顯示,截至5月28日,國內(nèi)10億級參數(shù)規(guī)模以上基礎(chǔ)大模型至少已發(fā)布79個。

      每一個亮相時,都少不了“行業(yè)領(lǐng)先”“技術(shù)革新”諸如此類的標(biāo)簽。不免引來質(zhì)疑:如何直觀地評判哪一款大模型在技術(shù)和性能上更為卓越?那些宣稱“第一”的評估標(biāo)準(zhǔn)與數(shù)據(jù)來源又是怎樣的?

      一把衡量不同模型效能基準(zhǔn)的“尺子”亟待打造。

      前不久,國際咨詢公司IDC發(fā)布《AI大模型技術(shù)能力評估報告2023》,調(diào)研了9家中國市場主流大模型技術(shù)廠商。其他不少研究機構(gòu)和團隊也投入資源,發(fā)布了對應(yīng)的評價標(biāo)準(zhǔn)和深度報告。這背后所顯露的現(xiàn)象和趨勢,更值得深層次的探討。

      評測基準(zhǔn)百家爭鳴

      ChatGPT 帶火了大模型應(yīng)用的相關(guān)研究,評測基準(zhǔn)亦成為關(guān)注焦點所在。

      日前,微軟亞洲研究院公開了介紹大模型評測領(lǐng)域的綜述文章《A Survey on Evaluation of Large Language Models》。根據(jù)不完全統(tǒng)計(見下圖),大模型評測方面文章的發(fā)表呈上升趨勢,越來越多的研究著眼于設(shè)計更科學(xué)、更好度量、更準(zhǔn)確的評測方式來對大模型的能力進行更深入的了解。

      文中一共列出了19個受歡迎的基準(zhǔn)測試,每個都側(cè)重于不同的方面和評估標(biāo)準(zhǔn),為其各自的領(lǐng)域提供了寶貴的貢獻。為了更好地總結(jié),研究員將這些基準(zhǔn)測試分為兩類:通用基準(zhǔn)(General benchmarks)和具體基準(zhǔn)(Specific benchmarks),其中不乏一些深具盛名的大模型基準(zhǔn)。

      Chatbot Arena,就被行業(yè)人士普遍認(rèn)為是最具公平性與廣泛接受度的平臺。其背后的推手——LMSYS Org,是一個開放的研究組織,由加州大學(xué)伯克利分校、加州大學(xué)圣地亞哥分校和卡內(nèi)基梅隆大學(xué)合作創(chuàng)立。

      這個創(chuàng)新性的評估標(biāo)準(zhǔn),為各大AI研究機構(gòu)與技術(shù)愛好者,提供了一個既獨特又具有激烈競爭力的場所,專門用于評價和比對不同聊天機器人模型的實際應(yīng)用效果。用戶能夠與其中的匿名模型進行實時互動,而后通過在線投票系統(tǒng)表達他們對于某一模型的滿意度或喜好。

      值得一提的是,該評測方式的設(shè)計靈感來源于國際象棋等競技游戲中盛行的ElO評分系統(tǒng)。通過積累大量的用戶投票,它能夠更為貼近實際場景地評估各模型的綜合表現(xiàn)。

      微軟亞洲研究院還在文中提到了通用基準(zhǔn)C-Eval,這是一個全面的中文基礎(chǔ)模型評估套件。它包含了13948個多項選擇題,涵蓋了52個不同的學(xué)科和四個難度級別,該項目由上海交通大學(xué)、清華大學(xué)、愛丁堡大學(xué)共同完成。

      除了通用任務(wù)的基準(zhǔn)測試外,還存在一些專為某些下游任務(wù)設(shè)計的具體基準(zhǔn)測試。

      譬如,MultiMedQA是一個醫(yī)學(xué)問答基準(zhǔn)測試,重點關(guān)注醫(yī)學(xué)檢查、醫(yī)學(xué)研究和消費者健康問題。該基準(zhǔn)由谷歌和DeepMind的科研人員提出,它包括七個與醫(yī)學(xué)問答相關(guān)的數(shù)據(jù)集,其中包括六個現(xiàn)有的數(shù)據(jù)集和一個新的數(shù)據(jù)集。測試目標(biāo)是評估大語言模型在臨床知識和問答能力方面的性能。

      還有一些中文評測基準(zhǔn)被微軟研究院所遺漏。例如SuperCLUE,作為針對中文可用的通用大模型的一個測評基準(zhǔn),由來自中文語言理解測評基準(zhǔn)開源社區(qū)CLUE的成員發(fā)起。

      為了著眼于綜合評價大模型的能力,使其能全面地測試大模型的效果,又能考察模型在中文上特有任務(wù)的理解和積累,SuperCLUE從三個不同的維度評價模型的能力:基礎(chǔ)能力、專業(yè)能力和中文特性能力。

      實際上,這些維度只是冰山一角。在評測 LLMs 的性能時,選擇合適的任務(wù)和領(lǐng)域?qū)τ谡故敬笮驼Z言模型的表現(xiàn)、優(yōu)勢和劣勢至關(guān)重要。微軟亞洲研究院將現(xiàn)有的任務(wù)劃分為了7個不同的類別:

      自然語言處理:包括自然語言理解、推理、自然語言生成和多語言任務(wù);

      魯棒性、倫理、偏見和真實性;

      醫(yī)學(xué)應(yīng)用:包括醫(yī)學(xué)問答、醫(yī)學(xué)考試、醫(yī)學(xué)教育和醫(yī)學(xué)助手;

      社會科學(xué);

      自然科學(xué)與工程:包括數(shù)學(xué)、通用科學(xué)和工程;

      代理應(yīng)用:將 LLMs 作為代理使用;

      其他應(yīng)用。

      縱觀當(dāng)前AI領(lǐng)域的發(fā)展趨勢,大模型的評測基準(zhǔn)測試不再僅僅是一個單一的技術(shù)環(huán)節(jié),而是已經(jīng)逐步成為整個上下游產(chǎn)業(yè)鏈中的重要配套。

      正確地使用“尺子”

      存在即合理。

      大模型評測基準(zhǔn)的誕生和持續(xù)優(yōu)化,之所以呈現(xiàn)出愈演愈烈的勢頭,無疑與其所能帶來的巨大價值和業(yè)界的廣泛認(rèn)同是密不可分的。

      可以看到,通過深入的大模型評測基準(zhǔn)分析,能夠更為明確和系統(tǒng)地揭示大模型在各種應(yīng)用場景中的優(yōu)勢與局限性。這種專業(yè)的評估不僅為AI領(lǐng)域的研發(fā)者提供了清晰的指導(dǎo),同時也助力用戶最終作出更為明智的技術(shù)選擇。

      在復(fù)雜的研發(fā)過程中,判斷技術(shù)方案或特定模型的優(yōu)越性往往是一個挑戰(zhàn)。C-Eval數(shù)據(jù)集和其相關(guān)榜單,意義不僅僅是一系列的數(shù)字或排名,而是為大模型的研發(fā)者提供了一套客觀、系統(tǒng)的評估工具。

      用C-Eval項目團隊的話來說,“我們的最重要目標(biāo)是輔助模型開發(fā)”。

      具體來看,研發(fā)團隊可以與企業(yè)緊密合作,將大模型評測基準(zhǔn)整合到他們的開發(fā)和測試工作流程中。這不僅可以在實際應(yīng)用環(huán)境中驗證模型的性能,還能通過雙方的深度溝通,找到在測試過程中可能遇到的技術(shù)難題和挑戰(zhàn),從而實現(xiàn)更為高效和準(zhǔn)確的模型優(yōu)化。

      正是基于這一點,多家頭部大模型廠商不僅在模型研發(fā)上持續(xù)投入,同時也在評測基準(zhǔn)的制定與優(yōu)化上下足了功夫。

      譬如科大訊飛通過認(rèn)知智能全國重點實驗室牽頭設(shè)計了通用認(rèn)知大模型評測體系,覆蓋7大類481個細(xì)分任務(wù)類型;阿里巴巴達摩院多語言NLP團隊發(fā)布了首個多語言多模態(tài)測試基準(zhǔn)M3Exam,共涵蓋12317道題目,等等。

      不過也正如C-Eval項目團隊所強調(diào)的:對于大模型廠商,單純地追求榜單的高位排名,并不應(yīng)成為其主要追求。

      當(dāng)廠商將榜單成績作為首要目標(biāo)時,可能會為了追求高分而采用過度擬合榜單的策略,這樣就很容易損失模型的廣泛適用性。更為關(guān)鍵的是,若僅僅著眼于排名,廠商可能為了短期的成績而試圖尋找捷徑,從而違背了真正踏實的科研精神與價值觀。

      再看終端用戶的視角中,大模型測評基準(zhǔn)提供了一個全面的、結(jié)構(gòu)化的參考框架,從而充分地輔助用戶在眾多技術(shù)選項中做出更為理性和明智的決策。這種評測不僅降低了技術(shù)采納的風(fēng)險,也確保了用戶能夠從所選模型中獲得最佳的投資回報率。

      尤其對于那些還未擁有深厚大模型研發(fā)實力的企業(yè)來說,深入了解大模型的技術(shù)邊界,并能夠針對自身需求高效地進行技術(shù)選型,是至關(guān)重要的。

      綜上,不論是對于背后的研發(fā)團隊還是產(chǎn)品側(cè)的終端用戶,大模型評測基準(zhǔn)都承載著不可估量的價值和意義。

      劣幣來襲

      吊詭的是,由于在原理核心上并不涉及復(fù)雜的技術(shù)門檻,導(dǎo)致目前市場上的大模型評測基準(zhǔn)的數(shù)量,甚至已經(jīng)超過了大模型本身。這其中自然有許多機構(gòu)見到了可乘之機,進行各種市場操作,包括混淆視聽、誤導(dǎo)消費者的行為。

      此前就有觀點認(rèn)為,隨著AI技術(shù)的發(fā)展,大模型評測可能會被某些公司或機構(gòu)用作營銷工具,通過發(fā)布其模型的高分評測結(jié)果來吸引公眾的注意力,以期提高產(chǎn)品的市場份額。

      目前也有一些突出的現(xiàn)象佐證:在某些特定評測榜單中領(lǐng)先的廠商,放到其他不同的榜單評測中,卻未能夠維持其優(yōu)勢地位。

      不能排除存在著客觀原因。當(dāng)前階段,對于大模型的評估機制和具體評測指標(biāo),并沒有達到一個行業(yè)共識,更遑論出現(xiàn)統(tǒng)一的的評測標(biāo)準(zhǔn)。不同的應(yīng)用環(huán)境和任務(wù)標(biāo)準(zhǔn),就會產(chǎn)生截然不同的評價框架和需求。

      此外,大模型評測通常依賴于兩大主要方法:自動評測和人工評測。自動評測是基于精確的計算機算法和一系列預(yù)定義的指標(biāo)進行,而人工評測更多強調(diào)人類專家的主觀見解、經(jīng)驗和質(zhì)量判定。

      遇到大模型生成詩歌或短文這類任務(wù)時,人工評測的主觀性變得尤為顯著。自古“文無第一,武無第二”,不同的評審者可能會對同一作品給出不同的評價。

      然而,從相關(guān)搜索結(jié)果中不難發(fā)現(xiàn),大模型評測早已被某些廠商視為一個營銷的競技場。畢竟在一個競爭激烈的市場中,每一個廠商都希望自己的產(chǎn)品能夠脫穎而出。

      因此有充分的動機去選擇那些能夠突顯自己產(chǎn)品優(yōu)勢的評測指標(biāo),而忽略那些可能暴露弱項的指標(biāo)。這種選擇性的展示,即使有機會帶來短期的市場優(yōu)勢,但是對于消費者和整個行業(yè)來說,必然是有害的。

      一時的誤導(dǎo)一旦扭曲了市場的競爭格局,可能使得真正有價值的創(chuàng)新被埋沒。劣幣驅(qū)逐良幣之下,那些只是為了宣傳而進行的“創(chuàng)新”反而會趨之若鶩。

      從這個角度出發(fā),大模型評測基準(zhǔn)還是應(yīng)該回歸其本質(zhì),即為了更好地理解和比較不同模型的性能,為研發(fā)者和終端用戶提供反饋,而不是為了產(chǎn)品廠商的短期利益。

      既然要當(dāng)裁判員,還是要盡量做到獨立、客觀、第三方。

      參考資料:

      微軟研究院《A Survey on Evaluation of Large Language Models》

      機器之心《13948道題目,涵蓋微積分、線代等52個學(xué)科,上交清華給中文大模型做了個測試集》

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。