今年5月9日,發(fā)布僅3天的訊飛星火大模型就在一個(gè)評(píng)測(cè)榜單上拿了個(gè)國(guó)服第一,力壓清華智譜、復(fù)旦MOSS以及百度文心一言等國(guó)產(chǎn)大模型,僅次于GPT-4和GPT-3.5。
本來(lái)外界對(duì)訊飛稱王并無(wú)異議,但這份榜單將文心一言列在最后一名,熱心網(wǎng)友就不樂(lè)意了。
隨后發(fā)布榜單的評(píng)測(cè)機(jī)構(gòu)SuperCLUE被曝光,一個(gè)仿照GLUE的國(guó)內(nèi)民間組織,權(quán)威度和影響力與GLUE相去甚遠(yuǎn),其微信賬號(hào)主體屬性為個(gè)人,被網(wǎng)友戲稱為AI版李逵和李鬼。
就連訊飛的稱王都被挖出來(lái)貓膩。
評(píng)測(cè)榜單發(fā)布當(dāng)天,SuperCLUE官網(wǎng)顯示信息,其測(cè)評(píng)顧問(wèn)中排名第一的是崔一鳴,身份為學(xué)術(shù)顧問(wèn)委員會(huì)主任,哈工大訊飛聯(lián)合實(shí)驗(yàn)室(HFL)資深級(jí)研究員,而第二天官網(wǎng)就刪除了此條顧問(wèn)信息。
至于這個(gè)榜單本身,也被業(yè)內(nèi)人士質(zhì)疑其合理性,理由是沒(méi)有公布評(píng)估數(shù)據(jù)以及具體的評(píng)估方式。不過(guò)SuperCLUE在8月份進(jìn)行了一次評(píng)測(cè)體系、方法及變動(dòng)說(shuō)明的解讀,算是變相回應(yīng),只不過(guò)3700道的測(cè)試題還是較SuperGLUE的2萬(wàn)道相去甚遠(yuǎn)。
但SuperCLUE卻搖身一變,成為各種大模型PR稿里的救世主,堪稱大模型界的安兔兔和魯大師,個(gè)中內(nèi)涵懂得都懂。
手機(jī)廠商也順理成章成為了SuperCLUE的榜單?。比如OPPO和vivo,前者登上了9月的基礎(chǔ)能力排行榜,后者則拿下了10月的國(guó)服第一。
在搞機(jī)圈跑分作弊早已不算秘密,2013年三星Galaxy S4就曾被曝跑分作弊,事后三星不得不向每位Galaxy S4購(gòu)買者賠償10美元。
到2018年,跑分作弊儼然已成一種行業(yè)亂象:各大手機(jī)廠商費(fèi)盡心思優(yōu)化跑分項(xiàng)目,有的甚至專門開設(shè)一個(gè)白名單,當(dāng)檢測(cè)到是跑分軟件時(shí),手機(jī)各方面的資源就全速運(yùn)行,以此開啟芯片的極限性能模式。Anandtech就曾公開點(diǎn)名榮耀Play跑分作弊,跑分監(jiān)測(cè)機(jī)制開啟和關(guān)閉的情況下,得分相差一倍。
跑分作弊映射出的一個(gè)道理是,這種人為極限性能下的分?jǐn)?shù),設(shè)備根本不可能長(zhǎng)時(shí)間保持這樣的水平,因此顯得毫無(wú)意義。
而這種毫無(wú)意義的極限性能跑分,隱隱有傳到大模型的跡象。
比如OPPO這次拿出來(lái)的SuperCLUE成績(jī),還不是總榜單,而是十大基礎(chǔ)能力排行榜的“知識(shí)與百科”能力。
在SuperCLUE的評(píng)測(cè)方案中,“知識(shí)與百科”屬于專業(yè)知識(shí)技能,包含歷史地理、科學(xué)技術(shù)、文化娛樂(lè)、社會(huì)人文等眾多任務(wù)。
相對(duì)來(lái)說(shuō),“知識(shí)與百科”傾向于是有標(biāo)準(zhǔn)答案的問(wèn)答評(píng)測(cè),不過(guò)即便如此后期有用戶在測(cè)試OPPO大模型時(shí),還是出現(xiàn)了魯迅和周樹人不是同一人的錯(cuò)誤。
拋開這種低級(jí)失誤,對(duì)于這種有針對(duì)性的評(píng)測(cè),小米AI實(shí)驗(yàn)室大模型團(tuán)隊(duì)負(fù)責(zé)人欒劍此前在接受媒體采訪時(shí)就給過(guò)定論,目前這些榜單絕大部分都是學(xué)科問(wèn)題,而且是選擇題為主,所以用它們對(duì)評(píng)估大模型的能力是有局限性的。
“如果把這些學(xué)科的知識(shí)、這些學(xué)科搜集到的試題,都拿來(lái)對(duì)大模型做增強(qiáng)學(xué)習(xí),它的效果一定可以達(dá)到很好。”界面新聞就曾曝光過(guò)兩種C-Eval“刷榜”方式:
一種是找數(shù)據(jù)標(biāo)注員把題目做一遍,第二種是用GPT-4把題做一遍,再把答案扣下來(lái)訓(xùn)練大模型,這樣都能在相應(yīng)學(xué)科測(cè)試中獲得滿分。
問(wèn)題的關(guān)鍵還在于,做這樣的訓(xùn)練對(duì)大模型其它方面的能力可能會(huì)帶來(lái)負(fù)面影響。
目前有一些開源的大模型迭代了版本之后,打榜的分?jǐn)?shù)提高得很明顯,但如果測(cè)試它的生成能力,比如寫作水平,發(fā)現(xiàn)其實(shí)是有下降的。
還有一點(diǎn)存疑的是,大模型評(píng)測(cè)榜單的合理性。
比如今年5月SuperCLUE的榜單,文心一言在這個(gè)測(cè)評(píng)的評(píng)分是明顯偏低的,甚至連一些不知名的國(guó)產(chǎn)小型開源模型都比不過(guò),測(cè)試結(jié)果與實(shí)際使用體驗(yàn)不符。
根源在于當(dāng)時(shí)SuperCLUE的測(cè)試手段是讓大模型做選擇題(據(jù)稱是100道),而這是用來(lái)針對(duì)BERT時(shí)代的判別式AI模型,不適用于現(xiàn)在的這些生成式大模型。
這倒也不是SuperCLUE一家的問(wèn)題。華泰證券前資深算法工程師邱震宇此前曾深入探究了市面上大模型的各類評(píng)測(cè)集,綜合比較了各家榜單結(jié)果,得出的結(jié)論是現(xiàn)在并不存在一個(gè)公認(rèn)有效的評(píng)測(cè)方式。
大模型是一個(gè)新的范式,其實(shí)一個(gè)范式除了對(duì)底層邏輯的解釋,也需要有一整套的訓(xùn)練方法及評(píng)估方法。對(duì)大模型來(lái)說(shuō),這一整套合理的評(píng)估方法,大家還在探索中,沒(méi)有公認(rèn)的標(biāo)準(zhǔn)。
事實(shí)上,大模型很難去實(shí)現(xiàn)沒(méi)有偏頗的測(cè)試,所謂的AI模型排名沒(méi)有什么值得參考的實(shí)際價(jià)值,評(píng)價(jià)大模型的唯一標(biāo)準(zhǔn)就是能不能幫助用戶去解決實(shí)際的問(wèn)題。
看待打榜,只是從一個(gè)側(cè)面驗(yàn)證一個(gè)基座大模型是不是能在某個(gè)領(lǐng)域里做到極致,但不代表說(shuō)它就一定能給用戶帶來(lái)最好的應(yīng)用體驗(yàn)。
在OPPO之前,已經(jīng)有三家國(guó)內(nèi)手機(jī)廠商公開了大模型進(jìn)度,分別是華為、小米和vivo,均以語(yǔ)音助手的形式。而且各家像是打過(guò)商量一樣,幾乎是在同一時(shí)間對(duì)外吹風(fēng),再加上高通、谷歌、聯(lián)發(fā)科的頻頻官宣,上馬大模型儼然成為手機(jī)廠商的必選項(xiàng)。
在這種你追我趕的態(tài)勢(shì)下,就很容易發(fā)生“有條件要上,沒(méi)有條件也要硬上”的老套情節(jié)。
2019年OPPO推出小布助手,最初通過(guò)調(diào)用搜索引擎完成擴(kuò)展問(wèn)答,但整個(gè)體驗(yàn)不暢,促使后來(lái)OPPO開始做知識(shí)圖譜和海量語(yǔ)料數(shù)據(jù),相當(dāng)于建了一個(gè)問(wèn)答庫(kù)。
這種機(jī)械的“檢索式回答”常見(jiàn)于當(dāng)時(shí)的語(yǔ)音助手,優(yōu)點(diǎn)是成本低上馬快,缺點(diǎn)則是周期長(zhǎng)成本高,而且要面對(duì)長(zhǎng)尾問(wèn)題語(yǔ)音助手無(wú)法回答的尷尬。舉個(gè)例子,長(zhǎng)江長(zhǎng)還是黃河長(zhǎng)這類問(wèn)題,如果數(shù)據(jù)庫(kù)中沒(méi)有答案,語(yǔ)音助手就無(wú)法回答。
為了解決問(wèn)題,2021年OPPO找到了北京智源人工智能研究院,借悟道大模型推出了“生成式問(wèn)答系統(tǒng)”,一定程度上彌補(bǔ)了自己的技術(shù)短板。
彼時(shí)的OPPO屬于兩條腿走路,一邊從外面引入大模型,一邊在背后埋頭自研。
2022年6月推出的預(yù)訓(xùn)練模型OBERT,就是OPPO從發(fā)布前兩年開始探索的,共有一億、三億和十億參數(shù)三個(gè)版本。同年11月,OPPO語(yǔ)音語(yǔ)義研究部又推出參數(shù)量為30億的中文預(yù)訓(xùn)練大模型CHAOS。
但這兩個(gè)模型在網(wǎng)上能查到的資料很少,除了官宣的新聞稿外幾乎沒(méi)有其它消息。倒是今年4月,在阿里云峰會(huì)上,阿里云官方發(fā)布的「企業(yè)專屬大模型」合作名單里,OPPO卻位列第一。
據(jù)阿里云CTO周靖人介紹,以上這一系列模型已經(jīng)和阿里的行業(yè)模型形成了層次化、模塊化結(jié)構(gòu),行業(yè)模型可以在阿里預(yù)訓(xùn)練模型之上進(jìn)行定制,可以解決當(dāng)下多達(dá)200個(gè)業(yè)務(wù)場(chǎng)景。
換言之,這些AI模型本質(zhì)上都是基于阿里云通義大模型完成的能力構(gòu)建。這似乎意味著,OPPO的自研大模型或是火候不到,不得不暫時(shí)放棄自研,再轉(zhuǎn)向外部合作。
坊間也有傳言稱vivo的大模型用的是開源的Llama2,雖不知真假,但也從側(cè)面反映出,手機(jī)廠商做大模型的一個(gè)被動(dòng):無(wú)論宣傳上多么高調(diào),總令人懷疑沒(méi)這個(gè)技術(shù)實(shí)力。
至于是自研好還是外部合作好,就各有論調(diào)了。
自研的難點(diǎn)在于,從0開始基礎(chǔ)大模型的預(yù)訓(xùn)練,資金投入需要非常大,除此以外,數(shù)據(jù)、算力、know-how、維護(hù)等也是一道道門檻,但優(yōu)勢(shì)也十分巨大,企業(yè)能夠掌握自己定制模型結(jié)構(gòu)的能力。
在各種設(shè)備終端上,使用的芯片不同,就會(huì)對(duì)模型提出各種各樣的要求,這些要求可能細(xì)節(jié)到一些算子不支持,或者某種結(jié)構(gòu)運(yùn)行起來(lái)效率不高。手機(jī)廠商必須根據(jù)硬件提出的要求,對(duì)模型結(jié)構(gòu)做一些調(diào)整。
如果想修改模型結(jié)構(gòu)的話,就一定需要具備從頭開始訓(xùn)練的能力。因?yàn)殚_源模型的結(jié)構(gòu)是固定的,沒(méi)有辦法調(diào)整,就不能滿足需求。
而外部合作的優(yōu)勢(shì)正是自研的難點(diǎn),百度、阿里等平臺(tái)型企業(yè)幾乎提供了一條龍服務(wù),不僅省下了成本,還有性能/中文增強(qiáng)、數(shù)據(jù)集、應(yīng)用范式等系列服務(wù),幾乎一鍵開發(fā)大模型。
尾聲
今年2月,高通在一部沒(méi)有聯(lián)網(wǎng)的Android手機(jī)上使用了Stable Diffusion 來(lái)生成AI圖像,整個(gè)生成時(shí)間不超過(guò)15秒,過(guò)程全部在手機(jī)上進(jìn)行。剛剛發(fā)布的驍龍8 Gen3,已經(jīng)可以支持運(yùn)行100億參數(shù)的生成式AI模型。
今年5月的谷歌I/O大會(huì)上,谷歌一口氣發(fā)布了四個(gè)新一代大語(yǔ)言模型 PaLM 2。其中最小的“壁虎”大模型,可以適配手機(jī)運(yùn)行。
到今天,手機(jī)大模型已經(jīng)是一個(gè)無(wú)可爭(zhēng)議的趨勢(shì)。但擺在手機(jī)廠商面前的問(wèn)題似乎都被它們忽視了:大模型究竟能為用戶帶來(lái)什么?
至少在當(dāng)前,無(wú)論是華為、小米還是vivo、OPPO,其內(nèi)嵌大模型的語(yǔ)音助手還沒(méi)有“涌現(xiàn)”的跡象,提供的功能也沒(méi)有超出通用大模型的范疇。
而按照手機(jī)廠商的慣用套路,新技術(shù)是否驅(qū)動(dòng)了新需求尚未可知,但驅(qū)動(dòng)新價(jià)格幾乎是毫無(wú)疑問(wèn)的。
參考資料
[1] 國(guó)內(nèi)大模型爭(zhēng)霸賽,這是你心目中的大模型排名嗎?機(jī)器學(xué)習(xí)
[2] 跑的高能賣錢?手機(jī)廠商為啥要跑分作弊,威鋒網(wǎng)
[3] 小米的大模型“野心”,始于端側(cè),騰訊科技
[4] 誰(shuí)在評(píng)價(jià)大模型?AI大模型評(píng)測(cè)榜單亂象調(diào)查,界面新聞
[5] 手機(jī)跑分突破110萬(wàn)!跑分到底是娛樂(lè)還是有可信度?中關(guān)村在線
[6] 登頂CLUE與MUGE,OPPO語(yǔ)音語(yǔ)義研究部推出中文預(yù)訓(xùn)練大模型CHAOS, 新聞助手
[7] 登頂KgCLUE,OPPO小布推出預(yù)訓(xùn)練大模型OBERT,OPPO小布團(tuán)隊(duì)
[8] 全球最大智能模型“悟道”首次落地:數(shù)字人+終端AI助手,支持NVIDIA GTX單卡機(jī)運(yùn)行百億大模型,雷鋒網(wǎng)
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。