下單前先比價不花冤枉錢 同款圖書京東價低于抖音6折日媒感慨中國電動汽車/智駕遙遙領(lǐng)先:本田、日產(chǎn)、三菱合并也沒戲消委會吹風(fēng)機品質(zhì)檢測結(jié)果揭曉 徠芬獨占鰲頭 共話新質(zhì)營銷力,2024梅花數(shù)據(jù)峰會圓滿落幕索尼影像專業(yè)服務(wù) PRO Support 升級,成為會員至少需注冊 2 臺 α 全畫幅相機、3 支 G 大師鏡頭消息稱vivo加碼電池軍備競賽:6500mAh 旗艦機+7500mAh中端機寶馬M8雙門轎跑車明年年初將停產(chǎn),后續(xù)無2026款車型比亞迪:2025 款漢家族車型城市領(lǐng)航智駕功能開啟內(nèi)測雷神預(yù)告2025年首次出席CES 將發(fā)布三款不同技術(shù)原理智能眼鏡realme真我全球首發(fā)聯(lián)發(fā)科天璣 8400 耐玩戰(zhàn)神共創(chuàng)計劃iQOO Z9 Turbo長續(xù)航版手機被曝電池加大到6400mAh,搭驍龍 8s Gen 3處理器普及放緩 銷量大跌:曝保時捷將重新評估電動汽車計劃來京東參與榮耀Magic7 RSR 保時捷設(shè)計預(yù)售 享365天只換不修國補期間電視迎來換機潮,最暢銷MiniLED品牌花落誰家?美團旗下微信社群團購業(yè)務(wù)“團買買”宣布年底停運消息稱微軟正與第三方廠商洽談,試圖合作推出Xbox游戲掌機設(shè)備在海外,要再造一個京東物流?消息稱蘋果正為AirPods開發(fā)多項健康功能,包括心率監(jiān)測和溫度感應(yīng)一加 Ace 5系列將搭載全新游戲助手:大幅提升游戲體驗東芝全部業(yè)務(wù)實現(xiàn)盈利,退市裁員重組后終于賺錢
  • 首頁 > 云計算頻道 > 大模型

    天工大模型登頂多模態(tài)榜單!解決幻覺、跨語言兩大難題

    2023年09月06日 14:20:56   來源:微信公眾號量子位

      本文來自于微信公眾號 量子位 (ID:QbitAI),作者:豐色。

      國產(chǎn)大模型,登頂多模態(tài)榜單!

      昆侖萬維最近在大模型圈可謂“風(fēng)生水起”。

      幾天前剛被曝挖來了AI大牛顏水成,出任天工智能聯(lián)席CEO。

      現(xiàn)在,其「天工」大模型Skywork-MM又登頂多模態(tài)榜單,在騰訊優(yōu)圖實驗室聯(lián)合廈門大學(xué)開展的多模態(tài)大語言模型(Multimodal Large Language Model,簡稱“MLLM”)測評中,綜合得分排名第一。

      騰訊優(yōu)圖實驗室聯(lián)合廈門大學(xué)在新建的評測基準(zhǔn)MME上首次對全球范圍內(nèi)MLLM模型進行了全面定量評測并公布了16個排行榜,包含感知、認(rèn)知兩個總榜單以及14個子榜單。

      MME數(shù)據(jù)集是一個最近發(fā)布的多模態(tài)語言模型測評基準(zhǔn)。

      它通過大型多模態(tài)語言模型在涵蓋感知和認(rèn)知任務(wù)的14個子任務(wù)上的表現(xiàn)來全面評估模型。

      而Skywork-MM只用了不到50M的圖文數(shù)據(jù)——遠(yuǎn)小于其他大模型(>100M),拿下了第一(榜單地址見文末)。

      如何做到?

      主要是解決了現(xiàn)有多模態(tài)大模型中頗為困擾的兩大問題:

      幻覺和較弱的跨語言能力。 多模態(tài)兩大難

      所謂幻覺,是指多模態(tài)大模型在回答問題時,傾向于肯定的答案,即使我們所給的問題中根本沒有相關(guān)特征。

      例如面對下面這張圖像。

      如果問它“這個男人的頭發(fā)是什么顏色?”,即使優(yōu)秀如LLaVA、MiniGPT-4等多模態(tài)大模型,也會“睜著眼說瞎話”:黑色。

      再如這張圖片:一個玻璃杯、一個茶杯、一個浴缸里面有條小金魚。

      如果問它“圖片中的所有物品都是黃色的嗎?”,沒有誰能答對。

      至于跨語言能力問題,主要表現(xiàn)在應(yīng)對中文場景中的問題回答不盡如人意。

      比如辨認(rèn)下面這張圖片是“科羅拉多大峽谷還是蘇州園林”時,3個雙語多模態(tài)語言模型:LLaVA、 LLaVA-Chinese、ImageBind-LLm全部回答成前者。

      問它們從哪里能觀賞到該景色,就更是一言難盡了。

      甚至有時,模型還會直接回復(fù)純英文。

      這兩大問題嚴(yán)重影響著現(xiàn)有多模態(tài)大模型的性能。

      怎么解決? 三方面入手

      昆侖萬維天工大模型Skywork-MM從分別從數(shù)據(jù)、模型和訓(xùn)練流程三方面入手。

      其中重點是數(shù)據(jù)和模型。

      先看數(shù)據(jù)。

      首先對于幻覺問題。

      從本質(zhì)出發(fā),該問題主要是整個模型訓(xùn)練過程中使用的數(shù)據(jù)太偏重正樣本。

      也就是說,模型描述的都是圖片中有什么,而沒有學(xué)習(xí)圖片中沒有什么。

      如果訓(xùn)練過程中再碰上弱相關(guān)的圖文數(shù)據(jù),模型就更加放飛聯(lián)想、形成較嚴(yán)重的幻覺。

      為此,天工大模型多模態(tài)團隊提出以圖像為中心,喂給模型既包含正樣本也包含負(fù)樣本的多模態(tài)指令微調(diào)數(shù)據(jù):

      這使得模型既能夠?qū)W習(xí)一張圖像中存在的視覺特征,也能學(xué)習(xí)到不存在的特征。

      這樣,模型的指令跟隨能力便得到增強:問什么答什么,沒有的也不胡編。

      其次,對于跨語言中的中文問題,一共有兩個解決思路:

      (1)增強中文的指令追隨能力。

      由于“微調(diào)指令的文化gap很小”,只需將上面解決幻覺問題中構(gòu)造的英文指令微調(diào)數(shù)據(jù)翻譯成中文使用。

      (2)增強中文相關(guān)場景的識別能力。

      需要注意的是,在解決跨語言問題時,我們重點關(guān)注的點是文化偏差——

      即通用的視覺特征和語言特征可以通過共有的語料進行關(guān)聯(lián),但是各個語言文化中專有的視覺特征和語言特征的關(guān)聯(lián)需要大量特殊學(xué)習(xí)。

      因此我們需要加入大規(guī)模的中文圖像-文本對數(shù)據(jù)。

      不過,這樣的中文語料并不好收集,一是囿于數(shù)據(jù)質(zhì)量,而是困于數(shù)量。

      怎么辦?

      引出Skywork-MM在模型架構(gòu)上的改進。

      為了不讓低質(zhì)量的圖文數(shù)據(jù)影響模型效果,天工大模型多模態(tài)團隊在設(shè)計上選擇將視覺模型和大語言模型完全凍結(jié)。

      這樣做的目的是保持視覺模型在前置CLIP訓(xùn)練中學(xué)習(xí)到的視覺特征不損失,以及大語言模型的語言能力不損失。

      同時,為了更好的關(guān)聯(lián)不同文化環(huán)境中的視覺特征和語言特征,模型整體包含了一個可學(xué)習(xí)的視覺特征采樣器和語言模型的LoRA適配器。

      如下圖所示,Skywork-MM一共包含四大模塊:

      給定一張圖像,LVM先提取圖像特征,然后將圖像特征輸入到重采樣器中,計算出可為LLM輸入的token。

      LLM接收token和指令提示(如果有),然后輸出圖像描述或?qū)栴}的回答。

      至于訓(xùn)練流程,主要分為兩階段:

      第一階段使用雙語的大規(guī)模圖文對數(shù)據(jù)進行圖像概念和語言概念的關(guān)聯(lián)學(xué)習(xí)。

      第二階段使用多模態(tài)微調(diào)數(shù)據(jù)進行指令微調(diào)。

      此時,各種類型的指令微調(diào)數(shù)據(jù)(包括正樣本和負(fù)樣本)就組成統(tǒng)一的Chat Prompt形式。

      Ps. 上圖中的重采樣器和LoRA適配器標(biāo)記了火焰,它們是可訓(xùn)練的。 登頂MME綜合榜單

      如下表所示,Skywork-MM一共用了大約50M圖文數(shù)據(jù),這比當(dāng)前的同類大模型都要少得多。

      但經(jīng)過以上數(shù)據(jù)、模型和訓(xùn)練流程三方面的改進,Skywork-MM效果拔群。

      如下圖所示:

      它能夠準(zhǔn)確理解圖片中的反常行為;

      也能聽明白一些特殊的指令(根據(jù)選項回答問題,根據(jù)風(fēng)景寫詩,寫廣告詞,寫獲獎感言等等);

      對于中文場景問題,表現(xiàn)得也不再像個“歪果仁”了。

      可謂擁有了良好的指令跟隨和中文場景問答能力。

      因此像第一段展示的那些幻覺和跨語言問題,它完全可以信手拈來:

      孟非沒有頭發(fā)就沒有,不會說成黑色;蘇州園林、非誠勿擾節(jié)目一眼認(rèn)出;三個物體沒有一個是黃色。

      而如開頭所示,在與其他模型的橫向測試中,Skywork-MM直接榮登MME榜單綜合第一,包括感知榜單第一(且與第二名有著43分的差距)、認(rèn)知榜單第二。

      這個榜單大約今年6月上線、目前GitHub4k標(biāo)星,是當(dāng)前多模態(tài)大模型最新的測評基準(zhǔn)之一。

      它一共包含14個子任務(wù),其中感知任務(wù)除OCR,還包括粗粒度和細(xì)粒度對象識別,前者識別對象的存在與否、數(shù)量、位置和顏色;后者識別電影海報、名人、場景、地標(biāo)和藝術(shù)品。

      認(rèn)知任務(wù)則包括常識推理、數(shù)值計算、文本翻譯和代碼推理。

      下表顯示Skywork-MM在該榜單感知任務(wù)中的OCR+粗粒度識別上的具體得分:

      細(xì)粒度識別得分:

      以及認(rèn)知任務(wù)得分:

      可以看到,能與Skywork-MM偶爾“平分秋色”的只有MiniGPT-4和BLIP系列。

      而除了MME榜單,Skywork-MM還在另一多模態(tài)基準(zhǔn)MMBench的開發(fā)集上表現(xiàn)出色:

      進步空間

      需要注意的是,盡管昆侖萬維天工大模型這一最新成果,代表了當(dāng)前多模態(tài)大模型的最高水平,但它還是存在很多進步空間。

      例如:

      文化和語言障礙仍然存在,還需要我們開發(fā)一種多語言的LVM,更有效地提取不同文化特有的視覺特征,或者再收集更多各語言的大規(guī)模、高質(zhì)量圖像文本對,確保模型準(zhǔn)確掌握視覺概念和文本概念的關(guān)聯(lián)。

      除此之外,目前的成果只建立在較小規(guī)模的基礎(chǔ)之上(13B),如果研究更大的多模態(tài)模型,我們在使用數(shù)據(jù)、參數(shù)設(shè)置、訓(xùn)練策略等方面可能都需要進一步探索。

      評估基準(zhǔn)也還可以更全面,目前MME和MMBench的測試范圍都有限。

      以及從上面的粗粒度感知識別任務(wù)榜單來看,現(xiàn)有所有多模態(tài)大模型對于根據(jù)圖片準(zhǔn)確識別物體位置的能力(對實現(xiàn)機器人感知意義重大)都比較欠缺:

      最高的模型得分才33.33,離滿分100還有很大的差距。

      這個缺陷從下圖也可以看出:

      毫無疑問的是,人工智能的未來一定是多模態(tài)的。

      以上這些問題說明,我們才剛剛開始探索它真正的潛力。

      然而,我們相信,在一次又一次的榜單排名更迭之中,屬于多模態(tài)大模型的“ChatGPT時刻”終將會到來。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。