首頁 > 云計算頻道 > 大模型

蘋果多模態(tài)模型大升級！文本密集、多圖理解，全能小鋼炮

2024年10月14日 09:37:29 來源：新智元公眾號

　　近日，一向畫風(fēng)精致的「蘋果牌AI」，也推出了升級版的多模態(tài)大模型，從1B到30B參數(shù)，涵蓋密集和專家混合模型，密集文本、多圖理解，多項能力大提升。

　　多模態(tài)大語言模型(MLLM)如今已是大勢所趨。

　　過去的一年中，閉源陣營的GPT-4o、GPT-4V、Gemini-1.5和Claude-3.5等模型引領(lǐng)了時代。

　　而開源MLLM也同樣在蓬勃發(fā)展，LLaVA系列，InternVL2，Cambrian-1和Qwen2-VL的強(qiáng)勁表現(xiàn)，讓作為老大哥的GPT-4o時常躺槍。

　　開源與閉源之間差距縮小，兼具單圖、多圖、視頻理解能力的MLLM也成為大家研究的重點(diǎn)。

　　說到潮流，怎么能沒有蘋果的一席之地?

　　近日，一向畫風(fēng)精致的「蘋果牌AI」，也推出了升級版的多模態(tài)大模型——MM1.5。

　　論文地址：https://arxiv.org/pdf/2409.20566

　　MM1.5以前代MM1模型為基礎(chǔ)，采用數(shù)據(jù)為中心的方法進(jìn)行訓(xùn)練，顯著增強(qiáng)了文本密集型圖像理解、視覺指代和定位、以及多圖像推理的能力。

　　MM1.5系列的參數(shù)量從1B到30B，涵蓋密集和專家混合(MoE)模型，即使較小的尺寸也有優(yōu)異的表現(xiàn)。

　　具體來說，MM1.5提升了OCR(光學(xué)字符識別)能力，支持任意圖像長寬比和高達(dá)4M像素的分辨率，并且擅長理解富含文本的圖像。

　　在強(qiáng)大而細(xì)粒度的圖像理解能力加持下，MM1.5能夠超越文本提示來解釋視覺內(nèi)容，例如點(diǎn)和邊界框。

　　研究人員還通過對額外的高質(zhì)量多圖像數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)(SFT)，進(jìn)一步提高了模型的上下文學(xué)習(xí)和開箱即用的多圖像推理能力。

　　本文作者重點(diǎn)關(guān)注兩種小規(guī)模的MLLM，包括1B和3B的密集模型與MoE模型，其中小尺寸的密集模型可以輕松部署在移動設(shè)備上。

　　「小模型」也符合蘋果一貫的作風(fēng)，在自家的各種設(shè)備上，能夠更好地與用戶場景(如隱私和安全性)融為一體。

　　之前微軟和蘋果的很多實踐也證明了，利用高質(zhì)量數(shù)據(jù)和先進(jìn)的訓(xùn)練策略，小個子的模型在各種下游任務(wù)中同樣表現(xiàn)強(qiáng)勁，足以超越大尺寸的模型。

　　當(dāng)然了，光是小還不夠，通用性更為重要。

　　MM1.5系列模型在30B參數(shù)的范圍之內(nèi)，都能很好地符合縮放定律，模型越大，性能越強(qiáng)。

　　另一方面，研究人員以MM1.5為基礎(chǔ)，微調(diào)出服務(wù)于視頻理解的MM1.5-Video，以及為移動UI(比如iPhone屏幕)理解定制的MM1.5-UI。

　　模型構(gòu)建

　　MM1.5保留了與MM1相同的模型架構(gòu)，并將改進(jìn)的努力集中在以下幾個關(guān)鍵方面：

　　持續(xù)的預(yù)訓(xùn)練

　　作者在SFT階段之前引入了一個額外的高分辨率連續(xù)預(yù)訓(xùn)練階段，這對于提高富含文本的圖像理解性能至關(guān)重要。

　　作者探索了用于持續(xù)預(yù)訓(xùn)練的富含文本的OCR數(shù)據(jù)，重點(diǎn)關(guān)注圖像中文本的詳細(xì)轉(zhuǎn)錄，還嘗試了高質(zhì)量的合成圖像字幕。

　　SFT

　　混合中的每一類SFT數(shù)據(jù)如何影響最終模型的性能?特別是支持每種功能的數(shù)據(jù)對其他功能有何影響，作者對此進(jìn)行了廣泛的消融實驗。

　　動態(tài)高分辨率

　　對于高分辨率圖像編碼，作者遵循流行的任意分辨率方法，將圖像動態(tài)劃分為子圖像，并進(jìn)行徹底的消融以細(xì)化設(shè)計中的關(guān)鍵細(xì)節(jié)。

　　為了保留前代模型的零樣本和少樣本學(xué)習(xí)能力，并更有效地將它們轉(zhuǎn)移到SFT階段，在開發(fā)MM1.5時，研究人員通過探索純文本數(shù)據(jù)的影響，并優(yōu)化不同預(yù)訓(xùn)練數(shù)據(jù)類型的比例，來進(jìn)一步擴(kuò)展MM1的預(yù)訓(xùn)練。

　　這種方法提高了知識密集型基準(zhǔn)測試的性能，并增強(qiáng)了模型整體的多模態(tài)理解能力。

　　如上圖所示，模型訓(xùn)練包含三個階段：

　　在每個階段，都需要確定最佳數(shù)據(jù)組合并評估每種數(shù)據(jù)類型的影響。

　　消融實驗設(shè)置

　　在消融研究中遵循以下默認(rèn)設(shè)置：

　　靜態(tài)圖像分割通過4個子圖像分割(加上一個概覽圖像)來實現(xiàn)，并且每個子圖像通過位置嵌入插值調(diào)整為672×672分辨率。為了加快實驗迭代速度，在消融過程中沒有使用動態(tài)圖像分割。

　　對于多圖像數(shù)據(jù)的編碼，僅當(dāng)當(dāng)前訓(xùn)練樣本包含少于三幅圖像時才啟用圖像分割，以避免序列長度過長。

　　如下圖所示，模型可以以引用坐標(biāo)和邊界框的形式，解釋對輸入圖像中的點(diǎn)和區(qū)域的引用。

　　MM1.5采用與前代相同的CLIP圖像編碼器和LLM主干網(wǎng)絡(luò)，并以C-Abstractor作為視覺語言連接器。

　　對于連續(xù)預(yù)訓(xùn)練和SFT，作者將批量大小設(shè)置為256。使用AdaFactor優(yōu)化器，峰值學(xué)習(xí)率為1e-5，余弦衰減為0。對于連續(xù)預(yù)訓(xùn)練，最多訓(xùn)練30k步。在SFT期間，所有模型都針對一個epoch進(jìn)行優(yōu)化。

　　模型使用MM1的預(yù)訓(xùn)練檢查點(diǎn)進(jìn)行初始化。這個階段對45M高分辨率OCR數(shù)據(jù)(包括PDFA、IDL、Renderedtext和DocStruct-4M)進(jìn)行持續(xù)的預(yù)訓(xùn)練，每個訓(xùn)練批次從這四個數(shù)據(jù)集中均勻采樣數(shù)據(jù)。

　　與SFT階段類似，作者使用靜態(tài)圖像分割，將每個圖像分為五個子圖像，每個子圖像的大小調(diào)整為672×672分辨率。作者發(fā)現(xiàn)這種高分辨率設(shè)置對于持續(xù)預(yù)訓(xùn)練至關(guān)重要。

　　最后，將數(shù)據(jù)集分組有助于數(shù)據(jù)平衡和簡化分析。在較高層面上，作者根據(jù)每個示例中呈現(xiàn)的圖像數(shù)量將數(shù)據(jù)集分為單圖像、多圖像和純文本類別，詳細(xì)的分類情況如下圖所示：

　　研究人員根據(jù)主要衡量的功能將基準(zhǔn)分為幾類，并提出類別平均分?jǐn)?shù)(每個子類別的所有基準(zhǔn)數(shù)字的平均分?jǐn)?shù))，以代表該功能的平均性能。

　　SFT消融

　　然后是對于SFT數(shù)據(jù)混合的全面消融。作者首先評估一般數(shù)據(jù)類別，然后逐步評估單獨(dú)添加其他子類別的影響。

　　在訓(xùn)練過程中，作者混合來自不同子類別的數(shù)據(jù)，通過從混合物中隨機(jī)采樣數(shù)據(jù)來構(gòu)建每個訓(xùn)練批次，并使用類別平均得分來比較使用每種功能的模型，結(jié)果如下圖所示。

　　作者觀察到，添加富含文本的數(shù)據(jù)可以顯著提高文本密集型和知識基準(zhǔn)的性能，數(shù)學(xué)數(shù)據(jù)也遵循類似的趨勢。

　　以一般數(shù)據(jù)類別為參考，對目標(biāo)類別數(shù)據(jù)進(jìn)行上采樣/下采樣，使得在每個訓(xùn)練批次中，一般數(shù)據(jù)類別和目標(biāo)類別的數(shù)據(jù)比例為1：α。

　　為了衡量α的平均影響，作者提出MMBase分?jǐn)?shù)用于模型比較。如下圖所示，作者針對不同的數(shù)據(jù)類別改變α。對于科學(xué)、數(shù)學(xué)和代碼類別，作者發(fā)現(xiàn)α的最佳比率分別為0.1、0.5和0.2。

　　下一項需要探究的是單圖像、多圖像和純文本數(shù)據(jù)的混合比例。

　　枚舉三個比率之間的所有組合將產(chǎn)生大量的計算成本。因此，作者分別對純文本數(shù)據(jù)和多圖像數(shù)據(jù)進(jìn)行消融，以評估模型對比例的敏感程度。

　　對于純文本數(shù)據(jù)，作者測試了0到0.2的范圍，下圖結(jié)果表明，不同的w值對模型的基礎(chǔ)影響較小。

　　通過圖7(右)還可以觀察到，增加多圖像數(shù)據(jù)的采樣率會導(dǎo)致基本功能的性能下降(MMBase分?jǐn)?shù)減少)，而多圖像平均分?jǐn)?shù)會增加。所以作者選擇w= 0.1為單圖像數(shù)據(jù)分配更高的權(quán)重，以提高潛在的性能。

　　基于上述研究，作者提出了三種混合：基礎(chǔ)混合、單圖像混合、全混合。

　　下圖前三列表明，包含參考數(shù)據(jù)和多圖像數(shù)據(jù)會稍微降低密集文本、知識和一般基準(zhǔn)的平均性能。

　　最后一欄表明，作者優(yōu)化的組合實現(xiàn)了最佳的整體性能，平衡了基準(zhǔn)測試中的所有功能。

　　最后，放幾張跑分對比，包括Text-rich、In Context Learning和Multi-image：

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅持質(zhì)價比不動

中端質(zhì)價比之王，真我Neo7正式發(fā)布2099元起　　

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

蘋果多模態(tài)模型大升級！文本密集、多圖理解，全能小鋼炮

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

3C消費(fèi)

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實力，創(chuàng)

研究

中國信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

專題

蘋果多模態(tài)模型大升級！文本密集、多圖理解，全能小鋼炮

擴(kuò)展閱讀

蘋果多模態(tài)模型大升級！文本密集、多圖理解，全能小鋼炮