破局清潔賽道,追覓科技以最強(qiáng)技術(shù)實(shí)力斬獲用戶信賴AMD 在北京AI PC創(chuàng)新峰會展示銳龍AI PC 生態(tài)系統(tǒng)的強(qiáng)大實(shí)力和京東采銷一起云逛2025TCT亞洲3D打印展 開啟3D打印新體驗(yàn)瞄準(zhǔn)下一個(gè)億級市場,星紀(jì)魅族布局AR的野望理光高管暢談單反、膠片與GR系列未來:堅(jiān)守傳統(tǒng)與創(chuàng)新并行英偉達(dá)“量子日”來襲:美國量子計(jì)算概念股大漲臺電預(yù)熱8.7英寸小屏120Hz平板電腦下月發(fā)布 搭聯(lián)發(fā)科G99處理器支持雙4G通話上網(wǎng)網(wǎng)友爆料二手光貓產(chǎn)業(yè)鏈:留守老人被“收割”三星Galaxy S25 Ultra 手機(jī)第 8 種顏色擱淺,三星移除預(yù)熱推文PNY 推出 RTX 5070 Ti Triple Fan Plus 系列顯卡中國聯(lián)通:2024 年全年凈利潤 206.1 億元,同比提升 10.1%昆侖萬維開源 R1V 視覺思維鏈推理模型保時(shí)捷全新718 Cayman車型亮相在即 預(yù)計(jì)2026年上市AMD新品上市開啟裝機(jī)熱潮,華碩DIY裝備強(qiáng)勢助力珠海華發(fā)集團(tuán)戰(zhàn)略投資智譜AI 助力大模型技術(shù)創(chuàng)新雷諾5 Turbo 3E電動超跑限量版即將問世 致敬經(jīng)典車型2月中國游戲市場收入環(huán)比下降10.11%,海外銷售收入同步下滑三星發(fā)布AI驅(qū)動的智能家居空調(diào)解決方案三星取消Galaxy S25 Ultra新配色計(jì)劃寧德時(shí)代與蔚來達(dá)成換電戰(zhàn)略合作
  • 首頁 > 云計(jì)算頻道 > 大模型

    模態(tài)GAP不存在了?圖文領(lǐng)域首個(gè)token級大一統(tǒng)基座誕生

    2025年03月18日 14:38:19   來源:機(jī)器之心

    圖片

      CLIP、DINO、SAM 基座的重磅問世,推動了各個(gè)領(lǐng)域的任務(wù)大一統(tǒng),也促進(jìn)了多模態(tài)大模型的蓬勃發(fā)展。

      然而,這些經(jīng)過圖像級監(jiān)督或弱語義訓(xùn)練的基座,并不是處理細(xì)粒度密集預(yù)測任務(wù)的最佳選擇,尤其在理解包含密集文字的文檔圖像上。

      為解決這一限制,上交聯(lián)合美團(tuán)實(shí)現(xiàn)了圖文對齊粒度的新突破,其具備三大核心優(yōu)勢:

      構(gòu)建業(yè)內(nèi)首個(gè) token 級圖文數(shù)據(jù)集 TokenIT:該數(shù)據(jù)集包含 2000 萬條公開圖像以及 18 億高質(zhì)量的 Token-Mask 對。圖像中的每個(gè) BPE 子詞均對應(yīng)一個(gè)像素級掩碼。數(shù)據(jù)體量是 CLIP 的 5 倍,且比 SAM 多出 7 億數(shù)據(jù)對。

      構(gòu)建圖文領(lǐng)域首個(gè)細(xì)粒度大一統(tǒng)基座 TokenFD:僅需通過簡單的一層語言編碼,依托億級的 BPE-Mask 對打造出細(xì)粒度基座 TokenFD。真正實(shí)現(xiàn)了圖像 Token 與語言 Token 在同一特征空間中的共享,從而支持 Token 級的圖文交互和各種下游任務(wù)。

      TokenVL 打通模態(tài) GAP:進(jìn)一步開放圖像即文本的語義潛力,首次實(shí)現(xiàn)在大語言模型中進(jìn)行 token 級的模態(tài)對齊,賦能密集型的多模態(tài)文檔理解任務(wù)。

      論文和 demo 已發(fā)布,相關(guān)數(shù)據(jù)、模型及代碼資源將陸續(xù)向社區(qū)全面開放。

    圖片

      項(xiàng)目主頁:https://token-family.github.io/project_page/

      體驗(yàn)地址:https://huggingface.co/spaces/TongkunGuan/Token-level_Text_Image_Foundation_Model

      GitHub:https://github.com/Token-family/TokenFD

      論文地址: https://arxiv.org/pdf/2503.02304

    圖片

      首個(gè) Token 級圖文數(shù)據(jù)集 TokenIT

      據(jù)不完全統(tǒng)計(jì),大約 30% 至 40% 的互聯(lián)網(wǎng)圖像包含可識別的文字,而這一比例在社交媒體平臺上更為顯著。

      如何有效利用這些數(shù)據(jù)來增強(qiáng)行業(yè)基礎(chǔ) AI 生態(tài)的發(fā)展,一直是研究者們持續(xù)探索的方向。然而,目前真實(shí)場景數(shù)據(jù)中的文字標(biāo)簽多為單詞級或行級,這與大語言模型所采用的 BPE token 編碼規(guī)則不完全兼容。

      此類數(shù)據(jù)集的不足,不僅限制了視覺基礎(chǔ)模型在細(xì)粒度視覺感知方面的表現(xiàn),也影響了多模態(tài)大語言模型在視覺與語言模態(tài)間的對齊能力。

    圖片

      為了解決這一限制,他們采用自研的 token 級的視覺語言分詞打標(biāo)技術(shù),提出了業(yè)內(nèi)首個(gè) token 級別的圖像文本數(shù)據(jù)集,填補(bǔ)了這一領(lǐng)域的數(shù)據(jù)空白,其亮點(diǎn)包括:

      規(guī)模與多樣性

      包含 2000 萬張圖像與 18 億 Token-Mask 對,覆蓋自然場景、文檔、圖表、代碼截圖、圖形用戶界面等全場景文本圖像類型。

      數(shù)據(jù)量遠(yuǎn)超 CLIP(5 倍)、SAM(多 7 億),提供更豐富的語義信息。

      細(xì)粒度對齊

      首創(chuàng) BPE 分詞 + 像素級掩碼標(biāo)注:將文本分割為 BPE 子詞(如「un-」、「-able」),每個(gè)子詞(token)精確對應(yīng)圖像中的局部區(qū)域。

      支持「圖像即文字」的語義映射,為多模態(tài)大模型理解字符、公式、表格等復(fù)雜結(jié)構(gòu)奠定基礎(chǔ)。

      首個(gè)細(xì)粒度基座 TokenFD

      先前的視覺基座模型(如 CLIP、DINO)依賴圖像級監(jiān)督,難以捕捉文檔、表格等場景中的密集小文本語義,導(dǎo)致下游任務(wù)(如 OCR、視覺問答)性能受限。

      SAM 具備像素級的分割能力,其受限的語義表示限制了其在文本圖像場景的全生態(tài)應(yīng)用。依托自主研發(fā)的數(shù)億級 BPE-Mask 對,他們首次實(shí)現(xiàn)了 token 級的視覺和語言模態(tài)對齊,支持細(xì)粒度交互,填補(bǔ)了這一技術(shù)空白。

      在實(shí)現(xiàn)上,TokenFD 并不依賴復(fù)雜的語言編碼器,而是通過簡化的 token embedding layer,將視覺編碼器提取的視覺特征映射到語言編碼空間。

      對于 token 級的視覺和語言特征,正樣本對確保數(shù)值與方向相似,而負(fù)樣本對則相反。在百億級 token-mask 數(shù)據(jù)的顯式監(jiān)督下,TokenFD 真正實(shí)現(xiàn)了「圖像即文字」,其亮點(diǎn)包括:

    圖片

      支持多任務(wù)

      文本分割(Zero-Shot 性能提升 18.78%)

      文本理解(Zero-Shot 性能提升 1.48%)

      文本檢索(Zero-Shot 性能提升 50.33%)

      未來盼望他們支持可控文本生成/擦除等更多任務(wù)

      推動 MLLM 發(fā)展

      賦能多模態(tài)大模型(例如 TokenVL)細(xì)粒度文字感知能力,顯著提升 OCR、文檔解析等任務(wù)表現(xiàn)。

      商業(yè)化應(yīng)用

      圖像安全審查

      基于文字的圖像檢索(適用于搜索引擎、電商平臺、社交平臺)

      知識檢索增強(qiáng)的大模型

      據(jù)了解,demo 已在 Hugging Face 上線,歡迎體驗(yàn)。它突破了傳統(tǒng)基于文字識別的圖文檢索方式,通過特征空間直接進(jìn)行相似度匹配,支持任意文字輸入進(jìn)行圖像內(nèi)容查找。

    圖片

      文檔理解多模態(tài)大模型 TokenVL

      通用視覺基礎(chǔ)模型在多模態(tài)大語言模型中作為圖像編碼器被廣泛應(yīng)用,推動了圖像理解能力的快速發(fā)展。

      然而,現(xiàn)有的視覺模型在涉及圖像中細(xì)粒度文本(如密集小文本)的下游任務(wù)中仍面臨顯著挑戰(zhàn),例如文本感知、理解與推理的準(zhǔn)確性不足。

      這一問題的根源在于當(dāng)前基座模型缺乏針對文本密集場景的細(xì)粒度語義監(jiān)督,導(dǎo)致在文檔理解、圖文問答等實(shí)際場景中頻繁出現(xiàn)預(yù)測偏差。

      因此作者們系統(tǒng)性地探索了 TokenFD 作為基座模型在通用文檔智能領(lǐng)域的潛力。

      基座適配度百分百

      無需額外訓(xùn)練,TokenFD 可直接替換其他多模態(tài)大模型的基座,各項(xiàng)評估基準(zhǔn)都得到了提升。

      文檔理解多模態(tài)大模型對齊新范式

      基于 TokenFD 作為視覺基礎(chǔ)模型,作者們進(jìn)一步推出了 TokenVL,一種全新的多模態(tài)大模型圖文對齊預(yù)訓(xùn)練范式。

      通過利用 TokenIT 作為預(yù)訓(xùn)練數(shù)據(jù),創(chuàng)新性地通過索引方法提取大語言模型(LLM)中的語言 token,并將其與圖像特征圖中對應(yīng)的圖像 token 直接匹配,在此過程中引入約束函數(shù)以實(shí)現(xiàn)精準(zhǔn)對齊。

      這一方法允許 LLM 在回答問題時(shí)能夠更直接地參考圖像內(nèi)容,而不僅僅依賴于其強(qiáng)大的語義上下文理解能力,尤其在理解答案的空間位置時(shí)更具優(yōu)勢。在多個(gè) UDV 數(shù)據(jù)集上進(jìn)行了評測,結(jié)果顯示出卓越的性能和令人滿意的效果。

    圖片

      更多方法和實(shí)驗(yàn)細(xì)節(jié)請參照論文。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。