視覺語言模型BLIVA:讓AI更擅長閱讀圖像中的文本懂得看路牌和食品包裝

2023年08月29日 21:02:50 來源：站長之家

　　文章概要:

　　1.BLIVA是一種視覺語言模型，擅長讀取圖像中的文本。

　　2. BLIVA結(jié)合了InstructBLIP的學(xué)習(xí)查詢嵌入和LLaVA的編碼修補(bǔ)嵌入。

　　3. BLIVA在多個數(shù)據(jù)集上表現(xiàn)優(yōu)異，可用于識別路牌、食品包裝等場景。

　　BLIVA 是一種視覺語言模型，擅長讀取圖像中的文本，使其在許多行業(yè)的現(xiàn)實(shí)場景和應(yīng)用中發(fā)揮作用。

　　加州大學(xué)圣地亞哥分校的研究人員開發(fā)了 BLIVA，這是一種視覺語言模型，旨在更好地處理包含文本的圖像。視覺語言模型 (VLM) 通過合并視覺理解功能來擴(kuò)展大型語言模型 (LLM)，以回答有關(guān)圖像的問題。

　　這種多模態(tài)模型在開放式視覺問答基準(zhǔn)方面取得了令人印象深刻的進(jìn)展。一個例子是 OpenAI 的GPT-4，它的多模式形式可以在用戶提示時討論圖像內(nèi)容，盡管此功能目前僅在“Be my Eyes”應(yīng)用程序中可用。

　　然而，當(dāng)前系統(tǒng)的一個主要限制是處理帶有文本的圖像的能力，這在現(xiàn)實(shí)場景中很常見。

　　BLIVA 結(jié)合了 InstructBLIP 和 LLaVA

　　視覺語言模型通過合并視覺理解功能來擴(kuò)展大型語言模型，以回答有關(guān)圖像的問題。

　　BLIVA結(jié)合了兩種互補(bǔ)的視覺嵌入類型。一種是Salesforce InstructBLIP提取的學(xué)習(xí)查詢嵌入，用于關(guān)注與文本輸入相關(guān)的圖像區(qū)域;另一種是受Microsoft LLaVA啟發(fā)提取的編碼修補(bǔ)嵌入，直接從完整圖像的原始像素修補(bǔ)中獲得。

　　研究人員表示，這種雙重方法允許BLIVA同時利用針對文本定制的精煉查詢嵌入，以及捕捉更多視覺細(xì)節(jié)的更豐富的編碼修補(bǔ)。

　　BLIVA 使用大約550，000個圖像標(biāo)題對進(jìn)行了預(yù)訓(xùn)練，并使用150，000個視覺問答示例調(diào)整了指令，同時保持視覺編碼器和語言模型凍結(jié)。

　　在多個數(shù)據(jù)集上，BLIVA的表現(xiàn)明顯優(yōu)于InstructBLIP等其他模型。例如，在OCR-VQA數(shù)據(jù)集上，BLIVA的準(zhǔn)確率達(dá)到65.38%，而InstructBLIP只有47.62%。

　　研究人員認(rèn)為這證明了多嵌入方法對廣泛的視覺理解的益處。BLIVA還在YouTube視頻縮略圖數(shù)據(jù)集上取得了92%的準(zhǔn)確率。BLIVA識讀圖像文本的能力可應(yīng)用于許多行業(yè)，如識別路牌、食品包裝等。BLIVA有望改善現(xiàn)實(shí)世界中的多種應(yīng)用。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信