字節(jié)與浙大聯(lián)合推多模態(tài)大語言模型Vista-LLaMA 可解讀視頻內(nèi)容

2024年01月10日 17:06:59 來源：中文科技資訊

　　Vista-LLaMA 在處理長視頻內(nèi)容方面的顯著優(yōu)勢，為視頻分析領(lǐng)域帶來了新的解決框架。

　　近年來，大型語言模型如 GPT、GLM 和 LLaMA 等在自然語言處理領(lǐng)域取得了顯著進展，基于深度學(xué)習(xí)技術(shù)能夠理解和生成復(fù)雜的文本內(nèi)容。然而，將這些能力擴展到視頻內(nèi)容理解領(lǐng)域則是一個全新的挑戰(zhàn) —— 視頻不僅包含豐富多變的視覺信息，還涉及時間序列的動態(tài)變化，這使得大語言模型從視頻中提取信息變得更為復(fù)雜。

　　面對這一挑戰(zhàn)，字節(jié)跳動聯(lián)合浙江大學(xué)提出了能夠輸出可靠視頻描述的多模態(tài)大語言模型 Vista-LLaMA。Vista-LLaMA 專門針對視頻內(nèi)容的復(fù)雜性設(shè)計，能夠有效地將視頻幀轉(zhuǎn)換為準確的語言描述，從而極大地提高了視頻內(nèi)容分析和生成的質(zhì)量。

　　論文主頁：https://jinxxian.github.io/Vista-LLaMA/

　　圖 1

　　技術(shù)創(chuàng)新路徑

　　現(xiàn)有多模態(tài)視覺與語言模型在處理視頻內(nèi)容時，通常將視頻幀轉(zhuǎn)化為一系列的視覺 token，并與語言 token 結(jié)合以生成文本。然而，隨著生成文本長度的增加，視頻內(nèi)容的影響往往逐漸減弱，導(dǎo)致生成的文本越來越多地偏離原視頻內(nèi)容，產(chǎn)生所謂的 “幻覺” 現(xiàn)象。

　　Vista-LLaMA 通過創(chuàng)新的方式處理視頻和文本間的復(fù)雜互動，突破了傳統(tǒng)視頻語言模型的限制。Vista-LLaMA 的核心創(chuàng)新在于其獨特的視覺與語言 token 處理方式。不同于其他模型，它通過維持視覺和語言 token 間的均等距離，有效避免了文本生成中的偏差，尤其是在長文本中更為顯著。這種方法大幅提高了模型對視頻內(nèi)容的理解深度和準確性。

640 (1).jpeg

　　圖 2

　　Vista-LLaMA 采用了一種改良的注意力機制 —— 視覺等距離 token 注意力(EDVT)，它在處理視覺與文本 token 時去除了傳統(tǒng)的相對位置編碼，同時保留了文本與文本之間的相對位置編碼。EDVT 機制通過特定的函數(shù)處理隱藏層輸入，有效區(qū)分視覺 token 來源。

640 (1).png

　　具體而言，它首先對輸入進行查詢、鍵和值的映射轉(zhuǎn)換，接著對查詢和鍵輸入應(yīng)用旋轉(zhuǎn)位置編碼(RoPE)，分別計算帶 RoPE 和不帶 RoPE 的注意力權(quán)重。隨后，根據(jù)視覺 token 的存在與否合并這兩種注意力權(quán)重，通過 softmax 函數(shù)實現(xiàn)注意力的歸一化，并最終通過基于注意力權(quán)重的線性映射更新表示，生成輸出結(jié)果。這種創(chuàng)新使得多模態(tài)大語言模型能夠更加關(guān)注視頻的內(nèi)容，尤其在復(fù)雜的視頻場景中，能夠有效地捕捉關(guān)鍵視覺元素，提升了文本生成的質(zhì)量和相關(guān)性。

640 (2).png

　　圖 3

　　同時，該模型引入的序列化視覺投影器為視頻中的時間序列分析提供了新的視角，它不僅能夠處理當前視頻幀，還能利用前一幀的信息，從而增強視頻內(nèi)容的連貫性和時序邏輯。

　　視覺投影器的作用是將視頻特征映射到語言嵌入空間，以便大型語言模型融合和處理視覺與文本輸入。如圖 4 所示，早期的視覺投影器通常使用線性層或查詢轉(zhuǎn)換器(Q-Former)直接將幀特征轉(zhuǎn)換為語言 token。然而，這些方法忽略了時間關(guān)系，限制了語言模型對視頻的全面理解。Vista-LLaMA 中引入了序列化視覺投影器，它通過線性投影層編碼視覺 token 的時間上下文，增強了模型對視頻動態(tài)變化的理解能力，這對于提升視頻內(nèi)容分析的質(zhì)量至關(guān)重要。

640 (3).png

　　圖 4

　　基準測試結(jié)果

　　Vista-LLaMA 在多個開放式視頻問答基準測試中展現(xiàn)了卓越性能。它在 NExT-QA 和 MSRVTT-QA 測試中取得了突破性成績，這兩個測試是衡量視頻理解和語言生成能力的關(guān)鍵標準。在零樣本 NExT-QA 測試中，Vista-LLaMA 實現(xiàn)了 60.7% 的準確率。而在 MSRVTT-QA 測試中達到了 60.5% 的準確率，超過了目前所有的 SOTA 方法。這些成績在行業(yè)中屬于先進水平，顯著超越了其他 SOTA 模型，如 Video-ChatGPT 和 MovieChat。

640 (4).png

　　圖 5

640 (5).png

　　這些測試結(jié)果證明了 Vista-LLaMA 在視頻內(nèi)容理解和描述生成方面的高效性和精準性，Vista-LLaMA 能夠準確理解和描述視頻內(nèi)容，顯示了其強大的泛化能力。這些成績不僅展示了 Vista-LLaMA 在理解復(fù)雜視頻內(nèi)容方面的能力，還證明了其在多模態(tài)語言處理領(lǐng)域的領(lǐng)先地位。

　　數(shù)據(jù)集：CineClipQA

640 (6).png

　　圖 6

　　與 Vista-LLaMA 一同提出的還有 CineClipQA 新數(shù)據(jù)集。

　　CineClipQA 包含了 153 個精選視頻片段，這些片段來自五部風(fēng)格和敘事手法各異的電影。每個片段代表電影情節(jié)的一個或多個獨特部分，并附有 16 個量身定制的問題，共計 2448 個問題。問題分為系統(tǒng)提示和問題兩部分：

　　● 系統(tǒng)提示提供了當前視頻片段中關(guān)鍵角色的基本信息，并在必要時為角色的初始行動提供提示。

　　● 問題主要分為五類：識別、時間性(預(yù)測)、空間性(互動)、意圖和感知。具體來說，識別包括地點和行動的問題;時間性涉及下一個行動、之前的行動、同時發(fā)生的行動和預(yù)測行動的問題;空間性涉及物體與人之間的空間信息問題;意圖涉及行動目的地三種相似問題;最后，感知檢查情感識別和詢問 “如何”(方式、態(tài)度等)。

　　該研究還提供了所有 16 種類型的詳細解釋和相應(yīng)案例。在 CineClipQA 數(shù)據(jù)集中，Vista-LLaMA 也表現(xiàn)出了卓越的性能。

640 (7).png

　　圖 7

　　簡言之，Vista-LLaMA 在處理長視頻內(nèi)容方面的顯著優(yōu)勢，為視頻分析領(lǐng)域帶來了新的解決框架，推動人工智能在視頻處理和內(nèi)容創(chuàng)作方面的發(fā)展，預(yù)示著未來多模態(tài)交互和自動化內(nèi)容生成領(lǐng)域的廣泛機遇。

　　更多詳情，請訪問項目頁面 [https://jinxxian.github.io/Vista-LLaMA]。

　　關(guān)于字節(jié)跳動智能創(chuàng)作團隊

　　智能創(chuàng)作團隊是字節(jié)跳動音視頻創(chuàng)新技術(shù)和業(yè)務(wù)中臺，覆蓋了計算機視覺、圖形學(xué)、語音、拍攝編輯、特效、客戶端、服務(wù)端工程等技術(shù)領(lǐng)域，借助字節(jié)跳動豐富的業(yè)務(wù)場景、基礎(chǔ)設(shè)施資源和良好的技術(shù)協(xié)作氛圍，實現(xiàn)了前沿算法 - 工程系統(tǒng) - 產(chǎn)品全鏈路的閉環(huán)，旨在以多種形式向公司內(nèi)部各業(yè)務(wù)線以及外部合作客戶提供業(yè)界前沿的內(nèi)容理解、內(nèi)容創(chuàng)作、互動體驗與消費的能力和行業(yè)解決方案。

　　目前，智能創(chuàng)作團隊已通過字節(jié)跳動旗下的云服務(wù)平臺火山引擎向企業(yè)開放技術(shù)能力和服務(wù)。(作者：許筱兮)

[No. X048]
分享到微信