清華推出短視頻AI理解新技術(shù)video-SALMONN 像人一樣刷視頻

2024年07月31日 15:38:07 來源：AIbase基地

　　最近，新加坡國立大學(xué)的Wenyi Yu及其團隊提出了一項名為video-SALMONN的新技術(shù)，它不僅能夠理解視頻中的視覺幀序列、音頻事件和音樂，更重要的是，它能夠理解視頻中的語音內(nèi)容。這項技術(shù)的提出標志著我們在讓機器理解視頻內(nèi)容方面邁出了重要一步。

　　視頻-SALMONN是一種端到端的音頻-視覺大型語言模型(av-LLM)，它通過一種新穎的多分辨率因果Q-Former(MRC Q-Former)結(jié)構(gòu)，將預(yù)訓(xùn)練的音視頻編碼器與大型語言模型的主體連接起來。這種結(jié)構(gòu)不僅能夠捕捉到語音理解所需的細粒度時間信息，同時也保證了對其他視頻元素的高效處理。

　　為了提高模型對不同視頻元素的平衡處理，研究團隊提出了專門的訓(xùn)練方法，包括多樣性損失和未配對音視頻混合訓(xùn)練策略，以避免視頻幀或模態(tài)的主導(dǎo)。

　　在新引入的語音-音頻-視覺評估基準(SAVE)上，視頻-SALMONN在視頻問答(video-QA)任務(wù)上取得了超過25%的絕對準確率提升，在涉及人類語音的音視頻問答任務(wù)上取得了超過30%的絕對準確率提升。此外，視頻-SALMONN在其他av-LLMs前所未有的任務(wù)上展示了卓越的視頻理解與推理能力。

　　視頻-SALMONN的核心是多分辨率因果(MRC)Q-Former結(jié)構(gòu)，它在三個不同的時間尺度上對同步的音視頻輸入特征與文本表示空間進行對齊，滿足不同任務(wù)對不同視頻元素的依賴需求。此外，為了加強連續(xù)視頻幀之間的時間因果關(guān)系，MRC Q-Former中包含了具有特殊因果掩碼的因果自注意力結(jié)構(gòu)。

　　視頻-SALMONN的提出，不僅為學(xué)術(shù)界帶來了新的研究工具，也為實際應(yīng)用提供了廣闊的可能性。它使得技術(shù)與人類的交互變得更加自然和直觀，降低了用戶尤其是兒童和老年人學(xué)習(xí)使用技術(shù)的難度。同時，它還有潛力提高包括運動障礙人士在內(nèi)的技術(shù)的可訪問性。

　　視頻-SALMONN的提出，是朝著實現(xiàn)通用人工智能(AGI)邁出的重要一步。通過整合語音輸入以及現(xiàn)有的非語音音頻和視覺輸入，這樣的模型將獲得對人類交互和環(huán)境的全面理解，從而能夠應(yīng)用到更廣泛的領(lǐng)域。

　　這項技術(shù)的發(fā)展，無疑將為視頻內(nèi)容的分析、教育應(yīng)用、以及提升人們的生活質(zhì)量帶來深遠的影響。隨著技術(shù)的不斷進步，我們有理由相信，未來的AI將更加智能，更加貼近人類的需求。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風(fēng)險自擔。

[No. ]
分享到微信