" />
iPhone16系列新品正式發(fā)售 新品爆發(fā)就在抖音電商廣告燒錢(qián)過(guò)億,70%用戶(hù)靠投流,大模型算不過(guò)成本賬?PS1經(jīng)典配色!索尼發(fā)布30周年紀(jì)念版PS5、PS5 Pro:限量賣(mài)泰順:聚智聚力數(shù)字創(chuàng)客激發(fā)鄉(xiāng)村振興新動(dòng)能電商12年 ,ALL IN 小紅書(shū),開(kāi)店3月賣(mài)出1100萬(wàn)Mate 70最受期待!華為三款重磅機(jī)型蓄勢(shì)待發(fā)云天勵(lì)飛“算力積木”架構(gòu):引領(lǐng)邊緣AI芯片新變革徹底告別3999元!小米15入網(wǎng) 支持90W快充FF發(fā)布第二品牌Faraday X:對(duì)標(biāo)豐田 專(zhuān)注增程式混動(dòng)車(chē)型黑神話(huà)悟空總收入超67億:銷(xiāo)量已超2000萬(wàn)份通快成立激光業(yè)務(wù)區(qū)域中心(中國(guó)),強(qiáng)勢(shì)布局中國(guó)市場(chǎng)Sandalwood Advisors受邀參加第31屆中信里昂投資者論壇淘寶倒逼新風(fēng)向:一場(chǎng)電商減負(fù)運(yùn)動(dòng)博浪AI時(shí)代,阿里、華為“硬碰硬”Youtube將推出人工智能工具 可生成創(chuàng)意、標(biāo)題甚至完整視頻申通、圓通、韻達(dá)發(fā)布 8 月簡(jiǎn)報(bào):快遞業(yè)務(wù)量、收入均同比增長(zhǎng),單票收入均下降蘋(píng)果iPhone 16系列開(kāi)啟發(fā)售,Max最高加2500元TECNO 全球發(fā)布二代折疊屏旗艦—PHANTOM V Fold2 5G及PHANTOM V Flip2 5G科大訊飛還是AI“小甜甜”嗎?消息稱(chēng)美團(tuán)外賣(mài)調(diào)整經(jīng)營(yíng)目標(biāo),從追求 GMV 變?yōu)樽非笥唵瘟?/a>
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    字節(jié)與浙大聯(lián)合推多模態(tài)大語(yǔ)言模型Vista-LLaMA 可解讀視頻內(nèi)容

    2024年01月10日 17:06:59   來(lái)源:中文科技資訊

      Vista-LLaMA 在處理長(zhǎng)視頻內(nèi)容方面的顯著優(yōu)勢(shì),為視頻分析領(lǐng)域帶來(lái)了新的解決框架。

      近年來(lái),大型語(yǔ)言模型如 GPT、GLM 和 LLaMA 等在自然語(yǔ)言處理領(lǐng)域取得了顯著進(jìn)展,基于深度學(xué)習(xí)技術(shù)能夠理解和生成復(fù)雜的文本內(nèi)容。然而,將這些能力擴(kuò)展到視頻內(nèi)容理解領(lǐng)域則是一個(gè)全新的挑戰(zhàn) —— 視頻不僅包含豐富多變的視覺(jué)信息,還涉及時(shí)間序列的動(dòng)態(tài)變化,這使得大語(yǔ)言模型從視頻中提取信息變得更為復(fù)雜。

      面對(duì)這一挑戰(zhàn),字節(jié)跳動(dòng)聯(lián)合浙江大學(xué)提出了能夠輸出可靠視頻描述的多模態(tài)大語(yǔ)言模型 Vista-LLaMA。Vista-LLaMA 專(zhuān)門(mén)針對(duì)視頻內(nèi)容的復(fù)雜性設(shè)計(jì),能夠有效地將視頻幀轉(zhuǎn)換為準(zhǔn)確的語(yǔ)言描述,從而極大地提高了視頻內(nèi)容分析和生成的質(zhì)量。

    640.png

      論文主頁(yè):https://jinxxian.github.io/Vista-LLaMA/

    640.jpeg

      圖 1

      技術(shù)創(chuàng)新路徑

      現(xiàn)有多模態(tài)視覺(jué)與語(yǔ)言模型在處理視頻內(nèi)容時(shí),通常將視頻幀轉(zhuǎn)化為一系列的視覺(jué) token,并與語(yǔ)言 token 結(jié)合以生成文本。然而,隨著生成文本長(zhǎng)度的增加,視頻內(nèi)容的影響往往逐漸減弱,導(dǎo)致生成的文本越來(lái)越多地偏離原視頻內(nèi)容,產(chǎn)生所謂的 “幻覺(jué)” 現(xiàn)象。

      Vista-LLaMA 通過(guò)創(chuàng)新的方式處理視頻和文本間的復(fù)雜互動(dòng),突破了傳統(tǒng)視頻語(yǔ)言模型的限制。Vista-LLaMA 的核心創(chuàng)新在于其獨(dú)特的視覺(jué)與語(yǔ)言 token 處理方式。不同于其他模型,它通過(guò)維持視覺(jué)和語(yǔ)言 token 間的均等距離,有效避免了文本生成中的偏差,尤其是在長(zhǎng)文本中更為顯著。這種方法大幅提高了模型對(duì)視頻內(nèi)容的理解深度和準(zhǔn)確性。

    640 (1).jpeg

      圖 2

      Vista-LLaMA 采用了一種改良的注意力機(jī)制 —— 視覺(jué)等距離 token 注意力(EDVT),它在處理視覺(jué)與文本 token 時(shí)去除了傳統(tǒng)的相對(duì)位置編碼,同時(shí)保留了文本與文本之間的相對(duì)位置編碼。EDVT 機(jī)制通過(guò)特定的函數(shù)處理隱藏層輸入,有效區(qū)分視覺(jué) token 來(lái)源。

    640 (1).png

      具體而言,它首先對(duì)輸入進(jìn)行查詢(xún)、鍵和值的映射轉(zhuǎn)換,接著對(duì)查詢(xún)和鍵輸入應(yīng)用旋轉(zhuǎn)位置編碼(RoPE),分別計(jì)算帶 RoPE 和不帶 RoPE 的注意力權(quán)重。隨后,根據(jù)視覺(jué) token 的存在與否合并這兩種注意力權(quán)重,通過(guò) softmax 函數(shù)實(shí)現(xiàn)注意力的歸一化,并最終通過(guò)基于注意力權(quán)重的線(xiàn)性映射更新表示,生成輸出結(jié)果。這種創(chuàng)新使得多模態(tài)大語(yǔ)言模型能夠更加關(guān)注視頻的內(nèi)容,尤其在復(fù)雜的視頻場(chǎng)景中,能夠有效地捕捉關(guān)鍵視覺(jué)元素,提升了文本生成的質(zhì)量和相關(guān)性。

    640 (2).png

      圖 3

      同時(shí),該模型引入的序列化視覺(jué)投影器為視頻中的時(shí)間序列分析提供了新的視角,它不僅能夠處理當(dāng)前視頻幀,還能利用前一幀的信息,從而增強(qiáng)視頻內(nèi)容的連貫性和時(shí)序邏輯。

      視覺(jué)投影器的作用是將視頻特征映射到語(yǔ)言嵌入空間,以便大型語(yǔ)言模型融合和處理視覺(jué)與文本輸入。如圖 4 所示,早期的視覺(jué)投影器通常使用線(xiàn)性層或查詢(xún)轉(zhuǎn)換器(Q-Former)直接將幀特征轉(zhuǎn)換為語(yǔ)言 token。然而,這些方法忽略了時(shí)間關(guān)系,限制了語(yǔ)言模型對(duì)視頻的全面理解。Vista-LLaMA 中引入了序列化視覺(jué)投影器,它通過(guò)線(xiàn)性投影層編碼視覺(jué) token 的時(shí)間上下文,增強(qiáng)了模型對(duì)視頻動(dòng)態(tài)變化的理解能力,這對(duì)于提升視頻內(nèi)容分析的質(zhì)量至關(guān)重要。

    640 (3).png

      圖 4

      基準(zhǔn)測(cè)試結(jié)果

      Vista-LLaMA 在多個(gè)開(kāi)放式視頻問(wèn)答基準(zhǔn)測(cè)試中展現(xiàn)了卓越性能。它在 NExT-QA 和 MSRVTT-QA 測(cè)試中取得了突破性成績(jī),這兩個(gè)測(cè)試是衡量視頻理解和語(yǔ)言生成能力的關(guān)鍵標(biāo)準(zhǔn)。在零樣本 NExT-QA 測(cè)試中,Vista-LLaMA 實(shí)現(xiàn)了 60.7% 的準(zhǔn)確率。而在 MSRVTT-QA 測(cè)試中達(dá)到了 60.5% 的準(zhǔn)確率,超過(guò)了目前所有的 SOTA 方法。這些成績(jī)?cè)谛袠I(yè)中屬于先進(jìn)水平,顯著超越了其他 SOTA 模型,如 Video-ChatGPT 和 MovieChat。

    640 (4).png

      圖 5

    640 (5).png

      這些測(cè)試結(jié)果證明了 Vista-LLaMA 在視頻內(nèi)容理解和描述生成方面的高效性和精準(zhǔn)性,Vista-LLaMA 能夠準(zhǔn)確理解和描述視頻內(nèi)容,顯示了其強(qiáng)大的泛化能力。這些成績(jī)不僅展示了 Vista-LLaMA 在理解復(fù)雜視頻內(nèi)容方面的能力,還證明了其在多模態(tài)語(yǔ)言處理領(lǐng)域的領(lǐng)先地位。

      數(shù)據(jù)集:CineClipQA

    640 (6).png

      圖 6

      與 Vista-LLaMA 一同提出的還有 CineClipQA 新數(shù)據(jù)集。

      CineClipQA 包含了 153 個(gè)精選視頻片段,這些片段來(lái)自五部風(fēng)格和敘事手法各異的電影。每個(gè)片段代表電影情節(jié)的一個(gè)或多個(gè)獨(dú)特部分,并附有 16 個(gè)量身定制的問(wèn)題,共計(jì) 2448 個(gè)問(wèn)題。問(wèn)題分為系統(tǒng)提示和問(wèn)題兩部分:

      ● 系統(tǒng)提示提供了當(dāng)前視頻片段中關(guān)鍵角色的基本信息,并在必要時(shí)為角色的初始行動(dòng)提供提示。

      ● 問(wèn)題主要分為五類(lèi):識(shí)別、時(shí)間性(預(yù)測(cè))、空間性(互動(dòng))、意圖和感知。具體來(lái)說(shuō),識(shí)別包括地點(diǎn)和行動(dòng)的問(wèn)題;時(shí)間性涉及下一個(gè)行動(dòng)、之前的行動(dòng)、同時(shí)發(fā)生的行動(dòng)和預(yù)測(cè)行動(dòng)的問(wèn)題;空間性涉及物體與人之間的空間信息問(wèn)題;意圖涉及行動(dòng)目的地三種相似問(wèn)題;最后,感知檢查情感識(shí)別和詢(xún)問(wèn) “如何”(方式、態(tài)度等)。

      該研究還提供了所有 16 種類(lèi)型的詳細(xì)解釋和相應(yīng)案例。在 CineClipQA 數(shù)據(jù)集中,Vista-LLaMA 也表現(xiàn)出了卓越的性能。

    640 (7).png

      圖 7

      簡(jiǎn)言之,Vista-LLaMA 在處理長(zhǎng)視頻內(nèi)容方面的顯著優(yōu)勢(shì),為視頻分析領(lǐng)域帶來(lái)了新的解決框架,推動(dòng)人工智能在視頻處理和內(nèi)容創(chuàng)作方面的發(fā)展,預(yù)示著未來(lái)多模態(tài)交互和自動(dòng)化內(nèi)容生成領(lǐng)域的廣泛機(jī)遇。

      更多詳情,請(qǐng)?jiān)L問(wèn)項(xiàng)目頁(yè)面 [https://jinxxian.github.io/Vista-LLaMA]。

      關(guān)于字節(jié)跳動(dòng)智能創(chuàng)作團(tuán)隊(duì)

      智能創(chuàng)作團(tuán)隊(duì)是字節(jié)跳動(dòng)音視頻創(chuàng)新技術(shù)和業(yè)務(wù)中臺(tái),覆蓋了計(jì)算機(jī)視覺(jué)、圖形學(xué)、語(yǔ)音、拍攝編輯、特效、客戶(hù)端、服務(wù)端工程等技術(shù)領(lǐng)域,借助字節(jié)跳動(dòng)豐富的業(yè)務(wù)場(chǎng)景、基礎(chǔ)設(shè)施資源和良好的技術(shù)協(xié)作氛圍,實(shí)現(xiàn)了前沿算法 - 工程系統(tǒng) - 產(chǎn)品全鏈路的閉環(huán),旨在以多種形式向公司內(nèi)部各業(yè)務(wù)線(xiàn)以及外部合作客戶(hù)提供業(yè)界前沿的內(nèi)容理解、內(nèi)容創(chuàng)作、互動(dòng)體驗(yàn)與消費(fèi)的能力和行業(yè)解決方案。

      目前,智能創(chuàng)作團(tuán)隊(duì)已通過(guò)字節(jié)跳動(dòng)旗下的云服務(wù)平臺(tái)火山引擎向企業(yè)開(kāi)放技術(shù)能力和服務(wù)。(作者:許筱兮)

      

    [No. X048]
    分享到微信

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無(wú)人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開(kāi)幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶(hù)就打進(jìn)了21600元。

    研究

    2024全球開(kāi)發(fā)者先鋒大會(huì)即將開(kāi)幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開(kāi)放原子開(kāi)源基金會(huì)主辦的“2024全球開(kāi)發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。