圖片生成精準(zhǔn)動(dòng)態(tài)視頻，阿里、港大推出新模型LivePhoto

2023年12月13日 10:19:41 來(lái)源：AIGC開(kāi)放社區(qū)公眾號(hào)

　　阿里巴巴、香港大學(xué)、螞蟻集團(tuán)的研究人員提出了一種全新圖片生成動(dòng)態(tài)視頻模型——LivePhoto。用戶通過(guò)LivePhoto，可將一張靜態(tài)圖片快速生成高精準(zhǔn)的動(dòng)態(tài)視頻。

　　與傳統(tǒng)方法不同的是，LivePhoto在開(kāi)源文生圖模型Stable Diffusion基礎(chǔ)之上，增加了運(yùn)動(dòng)強(qiáng)度和文本加權(quán)兩大創(chuàng)新模塊，可精準(zhǔn)掌控動(dòng)態(tài)視頻生成過(guò)程中的運(yùn)動(dòng)強(qiáng)度、文本描述。

　　研究人員將LivePhoto與主流模型Gen-2、Pikalabs進(jìn)行了比較，經(jīng)過(guò)多輪測(cè)試效果非常卓越。

　　論文地址:https://arxiv.org/abs/2312.02928

　　從論文來(lái)看，LivePhoto模型主要由三大模塊組成:首先是圖像內(nèi)容控制模塊，通過(guò)多種策略提供強(qiáng)大的像素級(jí)和語(yǔ)義級(jí)圖像指導(dǎo)，從而確保生成序列中每一幀的視覺(jué)內(nèi)容與原圖保持高度一致。

　　其次是運(yùn)動(dòng)建模模塊，基于知名開(kāi)源模型Stable Diffusion，僅訓(xùn)練插入的特定組件來(lái)捕捉幀間隱含的運(yùn)動(dòng)模式。

　　第三個(gè)是額外控制指令模塊，是一種運(yùn)動(dòng)強(qiáng)度估計(jì)和文本重新加權(quán)的方法，可有效減少文本到運(yùn)動(dòng)映射中的歧義，使得所生成的圖像動(dòng)畫視頻更好地遵循文本指令描述。

　　圖像內(nèi)容控制

　　為了實(shí)現(xiàn)生成內(nèi)容與參考圖像保持一致，LivePhoto使用了三種圖像指導(dǎo)方法:1)參考潛在表示拼接通過(guò)VAE編碼器提取參考圖像的潛在表示，并直接拼接到模型輸入中，實(shí)現(xiàn)像素級(jí)指導(dǎo)。

　　2)內(nèi)容編碼器，使用了預(yù)訓(xùn)練的DINOv2網(wǎng)絡(luò)提取參考圖像的圖像塊表示，并通過(guò)新增的交叉注意力層注入到UNet網(wǎng)絡(luò)中，提供全局內(nèi)容約束。

　　3)先驗(yàn)反向映射，在推理階段，將參考潛在表示的反向映射混合到高斯噪聲中，為細(xì)節(jié)生成提供先驗(yàn)知識(shí)。

　　此外，LivePhoto凍結(jié)了Stable Diffusion模型的部分功能，僅訓(xùn)練插入了其中的可學(xué)習(xí)運(yùn)動(dòng)模塊，用來(lái)構(gòu)建不同幀間的運(yùn)動(dòng)聯(lián)系。相當(dāng)于每個(gè)UNet組件中插入了一個(gè)運(yùn)動(dòng)模塊，采用了類似AnimateDiff的結(jié)構(gòu)。

　　額外指令

　　通過(guò)圖像內(nèi)容控制和運(yùn)動(dòng)模塊，基本可以勾勒出大致的運(yùn)動(dòng)視頻內(nèi)容。但仍然無(wú)法精準(zhǔn)控制運(yùn)動(dòng)方式，這是因?yàn)槲谋局型瑫r(shí)包含內(nèi)容和運(yùn)動(dòng)兩個(gè)方面的描述，而參考圖像起主導(dǎo)作用，容易造成內(nèi)容描述對(duì)運(yùn)動(dòng)描述的抑制。

　　為解決這一問(wèn)題，開(kāi)發(fā)人員提出了兩種額外的指令:

　　1）運(yùn)動(dòng)強(qiáng)度，考慮到文本指令本身很難準(zhǔn)確表達(dá)運(yùn)動(dòng)特征， LivePhoto引入了一個(gè)1-10的值來(lái)參數(shù)化運(yùn)動(dòng)強(qiáng)度。這一超參數(shù)既可于訓(xùn)練時(shí)促進(jìn)文本與運(yùn)動(dòng)的匹配，也為用戶提供了方便的推理調(diào)節(jié)接口。

　　2）文本加權(quán)，為區(qū)分文本中與內(nèi)容和運(yùn)動(dòng)相關(guān)的部分， LivePhoto設(shè)計(jì)了文本加權(quán)功能。

　　其目標(biāo)是檢測(cè)文本中與運(yùn)動(dòng)相關(guān)的維度，并對(duì)其進(jìn)行加權(quán)放大。這可以減少內(nèi)容描述帶來(lái)的干擾，從而增強(qiáng)運(yùn)動(dòng)控制能力。

　　實(shí)驗(yàn)結(jié)果也證明，在運(yùn)動(dòng)強(qiáng)度指導(dǎo)和文本加權(quán)的幫助下，LivePhoto展現(xiàn)出了十分出色的零樣本視頻動(dòng)畫生成性能。

　　可以處理各種圖像輸入，同時(shí)遵循文本中對(duì)運(yùn)動(dòng)的描述生成視頻。例如，不同的人或動(dòng)物正在進(jìn)行的動(dòng)作，或者虛擬出文本所描寫的場(chǎng)景。

　　此外，用戶還可以通過(guò)簡(jiǎn)單調(diào)節(jié)運(yùn)動(dòng)強(qiáng)度的數(shù)值，自由定制視頻中運(yùn)動(dòng)的方式。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信

即時(shí)

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會(huì)上，Adobe推出了最新版本的Adobe Creative Cloud。

游戲體驗(yàn)天花板一加Ace 5系列正式定檔12月26日

“耐玩戰(zhàn)神”真我Neo7今日開(kāi)售：2099元起，堅(jiān)持質(zhì)價(jià)比不動(dòng)

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

圖片生成精準(zhǔn)動(dòng)態(tài)視頻，阿里、港大推出新模型LivePhoto

即時(shí)

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場(chǎng)：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

3C消費(fèi)

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實(shí)力，創(chuàng)

研究

中國(guó)信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

專題

圖片生成精準(zhǔn)動(dòng)態(tài)視頻，阿里、港大推出新模型LivePhoto

擴(kuò)展閱讀

圖片生成精準(zhǔn)動(dòng)態(tài)視頻，阿里、港大推出新模型LivePhoto