騰訊推全新圖生視頻模型Follow-Your-Pose-v2 可生成多人運動視頻

2024年06月11日 15:27:03 來源：站長之家

　　騰訊混元團隊聯(lián)合中山大學、香港科技大學推出了一款全新的圖生視頻模型，名為"Follow-Your-Pose-v2"。這一模型在視頻生成領域實現(xiàn)了從單人到多人的跨越，能夠處理人物合照，讓所有人都能同時在視頻中動起來。

　　主要亮點:

　　支持多人視頻動作生成:在推理耗時更少的情況下，實現(xiàn)多人視頻動作的生成。

　　強泛化能力:無論年齡、服裝、人種、背景雜亂程度或動作復雜性如何，都能生成高質量視頻。

　　日常生活照/視頻可用:模型訓練及生成可以使用日常生活照(包括抓拍)或視頻，無需尋找高質量圖片/視頻。

　　正確處理人物遮擋:面對單張圖片上多個人物軀體相互遮擋的問題，能生成具有正確前后關系的遮擋畫面。

　　技術實現(xiàn)方面:

　　模型利用"光流指導器"引入背景光流信息，即使在相機抖動或背景不穩(wěn)定的情況下，也能生成穩(wěn)定背景動畫。

　　通過"推理圖指導器"和"深度圖指導器"，模型能更好地理解圖片中的人物空間信息和多角色的空間位置關系，有效解決多角色動畫和身體遮擋問題。

　　評估與比較:

　　團隊提出了一個新的基準Multi-Character，包含約4000幀多角色視頻，用以評估多角色生成效果。

　　實驗結果顯示，"Follow-Your-Pose-v2"在兩個公共數(shù)據(jù)集(TikTok和TED演講)和7個指標上的性能均優(yōu)于最新技術35%以上。

　　應用前景:

　　圖像到視頻生成技術在電影內容制作、增強現(xiàn)實、游戲制作及廣告等多個行業(yè)有著廣泛的應用前景，是2024年備受關注的AI技術之一。

　　其他信息:

　　騰訊混元團隊還公布了文生圖開源大模型(混元DiT)的加速庫，大幅提升推理效率，生圖時間縮短75%。

　　混元DiT模型的使用門檻降低，用戶可以在Hugging Face的官方模型庫中用三行代碼調用模型。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

即時

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

奧維云網(AVC)推總數(shù)據(jù)顯示，2024年1-9月明火炊具線上零售額94.2億元，同比增加3.1%，其中抖音渠道表現(xiàn)優(yōu)異，同比有14%的漲幅，傳統(tǒng)電商略有下滑，同比降低2.3%。

“以前都要去窗口辦，一套流程下來都要半個月了，現(xiàn)在方便多了!”打開“重慶公積金”微信小程序，按照提示流程提交相關材料，僅幾秒鐘，重慶市民曾某的賬戶就打進了21600元。

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力，為您的創(chuàng)作工作帶來實質性的幫助，雙十一期間低至2799元，性價比很高，簡直是創(chuàng)作者們的首選。

9月14日，2024全球工業(yè)互聯(lián)網大會——工業(yè)互聯(lián)網標識解析專題論壇在沈陽成功舉辦。

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网