騰訊開源人像照片生成視頻模型V-Express

2024年06月07日 11:53:43 來源：站長之家

　　騰訊公司開源了一款創(chuàng)新的模型V-Express，它能夠使用人像照片生成視頻。這一技術(shù)通過一系列逐步丟棄的操作來平衡不同控制信號，使得音頻等較弱的信號得以有效利用，實現(xiàn)對姿態(tài)、輸入圖像和音頻的綜合控制。

　　作者團隊表示，在會說話的人臉生成任務中，當目標視頻與參考角色不是同一個人時，選擇與參考人臉姿勢更相似的目標視頻將能獲得更好的效果。目前，該模型在英語上的表現(xiàn)較為出色，但對其他語言的適應性和表現(xiàn)尚未經(jīng)過詳細測試。

　　V-Express模型的開源，為肖像視頻生成領(lǐng)域帶來了新的發(fā)展機遇。在這一領(lǐng)域，使用單個圖像生成視頻的方法正變得日益流行。這通常涉及到使用生成模型增強適配器來實現(xiàn)受控生成，其中控制信號可能包括文本、音頻、圖像參考、姿勢、深度圖等。V-Express通過漸進式的丟棄操作，解決了弱信號在強信號干擾下難以發(fā)揮作用的問題，尤其是在音頻信號常常被姿勢和原始圖像等強信號掩蓋的情況下。

　　實驗結(jié)果顯示，V-Express能夠有效生成受音頻控制的肖像視頻，這在以往的研究中是一個難以實現(xiàn)的突破。V-Express方法的逐步丟棄操作，不僅有效實現(xiàn)了對弱條件的控制，而且為多條件生成提供了新的可能性和思路。

　　V-Express模型為肖像視頻生成領(lǐng)域帶來了創(chuàng)新的思路和方法，通過平衡不同強度的控制信號，成功實現(xiàn)了受音頻控制的視頻生成。這一成果不僅具有重要的理論和實踐意義，而且為未來的多條件生成提供了新的路徑。騰訊表示，將繼續(xù)深入研究V-Express方法，并探索其在更廣泛領(lǐng)域的應用，以促進肖像視頻生成領(lǐng)域的進一步發(fā)展。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信