騰訊公司開源了一款創(chuàng)新的模型V-Express,它能夠使用人像照片生成視頻。這一技術(shù)通過一系列逐步丟棄的操作來平衡不同控制信號,使得音頻等較弱的信號得以有效利用,實現(xiàn)對姿態(tài)、輸入圖像和音頻的綜合控制。
作者團隊表示,在會說話的人臉生成任務中,當目標視頻與參考角色不是同一個人時,選擇與參考人臉姿勢更相似的目標視頻將能獲得更好的效果。目前,該模型在英語上的表現(xiàn)較為出色,但對其他語言的適應性和表現(xiàn)尚未經(jīng)過詳細測試。
V-Express模型的開源,為肖像視頻生成領(lǐng)域帶來了新的發(fā)展機遇。在這一領(lǐng)域,使用單個圖像生成視頻的方法正變得日益流行。這通常涉及到使用生成模型增強適配器來實現(xiàn)受控生成,其中控制信號可能包括文本、音頻、圖像參考、姿勢、深度圖等。V-Express通過漸進式的丟棄操作,解決了弱信號在強信號干擾下難以發(fā)揮作用的問題,尤其是在音頻信號常常被姿勢和原始圖像等強信號掩蓋的情況下。
實驗結(jié)果顯示,V-Express能夠有效生成受音頻控制的肖像視頻,這在以往的研究中是一個難以實現(xiàn)的突破。V-Express方法的逐步丟棄操作,不僅有效實現(xiàn)了對弱條件的控制,而且為多條件生成提供了新的可能性和思路。
V-Express模型為肖像視頻生成領(lǐng)域帶來了創(chuàng)新的思路和方法,通過平衡不同強度的控制信號,成功實現(xiàn)了受音頻控制的視頻生成。這一成果不僅具有重要的理論和實踐意義,而且為未來的多條件生成提供了新的路徑。騰訊表示,將繼續(xù)深入研究V-Express方法,并探索其在更廣泛領(lǐng)域的應用,以促進肖像視頻生成領(lǐng)域的進一步發(fā)展。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。