近日,南大等機構的研究人員推出了一項引人注目的研究成果——VividTalk框架,其能夠通過一段音頻和一張照片實現令人驚嘆的說話視頻生成。這一通用框架采用了兩階段生成方法,首先通過考慮面部運動和blendshape分布之間的映射,利用多分支Transformer網絡建模音頻上下文,生成3D驅動的網格。
框架的第一階段注重嘴唇運動和面部表情的生成,使用blendshape和頂點偏移作為中間表征,以提供全局粗略的面部表情運動和局部細粒度的嘴唇運動。為了更合理地學習剛性頭部運動,研究人員巧妙地將問題轉化為離散有限空間中的代碼查詢任務,并構建了可學習的頭部姿勢代碼本。這一創(chuàng)新性的方法使得從音頻到頭部姿勢的學習變得更加準確和高效。
第二階段則在生成器中使用了雙分支motionvae來建模2D密集運動,通過投影紋理表示在2D域中進行運動轉換,提高了網絡性能和生成視頻的質量。VividTalk框架在實驗中取得了顯著的成果,能夠生成具有表情豐富、自然頭部姿勢的口型同步視頻。實驗數據集的豐富性和優(yōu)化的訓練方法使得該框架在生成質量和模型泛化方面表現優(yōu)越。
這一框架的推出代表了在語音合成領域的一次重要突破。VividTalk不僅支持多語言,而且在生成效果上也勝過了其他同類方法。這項研究成果將有望在虛擬人物、語音合成和視頻制作等領域產生深遠的影響。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。
近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。
“以前都要去窗口辦,一套流程下來都要半個月了,現在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
由世界人工智能大會組委會、上海市經信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協會聯合上海人工智能實驗室、上海臨港經濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。