DIRFA：只需音頻和照片即可創(chuàng)建逼真的說話臉部動畫

2023年11月17日 09:56:38 來源：站長之家

　　新加坡南洋理工大學(xué)(NTU Singapore)的一支研究團隊開發(fā)了一個計算機程序，只需音頻和一張照片，即可創(chuàng)建反映說話者面部表情和頭部動作的逼真視頻。

　　這個名為 DIverse yet Realistic Facial Animations(DIRFA)的人工智能程序能夠根據(jù)音頻和照片生成3D 視頻，顯示人物與所說的音頻同步的逼真而一致的面部動畫。該程序改進了現(xiàn)有方法，解決了姿勢變化和情感控制等問題。

　　為了實現(xiàn)這一目標(biāo)，研究團隊訓(xùn)練 DIRFA 使用了來自一個名為 The VoxCeleb2Dataset 的開源數(shù)據(jù)庫的超過6000人的100多萬個音頻視頻片段，以預(yù)測語音中的線索并將其與面部表情和頭部動作聯(lián)系起來。

　　研究人員表示，DIRFA 可能在各個行業(yè)和領(lǐng)域中產(chǎn)生新的應(yīng)用，包括醫(yī)療保健。它可以使虛擬助手和聊天機器人更加復(fù)雜和逼真，從而改善用戶體驗。此外，它還可以作為一種強大的工具，幫助言語或面部受損的人通過表情豐富的化身或數(shù)字形象來傳達他們的思想和情感，提高他們的溝通能力。

　　該研究的的研究人員表示:“我們的研究影響可能是深遠的，因為它通過結(jié)合人工智能和機器學(xué)習(xí)等技術(shù)，徹底改變了多媒體通信的領(lǐng)域。我們的程序在之前的研究基礎(chǔ)上進行了改進，只使用音頻記錄和靜態(tài)圖像，就能生成具有準(zhǔn)確的嘴唇動作、生動的面部表情和自然的頭部姿勢的視頻。”

　　研究人員還介紹稱:“語音表現(xiàn)出多種變化。在不同的語境下，個體對相同的詞語發(fā)音可能會有不同的方式，包括持續(xù)時間、幅度、音調(diào)等方面的變化。此外，除了語言內(nèi)容，語音還傳達了有關(guān)說話者情感狀態(tài)和性別、年齡、種族甚至個性特征等身份因素的豐富信息。我們的方法在音頻表示學(xué)習(xí)和人工智能機器學(xué)習(xí)方面進行了開創(chuàng)性的努力。” 研究結(jié)果于8月份發(fā)表在《Pattern Recognition》科學(xué)期刊上。

　　研究人員表示，通過音頻驅(qū)動逼真的面部表情呈現(xiàn)是一個復(fù)雜的挑戰(zhàn)。對于給定的音頻信號，可能有許多可能的面部表情是合理的，而在處理隨時間變化的一系列音頻信號時，這些可能性可能會增加。

　　由于音頻通常與嘴唇動作有很強的聯(lián)系，但與面部表情和頭部位置的聯(lián)系較弱，研究團隊的目標(biāo)是創(chuàng)建能夠展示精確的嘴唇同步、豐富的面部表情和與提供的音頻相對應(yīng)的自然頭部動作的說話臉部。

　　為了解決這個問題，研究團隊首先設(shè)計了他們的人工智能模型 DIRFA，來捕捉音頻信號和面部動畫之間復(fù)雜的關(guān)系。他們使用來自一個公開可用的數(shù)據(jù)庫的超過6000人的100多萬個音頻和視頻片段對模型進行了訓(xùn)練。

　　研究人員介紹:“具體而言，DIRFA 模型根據(jù)輸入的音頻來建模面部動畫(如挑起眉毛或皺鼻子)的可能性。這種建模使得該程序能夠?qū)⒁纛l輸入轉(zhuǎn)換為多樣而逼真的面部動畫序列，從而指導(dǎo)說話臉部的生成。”

　　研究人員還補充說:“廣泛的實驗表明，DIRFA 能夠生成具有準(zhǔn)確的嘴唇動作、生動的面部表情和自然的頭部姿勢的說話臉部。然而，我們正在努力改進程序的界面，使得用戶能夠?qū)δ承┹敵鲞M行控制。例如，DIRFA 目前不允許用戶調(diào)整某種表情，比如將皺眉改為微笑。”

　　除了向 DIRFA 的界面添加更多選項和改進外，NTU 的研究人員還將使用更廣泛的數(shù)據(jù)集來微調(diào)其面部表情，包括更多種類的面部表情和聲音音頻片段。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信

即時

TCL實業(yè)榮獲IFA2024多項大獎，展示全球科技創(chuàng)新力量

近日，德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革，全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎，有力證明了其在全球市場的強大影響力。

服貿(mào)會高通展示開放創(chuàng)新生態(tài)，以5G、AI等技術(shù)促進合作共贏

OPPO續(xù)約歐洲冠軍聯(lián)賽未來三季再續(xù)輝煌

新聞

敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

近日，中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相，以敢為精神勇闖技術(shù)無人區(qū)，斬獲四項AWE 2024艾普蘭大獎。

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

“以前都要去窗口辦，一套流程下來都要半個月了，現(xiàn)在方便多了!”打開“重慶公積金”微信小程序，按照提示流程提交相關(guān)材料，僅幾秒鐘，重慶市民曾某的賬戶就打進了21600元。

3C消費

“純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

2024年3月12日，由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

研究

2024全球開發(fā)者先鋒大會即將開幕

由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo)，由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”，將于2024年3月23日至24日舉辦。

專題

2021 CCF全國高性能計算學(xué)術(shù)年會

返回主頁 ┊ 關(guān)于我們 ┊ 內(nèi)容聯(lián)系 ┊ 聯(lián)系我們 ┊ 免責(zé)聲明 ┊ 原創(chuàng)新聞 ┊ 友情鏈接 ┊ 舊版首頁

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网
久久精品视频国产女人扒开腿让人桶视频男女做爰猛烈叫床视频免费 99精品久久久中文字幕欧美日韩一区精品视频

DIRFA：只需音頻和照片即可創(chuàng)建逼真的說話臉部動畫

擴展閱讀