新加坡南洋理工大學(xué)(NTU Singapore)的一支研究團隊開發(fā)了一個計算機程序,只需音頻和一張照片,即可創(chuàng)建反映說話者面部表情和頭部動作的逼真視頻。
這個名為 DIverse yet Realistic Facial Animations(DIRFA)的人工智能程序能夠根據(jù)音頻和照片生成3D 視頻,顯示人物與所說的音頻同步的逼真而一致的面部動畫。該程序改進了現(xiàn)有方法,解決了姿勢變化和情感控制等問題。
為了實現(xiàn)這一目標(biāo),研究團隊訓(xùn)練 DIRFA 使用了來自一個名為 The VoxCeleb2Dataset 的開源數(shù)據(jù)庫的超過6000人的100多萬個音頻視頻片段,以預(yù)測語音中的線索并將其與面部表情和頭部動作聯(lián)系起來。
研究人員表示,DIRFA 可能在各個行業(yè)和領(lǐng)域中產(chǎn)生新的應(yīng)用,包括醫(yī)療保健。它可以使虛擬助手和聊天機器人更加復(fù)雜和逼真,從而改善用戶體驗。此外,它還可以作為一種強大的工具,幫助言語或面部受損的人通過表情豐富的化身或數(shù)字形象來傳達他們的思想和情感,提高他們的溝通能力。
該研究的的研究人員表示:“我們的研究影響可能是深遠的,因為它通過結(jié)合人工智能和機器學(xué)習(xí)等技術(shù),徹底改變了多媒體通信的領(lǐng)域。我們的程序在之前的研究基礎(chǔ)上進行了改進,只使用音頻記錄和靜態(tài)圖像,就能生成具有準(zhǔn)確的嘴唇動作、生動的面部表情和自然的頭部姿勢的視頻。”
研究人員還介紹稱:“語音表現(xiàn)出多種變化。在不同的語境下,個體對相同的詞語發(fā)音可能會有不同的方式,包括持續(xù)時間、幅度、音調(diào)等方面的變化。此外,除了語言內(nèi)容,語音還傳達了有關(guān)說話者情感狀態(tài)和性別、年齡、種族甚至個性特征等身份因素的豐富信息。我們的方法在音頻表示學(xué)習(xí)和人工智能機器學(xué)習(xí)方面進行了開創(chuàng)性的努力。” 研究結(jié)果于8月份發(fā)表在《Pattern Recognition》科學(xué)期刊上。
研究人員表示,通過音頻驅(qū)動逼真的面部表情呈現(xiàn)是一個復(fù)雜的挑戰(zhàn)。對于給定的音頻信號,可能有許多可能的面部表情是合理的,而在處理隨時間變化的一系列音頻信號時,這些可能性可能會增加。
由于音頻通常與嘴唇動作有很強的聯(lián)系,但與面部表情和頭部位置的聯(lián)系較弱,研究團隊的目標(biāo)是創(chuàng)建能夠展示精確的嘴唇同步、豐富的面部表情和與提供的音頻相對應(yīng)的自然頭部動作的說話臉部。
為了解決這個問題,研究團隊首先設(shè)計了他們的人工智能模型 DIRFA,來捕捉音頻信號和面部動畫之間復(fù)雜的關(guān)系。他們使用來自一個公開可用的數(shù)據(jù)庫的超過6000人的100多萬個音頻和視頻片段對模型進行了訓(xùn)練。
研究人員介紹:“具體而言,DIRFA 模型根據(jù)輸入的音頻來建模面部動畫(如挑起眉毛或皺鼻子)的可能性。這種建模使得該程序能夠?qū)⒁纛l輸入轉(zhuǎn)換為多樣而逼真的面部動畫序列,從而指導(dǎo)說話臉部的生成。”
研究人員還補充說:“廣泛的實驗表明,DIRFA 能夠生成具有準(zhǔn)確的嘴唇動作、生動的面部表情和自然的頭部姿勢的說話臉部。然而,我們正在努力改進程序的界面,使得用戶能夠?qū)δ承┹敵鲞M行控制。例如,DIRFA 目前不允許用戶調(diào)整某種表情,比如將皺眉改為微笑。”
除了向 DIRFA 的界面添加更多選項和改進外,NTU 的研究人員還將使用更廣泛的數(shù)據(jù)集來微調(diào)其面部表情,包括更多種類的面部表情和聲音音頻片段。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。
近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。