合合信息:破解大模型語料庫難題的引領(lǐng)者核聚變2024北京站高能開幕,ROG電競顯示器強勢助力游戲狂歡華為企業(yè)客戶支持圓桌會議成功舉辦,共筑ICT基礎(chǔ)設(shè)施維護新未來66元搶爆款A(yù)R眼鏡!京東AR眼鏡超級新品日30天無憂適用等你來攜手共進,智啟未來 —— 華為與CypressTel賽柏特成立 SD-WAN 聯(lián)合創(chuàng)新實驗合合信息成功IPO開啟新篇章全球首款第二代酷睿Ultra處理器筆記本!聯(lián)想YOGA Air 15 Aura AI元啟版開啟預(yù)售中國品牌,讓東南亞感受“消費升級”小紅書本地“坐抖望團”CrowdStrike“全球滅霸響指”事件后續(xù),德國 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實況照片了蘋果有線耳機或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%
  • 首頁 > 云計算頻道 > 大模型

    DIRFA:只需音頻和照片即可創(chuàng)建逼真的說話臉部動畫

    2023年11月17日 09:56:38   來源:站長之家

      新加坡南洋理工大學(xué)(NTU Singapore)的一支研究團隊開發(fā)了一個計算機程序,只需音頻和一張照片,即可創(chuàng)建反映說話者面部表情和頭部動作的逼真視頻。

      這個名為 DIverse yet Realistic Facial Animations(DIRFA)的人工智能程序能夠根據(jù)音頻和照片生成3D 視頻,顯示人物與所說的音頻同步的逼真而一致的面部動畫。該程序改進了現(xiàn)有方法,解決了姿勢變化和情感控制等問題。

      為了實現(xiàn)這一目標(biāo),研究團隊訓(xùn)練 DIRFA 使用了來自一個名為 The VoxCeleb2Dataset 的開源數(shù)據(jù)庫的超過6000人的100多萬個音頻視頻片段,以預(yù)測語音中的線索并將其與面部表情和頭部動作聯(lián)系起來。

      研究人員表示,DIRFA 可能在各個行業(yè)和領(lǐng)域中產(chǎn)生新的應(yīng)用,包括醫(yī)療保健。它可以使虛擬助手和聊天機器人更加復(fù)雜和逼真,從而改善用戶體驗。此外,它還可以作為一種強大的工具,幫助言語或面部受損的人通過表情豐富的化身或數(shù)字形象來傳達他們的思想和情感,提高他們的溝通能力。

      該研究的的研究人員表示:“我們的研究影響可能是深遠的,因為它通過結(jié)合人工智能和機器學(xué)習(xí)等技術(shù),徹底改變了多媒體通信的領(lǐng)域。我們的程序在之前的研究基礎(chǔ)上進行了改進,只使用音頻記錄和靜態(tài)圖像,就能生成具有準(zhǔn)確的嘴唇動作、生動的面部表情和自然的頭部姿勢的視頻。”

      研究人員還介紹稱:“語音表現(xiàn)出多種變化。在不同的語境下,個體對相同的詞語發(fā)音可能會有不同的方式,包括持續(xù)時間、幅度、音調(diào)等方面的變化。此外,除了語言內(nèi)容,語音還傳達了有關(guān)說話者情感狀態(tài)和性別、年齡、種族甚至個性特征等身份因素的豐富信息。我們的方法在音頻表示學(xué)習(xí)和人工智能機器學(xué)習(xí)方面進行了開創(chuàng)性的努力。” 研究結(jié)果于8月份發(fā)表在《Pattern Recognition》科學(xué)期刊上。

      研究人員表示,通過音頻驅(qū)動逼真的面部表情呈現(xiàn)是一個復(fù)雜的挑戰(zhàn)。對于給定的音頻信號,可能有許多可能的面部表情是合理的,而在處理隨時間變化的一系列音頻信號時,這些可能性可能會增加。

      由于音頻通常與嘴唇動作有很強的聯(lián)系,但與面部表情和頭部位置的聯(lián)系較弱,研究團隊的目標(biāo)是創(chuàng)建能夠展示精確的嘴唇同步、豐富的面部表情和與提供的音頻相對應(yīng)的自然頭部動作的說話臉部。

      為了解決這個問題,研究團隊首先設(shè)計了他們的人工智能模型 DIRFA,來捕捉音頻信號和面部動畫之間復(fù)雜的關(guān)系。他們使用來自一個公開可用的數(shù)據(jù)庫的超過6000人的100多萬個音頻和視頻片段對模型進行了訓(xùn)練。

      研究人員介紹:“具體而言,DIRFA 模型根據(jù)輸入的音頻來建模面部動畫(如挑起眉毛或皺鼻子)的可能性。這種建模使得該程序能夠?qū)⒁纛l輸入轉(zhuǎn)換為多樣而逼真的面部動畫序列,從而指導(dǎo)說話臉部的生成。”

      研究人員還補充說:“廣泛的實驗表明,DIRFA 能夠生成具有準(zhǔn)確的嘴唇動作、生動的面部表情和自然的頭部姿勢的說話臉部。然而,我們正在努力改進程序的界面,使得用戶能夠?qū)δ承┹敵鲞M行控制。例如,DIRFA 目前不允許用戶調(diào)整某種表情,比如將皺眉改為微笑。”

      除了向 DIRFA 的界面添加更多選項和改進外,NTU 的研究人員還將使用更廣泛的數(shù)據(jù)集來微調(diào)其面部表情,包括更多種類的面部表情和聲音音頻片段。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。