讓數(shù)字人出圈的技術(shù)秘籍，華為率先公開(kāi)了

2022年11月08日 09:26:42 明敏蕭簫發(fā)自凹非寺 來(lái)源：微信公眾號(hào)：量子位

　　在剛剛結(jié)束的2022華為開(kāi)發(fā)者大會(huì)(HDC2022)上，升級(jí)版的手語(yǔ)數(shù)字人再次亮相，為大會(huì)的主題演講進(jìn)行了實(shí)時(shí)翻譯。

　　相較去年HDC，手語(yǔ)數(shù)字人不僅在形象上有了優(yōu)化，覆蓋手語(yǔ)詞匯量更是提高到了2萬(wàn)+，還能支持多達(dá)26種面部表情和準(zhǔn)確的口動(dòng)，在需要的時(shí)候?qū)崿F(xiàn)恰當(dāng)?shù)那榫w化表達(dá)，大大提高了手語(yǔ)的可懂度。

　　這樣一個(gè)會(huì)手語(yǔ)的數(shù)字人，已不僅限于連續(xù)兩年在華為開(kāi)發(fā)者大會(huì)上“嶄露頭角”了。其實(shí)在政府網(wǎng)站、學(xué)校和移動(dòng)應(yīng)用等場(chǎng)景，手語(yǔ)數(shù)字人也已經(jīng)逐漸上崗。

　　實(shí)際上，制作一個(gè)精良的數(shù)字人并不簡(jiǎn)單，如果要求高度定制化，技術(shù)門(mén)檻只會(huì)更上一個(gè)臺(tái)階。

　　這也導(dǎo)致當(dāng)下數(shù)字人頗有種大廠(chǎng)“奢侈品”的味道。

　　畢竟，并非所有人都能承擔(dān)起如此高昂費(fèi)用和制作復(fù)雜度，以手語(yǔ)數(shù)字人為例，需求很大一部分來(lái)自于學(xué)校、公益機(jī)構(gòu)等。

　　而在這些現(xiàn)象背后，其實(shí)還隱藏著數(shù)字人在制作、應(yīng)用落地方面的一連串難題。

　　大廠(chǎng)競(jìng)速，降低數(shù)字人落地門(mén)檻

　　想要探尋數(shù)字人的落地瓶頸，還需從它的生產(chǎn)制作流程看起。

　　制作數(shù)字人的流程，可以分為建模、驅(qū)動(dòng)和渲染三個(gè)階段。

　　建模即搭起數(shù)字人的“基礎(chǔ)骨架模型”，驅(qū)動(dòng)負(fù)責(zé)讓模型“動(dòng)起來(lái)像人”，渲染則負(fù)責(zé)讓模型“看起來(lái)像人”。

　　聽(tīng)起來(lái)不難，但在傳統(tǒng)的數(shù)字人制作流程中，每一階段都面臨操作繁雜、算法門(mén)檻高、開(kāi)發(fā)周期長(zhǎng)的問(wèn)題，成本更是大型企業(yè)才負(fù)擔(dān)得起。

　　極高的制作門(mén)檻，和數(shù)字人主打的“服務(wù)場(chǎng)景”卻并不匹配。

　　像銀行、政務(wù)服務(wù)、直播間、景點(diǎn)導(dǎo)覽、學(xué)校等需求方，往往不具備獨(dú)立開(kāi)發(fā)制作數(shù)字人的技術(shù)能力，能承受的制作成本更是相對(duì)有限。

　　這種情況下，不少科技廠(chǎng)商如華為競(jìng)相涉足數(shù)字人領(lǐng)域的研發(fā)，力圖降低每個(gè)制作階段的技術(shù)門(mén)檻。

　　在建模上，傳統(tǒng)方式往往要利用多方位攝像頭，對(duì)模特們打點(diǎn)掃描，采集說(shuō)話(huà)時(shí)唇部、表情、面部肌肉、肢體細(xì)節(jié)和姿態(tài)等身體數(shù)據(jù)，隨后按照需求設(shè)計(jì)建模，如卡通風(fēng)、超寫(xiě)實(shí)風(fēng)格等。

　　BUT，這背后需要的工作量非常大，而且需要專(zhuān)業(yè)人員操作。

　　相比之下，目前已經(jīng)有更多AI算法來(lái)降低3D建模門(mén)檻，也適配不同的數(shù)字人風(fēng)格。

　　在本次HDC上，華為就展示了一套高效的3D卡通數(shù)字人建模服務(wù)，能夠幫助開(kāi)發(fā)者快速構(gòu)建自定義的3D卡通數(shù)字人資產(chǎn)�；跇I(yè)界前沿的全屬性特征識(shí)別和多模態(tài)基模融合兩大核心技術(shù)，只需要1張照片，AI算法1秒鐘就能生成一個(gè)活靈活現(xiàn)的卡通風(fēng)格數(shù)字人，甚至連身體都能建模好。

　　全屬性特征識(shí)別技術(shù)能夠?qū)Πl(fā)型、眼形、眉形、胡子和眼鏡等面部主要屬性迅速而精準(zhǔn)地識(shí)別，每個(gè)部分又可細(xì)化到常見(jiàn)的特征，如單雙眼皮、卷直發(fā)等，實(shí)現(xiàn)美與像的平衡。

　　值得一提的是，這樣的神經(jīng)網(wǎng)絡(luò)模型非常輕量，大小僅在KB級(jí)別(不到1MB)，推理時(shí)間更是達(dá)到毫秒級(jí)，大部分情況下識(shí)別準(zhǔn)確率超90%;

　　而如何在毫秒級(jí)時(shí)間內(nèi)，僅憑一張照片就“拼”出最合適的卡通化人臉，同時(shí)換上最合適的風(fēng)格，則是多模態(tài)基模融合技術(shù)的能力。

　　依托大量基礎(chǔ)幾何(1k+)和形狀素材(100+)，配合百萬(wàn)級(jí)的AI訓(xùn)練數(shù)據(jù)，高效建模得以輕松實(shí)現(xiàn)。

　　通過(guò)3D卡通數(shù)字人建模服務(wù)和HMS Core手語(yǔ)服務(wù)的配合——無(wú)論是熱情活潑的手語(yǔ)老師，還是端莊親和的手語(yǔ)直播主持人，都能快速搞定。

　　建模完成后就是驅(qū)動(dòng)和渲染了，讓模型不僅能像人一樣表情自然、肢體動(dòng)作流暢，還能具備一定語(yǔ)言理解表達(dá)能力。

　　傳統(tǒng)平臺(tái)雖然有動(dòng)作庫(kù)、降低人工制作難度，但最復(fù)雜的往往是兩個(gè)動(dòng)作之間的過(guò)渡、以及將語(yǔ)音文本和表情逐幀對(duì)應(yīng)的過(guò)程。

　　目前有大廠(chǎng)已經(jīng)試圖在用算法搞定動(dòng)作過(guò)渡，至于語(yǔ)音文本和表情對(duì)應(yīng)則可以用AI算法來(lái)降低工作量。

　　此次HDC，華為正式發(fā)布的HMS Core 3D Engine，不僅能進(jìn)行超大規(guī)模數(shù)字世界的實(shí)時(shí)渲染，對(duì)于數(shù)字人的驅(qū)動(dòng)也專(zhuān)門(mén)提供了一套能搞定實(shí)時(shí)骨骼動(dòng)畫(huà)、表情動(dòng)畫(huà)、腳步/全身IK、布娃娃系統(tǒng)、動(dòng)畫(huà)重定向、多重動(dòng)畫(huà)融合的“工具包”。

　　3D Engine的動(dòng)畫(huà)編輯器不僅支持創(chuàng)建多個(gè)動(dòng)作狀態(tài)機(jī)，而且還能對(duì)多個(gè)角色的動(dòng)作進(jìn)行平滑過(guò)渡，解決數(shù)字人動(dòng)作之間“不流暢”的問(wèn)題。

　　除了單純的動(dòng)作驅(qū)動(dòng)，讓數(shù)字人具備理解表達(dá)能力，同樣是決定驅(qū)動(dòng)真實(shí)性的一環(huán)。

　　HMS Core的手語(yǔ)服務(wù)，用AI算法給數(shù)字人打開(kāi)了“手語(yǔ)表達(dá)與理解”能力。

　　基于大量深度學(xué)習(xí)算法，讓模型學(xué)習(xí)語(yǔ)音、唇形、表情參數(shù)間的潛在映射關(guān)系，手語(yǔ)服務(wù)通過(guò)HMS Core 3D Engine驅(qū)動(dòng)模型在接收到輸入信號(hào)時(shí)，自動(dòng)做出對(duì)應(yīng)的動(dòng)作。

　　建模和驅(qū)動(dòng)之后，就來(lái)到最終的渲染部分。

　　傳統(tǒng)方法往往計(jì)算量極高，更別提直播場(chǎng)景中常見(jiàn)的實(shí)時(shí)渲染。

　　尤其是寫(xiě)實(shí)數(shù)字人，為避免高時(shí)延，實(shí)時(shí)渲染往往選擇犧牲數(shù)字人的真實(shí)感，包括皮膚、頭發(fā)和眼睛等部位，想要打造真實(shí)感難度非常高，最后往往只能采用3D卡通數(shù)字人來(lái)完成實(shí)時(shí)直播。

　　在這種背景下，HMS Core的3D Engine在實(shí)現(xiàn)在實(shí)時(shí)渲染的同時(shí)，還盡可能還原寫(xiě)實(shí)數(shù)字人真實(shí)的效果。利用3D Engine呈現(xiàn)出來(lái)的數(shù)字人，不僅能與場(chǎng)景進(jìn)行實(shí)時(shí)交互，在皮膚材質(zhì)、發(fā)絲仿真、眼球材質(zhì)等渲染上也足夠細(xì)致，這些細(xì)節(jié)直接影響了數(shù)字人的逼真程度。

　　皮膚材質(zhì)上通過(guò)次表面反射、雙葉高光對(duì)皮膚的光澤度和通透感實(shí)現(xiàn)了增強(qiáng)，呈現(xiàn)出了更自然的皮膚效果。

　　在發(fā)絲上，則是通過(guò)實(shí)時(shí)物理模擬完成10萬(wàn)+發(fā)絲運(yùn)動(dòng)，來(lái)增強(qiáng)頭發(fā)的陰影、半透明和高光渲染效果。

　　眼球還原上甚至精確到了虹膜、瞳孔、鞏膜、晶狀體折射率等，根據(jù)參數(shù)進(jìn)行調(diào)整。

　　整體來(lái)說(shuō)，相較于傳統(tǒng)數(shù)字人制作流程，從降低門(mén)檻、提高易用性等維度出發(fā)， HMS Core提出了一個(gè)更為簡(jiǎn)易的數(shù)字人全流程解決方案。

　　背后技術(shù)能力并不簡(jiǎn)單

　　其實(shí)，面臨數(shù)字人落地的難題和機(jī)遇，國(guó)內(nèi)外不少公司都在投入這一賽道角逐。

　　這其中既包括蘋(píng)果、Meta和英偉達(dá)等科技巨頭，也有Neon和DATAGRID等初創(chuàng)公司，憑借自身軟硬件優(yōu)勢(shì)“擴(kuò)張”在數(shù)字人行業(yè)的版圖。

　　在賽道玩家云集的情況下，華為降低用“人”成本的底氣何在?

　　一方面，在A(yíng)I等技術(shù)上，華為這些年也在不斷地進(jìn)行研究和積累。

　　據(jù)華為介紹，在NeurIPS近五年來(lái)引用最多的50篇論文、以及ACL近五年來(lái)應(yīng)用最高的20篇論文中，都各自有一篇華為諾亞方舟實(shí)驗(yàn)室的論文，同時(shí)ACL引用最高的30篇論文中，更是有3篇相關(guān)論文。

　　華為輪值董事長(zhǎng)徐直軍，此前也透露過(guò)華為的AI研發(fā)數(shù)據(jù)：僅2018一年，華為的AI研發(fā)投入就達(dá)到15億美元，研發(fā)團(tuán)隊(duì)更是超過(guò)5000人。

　　具體到內(nèi)容上，這些論文中就有不少像多模態(tài)技術(shù)這類(lèi)與數(shù)字人息息相關(guān)的研究。

　　被ACM Multimedia 2022收錄的一篇新論文中，華為泊松實(shí)驗(yàn)室就聯(lián)合人大高瓴人工智能學(xué)院提出了一種名叫MMTG的新模型，意圖讓AI看到圖文混雜的輸入時(shí)能理解它們的關(guān)聯(lián)，并創(chuàng)作出新的文本，進(jìn)一步提升數(shù)字人的表達(dá)能力。

　　另一方面是獨(dú)特的應(yīng)用場(chǎng)景優(yōu)勢(shì)，作為鴻蒙生態(tài)的重要組成部分，HMS Core提供的一系列全面的端、云開(kāi)放能力，為數(shù)字人在移動(dòng)端乃至鴻蒙生態(tài)上的落地提供了有力的支持。

　　通過(guò)HMS Core 3D Engine和手語(yǔ)服務(wù)打造的手語(yǔ)數(shù)字人，已經(jīng)開(kāi)放給暢聽(tīng)無(wú)礙、知音等第三方App集成接入，實(shí)現(xiàn)在手機(jī)上的直接使用，為聽(tīng)障人群帶來(lái)生活的便利。

　　2700億市場(chǎng)如何把握?

　　事實(shí)上，不止手語(yǔ)數(shù)字人，目前更多場(chǎng)景都面臨著使用數(shù)字人的情況。

　　據(jù)《量子位虛擬數(shù)字人白皮書(shū)》預(yù)測(cè)，2030年我國(guó)虛擬數(shù)字人市場(chǎng)規(guī)模將快速增長(zhǎng)至2700億。

　　按需求場(chǎng)景劃分，主要有身份型虛擬人和服務(wù)型虛擬人。

　　身份型虛擬人即虛擬偶像、真人人偶分身等，服務(wù)型虛擬人的常見(jiàn)應(yīng)用場(chǎng)景有銀行、政務(wù)大廳、播音室等。

　　比如在銀行數(shù)字化轉(zhuǎn)型趨勢(shì)下，數(shù)字人銀行客服通過(guò)語(yǔ)音交互，就能以更貼近于傳統(tǒng)柜臺(tái)的方式，提供更加人性化便捷的服務(wù);

　　還有手語(yǔ)翻譯場(chǎng)景，我國(guó)聽(tīng)障人群數(shù)量達(dá)到2700萬(wàn)，但專(zhuān)業(yè)手語(yǔ)翻譯師的數(shù)量恐怕還不到1萬(wàn)。3D手語(yǔ)數(shù)字人在彌補(bǔ)專(zhuān)業(yè)人才缺口的同時(shí)，也能快速普及國(guó)家通用手語(yǔ)。

　　目前，我們已經(jīng)能看到越來(lái)越多的數(shù)字人開(kāi)始上崗工作，隨著華為等大廠(chǎng)的技術(shù)投入，其成本和使用門(mén)檻也在進(jìn)一步降低。

　　如果你對(duì)數(shù)字人制作和應(yīng)用場(chǎng)景感興趣，可以戳【閱讀原文】到HMS Core官網(wǎng)，了解相關(guān)圖形服務(wù)的進(jìn)一步信息。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信