中國品牌,讓東南亞感受“消費升級”小紅書本地“坐抖望團”CrowdStrike“全球滅霸響指”事件后續(xù),德國 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實況照片了蘋果有線耳機或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測屏幕指紋殘留,提高手機安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性
  • 首頁 > 企業(yè)IT頻道 > 數(shù)字化

    讓數(shù)字人出圈的技術(shù)秘籍,華為率先公開了

    2022年11月08日 09:26:42   來源:微信公眾號:量子位

      在剛剛結(jié)束的2022華為開發(fā)者大會(HDC2022)上,升級版的手語數(shù)字人再次亮相,為大會的主題演講進行了實時翻譯。

      相較去年HDC,手語數(shù)字人不僅在形象上有了優(yōu)化,覆蓋手語詞匯量更是提高到了2萬+,還能支持多達26種面部表情和準確的口動,在需要的時候?qū)崿F(xiàn)恰當(dāng)?shù)那榫w化表達,大大提高了手語的可懂度。

      這樣一個會手語的數(shù)字人,已不僅限于連續(xù)兩年在華為開發(fā)者大會上“嶄露頭角”了。其實在政府網(wǎng)站、學(xué)校和移動應(yīng)用等場景,手語數(shù)字人也已經(jīng)逐漸上崗。

      實際上,制作一個精良的數(shù)字人并不簡單,如果要求高度定制化,技術(shù)門檻只會更上一個臺階。

      這也導(dǎo)致當(dāng)下數(shù)字人頗有種大廠“奢侈品”的味道。

      畢竟,并非所有人都能承擔(dān)起如此高昂費用和制作復(fù)雜度,以手語數(shù)字人為例,需求很大一部分來自于學(xué)校、公益機構(gòu)等。

      而在這些現(xiàn)象背后,其實還隱藏著數(shù)字人在制作、應(yīng)用落地方面的一連串難題。

      大廠競速,降低數(shù)字人落地門檻

      想要探尋數(shù)字人的落地瓶頸,還需從它的生產(chǎn)制作流程看起。

      制作數(shù)字人的流程,可以分為建模、驅(qū)動和渲染三個階段。

      建模即搭起數(shù)字人的“基礎(chǔ)骨架模型”,驅(qū)動負責(zé)讓模型“動起來像人”,渲染則負責(zé)讓模型“看起來像人”。

      聽起來不難,但在傳統(tǒng)的數(shù)字人制作流程中,每一階段都面臨操作繁雜、算法門檻高、開發(fā)周期長的問題,成本更是大型企業(yè)才負擔(dān)得起。

      極高的制作門檻,和數(shù)字人主打的“服務(wù)場景”卻并不匹配。

      像銀行、政務(wù)服務(wù)、直播間、景點導(dǎo)覽、學(xué)校等需求方,往往不具備獨立開發(fā)制作數(shù)字人的技術(shù)能力,能承受的制作成本更是相對有限。

      這種情況下,不少科技廠商如華為競相涉足數(shù)字人領(lǐng)域的研發(fā),力圖降低每個制作階段的技術(shù)門檻。

      在建模上,傳統(tǒng)方式往往要利用多方位攝像頭,對模特們打點掃描,采集說話時唇部、表情、面部肌肉、肢體細節(jié)和姿態(tài)等身體數(shù)據(jù),隨后按照需求設(shè)計建模,如卡通風(fēng)、超寫實風(fēng)格等。

      BUT,這背后需要的工作量非常大,而且需要專業(yè)人員操作。

      相比之下,目前已經(jīng)有更多AI算法來降低3D建模門檻,也適配不同的數(shù)字人風(fēng)格。

      在本次HDC上,華為就展示了一套高效的3D卡通數(shù)字人建模服務(wù),能夠幫助開發(fā)者快速構(gòu)建自定義的3D卡通數(shù)字人資產(chǎn);跇I(yè)界前沿的全屬性特征識別和多模態(tài)基模融合兩大核心技術(shù),只需要1張照片,AI算法1秒鐘就能生成一個活靈活現(xiàn)的卡通風(fēng)格數(shù)字人,甚至連身體都能建模好。

      全屬性特征識別技術(shù)能夠?qū)Πl(fā)型、眼形、眉形、胡子和眼鏡等面部主要屬性迅速而精準地識別,每個部分又可細化到常見的特征,如單雙眼皮、卷直發(fā)等,實現(xiàn)美與像的平衡。

      值得一提的是,這樣的神經(jīng)網(wǎng)絡(luò)模型非常輕量,大小僅在KB級別(不到1MB),推理時間更是達到毫秒級,大部分情況下識別準確率超90%;

      而如何在毫秒級時間內(nèi),僅憑一張照片就“拼”出最合適的卡通化人臉,同時換上最合適的風(fēng)格,則是多模態(tài)基模融合技術(shù)的能力。

      依托大量基礎(chǔ)幾何(1k+)和形狀素材(100+),配合百萬級的AI訓(xùn)練數(shù)據(jù),高效建模得以輕松實現(xiàn)。

      通過3D卡通數(shù)字人建模服務(wù)和HMS Core手語服務(wù)的配合——無論是熱情活潑的手語老師,還是端莊親和的手語直播主持人,都能快速搞定。

      建模完成后就是驅(qū)動和渲染了,讓模型不僅能像人一樣表情自然、肢體動作流暢,還能具備一定語言理解表達能力。

      傳統(tǒng)平臺雖然有動作庫、降低人工制作難度,但最復(fù)雜的往往是兩個動作之間的過渡、以及將語音文本和表情逐幀對應(yīng)的過程。

      目前有大廠已經(jīng)試圖在用算法搞定動作過渡,至于語音文本和表情對應(yīng)則可以用AI算法來降低工作量。

      此次HDC,華為正式發(fā)布的HMS Core 3D Engine,不僅能進行超大規(guī)模數(shù)字世界的實時渲染,對于數(shù)字人的驅(qū)動也專門提供了一套能搞定實時骨骼動畫、表情動畫、腳步/全身IK、布娃娃系統(tǒng)、動畫重定向、多重動畫融合的“工具包”。

      3D Engine的動畫編輯器不僅支持創(chuàng)建多個動作狀態(tài)機,而且還能對多個角色的動作進行平滑過渡,解決數(shù)字人動作之間“不流暢”的問題。

      除了單純的動作驅(qū)動,讓數(shù)字人具備理解表達能力,同樣是決定驅(qū)動真實性的一環(huán)。

      HMS Core的手語服務(wù),用AI算法給數(shù)字人打開了“手語表達與理解”能力。

      基于大量深度學(xué)習(xí)算法,讓模型學(xué)習(xí)語音、唇形、表情參數(shù)間的潛在映射關(guān)系,手語服務(wù)通過HMS Core 3D Engine驅(qū)動模型在接收到輸入信號時,自動做出對應(yīng)的動作。

      建模和驅(qū)動之后,就來到最終的渲染部分。

      傳統(tǒng)方法往往計算量極高,更別提直播場景中常見的實時渲染。

      尤其是寫實數(shù)字人,為避免高時延,實時渲染往往選擇犧牲數(shù)字人的真實感,包括皮膚、頭發(fā)和眼睛等部位,想要打造真實感難度非常高,最后往往只能采用3D卡通數(shù)字人來完成實時直播。

      在這種背景下,HMS Core的3D Engine在實現(xiàn)在實時渲染的同時,還盡可能還原寫實數(shù)字人真實的效果。利用3D Engine呈現(xiàn)出來的數(shù)字人,不僅能與場景進行實時交互,在皮膚材質(zhì)、發(fā)絲仿真、眼球材質(zhì)等渲染上也足夠細致,這些細節(jié)直接影響了數(shù)字人的逼真程度。

      皮膚材質(zhì)上通過次表面反射、雙葉高光對皮膚的光澤度和通透感實現(xiàn)了增強,呈現(xiàn)出了更自然的皮膚效果。

      在發(fā)絲上,則是通過實時物理模擬完成10萬+發(fā)絲運動,來增強頭發(fā)的陰影、半透明和高光渲染效果。

      眼球還原上甚至精確到了虹膜、瞳孔、鞏膜、晶狀體折射率等,根據(jù)參數(shù)進行調(diào)整。

      整體來說,相較于傳統(tǒng)數(shù)字人制作流程,從降低門檻、提高易用性等維度出發(fā), HMS Core提出了一個更為簡易的數(shù)字人全流程解決方案。

      背后技術(shù)能力并不簡單

      其實,面臨數(shù)字人落地的難題和機遇,國內(nèi)外不少公司都在投入這一賽道角逐。

      這其中既包括蘋果、Meta和英偉達等科技巨頭,也有Neon和DATAGRID等初創(chuàng)公司,憑借自身軟硬件優(yōu)勢“擴張”在數(shù)字人行業(yè)的版圖。

      在賽道玩家云集的情況下,華為降低用“人”成本的底氣何在?

      一方面,在AI等技術(shù)上,華為這些年也在不斷地進行研究和積累。

      據(jù)華為介紹,在NeurIPS近五年來引用最多的50篇論文、以及ACL近五年來應(yīng)用最高的20篇論文中,都各自有一篇華為諾亞方舟實驗室的論文,同時ACL引用最高的30篇論文中,更是有3篇相關(guān)論文。

      華為輪值董事長徐直軍,此前也透露過華為的AI研發(fā)數(shù)據(jù):僅2018一年,華為的AI研發(fā)投入就達到15億美元,研發(fā)團隊更是超過5000人。

      具體到內(nèi)容上,這些論文中就有不少像多模態(tài)技術(shù)這類與數(shù)字人息息相關(guān)的研究。

      被ACM Multimedia 2022收錄的一篇新論文中,華為泊松實驗室就聯(lián)合人大高瓴人工智能學(xué)院提出了一種名叫MMTG的新模型,意圖讓AI看到圖文混雜的輸入時能理解它們的關(guān)聯(lián),并創(chuàng)作出新的文本,進一步提升數(shù)字人的表達能力。

      另一方面是獨特的應(yīng)用場景優(yōu)勢,作為鴻蒙生態(tài)的重要組成部分,HMS Core提供的一系列全面的端、云開放能力,為數(shù)字人在移動端乃至鴻蒙生態(tài)上的落地提供了有力的支持。

      通過HMS Core 3D Engine和手語服務(wù)打造的手語數(shù)字人,已經(jīng)開放給暢聽無礙、知音等第三方App集成接入,實現(xiàn)在手機上的直接使用,為聽障人群帶來生活的便利。

      2700億市場如何把握?

      事實上,不止手語數(shù)字人,目前更多場景都面臨著使用數(shù)字人的情況。

      據(jù)《量子位虛擬數(shù)字人白皮書》預(yù)測,2030年我國虛擬數(shù)字人市場規(guī)模將快速增長至2700億。

      按需求場景劃分,主要有身份型虛擬人和服務(wù)型虛擬人。

      身份型虛擬人即虛擬偶像、真人人偶分身等,服務(wù)型虛擬人的常見應(yīng)用場景有銀行、政務(wù)大廳、播音室等。

      比如在銀行數(shù)字化轉(zhuǎn)型趨勢下,數(shù)字人銀行客服通過語音交互,就能以更貼近于傳統(tǒng)柜臺的方式,提供更加人性化便捷的服務(wù);

      還有手語翻譯場景,我國聽障人群數(shù)量達到2700萬,但專業(yè)手語翻譯師的數(shù)量恐怕還不到1萬。3D手語數(shù)字人在彌補專業(yè)人才缺口的同時,也能快速普及國家通用手語。

      目前,我們已經(jīng)能看到越來越多的數(shù)字人開始上崗工作,隨著華為等大廠的技術(shù)投入,其成本和使用門檻也在進一步降低。

      如果你對數(shù)字人制作和應(yīng)用場景感興趣,可以戳【閱讀原文】到HMS Core官網(wǎng),了解相關(guān)圖形服務(wù)的進一步信息。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。