自疫情爆發(fā)以來,從省市級媒體到地方縣級融媒體平臺,都紛紛啟用相芯科技的AI虛擬主播投入到疫情報道的實戰(zhàn)中來。虛擬主播是相芯科技對AI數(shù)字人的探索以及應(yīng)用的一部分,正在不斷改變智能媒體的時代。那么什么是AI數(shù)字人?這項技術(shù)是如何實現(xiàn)的?它還有哪些可拓展的實際落地場景?大家可以通過相芯科技CTO秦昊在達(dá)摩院AI Inside同行者大會中對AI數(shù)字人的技術(shù)分享,了解一下。
演講嘉賓簡介:秦昊,相芯科技CTO
摘要:在人工智能高速發(fā)展的今天,越來越多的AI技術(shù)開始與計算機圖形技術(shù)結(jié)合解決實際應(yīng)用問題。AI數(shù)字人技術(shù)由人工智能與CG技術(shù)結(jié)合而成,用于提供仿真的人機問答服務(wù),并在視覺通道上優(yōu)化人機交互體驗。相芯科技CTO秦昊在達(dá)摩院AI Inside同行者大會中通過企業(yè)在AI數(shù)字人方面的探索及相關(guān)應(yīng)用的案例分享展現(xiàn)AI數(shù)字人技術(shù)的進展及應(yīng)用。
以下內(nèi)容根據(jù)演講視頻以及PPT整理而成。
本文將站在應(yīng)用角度為大家展示相芯科技聯(lián)合阿里云TTS開發(fā)的AI數(shù)字人應(yīng)用案例。
AI數(shù)字人
AI數(shù)字人的概念起源于2017年SIGGRAPH大會上,眾多學(xué)術(shù)機構(gòu)合作推出了一款A(yù)I數(shù)字人Virtual Mike。通過融合當(dāng)時尖端的渲染技術(shù)與動作捕捉技術(shù)大會打造了一個惟妙惟肖的實時虛擬角色。經(jīng)過兩三年的發(fā)展,互聯(lián)網(wǎng)行業(yè)中開始出現(xiàn)數(shù)字人技術(shù)應(yīng)用的案例,如百度公司與浦發(fā)銀行共同打造的AI數(shù)字人“小浦”可以作為銀行的數(shù)字員工為相關(guān)用戶提供業(yè)務(wù)咨詢及簡單業(yè)務(wù)辦理的服務(wù)。
AI數(shù)字人技術(shù)為用戶提供了全新基于視覺通道的人機交互界面。該界面通過融合CG技術(shù)、語音技術(shù)及自然語言處理等多種技術(shù),為使用者打造出類似人與人交互的操作體驗。企業(yè)通過切換數(shù)字人背后的知識庫或AI模塊使其可以支撐不同的業(yè)務(wù)場景,如在媒體播報領(lǐng)域、個人助理領(lǐng)域及業(yè)務(wù)咨詢等領(lǐng)域數(shù)字人技術(shù)均有不俗的表現(xiàn)。
虛擬主播云平臺
相芯科技公司基于與阿里云的合作在很多領(lǐng)域開始進行AI數(shù)字人技術(shù)的應(yīng)用落地。相芯科技的AI數(shù)字人技術(shù),只需要輸入一段文字,就可以全自動地合成整個人的說話,包含動作、形態(tài)、情緒的視頻。公司搭建的虛擬主播云平臺如下圖所示。在平臺編輯界面中,用戶可以對虛擬人物的角色、對話內(nèi)容腳本及相關(guān)人物動作進行選擇,并通過阿里云的云服務(wù)器進行渲染和視頻合成,就能快速生成數(shù)字人的視頻,用戶可以自行將視頻下載,并進行分發(fā)。
虛擬主播及虛擬機器人
下圖所示為公司虛擬主持人模塊的架構(gòu)。公司將相關(guān)腳本輸入,通過TTS語音技術(shù)完成人物語音的合成,在STA(Speech-to-Animation)模塊中進行動畫及視頻合成,最后生成相關(guān)的虛擬視頻。企業(yè)同時對互動助手、虛擬機器人技術(shù)架構(gòu)進行了開發(fā)。在數(shù)據(jù)輸入部分,系統(tǒng)通過接入自然語言處理等模塊完成了機器人問答系統(tǒng)的搭建,以此支持?jǐn)?shù)字人與用戶的實時交互功能。
語音技術(shù)合作伙伴—阿里云TTS
STA業(yè)務(wù)打造的虛擬主播與虛擬客服,都離不開語音合成技術(shù)TTS的支持。企業(yè)對市面上提供TTS服務(wù)的公司進行調(diào)研對比后,選擇了阿里云TTS作為合作伙伴。企業(yè)通過與阿里云TTS的合作,為數(shù)字人角色搭建了真實自然的語音模型,并陸續(xù)在進行更深層次的技術(shù)合作。
STA算法流程
下圖所示為STA(Speech-to-Animation)算法流程示意圖。企業(yè)將文本數(shù)據(jù)與語音數(shù)據(jù)共同作為算法數(shù)據(jù)導(dǎo)入算法模塊中,算法將會對語音數(shù)據(jù)中的情緒及語速等因素進行分析,以此合成出數(shù)字人說話的口型、發(fā)音及與用戶的對話情景等數(shù)據(jù),通過分析出的數(shù)據(jù)驅(qū)動數(shù)字人表現(xiàn)出自然生動的畫面。
圖形合成模塊
企業(yè)經(jīng)過一系列探索,目前已擁有了完備的數(shù)字人表現(xiàn)及部署方案。從3D卡通形象到高精度虛擬人形象企業(yè)均可提供良好的塑造技術(shù)支持。企業(yè)可以使用不同的虛擬人物完成不同業(yè)務(wù)場景下對虛擬人物的需求,包括且不限于支持智能手機、終端及大屏上數(shù)字人的問答業(yè)務(wù)、支持云渲染實現(xiàn)高質(zhì)量視頻合成等業(yè)務(wù)場景。
照片級人像合成技術(shù)
企業(yè)由SIGGRAPH大會論文成果設(shè)計實現(xiàn)的照片級人像合成技術(shù)效果如下圖所示。使用者在左側(cè)輸入表情時,右側(cè)的目標(biāo)照片上的人物可以實時做出惟妙惟肖的表情。該技術(shù)能非常細(xì)膩地合成人物臉上每處細(xì)節(jié)(如法令紋、牙齒等),使觀看者感受到照片像現(xiàn)實人物一樣在做動作。
該技術(shù)背后為企業(yè)基于生成對抗網(wǎng)絡(luò)所開發(fā)的技術(shù)架構(gòu)。由于生成對抗網(wǎng)絡(luò)技術(shù)最大的難點在于它生成的結(jié)果的不可控性,考慮到數(shù)字人場景需要極其精準(zhǔn)掌控人物的發(fā)音狀態(tài)表現(xiàn),開發(fā)團隊創(chuàng)新性的構(gòu)建了兩個階段的人像合成算法架構(gòu)。算法首先通過三維的數(shù)據(jù)重建與數(shù)據(jù)理解將圖像變形到開發(fā)團隊預(yù)設(shè)的表情上,之后算法通過生成對抗網(wǎng)絡(luò)技術(shù)對虛擬人物在細(xì)節(jié)上進行修補與還原。在這種方案下,生成對抗網(wǎng)絡(luò)本身可以專注于人物細(xì)節(jié)的修補,免去了其處理圖片形變與位移所需的精力,使算法可以良好的控制虛擬人物表情變化,真實的還原人物細(xì)節(jié)。
下圖為企業(yè)照片級人像合成技術(shù)的效果。左上方在人在做一些表情,來控制其他照片,使這五張照片也可以合成出非常真實的表情,包括牙齒、嘴巴內(nèi)部、法令紋等細(xì)節(jié)都能合成得非常真實,很難判別出真假。
虛擬主播案例
目前AI數(shù)字人技術(shù)不僅可以在高精度虛擬人物合成場景中進行應(yīng)用,同時也多樣型的數(shù)字人解決方案開始在各行各業(yè)的業(yè)務(wù)場景中落地提供相應(yīng)服務(wù)。下圖所示為企業(yè)基于AI數(shù)字人技術(shù)設(shè)計開發(fā)的虛擬主播應(yīng)用案例。對于報社、電視臺及媒體等業(yè)務(wù)方而言,虛擬主播技術(shù)很好的滿足了業(yè)務(wù)方在自動化視頻生成、媒體內(nèi)容生成方面的業(yè)務(wù)需求,成為了融媒體時代新聞媒體的傳媒利器。同時虛擬主播技術(shù)也被應(yīng)用于新媒體之中,業(yè)務(wù)方通過打造公司專屬的虛擬主播形象既可以實現(xiàn)與觀眾的情感互動也保證了公司本身的傳媒影響力,避免了出現(xiàn)以往公眾影響力集中在新聞主播身上的情況。
虛擬機器人案例
企業(yè)在具有將強的互動性虛擬機器人和互動助手在技術(shù)上也在進行相關(guān)探索。通過STA技術(shù),企業(yè)將虛擬人物與問答系統(tǒng)整合。在用戶使用系統(tǒng)進行交互時,系統(tǒng)將展現(xiàn)出更為具象的虛擬人物進行交流互動。比如公司通過與汽車企業(yè)合作研制的車機虛擬助手目前已實現(xiàn)量產(chǎn)車上的部署。公司同時積極探索數(shù)字人技術(shù)在線下場景中的應(yīng)用,通過在銀行大廳、地鐵售票處、醫(yī)院、法庭及企業(yè)展廳中部署AI數(shù)字人系統(tǒng)。同時公司可以實現(xiàn)讓智能音箱升級為具有具像化形象的智能系統(tǒng)。公司為不同業(yè)務(wù)的用戶群體提供了更為高效便利的咨詢服務(wù)及良好的交互體驗。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
根據(jù)2月底內(nèi)部溝通會上的消息,在美團發(fā)展的第二個十年,“科技”成了公司創(chuàng)始人兼CEO王興會更多關(guān)注的方向之一。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。