合合信息:破解大模型語(yǔ)料庫(kù)難題的引領(lǐng)者核聚變2024北京站高能開幕,ROG電競(jìng)顯示器強(qiáng)勢(shì)助力游戲狂歡華為企業(yè)客戶支持圓桌會(huì)議成功舉辦,共筑ICT基礎(chǔ)設(shè)施維護(hù)新未來66元搶爆款A(yù)R眼鏡!京東AR眼鏡超級(jí)新品日30天無憂適用等你來攜手共進(jìn),智啟未來 —— 華為與CypressTel賽柏特成立 SD-WAN 聯(lián)合創(chuàng)新實(shí)驗(yàn)合合信息成功IPO開啟新篇章全球首款第二代酷睿Ultra處理器筆記本!聯(lián)想YOGA Air 15 Aura AI元啟版開啟預(yù)售中國(guó)品牌,讓東南亞感受“消費(fèi)升級(jí)”小紅書本地“坐抖望團(tuán)”CrowdStrike“全球滅霸響指”事件后續(xù),德國(guó) 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺(tái)合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺(tái),加速數(shù)字化轉(zhuǎn)型重慶:力爭(zhēng)今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬(wàn)輛,到 2027 年建成萬(wàn)億級(jí)產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實(shí)況照片了蘋果有線耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會(huì)官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進(jìn)化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國(guó)AR/VR出貨23.3萬(wàn)臺(tái),同比下滑了 29.1%
  • 首頁(yè) > 企業(yè)IT頻道 > 人工智能

    我們離“數(shù)字人自由”還有多遠(yuǎn)?

    2022年07月06日 19:50:46   來源:一刻商業(yè)

      作者 | 曉陽(yáng)

      編輯 | 周燁

      早在2007年,日本公司Crypton Future Media推出的虛擬聲優(yōu)“初音未來”,便將虛擬人推向大眾視野。遺憾的是,往后數(shù)年,數(shù)字人并沒有在真正意義上迎來爆發(fā)。

      但2021年以后,基于AI技術(shù)深度開發(fā)的AYAYI、度曉曉等應(yīng)用場(chǎng)景更廣泛的數(shù)字人的出現(xiàn),展現(xiàn)了更自然逼真的體驗(yàn),也向“真實(shí)”邁進(jìn)了一大步。

      在寫作、手語(yǔ)翻譯、直播等領(lǐng)域,數(shù)字人開始發(fā)揮作用。AI數(shù)字人挑戰(zhàn)高考作文,得分排總考生的前25%;數(shù)字人主播小C,已連續(xù)兩年報(bào)道兩會(huì)并采訪人大代表;AI手語(yǔ)主播,在今年冬奧會(huì)期間為數(shù)千萬(wàn)聽障用戶提供直播及賽事的手語(yǔ)服務(wù);百度數(shù)字人希加加,甚至成為麥當(dāng)勞的首位虛擬代言人。

      虛擬數(shù)字人正在快速走向大眾,經(jīng)歷著大量的制作生成、不同場(chǎng)景的應(yīng)用,展現(xiàn)出一幅“人”與人共生的未來圖景。

      2022年,這場(chǎng)有關(guān)“造人”的暢想、實(shí)驗(yàn)仍在進(jìn)行。業(yè)內(nèi)普遍認(rèn)為,以洛天依為代表的“形象+語(yǔ)音合成”的數(shù)字人,為1.0階段。2.0階段,則是依靠“2D/3D模型+實(shí)時(shí)動(dòng)作捕捉+聲優(yōu)配音”模式。

      而如今進(jìn)入的3.0階段,將考驗(yàn)企業(yè)的AIGC(人工智能自動(dòng)生成內(nèi)容)能力。算法、程序是數(shù)字人的基因,但通過AI,它們能在面部表情、形體表達(dá)、語(yǔ)音表述上變得更加“真實(shí)”、“個(gè)性”。

      近期,沙利文發(fā)布的《2022年中國(guó)數(shù)字人市場(chǎng)觀測(cè)報(bào)告》(下稱報(bào)告)顯示,按綜合競(jìng)爭(zhēng)實(shí)力量化評(píng)估,小冰、百度、商湯三家位列第一梯隊(duì)。從硬軟件、AI能力平臺(tái)到各產(chǎn)業(yè)的應(yīng)用,各大廠商也開始試圖打通數(shù)字與現(xiàn)實(shí)的入口。

      但目前為止,企業(yè)以及個(gè)人還無法獲得“數(shù)字人自由”。虛擬數(shù)字人距離真正意義上的爆發(fā),還有一段路要走。

      大多數(shù)字人僅能進(jìn)行簡(jiǎn)單的決策,而無法達(dá)到完全智能化交互。同時(shí),數(shù)字人的生產(chǎn)效率問題,導(dǎo)致難以滿足企業(yè)的高頻需求,數(shù)字人制造成本較高。

      打造有“靈魂”的數(shù)字人,能聽、能說、能理解、能互動(dòng),是企業(yè)、用戶的訴求,但技術(shù)方面依然面臨高難度挑戰(zhàn)。

      1、數(shù)字人為什么被需要?

      數(shù)字人浪潮的興起、爆發(fā),一直是伴隨需求而生。

      千禧年后,CG合成的“初音未來”讓虛擬偶像概念破土而出,愿意買單、參與創(chuàng)作的年輕人,制造了第一場(chǎng)圍繞虛擬偶像的“吸金效應(yīng)”。

      回到當(dāng)下,在社交媒體上,虛擬美妝主播、虛擬換裝達(dá)人、虛擬演員等一夜爆紅的案例數(shù)不勝數(shù)。Z世代的新消費(fèi)趨勢(shì),驅(qū)動(dòng)著數(shù)字人進(jìn)入更多產(chǎn)業(yè)鏈條。

      提及數(shù)字人,大多年輕人的第一反應(yīng)也許是主打顏值的“演藝型”數(shù)字人。一位90后女生小蕾提到,她最早關(guān)注到虛擬人是在小紅書上,關(guān)注時(shí)尚博主AYAYI后,她隔幾天就會(huì)點(diǎn)進(jìn)她的賬號(hào)瀏覽最新的發(fā)帖內(nèi)容,后來才發(fā)現(xiàn)這是虛擬人。但目前,AYAYI小紅書的筆記點(diǎn)贊數(shù)已經(jīng)從十萬(wàn)+驟降至幾十,純演藝型數(shù)字人如何打破“虛火”、“過氣”的命運(yùn),也是各大數(shù)字人廠商面臨的難題。

      另一位90后男生周凡也提到,從小他就混二次元圈,從動(dòng)畫、游戲中的二次元人群到虛擬偶像,無論是顏值還是人設(shè),都更能讓他產(chǎn)生興趣。真實(shí)的明星他絲毫不關(guān)心,卻很愿意為“虛擬人老婆”花錢買單。

      主打顏值的演藝型數(shù)字人,常被塑造成網(wǎng)紅并進(jìn)行品牌代言活動(dòng)。比如希加加便是一個(gè)演藝型數(shù)字人,在多個(gè)社交平臺(tái)運(yùn)營(yíng)著個(gè)人IP賬號(hào),一邊與蜘蛛俠、三體等超級(jí)IP合作,打造人氣,一邊與品牌在年輕化營(yíng)銷方面進(jìn)行合作,此前希加加便成為麥當(dāng)勞的首位虛擬推薦官,還與Qee熊、FE賽車合作畫作并發(fā)布售賣。

      可以看出,數(shù)字人扮演著為品牌開辟全新營(yíng)銷場(chǎng)景、與未來消費(fèi)主力軍溝通的角色。

      但市場(chǎng)對(duì)數(shù)字人的期待不僅僅停留在“顏值”上,人們希望數(shù)字人承擔(dān)的角色從演藝?yán)^續(xù)向服務(wù)型擴(kuò)展,撐起更大的市場(chǎng)需求。

      在過往提到人“人”共存爭(zhēng)議時(shí),數(shù)字人替代人類的問題總被提及,但無論是前端的開發(fā)者還是投身其中的科技公司都一再?gòu)?qiáng)調(diào),數(shù)字人的服務(wù)屬性。百度智能云AI人機(jī)交互實(shí)驗(yàn)室負(fù)責(zé)人李士巖便曾提到,做數(shù)字人的初衷,并非為了替代人,而是為了“服務(wù)人和陪伴人”。

      如何服務(wù)?取代部分基礎(chǔ)性工作、提升效能,是當(dāng)下能看到的答案。數(shù)字員工、智能客服已經(jīng)被廣泛應(yīng)用到很多企業(yè)中,這幫助了企業(yè)降本增效、提升客戶體驗(yàn)。

      京東的數(shù)字人出現(xiàn)在618,在電商、社交、媒體等領(lǐng)域上崗就業(yè);在直播帶貨領(lǐng)域,網(wǎng)易伏羲的24小時(shí)AI虛擬主播,可以填補(bǔ)真人主播無法出鏡的空白時(shí)間;在新聞報(bào)道方面,度曉曉與《工人日?qǐng)?bào)》合作,在兩會(huì)期間應(yīng)用“AI記者”播報(bào)、采訪。

      百度數(shù)字人度曉曉則屬于典型的“服務(wù)型選手”。2022年百度世界大會(huì)即將在7月21日舉行,在其預(yù)溝通會(huì)上也提到,百度智能云專門打造了一個(gè)數(shù)字人平臺(tái)“曦靈”,基于此形成了一個(gè)“AI數(shù)字人家族”,包括虛擬偶像、數(shù)字人主播、數(shù)字人員工等,都在為企業(yè)品牌提供服務(wù)。

      而今年的大會(huì)中,度曉曉還將迎接一個(gè)難度系數(shù)翻倍的新挑戰(zhàn)。此前,在寫作方面,度曉曉參與作答全國(guó)議論文,拿下48分高分;作畫方面,其具備領(lǐng)先的跨模態(tài)理解和生成能力,可以根據(jù)個(gè)性化需求自動(dòng)生成油畫、水彩畫、中國(guó)畫等多種風(fēng)格的圖像,還能實(shí)現(xiàn)“看圖說話”的效果;度曉曉甚至還能創(chuàng)作歌曲方面,其與龔俊數(shù)字人聯(lián)合演唱的歌曲,從作詞到編曲均由AI“操刀”。報(bào)告也提到,服務(wù)型數(shù)字人是百度的優(yōu)勢(shì)所在,產(chǎn)品類型豐富,從最早的企業(yè)服務(wù)場(chǎng)景已經(jīng)延伸到營(yíng)銷、辦公等領(lǐng)域。

      這一切也讓人們展望數(shù)字人在更多領(lǐng)域被全面喚醒。

      2、實(shí)現(xiàn)“數(shù)字人自由”的技術(shù)難題

      虛擬數(shù)字人呈現(xiàn)的爆發(fā)態(tài)勢(shì),是過去數(shù)年制作水平、軟硬件技術(shù)等各方面的跨越式升級(jí)在催動(dòng)。

      盡管虛擬數(shù)字人不再停留在“紙片人”的階段,向智能化、精細(xì)化、多樣化方向發(fā)展,但還沒有到達(dá)談?wù)?ldquo;普及”、甚至大規(guī)模“復(fù)制”的階段。

      由此,在談?wù)撎摂M數(shù)字人“服務(wù)和陪伴人”這件事之前,似乎需要先解答“數(shù)字人自由”的問題:數(shù)字人大規(guī)模普及,依然面臨著技術(shù)發(fā)展的阻礙。

      經(jīng)歷了長(zhǎng)期的發(fā)展,如今到了數(shù)字人產(chǎn)業(yè)的3.0階段,通過掌握語(yǔ)義智能解析(NLP)和語(yǔ)音在線合成(TTS)等AI技術(shù),數(shù)字人將變得更加“聰明”。

      AIGC將進(jìn)一步在數(shù)字人領(lǐng)域滲透,將顛覆現(xiàn)有的內(nèi)容生產(chǎn)模式,AI將成為打造數(shù)字人的基礎(chǔ)硬實(shí)力。

      AIGC的應(yīng)用,說到底還是依賴于大模型等底層技術(shù)的創(chuàng)新。2022年百度數(shù)字大會(huì)的預(yù)溝通會(huì)也提到,希加加、度曉曉AI作畫、AI寫作文、AI作曲等,都是AIGC在內(nèi)容生產(chǎn)提效的體驗(yàn),而這背后,是百度飛槳及大模型的支持。

      AIGC如何讓數(shù)字人成為一個(gè)更真實(shí)的“人”,首先要從“真實(shí)”的要素說起。主要可分為:身體的靜動(dòng)態(tài)(軀體、面部、口型),感知能力(看、聽、說),認(rèn)知能力(情感識(shí)別、知識(shí)理解),它們都被期待著擺脫“紙片人”的僵硬。

      目前而言,部分?jǐn)?shù)字人僅僅擁有單一能力,且單一能力也僅僅是“半吊子”水平。

      以涉及聽和說的“可交互”能力舉例,被稱作“人工智障”的數(shù)字人,無法完成多輪對(duì)話,更達(dá)不到“語(yǔ)言理解力”。當(dāng)你說“不喜歡”時(shí),它可能會(huì)回答,“我不明白你在說什么。”

      但與度曉曉等更“真實(shí)”的數(shù)字人對(duì)話時(shí),你會(huì)發(fā)現(xiàn),跟她說你想看電影,她會(huì)給你推薦影片;你提到想喝咖啡,她就會(huì)跳轉(zhuǎn)到咖啡外賣的小程序去下單。顯然,度曉曉在對(duì)話中不僅能與用戶閑聊,同時(shí)能識(shí)別用戶說話的意圖,來提供給用戶搜索、推薦等,更好地為用戶服務(wù)。

      那么,這樣流暢的對(duì)話是如何實(shí)現(xiàn)的?這需要依賴數(shù)個(gè)步驟:首先,預(yù)訓(xùn)練對(duì)話大模型,使數(shù)字人學(xué)習(xí)通用的對(duì)話生成能力。再進(jìn)一步學(xué)習(xí)不同畫像信息下的對(duì)話生成能力,使模型的答復(fù)更具“定制化”“一致性”。最后,將海量的問答知識(shí)內(nèi)化到模型參數(shù)中,使得模型具備準(zhǔn)確的問答能力。百度文心PLATO大模型,便具備接近真人水平的多輪對(duì)話能力。

      簡(jiǎn)單來說,不斷迭代大模型的能力,提高各項(xiàng)AI能力,而基于大模型生成的數(shù)字人也將擁有更高的“智商”“情商”。

      不過,提高單一能力并非終點(diǎn),數(shù)字人需要走向全能。隨著虛擬人扮演的角色逐漸復(fù)雜,比如協(xié)助國(guó)家隊(duì)訓(xùn)練的虛擬教練觀君、負(fù)責(zé)萬(wàn)科內(nèi)部財(cái)務(wù)催收的虛擬員工崔筱盼、百度的AI手語(yǔ)數(shù)字人等,內(nèi)容生成、感知表達(dá)等都在逐步進(jìn)化。

      比如在直播場(chǎng)景中,百度的AI手語(yǔ)數(shù)字人,需要“聽到”主播的話,并“理解”字句,再實(shí)時(shí)轉(zhuǎn)換成手語(yǔ)“動(dòng)作”,展示給觀眾看。顯然,相比其他數(shù)字人,它進(jìn)行著更高強(qiáng)度的“大腦”運(yùn)轉(zhuǎn),完成著更復(fù)雜的工作。

      這便要考驗(yàn)數(shù)字人背后的大模型的跨模態(tài)能力。從文字、聲音到圖像模態(tài),AI需要讓數(shù)字人做到“聽說讀寫”樣樣俱全。AI驅(qū)動(dòng)下,數(shù)字人將不斷成長(zhǎng),擁有更多可能性。

      3、技術(shù)越來越強(qiáng),大量復(fù)制卻依然艱難?

      解決“數(shù)字人自由”,技術(shù)難題之外,生產(chǎn)效率問題也是討論的主要問題——如何低成本且快速地生成數(shù)字人,去滿足高頻的需求。

      當(dāng)下,數(shù)字人還很難快速低成本生成。當(dāng)企業(yè)希望借助數(shù)字人營(yíng)銷、服務(wù)用戶時(shí),面臨著數(shù)字人的投入成本高、制作周期長(zhǎng)、人設(shè)運(yùn)營(yíng)難、技術(shù)難度高等難題。

      提供解決方案的服務(wù)平臺(tái),被認(rèn)為是“數(shù)字人自由”的加速器。如百度、騰訊、網(wǎng)易伏羲等,都是平臺(tái)型技術(shù)服務(wù)商。

      通過服務(wù)平臺(tái),企業(yè)品牌借助批量生成功能,定制與業(yè)務(wù)方面吻合的數(shù)字人,同時(shí),可以通過平臺(tái)進(jìn)行內(nèi)容生產(chǎn)和運(yùn)營(yíng),比如直播、制作短視頻等,或是對(duì)數(shù)字人的“人設(shè)”進(jìn)行包裝。

      過去兩年,縮短生產(chǎn)周期——企業(yè)的這一核心需求,在不斷被滿足。

      比如根據(jù)不同需求所需時(shí)間區(qū)分:在百度智能云曦靈平臺(tái)上,較為簡(jiǎn)單的2D數(shù)字人像,以前需要兩三個(gè)月時(shí)間做出來的3D數(shù)字人,現(xiàn)在可以壓縮到小時(shí)級(jí);困難度最高、成本最高的特異型數(shù)字人(有具體的參照形象要求),也可在10到30天內(nèi)生成。

      另外,不同類型的數(shù)字人的制作成本都很高昂,企業(yè)品牌既要避免數(shù)字人同質(zhì)化競(jìng)爭(zhēng),又要低成本,實(shí)屬艱難。

      越來越多的企業(yè)也在通過AI技術(shù)釋放生產(chǎn)力、降低成本。比如在人像制作上,掃描真人、捏臉是常規(guī)手段,但生產(chǎn)周期長(zhǎng)至3個(gè)月,成本高至上百萬(wàn)。而各個(gè)平臺(tái)也在試圖尋找降低成本的方法。如百度的技術(shù)團(tuán)隊(duì),通過積累人像數(shù)據(jù),利用數(shù)據(jù)訓(xùn)練AI生成模型,最終通過AI模型快速打造各種需求的人像,大幅降低成本。

      百度讓數(shù)字人制作成本十倍、百倍地下降,使數(shù)字人生產(chǎn)周期,從動(dòng)輒幾個(gè)月,縮短到小時(shí)級(jí)別。2022年百度世界大會(huì)的預(yù)溝通會(huì)提到這一數(shù)據(jù)。

      可以預(yù)見,未來數(shù)年,更多企業(yè)會(huì)加入應(yīng)用數(shù)字人的隊(duì)伍,數(shù)字人的商業(yè)價(jià)值將在更多領(lǐng)域發(fā)揮,數(shù)字人幫助品牌代言、與用戶溝通互動(dòng)等,都會(huì)變得普遍起來,而不止企業(yè),甚至個(gè)人也能擁有屬于自己的數(shù)字人。

      作為國(guó)內(nèi)AI領(lǐng)先企業(yè),百度多年積累的AI能力,成為它在數(shù)字人產(chǎn)業(yè)實(shí)力領(lǐng)先的基礎(chǔ)。此前互聯(lián)網(wǎng)周刊發(fā)布的《2021虛擬數(shù)字人企業(yè)排名TOP50》榜單中,百度因?yàn)檎Z(yǔ)音、視覺等AI能力的積累,在數(shù)字人綜合實(shí)力方面排名第一。百度等服務(wù)平臺(tái)的下場(chǎng)也助推了數(shù)字人產(chǎn)業(yè)的發(fā)展。

      數(shù)字人變得更加“真實(shí)”,服務(wù)于更多產(chǎn)業(yè),得益于百度等廠商對(duì)AI能力的投入、培育,并將解決方案提供給更多有需求的企業(yè),將數(shù)字人產(chǎn)業(yè)從0推向1,再走向虛實(shí)融生。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會(huì)即將開幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。