京東創(chuàng)始人劉強(qiáng)東啊,他昨天又加班了。
準(zhǔn)確來說,是他的AI數(shù)字人形象“采銷東哥”,昨晚開啟了自己生涯第四場(chǎng)直播。
這次東哥干的是圖書采銷工作。
與上兩次直播不同,這一回直播間不僅有了數(shù)字人助理,還有多機(jī)位切換等展現(xiàn)方式。與此同時(shí),和留言區(qū)及屏幕前觀眾的互動(dòng)方式也有所增強(qiáng)。
量子位就此事詢問了京東云言犀算法總監(jiān),得到答案是:
每一場(chǎng)想側(cè)重表示的不一樣。技術(shù)的手段比較豐富,很難一場(chǎng)里面都推出來。
不得不說,京東這回拿自家的京東云言犀數(shù)字人擠牙膏,還挺有自己的節(jié)奏(doge)。
一周時(shí)間里,四場(chǎng)劉強(qiáng)東數(shù)字人連播,可謂出師大捷——
據(jù)公開的“戰(zhàn)報(bào)”,其首秀不到1小時(shí),直播間觀看量超2000萬,帶貨GMV超5000萬。
難怪網(wǎng)上沖浪的時(shí)候,有人評(píng)價(jià)道,AI東哥真的是“數(shù)字人帶貨的天花板”了。
而且京東自己放話,這就是京東云言犀數(shù)字人的平均技術(shù)水平,且成本不到真人直播的1/10。“自己的狗糧自己先吃”
劉強(qiáng)東AI數(shù)字人“采銷東哥”上播第一天起,就有許多質(zhì)疑。
質(zhì)疑一,真的是數(shù)字人嗎?真的不是讓劉強(qiáng)東提前坐那兒,錄好視頻然后再播嗎?
且看采銷東哥的表現(xiàn):
形象和真人劉強(qiáng)東幾乎一毛一樣,寸頭、西裝、左手腕帶表,肉眼難辨真?zhèn)巍?/p>
口音能較好貼合唇部動(dòng)作,語速快、連音多,一般語句吐字較輕,一些重點(diǎn)會(huì)重音表強(qiáng)調(diào),尋求認(rèn)同時(shí)用“啊”來銜接;耳朵尖的朋友可能還能聽出他的宿遷口音。
動(dòng)作姿態(tài)不算僵硬,能有頭部、手部的動(dòng)態(tài)動(dòng)作,且動(dòng)起來后整個(gè)人也受光均勻。
但隨著直播場(chǎng)數(shù)的增加,這種疑惑聲漸漸下去了。
可能大家都覺得,是在沒什么可能讓劉強(qiáng)東忙中撥冗,每天坐在那兒提前錄播吧。
質(zhì)疑二,如果真的是數(shù)字人劉強(qiáng)東,那大伙兒看到的效果,會(huì)不會(huì)是面對(duì)自家一號(hào)位做的“特供版”?
換言之,其他公司如果同樣想用京東云言犀數(shù)字人來做主播,是不是根本達(dá)不到這個(gè)效果?
就這個(gè)問題,京東云言犀負(fù)責(zé)人是站出來給了解釋的:“劉總數(shù)字人技術(shù),代表了我們現(xiàn)在的通用技術(shù)。”
大白話就是說,用了京東云言犀數(shù)字人,所有的大V/CEO主播都能有同樣的這個(gè)效果,至少在120秒之內(nèi)“惟妙惟肖”。
如果不信,可以親自驗(yàn)證——前段時(shí)間京東618招商,給所有品牌商家免費(fèi)開放了數(shù)字人基礎(chǔ)版使用30天權(quán)益,都能用上。
京東云言犀負(fù)責(zé)人笑著表示,去年京東云就已經(jīng)基于言犀大模型升級(jí)了數(shù)字人技術(shù)。
用句軟件公司的梗,“Eat your own dog food”,自己的狗糧自己先吃,最開始團(tuán)隊(duì)內(nèi)部先給京東云言犀負(fù)責(zé)人做了個(gè)AI數(shù)字人出來,但回頭看和現(xiàn)在劉強(qiáng)東的數(shù)字人沒法比。
2022年開始,京東云言犀數(shù)字人就已經(jīng)開始商業(yè)化,目前有4000多家品牌使用。
去年雙十一后,京東云言犀團(tuán)隊(duì)開始制作采銷AI數(shù)字人,首先是在大時(shí)尚事業(yè)部測(cè)試,包括公眾接受程度,停留時(shí)長,用戶轉(zhuǎn)換率,交互程度等。
團(tuán)隊(duì)心想,既然要追求刺激,那就把“Eat your own dog food”貫徹到底,干脆給公司老大也搞一個(gè)吧!
劉強(qiáng)東AI數(shù)字人“采銷東哥”就這么誕生了。 10億參數(shù)數(shù)字人大模型輕量上陣
采銷東哥身后,是京東云言犀大模型團(tuán)隊(duì),及其大模型做小后打造的10億參數(shù)數(shù)字人大模型。
總的技術(shù)來看,言犀2年多前就選擇了端到端的方式,即建模——驅(qū)動(dòng)——渲染的一體化。以至于Sora出來后,團(tuán)隊(duì)驚喜發(fā)現(xiàn)端到端的技術(shù)方向是可取、可喜的。
不過,雖然和Sora是同一條路子,但最后應(yīng)用的場(chǎng)景不太一樣,言犀大模型數(shù)字人的賽道更聚焦,專注人物生成(原因是團(tuán)隊(duì)評(píng)估人物視頻生成商業(yè)價(jià)值和社會(huì)影響力可能都更大)。
而關(guān)于端到端的路線,這里展開說兩句。
現(xiàn)在基本分為兩大類,一類是完全端到端,中間不對(duì)任何環(huán)節(jié)進(jìn)行顯示的建模,完全是隱性的,都在一個(gè)空間里面做;另一類是對(duì)簡單基本素材的人臉建3萬多個(gè)點(diǎn)Mesh模型,再去控制人物的表情、唇型,然后做紋理的渲染。
京東云言犀說得很明白,2種方案會(huì)根據(jù)場(chǎng)景需求做不同使用。
京東云言犀負(fù)責(zé)人表示,其間比較得意的是人物大姿態(tài)的動(dòng)作。
“早期真人數(shù)字人,動(dòng)作幅度比較小;旧夏槻坎粫(huì)怎么動(dòng),因?yàn)橐坏╊^動(dòng)了,可能就剩半個(gè)嘴唇了。”他透露,在大姿態(tài)方面做了較多技術(shù)投入,才有了現(xiàn)在AI劉強(qiáng)東的活動(dòng)自如。
此外,身為主播,語音表達(dá)無疑也十分重要。
既要復(fù)現(xiàn)真人主播的語音、語調(diào),又要學(xué)習(xí)真人說話的習(xí)慣,如語速、語調(diào)、重音、倒吸氣。
就拿劉強(qiáng)東本人來說,他講話很少有輔助詞,也較少清晰讀出連接詞,如“跟著”的“著”字經(jīng)常被一筆帶過。
因?yàn)槌錾K宿遷,他的話語里還是會(huì)“露餡”,冒出宿遷口音來。比如“時(shí)間”中的“sh”會(huì)有更重的鼻音;后鼻音有時(shí)會(huì)被吞掉,變成前鼻音。
就,還挺有特色的。
原本呢,京東云言犀技術(shù)團(tuán)隊(duì)的計(jì)劃是用劉強(qiáng)東2017年的一段演講音頻作學(xué)習(xí)素材,但測(cè)試發(fā)現(xiàn),演講時(shí)劉強(qiáng)東的語氣太過正式了,和直播帶貨有點(diǎn)畫風(fēng)不搭。
團(tuán)隊(duì)無奈把劉強(qiáng)東“抓”到鏡頭前,錄了30分鐘的音視頻,讓他閑聊自己的經(jīng)歷什么的。
用這段音頻為底提取出聲學(xué)特征,就能通過已經(jīng)被喂了5萬小時(shí)語音數(shù)據(jù)訓(xùn)練的言犀語音大模型合成出人工語音。
不過據(jù)量子位了解,京東云言犀大模型團(tuán)隊(duì)的最新戰(zhàn)績,是使用6秒素材復(fù)現(xiàn)具體某個(gè)人的聲音。
團(tuán)隊(duì)成員還分享了其他一些關(guān)于AI數(shù)字人背后的事:
訓(xùn)練過程中,主賽道錨定人物向,因此不管是從數(shù)據(jù)的采集、清洗和各方面都做了精細(xì)化聚焦。
推理實(shí)現(xiàn)方面,除了模型代碼壓縮、量化等常規(guī)操作,還對(duì)INT4和INT8進(jìn)行了精度調(diào)改。
團(tuán)隊(duì)下一步計(jì)劃,是把語音、視頻生成兩塊綜合到一起。
當(dāng)然,另一部分挑戰(zhàn)是嘗試用非常小樣本或零樣本學(xué)習(xí)的方式就能抓住真人本尊的特點(diǎn),繼而生成惟妙惟肖的數(shù)字人。 “采銷東哥是京東數(shù)字人平均水平”
京東云言犀負(fù)責(zé)人表示,其實(shí)京東內(nèi)部對(duì)數(shù)字人有一個(gè)分級(jí)。
第一級(jí)的數(shù)字人效果,可以做真人的補(bǔ)充工作,處于向真人看齊階段。
第二級(jí)數(shù)字人可以媲美真人,真人不在,也可以承擔(dān)重要場(chǎng)合、重要時(shí)間的主播工作。
并且播出后,會(huì)有人分不清主播是真是假——從這個(gè)角度來說,圖靈測(cè)試應(yīng)該算是通過了。
不過,雖然在形象、表情、語音、動(dòng)作復(fù)刻尚佳,但是本尊的深度思想,大模型數(shù)字人還沒有辦法1:1同步。
到了第三階段,本尊和數(shù)字人之間不是替代關(guān)系,更像是真人有了個(gè)數(shù)字分身,能夠真正深度抓住本尊的思想、文化、知識(shí)背景、一些理念。
而且,京東自家直播間有一個(gè)120s戰(zhàn)斗。
簡單說就是直播時(shí),如果用戶在120s之內(nèi)都不覺得眼前的數(shù)字人讓自己別扭,就會(huì)跨過恐怖谷效應(yīng),接受這個(gè)數(shù)字人,看他的展示、聽他的解說。
而且看到120s,因?yàn)閷?duì)主播產(chǎn)生了信任,往往很大概率會(huì)下單。
“目前來看,數(shù)字人直播帶貨有很大機(jī)會(huì)會(huì)成為一個(gè)大的爆點(diǎn)。”京東云言犀負(fù)責(zé)人解釋道,“主要是內(nèi)容層次達(dá)到了新的水準(zhǔn),大家的接受度和信任度已經(jīng)過了關(guān)鍵點(diǎn)了。”
說回“采銷東哥”,他現(xiàn)在幾乎能很完美地被生成120s以上的形象,并且足以以假亂真。
也就是說,“采銷東哥”現(xiàn)在處于京東數(shù)字人分級(jí)里的第二階段,這也是京東云言犀數(shù)字人的平均水平。
團(tuán)隊(duì)還提到,其實(shí)目前AI大模型數(shù)字人大規(guī)模商用,技術(shù)已經(jīng)不是難點(diǎn)了。
難點(diǎn)是什么呢?是主播個(gè)人的形象要跟整體調(diào)性相匹配,在選品、互動(dòng)方面還需要下很多功夫。 One More Thing
聊著聊著,一個(gè)有趣的問題被拋出來。
問,未來在京東直播間,有沒有可能誕生一個(gè)類似于董宇輝的AI數(shù)字人超級(jí)主播?
京東云言犀負(fù)責(zé)人和算法總監(jiān)相視一笑,說:
(這件事)技術(shù)上是有可能的,但在倫理和感情上不一定能成立。
比如很多丈母娘喜歡董宇輝,是因?yàn)檫@個(gè)人有很實(shí)在的特質(zhì),很文雅,有知識(shí)。
我不知道在倫理上到底之后會(huì)怎么解決……
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
京東11.11采銷直播探廠為消費(fèi)者揭開答案。近日,京東3C數(shù)碼采銷走進(jìn)武漢攀升工廠、合肥聯(lián)想工廠和科大訊飛展廳,通過直播帶貨廠商爆款產(chǎn)品,并為消費(fèi)者帶來超值低價(jià)與福利。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。