京東創(chuàng)始人劉強(qiáng)東啊,他昨天又加班了。
準(zhǔn)確來說,是他的AI數(shù)字人形象“采銷東哥”,昨晚開啟了自己生涯第四場直播。
這次東哥干的是圖書采銷工作。
與上兩次直播不同,這一回直播間不僅有了數(shù)字人助理,還有多機(jī)位切換等展現(xiàn)方式。與此同時,和留言區(qū)及屏幕前觀眾的互動方式也有所增強(qiáng)。
量子位就此事詢問了京東云言犀算法總監(jiān),得到答案是:
每一場想側(cè)重表示的不一樣。技術(shù)的手段比較豐富,很難一場里面都推出來。
不得不說,京東這回拿自家的京東云言犀數(shù)字人擠牙膏,還挺有自己的節(jié)奏(doge)。
一周時間里,四場劉強(qiáng)東數(shù)字人連播,可謂出師大捷——
據(jù)公開的“戰(zhàn)報”,其首秀不到1小時,直播間觀看量超2000萬,帶貨GMV超5000萬。
難怪網(wǎng)上沖浪的時候,有人評價道,AI東哥真的是“數(shù)字人帶貨的天花板”了。
而且京東自己放話,這就是京東云言犀數(shù)字人的平均技術(shù)水平,且成本不到真人直播的1/10。“自己的狗糧自己先吃”
劉強(qiáng)東AI數(shù)字人“采銷東哥”上播第一天起,就有許多質(zhì)疑。
質(zhì)疑一,真的是數(shù)字人嗎?真的不是讓劉強(qiáng)東提前坐那兒,錄好視頻然后再播嗎?
且看采銷東哥的表現(xiàn):
形象和真人劉強(qiáng)東幾乎一毛一樣,寸頭、西裝、左手腕帶表,肉眼難辨真?zhèn)巍?/p>
口音能較好貼合唇部動作,語速快、連音多,一般語句吐字較輕,一些重點(diǎn)會重音表強(qiáng)調(diào),尋求認(rèn)同時用“啊”來銜接;耳朵尖的朋友可能還能聽出他的宿遷口音。
動作姿態(tài)不算僵硬,能有頭部、手部的動態(tài)動作,且動起來后整個人也受光均勻。
但隨著直播場數(shù)的增加,這種疑惑聲漸漸下去了。
可能大家都覺得,是在沒什么可能讓劉強(qiáng)東忙中撥冗,每天坐在那兒提前錄播吧。
質(zhì)疑二,如果真的是數(shù)字人劉強(qiáng)東,那大伙兒看到的效果,會不會是面對自家一號位做的“特供版”?
換言之,其他公司如果同樣想用京東云言犀數(shù)字人來做主播,是不是根本達(dá)不到這個效果?
就這個問題,京東云言犀負(fù)責(zé)人是站出來給了解釋的:“劉總數(shù)字人技術(shù),代表了我們現(xiàn)在的通用技術(shù)。”
大白話就是說,用了京東云言犀數(shù)字人,所有的大V/CEO主播都能有同樣的這個效果,至少在120秒之內(nèi)“惟妙惟肖”。
如果不信,可以親自驗證——前段時間京東618招商,給所有品牌商家免費(fèi)開放了數(shù)字人基礎(chǔ)版使用30天權(quán)益,都能用上。
京東云言犀負(fù)責(zé)人笑著表示,去年京東云就已經(jīng)基于言犀大模型升級了數(shù)字人技術(shù)。
用句軟件公司的梗,“Eat your own dog food”,自己的狗糧自己先吃,最開始團(tuán)隊內(nèi)部先給京東云言犀負(fù)責(zé)人做了個AI數(shù)字人出來,但回頭看和現(xiàn)在劉強(qiáng)東的數(shù)字人沒法比。
2022年開始,京東云言犀數(shù)字人就已經(jīng)開始商業(yè)化,目前有4000多家品牌使用。
去年雙十一后,京東云言犀團(tuán)隊開始制作采銷AI數(shù)字人,首先是在大時尚事業(yè)部測試,包括公眾接受程度,停留時長,用戶轉(zhuǎn)換率,交互程度等。
團(tuán)隊心想,既然要追求刺激,那就把“Eat your own dog food”貫徹到底,干脆給公司老大也搞一個吧!
劉強(qiáng)東AI數(shù)字人“采銷東哥”就這么誕生了。 10億參數(shù)數(shù)字人大模型輕量上陣
采銷東哥身后,是京東云言犀大模型團(tuán)隊,及其大模型做小后打造的10億參數(shù)數(shù)字人大模型。
總的技術(shù)來看,言犀2年多前就選擇了端到端的方式,即建模——驅(qū)動——渲染的一體化。以至于Sora出來后,團(tuán)隊驚喜發(fā)現(xiàn)端到端的技術(shù)方向是可取、可喜的。
不過,雖然和Sora是同一條路子,但最后應(yīng)用的場景不太一樣,言犀大模型數(shù)字人的賽道更聚焦,專注人物生成(原因是團(tuán)隊評估人物視頻生成商業(yè)價值和社會影響力可能都更大)。
而關(guān)于端到端的路線,這里展開說兩句。
現(xiàn)在基本分為兩大類,一類是完全端到端,中間不對任何環(huán)節(jié)進(jìn)行顯示的建模,完全是隱性的,都在一個空間里面做;另一類是對簡單基本素材的人臉建3萬多個點(diǎn)Mesh模型,再去控制人物的表情、唇型,然后做紋理的渲染。
京東云言犀說得很明白,2種方案會根據(jù)場景需求做不同使用。
京東云言犀負(fù)責(zé)人表示,其間比較得意的是人物大姿態(tài)的動作。
“早期真人數(shù)字人,動作幅度比較小。基本上臉部不會怎么動,因為一旦頭動了,可能就剩半個嘴唇了。”他透露,在大姿態(tài)方面做了較多技術(shù)投入,才有了現(xiàn)在AI劉強(qiáng)東的活動自如。
此外,身為主播,語音表達(dá)無疑也十分重要。
既要復(fù)現(xiàn)真人主播的語音、語調(diào),又要學(xué)習(xí)真人說話的習(xí)慣,如語速、語調(diào)、重音、倒吸氣。
就拿劉強(qiáng)東本人來說,他講話很少有輔助詞,也較少清晰讀出連接詞,如“跟著”的“著”字經(jīng)常被一筆帶過。
因為出生江蘇宿遷,他的話語里還是會“露餡”,冒出宿遷口音來。比如“時間”中的“sh”會有更重的鼻音;后鼻音有時會被吞掉,變成前鼻音。
就,還挺有特色的。
原本呢,京東云言犀技術(shù)團(tuán)隊的計劃是用劉強(qiáng)東2017年的一段演講音頻作學(xué)習(xí)素材,但測試發(fā)現(xiàn),演講時劉強(qiáng)東的語氣太過正式了,和直播帶貨有點(diǎn)畫風(fēng)不搭。
團(tuán)隊無奈把劉強(qiáng)東“抓”到鏡頭前,錄了30分鐘的音視頻,讓他閑聊自己的經(jīng)歷什么的。
用這段音頻為底提取出聲學(xué)特征,就能通過已經(jīng)被喂了5萬小時語音數(shù)據(jù)訓(xùn)練的言犀語音大模型合成出人工語音。
不過據(jù)量子位了解,京東云言犀大模型團(tuán)隊的最新戰(zhàn)績,是使用6秒素材復(fù)現(xiàn)具體某個人的聲音。
團(tuán)隊成員還分享了其他一些關(guān)于AI數(shù)字人背后的事:
訓(xùn)練過程中,主賽道錨定人物向,因此不管是從數(shù)據(jù)的采集、清洗和各方面都做了精細(xì)化聚焦。
推理實現(xiàn)方面,除了模型代碼壓縮、量化等常規(guī)操作,還對INT4和INT8進(jìn)行了精度調(diào)改。
團(tuán)隊下一步計劃,是把語音、視頻生成兩塊綜合到一起。
當(dāng)然,另一部分挑戰(zhàn)是嘗試用非常小樣本或零樣本學(xué)習(xí)的方式就能抓住真人本尊的特點(diǎn),繼而生成惟妙惟肖的數(shù)字人。 “采銷東哥是京東數(shù)字人平均水平”
京東云言犀負(fù)責(zé)人表示,其實京東內(nèi)部對數(shù)字人有一個分級。
第一級的數(shù)字人效果,可以做真人的補(bǔ)充工作,處于向真人看齊階段。
第二級數(shù)字人可以媲美真人,真人不在,也可以承擔(dān)重要場合、重要時間的主播工作。
并且播出后,會有人分不清主播是真是假——從這個角度來說,圖靈測試應(yīng)該算是通過了。
不過,雖然在形象、表情、語音、動作復(fù)刻尚佳,但是本尊的深度思想,大模型數(shù)字人還沒有辦法1:1同步。
到了第三階段,本尊和數(shù)字人之間不是替代關(guān)系,更像是真人有了個數(shù)字分身,能夠真正深度抓住本尊的思想、文化、知識背景、一些理念。
而且,京東自家直播間有一個120s戰(zhàn)斗。
簡單說就是直播時,如果用戶在120s之內(nèi)都不覺得眼前的數(shù)字人讓自己別扭,就會跨過恐怖谷效應(yīng),接受這個數(shù)字人,看他的展示、聽他的解說。
而且看到120s,因為對主播產(chǎn)生了信任,往往很大概率會下單。
“目前來看,數(shù)字人直播帶貨有很大機(jī)會會成為一個大的爆點(diǎn)。”京東云言犀負(fù)責(zé)人解釋道,“主要是內(nèi)容層次達(dá)到了新的水準(zhǔn),大家的接受度和信任度已經(jīng)過了關(guān)鍵點(diǎn)了。”
說回“采銷東哥”,他現(xiàn)在幾乎能很完美地被生成120s以上的形象,并且足以以假亂真。
也就是說,“采銷東哥”現(xiàn)在處于京東數(shù)字人分級里的第二階段,這也是京東云言犀數(shù)字人的平均水平。
團(tuán)隊還提到,其實目前AI大模型數(shù)字人大規(guī)模商用,技術(shù)已經(jīng)不是難點(diǎn)了。
難點(diǎn)是什么呢?是主播個人的形象要跟整體調(diào)性相匹配,在選品、互動方面還需要下很多功夫。 One More Thing
聊著聊著,一個有趣的問題被拋出來。
問,未來在京東直播間,有沒有可能誕生一個類似于董宇輝的AI數(shù)字人超級主播?
京東云言犀負(fù)責(zé)人和算法總監(jiān)相視一笑,說:
(這件事)技術(shù)上是有可能的,但在倫理和感情上不一定能成立。
比如很多丈母娘喜歡董宇輝,是因為這個人有很實在的特質(zhì),很文雅,有知識。
我不知道在倫理上到底之后會怎么解決……
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。