3G追趕,4G并行,5G趕超!高通孟樸進(jìn)博會(huì)談與中國伙伴合作歷程京東11.11巔峰28小時(shí)倒計(jì)時(shí) 爆款耳機(jī)音箱5折開搶手機(jī)內(nèi)卷下一站,AI Agent消息稱著名 AI 學(xué)者、天工智能首席科學(xué)家顏水成離開昆侖萬維昆侖萬維SkyReels AI短劇平臺(tái)將于12月10日在美國正式上線韓國今年進(jìn)口柴油車銷量預(yù)計(jì)跌破 1 萬輛,創(chuàng)近 17 年新低讓游戲黨一秒種草的大屏電視?海信這款百吋旗艦做到了!為用戶節(jié)省超120萬元 京東11.11攜手奔圖加速打印國產(chǎn)化進(jìn)程京東3C數(shù)碼“瘋狂星期一”驚喜放價(jià) TP-LINK攝像頭限時(shí)直降210元11月9日晚8點(diǎn)京東11.11火熱開啟!潮流配件9.9元起京東11.11最后一波Apple大放價(jià) iPhone 16 Pro系列持續(xù)加補(bǔ)1600元2024 ROG DAY狂歡啟航,ROG電競顯示器助力三大戰(zhàn)車燃爆鄭州站!來京東11.11一次性搞定視頻、音頻等APP會(huì)員充值 省錢又省心歐萊雅中國"FUN YOUniverTH有意思青年"創(chuàng)變盛典耀動(dòng)進(jìn)博會(huì)先采后付、按需配送還能享受大幅折扣,京東企業(yè)計(jì)劃購助力客戶11.11超值囤貨11月9日晚8來京東11.11換新國產(chǎn)打印機(jī) 政府補(bǔ)貼至高優(yōu)惠20%買家電家居首選京東11.11 政府補(bǔ)貼加碼優(yōu)惠不止5折杭州一男子在京東領(lǐng)國補(bǔ)買電腦中榴蓮套餐,因榴蓮味道重被鄰居吐槽至高再省1000元 3C數(shù)碼5折券京東11.11每天整點(diǎn)可搶捷豹路虎等12個(gè)品牌將缺席廣州車展:但自主品牌頂了上來
  • 首頁 > 企業(yè)IT頻道 > 數(shù)字化

    AI劉強(qiáng)東007帶貨,背后大模型也就10億參數(shù),京東:我家數(shù)字人平均水平

    2024年04月25日 09:22:38   來源:量子位公眾號(hào)

      京東創(chuàng)始人劉強(qiáng)東啊,他昨天又加班了。

      準(zhǔn)確來說,是他的AI數(shù)字人形象“采銷東哥”,昨晚開啟了自己生涯第四場(chǎng)直播。

      這次東哥干的是圖書采銷工作。

      與上兩次直播不同,這一回直播間不僅有了數(shù)字人助理,還有多機(jī)位切換等展現(xiàn)方式。與此同時(shí),和留言區(qū)及屏幕前觀眾的互動(dòng)方式也有所增強(qiáng)。

      量子位就此事詢問了京東云言犀算法總監(jiān),得到答案是:

      每一場(chǎng)想側(cè)重表示的不一樣。技術(shù)的手段比較豐富,很難一場(chǎng)里面都推出來。

      不得不說,京東這回拿自家的京東云言犀數(shù)字人擠牙膏,還挺有自己的節(jié)奏(doge)。

      一周時(shí)間里,四場(chǎng)劉強(qiáng)東數(shù)字人連播,可謂出師大捷——

      據(jù)公開的“戰(zhàn)報(bào)”,其首秀不到1小時(shí),直播間觀看量超2000萬,帶貨GMV超5000萬。

      難怪網(wǎng)上沖浪的時(shí)候,有人評(píng)價(jià)道,AI東哥真的是“數(shù)字人帶貨的天花板”了。

      而且京東自己放話,這就是京東云言犀數(shù)字人的平均技術(shù)水平,且成本不到真人直播的1/10。“自己的狗糧自己先吃”

      劉強(qiáng)東AI數(shù)字人“采銷東哥”上播第一天起,就有許多質(zhì)疑。

      質(zhì)疑一,真的是數(shù)字人嗎?真的不是讓劉強(qiáng)東提前坐那兒,錄好視頻然后再播嗎?

      且看采銷東哥的表現(xiàn):

      形象和真人劉強(qiáng)東幾乎一毛一樣,寸頭、西裝、左手腕帶表,肉眼難辨真?zhèn)巍?/p>

      口音能較好貼合唇部動(dòng)作,語速快、連音多,一般語句吐字較輕,一些重點(diǎn)會(huì)重音表強(qiáng)調(diào),尋求認(rèn)同時(shí)用“啊”來銜接;耳朵尖的朋友可能還能聽出他的宿遷口音。

      動(dòng)作姿態(tài)不算僵硬,能有頭部、手部的動(dòng)態(tài)動(dòng)作,且動(dòng)起來后整個(gè)人也受光均勻。

      但隨著直播場(chǎng)數(shù)的增加,這種疑惑聲漸漸下去了。

      可能大家都覺得,是在沒什么可能讓劉強(qiáng)東忙中撥冗,每天坐在那兒提前錄播吧。

      質(zhì)疑二,如果真的是數(shù)字人劉強(qiáng)東,那大伙兒看到的效果,會(huì)不會(huì)是面對(duì)自家一號(hào)位做的“特供版”?

      換言之,其他公司如果同樣想用京東云言犀數(shù)字人來做主播,是不是根本達(dá)不到這個(gè)效果?

      就這個(gè)問題,京東云言犀負(fù)責(zé)人是站出來給了解釋的:“劉總數(shù)字人技術(shù),代表了我們現(xiàn)在的通用技術(shù)。”

      大白話就是說,用了京東云言犀數(shù)字人,所有的大V/CEO主播都能有同樣的這個(gè)效果,至少在120秒之內(nèi)“惟妙惟肖”。

      如果不信,可以親自驗(yàn)證——前段時(shí)間京東618招商,給所有品牌商家免費(fèi)開放了數(shù)字人基礎(chǔ)版使用30天權(quán)益,都能用上。

      京東云言犀負(fù)責(zé)人笑著表示,去年京東云就已經(jīng)基于言犀大模型升級(jí)了數(shù)字人技術(shù)。

      用句軟件公司的梗,“Eat your own dog food”,自己的狗糧自己先吃,最開始團(tuán)隊(duì)內(nèi)部先給京東云言犀負(fù)責(zé)人做了個(gè)AI數(shù)字人出來,但回頭看和現(xiàn)在劉強(qiáng)東的數(shù)字人沒法比。

      2022年開始,京東云言犀數(shù)字人就已經(jīng)開始商業(yè)化,目前有4000多家品牌使用。

      去年雙十一后,京東云言犀團(tuán)隊(duì)開始制作采銷AI數(shù)字人,首先是在大時(shí)尚事業(yè)部測(cè)試,包括公眾接受程度,停留時(shí)長,用戶轉(zhuǎn)換率,交互程度等。

      團(tuán)隊(duì)心想,既然要追求刺激,那就把“Eat your own dog food”貫徹到底,干脆給公司老大也搞一個(gè)吧!

      劉強(qiáng)東AI數(shù)字人“采銷東哥”就這么誕生了。 10億參數(shù)數(shù)字人大模型輕量上陣

      采銷東哥身后,是京東云言犀大模型團(tuán)隊(duì),及其大模型做小后打造的10億參數(shù)數(shù)字人大模型。

      總的技術(shù)來看,言犀2年多前就選擇了端到端的方式,即建模——驅(qū)動(dòng)——渲染的一體化。以至于Sora出來后,團(tuán)隊(duì)驚喜發(fā)現(xiàn)端到端的技術(shù)方向是可取、可喜的。

      不過,雖然和Sora是同一條路子,但最后應(yīng)用的場(chǎng)景不太一樣,言犀大模型數(shù)字人的賽道更聚焦,專注人物生成(原因是團(tuán)隊(duì)評(píng)估人物視頻生成商業(yè)價(jià)值和社會(huì)影響力可能都更大)。

      而關(guān)于端到端的路線,這里展開說兩句。

      現(xiàn)在基本分為兩大類,一類是完全端到端,中間不對(duì)任何環(huán)節(jié)進(jìn)行顯示的建模,完全是隱性的,都在一個(gè)空間里面做;另一類是對(duì)簡單基本素材的人臉建3萬多個(gè)點(diǎn)Mesh模型,再去控制人物的表情、唇型,然后做紋理的渲染。

      京東云言犀說得很明白,2種方案會(huì)根據(jù)場(chǎng)景需求做不同使用。

      京東云言犀負(fù)責(zé)人表示,其間比較得意的是人物大姿態(tài)的動(dòng)作。

      “早期真人數(shù)字人,動(dòng)作幅度比較小;旧夏槻坎粫(huì)怎么動(dòng),因?yàn)橐坏╊^動(dòng)了,可能就剩半個(gè)嘴唇了。”他透露,在大姿態(tài)方面做了較多技術(shù)投入,才有了現(xiàn)在AI劉強(qiáng)東的活動(dòng)自如。

      此外,身為主播,語音表達(dá)無疑也十分重要。

      既要復(fù)現(xiàn)真人主播的語音、語調(diào),又要學(xué)習(xí)真人說話的習(xí)慣,如語速、語調(diào)、重音、倒吸氣。

      就拿劉強(qiáng)東本人來說,他講話很少有輔助詞,也較少清晰讀出連接詞,如“跟著”的“著”字經(jīng)常被一筆帶過。

      因?yàn)槌錾K宿遷,他的話語里還是會(huì)“露餡”,冒出宿遷口音來。比如“時(shí)間”中的“sh”會(huì)有更重的鼻音;后鼻音有時(shí)會(huì)被吞掉,變成前鼻音。

      就,還挺有特色的。

      原本呢,京東云言犀技術(shù)團(tuán)隊(duì)的計(jì)劃是用劉強(qiáng)東2017年的一段演講音頻作學(xué)習(xí)素材,但測(cè)試發(fā)現(xiàn),演講時(shí)劉強(qiáng)東的語氣太過正式了,和直播帶貨有點(diǎn)畫風(fēng)不搭。

      團(tuán)隊(duì)無奈把劉強(qiáng)東“抓”到鏡頭前,錄了30分鐘的音視頻,讓他閑聊自己的經(jīng)歷什么的。

      用這段音頻為底提取出聲學(xué)特征,就能通過已經(jīng)被喂了5萬小時(shí)語音數(shù)據(jù)訓(xùn)練的言犀語音大模型合成出人工語音。

      不過據(jù)量子位了解,京東云言犀大模型團(tuán)隊(duì)的最新戰(zhàn)績,是使用6秒素材復(fù)現(xiàn)具體某個(gè)人的聲音。

      團(tuán)隊(duì)成員還分享了其他一些關(guān)于AI數(shù)字人背后的事:

      訓(xùn)練過程中,主賽道錨定人物向,因此不管是從數(shù)據(jù)的采集、清洗和各方面都做了精細(xì)化聚焦。

      推理實(shí)現(xiàn)方面,除了模型代碼壓縮、量化等常規(guī)操作,還對(duì)INT4和INT8進(jìn)行了精度調(diào)改。

      團(tuán)隊(duì)下一步計(jì)劃,是把語音、視頻生成兩塊綜合到一起。

      當(dāng)然,另一部分挑戰(zhàn)是嘗試用非常小樣本或零樣本學(xué)習(xí)的方式就能抓住真人本尊的特點(diǎn),繼而生成惟妙惟肖的數(shù)字人。 “采銷東哥是京東數(shù)字人平均水平”

      京東云言犀負(fù)責(zé)人表示,其實(shí)京東內(nèi)部對(duì)數(shù)字人有一個(gè)分級(jí)。

      第一級(jí)的數(shù)字人效果,可以做真人的補(bǔ)充工作,處于向真人看齊階段。

      第二級(jí)數(shù)字人可以媲美真人,真人不在,也可以承擔(dān)重要場(chǎng)合、重要時(shí)間的主播工作。

      并且播出后,會(huì)有人分不清主播是真是假——從這個(gè)角度來說,圖靈測(cè)試應(yīng)該算是通過了。

      不過,雖然在形象、表情、語音、動(dòng)作復(fù)刻尚佳,但是本尊的深度思想,大模型數(shù)字人還沒有辦法1:1同步。

      到了第三階段,本尊和數(shù)字人之間不是替代關(guān)系,更像是真人有了個(gè)數(shù)字分身,能夠真正深度抓住本尊的思想、文化、知識(shí)背景、一些理念。

      而且,京東自家直播間有一個(gè)120s戰(zhàn)斗。

      簡單說就是直播時(shí),如果用戶在120s之內(nèi)都不覺得眼前的數(shù)字人讓自己別扭,就會(huì)跨過恐怖谷效應(yīng),接受這個(gè)數(shù)字人,看他的展示、聽他的解說。

      而且看到120s,因?yàn)閷?duì)主播產(chǎn)生了信任,往往很大概率會(huì)下單。

      “目前來看,數(shù)字人直播帶貨有很大機(jī)會(huì)會(huì)成為一個(gè)大的爆點(diǎn)。”京東云言犀負(fù)責(zé)人解釋道,“主要是內(nèi)容層次達(dá)到了新的水準(zhǔn),大家的接受度和信任度已經(jīng)過了關(guān)鍵點(diǎn)了。”

      說回“采銷東哥”,他現(xiàn)在幾乎能很完美地被生成120s以上的形象,并且足以以假亂真。

      也就是說,“采銷東哥”現(xiàn)在處于京東數(shù)字人分級(jí)里的第二階段,這也是京東云言犀數(shù)字人的平均水平。

      團(tuán)隊(duì)還提到,其實(shí)目前AI大模型數(shù)字人大規(guī)模商用,技術(shù)已經(jīng)不是難點(diǎn)了。

      難點(diǎn)是什么呢?是主播個(gè)人的形象要跟整體調(diào)性相匹配,在選品、互動(dòng)方面還需要下很多功夫。 One More Thing

      聊著聊著,一個(gè)有趣的問題被拋出來。

      問,未來在京東直播間,有沒有可能誕生一個(gè)類似于董宇輝的AI數(shù)字人超級(jí)主播?

      京東云言犀負(fù)責(zé)人和算法總監(jiān)相視一笑,說:

      (這件事)技術(shù)上是有可能的,但在倫理和感情上不一定能成立。

      比如很多丈母娘喜歡董宇輝,是因?yàn)檫@個(gè)人有很實(shí)在的特質(zhì),很文雅,有知識(shí)。

      我不知道在倫理上到底之后會(huì)怎么解決……

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    京東11.11跟著采銷走進(jìn)科大訊飛 直播間享專享價(jià)與超值福利

    京東11.11采銷直播探廠為消費(fèi)者揭開答案。近日,京東3C數(shù)碼采銷走進(jìn)武漢攀升工廠、合肥聯(lián)想工廠和科大訊飛展廳,通過直播帶貨廠商爆款產(chǎn)品,并為消費(fèi)者帶來超值低價(jià)與福利。

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。