• 首頁 > 企業(yè)IT頻道 > 數(shù)字化

    沸騰的數(shù)字人:打響大模型產(chǎn)品落地第一槍

    2024年07月15日 21:01:41   來源:產(chǎn)業(yè)家

      大模型時代,真正顛覆性的產(chǎn)品是怎樣的?它應該具備大模型的自進化能力,還是能給產(chǎn)業(yè)貢獻新的生產(chǎn)力工具?抑或是重構企業(yè)的經(jīng)營管理模型?

      數(shù)字人,正在給出一個答案。

      作者|皮爺

      出品|產(chǎn)業(yè)家

      “大模型如何往下走?”

      6月底,一個投資機構舉辦的以大模型為主題的閉門會上,這個話題被提出,并迅速引發(fā)了在座參與者們的廣泛討論,甚至,這種“討論”也可以稱為“探索”。

      這種關注度也更在成為整個大模型市場的縮影。在長達12個月的技術參數(shù)競賽后,人們越來越真實地發(fā)現(xiàn),盡管AI和其它技術不同,其具備廣泛的認知和重構產(chǎn)業(yè)的能力,但就當下而言,距離真正的產(chǎn)業(yè)AGI仍有不小的距離。

      這種距離的具體表現(xiàn)則是——2024年的如今,大模型仍然很難在產(chǎn)業(yè)細分場景里成功落地。

      根據(jù)一份不完全數(shù)據(jù)統(tǒng)計,在過去的一段時間里,盡管對AI進行嘗試的企業(yè)不計其數(shù),但真正將AI在企業(yè)內部落地的比例不超過10%。

      大模型的下一步應該怎么走?或者對這個問題更細致的拆解是:如何讓大模型保持持續(xù)進步和落地?

      在剛剛過去的WAIC大會上,一個被廣泛提及的點是壓降幻覺率和AI應用,這些在會上被展示出來的應用遍布各行各業(yè),如工業(yè)、金融、教育、農(nóng)業(yè)等等,而具體到產(chǎn)業(yè)的環(huán)節(jié),也更覆蓋如內部管理、營銷、物流、數(shù)據(jù)運營等等。

      而在其中,數(shù)字人是最受到關注的方向之一。“數(shù)字人是現(xiàn)在為數(shù)不多能落地、被應用、且可以看得到效果的AI應用。”一位大會的參觀者告訴產(chǎn)業(yè)家。

      實際上,如果把視角聚焦到這個在大模型之前就出現(xiàn)的賽道身上,則是不難發(fā)現(xiàn),伴隨著大模型的出現(xiàn),數(shù)字人賽道正在迎來新的重構,這種重構不僅在產(chǎn)品形態(tài)、技術突破,也在其在產(chǎn)業(yè)場景里帶來的價值。

      “我們認為數(shù)字人或將是AIGC時代代表性的顛覆性產(chǎn)品。”京東科技人工智能業(yè)務負責人告訴產(chǎn)業(yè)家。一個足夠真實的數(shù)據(jù)是,京東云言犀數(shù)字人如今已經(jīng)累計服務品牌超5000家,帶動GMV超過百億,而如今伴隨著數(shù)字人被越來越多的企業(yè)使用,這個GMV還正在加速躍升。

      “大模型落地應用先行,應用驅動大模型進化”。數(shù)字人,正在打響這個飛輪的第一槍。

      一、 “數(shù)字人+大模型”,

      跨過產(chǎn)業(yè)“恐怖谷”

      恐怖谷效應,一直是數(shù)字人賽道的發(fā)展掣肘。即盡管在過去的幾年時間里,從事數(shù)字人的企業(yè)和服務商不在少數(shù),但由于其一直存在“恐怖谷效應”,所以數(shù)字人的落地一直處于不慍不火的狀態(tài)。

      而更拆解來看,這種恐怖谷則體現(xiàn)在數(shù)字人的動作靈活度、語言回復(交互)、自然姿勢展現(xiàn)等多個緯度。

      一位數(shù)字人公司的CTO曾告訴產(chǎn)業(yè)家,“在學術界和工業(yè)界,做數(shù)字人一般會使用‘微妙’這個詞,因為一個微小的差別,都能被人們感覺到。”

      “這個賽道的整個產(chǎn)業(yè)鏈仍然不完善,包括硬件這些,盡管直播和培訓有不少企業(yè)選擇采買,但核心技術還是不到位,很多企業(yè)甚至會自己用免費的技術搭建一個,效果都大差不差。”一位地方文旅負責人表示。

      但這個掣肘在4月16日晚的京東采銷直播間被“動搖”。在當天晚上18點,“采銷東哥AI數(shù)字人”進行了其在京東直播的首秀,包括人物造型、口音貼合度、動作姿態(tài)都與真人差別度極小,甚至偶爾還能飆出幾句“宿遷話”,其首秀不到1小時,直播間觀看量就超過2000萬,帶貨GMV更超5000萬。

      “數(shù)字人,已經(jīng)跨過了‘恐怖谷’。”該負責人告訴我們,根據(jù)他介紹,在京東內部,一個被力爭達成的目標是“120s測試”,即如果在120s之內觀眾沒有辨別出屏幕上的人為數(shù)字人,那么就可以稱之為跨過“恐怖谷”,而如今,這個挑戰(zhàn)已經(jīng)基本被完成。

      這并不是一件容易的事。簡單的介紹是,目前行業(yè)內對于數(shù)字人的構建流程環(huán)節(jié)往往采取的是“建模—驅動—渲染”的方式,但如果想要達成“自然無異”,甚至超過120s的真人效果,每個環(huán)節(jié)都需要做到完美,這還包括NLP、TTS的挑戰(zhàn)都必須攻克。

      “京東云言犀數(shù)字人是端到端的視頻生成模式”該負責人告訴我們。Sora就是端到端的典型代表,但我們發(fā)現(xiàn)Sora生成的視頻仍經(jīng)常出現(xiàn)不合理的地方,比如扭曲的肢體動作。“真正商用還要面對幻覺問題,我們在幻覺壓降這塊下了很多功夫,因為幻覺這類情況在商業(yè)上是不被允許的。”他補充。

      數(shù)據(jù)顯示,在“采銷東哥AI數(shù)字人”之外,在今年京東618期間,還有格力董明珠、海信胡劍涌、LG李東善、名創(chuàng)優(yōu)品葉國富、潔麗雅石展承等超18位總裁數(shù)字人,都已經(jīng)走向臺前,成為品牌新的直播法寶。

      也可以說,伴隨著大模型的出現(xiàn),AI數(shù)字人正在釋放出更強的實用價值和更看得到的商業(yè)模式,不論是采銷東哥AI數(shù)字人,還是在品牌直播間愈發(fā)高頻出現(xiàn)的數(shù)字人主播,都在昭示著AI數(shù)字人這個顛覆性大模型產(chǎn)品的成熟。

      但在數(shù)字人本身之外,如果從AI的視角來看,“大模型+數(shù)字人”到底意味著什么?

      二、真實的數(shù)據(jù)閉環(huán),

      和新“AI生產(chǎn)力”工具

      關于大模型,行業(yè)內有一個共識的說法,即不論如何“要先讓大模型跑起來”。在過去半年的大模型論壇或者圓桌會議上,這個說法已經(jīng)成為共識。

      原因為何?

      答案仍然是數(shù)據(jù)。眾所周知,對這波浪潮的主角之一OpenAI而言,在過去的近2年時間里,其最大的資金投入之一是算力成本,不論是A100、H800還是其它系列的GPU,對應的都是天價投入,這種大投入也更催生出了GPT到4.0版本的更新迭代。

      但明眼人能看到的是,從GPT4.0到5.0,乃至后續(xù)的規(guī)劃上,OpenAI放緩了相應的產(chǎn)品更新節(jié)奏。

      實際上,在算力之外,一個在如雪球般滾動的成本也更在成為OpenAI的資金大頭,甚至占比越來越高,它就是數(shù)據(jù)。如果說從小學到大學的通識教育,對應的是互聯(lián)網(wǎng)線上的基礎數(shù)據(jù)樣本,那么從大學到對應領域的深造學習,需要的則是更為真實且高質量的數(shù)據(jù),對模型進行訓練。

      但這些數(shù)據(jù),有盡頭。在不久前的一次科技論壇上,月之暗面創(chuàng)始人楊植麟也曾明確表示,大模型現(xiàn)階段的難點是如何找到更多更真實的數(shù)據(jù),但這樣的數(shù)據(jù)現(xiàn)在很難找到,甚至是否真實存在,他的態(tài)度是“不確定”。

      從行業(yè)視角來看,關于大模型訓練的進階數(shù)據(jù)有兩種方式最為主流。一是利用大模型生成數(shù)據(jù),但需要在消除幻覺的基礎上;另一類是“創(chuàng)造真實的數(shù)據(jù)”,也就是尋找能跑起來的AI應用。

      對前者而言,這仍然是個數(shù)據(jù)是否真實的偽命題。但對于后者,如今已經(jīng)有跑出來的答案,它就是數(shù)字人。

      能清晰看到的是,在AI數(shù)字人被一次次使用的當下,它也更在通過一次次真實的交互生成出更為高質量的數(shù)據(jù),進而反饋大模型訓練,推動整個閉環(huán)乃至大模型飛輪效應的形成。

      這種閉環(huán)的形成并非偶然,甚至也更可以成為一整個AI工程的長期落地。在京東內部,早在2018年開始,多模態(tài)人機交互項目就已經(jīng)開始投入研發(fā),而在如今生成式AI的催化下,它更是向前一步。

      在大模型本身的幻覺層面,京東內部團隊也更是下了很大功夫。“我們認為如果大模型不解決幻覺問題,不對其進行極致的壓降,AI大模型很難成為未來真正的產(chǎn)業(yè)大廈。”京東科技人工智能負責人告訴我們。

      據(jù)了解,目前京東壓降幻覺率的主要方式是向量數(shù)據(jù)庫+優(yōu)質數(shù)據(jù)。

      從2019年開始,京東就開始研發(fā)向量數(shù)據(jù)庫,歷經(jīng)電商大促場景磨練,如今其向量數(shù)據(jù)庫Vearch已經(jīng)能支撐百億級高性能檢索,延時降低到毫秒級。京東在垂直行業(yè)的知識沉淀更是豐富,言犀大模型訓練時就用了70%通用數(shù)據(jù)和30%的供應鏈原生數(shù)據(jù)。

      而從大模型的角度來看,基于AI數(shù)字人構建起來的這種飛輪也更具其特殊之處。即不論是其產(chǎn)品背后對應的大模型能力,還是如今發(fā)揮作用和價值的場域——電商平臺,都對應的不僅是大模型某單項能力的鍛煉,或反饋,而更多是集合全部模態(tài)的實戰(zhàn)考校和磨練。

      在這種豐富的實戰(zhàn)中,“大模型—應用—數(shù)據(jù)反饋—訓練”的飛輪在加速運轉。

      三、數(shù)字人背后的「AI產(chǎn)品啟示錄」

      其實,數(shù)字人的價值還不僅于此。電商直播之外,在金融、教育、員工培訓、企業(yè)數(shù)字員工等等越來越多的場景里,它都在成為新的AI生產(chǎn)力角色。

      在大模型發(fā)展的如今,我們一直嘗試解答一個問題:大模型時代,真正顛覆性的產(chǎn)品是怎樣的?它應該具備大模型的自進化能力,還是能給產(chǎn)業(yè)貢獻新的生產(chǎn)力工具?抑或是重構企業(yè)的經(jīng)營管理模型?

      數(shù)字人,正在給出一個答案。在大模型從技術漸進式到產(chǎn)業(yè)顛覆式發(fā)展的當下,作為已經(jīng)落地的大模型產(chǎn)品,數(shù)字人已經(jīng)跨越了“AI+”,正式進入AI重構的時期。

      首先,從技術來看,作為大模型的集大成者,不論是生成數(shù)字人的方式和步驟,抑或是其如今展現(xiàn)出來的能力,都有足夠的技術支撐,跨過“恐怖谷”,達到真正商用的階段,而配上如今低成本的配置,企業(yè)可以低門檻嘗試。

      其次,從具體的效果而言,作為使用數(shù)字人的企業(yè),都可以基于數(shù)字人改變自身的企業(yè)經(jīng)營管理方式。以電商為例,在直播、數(shù)字人回復、AI外呼等等各方面,數(shù)字人都在構建一種新的交互方式,幫助企業(yè)更好地傳遞聲音,創(chuàng)造價值。

      同樣,在商業(yè)化角度也更是如此,即作為一種SaaS形態(tài),能清晰感知到的是AI數(shù)字人已然顛覆過去以往市場對SaaS產(chǎn)品低粘性、高流失、難定制的印象,其某種程度更等同于企業(yè)的“固定員工”。

      可以說,作為如今唯一可落地、可大范圍時間的AI產(chǎn)品,數(shù)字人在將大模型技術的顛覆性在無數(shù)的產(chǎn)業(yè)場景中逐一展現(xiàn),并且貢獻出AI原生的“顛覆式”增量。

      實際上,這也正是京東的思考。即在如今的大模型時代中,京東一直以來的口號是向產(chǎn)業(yè)進發(fā)。

      在過去的一年時間里,在強大的基座大模型之上,外界能看到的是京東似乎一直基于數(shù)字人發(fā)力,不論是東哥直播,還是幫助品牌伙伴的CEO做數(shù)字人,以及在金融、文旅等等方向進行的數(shù)字人的落地,外界也更在對這種“單一的聲音”提出質疑。

      但這背后對應的是京東一直定位的產(chǎn)業(yè)大模型思維。即相較于市面上大模型廠商在小參數(shù)、開源、閉源等越來越多概念上的爭論,京東所做的只有一點——尋找當下階段中大模型能力的最佳、最實用釋放點,兼?zhèn)銩I力、產(chǎn)品力、價值力、生產(chǎn)力,如今這個答案已經(jīng)給出,正是數(shù)字人。

      肉眼可見的是,京東云言犀數(shù)字人已經(jīng)成為無數(shù)企業(yè)真實使用的大模型產(chǎn)品,不僅電商,也不僅直播。而在不經(jīng)意間,在數(shù)字人這個最具落地的AI大模型方向,不論是技術、落地、場景,還是商業(yè)化服務體系,京東都已然成為國內最佳領跑者。

      但還不止于此,在如今的京東內部,類似數(shù)字人這種兼?zhèn)洚a(chǎn)品和生產(chǎn)力價值的顛覆式產(chǎn)品方向也在被加速尋找、研發(fā)。

      “我們在大模型方向,更多追求的是一種雙贏的模式,最終希望數(shù)字人這些AI產(chǎn)品能夠給品牌商家?guī)韮r值,他們也愿意為之付費,建立一種良性的循環(huán)。”上述負責人告訴我們。

      以數(shù)字人為起點,在大模型時代,京東正在給出屬于自己的回答。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。