科技云報到：游戲影視界開“卷”大模型，百度智能云押注“空間智能”

2024年11月28日 11:28:58 來源：科技云報到

　　科技云報到原創(chuàng)。

　　歷經(jīng)兩年的持續(xù)進化，AI大模型進入產(chǎn)業(yè)落地階段。其中，泛娛樂作為大模型應(yīng)用的重要領(lǐng)域，備受行業(yè)關(guān)注。大模型將重構(gòu)這些領(lǐng)域的效率提升、體驗優(yōu)化、模式創(chuàng)新等，已經(jīng)成為業(yè)內(nèi)的共識。

　　但AI大模型開發(fā)成本、精準(zhǔn)度以及模型效率等是限制其落地的重要制約因素。大量的游戲、影視、AR/VR、3D生成等公司仍在探索，大模型應(yīng)該以什么方式融入業(yè)務(wù)場景，才能帶來真正意義上的降本增效，以及全新的科技新體驗?

　　目前，這條落地路徑率先被百度智能云找到了。11月22日，百度智能云在業(yè)內(nèi)首次發(fā)布了“空間智能解決方案”，從底層的AI基礎(chǔ)架構(gòu)，到大模型應(yīng)用開發(fā)層，再到上層的大模型AI應(yīng)用，給予泛娛樂行業(yè)用戶全面的業(yè)務(wù)支撐。

　　這套方案不僅吸引了Unity、米哈游、上影集團等游戲影視巨頭前來合作，也吸引了哇嘶嗒(VAST)、智能AR眼鏡Rokid、生數(shù)科技等不少明星初創(chuàng)公司的深度共創(chuàng)，發(fā)布會現(xiàn)場更是擠滿了想要面對面交流的業(yè)內(nèi)人。

　　在游戲、影視、3D生成等行業(yè)，百度智能云徹底破圈了。

　　何為空間智能

　　此次百度智能云的發(fā)布中，有一個概念備受關(guān)注：空間智能。

　　作為人工智能的下一個方向，空間智能既讓人充滿無限想象，也處于混沌之中�？臻g智能到底是什么，整個業(yè)界還未達成共識。

　　百度智能云泛科技業(yè)務(wù)部總經(jīng)理張瑋認為，空間智能是步入智能進化征程的起點，能夠賦予AGI在多維空間中感知、理解、交互虛擬與現(xiàn)實互相映射的能力。

　　不僅如此，張瑋認為空間智能不局限于2D、3D，而是從2D到5D的全面智能化。

　　“2D和3D比較好理解，4D是在3D空間的基礎(chǔ)上加上了時間，空間智能可以隨著時間的變化，使空間的邏輯、物體的特征都隨之變化，5D是把空間里的物理感知，如：觸覺、嗅覺等，以及物理的反饋都加入進來了”，張瑋表示。

　　大模型的快速發(fā)展為空間智能應(yīng)用落地打開了新的大門。

　　大模型特有的推理和生成能力，能夠很好地增強空間智能系統(tǒng)的環(huán)境感知能力，理解復(fù)雜的場景結(jié)構(gòu)，如：室內(nèi)布局、物體位置關(guān)系等，這對于實現(xiàn)精確的物體追蹤和場景重建至關(guān)重要。同時，大模型也可以用來生成高質(zhì)量的3D模型、紋理、動畫等，從而豐富虛擬世界的細節(jié)。

　　結(jié)合空間智能，大模型還可以使虛擬角色或?qū)ο缶邆涓呒墑e的交互能力。例如，通過訓(xùn)練大模型來理解用戶的語音指令或手勢，虛擬助手可以在AR環(huán)境中提供個性化的服務(wù);或者在VR游戲中，NPC可以根據(jù)玩家的行為做出更加自然的反應(yīng)等。

　　簡單來說，現(xiàn)階段大模型的出現(xiàn)，使得空間智能實現(xiàn)的可能性大大增強。不僅提升了虛擬內(nèi)容的創(chuàng)造性和互動性，也為用戶帶來了更加豐富和沉浸式的體驗。

　　正如張瑋所說，大模型對于2D到5D全面理解之后，將為用戶帶來更多的消費內(nèi)容和原先不可能達到的交互體驗，并且基于這些新的交互體驗衍生出新的硬件，從而提供新的娛樂方式。

　　對于游戲、影視、動畫、AR/VR等泛娛樂行業(yè)來說，這無疑意味著全新的、廣闊的市場空間。

　　空間智能落地充滿挑戰(zhàn)

　　空間智能的前景固然激動人心，但對于具體的行業(yè)來說，它到底意味著什么，該如何落地，能做到什么程度，所有人都在摸著石頭過河。

　　哇嘶嗒(VAST)是一家致力于通用3D基礎(chǔ)模型研發(fā)的明星初創(chuàng)企業(yè)，它在2023年底面世的一款3D生成工具——Tripo，成為全球3D-AIGC領(lǐng)域最具競爭力的產(chǎn)品之一。今年3月，VAST和Stablity AI聯(lián)合推出的3D生成模型TripoSR，0.5秒就能通過單張圖片生成3D模型，一上線就引爆了全球的游戲開發(fā)者。

　　事實上，3D動畫、游戲、AR/VR蘊藏著千億級市場勢能，目前卻受限于生成效率和成本，但VAST這種大模型技術(shù)公司的出現(xiàn)，無疑大幅提升了游戲、動畫、影視等空間智能行業(yè)的創(chuàng)作效率，降低了內(nèi)容制作的門檻，甚至可能創(chuàng)造出新一代的互聯(lián)網(wǎng)應(yīng)用。

　　與之類似的大模型技術(shù)公司，還有生數(shù)科技。作為國內(nèi)最早布局多模態(tài)通用大模型的團隊之一，今年4月，生數(shù)科技聯(lián)合清華大學(xué)發(fā)布了國內(nèi)首款全面對標(biāo)Sora的視頻大模型Vidu。市面上的主流AI視頻工具在生成4秒左右的視頻片段時，用戶通常需要等待1到5分鐘，而Vidu只需30秒。

　　這意味著在游戲制作、影視后期、動畫設(shè)計、內(nèi)容社交等空間智能場景中，用戶可以在極短的時間內(nèi)生成大量視頻素材，將大大降低生產(chǎn)成本、提升效率。

　　這些豐富的行業(yè)大模型應(yīng)用，正在一步步完善空間智能的版圖。然而，技術(shù)和應(yīng)用之間，始終隔著一道鴻溝，在技術(shù)向應(yīng)用轉(zhuǎn)化時充滿荊棘。

　　首先，對于大模型技術(shù)本身來說，其生產(chǎn)效率還不夠高，成本沒有做到極致，對于人類意圖的理解也還不夠精準(zhǔn)，轉(zhuǎn)化成行業(yè)應(yīng)用時就存在大量的優(yōu)化空間。

　　例如，在VAST對3D大規(guī)模模型的訓(xùn)練過程中，就面臨著訓(xùn)練周期冗長與成本高昂的雙重挑戰(zhàn)。

　　其次，游戲、影視等行業(yè)用戶對大模型技術(shù)不了解，在使用過程中難以真正發(fā)揮大模型優(yōu)勢。同樣，IT技術(shù)人員對于行業(yè)也不了解，雙方需要長時間的去碰撞，才能打磨出適合行業(yè)的垂類大模型和相關(guān)應(yīng)用。

　　事實上，技術(shù)和應(yīng)用之間的鴻溝，誰能夠先越過去，誰就能先抵達成功的彼岸。

　　百度智能云推出“空間智能解決方案”

　　對于這道難題，百度智能云已率先上馬，迎難而上。

　　在百度智能云泛科技業(yè)務(wù)部總經(jīng)理張瑋看來，空間智能相關(guān)場景在使用大模型技術(shù)時，往往會遇到幾大挑戰(zhàn)：

　　首先，空間智能企業(yè)在落地大模型時，從集群創(chuàng)建、開發(fā)實驗，到模型訓(xùn)練、推理的全旅程算力需求，需要應(yīng)對超大規(guī)模GPU集群高成本、難運營的問題。

　　因此，百度智能云在AI基礎(chǔ)架構(gòu)層推出了【百度百舸AI異構(gòu)計算平臺】，包括：中心云服務(wù)、邊緣云服務(wù)、實時互動RTC、AI數(shù)據(jù)服務(wù)等多種基礎(chǔ)服務(wù)，提供面向萬卡、十萬卡集群的算力管理能力。

　　一方面，百舸預(yù)置了主流的大模型訓(xùn)練工具，能夠?qū)崿F(xiàn)工具層面的秒級部署，并將萬卡集群運行準(zhǔn)備時間從幾周縮減至1小時，極大地提升部署效率，縮短業(yè)務(wù)上線周期。

　　另一方面，百舸提供可觀測大盤，能夠?qū)Χ嘈具m配、集群效能、任務(wù)自動容錯等方面進行全方位監(jiān)測，提供直觀決策依據(jù)，幫助用戶更好地把控整體項目。

　　在萬卡任務(wù)上，百舸4.0可以保障有效訓(xùn)練時長占比達到99.5%。針對目前國內(nèi)芯片供應(yīng)緊張的問題，為了保證企業(yè)供應(yīng)鏈的安全和彈性，一云多芯是必然選擇，目前在萬卡規(guī)模上，百舸4.0將兩種芯片混合訓(xùn)練下的效率折損控制在5%以內(nèi)。同時，在跨地域的機房部署上，百舸4.0通過提供高效的拓撲結(jié)構(gòu)、跨地域無擁塞高性能網(wǎng)絡(luò)和高效的模型并行訓(xùn)練等方案，在橫跨幾十公里的多機房組成的萬卡規(guī)模的集群上，把單一訓(xùn)練任務(wù)的性能折損控制在4%以內(nèi)，保持業(yè)界領(lǐng)先。

　　目前，VAST、生數(shù)科技、Liblib、光魔科技等空間智能賽道的大模型公司，都選擇了百舸作為其底層的AI計算平臺。

　　例如，VAST基于百舸，解決了高性能計算、存儲網(wǎng)絡(luò)等基礎(chǔ)設(shè)施的使用和運維。同時，基于百舸的AI加速套件，使用了大模型訓(xùn)練和推理場景的IO預(yù)處理優(yōu)化、通信效率優(yōu)化、顯存利用優(yōu)化和模型算法優(yōu)化等功能，極大提升了分布式訓(xùn)練、推理的性能和效率。

　　再比如，光魔科技推出的AIGC創(chuàng)作平臺“白日夢”，需要依托各種視頻、圖片的剪輯能力以及大模型的生成效果�；诎亵�，光魔科技搭建了整套邊緣算力節(jié)點，大幅降低了敏感算力的成本，并基于跨境專線CDN服務(wù)實現(xiàn)了海外加速。同時，基于百舸視頻云，光魔科技將多張生成的圖片，利用百度MCP產(chǎn)品的拼接能力，將無序的圖片變換成一個連環(huán)短片。在大模型應(yīng)用上，基于百度千帆大模型平臺，實現(xiàn)了更加便利的生成劇本內(nèi)容，以及對劇本內(nèi)容進行理解并實現(xiàn)⼈設(shè)、分鏡等功能。

　　其次，空間智能的業(yè)務(wù)場景相當(dāng)復(fù)雜，需要高效的大模型工具鏈去滿足復(fù)雜多樣的需求。

　　對此，百度智能云推出了【千帆大模型平臺】，它分為應(yīng)用開發(fā)、模型服務(wù)、模型開發(fā)三層，為企業(yè)提供最易用的應(yīng)用開發(fā)工具、最豐富的大模型和最全面的模型開發(fā)工具鏈，幫助企業(yè)將大模型深入到自己的生產(chǎn)力場景。

　　在應(yīng)用開發(fā)層，針對空間智能落地大模型的高頻應(yīng)用場景，提供企業(yè)級RAG、企業(yè)級Agent、一句話創(chuàng)建企業(yè)應(yīng)用等關(guān)鍵能力，賦能企業(yè)高效開發(fā)企業(yè)級大模型應(yīng)用。

　　在模型服務(wù)層，除了支持文心大模型外，也支持語音識別、物體檢測等傳統(tǒng)模型，企業(yè)可以根據(jù)場景，合理搭配大小模型，通過直接調(diào)用大幅提高自己的業(yè)務(wù)效率。

　　在模型開發(fā)層，千帆大模型平臺提供了完整的工具鏈，上線了DPO、KTO等模型訓(xùn)練算法和PTQ等模型量化算法，能夠更高效地支持超大參數(shù)模型的微調(diào)和定制。不僅是大模型開發(fā)，升級后的千帆大模型平臺3.0還支持CV、NLP、語音等傳統(tǒng)模型的開發(fā)，并實現(xiàn)數(shù)據(jù)、模型、算力資源的統(tǒng)一納管和調(diào)度，為企業(yè)提供一站式的大、小模型開發(fā)體驗。

　　最后，不同的空間智能企業(yè)，在數(shù)據(jù)、場景和業(yè)務(wù)邏輯上呈現(xiàn)出行業(yè)差異，需要在通用大模型和行業(yè)大模型的能力基礎(chǔ)上，進一步增強行業(yè)能力，讓行業(yè)AI應(yīng)用的開發(fā)事半功倍。

　　對此，百度智能云推出了完全適用于空間智能的AI應(yīng)用及開發(fā)平臺。

　　例如，在空間內(nèi)容創(chuàng)造方面，圍繞“人、場、物”多維互動打造空間智能新陣地。其中，空間智能Avatar能夠制作虛擬分身，空間智能平臺能夠生成虛擬空間場景，數(shù)字創(chuàng)作中心能夠?qū)崿F(xiàn)多維數(shù)字的生成、分發(fā)、管理。

　　在空間智能交互方面，百度智能云提供從2D到5D的多維多模態(tài)實踐平臺，為打造全方位的空間構(gòu)建提供了一站式的AI解決方案。

　　總的來說，百度智能云“空間智能解決方案”通過大模型+行業(yè)增強的能力，為空間智能的AI應(yīng)用落地提供了真實的生產(chǎn)力——提高開發(fā)效率、降低開發(fā)門檻、實現(xiàn)快速創(chuàng)新，為空間智能領(lǐng)域多樣化的場景需求提供了強大的技術(shù)支撐。

　　百度智能云“破圈”

　　百度智能云為何在泛娛樂行業(yè)里破了圈?

　　尤其是空間智能是一個全新的領(lǐng)域，所有人都還在摸黑前行，百度智能云卻率先找到了一條切實可行的落地路徑，這是為什么?

　　顯然，這和百度一直以來對AI的追求息息相關(guān)。

　　憑借在人工智能領(lǐng)域長期的技術(shù)積累和高壓強式、馬拉松式研發(fā)投入，百度是國內(nèi)最早推出AI大語言模型的企業(yè)，也是國內(nèi)少有的能夠早早預(yù)判AI發(fā)展大趨勢的科技企業(yè)，這使得百度在AI領(lǐng)域總有“領(lǐng)先半步”的前瞻性。

　　過去2年，百度創(chuàng)始人李彥宏時不時因為“清醒發(fā)言”出圈，比如當(dāng)國內(nèi)還在聚焦百模大戰(zhàn)時，李彥宏就說“不要卷模型，要卷應(yīng)用”。百度對于大模型落地以及AI原生應(yīng)用的深刻理解，使其在技術(shù)、產(chǎn)品乃至組織上都是AI原生的，為行業(yè)落地AI做好了準(zhǔn)備。

　　比如，在AI基礎(chǔ)設(shè)施上，百度智能云的算力、算法、數(shù)據(jù)是業(yè)界最全面的;在AI應(yīng)用上，百度至今已推出100+AI原生應(yīng)用，展示了其難以超越的AI產(chǎn)品開發(fā)能力。數(shù)據(jù)顯示，已有超過60%的央企和大量的民營企業(yè)，在聯(lián)合百度智能云進行AI創(chuàng)新，通過百度智能云千帆大模型平臺，累計精調(diào)了3.3萬個大模型，開發(fā)出了77萬個企業(yè)級應(yīng)用。

　　實實在在的數(shù)據(jù)，展示了百度智能云在幫助各行各業(yè)落地AI、打破大模型技術(shù)障礙的超強執(zhí)行力。這也就不難理解，為什么百度智能云能夠最先看到空間智能的市場潛力，找到和AI大模型結(jié)合的落地路徑，并且能夠快速地將相關(guān)的技術(shù)和解決方案推向市場。

　　不僅如此，面對空間智能這一新領(lǐng)域，百度智能云更是拿出了深耕的決心，愿意和行業(yè)客戶一起去探索落地——研究業(yè)務(wù)場景，理解業(yè)務(wù)需求，將需求轉(zhuǎn)化為技術(shù)進行落地，同時也愿意投入商業(yè)化資源去推廣行業(yè)應(yīng)用，與客戶、生態(tài)伙伴一起將空間智能產(chǎn)業(yè)做大。

　　在百度智能云的商業(yè)生態(tài)版圖中，未來的空間智能將涵蓋游戲、電商、體育、智能設(shè)備、具身智能、教育、AI科技與影視動漫等多個行業(yè)，這將帶來千億級乃至萬億級別的產(chǎn)業(yè)規(guī)模。

　　隨著大模型技術(shù)的成熟，空間智能應(yīng)用進一步落地，必然會為企業(yè)降本增效、打開新的可能性，帶來深遠影響。

　　這一過程顯然漫長而艱難，但對于百度智能云這樣的“長期主義者”來說，這本身就是一種修行，能夠沉下心去面對一切市場的喧囂，撇去技術(shù)的泡沫。

　　正如百度智能云泛科技業(yè)務(wù)部總經(jīng)理張瑋所說，空間智能從概念到落地具體應(yīng)用還有很長的路要走，希望能把產(chǎn)業(yè)聯(lián)盟做得更完善，有更多的生態(tài)廠商一起來探索落地，“落地到有邊界的場景、可以服務(wù)的客戶、具象化的行業(yè)產(chǎn)品和功能，逐步去滿足空間智能大部分的需求”。

　　或許在某個時刻，空間智能產(chǎn)業(yè)會臨近奇點、迎來爆發(fā)，但技術(shù)帶來的產(chǎn)業(yè)革命總是靜默而深刻。當(dāng)我們在未來回頭望去，才會意識到，這場變革早已開始。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信