大模型混戰(zhàn)這一年：進化之賽、效率之爭、落地之戰(zhàn)

2024年12月09日 08:58:59 王慧瑩 來源：連線Insight公眾號

　　日行千里，烈火烹油的兩年過去，飛速發(fā)展的大模型行業(yè)怎么樣了?

　　與兩年前“百模大戰(zhàn)”為技術爭奪的景象不同，玩家們有兩個速度之爭:一是技術迭代和產(chǎn)品更新的速度，二是商業(yè)化賺錢和應用落地的速度。

　　技術和產(chǎn)品的迭代很直觀，直接推動大模型行業(yè)的百舸爭流。從語言大模型，到文生視頻大模型，再到3D生成大模型，幾乎每隔幾個月就會有讓人眼前一亮的大模型出現(xiàn)。

　　大家都在嘗試和摸索。每一次技術的擴大亮相，都會將具有前瞻性的大模型廠商推到聚光燈下，并引發(fā)新一輪的行業(yè)追隨。

　　有人領先，就有人追趕。這些尚未成熟的技術，給了探路者彎道超車的機會，也帶來了商業(yè)化的壓力。

　　尤其是進入今年下半年，整個行業(yè)的風向更加微妙。市場逐漸對大模型祛魅，資本也回歸理性，行業(yè)的兩股勢力也發(fā)生了站位的轉換。

　　一邊是阿里、字節(jié)等巨頭投入的動作明顯加快，收編大模型創(chuàng)業(yè)公司的核心人才，推出一系列AI產(chǎn)品;一邊是創(chuàng)業(yè)公司開始重新評估自身的路線，國內“AI六小虎”有兩家逐步放棄預訓練模型，業(yè)務重心轉向AI應用。

　　這背后，直指行業(yè)第二個速度之爭:商業(yè)化的效率。

　　毋庸置疑，當下的大模型賽道高度擁擠，隨著算力成本上漲、算力分配有限，對創(chuàng)業(yè)公司而言，大模型這場戰(zhàn)役時間線拉得越長，創(chuàng)業(yè)公司的壓力就越大。

　　“AI大模型(賽道)，將只剩下10家企業(yè)扮演重要角色。”中國工程院外籍院士張亞勤曾表示。這幾乎是行業(yè)的共識，最后的勝利屬于少數(shù)的玩家。

　　大模型最終會進化成什么樣，還不確定，但可以確定的是，大模型浪潮下，技術仍在迭代，場景仍在驚艷，商業(yè)化也始終在探索的路上。

　　過去兩年，大模型不缺驚艷時刻，行業(yè)也處于百家爭鳴的階段，無論是暫時領先的玩家，還是奮力追趕的玩家，都有機會在奔跑中，搶到更多的蛋糕。

　　3D世界、自主 Agent、

　　思考大模型……大模型驚艷迭代

　　從ChatGPT的驚艷亮相開始，新一輪的AI浪潮整整奔涌了兩年。AI想象力被重啟，大模型站上C位，圍繞大模型的討論和嘗試也爆發(fā)式增長。

　　大模型的終局是什么樣的?這一問題的答案吸引眾多玩家前赴后繼地卷技術、卷應用。

　　根據(jù)lifearchitect.ai數(shù)據(jù)，截至目前，全球總共有467個大模型。新技術不斷涌現(xiàn)，行業(yè)競速賽愈演愈烈，大模型廠商都在不斷迭代升級，旨在離AGI更進一步。

　　進入到今年，除了應用上的百家爭鳴，一個明顯的變化在于，以ChatGPT為代表的大語言模型局限性日益顯現(xiàn)。比如，他們只能處理文本領域的任務，無法與物理和社會環(huán)境進行互動;雖然大模型語料庫已經(jīng)十分豐富，但關于人類的價值觀的文本，他們并不具備理解能力……

　　技術被重構，大模型行業(yè)也在不斷改進和進化中，行業(yè)在尋找下一個更“類人”的模型或應用。

　　北京時間12月3日，“AI教母”李飛飛創(chuàng)立的World Labs推出最新成果:世界模型，一張單個圖像即可生成3D世界。

　　以往，我們熟知的大多數(shù)GenAI工具僅能制作圖像/視頻2D內容。World Labs則實現(xiàn)了在3D中生成，視頻的控制性、一致性能得到改善。World Labs稱，他們所生成場景的獨特之處在于它們具有交互性，而且是可修改的。

　　這是今年9月份創(chuàng)立World Labs以來，李飛飛團隊推出的首個成果，也是其邁向空間智能的第一步。早在成立之初，李飛飛團隊瞄準的就是空間智能，其初衷就是空間智能的AI，能夠對世界進行建模，同時根據(jù)3D時空中物體/地點/交互進行推理。

　　李飛飛的個人影響力，加之空間智能的想象力，World Labs成立三個月，有消息稱其估值達10億美元。

　　兩天后，北京時間12月5日，Google Deepmind緊隨其后發(fā)布了最新基礎世界模型Genie2。作為今年初推出的Genie模型的升級版，Genie2只需要一張圖就能生成可玩的AI系統(tǒng)。DeepMind透露，Genie2具備從不同視角(如第一人稱視角與等距視角)生成連貫世界的能力，這些生成的世界可持續(xù)時間長達一分鐘，盡管多數(shù)情況下維持在10到20秒之間。

　　如果說世界模型展現(xiàn)的是模型理解虛擬世界運作規(guī)律，并準確做出預測的能力，那OpenAI今年9月推出的o1系列模型則在于會思考。

　　彼時，OpenAI CEO奧特曼對o1信心滿滿，“我認為這次 o1模型發(fā)布最重要的信息是，AI 發(fā)展不僅沒有放緩，而且我們對未來幾年已經(jīng)勝券在握。”

　　與GPT系列模型不同，o1系列模型有更強大的“思路鏈”，模型會在思考后回答用戶問題，輸出高質量的內容，而非迅速回應無效回答。此外，o1系列更擅長推理，推理能力大幅提升，特別是在奧數(shù)、編程等領域展現(xiàn)出了優(yōu)勢。

　　行業(yè)風向標的新動作，引發(fā)國內大模型廠商的追趕。11月16日，月之暗面公布了k0math;11月20日，Deepseek上線DeepSeek-R1-Lite大模型;11月27日，昆侖萬維推出“天工大模型4.0” o1版……無一不在強調大模型的邏輯思考能力。

　　無論是哪種路線的大模型進化，都讓人類離AGI更進一步。

　　其中，在應用層面，今年還有一個趨勢不能忽視，人類與機器的互動方式正在發(fā)生范式轉變，擁有對話功能的GPT逐漸進化能行動的AI Agent(智能體)。

　　市場研究機構 Research and Market在11月11日發(fā)布的報告中指出，未來五年AI智能體的市場規(guī)模將增加420億美元。麥肯錫也表示，AI智能體將是生成式AI的下一個前沿。

　　具體到玩家的動作上，“有手、有腦、有眼睛”的AI Agent成為玩家搶灘的對象。

　　10月份，作為最早探索Agent的初創(chuàng)企業(yè)智譜，推出自主智能體AutoGLM ;一個月后的Agent OpenDay上，智譜展示了AI Agent的最新成果，包括AutoGLM、AutoGLM-Web、GLM-PC三個版本，對應手機、瀏覽器、電腦的應用場景。

　　新升級的AutoGLM能夠理解超長指令，執(zhí)行超長任務，在多步、循環(huán)任務中，AutoGLM的速度表現(xiàn)超過人手動操作�？梢灶A見的是，當技術足夠成熟，一個Agent就能幫助人操控一切。

　　此前，微軟Ignite大會上，微軟宣布已建立全球規(guī)模最大的企業(yè)級AI Agent生態(tài)系統(tǒng);前OpenAI高管創(chuàng)辦的初創(chuàng)公司Anthropic推出名為Claude的AI智能體;OpenAI被傳出將在2025年1月發(fā)布代號為Operator的智能體。

　　在國內，智能體也百花齊放。一邊是手機廠商開始拿出智能體、智能助力講故事;一邊是巨頭下場做智能體。比如字節(jié)跳動的扣子、騰訊云的騰訊元器、百度智能云千帆AgentBuilder、阿里云大模型平臺百煉、……

　　這一年，大模型不缺驚艷時刻。會思考的大模型、會想象的大模型、會預測的大模型，站在大模型技術的潮頭，走向AGI的路上，更驚艷的產(chǎn)品迭代一直在發(fā)生。

　　AI視頻，新的角逐中誰都不甘落后

　　時間回到今年2月，行業(yè)軍備競賽持續(xù)一年，OpenAI再次將大模型行業(yè)推至高潮。OpenAI以世界模擬器的名號發(fā)布了視頻生成模型 Sora，讓“一句話生成視頻”變成可能。

　　行業(yè)的加速器來自Sora。追趕Sora、超越Sora，幾乎成了海內外大模型玩家的共識。

　　在海外，今年5月，谷歌發(fā)布對標Sora的文生視頻模型Veo;6月，Luma推出Dream Machine視頻生成模型，AI視頻生成初創(chuàng)公司Runway推出Gen-3Alpha模型。

　　將視角放到國內，玩家們?yōu)?ldquo;中國版Sora”爭先恐后，催生兩輪爆發(fā)期。

　　先是今年5月開始，生數(shù)科技Vidu、快手可靈、字節(jié)即夢、智譜清影、商湯Vimi等都相繼發(fā)布文生視頻模型。

　　今年9月，國產(chǎn)視頻生成大模型又迎來了新一輪爆發(fā)。MiniMax正式發(fā)布視頻模型video-01、阿里云在云棲大會上發(fā)布通義萬相全新視頻生成模型、美圖宣布MiracleVision大模型完成視頻生成能力的升級。

　　今年11月，騰訊混元大模型正式上線視頻生成能力。目前的生成視頻支持中英文雙語輸入、多種視頻尺寸以及多種視頻清晰度。另一邊，月之暗面旗下Kimi被爆出正在內測AI視頻生成功能“Kimi創(chuàng)作空間”，可通過12種預設風格模板和自定義創(chuàng)作功能，為用戶制作個性化音樂視頻。

　　兩輪爆發(fā)期間，隨著初創(chuàng)企業(yè)和巨頭的入局，AI視頻賽道正變得擁擠。更關鍵的是，經(jīng)過上半年密集發(fā)布新產(chǎn)品的階段，想要在競爭中突出重圍，行業(yè)的比拼從“有沒有”升級為“好不好用”。

　　為了變得好用，升級更新是玩家們的統(tǒng)一動作。在國內，動作最快的莫過于有視頻基因的快手和抖音。

　　截至今年9月，快手可靈經(jīng)歷了十次迭代升級。目前，在可靈1.5模型的支持下，可靈AI可以直出1080p高清視頻，挑戰(zhàn)大屏清晰度與質感。在圖生視頻方面，可靈1.5模型可以響應更復雜的文本描述要求。此外，可靈AI還支持運動筆刷、對口型等功能。

　　快手科技2024年投資者日上，快手主站業(yè)務與社區(qū)科學線負責人蓋坤介紹，已有累計超260萬人使用過可靈AI，并累計生成超2700萬個視頻、5300萬張圖片。

　　同為視頻賽道的字節(jié)，與快手正面交鋒。今年一季度，字節(jié)AI研發(fā)團隊將視頻生成模型的優(yōu)先級排在前列。3月底，即夢開啟視頻生成功能內測;9月，字節(jié)發(fā)布豆包模型家族的兩款視頻生成模型Seaweed和Pixeldance，并通過即夢AI、火山引擎小范圍邀測。

　　相比于之前的視頻生成模型大多只能完成簡單指令，字節(jié)的這兩款模型能讓視頻在大動態(tài)與運鏡中自由切換，擁有變焦、環(huán)繞、目標跟隨等多鏡頭語言能力，能更好地服務在視頻、電影領域的專業(yè)創(chuàng)作者。

　　11月，Seaweed面向平臺用戶正式開放。據(jù)字節(jié)方面介紹，本次開放使用的豆包視頻生成模型Seaweed是該款模型的標準版，僅需60秒即能生成時長5秒的高質量AI視頻，領先國內業(yè)界3至5分鐘的所需生成時間。

　　從底層技術看，AI視頻賽道玩家的路線基本一致，即采用Transformer架構的新型擴散模型DiT，進行相關擴散、生成的技術突破。也就是說，玩家更多是通過訓練數(shù)據(jù)豐富產(chǎn)品功能。

　　這也是字節(jié)、快手在AI視頻賽道跑得更快的原因。“Sora們”切入的60s視頻正是字節(jié)、快手的基本盤。在短視頻生態(tài)下，二者有豐厚的視頻土壤滋養(yǎng)，這種視頻數(shù)據(jù)的訓練，正是推動大模型“好用”的關鍵因素。

　　歷經(jīng)近一年，國內文生視頻大模型賽道進入了Sora時刻。AI視頻大模型的生成能力邁入新階段的同時，我們也要看到行業(yè)的焦慮。

　　從實際落地層面上看，如果是B端商業(yè)生產(chǎn)，短劇、電影、廣告對畫面的連續(xù)性、一致性要求很高;如果是C端用戶娛樂，對AI生成的最大要求是真實性。

　　需求倒逼技術，想實現(xiàn)真正的好用，并不容易。

　　從技術上看，當下視頻模型在理解、創(chuàng)作物理世界方面的表現(xiàn)依舊有限，畫面的連貫穩(wěn)定、主體的一致真實以及視頻的時長都亟需迭代進化。

　　從成本上看，當下的視頻技術很難下放到尋常百姓家，名噪一時的Sora至今仍處于研究階段，僅面向少數(shù)專業(yè)人士進行內測，很大一部分原因就在于高昂的成本。

　　再回到AI視頻是行業(yè)趨勢的這個問題上，廠商們之所以紛紛下注，一方面是因為行業(yè)需求催生了市場規(guī)模。

　　頭豹研究院數(shù)據(jù)顯示，2021年中國AI視頻生成行業(yè)的市場規(guī)模為800萬元，預計2026年，這一市場規(guī)模將達到92.79億元。

　　另一方面，大模型的商業(yè)落地進度越來越迫切，相比于ChatGPT這種聊天機器工具，AI視頻生成是大模型技術商業(yè)化落地更具潛力的賽道。

　　效率之爭、落地之戰(zhàn)

　　兩年，給行業(yè)帶來技術革命，也讓行業(yè)變得冷靜。

　　今年7月，2024世界人工智能大會上，百度創(chuàng)始人李彥宏在演講中提到，“2023年國內出現(xiàn)了百模大戰(zhàn)，其實造成了社會資源的巨大浪費，尤其是算力的浪費。”

　　李彥宏言辭激烈的背后，是整個行業(yè)更加理性。市場期待在模型之中長出能落地的應用，為大模型廠商賺到錢、為各行各業(yè)提供效率。

　　拋開技術問題，這注定是一場應用落地的效率之戰(zhàn)，這也就回到了商業(yè)化的問題上。

　　從去年“百模大戰(zhàn)”，到今年應用之戰(zhàn)，無論是哪個階段，商業(yè)化都是大模型行業(yè)反復提到的話題。大模型的特殊性在于“燒錢”，技術上的研發(fā)成本，應用上的運行成本，每一步都少不了真金白銀的支持，這也是大模型企業(yè)們的“緊箍咒”。

　　在國內，相比于兩年前焦灼地坐上牌桌，爭做“中國OpenAI”的執(zhí)念，這群AI明星企業(yè)將重點放在了商業(yè)化落地應用的探索上。

　　據(jù)智能涌現(xiàn)報道，被稱為“AI六小虎”的6家中國大模型獨角獸(智譜、零一萬物、MiniMax、百川智能、月之暗面、階躍星辰)中，已經(jīng)有兩家逐步放棄預訓練模型，縮減了預訓練算法團隊人數(shù)，業(yè)務重心轉向AI應用。

　　這透露了市場兩個曲線，一個是部分初創(chuàng)企業(yè)正被困在商業(yè)化的焦慮里;二是行業(yè)商業(yè)化戰(zhàn)線拉長，巨頭的戰(zhàn)斗力更足。

　　比如去年只發(fā)布了語言大模型的字節(jié)，今年一口氣補全了視頻、3D、音樂等多領域的大模型。在應用層面，字節(jié)陸續(xù)推出了十幾個AI應用，覆蓋了娛樂、對話、Agent等多個產(chǎn)品方向。

　　在C端表現(xiàn)上，下半年巨頭商業(yè)化的影響力更為突出。據(jù)數(shù)據(jù)分析機構QuestMobile，字節(jié)豆包App今年9月的日活已達760萬，成為中國日活最大的AI產(chǎn)品。

　　這一趨勢下，大廠和創(chuàng)業(yè)公司的角色站位也發(fā)生變化。尤其是步入今年下半年，當資本冷靜，一些AI明星創(chuàng)業(yè)公司被巨頭收編，大模型創(chuàng)業(yè)公司高管加入大廠。

　　這驗證了大廠堅決投入AI的重要性。AI是個增量，不僅能為大廠原有業(yè)務帶來新的想象力，大廠原有的業(yè)務場景也可以為AI提供商業(yè)閉環(huán)。

　　不過，盡管是資源和場景更為豐富的大廠，面對市場對其巨額AI投入何時能換來回報的質疑時，也有些迷茫。

　　迷茫的背后，還有個更重要的問題:Scaling Law還成立嗎?

　　所謂Scaling Law，是大模型行業(yè)的一個重要技術原理。具體而言，OpenAI四年前曾經(jīng)發(fā)布過一篇論文表示，模型的性能會隨模型參數(shù)量、數(shù)據(jù)量、計算資源增加而指數(shù)提升。

　　只要Scaling Law 還成立，那么大模型的能力就可以通過算力、參數(shù)、數(shù)據(jù)的訓練實現(xiàn)AGI。

　　行業(yè)仍是積極的。特別是OpenAI推出o1后，標志著大模型能力突破到了L2階段。大模型開始真正擁有了邏輯思維能力，在無人力干預的情況下進行規(guī)劃、驗證和反思。

　　某種程度上，o1打破了預訓練的 Scaling Law 瓶頸，商業(yè)上解鎖了新的可能。在OpenAI和智譜給出的“通往AGI五階段”的定義中，兩家公司均將多模態(tài)和語言能力歸在L1階段，也就是最為基礎的能力配備。

　　這個行業(yè)，從ChatGPT，到Sora，再到o1，OpenAI仍是具有時代性的公司。也許和過去一樣，哪個大模型廠商能最先追上o1，市場還會迎來一波新高潮。

　　追趕技術的路上，玩家們不能忽視的是如何把錢花到刀刃上，這是一場技術、應用、場景的效率之戰(zhàn)。

　　眼下，行業(yè)的淘汰賽已經(jīng)開始，李彥宏曾預測，在未來AI浪潮里，市場中99%的偽創(chuàng)新都將被淘汰，只有1%的企業(yè)能夠脫穎而出。誰是這1%，誰能創(chuàng)造“新”世界，要等市場給出答案。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

游戲體驗天花板一加Ace 5系列正式定檔12月26日

“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅持質價比不動

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

大模型混戰(zhàn)這一年：進化之賽、效率之爭、落地之戰(zhàn)

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應用，“區(qū)塊鏈+政務服務”顯成效

3C消費

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實力，創(chuàng)

研究

中國信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

專題

大模型混戰(zhàn)這一年： 進化之賽、效率之爭、落地之戰(zhàn)

擴展閱讀

大模型混戰(zhàn)這一年：進化之賽、效率之爭、落地之戰(zhàn)