大模型預(yù)訓(xùn)練“狼人殺”，是誰悄悄掉隊了？

2024年10月24日 11:12:48 陶然來源：AI藍媒匯

　　作者|陶然

　　國內(nèi)最頂尖的這些大模型初創(chuàng)公司，現(xiàn)在站到了該做取舍的十字路口。

　　十月初，市場中傳出消息，稱智譜AI、零一萬物、MiniMax、百川智能、月之暗面、階躍星辰這六家被稱為“AI六小虎”的中國大模型獨角獸中，有兩家公司已經(jīng)決定逐步放棄預(yù)訓(xùn)練模型，縮減了預(yù)訓(xùn)練算法團隊人數(shù)，業(yè)務(wù)重心轉(zhuǎn)向AI應(yīng)用。

　　所謂預(yù)訓(xùn)練，一般指的是利用大規(guī)模數(shù)據(jù)對模型進行無特定任務(wù)的初步訓(xùn)練，讓模型學(xué)習(xí)到通用的語言模式、知識和特征等。

　　好比是給一個還不太懂事的孩子(模型)看大量資料(大規(guī)模數(shù)據(jù))，讓他在這個過程中不斷學(xué)習(xí)各種知識、認識各種事物的樣子和規(guī)律(通用的語言模式、知識和特征)。

　　雖然這個孩子一開始并不知道具體要做什么任務(wù)，但通過廣泛學(xué)習(xí)，會形成相對全面的知識儲備。

　　之后，如果要讓這個孩子去完成特定的任務(wù)，比如寫作文、做數(shù)學(xué)題等，就可以針對這些具體任務(wù)專門優(yōu)化適配。

　　但問題是，這種籠統(tǒng)的大規(guī)模訓(xùn)練往往價格不菲，且過程多有不確定性，每次基礎(chǔ)模型迭代的訓(xùn)練成本動輒就會達到百萬、千萬甚至數(shù)億美金這個量級。

　　在討論AI行業(yè)現(xiàn)狀的播客中，Anthropic創(chuàng)始人 Dario Amodei 與挪威銀行首席執(zhí)行Nicolai Tangen曾談到，雖然目前許多模型的訓(xùn)練成本為 1 億美元，但“當今正在訓(xùn)練的”一些模型的成本接近 10 億美元，且這個數(shù)字未來還會上漲。

　　Amodei 表示，人工智能訓(xùn)練成本將在“2025 年、2026 年，也許還有 2027 年”達到 100 億美元至 1000 億美元大關(guān)，他再次預(yù)測，100 億美元的模型可能會在明年的某個時候開始出現(xiàn)。

　　一向激進的馬斯克為了讓自家 xAI的Grok系列模型后來居上，更是大手筆屯集了10萬張昂貴的GPU卡。

　　對于這些不缺資源的頭部玩家來說，預(yù)訓(xùn)練是一個必選項。

　　但對“AI六小虎”而言，中間過程的黑箱特質(zhì)，疊加投入產(chǎn)出比的壓力，讓預(yù)訓(xùn)練的“做與不做”，成了擺在眼前一個現(xiàn)實問題。

　　預(yù)訓(xùn)練，是模型地基，更是大模型公司技術(shù)試金石

　　預(yù)訓(xùn)練的好處顯而易見——模型可以獲得更廣泛的語言理解能力和基礎(chǔ)的智能表現(xiàn)，為后續(xù)針對特定任務(wù)的微調(diào)提供良好的基礎(chǔ)。它可以是后續(xù)產(chǎn)品研發(fā)和應(yīng)用設(shè)計的強大起點，縮短開發(fā)周期，適應(yīng)不同需求。

　　當年GPT-3橫空出世，預(yù)訓(xùn)練過程為其后續(xù)在各種自然語言處理任務(wù)中的出色表現(xiàn)奠定了堅實基礎(chǔ)。在預(yù)訓(xùn)練階段，GPT-3 使用了海量的互聯(lián)網(wǎng)文本數(shù)據(jù)，通過無監(jiān)督學(xué)習(xí)的方式讓模型學(xué)習(xí)語言的統(tǒng)計規(guī)律和語義知識。例如，在問答任務(wù)中，經(jīng)過預(yù)訓(xùn)練的 GPT-3 能夠理解問題的含義，并根據(jù)其在預(yù)訓(xùn)練中學(xué)習(xí)到的知識生成準確的答案。

　　但相對應(yīng)的，預(yù)訓(xùn)練也需要用到大量的算力資源和高質(zhì)量數(shù)據(jù)，以及復(fù)雜的算法和技術(shù)。

　　簡言之，預(yù)訓(xùn)練的效果取決于兩方面：能力和資源。前者對應(yīng)算法的先進性、數(shù)據(jù)的質(zhì)量和規(guī)模以及工程師的技術(shù)水平等因素，決定了模型能夠?qū)W習(xí)到多少知識和技能;后者對應(yīng)計算資源的投入、數(shù)據(jù)采集和處理的成本、人才等，決定了預(yù)訓(xùn)練能夠進行到何種程度和規(guī)模。

　　OpenAI團隊在預(yù)訓(xùn)練GPT-3和GPT-4過程中消耗了大量的算力資源和高質(zhì)量數(shù)據(jù)。為了訓(xùn)練GPT-3，OpenAI使用了微軟提供的超級計算機系統(tǒng)，該系統(tǒng)擁有超285,000個CPU核心和10,000個GPU，訓(xùn)練一次的費用高達460萬美元，總成本約1200萬美元。

　　GPT-3的訓(xùn)練消耗了約3640 PF-days的算力，使用了45TB的預(yù)訓(xùn)練數(shù)據(jù)，包括CommonCrawl、網(wǎng)絡(luò)文本、維基百科等。

　　而在訓(xùn)練GPT-4時，OpenAI使用了混合專家模型(MoE)，包含1.8萬億參數(shù)，通過16個專家模型來控制成本。每次前向傳播使用約2800億參數(shù)和560 TFLOPs。

　　據(jù)斯坦福HAI研究所發(fā)布的AI Index報告顯示，OpenAI的GPT-4訓(xùn)練成本約為7800萬美元。

　　模型架構(gòu)和算力需求使得其訓(xùn)練和部署需要大量的高性能計算資源，也就是來自英偉達的A100或*** GPU。

　　o1發(fā)布之后，很多人開始大談后訓(xùn)練的重要性。后訓(xùn)練可以顯著提升模型在特定任務(wù)上的性能，但是它無法改變模型在預(yù)訓(xùn)練階段學(xué)到的基礎(chǔ)特征表示。換句話說，預(yù)訓(xùn)練很大程度上影響著模型性能的基準線和潛在的上限。

　　LlaMa 67B 與LlaMa 3.1 70B 的模型后訓(xùn)練上限是不同的。同理，如果一個公司能夠在預(yù)訓(xùn)練階段訓(xùn)練出優(yōu)于LlaMa的自有模型，那么與在LlaMa基礎(chǔ)上后訓(xùn)練的公司相比，前者就具備了技術(shù)上的天然優(yōu)勢。

　　這種優(yōu)勢的建立，需要技術(shù)能力，也需要算力資源——能力和資源，成為了大模型預(yù)訓(xùn)練的兩個門檻。

　　誰放棄?誰掉隊?

　　這里的能力，并非跟自家的上一代模型相比，而是跟行業(yè)現(xiàn)有公開成果相比，也就是那些頭部的開源大模型。

　　像是由Meta推出、被廣泛調(diào)用的LlaMa系列、馬斯克旗下xAI公司的Grok-1，以及國內(nèi)阿里云開源的部分Qwen系列模型，都已經(jīng)具備相當優(yōu)秀且全面的基礎(chǔ)能力。

　　而資源，自然指向的是訓(xùn)練結(jié)果的投入產(chǎn)出比：如果一家公司花費大量資源去做預(yù)訓(xùn)練，得來的成果卻比不上那些開源的模型，那繼續(xù)堅持做預(yù)訓(xùn)練就沒什么必要了。那么這種訓(xùn)練就純粹的浪費資源，毫無價值可言。這里的資源既包含算力、資金，也包含技術(shù)人才。

　　眾所周知，國內(nèi)大模型“小虎”有六七家公司，智譜AI、MiniMax、零一萬物、月之暗面、百川智能、階躍星辰、DeepSeek。在大模型預(yù)訓(xùn)練上，各家面臨的難題各不相同，現(xiàn)狀不一�；蛟S我們可以從基座模型成績上“窺一斑而知全豹”。

　　由LMSYS組織的全球大模型競技場(ChatBot Arena)是全球頭部大模型企業(yè)同臺競技的權(quán)威盲測平臺。在最新一期的榜單上，依次出現(xiàn)了零一萬物的Yi-Lightning、智譜 AI 的GLM-4-Plus以及DeepSeek V2.5，這些模型都在榜單上取得了出色的成績。

　　智譜 AI 一向有著“清華系國家隊”的稱號，背后的主導(dǎo)人物唐杰也是中國在人工智能和大模型領(lǐng)域頗具話語權(quán)和聲量的學(xué)術(shù)領(lǐng)軍人物，找融資找算力不在話下;零一萬物創(chuàng)始人李開復(fù)同樣在AI領(lǐng)域深耕多年，公司早早布局AI Infra，近期也宣布了新融資，資金算力都不成問題;DeepSeek背靠幻方量化，坐擁上萬張GPU，也沒有道理在算力充盈的情況下，放棄預(yù)訓(xùn)練。

　　相比之下，另外幾位玩家的現(xiàn)狀就顯得有些“模糊”：

　　月之暗面從成立第一天起便亮明了ToC的決心，也由此成為多家巨頭青睞的對象，目前也是大模型初創(chuàng)中估值最高的企業(yè)。但除首次發(fā)布會上發(fā)布Moonshot大模型(后改名為Kimi大模型)、并宣布聚焦長文本能力之外，月之暗面再未對外透露更多基座模型的消息。業(yè)內(nèi)更有聲音傳出，月之暗面的基座模型是在已有模型基礎(chǔ)上微調(diào)得來的，縫合了多種工程模塊后才達到了目前的效果。

　　而實際上，大模型預(yù)訓(xùn)練除長文本之外，還有諸多技術(shù)點同樣值得攻堅：MoE(Mixture of Experts，混合專家模型)模型架構(gòu)、多模態(tài)、RAG(Retrieval-augmented Generation，檢索增強生成)、SSM(Structured State Space Models，結(jié)構(gòu)化狀態(tài)空間序列模型)、o1的COT(Chain of Thought，思維鏈) tokens、RL(Reinforcement Learning，強化學(xué)習(xí))。這些都需要真金白銀與技術(shù)人才的投入，對于發(fā)力ToC應(yīng)用、選擇在營銷獲客方面大量投入的月之暗面而言，繼續(xù)去做大模型預(yù)訓(xùn)練，投入產(chǎn)出比似乎并不高。

　　背靠上海國投的階躍星辰、MiniMax同樣不缺資源。據(jù)上觀新聞報道，上海國投已經(jīng)與階躍星辰、MiniMax簽署了戰(zhàn)略合作協(xié)議。

　　但單就預(yù)訓(xùn)練階段來說，MiniMax似乎面臨著與月之暗面同樣的尷尬局面。MiniMax的海外應(yīng)用矩陣中，Talkie已成為頭部出海產(chǎn)品，海螺引起全球矚目，但ABAB大模型很久未有新進展，也沒有在LMSYS等平臺上出現(xiàn)。

　　在諸位“小虎”中最晚亮相的階躍星辰則急于證明自己的技術(shù)實力，年中密集地發(fā)布了千億參數(shù)Step-1和萬億參數(shù)Step-2。在階躍星辰的宣發(fā)中，Step-2 萬億參數(shù)語言大模型的模型性能逼近 GPT-4，但在LiveBench、Arena-Hard、MT-Bench等國際權(quán)威Benchmark上成績?nèi)匀跤贕PT-4-1107。

　　越發(fā)活躍的階躍星辰的另一面，則是技術(shù)低調(diào)的百川智能。從2023年8個月發(fā)布8款模型，到2024年僅發(fā)布3款模型，百川智能在基座模型上的腳步在不斷降速。最新一代基座大模型Baichuan 4選擇打榜國內(nèi)商業(yè)化榜單SuperCLUE，如LMSYS ChatBot Arena、AlpacaEval 等有學(xué)術(shù)背景、相對公正的國際權(quán)威榜單上，Baichuan大模型卻未上榜或未獲好成績。

　　其實，對于預(yù)訓(xùn)練“知難而退”，并非一種難以啟齒的消極行為。甚至，在當前的大環(huán)境下，對于某些公司來說，是一個極為理智的選擇。

　　當前行業(yè)基礎(chǔ)模型過剩卻少有破圈應(yīng)用產(chǎn)品涌現(xiàn)。錘子多而釘子少。利用行業(yè)中頭部資源、開源大模型去做調(diào)優(yōu)，出應(yīng)用產(chǎn)品，務(wù)實的選擇才更能在大模型的紅海中找到適合自己身份，節(jié)省資源同時創(chuàng)造價值。

　　只是在選擇放棄預(yù)訓(xùn)練的同時，也意味著走下了AGI的牌桌，將自家模型和應(yīng)用的上限拱手讓于開源模型。

　　至此，什么樣的玩家，可以留在AI預(yù)訓(xùn)練這場豪賭的牌桌，答案日漸清晰。

　　預(yù)訓(xùn)練成大模型公司靈魂考驗，人才流動頻繁

　　從尖端芯片到美元投資，中美之間在科技領(lǐng)域的競爭會愈演愈烈。LlaMa、Mixtral等開源模型系列未來前景如何仍未可知。根據(jù)美國政府最新發(fā)布的信息，美國即將出臺限制某些針對中國人工智能投資的新規(guī)，相關(guān)規(guī)則目前正在最終審核階段，預(yù)計會在一周內(nèi)發(fā)布。

　　掌握預(yù)訓(xùn)練能力，才能保證自己不下全球大模型競爭的牌桌。隨著中美科技角力的加劇，頂尖人才資源的爭奪戰(zhàn)已然成為焦點，一場圍繞人才的戰(zhàn)略較量早已爆發(fā)。

　　有多位長期關(guān)注AI領(lǐng)域的獵頭反饋稱，自ChatGPT爆火之后，國內(nèi)對于AI領(lǐng)域的頂級研發(fā)人才的需求持續(xù)走高。

　　國內(nèi)的人才爭奪同樣激烈。如阿里通義千問大模型技術(shù)負責(zé)人周暢近期被曝出離職消息;曾任職于曠視研究院的周昕宇選擇加盟月之暗面;秦禹嘉被曝從面壁智能離職后，2024年初創(chuàng)立序智科技，數(shù)月后加入字節(jié)跳動大模型研究院。

　　原滴滴出行AI Labs首席算法工程師李先剛更是被曝在一年多時間內(nèi)從貝殼跳槽到零一萬物、百川智能兩家“AI小虎”公司，前陣子被曝又回到貝殼。“獵頭圈爆料，他先從貝殼到零一萬物，再到百川智能，又回貝殼，每家公司都只待了幾個月。”

　　2023年初時曾傳出“字節(jié)跳動以140萬美元年薪從OpenAI挖人”的傳聞。2024年6月，李開復(fù)也曾在接受媒體采訪時表示，自己已經(jīng)化身世界上最大的AI獵頭招攬世界上最優(yōu)秀的人才。隨后零一萬物便公開表態(tài)，已有多位負責(zé)模型訓(xùn)練、AI Infra、多模態(tài)和產(chǎn)品的國際大咖于數(shù)月前加盟。

　　人才資源的投入在模型預(yù)訓(xùn)練方面立竿見影。字節(jié)跳動自研豆包大模型一經(jīng)發(fā)布便在業(yè)內(nèi)以高性價比聞名。零一萬物也被傳團隊調(diào)整，但并未影響到模型進展——僅用了2000張GPU、1個半月時間就訓(xùn)練出了超越GPT-4o(5月份版本)的Yi-Lightning，這也是目前中國大模型公司在LMSYS榜單上的歷史最佳成績。

　　一位資深大模型從業(yè)者告訴筆者，預(yù)訓(xùn)練人才在頂尖公司之間互相流動是非常正常的現(xiàn)象，OpenAI、Google、微軟、Meta、xAI之間也是如此。

　　“一個模型性能要做到世界第一梯隊，而且又快又便宜，讓用戶都用得好用得起，需要這個大模型公司的模型訓(xùn)練團隊、AI Infra團隊都具備世界頂尖水準，而且要深度共建共創(chuàng)，才能‘多快好省’地做出頂尖模型。”上述從業(yè)者說，“隨著競爭壁壘越來越高，‘單靠挖一位算法負責(zé)人就能搞定一切’，這是非常不切實際的想法。”

　　在這方面，國內(nèi)頭部大模型公司也是“八仙過海、各顯神通”。阿里巴巴、字節(jié)跳動本身具備豐富的算力資源， DeepSeek背后的幻方量化也曾豪擲千金購置了上萬張GPU。零一萬物則選擇從Day 1起“模基共建”，邀請來自阿里、華為等大廠的高管、骨干加盟組建AI Infra核心團隊。

　　英國《金融時報》近期報道給出了一份“第一陣營名單”，初創(chuàng)“小虎”零一萬物、DeepSeek通過MoE模型架構(gòu)和推理優(yōu)化，大廠阿里巴巴、字節(jié)跳動等憑借著技術(shù)、資源訓(xùn)練出了具備國際競爭力的模型，阿里的Qwen、字節(jié)的Doubao、零一的Yi、DeepSeek系列模型即便在海外同樣享有極高知名度。

　　從模型性能的角度來說，堅持預(yù)訓(xùn)練不僅將模型上限掌握在了自己手中，同時也牢牢把握住了推理成本的優(yōu)化空間。只有從頭到尾走過預(yù)訓(xùn)練的路，才能夠深入了解模型架構(gòu)，與AI Infra團隊深度共建，以軟硬件協(xié)同逼近理論上的最低推理成本。

　　從應(yīng)用落地的角度來講，一個關(guān)鍵點除了成本，還有安全性——模型是否自主可控。與接入開源模型相比，走過從0到1整個過程的自研預(yù)訓(xùn)練模型無疑是更加安全可控的。對于企業(yè)級和政府級客戶而言，這一點尤為關(guān)鍵，因為這直接關(guān)系到他們的核心利益和關(guān)切。

　　換言之，無論是從基座模型的角度，還是從應(yīng)用落地的角度，預(yù)訓(xùn)練能力都是大模型企業(yè)的“壓艙石”。而對于預(yù)訓(xùn)練本身，經(jīng)過能力和資源兩道門檻的區(qū)隔之后，注定會是一場玩家不多的游戲。因為高手，本就應(yīng)該不多。

　　阿里巴巴、字節(jié)跳動等大廠入局之后，大模型初創(chuàng)公司在資源方面的劣勢一覽無遺。也正因如此，能力方面的重要性得以凸顯，如何以各家技術(shù)實力追平資源差距是每家大模型初創(chuàng)公司都需要思考的問題。

　　LlaMa 3.1 405B、Qwen-Max等頂尖開源模型的發(fā)布像是一次次的警鐘，催促著大模型初創(chuàng)公司盡早做出選擇。

　　算法、AI Infra能力強，能夠以各種方式降低訓(xùn)模成本和推理成本;資源整合能力強，能夠支撐公司不斷在模型預(yù)訓(xùn)練上作出新嘗試。

　　能力與資源并舉，才是大模型時代能全局掌控的“硬指標”。中國大模型“小虎”們道路已經(jīng)出現(xiàn)分野，從預(yù)訓(xùn)練開始，技術(shù)領(lǐng)先者已經(jīng)脫穎而出。有人下牌桌、有人走新路。

　　只是，掉隊后再趕上的難度，會越來越高。

　　來源|AI藍媒匯作者|陶然

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風(fēng)險自擔。

[No. ]
分享到微信