首頁 > 產(chǎn)經(jīng)新聞頻道 > 創(chuàng)投報(bào)道

一位中國VC硅谷觀察：尋找大模型泡沫根源

2024年10月11日 18:20:31 AI for all 的 來源：華映資本

　　大模型行業(yè)泡沫正在顯現(xiàn)。

　　2022年誕生的ChatGPT，已經(jīng)在相當(dāng)程度上實(shí)現(xiàn)了大模型的Scaling law（尺度定律）和通用能力涌現(xiàn)。ChatGPT自身作為一個(gè)終端產(chǎn)品的商業(yè)化也持續(xù)有不錯進(jìn)展。據(jù)2024年7月的非公開數(shù)據(jù)，OpenAI的ARR(年經(jīng)常性收入)已經(jīng)達(dá)到了相當(dāng)可觀的41億美元。

　　但這些收入都是在極度高昂的算力、研發(fā)和運(yùn)營成本基礎(chǔ)上實(shí)現(xiàn)的，而且細(xì)看最近OpenAI的發(fā)展，也很難稱得上“順利”。今年以來，包括聯(lián)創(chuàng)約翰·舒爾曼和伊利亞·蘇茨克沃在內(nèi)的多位核心高管已離開，9月下旬更是接連發(fā)生了首席技術(shù)官(CTO)米拉·穆拉蒂離職與蘋果退出參與其最新一輪融資談判的兩大事件。

　　在華映資本看來，只有當(dāng)GPT真正賦能所有上層垂直行業(yè)應(yīng)用場景，即實(shí)現(xiàn)所謂大規(guī)模落地實(shí)踐，以平臺形式實(shí)現(xiàn)商業(yè)化，OpenAI開創(chuàng)的LLM浪潮才算徹底到來。但當(dāng)前，無論是在to C還是to B側(cè)，GPT都更像是一個(gè)超級APP，而非一個(gè)類似IOS的底層平臺。GPT插件和GPTs已經(jīng)證明了底座LLM不能簡單復(fù)制IOS的App Store。

　　雖然OpenAI剛發(fā)布的o1模型用self-play RL的方法將scaling law推到了一個(gè)新的層次，實(shí)現(xiàn)了更強(qiáng)的推理邏輯能力，但上述“平臺化瓶頸”并未得到根本改變。各垂直場景目前都尚未看到真正全面爆發(fā)的趨勢。無論是在創(chuàng)業(yè)還是投資層面，大模型行業(yè)泡沫都已顯現(xiàn)。這背后，限制GPT進(jìn)行平臺型商業(yè)化的根源究竟是什么？

　　在今年上半年推出的《再訪硅谷：生成式AI隨處可見，VC開始關(guān)注國家安全類項(xiàng)目丨華映資本全球化觀察》中，我們介紹了在生成式AI的浪潮之中，硅谷在Agent、具身、算力、無人駕駛等領(lǐng)域的發(fā)展情況，也提到華映關(guān)注“有底座大模型算法能力的垂直整合應(yīng)用層公司”，當(dāng)時(shí)華映資本已預(yù)見了“應(yīng)用方數(shù)據(jù)難整合”將是“GPT平臺型商業(yè)化”的底層制約。

　　以下我們將結(jié)合近期在硅谷深入走訪當(dāng)?shù)囟辔淮竽Ｐ蛷臉I(yè)者后總結(jié)的大量心得，繼續(xù)對大模型創(chuàng)業(yè)、投資的困局以及潛在破局方案進(jìn)行更詳細(xì)拆解。

　　文章篇幅較長，請參考以下目錄：

　　文章導(dǎo)讀

　　⊙AI投資邏輯困局

　　應(yīng)用場景派

　　底層技術(shù)派

　　⊙技術(shù)和商業(yè)化路線困局

　　人工智能產(chǎn)業(yè)化的本質(zhì)

　　數(shù)據(jù)困局

　　算力困局

　　⊙潛在破局方案

　　借鑒互聯(lián)網(wǎng)時(shí)代的思考

　　短期投資策略

　　長期可能演變

　　⊙總結(jié)

　　筆者為華映資本海外合伙人、北大計(jì)算機(jī)學(xué)士及美國南加大多智能體(Agent)方向博士，Robocup冠軍隊(duì)成員、騰訊云計(jì)算早期T4專家級架構(gòu)師。本文既非學(xué)術(shù)論文、也非商業(yè)行研報(bào)告，而是以一個(gè)AI學(xué)界出身、親歷硅谷多周期的投資人視角分析現(xiàn)況和預(yù)測趨勢。觀點(diǎn)可能存在很多反共識之處，未必正確，但希望這些視角能對您有所啟發(fā)。同時(shí)，硅星人駐硅谷資深記者Jessica對本文內(nèi)容亦有貢獻(xiàn)。

　　01、AI投資邏輯困局

　　目前AI領(lǐng)域投資人以及創(chuàng)業(yè)者(尤其在國內(nèi))主要分成下面兩個(gè)"流派":

　　>>>> 應(yīng)用場景派

　　持這個(gè)觀點(diǎn)的投資人，其投資標(biāo)的是依靠對底座模型的調(diào)用實(shí)現(xiàn)垂直行業(yè)大模型商業(yè)化的公司，創(chuàng)始人通常是場景側(cè)或產(chǎn)品背景，對于底座模型的深入理解并非必要。在做該種投資選擇時(shí)，需要應(yīng)對以下問題的挑戰(zhàn)：

　　1. 預(yù)測LLM能推動應(yīng)用場景爆發(fā)的底層driver究竟是什么;

　　2. 這個(gè)driver是否能持續(xù)、未來發(fā)展走向是什么;

　　3. 應(yīng)用的全面爆發(fā)需要經(jīng)歷哪些milestones。

　　如果投資人對以上問題沒有完全自洽的解答，盲目樂觀押注應(yīng)用場景的爆發(fā)，將催生投資和創(chuàng)業(yè)的泡沫。

　　>>>> 底層技術(shù)派

　　持這個(gè)觀點(diǎn)的VC或創(chuàng)業(yè)者更聚焦底座大模型，即底層平臺，認(rèn)為未來一切都由AI平臺驅(qū)動，所以不太糾結(jié)上層應(yīng)用。這些大模型平臺公司目前普遍遇到下面幾個(gè)瓶頸：

　　1. 上層殺手級應(yīng)用遲遲未出現(xiàn)，很多時(shí)候需要底座公司親自下場去場景側(cè)做定制化交付和實(shí)施;應(yīng)用少也造成數(shù)據(jù)閉環(huán)無法形成;

　　2. 上層應(yīng)用門檻薄，上下兩層之間的邊界不清晰，底座的版本更新會“不小心”碾壓上層應(yīng)用，如GPT-3.5更新至GPT-4后對Jasper的碾壓;

　　3. 訓(xùn)練數(shù)據(jù)開始"枯竭"， Scaling law面臨停滯;

　　4. 大模型平臺公司對算力越來越依賴，成為"金錢的游戲"。

　　前兩條其實(shí)也恰是應(yīng)用場景派遇到的根本問題，當(dāng)下在上層應(yīng)用遲未爆發(fā)、甚至業(yè)界無法預(yù)測爆發(fā)時(shí)間點(diǎn)及爆發(fā)所需經(jīng)歷milestones的背景下，上述兩類投資方法論暫時(shí)未能奏效。

　　事實(shí)上這兩種"流派"的區(qū)分，恰恰是受互聯(lián)網(wǎng)時(shí)代的公司可以清晰切分為"互聯(lián)網(wǎng)應(yīng)用"和"互聯(lián)網(wǎng)平臺"上下兩層的思維慣性所影響，但大模型在當(dāng)前并沒有到達(dá)互聯(lián)網(wǎng)時(shí)代這個(gè)"分層解耦"的階段，所以這兩個(gè)流派的劃分本身就值得商榷。

　　02、技術(shù)和商業(yè)化路線困局

　　>>>> 人工智能產(chǎn)業(yè)化的本質(zhì)

　　要破解上文提到的諸多疑問，我們必須先從理解大模型乃至整個(gè)人工智能浪潮的本質(zhì)開始。廣義的人工智能在1956年的達(dá)特茅斯會議即宣告誕生，但AI真正的產(chǎn)業(yè)化直到2012年左右AlexNet的出現(xiàn)才實(shí)現(xiàn)。AI產(chǎn)業(yè)化主要經(jīng)歷了下面兩個(gè)階段：

　　1. AI 1.0 深度學(xué)習(xí)(2012年AlexNet引發(fā))：深度學(xué)習(xí)算法將海量數(shù)據(jù)進(jìn)行訓(xùn)練后輸出模型，來替代計(jì)算機(jī)科學(xué)幾十年來積累的算法和規(guī)則，從而*次實(shí)現(xiàn)產(chǎn)業(yè)化。深度學(xué)習(xí)的大規(guī)模應(yīng)用是“產(chǎn)業(yè)化AI”的本質(zhì)，也是“數(shù)據(jù)定義生產(chǎn)力”的開始。

　　2. AI 2.0 大語言模型(2022年GPT3.5引發(fā))：深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)合多頭自注意力(Transformer)，并運(yùn)用decoder only和自回歸機(jī)制，更大數(shù)據(jù)集帶來更大參數(shù)量模型的通用能力涌現(xiàn)，實(shí)現(xiàn)了Scaling Law。

　　這兩個(gè)AI產(chǎn)業(yè)化階段的最根本點(diǎn)是：第一次制造了對于數(shù)據(jù)和算力的充分應(yīng)用和依賴。針對這一點(diǎn)，我們快速對比一下互聯(lián)網(wǎng)和AI這兩次大的浪潮：

　　以上這些是LLM之所以能推動應(yīng)用場景爆發(fā)的底層driver，但同時(shí)也制造了極大的門檻和困局。

　　>>>> 數(shù)據(jù)困局

　　我們先聚焦在數(shù)據(jù)這個(gè)維度，一個(gè)可以達(dá)成的共識是：自稱“AI驅(qū)動”的企業(yè)都必須擁有足夠的私有數(shù)據(jù)，才有足夠的護(hù)城河。只依靠調(diào)用底座模型而不掌握也不積累私有數(shù)據(jù)的“AI公司”，即便直接調(diào)用API的短期效果很好，也并不具備長期價(jià)值。GPTs和類Jasper公司的快速衰敗已證實(shí)了這點(diǎn)。

　　那些聲稱擁有數(shù)據(jù)的AI公司，也經(jīng)常被數(shù)據(jù)的雙刃劍困擾，即數(shù)據(jù)作為優(yōu)勢的同時(shí)也會制造瓶頸。針對這些公司我們須先問下面的問題：

　　1. 當(dāng)前掌握的私有數(shù)據(jù)從何而來，數(shù)據(jù)量多大，是否有足夠的“私有門檻”;

　　2. 私有數(shù)據(jù)清洗、抽取的成本是多大;

　　3. 清洗后的數(shù)據(jù)如何訓(xùn)練進(jìn)入到垂直模型，從而推動底座模型在垂直領(lǐng)域進(jìn)一步提高能力，推進(jìn)Scaling law。

　　不能完整回答以上問題的“AI公司”，都面臨長期價(jià)值主張是否成立的風(fēng)險(xiǎn)。但即便能滿足這些條件的垂直領(lǐng)域公司，又會面對以下挑戰(zhàn)：

　　1. 用戶的私有數(shù)據(jù)和底座模型的預(yù)訓(xùn)練數(shù)據(jù)在最終效果呈現(xiàn)的歸因上無法輕易解耦，應(yīng)用層和平臺層雙方核心價(jià)值的邊界不清晰。這個(gè)“緊耦合”同時(shí)也體現(xiàn)到了出現(xiàn)差錯之后責(zé)任的切分上;

　　2.用戶的私有數(shù)據(jù)在推動底座模型在垂直領(lǐng)域繼續(xù)出現(xiàn)能力涌現(xiàn)的持續(xù)成本過于高昂。最直接的成本來自于數(shù)據(jù)清洗成本和算力搭建、運(yùn)營成本。

　　*大模型的應(yīng)用場景客戶類型

　　我們先來看LLM的四類典型應(yīng)用場景的用戶，以及他們?nèi)绾卫盟接袛?shù)據(jù)：

　　1. C端終端用戶：直接和GPT聊天，或者運(yùn)用簡單提示詞工程，這里可以看作也在通過提示詞使用自身一些簡單的用戶私有數(shù)據(jù);

　　2. B端終端客戶：直接調(diào)用LLM的API接口來運(yùn)用提示詞工程;或?qū)⑺接袛?shù)據(jù)向量化后存入向量DB，再做RAG;或通過微調(diào)生成一些特定下游任務(wù)模型。很多這類客戶反饋有不錯的效果。

　　3. B端服務(wù)實(shí)施公司：幫助上述B端客戶當(dāng)中不具備這些能力的公司來交付和部署這些流程，尤其是RAG和微調(diào)。

　　4. 純商業(yè)化產(chǎn)品公司：利用自身前期積累的垂直領(lǐng)域私有數(shù)據(jù)、在底座模型上生成垂直模型后，以標(biāo)準(zhǔn)化產(chǎn)品的形式服務(wù)自己的C端或者B端客戶，獲得商業(yè)化回報(bào)。

　　前面三類LLM的應(yīng)用場景事實(shí)上都實(shí)現(xiàn)了不錯的效果和商業(yè)化，也是OpenAI及類似底座模型企業(yè)商業(yè)化的主體。但這些并不能支撐LLM需要完成的平臺性的商業(yè)化生態(tài)。只有當(dāng)?shù)?類公司大規(guī)模出現(xiàn)之后，LLM的平臺性質(zhì)的商業(yè)化才能真正爆發(fā)。嚴(yán)格來說，第4類公司里面有一部分是現(xiàn)有的成熟階段公司，如Adobe、Salesforce、Netflix等，他們借助LLM的能力提升了原來的產(chǎn)品，從而更好的服務(wù)了自己的客戶。對比互聯(lián)網(wǎng)時(shí)代，它們更類似之前的線下零售公司如蘇寧、借助互聯(lián)網(wǎng)建立了蘇寧網(wǎng)購。但我們更傾向把他們歸到第2類公司。

　　我們真正期待的是：與當(dāng)年互聯(lián)網(wǎng)時(shí)代的Amazon和淘寶這類新型純互聯(lián)網(wǎng)零售企業(yè)對應(yīng)的AI時(shí)代的“原生應(yīng)用”企業(yè)開始涌現(xiàn)。這樣才能推動AI應(yīng)用的大潮�？上У氖�，目前從這類AI原生應(yīng)用公司的終端客戶的使用度上判斷，并沒有看到規(guī)�；嫩E象，因而業(yè)界不斷有“大模型是否到了瓶頸或者泡沫化”的討論。

　　*垂直行業(yè)企業(yè)私有數(shù)據(jù)暫未被充分利用

　　聚焦上面列舉的所有B端公司，尤其是眾多垂直行業(yè)的企業(yè)，如金融、醫(yī)療、法律、教育、媒體、旅游，制造業(yè)等。無疑這些垂直領(lǐng)域的眾多企業(yè)已經(jīng)擁有大量歷史積累的私有數(shù)據(jù)，即企業(yè)自有數(shù)據(jù)或?qū)I(yè)的行業(yè)數(shù)據(jù)。而這些私有數(shù)據(jù)是否有效獲得充分利用，將極為關(guān)鍵。

　　鑒于上文闡述的AI產(chǎn)業(yè)化的實(shí)質(zhì)，數(shù)據(jù)運(yùn)用已經(jīng)成為大模型時(shí)代scaling law延續(xù)的基石，這點(diǎn)與AI之前的時(shí)代形成了鮮明分界。因此我們對于私有數(shù)據(jù)是否得到充分利用的定義是數(shù)據(jù)能否幫助推動scaling law，即能否持續(xù)促進(jìn)最終大模型的能力涌現(xiàn)。這里依次探討一下當(dāng)前幾種私有數(shù)據(jù)主流運(yùn)用方法的實(shí)質(zhì)和現(xiàn)況：

　　丨提示詞工程、上下文學(xué)習(xí)

　　這些數(shù)據(jù)運(yùn)用方法在C端以及小B應(yīng)用里面占很大比例，實(shí)質(zhì)上都可以歸結(jié)為簡單或高級的API調(diào)用。推動底座參數(shù)能力scaling law的力度有限。

　　丨RAG(檢索增強(qiáng)生成)

　　是目前利用大部分企業(yè)私有數(shù)據(jù)事實(shí)上的最普遍實(shí)踐。其實(shí)質(zhì)是檢索加上極其復(fù)雜的上下文學(xué)習(xí)。有時(shí)會結(jié)合Langchain等編排以及Agent智能體的方法，如微軟的GraphRAG等。RAG要真正運(yùn)用好的技術(shù)門檻其實(shí)比大部分純應(yīng)用公司能承受的水平要高，很多會涉及底座模型的細(xì)節(jié)，所以現(xiàn)在經(jīng)常依靠第三方服務(wù)公司去完成。

　　同時(shí)業(yè)界關(guān)于RAG是否能最終推動scaling law也有很多爭論，筆者傾向于借用很多之前文獻(xiàn)里關(guān)于“學(xué)生參加開卷考試”的比喻：一位本科學(xué)生參加法學(xué)考試，但他從未學(xué)習(xí)過法學(xué)院的課本，考試時(shí)在他面前放了一堆可隨時(shí)查閱的法律書籍，同時(shí)教會他一套極其復(fù)雜的查閱(檢索)的方法，學(xué)生不需要都記住這些書里信息，只需遇到法律問題時(shí)隨時(shí)查閱就能給出不錯的答案。但這整個(gè)過程是否真正讓他擁有了法學(xué)院學(xué)生的能力并持續(xù)提升、即推進(jìn)了scaling law，值得探討。

　　丨微調(diào)

　　企業(yè)客戶基于底座模型做微調(diào)的效果在業(yè)界并沒有共識，很多從業(yè)者反饋效果不錯，也有不少反饋風(fēng)險(xiǎn)大且效果未必好，目前觀察到的事實(shí)是微調(diào)在企業(yè)場景應(yīng)用實(shí)踐少于RAG，并且技術(shù)門檻相比RAG更高，尤其在RM (獎勵模型) 和 PPO(近端策略優(yōu)化) 方面，甚至幾乎需要有很強(qiáng)底座模型經(jīng)驗(yàn)的團(tuán)隊(duì)參與。

　　回顧歷史， Google早期的BERT架構(gòu)就定義了“通用任務(wù)預(yù)訓(xùn)練+下游任務(wù)微調(diào)”的流程，效果很好;進(jìn)入GPT時(shí)代后，該架構(gòu)得到延續(xù)，但因底座模型加大，微調(diào)成本升高，破壞底座能力(遺忘)的風(fēng)險(xiǎn)增加，所以O(shè)penAI主要用它結(jié)合垂直領(lǐng)域的人類監(jiān)督數(shù)據(jù)來做對齊微調(diào)：SFT， RLHF(包括RM、PPO)等，來消除有害、誤導(dǎo)或偏見性表述，對齊本領(lǐng)域的價(jià)值觀和偏好。延用上文關(guān)于學(xué)生的比喻，這類對齊式的微調(diào)有點(diǎn)類似于想讓本科畢業(yè)生盡快進(jìn)入律所工作，但并非用法學(xué)院深造來增加他們的法律專業(yè)知識，而只是通過密集的上崗培訓(xùn)來讓他們具備法務(wù)的話術(shù)和基本素質(zhì)。

　　至于其他更多各類的微調(diào)方法，實(shí)際運(yùn)用案例似乎并不多，技術(shù)實(shí)現(xiàn)也常陷入矛盾：一方面想改動一些底座的網(wǎng)絡(luò)參數(shù)，一方面又不敢動太多參數(shù)而損失底座的通用能力，這個(gè)尺度如果不是底座模型團(tuán)隊(duì)自己，其他人可能都很難掌握。全量參數(shù)“微調(diào)”已經(jīng)接近下文提及的重新訓(xùn)練，風(fēng)險(xiǎn)和成本都增加;而無論是凍結(jié)還是低秩適應(yīng)(LoRA)的方法，目前也都無法完全避免風(fēng)險(xiǎn)。事實(shí)上即便只做對齊微調(diào)，能做到最安全且最優(yōu)效果的可能也還是對底座模型實(shí)現(xiàn)非常熟悉的團(tuán)隊(duì)。

　　丨Agent

　　大范疇上可歸類于后訓(xùn)練的高級手段，其中包含Langchain等編排同時(shí)結(jié)合反思、規(guī)劃、記憶、工具使用、協(xié)同等產(chǎn)生LLM多次調(diào)用的方法，以及包括進(jìn)階RAG里面運(yùn)用的諸多手段。Agent無疑是未來趨勢，但運(yùn)用尚在早期，有待進(jìn)一步深化探索。目前無論理論還是實(shí)踐上，都還暫難證明是否分解多步驟后對LLM的系統(tǒng)性反復(fù)調(diào)用(multi shot) 就能讓底座LLM延續(xù)scaling law，尤其是如何讓私有數(shù)據(jù)更好地貢獻(xiàn)于這個(gè)延續(xù)，尚不清晰。

　　丨重新預(yù)訓(xùn)練、繼續(xù)訓(xùn)練

　　企業(yè)直接用自己的私有數(shù)據(jù)結(jié)合底座模型來重新訓(xùn)練自己的垂直模型，這在目前看顯然最不實(shí)際，因此在普通企業(yè)用戶里面運(yùn)用的案例無疑最少，除了算力和成本因素外，還有以下原因：

　　· 重新訓(xùn)練的私有數(shù)據(jù)和通用數(shù)據(jù)集的量與質(zhì)量的配比很難掌握，這是底座大模型廠商的最核心秘密和護(hù)城河。配比不正確，訓(xùn)練后模型的通用能力會大幅下降(災(zāi)難性遺忘)。對于繼續(xù)訓(xùn)練，也需要去猜測底座模型用的通用數(shù)據(jù)集以及他們預(yù)訓(xùn)練到達(dá)的checkpoint等。Bloomberg運(yùn)用自身大規(guī)模私有金融數(shù)據(jù)重新預(yù)訓(xùn)練出來了垂直金融大模型BloombergGPT，但效果不佳，使用度很低，大概率是這個(gè)原因;

　　· 沒有企業(yè)客戶愿意直接把自己的私有數(shù)據(jù)直接拱手獻(xiàn)給底座大模型公司去合作預(yù)訓(xùn)練。甚至很多本身擁有底座模型的巨頭的內(nèi)部應(yīng)用產(chǎn)品部門也不愿意內(nèi)部貢獻(xiàn)這些數(shù)據(jù)。

　　盡管業(yè)界有觀點(diǎn)認(rèn)為企業(yè)用私有數(shù)據(jù)重新訓(xùn)練相對RAG和微調(diào)優(yōu)勢并不大，但應(yīng)該無人完全否定這個(gè)優(yōu)勢。尤其當(dāng)企業(yè)和底座模型側(cè)能充分合作、即數(shù)據(jù)、訓(xùn)練算法乃至團(tuán)隊(duì)充分互通的時(shí)候，優(yōu)勢還是具備的。然而如何能規(guī)模性地達(dá)成這種理想化合作而消除上述的割裂，正是GPT類底座公司真正商業(yè)化的難題：

　　·垂直行業(yè)企業(yè)：擁有大量垂類數(shù)據(jù)，但對底座模型的訓(xùn)練算法、數(shù)據(jù)集乃至預(yù)訓(xùn)練到達(dá)的checkpoint都不了解;

　　·底座模型公司：難以觸達(dá)和獲取所有企業(yè)客戶的垂類數(shù)據(jù)。

　　因此擁有數(shù)據(jù)的場景方和擁有訓(xùn)練算法的底座方在實(shí)踐中產(chǎn)生了割裂，大模型技術(shù)棧的上下兩層不僅沒有相互促進(jìn)而產(chǎn)生飛輪效應(yīng)，反而互為制約。

　　企業(yè)私有數(shù)據(jù)無法完全參與底座大模型的繼續(xù)訓(xùn)練，是造成“數(shù)據(jù)不足”困境的重要原因。一方面抱怨預(yù)訓(xùn)練數(shù)據(jù)“枯竭”，一方面又不能充分利用垂直行業(yè)的私有數(shù)據(jù)，是當(dāng)下類GPT架構(gòu)的一大遺憾。盡管業(yè)界也有大量對合成數(shù)據(jù)或仿真數(shù)據(jù)的探索，但其成本控制和輸出質(zhì)量都仍處于早期。過度注重成本高且質(zhì)量參差的合成數(shù)據(jù)而放棄已有的大規(guī)模垂直行業(yè)數(shù)據(jù)的做法也值得深思。

　　綜上所述，GPT定義的主流“底座預(yù)訓(xùn)練 + 私有數(shù)據(jù)RAG或微調(diào)”的架構(gòu)暫時(shí)無法推動更大涌現(xiàn)。垂直應(yīng)用場景企業(yè)的私有數(shù)據(jù)尚未能充分貢獻(xiàn)于scaling law進(jìn)程，這是大模型目前未觸發(fā)大規(guī)模落地應(yīng)用的核心根源之一。

　　>>>> 算力困局

　　為打破英偉達(dá)顯卡帶來的高額算力成本投入的僵局，很多下游行業(yè)玩家推出“垂直行業(yè)小模型”或者“端側(cè)小模型”，但可惜在技術(shù)路線上很難真正有捷徑可走。這些小模型，除了通過RAG或者微調(diào)生成的模型、也包括大模型蒸餾后的小模型，即用大模型生產(chǎn)數(shù)據(jù)去訓(xùn)練出的模型，以及對大模型裁剪、壓縮、剪枝后的模型。他們都有一個(gè)共同點(diǎn)：起點(diǎn)和核心價(jià)值仍在大模型上。

　　除了上述這些之外，產(chǎn)業(yè)實(shí)踐中也還存在以下類型的小模型：

　　·基于非GPT、或非Transformer架構(gòu)的模型網(wǎng)絡(luò)，如BERT、CNN、RNN、Diffusion以及RL等;

　　·其他更傳統(tǒng)的非深度學(xué)習(xí)、甚至基于規(guī)則的“模型”。

　　這些小模型可看作是針對大量細(xì)節(jié)長尾下游場景的特殊處理，更多仍需要對位于中心的大模型去輔助展開，超額價(jià)值目前有限，其真正價(jià)值仍聚集于大模型。這里借用張宏江博士在騰訊深網(wǎng)的訪談里對于“小模型”的論述：

　　應(yīng)該先“把大模型的性能做好，才能真正出現(xiàn)涌現(xiàn)”，再“通過蒸餾的方法和持續(xù)學(xué)習(xí)的方法把它做小，而不是一開始就做個(gè)小模型”。

　　03、潛在破局方案

　　>>>> 借鑒互聯(lián)網(wǎng)時(shí)代的思考

　　為進(jìn)一步思考上文提及的技術(shù)棧無法解耦和分工的根本現(xiàn)象，我們再回顧一下互聯(lián)網(wǎng)的歷史。我們比較習(xí)慣提的互聯(lián)網(wǎng)，事實(shí)上是從1994年瀏覽器的出現(xiàn)開始的“Web互聯(lián)網(wǎng)”，而廣義的互聯(lián)網(wǎng)早在1970到80年代就已經(jīng)出現(xiàn)，最早的形態(tài)是FTP、Rlogin、Telnet以及Email電郵等“垂直整合應(yīng)用”的產(chǎn)品形態(tài)。直到Web和瀏覽器作為平臺(下圖中的綠色框) 出現(xiàn)之后，大量類似Yahoo等基于網(wǎng)頁形式的純應(yīng)用才真正與底層解耦，從而相繼在各個(gè)垂直行業(yè)爆發(fā)，如零售行業(yè)的Amazon、旅游行業(yè)的Expedia、媒體行業(yè)的Netflix等等。

　　到了大模型時(shí)代，我們*看到的也是ChatGPT、Claude、Character。AI、Sora等“垂直整合應(yīng)用”的產(chǎn)品形態(tài)，但由于前文提到的私有數(shù)據(jù)運(yùn)用的困局，底層平臺和上層應(yīng)用充分解耦的階段其實(shí)尚未降臨。LLM大模型時(shí)代的平臺(下圖中的淺綠色框)尚未出現(xiàn)。

　　我們這里所說的平臺更準(zhǔn)確地應(yīng)稱為“操作系統(tǒng)(OS)”。OS的核心功能就是隔離上層應(yīng)用和下層技術(shù)細(xì)節(jié)，讓應(yīng)用公司可以聚焦產(chǎn)品和運(yùn)營、從而規(guī)�；瘜�(shí)現(xiàn)落地和商業(yè)化。OS的具體例子就是互聯(lián)網(wǎng)時(shí)代的瀏覽器、PC時(shí)代的Windows、以及移動時(shí)代的IOS和安卓。OS與思科這樣的基礎(chǔ)設(shè)施(Infra)的核心區(qū)別是：Infra的實(shí)質(zhì)是工具，它無法將應(yīng)用層與底層有效切分出來;Infra的調(diào)用者往往還是需要對下層技術(shù)有深刻的理解，才能將工具運(yùn)用的好;所以Infra自身無法催生大規(guī)模應(yīng)用生態(tài)。OpenAI與它的同行們誤認(rèn)為自己創(chuàng)造了類似蘋果這樣的的平臺即OS，但事實(shí)上只是創(chuàng)造了類似思科的Infra。相比互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的進(jìn)程，可以說大模型還處在“前瀏覽器或前IOS時(shí)代”。

　　我們認(rèn)為大模型時(shí)代和互聯(lián)網(wǎng)時(shí)代類似，也會經(jīng)歷以下三個(gè)發(fā)展階段(盡管每個(gè)階段的歷時(shí)可能與互聯(lián)網(wǎng)不盡相同)：

　　·階段一：B/C端用戶直接使用大模型;

　　·階段二：出現(xiàn)各種垂直整合的大模型商業(yè)化應(yīng)用;

　　·階段三：上層商業(yè)化應(yīng)用和底層平臺充分解耦，落地應(yīng)用爆發(fā)，底座模型規(guī)模性變現(xiàn)。

　　當(dāng)前我們處在的是“階段一”已經(jīng)完成、“階段二”剛剛開始的過渡時(shí)期。

　　>>>> 短期投資策略

　　*“垂直整合應(yīng)用派”

　　綜合以上結(jié)論：大模型當(dāng)下的技術(shù)生態(tài)架構(gòu)尚未到達(dá)互聯(lián)網(wǎng)成熟時(shí)期的清晰分層階段，互聯(lián)網(wǎng)當(dāng)年的“應(yīng)用場景驅(qū)動”的投資邏輯暫時(shí)難以套用。在此背景下，我們將建議“第三種流派”的投資邏輯，即聚焦既非純應(yīng)用場景、也非純底座模型的公司，而是“垂直整合應(yīng)用”公司。這類第三種公司的完整定義是：

　　具備底座大模型算法能力、但放棄做通用底層平臺的端到端的垂直整合應(yīng)用。

　　所有這三種類型的公司有可能會分別出現(xiàn)如下的發(fā)展：

　　丨應(yīng)用場景公司

　　這類應(yīng)用公司在大模型時(shí)代的創(chuàng)業(yè)壁壘會遠(yuǎn)高于互聯(lián)網(wǎng)時(shí)代，可能很難保持在純應(yīng)用的形態(tài)：

　　1. 須將擁有私有數(shù)據(jù)作為先決條件，并有能力后期持續(xù)積累數(shù)據(jù)。互聯(lián)網(wǎng)時(shí)代應(yīng)用公司強(qiáng)調(diào)的“飛輪”效應(yīng)，在大模型時(shí)代必須包含私有數(shù)據(jù)的參與，這成為飛輪形成前“冷啟動”的最大門檻;

　　2. 須技術(shù)棧下沉，不斷拓展底座模型算法能力，持續(xù)將私有數(shù)據(jù)訓(xùn)練進(jìn)應(yīng)用側(cè)模型，在垂直領(lǐng)域推動scaling law。

　　正因?yàn)榇�，對�?ldquo;應(yīng)用場景驅(qū)動”的投資機(jī)構(gòu)而言，判斷應(yīng)用公司投資價(jià)值的門檻也大大提高，即不僅要判斷創(chuàng)始人的垂直領(lǐng)域經(jīng)驗(yàn)和產(chǎn)品能力，還要深入考察他們獲取、清洗數(shù)據(jù)的能力，以及將這些數(shù)據(jù)訓(xùn)練到垂直行業(yè)模型的底座技術(shù)的水平。

　　丨底座模型公司

　　對于類OpenAI的底座模型公司、包括開源和閉源的公司，如Anthropic、Llama、Mistral、智譜、Kimi等，我們預(yù)測它們還會繼續(xù)迭代模型從而延續(xù)scallinglaw，比如OpenAI最新的o1模型等。但這些迭代仍只會延續(xù)超級App的產(chǎn)品形態(tài)而無法短期成為底層平臺。

　　對于這類公司，盡管短期探索平臺型商業(yè)化面臨難度，但若放棄作為通用平臺的訴求，鎖定一個(gè)垂直領(lǐng)域?qū)Ｐ乃鸭诡悢?shù)據(jù)、從而訓(xùn)練出真正的垂直整合大模型的空間會更大。這對于OpenAI也許無法支撐目前估值，但對于其他估值略低的底座大模型玩家應(yīng)該是可行出路。我們看到已經(jīng)有不少這類公司在做類似的聚焦轉(zhuǎn)型，但如果不能真正放棄想成為底層平臺去賦能應(yīng)用的述求，仍將陷入上述的數(shù)據(jù)困局。

　　丨垂直整合應(yīng)用公司

　　這個(gè)第三種路徑對于完全初創(chuàng)的企業(yè)顯然是非常高成本高風(fēng)險(xiǎn)的，很難一蹴而就，因而可以考慮采用下面的三個(gè)循序漸進(jìn)的步驟：

　　·步驟一：利用私有數(shù)據(jù)基于底座模型API加RAG搭建初始原型(同時(shí)全力融資和囤GPU);

　　·步驟二：基于底座模型結(jié)合微調(diào)和Agent等方法提高模型能力(同時(shí)全力融資和囤GPU);

　　·步驟三：利用更多私有數(shù)據(jù)開始做繼續(xù)訓(xùn)練或者重新預(yù)訓(xùn)練(繼續(xù)全力融資和囤GPU)。

　　在硅谷，“垂直整合應(yīng)用”公司占到了VC投資的很大比例，如Cohere(企業(yè)大模型)、Harvey(AI法律大模型)、Perplexity(AI搜索)、EurekaLabs(AI教育)、Augment(AI編程)、HolisticAI(AI企業(yè)管治SaaS)，等都近期獲得不錯融資。這些公司的創(chuàng)始人都是來自如Transformer作者、OpenAI、Deepmind、Meta等頭部底座模型背景、并深耕各自不同垂直場景。

　　紅杉在2023年9月題為“Generative AI's Act Two”的博客里面也提到“Vertical separation hasn't happened yet”的說法，時(shí)間過去一年，我們認(rèn)為這個(gè)“separation”依然沒有發(fā)生，并因?yàn)樯厦嫣岬降臄?shù)據(jù)強(qiáng)耦合等原因，紅杉博客原文說的“vertically integrated”還會是個(gè)常態(tài)。

　　在中國國內(nèi)，這個(gè)類型的公司還比較少，核心原因在于具備底層模型能力的團(tuán)隊(duì)極其稀缺，但具備這些能力的團(tuán)隊(duì)又都執(zhí)著于做底層平臺的述求。隨著幾家頭部模型公司(包括互聯(lián)網(wǎng)大廠的底座模型團(tuán)隊(duì))相繼遇到上述瓶頸，它們中的一些核心技術(shù)人員會開始獨(dú)立創(chuàng)辦“垂直整合應(yīng)用”公司;同時(shí)有幾家頭部底座模型公司自己也在轉(zhuǎn)型到垂直整合場景，比如百川的醫(yī)療大模型、及零一的BeaGo等。

　　總結(jié)上文提到的大模型商業(yè)化的三個(gè)時(shí)期及當(dāng)前可能的三個(gè)發(fā)展步驟如下圖，上述所有這些中美的“垂直整合應(yīng)用”公司也都各自處于三個(gè)步驟的不同時(shí)間點(diǎn)。

　　#FormatImgID_3#

　　*多模態(tài)和具身智能

　　在投資上述“垂直整合應(yīng)用”之外，多模態(tài)和具身智能(多模態(tài)的一種形式)也是值得關(guān)注的投資方向。盡管它們更多是感知而非基礎(chǔ)能力的提升，自身要超越純語言大模型(LLM)而更快實(shí)現(xiàn)scaling law可能較難，但在純語言大模型的生態(tài)建立遇到瓶頸之時(shí)，或許可以探索平行于語言模型的算法架構(gòu)及數(shù)據(jù)棧型式來搭建第三方生態(tài)。篇幅關(guān)系，這里不做展開。

　　*完整技術(shù)棧、Infra、芯片

　　今天的深度學(xué)習(xí)和LLM的高速演進(jìn)，仍然只是整個(gè)計(jì)算機(jī)科學(xué)技術(shù)棧的一個(gè)板塊，而完整技術(shù)棧的所有模塊都在被LLM牽動著產(chǎn)生顛覆式的迭代。所以大量的機(jī)會將來自看似不是AI自身的技術(shù)棧的其他角落，包括：

　　· Infra：包括底座模型自身，以及其他各層的Ops、各類toolchain，等等。華映資本兩家被投公司星塵和天云數(shù)據(jù)，就是Data Infra的典型代表，目前與硅谷很多DataOps公司一樣也都在積極做更適合AI 2.0的新興數(shù)據(jù)棧的前沿探索。

　　· 芯片：是解決算力困局的終極手段。當(dāng)前主流GPT架構(gòu)之下日益攀高的算力成本壓力和單一供應(yīng)商依賴造成的焦慮，將幫助新型GPU公司突破英偉達(dá)的CUDA設(shè)定的禁區(qū)，從而在某些領(lǐng)域顛覆英偉達(dá)的壟斷。

　　但上述兩種機(jī)會都伴隨一個(gè)巨大的前提：不論是Infra還是AI芯片創(chuàng)業(yè)的創(chuàng)業(yè)者，都需要對底座大語言模型自身有相當(dāng)深入的理解和經(jīng)驗(yàn)。這點(diǎn)與之前對于應(yīng)用層創(chuàng)業(yè)的要求事實(shí)上是一致的。

　　>>>> 長期可能演變

　　OpenAI要突破當(dāng)前的“泡沫”焦慮，需要重點(diǎn)攻關(guān)的不僅是如何不斷提高自己底座語言模型的能力，更是如何通過改進(jìn)后的技術(shù)架構(gòu)和商業(yè)生態(tài)，讓其他擁有數(shù)據(jù)的第三方應(yīng)用場景方盡可能參與到scaling law的進(jìn)程中來。大模型技術(shù)棧發(fā)展依舊在一日千里，上文提及的很多擔(dān)憂和“泡沫”有可能因?yàn)槟承┩黄贫玫揭欢ɑ狻Ｒ韵潞唵瘟谐龉P者有限思考后的可能性以及各自的挑戰(zhàn)：

　　*新的后訓(xùn)練(Post-training)方法出現(xiàn)與持續(xù)優(yōu)化

　　· RL(強(qiáng)化學(xué)習(xí))：OpenAI剛發(fā)布不久的o1的Self-Play RL在繼續(xù)推進(jìn)scalinglaw，但它自己也提到了關(guān)于RL作為推理階段的scaling law和與預(yù)訓(xùn)練階段的scaling law具有不同特性，甚至是否能將之稱為RL的scaling law也有爭議。但總之OpenAI的o1單方面推動底座推理能力的嘗試只是剛起步，暫時(shí)無法讓擁有大量私有數(shù)據(jù)的場景端客戶參與進(jìn)來、并長期受益。后訓(xùn)練潛在是可以offload給下游客戶結(jié)合自己的私有數(shù)據(jù)來進(jìn)行的，但目前o1也還未能讓第三方復(fù)現(xiàn)。但即便能以某種形式開放出來、交給下游客戶去持續(xù)進(jìn)行RL算法更新，這樣做之后，只會讓客戶參與門檻相比之前用RAG和微調(diào)等主流的后訓(xùn)練方法還要更高。

　　· RAG：如端到端的RAG、基于RAG的預(yù)訓(xùn)練模型等都是非常有益的嘗試。但這類方法論也更驗(yàn)證了筆者前文闡述的“即便做RAG也要從理解底座預(yù)訓(xùn)練模型開始”的觀點(diǎn)。

　　· Agent：如上文所述，智能體的探索具備巨大空間和機(jī)會，但如何最大化融入用戶側(cè)的私有數(shù)據(jù)仍然是課題之一。

　　*預(yù)訓(xùn)練及推理成本和門檻大大降低

　　一方面算力層面即GPU芯片的突破，一方面是訓(xùn)練和推理的優(yōu)化加速及工程化的進(jìn)步。除此之外還有第三種可能，盡管前文重點(diǎn)提及的都是“AI三要素”當(dāng)中的數(shù)據(jù)和算力的困局，但其實(shí)訓(xùn)練算法的突破和優(yōu)化仍可能是最終降低成本的最大推力，包括對自回歸機(jī)制甚至Transformer即注意力機(jī)制本身的優(yōu)化甚至重寫等等。

　　*徹底改變預(yù)訓(xùn)練+后訓(xùn)練的模式

　　前兩種方法都在試圖拓展OpenAI既定路線的上升空間，但想徹底改變這個(gè)路線的難度顯然要大很多。但當(dāng)初投OpenAI的VC也未必料想到GPT路線可以從彼時(shí)占主流統(tǒng)治地位的BERT路線分叉出來、而用decoder only等機(jī)制打開了scaling law的全新空間。在未來幾年之內(nèi)，某個(gè)從GPT路線的再次根本性架構(gòu)分叉，將會重復(fù)當(dāng)年OpenAI的成功，但這次顛覆對象是OpenAI自己，由此帶來的將是scaling law的又一次無比巨大的邁進(jìn)。

　　04、總結(jié)

　　本文內(nèi)容較多，我們最后歸納為以下核心兩點(diǎn)：

　　1.目前大模型的應(yīng)用層和底座層尚未解耦，所以投資策略不建議只看純應(yīng)用或者純底座模型，而可以暫時(shí)圍繞上下層垂直整合的應(yīng)用展開，同時(shí)需密切觀察、等待真正的平臺/操作系統(tǒng)的出現(xiàn);

　　2.應(yīng)用和底座模型層未解耦的根本原因之一是在于數(shù)據(jù)在技術(shù)棧內(nèi)的強(qiáng)耦合，包括預(yù)訓(xùn)練與后訓(xùn)練數(shù)據(jù)集、即底座模型數(shù)據(jù)與下游垂直數(shù)據(jù)的耦合，這個(gè)現(xiàn)況也是由人工智能即深度學(xué)習(xí)算法對數(shù)據(jù)依賴的本質(zhì)所派生的。這些強(qiáng)耦合目前制約了scaling law的發(fā)展和大模型的規(guī)�；虡I(yè)落地。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信