大模型行業(yè)泡沫正在顯現(xiàn)。
2022年誕生的ChatGPT,已經(jīng)在相當(dāng)程度上實(shí)現(xiàn)了大模型的Scaling law(尺度定律)和通用能力涌現(xiàn)。ChatGPT自身作為一個(gè)終端產(chǎn)品的商業(yè)化也持續(xù)有不錯進(jìn)展。據(jù)2024年7月的非公開數(shù)據(jù),OpenAI的ARR(年經(jīng)常性收入)已經(jīng)達(dá)到了相當(dāng)可觀的41億美元。
但這些收入都是在極度高昂的算力、研發(fā)和運(yùn)營成本基礎(chǔ)上實(shí)現(xiàn)的,而且細(xì)看最近OpenAI的發(fā)展,也很難稱得上“順利”。今年以來,包括聯(lián)創(chuàng)約翰·舒爾曼和伊利亞·蘇茨克沃在內(nèi)的多位核心高管已離開,9月下旬更是接連發(fā)生了首席技術(shù)官(CTO)米拉·穆拉蒂離職與蘋果退出參與其最新一輪融資談判的兩大事件。
在華映資本看來,只有當(dāng)GPT真正賦能所有上層垂直行業(yè)應(yīng)用場景,即實(shí)現(xiàn)所謂大規(guī)模落地實(shí)踐,以平臺形式實(shí)現(xiàn)商業(yè)化,OpenAI開創(chuàng)的LLM浪潮才算徹底到來。但當(dāng)前,無論是在to C還是to B側(cè),GPT都更像是一個(gè)超級APP,而非一個(gè)類似IOS的底層平臺。GPT插件和GPTs已經(jīng)證明了底座LLM不能簡單復(fù)制IOS的App Store。
雖然OpenAI剛發(fā)布的o1模型用self-play RL的方法將scaling law推到了一個(gè)新的層次,實(shí)現(xiàn)了更強(qiáng)的推理邏輯能力,但上述“平臺化瓶頸”并未得到根本改變。各垂直場景目前都尚未看到真正全面爆發(fā)的趨勢。無論是在創(chuàng)業(yè)還是投資層面,大模型行業(yè)泡沫都已顯現(xiàn)。這背后,限制GPT進(jìn)行平臺型商業(yè)化的根源究竟是什么?
在今年上半年推出的《再訪硅谷:生成式AI隨處可見,VC開始關(guān)注國家安全類項(xiàng)目丨華映資本全球化觀察》中,我們介紹了在生成式AI的浪潮之中,硅谷在Agent、具身、算力、無人駕駛等領(lǐng)域的發(fā)展情況,也提到華映關(guān)注“有底座大模型算法能力的垂直整合應(yīng)用層公司”,當(dāng)時(shí)華映資本已預(yù)見了“應(yīng)用方數(shù)據(jù)難整合”將是“GPT平臺型商業(yè)化”的底層制約。
以下我們將結(jié)合近期在硅谷深入走訪當(dāng)?shù)囟辔淮竽P蛷臉I(yè)者后總結(jié)的大量心得,繼續(xù)對大模型創(chuàng)業(yè)、投資的困局以及潛在破局方案進(jìn)行更詳細(xì)拆解。
文章篇幅較長,請參考以下目錄:
文章導(dǎo)讀
⊙AI投資邏輯困局
應(yīng)用場景派
底層技術(shù)派
⊙技術(shù)和商業(yè)化路線困局
人工智能產(chǎn)業(yè)化的本質(zhì)
數(shù)據(jù)困局
算力困局
⊙潛在破局方案
借鑒互聯(lián)網(wǎng)時(shí)代的思考
短期投資策略
長期可能演變
⊙總結(jié)
筆者為華映資本海外合伙人、北大計(jì)算機(jī)學(xué)士及美國南加大多智能體(Agent)方向博士,Robocup冠軍隊(duì)成員、騰訊云計(jì)算早期T4專家級架構(gòu)師。本文既非學(xué)術(shù)論文、也非商業(yè)行研報(bào)告,而是以一個(gè)AI學(xué)界出身、親歷硅谷多周期的投資人視角分析現(xiàn)況和預(yù)測趨勢。觀點(diǎn)可能存在很多反共識之處,未必正確,但希望這些視角能對您有所啟發(fā)。同時(shí),硅星人駐硅谷資深記者Jessica對本文內(nèi)容亦有貢獻(xiàn)。
01、AI投資邏輯困局
目前AI領(lǐng)域投資人以及創(chuàng)業(yè)者(尤其在國內(nèi))主要分成下面兩個(gè)"流派":
>>>> 應(yīng)用場景派
持這個(gè)觀點(diǎn)的投資人,其投資標(biāo)的是依靠對底座模型的調(diào)用實(shí)現(xiàn)垂直行業(yè)大模型商業(yè)化的公司,創(chuàng)始人通常是場景側(cè)或產(chǎn)品背景,對于底座模型的深入理解并非必要。在做該種投資選擇時(shí),需要應(yīng)對以下問題的挑戰(zhàn):
1. 預(yù)測LLM能推動應(yīng)用場景爆發(fā)的底層driver究竟是什么;
2. 這個(gè)driver是否能持續(xù)、未來發(fā)展走向是什么;
3. 應(yīng)用的全面爆發(fā)需要經(jīng)歷哪些milestones。
如果投資人對以上問題沒有完全自洽的解答,盲目樂觀押注應(yīng)用場景的爆發(fā),將催生投資和創(chuàng)業(yè)的泡沫。
>>>> 底層技術(shù)派
持這個(gè)觀點(diǎn)的VC或創(chuàng)業(yè)者更聚焦底座大模型,即底層平臺,認(rèn)為未來一切都由AI平臺驅(qū)動,所以不太糾結(jié)上層應(yīng)用。這些大模型平臺公司目前普遍遇到下面幾個(gè)瓶頸:
1. 上層殺手級應(yīng)用遲遲未出現(xiàn),很多時(shí)候需要底座公司親自下場去場景側(cè)做定制化交付和實(shí)施;應(yīng)用少也造成數(shù)據(jù)閉環(huán)無法形成;
2. 上層應(yīng)用門檻薄,上下兩層之間的邊界不清晰,底座的版本更新會“不小心”碾壓上層應(yīng)用,如GPT-3.5更新至GPT-4后對Jasper的碾壓;
3. 訓(xùn)練數(shù)據(jù)開始"枯竭", Scaling law面臨停滯;
4. 大模型平臺公司對算力越來越依賴,成為"金錢的游戲"。
前兩條其實(shí)也恰是應(yīng)用場景派遇到的根本問題,當(dāng)下在上層應(yīng)用遲未爆發(fā)、甚至業(yè)界無法預(yù)測爆發(fā)時(shí)間點(diǎn)及爆發(fā)所需經(jīng)歷milestones的背景下,上述兩類投資方法論暫時(shí)未能奏效。
事實(shí)上這兩種"流派"的區(qū)分,恰恰是受互聯(lián)網(wǎng)時(shí)代的公司可以清晰切分為"互聯(lián)網(wǎng)應(yīng)用"和"互聯(lián)網(wǎng)平臺"上下兩層的思維慣性所影響,但大模型在當(dāng)前并沒有到達(dá)互聯(lián)網(wǎng)時(shí)代這個(gè)"分層解耦"的階段,所以這兩個(gè)流派的劃分本身就值得商榷。
02、技術(shù)和商業(yè)化路線困局
>>>> 人工智能產(chǎn)業(yè)化的本質(zhì)
要破解上文提到的諸多疑問,我們必須先從理解大模型乃至整個(gè)人工智能浪潮的本質(zhì)開始。廣義的人工智能在1956年的達(dá)特茅斯會議即宣告誕生,但AI真正的產(chǎn)業(yè)化直到2012年左右AlexNet的出現(xiàn)才實(shí)現(xiàn)。AI產(chǎn)業(yè)化主要經(jīng)歷了下面兩個(gè)階段:
1. AI 1.0 深度學(xué)習(xí)(2012年AlexNet引發(fā)):深度學(xué)習(xí)算法將海量數(shù)據(jù)進(jìn)行訓(xùn)練后輸出模型,來替代計(jì)算機(jī)科學(xué)幾十年來積累的算法和規(guī)則,從而*次實(shí)現(xiàn)產(chǎn)業(yè)化。深度學(xué)習(xí)的大規(guī)模應(yīng)用是“產(chǎn)業(yè)化AI”的本質(zhì),也是“數(shù)據(jù)定義生產(chǎn)力”的開始。
2. AI 2.0 大語言模型(2022年GPT3.5引發(fā)):深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)合多頭自注意力(Transformer),并運(yùn)用decoder only和自回歸機(jī)制,更大數(shù)據(jù)集帶來更大參數(shù)量模型的通用能力涌現(xiàn),實(shí)現(xiàn)了Scaling Law。
這兩個(gè)AI產(chǎn)業(yè)化階段的最根本點(diǎn)是:第 一次制造了對于數(shù)據(jù)和算力的充分應(yīng)用和依賴。針對這一點(diǎn),我們快速對比一下互聯(lián)網(wǎng)和AI這兩次大的浪潮:
以上這些是LLM之所以能推動應(yīng)用場景爆發(fā)的底層driver,但同時(shí)也制造了極大的門檻和困局。
>>>> 數(shù)據(jù)困局
我們先聚焦在數(shù)據(jù)這個(gè)維度,一個(gè)可以達(dá)成的共識是:自稱“AI驅(qū)動”的企業(yè)都必須擁有足夠的私有數(shù)據(jù),才有足夠的護(hù)城河。只依靠調(diào)用底座模型而不掌握也不積累私有數(shù)據(jù)的“AI公司”,即便直接調(diào)用API的短期效果很好,也并不具備長期價(jià)值。GPTs和類Jasper公司的快速衰敗已證實(shí)了這點(diǎn)。
那些聲稱擁有數(shù)據(jù)的AI公司,也經(jīng)常被數(shù)據(jù)的雙刃劍困擾,即數(shù)據(jù)作為優(yōu)勢的同時(shí)也會制造瓶頸。針對這些公司我們須先問下面的問題:
1. 當(dāng)前掌握的私有數(shù)據(jù)從何而來,數(shù)據(jù)量多大,是否有足夠的“私有門檻”;
2. 私有數(shù)據(jù)清洗、抽取的成本是多大;
3. 清洗后的數(shù)據(jù)如何訓(xùn)練進(jìn)入到垂直模型,從而推動底座模型在垂直領(lǐng)域進(jìn)一步提高能力,推進(jìn)Scaling law。
不能完整回答以上問題的“AI公司”,都面臨長期價(jià)值主張是否成立的風(fēng)險(xiǎn)。但即便能滿足這些條件的垂直領(lǐng)域公司,又會面對以下挑戰(zhàn):
1. 用戶的私有數(shù)據(jù)和底座模型的預(yù)訓(xùn)練數(shù)據(jù)在最終效果呈現(xiàn)的歸因上無法輕易解耦,應(yīng)用層和平臺層雙方核心價(jià)值的邊界不清晰。這個(gè)“緊耦合”同時(shí)也體現(xiàn)到了出現(xiàn)差錯之后責(zé)任的切分上;
2.用戶的私有數(shù)據(jù)在推動底座模型在垂直領(lǐng)域繼續(xù)出現(xiàn)能力涌現(xiàn)的持續(xù)成本過于高昂。最直接的成本來自于數(shù)據(jù)清洗成本和算力搭建、運(yùn)營成本。
*大模型的應(yīng)用場景客戶類型
我們先來看LLM的四類典型應(yīng)用場景的用戶,以及他們?nèi)绾卫盟接袛?shù)據(jù):
1. C端終端用戶:直接和GPT聊天,或者運(yùn)用簡單提示詞工程,這里可以看作也在通過提示詞使用自身一些簡單的用戶私有數(shù)據(jù);
2. B端終端客戶:直接調(diào)用LLM的API接口來運(yùn)用提示詞工程;或?qū)⑺接袛?shù)據(jù)向量化后存入向量DB,再做RAG;或通過微調(diào)生成一些特定下游任務(wù)模型。 很多這類客戶反饋有不錯的效果。
3. B端服務(wù)實(shí)施公司:幫助上述B端客戶當(dāng)中不具備這些能力的公司來交付和部署這些流程,尤其是RAG和微調(diào)。
4. 純商業(yè)化產(chǎn)品公司:利用自身前期積累的垂直領(lǐng)域私有數(shù)據(jù)、在底座模型上生成垂直模型后,以標(biāo)準(zhǔn)化產(chǎn)品的形式服務(wù)自己的C端或者B端客戶,獲得商業(yè)化回報(bào)。
前面三類LLM的應(yīng)用場景事實(shí)上都實(shí)現(xiàn)了不錯的效果和商業(yè)化,也是OpenAI及類似底座模型企業(yè)商業(yè)化的主體。但這些并不能支撐LLM需要完成的平臺性的商業(yè)化生態(tài)。只有當(dāng)?shù)?類公司大規(guī)模出現(xiàn)之后,LLM的平臺性質(zhì)的商業(yè)化才能真正爆發(fā)。嚴(yán)格來說,第4類公司里面有一部分是現(xiàn)有的成熟階段公司, 如Adobe、Salesforce、Netflix等,他們借助LLM的能力提升了原來的產(chǎn)品,從而更好的服務(wù)了自己的客戶。對比互聯(lián)網(wǎng)時(shí)代,它們更類似之前的線下零售公司如蘇寧、借助互聯(lián)網(wǎng)建立了蘇寧網(wǎng)購。但我們更傾向把他們歸到第2類公司。
我們真正期待的是:與當(dāng)年互聯(lián)網(wǎng)時(shí)代的Amazon和淘寶這類新型純互聯(lián)網(wǎng)零售企業(yè)對應(yīng)的AI時(shí)代的“原生應(yīng)用”企業(yè)開始涌現(xiàn)。這樣才能推動AI應(yīng)用的大潮?上У氖,目前從這類AI原生應(yīng)用公司的終端客戶的使用度上判斷,并沒有看到規(guī);嫩E象,因而業(yè)界不斷有“大模型是否到了瓶頸或者泡沫化”的討論。
*垂直行業(yè)企業(yè)私有數(shù)據(jù)暫未被充分利用
聚焦上面列舉的所有B端公司,尤其是眾多垂直行業(yè)的企業(yè),如金融、醫(yī)療、法律、教育、媒體、旅游,制造業(yè)等。無疑這些垂直領(lǐng)域的眾多企業(yè)已經(jīng)擁有大量歷史積累的私有數(shù)據(jù),即企業(yè)自有數(shù)據(jù)或?qū)I(yè)的行業(yè)數(shù)據(jù)。而這些私有數(shù)據(jù)是否有效獲得充分利用,將極為關(guān)鍵。
鑒于上文闡述的AI產(chǎn)業(yè)化的實(shí)質(zhì),數(shù)據(jù)運(yùn)用已經(jīng)成為大模型時(shí)代scaling law延續(xù)的基石,這點(diǎn)與AI之前的時(shí)代形成了鮮明分界。因此我們對于私有數(shù)據(jù)是否得到充分利用的定義是數(shù)據(jù)能否幫助推動scaling law,即能否持續(xù)促進(jìn)最終大模型的能力涌現(xiàn)。這里依次探討一下當(dāng)前幾種私有數(shù)據(jù)主流運(yùn)用方法的實(shí)質(zhì)和現(xiàn)況:
丨提示詞工程、上下文學(xué)習(xí)
這些數(shù)據(jù)運(yùn)用方法在C端以及小B應(yīng)用里面占很大比例,實(shí)質(zhì)上都可以歸結(jié)為簡單或高級的API調(diào)用。推動底座參數(shù)能力scaling law的力度有限。
丨RAG(檢索增強(qiáng)生成)
是目前利用大部分企業(yè)私有數(shù)據(jù)事實(shí)上的最普遍實(shí)踐。其實(shí)質(zhì)是檢索加上極其復(fù)雜的上下文學(xué)習(xí)。有時(shí)會結(jié)合Langchain等編排以及Agent智能體的方法,如微軟的GraphRAG等。RAG要真正運(yùn)用好的技術(shù)門檻其實(shí)比大部分純應(yīng)用公司能承受的水平要高,很多會涉及底座模型的細(xì)節(jié),所以現(xiàn)在經(jīng)常依靠第三方服務(wù)公司去完成。
同時(shí)業(yè)界關(guān)于RAG是否能最終推動scaling law也有很多爭論,筆者傾向于借用很多之前文獻(xiàn)里關(guān)于“學(xué)生參加開卷考試”的比喻:一位本科學(xué)生參加法學(xué)考試, 但他從未學(xué)習(xí)過法學(xué)院的課本,考試時(shí)在他面前放了一堆可隨時(shí)查閱的法律書籍,同時(shí)教會他一套極其復(fù)雜的查閱(檢索)的方法,學(xué)生不需要都記住這些書里信息,只需遇到法律問題時(shí)隨時(shí)查閱就能給出不錯的答案。但這整個(gè)過程是否真正讓他擁有了法學(xué)院學(xué)生的能力并持續(xù)提升、即推進(jìn)了scaling law,值得探討。
丨微調(diào)
企業(yè)客戶基于底座模型做微調(diào)的效果在業(yè)界并沒有共識,很多從業(yè)者反饋效果不錯,也有不少反饋風(fēng)險(xiǎn)大且效果未必好,目前觀察到的事實(shí)是微調(diào)在企業(yè)場景應(yīng)用實(shí)踐少于RAG,并且技術(shù)門檻相比RAG更高,尤其在RM (獎勵模型) 和 PPO(近端策略優(yōu)化) 方面,甚至幾乎需要有很強(qiáng)底座模型經(jīng)驗(yàn)的團(tuán)隊(duì)參與。
回顧歷史, Google早期的BERT架構(gòu)就定義了“通用任務(wù)預(yù)訓(xùn)練+下游任務(wù)微調(diào)”的流程,效果很好;進(jìn)入GPT時(shí)代后,該架構(gòu)得到延續(xù),但因底座模型加大,微調(diào)成本升高,破壞底座能力(遺忘)的風(fēng)險(xiǎn)增加,所以O(shè)penAI主要用它結(jié)合垂直領(lǐng)域的人類監(jiān)督數(shù)據(jù)來做對齊微調(diào):SFT, RLHF(包括RM、PPO)等,來消除有害、誤導(dǎo)或偏見性表述,對齊本領(lǐng)域的價(jià)值觀和偏好。延用上文關(guān)于學(xué)生的比喻,這類對齊式的微調(diào)有點(diǎn)類似于想讓本科畢業(yè)生盡快進(jìn)入律所工作,但并非用法學(xué)院深造來增加他們的法律專業(yè)知識,而只是通過密集的上崗培訓(xùn)來讓他們具備法務(wù)的話術(shù)和基本素質(zhì)。
至于其他更多各類的微調(diào)方法,實(shí)際運(yùn)用案例似乎并不多,技術(shù)實(shí)現(xiàn)也常陷入矛盾:一方面想改動一些底座的網(wǎng)絡(luò)參數(shù),一方面又不敢動太多參數(shù)而損失底座的通用能力,這個(gè)尺度如果不是底座模型團(tuán)隊(duì)自己,其他人可能都很難掌握。全量參數(shù)“微調(diào)”已經(jīng)接近下文提及的重新訓(xùn)練,風(fēng)險(xiǎn)和成本都增加;而無論是凍結(jié)還是低秩適應(yīng)(LoRA)的方法,目前也都無法完全避免風(fēng)險(xiǎn)。事實(shí)上即便只做對齊微調(diào),能做到最安全且最 優(yōu)效果的可能也還是對底座模型實(shí)現(xiàn)非常熟悉的團(tuán)隊(duì)。
丨Agent
大范疇上可歸類于后訓(xùn)練的高級手段,其中包含Langchain等編排同時(shí)結(jié)合反思、規(guī)劃、記憶、工具使用、協(xié)同等產(chǎn)生LLM多次調(diào)用的方法,以及包括進(jìn)階RAG里面運(yùn)用的諸多手段。Agent無疑是未來趨勢,但運(yùn)用尚在早期,有待進(jìn)一步深化探索。目前無論理論還是實(shí)踐上,都還暫難證明是否分解多步驟后對LLM的系統(tǒng)性反復(fù)調(diào)用(multi shot) 就能讓底座LLM延續(xù)scaling law,尤其是如何讓私有數(shù)據(jù)更好地貢獻(xiàn)于這個(gè)延續(xù),尚不清晰。
丨重新預(yù)訓(xùn)練、繼續(xù)訓(xùn)練
企業(yè)直接用自己的私有數(shù)據(jù)結(jié)合底座模型來重新訓(xùn)練自己的垂直模型,這在目前看顯然最不實(shí)際,因此在普通企業(yè)用戶里面運(yùn)用的案例無疑最少,除了算力和成本因素外,還有以下原因:
· 重新訓(xùn)練的私有數(shù)據(jù)和通用數(shù)據(jù)集的量與質(zhì)量的配比很難掌握,這是底座大模型廠商的最核心秘密和護(hù)城河。配比不正確,訓(xùn)練后模型的通用能力會大幅下降(災(zāi)難性遺忘)。對于繼續(xù)訓(xùn)練,也需要去猜測底座模型用的通用數(shù)據(jù)集以及他們預(yù)訓(xùn)練到達(dá)的checkpoint等。Bloomberg運(yùn)用自身大規(guī)模私有金融數(shù)據(jù)重新預(yù)訓(xùn)練出來了垂直金融大模型BloombergGPT,但效果不佳,使用度很低,大概率是這個(gè)原因;
· 沒有企業(yè)客戶愿意直接把自己的私有數(shù)據(jù)直接拱手獻(xiàn)給底座大模型公司去合作預(yù)訓(xùn)練。甚至很多本身擁有底座模型的巨頭的內(nèi)部應(yīng)用產(chǎn)品部門也不愿意內(nèi)部貢獻(xiàn)這些數(shù)據(jù)。
盡管業(yè)界有觀點(diǎn)認(rèn)為企業(yè)用私有數(shù)據(jù)重新訓(xùn)練相對RAG和微調(diào)優(yōu)勢并不大,但應(yīng)該無人完全否定這個(gè)優(yōu)勢。尤其當(dāng)企業(yè)和底座模型側(cè)能充分合作、即數(shù)據(jù)、訓(xùn)練算法乃至團(tuán)隊(duì)充分互通的時(shí)候,優(yōu)勢還是具備的。然而如何能規(guī)模性地達(dá)成這種理想化合作而消除上述的割裂,正是GPT類底座公司真正商業(yè)化的難題:
·垂直行業(yè)企業(yè):擁有大量垂類數(shù)據(jù),但對底座模型的訓(xùn)練算法、數(shù)據(jù)集乃至預(yù)訓(xùn)練到達(dá)的checkpoint都不了解;
·底座模型公司:難以觸達(dá)和獲取所有企業(yè)客戶的垂類數(shù)據(jù)。
因此擁有數(shù)據(jù)的場景方和擁有訓(xùn)練算法的底座方在實(shí)踐中產(chǎn)生了割裂,大模型技術(shù)棧的上下兩層不僅沒有相互促進(jìn)而產(chǎn)生飛輪效應(yīng),反而互為制約。
企業(yè)私有數(shù)據(jù)無法完全參與底座大模型的繼續(xù)訓(xùn)練,是造成“數(shù)據(jù)不足”困境的重要原因。一方面抱怨預(yù)訓(xùn)練數(shù)據(jù)“枯竭”,一方面又不能充分利用垂直行業(yè)的私有數(shù)據(jù),是當(dāng)下類GPT架構(gòu)的一大遺憾。盡管業(yè)界也有大量對合成數(shù)據(jù)或仿真數(shù)據(jù)的探索,但其成本控制和輸出質(zhì)量都仍處于早期。過度注重成本高且質(zhì)量參差的合成數(shù)據(jù)而放棄已有的大規(guī)模垂直行業(yè)數(shù)據(jù)的做法也值得深思。
綜上所述,GPT定義的主流“底座預(yù)訓(xùn)練 + 私有數(shù)據(jù)RAG或微調(diào)”的架構(gòu)暫時(shí)無法推動更大涌現(xiàn)。垂直應(yīng)用場景企業(yè)的私有數(shù)據(jù)尚未能充分貢獻(xiàn)于scaling law進(jìn)程,這是大模型目前未觸發(fā)大規(guī)模落地應(yīng)用的核心根源之一。
>>>> 算力困局
為打破英偉達(dá)顯卡帶來的高額算力成本投入的僵局,很多下游行業(yè)玩家推出“垂直行業(yè)小模型”或者“端側(cè)小模型”,但可惜在技術(shù)路線上很難真正有捷徑可走。這些小模型,除了通過RAG或者微調(diào)生成的模型、也包括大模型蒸餾后的小模型,即用大模型生產(chǎn)數(shù)據(jù)去訓(xùn)練出的模型, 以及對大模型裁剪、壓縮、剪枝后的模型。他們都有一個(gè)共同點(diǎn):起點(diǎn)和核心價(jià)值仍在大模型上。
除了上述這些之外,產(chǎn)業(yè)實(shí)踐中也還存在以下類型的小模型:
·基于非GPT、或非Transformer架構(gòu)的模型網(wǎng)絡(luò),如BERT、CNN、RNN、Diffusion以及RL等;
·其他更傳統(tǒng)的非深度學(xué)習(xí)、甚至基于規(guī)則的“模型”。
這些小模型可看作是針對大量細(xì)節(jié)長尾下游場景的特殊處理,更多仍需要對位于中心的大模型去輔助展開,超額價(jià)值目前有限,其真正價(jià)值仍聚集于大模型。這里借用張宏江博士在騰訊深網(wǎng)的訪談里對于“小模型”的論述:
應(yīng)該先“把大模型的性能做好,才能真正出現(xiàn)涌現(xiàn)”,再“通過蒸餾的方法和持續(xù)學(xué)習(xí)的方法把它做小,而不是一開始就做個(gè)小模型”。
03、潛在破局方案
>>>> 借鑒互聯(lián)網(wǎng)時(shí)代的思考
為進(jìn)一步思考上文提及的技術(shù)棧無法解耦和分工的根本現(xiàn)象,我們再回顧一下互聯(lián)網(wǎng)的歷史。我們比較習(xí)慣提的互聯(lián)網(wǎng),事實(shí)上是從1994年瀏覽器的出現(xiàn)開始的“Web互聯(lián)網(wǎng)”,而廣義的互聯(lián)網(wǎng)早在1970到80年代就已經(jīng)出現(xiàn),最早的形態(tài)是FTP、Rlogin、Telnet以及Email電郵等“垂直整合應(yīng)用”的產(chǎn)品形態(tài)。直到Web和瀏覽器作為平臺(下圖中的綠色框) 出現(xiàn)之后,大量類似Yahoo等基于網(wǎng)頁形式的純應(yīng)用才真正與底層解耦,從而相繼在各個(gè)垂直行業(yè)爆發(fā),如零售行業(yè)的Amazon、旅游行業(yè)的Expedia、媒體行業(yè)的Netflix等等。
到了大模型時(shí)代,我們*看到的也是ChatGPT、Claude、Character。AI、Sora等“垂直整合應(yīng)用”的產(chǎn)品形態(tài),但由于前文提到的私有數(shù)據(jù)運(yùn)用的困局,底層平臺和上層應(yīng)用充分解耦的階段其實(shí)尚未降臨。LLM大模型時(shí)代的平臺(下圖中的淺綠色框)尚未出現(xiàn)。
我們這里所說的平臺更準(zhǔn)確地應(yīng)稱為“操作系統(tǒng)(OS)”。OS的核心功能就是隔離上層應(yīng)用和下層技術(shù)細(xì)節(jié),讓應(yīng)用公司可以聚焦產(chǎn)品和運(yùn)營、從而規(guī);瘜(shí)現(xiàn)落地和商業(yè)化。OS的具體例子就是互聯(lián)網(wǎng)時(shí)代的瀏覽器、PC時(shí)代的Windows、以及移動時(shí)代的IOS和安卓。OS與思科這樣的基礎(chǔ)設(shè)施(Infra)的核心區(qū)別是:Infra的實(shí)質(zhì)是工具,它無法將應(yīng)用層與底層有效切分出來;Infra的調(diào)用者往往還是需要對下層技術(shù)有深刻的理解,才能將工具運(yùn)用的好;所以Infra自身無法催生大規(guī)模應(yīng)用生態(tài)。OpenAI與它的同行們誤認(rèn)為自己創(chuàng)造了類似蘋果這樣的的平臺即OS,但事實(shí)上只是創(chuàng)造了類似思科的Infra。相比互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的進(jìn)程,可以說大模型還處在“前瀏覽器或前IOS時(shí)代”。
我們認(rèn)為大模型時(shí)代和互聯(lián)網(wǎng)時(shí)代類似,也會經(jīng)歷以下三個(gè)發(fā)展階段(盡管每個(gè)階段的歷時(shí)可能與互聯(lián)網(wǎng)不盡相同):
·階段一:B/C端用戶直接使用大模型;
·階段二:出現(xiàn)各種垂直整合的大模型商業(yè)化應(yīng)用;
·階段三:上層商業(yè)化應(yīng)用和底層平臺充分解耦,落地應(yīng)用爆發(fā),底座模型規(guī)模性變現(xiàn)。
當(dāng)前我們處在的是“階段一”已經(jīng)完成、“階段二”剛剛開始的過渡時(shí)期。
>>>> 短期投資策略
*“垂直整合應(yīng)用派”
綜合以上結(jié)論:大模型當(dāng)下的技術(shù)生態(tài)架構(gòu)尚未到達(dá)互聯(lián)網(wǎng)成熟時(shí)期的清晰分層階段,互聯(lián)網(wǎng)當(dāng)年的“應(yīng)用場景驅(qū)動”的投資邏輯暫時(shí)難以套用。在此背景下,我們將建議“第三種流派”的投資邏輯,即聚焦既非純應(yīng)用場景、也非純底座模型的公司,而是“垂直整合應(yīng)用”公司。這類第三種公司的完整定義是:
具備底座大模型算法能力、但放棄做通用底層平臺的端到端的垂直整合應(yīng)用。
所有這三種類型的公司有可能會分別出現(xiàn)如下的發(fā)展:
丨應(yīng)用場景公司
這類應(yīng)用公司在大模型時(shí)代的創(chuàng)業(yè)壁壘會遠(yuǎn)高于互聯(lián)網(wǎng)時(shí)代,可能很難保持在純應(yīng)用的形態(tài):
1. 須將擁有私有數(shù)據(jù)作為先決條件,并有能力后期持續(xù)積累數(shù)據(jù)。互聯(lián)網(wǎng)時(shí)代應(yīng)用公司強(qiáng)調(diào)的“飛輪”效應(yīng),在大模型時(shí)代必須包含私有數(shù)據(jù)的參與,這成為飛輪形成前“冷啟動”的最 大門檻;
2. 須技術(shù)棧下沉,不斷拓展底座模型算法能力,持續(xù)將私有數(shù)據(jù)訓(xùn)練進(jìn)應(yīng)用側(cè)模型,在垂直領(lǐng)域推動scaling law。
正因?yàn)榇,對?ldquo;應(yīng)用場景驅(qū)動”的投資機(jī)構(gòu)而言,判斷應(yīng)用公司投資價(jià)值的門檻也大大提高,即不僅要判斷創(chuàng)始人的垂直領(lǐng)域經(jīng)驗(yàn)和產(chǎn)品能力,還要深入考察他們獲取、清洗數(shù)據(jù)的能力,以及將這些數(shù)據(jù)訓(xùn)練到垂直行業(yè)模型的底座技術(shù)的水平。
丨底座模型公司
對于類OpenAI的底座模型公司、包括開源和閉源的公司,如Anthropic、Llama、Mistral、智譜、Kimi等,我們預(yù)測它們還會繼續(xù)迭代模型從而延續(xù)scallinglaw,比如OpenAI最新的o1模型等。但這些迭代仍只會延續(xù)超級App的產(chǎn)品形態(tài)而無法短期成為底層平臺。
對于這類公司,盡管短期探索平臺型商業(yè)化面臨難度,但若放棄作為通用平臺的訴求,鎖定一個(gè)垂直領(lǐng)域?qū)P乃鸭诡悢?shù)據(jù)、從而訓(xùn)練出真正的垂直整合大模型的空間會更大。這對于OpenAI也許無法支撐目前估值,但對于其他估值略低的底座大模型玩家應(yīng)該是可行出路。我們看到已經(jīng)有不少這類公司在做類似的聚焦轉(zhuǎn)型,但如果不能真正放棄想成為底層平臺去賦能應(yīng)用的述求,仍將陷入上述的數(shù)據(jù)困局。
丨垂直整合應(yīng)用公司
這個(gè)第三種路徑對于完全初創(chuàng)的企業(yè)顯然是非常高成本高風(fēng)險(xiǎn)的,很難一蹴而就,因而可以考慮采用下面的三個(gè)循序漸進(jìn)的步驟:
·步驟一:利用私有數(shù)據(jù)基于底座模型API加RAG搭建初始原型(同時(shí)全力融資和囤GPU);
·步驟二:基于底座模型結(jié)合微調(diào)和Agent等方法提高模型能力(同時(shí)全力融資和囤GPU);
·步驟三:利用更多私有數(shù)據(jù)開始做繼續(xù)訓(xùn)練或者重新預(yù)訓(xùn)練(繼續(xù)全力融資和囤GPU)。
在硅谷,“垂直整合應(yīng)用”公司占到了VC投資的很大比例,如Cohere(企業(yè)大模型)、Harvey(AI法律大模型)、Perplexity(AI搜索)、EurekaLabs(AI教育)、Augment(AI編程)、HolisticAI(AI企業(yè)管治SaaS),等都近期獲得不錯融資。這些公司的創(chuàng)始人都是來自如Transformer作者、OpenAI、Deepmind、Meta等頭部底座模型背景、并深耕各自不同垂直場景。
紅杉在2023年9月題為“Generative AI's Act Two”的博客里面也提到“Vertical separation hasn't happened yet”的說法,時(shí)間過去一年,我們認(rèn)為這個(gè)“separation”依然沒有發(fā)生,并因?yàn)樯厦嫣岬降臄?shù)據(jù)強(qiáng)耦合等原因,紅杉博客原文說的“vertically integrated”還會是個(gè)常態(tài)。
在中國國內(nèi),這個(gè)類型的公司還比較少,核心原因在于具備底層模型能力的團(tuán)隊(duì)極其稀缺,但具備這些能力的團(tuán)隊(duì)又都執(zhí)著于做底層平臺的述求。隨著幾家頭部模型公司(包括互聯(lián)網(wǎng)大廠的底座模型團(tuán)隊(duì))相繼遇到上述瓶頸,它們中的一些核心技術(shù)人員會開始獨(dú)立創(chuàng)辦“垂直整合應(yīng)用”公司;同時(shí)有幾家頭部底座模型公司自己也在轉(zhuǎn)型到垂直整合場景,比如百川的醫(yī)療大模型、及零一的BeaGo等。
總結(jié)上文提到的大模型商業(yè)化的三個(gè)時(shí)期及當(dāng)前可能的三個(gè)發(fā)展步驟如下圖,上述所有這些中 美的“垂直整合應(yīng)用”公司也都各自處于三個(gè)步驟的不同時(shí)間點(diǎn)。
#FormatImgID_3#
*多模態(tài)和具身智能
在投資上述“垂直整合應(yīng)用”之外,多模態(tài)和具身智能(多模態(tài)的一種形式)也是值得關(guān)注的投資方向。盡管它們更多是感知而非基礎(chǔ)能力的提升,自身要超越純語言大模型(LLM)而更快實(shí)現(xiàn)scaling law可能較難,但在純語言大模型的生態(tài)建立遇到瓶頸之時(shí),或許可以探索平行于語言模型的算法架構(gòu)及數(shù)據(jù)棧型式來搭建第三方生態(tài)。篇幅關(guān)系,這里不做展開。
*完整技術(shù)棧、Infra、芯片
今天的深度學(xué)習(xí)和LLM的高速演進(jìn),仍然只是整個(gè)計(jì)算機(jī)科學(xué)技術(shù)棧的一個(gè)板塊,而完整技術(shù)棧的所有模塊都在被LLM牽動著產(chǎn)生顛覆式的迭代。所以大量的機(jī)會將來自看似不是AI自身的技術(shù)棧的其他角落,包括:
· Infra:包括底座模型自身,以及其他各層的Ops、各類toolchain,等等。華映資本兩家被投公司星塵和天云數(shù)據(jù),就是Data Infra的典型代表,目前與硅谷很多DataOps公司一樣也都在積極做更適合AI 2.0的新興數(shù)據(jù)棧的前沿探索。
· 芯片:是解決算力困局的終 極手段。當(dāng)前主流GPT架構(gòu)之下日益攀高的算力成本壓力和單一供應(yīng)商依賴造成的焦慮,將幫助新型GPU公司突破英偉達(dá)的CUDA設(shè)定的禁區(qū),從而在某些領(lǐng)域顛覆英偉達(dá)的壟斷。
但上述兩種機(jī)會都伴隨一個(gè)巨大的前提:不論是Infra還是AI芯片創(chuàng)業(yè)的創(chuàng)業(yè)者,都需要對底座大語言模型自身有相當(dāng)深入的理解和經(jīng)驗(yàn)。這點(diǎn)與之前對于應(yīng)用層創(chuàng)業(yè)的要求事實(shí)上是一致的。
>>>> 長期可能演變
OpenAI要突破當(dāng)前的“泡沫”焦慮,需要重點(diǎn)攻關(guān)的不僅是如何不斷提高自己底座語言模型的能力,更是如何通過改進(jìn)后的技術(shù)架構(gòu)和商業(yè)生態(tài),讓其他擁有數(shù)據(jù)的第三方應(yīng)用場景方盡可能參與到scaling law的進(jìn)程中來。大模型技術(shù)棧發(fā)展依舊在一日千里,上文提及的很多擔(dān)憂和“泡沫”有可能因?yàn)槟承┩黄贫玫揭欢ɑ狻R韵潞唵瘟谐龉P者有限思考后的可能性以及各自的挑戰(zhàn):
*新的后訓(xùn)練(Post-training)方法出現(xiàn)與持續(xù)優(yōu)化
· RL(強(qiáng)化學(xué)習(xí)):OpenAI剛發(fā)布不久的o1的Self-Play RL在繼續(xù)推進(jìn)scalinglaw,但它自己也提到了關(guān)于RL作為推理階段的scaling law和與預(yù)訓(xùn)練階段的scaling law具有不同特性,甚至是否能將之稱為RL的scaling law也有爭議。但總之OpenAI的o1單方面推動底座推理能力的嘗試只是剛起步,暫時(shí)無法讓擁有大量私有數(shù)據(jù)的場景端客戶參與進(jìn)來、并長期受益。后訓(xùn)練潛在是可以offload給下游客戶結(jié)合自己的私有數(shù)據(jù)來進(jìn)行的,但目前o1也還未能讓第三方復(fù)現(xiàn)。但即便能以某種形式開放出來、交給下游客戶去持續(xù)進(jìn)行RL算法更新,這樣做之后,只會讓客戶參與門檻相比之前用RAG和微調(diào)等主流的后訓(xùn)練方法還要更高。
· RAG:如端到端的RAG、基于RAG的預(yù)訓(xùn)練模型等都是非常有益的嘗試。但這類方法論也更驗(yàn)證了筆者前文闡述的“即便做RAG也要從理解底座預(yù)訓(xùn)練模型開始”的觀點(diǎn)。
· Agent:如上文所述,智能體的探索具備巨大空間和機(jī)會,但如何最 大化融入用戶側(cè)的私有數(shù)據(jù)仍然是課題之一。
*預(yù)訓(xùn)練及推理成本和門檻大大降低
一方面算力層面即GPU芯片的突破,一方面是訓(xùn)練和推理的優(yōu)化加速及工程化的進(jìn)步。除此之外還有第三種可能,盡管前文重點(diǎn)提及的都是“AI三要素”當(dāng)中的數(shù)據(jù)和算力的困局,但其實(shí)訓(xùn)練算法的突破和優(yōu)化仍可能是最終降低成本的最 大推力,包括對自回歸機(jī)制甚至Transformer即注意力機(jī)制本身的優(yōu)化甚至重寫等等。
*徹底改變預(yù)訓(xùn)練+后訓(xùn)練的模式
前兩種方法都在試圖拓展OpenAI既定路線的上升空間,但想徹底改變這個(gè)路線的難度顯然要大很多。但當(dāng)初投OpenAI的VC也未必料想到GPT路線可以從彼時(shí)占主流統(tǒng)治地位的BERT路線分叉出來、而用decoder only等機(jī)制打開了scaling law的全新空間。在未來幾年之內(nèi),某個(gè)從GPT路線的再次根本性架構(gòu)分叉,將會重復(fù)當(dāng)年OpenAI的成功,但這次顛覆對象是OpenAI自己,由此帶來的將是scaling law的又一次無比巨大的邁進(jìn)。
04、總結(jié)
本文內(nèi)容較多,我們最后歸納為以下核心兩點(diǎn):
1.目前大模型的應(yīng)用層和底座層尚未解耦,所以投資策略不建議只看純應(yīng)用或者純底座模型,而可以暫時(shí)圍繞上下層垂直整合的應(yīng)用展開,同時(shí)需密切觀察、等待真正的平臺/操作系統(tǒng)的出現(xiàn);
2.應(yīng)用和底座模型層未解耦的根本原因之一是在于數(shù)據(jù)在技術(shù)棧內(nèi)的強(qiáng)耦合,包括預(yù)訓(xùn)練與后訓(xùn)練數(shù)據(jù)集、即底座模型數(shù)據(jù)與下游垂直數(shù)據(jù)的耦合,這個(gè)現(xiàn)況也是由人工智能即深度學(xué)習(xí)算法對數(shù)據(jù)依賴的本質(zhì)所派生的。這些強(qiáng)耦合目前制約了scaling law的發(fā)展和大模型的規(guī);虡I(yè)落地。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。