大模型開閉源之爭，怕是要有結(jié)果了？

2024年04月24日 17:09:22 陳俊一 來源：微信公眾號：億歐網(wǎng)

　　上周，Meta發(fā)布了其最新開源模型Llama3，提供8B和70B的預(yù)訓(xùn)練和指令微調(diào)版本，號稱是最強大的開源大語言模型。據(jù)了解，基于最新的 Llama 3 模型，Meta 的AI 助手現(xiàn)在已經(jīng)覆蓋 Instagram、WhatsApp、Facebook等全系應(yīng)用。而近日，Meta趁熱打鐵，又宣布向第三方制造商開放自家的Meta HorizonOS，允許其他公司基于其生態(tài)系統(tǒng)設(shè)計更多頭戴顯示器。聯(lián)想、微軟和華碩都是Meta的首批合作伙伴。

　　看來，這是將開源進(jìn)行到底，從大模型開源，到頭顯設(shè)備操作系統(tǒng)的開放。這也類似谷歌對安卓系統(tǒng)的開放模式。

　　不過，安卓系統(tǒng)整體并非一個完全開源的軟件，比如Gmail、谷歌地圖、Google Play、Chrome等一系列谷歌自家應(yīng)用就是閉源的。畢竟，由于GPL v2許可證的關(guān)系，谷歌無法將安卓作為一個軟件整體進(jìn)行授權(quán)收費。谷歌其實只是理論上開放安卓，然后通過其他方式賺錢。

　　但大模型的開源，未來的盈利路線其實是很明確的——首先吸引更多的開發(fā)者參與到開源模型的改進(jìn)和優(yōu)化中來，而這些優(yōu)化建議同樣可以在閉源大模型中復(fù)用，大模型生態(tài)建設(shè)建設(shè)好之后，Meta就可以靠提供相關(guān)的技術(shù)支持、API授權(quán)等收費。

　　更多企業(yè)同樣看準(zhǔn)了開源的好處，4月23日晚，微軟在官網(wǎng)開源了小參數(shù)的大語言模型——Phi-3-mini。據(jù)了解，Phi-3-mini參數(shù)只有38億，訓(xùn)練數(shù)據(jù)卻高達(dá)3.3T tokens，比很多數(shù)百億參數(shù)的模型訓(xùn)練數(shù)據(jù)都要多，這也是其性能*的主要原因之一。微軟表示，在未來幾周內(nèi)還會發(fā)布70億參數(shù)的Phi-3-small和140億參數(shù)的Phi-3-medium兩款小模型。其中，Phi-3-medium的性能可媲美Mixtral 8x7B 和GPT-3.5，資源消耗卻更少。

　　閉源陣營對手強大，開源陣營同樣正不斷有強手涌入。

　　那么，以O(shè)penAI為代表的閉源陣營和Llama為代表的開源陣營，到底誰會成為以后的主導(dǎo)?

　　1、開源Llama 3實力如何

　　對于用戶來說，不管閉源開源，“抓到耗子才是好源”。

　　從訓(xùn)練的角度，Llama3對中文并不友好。在15T Tokens的訓(xùn)練數(shù)據(jù)，僅有5%是為非英文數(shù)據(jù)，涵蓋30多種語言，其中中文就更少了。據(jù)Hugging Face第三方大模型跑分測評數(shù)據(jù)，Llama3 70B性能已經(jīng)超過部分早期版本GPT4。

　　據(jù)國內(nèi)CLUE中文語言理解測評基準(zhǔn)最新測評，Llama3-70B在代碼能力上略低于GPT-4;在中文數(shù)學(xué)能力上基礎(chǔ)難度(1-3步推理)與GPT4-Turbo、Claude3—Opus相差不多，在4-5步數(shù)學(xué)推理任務(wù)上還有一定優(yōu)化空間。測評說得比較客氣，其實就是說，英文上表現(xiàn)不錯，中文上差距還比較明顯。

　　而Meta首席人工智能科學(xué)家楊立昆則在推特上分享，Llama-3在Arena排行榜中已經(jīng)位居第五。

　　英偉達(dá)高級科學(xué)家Jim Fan也表示，“Llama3-400B+ 將標(biāo)志著社區(qū)獲得 GPT-4 級模型的開放權(quán)重訪問權(quán)的分水嶺時刻。它將改變許多研究工作和草根初創(chuàng)公司的計算方式。我在 Claude 3 Opus、GPT-4-2024-04-09 和 Gemini 上拉了數(shù)據(jù)，Llama-3-400B仍在訓(xùn)練中，希望在接下來的幾個月里會變得更好。有如此多的研究潛力可以通過如此強大的能力釋放，期待整個生態(tài)系統(tǒng)的建設(shè)者能量激增!”

　　不管是同行抬轎子，還是自己王婆賣瓜，至少看起來，Llama3實力非凡。而大模型性能只要能超過早期GPT4水平，就意味著已經(jīng)具備較強智能，可以作為生產(chǎn)力工具，去替代人類完成各類業(yè)務(wù)流的碎片、繁雜工作。

　　GroqCloud還提供云支持，可以讓用戶在沒有本地強大GPU的情況下使用Llama-3的8B和70B兩個版本大模型�；贚Lama3的中文微調(diào)，國內(nèi)也已經(jīng)有不少開發(fā)人員正在測試中，比如用Ollama來本地部署LLama3進(jìn)行訓(xùn)練。

　　8B 和 70B 兩個型號的模型，僅僅標(biāo)志著 Llama 3 系列的開端，Meta AI首席科學(xué)家楊立昆在其社交媒體透露，在接下來的幾個月，還會有更多版本陸續(xù)發(fā)布。楊立昆還轉(zhuǎn)帖分享了關(guān)于Meta支持開源的真實故事。

　　不過，百度CEO李彥宏近日在Create2024百度AI開發(fā)者大會上表示，大模型開源意義不大，閉源模型性能會不斷提升。“有了文心大模型4.0，我們可以根據(jù)需要兼顧效果、響應(yīng)速度、推理成本等各種考慮，裁剪出適合各種場景的更小尺寸模型，且支持精調(diào)和post pretrain。通過降維裁剪出的模型，比直接拿開源調(diào)出來的模型，同等尺寸下效果更好，同等效果下成本明顯更低。”

　　李彥宏認(rèn)為閉源才擁有真正的商業(yè)模式，能夠賺到錢，能聚集人才和算力。“閉源在成本上反而是有優(yōu)勢的，只要是同等能力，閉源模型的推理成本一定是更低的，響應(yīng)速度一定是更快的。”同時，開源大模型的模式與傳統(tǒng)的開源軟件不同，并不是眾人拾柴火焰高。因此，“未來開源模型會越來越落后”，其實在大模型場景下，開源是最貴的。

　　而前 DeepMind 和 Meta 員工創(chuàng)立的初創(chuàng)公司 Mistral AI 盡管也是開源的大力支持者。但該團(tuán)隊也計劃在2024年籌集更多資金，以打造除開源產(chǎn)品之外的消費產(chǎn)品。畢竟，光開源不掙錢是無法長久的，特別是對創(chuàng)業(yè)團(tuán)隊。

　　但周鴻祎、王小川等業(yè)內(nèi)大咖對于開源大模型落后論并不認(rèn)同，先后在不同場次對此提出質(zhì)疑。據(jù)報道，王小川在微信群討論中表示，“關(guān)于開閉源之爭，核心是要看誰在開源?雙輪驅(qū)動，是一線創(chuàng)業(yè)AGI公司的*解。”

　　第二十七屆哈佛中國論壇上，周鴻祎就表示，他一直相信開源的力量，“一句話，今天沒有開源就沒有Linux，沒有Linux就沒有互聯(lián)網(wǎng)，就連說這話的公司自己都借助了開源的力量才成長到今天。”

　　大佬們議論紛紛，其實誰都沒有給出明確的答案。

　　2、開源與閉源，非得做選擇題嗎

　　李彥宏說得也沒錯，Llama系列并不是一個真正由大家一起來協(xié)同開發(fā)的產(chǎn)品。

　　據(jù)了解，大模型開源的方式主要有兩種模式， Restrict License(限制許可)與 Apache。Llama的開源屬于前者，在開放源代碼的同時，對使用、修改和分發(fā)該模型的行為施加一定的限制。這與完全開放的開源許可證(如MIT、Apache 2.0等)不同，后者通常允許用戶在幾乎不設(shè)限的情況下使用和修改軟件，Mistral、谷歌的開源模型Gemma都采取了這種方式。但哪怕后者，對于訓(xùn)練的數(shù)據(jù)和訓(xùn)練過程同樣并不開源。

　　如果開源大模型最終的商業(yè)化還是要閉源，那就得看看閉源大模型們在做什么。

　　就拿最近大火的閉源大模型月之暗面為例吧。據(jù)界面新聞記者從多個渠道獲悉，上一輪融資完成后，月之暗面(Moonshot AI)創(chuàng)始人楊植麟通過售出個人持股已套現(xiàn)數(shù)千萬美金。由于楊植麟持股比例高達(dá)78.968%，出售部分股權(quán)似乎無可厚非?但也有投資人表示，“公司成立*年就套現(xiàn)這么多，這種情況并不多見。”

　　不過，月之暗面已經(jīng)回應(yīng)媒體：上述消息不實，月之暗面此前已公布員工激勵計劃。

　　套現(xiàn)謠傳暫不討論。但月之暗面的長文本能力，也面臨被追趕的問題，畢竟長文本優(yōu)勢難以長期獨占。不過，這是月之暗面作為初創(chuàng)公司要面臨的問題，并不是閉源大模型行業(yè)的問題。

　　無論開源還是閉源，國內(nèi)大模型玩家，往往呈現(xiàn)業(yè)界每出現(xiàn)一次突破性的進(jìn)展，其他玩家就會快速跟進(jìn)的窘境——這就意味著，創(chuàng)新容易被模仿，最后拼的只能是血槽厚不厚。對于B端客戶而言，如果對接小廠出現(xiàn)不確定性，轉(zhuǎn)向服務(wù)更為成熟的大廠就順理成章。當(dāng)然，月之暗面至少不打算做B端，想必也是知道B端客戶的多變。

　　反倒是C端客戶，不在乎用的大模型是不是巨頭做出來的，只要好用、有一些功能切中自己需求就行。

　　楊植麟一直是閉源大模型的擁躉。他曾在騰訊新聞、36氪的專訪中表示，開源落后于閉源是個事實。因為現(xiàn)在開源本身還是中心化的，開源的貢獻(xiàn)可能很多都沒有經(jīng)過算力驗證。閉源會有人才聚集和資本聚集，最后一定是閉源更好;反而是落后者才會開源，“攪局嘛，反正不開源也沒價值”。

　　他認(rèn)為，開源和閉源在整個生態(tài)里面會扮演不同的角色，開源很大的作用是在To B端的獲客，如果想做頭部的Super App，大家肯定都是用閉源模型去做的，在開源模型上做C端應(yīng)用很難做出差異化。

　　不過，不同于月之暗面、百度押注閉源，更多大模型企業(yè)選擇開源和閉源并行，例如Google、阿里巴巴、昆侖萬維、零一萬物、百川智能等。比如百川智能開源Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat 與其4bit 量化版本;但還有一些說明卻沒有“用大字”標(biāo)注清楚——那就是這些開源的模型不算大，而且與百川智能的閉源模型相比性能差別較大。

　　開源大模型們似乎都財大氣粗，不計較營收。至少生態(tài)上，基于開源模型也帶來更多百花齊放的產(chǎn)品，比如Llama中文社區(qū)最近完成了對Llama3兩個模型的中文能力優(yōu)化，并推出了中文微調(diào)版供用戶試用;還有更多基于Llama3的輕創(chuàng)業(yè)項目在啟動。因為，大家節(jié)省了大量訓(xùn)練的成本，只需要投入少量的微調(diào)成本即可快速上線一個垂直領(lǐng)域AI應(yīng)用。

　　而閉源大模型們則都為了拿到大模型落地訂單、爭奪客戶而卷生卷死。

　　從性價比角度，目前在開源模型上進(jìn)行相應(yīng)的訓(xùn)練和微調(diào)比GPT3.5還是具備一定的價格優(yōu)勢。據(jù)了解，Llama2-70b的微調(diào)價格是4美元/100萬token，而GPT3.5則要8美元/100萬token。但價格是會變化的，未來閉源模型一樣可以提供足夠高的性價比。

　　那么，大模型領(lǐng)域的創(chuàng)業(yè)者們?nèi)绾握业絇MF(Product Market Fit)?

　　其實，開源和閉源都不是重點。創(chuàng)業(yè)者沒必要二選一，完全可以全都要，從而找到最適合自己的底層模型并訓(xùn)練出有商業(yè)化潛力的垂直模型。甚至國內(nèi)的一些閉源大模型，也是基于開源Llama的套殼，再疊加專業(yè)垂直領(lǐng)域數(shù)據(jù)集的訓(xùn)練，從而應(yīng)用于細(xì)分領(lǐng)域。

　　喬布斯曾說：“我愿意把我所有的科技去換取和蘇格拉底相處的一個下午。”

　　但對于堅持閉源或者開源大模型的大佬來說，自己立場對面的那些“討厭嘴臉”們，應(yīng)該是不值得自己用所有科技換取一個下午的。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信