中國開源大模型們紛紛商用免費，這步走對了

2023年07月18日 16:12:04 來源：未來科技力公眾號

　　文來自于微信公眾號未來科技力(ID:smartechworld)，作者:王兆洋

　　在中國對生成式模型的監(jiān)管落地后第二天，在目前最強開源模型LLaMA 再傳出即將允許商用，和GPT4的秘方進一步被“泄露”之際，全球開發(fā)社區(qū)里最受認可的國產(chǎn)開源大模型ChatGLM宣布了一個重要決定:

　　其最新單卡可運行的模型ChatGLM2-6B，開放給企業(yè)用戶免費商用了。

　　這個消息淹沒在Claude2的發(fā)布，馬斯克xAI的成立等新聞中，缺少討論。但它其實是中國基礎模型開源進程的又一個重要時刻。

　　7月14日晚間，智譜AI和清華KEG發(fā)布公告，稱為了更好地支持國產(chǎn)大模型開源生態(tài)，經(jīng)智譜 AI 及清華 KEG 實驗室決定，自即日起 ChatGLM-6B 和 ChatGLM2-6B 權(quán)重對學術研究完全開放，并且在完成企業(yè)登記獲得授權(quán)后，允許免費商業(yè)使用。公告提供了企業(yè)登記入口，需要的信息只有姓名，國家，郵箱，機構(gòu)，用途和要申請的模型(ChatGLM-6B或ChatGLM2-6B)。

　　據(jù)公告，自6月25日發(fā)布 ChatGLM2-6B 后，不到一個月這個模型在 Huggingface 上的下載量已經(jīng)先后超過了120萬。

　　根據(jù)智譜AI的官網(wǎng)，GLM2不限實例+不限推理或微調(diào)工具包的私有化報價此前是一年30萬。而據(jù)一名在公告發(fā)布前剛剛向智譜問價的開發(fā)者稱，對方回復可以稍等，“會降價”。

　　“然后直接免費了。”他說。

　　但事實上這并不突然。

　　根據(jù)近日報道，Meta 準備發(fā)布其人工智能模型 LLaMA 的商用版本。而前不久使用了與原始LLaMA完全相同的預處理步驟和訓練超參數(shù)的開源模型OpenLLaMA已經(jīng)率先宣布徹底開源商用。同時，此前曾挖到谷歌那封“沒有護城河”內(nèi)部信的作者，又“揭秘”了GPT-4的工程和訓練細節(jié)，業(yè)內(nèi)的討論中有不少從業(yè)者傾向于相信它的可靠性。

　　一切都在劇烈演進，基礎模型的飛速進化同時意味著越來越少的秘密:

　　一方面是大模型本身并沒有那么神秘，從最初驚艷所有人的光環(huán)中走出后，更多人會意識到這點;同時，幾個主要公司之間頻繁的技術核心人才流轉(zhuǎn)，最終也會讓秘密不剩多少;而更重要的，就是開源社區(qū)的驚人能量，眾多的聰明才智在基于開源社區(qū)對模型進行優(yōu)化，這種長久的后勁是閉源模型達不到的，而這些能力最終會組合到一起。這幾個月開源社區(qū)就已經(jīng)出現(xiàn)了讓任何人都可以對LLaMa做指令調(diào)優(yōu)的斯坦福Alpaca，100美元就能訓練并看到各類模型匯聚一起的GPT4All，性能堪比LLaMA的阿聯(lián)酋大模型Falcon，更高質(zhì)量的數(shù)據(jù)集Redpajama，以及像OpenLLaMA這類“破解”模型們。

　　而最近的這次“揭秘”，也是讓很多人覺得GPT-4不公開并不是安全考量，而是太容易被學會——MoE模型架構(gòu)等傳言都有一些讓人冷靜下來的意味。于是看起來一個重要的共識已經(jīng)在形成，那就是模型們在某一個階段里取得的任何成績都無法成為護城河。因此對于那些最受矚目和最受歡迎的開源基礎模型來說，允許商用許可就是必須做的事情，因為這樣會更進一步吸引開發(fā)者，讓這些聰明才智基于它的生態(tài)生長。

　　這也意味著很多基于“LLaMa很難允許商用”，以及“開源模型接近GPT4都是被媒體炒作出來的”短期出發(fā)點的分析，長期來看沒有必要了。

　　對于模型提供者，這就需要他們快速調(diào)整自己的策略。不僅是開源與否上不要糾結(jié)，免費商用甚至也要夠快夠果斷。剛剛把最新的6B版本模型免費商用的智譜就是個典型例子。從最初覬覦已久終于找到機會工程化，做出130B的基座版本模型，到發(fā)現(xiàn)6B版本的能力甚至可以做到接近老的千億模型版本，看到一個可以在自己電腦上安裝的模型能吸引的開源社區(qū)關注如此之多，智譜其實一直在根據(jù)變化調(diào)整。

　　據(jù)知情人士稱，今年2月智譜就曾想發(fā)布自己的模型，這更像OpenAI的路線。但后來各種原因選擇開源。而在開源后的表現(xiàn)以及開源社區(qū)的進展讓團隊不少人改變思路。3月14日發(fā)布后，3月16日就登上了GitHub的榜單第一，后面連續(xù)十多天在HuggingFace的熱門榜上排名第一。

　　據(jù)內(nèi)部人士稱，這種迅速獲得的認可讓團隊內(nèi)部感到十分震撼。

　　而接近ChatGLM技術負責人唐杰的人稱，在開源后他在內(nèi)部表示，更多的開源是為了讓中國的科學家和產(chǎn)業(yè)界對大語言模型的訓練和運行的機理更加了解，而不是就簡單把一個別人的模型拿來微調(diào)一下。這是開源的要義。

　　而未來幾個月注定會有越來越多的模型向免費商用進發(fā)。

　　其實只要想明白今天生成式人工智能到底改變了什么也會看得更明白:

　　今天被大模型強化的人工智能，不是要代替人，而是取代過往那種人與機器的交互。過往基于算力的付費模式本質(zhì)上都可以理解為建立在對人與機器交互的壟斷之上的生意，而大模型就是用所有人都會的自然語言方式打破過去一部分算力精英對人與機器交互的壟斷，讓所有人都能參與進來。

　　而開源的邏輯顯然更符合這個趨勢。

　　“如果在幾個小時內(nèi)，就能在消費級硬件上微調(diào)出一個個性化的語言模型，這件事的意義就太重大了。尤其是，它還可以實時整合許多最新的、多樣化的知識。”那篇谷歌內(nèi)部的《沒有護城河》里寫到。

　　一名使用過多個開源大模型進行開發(fā)的技術負責人對我說，不是所有人都有必要重新訓練模型，但大部分要使用模型的開發(fā)者有極強意愿做各種優(yōu)化方案，而最終它們事實上會是集中在為一個或少數(shù)幾個開源模型做優(yōu)化。

　　于是，當閉源的模型與開源生態(tài)注定會越來越多的在解決同樣的問題時，閉源用一種大力出奇跡的方式證明路線可能性和天花板之后，開源會真正把它變得易用和可用，在大模型的技術原理越來越?jīng)]有秘密的趨勢下，開源的吸引力會繼續(xù)變強。而開源社區(qū)圍繞誰的開源模型進行建設就成了關鍵，提供免費商用是爭奪這個核心角色的關鍵。

　　目前國產(chǎn)免費商業(yè)授權(quán)的基礎模型也有了一定數(shù)量，其中除了智譜，百川智能使用了1.4萬億token訓練的的Baichuan13B模型也是商用免費許可，許多開發(fā)者在智譜和百川之間做著對比，而免費商用后，對比的效果會更直接準確有意義。

　　這些國產(chǎn)模型距離全球頂尖的模型水平仍有不少距離，仔細關注這些團隊會知道這些開發(fā)團隊對此是心知肚明的。而商業(yè)可用開源可以讓國產(chǎn)模型進一步擺脫只論benchmark評分的階段，進入了是騾子是馬拉出來溜溜的階段，真正的具體的不同的場景，到底推理表現(xiàn)如何，災難遺忘的問題如何解決，現(xiàn)實環(huán)境數(shù)據(jù)飛輪啟動以后是否能提速追逐，將是每個人都能實實在在看到的。

　　而最終真的憑此吸引來的生態(tài)，才是真正的護城河。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信