開源大世界，誰來打好大模型的地基？

2023年11月29日 18:16:37 文|周享玥編|趙艷秋 來源：數(shù)智前線

　　通用大模型猶如大模型產(chǎn)業(yè)的地基，而地基的深度和強度將決定大廈的高度。

　　文|周享玥

　　編|趙艷秋

　　11月29日，第四屆人工智能計算大會(AICC 2023)在北京長安街中央商務區(qū)的一家酒店內(nèi)召開。

　　今年異常熱鬧，包括百度、智譜AI、百川智能、網(wǎng)易伏羲、吉利汽車等在內(nèi)的多家大模型企業(yè)和科技企業(yè)匯聚一堂，共同探討AI計算技術風向、AIGC創(chuàng)新成果等。國際數(shù)據(jù)公司IDC和浪潮信息還在會上聯(lián)合發(fā)布了一份《2023-2024年中國人工智能計算力發(fā)展評估報告》。

　　報告顯示，67%的中國企業(yè)都已開始探索生成式人工智能在企業(yè)內(nèi)的應用機會或進行相關資金投入。其中，中國企業(yè)尤其認可生成式AI對于加速決策、提高效率、優(yōu)化用戶和員工體驗等維度帶來的價值，并將在未來三年持續(xù)提高投入力度，超七成企業(yè)增幅在20%-40%之間。

　　隨著越來越多企業(yè)對生成式AI及大模型進行探索和投入，通用大模型的能力也在不斷被強調(diào)。一個共識是，通用大模型猶如大模型產(chǎn)業(yè)的地基，地基的深度和強度將決定大廈的高度。

　　底層的大模型廠商們正為此做出努力。就在這次會議召開前兩天，浪潮信息剛剛發(fā)布“源2.0”基礎大模型，并全面開源1026億、518億、21億三種參數(shù)規(guī)模的模型。

　　據(jù)悉，這是業(yè)界首個完全開源可商用的千億大模型，也是目前國內(nèi)尺寸最大的全面開源大模型。而上一個在國內(nèi)“最大參數(shù)開源大模型”記錄中留下過名字的是阿里。彼時，阿里巴巴集團CEO吳泳銘在2023年世界互聯(lián)網(wǎng)大會上宣布，阿里將開源720億參數(shù)大模型。

　　在通往大模型的未來之路上，持續(xù)拓寬行業(yè)落地的同時，打好地基，依然是重中之重。

　　大模型在路上，發(fā)展路徑百家爭鳴

　　大模型雖然今年才真正爆發(fā)，但業(yè)界對于這塊兒的探索，其實已經(jīng)經(jīng)過幾輪思考沉淀和總結。一位資深業(yè)內(nèi)人士向數(shù)智前線描述了大模型發(fā)展的幾個階段：

　　以2018年谷歌發(fā)布擁有3億參數(shù)的BERT預訓練模型作為起點，AI的大模型時代就已開啟，包括OpenAI、谷歌、微軟、英偉達等國外玩家，浪潮信息、百度、阿里、騰訊等國內(nèi)巨頭，都紛紛重兵投入，進行相關探索。

　　起初幾年，大家的焦點是拼參數(shù)，“每家都是奔著吉尼斯去的，你做千億，它就做萬億”。尤其是2020年5月OpenAI發(fā)布擁有1750億參數(shù)的GPT-3，首次將大模型參數(shù)規(guī)模提升到千億級后，各種千億、萬億大模型層出不窮，看得人眼花繚亂。對外宣傳口徑上，各家的提法也很統(tǒng)一，都在強調(diào)自己的“最大”。

　　這期間，更大參數(shù)量所帶來的智能涌現(xiàn)和泛化能力，讓不少人感到驚喜，但同時，也暴露出一些問題，比如當大模型要真正落到智算中心做工程化時，往往會遇到算力支撐上的巨大考驗。再加上正常的技術商業(yè)化路徑，大家普遍開始走入第二階段：探索在什么樣的場景里去應用。

　　“有的面向知識領域去做技能模型，有的面向行業(yè)直接去做行業(yè)的場景模型。”大模型走向行業(yè)、走向領域應用的路徑是什么，大家都在思考。

　　比如百度，在2022年5月一口氣發(fā)布了十款大模型，其中既包括與產(chǎn)業(yè)場景相結合的行業(yè)大模型，也包括做了知識增強的任務大模型。

　　浪潮信息也在2022年年中，推出了基于“源1.0”基礎大模型的4個技能大模型——對話模型“源曉問”、問答模型“源曉搜”、翻譯模型“源曉譯”，以及古文模型“源曉文”。

　　但這些探索和嘗試都還只能算是“小打小鬧”的中間態(tài)產(chǎn)品，尚未能在外界引起轟動，有人士后來反思，過早地進行領域模型和場景模型的應用，實際是犧牲了部分泛化能力的。直到ChatGPT的橫空出世，這場大模型熱潮才真正被引爆。業(yè)界的各種思潮開始迅速活躍起來。

　　IDC的報告顯示，目前，67%的中國企業(yè)都已開始探索生成式AI在企業(yè)內(nèi)的應用機會或進行相關資金投入。具體到應用場景上，知識管理、對話式應用、銷售和營銷、代碼生成等是全球企業(yè)應用生成式人工智能的主要場景。

　　過去幾個月里，一些大模型的先行先鋒用戶們，也已基于自身實踐形成了各自獨有的路線和方向，大模型還是一個新鮮事物，大家的觀點各不相同。

　　不少企業(yè)通過對行業(yè)大模型的微調(diào)，在某些場景下嘗試落地大模型。不過，也有一些企業(yè)不認同行業(yè)大模型。

　　航旅領域里，中國航信一位工程師告訴數(shù)智前線，他們希望基于基礎大模型來做民航智能服務平臺，而不是經(jīng)過剪裁了知識面的行業(yè)大模型。這背后的思考是，通用大模型的能力會隨著參數(shù)擴大而升級，但行業(yè)模型是基于某個版本的通用模型，投喂相應的專業(yè)數(shù)據(jù)訓練而成。通常，基礎大模型會做參數(shù)升級，而行業(yè)模型很難同步，這不利于模型的智能水平。

　　有企業(yè)則在不斷反思，行業(yè)落地與基礎模型性能提升如何齊頭并進的問題。一家大模型產(chǎn)業(yè)鏈企業(yè)告訴數(shù)智前線，大模型在行業(yè)內(nèi)的落地速度，實際落后于他們年初預期，其中很大一部分原因，是因為國內(nèi)的基礎大模型還不夠成熟，性能仍有待提升。

　　11月初，GPT-4 Turbo的炸街式發(fā)布，更加深了業(yè)界對大模型基礎能力提升的迫切性。“現(xiàn)在最可怕的事情是，OpenAI在開發(fā)者大會上展現(xiàn)出來的能力，又把我們跟GPT-4之間的差距拉大了。”浪潮信息高級副總裁劉軍表示，如何持續(xù)不斷地去縮小這種差距，甚至再往后實現(xiàn)超越，是目前國內(nèi)大模型行業(yè)面臨的核心問題。

　　劉軍認為，AI產(chǎn)業(yè)一定會快速增長，但只有當產(chǎn)業(yè)足夠壯大時，每個參與者從中切到的蛋糕才會越大。因此，國內(nèi)大模型從業(yè)者首先要做的，是讓蛋糕做大。而這其中的一大核心，就是讓基礎大模型的能力提升上去。這就好比人才的教育過程，絕大多數(shù)情況下，首先有了較強的基本能力和素質(zhì)，才能在不同專業(yè)、行業(yè)里干得更好。否則，客戶體驗很差，用不起來，也就難以轉動商業(yè)模式。這也是浪潮信息選擇全面開源“源2.0”基礎大模型的原因之一。

　　基礎大模型正百花齊放

　　浪潮信息人工智能軟件研發(fā)總監(jiān)吳韶華告訴數(shù)智前線，去年11月ChatGPT發(fā)布后，其展現(xiàn)出的全新的能力雖然對業(yè)界震撼很大，但方法上有跡可循。“通過源1.0+強化學習，我們很快趕上，也做出了類似ChatGPT這樣一套系統(tǒng)，在內(nèi)部持續(xù)迭代和改進。”

　　“GPT-4發(fā)布后，我們重新審視了原來的方案，一直在思考一個問題，它到底通過什么樣的技術實現(xiàn)了非常強的基礎模型能力。”而這些思考都落在了11月27日浪潮信息最新發(fā)布的源2.0上。

　　“源2.0”不僅在數(shù)理邏輯、代碼生成、知識問答、中英文翻譯、理解和生成等方面有顯著的能力提升，還針對行業(yè)在算法、數(shù)據(jù)、算力方面的普遍痛點，提出了三項創(chuàng)新。

　　算法方面，源2.0提出并采用了一種新型的注意力算法結構：局部注意力過濾增強機制(LFA：Localized Filtering-based Attention)。

　　有別于傳統(tǒng) Transformer“捕捉全局信息和長依賴信息能力”，LFA 具備“捕捉局部信息和短依賴信息能力”，使得模型更精準地掌握上下文之間的強語義關聯(lián)，學習到人類語言范式本質(zhì)。

　　比如，“我想吃中國菜”這樣一句話輸入到模型中時，首先會進行分詞——我/想/吃/中國/菜/，而傳統(tǒng)Attention對這6個token將同等對待。但在自然語言中，“中國”和“菜”實際是有著更強的關系和局部依賴性的，LFA正是通過先學習相鄰詞之間的關聯(lián)性，再計算全局關聯(lián)性的方法，學到自然語言的這種局部和全局的語言特征，進而提升模型精度。

　　“我們對大模型結構的有效性進行了消融實驗，相比傳統(tǒng)注意力結構，LFA模型精度提高了3.53%。”吳韶華表示。在最終的模型訓練上，最大參數(shù)只有1026億的源2.0，在LFA算法的加持下，也能比用2457億參數(shù)的源1.0，訓練同樣大小Token數(shù)的Train Loss降低28%。而訓練的損失曲線越小，意味著大模型對于訓練集的特征學習得越好。

　　數(shù)據(jù)是另一個被重點提升的方面。劉軍告訴數(shù)智前線，原來大家粗放式經(jīng)營的特征比較明顯，"好像給它足夠的數(shù)據(jù)，只要用算力不停去訓它，最后就能煉出金子來。”但煉金術其實也是需要有高品質(zhì)的金礦才能練出純度更高的金子。

　　后來，大家都重視起了數(shù)據(jù)的清洗工作，但想要獲得高質(zhì)量的數(shù)據(jù)集并不容易。比如源1.0，使用的數(shù)據(jù)絕大部分都來自于互聯(lián)網(wǎng)，浪潮信息為此采用了很多手段提純，才在800多TB數(shù)據(jù)中清洗出了一個5TB的高質(zhì)量數(shù)據(jù)集。

　　尤其是高質(zhì)量數(shù)學、代碼等數(shù)據(jù)的獲得上，難度還要更大。吳韶華透露，為了獲取中文數(shù)學數(shù)據(jù)，他們清洗了從2018年至今約12PB的互聯(lián)網(wǎng)數(shù)據(jù)，但僅獲取到約10GB的數(shù)學數(shù)據(jù)，且質(zhì)量分析后依然不夠高，投入巨大，收益較小。

　　于是，此次推出的源2.0，在訓練數(shù)據(jù)來源、數(shù)據(jù)增強和合成方法方面都進行了創(chuàng)新。一方面，通過引入大量中英文書籍、百科、論文等高質(zhì)量中英文資料，降低了互聯(lián)網(wǎng)語料內(nèi)容占比;另一方面，用大型語言模型作為訓練數(shù)據(jù)生成器，在每個類別上提升數(shù)據(jù)質(zhì)量，獲取了一批高質(zhì)量的數(shù)學與代碼預訓練數(shù)據(jù)。

　　而在算力方面，源2.0采用非均勻流水并行的方法，綜合運用流水線并行+優(yōu)化器參數(shù)并行+數(shù)據(jù)并行的策略，讓模型在流水并行各階段的顯存占用量分布更均衡，避免出現(xiàn)顯存瓶頸導致的訓練效率降低的問題，以此降低了大模型對節(jié)點內(nèi)芯片間通信帶寬的需求，讓其在硬件差異較大的訓練環(huán)境中也能實現(xiàn)高性能訓練。

　　“相當于給你一條高速公路時，能跑到每公里200公里的時速，但給你一條羊腸小道，也能跑起來，并把最終的結果跑到。”劉軍解釋說。

　　浪潮信息在算法、數(shù)據(jù)、算力上的創(chuàng)新，直接推動了源2.0在代碼、數(shù)學、事實問答方面的能力提升。據(jù)介紹，后續(xù)的源2.5、源3.0等，依然還將從算法、數(shù)據(jù)幾個角度入手。

　　實際是，不僅僅是浪潮信息，其他一些底層大模型廠商們，也都在持續(xù)迭代和升級自己的基礎大模型能力。

　　10月，百度發(fā)布文心大模型4.0，宣布實現(xiàn)了基礎模型的全面升級。而后不久，阿里透露，即將開源 720 億參數(shù)大模型。

　　這在不少業(yè)內(nèi)人士看來，是一種好的發(fā)展趨勢。畢竟，產(chǎn)業(yè)要健康發(fā)展，不能只有一家公司擁有領先的能力，而是需要整個產(chǎn)業(yè)能百花齊放。

　　“對于用戶來說，是不是最后就變成只有一家贏呢?其實不是這樣的，我們認為，未來的生成式AI，會是一個多元化的生態(tài)，每個模型可能都有它最擅長的能力，那么大家加起來就是一個非常棒的能力集合。”劉軍告訴數(shù)智前線，將來行業(yè)用戶最終去部署的時候，可能會有不同的模型在后面在做支撐，而這些都是基礎大模型的力量。

　　從硬件到更大市場

　　隨著大模型在各行各業(yè)的持續(xù)滲透和深入，企業(yè)對大模型廠商提出的需求，已經(jīng)不僅僅局限于大模型本身的能力，也在迅速擴展到模型訓練經(jīng)驗、優(yōu)質(zhì)數(shù)據(jù)集，以及如何解決算力效率、存儲、網(wǎng)絡等方方面面的問題。

　　“我們的算法工程師和實施工程師比我們的服務器還搶手，他們出差去跟各家的交流，都排得非常滿。”一位浪潮信息的人士告訴數(shù)智前線。作為國內(nèi)最大的AI服務器提供商，同時也是國內(nèi)最早進行基礎大模型建設的廠商之一，浪潮信息在今年大模型的風潮起來后，接到了大量客戶關于模型預訓練、數(shù)據(jù)處理、架構調(diào)優(yōu)等方面的需求。

　　比如浪潮信息從866TB海量數(shù)據(jù)中清洗出了5TB的高質(zhì)量中文共享數(shù)據(jù)集。劉軍透露，據(jù)不完全統(tǒng)計，目前國內(nèi)大模型中，已有超過50家使用了浪潮信息的開源數(shù)據(jù)集。另外，浪潮信息在模型快速收斂、效率提高上的經(jīng)驗和方法，也受到廣泛關注。

　　模型訓練效率的提升則是更大的一個話題，直接關系到巨大的成本問題。尤其是在GPU短缺的大背景下，如何將有效地將算力用好，是每家企業(yè)都要面臨的挑戰(zhàn)。

　　在今年8月那場集結了20多位國內(nèi)大模型“頂流”創(chuàng)業(yè)者的西溪論道閉門會上，李開復就曾表示，很快大家就會發(fā)現(xiàn)，做過大模型 Infra (硬件底層)的人比做大模型的人還要貴、更稀缺，而會做 Scaling Law(擴展定律，模型能力隨著訓練計算量增加而提升)的人比會做大模型 Infra 的人更稀缺。

　　客戶愈加復雜的需求，正在促使大量的大模型廠商，尤其是實力雄厚的大廠們，開始不斷在角色和業(yè)務上加速轉變和拓展。人工智能產(chǎn)業(yè)鏈上，各種跨界動作也愈發(fā)頻繁，業(yè)界有著“軟件企業(yè)向下，硬件企業(yè)向上”的現(xiàn)象。

　　可以看到，此前，百度、騰訊、阿里等多家大模型廠商，都向用戶提供了大模型相關的工具鏈。一些大廠，也在加快切入用戶更新的一些需求。比如，騰訊云面向大模型時代的新需求，在今年7月發(fā)布了AI原生向量庫，最近又宣布將向量數(shù)據(jù)庫檢索規(guī)模從十億升級至千億級別。京東云則看到了大模型用戶在存儲方面遇到的新挑戰(zhàn)，正在加大相關的業(yè)務投入。

　　浪潮信息對自己的角色定位也在發(fā)生改變。劉軍坦言，“我們越來越不認為自己是個硬件廠商，如何把硬件這個生意轉化成更大的生產(chǎn)力，我們必須去理解客戶的應用需求和痛點，這也要求浪潮信息不僅僅是硬件，在系統(tǒng)、軟件、算法上，也都要非常強的團隊和能力。”

　　劉軍表示，浪潮信息目前在大模型上的核心思路是，要發(fā)揮自身的優(yōu)勢和對產(chǎn)業(yè)的理解，建立一個強大的基礎大模型，然后通過開源的方式，將做應用、做行業(yè)、做專業(yè)、做技能的工作，交給生態(tài)伙伴、行業(yè)客戶和開發(fā)者去完成，共同推動大模型的創(chuàng)新、使用和落地，而不是和大模型企業(yè)、軟件廠商去競爭。

　　為此，8月24日，浪潮信息正式發(fā)布了大模型智算軟件棧OGAI (Open GenAI Infra) “元腦生智”。這是一套基于浪潮信息過往積累的大模型的工程經(jīng)驗、服務客戶的經(jīng)驗等，打造的面向生成式AI開發(fā)與應用場景的全棧軟件，涉及從集群系統(tǒng)環(huán)境部署到算力調(diào)度保障再到大模型開發(fā)管理。

　　OGAI一共分為五層，各層對應不同的應用場景，每層間是解耦的，用戶需要哪些工具，就可以調(diào)用哪些。其中，從 L0 到 L2主要針對的是大模型基礎算力環(huán)境的效率提升。L3和L4則分別為大模型訓練層和多模型納管層，提供的功能類似互聯(lián)網(wǎng)企業(yè)的工具鏈，不同的是，OGAI可以為企業(yè)提供本地化和私有化部署。

　　數(shù)智前線獲悉，目前，浪潮信息在幫助合作伙伴和客戶更好地進行大模型的訓練和應用上，已經(jīng)有了不少實踐。

　　比如，某互聯(lián)網(wǎng)企業(yè)在使用AI集群，對面向推薦場景的大模型進行訓練時，遇到了模型數(shù)據(jù)不能及時從存儲讀取，導致GPU空閑和訓練性能低下的問題，企業(yè)內(nèi)的算法團隊用了幾個月也沒能攻克。

　　浪潮信息的AI團隊介入后，發(fā)現(xiàn)在其場景中，大模型對數(shù)據(jù)讀取IO的需求遠超一般的AI模型訓練情況，從而導致針對普通模型訓練的服務器配置在推薦場景中出現(xiàn)了不適配的情況。針對這一特殊需求，浪潮信息團隊最終基于自身經(jīng)驗，通過對CPU BIOS中的mps等多個選項配置進行對性的的修改優(yōu)化，解決了這一問題。

　　網(wǎng)易伏羲則在浪潮信息提供的AI算力服務、高質(zhì)量共享數(shù)據(jù)集等助力下，訓練出了110億參數(shù)的中文預訓練大模型“玉言”，并登頂中文語言理解權威測評基準CLUE分類任務榜單。

　　“未來，我們將重點圍繞開源社區(qū)來做建設，通過持續(xù)開源基礎大模型的形式，盡可能廣泛地賦能更多的用戶場景，擴展基礎模型的能力邊界。”吳韶華說。浪潮信息也將通過元腦生態(tài)，聯(lián)合國內(nèi)眾多做大模型的左手伙伴，和面向行業(yè)的右手伙伴，一起推進大模型落地行業(yè)。

　　文章內(nèi)容僅供閱讀，不構成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信