通用大模型猶如大模型產(chǎn)業(yè)的地基,而地基的深度和強度將決定大廈的高度。
文|周享玥
編|趙艷秋
11月29日,第四屆人工智能計算大會(AICC 2023)在北京長安街中央商務區(qū)的一家酒店內(nèi)召開。
今年異常熱鬧,包括百度、智譜AI、百川智能、網(wǎng)易伏羲、吉利汽車等在內(nèi)的多家大模型企業(yè)和科技企業(yè)匯聚一堂,共同探討AI計算技術風向、AIGC創(chuàng)新成果等。國際數(shù)據(jù)公司IDC和浪潮信息還在會上聯(lián)合發(fā)布了一份《2023-2024年中國人工智能計算力發(fā)展評估報告》。
報告顯示,67%的中國企業(yè)都已開始探索生成式人工智能在企業(yè)內(nèi)的應用機會或進行相關資金投入。其中,中國企業(yè)尤其認可生成式AI對于加速決策、提高效率、優(yōu)化用戶和員工體驗等維度帶來的價值,并將在未來三年持續(xù)提高投入力度,超七成企業(yè)增幅在20%-40%之間。
隨著越來越多企業(yè)對生成式AI及大模型進行探索和投入,通用大模型的能力也在不斷被強調(diào)。一個共識是,通用大模型猶如大模型產(chǎn)業(yè)的地基,地基的深度和強度將決定大廈的高度。
底層的大模型廠商們正為此做出努力。就在這次會議召開前兩天,浪潮信息剛剛發(fā)布“源2.0”基礎大模型,并全面開源1026億、518億、21億三種參數(shù)規(guī)模的模型。
據(jù)悉,這是業(yè)界首個完全開源可商用的千億大模型,也是目前國內(nèi)尺寸最大的全面開源大模型。而上一個在國內(nèi)“最大參數(shù)開源大模型”記錄中留下過名字的是阿里。彼時,阿里巴巴集團CEO吳泳銘在2023年世界互聯(lián)網(wǎng)大會上宣布,阿里將開源720億參數(shù)大模型。
在通往大模型的未來之路上,持續(xù)拓寬行業(yè)落地的同時,打好地基,依然是重中之重。
01
大模型在路上,發(fā)展路徑百家爭鳴
大模型雖然今年才真正爆發(fā),但業(yè)界對于這塊兒的探索,其實已經(jīng)經(jīng)過幾輪思考沉淀和總結。一位資深業(yè)內(nèi)人士向數(shù)智前線描述了大模型發(fā)展的幾個階段:
以2018年谷歌發(fā)布擁有3億參數(shù)的BERT預訓練模型作為起點,AI的大模型時代就已開啟,包括OpenAI、谷歌、微軟、英偉達等國外玩家,浪潮信息、百度、阿里、騰訊等國內(nèi)巨頭,都紛紛重兵投入,進行相關探索。
起初幾年,大家的焦點是拼參數(shù),“每家都是奔著吉尼斯去的,你做千億,它就做萬億”。尤其是2020年5月OpenAI發(fā)布擁有1750億參數(shù)的GPT-3,首次將大模型參數(shù)規(guī)模提升到千億級后,各種千億、萬億大模型層出不窮,看得人眼花繚亂。對外宣傳口徑上,各家的提法也很統(tǒng)一,都在強調(diào)自己的“最大”。
這期間,更大參數(shù)量所帶來的智能涌現(xiàn)和泛化能力,讓不少人感到驚喜,但同時,也暴露出一些問題,比如當大模型要真正落到智算中心做工程化時,往往會遇到算力支撐上的巨大考驗。再加上正常的技術商業(yè)化路徑,大家普遍開始走入第二階段:探索在什么樣的場景里去應用。
“有的面向知識領域去做技能模型,有的面向行業(yè)直接去做行業(yè)的場景模型。”大模型走向行業(yè)、走向領域應用的路徑是什么,大家都在思考。
比如百度,在2022年5月一口氣發(fā)布了十款大模型,其中既包括與產(chǎn)業(yè)場景相結合的行業(yè)大模型,也包括做了知識增強的任務大模型。
浪潮信息也在2022年年中,推出了基于“源1.0”基礎大模型的4個技能大模型——對話模型“源曉問”、問答模型“源曉搜”、翻譯模型“源曉譯”,以及古文模型“源曉文”。
但這些探索和嘗試都還只能算是“小打小鬧”的中間態(tài)產(chǎn)品,尚未能在外界引起轟動,有人士后來反思,過早地進行領域模型和場景模型的應用,實際是犧牲了部分泛化能力的。直到ChatGPT的橫空出世,這場大模型熱潮才真正被引爆。業(yè)界的各種思潮開始迅速活躍起來。
IDC的報告顯示,目前,67%的中國企業(yè)都已開始探索生成式AI在企業(yè)內(nèi)的應用機會或進行相關資金投入。具體到應用場景上,知識管理、對話式應用、銷售和營銷、代碼生成等是全球企業(yè)應用生成式人工智能的主要場景。
過去幾個月里,一些大模型的先行先鋒用戶們,也已基于自身實踐形成了各自獨有的路線和方向,大模型還是一個新鮮事物,大家的觀點各不相同。
不少企業(yè)通過對行業(yè)大模型的微調(diào),在某些場景下嘗試落地大模型。不過,也有一些企業(yè)不認同行業(yè)大模型。
航旅領域里,中國航信一位工程師告訴數(shù)智前線,他們希望基于基礎大模型來做民航智能服務平臺,而不是經(jīng)過剪裁了知識面的行業(yè)大模型。這背后的思考是,通用大模型的能力會隨著參數(shù)擴大而升級,但行業(yè)模型是基于某個版本的通用模型,投喂相應的專業(yè)數(shù)據(jù)訓練而成。通常,基礎大模型會做參數(shù)升級,而行業(yè)模型很難同步,這不利于模型的智能水平。
有企業(yè)則在不斷反思,行業(yè)落地與基礎模型性能提升如何齊頭并進的問題。一家大模型產(chǎn)業(yè)鏈企業(yè)告訴數(shù)智前線,大模型在行業(yè)內(nèi)的落地速度,實際落后于他們年初預期,其中很大一部分原因,是因為國內(nèi)的基礎大模型還不夠成熟,性能仍有待提升。
11月初,GPT-4 Turbo的炸街式發(fā)布,更加深了業(yè)界對大模型基礎能力提升的迫切性。“現(xiàn)在最可怕的事情是,OpenAI在開發(fā)者大會上展現(xiàn)出來的能力,又把我們跟GPT-4之間的差距拉大了。”浪潮信息高級副總裁劉軍表示,如何持續(xù)不斷地去縮小這種差距,甚至再往后實現(xiàn)超越,是目前國內(nèi)大模型行業(yè)面臨的核心問題。
劉軍認為,AI產(chǎn)業(yè)一定會快速增長,但只有當產(chǎn)業(yè)足夠壯大時,每個參與者從中切到的蛋糕才會越大。因此,國內(nèi)大模型從業(yè)者首先要做的,是讓蛋糕做大。而這其中的一大核心,就是讓基礎大模型的能力提升上去。這就好比人才的教育過程,絕大多數(shù)情況下,首先有了較強的基本能力和素質(zhì),才能在不同專業(yè)、行業(yè)里干得更好。否則,客戶體驗很差,用不起來,也就難以轉動商業(yè)模式。這也是浪潮信息選擇全面開源“源2.0”基礎大模型的原因之一。
02
基礎大模型正百花齊放
浪潮信息人工智能軟件研發(fā)總監(jiān)吳韶華告訴數(shù)智前線,去年11月ChatGPT發(fā)布后,其展現(xiàn)出的全新的能力雖然對業(yè)界震撼很大,但方法上有跡可循。“通過源1.0+強化學習,我們很快趕上,也做出了類似ChatGPT這樣一套系統(tǒng),在內(nèi)部持續(xù)迭代和改進。”
“GPT-4發(fā)布后,我們重新審視了原來的方案,一直在思考一個問題,它到底通過什么樣的技術實現(xiàn)了非常強的基礎模型能力。”而這些思考都落在了11月27日浪潮信息最新發(fā)布的源2.0上。
“源2.0”不僅在數(shù)理邏輯、代碼生成、知識問答、中英文翻譯、理解和生成等方面有顯著的能力提升,還針對行業(yè)在算法、數(shù)據(jù)、算力方面的普遍痛點,提出了三項創(chuàng)新。
算法方面,源2.0提出并采用了一種新型的注意力算法結構:局部注意力過濾增強機制(LFA:Localized Filtering-based Attention)。
有別于傳統(tǒng) Transformer“捕捉全局信息和長依賴信息能力”,LFA 具備“捕捉局部信息和短依賴信息能力”,使得模型更精準地掌握上下文之間的強語義關聯(lián),學習到人類語言范式本質(zhì)。
比如,“我想吃中國菜”這樣一句話輸入到模型中時,首先會進行分詞——我/想/吃/中國/菜/,而傳統(tǒng)Attention對這6個token將同等對待。但在自然語言中,“中國”和“菜”實際是有著更強的關系和局部依賴性的,LFA正是通過先學習相鄰詞之間的關聯(lián)性,再計算全局關聯(lián)性的方法,學到自然語言的這種局部和全局的語言特征,進而提升模型精度。
“我們對大模型結構的有效性進行了消融實驗,相比傳統(tǒng)注意力結構,LFA模型精度提高了3.53%。”吳韶華表示。在最終的模型訓練上,最大參數(shù)只有1026億的源2.0,在LFA算法的加持下,也能比用2457億參數(shù)的源1.0,訓練同樣大小Token數(shù)的Train Loss降低28%。而訓練的損失曲線越小,意味著大模型對于訓練集的特征學習得越好。
數(shù)據(jù)是另一個被重點提升的方面。劉軍告訴數(shù)智前線,原來大家粗放式經(jīng)營的特征比較明顯,"好像給它足夠的數(shù)據(jù),只要用算力不停去訓它,最后就能煉出金子來。”但煉金術其實也是需要有高品質(zhì)的金礦才能練出純度更高的金子。
后來,大家都重視起了數(shù)據(jù)的清洗工作,但想要獲得高質(zhì)量的數(shù)據(jù)集并不容易。比如源1.0,使用的數(shù)據(jù)絕大部分都來自于互聯(lián)網(wǎng),浪潮信息為此采用了很多手段提純,才在800多TB數(shù)據(jù)中清洗出了一個5TB的高質(zhì)量數(shù)據(jù)集。
尤其是高質(zhì)量數(shù)學、代碼等數(shù)據(jù)的獲得上,難度還要更大。吳韶華透露,為了獲取中文數(shù)學數(shù)據(jù),他們清洗了從2018年至今約12PB的互聯(lián)網(wǎng)數(shù)據(jù),但僅獲取到約10GB的數(shù)學數(shù)據(jù),且質(zhì)量分析后依然不夠高,投入巨大,收益較小。
于是,此次推出的源2.0,在訓練數(shù)據(jù)來源、數(shù)據(jù)增強和合成方法方面都進行了創(chuàng)新。一方面,通過引入大量中英文書籍、百科、論文等高質(zhì)量中英文資料,降低了互聯(lián)網(wǎng)語料內(nèi)容占比;另一方面,用大型語言模型作為訓練數(shù)據(jù)生成器,在每個類別上提升數(shù)據(jù)質(zhì)量,獲取了一批高質(zhì)量的數(shù)學與代碼預訓練數(shù)據(jù)。
而在算力方面,源2.0采用非均勻流水并行的方法,綜合運用流水線并行+優(yōu)化器參數(shù)并行+數(shù)據(jù)并行的策略,讓模型在流水并行各階段的顯存占用量分布更均衡,避免出現(xiàn)顯存瓶頸導致的訓練效率降低的問題,以此降低了大模型對節(jié)點內(nèi)芯片間通信帶寬的需求,讓其在硬件差異較大的訓練環(huán)境中也能實現(xiàn)高性能訓練。
“相當于給你一條高速公路時,能跑到每公里200公里的時速,但給你一條羊腸小道,也能跑起來,并把最終的結果跑到。”劉軍解釋說。
浪潮信息在算法、數(shù)據(jù)、算力上的創(chuàng)新,直接推動了源2.0在代碼、數(shù)學、事實問答方面的能力提升。據(jù)介紹,后續(xù)的源2.5、源3.0等,依然還將從算法、數(shù)據(jù)幾個角度入手。
實際是,不僅僅是浪潮信息,其他一些底層大模型廠商們,也都在持續(xù)迭代和升級自己的基礎大模型能力。
10月,百度發(fā)布文心大模型4.0,宣布實現(xiàn)了基礎模型的全面升級。而后不久,阿里透露,即將開源 720 億參數(shù)大模型。
這在不少業(yè)內(nèi)人士看來,是一種好的發(fā)展趨勢。畢竟,產(chǎn)業(yè)要健康發(fā)展,不能只有一家公司擁有領先的能力,而是需要整個產(chǎn)業(yè)能百花齊放。
“對于用戶來說,是不是最后就變成只有一家贏呢?其實不是這樣的,我們認為,未來的生成式AI,會是一個多元化的生態(tài),每個模型可能都有它最擅長的能力,那么大家加起來就是一個非常棒的能力集合。”劉軍告訴數(shù)智前線,將來行業(yè)用戶最終去部署的時候,可能會有不同的模型在后面在做支撐,而這些都是基礎大模型的力量。
03
從硬件到更大市場
隨著大模型在各行各業(yè)的持續(xù)滲透和深入,企業(yè)對大模型廠商提出的需求,已經(jīng)不僅僅局限于大模型本身的能力,也在迅速擴展到模型訓練經(jīng)驗、優(yōu)質(zhì)數(shù)據(jù)集,以及如何解決算力效率、存儲、網(wǎng)絡等方方面面的問題。
“我們的算法工程師和實施工程師比我們的服務器還搶手,他們出差去跟各家的交流,都排得非常滿。”一位浪潮信息的人士告訴數(shù)智前線。作為國內(nèi)最大的AI服務器提供商,同時也是國內(nèi)最早進行基礎大模型建設的廠商之一,浪潮信息在今年大模型的風潮起來后,接到了大量客戶關于模型預訓練、數(shù)據(jù)處理、架構調(diào)優(yōu)等方面的需求。
比如浪潮信息從866TB海量數(shù)據(jù)中清洗出了5TB的高質(zhì)量中文共享數(shù)據(jù)集。劉軍透露,據(jù)不完全統(tǒng)計,目前國內(nèi)大模型中,已有超過50家使用了浪潮信息的開源數(shù)據(jù)集。另外,浪潮信息在模型快速收斂、效率提高上的經(jīng)驗和方法,也受到廣泛關注。
模型訓練效率的提升則是更大的一個話題,直接關系到巨大的成本問題。尤其是在GPU短缺的大背景下,如何將有效地將算力用好,是每家企業(yè)都要面臨的挑戰(zhàn)。
在今年8月那場集結了20多位國內(nèi)大模型“頂流”創(chuàng)業(yè)者的西溪論道閉門會上,李開復就曾表示,很快大家就會發(fā)現(xiàn),做過大模型 Infra (硬件底層)的人比做大模型的人還要貴、更稀缺,而會做 Scaling Law(擴展定律,模型能力隨著訓練計算量增加而提升)的人比會做大模型 Infra 的人更稀缺。
客戶愈加復雜的需求,正在促使大量的大模型廠商,尤其是實力雄厚的大廠們,開始不斷在角色和業(yè)務上加速轉變和拓展。人工智能產(chǎn)業(yè)鏈上,各種跨界動作也愈發(fā)頻繁,業(yè)界有著“軟件企業(yè)向下,硬件企業(yè)向上”的現(xiàn)象。
可以看到,此前,百度、騰訊、阿里等多家大模型廠商,都向用戶提供了大模型相關的工具鏈。一些大廠,也在加快切入用戶更新的一些需求。比如,騰訊云面向大模型時代的新需求,在今年7月發(fā)布了AI原生向量庫,最近又宣布將向量數(shù)據(jù)庫檢索規(guī)模從十億升級至千億級別。京東云則看到了大模型用戶在存儲方面遇到的新挑戰(zhàn),正在加大相關的業(yè)務投入。
浪潮信息對自己的角色定位也在發(fā)生改變。劉軍坦言,“我們越來越不認為自己是個硬件廠商,如何把硬件這個生意轉化成更大的生產(chǎn)力,我們必須去理解客戶的應用需求和痛點,這也要求浪潮信息不僅僅是硬件,在系統(tǒng)、軟件、算法上,也都要非常強的團隊和能力。”
劉軍表示,浪潮信息目前在大模型上的核心思路是,要發(fā)揮自身的優(yōu)勢和對產(chǎn)業(yè)的理解,建立一個強大的基礎大模型,然后通過開源的方式,將做應用、做行業(yè)、做專業(yè)、做技能的工作,交給生態(tài)伙伴、行業(yè)客戶和開發(fā)者去完成,共同推動大模型的創(chuàng)新、使用和落地,而不是和大模型企業(yè)、軟件廠商去競爭。
為此,8月24日,浪潮信息正式發(fā)布了大模型智算軟件棧OGAI (Open GenAI Infra) “元腦生智”。這是一套基于浪潮信息過往積累的大模型的工程經(jīng)驗、服務客戶的經(jīng)驗等,打造的面向生成式AI開發(fā)與應用場景的全棧軟件,涉及從集群系統(tǒng)環(huán)境部署到算力調(diào)度保障再到大模型開發(fā)管理。
OGAI一共分為五層,各層對應不同的應用場景,每層間是解耦的,用戶需要哪些工具,就可以調(diào)用哪些。其中,從 L0 到 L2主要針對的是大模型基礎算力環(huán)境的效率提升。L3和L4則分別為大模型訓練層和多模型納管層,提供的功能類似互聯(lián)網(wǎng)企業(yè)的工具鏈,不同的是,OGAI可以為企業(yè)提供本地化和私有化部署。
數(shù)智前線獲悉,目前,浪潮信息在幫助合作伙伴和客戶更好地進行大模型的訓練和應用上,已經(jīng)有了不少實踐。
比如,某互聯(lián)網(wǎng)企業(yè)在使用AI集群,對面向推薦場景的大模型進行訓練時,遇到了模型數(shù)據(jù)不能及時從存儲讀取,導致GPU空閑和訓練性能低下的問題,企業(yè)內(nèi)的算法團隊用了幾個月也沒能攻克。
浪潮信息的AI團隊介入后,發(fā)現(xiàn)在其場景中,大模型對數(shù)據(jù)讀取IO的需求遠超一般的AI模型訓練情況,從而導致針對普通模型訓練的服務器配置在推薦場景中出現(xiàn)了不適配的情況。針對這一特殊需求,浪潮信息團隊最終基于自身經(jīng)驗,通過對CPU BIOS中的mps等多個選項配置進行對性的的修改優(yōu)化,解決了這一問題。
網(wǎng)易伏羲則在浪潮信息提供的AI算力服務、高質(zhì)量共享數(shù)據(jù)集等助力下,訓練出了110億參數(shù)的中文預訓練大模型“玉言”,并登頂中文語言理解權威測評基準CLUE分類任務榜單。
“未來,我們將重點圍繞開源社區(qū)來做建設,通過持續(xù)開源基礎大模型的形式,盡可能廣泛地賦能更多的用戶場景,擴展基礎模型的能力邊界。”吳韶華說。浪潮信息也將通過元腦生態(tài),聯(lián)合國內(nèi)眾多做大模型的左手伙伴,和面向行業(yè)的右手伙伴,一起推進大模型落地行業(yè)。
文章內(nèi)容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。