隨著大模型技術(shù)迎來顛覆性突破,新興AI應(yīng)用大量涌現(xiàn),不斷重塑著人類、機器與智能的關(guān)系。
為此,昆侖萬維集團重磅推出《天工一刻》系列產(chǎn)業(yè)觀察欄目。在本欄目中,我們將對大模型產(chǎn)業(yè)熱點、技術(shù)創(chuàng)新、應(yīng)用案例進行深度解讀,同時邀請學(xué)術(shù)專家、行業(yè)領(lǐng)袖分享優(yōu)秀的大模型行業(yè)趨勢、技術(shù)進展,以饗讀者。
MoE混合專家大模型最近究竟有多火?
舉個例子,在此前的GTC 2024上,英偉達PPT上的一行小字,吸引了整個硅谷的目光。
“GPT-MoE 1.8T”
這行小字一出來,X(推特)上直接炸鍋了。
“GPT-4采用了MoE架構(gòu)”,這條整個AI圈瘋傳已久的傳言,竟然被英偉達給“無意中”坐實了。消息一出,大量AI開發(fā)者們在社交平臺上發(fā)帖討論,有的看戲吐槽、有的認真分析、有的開展技術(shù)對比,一時好不熱鬧。
MoE大模型的火熱,可見一斑。
近半年多以來,各類MoE大模型更是層出不窮。在海外,OpenAI推出GPT-4、谷歌推出Gemini、Mistral AI推出Mistral、連馬斯克xAI的最新大模型Grok-1用的也是MoE架構(gòu)。
而在國內(nèi),昆侖萬維也于今年4月17日正式推出了新版MoE大語言模型「天工3.0」,擁有4000億參數(shù),超越了3140億參數(shù)的Grok-1,成為全球最大的開源MoE大模型。
MoE究竟是什么?它有哪些技術(shù)原理?它的優(yōu)勢和缺點是什么?它又憑什么能成為當(dāng)前最火的大模型技術(shù)?
以上問題,本文將逐一回答。
MoE核心邏輯:術(shù)業(yè)有專攻
MoE,全稱Mixture of Experts,混合專家模型。
MoE是大模型架構(gòu)的一種,其核心工作設(shè)計思路是“術(shù)業(yè)有專攻”,即將任務(wù)分門別類,然后分給多個“專家”進行解決。
與MoE相對應(yīng)的概念是稠密(Dense)模型,可以理解為它是一個“通才”模型。
一個通才能夠處理多個不同的任務(wù),但一群專家能夠更高效、更專業(yè)地解決多個問題。
(圖片來源:《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》)
上圖中,左側(cè)圖為傳統(tǒng)大模型架構(gòu),右圖為MoE大模型架構(gòu)。
兩圖對比可以看到,與傳統(tǒng)大模型架構(gòu)相比,MoE架構(gòu)在數(shù)據(jù)流轉(zhuǎn)過程中集成了一個專家網(wǎng)絡(luò)層(紅框部分)。
下圖為紅框內(nèi)容的放大展示:
(圖片來源:Zian (Andy) Wang)
專家網(wǎng)絡(luò)層的核心由門控網(wǎng)絡(luò)(Gating Network)和一組專家模型(Experts)構(gòu)成,其工作流程大致如下:
1、數(shù)據(jù)首先會被分割多個區(qū)塊(Token),每組數(shù)據(jù)進入專家網(wǎng)絡(luò)層時,首先會進入門控網(wǎng)絡(luò)。
2、門控網(wǎng)絡(luò)將每組數(shù)據(jù)分配給一個或多個專家,每個專家模型可以專注于處理該部分數(shù)據(jù),“讓專業(yè)的人做專業(yè)的事”。
3、最終,所有專家的輸出結(jié)果匯總,系統(tǒng)進行加權(quán)融合,得到最終輸出。
當(dāng)然,以上只是一個概括性描述,關(guān)于門控網(wǎng)絡(luò)的位置、模型、專家數(shù)量、以及MoE與Transformer架構(gòu)的具體結(jié)合方案,各家方案都略有差別,但核心思路是一致的。
與一個“通才網(wǎng)絡(luò)”相比,一組術(shù)業(yè)有專攻的“專家網(wǎng)絡(luò)”能夠提供更好的模型性能、更好地完成復(fù)雜的多種任務(wù),同時,也能夠在不顯著增加計算成本的情況下大幅增加模型容量,讓萬億參數(shù)級別的大模型成為可能。
Scaling Law:讓模型更大
MoE之所以受到整個AI大模型行業(yè)的追捧,一個核心的原因是——今天的大模型,正迫切地需要變得更大。
而這一切的原因,則要追溯到Scaling Law。
Scaling Law,規(guī)模定律,也譯為縮放定律。這不是一個嚴格的數(shù)學(xué)定律,它只是用來描述物理、生物、計算機等學(xué)科中關(guān)于系統(tǒng)復(fù)雜屬性變化的規(guī)律。
而在大語言模型里,從Scaling Law能夠衍生出一個通俗易懂的結(jié)論:
“模型越大,性能越好。”
更準確的描述是:當(dāng)AI研究人員不斷增加大語言模型的參數(shù)規(guī)模時,模型的性能將得到顯著提升,不僅能獲得強大的泛化能力,甚至出現(xiàn)智能涌現(xiàn)。
自人工智能誕生以來,人們一直試圖設(shè)計出更巧妙的算法、更精密的架構(gòu),希望通過人類的智慧將機器設(shè)計得更聰明,達到通用人工智能。
但以O(shè)penAI為代表的業(yè)內(nèi)另一種聲音說:“我反對!”
2019年,機器學(xué)習(xí)先驅(qū)Rich Sutton曾經(jīng)發(fā)表過一篇經(jīng)典文章《The Bitter Lesson》,該文幾乎被全體OpenAI成員奉為圭臬。
文中認為,也許這種傳統(tǒng)方法是一種錯誤的思路;也許試圖用人類智慧設(shè)計出通用人工智能的這個路徑,在過去幾十年間,讓整個行業(yè)都走了大量彎路,付出了苦澀的代價。
而真正正確的路徑是:不斷擴大模型規(guī)模,再砸進去天文數(shù)字的強大算力,讓Scaling Law創(chuàng)造出更“聰明”的人工智能,而不是靠人類自己去設(shè)計。
在這一輪大模型火起來之前,遵循這一思路的科學(xué)家一直是業(yè)內(nèi)的少數(shù)派,但自從GPT路線在自然語言處理上大獲成功之后,越來越多研究人員加入這一陣列。
追求更大的模型,成為了人工智能性能突破的一大核心思路。
然而問題隨之而來。
眾所周知,隨著大模型越來越大,模型訓(xùn)練的困難程度、資源投入、訓(xùn)練時間都在指數(shù)型提升,可模型效果卻無法保證等比例提升。
隨著模型越來越大,穩(wěn)定性也越來越差,種種綜合原因讓大模型參數(shù)量長久以來限制在百億與千億級別,難以進一步擴大。
如何在有限的計算資源預(yù)算下,如何訓(xùn)練一個規(guī)模更大、效果更好的大模型,成為了困擾行業(yè)的問題。
此時,人們將目光投向了MoE。
MoE:突破萬億參數(shù)大關(guān)
早在1991年,兩位人工智能界的泰斗Michael Jordan與Geoffrey Hinton就聯(lián)手發(fā)布了MoE領(lǐng)域的奠基論文《Adaptive Mixtures of Local Experts》,正式開創(chuàng)了這一技術(shù)路徑。
2020年,《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》論文又首次將MoE技術(shù)引入到Transformer架構(gòu)中,拉開了“MoE+大模型”的大幕。
2022年,Google《Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》論文中提出的MoE大模型更是一舉突破了萬億參數(shù)大關(guān)。
Switch Transformers模型參數(shù)達到1.57萬億,與此前的T5模型相比,在相同的計算資源下獲得高達7倍的模型預(yù)訓(xùn)練速度提升,并實現(xiàn)了4倍的模型加速。
而正如文章開頭所言,本屆GTC上英偉達側(cè)面證實了那個公認的傳言:OpenAI在2023年推出的GPT-4,同樣采用了MoE架構(gòu),其模型效果與計算效率都得到了顯著提升。
總結(jié)起來,MoE在大模型領(lǐng)域的優(yōu)勢包括:
1、與傳統(tǒng)的Dense模型相比,MoE能夠在遠少于前者所需的計算資源下進行有效的預(yù)訓(xùn)練,計算效率更高、速度更快,進而使得模型規(guī)模得到顯著擴大,獲得更好的AI性能。
2、由于MoE在模型推理過程中能夠根據(jù)輸入數(shù)據(jù)的不同,動態(tài)地選擇不同的專家網(wǎng)絡(luò)進行計算,這種稀疏激活的特性能夠讓模型擁有更高的推理計算效率,從而讓用戶獲得更快的AI響應(yīng)速度。
3、由于MoE架構(gòu)中集成了多個專家模型,每個專家模型都能針對不同的數(shù)據(jù)分布和構(gòu)建模式進行搭建,從而顯著提升大模型在各個細分領(lǐng)域的專業(yè)能力,使得MoE在處理復(fù)雜任務(wù)時性能顯著變好。
4、針對不同的專家模型,AI研究人員能夠針對特定任務(wù)或領(lǐng)域的優(yōu)化策略,并通過增加專家模型數(shù)量、調(diào)整專家模型的權(quán)重配比等方式,構(gòu)建更為靈活、多樣、可擴展的大模型。
不過,天下沒有免費的性能提升,在擁有種種優(yōu)勢之于,MoE架構(gòu)也存在著不少挑戰(zhàn)。
由于MoE需要把所有專家模型都加載在內(nèi)存中,這一架構(gòu)對于顯存的壓力將是巨大的,通常涉及復(fù)雜的算法和高昂的通信成本,并且在資源受限設(shè)備上部署受到很大限制。
此外,隨著模型規(guī)模的擴大,MoE同樣面臨著訓(xùn)練不穩(wěn)定性和過擬合的問題、以及如何確保模型的泛化性和魯棒性問題、如何平衡模型性能和資源消耗等種種問題,等待著大模型開發(fā)者們不斷優(yōu)化提升。
結(jié)語
總結(jié)來說,MoE架構(gòu)的核心思想是將一個復(fù)雜的問題分解成多個更小、更易于管理的子問題,并由不同的專家網(wǎng)絡(luò)分別處理。這些專家網(wǎng)絡(luò)專注于解決特定類型的問題,通過組合各自的輸出來提供最終的解決方案,提高模型的整體性能和效率。
當(dāng)前,MoE仍舊是一個新興的大模型研究方向,研究資料少、資源投入大、技術(shù)門檻高,其研發(fā)之初仍舊以海外巨頭為主導(dǎo),國內(nèi)只有昆侖萬維等少數(shù)玩家能夠推出自研MoE大模型。
不過,值得注意的是,雖然以擴大模型參數(shù)為核心的“暴力出奇跡”路線主導(dǎo)了當(dāng)前的人工智能行業(yè)研究,但時至今日也沒有人能拍著胸脯保證,Scaling Law就是人類通往通用人工智能的唯一正確答案。
從1991年正式提出至今,MoE架構(gòu)已歷經(jīng)了30年歲月;深度神經(jīng)網(wǎng)絡(luò)更是70年前就已提出的概念,直到近十多年間才取得突破,帶領(lǐng)人類攀上人工智能的又一座高峰。
MoE不是人工智能技術(shù)前進道路的終點,它甚至不會是大模型技術(shù)的最終答案。未來,還將有大量感知、認知、計算、智能領(lǐng)域的挑戰(zhàn)擺在研究者面前,等待著人們?nèi)ブ鹨唤鉀Q。
所幸的是,怕什么真理無窮,進一寸有一寸的歡喜。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。