MoE大模型大火，AI廠商們在新架構(gòu)上看到了什么樣的未來？

2024年06月12日 16:03:48 陳泊丞 來源：智能相對論

　　文 | 智能相對論

　　作者 | 陳泊丞

　　很久以前，在一個(gè)遙遠(yuǎn)的國度里，國王決定建造一座宏偉的宮殿，以展示國家的繁榮和權(quán)力。他邀請了全國最著名的建筑師來設(shè)計(jì)這座宮殿，這個(gè)人以其卓越的才能和智慧聞名。

　　然而，這位建筑師設(shè)計(jì)的宮殿雖然精美絕倫，卻因?yàn)檫^于復(fù)雜和精細(xì)，以至于在實(shí)際施工過程中遇到了重重困難，許多技藝高超的工匠也感到力不從心。

　　這時(shí)，國王手下有三位普通的石匠，他們雖然沒有顯赫的名聲，技藝也稱不上頂尖，但三人經(jīng)常一起工作，彼此間有著極好的默契和互補(bǔ)的技能。面對宮殿建設(shè)的難題，他們沒有退縮，而是聚在一起討論和思考解決方案。通過無數(shù)次的嘗試和調(diào)整，他們發(fā)明了幾種新的工具和施工方法，簡化了復(fù)雜的建筑過程，使原本難以實(shí)施的設(shè)計(jì)變得可行。

　　最終，這三位平平無奇的石匠通過配合，不僅幫助解決了工程上的難題，還加快了宮殿的建設(shè)進(jìn)度，確保了工程質(zhì)量，讓國王和所有人大為驚訝。他們的故事很快傳遍了整個(gè)國度，并成了一段佳話——“眾人智慧勝過一人天才”。

　　而這句佳話所反映出來的道理，恰恰正是目前AI行業(yè)大火的MoE混合專家模型的設(shè)計(jì)思路。目前，隨著MoE模型大火，AI大模型的發(fā)展不再是追求“一人天才”，而是走向了“眾人智慧”。

　　主流廠商越來越看重MoE模型，在新架構(gòu)上他們又看到了什么樣的未來?“眾人智慧勝過一人天才”的佳話是否能在MoE模型上得以實(shí)現(xiàn)?

　　有多少大模型廠商在押注“眾人智慧”?

　　目前，在海外，OpenAI的GPT-4、谷歌的Gemini、Mistral AI的Mistral、xAI的Grok-1等主流大模型都采用了MoE架構(gòu)。

　　而在國內(nèi)，昆侖萬維推出的天工3.0、浪潮信息發(fā)布的源2.0-M32、通義千問團(tuán)隊(duì)發(fā)布的Qwen1.5-MoE-A2.7B、MiniMax全量發(fā)布的abab6、幻方量化旗下的DeepSeek發(fā)布的DeepSeek-MoE 16B等等也都屬于MoE模型。

　　越來越多的廠商開始涉足MoE模型的開發(fā)和應(yīng)用。比起“眾人智慧”，MoE模型的具體工作原理更接近中國的一句古語“術(shù)業(yè)有專攻”，通過把任務(wù)分門別類，然后分給多個(gè)特定的“專家”進(jìn)行解決。

　　它的工作流程大致如此，首先數(shù)據(jù)會被分割為多個(gè)區(qū)塊(token)，然后通過門控網(wǎng)絡(luò)技術(shù)(Gating Network)再把每組數(shù)據(jù)分配到特定的專家模型(Experts)進(jìn)行處理，也就是讓專業(yè)的人處理專業(yè)的事，最終匯總所有專家的處理結(jié)果，根據(jù)關(guān)聯(lián)性加權(quán)輸出答案。

　　當(dāng)然，這只是一個(gè)大致的思路，關(guān)于門控網(wǎng)絡(luò)的位置、模型、專家數(shù)量、以及MoE與Transformer架構(gòu)的具體結(jié)合方案，各家方案都不盡相同，也逐漸成為各家競爭的方向——誰的算法更優(yōu)，便能在這個(gè)流程上拉開MoE模型之間的差距。

　　像浪潮信息就提出了基于注意力機(jī)制的門控網(wǎng)絡(luò)(Attention Router)，這種算法結(jié)構(gòu)的亮點(diǎn)在于可以通過局部過濾增強(qiáng)的注意力機(jī)制(LFA, Localized Filtering-based Attention)，率先學(xué)習(xí)相鄰詞之間的關(guān)聯(lián)性，然后再計(jì)算全局關(guān)聯(lián)性的方法，能夠更好地學(xué)習(xí)到自然語言的局部和全局的語言特征，對于自然語言的關(guān)聯(lián)語義理解更準(zhǔn)確，從而更好地匹配專家模型，保證了專家之間協(xié)同處理數(shù)據(jù)的水平，促使模型精度得以提升。

　　拋開目前各家廠商在算法結(jié)構(gòu)上的創(chuàng)新與優(yōu)化不談，MoE模型這種工作思路本身所帶來的性能提升就非常顯著——通過細(xì)粒度的數(shù)據(jù)分割和專家匹配，從而實(shí)現(xiàn)了更高的專家專業(yè)化和知識覆蓋。

　　這使得MoE模型在處理處理復(fù)雜任務(wù)時(shí)能夠更準(zhǔn)確地捕捉和利用相關(guān)知識，提高了模型的性能和適用范圍。因此，「智能相對論」嘗試了去體驗(yàn)天工3.0加持的AI搜索，就發(fā)現(xiàn)對于用戶較為籠統(tǒng)的問題，AI居然可以快速的完成拆解，并給出多個(gè)項(xiàng)目參數(shù)的詳細(xì)對比，屬實(shí)是強(qiáng)大。

　　由此我們可以看到，AI在對比兩款車型的過程中，巧妙地將這一問題拆解成了續(xù)航里程、動力性能、外觀設(shè)計(jì)、內(nèi)飾設(shè)計(jì)、智能化與自動駕駛、市場表現(xiàn)與用戶口碑、價(jià)格等多個(gè)項(xiàng)目，分別處理得出較為完整且專業(yè)的答案。

　　這種“眾人智慧”的結(jié)果，更是“術(shù)業(yè)有專攻”的優(yōu)勢——MoE模型之所以受到越來越多廠商的關(guān)注，首要的關(guān)鍵就在于其所帶來的全新解決問題的思路促使模型的性能得到了較為顯著的提高。特別是伴隨著行業(yè)復(fù)雜問題的涌現(xiàn)，這一優(yōu)勢將使得MoE模型得到更廣泛的應(yīng)用。

　　各大廠商爭先開源MoE模型的背后

　　在MoE模型被廣泛應(yīng)用的同時(shí)，也有部分廠商爭先開源了自家的MoE模型。前不久，昆侖萬維宣布開源2千億參數(shù)的Skywork-MoE。而在此之前，浪潮信息的源2.0-M32、DeepSeek的DeepSeek-MoE 16B等，也都紛紛開源。

　　開源的意義在于讓MoE模型更好的普及。那么，對于市場而言，為什么要選擇MoE模型?

　　拋開性能來說，MoE模型更突出的一點(diǎn)優(yōu)勢則在于算力效率的提升。

　　DeepSeek-MoE 16B在保持與7B參數(shù)規(guī)模模型相當(dāng)?shù)男阅艿耐瑫r(shí)，只需要大約40%的計(jì)算量。而37億參數(shù)的源2.0-M32在取得與700億參數(shù)LLaMA3相當(dāng)性能水平的同時(shí)，所消耗的算力也僅為LLaMA3的1/19。

　　也就意味著，同樣的智能水平，MoE模型可以用更少的計(jì)算量和內(nèi)存需求來實(shí)現(xiàn)。這得益于MoE模型在應(yīng)用中并非要完全激活所有專家網(wǎng)絡(luò)，而只需要激活部分專家網(wǎng)絡(luò)就可以解決相關(guān)問題，很好避免了過去“殺雞用牛刀”的尷尬局面。

　　舉個(gè)例子，盡管DeepSeek-MoE 16B的總參數(shù)量為16.4B，但每次推理只激活約2.8B的參數(shù)。與此同時(shí)，它的部署成本較低，可以在單卡40G GPU上進(jìn)行部署，這使得它在實(shí)際應(yīng)用中更加輕量化、靈活且經(jīng)濟(jì)。

　　在當(dāng)前算力資源越來越緊張的局面下，MoE模型的出現(xiàn)和應(yīng)用可以說為行業(yè)提供了一個(gè)較為現(xiàn)實(shí)且理想的解決方案。

　　更值得一提的是，MoE模型還可以輕松擴(kuò)展到成百上千個(gè)專家，使得模型容量極大增加，同時(shí)也允許在大型分布式系統(tǒng)上進(jìn)行并行計(jì)算。由于各個(gè)專家只負(fù)責(zé)一部分?jǐn)?shù)據(jù)處理，因此在保持模型性能的同時(shí)，又能顯著降低了單個(gè)節(jié)點(diǎn)的內(nèi)存和計(jì)算需求。

　　如此一來，AI能力的普惠便有了非�？尚械穆窂�。這樣的特性再加上廠商開源，將促使更多中小企業(yè)不需要重復(fù)投入大模型研發(fā)以及花費(fèi)過多算力資源的情況下便能接入AI大模型，獲取相關(guān)的AI能力，促進(jìn)技術(shù)普及和行業(yè)創(chuàng)新。

　　當(dāng)然，在這個(gè)過程中，MoE模型廠商們在為市場提供開源技術(shù)的同時(shí)，也有機(jī)會吸引更多企業(yè)轉(zhuǎn)化成為付費(fèi)用戶，進(jìn)而走通商業(yè)化路徑。畢竟，MoE模型的優(yōu)勢擺在眼前，接下來或許將有更多的企業(yè)斗都會嘗試新的架構(gòu)來拓展AI能力，越早開源越能吸引更多市場主體接觸并參與其中。

　　開源本身是對行業(yè)趨勢的一種認(rèn)知判斷和提前布局，由此來說MoE模型具有成為未來AI能力普惠的關(guān)鍵。

　　寫在最后

　　MoE大模型作為當(dāng)前人工智能領(lǐng)域的技術(shù)熱點(diǎn)，其獨(dú)特的架構(gòu)和卓越的性能為人工智能的發(fā)展帶來了新的機(jī)遇。不管是應(yīng)用還是開源，隨著技術(shù)的不斷進(jìn)步和應(yīng)用場景的不斷拓展，MoE大模型有望在更多領(lǐng)域發(fā)揮巨大的潛力。

　　如同開篇的寓言故事，人們或許會在開始追求驚才艷艷的“一人天才”，但是在實(shí)踐過程中也會逐漸發(fā)現(xiàn)懂得配合和互補(bǔ)的“眾人智慧”才是建造落地的關(guān)鍵，就如同現(xiàn)在AI領(lǐng)域的MoE大模型大火。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信