Meta AI 推出大概念模型:超越傳統(tǒng)語言模型的新突破

2024年12月16日 15:30:48 來源：AIbase基地

　　近年來，大型語言模型(LLMs)在自然語言處理(NLP)領域取得了顯著進展，廣泛應用于文本生成、摘要和問答等場景。然而，這些模型依賴于逐字預測的 token 級處理方法，這種方式在理解上下文時存在困難，且往往產(chǎn)生不一致的輸出。此外，將 LLMs 擴展到多語言和多模態(tài)應用時，計算成本和數(shù)據(jù)需求也相對較高。為了解決這些問題，Meta AI 提出了一種全新的方法 —— 大概念模型(LCMs)。

　　大概念模型(LCMs)代表了傳統(tǒng) LLM 架構(gòu)的一次重要轉(zhuǎn)變。它們引入了兩個重大創(chuàng)新:首先，LCMs 在一個高維嵌入空間中進行建模，而不是依賴于離散的 tokens。這一嵌入空間被稱為 SONAR，旨在支持200多種語言和多種模態(tài)，包括文本和語音，提供語言和模態(tài)無關的處理能力。其次，LCMs 的設計允許在語義層面上無縫過渡，能夠在不同語言和模態(tài)之間實現(xiàn)強大的零 - shot 泛化能力。

　　在 LCMs 的核心，存在概念編碼器和解碼器，這些組件將輸入句子映射到 SONAR 的嵌入空間，并將嵌入解碼回自然語言或其他模態(tài)。這些組件的凍結(jié)設計確保了模塊化，方便在不重訓整個模型的情況下擴展新語言或模態(tài)。

　　技術細節(jié)方面，LCMs 采用了層次化架構(gòu)，模仿人類的推理過程，從而提升了長篇內(nèi)容的一致性，同時能夠在不干擾整體上下文的情況下進行局部編輯。通過采用擴散模型，LCMs 在生成過程中表現(xiàn)出色，這些模型基于前面的嵌入預測下一個 SONAR 嵌入。實驗中，采用了單塔和雙塔兩種架構(gòu)，其中雙塔架構(gòu)在上下文編碼和去噪上分開處理，提高了效率。

　　實驗結(jié)果顯示，基于擴散的雙塔 LCM 在多個任務中展現(xiàn)了競爭力，如多語言摘要任務中，LCMs 在零 - shot 情況下的表現(xiàn)優(yōu)于基線模型，證明了它們的適應能力。同時，LCMs 在處理較短序列時也表現(xiàn)出高效性和準確性，相關度量指標的顯著提升印證了這一點。

　　Meta AI 的大概念模型為傳統(tǒng) token 級語言模型提供了一種有前途的替代方案，通過高維概念嵌入和模態(tài)無關的處理，解決了現(xiàn)有方法的一些關鍵局限。隨著對這一架構(gòu)研究的深入，LCMs 有望重新定義語言模型的能力，為 AI 驅(qū)動的溝通提供更具可擴展性和適應性的方法。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信