隨著企業(yè)越來越多地應(yīng)用大型語言模型(LLMs),如何提升模型的知識準確性并減少幻覺現(xiàn)象,成為了一項重要挑戰(zhàn)。Meta AI 的研究人員在一篇新論文中提出了 “可擴展記憶層”,或許能夠為這一問題提供解決方案。
可擴展記憶層的核心思想是在不增加推理時計算資源的情況下,向 LLMs 中添加更多參數(shù),從而提升其學(xué)習(xí)能力。這種架構(gòu)適用于需要儲存大量事實知識但又希望保持推理速度的應(yīng)用場景。
傳統(tǒng)的語言模型使用 “密集層” 來編碼大量信息。在密集層中,所有參數(shù)在推理時幾乎都是同時激活的,能夠?qū)W習(xí)復(fù)雜的函數(shù),但這需要額外的計算和能量資源。而對于簡單的事實知識,使用具有關(guān)聯(lián)記憶架構(gòu)的簡單層會更加高效和易于理解,這就是記憶層的作用。記憶層通過簡單的稀疏激活和鍵值查找機制來編碼和檢索知識。盡管稀疏層在內(nèi)存占用上高于密集層,但其同時僅使用少量參數(shù),從而提高了計算效率。
雖然記憶層已經(jīng)存在多年,但在現(xiàn)代深度學(xué)習(xí)架構(gòu)中卻鮮有應(yīng)用,主要是因為它們并未針對當前硬件加速器進行優(yōu)化。當前前沿的 LLMs 通常采用某種形式的 “專家混合” 架構(gòu),這與記憶層有相似之處。專家混合模型由多個專門化的小型專家組件構(gòu)成,通過路由機制在推理時激活特定的專家。
為了克服記憶層在計算上輕便但內(nèi)存占用大的挑戰(zhàn),Meta 的研究人員提出了若干改進措施,使其能夠在大規(guī)模應(yīng)用中實現(xiàn)可行性。他們?yōu)橛洃泴优渲昧瞬⑿谢軌蛟诙鄠 GPU 上存儲數(shù)百萬個鍵值對,同時不會減慢模型的運行速度。此外,他們還為處理高內(nèi)存帶寬操作開發(fā)了特定的 CUDA 內(nèi)核,并實現(xiàn)了參數(shù)共享機制,允許多個記憶層共享一組內(nèi)存參數(shù)。
通過對 Llama 模型的修改,將一個或多個密集層替換為共享記憶層,研究人員對記憶增強模型進行了測試。他們的研究發(fā)現(xiàn),記憶模型在多個任務(wù)中表現(xiàn)優(yōu)異,特別是在需要事實知識的任務(wù)上,性能明顯超過密集基線,甚至能與使用2到4倍計算資源的模型競爭。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。