1元鎖定早鳥權(quán)益包解鎖實在好禮 CES 2025新品可在京東搶先預(yù)約聯(lián)發(fā)科技攜手Cocos共建端側(cè)生成式AI游戲開發(fā)生態(tài),推動行業(yè)升級阿里 無憂傳媒等聯(lián)合發(fā)起杭州市生產(chǎn)性服務(wù)業(yè)促進會智能駕駛的中場戰(zhàn)事,如何降本增效穿越周期?多款產(chǎn)品燃爆CES 2025,透視涂鴉的長期主義價值淘寶又來微信挖流量了世界經(jīng)濟論壇研究:企業(yè)更傾向于 AI 培訓(xùn)而非裁員 ​TECNO攬獲CES 2024-2025 年度全球智能手機領(lǐng)先品牌TOP10及兩項產(chǎn)品創(chuàng)新大獎英偉達發(fā)布Groot Teleop 技術(shù) 允許通過Apple Vision Pro來訓(xùn)練機器人2024胡潤中國人工智能企業(yè)50強榜單:科大訊飛第二、商湯科技第三Stability AI 推出 SPAR3D:單圖像生成3D 對象一秒鐘搞定水軍黑產(chǎn)瞄上了視頻創(chuàng)作者 抖音提醒:謹慎甄別“詐騙廣告”字節(jié)聯(lián)合高校出品!STAR 模型:提升視頻清晰度和分辨率Adobe 的 TransPixar將煙霧、反射等透明效果無縫融入場景810 億元,財政部已預(yù)下達 2025 年消費品以舊換新資金全新視頻修復(fù)技術(shù) SeedVR:模糊變高清,可處理任意長度視頻微軟正式開源超強小模型Phi-4通義萬相推2.1視頻模型 大幅提升復(fù)雜運動能力保險極客受邀出席2025年分子保險科技節(jié),暢談團險全流程數(shù)智升級2nm 半導(dǎo)體爭奪戰(zhàn):日本 Rapidus 試制博通芯片,計劃 6 月交付
  • 首頁 > 云計算頻道 > 大模型

    Meta提出新型可擴展記憶層,提升語言模型知識儲備、減少幻覺現(xiàn)象

    2025年01月08日 14:45:31   來源:AIbase基地

      隨著企業(yè)越來越多地應(yīng)用大型語言模型(LLMs),如何提升模型的知識準確性并減少幻覺現(xiàn)象,成為了一項重要挑戰(zhàn)。Meta AI 的研究人員在一篇新論文中提出了 “可擴展記憶層”,或許能夠為這一問題提供解決方案。

      可擴展記憶層的核心思想是在不增加推理時計算資源的情況下,向 LLMs 中添加更多參數(shù),從而提升其學(xué)習(xí)能力。這種架構(gòu)適用于需要儲存大量事實知識但又希望保持推理速度的應(yīng)用場景。

      傳統(tǒng)的語言模型使用 “密集層” 來編碼大量信息。在密集層中,所有參數(shù)在推理時幾乎都是同時激活的,能夠?qū)W習(xí)復(fù)雜的函數(shù),但這需要額外的計算和能量資源。而對于簡單的事實知識,使用具有關(guān)聯(lián)記憶架構(gòu)的簡單層會更加高效和易于理解,這就是記憶層的作用。記憶層通過簡單的稀疏激活和鍵值查找機制來編碼和檢索知識。盡管稀疏層在內(nèi)存占用上高于密集層,但其同時僅使用少量參數(shù),從而提高了計算效率。

      雖然記憶層已經(jīng)存在多年,但在現(xiàn)代深度學(xué)習(xí)架構(gòu)中卻鮮有應(yīng)用,主要是因為它們并未針對當前硬件加速器進行優(yōu)化。當前前沿的 LLMs 通常采用某種形式的 “專家混合” 架構(gòu),這與記憶層有相似之處。專家混合模型由多個專門化的小型專家組件構(gòu)成,通過路由機制在推理時激活特定的專家。

      為了克服記憶層在計算上輕便但內(nèi)存占用大的挑戰(zhàn),Meta 的研究人員提出了若干改進措施,使其能夠在大規(guī)模應(yīng)用中實現(xiàn)可行性。他們?yōu)橛洃泴优渲昧瞬⑿谢軌蛟诙鄠 GPU 上存儲數(shù)百萬個鍵值對,同時不會減慢模型的運行速度。此外,他們還為處理高內(nèi)存帶寬操作開發(fā)了特定的 CUDA 內(nèi)核,并實現(xiàn)了參數(shù)共享機制,允許多個記憶層共享一組內(nèi)存參數(shù)。

      通過對 Llama 模型的修改,將一個或多個密集層替換為共享記憶層,研究人員對記憶增強模型進行了測試。他們的研究發(fā)現(xiàn),記憶模型在多個任務(wù)中表現(xiàn)優(yōu)異,特別是在需要事實知識的任務(wù)上,性能明顯超過密集基線,甚至能與使用2到4倍計算資源的模型競爭。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。