• 首頁 > 云計算頻道 > 大模型

    DeepSeek推出NSA 技術:加速長上下文訓練與推理

    2025年02月19日 17:57:03   來源:Citnews中文科技資訊

      DeepSeek團隊最近發(fā)布了NSA(Native Sparse Attention)技術,旨在提升長上下文訓練和推理的速度,同時降低預訓練成本。該技術通過分層稀疏策略優(yōu)化了注意力機制,使得模型在處理長文本時表現(xiàn)出色。

      NSA在多項基準測試中表現(xiàn)優(yōu)異,甚至在某些情況下超越了傳統(tǒng)的完全注意力模型,標志著人工智能訓練與推理技術的重大進步。

      NSA技術顯著提升了長上下文訓練和推理的速度,并降低了預訓練成本。

      采用分層稀疏策略,將注意力機制分為壓縮、選擇和滑動窗口,增強了模型對長文本的處理能力。

      在多項基準測試中,NSA表現(xiàn)優(yōu)異,部分情況下超過了傳統(tǒng)的完全注意力模型。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網大會——工業(yè)互聯(lián)網標識解析專題論壇在沈陽成功舉辦。