“客服來電”有詐?抖音客服上線“驗證助手”助用戶識別詐騙OpenAI新模型GPT-5研發(fā)未達預(yù)期:成本高昂 效果不佳曝天馬打入果鏈:為蘋果HomePod供應(yīng)LCD屏 每塊屏僅10美元曝OPPO或首發(fā)新款天璣次旗艦芯片 兩大子品牌Q2發(fā)力諾基亞攜手阿聯(lián)酋運營商e&,展示全球首個固網(wǎng)游戲端到端網(wǎng)絡(luò)切片方案零下25℃制熱26℃!海爾水暖通黑科技亮相冰雪大世界三星沒放棄曲面屏開發(fā)!最新專利曝光暗示有望回歸三大運營商11月成績單:用戶數(shù)據(jù)增幅放緩打造下一個英偉達,孫正義的2026芯片計劃曝光瞭望2025全球6G技術(shù)發(fā)展趨勢AI時代云安全新范式,暢捷通智能守護小微企業(yè)安全上云百川智能發(fā)布全鏈路領(lǐng)域增強金融大模型 Baichuan4-Finance年末家電消費觀察:品質(zhì)生活類產(chǎn)品熱賣,將持續(xù)迎來剛需式普及?GPT-5研發(fā)受阻:OpenAI 新一代模型難見突破性進展新一代語言模型ModernBERT發(fā)布,RAG等任務(wù)處理速度快四倍、成本低新研究顯示:Anthropic 的 Claude AI 在合作能力上領(lǐng)先于 OpenAI 和谷歌模型谷歌向投資者保證人工智能本月將迎來“驚人”表現(xiàn)多模態(tài)大模型引爆應(yīng)用場景 階躍星辰完成數(shù)億美元融資星動紀(jì)元發(fā)布端到端原生機器人大模型ERA-42 實現(xiàn)機器人復(fù)雜場景操作免費模式強攻下,快手、抖音用“短劇VIP”反擊?
  • 首頁 > 云計算頻道 > 大模型

    田淵棟團隊最新論文解決大模型部署難題 推理系統(tǒng)吞吐量提高近30倍!

    2023年12月07日 10:39:41   來源:站長之家

      田淵棟團隊最新發(fā)表的論文解決了大型語言模型在實際部署中遇到的內(nèi)存和輸入長度限制的問題,將推理系統(tǒng)的吞吐量提高了近30倍。論文提出了一種實現(xiàn)KV緩存的新方法,通過識別和保留重要的tokens,顯著減少了內(nèi)存占用,并在長輸入序列的任務(wù)中表現(xiàn)良好。

      這篇論文的研究對象是大型語言模型(LLM),該模型在實際部署中面臨著KV緩存成本昂貴和對長序列的泛化能力差的問題。為了解決這些問題,田淵棟團隊提出了一種基于重要tokens的KV緩存逐出策略,通過識別并保留對生成結(jié)果有重要貢獻的tokens,顯著減少了內(nèi)存占用,并提高了模型在處理長輸入序列時的表現(xiàn)。

    1.jpg

      在實驗中,作者使用了OPT、LLaMA和GPT-NeoX等模型驗證了他們提出的方法的準(zhǔn)確性和有效性。實驗結(jié)果顯示,通過使用該方法,DeepSpeed Zero-Inference、Hugging Face Accelerate和FlexGen這三個推理系統(tǒng)的吞吐量分別提高了29倍、29倍和3倍,且在相同的批量大小下,延遲最多可以減少1.9倍。

      通過研究發(fā)現(xiàn),大部分注意力鍵和值嵌入在生成過程中貢獻較少的價值,只有一小部分tokens貢獻了大部分的價值;谶@個發(fā)現(xiàn),作者提出了一種基于重要tokens的KV緩存逐出策略,動態(tài)保持最近的tokens和重要tokens的平衡。通過使用這種策略,可以顯著減少KV緩存的大小,從而降低了內(nèi)存占用,并提高了模型的推理效率。

      綜上所述,田淵棟團隊的最新論文成功解決了大型語言模型在實際部署中的難題,通過優(yōu)化KV緩存的實現(xiàn)方法,將推理系統(tǒng)的吞吐量提高了近30倍。這一成果在NeurIPS'23上將進行展示,對于大型語言模型的部署和應(yīng)用具有重要的意義。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。