田淵棟團隊最新發(fā)表的論文解決了大型語言模型在實際部署中遇到的內(nèi)存和輸入長度限制的問題,將推理系統(tǒng)的吞吐量提高了近30倍。論文提出了一種實現(xiàn)KV緩存的新方法,通過識別和保留重要的tokens,顯著減少了內(nèi)存占用,并在長輸入序列的任務(wù)中表現(xiàn)良好。
這篇論文的研究對象是大型語言模型(LLM),該模型在實際部署中面臨著KV緩存成本昂貴和對長序列的泛化能力差的問題。為了解決這些問題,田淵棟團隊提出了一種基于重要tokens的KV緩存逐出策略,通過識別并保留對生成結(jié)果有重要貢獻的tokens,顯著減少了內(nèi)存占用,并提高了模型在處理長輸入序列時的表現(xiàn)。
在實驗中,作者使用了OPT、LLaMA和GPT-NeoX等模型驗證了他們提出的方法的準(zhǔn)確性和有效性。實驗結(jié)果顯示,通過使用該方法,DeepSpeed Zero-Inference、Hugging Face Accelerate和FlexGen這三個推理系統(tǒng)的吞吐量分別提高了29倍、29倍和3倍,且在相同的批量大小下,延遲最多可以減少1.9倍。
通過研究發(fā)現(xiàn),大部分注意力鍵和值嵌入在生成過程中貢獻較少的價值,只有一小部分tokens貢獻了大部分的價值;谶@個發(fā)現(xiàn),作者提出了一種基于重要tokens的KV緩存逐出策略,動態(tài)保持最近的tokens和重要tokens的平衡。通過使用這種策略,可以顯著減少KV緩存的大小,從而降低了內(nèi)存占用,并提高了模型的推理效率。
綜上所述,田淵棟團隊的最新論文成功解決了大型語言模型在實際部署中的難題,通過優(yōu)化KV緩存的實現(xiàn)方法,將推理系統(tǒng)的吞吐量提高了近30倍。這一成果在NeurIPS'23上將進行展示,對于大型語言模型的部署和應(yīng)用具有重要的意義。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。