田淵棟團隊最新論文解決大模型部署難題推理系統(tǒng)吞吐量提高近30倍！

2023年12月07日 10:39:41 來源：站長之家

　　田淵棟團隊最新發(fā)表的論文解決了大型語言模型在實際部署中遇到的內(nèi)存和輸入長度限制的問題，將推理系統(tǒng)的吞吐量提高了近30倍。論文提出了一種實現(xiàn)KV緩存的新方法，通過識別和保留重要的tokens，顯著減少了內(nèi)存占用，并在長輸入序列的任務(wù)中表現(xiàn)良好。

　　這篇論文的研究對象是大型語言模型(LLM)，該模型在實際部署中面臨著KV緩存成本昂貴和對長序列的泛化能力差的問題。為了解決這些問題，田淵棟團隊提出了一種基于重要tokens的KV緩存逐出策略，通過識別并保留對生成結(jié)果有重要貢獻的tokens，顯著減少了內(nèi)存占用，并提高了模型在處理長輸入序列時的表現(xiàn)。

　　在實驗中，作者使用了OPT、LLaMA和GPT-NeoX等模型驗證了他們提出的方法的準(zhǔn)確性和有效性。實驗結(jié)果顯示，通過使用該方法，DeepSpeed Zero-Inference、Hugging Face Accelerate和FlexGen這三個推理系統(tǒng)的吞吐量分別提高了29倍、29倍和3倍，且在相同的批量大小下，延遲最多可以減少1.9倍。

　　通過研究發(fā)現(xiàn)，大部分注意力鍵和值嵌入在生成過程中貢獻較少的價值，只有一小部分tokens貢獻了大部分的價值�；谶@個發(fā)現(xiàn)，作者提出了一種基于重要tokens的KV緩存逐出策略，動態(tài)保持最近的tokens和重要tokens的平衡。通過使用這種策略，可以顯著減少KV緩存的大小，從而降低了內(nèi)存占用，并提高了模型的推理效率。

　　綜上所述，田淵棟團隊的最新論文成功解決了大型語言模型在實際部署中的難題，通過優(yōu)化KV緩存的實現(xiàn)方法，將推理系統(tǒng)的吞吐量提高了近30倍。這一成果在NeurIPS'23上將進行展示，對于大型語言模型的部署和應(yīng)用具有重要的意義。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信