英特爾推Extension for Transformers工具包大模型推理性能提升40倍

2023年12月01日 16:45:37 來源：站長(zhǎng)之家

　　在當(dāng)前技術(shù)發(fā)展的背景下，英特爾公司推出的Extension for Transformers工具包成為一個(gè)重要?jiǎng)?chuàng)新，實(shí)現(xiàn)了在CPU上對(duì)大型語言模型(LLM)推理性能的顯著加速。該工具包通過LLM Runtime技術(shù)，優(yōu)化了內(nèi)核，支持多種量化選擇，提供更優(yōu)的KV緩存訪問和內(nèi)存分配策略，使得首個(gè)token和下一個(gè)token的推理速度分別提升多達(dá)40倍和2.68倍。這一技術(shù)的推出，極大地滿足了不同場(chǎng)景對(duì)于LLM推理性能的需求。

　　在性能測(cè)試方面，通過與llama.cpp進(jìn)行比較，LLM Runtime在輸入大小為1024時(shí)能夠?qū)崿F(xiàn)3.58到21.5倍的性能提升，而在輸入大小為32時(shí)，提升為1.76到3.43倍。同時(shí)，工具包還通過驗(yàn)證了多個(gè)模型的INT4推理準(zhǔn)確性，表明在性能提升的同時(shí)準(zhǔn)確性損失微小。

　　然而，不僅僅是性能的提升，工具包還在聊天場(chǎng)景中應(yīng)用方面取得了顯著成果。通過引入流式LLM技術(shù)，解決了對(duì)話歷史、輸出長(zhǎng)度有限和效率低下等應(yīng)用難題，使得LLM在聊天場(chǎng)景中更加實(shí)用。這一技術(shù)的特性，包括對(duì)話歷史的納入和輸出長(zhǎng)度的優(yōu)化，使得工具包在解決聊天場(chǎng)景難題方面具有先進(jìn)性和前瞻性。

　　英特爾® Extension for Transformers工具包在大型語言模型推理性能的提升以及聊天場(chǎng)景應(yīng)用方面的創(chuàng)新成果，標(biāo)志著對(duì)于人工智能領(lǐng)域的進(jìn)一步推動(dòng)。通過不斷引入先進(jìn)的技術(shù)和解決實(shí)際問題的能力，該工具包展現(xiàn)了英特爾在人工智能領(lǐng)域的領(lǐng)先地位，為未來的發(fā)展提供了強(qiáng)有力的支持。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信