在當前技術發(fā)展的背景下,英特爾公司推出的Extension for Transformers工具包成為一個重要創(chuàng)新,實現(xiàn)了在CPU上對大型語言模型(LLM)推理性能的顯著加速。該工具包通過LLM Runtime技術,優(yōu)化了內核,支持多種量化選擇,提供更優(yōu)的KV緩存訪問和內存分配策略,使得首個token和下一個token的推理速度分別提升多達40倍和2.68倍。這一技術的推出,極大地滿足了不同場景對于LLM推理性能的需求。
在性能測試方面,通過與llama.cpp進行比較,LLM Runtime在輸入大小為1024時能夠實現(xiàn)3.58到21.5倍的性能提升,而在輸入大小為32時,提升為1.76到3.43倍。同時,工具包還通過驗證了多個模型的INT4推理準確性,表明在性能提升的同時準確性損失微小。
然而,不僅僅是性能的提升,工具包還在聊天場景中應用方面取得了顯著成果。通過引入流式LLM技術,解決了對話歷史、輸出長度有限和效率低下等應用難題,使得LLM在聊天場景中更加實用。這一技術的特性,包括對話歷史的納入和輸出長度的優(yōu)化,使得工具包在解決聊天場景難題方面具有先進性和前瞻性。
英特爾® Extension for Transformers工具包在大型語言模型推理性能的提升以及聊天場景應用方面的創(chuàng)新成果,標志著對于人工智能領域的進一步推動。通過不斷引入先進的技術和解決實際問題的能力,該工具包展現(xiàn)了英特爾在人工智能領域的領先地位,為未來的發(fā)展提供了強有力的支持。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。
近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
由世界人工智能大會組委會、上海市經信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。