在當(dāng)前技術(shù)發(fā)展的背景下,英特爾公司推出的Extension for Transformers工具包成為一個(gè)重要?jiǎng)?chuàng)新,實(shí)現(xiàn)了在CPU上對(duì)大型語言模型(LLM)推理性能的顯著加速。該工具包通過LLM Runtime技術(shù),優(yōu)化了內(nèi)核,支持多種量化選擇,提供更優(yōu)的KV緩存訪問和內(nèi)存分配策略,使得首個(gè)token和下一個(gè)token的推理速度分別提升多達(dá)40倍和2.68倍。這一技術(shù)的推出,極大地滿足了不同場(chǎng)景對(duì)于LLM推理性能的需求。
在性能測(cè)試方面,通過與llama.cpp進(jìn)行比較,LLM Runtime在輸入大小為1024時(shí)能夠?qū)崿F(xiàn)3.58到21.5倍的性能提升,而在輸入大小為32時(shí),提升為1.76到3.43倍。同時(shí),工具包還通過驗(yàn)證了多個(gè)模型的INT4推理準(zhǔn)確性,表明在性能提升的同時(shí)準(zhǔn)確性損失微小。
然而,不僅僅是性能的提升,工具包還在聊天場(chǎng)景中應(yīng)用方面取得了顯著成果。通過引入流式LLM技術(shù),解決了對(duì)話歷史、輸出長(zhǎng)度有限和效率低下等應(yīng)用難題,使得LLM在聊天場(chǎng)景中更加實(shí)用。這一技術(shù)的特性,包括對(duì)話歷史的納入和輸出長(zhǎng)度的優(yōu)化,使得工具包在解決聊天場(chǎng)景難題方面具有先進(jìn)性和前瞻性。
英特爾® Extension for Transformers工具包在大型語言模型推理性能的提升以及聊天場(chǎng)景應(yīng)用方面的創(chuàng)新成果,標(biāo)志著對(duì)于人工智能領(lǐng)域的進(jìn)一步推動(dòng)。通過不斷引入先進(jìn)的技術(shù)和解決實(shí)際問題的能力,該工具包展現(xiàn)了英特爾在人工智能領(lǐng)域的領(lǐng)先地位,為未來的發(fā)展提供了強(qiáng)有力的支持。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。