手機內(nèi)卷下一站,AI Agent消息稱著名 AI 學(xué)者、天工智能首席科學(xué)家顏水成離開昆侖萬維昆侖萬維SkyReels AI短劇平臺將于12月10日在美國正式上線韓國今年進(jìn)口柴油車銷量預(yù)計跌破 1 萬輛,創(chuàng)近 17 年新低讓游戲黨一秒種草的大屏電視?海信這款百吋旗艦做到了!為用戶節(jié)省超120萬元 京東11.11攜手奔圖加速打印國產(chǎn)化進(jìn)程京東3C數(shù)碼“瘋狂星期一”驚喜放價 TP-LINK攝像頭限時直降210元11月9日晚8點京東11.11火熱開啟!潮流配件9.9元起京東11.11最后一波Apple大放價 iPhone 16 Pro系列持續(xù)加補1600元2024 ROG DAY狂歡啟航,ROG電競顯示器助力三大戰(zhàn)車燃爆鄭州站!來京東11.11一次性搞定視頻、音頻等APP會員充值 省錢又省心歐萊雅中國"FUN YOUniverTH有意思青年"創(chuàng)變盛典耀動進(jìn)博會先采后付、按需配送還能享受大幅折扣,京東企業(yè)計劃購助力客戶11.11超值囤貨11月9日晚8來京東11.11換新國產(chǎn)打印機 政府補貼至高優(yōu)惠20%買家電家居首選京東11.11 政府補貼加碼優(yōu)惠不止5折杭州一男子在京東領(lǐng)國補買電腦中榴蓮套餐,因榴蓮味道重被鄰居吐槽至高再省1000元 3C數(shù)碼5折券京東11.11每天整點可搶捷豹路虎等12個品牌將缺席廣州車展:但自主品牌頂了上來微軟Access邀測新Monaco SQL編輯器:自動補全、支持離線使用等《黑神話:悟空》PS5港版實體版明年1月16日發(fā)售:內(nèi)含豪華版升級券
  • 首頁 > 云計算頻道 > 大模型

    最火AI角色扮演流量已達(dá)谷歌搜索20%!每秒處理2萬推理請求,Transformer作者公開優(yōu)化秘訣

    2024年06月21日 15:55:08   來源:量子位公眾號

      什么AI應(yīng)用每秒處理20000個AI推理請求,達(dá)到2024年谷歌搜索流量的1/5?

      答案是獨角獸Character.ai,由Transformer作者Noam Shazeer(后面簡稱沙哥)創(chuàng)辦。

      剛剛,沙哥公布了推理優(yōu)化獨門秘訣,迅速引起業(yè)界熱議。

      具體來說Character.ai在整個服務(wù)堆棧中實現(xiàn)了如下成績:

      內(nèi)存高效架構(gòu)設(shè)計:將KV緩存大小減少20倍以上,而不會降低質(zhì)量

      Attention狀態(tài)緩存:95%請求無需重算

      直接用in8精度量化訓(xùn)練:推理零損失還省顯存

      Character.AI通過以上種種優(yōu)化,已經(jīng)把推理成本降低到最初的1/33,如果用市場上最好的商業(yè)API來支撐這種級別的流量,成本會比現(xiàn)在高出13.5倍!

      眾多公布的方法中,原生int8訓(xùn)練是最受關(guān)注的。

      雖然大多數(shù)技巧都來自公開研究,但是正如網(wǎng)友所說,知道如何把它們高效整合在一起實現(xiàn)的團(tuán)隊才是真正的護(hù)城河。

      秘訣1:高效利用顯存,attention 參數(shù)量降低20倍

      大模型的一大痛點是顯存占用高,導(dǎo)致無法支持大批量推理。Attention 層中的 Key-Value(KV)緩存便是罪魁禍?zhǔn)字弧?/p>

      為了降低顯存占用,Character.AI在Attention層大動手術(shù):

      全面采用MQA(Multi-Query Attention)

      與大多數(shù)開源模型中采用的GQA(Grouped-Query Attention)相比,將KV緩存大小減少了8倍。

      而MQA正是沙哥本人2019年在谷歌期間提出的,有網(wǎng)友評價“當(dāng)一個人能在生產(chǎn)環(huán)境中引用自己的論文,就達(dá)到了一個新的高度”。

      混合注意力視野

      將局部注意力與全局注意力層交織在一起,使用滑動窗口訓(xùn)練局部注意力,將復(fù)雜度從 O(length^2) 降低到 O(length)。

      團(tuán)隊發(fā)現(xiàn),將大多數(shù)注意力層的注意力范圍減少到1024不會對評估指標(biāo)產(chǎn)生重大影響,包括長上下文大海撈針基準(zhǔn)。在Character.ai生產(chǎn)模型中,每6層中只有1層使用全局注意力

      跨層KV共享

      團(tuán)隊將KV緩存綁定在相鄰的注意力層上,這進(jìn)一步將 KV緩存大小減少了2-3倍。

      對于全局注意力,跨塊綁定多個全局層的KV緩存,因為全局注意力層在長上下文用例中主導(dǎo)KV緩存大小,團(tuán)隊發(fā)現(xiàn)跨層共享KV不會降低質(zhì)量。

      下圖中左半部分是標(biāo)準(zhǔn)Transformer設(shè)計,每個注意力都是全局注意力。右半部分為Character.ai的設(shè)計,藍(lán)色框表示全局注意力,綠色框表示局部注意力,連線表示KV共享。

      這一套組合拳下來,KV緩存大小減少20倍以上,顯存再也不是瓶頸了。

      秘訣2:巧用狀態(tài)緩存,95%請求無需重算

      Character.AI還有一招神來之筆,就是在不同對話之間緩存Attention狀態(tài)。

      作為聊天機器人角色扮演服務(wù),Character.AI上大部分對話都是連續(xù)多輪的,平均每個對話包含180條消息。如果每次都要重新計算前面的狀態(tài),成本可想而知。

      于是團(tuán)隊設(shè)計了一個緩存機制,把每個對話的Prefix和生成的消息都緩存在內(nèi)存中,供后續(xù)調(diào)用。

      借鑒RadixAttention的思路,樹狀結(jié)構(gòu)的LRU緩存組織緩存的KV張量。緩存的KV值由前綴token的Rolling Hash速檢索最長匹配的緩存,即使前綴只有部分匹配也能命中。

      更妙的是,他們還用會話保持(Sticky Session)把同一對話路由到同一個服務(wù)器,進(jìn)一步提高緩存命中率。最終做到95%的請求都能復(fù)用已有緩存,大幅降低了計算成本。

      下圖中,藍(lán)色框表示主機內(nèi)存上的緩存張量。綠色和黃色框表示CUDA內(nèi)存上的KV緩存。當(dāng)新查詢到達(dá)時,它檢索最長匹配前綴的KV緩存,Rolling Hash系統(tǒng)允許檢索部分匹配消息的緩存。

      秘訣3:直接量化訓(xùn)練,推理零損失還省顯存

      最后一招,Character.AI沒有采用常見的“訓(xùn)練后量化”,而是直接用Int8精度訓(xùn)練模型。

      這種格式雖然表達(dá)精度降低,但通過精心設(shè)計定制的矩陣乘和 Attention 內(nèi)核,不僅把訓(xùn)練效率提高了好幾倍,而且還能無損用于推理。

      不過沙哥在這里暫時留了一手,表示“量化訓(xùn)練本身就是一個復(fù)雜的話題,將在以后的文章中繼續(xù)討論。”

      沙哥其人

      最后再來介紹一下傳奇人物Noam Shazeer本人。

      他1994年拿了信息學(xué)奧賽IOI金牌,后來畢業(yè)于杜克大學(xué)。

      2000年加入谷歌,當(dāng)時全公司只有200人左右,他參與了谷歌搜索的拼寫糾正功能,后來也負(fù)責(zé)過早期廣告系統(tǒng)。

      據(jù)知情人透露,在當(dāng)初面試谷歌時,沙哥就被問到如何實現(xiàn)拼寫糾正。他描述了一種根據(jù)其他用戶的輸入輸入記錄,進(jìn)行統(tǒng)計驗證的方法。

      面試官Gmail之父Paul Buchheit意識到,沙哥的方案比谷歌當(dāng)時使用的要好。沙哥成功入職之后就把他的面試方案寫出來了。

      在Transformer開山之作《Attention is All You Need》研究中,沙哥最后一個加入團(tuán)隊,一來就負(fù)責(zé)重新編寫了整個代碼。

      在沙哥出手之前,Transformer早期原型性能并沒有超越當(dāng)時流行的LSTM方案,是他把早期設(shè)計中的卷積等模塊都拿掉,給出了一個極簡主義方案。最終破了BLEU測試的記錄,同時計算效率也更高。

      隊友用“他是一個巫師”來評價他的工程和代碼能力。

      除此之外,沙哥還有驚人的遠(yuǎn)見。在Transformer架構(gòu)問世不久,他就給谷歌高層寫信,提議公司放棄整個搜索索引,并用Transformer架構(gòu)訓(xùn)練一個巨大的神經(jīng)網(wǎng)絡(luò)替代。

      2021年,沙哥離開谷歌后創(chuàng)辦了Character.AI,讓玩家簡單自創(chuàng)個性化AI陪聊,目前估值約50億美元。

      最近有消息稱,Meta與馬斯克的𝕏都在爭取與他們合作,把聊天機器人引入社交平臺。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    京東11.11跟著采銷走進(jìn)科大訊飛 直播間享專享價與超值福利

    京東11.11采銷直播探廠為消費者揭開答案。近日,京東3C數(shù)碼采銷走進(jìn)武漢攀升工廠、合肥聯(lián)想工廠和科大訊飛展廳,通過直播帶貨廠商爆款產(chǎn)品,并為消費者帶來超值低價與福利。

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。