還在為大模型處理長文本“龜速”而抓狂?別急!清華大學(xué)祭出“王炸”技術(shù)——APB 序列并行推理框架,直接給大模型裝上“渦輪增壓”引擎!實(shí)測顯示,這項(xiàng)黑科技在處理超長文本時(shí),速度竟比肩 Flash Attention 快10倍!沒錯(cuò),你沒聽錯(cuò),是10倍!
要知道,隨著 ChatGPT 等大模型的爆火,AI 們“閱讀”能力也水漲船高,動(dòng)輒處理十幾萬字的長文不在話下。然而,面對(duì)海量信息,傳統(tǒng)大模型的“大腦”卻有點(diǎn)卡殼—— Transformer 架構(gòu)雖強(qiáng),但其核心的注意力機(jī)制就像一個(gè)“超級(jí)掃描儀”,文本越長,掃描范圍呈指數(shù)級(jí)膨脹,速度自然就慢了下來。
為了解決這個(gè)“卡脖子”難題,清華大學(xué)的科學(xué)家們聯(lián)合多家研究機(jī)構(gòu)和科技巨頭,另辟蹊徑,推出了 APB 框架。這套框架的核心奧秘在于“ 序列并行+稀疏注意力 ”的巧妙結(jié)合。
簡單來說,APB 框架就像一個(gè)高效的“協(xié)同作戰(zhàn)”團(tuán)隊(duì)。它將長文本“肢解”成小塊,分配給多個(gè) GPU “隊(duì)員”并行處理。更絕的是,APB 還給每個(gè) “隊(duì)員” 配備了 “ 局部 KV 緩存壓縮 ” 和 “ 精簡通信 ” 技能,讓它們在處理各自任務(wù)的同時(shí),還能高效共享關(guān)鍵信息,協(xié)同解決長文本中的復(fù)雜語義依賴問題。
更令人驚喜的是,APB 框架并非以犧牲性能為代價(jià)換取速度。相反,在128K 超長文本測試中,APB 不僅速度狂飆,性能更是 超越 傳統(tǒng) Flash Attention!甚至連英偉達(dá)力推的 Star Attention 也被 APB 斬落馬下,速度提升1.6倍,堪稱“全能ACE”。
這項(xiàng)突破性技術(shù),最直接的應(yīng)用就是大幅縮短大模型處理長文本請(qǐng)求的 首 token 響應(yīng)時(shí)間 。這意味著,未來搭載 APB 框架的大模型,在面對(duì)用戶 “洋洋灑灑” 的長篇指令時(shí),能夠 瞬間理解,秒速響應(yīng) ,徹底告別“加載中…”的漫長等待。
那么,APB 框架究竟是如何做到如此“逆天”的提速效果呢?
原來,APB 框架深諳長文本處理的“痛點(diǎn)”—— 計(jì)算量 。傳統(tǒng)注意力機(jī)制的計(jì)算量與文本長度的平方成正比,長文本就是計(jì)算的“黑洞”。 為了突破這個(gè)瓶頸,APB 框架祭出兩大 “神招”:
第一招:提升并行度,讓“眾人拾柴火焰高”
APB 框架充分利用分布式計(jì)算的優(yōu)勢,將計(jì)算任務(wù)分散到多個(gè) GPU 上,就像 “多人協(xié)同” 一樣,效率自然倍增。尤其是在序列并行方面,APB 框架展現(xiàn)出極強(qiáng)的擴(kuò)展性,不受模型結(jié)構(gòu)限制,文本再長也能輕松應(yīng)對(duì)。
第二招:減少無效計(jì)算,讓“好鋼用在刀刃上”
APB 框架引入 稀疏注意力機(jī)制 ,并非 “眉毛胡子一把抓”,而是 “選擇性” 計(jì)算注意力。它就像一位 “火眼金睛” 的專家,只關(guān)注文本中的關(guān)鍵信息,忽略無關(guān)緊要的部分,從而大幅減少計(jì)算量。
然而, “并行” 和 “稀疏” 這兩招看似簡單,實(shí)則 “暗藏玄機(jī)”。 如何在序列并行框架下,實(shí)現(xiàn)高效的稀疏注意力計(jì)算?這才是 APB 框架真正的 “硬核” 所在。
要知道,在序列并行環(huán)境中,每個(gè) GPU 只掌握部分文本信息,想要實(shí)現(xiàn) “全局感知” 的稀疏注意力,就如同 “盲人摸象”,難度可想而知。此前的 Star Attention 和 APE 等方法,要么犧牲性能,要么適用場景受限,都未能完美解決這個(gè)問題。
而 APB 框架則巧妙地避開了 “大規(guī)模通信” 這個(gè) “坑”,另辟蹊徑,構(gòu)建了一套 面向序列并行場景的低通信稀疏注意力機(jī)制 。 這套機(jī)制的核心組件包括:
更小巧的 Anchor block (錨點(diǎn)塊): Anchor block 就像一個(gè) “導(dǎo)航儀”,引導(dǎo)注意力機(jī)制聚焦關(guān)鍵信息。APB 框架創(chuàng)新性地縮小了 Anchor block 的尺寸,使其更輕巧靈活,降低了計(jì)算開銷。
獨(dú)創(chuàng) Passing block (傳遞塊): Passing block 是 APB 框架的 “靈魂” 組件,它巧妙地解決了長距離語義依賴難題。通過將前序 GPU 處理的關(guān)鍵信息 “壓縮打包”,傳遞給后續(xù) GPU,讓每個(gè) “隊(duì)員” 都能 “縱覽全局”,理解長文本的 “上下文” 語境。
查詢感知的上下文壓縮: APB 框架還引入了 “查詢感知” 機(jī)制,讓上下文壓縮器能夠 “理解問題”,更精準(zhǔn)地篩選和保留與查詢相關(guān)的關(guān)鍵信息,進(jìn)一步提升效率和準(zhǔn)確性。
基于以上 “獨(dú)門絕技”,APB 框架構(gòu)建了一套行云流水的推理流程:
上下文分割: 將長文本均勻分配給各個(gè) GPU,并在開頭拼接 Anchor block, “埋入” 查詢問題。
上下文壓縮: 利用 Locret 引入的保留頭,對(duì) KV 緩存進(jìn)行 “智能壓縮”。
高效通信: 通過 AllGather 算子,將壓縮后的 KV 緩存 “傳遞” 給后續(xù) GPU,構(gòu)建 Passing block。
極速計(jì)算: 使用特制的 Flash Attention Kernel,配合優(yōu)化的注意力掩碼,進(jìn)行高效計(jì)算。Passing block 在計(jì)算完成后 “功成身退”,不參與后續(xù)計(jì)算。
實(shí)驗(yàn)結(jié)果雄辯地證明了 APB 框架的卓越性能。在 Llama-3.1-8B-instruct, Qwen-2.5-14B-instruct 以及 Yi-34B-200K 等多個(gè)模型和 InfiniteBench、RULER 等多個(gè)benchmark 上的測試中,APB 框架均 力壓群雄 ,在性能和速度之間取得了 最佳平衡 。
尤其值得一提的是,隨著文本長度的增加,APB 框架的 速度優(yōu)勢 愈發(fā)明顯,真正實(shí)現(xiàn)了 “越長越快” 的奇效。 這背后的奧秘在于,APB 框架的計(jì)算量遠(yuǎn)低于其他方法,且差距隨著文本長度增加而擴(kuò)大。
更深入的預(yù)填充時(shí)間拆解分析顯示,序列并行技術(shù)本身就能顯著縮減注意力和 FFN (前饋神經(jīng)網(wǎng)絡(luò))的計(jì)算時(shí)間。而 APB 框架的稀疏注意力機(jī)制,則進(jìn)一步將注意力計(jì)算時(shí)間壓縮到極致。 與 Star Attention 相比,APB 框架巧妙地利用 Passing block 傳遞遠(yuǎn)距離語義依賴,大幅縮小了 Anchor block 的尺寸,有效降低了 FFN 的額外開銷,實(shí)現(xiàn)了 “魚與熊掌兼得” 的完美效果。
更令人振奮的是,APB 框架展現(xiàn)出 卓越的兼容性 ,能夠靈活適應(yīng)不同的分布式環(huán)境和模型規(guī)模,在各種 “嚴(yán)苛” 條件下都能保持 “穩(wěn)如磐石” 的高性能和高效率。
可以預(yù)見,隨著 APB 框架的問世,大模型長文本推理的 “瓶頸” 將被徹底打破,AI 應(yīng)用的想象空間也將被無限拓展。 未來,無論是智能客服、金融分析,還是科研探索、內(nèi)容創(chuàng)作,我們都將迎來一個(gè) “更快、更強(qiáng)、更智能” 的 AI 新時(shí)代!
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
根據(jù)2月底內(nèi)部溝通會(huì)上的消息,在美團(tuán)發(fā)展的第二個(gè)十年,“科技”成了公司創(chuàng)始人兼CEO王興會(huì)更多關(guān)注的方向之一。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。