首頁 > 數(shù)據(jù)存儲頻道 > 數(shù)據(jù).存儲頻道 > 半導(dǎo)體

為什么說GPU再火，AI平臺也少不了強(qiáng)力的CPU

2024年03月22日 14:40:31 金磊夢晨 來源：微信公眾號：量子位

　　AIGC的這把火，燃起來的可不只是百模大戰(zhàn)的熱度和雨后春筍般的各式AI應(yīng)用。

　　更是由于算力與通信需求的爆發(fā)式增長，使得底層的專用加速芯片、以及配備這些芯片的AI加速服務(wù)器再次被拉到了大眾的聚光燈下。

　　據(jù)統(tǒng)計，2023年全球范圍內(nèi)的AI服務(wù)器市場規(guī)模已經(jīng)達(dá)到了211億美元，并且IDC還發(fā)布預(yù)測說：

　　預(yù)計2025年達(dá)317.9億美元，2023-2025年CAGR為22.7%。

　　AIGC大模型的訓(xùn)練和推理需要大量的高性能算力支持，對AI服務(wù)器需求還將提升。

　　而且AI加速服務(wù)器不同于普通服務(wù)器，在架構(gòu)上一般采用異構(gòu)的方式，且GPU的數(shù)量更是能配多少就配多少，這也就是造成目前GPU千金難求的因素之一。

　　但你知道嗎?即使在大模型時代GPU或各式AI加速芯片的光芒變得更加耀眼，但對于AI基礎(chǔ)設(shè)施來說，CPU依然是必不可少的存在——至少一臺高端的AI加速服務(wù)器中每8個GPU就需得搭配2個CPU。

　　不僅如此，由于AI加速服務(wù)器異構(gòu)的特點(diǎn)，市場上除了CPU+GPU的組合方式之外，還有其它多種多樣的架構(gòu)，例如：

　　CPU+FPGA

　　CPU+TPU

　　CPU+ASIC

　　CPU+多種加速卡

　　不難看出，即使AI加速服務(wù)器架構(gòu)的組合方式萬般變化，唯獨(dú)不能變的就是CPU，而且往往還得是搭配高端的那種。

　　那么為什么會這樣呢?

　　AI加速服務(wù)器中的CPU

　　首先，CPU對于AI加速服務(wù)器來說相當(dāng)于人的大腦。

　　它可以負(fù)責(zé)整個服務(wù)器的運(yùn)算與控制，是直接影響到服務(wù)器整體性能的核心部件。

　　CPU處理操作系統(tǒng)的指令，協(xié)調(diào)各個硬件組件的工作，包括內(nèi)存管理、數(shù)據(jù)流控制和I/O操作。

　　即使在AI服務(wù)器中，GPU或其他加速器負(fù)責(zé)執(zhí)行大部分計算密集型任務(wù)，CPU仍然是不可或缺的，因為它確保了整個系統(tǒng)的穩(wěn)定運(yùn)行、各組件的高效通信協(xié)作，最終推進(jìn)任務(wù)的順利執(zhí)行。

　　其次，CPU還具備靈活性和通用性。

　　CPU的設(shè)計一般為通用處理器，能夠執(zhí)行各種類型的計算任務(wù)。

　　雖然GPU在并行處理方面更為高效，但CPU在處理序列化任務(wù)、執(zhí)行復(fù)雜邏輯和運(yùn)行通用應(yīng)用程序方面更為靈活。

　　真正完整的AI應(yīng)用平臺其實(shí)需要處理一系列密切相關(guān)又特色各異的任務(wù)，包括數(shù)據(jù)預(yù)處理、模型訓(xùn)練、推理和后處理等，這些任務(wù)也可能甚至特別需要CPU的通用處理能力。

　　不僅如此，CPU還是系統(tǒng)啟動和維護(hù)的關(guān)鍵點(diǎn)。

　　因為服務(wù)器的啟動過程、系統(tǒng)監(jiān)控、故障診斷和維護(hù)操作都需要CPU來執(zhí)行;沒有CPU，這些關(guān)鍵的系統(tǒng)級任務(wù)將無法進(jìn)行。

　　而且CPU在軟件兼容性方面更是有積累多年的優(yōu)勢。

　　市面上大多數(shù)軟件和應(yīng)用程序都是為CPU設(shè)計的，包括操作系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)和開發(fā)工具。AI加速服務(wù)器需要運(yùn)行這些軟件來支持AI應(yīng)用的開發(fā)和部署。

　　也正如我們剛才所說，現(xiàn)在AI加速服務(wù)器均是采用異構(gòu)的形式，CPU在此過程中可以作為控制節(jié)點(diǎn)，管理GPU或其他加速器的計算任務(wù)，以此來實(shí)現(xiàn)高效的資源分配和任務(wù)調(diào)度。

　　最后，便是成本的問題。

　　雖然GPU在AI計算中非常高效，但CPU或其他專用加速芯片仍然是成本效益較高的選擇，特別是在處理不適合GPU或加速器的任務(wù)時。CPU和它們的組合可以提供更佳的性能和成本平衡。

　　這也就不難理解為什么AI加速服務(wù)器里唯獨(dú)不能缺少CPU了。

　　那么接下來的一個問題便是，主流的服務(wù)器廠商都在用什么樣的CPU。

　　我們以國內(nèi)AI加速服務(wù)器市場份額排*的浪潮為例，從最新消息來看，其NE5260G7服務(wù)器便已經(jīng)適配了老牌芯片巨頭英特爾最新發(fā)布的第五代英特爾® 至強(qiáng)® 可擴(kuò)展處理器。

　　而之所以浪潮要適配最新的高端CPU，可以理解為“高端的游戲需要搭配高端GPU和CPU”，AI服務(wù)器要想在性能上取得新突破，同樣也是要適配高端的硬件。

　　具體而言，與前一代相比，第五代英特爾® 至強(qiáng)® 可擴(kuò)展處理器在處理人工智能工作負(fù)載方面表現(xiàn)出色，其性能提升了21%，特別是在AI推理任務(wù)上，性能增幅更是達(dá)到了42%。

　　此外，它的內(nèi)存帶寬也增加了16%;在執(zhí)行一般計算任務(wù)時，第五代至強(qiáng)® 可擴(kuò)展處理器能夠?qū)⒄w性能提高至多21%，并且在多個客戶實(shí)際工作負(fù)載中實(shí)現(xiàn)了每瓦特功耗性能提升高達(dá)36%。

　　也正因“內(nèi)核”如此強(qiáng)悍，才使得浪潮的服務(wù)器在性能上實(shí)現(xiàn)了平均21%的提升。

　　不過有一說一，畢竟AI也不完全就是單純的模型或大模型的加速，因此上述的CPU優(yōu)勢也還僅是能力的一隅，在各個細(xì)分的應(yīng)用場景中，它還有更大的作為。

　　AI不完全是大模型

　　即使在配備了GPU或?qū)Ｓ眉铀倨鞯腁I服務(wù)器中，CPU的角色也遠(yuǎn)不止于主控或為加速器提供服務(wù)。

　　而是在AI系統(tǒng)的整個生命周期中扮演著多樣化的角色，貫穿從數(shù)據(jù)采集、預(yù)處理、訓(xùn)練、推理、應(yīng)用等全流程。

　　先說最關(guān)鍵的AI模型，尤其是模型推理這一環(huán)節(jié)。

　　不論是現(xiàn)在占據(jù)最強(qiáng)話題熱度的大語言模型，還是傳統(tǒng)的深度學(xué)習(xí)模型，抑或是科學(xué)計算與人工智能交融形成的AI for Science應(yīng)用，CPU，特別是內(nèi)置AI加速能力的英特爾® 至強(qiáng)® 可擴(kuò)展處理器，都在推理應(yīng)用中有不俗戰(zhàn)績。

　　例如在AlphaFold2掀起的蛋白質(zhì)折疊預(yù)測熱潮之中，借助第三代和第四代至強(qiáng)® 可擴(kuò)展處理器不斷優(yōu)化端到端通量能力，就能實(shí)現(xiàn)比GPU更具性價比的加速方案，直接拉低AI for Science的入場門檻。

　　再例如OCR技術(shù)應(yīng)用，也隨著至強(qiáng)® 可擴(kuò)展處理器在內(nèi)置AI加速技術(shù)上的演進(jìn)，被賦予了新的“靈魂”，不但準(zhǔn)確率飆升、響應(yīng)延遲也進(jìn)一步降低。

　　更別提以ChatGLM為代表的通用大模型，以及衛(wèi)寧、惠每等行業(yè)軟件或解決方案提供商輸出的行業(yè)特定場景的大模型應(yīng)用，它們都提供了有力的實(shí)踐佐證，能驗證至強(qiáng)® 在大模型推理上的實(shí)力，以及相比加速器芯片更優(yōu)的成本，以及更易獲取，更易部署、優(yōu)化和使用的優(yōu)勢。

　　再說AI全流程中大量涉及數(shù)據(jù)處理的環(huán)節(jié)。

　　實(shí)際業(yè)務(wù)中的AI應(yīng)用，背后往往需要包含大量數(shù)據(jù)的知識庫作為支撐。

　　這些數(shù)據(jù)通過將海量文本語料壓縮成密集向量的形式存儲，并通過高效的相似度搜索迅速找到與查詢最相關(guān)的信息，也就是大家所熟知的向量數(shù)據(jù)庫了。

　　在這方面，專門針對向量和矩陣計算優(yōu)化的英特爾® AVX-512指令集和英特爾® AMX加速技術(shù)有了用武之地，可應(yīng)對海量、多維向量數(shù)據(jù)的高并發(fā)和實(shí)時計算等挑戰(zhàn)。

　　業(yè)界知名的向量數(shù)據(jù)庫開發(fā)商如騰訊云和星環(huán)科技等，底層都選擇第五代英特爾® 至強(qiáng)® 可擴(kuò)展處理器作為承載和加速的平臺。

　　騰訊云VectorDB與英特爾合作，在第五代至強(qiáng)® 平臺經(jīng)軟硬件雙方面優(yōu)化后，在提升向量數(shù)據(jù)庫的向量檢索效率方面相比基準(zhǔn)組提升了約2.3倍，在使用英特爾® AMX 加速數(shù)據(jù)格式為INT8的測試場景中再次性能提升達(dá)約5.8倍。

　　星環(huán)科技則基于第五代至強(qiáng)® 可擴(kuò)展處理器推出了Transwarp Hippo 分布式向量數(shù)據(jù)庫解決方案，實(shí)現(xiàn)了約2倍的代際性能提升，可有效滿足大模型時代海量、高維向量的存儲和計算需求。

　　#FormatImgID_6#

　　△圖：星環(huán)科技分布向量數(shù)據(jù)庫Transwarp Hippo產(chǎn)品架構(gòu)

　　AI全流程中與數(shù)據(jù)相關(guān)的環(huán)節(jié)，不止包含可用作大模型外部知識庫的向量數(shù)據(jù)庫這一種。還涉及模型訓(xùn)練前數(shù)據(jù)預(yù)處理，訓(xùn)練中的數(shù)據(jù)調(diào)度，模型上線后的持續(xù)優(yōu)化和維護(hù)、異常數(shù)據(jù)的發(fā)現(xiàn)和處理等。

　　眾所周知，數(shù)據(jù)是AI三要素之一，相當(dāng)于AI的血液和原料，沒有優(yōu)質(zhì)的數(shù)據(jù)，再先進(jìn)的算法和模型也是空中樓閣。但原始數(shù)據(jù)往往參差不齊，需要通過數(shù)據(jù)清洗、轉(zhuǎn)換、特征工程等一系列流程，最終才能為AI系統(tǒng)所用。

　　這些數(shù)據(jù)處理任務(wù)涉及海量邏輯運(yùn)算，以及同樣、甚至更大量級的內(nèi)存操作，如存取、傳輸，對處理速度和時延要求都非常高，因此通常也是由最離系統(tǒng)內(nèi)存最近、更擅長通用計算的CPU來承擔(dān)。

　　第五代英特爾® 至強(qiáng)® 可擴(kuò)展處理器充分考慮到這些需求，內(nèi)置多款加速器來為數(shù)據(jù)處理提供支持，如：

　　DSA數(shù)據(jù)流加速器(Data Streaming Accelerator)：負(fù)責(zé)優(yōu)化數(shù)據(jù)復(fù)制和轉(zhuǎn)換操作，提高網(wǎng)絡(luò)和存儲性能。

　　IAA存內(nèi)分析加速器 (In-Memory Analytics Accelerator)：提高分析性能，同時卸載CPU內(nèi)核任務(wù)以加速數(shù)據(jù)庫查詢吞吐量等工作負(fù)載。

　　QAT數(shù)據(jù)保護(hù)與壓縮加速技術(shù)(QuickAssist Technology)：可顯著加速數(shù)據(jù)壓縮、對稱和非對稱數(shù)據(jù)加密解密，提高CPU效率和整體系統(tǒng)性能。

　　DLB動態(tài)負(fù)載均衡器(Dynamic Load Balancer)，幫助防止性能瓶頸并實(shí)現(xiàn)低時延控制平面工作負(fù)載。

　　在第五代至強(qiáng)® 可擴(kuò)展處理器的不同細(xì)分型號中，對上述加速器有靈活的配置或支持方案，并且還支持通過Intel On Demand按需啟用，可以適應(yīng)不同工作負(fù)載的需求。

　　最后，還特別要提到的對數(shù)據(jù)隱私、模型和應(yīng)用安全的更優(yōu)防護(hù)，畢竟所有AI場景都不能以犧牲安全為代價，更是有些AI應(yīng)用場景對此格外在意，如在金融、醫(yī)療行業(yè)。

　　對這些行業(yè)場景來說，能用上基于CPU實(shí)現(xiàn)的硬件級可信執(zhí)行環(huán)境(TEE)技術(shù)來保護(hù)敏感數(shù)據(jù)和代碼免受攻擊可是非常關(guān)鍵的。

　　如平安科技，就曾使用英特爾® Software Guard Extensions(英特爾® SGX)構(gòu)建聯(lián)邦學(xué)習(xí)解決方案。

　　平安科技通過英特爾® SGX的“飛地”內(nèi)存區(qū)域，在本地安全地執(zhí)行模型訓(xùn)練，而無需共享原始數(shù)據(jù)。同時SGX支持安全的多方計算協(xié)議，如同態(tài)加密、安全聚合等，從而在聯(lián)邦學(xué)習(xí)中實(shí)現(xiàn)了更優(yōu)的隱私保護(hù)。

　　阿里云則基于最新第五代英特爾® 至強(qiáng)® 可擴(kuò)展處理器推出了BigDL-LLM 隱私保護(hù)方案。

　　它在這款全新處理器內(nèi)置的英特爾® Trust Domain Extension (英特爾® TDX)技術(shù)的加持下實(shí)現(xiàn)了對分布式節(jié)點(diǎn)或 AI管道的更優(yōu)防護(hù)，從而能讓客戶在不犧牲數(shù)據(jù)隱私的前提下將更多數(shù)據(jù)運(yùn)用到 AI 應(yīng)用中，有效挖掘數(shù)據(jù)價值，為客戶構(gòu)建更為高效的隱私保護(hù)機(jī)器學(xué)習(xí)方案，助力大模型的廣泛應(yīng)用。

　　#FormatImgID_8#

　　△圖：采用英特爾® TDX的BigDL-LLM服務(wù)和調(diào)優(yōu)架構(gòu)

　　要知道，基于 TEE 的聯(lián)邦學(xué)習(xí)或隱私保護(hù)機(jī)器學(xué)習(xí)技術(shù)，可是未來AI在大規(guī)模實(shí)踐中打通和共享多機(jī)構(gòu)數(shù)據(jù)的一大基座。

　　通過這種技術(shù)，不同機(jī)構(gòu)之間才能在保證數(shù)據(jù)安全和隱私的前提下，實(shí)現(xiàn)數(shù)據(jù)的共享和聯(lián)合分析，才能為 AI 的持續(xù)發(fā)展演進(jìn)提供更加豐富和全面的數(shù)據(jù)支持。

　　搞好AI全流程加速，CPU不能是短板

　　所以，讓我們從單純的模型加速，將眼界擴(kuò)展到更全面、多維、流水線化的AI平臺應(yīng)用，不難預(yù)見，隨著這種平臺級應(yīng)用的成熟與走向?qū)崙?zhàn)，我們對小到AI加速服務(wù)器，大到AI基礎(chǔ)設(shè)施的期望也在不斷拓展和升級。

　　僅僅關(guān)注AI模型本身以及GPU、專用加速器的性能，會越來越像一個單點(diǎn)化的思維。

　　未來大家必須更重視整個AI平臺中多種硬件與軟件的搭配及協(xié)同工作，這其中CPU作為主控、加速、輔助的多面手，對于補(bǔ)齊整個平臺的短板，提升整個平臺的質(zhì)量至關(guān)重要。

　　這或許就是在如今的技術(shù)浪潮下，以第五代英特爾® 至強(qiáng)® 可擴(kuò)展處理器為代表的高端CPU，依然會在AI服務(wù)器或基礎(chǔ)設(shè)施市場中贏得一席之地的根因。

　　畢竟，高端CPU的作用不僅是直接上手加速AI推理，還關(guān)系到整個AI平臺或系統(tǒng)整體性能的提升，更是提供更加穩(wěn)定和安全的運(yùn)行環(huán)境來拓展AI的邊界，只有這幾個環(huán)節(jié)都照顧到，才能推動AI Everywhere愿景進(jìn)一步走向現(xiàn)實(shí)。

　　或者簡言之，AI如果要真正走向更多的實(shí)用場景，又怎么能少得了更強(qiáng)大、更可靠、更全面多能的CPU呢?

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信