企業(yè)對大模型的算力成本有著切身的感受,但算力背后,存儲也是非常關鍵的一環(huán),如何提高存儲的性能、降低存儲的成本,將深刻影響到大模型訓練及后續(xù)應用的成本。先進的存力成為大模型落地的必答題。
文|徐鑫 周享玥 游勇
ChatGPT掀起的大模型熱已近一年時間,相比于新技術帶來的革命性體驗,客戶們的另一個反饋同樣非常迫切——如何降低大模型的訓練和落地成本。
作為對新技術一向敏銳的金融行業(yè),在這次大模型的應用和落地中走在了前面。不過,一些大型銀行和證券機構也告訴數(shù)智前線,金融大模型落地存在工程化難度大、場景價值有待驗證等因素外,核心痛點還包括大模型的訓練和落地成本居高不下。
過去大半年, GPU算力短缺、價格高漲的新聞層出不窮,人們對昂貴的AI算力有了很直觀的感知。然而,圍繞大模型應用的存儲成本也隨著需求爆發(fā)而快速增加,在保證高存儲性能的同時,需要降低存儲成本已經(jīng)在業(yè)內(nèi)形成共識。
11月30日,數(shù)據(jù)分析機構愛分析聯(lián)合京東云發(fā)布了《金融行業(yè)先進AI存力報告》,報告中明確提到,先進存力是金融行業(yè)大模型落地的必答題。而金融行業(yè)作為大模型落地的先鋒行業(yè),其對先進存力的需求表現(xiàn)出了幾個非常共性的特征:可用、可信、可控。
包括京東云云海在內(nèi)的國內(nèi)存儲產(chǎn)品,通過存算分離的分布式存儲架構,正在破解金融等行業(yè)應用大模型存在的存力短板。
01
金融成為大模型應用的先行軍
金融行業(yè)對大模型的應用落地探索還在持續(xù)深入中,僅是這個月,已經(jīng)有不少企業(yè)亮出新動態(tài)。
前腳,中國人保發(fā)布專屬企業(yè)大模型“數(shù)智靈犀-人保大模型”,并亮相兩款人保專屬問答領域大模型應用;后腳,華夏銀行也拋出一份招標公告,要為大語言模型應用系統(tǒng)項目(智能算力部分)征集供應商。2023金融街論壇等多場金融行業(yè)活動上,大模型也是反復被討論的重點。
這只是金融行業(yè)落地和應用大模型的一個縮影。來自愛分析的一份報告顯示,能源、金融已成為大模型建設的領軍行業(yè),二者在投入預算上最為積極,在大模型市場(企業(yè)用戶側(cè)的預算金額,其投向包括硬件、軟件和服務)中金額占比分別達40.9%、16.9%。
業(yè)界的普遍共識是,金融行業(yè)數(shù)字化基礎好、AI應用場景多,同時又高度重視數(shù)據(jù)和技術,有較強的預算投入實力和意愿,是大模型落地的高潛場景。
大大小小的金融機構們,也對大模型抱有不小的期望。一位業(yè)內(nèi)人士至今還記得自己5月份在大理的一間寺廟里,偶然碰上和她談論大模型的金融人時的訝異。這個對技術有著深度信仰的行業(yè),幾乎是ChatGPT熱潮一來就迅速反應,紛紛組建團隊,開始找落地場景。
可以看到,過去半年多,智慧辦公、智能開發(fā)、智慧營銷、智能客服、智慧投研、智能風控、數(shù)據(jù)分析等金融行業(yè)多個場景被一一探索,部分場景也已進入試點應用階段。建行稱內(nèi)部已有20多個場景投放應用,農(nóng)行透露已在30多個場景中進行了試點,廣發(fā)證券則表示,正在探索將大模型和此前推出的虛擬數(shù)字人平臺打通……
毋庸置疑,金融行業(yè)已經(jīng)成為應用大模型的前沿陣地,但要真正實現(xiàn)“變革性的效果”,仍然還有很多問題需要解決。
10月中旬的一場大會上,有嘉賓分享了他們對數(shù)百家金融機構的走訪調(diào)研結果:雖然幾乎所有金融機構都已啟動對大模型的探索,但在大模型實際落地過程中,還存在著模型選擇難、算力供應不足、應用成熟度不足等諸多問題。
為了支撐大模型時代的AI應用,大量金融機構,已經(jīng)開始考慮如何重塑自己的IT基礎設施,以此來解決大模型落地過程中的各種“桎梏”。 而其中,算力和數(shù)據(jù)是首先被想到的。
相比于直接用公有云的服務,金融行業(yè)的特殊性,使得很多金融客戶都在自建算力基礎設施。包括建行、工行等國有大行在內(nèi)的金融機構都在今年進行了不少的算力采購。
而在數(shù)據(jù)層面,業(yè)內(nèi)人士透露,不少頭部金融機構正在通過大模型+MLOps的方式解決數(shù)據(jù)問題,越來越多的腰部企業(yè)也在開始陸續(xù)去構建數(shù)據(jù)中臺和數(shù)據(jù)治理的體系。
但僅僅解決算力和數(shù)據(jù)問題仍然是不夠的,京東云存儲研發(fā)負責人告訴數(shù)智前線,他們最近接觸了不少正在自建大模型基礎設施的頭部金融機構,對方反映最多的問題是,為了解決大模型所需的算力問題,他們采購了不少GPU,但當GPU真正跑起來了,網(wǎng)絡和存儲能力卻遇到瓶頸了,“GPU老是出現(xiàn)等待問題”。
GPU算力昂貴,而且現(xiàn)在大模型的訓練都是千卡級別,存力性能不夠會制約算力的發(fā)揮。愛分析的報告中提到,在同樣的GPU算力規(guī)模下,存儲性能的高低可能造成模型訓練周期數(shù)倍的差異。
“算力、網(wǎng)力、存力,將會是制約生態(tài)效率的關鍵因素。” 京東云存儲研發(fā)負責人認為,大模型基礎設施建設的最佳實踐,一開始就將包括計算、網(wǎng)絡、存儲在內(nèi)的整個基礎設施進行統(tǒng)一規(guī)劃。據(jù)他觀察,大量的金融客戶目前正從只關注算力的建設,轉(zhuǎn)變?yōu)橐碴P注先進的網(wǎng)力和存力的升級,以避免造成算力資源的等待和浪費,讓花大價錢買入的算力發(fā)揮出最大效力。
實際上,不止大模型,金融企業(yè)在其他一些數(shù)字化轉(zhuǎn)型場景方面的需求,也在促使他們加大對計算、存儲、網(wǎng)絡等基礎設施的建設。京東云金融解決方案相關人員透露,不少中小金融機構就都曾出于降本增效的需求找到他們,希望對其傳統(tǒng)的存儲系統(tǒng)做升級和改造。
02
大模型對存儲有了新需求
相比于傳統(tǒng)AI的需求,大模型的場景具有數(shù)據(jù)量大、參數(shù)規(guī)模大、訓練周期長等特點。相對應的,它對存力提出了更高的要求,更加強調(diào)高吞吐、高IOPS、高帶寬、低延時等極致性能。
愛分析的報告中提到,金融行業(yè)需要可用、可信、可控的AI先進存力。而且,這種需求貫穿了大模型從數(shù)據(jù)采集處理、訓練到推理應用等各個環(huán)節(jié)。
在數(shù)據(jù)的采集和預處理環(huán)節(jié),通常情況下,AI大模型的海量數(shù)據(jù)來自不同的應用,由不同的協(xié)議來采集或存儲。京東云金融解決方案相關人員介紹,數(shù)據(jù)要方便導入模型,從而完成訓練任務。因此,這一階段下,既要求存儲產(chǎn)品的容量大,吞吐量要高,還要求數(shù)據(jù)協(xié)議轉(zhuǎn)化和使用便利性有保障。
在訓練環(huán)節(jié),卓越的存儲性能直接關系到數(shù)據(jù)整理、數(shù)據(jù)加載和階段性模型存儲等任務能否高效運行。他透露,存儲有一個整體目標,就是減少算力等待時間,提升整個模型訓練效率。
數(shù)智前線獲悉,數(shù)以月計的大模型訓練過程,其實要完成多輪訓練。每次訓練都要把龐大的數(shù)據(jù)源重新打散和分配。過程里海量的小文件不斷被重新編排和組織,量級驚人。“有些是圖片,有些是一小段文本,要把里面的內(nèi)容提取出來,做一些歸類等訓練,小文件的量級可能達到幾十億。”京東云云海研發(fā)負責人告訴數(shù)智前線。
傳統(tǒng)應用中,存儲系統(tǒng)也面臨海量小文件的處理任務,但經(jīng)常分散在幾個月的跨度里。大模型訓練場景卻要求幾個小時完成這個任務。這使得存儲每秒鐘要處理的數(shù)據(jù)量遠超過傳統(tǒng)互聯(lián)網(wǎng)應用里的峰值。“以雙11為例,電商業(yè)務頂峰時段,某個系統(tǒng)對存儲帶寬的要求可能在幾百GB 每秒,但大模型訓練,可能每秒要達到上TB的帶寬”, 京東云云海研發(fā)負責人說,這要求大模型場景下的存儲性能相比傳統(tǒng)產(chǎn)品提升幾百到上千倍。
為避免大模型故障,經(jīng)常要階段性保存訓練的結果,業(yè)界稱為“checkpoint”。千億參數(shù)級別的模型訓練,高峰時段可能需要在數(shù)十秒內(nèi)處理 TB 級別的數(shù)據(jù)存儲。資深人士介紹,這個步驟存儲系統(tǒng)要盡量避免任何中間傳輸損耗,數(shù)據(jù)拷貝的性能損耗,從而把網(wǎng)絡和磁盤的物理硬件性能充分發(fā)揮出來。
上述資深人士認為,目前國內(nèi)面向AI大模型場景的存儲解決方案生態(tài)尚有待進一步豐富和發(fā)展。不過已經(jīng)有廠商從自身的大模型應用實踐中看到了市場的痛點,并以高性能產(chǎn)品來滿足需求。以京東云云海的高性能極速版為例,該產(chǎn)品具備高吞吐、高帶寬和低時延等特性,可滿足金融行業(yè)客戶的需求。
比如在大模型訓練的并行文件存儲時,云海極速版的單文件系統(tǒng)支持千萬級IOPS,上千臺服務器可同時并發(fā)訪問;單客戶端數(shù)據(jù)能達到200μs延遲和數(shù)百GB/s的讀寫吞吐。在高性能之外,云海產(chǎn)品的穩(wěn)定性還經(jīng)過京東自身海量數(shù)據(jù)規(guī)模和復雜場景的考驗。
值得一提的是,當下金融行業(yè)信創(chuàng)進程正在加速,業(yè)界也關注到,銀行、券商等金融客戶在存儲產(chǎn)品選型時已經(jīng)把保證核心技術自主可控等納入考量。主流廠商們正大力加強自身產(chǎn)品對國產(chǎn)軟硬件的兼容。目前京東云云海已兼容全系列國產(chǎn)軟硬件,而且核心技術自主可控,能夠滿足國產(chǎn)化適配的需求。
資深人士還觀察到,近年來,一些新趨勢也在出現(xiàn)。一些金融行業(yè)客戶在此前常見的軟硬件一體解決方案之外,還希望存儲產(chǎn)品交付時能夠?qū)崿F(xiàn)軟硬解耦。這樣既能利用好企業(yè)內(nèi)已有的硬件資產(chǎn),充分利舊,另外也能保持相應的自主權和靈活性,符合組織內(nèi)嚴苛的采購流程和規(guī)范。目前,京東云云海的產(chǎn)品包含軟硬一體和純軟件交付兩種模式,更為靈活,也受到不少客戶歡迎。
大模型落地的成本問題也是業(yè)界關注重點。今年2月國盛證券估算過,GPT-3訓練一次的成本約為140萬美元,對于一些更大的LLM模型,訓練成本介于200萬美元至1200萬美元之間。千億級別參數(shù),動輒以月來計算的訓練過程,反映到存儲環(huán)節(jié),本身就意味著巨大的成本。
為了提升性價比,除了從存儲性能上讓昂貴的GPU資源得到充分利用,提升模型訓練效率,一些產(chǎn)品和解決方案已經(jīng)著重思考如何以更低成本來滿足需求。例如,京東云云海從軟件和一致性算法等層面入手,解決海量規(guī)模帶來的管理難度增加以及成本的指數(shù)級增長。
總體而言,金融行業(yè)里大模型的探索實踐和智能化轉(zhuǎn)型升級特性,正呼喚著存儲產(chǎn)品在更高性能、更可信和更具性價比等層面進行升級。
03
下一代分布式存儲走向何方
大模型對先進存力的需求蓬勃生長的背后,行業(yè)也在期待新的分布式存儲架構和產(chǎn)品,破解高性能、高穩(wěn)定性以及可擴展和運維上的痛點。
事實上,國內(nèi)大部分存儲還是第一代產(chǎn)品和技術,基于諸如CEPH開源架構做了一些商業(yè)化版本。而像CEPH開源架構本身,已經(jīng)是一個將近20年歷史的架構,過去一直沒什么太大的變化,面向的是一些低速存儲硬件。但存儲的硬件這些年無論是性能還是價格都有很大的優(yōu)化,軟件反而成了性能釋放的瓶頸和短板。
京東云云海身上有一個鮮明的標簽——“下一代分布式存儲”。 京東云存儲研發(fā)負責人說,下一代并不是在上一代存儲的基礎上做一些性能優(yōu)化,而是整個技術體系有徹底的變化,“上一代積累的很多經(jīng)驗完全要推倒重來。”
“下一代”背后主要有雙重含義:一是軟件架構領先,二是在工程實踐真實落地。
和傳統(tǒng)的存儲不同,京東云云海引入了全異步、非阻塞、無鎖化全量的架構。盡管下一代分布式存儲的代碼量比上一代的存儲架構多了5倍,給編程和工程都帶來了很大的挑戰(zhàn),但帶來的收益也非?捎^。
從京東云海在金融行業(yè)的實踐來看,在相同的硬件條件下,“整個產(chǎn)品的表現(xiàn)達到了可以媲美集中式存儲,或者傳統(tǒng)分布式存儲10倍的水平,并且成本沒有提升。” 京東云存儲研發(fā)負責人說,比如IOPS比上一代產(chǎn)品有10倍的提升,IO延遲低于百微秒,已經(jīng)是業(yè)內(nèi)領先的水平。
相比于對技術演進方向的準確判斷,其實更大的難題在于這些新技術和產(chǎn)品,如何在工程落地中經(jīng)受住大規(guī)模場景的實踐考驗。科技企業(yè)早期都喜歡去打榜,以展現(xiàn)產(chǎn)品或技術的先進性,但業(yè)界發(fā)現(xiàn),榜單的表現(xiàn)與真正的規(guī);こ虒嵺`還有巨大的鴻溝。
尤其是存儲作為非常底層的支撐產(chǎn)品,穩(wěn)定性要求高,數(shù)據(jù)損壞或者丟失不可逆,客戶對存儲產(chǎn)品的更換會更加謹慎。諸如銀行等金融客戶在選型時都非常在意,產(chǎn)品本身是否有過大規(guī)模的生產(chǎn)和實踐。
京東云存儲研發(fā)負責人坦言,全異步、非阻塞、追加寫等技術思路業(yè)內(nèi)基本有共識,目前市面上開源產(chǎn)品很少跑通,可參考的生產(chǎn)實踐也非常少。京東的優(yōu)勢在于,10年前就開始自研存儲,當時解決的是內(nèi)部的需求。這些內(nèi)部場景給下一代分布式存儲的工程實踐提供了天然的練兵場。
一是京東集團本身業(yè)務多元化,除了電商,也有物流、金融、健康和科技等業(yè)務,不同的業(yè)務場景對存儲的要求不太一樣,比方金融場景更偏安全可靠,需要多地容災;物流場景更偏實時性,支持訂單的實時響應;搜索推薦更偏高吞吐的要求。“方方面面的這種需求,都有過一些實踐。” 他說。
二是京東的業(yè)務體量對存儲的性能要求也非常高。
如今,云海在性能上已經(jīng)做到接近本地盤的性能。京東已經(jīng)在把本地盤切換到云海的分布式存儲,經(jīng)歷了大促的檢驗。
云海根據(jù)京東自身的業(yè)務場景和生產(chǎn)實踐孵化而來,經(jīng)歷內(nèi)部積累的技術實踐,能很好地匹配包括金融客戶在內(nèi)的需求。
不過產(chǎn)品對外輸出,外部客戶的IT環(huán)境與內(nèi)部存在不小差異,這也考驗云海的適配能力。比如云海之前在京東內(nèi)部使用,底層資源用的都是京東云,但服務外部客戶,需要面對各種各樣的云產(chǎn)品,每家云的技術體系不太一樣,適配的便捷度,過程是否平緩,適配完是否會導致性能衰減,都是需要解決的挑戰(zhàn)。
云海產(chǎn)品經(jīng)理回憶,云海最早服務的一批外部客戶就是金融企業(yè),經(jīng)常會面臨客戶規(guī)劃的資源,與云海要發(fā)揮最佳實踐所需要的資源不匹配的情況,有些客戶提供一些虛擬機,不僅要求軟件跑起來,性能和時延都要在這個環(huán)境下看到效果。云海正是在不斷完成適配的過程里,打磨出了產(chǎn)品的能力,從而在客戶的場景里能滿足各類要求。
類似的問題在現(xiàn)實的工程實踐中經(jīng)常碰到,甚至因為整個工程的復雜度涉及方方面面,要把產(chǎn)品做到極致,不光是自己的代碼可能會出bug,使用的一些操作系統(tǒng)和依賴的運行庫也會有問題。“整個的難度在于全鏈條都有可能發(fā)生問題,都需要去解決。” 京東云存儲研發(fā)負責人說。
不過,他發(fā)現(xiàn),越來越多的外部客戶在認可互聯(lián)網(wǎng)公司的技術演進方向,比如很多金融客戶也認為存算分離是基礎設施演進的必然趨勢。而且,這些頭部銀行客戶在做一些技術選型時,找的大多也是互聯(lián)網(wǎng)類的云廠商。
如今,大模型的蓬勃發(fā)展,金融行業(yè)對先進存力的需求越來越旺盛,京東云云海作為先進存力的代表,通過自研下一代分布式存儲技術,在滿足高性能、高穩(wěn)定性和高可用性等剛性需求的同時,也提供了軟硬解耦的交付方式,正在得到越來越多金融客戶的認可和信任。
文章內(nèi)容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產(chǎn)品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。
近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。