企業(yè)對大模型的算力成本有著切身的感受,但算力背后,存儲也是非常關(guān)鍵的一環(huán),如何提高存儲的性能、降低存儲的成本,將深刻影響到大模型訓(xùn)練及后續(xù)應(yīng)用的成本。先進(jìn)的存力成為大模型落地的必答題。
文|徐鑫 周享玥 游勇
ChatGPT掀起的大模型熱已近一年時間,相比于新技術(shù)帶來的革命性體驗,客戶們的另一個反饋同樣非常迫切——如何降低大模型的訓(xùn)練和落地成本。
作為對新技術(shù)一向敏銳的金融行業(yè),在這次大模型的應(yīng)用和落地中走在了前面。不過,一些大型銀行和證券機(jī)構(gòu)也告訴數(shù)智前線,金融大模型落地存在工程化難度大、場景價值有待驗證等因素外,核心痛點還包括大模型的訓(xùn)練和落地成本居高不下。
過去大半年, GPU算力短缺、價格高漲的新聞層出不窮,人們對昂貴的AI算力有了很直觀的感知。然而,圍繞大模型應(yīng)用的存儲成本也隨著需求爆發(fā)而快速增加,在保證高存儲性能的同時,需要降低存儲成本已經(jīng)在業(yè)內(nèi)形成共識。
11月30日,數(shù)據(jù)分析機(jī)構(gòu)愛分析聯(lián)合京東云發(fā)布了《金融行業(yè)先進(jìn)AI存力報告》,報告中明確提到,先進(jìn)存力是金融行業(yè)大模型落地的必答題。而金融行業(yè)作為大模型落地的先鋒行業(yè),其對先進(jìn)存力的需求表現(xiàn)出了幾個非常共性的特征:可用、可信、可控。
包括京東云云海在內(nèi)的國內(nèi)存儲產(chǎn)品,通過存算分離的分布式存儲架構(gòu),正在破解金融等行業(yè)應(yīng)用大模型存在的存力短板。
01
金融成為大模型應(yīng)用的先行軍
金融行業(yè)對大模型的應(yīng)用落地探索還在持續(xù)深入中,僅是這個月,已經(jīng)有不少企業(yè)亮出新動態(tài)。
前腳,中國人保發(fā)布專屬企業(yè)大模型“數(shù)智靈犀-人保大模型”,并亮相兩款人保專屬問答領(lǐng)域大模型應(yīng)用;后腳,華夏銀行也拋出一份招標(biāo)公告,要為大語言模型應(yīng)用系統(tǒng)項目(智能算力部分)征集供應(yīng)商。2023金融街論壇等多場金融行業(yè)活動上,大模型也是反復(fù)被討論的重點。
這只是金融行業(yè)落地和應(yīng)用大模型的一個縮影。來自愛分析的一份報告顯示,能源、金融已成為大模型建設(shè)的領(lǐng)軍行業(yè),二者在投入預(yù)算上最為積極,在大模型市場(企業(yè)用戶側(cè)的預(yù)算金額,其投向包括硬件、軟件和服務(wù))中金額占比分別達(dá)40.9%、16.9%。
業(yè)界的普遍共識是,金融行業(yè)數(shù)字化基礎(chǔ)好、AI應(yīng)用場景多,同時又高度重視數(shù)據(jù)和技術(shù),有較強(qiáng)的預(yù)算投入實力和意愿,是大模型落地的高潛場景。
大大小小的金融機(jī)構(gòu)們,也對大模型抱有不小的期望。一位業(yè)內(nèi)人士至今還記得自己5月份在大理的一間寺廟里,偶然碰上和她談?wù)摯竽P偷慕鹑谌藭r的訝異。這個對技術(shù)有著深度信仰的行業(yè),幾乎是ChatGPT熱潮一來就迅速反應(yīng),紛紛組建團(tuán)隊,開始找落地場景。
可以看到,過去半年多,智慧辦公、智能開發(fā)、智慧營銷、智能客服、智慧投研、智能風(fēng)控、數(shù)據(jù)分析等金融行業(yè)多個場景被一一探索,部分場景也已進(jìn)入試點應(yīng)用階段。建行稱內(nèi)部已有20多個場景投放應(yīng)用,農(nóng)行透露已在30多個場景中進(jìn)行了試點,廣發(fā)證券則表示,正在探索將大模型和此前推出的虛擬數(shù)字人平臺打通……
毋庸置疑,金融行業(yè)已經(jīng)成為應(yīng)用大模型的前沿陣地,但要真正實現(xiàn)“變革性的效果”,仍然還有很多問題需要解決。
10月中旬的一場大會上,有嘉賓分享了他們對數(shù)百家金融機(jī)構(gòu)的走訪調(diào)研結(jié)果:雖然幾乎所有金融機(jī)構(gòu)都已啟動對大模型的探索,但在大模型實際落地過程中,還存在著模型選擇難、算力供應(yīng)不足、應(yīng)用成熟度不足等諸多問題。
為了支撐大模型時代的AI應(yīng)用,大量金融機(jī)構(gòu),已經(jīng)開始考慮如何重塑自己的IT基礎(chǔ)設(shè)施,以此來解決大模型落地過程中的各種“桎梏”。 而其中,算力和數(shù)據(jù)是首先被想到的。
相比于直接用公有云的服務(wù),金融行業(yè)的特殊性,使得很多金融客戶都在自建算力基礎(chǔ)設(shè)施。包括建行、工行等國有大行在內(nèi)的金融機(jī)構(gòu)都在今年進(jìn)行了不少的算力采購。
而在數(shù)據(jù)層面,業(yè)內(nèi)人士透露,不少頭部金融機(jī)構(gòu)正在通過大模型+MLOps的方式解決數(shù)據(jù)問題,越來越多的腰部企業(yè)也在開始陸續(xù)去構(gòu)建數(shù)據(jù)中臺和數(shù)據(jù)治理的體系。
但僅僅解決算力和數(shù)據(jù)問題仍然是不夠的,京東云存儲研發(fā)負(fù)責(zé)人告訴數(shù)智前線,他們最近接觸了不少正在自建大模型基礎(chǔ)設(shè)施的頭部金融機(jī)構(gòu),對方反映最多的問題是,為了解決大模型所需的算力問題,他們采購了不少GPU,但當(dāng)GPU真正跑起來了,網(wǎng)絡(luò)和存儲能力卻遇到瓶頸了,“GPU老是出現(xiàn)等待問題”。
GPU算力昂貴,而且現(xiàn)在大模型的訓(xùn)練都是千卡級別,存力性能不夠會制約算力的發(fā)揮。愛分析的報告中提到,在同樣的GPU算力規(guī)模下,存儲性能的高低可能造成模型訓(xùn)練周期數(shù)倍的差異。
“算力、網(wǎng)力、存力,將會是制約生態(tài)效率的關(guān)鍵因素。” 京東云存儲研發(fā)負(fù)責(zé)人認(rèn)為,大模型基礎(chǔ)設(shè)施建設(shè)的最佳實踐,一開始就將包括計算、網(wǎng)絡(luò)、存儲在內(nèi)的整個基礎(chǔ)設(shè)施進(jìn)行統(tǒng)一規(guī)劃。據(jù)他觀察,大量的金融客戶目前正從只關(guān)注算力的建設(shè),轉(zhuǎn)變?yōu)橐碴P(guān)注先進(jìn)的網(wǎng)力和存力的升級,以避免造成算力資源的等待和浪費,讓花大價錢買入的算力發(fā)揮出最大效力。
實際上,不止大模型,金融企業(yè)在其他一些數(shù)字化轉(zhuǎn)型場景方面的需求,也在促使他們加大對計算、存儲、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施的建設(shè)。京東云金融解決方案相關(guān)人員透露,不少中小金融機(jī)構(gòu)就都曾出于降本增效的需求找到他們,希望對其傳統(tǒng)的存儲系統(tǒng)做升級和改造。
02
大模型對存儲有了新需求
相比于傳統(tǒng)AI的需求,大模型的場景具有數(shù)據(jù)量大、參數(shù)規(guī)模大、訓(xùn)練周期長等特點。相對應(yīng)的,它對存力提出了更高的要求,更加強(qiáng)調(diào)高吞吐、高IOPS、高帶寬、低延時等極致性能。
愛分析的報告中提到,金融行業(yè)需要可用、可信、可控的AI先進(jìn)存力。而且,這種需求貫穿了大模型從數(shù)據(jù)采集處理、訓(xùn)練到推理應(yīng)用等各個環(huán)節(jié)。
在數(shù)據(jù)的采集和預(yù)處理環(huán)節(jié),通常情況下,AI大模型的海量數(shù)據(jù)來自不同的應(yīng)用,由不同的協(xié)議來采集或存儲。京東云金融解決方案相關(guān)人員介紹,數(shù)據(jù)要方便導(dǎo)入模型,從而完成訓(xùn)練任務(wù)。因此,這一階段下,既要求存儲產(chǎn)品的容量大,吞吐量要高,還要求數(shù)據(jù)協(xié)議轉(zhuǎn)化和使用便利性有保障。
在訓(xùn)練環(huán)節(jié),卓越的存儲性能直接關(guān)系到數(shù)據(jù)整理、數(shù)據(jù)加載和階段性模型存儲等任務(wù)能否高效運行。他透露,存儲有一個整體目標(biāo),就是減少算力等待時間,提升整個模型訓(xùn)練效率。
數(shù)智前線獲悉,數(shù)以月計的大模型訓(xùn)練過程,其實要完成多輪訓(xùn)練。每次訓(xùn)練都要把龐大的數(shù)據(jù)源重新打散和分配。過程里海量的小文件不斷被重新編排和組織,量級驚人。“有些是圖片,有些是一小段文本,要把里面的內(nèi)容提取出來,做一些歸類等訓(xùn)練,小文件的量級可能達(dá)到幾十億。”京東云云海研發(fā)負(fù)責(zé)人告訴數(shù)智前線。
傳統(tǒng)應(yīng)用中,存儲系統(tǒng)也面臨海量小文件的處理任務(wù),但經(jīng)常分散在幾個月的跨度里。大模型訓(xùn)練場景卻要求幾個小時完成這個任務(wù)。這使得存儲每秒鐘要處理的數(shù)據(jù)量遠(yuǎn)超過傳統(tǒng)互聯(lián)網(wǎng)應(yīng)用里的峰值。“以雙11為例,電商業(yè)務(wù)頂峰時段,某個系統(tǒng)對存儲帶寬的要求可能在幾百GB 每秒,但大模型訓(xùn)練,可能每秒要達(dá)到上TB的帶寬”, 京東云云海研發(fā)負(fù)責(zé)人說,這要求大模型場景下的存儲性能相比傳統(tǒng)產(chǎn)品提升幾百到上千倍。
為避免大模型故障,經(jīng)常要階段性保存訓(xùn)練的結(jié)果,業(yè)界稱為“checkpoint”。千億參數(shù)級別的模型訓(xùn)練,高峰時段可能需要在數(shù)十秒內(nèi)處理 TB 級別的數(shù)據(jù)存儲。資深人士介紹,這個步驟存儲系統(tǒng)要盡量避免任何中間傳輸損耗,數(shù)據(jù)拷貝的性能損耗,從而把網(wǎng)絡(luò)和磁盤的物理硬件性能充分發(fā)揮出來。
上述資深人士認(rèn)為,目前國內(nèi)面向AI大模型場景的存儲解決方案生態(tài)尚有待進(jìn)一步豐富和發(fā)展。不過已經(jīng)有廠商從自身的大模型應(yīng)用實踐中看到了市場的痛點,并以高性能產(chǎn)品來滿足需求。以京東云云海的高性能極速版為例,該產(chǎn)品具備高吞吐、高帶寬和低時延等特性,可滿足金融行業(yè)客戶的需求。
比如在大模型訓(xùn)練的并行文件存儲時,云海極速版的單文件系統(tǒng)支持千萬級IOPS,上千臺服務(wù)器可同時并發(fā)訪問;單客戶端數(shù)據(jù)能達(dá)到200μs延遲和數(shù)百GB/s的讀寫吞吐。在高性能之外,云海產(chǎn)品的穩(wěn)定性還經(jīng)過京東自身海量數(shù)據(jù)規(guī)模和復(fù)雜場景的考驗。
值得一提的是,當(dāng)下金融行業(yè)信創(chuàng)進(jìn)程正在加速,業(yè)界也關(guān)注到,銀行、券商等金融客戶在存儲產(chǎn)品選型時已經(jīng)把保證核心技術(shù)自主可控等納入考量。主流廠商們正大力加強(qiáng)自身產(chǎn)品對國產(chǎn)軟硬件的兼容。目前京東云云海已兼容全系列國產(chǎn)軟硬件,而且核心技術(shù)自主可控,能夠滿足國產(chǎn)化適配的需求。
資深人士還觀察到,近年來,一些新趨勢也在出現(xiàn)。一些金融行業(yè)客戶在此前常見的軟硬件一體解決方案之外,還希望存儲產(chǎn)品交付時能夠?qū)崿F(xiàn)軟硬解耦。這樣既能利用好企業(yè)內(nèi)已有的硬件資產(chǎn),充分利舊,另外也能保持相應(yīng)的自主權(quán)和靈活性,符合組織內(nèi)嚴(yán)苛的采購流程和規(guī)范。目前,京東云云海的產(chǎn)品包含軟硬一體和純軟件交付兩種模式,更為靈活,也受到不少客戶歡迎。
大模型落地的成本問題也是業(yè)界關(guān)注重點。今年2月國盛證券估算過,GPT-3訓(xùn)練一次的成本約為140萬美元,對于一些更大的LLM模型,訓(xùn)練成本介于200萬美元至1200萬美元之間。千億級別參數(shù),動輒以月來計算的訓(xùn)練過程,反映到存儲環(huán)節(jié),本身就意味著巨大的成本。
為了提升性價比,除了從存儲性能上讓昂貴的GPU資源得到充分利用,提升模型訓(xùn)練效率,一些產(chǎn)品和解決方案已經(jīng)著重思考如何以更低成本來滿足需求。例如,京東云云海從軟件和一致性算法等層面入手,解決海量規(guī)模帶來的管理難度增加以及成本的指數(shù)級增長。
總體而言,金融行業(yè)里大模型的探索實踐和智能化轉(zhuǎn)型升級特性,正呼喚著存儲產(chǎn)品在更高性能、更可信和更具性價比等層面進(jìn)行升級。
03
下一代分布式存儲走向何方
大模型對先進(jìn)存力的需求蓬勃生長的背后,行業(yè)也在期待新的分布式存儲架構(gòu)和產(chǎn)品,破解高性能、高穩(wěn)定性以及可擴(kuò)展和運維上的痛點。
事實上,國內(nèi)大部分存儲還是第一代產(chǎn)品和技術(shù),基于諸如CEPH開源架構(gòu)做了一些商業(yè)化版本。而像CEPH開源架構(gòu)本身,已經(jīng)是一個將近20年歷史的架構(gòu),過去一直沒什么太大的變化,面向的是一些低速存儲硬件。但存儲的硬件這些年無論是性能還是價格都有很大的優(yōu)化,軟件反而成了性能釋放的瓶頸和短板。
京東云云海身上有一個鮮明的標(biāo)簽——“下一代分布式存儲”。 京東云存儲研發(fā)負(fù)責(zé)人說,下一代并不是在上一代存儲的基礎(chǔ)上做一些性能優(yōu)化,而是整個技術(shù)體系有徹底的變化,“上一代積累的很多經(jīng)驗完全要推倒重來。”
“下一代”背后主要有雙重含義:一是軟件架構(gòu)領(lǐng)先,二是在工程實踐真實落地。
和傳統(tǒng)的存儲不同,京東云云海引入了全異步、非阻塞、無鎖化全量的架構(gòu)。盡管下一代分布式存儲的代碼量比上一代的存儲架構(gòu)多了5倍,給編程和工程都帶來了很大的挑戰(zhàn),但帶來的收益也非?捎^。
從京東云海在金融行業(yè)的實踐來看,在相同的硬件條件下,“整個產(chǎn)品的表現(xiàn)達(dá)到了可以媲美集中式存儲,或者傳統(tǒng)分布式存儲10倍的水平,并且成本沒有提升。” 京東云存儲研發(fā)負(fù)責(zé)人說,比如IOPS比上一代產(chǎn)品有10倍的提升,IO延遲低于百微秒,已經(jīng)是業(yè)內(nèi)領(lǐng)先的水平。
相比于對技術(shù)演進(jìn)方向的準(zhǔn)確判斷,其實更大的難題在于這些新技術(shù)和產(chǎn)品,如何在工程落地中經(jīng)受住大規(guī)模場景的實踐考驗?萍计髽I(yè)早期都喜歡去打榜,以展現(xiàn)產(chǎn)品或技術(shù)的先進(jìn)性,但業(yè)界發(fā)現(xiàn),榜單的表現(xiàn)與真正的規(guī);こ虒嵺`還有巨大的鴻溝。
尤其是存儲作為非常底層的支撐產(chǎn)品,穩(wěn)定性要求高,數(shù)據(jù)損壞或者丟失不可逆,客戶對存儲產(chǎn)品的更換會更加謹(jǐn)慎。諸如銀行等金融客戶在選型時都非常在意,產(chǎn)品本身是否有過大規(guī)模的生產(chǎn)和實踐。
京東云存儲研發(fā)負(fù)責(zé)人坦言,全異步、非阻塞、追加寫等技術(shù)思路業(yè)內(nèi)基本有共識,目前市面上開源產(chǎn)品很少跑通,可參考的生產(chǎn)實踐也非常少。京東的優(yōu)勢在于,10年前就開始自研存儲,當(dāng)時解決的是內(nèi)部的需求。這些內(nèi)部場景給下一代分布式存儲的工程實踐提供了天然的練兵場。
一是京東集團(tuán)本身業(yè)務(wù)多元化,除了電商,也有物流、金融、健康和科技等業(yè)務(wù),不同的業(yè)務(wù)場景對存儲的要求不太一樣,比方金融場景更偏安全可靠,需要多地容災(zāi);物流場景更偏實時性,支持訂單的實時響應(yīng);搜索推薦更偏高吞吐的要求。“方方面面的這種需求,都有過一些實踐。” 他說。
二是京東的業(yè)務(wù)體量對存儲的性能要求也非常高。
如今,云海在性能上已經(jīng)做到接近本地盤的性能。京東已經(jīng)在把本地盤切換到云海的分布式存儲,經(jīng)歷了大促的檢驗。
云海根據(jù)京東自身的業(yè)務(wù)場景和生產(chǎn)實踐孵化而來,經(jīng)歷內(nèi)部積累的技術(shù)實踐,能很好地匹配包括金融客戶在內(nèi)的需求。
不過產(chǎn)品對外輸出,外部客戶的IT環(huán)境與內(nèi)部存在不小差異,這也考驗云海的適配能力。比如云海之前在京東內(nèi)部使用,底層資源用的都是京東云,但服務(wù)外部客戶,需要面對各種各樣的云產(chǎn)品,每家云的技術(shù)體系不太一樣,適配的便捷度,過程是否平緩,適配完是否會導(dǎo)致性能衰減,都是需要解決的挑戰(zhàn)。
云海產(chǎn)品經(jīng)理回憶,云海最早服務(wù)的一批外部客戶就是金融企業(yè),經(jīng)常會面臨客戶規(guī)劃的資源,與云海要發(fā)揮最佳實踐所需要的資源不匹配的情況,有些客戶提供一些虛擬機(jī),不僅要求軟件跑起來,性能和時延都要在這個環(huán)境下看到效果。云海正是在不斷完成適配的過程里,打磨出了產(chǎn)品的能力,從而在客戶的場景里能滿足各類要求。
類似的問題在現(xiàn)實的工程實踐中經(jīng)常碰到,甚至因為整個工程的復(fù)雜度涉及方方面面,要把產(chǎn)品做到極致,不光是自己的代碼可能會出bug,使用的一些操作系統(tǒng)和依賴的運行庫也會有問題。“整個的難度在于全鏈條都有可能發(fā)生問題,都需要去解決。” 京東云存儲研發(fā)負(fù)責(zé)人說。
不過,他發(fā)現(xiàn),越來越多的外部客戶在認(rèn)可互聯(lián)網(wǎng)公司的技術(shù)演進(jìn)方向,比如很多金融客戶也認(rèn)為存算分離是基礎(chǔ)設(shè)施演進(jìn)的必然趨勢。而且,這些頭部銀行客戶在做一些技術(shù)選型時,找的大多也是互聯(lián)網(wǎng)類的云廠商。
如今,大模型的蓬勃發(fā)展,金融行業(yè)對先進(jìn)存力的需求越來越旺盛,京東云云海作為先進(jìn)存力的代表,通過自研下一代分布式存儲技術(shù),在滿足高性能、高穩(wěn)定性和高可用性等剛性需求的同時,也提供了軟硬解耦的交付方式,正在得到越來越多金融客戶的認(rèn)可和信任。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。