存儲降本是金融落地大模型的必答題嗎？

2023年12月01日 09:35:07 來源：數(shù)智前線

　　企業(yè)對大模型的算力成本有著切身的感受，但算力背后，存儲也是非常關(guān)鍵的一環(huán)，如何提高存儲的性能、降低存儲的成本，將深刻影響到大模型訓(xùn)練及后續(xù)應(yīng)用的成本。先進(jìn)的存力成為大模型落地的必答題。

　　文|徐鑫周享玥游勇

　　ChatGPT掀起的大模型熱已近一年時間，相比于新技術(shù)帶來的革命性體驗，客戶們的另一個反饋同樣非常迫切——如何降低大模型的訓(xùn)練和落地成本。

　　作為對新技術(shù)一向敏銳的金融行業(yè)，在這次大模型的應(yīng)用和落地中走在了前面。不過，一些大型銀行和證券機(jī)構(gòu)也告訴數(shù)智前線，金融大模型落地存在工程化難度大、場景價值有待驗證等因素外，核心痛點還包括大模型的訓(xùn)練和落地成本居高不下。

　　過去大半年， GPU算力短缺、價格高漲的新聞層出不窮，人們對昂貴的AI算力有了很直觀的感知。然而，圍繞大模型應(yīng)用的存儲成本也隨著需求爆發(fā)而快速增加，在保證高存儲性能的同時，需要降低存儲成本已經(jīng)在業(yè)內(nèi)形成共識。

　　11月30日，數(shù)據(jù)分析機(jī)構(gòu)愛分析聯(lián)合京東云發(fā)布了《金融行業(yè)先進(jìn)AI存力報告》，報告中明確提到，先進(jìn)存力是金融行業(yè)大模型落地的必答題。而金融行業(yè)作為大模型落地的先鋒行業(yè)，其對先進(jìn)存力的需求表現(xiàn)出了幾個非常共性的特征：可用、可信、可控。

　　包括京東云云海在內(nèi)的國內(nèi)存儲產(chǎn)品，通過存算分離的分布式存儲架構(gòu)，正在破解金融等行業(yè)應(yīng)用大模型存在的存力短板。

　　金融成為大模型應(yīng)用的先行軍

　　金融行業(yè)對大模型的應(yīng)用落地探索還在持續(xù)深入中，僅是這個月，已經(jīng)有不少企業(yè)亮出新動態(tài)。

　　前腳，中國人保發(fā)布專屬企業(yè)大模型“數(shù)智靈犀-人保大模型”，并亮相兩款人保專屬問答領(lǐng)域大模型應(yīng)用;后腳，華夏銀行也拋出一份招標(biāo)公告，要為大語言模型應(yīng)用系統(tǒng)項目(智能算力部分)征集供應(yīng)商。2023金融街論壇等多場金融行業(yè)活動上，大模型也是反復(fù)被討論的重點。

　　這只是金融行業(yè)落地和應(yīng)用大模型的一個縮影。來自愛分析的一份報告顯示，能源、金融已成為大模型建設(shè)的領(lǐng)軍行業(yè)，二者在投入預(yù)算上最為積極，在大模型市場(企業(yè)用戶側(cè)的預(yù)算金額，其投向包括硬件、軟件和服務(wù))中金額占比分別達(dá)40.9%、16.9%。

　　業(yè)界的普遍共識是，金融行業(yè)數(shù)字化基礎(chǔ)好、AI應(yīng)用場景多，同時又高度重視數(shù)據(jù)和技術(shù)，有較強(qiáng)的預(yù)算投入實力和意愿，是大模型落地的高潛場景。

　　大大小小的金融機(jī)構(gòu)們，也對大模型抱有不小的期望。一位業(yè)內(nèi)人士至今還記得自己5月份在大理的一間寺廟里，偶然碰上和她談?wù)摯竽Ｐ偷慕鹑谌藭r的訝異。這個對技術(shù)有著深度信仰的行業(yè)，幾乎是ChatGPT熱潮一來就迅速反應(yīng)，紛紛組建團(tuán)隊，開始找落地場景。

　　可以看到，過去半年多，智慧辦公、智能開發(fā)、智慧營銷、智能客服、智慧投研、智能風(fēng)控、數(shù)據(jù)分析等金融行業(yè)多個場景被一一探索，部分場景也已進(jìn)入試點應(yīng)用階段。建行稱內(nèi)部已有20多個場景投放應(yīng)用，農(nóng)行透露已在30多個場景中進(jìn)行了試點，廣發(fā)證券則表示，正在探索將大模型和此前推出的虛擬數(shù)字人平臺打通……

　　毋庸置疑，金融行業(yè)已經(jīng)成為應(yīng)用大模型的前沿陣地，但要真正實現(xiàn)“變革性的效果”，仍然還有很多問題需要解決。

　　10月中旬的一場大會上，有嘉賓分享了他們對數(shù)百家金融機(jī)構(gòu)的走訪調(diào)研結(jié)果：雖然幾乎所有金融機(jī)構(gòu)都已啟動對大模型的探索，但在大模型實際落地過程中，還存在著模型選擇難、算力供應(yīng)不足、應(yīng)用成熟度不足等諸多問題。

　　為了支撐大模型時代的AI應(yīng)用，大量金融機(jī)構(gòu)，已經(jīng)開始考慮如何重塑自己的IT基礎(chǔ)設(shè)施，以此來解決大模型落地過程中的各種“桎梏”。而其中，算力和數(shù)據(jù)是首先被想到的。

　　相比于直接用公有云的服務(wù)，金融行業(yè)的特殊性，使得很多金融客戶都在自建算力基礎(chǔ)設(shè)施。包括建行、工行等國有大行在內(nèi)的金融機(jī)構(gòu)都在今年進(jìn)行了不少的算力采購。

　　而在數(shù)據(jù)層面，業(yè)內(nèi)人士透露，不少頭部金融機(jī)構(gòu)正在通過大模型+MLOps的方式解決數(shù)據(jù)問題，越來越多的腰部企業(yè)也在開始陸續(xù)去構(gòu)建數(shù)據(jù)中臺和數(shù)據(jù)治理的體系。

　　但僅僅解決算力和數(shù)據(jù)問題仍然是不夠的，京東云存儲研發(fā)負(fù)責(zé)人告訴數(shù)智前線，他們最近接觸了不少正在自建大模型基礎(chǔ)設(shè)施的頭部金融機(jī)構(gòu)，對方反映最多的問題是，為了解決大模型所需的算力問題，他們采購了不少GPU，但當(dāng)GPU真正跑起來了，網(wǎng)絡(luò)和存儲能力卻遇到瓶頸了，“GPU老是出現(xiàn)等待問題”。

　　GPU算力昂貴，而且現(xiàn)在大模型的訓(xùn)練都是千卡級別，存力性能不夠會制約算力的發(fā)揮。愛分析的報告中提到，在同樣的GPU算力規(guī)模下，存儲性能的高低可能造成模型訓(xùn)練周期數(shù)倍的差異。

　　“算力、網(wǎng)力、存力，將會是制約生態(tài)效率的關(guān)鍵因素。” 京東云存儲研發(fā)負(fù)責(zé)人認(rèn)為，大模型基礎(chǔ)設(shè)施建設(shè)的最佳實踐，一開始就將包括計算、網(wǎng)絡(luò)、存儲在內(nèi)的整個基礎(chǔ)設(shè)施進(jìn)行統(tǒng)一規(guī)劃。據(jù)他觀察，大量的金融客戶目前正從只關(guān)注算力的建設(shè)，轉(zhuǎn)變?yōu)橐碴P(guān)注先進(jìn)的網(wǎng)力和存力的升級，以避免造成算力資源的等待和浪費，讓花大價錢買入的算力發(fā)揮出最大效力。

　　實際上，不止大模型，金融企業(yè)在其他一些數(shù)字化轉(zhuǎn)型場景方面的需求，也在促使他們加大對計算、存儲、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施的建設(shè)。京東云金融解決方案相關(guān)人員透露，不少中小金融機(jī)構(gòu)就都曾出于降本增效的需求找到他們，希望對其傳統(tǒng)的存儲系統(tǒng)做升級和改造。

　　大模型對存儲有了新需求

　　相比于傳統(tǒng)AI的需求，大模型的場景具有數(shù)據(jù)量大、參數(shù)規(guī)模大、訓(xùn)練周期長等特點。相對應(yīng)的，它對存力提出了更高的要求，更加強(qiáng)調(diào)高吞吐、高IOPS、高帶寬、低延時等極致性能。

　　愛分析的報告中提到，金融行業(yè)需要可用、可信、可控的AI先進(jìn)存力。而且，這種需求貫穿了大模型從數(shù)據(jù)采集處理、訓(xùn)練到推理應(yīng)用等各個環(huán)節(jié)。

　　在數(shù)據(jù)的采集和預(yù)處理環(huán)節(jié)，通常情況下，AI大模型的海量數(shù)據(jù)來自不同的應(yīng)用，由不同的協(xié)議來采集或存儲。京東云金融解決方案相關(guān)人員介紹，數(shù)據(jù)要方便導(dǎo)入模型，從而完成訓(xùn)練任務(wù)。因此，這一階段下，既要求存儲產(chǎn)品的容量大，吞吐量要高，還要求數(shù)據(jù)協(xié)議轉(zhuǎn)化和使用便利性有保障。

　　在訓(xùn)練環(huán)節(jié)，卓越的存儲性能直接關(guān)系到數(shù)據(jù)整理、數(shù)據(jù)加載和階段性模型存儲等任務(wù)能否高效運行。他透露，存儲有一個整體目標(biāo)，就是減少算力等待時間，提升整個模型訓(xùn)練效率。

　　數(shù)智前線獲悉，數(shù)以月計的大模型訓(xùn)練過程，其實要完成多輪訓(xùn)練。每次訓(xùn)練都要把龐大的數(shù)據(jù)源重新打散和分配。過程里海量的小文件不斷被重新編排和組織，量級驚人。“有些是圖片，有些是一小段文本，要把里面的內(nèi)容提取出來，做一些歸類等訓(xùn)練，小文件的量級可能達(dá)到幾十億。”京東云云海研發(fā)負(fù)責(zé)人告訴數(shù)智前線。

　　傳統(tǒng)應(yīng)用中，存儲系統(tǒng)也面臨海量小文件的處理任務(wù)，但經(jīng)常分散在幾個月的跨度里。大模型訓(xùn)練場景卻要求幾個小時完成這個任務(wù)。這使得存儲每秒鐘要處理的數(shù)據(jù)量遠(yuǎn)超過傳統(tǒng)互聯(lián)網(wǎng)應(yīng)用里的峰值。“以雙11為例，電商業(yè)務(wù)頂峰時段，某個系統(tǒng)對存儲帶寬的要求可能在幾百GB 每秒，但大模型訓(xùn)練，可能每秒要達(dá)到上TB的帶寬”，京東云云海研發(fā)負(fù)責(zé)人說，這要求大模型場景下的存儲性能相比傳統(tǒng)產(chǎn)品提升幾百到上千倍。

　　為避免大模型故障，經(jīng)常要階段性保存訓(xùn)練的結(jié)果，業(yè)界稱為“checkpoint”。千億參數(shù)級別的模型訓(xùn)練，高峰時段可能需要在數(shù)十秒內(nèi)處理 TB 級別的數(shù)據(jù)存儲。資深人士介紹，這個步驟存儲系統(tǒng)要盡量避免任何中間傳輸損耗，數(shù)據(jù)拷貝的性能損耗，從而把網(wǎng)絡(luò)和磁盤的物理硬件性能充分發(fā)揮出來。

　　上述資深人士認(rèn)為，目前國內(nèi)面向AI大模型場景的存儲解決方案生態(tài)尚有待進(jìn)一步豐富和發(fā)展。不過已經(jīng)有廠商從自身的大模型應(yīng)用實踐中看到了市場的痛點，并以高性能產(chǎn)品來滿足需求。以京東云云海的高性能極速版為例，該產(chǎn)品具備高吞吐、高帶寬和低時延等特性，可滿足金融行業(yè)客戶的需求。

　　比如在大模型訓(xùn)練的并行文件存儲時，云海極速版的單文件系統(tǒng)支持千萬級IOPS，上千臺服務(wù)器可同時并發(fā)訪問;單客戶端數(shù)據(jù)能達(dá)到200μs延遲和數(shù)百GB/s的讀寫吞吐。在高性能之外，云海產(chǎn)品的穩(wěn)定性還經(jīng)過京東自身海量數(shù)據(jù)規(guī)模和復(fù)雜場景的考驗。

　　值得一提的是，當(dāng)下金融行業(yè)信創(chuàng)進(jìn)程正在加速，業(yè)界也關(guān)注到，銀行、券商等金融客戶在存儲產(chǎn)品選型時已經(jīng)把保證核心技術(shù)自主可控等納入考量。主流廠商們正大力加強(qiáng)自身產(chǎn)品對國產(chǎn)軟硬件的兼容。目前京東云云海已兼容全系列國產(chǎn)軟硬件，而且核心技術(shù)自主可控，能夠滿足國產(chǎn)化適配的需求。

　　資深人士還觀察到，近年來，一些新趨勢也在出現(xiàn)。一些金融行業(yè)客戶在此前常見的軟硬件一體解決方案之外，還希望存儲產(chǎn)品交付時能夠?qū)崿F(xiàn)軟硬解耦。這樣既能利用好企業(yè)內(nèi)已有的硬件資產(chǎn)，充分利舊，另外也能保持相應(yīng)的自主權(quán)和靈活性，符合組織內(nèi)嚴(yán)苛的采購流程和規(guī)范。目前，京東云云海的產(chǎn)品包含軟硬一體和純軟件交付兩種模式，更為靈活，也受到不少客戶歡迎。

　　大模型落地的成本問題也是業(yè)界關(guān)注重點。今年2月國盛證券估算過，GPT-3訓(xùn)練一次的成本約為140萬美元，對于一些更大的LLM模型，訓(xùn)練成本介于200萬美元至1200萬美元之間。千億級別參數(shù)，動輒以月來計算的訓(xùn)練過程，反映到存儲環(huán)節(jié)，本身就意味著巨大的成本。

　　為了提升性價比，除了從存儲性能上讓昂貴的GPU資源得到充分利用，提升模型訓(xùn)練效率，一些產(chǎn)品和解決方案已經(jīng)著重思考如何以更低成本來滿足需求。例如，京東云云海從軟件和一致性算法等層面入手，解決海量規(guī)模帶來的管理難度增加以及成本的指數(shù)級增長。

　　總體而言，金融行業(yè)里大模型的探索實踐和智能化轉(zhuǎn)型升級特性，正呼喚著存儲產(chǎn)品在更高性能、更可信和更具性價比等層面進(jìn)行升級。

　　下一代分布式存儲走向何方

　　大模型對先進(jìn)存力的需求蓬勃生長的背后，行業(yè)也在期待新的分布式存儲架構(gòu)和產(chǎn)品，破解高性能、高穩(wěn)定性以及可擴(kuò)展和運維上的痛點。

　　事實上，國內(nèi)大部分存儲還是第一代產(chǎn)品和技術(shù)，基于諸如CEPH開源架構(gòu)做了一些商業(yè)化版本。而像CEPH開源架構(gòu)本身，已經(jīng)是一個將近20年歷史的架構(gòu)，過去一直沒什么太大的變化，面向的是一些低速存儲硬件。但存儲的硬件這些年無論是性能還是價格都有很大的優(yōu)化，軟件反而成了性能釋放的瓶頸和短板。

　　京東云云海身上有一個鮮明的標(biāo)簽——“下一代分布式存儲”。京東云存儲研發(fā)負(fù)責(zé)人說，下一代并不是在上一代存儲的基礎(chǔ)上做一些性能優(yōu)化，而是整個技術(shù)體系有徹底的變化，“上一代積累的很多經(jīng)驗完全要推倒重來。”

　　“下一代”背后主要有雙重含義：一是軟件架構(gòu)領(lǐng)先，二是在工程實踐真實落地。

　　和傳統(tǒng)的存儲不同，京東云云海引入了全異步、非阻塞、無鎖化全量的架構(gòu)。盡管下一代分布式存儲的代碼量比上一代的存儲架構(gòu)多了5倍，給編程和工程都帶來了很大的挑戰(zhàn)，但帶來的收益也非�？捎^。

　　從京東云海在金融行業(yè)的實踐來看，在相同的硬件條件下，“整個產(chǎn)品的表現(xiàn)達(dá)到了可以媲美集中式存儲，或者傳統(tǒng)分布式存儲10倍的水平，并且成本沒有提升。” 京東云存儲研發(fā)負(fù)責(zé)人說，比如IOPS比上一代產(chǎn)品有10倍的提升，IO延遲低于百微秒，已經(jīng)是業(yè)內(nèi)領(lǐng)先的水平。

　　相比于對技術(shù)演進(jìn)方向的準(zhǔn)確判斷，其實更大的難題在于這些新技術(shù)和產(chǎn)品，如何在工程落地中經(jīng)受住大規(guī)模場景的實踐考驗�？萍计髽I(yè)早期都喜歡去打榜，以展現(xiàn)產(chǎn)品或技術(shù)的先進(jìn)性，但業(yè)界發(fā)現(xiàn)，榜單的表現(xiàn)與真正的規(guī)�；こ虒嵺`還有巨大的鴻溝。

　　尤其是存儲作為非常底層的支撐產(chǎn)品，穩(wěn)定性要求高，數(shù)據(jù)損壞或者丟失不可逆，客戶對存儲產(chǎn)品的更換會更加謹(jǐn)慎。諸如銀行等金融客戶在選型時都非常在意，產(chǎn)品本身是否有過大規(guī)模的生產(chǎn)和實踐。

　　京東云存儲研發(fā)負(fù)責(zé)人坦言，全異步、非阻塞、追加寫等技術(shù)思路業(yè)內(nèi)基本有共識，目前市面上開源產(chǎn)品很少跑通，可參考的生產(chǎn)實踐也非常少。京東的優(yōu)勢在于，10年前就開始自研存儲，當(dāng)時解決的是內(nèi)部的需求。這些內(nèi)部場景給下一代分布式存儲的工程實踐提供了天然的練兵場。

　　一是京東集團(tuán)本身業(yè)務(wù)多元化，除了電商，也有物流、金融、健康和科技等業(yè)務(wù)，不同的業(yè)務(wù)場景對存儲的要求不太一樣，比方金融場景更偏安全可靠，需要多地容災(zāi);物流場景更偏實時性，支持訂單的實時響應(yīng);搜索推薦更偏高吞吐的要求。“方方面面的這種需求，都有過一些實踐。” 他說。

　　二是京東的業(yè)務(wù)體量對存儲的性能要求也非常高。

　　如今，云海在性能上已經(jīng)做到接近本地盤的性能。京東已經(jīng)在把本地盤切換到云海的分布式存儲，經(jīng)歷了大促的檢驗。

　　云海根據(jù)京東自身的業(yè)務(wù)場景和生產(chǎn)實踐孵化而來，經(jīng)歷內(nèi)部積累的技術(shù)實踐，能很好地匹配包括金融客戶在內(nèi)的需求。

　　不過產(chǎn)品對外輸出，外部客戶的IT環(huán)境與內(nèi)部存在不小差異，這也考驗云海的適配能力。比如云海之前在京東內(nèi)部使用，底層資源用的都是京東云，但服務(wù)外部客戶，需要面對各種各樣的云產(chǎn)品，每家云的技術(shù)體系不太一樣，適配的便捷度，過程是否平緩，適配完是否會導(dǎo)致性能衰減，都是需要解決的挑戰(zhàn)。

　　云海產(chǎn)品經(jīng)理回憶，云海最早服務(wù)的一批外部客戶就是金融企業(yè)，經(jīng)常會面臨客戶規(guī)劃的資源，與云海要發(fā)揮最佳實踐所需要的資源不匹配的情況，有些客戶提供一些虛擬機(jī)，不僅要求軟件跑起來，性能和時延都要在這個環(huán)境下看到效果。云海正是在不斷完成適配的過程里，打磨出了產(chǎn)品的能力，從而在客戶的場景里能滿足各類要求。

　　類似的問題在現(xiàn)實的工程實踐中經(jīng)常碰到，甚至因為整個工程的復(fù)雜度涉及方方面面，要把產(chǎn)品做到極致，不光是自己的代碼可能會出bug，使用的一些操作系統(tǒng)和依賴的運行庫也會有問題。“整個的難度在于全鏈條都有可能發(fā)生問題，都需要去解決。” 京東云存儲研發(fā)負(fù)責(zé)人說。

　　不過，他發(fā)現(xiàn)，越來越多的外部客戶在認(rèn)可互聯(lián)網(wǎng)公司的技術(shù)演進(jìn)方向，比如很多金融客戶也認(rèn)為存算分離是基礎(chǔ)設(shè)施演進(jìn)的必然趨勢。而且，這些頭部銀行客戶在做一些技術(shù)選型時，找的大多也是互聯(lián)網(wǎng)類的云廠商。

　　如今，大模型的蓬勃發(fā)展，金融行業(yè)對先進(jìn)存力的需求越來越旺盛，京東云云海作為先進(jìn)存力的代表，通過自研下一代分布式存儲技術(shù)，在滿足高性能、高穩(wěn)定性和高可用性等剛性需求的同時，也提供了軟硬解耦的交付方式，正在得到越來越多金融客戶的認(rèn)可和信任。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信