合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實況照片了蘋果有線耳機或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術邂逅千年色彩美學!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴展到企業(yè)和教育領域三星新專利探索AR技術新應用:檢測屏幕指紋殘留,提高手機安全性猛瑪傳奇C1:直播圖傳技術的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗全面升級機器人公司1X推出世界模型Apple Intelligence測試版現(xiàn)已開放革命性AI對話系統(tǒng)Moshi問世:機器也能說人話了?
  • 首頁 > 云計算頻道 > 大模型

    存儲降本是金融落地大模型的必答題嗎?

    2023年12月01日 09:35:07   來源:數(shù)智前線

      企業(yè)對大模型的算力成本有著切身的感受,但算力背后,存儲也是非常關鍵的一環(huán),如何提高存儲的性能、降低存儲的成本,將深刻影響到大模型訓練及后續(xù)應用的成本。先進的存力成為大模型落地的必答題。

      文|徐鑫 周享玥 游勇

      ChatGPT掀起的大模型熱已近一年時間,相比于新技術帶來的革命性體驗,客戶們的另一個反饋同樣非常迫切——如何降低大模型的訓練和落地成本。

      作為對新技術一向敏銳的金融行業(yè),在這次大模型的應用和落地中走在了前面。不過,一些大型銀行和證券機構也告訴數(shù)智前線,金融大模型落地存在工程化難度大、場景價值有待驗證等因素外,核心痛點還包括大模型的訓練和落地成本居高不下。

      過去大半年, GPU算力短缺、價格高漲的新聞層出不窮,人們對昂貴的AI算力有了很直觀的感知。然而,圍繞大模型應用的存儲成本也隨著需求爆發(fā)而快速增加,在保證高存儲性能的同時,需要降低存儲成本已經(jīng)在業(yè)內(nèi)形成共識。

      11月30日,數(shù)據(jù)分析機構愛分析聯(lián)合京東云發(fā)布了《金融行業(yè)先進AI存力報告》,報告中明確提到,先進存力是金融行業(yè)大模型落地的必答題。而金融行業(yè)作為大模型落地的先鋒行業(yè),其對先進存力的需求表現(xiàn)出了幾個非常共性的特征:可用、可信、可控。

      包括京東云云海在內(nèi)的國內(nèi)存儲產(chǎn)品,通過存算分離的分布式存儲架構,正在破解金融等行業(yè)應用大模型存在的存力短板。

      01

      金融成為大模型應用的先行軍

      金融行業(yè)對大模型的應用落地探索還在持續(xù)深入中,僅是這個月,已經(jīng)有不少企業(yè)亮出新動態(tài)。

      前腳,中國人保發(fā)布專屬企業(yè)大模型“數(shù)智靈犀-人保大模型”,并亮相兩款人保專屬問答領域大模型應用;后腳,華夏銀行也拋出一份招標公告,要為大語言模型應用系統(tǒng)項目(智能算力部分)征集供應商。2023金融街論壇等多場金融行業(yè)活動上,大模型也是反復被討論的重點。

      這只是金融行業(yè)落地和應用大模型的一個縮影。來自愛分析的一份報告顯示,能源、金融已成為大模型建設的領軍行業(yè),二者在投入預算上最為積極,在大模型市場(企業(yè)用戶側(cè)的預算金額,其投向包括硬件、軟件和服務)中金額占比分別達40.9%、16.9%。

      業(yè)界的普遍共識是,金融行業(yè)數(shù)字化基礎好、AI應用場景多,同時又高度重視數(shù)據(jù)和技術,有較強的預算投入實力和意愿,是大模型落地的高潛場景。

      大大小小的金融機構們,也對大模型抱有不小的期望。一位業(yè)內(nèi)人士至今還記得自己5月份在大理的一間寺廟里,偶然碰上和她談論大模型的金融人時的訝異。這個對技術有著深度信仰的行業(yè),幾乎是ChatGPT熱潮一來就迅速反應,紛紛組建團隊,開始找落地場景。

      可以看到,過去半年多,智慧辦公、智能開發(fā)、智慧營銷、智能客服、智慧投研、智能風控、數(shù)據(jù)分析等金融行業(yè)多個場景被一一探索,部分場景也已進入試點應用階段。建行稱內(nèi)部已有20多個場景投放應用,農(nóng)行透露已在30多個場景中進行了試點,廣發(fā)證券則表示,正在探索將大模型和此前推出的虛擬數(shù)字人平臺打通……

      毋庸置疑,金融行業(yè)已經(jīng)成為應用大模型的前沿陣地,但要真正實現(xiàn)“變革性的效果”,仍然還有很多問題需要解決。

      10月中旬的一場大會上,有嘉賓分享了他們對數(shù)百家金融機構的走訪調(diào)研結果:雖然幾乎所有金融機構都已啟動對大模型的探索,但在大模型實際落地過程中,還存在著模型選擇難、算力供應不足、應用成熟度不足等諸多問題。

      為了支撐大模型時代的AI應用,大量金融機構,已經(jīng)開始考慮如何重塑自己的IT基礎設施,以此來解決大模型落地過程中的各種“桎梏”。 而其中,算力和數(shù)據(jù)是首先被想到的。

      相比于直接用公有云的服務,金融行業(yè)的特殊性,使得很多金融客戶都在自建算力基礎設施。包括建行、工行等國有大行在內(nèi)的金融機構都在今年進行了不少的算力采購。

      而在數(shù)據(jù)層面,業(yè)內(nèi)人士透露,不少頭部金融機構正在通過大模型+MLOps的方式解決數(shù)據(jù)問題,越來越多的腰部企業(yè)也在開始陸續(xù)去構建數(shù)據(jù)中臺和數(shù)據(jù)治理的體系。

      但僅僅解決算力和數(shù)據(jù)問題仍然是不夠的,京東云存儲研發(fā)負責人告訴數(shù)智前線,他們最近接觸了不少正在自建大模型基礎設施的頭部金融機構,對方反映最多的問題是,為了解決大模型所需的算力問題,他們采購了不少GPU,但當GPU真正跑起來了,網(wǎng)絡和存儲能力卻遇到瓶頸了,“GPU老是出現(xiàn)等待問題”。

      GPU算力昂貴,而且現(xiàn)在大模型的訓練都是千卡級別,存力性能不夠會制約算力的發(fā)揮。愛分析的報告中提到,在同樣的GPU算力規(guī)模下,存儲性能的高低可能造成模型訓練周期數(shù)倍的差異。

      “算力、網(wǎng)力、存力,將會是制約生態(tài)效率的關鍵因素。” 京東云存儲研發(fā)負責人認為,大模型基礎設施建設的最佳實踐,一開始就將包括計算、網(wǎng)絡、存儲在內(nèi)的整個基礎設施進行統(tǒng)一規(guī)劃。據(jù)他觀察,大量的金融客戶目前正從只關注算力的建設,轉(zhuǎn)變?yōu)橐碴P注先進的網(wǎng)力和存力的升級,以避免造成算力資源的等待和浪費,讓花大價錢買入的算力發(fā)揮出最大效力。

      實際上,不止大模型,金融企業(yè)在其他一些數(shù)字化轉(zhuǎn)型場景方面的需求,也在促使他們加大對計算、存儲、網(wǎng)絡等基礎設施的建設。京東云金融解決方案相關人員透露,不少中小金融機構就都曾出于降本增效的需求找到他們,希望對其傳統(tǒng)的存儲系統(tǒng)做升級和改造。

      02

      大模型對存儲有了新需求

      相比于傳統(tǒng)AI的需求,大模型的場景具有數(shù)據(jù)量大、參數(shù)規(guī)模大、訓練周期長等特點。相對應的,它對存力提出了更高的要求,更加強調(diào)高吞吐、高IOPS、高帶寬、低延時等極致性能。

      愛分析的報告中提到,金融行業(yè)需要可用、可信、可控的AI先進存力。而且,這種需求貫穿了大模型從數(shù)據(jù)采集處理、訓練到推理應用等各個環(huán)節(jié)。

      在數(shù)據(jù)的采集和預處理環(huán)節(jié),通常情況下,AI大模型的海量數(shù)據(jù)來自不同的應用,由不同的協(xié)議來采集或存儲。京東云金融解決方案相關人員介紹,數(shù)據(jù)要方便導入模型,從而完成訓練任務。因此,這一階段下,既要求存儲產(chǎn)品的容量大,吞吐量要高,還要求數(shù)據(jù)協(xié)議轉(zhuǎn)化和使用便利性有保障。

      在訓練環(huán)節(jié),卓越的存儲性能直接關系到數(shù)據(jù)整理、數(shù)據(jù)加載和階段性模型存儲等任務能否高效運行。他透露,存儲有一個整體目標,就是減少算力等待時間,提升整個模型訓練效率。

      數(shù)智前線獲悉,數(shù)以月計的大模型訓練過程,其實要完成多輪訓練。每次訓練都要把龐大的數(shù)據(jù)源重新打散和分配。過程里海量的小文件不斷被重新編排和組織,量級驚人。“有些是圖片,有些是一小段文本,要把里面的內(nèi)容提取出來,做一些歸類等訓練,小文件的量級可能達到幾十億。”京東云云海研發(fā)負責人告訴數(shù)智前線。

      傳統(tǒng)應用中,存儲系統(tǒng)也面臨海量小文件的處理任務,但經(jīng)常分散在幾個月的跨度里。大模型訓練場景卻要求幾個小時完成這個任務。這使得存儲每秒鐘要處理的數(shù)據(jù)量遠超過傳統(tǒng)互聯(lián)網(wǎng)應用里的峰值。“以雙11為例,電商業(yè)務頂峰時段,某個系統(tǒng)對存儲帶寬的要求可能在幾百GB 每秒,但大模型訓練,可能每秒要達到上TB的帶寬”, 京東云云海研發(fā)負責人說,這要求大模型場景下的存儲性能相比傳統(tǒng)產(chǎn)品提升幾百到上千倍。

      為避免大模型故障,經(jīng)常要階段性保存訓練的結果,業(yè)界稱為“checkpoint”。千億參數(shù)級別的模型訓練,高峰時段可能需要在數(shù)十秒內(nèi)處理 TB 級別的數(shù)據(jù)存儲。資深人士介紹,這個步驟存儲系統(tǒng)要盡量避免任何中間傳輸損耗,數(shù)據(jù)拷貝的性能損耗,從而把網(wǎng)絡和磁盤的物理硬件性能充分發(fā)揮出來。

      上述資深人士認為,目前國內(nèi)面向AI大模型場景的存儲解決方案生態(tài)尚有待進一步豐富和發(fā)展。不過已經(jīng)有廠商從自身的大模型應用實踐中看到了市場的痛點,并以高性能產(chǎn)品來滿足需求。以京東云云海的高性能極速版為例,該產(chǎn)品具備高吞吐、高帶寬和低時延等特性,可滿足金融行業(yè)客戶的需求。

      比如在大模型訓練的并行文件存儲時,云海極速版的單文件系統(tǒng)支持千萬級IOPS,上千臺服務器可同時并發(fā)訪問;單客戶端數(shù)據(jù)能達到200μs延遲和數(shù)百GB/s的讀寫吞吐。在高性能之外,云海產(chǎn)品的穩(wěn)定性還經(jīng)過京東自身海量數(shù)據(jù)規(guī)模和復雜場景的考驗。

      值得一提的是,當下金融行業(yè)信創(chuàng)進程正在加速,業(yè)界也關注到,銀行、券商等金融客戶在存儲產(chǎn)品選型時已經(jīng)把保證核心技術自主可控等納入考量。主流廠商們正大力加強自身產(chǎn)品對國產(chǎn)軟硬件的兼容。目前京東云云海已兼容全系列國產(chǎn)軟硬件,而且核心技術自主可控,能夠滿足國產(chǎn)化適配的需求。

      資深人士還觀察到,近年來,一些新趨勢也在出現(xiàn)。一些金融行業(yè)客戶在此前常見的軟硬件一體解決方案之外,還希望存儲產(chǎn)品交付時能夠?qū)崿F(xiàn)軟硬解耦。這樣既能利用好企業(yè)內(nèi)已有的硬件資產(chǎn),充分利舊,另外也能保持相應的自主權和靈活性,符合組織內(nèi)嚴苛的采購流程和規(guī)范。目前,京東云云海的產(chǎn)品包含軟硬一體和純軟件交付兩種模式,更為靈活,也受到不少客戶歡迎。

      大模型落地的成本問題也是業(yè)界關注重點。今年2月國盛證券估算過,GPT-3訓練一次的成本約為140萬美元,對于一些更大的LLM模型,訓練成本介于200萬美元至1200萬美元之間。千億級別參數(shù),動輒以月來計算的訓練過程,反映到存儲環(huán)節(jié),本身就意味著巨大的成本。

      為了提升性價比,除了從存儲性能上讓昂貴的GPU資源得到充分利用,提升模型訓練效率,一些產(chǎn)品和解決方案已經(jīng)著重思考如何以更低成本來滿足需求。例如,京東云云海從軟件和一致性算法等層面入手,解決海量規(guī)模帶來的管理難度增加以及成本的指數(shù)級增長。

      總體而言,金融行業(yè)里大模型的探索實踐和智能化轉(zhuǎn)型升級特性,正呼喚著存儲產(chǎn)品在更高性能、更可信和更具性價比等層面進行升級。

      03

      下一代分布式存儲走向何方

      大模型對先進存力的需求蓬勃生長的背后,行業(yè)也在期待新的分布式存儲架構和產(chǎn)品,破解高性能、高穩(wěn)定性以及可擴展和運維上的痛點。

      事實上,國內(nèi)大部分存儲還是第一代產(chǎn)品和技術,基于諸如CEPH開源架構做了一些商業(yè)化版本。而像CEPH開源架構本身,已經(jīng)是一個將近20年歷史的架構,過去一直沒什么太大的變化,面向的是一些低速存儲硬件。但存儲的硬件這些年無論是性能還是價格都有很大的優(yōu)化,軟件反而成了性能釋放的瓶頸和短板。

      京東云云海身上有一個鮮明的標簽——“下一代分布式存儲”。 京東云存儲研發(fā)負責人說,下一代并不是在上一代存儲的基礎上做一些性能優(yōu)化,而是整個技術體系有徹底的變化,“上一代積累的很多經(jīng)驗完全要推倒重來。”

      “下一代”背后主要有雙重含義:一是軟件架構領先,二是在工程實踐真實落地。

      和傳統(tǒng)的存儲不同,京東云云海引入了全異步、非阻塞、無鎖化全量的架構。盡管下一代分布式存儲的代碼量比上一代的存儲架構多了5倍,給編程和工程都帶來了很大的挑戰(zhàn),但帶來的收益也非?捎^。

      從京東云海在金融行業(yè)的實踐來看,在相同的硬件條件下,“整個產(chǎn)品的表現(xiàn)達到了可以媲美集中式存儲,或者傳統(tǒng)分布式存儲10倍的水平,并且成本沒有提升。” 京東云存儲研發(fā)負責人說,比如IOPS比上一代產(chǎn)品有10倍的提升,IO延遲低于百微秒,已經(jīng)是業(yè)內(nèi)領先的水平。

      相比于對技術演進方向的準確判斷,其實更大的難題在于這些新技術和產(chǎn)品,如何在工程落地中經(jīng)受住大規(guī)模場景的實踐考驗。科技企業(yè)早期都喜歡去打榜,以展現(xiàn)產(chǎn)品或技術的先進性,但業(yè)界發(fā)現(xiàn),榜單的表現(xiàn)與真正的規(guī);こ虒嵺`還有巨大的鴻溝。

      尤其是存儲作為非常底層的支撐產(chǎn)品,穩(wěn)定性要求高,數(shù)據(jù)損壞或者丟失不可逆,客戶對存儲產(chǎn)品的更換會更加謹慎。諸如銀行等金融客戶在選型時都非常在意,產(chǎn)品本身是否有過大規(guī)模的生產(chǎn)和實踐。

      京東云存儲研發(fā)負責人坦言,全異步、非阻塞、追加寫等技術思路業(yè)內(nèi)基本有共識,目前市面上開源產(chǎn)品很少跑通,可參考的生產(chǎn)實踐也非常少。京東的優(yōu)勢在于,10年前就開始自研存儲,當時解決的是內(nèi)部的需求。這些內(nèi)部場景給下一代分布式存儲的工程實踐提供了天然的練兵場。

      一是京東集團本身業(yè)務多元化,除了電商,也有物流、金融、健康和科技等業(yè)務,不同的業(yè)務場景對存儲的要求不太一樣,比方金融場景更偏安全可靠,需要多地容災;物流場景更偏實時性,支持訂單的實時響應;搜索推薦更偏高吞吐的要求。“方方面面的這種需求,都有過一些實踐。” 他說。

      二是京東的業(yè)務體量對存儲的性能要求也非常高。

      如今,云海在性能上已經(jīng)做到接近本地盤的性能。京東已經(jīng)在把本地盤切換到云海的分布式存儲,經(jīng)歷了大促的檢驗。

      云海根據(jù)京東自身的業(yè)務場景和生產(chǎn)實踐孵化而來,經(jīng)歷內(nèi)部積累的技術實踐,能很好地匹配包括金融客戶在內(nèi)的需求。

      不過產(chǎn)品對外輸出,外部客戶的IT環(huán)境與內(nèi)部存在不小差異,這也考驗云海的適配能力。比如云海之前在京東內(nèi)部使用,底層資源用的都是京東云,但服務外部客戶,需要面對各種各樣的云產(chǎn)品,每家云的技術體系不太一樣,適配的便捷度,過程是否平緩,適配完是否會導致性能衰減,都是需要解決的挑戰(zhàn)。

      云海產(chǎn)品經(jīng)理回憶,云海最早服務的一批外部客戶就是金融企業(yè),經(jīng)常會面臨客戶規(guī)劃的資源,與云海要發(fā)揮最佳實踐所需要的資源不匹配的情況,有些客戶提供一些虛擬機,不僅要求軟件跑起來,性能和時延都要在這個環(huán)境下看到效果。云海正是在不斷完成適配的過程里,打磨出了產(chǎn)品的能力,從而在客戶的場景里能滿足各類要求。

      類似的問題在現(xiàn)實的工程實踐中經(jīng)常碰到,甚至因為整個工程的復雜度涉及方方面面,要把產(chǎn)品做到極致,不光是自己的代碼可能會出bug,使用的一些操作系統(tǒng)和依賴的運行庫也會有問題。“整個的難度在于全鏈條都有可能發(fā)生問題,都需要去解決。” 京東云存儲研發(fā)負責人說。

      不過,他發(fā)現(xiàn),越來越多的外部客戶在認可互聯(lián)網(wǎng)公司的技術演進方向,比如很多金融客戶也認為存算分離是基礎設施演進的必然趨勢。而且,這些頭部銀行客戶在做一些技術選型時,找的大多也是互聯(lián)網(wǎng)類的云廠商。

      如今,大模型的蓬勃發(fā)展,金融行業(yè)對先進存力的需求越來越旺盛,京東云云海作為先進存力的代表,通過自研下一代分布式存儲技術,在滿足高性能、高穩(wěn)定性和高可用性等剛性需求的同時,也提供了軟硬解耦的交付方式,正在得到越來越多金融客戶的認可和信任。

      文章內(nèi)容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產(chǎn)品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。