冰雪大世界盛大開園,美的空調(diào)橫跨50℃打造“東北夏威夷”臺灣小土豆勇闖冰雪大世界,美的空調(diào)真暖快車成為最熱打卡點京東iPhone 16系列年底大放價!至高補貼1200元價格低過11.11新一季圓滿假期結(jié)伴大使出發(fā)在即 LG電子十年相伴助力溫暖傳遞中國聯(lián)通組織“魅力亞冬,與智慧同行” 主題采訪活動“萬象分區(qū)”引領電視行業(yè)新潮流,TCL這步棋下得著實漂亮!百度職業(yè)院校專屬項目“大國智匠”引領職業(yè)教育新范式百度大模型助力2024年碼蹄杯程序設計大賽,全國高校學子展現(xiàn)卓越編程實力碼蹄杯人物特寫:四位編程少年的追夢之旅金倉數(shù)據(jù)庫四項成果入選2024星河案例亞信科技參加2024通信產(chǎn)業(yè)大會 CTO歐陽曄博士等做主題演講用專業(yè)贏得信賴 美好蘊育潤康引領孕產(chǎn)營養(yǎng)新風尚解鎖新成就!愛企查“度秘書”粉絲突破10萬!英特爾終止x86S架構(gòu)計劃:純64位設計再度戛然而止豆包大模型全面升級,相關(guān)概念股瘋漲,字節(jié)發(fā)布緊急警示申通、圓通、韻達發(fā)布 11 月簡報:快遞業(yè)務量、收入均同比增長,單票收入均下降SensorTower發(fā)11月中國手游全球收入排行榜 庫洛入榜“YO!原”千里來相會 華為智能生活館·太原茂業(yè)重裝開業(yè)微軟承認并調(diào)查Microsoft 365 應用出現(xiàn)“產(chǎn)品已停用”錯誤SK 海力士被曝贏得博通HBM訂單,預計明年 1b DRAM 月產(chǎn)能將擴大到 16~17 萬片
  • 首頁 > 數(shù)據(jù)存儲頻道 > 數(shù)據(jù).存儲頻道 > 存儲資訊

    AIGC時代,需要什么樣的云存儲?

    2024年04月11日 10:57:45   來源:光錐智能

      文|白 鴿

      編|王一粟

      AIGC狂飆一年,算法進步和應用落地的爆發(fā),讓中國云計算廠商感受著切實的變化。

      “今年一季度,大模型企業(yè)在云存儲的消耗同比在增加。”

      4月8日,在騰訊云AIGC云存儲解決方案升級發(fā)布會上,騰訊云存儲總經(jīng)理馬文霜同時預計,今年AIGC對于云端的調(diào)用量一定是爆發(fā)式的增長。

      馬文霜還開半玩笑地說,“可能這些企業(yè)拿到的投資更多了”。

      隨著多模態(tài)技術(shù)的進化和落地應用的逐漸爆發(fā),讓大模型的訓練和推理迎來了一些新的挑戰(zhàn)。

      事實上,從語言和圖像為主的GPT,到視頻生成模型Sora,大模型參數(shù)正在指數(shù)級增長。比如ChatGPT在GPT-2時是10億參數(shù)量,到現(xiàn)在GPT-4已經(jīng)有1.8萬億參數(shù)。Sora為主的多模態(tài)技術(shù),更會讓需要處理的數(shù)據(jù)量急劇增加,而這才剛剛是視頻生成模型的GPT-1.0時代。

      參數(shù)越大,對云存儲的需求就會越高,包括云存儲的數(shù)據(jù)量以及吞吐量等,如果云存儲能力不能夠滿足大模型的需求,則會直接影響到大模型的訓練速度和推理效率。

      在大模型加速發(fā)展的階段,大模型企業(yè)也越來越重視云存儲這一重要的底層基礎設施能力。但AIGC時代,究竟需要什么樣的云存儲技術(shù)?

      AIGC數(shù)據(jù)訓練的新需求,云存儲的新挑戰(zhàn)

      “內(nèi)卷”之下,大模型企業(yè)開始拼算力、拼參數(shù),更拼大模型的更新速度。

      如百川智能,前期平均一個月發(fā)布升級一款大模型,百度文心一言在發(fā)布之初,甚至一個月內(nèi)就完成了4次技術(shù)版本的升級。

      想要保持大模型的更新頻率和速度,就要保證整個大模型數(shù)據(jù)訓練過程的高效,其中某一個環(huán)節(jié)出現(xiàn)問題,就可能會拉長整個訓練時長,增加訓練成本。

      因此,作為整個大模型數(shù)據(jù)訓練的底座,云存儲的重要性日益凸顯。那么,AIGC時代到底需要什么樣的云存儲技術(shù)?

      存儲作為數(shù)據(jù)的載體,現(xiàn)如今已經(jīng)不僅僅只承擔“存”的作用,更需要打通數(shù)據(jù)從“存”到“用”的最后一公里。

      始于19年前QQ空間的騰訊云存儲,如今在國內(nèi)云廠商中存儲能力一直處于領導者象限(沙利文報告),他們的做法對行業(yè)頗有借鑒意義。

      馬文霜向光錐智能提到,在AIGC數(shù)據(jù)訓練的4個環(huán)節(jié)中,存儲需要提供的具體能力,包括:

      數(shù)據(jù)采集階段,需要一個大容量、低成本、高可靠的數(shù)據(jù)存儲底座;

      數(shù)據(jù)清洗階段,需要提供更多協(xié)議的支持,以及至少GB甚至TB級的數(shù)據(jù)訪問性能;

      數(shù)據(jù)訓練階段,作為大模型訓練的關(guān)鍵環(huán)節(jié),則需要一個TB級的帶寬存儲保證訓練過程中Checkpoint能夠快速保存,以便于保障訓練的連續(xù)性和提升CPU的有效使用時長,也需要存儲提供百萬級IOPS能力,來保證訓練時海量小樣本讀取不會成為訓練瓶頸;

      數(shù)據(jù)應用階段,則需要存儲提供比較豐富的數(shù)據(jù)審核能力,來滿足鑒黃、鑒暴等安全合規(guī)的訴求,保證大模型生成的內(nèi)容以合法、合規(guī)的方式使用;

      在這4個環(huán)節(jié)中,騰訊云AIGC云存儲解決方案,分別由4款產(chǎn)品提供專屬服務,包括對象存儲COS、高性能并行文件存儲CFS Turbo、數(shù)據(jù)加速器GooseFS和數(shù)據(jù)萬象CI。

      而這次騰訊云存儲面向AIGC場景的升級,就是基于上述4款產(chǎn)品將大模型的數(shù)據(jù)清洗和訓練效率提升1倍,整體訓練時長縮短一半。

      首先,在數(shù)據(jù)采集環(huán)節(jié), 基于自研的對象存儲引擎YottaStore,騰訊云對象存儲COS可支持單集群管理百EB級別存儲規(guī)模,多種協(xié)議和不同數(shù)據(jù)公網(wǎng)接入能力,可以讓采集的原始數(shù)據(jù)便捷入湖。

      數(shù)據(jù)清洗環(huán)節(jié),COS訪問鏈路比較長,數(shù)據(jù)讀取效率并不高,所以騰訊云在這中間添加了一層自研的數(shù)據(jù)加速器GooseFS。

      COS通過自研數(shù)據(jù)加速器GooseFS提升數(shù)據(jù)訪問性能,可實現(xiàn)高達數(shù)TBps的讀取帶寬,提供亞毫秒級的數(shù)據(jù)訪問延遲、百萬級的IOPS和TBps級別的吞吐能力。

      “這讓單次數(shù)據(jù)清洗任務耗時減少一半。”馬文霜說道。

      相比采集和清潔,大模型的訓練則更加耗時, 短則數(shù)周、長則數(shù)月,這期間如果任何一個CPU/GPU的節(jié)點掉線,都會導致整個訓練前功盡棄。

      業(yè)內(nèi)通常會采用2~4個小時保存一次訓練成果,即Checkpoint(檢查點),以便能在GPU故障時能回滾。

      此時則需要將保存的Checkpoint時間縮短到越短越好,但數(shù)千上萬個節(jié)點都需要保存Checkpoint,這就對文件存儲的讀寫吞吐提出了非常高的要求。

      馬文霜表示:“兩年前我們發(fā)布高性能并行文件存儲CFS Turbo第一個版本,是100GB的讀寫吞吐,當時覺得這個讀寫吞吐已經(jīng)足夠大,很多業(yè)務用不到。但去年大模型出來以后,用CFS Turbo再去寫Checkpoint,我們發(fā)現(xiàn)100G還遠遠不夠。”

      CFS Turbo底層技術(shù)來自于騰訊云自研的引擎Histor。此次升級,騰訊云將CFS Turbo的讀寫吞吐能力從100GB直接升級至TiB/s級別,讓3TB checkpoint 寫入時間從10分鐘,縮短至10秒內(nèi),時間降低90%,大幅提升大模型訓練效率。

      針對數(shù)據(jù)訪問延遲問題, 騰訊云引擎Histor可支持單個節(jié)點GPU與所有存儲節(jié)點進行通信,進行并行數(shù)據(jù)訪問。“另外,我們通過RDMA(遠程直接地址訪問)等技術(shù)不斷優(yōu)化數(shù)據(jù)訪問延遲,縮短IO路徑,最終可做到亞毫秒級訪問延遲。”馬文霜說道。

      同時,騰訊云Histor還可以將元數(shù)據(jù)目錄打散至所有存儲節(jié)點上,提供線性擴張能力,從而實現(xiàn)文件打開、讀取、刪除的百萬級IOPS能力。

      應用階段,大模型推理場景則對數(shù)據(jù)安全與可追溯性提出更高要求。 騰訊云數(shù)據(jù)萬象CI是一站式內(nèi)容治理服務平臺,它可以對AI生成的內(nèi)容進行一站式管理,可以提供圖片隱式水印、AIGC內(nèi)容審核、智能數(shù)據(jù)檢索MetaInsight等能力。

      此次升級,騰訊云重點講述了智能數(shù)據(jù)檢索MetaInsight,其能夠基于大模型和向量數(shù)據(jù)庫進行跨模態(tài)搜索服務,也就是可以文搜圖、文搜視頻、圖搜圖、視頻搜視頻,并憑借95%以上的召回率,可以幫助用戶快速鎖定目標內(nèi)容,提升審核效率。

      基于這套AIGC云存儲技術(shù)底座,騰訊云存儲總經(jīng)理陳崢表示,騰訊自研項目(比如混元大模型)的整體效率至少提升了2倍以上。

      目前,除騰訊自己的混元大模型,數(shù)據(jù)顯示,已有80%的頭部大模型企業(yè)使用了這套AIGC云存儲解決方案,包括百川智能、智譜、元象等明星大模型企業(yè)。

      而針對解決方案升級后的產(chǎn)品價格,馬文霜則表示,“不會有變化”。在阿里云和京東云都宣布降價時,騰訊云并沒有選擇降價,而是“加量不加價”。

      “穩(wěn)定性、高性能,以及性價比,是大模型時代云存儲的核心。”騰訊云智能存儲總監(jiān)葉嘉梁說道。

      當然,在AIGC時代,云廠商都想抓住這一次用云需求爆發(fā)的機會。 除了騰訊云外,阿里云、華為云等其他云廠商在AIGC云存儲領域也都有相應的布局。

      比如2023年,華為云針對大模型時代的云存儲發(fā)布了OceanStor A310 深度學習數(shù)據(jù)湖存儲和FusionCube A3000 訓/推超融合一體機兩款產(chǎn)品。

      阿里云面向AI時代的云存儲解決方案,也覆蓋了底層對象存儲 OSS數(shù)據(jù)湖、高性能文件存儲、并行文件存儲 CPFS、PAI-靈駿智算服務以及智能媒體管理IMM平臺等產(chǎn)品。

      可以看到,圍繞AIGC的需求,云廠商在云存儲領域迅速更新?lián)Q代。阿里云的思路與騰訊云非常接近,而華為云則加入了自己在硬件方面的優(yōu)勢。

      云存儲技術(shù)僅是云計算眾多底層核心技術(shù)之一,隨著大模型深度發(fā)展,云廠商們已經(jīng)開始在整個PaaS層、IaaS層、MaaS層,都在圍繞AIGC進行迭代升級,為行業(yè)提供全鏈路大模型云服務。

      云廠商狂飆,爭做“最適合大模型”的云

      云已經(jīng)成為大模型的最佳載體,大模型也正在重塑云服務的形態(tài)。

      馬文霜認為,云上豐富的資源、計算、存儲、網(wǎng)絡、容器技術(shù)和PaaS,都能夠解決AIGC在各個環(huán)節(jié)上對資源的訴求。云還能夠給AIGC提供成熟的方案和豐富的生態(tài)支持,讓客戶可以聚焦在自己產(chǎn)品競爭力的方向進行開發(fā),加速整體研發(fā)效率以及應用落地的速度。

      面對AIGC帶來的大模型發(fā)展浪潮,騰訊集團副總裁、騰訊云與智慧產(chǎn)業(yè)事業(yè)群COO兼騰訊云總裁邱躍鵬曾表示,大模型將開創(chuàng)下一代云服務,騰訊云要打造“最適合大模型的云”。

      自從大模型熱潮爆發(fā)以來,騰訊云在大模型業(yè)務推出上不是最快的一個,但卻是最扎實的一個。

      在2023年9月的騰訊全球數(shù)字生態(tài)大會上,騰訊云面向AIGC場景推出了基于星脈網(wǎng)絡的大模型訓練集群HCC、向量數(shù)據(jù)庫以及行業(yè)大模型的MaaS服務。

      也就是說,騰訊云從底層智算能力,到中間件,再到上層MaaS,已經(jīng)實現(xiàn)了全鏈路大模型云化能力升級迭代,每個業(yè)務都很務實。

      比如,針對大模型對算力的迫切需求,騰訊云高性能計算集群HCC為大模型訓練提供高性能、高帶寬、低延遲的智能算力支撐。通過自研星脈網(wǎng)絡,能提升40%GPU利用率,節(jié)省30%~60%模型訓練成本,提升AI大模型10倍通信性能。利用星星海自研服務器的6U超高密度設計和并行計算理念,確保高性能計算。

      針對在中間層對數(shù)據(jù)調(diào)度應用的需求,騰訊云向量數(shù)據(jù)庫,可為多維向量數(shù)據(jù)提供高效存儲、檢索和分析能力?蛻艨蓪⑺接袛(shù)據(jù)經(jīng)過文本處理和向量化后,存儲至騰訊云向量數(shù)據(jù)庫,從而創(chuàng)建一個定制化外部知識庫。在后續(xù)查詢?nèi)蝿罩校@個知識庫也能為大模型提供必要的提示,輔助AIGC應用產(chǎn)生更精確的輸出。

      而針對行業(yè)大模型開發(fā)與落地應用服務,騰訊云則在整個云底座之上推出了MaaS服務解決方案,為企業(yè)客戶提供涵蓋模型預訓練、模型精調(diào)、智能應用開發(fā)等一站式行業(yè)大模型解決方案。

      其中,值得一提的是騰訊云是業(yè)界最早提出走“向量數(shù)據(jù)庫”路線的云廠商,在大家對大模型部署還尚有技術(shù)路線爭議之初,騰訊就做了這個選擇。目前,向量數(shù)據(jù)庫+RAG(檢索增強)也已經(jīng)成為業(yè)內(nèi)使用頻率最多的大模型部署路線。

      可以看到,在回歸“產(chǎn)品優(yōu)先”戰(zhàn)略后,騰訊云在大模型時代的打法也逐漸清晰——不盲目追隨行業(yè),而是基于對AIGC的理解,做自己的產(chǎn)品迭代。

      不過,面對十年一遇的大模型機會,華為云、阿里云、百度云等云廠商也都在2023年爭先恐后地布局,騰訊云的壓力并不小。

      過去一年,華為云構(gòu)建了包括以華為云昇騰AI云服務為算力底座、行業(yè)首個大模型混合云Stack 8.3,在MaaS層用盤古大模型在千行百業(yè)中落地。華為云還上線了昇騰AI云服務百模千態(tài)專區(qū),收錄了業(yè)界主流開源大模型?梢钥吹剑A為云集成了算力、政企、行業(yè)、生態(tài)等多方面的優(yōu)勢,可謂火力全開。

      阿里云則是國內(nèi)大廠中唯一做開源大模型的公司,說明心態(tài)最為開放、做平臺的決心最強。 阿里云在智能算力底座之上,打造了以機器學習平臺PAI為核心的PaaS服務,以及上層MaaS服務。其中,在開發(fā)者生態(tài)層,截至2023年11月1日,阿里云發(fā)起的AI模型社區(qū)魔搭已經(jīng)有超過2300個模型,開發(fā)者超過280萬,模型下載次數(shù)也超過了1億多次。

      云廠商們掀起了新一輪廝殺,是因為大模型的紅利。

      AI的發(fā)展正在帶動用云需求的增長,并已成為云計算產(chǎn)業(yè)發(fā)展的第二增長曲線。畢竟,大模型的算力使用幾乎可以說是“無底洞”,此前業(yè)界曾預測OpenAI訓練GPT-4可能使用了大約10000-25000張GPU,以及微軟的云上算力支撐。

      因此,在AIGC時代,各大云廠商都在探索如何基于AI重塑云計算技術(shù)和服務體系,開辟全新的服務場景和服務內(nèi)容,從而能夠抓住這輪AI大模型升級發(fā)展所帶來的機會。

      大趨勢下,Cloud for AI不僅是云廠商的新機會,也是必答題。陳崢也表示,云廠商現(xiàn)階段所能夠做的就是提前進行技術(shù)產(chǎn)品布局,并將整個數(shù)據(jù)價值開放給客戶,從而讓客戶更好的利用數(shù)據(jù)。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。