• 首頁 > 云計算頻道 > 大模型

    52萬張GPU集群塞進一個「盒子」?AI神器破解百模爭霸困局!

    2024年10月17日 15:26:10   來源:新智元公眾號

      【新智元導(dǎo)讀】「算力」堪稱是AI時代最大的痛。在國外,OpenAI因為微軟造GPU集群的速度太慢而算力告急。在國內(nèi),企業(yè)則面臨著「模型算力太多元、產(chǎn)業(yè)生態(tài)太分散」這一難題。不過,最近新誕生的一款「AI神器」,令人眼前一亮。

      如今,快速靈活地獲取算力可謂是剛需,就連OpenAI也不例外。

      最近,The Information爆料:曾經(jīng)約定微軟是獨家云服務(wù)器供應(yīng)商的OpenAI,已經(jīng)開始找其他家要買算力了。

      原因就在于,微軟提供算力的速度太慢了!

      OpenAI既想要微軟提供更先進、算力更強的GPU集群,又要他們加快建設(shè)進度。

      但微軟的計劃是,在明年年底之前為OpenAI提供約30萬塊英偉達GB200。

      于是,OpenAI找到了甲骨文,開始洽談一個預(yù)計可在2026年中獲得幾十萬塊英偉達AI芯片的數(shù)據(jù)中心項目。

      無獨有偶,在算力需求這一塊,國內(nèi)智能算力的年復(fù)合增長率預(yù)計也將達到33.9%。

      但在更進一步的大模型落地上,相比起只缺算力的OpenAI,國內(nèi)的企業(yè)則面臨著更多的挑戰(zhàn),比如算力資源管理困難、模型微調(diào)復(fù)雜等等。

      模型算力太多元,產(chǎn)業(yè)生態(tài)太離散

      根據(jù)賽迪研究院的數(shù)據(jù),2023年我國生成式人工智能企業(yè)采用率達15%,市場規(guī)模約14.4萬億元。

      另一方面據(jù)公開數(shù)據(jù)顯示,2023年全年,國內(nèi)市場對大模型公開招投標(biāo)的項目只有不到200家,金額5個多億;而到了2024年,僅上半年的項目就達到了486個,金額13個多億。

      其中,軟件的占比在2023年為11%,而2024年上半年卻只有5%。相比之下,大模型相關(guān)服務(wù)則從去年的17%暴漲到今年上半年的30%。也就是說,企業(yè)對大模型硬件和服務(wù)的需求,基本占了90%以上。

      對比可以發(fā)現(xiàn),模型應(yīng)用和市場趨勢之間,存在著巨大的鴻溝。

      造成這一現(xiàn)象的原因,首先,就是大模型的幻覺問題。

      大模型在預(yù)訓(xùn)練階段所用的知識是通用為主,但在企業(yè)的專業(yè)領(lǐng)域中,如果還是以算概率來驅(qū)動的方式生硬輸出,就會答非所問。

      第二,要實現(xiàn)大模型與行業(yè)場景的深度結(jié)合,應(yīng)用開發(fā)流程復(fù)雜,應(yīng)用門檻高。

      微調(diào)、RAG都要分多個子步驟,應(yīng)用開發(fā)還需要不同專業(yè)團隊長期協(xié)作,研發(fā)難度大,耗時也很長。

      第三,在不同場景下,不同業(yè)務(wù)對模型能力有多樣需求,比如推理速度快、生成精度高、函數(shù)和代碼能力強。

      由于業(yè)務(wù)生成環(huán)境往往的多模并存,使用的算力資源也是多元并用的。多模和多元的適配問題,常需要軟件整個重構(gòu),難度大,成本高。

      此外,在產(chǎn)業(yè)生態(tài)上,從芯片到軟件框架,再到模型本身,不同廠商的產(chǎn)品數(shù)據(jù)源不同、技術(shù)標(biāo)準(zhǔn)不一,很難統(tǒng)一適配。

      在本地化的大模型應(yīng)用生成與落地中,這些挑戰(zhàn)會更加顯著。

      如何才能讓企業(yè)(尤其是傳統(tǒng)企業(yè))的大模型應(yīng)用迅速落地?

      這時,業(yè)內(nèi)迫切地需要高效、易用、端到端的軟硬一體化解決方案,來支撐大模型行業(yè)落地。

      如果有這樣一種開箱即用的產(chǎn)品,無論是模型本身、應(yīng)用開發(fā),還是算力問題,都能迎刃而解。

      算力即得

      針對這些痛點,LANGCHAO信息推出了堪稱AI應(yīng)用開發(fā)「超級工作臺」的元腦企智EPAI一體機。

      從算力、平臺,到服務(wù),提供了一站式大模型開發(fā)平臺。

      面向真實場景,平臺提供了數(shù)據(jù)處理工具、模型微調(diào)工具、增強知識檢索工具、應(yīng)用開發(fā)框架等。

      而根據(jù)不同模型的能力特點,平臺還支持調(diào)用多模態(tài)算法和多元算力。

      最強AI算力平臺

      為了覆蓋不同的需求,一體機共有5種規(guī)格——基礎(chǔ)版、標(biāo)準(zhǔn)版、創(chuàng)新版、高級版、集群版。

      總的來說,元腦企智EPAI一體機具備了卓越的算力性能和極致的彈性架構(gòu),可支持延時RDMA網(wǎng)絡(luò)和高性能并行存儲。

      它們通過分布式并行加速、混合精度計算、高性能算子技術(shù),提升了模型的訓(xùn)練和推理速度,實現(xiàn)應(yīng)用高并發(fā)高能效處理、業(yè)務(wù)快速上線的需求。

      在訓(xùn)練穩(wěn)定性方面,元腦企智EPAI一體機專為LLM訓(xùn)練微調(diào)優(yōu)化提供了斷點續(xù)訓(xùn)能力,為大模型訓(xùn)練保駕護航,優(yōu)化升級算力池化與分配策略,支持按需彈性擴縮容。

      接下來,分別看下五個一體機不同的特點。其中,創(chuàng)新版、高級版和集群版均能同時支持訓(xùn)練和推理。

      面向模型推理的基礎(chǔ)版配備了8塊4090D GPU,性價比最高

      標(biāo)準(zhǔn)版則搭載了基于Hopper架構(gòu)的HGX模塊化AI超算平臺,8顆GPU通過NVlink高效互聯(lián)

      創(chuàng)新版可以為多元算力提供深度適配

      高級版專為那些對算力有極高需求的客戶而定制,并且提供了訓(xùn)推全流程自動化開發(fā)測試工具鏈

      集群版,顧名思義就是機柜級的訓(xùn)推一體機——為那些業(yè)務(wù)規(guī)模較大,有分期建設(shè)、按需擴展需求的企業(yè)所定制的最高配

      值得一提的是,在網(wǎng)絡(luò)單元上,集群版配備了LANGCHAO信息自研的「大模型專用交換機」——超級AI以太網(wǎng)交換機X400。

      它最高能夠擴展到524,288張GPU的超大規(guī)模AI算力系統(tǒng),而且憑借AR自適應(yīng)路由、端到端擁塞控制、亞毫秒級故障自愈等技術(shù),性能提升至傳統(tǒng)RoCE網(wǎng)絡(luò)的1.6倍。

      由此,大型集群實現(xiàn)了超高吞吐量、高可擴展性和超高可靠性。在LLM訓(xùn)練性能提升同時,也大幅縮短訓(xùn)練時長、降低訓(xùn)練成本。

      除了硬件上的創(chuàng)新之外,所有的一體機也全部預(yù)置了元腦企智(EPAI)大模型開發(fā)平臺。

      這種軟硬一體化交付,正是LANGCHAO信息一體機最大優(yōu)勢所在。

      開箱即用

      有了元腦企智EPAI,LANGCHAO信息的一體機才能為企業(yè)客戶們,提供開箱即用的能力。

      更具體地講,元腦企智EPAI是專為企業(yè)AI大模型應(yīng)用,高效、易用、安全落地而打造的端到端開發(fā)平臺。

      從數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、知識檢索、應(yīng)用框架等工具全面涉及,而且還支持調(diào)度多元算力和多元模型。

      元腦企智EPAI的完整架構(gòu)

      多元多模

      首先,元腦企智EPAI平臺最核心的一部分是,平臺底座能夠適配多元多模的基礎(chǔ)設(shè)施。

      多元多模計算框架TensorGlue

      多模是指,支持多種模型和多種計算框架。

      其中,預(yù)置了Yuan2.0、Baichuan2、ChatGLM3、Qwen1.5、GLM4、Llama3等7個基礎(chǔ)大模型,以及應(yīng)用DEMO樣例。

      還有10+計算框架(MegtronLM、DeepSpeed、Pytorch、Transformer、Llamafactory、Fastchat等),以及多種微調(diào)能力,如監(jiān)督微調(diào)、直接偏好優(yōu)化、人類反饋強化學(xué)習(xí)等。

      同時,它還能廣泛支持主流基礎(chǔ)大模型結(jié)構(gòu),支持與用戶自研模型的靈活適配和對接。

      多元算力管理調(diào)度AIStation

      而AIStation的作用在于,能夠?qū)χС殖瑪?shù)千節(jié)點的AI服務(wù)器。

      它可以進行異構(gòu)算力集群的統(tǒng)一池化管理,通過自適應(yīng)系統(tǒng)將訓(xùn)練底層的計算、存儲、網(wǎng)絡(luò)環(huán)境實現(xiàn)自動化配置。

      從開發(fā)、訓(xùn)練、微調(diào),再到應(yīng)用部署,EPAI能夠?qū)崿F(xiàn)全生命周期監(jiān)管和異常全自動化處理。

      而且針對不同業(yè)務(wù)場景,設(shè)備故障自動容錯,保證業(yè)務(wù)時長高效、穩(wěn)定運行。

      簡單易用

      一體機的簡單易用,便體現(xiàn)在了數(shù)據(jù)準(zhǔn)備/生成、微調(diào)訓(xùn)練、推理部署中,全部實現(xiàn)自動化。

      從企業(yè)大模型開發(fā)部署業(yè)務(wù)流程來看,具備通用知識的LLM,就像剛畢業(yè)的大學(xué)生一樣,需要學(xué)習(xí)企業(yè)知識。

      因此,第一步數(shù)據(jù)最關(guān)鍵。

      高質(zhì)量數(shù)據(jù)自動生成

      當(dāng)前互聯(lián)網(wǎng)訓(xùn)練數(shù)據(jù)遠遠不足,尤其是專業(yè)化的數(shù)據(jù),而AI數(shù)據(jù)生成恰好能彌補這一弊端。

      高質(zhì)量數(shù)據(jù),才是保障AI模型應(yīng)用效果的第一要素。

      那么企業(yè)如何在種類多樣、規(guī)模龐大數(shù)據(jù)庫中,生成微調(diào)數(shù)據(jù),并減少處理成本?又該如何將專業(yè)化數(shù)據(jù)為模型所用?

      元腦企智EPAI平臺通過高質(zhì)量數(shù)據(jù)生成,攻破了難題。

      企業(yè)僅需將原始數(shù)據(jù)上傳,元腦企智EPAI將其提取為文本txt,各種結(jié)構(gòu)化/非結(jié)構(gòu)化文檔均可支持。

      然后利用大模型生成問題答案對,也就是可以直接微調(diào)使用的數(shù)據(jù)。

      最后一步通過「微調(diào)數(shù)據(jù)增強」讓AI再自動生成同類型、同主題高質(zhì)量微調(diào)數(shù)據(jù)。

      這一過程,還會對數(shù)據(jù)抽取后,進行向量編碼。

      舉個栗子,「Apple」會被編碼成很長一個向量,其中含了很多豐富的語義信息。它可能代表水果一類,也可能代表蘋果公司等等。

      全鏈路微調(diào)訓(xùn)練工具

      有了數(shù)據(jù),接下來就要微調(diào)模型了。

      好在元腦企智EPAI平臺對LLM微調(diào)時所需的環(huán)境、框架、配置代碼等一系列流程,完成了封裝。

      開發(fā)者無需動手寫代碼,就能微調(diào)出領(lǐng)域大模型。

      從數(shù)據(jù)導(dǎo)入、訓(xùn)練參數(shù)配置、資源類型配置等均由平臺自動管理,大幅提升微調(diào)任務(wù)的效率。

      訓(xùn)練微調(diào)完成后,模型部署和上線也是由元腦企智EPAI接手,還提供了多種評估的方式。

      總之,高效的數(shù)據(jù)處理工具,支持微調(diào)數(shù)據(jù)自動生成和擴展,為模型微調(diào)訓(xùn)練提供豐富數(shù)據(jù)源;豐富、完整的模型訓(xùn)練工具,支持SFT優(yōu)化方式,訓(xùn)練之后支持一鍵部署。

      此外,元腦企智EPAI還支持API、對話式UI、智能體三類使用方式。

      如下是對話式UI界面的樣子。

      支持RAG,彌補LLM知識無法及時更新難題

      另外,還需考慮的一個問題是,LLM幻覺之所產(chǎn)生,是因為無法及時獲取到新知識。

      而元腦企智EPAI集成了LANGCHAO信息自研的RAG系統(tǒng),幫助大模型提升了應(yīng)用效果。

      僅需上傳一個原始文檔,就可以讓LLM基于文檔內(nèi)容,進行精準(zhǔn)問答和信息檢索,快速構(gòu)建出領(lǐng)域問答能力。

      同時,它還預(yù)置了一億條的基礎(chǔ)知識庫,能夠?qū)崿F(xiàn)端到端30%召回率。

      在話式UI界面中,知識庫管理中可以上傳企業(yè)、行業(yè)、基礎(chǔ)三大類知識。

      它還支持檢索溯源、混合檢索、結(jié)果重排,由此可以提升端到端檢索精度。

      數(shù)據(jù)安全,隱私保護

      一體機另一個優(yōu)勢在于, 能夠保護企業(yè)的私有數(shù)據(jù)不出域,杜絕數(shù)據(jù)風(fēng)險。

      內(nèi)置的元腦企智EPAI平臺,可以提供全鏈路的防護,從文件級數(shù)據(jù)加密、訪問控制,到數(shù)據(jù)存儲、備份恢復(fù)。

      它可以精準(zhǔn)控制每個用戶數(shù)據(jù)、模型、知識庫、服務(wù)的權(quán)限,保障多場景使用安全。

      還有內(nèi)容多級過濾和審核體系,對用戶輸入、模型輸出進行快速、準(zhǔn)確審核,保障生成內(nèi)容的安全性與隱私性。

      AI應(yīng)用,每個企業(yè)皆可開發(fā)

      正是因為有以上種種優(yōu)勢,元腦企智EPAI能廣泛地賦能企業(yè)內(nèi)部的各類應(yīng)用場景。

      比如研發(fā)的代碼生成、部門助理,生產(chǎn)的故障識別、維修方案生成,銷售的智能客服、文案協(xié)作,行政的招聘助手,公文寫作等。

      開發(fā)速度快到低至1周,培訓(xùn)周期短到最快3天。

      在LANGCHAO信息內(nèi)部,元腦企智EPAI就已經(jīng)大大加快了大家的工作流。

      以前如果有數(shù)百萬行私有代碼,注釋少,可讀性差,需要參考幾十頁上下文的PDF,專業(yè)工程師單個函數(shù)開發(fā)就需要3周。

      但現(xiàn)在LANGCHAO信息利用智能編程助手,可以直接把開發(fā)周期縮短至2天。

      它能對數(shù)十萬行代碼自動解析,由AI自動生成超過65%的計算框架代碼,為研發(fā)工程師每天節(jié)省了近3個小時的代碼。

      而基于元腦企智EPAI打造的智能客服大腦「源小服」,涵蓋了10+年的產(chǎn)品資料和5000+復(fù)雜場景,直接學(xué)習(xí)了2萬余份產(chǎn)品文檔、用戶手冊,百萬余條對話等材料。

      對于常見技術(shù)問題的解決率達到了80%,整體服務(wù)效率提升了160%,斬獲了《哈佛商業(yè)評論》「鼎革獎」的年度新技術(shù)突破獎。

      百模爭霸,不再卡在落地

      因為具有以上優(yōu)勢,元腦企智EPAI一體機就為用戶解決了燃眉之急。

      其中一類重要客戶,就是傳統(tǒng)制造業(yè)客戶。

      尤其是大型制造業(yè)客戶,無論是CIO、團隊,還是三產(chǎn)公司,在數(shù)據(jù)、人員、技術(shù)方面都有很多積累,而應(yīng)用本身也有應(yīng)用牽引的趨勢。

      而另一類,就是傳統(tǒng)的ISV(獨立軟件開發(fā)商)客戶。

      對于他們,LANGCHAO信息有上百號博士團隊在做算力、算法、框架的應(yīng)用開發(fā)工作,在算力上也很強,優(yōu)勢明顯。

      還有一些用戶,需要有對大模型專門的調(diào)優(yōu)能力。

      目前的情況是,對于非常專業(yè)的應(yīng)用領(lǐng)域,國內(nèi)能賣相關(guān)服務(wù)不多,花很高的代價,也未必找得到。

      原本LANGCHAO信息有這個能力,但沒有開放。如今,LANGCHAO信息把經(jīng)驗、服務(wù)都集成到了一體機的產(chǎn)品中,正好滿足了他們的需求。

      在LANGCHAO信息看來,如今大模型落地的最大痛點,不是算法,也不是產(chǎn)品,而是行業(yè)的know-how。

      如果數(shù)據(jù)不ready,也很難通過一個工具、一個軟件或一臺設(shè)備去解決。

      但這時如果有一個一體機的產(chǎn)品,還能跟懂行業(yè)、懂?dāng)?shù)據(jù)但不懂AI的ISV互相賦能,大模型的落地就會變得很容易。

      從2021年開始到現(xiàn)在,LANGCHAO信息已成行業(yè)里的骨灰級玩家。比如2021年做完源1.0后,22年LANGCHAO信息就已經(jīng)在用RAG做內(nèi)部智能客服系統(tǒng)。

      如今,憑著對模型本身的know-how,以及模型使用上的know-how,LANGCHAO信息再次賦能自己的合作伙伴,加速企業(yè)大模型應(yīng)用開發(fā),打通了大模型落地最后一公里的難題。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    京東11.11跟著采銷走進科大訊飛 直播間享專享價與超值福利

    京東11.11采銷直播探廠為消費者揭開答案。近日,京東3C數(shù)碼采銷走進武漢攀升工廠、合肥聯(lián)想工廠和科大訊飛展廳,通過直播帶貨廠商爆款產(chǎn)品,并為消費者帶來超值低價與福利。

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。