2024 vivo開發(fā)者大會(huì)官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進(jìn)化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺(tái),同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺(tái),同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測(cè)屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個(gè)運(yùn)行時(shí)安全解決方案,實(shí)現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗(yàn)全面升級(jí)機(jī)器人公司1X推出世界模型Apple Intelligence測(cè)試版現(xiàn)已開放革命性AI對(duì)話系統(tǒng)Moshi問世:機(jī)器也能說人話了?阿里國際推出最新多模態(tài)大模型 Ovis,看菜品就能提供烹飪步驟華為發(fā)布智聯(lián)集成行業(yè)解決方案,助力客戶打造行業(yè)領(lǐng)先的目標(biāo)網(wǎng)絡(luò)AI 3D生成天花板再拉升!清華團(tuán)隊(duì)煉成3D Scaling Law正在逐步覆蓋!騰訊提醒勿為實(shí)況圖重裝微信:以免丟失微信聊天記錄
  • 首頁 > 云計(jì)算頻道 > 大模型

    開源大世界,誰來打好大模型的地基?

    2023年11月29日 18:16:37   來源:數(shù)智前線

      通用大模型猶如大模型產(chǎn)業(yè)的地基,而地基的深度和強(qiáng)度將決定大廈的高度。

      文|周享玥

      編|趙艷秋

      11月29日,第四屆人工智能計(jì)算大會(huì)(AICC 2023)在北京長(zhǎng)安街中央商務(wù)區(qū)的一家酒店內(nèi)召開。

      今年異常熱鬧,包括百度、智譜AI、百川智能、網(wǎng)易伏羲、吉利汽車等在內(nèi)的多家大模型企業(yè)和科技企業(yè)匯聚一堂,共同探討AI計(jì)算技術(shù)風(fēng)向、AIGC創(chuàng)新成果等。國際數(shù)據(jù)公司IDC和浪潮信息還在會(huì)上聯(lián)合發(fā)布了一份《2023-2024年中國人工智能計(jì)算力發(fā)展評(píng)估報(bào)告》。

      報(bào)告顯示,67%的中國企業(yè)都已開始探索生成式人工智能在企業(yè)內(nèi)的應(yīng)用機(jī)會(huì)或進(jìn)行相關(guān)資金投入。其中,中國企業(yè)尤其認(rèn)可生成式AI對(duì)于加速?zèng)Q策、提高效率、優(yōu)化用戶和員工體驗(yàn)等維度帶來的價(jià)值,并將在未來三年持續(xù)提高投入力度,超七成企業(yè)增幅在20%-40%之間。

      隨著越來越多企業(yè)對(duì)生成式AI及大模型進(jìn)行探索和投入,通用大模型的能力也在不斷被強(qiáng)調(diào)。一個(gè)共識(shí)是,通用大模型猶如大模型產(chǎn)業(yè)的地基,地基的深度和強(qiáng)度將決定大廈的高度。

      底層的大模型廠商們正為此做出努力。就在這次會(huì)議召開前兩天,浪潮信息剛剛發(fā)布“源2.0”基礎(chǔ)大模型,并全面開源1026億、518億、21億三種參數(shù)規(guī)模的模型。

      據(jù)悉,這是業(yè)界首個(gè)完全開源可商用的千億大模型,也是目前國內(nèi)尺寸最大的全面開源大模型。而上一個(gè)在國內(nèi)“最大參數(shù)開源大模型”記錄中留下過名字的是阿里。彼時(shí),阿里巴巴集團(tuán)CEO吳泳銘在2023年世界互聯(lián)網(wǎng)大會(huì)上宣布,阿里將開源720億參數(shù)大模型。

      在通往大模型的未來之路上,持續(xù)拓寬行業(yè)落地的同時(shí),打好地基,依然是重中之重。

      01

      大模型在路上,發(fā)展路徑百家爭(zhēng)鳴

      大模型雖然今年才真正爆發(fā),但業(yè)界對(duì)于這塊兒的探索,其實(shí)已經(jīng)經(jīng)過幾輪思考沉淀和總結(jié)。一位資深業(yè)內(nèi)人士向數(shù)智前線描述了大模型發(fā)展的幾個(gè)階段:

      以2018年谷歌發(fā)布擁有3億參數(shù)的BERT預(yù)訓(xùn)練模型作為起點(diǎn),AI的大模型時(shí)代就已開啟,包括OpenAI、谷歌、微軟、英偉達(dá)等國外玩家,浪潮信息、百度、阿里、騰訊等國內(nèi)巨頭,都紛紛重兵投入,進(jìn)行相關(guān)探索。

      起初幾年,大家的焦點(diǎn)是拼參數(shù),“每家都是奔著吉尼斯去的,你做千億,它就做萬億”。尤其是2020年5月OpenAI發(fā)布擁有1750億參數(shù)的GPT-3,首次將大模型參數(shù)規(guī)模提升到千億級(jí)后,各種千億、萬億大模型層出不窮,看得人眼花繚亂。對(duì)外宣傳口徑上,各家的提法也很統(tǒng)一,都在強(qiáng)調(diào)自己的“最大”。

      這期間,更大參數(shù)量所帶來的智能涌現(xiàn)和泛化能力,讓不少人感到驚喜,但同時(shí),也暴露出一些問題,比如當(dāng)大模型要真正落到智算中心做工程化時(shí),往往會(huì)遇到算力支撐上的巨大考驗(yàn)。再加上正常的技術(shù)商業(yè)化路徑,大家普遍開始走入第二階段:探索在什么樣的場(chǎng)景里去應(yīng)用。

      “有的面向知識(shí)領(lǐng)域去做技能模型,有的面向行業(yè)直接去做行業(yè)的場(chǎng)景模型。”大模型走向行業(yè)、走向領(lǐng)域應(yīng)用的路徑是什么,大家都在思考。

      比如百度,在2022年5月一口氣發(fā)布了十款大模型,其中既包括與產(chǎn)業(yè)場(chǎng)景相結(jié)合的行業(yè)大模型,也包括做了知識(shí)增強(qiáng)的任務(wù)大模型。

      浪潮信息也在2022年年中,推出了基于“源1.0”基礎(chǔ)大模型的4個(gè)技能大模型——對(duì)話模型“源曉問”、問答模型“源曉搜”、翻譯模型“源曉譯”,以及古文模型“源曉文”。

      但這些探索和嘗試都還只能算是“小打小鬧”的中間態(tài)產(chǎn)品,尚未能在外界引起轟動(dòng),有人士后來反思,過早地進(jìn)行領(lǐng)域模型和場(chǎng)景模型的應(yīng)用,實(shí)際是犧牲了部分泛化能力的。直到ChatGPT的橫空出世,這場(chǎng)大模型熱潮才真正被引爆。業(yè)界的各種思潮開始迅速活躍起來。

      IDC的報(bào)告顯示,目前,67%的中國企業(yè)都已開始探索生成式AI在企業(yè)內(nèi)的應(yīng)用機(jī)會(huì)或進(jìn)行相關(guān)資金投入。具體到應(yīng)用場(chǎng)景上,知識(shí)管理、對(duì)話式應(yīng)用、銷售和營(yíng)銷、代碼生成等是全球企業(yè)應(yīng)用生成式人工智能的主要場(chǎng)景。

      過去幾個(gè)月里,一些大模型的先行先鋒用戶們,也已基于自身實(shí)踐形成了各自獨(dú)有的路線和方向,大模型還是一個(gè)新鮮事物,大家的觀點(diǎn)各不相同。

      不少企業(yè)通過對(duì)行業(yè)大模型的微調(diào),在某些場(chǎng)景下嘗試落地大模型。不過,也有一些企業(yè)不認(rèn)同行業(yè)大模型。

      航旅領(lǐng)域里,中國航信一位工程師告訴數(shù)智前線,他們希望基于基礎(chǔ)大模型來做民航智能服務(wù)平臺(tái),而不是經(jīng)過剪裁了知識(shí)面的行業(yè)大模型。這背后的思考是,通用大模型的能力會(huì)隨著參數(shù)擴(kuò)大而升級(jí),但行業(yè)模型是基于某個(gè)版本的通用模型,投喂相應(yīng)的專業(yè)數(shù)據(jù)訓(xùn)練而成。通常,基礎(chǔ)大模型會(huì)做參數(shù)升級(jí),而行業(yè)模型很難同步,這不利于模型的智能水平。

      有企業(yè)則在不斷反思,行業(yè)落地與基礎(chǔ)模型性能提升如何齊頭并進(jìn)的問題。一家大模型產(chǎn)業(yè)鏈企業(yè)告訴數(shù)智前線,大模型在行業(yè)內(nèi)的落地速度,實(shí)際落后于他們年初預(yù)期,其中很大一部分原因,是因?yàn)閲鴥?nèi)的基礎(chǔ)大模型還不夠成熟,性能仍有待提升。

      11月初,GPT-4 Turbo的炸街式發(fā)布,更加深了業(yè)界對(duì)大模型基礎(chǔ)能力提升的迫切性。“現(xiàn)在最可怕的事情是,OpenAI在開發(fā)者大會(huì)上展現(xiàn)出來的能力,又把我們跟GPT-4之間的差距拉大了。”浪潮信息高級(jí)副總裁劉軍表示,如何持續(xù)不斷地去縮小這種差距,甚至再往后實(shí)現(xiàn)超越,是目前國內(nèi)大模型行業(yè)面臨的核心問題。

      劉軍認(rèn)為,AI產(chǎn)業(yè)一定會(huì)快速增長(zhǎng),但只有當(dāng)產(chǎn)業(yè)足夠壯大時(shí),每個(gè)參與者從中切到的蛋糕才會(huì)越大。因此,國內(nèi)大模型從業(yè)者首先要做的,是讓蛋糕做大。而這其中的一大核心,就是讓基礎(chǔ)大模型的能力提升上去。這就好比人才的教育過程,絕大多數(shù)情況下,首先有了較強(qiáng)的基本能力和素質(zhì),才能在不同專業(yè)、行業(yè)里干得更好。否則,客戶體驗(yàn)很差,用不起來,也就難以轉(zhuǎn)動(dòng)商業(yè)模式。這也是浪潮信息選擇全面開源“源2.0”基礎(chǔ)大模型的原因之一。

      02

      基礎(chǔ)大模型正百花齊放

      浪潮信息人工智能軟件研發(fā)總監(jiān)吳韶華告訴數(shù)智前線,去年11月ChatGPT發(fā)布后,其展現(xiàn)出的全新的能力雖然對(duì)業(yè)界震撼很大,但方法上有跡可循。“通過源1.0+強(qiáng)化學(xué)習(xí),我們很快趕上,也做出了類似ChatGPT這樣一套系統(tǒng),在內(nèi)部持續(xù)迭代和改進(jìn)。”

      “GPT-4發(fā)布后,我們重新審視了原來的方案,一直在思考一個(gè)問題,它到底通過什么樣的技術(shù)實(shí)現(xiàn)了非常強(qiáng)的基礎(chǔ)模型能力。”而這些思考都落在了11月27日浪潮信息最新發(fā)布的源2.0上。

      “源2.0”不僅在數(shù)理邏輯、代碼生成、知識(shí)問答、中英文翻譯、理解和生成等方面有顯著的能力提升,還針對(duì)行業(yè)在算法、數(shù)據(jù)、算力方面的普遍痛點(diǎn),提出了三項(xiàng)創(chuàng)新。

      算法方面,源2.0提出并采用了一種新型的注意力算法結(jié)構(gòu):局部注意力過濾增強(qiáng)機(jī)制(LFA:Localized Filtering-based Attention)。

      有別于傳統(tǒng) Transformer“捕捉全局信息和長(zhǎng)依賴信息能力”,LFA 具備“捕捉局部信息和短依賴信息能力”,使得模型更精準(zhǔn)地掌握上下文之間的強(qiáng)語義關(guān)聯(lián),學(xué)習(xí)到人類語言范式本質(zhì)。

      比如,“我想吃中國菜”這樣一句話輸入到模型中時(shí),首先會(huì)進(jìn)行分詞——我/想/吃/中國/菜/,而傳統(tǒng)Attention對(duì)這6個(gè)token將同等對(duì)待。但在自然語言中,“中國”和“菜”實(shí)際是有著更強(qiáng)的關(guān)系和局部依賴性的,LFA正是通過先學(xué)習(xí)相鄰詞之間的關(guān)聯(lián)性,再計(jì)算全局關(guān)聯(lián)性的方法,學(xué)到自然語言的這種局部和全局的語言特征,進(jìn)而提升模型精度。

      “我們對(duì)大模型結(jié)構(gòu)的有效性進(jìn)行了消融實(shí)驗(yàn),相比傳統(tǒng)注意力結(jié)構(gòu),LFA模型精度提高了3.53%。”吳韶華表示。在最終的模型訓(xùn)練上,最大參數(shù)只有1026億的源2.0,在LFA算法的加持下,也能比用2457億參數(shù)的源1.0,訓(xùn)練同樣大小Token數(shù)的Train Loss降低28%。而訓(xùn)練的損失曲線越小,意味著大模型對(duì)于訓(xùn)練集的特征學(xué)習(xí)得越好。

      數(shù)據(jù)是另一個(gè)被重點(diǎn)提升的方面。劉軍告訴數(shù)智前線,原來大家粗放式經(jīng)營(yíng)的特征比較明顯,"好像給它足夠的數(shù)據(jù),只要用算力不停去訓(xùn)它,最后就能煉出金子來。”但煉金術(shù)其實(shí)也是需要有高品質(zhì)的金礦才能練出純度更高的金子。

      后來,大家都重視起了數(shù)據(jù)的清洗工作,但想要獲得高質(zhì)量的數(shù)據(jù)集并不容易。比如源1.0,使用的數(shù)據(jù)絕大部分都來自于互聯(lián)網(wǎng),浪潮信息為此采用了很多手段提純,才在800多TB數(shù)據(jù)中清洗出了一個(gè)5TB的高質(zhì)量數(shù)據(jù)集。

      尤其是高質(zhì)量數(shù)學(xué)、代碼等數(shù)據(jù)的獲得上,難度還要更大。吳韶華透露,為了獲取中文數(shù)學(xué)數(shù)據(jù),他們清洗了從2018年至今約12PB的互聯(lián)網(wǎng)數(shù)據(jù),但僅獲取到約10GB的數(shù)學(xué)數(shù)據(jù),且質(zhì)量分析后依然不夠高,投入巨大,收益較小。

      于是,此次推出的源2.0,在訓(xùn)練數(shù)據(jù)來源、數(shù)據(jù)增強(qiáng)和合成方法方面都進(jìn)行了創(chuàng)新。一方面,通過引入大量中英文書籍、百科、論文等高質(zhì)量中英文資料,降低了互聯(lián)網(wǎng)語料內(nèi)容占比;另一方面,用大型語言模型作為訓(xùn)練數(shù)據(jù)生成器,在每個(gè)類別上提升數(shù)據(jù)質(zhì)量,獲取了一批高質(zhì)量的數(shù)學(xué)與代碼預(yù)訓(xùn)練數(shù)據(jù)。

      而在算力方面,源2.0采用非均勻流水并行的方法,綜合運(yùn)用流水線并行+優(yōu)化器參數(shù)并行+數(shù)據(jù)并行的策略,讓模型在流水并行各階段的顯存占用量分布更均衡,避免出現(xiàn)顯存瓶頸導(dǎo)致的訓(xùn)練效率降低的問題,以此降低了大模型對(duì)節(jié)點(diǎn)內(nèi)芯片間通信帶寬的需求,讓其在硬件差異較大的訓(xùn)練環(huán)境中也能實(shí)現(xiàn)高性能訓(xùn)練。

      “相當(dāng)于給你一條高速公路時(shí),能跑到每公里200公里的時(shí)速,但給你一條羊腸小道,也能跑起來,并把最終的結(jié)果跑到。”劉軍解釋說。

      浪潮信息在算法、數(shù)據(jù)、算力上的創(chuàng)新,直接推動(dòng)了源2.0在代碼、數(shù)學(xué)、事實(shí)問答方面的能力提升。據(jù)介紹,后續(xù)的源2.5、源3.0等,依然還將從算法、數(shù)據(jù)幾個(gè)角度入手。

      實(shí)際是,不僅僅是浪潮信息,其他一些底層大模型廠商們,也都在持續(xù)迭代和升級(jí)自己的基礎(chǔ)大模型能力。

      10月,百度發(fā)布文心大模型4.0,宣布實(shí)現(xiàn)了基礎(chǔ)模型的全面升級(jí)。而后不久,阿里透露,即將開源 720 億參數(shù)大模型。

      這在不少業(yè)內(nèi)人士看來,是一種好的發(fā)展趨勢(shì)。畢竟,產(chǎn)業(yè)要健康發(fā)展,不能只有一家公司擁有領(lǐng)先的能力,而是需要整個(gè)產(chǎn)業(yè)能百花齊放。

      “對(duì)于用戶來說,是不是最后就變成只有一家贏呢?其實(shí)不是這樣的,我們認(rèn)為,未來的生成式AI,會(huì)是一個(gè)多元化的生態(tài),每個(gè)模型可能都有它最擅長(zhǎng)的能力,那么大家加起來就是一個(gè)非常棒的能力集合。”劉軍告訴數(shù)智前線,將來行業(yè)用戶最終去部署的時(shí)候,可能會(huì)有不同的模型在后面在做支撐,而這些都是基礎(chǔ)大模型的力量。

      03

      從硬件到更大市場(chǎng)

      隨著大模型在各行各業(yè)的持續(xù)滲透和深入,企業(yè)對(duì)大模型廠商提出的需求,已經(jīng)不僅僅局限于大模型本身的能力,也在迅速擴(kuò)展到模型訓(xùn)練經(jīng)驗(yàn)、優(yōu)質(zhì)數(shù)據(jù)集,以及如何解決算力效率、存儲(chǔ)、網(wǎng)絡(luò)等方方面面的問題。

      “我們的算法工程師和實(shí)施工程師比我們的服務(wù)器還搶手,他們出差去跟各家的交流,都排得非常滿。”一位浪潮信息的人士告訴數(shù)智前線。作為國內(nèi)最大的AI服務(wù)器提供商,同時(shí)也是國內(nèi)最早進(jìn)行基礎(chǔ)大模型建設(shè)的廠商之一,浪潮信息在今年大模型的風(fēng)潮起來后,接到了大量客戶關(guān)于模型預(yù)訓(xùn)練、數(shù)據(jù)處理、架構(gòu)調(diào)優(yōu)等方面的需求。

      比如浪潮信息從866TB海量數(shù)據(jù)中清洗出了5TB的高質(zhì)量中文共享數(shù)據(jù)集。劉軍透露,據(jù)不完全統(tǒng)計(jì),目前國內(nèi)大模型中,已有超過50家使用了浪潮信息的開源數(shù)據(jù)集。另外,浪潮信息在模型快速收斂、效率提高上的經(jīng)驗(yàn)和方法,也受到廣泛關(guān)注。

      模型訓(xùn)練效率的提升則是更大的一個(gè)話題,直接關(guān)系到巨大的成本問題。尤其是在GPU短缺的大背景下,如何將有效地將算力用好,是每家企業(yè)都要面臨的挑戰(zhàn)。

      在今年8月那場(chǎng)集結(jié)了20多位國內(nèi)大模型“頂流”創(chuàng)業(yè)者的西溪論道閉門會(huì)上,李開復(fù)就曾表示,很快大家就會(huì)發(fā)現(xiàn),做過大模型 Infra (硬件底層)的人比做大模型的人還要貴、更稀缺,而會(huì)做 Scaling Law(擴(kuò)展定律,模型能力隨著訓(xùn)練計(jì)算量增加而提升)的人比會(huì)做大模型 Infra 的人更稀缺。

      客戶愈加復(fù)雜的需求,正在促使大量的大模型廠商,尤其是實(shí)力雄厚的大廠們,開始不斷在角色和業(yè)務(wù)上加速轉(zhuǎn)變和拓展。人工智能產(chǎn)業(yè)鏈上,各種跨界動(dòng)作也愈發(fā)頻繁,業(yè)界有著“軟件企業(yè)向下,硬件企業(yè)向上”的現(xiàn)象。

      可以看到,此前,百度、騰訊、阿里等多家大模型廠商,都向用戶提供了大模型相關(guān)的工具鏈。一些大廠,也在加快切入用戶更新的一些需求。比如,騰訊云面向大模型時(shí)代的新需求,在今年7月發(fā)布了AI原生向量庫,最近又宣布將向量數(shù)據(jù)庫檢索規(guī)模從十億升級(jí)至千億級(jí)別。京東云則看到了大模型用戶在存儲(chǔ)方面遇到的新挑戰(zhàn),正在加大相關(guān)的業(yè)務(wù)投入。

      浪潮信息對(duì)自己的角色定位也在發(fā)生改變。劉軍坦言,“我們?cè)絹碓讲徽J(rèn)為自己是個(gè)硬件廠商,如何把硬件這個(gè)生意轉(zhuǎn)化成更大的生產(chǎn)力,我們必須去理解客戶的應(yīng)用需求和痛點(diǎn),這也要求浪潮信息不僅僅是硬件,在系統(tǒng)、軟件、算法上,也都要非常強(qiáng)的團(tuán)隊(duì)和能力。”

      劉軍表示,浪潮信息目前在大模型上的核心思路是,要發(fā)揮自身的優(yōu)勢(shì)和對(duì)產(chǎn)業(yè)的理解,建立一個(gè)強(qiáng)大的基礎(chǔ)大模型,然后通過開源的方式,將做應(yīng)用、做行業(yè)、做專業(yè)、做技能的工作,交給生態(tài)伙伴、行業(yè)客戶和開發(fā)者去完成,共同推動(dòng)大模型的創(chuàng)新、使用和落地,而不是和大模型企業(yè)、軟件廠商去競(jìng)爭(zhēng)。

      為此,8月24日,浪潮信息正式發(fā)布了大模型智算軟件棧OGAI (Open GenAI Infra) “元腦生智”。這是一套基于浪潮信息過往積累的大模型的工程經(jīng)驗(yàn)、服務(wù)客戶的經(jīng)驗(yàn)等,打造的面向生成式AI開發(fā)與應(yīng)用場(chǎng)景的全棧軟件,涉及從集群系統(tǒng)環(huán)境部署到算力調(diào)度保障再到大模型開發(fā)管理。

      OGAI一共分為五層,各層對(duì)應(yīng)不同的應(yīng)用場(chǎng)景,每層間是解耦的,用戶需要哪些工具,就可以調(diào)用哪些。其中,從 L0 到 L2主要針對(duì)的是大模型基礎(chǔ)算力環(huán)境的效率提升。L3和L4則分別為大模型訓(xùn)練層和多模型納管層,提供的功能類似互聯(lián)網(wǎng)企業(yè)的工具鏈,不同的是,OGAI可以為企業(yè)提供本地化和私有化部署。

      數(shù)智前線獲悉,目前,浪潮信息在幫助合作伙伴和客戶更好地進(jìn)行大模型的訓(xùn)練和應(yīng)用上,已經(jīng)有了不少實(shí)踐。

      比如,某互聯(lián)網(wǎng)企業(yè)在使用AI集群,對(duì)面向推薦場(chǎng)景的大模型進(jìn)行訓(xùn)練時(shí),遇到了模型數(shù)據(jù)不能及時(shí)從存儲(chǔ)讀取,導(dǎo)致GPU空閑和訓(xùn)練性能低下的問題,企業(yè)內(nèi)的算法團(tuán)隊(duì)用了幾個(gè)月也沒能攻克。

      浪潮信息的AI團(tuán)隊(duì)介入后,發(fā)現(xiàn)在其場(chǎng)景中,大模型對(duì)數(shù)據(jù)讀取IO的需求遠(yuǎn)超一般的AI模型訓(xùn)練情況,從而導(dǎo)致針對(duì)普通模型訓(xùn)練的服務(wù)器配置在推薦場(chǎng)景中出現(xiàn)了不適配的情況。針對(duì)這一特殊需求,浪潮信息團(tuán)隊(duì)最終基于自身經(jīng)驗(yàn),通過對(duì)CPU BIOS中的mps等多個(gè)選項(xiàng)配置進(jìn)行對(duì)性的的修改優(yōu)化,解決了這一問題。

      網(wǎng)易伏羲則在浪潮信息提供的AI算力服務(wù)、高質(zhì)量共享數(shù)據(jù)集等助力下,訓(xùn)練出了110億參數(shù)的中文預(yù)訓(xùn)練大模型“玉言”,并登頂中文語言理解權(quán)威測(cè)評(píng)基準(zhǔn)CLUE分類任務(wù)榜單。

      “未來,我們將重點(diǎn)圍繞開源社區(qū)來做建設(shè),通過持續(xù)開源基礎(chǔ)大模型的形式,盡可能廣泛地賦能更多的用戶場(chǎng)景,擴(kuò)展基礎(chǔ)模型的能力邊界。”吳韶華說。浪潮信息也將通過元腦生態(tài),聯(lián)合國內(nèi)眾多做大模型的左手伙伴,和面向行業(yè)的右手伙伴,一起推進(jìn)大模型落地行業(yè)。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    研究

    2024全球開發(fā)者先鋒大會(huì)即將開幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。