宏景智駕完成數(shù)億元C輪融資植物生長(zhǎng)好幫手:廣明源金線蓮組培燈照亮生長(zhǎng)每一步ROG純白系列DIY好物:簡(jiǎn)約不失高雅,買它準(zhǔn)沒(méi)錯(cuò)!穩(wěn)扎穩(wěn)打,中影光峰4K 14米 VLED LED電影屏通過(guò)DCI認(rèn)證并投入市場(chǎng)安吉爾空間大師亮相IFA 斬獲年度創(chuàng)新產(chǎn)品成果大獎(jiǎng)電動(dòng)自行車強(qiáng)制性“國(guó)標(biāo)”再修訂,綠源電動(dòng)車以創(chuàng)新技術(shù)引領(lǐng)產(chǎn)業(yè)高質(zhì)量發(fā)展輕松籌:十年深耕大健康領(lǐng)域,打造全方位健康保障生態(tài)面對(duì)承壓的小家電市場(chǎng),小熊、蘇泊爾上半年為何一降一增?研發(fā)投入高增、占營(yíng)收比超5%,科沃斯、石頭科技升高技術(shù)壁壘激光顯示全面“向新”發(fā)展,未來(lái)激光電視主機(jī)僅有iPad大小2024年冷年空調(diào)市場(chǎng)總結(jié):規(guī)模下探,結(jié)構(gòu)降級(jí),空調(diào)行業(yè)邁入新周OpenAI o1全方位SOTA登頂lmsys推薦榜!數(shù)學(xué)能力碾壓Claude和谷歌模型,o1-mini并列第一iPhone16系列新品正式發(fā)售 新品爆發(fā)就在抖音電商廣告燒錢過(guò)億,70%用戶靠投流,大模型算不過(guò)成本賬?PS1經(jīng)典配色!索尼發(fā)布30周年紀(jì)念版PS5、PS5 Pro:限量賣泰順:聚智聚力數(shù)字創(chuàng)客激發(fā)鄉(xiāng)村振興新動(dòng)能電商12年 ,ALL IN 小紅書,開店3月賣出1100萬(wàn)Mate 70最受期待!華為三款重磅機(jī)型蓄勢(shì)待發(fā)云天勵(lì)飛“算力積木”架構(gòu):引領(lǐng)邊緣AI芯片新變革徹底告別3999元!小米15入網(wǎng) 支持90W快充
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    百川智能發(fā)布超千億大模型Baichuan 3,中文評(píng)測(cè)超越GPT-4

    2024年01月29日 14:01:29   來(lái)源:DoNews

      1月29日消息,1月29日,百川智能發(fā)布超千億參數(shù)的大語(yǔ)言模型Baichuan 3。在多個(gè)權(quán)威通用能力評(píng)測(cè)如CMMLU、GAOKAO和AGI-Eval中,Baichuan 3都展現(xiàn)了出色的能力,尤其在中文任務(wù)上更是超越了GPT-4。

      而在數(shù)學(xué)和代碼專項(xiàng)評(píng)測(cè)如MATH、HumanEval和MBPP中同樣表現(xiàn)出色,證明了Baichuan 3在自然語(yǔ)言處理和代碼生成領(lǐng)域的強(qiáng)大實(shí)力。

      不僅如此,其在對(duì)邏輯推理能力及專業(yè)性要求極高的MCMLE、MedExam、CMExam等權(quán)威醫(yī)療評(píng)測(cè)上的中文效果同樣超過(guò)了GPT-4,是中文醫(yī)療任務(wù)表現(xiàn)最佳的大模型。

      Baichuan 3還突破“迭代式強(qiáng)化學(xué)習(xí)”技術(shù),進(jìn)一步提升了語(yǔ)義理解和生成能力,在詩(shī)詞創(chuàng)作的格式、韻律、表意等方面表現(xiàn)優(yōu)異,領(lǐng)先于其他大模型。

      基礎(chǔ)能力全面提升,多項(xiàng)權(quán)威評(píng)測(cè)中文任務(wù)成績(jī)超越GPT-4

      Baichuan 3在多個(gè)英文評(píng)測(cè)中表現(xiàn)出色,達(dá)到接近GPT-4的水平。而在CMMLU、GAOKAO、HumanEval和MBPP等多個(gè)中文評(píng)測(cè)榜單上,更是超越GPT-4展現(xiàn)了其在中文任務(wù)上的優(yōu)勢(shì)。

      此外,在MT-Bench、IFEval等對(duì)齊榜單的評(píng)測(cè)中,Baichuan 3超越了GPT-3.5、Claude等大模型,處于行業(yè)領(lǐng)先水平。

      與百億、幾百億級(jí)別參數(shù)模型訓(xùn)練不同,超千億參數(shù)模型在訓(xùn)練過(guò)程中對(duì)高質(zhì)量數(shù)據(jù),訓(xùn)練穩(wěn)定性、訓(xùn)練效率的要求都高出幾個(gè)量級(jí)。為更好解決相關(guān)問(wèn)題,百川智能在訓(xùn)練過(guò)程中針對(duì)性地提出了“動(dòng)態(tài)數(shù)據(jù)選擇”、“重要度保持”以及“異步CheckPoint存儲(chǔ)”等多種創(chuàng)新技術(shù)手段及方案,有效提升了Baicuan 3的各項(xiàng)能力。

      高質(zhì)量數(shù)據(jù)方面,傳統(tǒng)的數(shù)據(jù)篩選依靠人工定義,通過(guò)濾重篩選、質(zhì)量打分、Textbook篩選等方法過(guò)濾數(shù)據(jù)。而百川智能認(rèn)為,數(shù)據(jù)的優(yōu)化和采樣是一個(gè)動(dòng)態(tài)過(guò)程,應(yīng)該隨著模型本身的訓(xùn)練過(guò)程優(yōu)化,而非單純依靠人工先驗(yàn)進(jìn)行數(shù)據(jù)的采樣和篩選。

      為全面提升數(shù)據(jù)質(zhì)量,百川智能設(shè)計(jì)了一套基于因果采樣的動(dòng)態(tài)訓(xùn)練數(shù)據(jù)選擇方案,該方案能夠在模型訓(xùn)練過(guò)程中動(dòng)態(tài)地選擇訓(xùn)練數(shù)據(jù),極大提升數(shù)據(jù)質(zhì)量。

      訓(xùn)練穩(wěn)定性方面,超千億參數(shù)的模型由于參數(shù)量巨大,訓(xùn)練過(guò)程中經(jīng)常會(huì)出現(xiàn)梯度爆炸、loss跑飛、模型不收斂等問(wèn)題。對(duì)此,百川智能提出了“重要度保持”(Salience-Consistency)的漸進(jìn)式初始化方法,用以保證模型訓(xùn)練初期的穩(wěn)定性。

      并且優(yōu)化了模型訓(xùn)練過(guò)程的監(jiān)控方案,在梯度、Loss等指標(biāo)上引入了參數(shù)“有效秩”的方法來(lái)提早發(fā)現(xiàn)訓(xùn)練過(guò)程中的問(wèn)題,極大加速對(duì)訓(xùn)練問(wèn)題的定位,確保了最后模型的收斂效果。

      此外,為了確保在數(shù)千張GPU上高效且穩(wěn)定地訓(xùn)練超千億參數(shù)模型,百川智能同步優(yōu)化了模型的訓(xùn)練穩(wěn)定性和訓(xùn)練框架,并采用“異步CheckPoint存儲(chǔ)”機(jī)制,可以無(wú)性能損失地加大存儲(chǔ)的頻率,減少機(jī)器故障對(duì)訓(xùn)練任務(wù)的影響,使Baichuan 3的穩(wěn)定訓(xùn)練時(shí)間達(dá)到一個(gè)月以上,故障恢復(fù)時(shí)間不超過(guò)10分鐘。

      訓(xùn)練效率方面,百川智能針對(duì)超千億參數(shù)模型的并行訓(xùn)練問(wèn)題進(jìn)行了一系列優(yōu)化,如高度優(yōu)化的RoPE, SwiGLU計(jì)算算子;在數(shù)據(jù)并行中實(shí)現(xiàn)參數(shù)通信與計(jì)算的重疊,以及在序列并行中實(shí)現(xiàn)激活值通信與計(jì)算的重疊,從而有效降低了通信時(shí)間的比重;在流水并行中引入了將激活值卸載至GPU的技術(shù),解決了流水并行中顯存占用不均的問(wèn)題,減少了流水并行的分段數(shù)量并顯著降低了空泡率。通過(guò)這些技術(shù)創(chuàng)新,Baichuan 3的訓(xùn)練框架在性能方面相比業(yè)界主流框架提升超過(guò)30%。

      醫(yī)療數(shù)據(jù)集Token數(shù)超千億,醫(yī)療能力逼近GPT-4

      大模型醫(yī)療背后蘊(yùn)含著巨大的社會(huì)價(jià)值和產(chǎn)業(yè)價(jià)值,從疾病的診斷、治療到患者護(hù)理與藥物研發(fā),大模型不僅能夠幫助醫(yī)生提高診療效率和質(zhì)量,幫助患者獲得更好的服務(wù)和體驗(yàn),還能幫助社會(huì)降低醫(yī)療成本和風(fēng)險(xiǎn),助力醫(yī)療資源實(shí)現(xiàn)普惠和平權(quán)。

      并且醫(yī)療問(wèn)題專業(yè)性強(qiáng)、知識(shí)更新速度快、準(zhǔn)確性要求高、個(gè)體差異大,能充體現(xiàn)大模型的各項(xiàng)能力,被百川智能稱為“大模型皇冠上的明珠”。因此,諸如OpenAI、谷歌等頭部大模型企業(yè)都將醫(yī)療作為模型的重點(diǎn)訓(xùn)練方向和性能評(píng)價(jià)的重要體系。

      ChatGPT早在2023年2月便已通過(guò)了美國(guó)醫(yī)學(xué)執(zhí)照考試(USMLE),顯示出其在醫(yī)學(xué)領(lǐng)域的強(qiáng)大能力。而谷歌對(duì)醫(yī)療領(lǐng)域的重視更甚,基于PaLM模型打造了醫(yī)療大模型Med-PaLM,迭代后的Med-PaLM 2在醫(yī)學(xué)考試 MedQA中的成績(jī)超過(guò)80分,達(dá)到了專家水平。

      在醫(yī)療領(lǐng)域,大模型的全能特性發(fā)揮著至關(guān)重要的作用。首先,其多模態(tài)學(xué)習(xí)能力能夠整合文本、影像、聲音等多種類型的醫(yī)療數(shù)據(jù),提供更全面、準(zhǔn)確的分析和診斷。其次,大模型的深層推理能力有助于復(fù)雜醫(yī)療決策的制定。

      此外,穩(wěn)定的性能和知識(shí)更新能力確保了醫(yī)療建議的可靠性和時(shí)效性。同時(shí),大模型的語(yǔ)言理解和生成能力使其能夠處理專業(yè)術(shù)語(yǔ)和復(fù)雜句式。最后,模式識(shí)別與學(xué)習(xí)能力在大模型中的應(yīng)用,使其能夠從復(fù)雜的醫(yī)療數(shù)據(jù)中學(xué)習(xí)和識(shí)別出重要的模式和特征。

      所以,大模型想要在醫(yī)療領(lǐng)域擁有良好效果并不容易,既需要豐富的醫(yī)療知識(shí)、合適的Prompt,還需要模型本身具備過(guò)硬的邏輯推理能力。

      為了給Baichuan3注入豐富的醫(yī)療知識(shí),百川智能在模型預(yù)訓(xùn)練階段構(gòu)建了超過(guò)千億Token的醫(yī)療數(shù)據(jù)集,包括醫(yī)學(xué)研究文獻(xiàn)、真實(shí)的電子病歷資料、醫(yī)學(xué)領(lǐng)域的專業(yè)書籍和知識(shí)庫(kù)資源、針對(duì)醫(yī)療問(wèn)題的問(wèn)答資料等。該數(shù)據(jù)集涵蓋了從理論到實(shí)際操作,從基礎(chǔ)理論到臨床應(yīng)用等各個(gè)方面的醫(yī)學(xué)知識(shí),確保了模型在醫(yī)療領(lǐng)域的專業(yè)度和知識(shí)深度。

      針對(duì)醫(yī)療知識(shí)激發(fā)的問(wèn)題,百川智能在推理階段針對(duì)Prompt做了系統(tǒng)性的研究和調(diào)優(yōu),通過(guò)準(zhǔn)確的描述任務(wù)、恰當(dāng)?shù)氖纠龢颖具x擇,讓模型輸出更加準(zhǔn)確以及符合邏輯的推理步驟,最終不僅提升了Baichuan 3在多項(xiàng)醫(yī)療考試上的成績(jī),并且在真實(shí)的醫(yī)療問(wèn)答場(chǎng)景下也能給用戶提供更精準(zhǔn)、細(xì)致的反饋。

      邏輯推理方面,Baichuan 3在數(shù)學(xué)和代碼等多個(gè)權(quán)威評(píng)測(cè)上中文任務(wù)超越GPT-4的優(yōu)異成績(jī),已經(jīng)充分證明了其強(qiáng)大的基礎(chǔ)邏輯推理能力。在擁有豐富高質(zhì)量專業(yè)醫(yī)療知識(shí),并能通過(guò)調(diào)優(yōu)后的Prompt對(duì)這些知識(shí)進(jìn)行充分激發(fā)的基礎(chǔ)上,結(jié)合超千億參數(shù)的推理能力,Baichuan 3在醫(yī)療領(lǐng)域的任務(wù)效果提升顯著,在各類中英文醫(yī)療測(cè)試中的成績(jī)提升了2到14個(gè)百分點(diǎn)。

      Baichuan 3在多個(gè)權(quán)威醫(yī)療評(píng)測(cè)任務(wù)中表現(xiàn)優(yōu)異,不僅MCMLE、MedExam、CMExam等中文醫(yī)療任務(wù)的評(píng)測(cè)成績(jī)超過(guò)GPT-4,USMLE、MedMCQA等英文醫(yī)療任務(wù)的評(píng)測(cè)成績(jī)也逼近了GPT-4的水準(zhǔn),是醫(yī)療能力最強(qiáng)的中文大模型。

      突破“迭代式強(qiáng)化學(xué)習(xí)”技術(shù),創(chuàng)作精準(zhǔn)度大幅提升

      語(yǔ)義理解和文本生成,作為大模型最基礎(chǔ)的底層能力,是其他能力的支柱。為提升這兩項(xiàng)能力,業(yè)界進(jìn)行了大量探索和實(shí)踐,OpenAI、Google以及Anthropic等引入的RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))和RLAIF(基于AI反饋的強(qiáng)化學(xué)習(xí))便是其中的關(guān)鍵技術(shù)。

      基于強(qiáng)化學(xué)習(xí)對(duì)齊后的模型不僅可以更精準(zhǔn)地理解用戶指令,尤其是多約束以及多輪對(duì)話下的指令,還能進(jìn)一步提升生成內(nèi)容的質(zhì)量。但是在大模型中充分發(fā)揮強(qiáng)化學(xué)習(xí)的作用不僅需要穩(wěn)定且高效的強(qiáng)化學(xué)習(xí)訓(xùn)練框架和高質(zhì)量的優(yōu)質(zhì)偏序數(shù)據(jù),還需要在“探索與利用”兩者間進(jìn)行平衡,實(shí)現(xiàn)模型能力持續(xù)爬坡。

      對(duì)于以上問(wèn)題,百川智能進(jìn)行了深入研究,并給出了針對(duì)性的解決方案。強(qiáng)化學(xué)習(xí)訓(xùn)練框架方面,百川智能自研了訓(xùn)練推理雙引擎融合、多模型并行調(diào)度的PPO訓(xùn)練框架,能夠很好支持超千億模型的高效訓(xùn)練,訓(xùn)練效率相比業(yè)界主流框架提升400%。

      偏序數(shù)據(jù)方面,百川智能創(chuàng)新性的采用了RLHF與RLAIF結(jié)合的方式來(lái)生成高質(zhì)量?jī)?yōu)質(zhì)偏序數(shù)據(jù),在數(shù)據(jù)質(zhì)量和數(shù)據(jù)成本之間獲得了更好的平衡。在此基礎(chǔ)上,對(duì)于“探索與利用”這一根本挑戰(zhàn),百川智能通過(guò)PPO探索空間與Reward Model評(píng)價(jià)空間的同步升級(jí),實(shí)現(xiàn)“迭代式強(qiáng)化學(xué)習(xí)”(iterative RLHF&RLAIF);趶(qiáng)化學(xué)習(xí)的版本爬坡,可以在SFT的基礎(chǔ)上進(jìn)一步發(fā)揮底座模型的潛力,讓Baichuan 3的語(yǔ)義理解和生成創(chuàng)作能力大幅提升。

      以文本創(chuàng)作中最具挑戰(zhàn)的唐詩(shī)宋詞為例,作為中國(guó)傳統(tǒng)文化的瑰寶,詩(shī)詞不僅在格式、平仄、對(duì)偶、韻律等方面均有著嚴(yán)格的約束條件,并且內(nèi)容高度凝練、寓意深遠(yuǎn)。

      如果僅通過(guò)SFT的微調(diào)學(xué)習(xí),一方面高質(zhì)量詩(shī)詞的創(chuàng)作數(shù)據(jù)需要極高的專家成本,另一方面不能在平仄、對(duì)偶、韻律等多個(gè)方面實(shí)現(xiàn)較好的約束理解和遵循。此外,傳統(tǒng)的單次RLHF范式在唐詩(shī)宋詞面前也遇到極大挑戰(zhàn),PPO在訓(xùn)練過(guò)程中生成的Response有可能超出Reward Model的評(píng)價(jià)范圍導(dǎo)致“探索”的過(guò)程失控。

      Baichuan 3結(jié)合“RLHF&RLAIF”以及迭代式強(qiáng)化學(xué)習(xí)的方法,讓大模型的詩(shī)詞創(chuàng)作能力達(dá)到全新高度?捎眯韵啾犬(dāng)前業(yè)界最好的模型水平提升達(dá)500%,文采遠(yuǎn)超GPT-4。對(duì)于宋詞這種格式多變,結(jié)構(gòu)深細(xì)、韻律豐富的高難度文體,生成的內(nèi)容亦能工整對(duì)仗、韻腳和諧。其精準(zhǔn)、深厚的創(chuàng)作功底,將讓每個(gè)人都能夠輕松創(chuàng)作出詠物、寄思的五言律詩(shī)、七言絕句,寫下的言志、抒情的“沁園春”、“定風(fēng)波”,這不僅可以提升大眾的人文素養(yǎng),還能助力中華傳統(tǒng)文化在大模型時(shí)代真正地“活”起來(lái)。

      作為參數(shù)規(guī)模超過(guò)千億的大語(yǔ)言模型,Baichuan 3不僅英文效果達(dá)到接近GPT-4的水平,還在多項(xiàng)通用中文任務(wù)的表現(xiàn)上實(shí)現(xiàn)了對(duì)GPT-4的超越,是百川智能的全新里程碑。

      Baichuan 3全面的通用能力以及在醫(yī)療領(lǐng)域的強(qiáng)大表現(xiàn),將為百川智能打造“超級(jí)應(yīng)用”,把大模型技術(shù)落地到諸多復(fù)雜應(yīng)用場(chǎng)景提供有力支撐。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無(wú)人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    研究

    2024全球開發(fā)者先鋒大會(huì)即將開幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。