還能再漲23%!AI寵兒NVIDIA成大摩明年首選AMD FSR 4.0將與RX 9070 XT顯卡同步登場羅永浩細紅線最新進展,暫別AR,迎來AI Jarvis構建堅實數(shù)據(jù)地基,南京打造可信數(shù)據(jù)空間引領數(shù)字城市建設下單前先比價不花冤枉錢 同款圖書京東價低于抖音6折日媒感慨中國電動汽車/智駕遙遙領先:本田、日產(chǎn)、三菱合并也沒戲消委會吹風機品質檢測結果揭曉 徠芬獨占鰲頭 共話新質營銷力,2024梅花數(shù)據(jù)峰會圓滿落幕索尼影像專業(yè)服務 PRO Support 升級,成為會員至少需注冊 2 臺 α 全畫幅相機、3 支 G 大師鏡頭消息稱vivo加碼電池軍備競賽:6500mAh 旗艦機+7500mAh中端機寶馬M8雙門轎跑車明年年初將停產(chǎn),后續(xù)無2026款車型比亞迪:2025 款漢家族車型城市領航智駕功能開啟內測雷神預告2025年首次出席CES 將發(fā)布三款不同技術原理智能眼鏡realme真我全球首發(fā)聯(lián)發(fā)科天璣 8400 耐玩戰(zhàn)神共創(chuàng)計劃iQOO Z9 Turbo長續(xù)航版手機被曝電池加大到6400mAh,搭驍龍 8s Gen 3處理器普及放緩 銷量大跌:曝保時捷將重新評估電動汽車計劃來京東參與榮耀Magic7 RSR 保時捷設計預售 享365天只換不修國補期間電視迎來換機潮,最暢銷MiniLED品牌花落誰家?美團旗下微信社群團購業(yè)務“團買買”宣布年底停運消息稱微軟正與第三方廠商洽談,試圖合作推出Xbox游戲掌機設備
  • 首頁 > 云計算頻道 > 大模型

    比GPT-4還強,20億參數(shù)模型做算術題,準確率幾乎100%

    2023年09月19日 18:46:39   來源:微信公眾號機器之心

      本文來自于微信公眾號 機器之心(ID:almosthuman2014),作者:陳萍、小舟。

      當前,大型語言模型 (LLM) 在處理 NLP 領域的各種下游任務方面已經(jīng)表現(xiàn)出卓越的能力。特別是,GPT-4、ChatGPT 等開創(chuàng)性模型已經(jīng)接受了大量文本數(shù)據(jù)的訓練,使它們具備強大的文本理解和生成能力,能夠生成連貫且上下文相關的響應,在各種 NLP 任務中具有高度通用性。

      然而,LLM 在數(shù)學推理方面的性能卻不盡如人意。LLM 很難準確地執(zhí)行復雜的算術運算,尤其是涉及超過8位數(shù)字乘法的運算,還有涉及小數(shù)、分數(shù)的運算。

      基于此,來自清華大學、TAL AI Lab 和智譜 AI 的研究者聯(lián)合提出了一個能夠完美執(zhí)行復雜算術運算的新模型 ——MathGLM。

      該研究表明:在足夠的訓練數(shù)據(jù)下,20億參數(shù)的語言模型能夠準確地進行多位算術運算,準確率幾乎達到了100%,且不會出現(xiàn)數(shù)據(jù)泄露(data leakage)。這個結果大幅超越了 GPT-4(其多位乘法運算準確率僅為4.3%)。

      方法介紹

      本文提出了一個名為 MathGLM 的模型來探討 LLM 在數(shù)學推理方面的效率。

      MathGLM 模型需要完成的算術任務大致可以分為兩類:基本算術運算和復雜混合運算。其中基本算術運算包含基本的數(shù)學任務,這些任務圍繞兩個數(shù)字的簡單計算。而復雜混合運算涉及不同算術運算和數(shù)字格式(例如整數(shù)、小數(shù)、分數(shù)等)的組合。表1為 MathGLM 任務分類。

      為了增強 MathGLM 的算術能力,本文采用了基于 Transformer 的僅解碼器架構,并使用自回歸目標(autoregressive objective)在生成的算術數(shù)據(jù)集上從頭開始訓練它。

      算術任務的學習

      算術訓練數(shù)據(jù)集是精心設計的,包括加法、減法、乘法、除法和求冪等多種運算。此外,它還包含多種數(shù)字格式,例如整數(shù)、小數(shù)、百分比、分數(shù)和負數(shù)。數(shù)據(jù)集規(guī)模大小不一,范圍從100萬到5000萬條記錄不等。

      在每個數(shù)據(jù)集中,單個算術表達式由2到10個運算步驟組成,涵蓋一系列數(shù)學運算,例如加法 (+)、減法 (-)、乘法 (×)、除法 (/) 和求冪 (^)。圖3為從算術數(shù)據(jù)集中提取的一些訓練示例:

      表2概述了 MathGLM 模型的不同規(guī)模,包括4種不同類型的模型,每種模型都有不同的參數(shù)大小。最大的模型參數(shù)量為2B,容量最強;其余參數(shù)量分別為500M 、100M 以及最小的10M 參數(shù)模型。

      對數(shù)學應用問題的學習

      除了算術任務外,本文還訓練(微調)了一系列基于 Transformer 的語言模型,稱為通用語言模型 (GLM,General Language Model)及其聊天版本來解決數(shù)學應用問題。訓練過程使用了公開的 Chinese Ape210K 數(shù)據(jù)集,該數(shù)據(jù)集包含21萬道中文小學數(shù)學題,每個題的答案都是直接計算得出的。

      為了提高 MathGLM 在數(shù)學應用題上的性能,本文采用分步策略來重建 Ape210K 數(shù)據(jù)集,并將其轉換為逐步計算每個數(shù)學問題答案的版本。圖4展示了原始 Ape210K 數(shù)據(jù)集和本文重建版本之間的對比。

      本文采用 GLM 的不同變體作為骨干來訓練 MathGLM,包括具有335M 參數(shù)的 GLM-large、GLM-6B、GLM2-6B 和 GLM-10B。此外,本文還使用 ChatGLM-6B 和 ChatGLM2-6B 主干網(wǎng)絡訓練 MathGLM。這些骨干模型賦予 MathGLM 基本的語言理解能力,使其能夠有效理解數(shù)學應用題中包含的語言信息。

      實驗

      本文設計了兩種不同類型的實驗,包括算術任務和數(shù)學應用題。

      對于算術任務,本文預訓練了一個基于 Transformer 的 MathGLM 模型,該模型具有500M 參數(shù),并將其與領先的大型語言模型 (LLM)(例如 GPT-4和 ChatGPT)的性能進行了比較。結果如表3所示, MathGLM 優(yōu)于所有其他模型,表明 MathGLM 在處理算術任務方面具有卓越的性能。

      即使只有1000萬個參數(shù)的 MathGLM-10M,結果也令人驚訝。MathGLM-10M 在一系列綜合算術任務中的性能優(yōu)于 GPT-4和 ChatGPT。

      此外,當比較不同參數(shù)規(guī)模的 MathGLM 時,本文觀察到 MathGLM 的算術性能與其參數(shù)數(shù)量的增加直接相關。這一發(fā)現(xiàn)表明,隨著模型尺寸的增加,它們的性能表現(xiàn)出相應的增強。

      綜上所述,研究者對復雜算術任務的評估結果表明 MathGLM 具有卓越的性能。通過分解算術任務,這些模型的性能顯著超過了 GPT-4和 ChatGPT。

      此外,本文還對 GPT-4、ChatGPT、text-davinci-003、code-davinci-002、Galacica、LLaMA、OPT、BLOOM 和 GLM 進行了比較。本文從前面討論的大數(shù)據(jù)集中隨機抽取了一個包含100個測試用例的緊湊算術數(shù)據(jù)集。結果如表4所示。

      通過以上分析結果可以看出,MathGLM 在20億參數(shù)下達到了93.03% 的準確率,超越了所有其他 LLM。

      對于數(shù)學應用問題,本文在 Ape210K 數(shù)據(jù)集上進行了實驗。表8報告了包括 MathGLM 變體、 GPT-4、ChatGPT 等在內的結果。

      結果表明,當與 GLM-10B 配合使用時,MathGLM 在答案準確性方面達到了與最先進的 GPT-4模型相當?shù)男阅芩健?/p>

      此外,將 MathGLM 的性能與 GLM-Large、GLM-6B 和 GLM-10B 進行比較時,出現(xiàn)了一個明顯的趨勢:MathGLM 在算術準確性和答案準確性方面都表現(xiàn)出顯著增強。

      為了評估模型在不同年級數(shù)學問題上的解決能力,該研究在 K6數(shù)據(jù)集上測試評估了幾種模型的性能,包括:GPT-4、ChatGPT、Chinese-Alpaca-13B、MOSS-16B、Ziya-LLaMA-13B、Baichuan-7B、ChatGLM-6B、ChatGLM2-6B 和 MathGLM-GLM-10B,結果如下圖8所示。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。