OPPO A5 Pro首創(chuàng)獵手天線架構(gòu):信號能穿十堵墻一加 Ace 5 Pro首發(fā)電競Wi-Fi芯片G1 帶來「穿墻王」和「搶網(wǎng)王」般的網(wǎng)絡(luò)體驗(yàn)電視市場又出黑馬!TCL同檔Mini LED音畫王P12K,萬象分區(qū)打造超強(qiáng)控光!零下25℃如何取暖?海爾水暖通溫暖驛站亮相冰雪大世界馬太效應(yīng),強(qiáng)者恒強(qiáng)?——《中國企業(yè)科創(chuàng)力研究報告(2024)》美團(tuán)年度報告竟然用上了AI和短劇?這下是真出圈了消息稱上汽大眾正開發(fā)三款新車,技術(shù)分別來自小鵬、智己和榮威鴻蒙智行泊車代駕VPD正式開啟全量推送!升級自動泊車/接駕等多項(xiàng)功能華為官方翻新手機(jī)最高降價4000元曝蘋果研發(fā)帶Face ID的智能家居門鈴:內(nèi)置自研W-Fi芯片李斌回應(yīng)螢火蟲外觀設(shè)計(jì):看過實(shí)車的人都喜歡這個設(shè)計(jì)林杰:未來 A 級、A0 級、A00 級車型都將是領(lǐng)克純電的“主場”豐巢存包柜亮相南寧地鐵站,助力城市韌性建設(shè)與智慧出行萬象分區(qū)、絢彩XDR、量子點(diǎn)Pro 2025齊出手,TCL引領(lǐng)觀影體驗(yàn)新變革!QQ音樂年度聽歌報告發(fā)布:誰是你最喜歡的歌手?OpenAI正式發(fā)布o(jì)3 - 通往AGI的路上,已經(jīng)沒有了任何阻礙「送禮物」難撬動社交電商,微信小店缺的是供給微軟Phi-4封神,14B小模型數(shù)學(xué)擊敗GPT-4o,合成數(shù)據(jù)占比40%,36頁技術(shù)報告出爐2024年結(jié)束,哪里是原創(chuàng)動畫的應(yīng)許之地?深扒一個正被游戲行業(yè)「搶占」的流量帝國
  • 首頁 > 云計(jì)算頻道 > 大模型

    上海人工智能實(shí)驗(yàn)室發(fā)布首個 AI 高考評測結(jié)果:數(shù)學(xué)全部不及格

    2024年06月20日 09:03:10   來源:Donews

      據(jù)IT之家報道,上海人工智能實(shí)驗(yàn)室 19 日公布了首個 AI 高考全卷評測結(jié)果。

      據(jù)介紹,2024 年全國高考甫一結(jié)束,該實(shí)驗(yàn)室旗下司南評測體系 OpenCompass 選取 6 個開源模型及 GPT-4o 進(jìn)行高考“語數(shù)外”全卷能力測試。

      評測采用全國新課標(biāo) I 卷,參與評測的所有開源模型開源時間均早于高考,確保評測“閉卷”性。同時,成績由具有高考評卷經(jīng)驗(yàn)的教師人工評判,更加接近真實(shí)閱卷標(biāo)準(zhǔn)。

      該機(jī)構(gòu)表示,Qwen2-72B、GPT-4o 及書生・浦語 2.0 文曲星(InternLM2-20B-WQX)成為本次大模型高考的前三甲,得分率均超過 70%。大部分模型“考生”語文、英語科目表現(xiàn)良好,但數(shù)學(xué)方面仍有很大提升空間。

      具體來看,InternLM2-20B-WQX 取得了數(shù)學(xué)單科的最高分,超越包括 GPT-4o 在內(nèi)的所有模型。

      此次參與“大模型高考”評測的產(chǎn)品包含 GPT-4o 及其他 6 個模型。為公平起見,此次評測沒有納入商用閉源模型。

      這 6 個模型分別是:

      Mixtral 8x22B:法國 AI 創(chuàng)業(yè)公司 Mistral 于 2024 年 4 月 17 日開源的對話模型。

      Yi-1.5-34B:零一萬物公司于 2024 年 5 月 12 日開源的 Yi-1.5 系列最大的模型。

      GLM-4-9B:智譜 AI 于 2024 年 6 月 4 日推出的最新一代預(yù)訓(xùn)練模型 GLM-4 系列的開源版本。

      InternLM2-20B-WQX:上海人工智能實(shí)驗(yàn)室于 2024 年 6 月 4 日開源的書生・浦語 2.0 系列文曲星大語言模型。

      Qwen2-57B:阿里巴巴于 2024 年 6 月 6 日開源的 Qwen2 系列 MoE 對話模型。

      Qwen2-72B:阿里巴巴于 2024 年 6 月 6 日開源的 72B 稠密模型。

      語數(shù)外三科加起來的滿分為 420 分,此次高考測試結(jié)果顯示,阿里通義千問 2-72B 排名第一,為 303 分,OpenAI 的 GPT-4o 排名第二,得分 296 分,上海人工智能實(shí)驗(yàn)室的書生・浦語 2.0 排名第三,三個大模型的得分率均超過 70%。來自法國大模型初創(chuàng)公司的 Mistral 排名末尾,僅拿下 185 分。

      數(shù)學(xué)是所有大模型的短板,平均得分率僅有 36%,參與測試的大模型無一及格。

      此外,閱卷教師也對大模型表現(xiàn)進(jìn)行了整體分析,為模型能力提升策略提供參考。

      語文

      模型的現(xiàn)代文閱讀理解能力普遍較強(qiáng),但是不同模型的文言文閱讀理解能力差距較大。

      大模型作文更像問答題,雖然有針對性但缺乏修飾,幾乎不存在人類考生都會使用舉例論證、引用論證、名人名言和人物素材等手法。

      多數(shù)模型無法理解“本體”“喻體”“暗喻”等語文概念。語言中的一些“潛臺詞”,大模型尚無法完全理解。

      數(shù)學(xué)

      大模型的主觀題回答相對凌亂,且過程具有迷惑性,甚至出現(xiàn)過程錯誤但得到正確答案的情況。

      大模型的公式記憶能力較強(qiáng),但是無法在解題過程中靈活引用。

      英語

      英語整體表現(xiàn)良好,但部分模型由于不適應(yīng)題型,在七選五、完形填空等題型得分率較低。

      大模型英語作文普遍存在因超出字?jǐn)?shù)限制而扣分的情況,而人類考生多因?yàn)樽謹(jǐn)?shù)不夠扣分。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。