上海人工智能實(shí)驗(yàn)室發(fā)布首個 AI 高考評測結(jié)果：數(shù)學(xué)全部不及格

2024年06月20日 09:03:10 來源：Donews

　　據(jù)IT之家報道，上海人工智能實(shí)驗(yàn)室 19 日公布了首個 AI 高考全卷評測結(jié)果。

　　據(jù)介紹，2024 年全國高考甫一結(jié)束，該實(shí)驗(yàn)室旗下司南評測體系 OpenCompass 選取 6 個開源模型及 GPT-4o 進(jìn)行高考“語數(shù)外”全卷能力測試。

　　評測采用全國新課標(biāo) I 卷，參與評測的所有開源模型開源時間均早于高考，確保評測“閉卷”性。同時，成績由具有高考評卷經(jīng)驗(yàn)的教師人工評判，更加接近真實(shí)閱卷標(biāo)準(zhǔn)。

　　該機(jī)構(gòu)表示，Qwen2-72B、GPT-4o 及書生・浦語 2.0 文曲星(InternLM2-20B-WQX)成為本次大模型高考的前三甲，得分率均超過 70%。大部分模型“考生”語文、英語科目表現(xiàn)良好，但數(shù)學(xué)方面仍有很大提升空間。

　　具體來看，InternLM2-20B-WQX 取得了數(shù)學(xué)單科的最高分，超越包括 GPT-4o 在內(nèi)的所有模型。

　　此次參與“大模型高考”評測的產(chǎn)品包含 GPT-4o 及其他 6 個模型。為公平起見，此次評測沒有納入商用閉源模型。

　　這 6 個模型分別是：

　　Mixtral 8x22B：法國 AI 創(chuàng)業(yè)公司 Mistral 于 2024 年 4 月 17 日開源的對話模型。

　　Yi-1.5-34B：零一萬物公司于 2024 年 5 月 12 日開源的 Yi-1.5 系列最大的模型。

　　GLM-4-9B：智譜 AI 于 2024 年 6 月 4 日推出的最新一代預(yù)訓(xùn)練模型 GLM-4 系列的開源版本。

　　InternLM2-20B-WQX：上海人工智能實(shí)驗(yàn)室于 2024 年 6 月 4 日開源的書生・浦語 2.0 系列文曲星大語言模型。

　　Qwen2-57B：阿里巴巴于 2024 年 6 月 6 日開源的 Qwen2 系列 MoE 對話模型。

　　Qwen2-72B：阿里巴巴于 2024 年 6 月 6 日開源的 72B 稠密模型。

　　語數(shù)外三科加起來的滿分為 420 分，此次高考測試結(jié)果顯示，阿里通義千問 2-72B 排名第一，為 303 分，OpenAI 的 GPT-4o 排名第二，得分 296 分，上海人工智能實(shí)驗(yàn)室的書生・浦語 2.0 排名第三，三個大模型的得分率均超過 70%。來自法國大模型初創(chuàng)公司的 Mistral 排名末尾，僅拿下 185 分。