《人工智能大模型體驗報告2.0》出爐：訊飛星火奪冠，得分逼近人類

2023年08月14日 14:12:39 來源：中文科技資訊

　　今年以來，國內科技企業(yè)紛紛布局人工智能大模型。為進一步直觀感受我國當前主流科技企業(yè)所推出的大模型產(chǎn)品的現(xiàn)狀、優(yōu)勢和特點，8月12日，新華社研究院中國企業(yè)發(fā)展研究中心基于嚴格測評，發(fā)布《人工智能大模型體驗報告2.0》，對當前國內各主流大模型的表現(xiàn)給出評述。

　　與2023年6月首次發(fā)布的《人工智能大模型體驗報告》相比，本次測評在題目設計、對標Benchmark(人類)、打分權重、專家測評團隊四大維度進行了全面升級。

　　其中，在題目設計方面，測評題目由300道擴展至500道，并進一步完善了題目分類;

　　在對標Benchmark方面，本次測評將接受過高等教育的人類作為對照，來考評大模型真實能力;

　　在打分標準上，本次測評根據(jù)對產(chǎn)業(yè)、生活的實際價值，對基礎能力、智商能力、情商能力和工具提效四大測評維度進行了權重設計;

　　在測評團隊方面，本次測評特邀北京大學文化與傳播研究所及其他產(chǎn)界、學界專家全程參與。

　　本次研究設置了用戶體驗項目，抓取了7月31日—8月4日數(shù)據(jù)，通過人機互動提問等形式，對國內主流大模型進行使用體驗評測，旨在為科技企業(yè)調整努力方向提供參考。

　　報告顯示，與2023年6月相比，當前中國大模型產(chǎn)品進步顯著。但與接受過高等教育的人類相比，大模型在智商、情商等方面還存在一定程度差距。

　　具體來看，訊飛星火在工作提效、智商等方面優(yōu)勢明顯，百度文心一言基礎能力出色，商湯商量則在情商方面表現(xiàn)優(yōu)秀，智譜AI-ChatGLM整體表現(xiàn)不俗。

　　歸結到基礎能力、智商能力、情商能力和工具提效四大維度綜合得分上，科大訊飛星火表現(xiàn)最強，1013分，逼近人類水平(1014分)，其次是百度文心一言和商湯商量，總分分別為1010分和983分。

　　報告認為，雖然在不同領域中，AI和人類表現(xiàn)出不同的優(yōu)劣勢，但在整體上，AI大模型的發(fā)展為人類工作和生活的提質增效帶來了重要的積極影響，大模型正在加速走進生活、走進產(chǎn)業(yè)。

　　據(jù)了解，此次測評總分第一的訊飛星火大模型發(fā)布于5月6日。并于6月9日發(fā)布星火1.5版本，與上一個版本相比，升級版不僅各項能力獲得持續(xù)提升，且在綜合能力上實現(xiàn)了三大升級：

　　開放式知識問答取得突破，提升24%，較好地解決了當前大模型技術有待攻克的“三大缺陷”：新知識難以更新、事實類問答容易“張冠李戴”、史實傳統(tǒng)典籍等容易“編造情節(jié)”。

　　多輪對話躍遷，對話體驗更接近真人;邏輯和數(shù)學能力明顯提升。

　　特別是在數(shù)學能力，科大訊飛星火大模型不但能綜合應用方程、排列組合、經(jīng)典算法等各種數(shù)學方法，給出正確答案，而且能給出分析過程，讓用戶在“知其然”的同時，還能“知其所以然”。

　　除了大模型自身能力進一步提升外，訊飛星火1.5版發(fā)布會上，科大訊飛還正式發(fā)布了星火APP和星火語伴APP等C端產(chǎn)品，加上此前已和大模型融合的科大訊飛AI學習機、智能智能辦公本、訊飛聽見、汽車智能座艙語音交互和數(shù)字員工等產(chǎn)品，成為業(yè)內第一家實現(xiàn)大模型商業(yè)應用落地的公司。

　　受大模型加持帶動，2023年5月至6月，科大訊飛C端硬件GMV創(chuàng)歷史新高，同比翻倍增長。其中，搭載訊飛星火認知大模型的訊飛AI學習機GMV在5月和6月分別增長136%和217%。

　　同時，訊飛人工智能開放平臺的開發(fā)者團隊數(shù)量增長迅猛，兩個月時間增加85萬。截至2023年6月30日，科大訊飛開放平臺開發(fā)者數(shù)已達到497.4萬，近一年增長45%。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. X058-2]
分享到微信