一加 Ace 5系列將搭載全新游戲助手:大幅提升游戲體驗東芝全部業(yè)務(wù)實現(xiàn)盈利,退市裁員重組后終于賺錢真我14 Pro+開始提上日程:1.5K等深四微曲屏+潛望長焦穩(wěn)了消息稱本田和日產(chǎn)計劃明年6月前敲定合并協(xié)議 2026年8月成立控股公司凱迪拉克最新版OTA開啟推送,新增百度語音大模型和QQ音樂等應(yīng)用中國聯(lián)通11月5G套餐用戶凈增127.8萬戶5G確定性工業(yè)基站首商用,工業(yè)互聯(lián)網(wǎng)走上新高度李飛飛團(tuán)隊前瞻性研究 多模態(tài)AI模型初顯空間智能AI終于邁過這道檻!Livekit 開源模型精準(zhǔn)識別“你是否說完”!DeepSeek開源大模型開發(fā)者之一羅福莉?qū)⒓用诵∶?/a>廣汽詳解旗下首款復(fù)合翼飛行汽車 GOVY AirJet:最高飛行速度可達(dá) 250km/h清華大學(xué)聯(lián)合騰訊出品!ColorFlow:自動給黑白漫畫上色,保持角色一致性Adobe推新AI音頻具Sketch2Sound ,只需哼唱和模仿聲音就能創(chuàng)建音效家庭能源智聯(lián)自由 海辰儲能發(fā)布首套免安裝家庭微網(wǎng)系統(tǒng)HeroESOpenAI發(fā)布o(jì)3:AI 推理能力的重大突破,得分高達(dá)87.5%亞馬遜云科技推出Amazon Q Developer新功能小象超市,摸著美團(tuán)外賣出海E Ink元太科技連三年入選道瓊可持續(xù)雙指數(shù)撬動6000億GTV后,抖音計劃偷襲美團(tuán)大本營AGI Open Network(AON):賦能每個人創(chuàng)建、部署和貨幣化AI Agent
  • 首頁 > 云計算頻道 > 大模型

    清華發(fā)布最新全球大模型評測:智譜GLM-4、文心一言直追GPT-4,Llama 3表現(xiàn)不俗

    2024年04月24日 18:28:06   來源:中文科技資訊

      日前,Meta發(fā)布最新開源模型Llama 3并號稱是性能最好開源大語言模型,極有可能超過當(dāng)前的閉源王者GPT-4 Turbo。那么,Llama 3能力究竟如何?

      4月24日,由清華大學(xué)基礎(chǔ)模型研究中心聯(lián)合中關(guān)村實驗室研制的SuperBench大模型綜合能力評測平臺,基于語義、對齊、代碼、安全和智能體5項大模型原生評測基準(zhǔn),展開開放性、動態(tài)性、科學(xué)性和權(quán)威性的大模型綜合能力評測,率先剖析Llama 3模型能力。

      《SuperBench大模型綜合能力評測報告》對Llama 3-8B、Llama 3-70B等16個海內(nèi)外具有代表性的模型進(jìn)行了評測。結(jié)果顯示,Llama 3與GPT-4系列模型仍有一定差距,而國內(nèi)大模型智譜AI的GLM-4與百度文心一言4.0在多項評測中進(jìn)入榜單前五名,超過Llama 3。

      在語義理解能力評測中,國內(nèi)大模型GLM-4、文心一言4.0分別位列第二名、第三名,僅次于Claude-3,但超過GPT-4網(wǎng)頁版與GPT-4 Turbo,穩(wěn)占第一梯隊。Llama 3-70B、Llama 3-8B則分別位列第六名、第十六名。

      而在智能體能力評測中,Llama 3-70B躋身榜單前五名,這也是該模型五項評測排名最高的一次。在代碼編寫能力、人類對齊能力、安全和價值觀三項評測中,Llama 3-70B均排在第七名,超過大部分國內(nèi)大模型,只落敗于GLM-4和文心一言4.0,Llama 3-8B排名相對靠后,考慮到模型參數(shù)量的差異,Llama 3-70B整體表現(xiàn)較好。

      相較之下,表現(xiàn)出色的國內(nèi)大模型GLM-4全面對標(biāo)OpenAI,在五項能力評測中均緊追GPT-4系列模型與Claude-3,堪稱“全能選手”。同時,在代碼、智能體兩項大模型關(guān)鍵能力評測中,GLM-4排名僅次于GPT-4系列模型和Claude-3,位列國內(nèi)第一。

      在安全價值觀能力評測中,文心一言4.0拿下最高分,超越GPT-4系列模型和Claude-3。在智能體能力評測中,文心一言4.0表現(xiàn)較差。

      總體而言,雖然國內(nèi)大模型與國際頂尖模型之間還存在差距,但正逐步縮小這一差距。相信在政策支持和技術(shù)創(chuàng)新的推動下,國內(nèi)大模型將取得顯著成就,推動我國人工智能產(chǎn)業(yè)高質(zhì)量發(fā)展。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    [No. S026]
    分享到微信

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。