• 首頁 > 云計算頻道 > 大模型

    DeepSeek新模型霸榜,代碼能力與OpenAI o1相當且確認開源,網友:今年編程只剩Tab鍵

    2025年01月20日 09:16:59   來源:量子位公眾號

      DeepSeek版o1,有消息了。

      還未正式發(fā)布,已在代碼基準測試LiveCodeBench霸榜前三,表現與OpenAI o1的中檔推理設置相當。

      注意了,這不是在DeepSeek官方App已經能試玩的DeepSeek-R1-Lite-Preview(輕量預覽版)。

      而是摘掉了輕量版的帽子,稱為DeepSeek-R1-Preview(預覽版),意味著替換了規(guī)模更大的基礎模型。

      LiveCodeBench團隊透露,他們正在與DeepSeek合作評估新模型的能力,在合作過程中,DeepSeek團隊還幫他們找出并解決了評分系統的一些bug。

      與此同時,他們還曬出了目前僅有的一張DeepSeek-R1-Preview的思考過程。

      鑒于DeepSeek此前已宣布R1模型將開源,有網友表示,與OpenAI o1編程能力相當的開源模型即將發(fā)布,2025年的編程就只剩下按Tab鍵了。

      DeepSeek推理大模型滿血版

      兩個月前,DeepSeek在官網上線DeepSeek-R1-Lite-Preview時曾透露:

      DeepSeek-R1-Lite-Preview使用強化學習訓練,推理含大量反思和驗證,遵循新的Scaling Laws——

      推理越長,表現越強。

      在AIME測試基準中,隨著推理長度的增加,DeepSeek-R1-Lite-Preview表現出穩(wěn)定的得分提升。

      DeepSeek-R1-Lite推理的特點在網友們的后續(xù)測試中也得到了驗證:

      在某些情況下,模型似乎能夠在生成推理步驟時自我糾正,表現出類似原生“自我反思”的能力。不過,沒有訓練數據、模型架構和技術報告/論文的細節(jié),很難確認這一點。

      期待未來的開源模型和API!

      摘掉Lite的帽子,變成DeepSeek-R1-Preview,意味著換了更大的基礎模型。

      之前Lite版就在難度較高數學和代碼任務上超越o1-preview,大幅領先GPT-4o。

      這次在LiveCodeBench上,這次的DeepSeek-R1-Preview的表現又與OpenAI o1-Medium相當,網友們更加期待開源模型和API了。

      LiveCodeBench由UC伯克利、MIT和康奈爾大學團隊推出,旨在對大模型的代碼能力進行全面且無污染的評估。

      具體避免測試數據泄露的方法,是隨著時間的推移不斷從人類的編程競賽平臺收集新的題目。

      除了代碼生成,還會評估模型在代碼自修復、執(zhí)行和測試輸出預測等方面的能力。

      這樣實時更新、確保公平性和可靠性的測試方法,獲得了開發(fā)者社區(qū)的認可。

      還有程序猿喊話Cursor直接把R1-Preview集成到Agent mode里:

      One More Thing

      趕在春節(jié)前,許多還在做訓練的國產大模型團隊,都把自家模型更新了一遍:

      MiniMax開源4M超長上下文新模型!性能比肩DeepSeek-v3、GPT-4o

      全球首次!國產AI開源端側GPT-4o海外爆火,8B參數iPad就能跑

      國內數學最強!實測訊飛版o1:上能打奧賽卷高考,下能輔導寒假作業(yè)

      阿里開源首個視覺推理模型,擊敗GPT-4o,網頁一度404

      ……

      OpenAI似乎要趁這邊放假開始搞事情了(狗頭),奧特曼發(fā)帖透露:

      o3-mini完成外部合作測試,已確定最終版,將在幾周內推出,會同時上線API和ChatGPT。

      在后續(xù)對話中,奧特曼還確認了未來模型更多基本情況:

      o3-mini的速度會非?

      o3-mini大多數情況下不如o1-pro

      o3pro收費從$200/月起步

      OpenAI正在關注如何讓AI一次性輸出更多內容

      2025年計劃把GPT系列和o系列合并

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(AVC)推總數據顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現優(yōu)異,同比有14%的漲幅,傳統電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯網標識解析體系

    9月14日,2024全球工業(yè)互聯網大會——工業(yè)互聯網標識解析專題論壇在沈陽成功舉辦。