首頁 > 云計算頻道 > 大模型

DeepSeek新模型霸榜，代碼能力與OpenAI o1相當且確認開源，網友：今年編程只剩Tab鍵

2025年01月20日 09:16:59 夢晨西風 來源：量子位公眾號

　　DeepSeek版o1，有消息了。

　　還未正式發(fā)布，已在代碼基準測試LiveCodeBench霸榜前三，表現與OpenAI o1的中檔推理設置相當。

　　注意了，這不是在DeepSeek官方App已經能試玩的DeepSeek-R1-Lite-Preview(輕量預覽版)。

　　而是摘掉了輕量版的帽子，稱為DeepSeek-R1-Preview(預覽版)，意味著替換了規(guī)模更大的基礎模型。

　　LiveCodeBench團隊透露，他們正在與DeepSeek合作評估新模型的能力，在合作過程中，DeepSeek團隊還幫他們找出并解決了評分系統的一些bug。

　　與此同時，他們還曬出了目前僅有的一張DeepSeek-R1-Preview的思考過程。

　　鑒于DeepSeek此前已宣布R1模型將開源，有網友表示，與OpenAI o1編程能力相當的開源模型即將發(fā)布，2025年的編程就只剩下按Tab鍵了。

　　DeepSeek推理大模型滿血版

　　兩個月前，DeepSeek在官網上線DeepSeek-R1-Lite-Preview時曾透露:

　　DeepSeek-R1-Lite-Preview使用強化學習訓練，推理含大量反思和驗證，遵循新的Scaling Laws——

　　推理越長，表現越強。

　　在AIME測試基準中，隨著推理長度的增加，DeepSeek-R1-Lite-Preview表現出穩(wěn)定的得分提升。

　　DeepSeek-R1-Lite推理的特點在網友們的后續(xù)測試中也得到了驗證:

　　在某些情況下，模型似乎能夠在生成推理步驟時自我糾正，表現出類似原生“自我反思”的能力。不過，沒有訓練數據、模型架構和技術報告/論文的細節(jié)，很難確認這一點。

　　期待未來的開源模型和API!

　　摘掉Lite的帽子，變成DeepSeek-R1-Preview，意味著換了更大的基礎模型。

　　之前Lite版就在難度較高數學和代碼任務上超越o1-preview，大幅領先GPT-4o。

　　這次在LiveCodeBench上，這次的DeepSeek-R1-Preview的表現又與OpenAI o1-Medium相當，網友們更加期待開源模型和API了。

　　LiveCodeBench由UC伯克利、MIT和康奈爾大學團隊推出，旨在對大模型的代碼能力進行全面且無污染的評估。

　　具體避免測試數據泄露的方法，是隨著時間的推移不斷從人類的編程競賽平臺收集新的題目。

　　除了代碼生成，還會評估模型在代碼自修復、執(zhí)行和測試輸出預測等方面的能力。

　　這樣實時更新、確保公平性和可靠性的測試方法，獲得了開發(fā)者社區(qū)的認可。

　　還有程序猿喊話Cursor直接把R1-Preview集成到Agent mode里:

　　One More Thing

　　趕在春節(jié)前，許多還在做訓練的國產大模型團隊，都把自家模型更新了一遍:

　　MiniMax開源4M超長上下文新模型!性能比肩DeepSeek-v3、GPT-4o

　　全球首次!國產AI開源端側GPT-4o海外爆火，8B參數iPad就能跑

　　國內數學最強!實測訊飛版o1:上能打奧賽卷高考，下能輔導寒假作業(yè)

　　阿里開源首個視覺推理模型，擊敗GPT-4o，網頁一度404

　　……

　　OpenAI似乎要趁這邊放假開始搞事情了(狗頭)，奧特曼發(fā)帖透露:

　　o3-mini完成外部合作測試，已確定最終版，將在幾周內推出，會同時上線API和ChatGPT。

　　在后續(xù)對話中，奧特曼還確認了未來模型更多基本情況:

　　o3-mini的速度會非�？�

　　o3-mini大多數情況下不如o1-pro

　　o3pro收費從$200/月起步

　　OpenAI正在關注如何讓AI一次性輸出更多內容

　　2025年計劃把GPT系列和o系列合并

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

[No. ]
分享到微信

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

CES場外汽車觀察：油車遍地走，特斯拉是新能源獨苗

真我手機發(fā)布《2025年輕人手機生活趨勢觀察報告》，洞悉手

新聞

明火炊具市場：三季度健康屬性貫穿全類目

奧維云網(AVC)推總數據顯示，2024年1-9月明火炊具線上零售額94.2億元，同比增加3.1%，其中抖音渠道表現優(yōu)異，同比有14%的漲幅，傳統電商略有下滑，同比降低2.3%。

企業(yè)IT

重慶創(chuàng)新公積金應用，“區(qū)塊鏈+政務服務”顯成效

“以前都要去窗口辦，一套流程下來都要半個月了，現在方便多了!”打開“重慶公積金”微信小程序，按照提示流程提交相關材料，僅幾秒鐘，重慶市民曾某的賬戶就打進了21600元。

3C消費

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實力，創(chuàng)

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，憑借其優(yōu)秀的性能配置和精準的色彩呈現能力，為您的創(chuàng)作工作帶來實質性的幫助，雙十一期間低至2799元，性價比很高，簡直是創(chuàng)作者們的首選。

研究

中國信通院羅松：深度解讀《工業(yè)互聯網標識解析體系

9月14日，2024全球工業(yè)互聯網大會——工業(yè)互聯網標識解析專題論壇在沈陽成功舉辦。

專題

返回主頁 ┊ 關于我們 ┊ 內容聯系 ┊ 聯系我們 ┊ 免責聲明 ┊ 原創(chuàng)新聞 ┊ 友情鏈接 ┊ 舊版首頁

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

DeepSeek新模型霸榜，代碼能力與OpenAI o1相當且確認開源，網友：今年編程只剩Tab鍵

擴展閱讀

DeepSeek新模型霸榜，代碼能力與OpenAI o1相當且確認開源，網友：今年編程只剩Tab鍵