首頁 > 云計算頻道 > 大模型

DeepSeek超150萬模型，成最受歡迎開源大模型

2025年02月24日 09:45:09 來源：AIGC開放社區(qū)公眾號

　　今天凌晨3點，全球最大開源平臺之一huggingface聯(lián)合創(chuàng)始人兼首席執(zhí)行官Clement Delangue發(fā)布了最新數(shù)據(jù):

　　中國開源大模型DeepSeek-R1在150萬模型中，成為該平臺最受歡迎的開源大模型，點贊超過1萬。

　　前不久，Clement還特意發(fā)文恭喜DeepSeek-R1的下載量超過1000萬次，同樣創(chuàng)造了huggingface平臺有史以來最受歡迎的模型。

　　看來，Clement也吃到DeepSeek的紅利了，對它是真愛啊連續(xù)表揚。

　　值得一提的是，R1僅用了幾周的時間就超過了類ChatGPT開源鼻祖Meta發(fā)布的Llama系列，國內(nèi)的開源大模型領頭羊Qwen系列，以及微軟開源的Phi系列，谷歌開源的Gemma系列。

　　就連開源文生圖模型的大黑馬FLUX.1，以及該領域的領導者Stable-Diffusion系列全都沒打過R1，這第一拿的實至名歸，踩著眾多開源高手上去的。

　　有網(wǎng)友表示，R1的開源徹底改變了AI領域。

　　本周，Deepseek表示將推出大量新功能，伙計你可來活了!

　　本周我們將獲得更多的開源驚喜!

　　巨大的功勞歸于 Deepseek，他們讓開源再次出色。他們徹底改變了游戲規(guī)則，并讓所有閉源模型都感到壓力。

　　即使像 Perplexity、Azure、AWS這樣的云平臺，也更傾向于使用 Deepseek，而不是他們自己的投資Sonar、OpenAI 或Anthropic 的模型。

　　DeepSeek-R1簡單介紹

　　其實DeepSeek在開發(fā)R1之前，先開發(fā)的是純強化學習版本R1-Zero，不依賴傳統(tǒng)的監(jiān)督微調(diào)，采用了GRPO算法。雖然訓練出來性能不錯，但可讀性差和語言混合等都很差。

　　所以，在R1-Zero基礎之上訓練了R1模型，一共包含4個訓練階段。

　　冷啟動訓練階段:與R1-Zero 不同，為了避免強化學習訓練初期從基礎模型開始的不穩(wěn)定冷啟動階段， R1構(gòu)建并收集了少量長思維鏈數(shù)據(jù)，對 DeepSeek-V3-Base 模型進行微調(diào)，作為初始的強化學習參與者。

　　在收集數(shù)據(jù)時，研究團隊探索了多種方法，例如，使用帶有長思維鏈的少樣本提示作為示例、直接促使模型生成帶有反思和驗證的詳細答案、收集R1-Zero以可讀格式輸出的結(jié)果并通過人工標注后處理優(yōu)化等，收集了數(shù)千條冷啟動數(shù)據(jù)來微調(diào)模型。

　　推理導向的強化學習階段:主要聚焦于提升模型在編碼、數(shù)學、科學和邏輯推理等推理密集型任務中的能力，這些任務通常具有明確的問題和解決方案。

　　在訓練過程中，發(fā)現(xiàn)思維鏈存在語言混合問題，尤其是當強化學習提示涉及多種語言時。為緩解這一問題，引入了語言一致性獎勵，通過計算思維鏈中目標語言單詞的比例來衡量。雖然消融實驗表明這種調(diào)整會導致模型性能略有下降，但它符合人類偏好，提高了可讀性。

　　最后，將推理任務的準確性和語言一致性獎勵直接相加，形成最終獎勵，并對微調(diào)后的模型進行強化學習訓練，直至推理任務收斂。

　　拒絕采樣和監(jiān)督微調(diào)階段:當推理導向的強化學習收斂后，利用得到的檢查點收集監(jiān)督微調(diào)數(shù)據(jù)，用于后續(xù)輪次的訓練。與初始冷啟動數(shù)據(jù)主要關注推理不同，

　　該階段的數(shù)據(jù)融合了其他領域的數(shù)據(jù)，以提升模型在寫作、角色扮演和其他通用任務中的能力。在推理數(shù)據(jù)方面，精心策劃推理提示，并通過對上述強化學習訓練的檢查點進行拒絕采樣生成推理軌跡。

　　全場景強化學習階段:為了使R1模型更好地符合人類偏好，實施了二次強化學習階段。該階段主要提高模型的有用性和無害性，同時進一步優(yōu)化其推理能力。

　　通過結(jié)合獎勵信號和多樣化的提示分布來訓練模型。對于推理數(shù)據(jù)，遵循R1-Zero 中使用的方法，利用基于規(guī)則的獎勵在數(shù)學、代碼和邏輯推理領域引導學習過程;

　　對于通用數(shù)據(jù)，則采用獎勵模型來捕捉復雜和微妙場景中的人類偏好�；� DeepSeek-V3的流程，采用類似的偏好對和訓練提示分布。在評估有用性時，僅關注最終總結(jié)，確保評估重點在于響應對用戶的實用性和相關性，同時盡量減少對底層推理過程的干擾;

　　在評估無害性時，評估模型的整個響應，包括推理過程和總結(jié)，以識別和減輕生成過程中可能出現(xiàn)的任何潛在風險、偏差或有害內(nèi)容。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

銷量增速遠超預期一加手機達成春節(jié)假期全行業(yè)銷量增幅第

決戰(zhàn)性能之巔真我GT7 Pro競速版2月13日發(fā)布

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

DeepSeek超150萬模型，成最受歡迎開源大模型

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應用，“區(qū)塊鏈+政務服務”顯成效

3C消費

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實力，創(chuàng)

研究

中國信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

專題

DeepSeek超150萬模型，成最受歡迎開源大模型

擴展閱讀

DeepSeek超150萬模型，成最受歡迎開源大模型