中國銀聯(lián)旗下子公司成為國內(nèi)首家vLEI授權(quán)發(fā)行機構(gòu)跟著京東大學生開學爆款清單換新裝備 買3C數(shù)碼享國家補貼立省20%德國MR攜手成都西電中特完成首個可調(diào)式電抗器項目交付,助力卡塔爾氣田擴建AMD擬出售數(shù)據(jù)中心制造工廠,多家亞洲企業(yè)參與談判曼哈特中國攜手阿里云,加速云原生倉儲管理解決方案在華落地瑪莎拉蒂GranCabrio 490即將上市適馬發(fā)布兩款新鏡頭:300-600mm F4 DG OS Sports 和 16-300mm F3.5-6.7 DC OS Contemporary至譽科技推出入門級UHS-I SD存儲卡,支持4K 60P視頻錄制司享網(wǎng)絡亮相SAP全球運營高峰論壇,AI+公有云賦能中國企業(yè)出海新航程科技廠商們,“拒絕”DeepSeek的“獨角戲”?登頂全球應用市場下載榜 DeepSeek為何如此爆火?京東外賣,攪動一池春水網(wǎng)易游戲延續(xù)增勢,外圍業(yè)務全線下滑,接入AI能抗老嗎?雅迪攜手代言人王鶴棣閃耀NBA全明星,“中國智造” 海外圈粉無數(shù)長劇微劇雙引擎 正在重塑愛奇藝AI推動阿里增長背后,有幾張應用王牌?星環(huán)科技推出DeepSeek全場景解決方案:即開即用、企業(yè)級部署、端側(cè)智能三位一體大模型加速重構(gòu) AI4S正在改變科研方式阿里股價狂飆萬億,釘釘卡位AI ToB入口小鵬匯天“陸地航母”陸行體進入冬季測試階段:2026年計劃量產(chǎn)交付
  • 首頁 > 云計算頻道 > 大模型

    DeepSeek超150萬模型,成最受歡迎開源大模型

    2025年02月24日 09:45:09   來源:AIGC開放社區(qū)公眾號

      今天凌晨3點,全球最大開源平臺之一huggingface聯(lián)合創(chuàng)始人兼首席執(zhí)行官Clement Delangue發(fā)布了最新數(shù)據(jù):

      中國開源大模型DeepSeek-R1在150萬模型中,成為該平臺最受歡迎的開源大模型,點贊超過1萬。

      前不久,Clement還特意發(fā)文恭喜DeepSeek-R1的下載量超過1000萬次,同樣創(chuàng)造了huggingface平臺有史以來最受歡迎的模型。

      看來,Clement也吃到DeepSeek的紅利了,對它是真愛啊連續(xù)表揚。

      值得一提的是,R1僅用了幾周的時間就超過了類ChatGPT開源鼻祖Meta發(fā)布的Llama系列,國內(nèi)的開源大模型領頭羊Qwen系列,以及微軟開源的Phi系列,谷歌開源的Gemma系列。

      就連開源文生圖模型的大黑馬FLUX.1,以及該領域的領導者Stable-Diffusion系列全都沒打過R1,這第一拿的實至名歸,踩著眾多開源高手上去的。

      有網(wǎng)友表示,R1的開源徹底改變了AI領域。

      本周,Deepseek表示將推出大量新功能,伙計你可來活了!

      本周我們將獲得更多的開源驚喜!

      巨大的功勞歸于 Deepseek,他們讓開源再次出色。他們徹底改變了游戲規(guī)則,并讓所有閉源模型都感到壓力。

      即使像 Perplexity、Azure、AWS這樣的云平臺,也更傾向于使用 Deepseek,而不是他們自己的投資Sonar、OpenAI 或Anthropic 的模型。

      DeepSeek-R1簡單介紹

      其實DeepSeek在開發(fā)R1之前,先開發(fā)的是純強化學習版本R1-Zero,不依賴傳統(tǒng)的監(jiān)督微調(diào),采用了GRPO算法。雖然訓練出來性能不錯,但可讀性差和語言混合等都很差。

      所以,在R1-Zero基礎之上訓練了R1模型,一共包含4個訓練階段。

      冷啟動訓練階段:與R1-Zero 不同,為了避免強化學習訓練初期從基礎模型開始的不穩(wěn)定冷啟動階段, R1構(gòu)建并收集了少量長思維鏈數(shù)據(jù),對 DeepSeek-V3-Base 模型進行微調(diào),作為初始的強化學習參與者。

      在收集數(shù)據(jù)時,研究團隊探索了多種方法,例如,使用帶有長思維鏈的少樣本提示作為示例、直接促使模型生成帶有反思和驗證的詳細答案、收集R1-Zero以可讀格式輸出的結(jié)果并通過人工標注后處理優(yōu)化等,收集了數(shù)千條冷啟動數(shù)據(jù)來微調(diào)模型。

      推理導向的強化學習階段:主要聚焦于提升模型在編碼、數(shù)學、科學和邏輯推理等推理密集型任務中的能力,這些任務通常具有明確的問題和解決方案。

      在訓練過程中,發(fā)現(xiàn)思維鏈存在語言混合問題,尤其是當強化學習提示涉及多種語言時。為緩解這一問題,引入了語言一致性獎勵,通過計算思維鏈中目標語言單詞的比例來衡量。雖然消融實驗表明這種調(diào)整會導致模型性能略有下降,但它符合人類偏好,提高了可讀性。

      最后,將推理任務的準確性和語言一致性獎勵直接相加,形成最終獎勵,并對微調(diào)后的模型進行強化學習訓練,直至推理任務收斂。

      拒絕采樣和監(jiān)督微調(diào)階段:當推理導向的強化學習收斂后,利用得到的檢查點收集監(jiān)督微調(diào)數(shù)據(jù),用于后續(xù)輪次的訓練。與初始冷啟動數(shù)據(jù)主要關注推理不同,

      該階段的數(shù)據(jù)融合了其他領域的數(shù)據(jù),以提升模型在寫作、角色扮演和其他通用任務中的能力。在推理數(shù)據(jù)方面,精心策劃推理提示,并通過對上述強化學習訓練的檢查點進行拒絕采樣生成推理軌跡。

      全場景強化學習階段:為了使R1模型更好地符合人類偏好,實施了二次強化學習階段。該階段主要提高模型的有用性和無害性,同時進一步優(yōu)化其推理能力。

      通過結(jié)合獎勵信號和多樣化的提示分布來訓練模型。對于推理數(shù)據(jù),遵循R1-Zero 中使用的方法,利用基于規(guī)則的獎勵在數(shù)學、代碼和邏輯推理領域引導學習過程;

      對于通用數(shù)據(jù),則采用獎勵模型來捕捉復雜和微妙場景中的人類偏好; DeepSeek-V3的流程,采用類似的偏好對和訓練提示分布。在評估有用性時,僅關注最終總結(jié),確保評估重點在于響應對用戶的實用性和相關性,同時盡量減少對底層推理過程的干擾;

      在評估無害性時,評估模型的整個響應,包括推理過程和總結(jié),以識別和減輕生成過程中可能出現(xiàn)的任何潛在風險、偏差或有害內(nèi)容。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。