此前,不少讀者都在后臺討論,DeepSeek雖然牛逼,但是在其之上還有ChatGPT等更強的AI模型,難道僅憑開源就能夠引起如此廣泛的關注?再說回來,DeepSeek能夠被AI從業(yè)者反復琢磨和研究,到底是有哪些過人之處?
圖源:DeepSeek
對于這個問題,其實有不少專業(yè)文章都做過解釋,不過大家未必會想去看萬字長文,也對枯燥的學術概念沒啥興趣。所以小雷這次打算用通俗易懂的方式,向大家解釋一下DeepSeek在AI模型的訓練和設計中,到底有哪些讓人眼前一亮的創(chuàng)新。
憑“MoE+MLA+MTP”成為效率狂魔
自打DeepSeek-V2發(fā)布以來,這個AI模型就以高效而聞名,大家對此估計也都有所耳聞,甚至一度被網(wǎng)友稱為“三低一高”:低推理成本、低參數(shù)量、低硬件要求、高推理性能。
不少網(wǎng)友都認為DeepSeek之所以比ChatGPT等AI模型更高效,是因為使用了稀疏結(jié)構(gòu)。這個結(jié)論并沒有錯,只是稀疏架構(gòu)并非DeepSeek獨創(chuàng),是泛指在運行過程中會選擇性激活一部分網(wǎng)絡單元,而非激活全網(wǎng)絡單元的AI模型,其最早在深度學習的神經(jīng)網(wǎng)絡應用中被提出,并成為AI領域的主流結(jié)構(gòu)之一。
稀疏結(jié)構(gòu)的優(yōu)勢是可以用更少的算力資源來運行和訓練更大參數(shù)量的模型,并且在實際的推理過程中擁有更高的效率,不過也因此會導致其出現(xiàn)其他缺陷,這個我們在接下來再詳細說明。
而ChatGPT等AI模型則是采用的稠密結(jié)構(gòu),也就是為每一個數(shù)據(jù)塊都進行單獨標記,并且每一個數(shù)據(jù)塊都與前一層所有數(shù)據(jù)塊相連,形成密集的數(shù)據(jù)矩陣。當你在進行推理/訓練時,本質(zhì)上會讀取整個模型的所有參數(shù),借助龐大的參數(shù)量可以進行更復雜的計算和更準確的回答,缺點則是當參數(shù)量過大時,效率會愈發(fā)低下。
從AI大模型的角度來說,其實并不存在最好的選擇,稀疏和稠密都有各自的優(yōu)缺點,目前主流的AI企業(yè)基本對兩種結(jié)構(gòu)都有所研究,只是根據(jù)各自模型的特性和應用范圍,會選擇不同的結(jié)構(gòu)。
以ChatGPT這種全通用型的AI模型為例,為了覆蓋盡可能多的領域,其用的就是稠密架構(gòu),但是也讓ChatGPT-5一直難產(chǎn),即使以OpenAI的龐大算力矩陣也難以解決龐大參數(shù)量所導致的超高算力消耗和效率下降問題。
而DeepSeek-R1也有著671B參數(shù)量,但是因為采用稀疏架構(gòu),實際上每次只激活其中32B的參數(shù),加上DeepSeek的思維鏈優(yōu)化等技術,就可以實現(xiàn)近似于ChatGPT-4o和o1的推理能力。
DeepSeek如何做到這點的?接下來讓我們隆重介紹一下DeepSeek-R1的核心——MoE+MLA+MTP。
首先,DeepSeek創(chuàng)新性地應用MoE架構(gòu)提高訓練效率。
首先需要明確的是,MoE并非DeepSeek首創(chuàng),其最早在20世紀90年代就已經(jīng)被提出,隨后在機器學習領域的專家Jordan和Jacobs的完善下,在1994年進一步發(fā)展成“分層混合專家”模型的概念。
圖源:Hugging Face
隨后,2017年時由谷歌的研究團隊首先將其用在了深度學習領域,提出一個具有1370億參數(shù)的稀疏MoE模型,并且展示了在MoE架構(gòu)下進行高效推理的可能。MoE架構(gòu)到底是什么?簡單來說,就是將一個巨大的AI模型切割成多個子模型,相當于將一個全科天才拆分成語文、數(shù)學、化學、生物等不同學科的專家(實際劃分并非如此,而是更復雜)。
在MoE架構(gòu)下,當你提出一個問題時,AI會首先判斷這個問題涉及哪些專家,然后跳過那些不相關的專家,把對應領域的專家喊過來討論你的問題,然后得出結(jié)果。而傳統(tǒng)的Dense架構(gòu)則是全科天才需要處理所有問題,雖然能力強大,但是當問題變多時就會顯得效率十分低下,而且其消耗的資源也遠超“普通專家”。
聽起來,MoE架構(gòu)似乎更合理,那么為何國外主流AI模型沒有使用呢?實際上并非如此,ChatGPT-4等模型都有使用MoE架構(gòu)的部分特性強化效率,只不過最終還是選擇以Dense(密集)架構(gòu)為主。而沒有將MoE作為主架構(gòu)的原因主要是這個架構(gòu)存在訓練不穩(wěn)定、通信成本高、模型復雜度高、微調(diào)困難等問題,說白了就是你得對模型進行精雕細琢,無法通過單純的堆高算力和加大參數(shù)量來得到顯著提升。
圖源:DeepSeek
只能說“窮人家”的孩子早當家,DeepSeek在沒有龐大算力支持的情況下,只能轉(zhuǎn)而對模型進行深度優(yōu)化,放棄了DeepSeek-V1的Dense路線,轉(zhuǎn)向在同等算力下有著更高效率的MoE,并且針對MoE的各種問題開發(fā)了一系列的解決措施。比如設計了一種創(chuàng)新的無輔助損失負載均衡策略,通過預先設置的負載均衡邏輯來動態(tài)調(diào)整負載,拋棄傳統(tǒng)的額外的損失函數(shù)方案。
簡單來說,傳統(tǒng)方法是經(jīng)理總攬全局,如果看到哪個產(chǎn)線過度繁忙,就會通知那個產(chǎn)線的工人你們要被罰款了,不想扣錢就把工作讓給隔壁沒活干的產(chǎn)線。因為需要經(jīng)理不停發(fā)出指令調(diào)整分配,所以實質(zhì)上增加了管理復雜度,并且難以應付大量的數(shù)據(jù)請求。
而DeepSeek則是選擇給每個產(chǎn)線都增加一個智能控制器,當控制器檢測到產(chǎn)線負載逐漸增加時就會自動調(diào)低自己的優(yōu)先級,讓系統(tǒng)將任務分配給優(yōu)先級更高的其余空余產(chǎn)線。從而實現(xiàn)在無人管理的情況下,多數(shù)產(chǎn)線都可以得到均衡的負載,確保訓練和推理的效率一直保持在高位。
圖源:DeepSeek
其次,DeepSeek用MLA創(chuàng)造性地提高推理效率。
解決了訓練效率等問題,DeepSeek很快將注意力放到了進一步解決推理效率的問題上,然后在某位研究員的“靈光一閃”下開發(fā)出了MLA——多頭潛在注意力機制。從技術角度來說,就是通過將注意力頭的鍵和值進行線性變換,將他們壓縮到一個共享的低維潛在向量空間,接下來推理時只需要拿著壓縮后的縮略圖倒騰即可,在得到結(jié)論后再把對應的壓縮包解壓,計算其中的鍵和值并輸出最終答案。
讓我們用一個更簡單的比喻,你可以把傳統(tǒng)多頭注意力機制看作一個老圖書館,每本書都擁有對應的詳細索引卡,此時進來一個人要借書,然后AI開始翻動索引卡,嘗試從浩如煙海的圖書中找到對方要的書,雖然AI的查找速度奇快,但是這樣做的效率肯定不會高。
而DeepSeek的MLA就是在編好索引卡后對書籍又按照類別進行歸檔,為每個類型的書籍建立一個上級索引,然后又建立了一個智能化的檢索機制。當借書人在輸入書名后,系統(tǒng)會自動判斷所屬類型,然后直接鎖定大致區(qū)間,接下來只需要檢索這一片書架就能把書找出來,直接節(jié)省了大量的無效檢索時間。
圖源:Hugging Face
最后,DeepSeek引入MTP機制提高預測能力。
解決了訓練和推理等問題,DeepSeek就很自然地開始對預測機制下手,預測機制涉及AI的訓練效率、推理速度和回答質(zhì)量等各個方面,可以說是AI模型的核心機制之一。傳統(tǒng)的AI在預測時都是“循規(guī)蹈矩”,就像解一道數(shù)學題一樣,做完一段推理后再進入下一階段。
而DeepSeek則是引入了MTP機制(多令牌預測),簡單來說就是讓你多了好幾只手,然后把數(shù)學題的解題過程一分為五,五只手同時驗算,最后再進行組合生成答案。正是通過這種方式,DeepSeek極大地提高了模型的訓練效率,同時也使其推理效率得到顯著提升。
圖源:DeepSeek
而且,MTP機制下生成出來的文字內(nèi)容會更加流暢和自然,因為MTP機制就等于將“走一步看一步”的寫作方式,變成了“先擬大綱再填充字詞”。DeepSeek先想好要寫什么,然后再通過MTP生成一系列字詞,選擇其中相關性更強的部分組合,這也是為什么大家在看DeepSeek生成的文字內(nèi)容時,會感覺更有“人”味,因為這就是人類的寫作方法。
從DeepSeek-V2引入MoE并完善MLA,再到DeepSeek-V3加入MTP,最終才有了DeepSeek-R1的誕生基礎。
如何讓AI學會“自主學習”?
DeepSeek-R1也就是我們現(xiàn)在常說的“滿血版”DeepSeek,是在V3的基礎上經(jīng)過“強化學習”進化而來的。什么是強化學習?
要回答這個問題,首先我們來了解下傳統(tǒng)AI的訓練模式——監(jiān)督學習。
監(jiān)督學習就是把AI當成一個“笨”學生,他只能理解你明確標注出來的知識點。比如他看到一個“白鴨子”,即使他此前已經(jīng)記住了“黑鴨子”,但是在你把“白鴨子”的名字標注出來,并將其與“黑鴨子”歸為一類之前,AI都不知道擺在自己面前的“白色奇怪物體”是什么。
當你標注的數(shù)據(jù)足夠多后,AI才能在后續(xù)的推理過程中,根據(jù)現(xiàn)有的數(shù)據(jù)特點來自主判斷面前的“紅鴨子”是一只“鴨子”。這種模式下,需要通過AI的交叉標注和人工手動微調(diào)來引導AI一點點累積知識,在AI大模型發(fā)展的初期倒也還好,但是隨著AI模型的參數(shù)量突破千億、萬億,標注效率下降的同時成本會大幅度上升,只能通過不斷堆高算力來“大力出奇跡”。
圖源:Medium
所以,對于DeepSeek這樣算力有限的公司來說,監(jiān)督學習是個一眼就能看到盡頭的死路,想進一步強化AI就只能走出一條新的路,于是他們想到了機器學習領域的強化學習概念,決定讓AI自己教自己學習,又稱“左腳踩右腳上天”法。
DeepSeek拋棄了復雜的標注和獎懲機制,選擇了更簡單的方案:給出問題,提供正確答案,然后讓AI自主推理。在完成前期的數(shù)據(jù)標注后,不再干涉推理過程,讓AI自行比對結(jié)果與標準答案的區(qū)別,將低于一定得分的結(jié)果直接廢棄,并在更接近標準答案的結(jié)果上進行新一輪推理,重復多次直到最終得出正確答案為止。
然后DeepSeek的研究人員就發(fā)現(xiàn),隨著AI的訓練步數(shù)增加,AI的思維鏈也越來越長,并且開始出現(xiàn)自我反思的能力,AI會為了更快地接近正確答案而回頭檢索出錯的推理過程,然后將其標記避免自己再犯同樣的錯誤。
DeepSeek第一個完全由強化學習方式訓練的AI被命名為DeepSeek-R1-Zero,在這個模型的相關論文中,DeepSeek的研究人員甚至提到R1-Zero在強化學習過程中會出現(xiàn)奇怪的舉動。當他在計算某個問題,并且開始接近正確答案時,會突然出現(xiàn)與推理過程相關性不大的感慨“Wait, wait, Wait. That's an aha moment I can flag here.(論文原話)”,翻譯過來就是:等等,等等,等等。這是一個我可以標記的‘啊哈’時刻。
圖源:DeepSeek
看起來就像你在冥思苦想一個數(shù)學難題,突然靈光一閃后情不自禁發(fā)出的感慨,因此DeepSeek也將這種現(xiàn)象稱為“aha moment”,也就是“頓悟”。
DeepSeek-R1-Zero直接證明了一個結(jié)論,那就是只要基礎模型足夠強大,那么就可以讓這個模型在強化學習的過程中,自我進化出一個更強大的模型。理論上,未來的AI模型可以直接脫離人類的幫助,在不停地自問自答中進化到更高的智能水平。
當然現(xiàn)階段還是不行的,AI仍然需要人類進行事先的標注,確認條件、對比結(jié)果等數(shù)據(jù),然后才能進入自主強化學習階段,但是從目前各個AI大廠的進度來看,我們距離AI完全自主學習的階段可能并不遙遠。
DeepSeek的強化學習理念可以說徹底顛覆了主流AI訓練的理念,在狂堆算力和參數(shù)的“暴力模式”之外,指出了一條更適合多數(shù)人的新捷徑。當然,之前并非沒有其他人嘗試過強化學習,但是他們都沒有一個足夠高效且出色的基礎模型,而且也沒能解決強化學習中遇到的一系列問題,所以最終只有DeepSeek成功并打造出了DeepSeek-R1。
不過隨著DeepSeek-R1及相關訓練技術的開源,不少AI大廠都已經(jīng)在嘗試引入相關機制來訓練模型,并在他們原有的強化學習架構(gòu)上根據(jù)DeepSeek的經(jīng)驗進行優(yōu)化,或許我們很快就會迎來一次新的AI性能暴漲。
NSA:全新注意力機制,下一代「核彈」?
DeepSeek在2月18號還公布的一篇新論文,這篇由DeepSeek創(chuàng)始人之一梁文鋒親自掛名的論文,短短兩小時就獲得了三十萬瀏覽量(截止到19號晚,閱讀量已接近200萬)。
在這篇論文中,DeepSeek提出了一種新的注意力機制——NSA,這是一個可以用于超快長上下文訓練和推斷的本地可訓練的稀疏注意力機制,并且具有硬件對齊特性,從論文的描述來看,可以將64K長文本的訓練速度提升9倍,推理速度提升11.6倍。
圖源:DeepSeek
這是什么概念呢?簡單的說,如果之前訓練一段64k長度的文本需要100秒,那么現(xiàn)在只需要11秒,推理相同長度的文本內(nèi)容,從100秒直接降低到10秒以內(nèi)。不僅如此,使用NSA訓練的AI在64k文本里的命中準確率從傳統(tǒng)的35%提升到100%,并且保持效率優(yōu)化不變。
而且不止是強化文本推理,在數(shù)學推理等方面,NSA也讓AI的準確率得到顯著提升,在省下90%算力的情況下還能提升推理正確率,我們一般用兩個字來形容:逆天。
基于NSA注意力機制,AI模型可以用原本十分之一的算力來處理64k文本,也可以中同樣算力的情況下,將可處理文本擴大十倍,理論上基于新的機制可以處理最高640k的超長文本,遠超現(xiàn)有的已公開AI模型上限。
看起來或許只是效率提升,實際上對整個AI的理解和推理效果都將帶來質(zhì)的提升。比如說讓AI看一本書,如果字數(shù)是30萬字的長篇小說,那么傳統(tǒng)模式下的AI受64k文本限制,一次只能記住約五分之一的內(nèi)容,需要在讀完五分之一后先建立一個記憶存檔,然后開始讀取下一部分。
當你詢問AI剛剛他讀的某一段內(nèi)容的看法時,他需要先檢索出對應的記憶模塊,再通過此前生成的對應摘要來定位內(nèi)容位置,接著再重新閱讀上下文并進行推理。但是受限于64k的檢索范圍,實際上AI只能根據(jù)內(nèi)容所在的前后共64k的內(nèi)容來進行推論,在算力不足或受限的情況下,你會發(fā)現(xiàn)AI經(jīng)常答了后面忘了前面,記憶力似乎還不如你。
這也是為什么現(xiàn)在的AI在長篇小說創(chuàng)作、解讀等方面的表現(xiàn)不如人意,根本原因就是AI記不住這么長的文字內(nèi)容,不僅受限于算法,也受限于算力。而DeepSeek則打算徹底改變這個現(xiàn)狀,打造一套“基于塊(blockwise)進行選擇”,并采用了壓縮、篩選、滑動窗口三種注意力機制并行優(yōu)化計算效率的系統(tǒng)。
DeepSeek的NSA注意力機制就是將長文本切割成512字的數(shù)據(jù)塊,然后再對數(shù)據(jù)塊進行簡略標記,接著再通過編寫動態(tài)篩選機制,讓AI自主決定需要檢索哪些數(shù)據(jù)塊,并通過持續(xù)的訓練來進一步優(yōu)化篩選機制。
在篩選出“有用”的數(shù)據(jù)塊后,AI再對數(shù)據(jù)塊進行全面檢索,也就是進入傳統(tǒng)AI的遍歷模式,以此來提升推理準確率,同時還會啟動上下文檢索機制,快速查找是否還存在其他相關信息,避免AI根據(jù)篩選的內(nèi)容“斷章取義”,給出錯誤的回答。
DeepSeek的這個技術以一種巧妙的方式,輕松實現(xiàn)了過去難以解決的長文本推理和創(chuàng)作問題,讓AI可以直接閱讀數(shù)十萬字的巨作,并且記住其中絕大多數(shù)的細節(jié)。換言之,即使你突然丟給AI一本自己寫的超長小說,他也可以在短時間內(nèi)閱讀并記住,然后與你討論整部小說的設定和細節(jié),彼時或許才是多數(shù)小說作家的“革命之時”。
NSA的提出意味著AI模型在處理超長文本、復雜推理任務時邁向了新的階段,為未來的大模型發(fā)展提供了重要的技術方向,也讓人好奇DeepSeek到底打算把開源做到怎樣的地步?
DeepSeek開源:授人以漁,改變世界
DeepSeek采取開源架構(gòu),在前不久的“開源周”上,它大方地開放了多個技術/工具/架構(gòu),每一個都將對AI大模型產(chǎn)業(yè)產(chǎn)生深遠影響。
1、FlashMLA:給AI開個“外掛”。
圖源:雷科技
FlashMLA,官方的解釋是一款面向Hopper GPU的高效MLA解碼內(nèi)核,并針對可變長度序列的服務場景進行了優(yōu)化。
用更通俗的說法來解釋,就是一個針對H系列計算卡的超頻“外掛”,為什么叫外掛而非工具?因為FlashMLA的效果實在是太炸裂了。根據(jù)DeepSeek給出的參數(shù),經(jīng)過FlashMLA優(yōu)化的H800計算卡,在計算受限的情況下仍然能擁有高達580TFLOPS的算力,內(nèi)存帶寬達到3000GB/s。
這是什么概念?這么說吧,H800是由***閹割而來的性能殘缺版,但是在優(yōu)化后算力已經(jīng)超越了***的默認算力(495TFLOPS),并且內(nèi)存帶寬接近顯存的理論上限值,對比默認狀態(tài)下帶寬提升約50%的性能,接近***經(jīng)過專屬優(yōu)化后的巔峰性能。
換句話說,DeepSeek硬生生將H800優(yōu)化成了超頻版的***,突破了算力的限制。不僅如此,針對長序列推理時出現(xiàn)的顯存碎片問題,F(xiàn)lashMLA通過將分頁KV緩存切割為64-block粒度的技術,將顯存利用率大幅度提高,并顯著降低實際推理過程中無效算力的占比,并讓長序列推理的端到端時延降低40%,直接提升了實時對話和長文本生成等實用場景下的體驗。
FlashMLA開源后,一些開發(fā)者直接將DeepSeek稱為“源神”(開源之神),因為這相當于把DeepSeek-R1最核心的效率工具之一免費貢獻給整個AI行業(yè)。不管是直接部署使用還是在此基礎上進行更多硬件的適配和優(yōu)化,都可以顯著提升模型的算力效率并降低推理成本,用“榨干GPU的每一絲潛力”來形容都不為過。
2、DeepEP:MoE模型的通信革命。
圖源:雷科技
從官方描述來看,DeepEP是一款針對MoE模型訓練和推理所設計的EP(專家并行)通信庫,旨在解決這類模型在常規(guī)通信機制下的高延遲、低數(shù)據(jù)傳輸速率等問題。
我們前面說到過MoE是由一個個“專家”組成的數(shù)據(jù)矩陣,而且這些專家還位于不同的GPU內(nèi)核,為了可以攜手解決問題,自然需要進行交流和通訊,分享自己掌握的數(shù)據(jù)。如果說傳統(tǒng)的通信機制類似于發(fā)電報,那么DeepEP就等于裝上了語音電話,不僅讓兩個專家可以即時交流,還能邊交流邊思考。
官方發(fā)布的基準測試里,經(jīng)過優(yōu)化后的帶寬通信利用率高達92%,是英偉達官方解決方案的3倍,而通信時延也從毫秒級降到了微秒級,同時支持FP8低精度運算?梢哉f,這就是DeepSeek為了強化MoE模型的訓練和推理,而專門定制的一套方案。
但是這玩意的離譜之處就在于,DeepEP實際上可以適配H系列的各種GPU內(nèi)核,并且提供了一鍵部署方案,只是還需要大家在此基礎上做進一步適配優(yōu)化來達到最佳效果。這項技術的開源,可以說直接給MoE模型的訓練提供了一個很好的優(yōu)化思路,并且已經(jīng)在實際使用中得到了充分驗證。
3、DeepGEMM:壓箱底的“寶貝”。
圖源:雷科技
DeepGEMM是一個專為簡潔高效的 FP8 通用矩陣乘法(GEMM)設計的庫,具有細粒度縮放功能,支持普通和混合專家(MoE)分組的 GEMM。以上是官方解釋,一般讀者可能看不懂,不過沒關系,因為大多數(shù)人都是一樣的,咳咳。
簡單的講,這就是一個教你如何在FP8精度下訓練AI大模型,同時還保證AI大模型的訓練不會出問題的玩意。什么是“精度”?直觀解釋就是數(shù)據(jù)的準確性,舉個例子,“小明的身高是1米7”這就是FP8,“小明的身高是1米72”這就是FP16,精度越高所含的數(shù)據(jù)就越精準,在AI大模型訓練中就可以得出更準確的結(jié)果。
但是高精度也會帶來問題,那就是數(shù)據(jù)包本身會占用更大的算力資源,F(xiàn)P16的內(nèi)存占用幾乎是FP8的兩倍,而且還會因此影響到傳輸速度等各方面的效率。所以實際訓練中FP16的效率是遠不如FP8的,只不過FP8一直也存在嚴重各種問題,以至于在公開范圍內(nèi),還沒有哪個AI大模型是以FP8精度完成訓練的。
而DeepSeek此前公布訓練成本時,其實就已經(jīng)指出高效的背后與FP8精度訓練脫不開關系,其中的關鍵就是DeepGEMM。該代碼庫用一種雙重驗證+智能糾錯的方式,讓FP8在實際訓練中也能夠擁有媲美高精度訓練的準確率,并且解決了溢出等各種問題。
當然DeepGEMM的作用不止于此,不過這是最核心的應用之一(更詳細的解讀大家可以去看看知乎大佬們的解答)。你可以認為DeepSeek這波就是把真正的壓箱底玩意拿出來分享了,大家可以根據(jù)DeepGEMM的思路,將AI大模型的訓練成本大幅度降低,并且提高整個AI大模型的運行效率。
DeepGEMM的整個執(zhí)行代碼只有約300行,堪稱極致的精簡和效率,以至于有外國網(wǎng)民評價:這是一份可以直接入選教科書的代碼,讓我重新領略到了代碼的美。
DeepSeek啟示錄:與其重復造輪子,不如推廣「好用的輪子」
不得不說,DeepSeek真的是將開源精神貫徹到極致。從DeepSeek-R1及相關算法的完全開源,到開源周的壓箱底技術大放送,幾乎都采用MIT或類MIT的開源協(xié)議,所有人都可以自由地使用、復制、修改、合并、發(fā)布、分發(fā)、再許可及銷售軟件及軟件的副本,不受任何制約,而且不強制要求使用開源庫的項目進行開源。
從商業(yè)公司的角度來看DeepSeek的做法簡直匪夷所思,因為DeepSeek本可以借助這些技術優(yōu)勢來獲取更大的利潤,但是卻選擇了完全開源,以此換取整個AI行業(yè)的躍升。這個形容并不夸張,畢竟從DeepSeek開源的一系列技術來看,AI模型的推理成本有望在今年降低50%甚至更多,而且在實時交互等方面都將有顯著的體驗提升。
而且,DeepSeek的開源做法也使得更多的AI企業(yè)開始考慮加入開源陣營,從根本上促進了整個AI行業(yè)的交流與學習,讓AI企業(yè)從“重復造輪子”的閉源困境中解脫,從這個角度來看,稱DeepSeek的開源為AI發(fā)展史上的重要節(jié)點也毫不為過。
雖然DeepSeek的大多創(chuàng)新都是在已有的概念上,進行極致「工業(yè)化」的成果。但是就像英國鐵匠托馬斯制造了第一臺真正實用的蒸汽機,但是卻只能用來抽礦井積水,而詹姆斯·瓦特則將其變得更具效率且更通用,最終為工業(yè)革命徹底奠定了基礎。
DeepSeek的開源就像把自己的「通用技術」拿了出來,讓大家都能用上了「通用蒸汽機」,在DeepSeek的影響下,AI的普及將比預料的更快。對于普通人來說,DeepSeek的最大意義在于讓我們不用再忍受低質(zhì)量的AI模型困擾。而對于AI行業(yè)來說,他的意義在于從根本上改變了整個行業(yè)的動向,讓開源變得更受重視,讓強化學習機制的潛力得到進一步認可。
最后,文章開頭的問題答案其實很簡單,DeepSeek的創(chuàng)新總結(jié)起來無非就三點:更高效、更自主(指AI訓練)和更開放。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
根據(jù)2月底內(nèi)部溝通會上的消息,在美團發(fā)展的第二個十年,“科技”成了公司創(chuàng)始人兼CEO王興會更多關注的方向之一。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。