來了來了,月之暗面首個「滿血版o1」來了!這是除OpenAI之外,首次有多模態(tài)模型在數(shù)學(xué)和代碼能力上達(dá)到了滿血版o1的水平。
還記得嗎,AI大神Karpathy曾說過,「英文是最熱門的編程語言」。
兩年后的現(xiàn)在,這個規(guī)則徹底要被顛覆了。
從今天起,中文很有可能成為全球最熱門的編程語言!
就在剛剛,Kimi發(fā)布了k1.5 多模態(tài)思考模型。這是繼去年 11 月他們發(fā)布 k0-math 數(shù)學(xué)模型,12月發(fā)布 k1 視覺思考模型之后,連續(xù)第三個月帶來 k 系列強(qiáng)化學(xué)習(xí)模型的重磅升級。
Kimi k1.5的性能,如今已經(jīng)全面追上現(xiàn)役全球最強(qiáng)模型——OpenAI o1滿血版。
具體來說,在Long CoT模式下,Kimi k1.5的數(shù)學(xué)、代碼、多模態(tài)推理能力,達(dá)到了長思考SOTA模型OpenAI o1滿血版的水平。這也是全球范圍內(nèi),首次有OpenAI之外的公司達(dá)到。
而在Short CoT模式下,Kimi k1.5大幅領(lǐng)先GPT-4o 和Claude 3.5的水平。
短COT模式下,數(shù)學(xué)成績顯著高于GPT-4o和Claude Sonnet 3.5
同時,月之暗面也大方公開了這個滿血版o1水平的強(qiáng)化學(xué)習(xí)模型的訓(xùn)練技術(shù)細(xì)節(jié)。
簡單出奇跡,首創(chuàng)long2short思維鏈
扒開Kimi k1.5 25頁技術(shù)報告,可以清晰看到這款模型的技術(shù)創(chuàng)新之處。
當(dāng)前,基于下一個token預(yù)測的語言模型,在計(jì)算規(guī)模上的擴(kuò)展,已經(jīng)得到了有效證明。
但模型Scaling仍受限于可用的數(shù)據(jù)量,為此,Kimi團(tuán)隊(duì)創(chuàng)新性地?cái)U(kuò)展了強(qiáng)化學(xué)習(xí)(RL)的應(yīng)用,開辟出一條全新的路徑。
它能夠讓LLM通過獎勵機(jī)制進(jìn)行探索性學(xué)習(xí),從而自主擴(kuò)展訓(xùn)練數(shù)據(jù),從而實(shí)現(xiàn)計(jì)算規(guī)模有效擴(kuò)展。
論文地址:https://github.com/MoonshotAI/kimi-k1.5
以下,是k1.5設(shè)計(jì)和訓(xùn)練的四大關(guān)鍵要素:
1. 長上下文擴(kuò)展
2. 改進(jìn)的策略優(yōu)化
3. 簡化框架
4. 多模態(tài)
接下來,我們一起深挖一下這些技術(shù)細(xì)節(jié)吧。
短CoT模型的上下文壓縮
與業(yè)界普遍采用復(fù)雜技術(shù)做法不同,Kimi團(tuán)隊(duì)選擇了一條更為優(yōu)雅的技術(shù)路線——回歸第一性原理。
他們證明了,無需依賴蒙特卡洛樹搜索、價值函數(shù)、過程獎勵模型,也能讓模型取得卓越的性能。
如上所見,我們已經(jīng)看到了Kimi k1.5在多個權(quán)威基準(zhǔn)測試中,取得了顯著的突破。
那么,long2short是如何被實(shí)現(xiàn)的呢?
Kimi團(tuán)隊(duì)認(rèn)為,可以將長CoT模型的推理先驗(yàn)轉(zhuǎn)移到短CoT模型中,從而即使在有限的測試Token預(yù)算下也能提高性能。
模型合并
將長CoT模型和短CoT模型進(jìn)行合并,除了可以在泛化性上起到積極的作用,還可以提高Token的使用效率。
這種方法通過簡單地平均兩個模型的權(quán)重,將一個長CoT模型與一個短模型結(jié)合,得到一個新的模型,而無需進(jìn)行訓(xùn)練。
最短篩選采樣
由于模型對于同一問題生成的響應(yīng)長度變化很大,因此團(tuán)隊(duì)設(shè)計(jì)了一種最短篩選采樣方法。
也就是,先對同一問題采樣n次,然后選擇最短的正確響應(yīng)進(jìn)行監(jiān)督微調(diào)。
DPO
利用長CoT模型生成多個響應(yīng)樣本,然后選擇最短的正確解作為正樣本,并將較長的響應(yīng)視為負(fù)樣本,包括正確但長度是選定正樣本1.5倍的較長響應(yīng)。
這些正負(fù)樣本對數(shù)據(jù)集形成了用于DPO訓(xùn)練的成對偏好數(shù)據(jù)。
long2short強(qiáng)化學(xué)習(xí)
在標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)訓(xùn)練階段之后,團(tuán)隊(duì)選擇了一個在性能與Token使用效率之間提供最佳平衡的模型作為基礎(chǔ)模型,并進(jìn)行單獨(dú)的long2short強(qiáng)化學(xué)習(xí)訓(xùn)練階段。
在第二階段中,他們應(yīng)用了「長度懲罰」,并顯著減少了最大展開長度,以進(jìn)一步懲罰可能正確但超出期望長度的響應(yīng)。
強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施
Kimi k1.5系統(tǒng)設(shè)計(jì)了一種迭代同步的RL框架,旨在通過持續(xù)的學(xué)習(xí)與適應(yīng)來增強(qiáng)模型的推理能力。
該系統(tǒng)的一項(xiàng)關(guān)鍵創(chuàng)新是引入了部分回滾(Partial Rollout)技術(shù),用于減少計(jì)算開銷并優(yōu)化復(fù)雜推理軌跡的處理。
如下圖3a所示,RL訓(xùn)練系統(tǒng)通過迭代同步的方法運(yùn)行,每次迭代包含回滾階段和訓(xùn)練階段。
在回滾階段,由中央主控協(xié)調(diào)的回滾工作節(jié)點(diǎn)通過與模型交互生成回滾軌跡,這些軌跡是模型對各種輸入生成的響應(yīng)序列。在隨后的訓(xùn)練階段,訓(xùn)練工作節(jié)點(diǎn)訪問這些經(jīng)驗(yàn)以更新模型的權(quán)重。
這個循環(huán)過程使模型能夠持續(xù)從其行為中學(xué)習(xí),隨著時間的推移調(diào)整其策略以提升性能。
長CoT強(qiáng)化學(xué)習(xí)的部分回滾技術(shù)
部分回滾(Partial Rollouts)能夠通過同時管理長軌跡和短軌跡的回滾,有效地解決處理長CoT特性時的資源分配和效率挑戰(zhàn),進(jìn)而實(shí)現(xiàn)長上下文強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的規(guī)模擴(kuò)展。
該技術(shù)設(shè)定了一個固定的輸出Token預(yù)算,對每個回滾軌跡的長度進(jìn)行限制。如果某個軌跡在回滾階段超過了Token限制,其未完成部分被保存到重放緩沖區(qū),并在后續(xù)迭代中繼續(xù)處理。
此外,由于回滾工作節(jié)點(diǎn)是異步運(yùn)行的,當(dāng)某些節(jié)點(diǎn)處理長軌跡時,其他節(jié)點(diǎn)可以獨(dú)立地處理新的短回滾任務(wù)。
如圖3b所示,部分回滾系統(tǒng)通過在多次迭代中將長響應(yīng)分解為多個片段來運(yùn)行,顯著降低了計(jì)算開銷——系統(tǒng)無需一次性處理整個響應(yīng),而是逐步處理和存儲片段,從而在保持快速迭代時間的同時生成更長的響應(yīng)。
部分回滾的實(shí)現(xiàn)還提供了重復(fù)檢測功能。系統(tǒng)能夠識別生成內(nèi)容中的重復(fù)序列并提前終止,從而減少不必要的計(jì)算,同時保持輸出質(zhì)量。
訓(xùn)練與推理的混合部署
研究者提出了一種用于訓(xùn)練和推理任務(wù)的混合部署策略,該策略利用Kubernetes的Sidecar容器共享所有可用GPU,將兩種任務(wù)協(xié)同部署在同一個Pod中。這一策略的主要優(yōu)勢包括:
促進(jìn)了資源的高效共享與管理,避免了訓(xùn)練節(jié)點(diǎn)因等待推理節(jié)點(diǎn)而處于空閑狀態(tài)(當(dāng)兩者部署在不同節(jié)點(diǎn)時)
通過使用不同的部署鏡像,訓(xùn)練和推理可以獨(dú)立迭代,從而實(shí)現(xiàn)更好的性能
架構(gòu)并不限于vLLM,還可以方便地集成其他框架
如圖4所示,研究者在Megatron和vLLM的基礎(chǔ)上實(shí)現(xiàn)了這一混合部署框架,從訓(xùn)練到推理階段不到一分鐘的轉(zhuǎn)換時間,反向轉(zhuǎn)換則約為十秒鐘。
實(shí)驗(yàn)結(jié)果
由于k1.5是一個多模態(tài)模型,研究者對不同模態(tài)的各種基準(zhǔn)進(jìn)行了綜合評估;鶞(zhǔn)測試主要包括以下三類:
Text Benchmark:MMLU, IF-Eval, CLUEWSC, C-EVAL
Reasoning Benchmark:HumanEval-Mul, LiveCodeBench, Codeforces, AIME 2024, MATH500
Vision Benchmark:MMMU, MATH-Vision, MathVista
k1.5長CoT模型
Kimi的k1.5長CoT模型通過長CoT監(jiān)督微調(diào)和視覺-文本聯(lián)合強(qiáng)化學(xué)習(xí),在長距離推理上獲得了顯著的增強(qiáng)。
評估顯示,模型在長上下文中的推理、理解和信息綜合能力方面有了顯著提升,標(biāo)志著多模態(tài)AI能力的顯著進(jìn)步。
k1.5短CoT模型
Kimi的k1.5短CoT模型集成了多種技術(shù),包括傳統(tǒng)監(jiān)督微調(diào)方法、強(qiáng)化學(xué)習(xí)以及長到短知識蒸餾。
如表3所示,k1.5短CoT模型在覆蓋多個領(lǐng)域的多項(xiàng)任務(wù)中表現(xiàn)出與領(lǐng)先的開源和專有模型相當(dāng)或更優(yōu)的性能。
長上下文Scaling
研究者使用一個中型模型,來研究結(jié)合LLM的強(qiáng)化學(xué)習(xí)的擴(kuò)展特性。如圖5所示,隨著訓(xùn)練的進(jìn)行,模型響應(yīng)長度和性能準(zhǔn)確率同時增加。
尤其值得注意的是,在更具挑戰(zhàn)性的基準(zhǔn)測試中,響應(yīng)長度的增長更為陡峭,這表明模型在處理復(fù)雜問題時學(xué)會生成更詳盡的解決方案。
圖6表明,模型輸出的上下文長度與其問題解決能力之間存在顯著的相關(guān)性。
最終,k1.5模型的運(yùn)行能支持128k上下文長度,并在困難的推理基準(zhǔn)測試中持續(xù)取得改進(jìn)。
由長到短
研究者重點(diǎn)研究了long2short問題中的Token效率,特別是長CoT模型如何提升短模型性能。
如圖7所示,提出的long2short強(qiáng)化學(xué)習(xí)算法在Token效率方面優(yōu)于其他方法(如DPO和模型合并)。
值得注意的是,k1.5系列的所有模型(用橙色標(biāo)記)在Token效率上都優(yōu)于其他模型(用藍(lán)色標(biāo)記)。
思考模型,進(jìn)入沖刺
可以看到,在多模態(tài)推理技術(shù)路線上,Kimi又進(jìn)了一步。
從2024年11月,他們首次推出的數(shù)學(xué)推理模型K0-math就展現(xiàn)出了在數(shù)學(xué)領(lǐng)域的領(lǐng)先性。
緊接著一個月后,K1視覺思考模型誕生,不僅繼承了K0-math的數(shù)學(xué)底蘊(yùn),更突破性地解鎖了視覺理解能力。
這意味著,K1不僅「會算」,還能「會看」——通過理解圖片中的信息,并通過逐步推理得出答案。
如今,k1.5又繼續(xù)向前推進(jìn)了一步,在多個領(lǐng)域數(shù)理化、代碼、通用中,刷新了SOTA,甚至能夠媲美世界頂尖模型。
下一步,Kimi依舊會發(fā)力多模態(tài)推理,繼續(xù)迭代出能夠在更多模態(tài)、更多領(lǐng)域、具備更強(qiáng)通用能力的Kn系列的模型。
k1.5已經(jīng)帶來了諸多驚喜,還真是有點(diǎn)期待下一代模型的到來。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。