Kimi發(fā)布視覺思考模型k1：試題拍照給出答題思考全過程

2024年12月16日 17:11:59 汪淼來源：IT之家

　　月之暗面 Kimi 今日發(fā)布視覺思考模型 k1。該模型基于強(qiáng)化學(xué)習(xí)技術(shù)打造，原生支持端到端圖像理解和思維鏈技術(shù)，并將能力擴(kuò)展到數(shù)學(xué)之外的更多基礎(chǔ)科學(xué)領(lǐng)域。

　　月之暗面官方表示，在數(shù)學(xué)、物理、化學(xué)等基礎(chǔ)科學(xué)學(xué)科的基準(zhǔn)能力測試中，初代 k1 模型的表現(xiàn)超過了 OpenAI o1、GPT-4o 以及 Claude 3.5 Sonnet。

　　從月之暗面官方獲悉，Kimi 新模型發(fā)布即上線。k1 視覺思考模型已陸續(xù)上線最新版「Kimi 智能助手」的 Android和 iPhone手機(jī) App 以及網(wǎng)頁版 kimi.com。在最新版手機(jī) App 或網(wǎng)頁版 Kimi+ 頁面找到「Kimi 視覺思考版」，即可拍照或傳圖體驗(yàn)。

　　「Kimi 視覺思考版」會完整呈現(xiàn)推理思維鏈 CoT，讓用戶不只看到答題結(jié)果，也能完整看到模型思索答案的全過程。

　　從模型訓(xùn)練的角度看，k1 視覺思考模型的訓(xùn)練分為兩個階段，先通過預(yù)訓(xùn)練得到基礎(chǔ)模型，再在基礎(chǔ)模型上進(jìn)行強(qiáng)化學(xué)習(xí)后訓(xùn)練。k1 的基礎(chǔ)模型重點(diǎn)優(yōu)化了字符識別能力，在 OCRBench 上得到 903 分的(state-of-the-art)結(jié)果，在 MathVista-testmini、MMMU-val 和 DocVQA 基準(zhǔn)測試集上分?jǐn)?shù)分別為 69.1、66.7 和 96.9。

　　月之暗面表示，k1 的強(qiáng)化學(xué)習(xí)后訓(xùn)練在數(shù)據(jù)質(zhì)量和學(xué)習(xí)效率方面做了進(jìn)一步優(yōu)化，在強(qiáng)化學(xué)習(xí)的規(guī)�；�(scaling)上取得了新的突破。

　　此外，科學(xué)的模型能力基準(zhǔn)測試方案是大模型行業(yè)面臨的重要挑戰(zhàn)之一。由于市面上缺乏針對基礎(chǔ)科學(xué)學(xué)科的圖形測試集，Kimi 模型研發(fā)團(tuán)隊(duì)自主構(gòu)建了一個標(biāo)準(zhǔn)化的測試集 Science Vista，涵蓋不同難度的數(shù)理化圖片題目，且從分布上與實(shí)際用戶需求較為匹配。該測試集將開放給全行業(yè)，用戶可申請?jiān)谠S可范圍內(nèi)使用。

　　在內(nèi)部測試中，月之暗面也發(fā)現(xiàn)了一些 k1 視覺思考模型存在的局限性，例如在分布外(out-of-distribution)的泛化、在更復(fù)雜問題上的成功率、在更多噪聲場景的準(zhǔn)確率、多輪問答效果等方面，有很大提升空間。在一些場景和泛化能力上，k1 模型與 OpenAI 的 o1 系列模型相比仍有差距。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信