OPPO A5 Pro首創(chuàng)獵手天線架構:信號能穿十堵墻一加 Ace 5 Pro首發(fā)電競Wi-Fi芯片G1 帶來「穿墻王」和「搶網(wǎng)王」般的網(wǎng)絡體驗電視市場又出黑馬!TCL同檔Mini LED音畫王P12K,萬象分區(qū)打造超強控光!零下25℃如何取暖?海爾水暖通溫暖驛站亮相冰雪大世界馬太效應,強者恒強?——《中國企業(yè)科創(chuàng)力研究報告(2024)》美團年度報告竟然用上了AI和短?這下是真出圈了消息稱上汽大眾正開發(fā)三款新車,技術分別來自小鵬、智己和榮威鴻蒙智行泊車代駕VPD正式開啟全量推送!升級自動泊車/接駕等多項功能華為官方翻新手機最高降價4000元曝蘋果研發(fā)帶Face ID的智能家居門鈴:內(nèi)置自研W-Fi芯片李斌回應螢火蟲外觀設計:看過實車的人都喜歡這個設計林杰:未來 A 級、A0 級、A00 級車型都將是領克純電的“主場”豐巢存包柜亮相南寧地鐵站,助力城市韌性建設與智慧出行萬象分區(qū)、絢彩XDR、量子點Pro 2025齊出手,TCL引領觀影體驗新變革!QQ音樂年度聽歌報告發(fā)布:誰是你最喜歡的歌手?OpenAI正式發(fā)布o3 - 通往AGI的路上,已經(jīng)沒有了任何阻礙「送禮物」難撬動社交電商,微信小店缺的是供給微軟Phi-4封神,14B小模型數(shù)學擊敗GPT-4o,合成數(shù)據(jù)占比40%,36頁技術報告出爐2024年結束,哪里是原創(chuàng)動畫的應許之地?深扒一個正被游戲行業(yè)「搶占」的流量帝國
  • 首頁 > 云計算頻道 > 大模型

    一手體驗Kimi版“o1”模型,這就是最通人性的數(shù)學AI

    2024年11月26日 09:13:17   來源:數(shù)字生命卡茲克公眾號

      “數(shù)學,是人類知識活動留下來最具威力的知識工具,是一些現(xiàn)象的根源。”

      ——愛因斯坦

      上上周末是kimi上線一周年,于是月之暗面開了個線下媒體會。在現(xiàn)場,kimi發(fā)布了他們?nèi)鎸薿1的數(shù)學推理模型,k0-math。

      從kimi官方的測試結果來看,除了高難競賽題,k0-math在數(shù)學的表現(xiàn)上,超過了o1-mini和o1-preview。

      我那天其實也想寫來著,但是沒寫的原因是,咱們還是個體驗派,如果不是那種非常炸裂的東西,所有的東西還是盡量自己深度體驗完,再做成內(nèi)容分享給大家。

      當天我就問Kimi的人,啥時候能用,他們說,再等兩天,快了,上線了一定第一個先給我內(nèi)測。

      我就等啊等。

      終于,在上個周末的早上收到他們的消息。

      打開Kimi,發(fā)現(xiàn)左邊的側邊欄上,出現(xiàn)了個戴眼鏡的小登西,直接開沖!

      這就是,K0-math了。

      迫不及開始測試,和kimi數(shù)學版聊了兩天。

      我看到了,kimi想繼續(xù)領先的野心。

      先說結論:k0-math在數(shù)學能力直接拉滿,在推理、邏輯能力上非常強。不過因為極度強化數(shù)學能力,所以導致有種偏科的好玩,用上去就感覺像是一個刻板印象上的“直男理科大拿”在用數(shù)學給你解決生活中一切問題。

      另一個最難能可貴的是,Kimi把完整思維鏈全部放了出來,思考邏輯和那個自言自語上非常的像人,甚至會有些,“通人性”的感覺。

      目前的測試里,kimi數(shù)學版在每輪對話中只能在第一次發(fā)起對話時被調取,也就是說目前還不能追問kimi數(shù)學版,這個還是非常期待后面更新的。

      先上來,隨手用兩道普通的高數(shù)題測測,比如2024年的考研數(shù)學題。

      回答起來沒啥難度,這個層次的題目應該是kimi的舒適區(qū),我試了幾次正確率挺高。

      再然后,o1剛出來時在群里看到的群友測試的這道題。

      答案18,也是對的。

      但是后面我跟@涂津豪測更高難度的競賽題,也就是AIME的時候,發(fā)現(xiàn)離o1的正確率還是差了一點。

      正確率大概也就50%。

      涂津豪也測試了一些o1的其他考題,kimi的正確率也會差一點。

      在超高難度的競賽題上,相對的能力不足是客觀事實,畢竟Kimi官方自己測的AIME的評分上,也確實比o1低個幾分。

      不過Kimi已經(jīng)是在我們測過的AI大模型里,數(shù)學題答得僅次于o1的了。

      但這回的kimi數(shù)學版,最讓我覺得有趣的,不是本身“做數(shù)學題的能力”,而是kimi強大的數(shù)學邏輯和思維,以及那很“通人性”的感覺。

      畢竟,把答案背下來誰都能回答數(shù)學題,但比起對錯,“思考”的能力才是能夠讓AI突破訓練數(shù)據(jù)不足的桎梏,也只有能思考的AI才稱得上真的擁有“智能”。

      我在測試過程中,用一個最簡單的問題,獲得了最抽象的一個結果。答案正確,但過程完全超出我的預料。

      不是互聯(lián)網(wǎng)搞抽象的那個抽象,是真的思維層面,kimi好像有一點“抽象”思維的能力了。

      我問了它一句:1+1=?

      它一上來,居然懷疑這個問題是不是一個陷阱。這個真的笑死,我感覺一個問題給kimi整PTSD了。

      不過它也很快給了回答:1加1無疑是2。

      但它緊接著來了個“且慢”,事情也變得有趣了起來。

      kimi打出這兩句話的時候,我完全沒預料到,知識會莫名其妙入侵我的大腦。

      如它自己所說,kimi從“多”個角度,思考了這個問題。

      它先是思考了各種進制。

      我以為二進制都被考慮到了,夠嚴謹了。沒想到kimi只是剛開始。

      它從維度入手,思考用空間向量計算1+1。

      接著它又思考到了哲學、形式數(shù)學和集合論。

      它一邊思考一邊驗證。先是排除了哲學的可能性,然后又用皮亞諾公理和集合驗證之前得到的“1+1=2”是否正確。

      當它說“一個懷疑的念頭閃過我的腦海”,我唰地一下有點恍惚。kimi在我心里突然有了特別具體的形象。

      它好像不是在電腦的另一端,而是站在我面前,戴著眼鏡拿著粉筆和草稿紙,在巨大的黑板上不斷進行數(shù)字的推演和驗算。一邊想一邊喃喃自語:

      “等等,讓我們從皮亞諾公理重新推導一遍...”

      “且慢!在不同維度下,1+1的結果會不會有變化?”

      每次得出一些進展,就又因為嚴謹,迅速開啟反思。

      像是,一個執(zhí)拗嚴謹?shù),熱衷批判和反思的,正在探索奧秘的,狂熱數(shù)學家。

      在當時,腦子里,莫名浮現(xiàn)出了,韋神的形象。

      再接著,數(shù)學家kimi似乎被自己的推演和驗證說服了。

      它又用了數(shù)軸可視化、乘法、遞歸加法、減法等等方式驗證1+1=2。甚至回憶起了過往的研究,想尋找是否有證偽的案例。

      對于我這個數(shù)學不咋地的人來說,kimi能從這么多維度思考,已經(jīng)夠驚訝了。很多方法我甚至都沒聽過。更難得的是它會在計算是思考和自我懷疑,每一輪kimi想到新方式,驗證,階段性確認答案,都讓我莫名起雞皮疙瘩。

      自己懷疑自己,自己反思自己,自己再驅動自己。

      數(shù)學界的條條定理,不就是在無數(shù)位數(shù)學家們這樣不斷的思考—反思—再思考的循環(huán)中,一點一點接近的嗎。

      kimi經(jīng)過數(shù)次驗證后給出結果時,我甚至真的透過文字感受到了它的開心。

      “詳盡的探索”、“成就感”、“我自信地得出結論”。。。

      莫名被這種勁兒戳到了,又燃又可愛。

      腦子里浮現(xiàn)過好多好多電影的畫面,那些孤獨的數(shù)學家們,最終推理出來的那些公式,然后,在那些偉大的定理前,振臂高呼。

      kimi真的,很通人性。

      圍觀kimi自己思考,自己博弈,自己判斷,最后獲得結果。一整套下來,我感覺自己在看三體人做數(shù)學題。

      繞是繞了點,但kimi邊思考邊回答的過程,真的讓我感覺最后這個“1+1=2”的結果,不是從過往的數(shù)據(jù)庫里直接抓到答案丟出來。

      是它自己,經(jīng)過一步步推理和驗證,計算解答出來的。

      就像人答對數(shù)學題的能力可以通過訓練獲得,但這種“訓練”的前提,是人本身有足夠的“思考”能力。

      “數(shù)學是人類知識活動留下來最具威力的知識工具,是一些現(xiàn)象的根源。”

      這種思考,是人類能研究自然科學的基礎。

      高數(shù)、競賽、數(shù)學定理之類的話題說多了容易頭暈,我們來點接地氣的。你大概就更能get到我說的這種有趣的“數(shù)學思維”,是什么感覺了。

      k0-math的回答,真的很獨特,很有趣。

      甚至有種“萬物皆能數(shù)學”的感覺。

      比如,如何科學地計算“拼夕夕砍一刀成功率?”。它哐哐給我用公式算了一大串。

      kimi在第一次運算發(fā)現(xiàn)“無法通過有限次的砍刀達到目標”后,又“自我懷疑”了。于是它重新?lián)Q了個方案和思路,又算了一次。

      “這在現(xiàn)實中是不可能的”。笑死,kimi你也感受到我砍一刀的無助了吧。

      試了三四個方案后,kimi應該也是服了,所以最后結論。。。

      理論上無限多。所以就算全球的人都來砍一刀,也拿不到這一百是吧。

      果然,砍一刀,成功是不可能成功的。。。

      更好玩的是,除了帶數(shù)字的運算,k0-math甚至連幫我判斷明天要不要出門玩,都是用數(shù)學公式算出的答案。

      真的,數(shù)學公式一出來我有點被說服了。有理有據(jù),比我用微信扔骰子看點數(shù)靠譜。

      又比如,最近全平臺網(wǎng)友關注的《再見愛人4》。

      我給k0-math喂了麥琳和李行亮在綜藝里的幾次爭議事件,讓它當回“清湯大老爺”,推算這倆人的離婚概率。

      一頓操作猛如虎,給麥琳的過錯比例是60%,就讓我說我覺得Kimi還是輕了,但是整個數(shù)學思維和方程計算,真的賊有意思。

      再比如,讓kimi用二元二次方程表達古詩的意境。

      以及道家“道生一,一生二,二生三,三生萬物”的數(shù)學表達。

      突然就理解以前中學老師說,數(shù)學蘊含美學和哲學,是什么感覺了。

      用一個不太恰當?shù)切蜗蟮谋扔?現(xiàn)在的k0-math,像一個充滿探索欲的數(shù)學家。

      在整個思維鏈的絮絮叨叨里,也能明顯感覺到Kimi的個性,而這種個性,我只在Claude身上,看到過。

      不斷的獨白,不斷的思考,不斷的反思。

      很多年前,我們剛開始牙牙學語的時候,我們學會了1+1=2,但,我們可能就是單純地記住答案。

      但隨著學習深入,在理解知識后,某天我們就能自己思考:為什么?在什么條件下成立?還有沒有其他可能?還有沒有類似的情況?

      在不斷的追問下,人類才發(fā)現(xiàn)了科學的奧秘,并不斷探索著真理的邊界。

      過去的大模型更像是一個答案庫,你問什么它搜什么。但現(xiàn)在,無論是GPT還是Kimi,都在嘗試讓AI學會真正的思考。

      數(shù)學對宇宙的解釋,在于它“能表達已知,更能推理未知”。

      而數(shù)學,也正恰恰就是,這把打開思維之門的鑰匙。

      愛因斯坦如是說:

      純數(shù)學在某種意義上,是邏輯思想的詩篇。

      我期待著,看到AI大模型。

      與我們?nèi)祟,一起書寫這首詩的一天。

      文章內(nèi)容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。