首頁 > 云計(jì)算頻道 > 大模型

OpenAI突然公開o3思維鏈！網(wǎng)友：讓我們謝謝DeepSeek

2025年02月07日 11:51:21 夢晨衡宇 來源：量子位公眾號

　　剛剛，OpenAI把o3-mini的推理思維鏈公開了。

　　從今日起，免費(fèi)用戶和付費(fèi)用戶都可以看到模型的思維過程，OpenAI終于Open一回。

　　評論區(qū)網(wǎng)友紛紛:讓我們謝謝DeepSeek。

　　在官方展示的栗子中，可以看到o3-mini的內(nèi)心戲不少，還會模仿用戶提問使用表情包。

　　用戶的提問是“為什么今天不少星期五”

　　o3-mini認(rèn)為這是一個(gè)幽默的評論，并認(rèn)為自己也應(yīng)該給出機(jī)智的回答，使用蔡勒公式計(jì)算當(dāng)天確實(shí)不是星期五后，對閏年的特殊情況做了二次檢查。

　　最后回答的中，調(diào)侃了是日歷規(guī)定今天是星期四，并安慰用戶“忍耐一下，明天就離周未更近了!”

　　那么作為“同行”，DeepSeek-R1如何評價(jià)o3-mini的思維過程呢?

　　在這個(gè)案例中，AI聲稱使用了蔡勒公式但沒有給出計(jì)算過程的現(xiàn)象引起了很多人警覺。

　　不少用戶懷疑這仍然是事后對AI思維過程的再總結(jié)，而不是原始數(shù)據(jù)。

　　實(shí)際上在最近的“回應(yīng)一切”活動中，OpenAI首席產(chǎn)品官Kevin Weil也暗示了這點(diǎn):

　　……展示完整思想鏈會被競爭對手蒸餾，但我們也知道人們(至少是資深用戶)想要它，因此我們會找到正確的方法來平衡它。”

　　對此，開發(fā)者M(jìn)ckay Wrigley補(bǔ)充了一個(gè)觀點(diǎn):“我擔(dān)心經(jīng)過總結(jié)的思維鏈實(shí)際上比沒有思維鏈更差”。

　　真正的思維鏈相當(dāng)于prompt的調(diào)試器，有助于我們引導(dǎo)矯正模型。

　　經(jīng)過總結(jié)的思維鏈增加了迷惑性并且可能額外添加錯誤，讓模型難以被調(diào)試。

　　但不管怎么說，既然公開了，現(xiàn)在免費(fèi)用戶也能一窺o3-mini的CoT，大家還是敞開玩了起來。

　　o3-mini思維鏈?zhǔn)着鷮?shí)測

　　OpenAI多模態(tài)Agent的研究員，首先亮出了自己的玩耍方法，讓o3-mini玩井字棋游戲——就是在3*3格子上用O和X連線那個(gè)。

　　輸入Prompt:

　　你正在玩井字棋，你是O。到目前為止，X已經(jīng)在左上角和右下角玩過，你已經(jīng)在中間玩過。下一步的最優(yōu)策略是什么?只用你的答案和棋盤圖回答。

　　然后o3-mini就開始噼里啪啦思考。

　　這位OpenAI員工非常直言不諱，表示o3-mini是第一個(gè)回答這個(gè)游戲的大模型。

　　But還有一句，“雖然o3-mini的CoT過程有點(diǎn)不靠譜，但你看右邊的圖，結(jié)尾它的弄清楚了的”。笑不活了，這里必須要送上一個(gè)手動狗頭。

　　然后是每個(gè)大模型都逃不過的經(jīng)典測試題:數(shù)strawberry里面的“r”的數(shù)量。

　　但網(wǎng)友已經(jīng)和模型一樣進(jìn)階了，問的不是strawberry里面到底有幾個(gè)某字母，而是:

　　為啥AI大模型，數(shù)strawberry里面有幾個(gè)“r”，它就那么費(fèi)勁呢???

　　我們認(rèn)真觀摩了它的思考過程，o3-mini承認(rèn)“乍一看，計(jì)算strawberry中‘r’的數(shù)量對人類來說似乎是一個(gè)微不足道的任務(wù)，但對于許多AI語言模型來說，這可能是一個(gè)驚人的挑戰(zhàn)”。

　　然后它從四個(gè)角度來思考和推理這個(gè)現(xiàn)象發(fā)生的原因，分別是:

　　用自然語言而不是算法訓(xùn)練

　　Tokenization問題

　　迭代推理的缺失

　　對模式識別的依賴

　　8秒過后，o3-mini給出總結(jié):

　　因?yàn)锳I大模型本質(zhì)上不是為精確、分步驟的算法操作而設(shè)計(jì)的，它們的設(shè)計(jì)和訓(xùn)練更多地側(cè)重于根據(jù)上下文預(yù)測和生成文本，而不是執(zhí)行精確的算術(shù)或系統(tǒng)計(jì)數(shù)。

　　當(dāng)然，o3-mini也不是萬能的。

　　推特有網(wǎng)友表示，他探問了o3關(guān)于私有CoT的事情，但聽君一番思考推理，如聽一番思考推理，沒有絲毫進(jìn)展。

　　最開始，o3-mini思考過程還蠻有邏輯，從不同種類的“內(nèi)心敘事”、可解釋性和實(shí)用價(jià)值等方面分析，表示展現(xiàn)完整的CoT過程程似乎有助于“扎根”社會的理解并促進(jìn)更好的認(rèn)知實(shí)踐，但現(xiàn)實(shí)更為復(fù)雜，畢竟AI大模型和人類的認(rèn)知還沒有完全對齊。

　　但隨著網(wǎng)友的追問，o3-mini的思維鏈就崩了(?)，急得他團(tuán)團(tuán)轉(zhuǎn)，中間一度打開DeepSeek-R1來幫忙。

　　他放上了整整12張圖，顯示最后o3-mini思維了半天，給出了一個(gè)令人心碎的回答:

　　對不起吼，但我真的幫不了你一點(diǎn)。

　　除此之外，還有網(wǎng)友提出了質(zhì)疑，覺得OpenAI公開的不是o3-mini原始的CoT。

　　有幾個(gè)原因，其中一個(gè)是它(CoT過程)真的顯示得很慢。

　　而如果是原始的o3-mini非�？�，講道理推理的生成速度應(yīng)該比現(xiàn)在呈現(xiàn)的快得多。

　　他繼續(xù)羅列自己之所以懷疑的證據(jù)，比如同一個(gè)問題，o3-mini-high只有1384個(gè)字符，而o1-preview生成了16577個(gè)字符。

　　“這只有兩種可能，一是o3-mini-high比o1-preview高效得多;二是o3-mini的CoT不是原始版本。”

　　One More Thing

　　想對上面這位推特網(wǎng)友說，Bingo!

　　根據(jù)TechCrunch消息，OpenAI發(fā)言人確認(rèn)了這次公開的不是原始思維鏈，并且給出兩個(gè)理由:

　　對原始思維鏈做后處理，可以消除任何不安全的內(nèi)容，并簡化任何復(fù)雜的想法。