首頁 > 云計算頻道 > 大模型

200美元的ChatGPT Pro正式上線，聰明N倍的新模型草莓要來了

2024年09月11日 09:41:53 來源：數(shù)字生命卡茲克公眾號

　　半夜10點，The Information發(fā)了個新聞，透露了OpenAI的新模型，草莓，要來了。

　　兩個小時后，我的好朋友@solitude(美東時間)，作為一個常年擁有第一手資料和信息的人，跟我說，ChatGPT Pro會員上線了，售價200刀/月，他已經(jīng)第一時間付完款了。

　　我看了眼我自己的號，果然啥也沒有。

　　所以，他甚至剛付完款，還沒開始用，我就把這個尊貴的Pro號要來了。

　　現(xiàn)在，ChatGPT的會員，被分成了3檔，分別是Plus、Team、Pro。

　　這個分法，怎么感覺OpenAI學(xué)的庫克，不會后面還有ChatGPT Pro Max吧。。。

　　但是目前非常可惜(冤大頭)的點是，并沒有新的功能，也沒有新的模型，唯一有區(qū)別的是，GPT4o使用次數(shù)基本等于無限，我在短時間內(nèi)測了幾百條，依舊暢通無阻。

　　而對應(yīng)的，ChatGPT Plus會員，GPT4o的使用額度是80條/3小時。

　　一個使用無限制，自然配不上這貴10倍的價格，從20刀/月提升到200刀/月，OpenAI如果真的這么干，那基本等于奧特曼被馬斯克給奪舍了。

　　結(jié)合The Information的新聞，基本可以確認的是，這個ChatGPT Pro會員，是過一段時間，為全新的模型，草莓（Strawberry）準備的。

　　后面想用草莓的，先開個200刀的Pro會員再說。

　　草莓究竟是啥?目前沒有確切的結(jié)論，但是從我知道的消息梳理來看的話，這玩意，草莓可能是:

　　基于新范式Self-play RL所做的，在數(shù)學(xué)、代碼能力上強到爆炸、且具備自主為用戶執(zhí)行瀏覽器/系統(tǒng)操作級別的新模型。

　　更智能、更慢、更貴。

　　我盡量用最簡單樸素的語言，讓大家都聽得懂，解釋一下，這個新的草莓，具體是個啥，以及，憑啥賣200刀/月。

　　首先，得說一下GPT-5出現(xiàn)的一些問題。

　　GPT-5，就我所知，訓(xùn)練的非常不順利。

　　一個可以觀察到的點是，以數(shù)據(jù)規(guī)模和模型規(guī)模為美的“大力出奇跡”的方式，邊際收益開始遞減，也不再是百試百靈了。

　　大語言模型的Scaling Law描述的是模型性能L、模型參數(shù)量大小N、訓(xùn)練數(shù)據(jù)大小D以及計算量C之間的關(guān)系。

　　隨著計算量、模型參數(shù)和數(shù)據(jù)集大小的增加，模型的性能通常會顯著提高，從而在語言理解和生成等任務(wù)上表現(xiàn)更好。

　　但是現(xiàn)在，計算量、參數(shù)大小、數(shù)據(jù)集大小，都遭遇了瓶頸，特別是閉源模型們，進步速度對比過去，齊刷刷的開始放緩，且開源模型跟閉源模型的能力逐漸開始縮小。

　　也就是說，再靠大力出奇跡，模型的能力已經(jīng)快上不去了。

　　因為本質(zhì)上，所有的大模型訓(xùn)練，幾乎都是人類已有知識的極致利用，我們給出數(shù)據(jù)、給出人類反饋數(shù)據(jù)或者標注數(shù)據(jù)等等，你會發(fā)現(xiàn)，大模型不是通過自我探索去“發(fā)現(xiàn)”語言的規(guī)律，而是直接從我們給出的內(nèi)容中提取有用的信息。

　　這就像是一個學(xué)生，一開始通過不斷地背書確實能提高成績，但到了一定程度后，已經(jīng)沒啥書可以背了了，而且成績也到了上限，再怎么死記硬背也很難有大的進步了，這也是如今的困境。

　　一個是，現(xiàn)有的知識的量級，已經(jīng)不夠了。

　　另一個點是，所有的知識都是拿現(xiàn)成的直接背出來的，不是自己從0開始探索的，所以大模型在這個過程中，學(xué)到的全是相關(guān)性，而不是因果性。

　　相關(guān)性和因果性這兩個詞解釋起來非常簡單。

　　相關(guān)性:如果你發(fā)現(xiàn)每次你帶傘，天都會下雨，這就是相關(guān)性。傘和下雨看起來是相關(guān)的，但實際上帶傘并不會導(dǎo)致下雨。

　　因果性:下雨了你才帶傘，這是因果性，因為下雨導(dǎo)致了你帶傘。

　　所以這就是為啥，你讓他做個復(fù)雜推理，要寫明推理過程，中途推理邏輯經(jīng)常亂七八糟，錯的沒邊，就是這個原因。

　　它們就像是一個百科全書式的學(xué)霸，知道很多事實，但可能并不真正理解這些事實背后的原理以及真正的因果關(guān)系。

　　如果你問一個只會死記硬背的學(xué)生:"為什么蘋果會落到地上?"他可能會立刻回答:"因為有重力。"

　　但如果你繼續(xù)追問:"那重力是什么?為什么會有重力?"他可能就無法給出深入的解釋了。

　　現(xiàn)在的大模型跟這個現(xiàn)象沒啥區(qū)別。它們可以告訴你地球是圓的，但可能也沒辦法真正解釋為什么地球是圓的，或者地球的形狀對我們的生活有什么影響。

　　它們學(xué)到的是"地球"和"圓"這兩個詞經(jīng)常一起出現(xiàn)，有強相關(guān)性，而不是理解地球為什么會是圓的這種因果關(guān)系。

　　相關(guān)性告訴你兩件事總是一起發(fā)生，因果性則告訴你為什么它們會一起發(fā)生。

　　所以，這也是為什么，我們需要新方法新范式，來破這個局。

　　而這個解法，是目前我觀察下來，OpenAI、Google、Anthropic、Ilya等人的共識:

　　Self-play RL。

　　全稱是自我對弈強化學(xué)習，聽起來很復(fù)雜，但其實可以用一個簡單的比喻來理解:一個孩子學(xué)習下圍棋。

　　現(xiàn)在大模型的學(xué)習方式是什么樣的?看棋譜，記住開局布置，背誦一些固定的戰(zhàn)術(shù)。它們學(xué)習了大量的數(shù)據(jù)，知道很多可能的解法，但可能并不真正理解為什么要這樣下棋。

　　而Self-play RL，它則是讓這個孩子不停地和自己下棋。剛開始可能下得很拉跨，但是通過不斷嘗試不同的走法，觀察每步棋的結(jié)果，慢慢地，他會發(fā)現(xiàn)哪些策略更有效，哪些走法會輸。

　　這個過程中，孩子不僅僅是在記住棋譜，而是在真正理解棋局的變化，理解每一步棋為什么要這樣走。

　　這就是從相關(guān)性學(xué)習到因果性學(xué)習的飛躍。

　　有沒有感覺，這個描述很熟悉?

　　這就是2017年名動天下的AlphaGo Zero。

　　當年，AlphaGo在烏鎮(zhèn)以3:0擊碎柯潔道心，轟動世界。

　　而AlphaGo Zero，是AlphaGo的進階版。

　　官方是這么描述AlphaGo Zero的:

　　“剛開始時，AlphaGo Zero很菜，還會填真眼自殺。

　　3小時后，AlphaGo Zero成功入門圍棋。

　　36小時后，AlphaGo Zero就摸索出所有基本而且重要的圍棋知識，以100:0的戰(zhàn)績，碾壓了當年擊敗李世乭的AlphaGo v18版本。

　　21天后，AlphaGo Zero達到了Master的水平，這也就是年初在網(wǎng)上60連勝橫掃圍棋界的版本，Master后來擊敗了柯潔。

　　40天后，AlphaGo Zero對戰(zhàn)Master的勝率達到90%，也就是說，AlphaGo Zero成為寂寞無敵的最強圍棋AI。”

　　這就是Self-play RL的恐怖威力。

　　Self-play RL就是讓AI不斷地和自己"對弈"，可能是下棋，也可能是解決數(shù)學(xué)問題，甚至是進行對話。

　　在這個過程中，AI不僅僅是在重復(fù)它看到過的內(nèi)容，而是在主動探索、嘗試和學(xué)習。

　　跟大模型的學(xué)習方式，形成了鮮明的對比，大模型是把“死記硬背”發(fā)揮到了極致，而Self-play RL則是把“自我成長”發(fā)揮到了極致。

　　數(shù)據(jù)還是那個數(shù)據(jù)，只不過一個是人給的，一個是自己造的。

　　用人給的東西來死記硬背，你永遠成為不了超越人的超級AI，但是自己造自己學(xué)習的，那是有很大的可能的。

　　圍棋、Dota2，這兩個領(lǐng)域，已經(jīng)證明了這一點。

　　而大模型+Self-play RL，就是不斷的大模型自己跟自己博弈，得到反饋之后，優(yōu)化模型權(quán)重，改一下自己的水平，然后接著戰(zhàn)。

　　且得益于大模型自身的能力，所以在自我博弈過程中，可以不再是只給出最終結(jié)果反饋，這種獎勵反饋，在提升AI推理能力上其實也有很大的局限。

　　因為不同于圍棋、Dota2這種特定任務(wù)，大模型的能力實在是太太太泛化了。我們需要更多的因果關(guān)系，而不僅僅只是結(jié)果。

　　對于大模型而言，就可以使用“思維鏈”，把AI推理過程中每一步的思考過程都記下來。然后對每一步進行評分，讓AI知道每個推理步驟的好壞。這種方法讓AI不僅僅學(xué)習到如何給出正確答案，還能改進整個推理過程，從而知道，真正的因果。

　　甚至，不僅僅只是打分，得益于大模型的能力，還可以進行文字評價。這就很像你在做作業(yè)時，老師不僅給你打分，還會寫下評語告訴你哪里做得好，哪里需要改進，你肯定只比知道一個得分結(jié)果來的更牛逼對吧。

　　而且每一次的學(xué)習，都是從推理過程中得到寶貴的反饋。

　　當模型在回答一個復(fù)雜問題時，它就會進行一個類似Self-play的過程。模型會生成多個可能的思路，然后評估這些思路的質(zhì)量，選擇最佳的一個。

　　在海外獨角獸的文章中，曾經(jīng)做過一個計算，一個百億參數(shù)的大模型，如果用Self-play的方式去生產(chǎn)思路，如果每次生產(chǎn)32個思路，每個思路里都有5個步驟，一次推理回答，總?cè)蝿?wù)消耗是100K token，將近6美元。

　　又貴、又慢，但是真的智能。

　　最好的數(shù)據(jù)會被保存下來，以固定周期對模型進行迭代，以持續(xù)進化。

　　這也是為啥，在草莓的曝光中，說:

　　“Strawberry 與其他模型的最大區(qū)別在于它能夠在響應(yīng)之前「思考」，⽽不是立即回答查詢，這個思考階段通常持續(xù)10到20秒。”

　　且，我們在文章的一開始，看到ChatGPT Pro會員，是200美元一個月了吧。

　　推理成本，太特么高了。

　　這就是典型的，在大力出奇跡的方式邊際效應(yīng)遞減的情況下，用推理成本，換訓(xùn)練成本，繼續(xù)給模型做迭代。

　　這也是為什么，OpenAI一直說，草莓，是給下一代大模型，合成數(shù)據(jù)用的，因為，它就是Self-play RL的載體。

　　所以回頭看，草莓，可能是什么。

　　是基于新范式Self-play RL所做的，在數(shù)學(xué)、代碼能力上強到爆炸、且具備自主為用戶執(zhí)行瀏覽器/系統(tǒng)操作級別的新模型。

　　更智能、更慢、更貴。

　　還有最后一個問題是，為啥草莓在數(shù)學(xué)能力和代碼能力上會強到爆炸?

　　這個答案就非常簡單了。

　　因為...數(shù)學(xué)和代碼，是非常好驗證的，在Self-play里，可以給出明確的結(jié)果的，數(shù)學(xué)就不說了，代碼，你能不能跑起來不就能驗證了，對吧。

　　所以，這兩玩意，一定是最先一飛沖天的。

　　Claude3.5的代碼能力為啥這么牛逼，就是用Self-play RL做的。

　　想起前幾天，去跟一個做AI投資非常專業(yè)且牛逼的朋友聊，她前段時間剛從硅谷回來，見了OpenAI的人。

　　OpenAI內(nèi)部的研究員，是這么形容Self-play RL的:

　　“我們通往AGI的路上，已經(jīng)沒有任何阻礙。”

　　在沉寂了近一年之后，我們，可能要迎來一個全新的大模型技術(shù)爆發(fā)周期了。

　　真的。

　　我，拭目以待。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

游戲體驗天花板一加Ace 5系列正式定檔12月26日

“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅持質(zhì)價比不動

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

200美元的ChatGPT Pro正式上線，聰明N倍的新模型草莓要來了

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

3C消費

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實力，創(chuàng)

研究

中國信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

專題

200美元的ChatGPT Pro正式上線，聰明N倍的新模型草莓要來了

擴展閱讀

200美元的ChatGPT Pro正式上線，聰明N倍的新模型草莓要來了