OpenAI神秘模型「草莓」兩周內(nèi)上線？數(shù)學(xué)推理暴漲，月收費200刀已有人付費

2024年09月11日 15:32:44 來源：新智元公眾號

　　就在剛剛，The Information曝出:OpenAI的草莓將于兩周內(nèi)上線!收費疑似200刀一個月，最大的特色就是比其他模型多思考10到20秒。然而因為「狼來了」太多回，網(wǎng)友們?nèi)滩蛔⊥虏?OpenAI現(xiàn)在就是個炒作公司。

　　最新消息，「草莓」將在兩周內(nèi)發(fā)布!

　　這一消息由外媒The Information曝出，據(jù)稱是兩位已經(jīng)測試過草莓模型的人士透露的。

　　發(fā)布時間比此前報道的秋季要早。

　　草莓跟其他模型的最大區(qū)別是啥呢?

　　答案是，更智能，但更慢、更貴。

　　而知名爆料人Jimmy Apples的說法是，一個模型(可能被稱為GPT-4.5)預(yù)計會在十月發(fā)布。

　　與此同時，GPT-5很可能會在12月發(fā)布，但保險起見，說2025年第一或第二季度發(fā)布，是比較穩(wěn)妥的。

　　在9月3日，Jimmy Apple還曾經(jīng)艾特Sam Altman，戲謔地問道:「我耳邊的低語是真的嗎?我們終于要在十月做一些事了嗎?」

　　根據(jù)Jimmy Apple的說法，需要耐心的時代已經(jīng)過去，現(xiàn)在，我們迎來了發(fā)布的季節(jié)。

　　而AI大V「數(shù)字生命卡茲克」表示，自己的朋友發(fā)現(xiàn)ChatGPT Pro會員已經(jīng)上線了，售價200美元每月。

　　他們推測，ChatGPT Pro會員，或許就是為即將上線的草莓而準(zhǔn)備的。

　　不過根據(jù)此前的爆料，草莓本身的目的，似乎是為OpenAI的下一代大模型獵戶座生成更高質(zhì)量數(shù)據(jù)。

　　因此也有人說，我們不必對草莓抱以過高期待。

　　草莓，比我們預(yù)期的更早?

　　據(jù)悉，兩位已經(jīng)測試過草莓模型的人士透露，OpenAI計劃在兩周內(nèi)將其作為ChatGPT服務(wù)的一部分發(fā)布。

　　而在原先，The Information報道的發(fā)布時間是在秋季。

　　這一次，報道中透露了一些新細(xì)節(jié)。

　　首先，雖然草莓是ChatGPT的一部分，但它是一個獨立的產(chǎn)品。

　　目前還不清楚它將如何推出，一種可能是將其包含這種驅(qū)動ChatGPT的AI模型的下拉菜單中，根據(jù)兩位人士的說法。

　　這就會讓草莓跟常規(guī)的服務(wù)有很大不同。

　　第二點，草莓和其他對話式AI最大的區(qū)別，就是它在響應(yīng)之前會思考10到20秒，然后才回答問題。

　　多個網(wǎng)友現(xiàn)身說法，表示自己上周發(fā)現(xiàn)ChatGPT返回某個響應(yīng)時需要10秒才能加載，或許OpenAI已經(jīng)在進(jìn)行a/b測試了。

　　第三點，草莓的初始版本目前只能接收和生成文本，而不能處理圖像，這也就意味著，它尚未像OpenAI的其他模型一樣實現(xiàn)多模態(tài)功能。

　　因為如今發(fā)布的大多數(shù)LLM都是多模態(tài)的，這個缺陷對比之下就很顯著。

　　最后，就是定價問題了。

　　現(xiàn)在OpenAI的聊天機(jī)器人有免費的，也有分等級的訂閱價格。

　　草莓可能會有低價位和高價位的兩檔，前者會有速率限制，并且限制用戶每小時的最大消息數(shù)量;而更高價位的版本，響應(yīng)的速度也會更快。

　　這種安排，當(dāng)然也是希望讓更多用戶為新模型付費，就像此前OpenAI限制ChatGPT免費用戶消息數(shù)量一樣。

　　草莓會怎樣收費呢?

　　根據(jù)The Information此前的爆料，每月50、75、200、2000刀似乎都有可能。

　　一位知情人士稱，在OpenAI早期的內(nèi)部討論中，訂閱價格曾高達(dá)每月2000美元，但并未最終確定

　　如今看來，200美元/月的定價應(yīng)該是沒跑了。

　　來源:數(shù)字生命卡茲克

　　The Information還預(yù)測，目前為ChatGPT付費(每月20美元)的客戶，會比免費用戶更早訪問首個草莓模型。

　　處理復(fù)雜問題更拿手

　　據(jù)悉，草莓會比GPT-4o更擅長復(fù)雜的問題，或多步驟查詢。

　　目前，如果用戶想在ChatGPT中得到理想的答案，往往還需要輸入各種格外的prompt。

　　比如用「連貫思維提示」，讓ChatGPT通過中間推理步驟來得出答案。

　　而草莓可能會避免這種麻煩，讓用戶一步得到結(jié)果。

　　這也就意味著，草莓不僅在數(shù)學(xué)和編碼問題上會更好，還會更擅長主觀的商業(yè)任務(wù)，比如頭腦風(fēng)暴一個產(chǎn)品營銷策略。

　　爆料人表示，草莓的思考步驟，會避免它出錯。

　　而多思考的那十秒到二十秒，會讓它更可能知道，何時要向客戶詢問后續(xù)問題，來完成對他們的解答。

　　多思考20秒是雞肋?

　　然而兩位人士透露，OpenAI還需要再解決一些問題。

　　比如，理論上講，草莓應(yīng)該能夠在用戶提出簡單問題時，跳過其思考步驟。然而在實際應(yīng)用中，模型并不總是這樣。

　　它可能會錯誤地花費過多時間，來回答那些其他OpenAI模型很快就能回答的問題。

　　用過草莓模型的人抱怨說，跟GPT-4o相比，草莓的回復(fù)只是稍稍更好一些，但并沒有好到值得用戶去等10到20秒。

　　另外，OpenAI希望迎合用戶的這一特定偏好:在回答新問題前，草莓會記住并且整合與用戶先前的聊天記錄。

　　這個細(xì)節(jié)非常重要，比如如果用戶希望軟件代碼以某種格式書寫的時候，這種能力就非常有用。

　　然而令人沮喪的是，草莓并不總是能做到這一點。

　　網(wǎng)友吐槽:還要擠多久?

　　冷知識:距離OpenAI發(fā)布GPT-4，已經(jīng)過去了一年零六個月。而新模型的影子，至今還沒看到。

　　OpenAI的草莓，來來回回炒作了好幾遍。狼來了的故事來了太多次，網(wǎng)友們都快麻了。

　　別家都是要發(fā)模型就干脆利落地發(fā)，只有它把同一個話題來回來去地炒，就是不發(fā)真東西。

　　奧特曼之前曬出花園里的草莓照，就曾一度引起軒然大波，然而最終卻無事發(fā)生，這種「謎語人」的操作難免令人生厭。

　　現(xiàn)在提起OpenAI，很多群眾的第一反應(yīng)就是——

　　沒錯，它已經(jīng)逐漸淪為「炒作」的代名詞。

　　更有網(wǎng)友做出梗圖，調(diào)侃道:OpenAI發(fā)布新模型的姿勢是這樣的——

　　這樣的——

　　以及這樣的——

　　本來在大模型領(lǐng)域，OpenAI是遙遙領(lǐng)先的領(lǐng)導(dǎo)者。但如今，競爭者們早已后來居上了。

　　上個月，谷歌就推出了AI語音助手，能夠靈活處理用戶的突然中斷和話題變化。

　　要知道，OpenAI在五月就首發(fā)了「Her」的功能，然而這個語音助手GPT-4o Voice隨后卻推遲了發(fā)布，原因是OpenAI在提高安全措施，確保模型拒絕不當(dāng)內(nèi)容。

　　如今正值草莓模型的發(fā)布前期，可能OpenAI也在做類似的準(zhǔn)備。

　　而最令人失望的一點其實是，跟前兩年的如火如荼相比，今年OpenAI的發(fā)展似乎已經(jīng)停滯了。

　　與此同時，模型的計算量、參數(shù)大小、數(shù)據(jù)集大小，都紛紛遭遇瓶頸，開源模型和閉源模型的能力也在逐漸縮小。

　　是不是因為沒有不夠的GPU，所以我們現(xiàn)在依然離AGI如此遙遠(yuǎn)?

　　如何破局?用RL

　　打破瓶頸的方法，如今各家都走到了同一路徑——Self-play RL。

　　在LLM領(lǐng)域，自我博弈理論看起來就像是AI反饋

　　Claude3.5就是基于Self-play RL做出的，因此代碼能力強(qiáng)到突出。

　　而我們都知道，草莓有一個重要作用，就是給下一代大模型合成數(shù)據(jù)，這里面有個前提，就是它同樣是基于新范式Self-play做出的。

　　很多LLM的弱點就在推理能力上，而有些初創(chuàng)公司為了提高它們的推理能力，就采用了一種廉價的技巧，將問題分解為更小的步驟，盡管這些方法速度慢且成本高昂。

　　AlphaGo就是通過Self-play學(xué)習(xí)，擊敗了李世石

　　在草莓中，我們也看到了類似的思路。

　　用Self-play RL去驗證，自然就能讓草莓的數(shù)學(xué)和代碼能力上飛速暴漲。

　　同樣，付出的代價就是極高的推理成本，導(dǎo)致它又貴、又慢。

　　但得到的結(jié)果，是極高的智能，或許啟發(fā)我們通往AGI的路線，就靠草莓這種思路了。

　　說起來，「草莓之父」，其實就是已經(jīng)離職了的OpenAI的首席科學(xué)家Ilya Sutskever。

　　據(jù)悉，OpenAI的一些人認(rèn)為Q*可能是OpenAI在AGI上取得的一個突破

　　在Ilya離職之前，OpenAI的研究人員Jakub Pachocki和Szymon Sidor，在Ilya的工作基礎(chǔ)上開發(fā)了一個新的數(shù)學(xué)求解模型Q*。

　　據(jù)稱，Q*解決的此前從未見過的數(shù)學(xué)題。

　　Ilya做出的突破，使OpenAI不再受限于獲取足夠的高質(zhì)量數(shù)據(jù)來訓(xùn)練新模型，而這，正是開發(fā)下一代模型的主要障礙。

　　另外，在去年Q*的前期準(zhǔn)備中，OpenAI研究人員開發(fā)了一種被稱為「測試時計算」的概念變體，目的是提升LLM的問題解決能力。

　　這樣，LLM就會花更多時間考慮被要求執(zhí)行的命令，或問題的各個部分。

　　當(dāng)時，Ilya發(fā)表了一篇與這項工作相關(guān)的博客，展示了模型如何解決了數(shù)個極有難度的數(shù)學(xué)問題。

　　比如在下面這道題中，GPT-4成功執(zhí)行了一系列復(fù)雜的多項式分解。

　　基于這類技術(shù)做出的草莓，雖然更貴、更慢，但數(shù)學(xué)和推理的進(jìn)步無疑是驚人的。

　　或許對于普通用戶，它未必是一個更值得付費的產(chǎn)品。

　　但對于需要高階能力的場景，草莓會更有發(fā)揮的余地。

　　大佬猜測:谷歌DeepMind論文疑似揭示方法

　　有趣的是，Menlo風(fēng)投負(fù)責(zé)人、前谷歌搜索工程師Debarghya Das發(fā)推稱:Google DeepMind在最近一篇論文中提出的方法，可能就是OpenAI在Strawberry上用的。

　　論文提出，讓LLM進(jìn)行更多的「測試時計算」(test-time computation)，對于構(gòu)建能在開放語境下操作、能實現(xiàn)自我提升的agent，是關(guān)鍵的一步

　　而這篇論文就重點研究了擴(kuò)展「推理期計算」(inference-time computation)這個問題。

　　如果允許LLM使用固定但非平凡量的推理期計算，它在應(yīng)對具有挑戰(zhàn)性的提示詞時，可以有多少性能提升?

　　這個問題不僅影響LLM的可實現(xiàn)性能，還關(guān)系到LLM預(yù)訓(xùn)練的未來，以及如何在推理計算和預(yù)訓(xùn)練計算之間進(jìn)行權(quán)衡。

　　為了回答這個問題，研究團(tuán)隊分析了擴(kuò)展測試時計算的兩種主要機(jī)制:(1)針對密集的、基于過程的驗證器獎勵模型進(jìn)行搜索;(2)根據(jù)測試時得到的提示詞，自適應(yīng)更新模型對響應(yīng)的分布。

　　結(jié)果顯示，在這兩種情況下，對測試時計算的不同擴(kuò)展方法的有效性，很大程度上取決于提示詞的難度。

　　基于此，研究團(tuán)隊提出了一種「計算最優(yōu)」擴(kuò)展策略——通過為每個提示詞自適應(yīng)地分配測試時計算，使測試時計算的擴(kuò)展的效率提高4倍以上。

　　另外，在FLOPs一致的評估中，對于那些較小的基礎(chǔ)模型已取得一定程度非平凡成功率的問題，測試時計算可以使其超越規(guī)模大14倍的模型。

　　不過，網(wǎng)友們對這一猜測并不認(rèn)可。

　　Topology首席執(zhí)行官Aidan McLaughlin表示，谷歌DeepMind探討的是最佳N采樣和蒙特卡洛樹搜索(MCTS)。

　　而「草莓」可能會是一個具有特殊token(回溯、規(guī)劃等)的深度混合模型。它可能會通過人類數(shù)據(jù)標(biāo)注者和來自易于驗證領(lǐng)域(如數(shù)學(xué)/編程)的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。

　　另一位網(wǎng)友也提出疑問——「草莓」不是一個神經(jīng)符號模型嗎?

　　對此，Deedy解釋道:「根據(jù)網(wǎng)上的這些信息和傳聞:『草莓』將通過在響應(yīng)空間中使用搜索技術(shù)來改進(jìn)推理，其推理時間計算為10到20秒�！�

　　而這，正是這項研究所解釋的內(nèi)容。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅持質(zhì)價比不動

中端質(zhì)價比之王，真我Neo7正式發(fā)布2099元起　　

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

OpenAI神秘模型「草莓」兩周內(nèi)上線？數(shù)學(xué)推理暴漲，月收費200刀已有人付費

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

3C消費

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實力，創(chuàng)

研究

中國信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

專題

OpenAI神秘模型「草莓」兩周內(nèi)上線？數(shù)學(xué)推理暴漲，月收費200刀已有人付費

擴(kuò)展閱讀

OpenAI神秘模型「草莓」兩周內(nèi)上線？數(shù)學(xué)推理暴漲，月收費200刀已有人付費