云天勵(lì)飛“算力積木”架構(gòu):引領(lǐng)邊緣AI芯片新變革徹底告別3999元!小米15入網(wǎng) 支持90W快充FF發(fā)布第二品牌Faraday X:對(duì)標(biāo)豐田 專注增程式混動(dòng)車型黑神話悟空總收入超67億:銷量已超2000萬份通快成立激光業(yè)務(wù)區(qū)域中心(中國),強(qiáng)勢布局中國市場Sandalwood Advisors受邀參加第31屆中信里昂投資者論壇淘寶倒逼新風(fēng)向:一場電商減負(fù)運(yùn)動(dòng)博浪AI時(shí)代,阿里、華為“硬碰硬”Youtube將推出人工智能工具 可生成創(chuàng)意、標(biāo)題甚至完整視頻申通、圓通、韻達(dá)發(fā)布 8 月簡報(bào):快遞業(yè)務(wù)量、收入均同比增長,單票收入均下降蘋果iPhone 16系列開啟發(fā)售,Max最高加2500元TECNO 全球發(fā)布二代折疊屏旗艦—PHANTOM V Fold2 5G及PHANTOM V Flip2 5G科大訊飛還是AI“小甜甜”嗎?消息稱美團(tuán)外賣調(diào)整經(jīng)營目標(biāo),從追求 GMV 變?yōu)樽非笥唵瘟?/a>消息稱淘寶“大服飾全球包郵計(jì)劃”升級(jí),品類“擴(kuò)容”至全行業(yè)Brightband獲1000萬美元融資,可用AI預(yù)測極端天氣菊樂股份再次申報(bào)IPO:四度闖關(guān)未果,超七成收入來自四川傳AI芯片設(shè)計(jì)公司Ampere尋求出售,或放棄IPO引領(lǐng)通用具身新時(shí)代:普渡發(fā)布首款類人形機(jī)器人PUDU D7辦公軟件的超級(jí)英雄?金山WPS AI會(huì)員人數(shù)破百萬,鴻蒙版全面開跑
  • 首頁 > 云計(jì)算頻道 > 大模型

    200美元的ChatGPT Pro正式上線,聰明N倍的新模型草莓要來了

    2024年09月11日 09:41:53   來源:數(shù)字生命卡茲克公眾號(hào)

      半夜10點(diǎn),The Information發(fā)了個(gè)新聞,透露了OpenAI的新模型,草莓,要來了。

      兩個(gè)小時(shí)后,我的好朋友@solitude(美東時(shí)間),作為一個(gè)常年擁有第一手資料和信息的人,跟我說,ChatGPT Pro會(huì)員上線了,售價(jià)200刀/月,他已經(jīng)第一時(shí)間付完款了。

      我看了眼我自己的號(hào),果然啥也沒有。

      所以,他甚至剛付完款,還沒開始用,我就把這個(gè)尊貴的Pro號(hào)要來了。

      現(xiàn)在,ChatGPT的會(huì)員,被分成了3檔,分別是Plus、Team、Pro。

      這個(gè)分法,怎么感覺OpenAI學(xué)的庫克,不會(huì)后面還有ChatGPT Pro Max吧。。。

      但是目前非?上(冤大頭)的點(diǎn)是,并沒有新的功能,也沒有新的模型,唯一有區(qū)別的是,GPT4o使用次數(shù)基本等于無限,我在短時(shí)間內(nèi)測了幾百條,依舊暢通無阻。

      而對(duì)應(yīng)的,ChatGPT Plus會(huì)員,GPT4o的使用額度是80條/3小時(shí)。

      一個(gè)使用無限制,自然配不上這貴10倍的價(jià)格,從20刀/月提升到200刀/月,OpenAI如果真的這么干,那基本等于奧特曼被馬斯克給奪舍了。

      結(jié)合The Information的新聞,基本可以確認(rèn)的是,這個(gè)ChatGPT Pro會(huì)員,是過一段時(shí)間,為全新的模型,草莓(Strawberry)準(zhǔn)備的。

      后面想用草莓的,先開個(gè)200刀的Pro會(huì)員再說。

      草莓究竟是啥?目前沒有確切的結(jié)論,但是從我知道的消息梳理來看的話,這玩意,草莓可能是:

      基于新范式Self-play RL所做的,在數(shù)學(xué)、代碼能力上強(qiáng)到爆炸、且具備自主為用戶執(zhí)行瀏覽器/系統(tǒng)操作級(jí)別的新模型。

      更智能、更慢、更貴。

      我盡量用最簡單樸素的語言,讓大家都聽得懂,解釋一下,這個(gè)新的草莓,具體是個(gè)啥,以及,憑啥賣200刀/月。

      首先,得說一下GPT-5出現(xiàn)的一些問題。

      GPT-5,就我所知,訓(xùn)練的非常不順利。

      一個(gè)可以觀察到的點(diǎn)是,以數(shù)據(jù)規(guī)模和模型規(guī)模為美的“大力出奇跡”的方式,邊際收益開始遞減,也不再是百試百靈了。

      大語言模型的Scaling Law描述的是模型性能L、模型參數(shù)量大小N、訓(xùn)練數(shù)據(jù)大小D以及計(jì)算量C之間的關(guān)系。

      隨著計(jì)算量、模型參數(shù)和數(shù)據(jù)集大小的增加,模型的性能通常會(huì)顯著提高,從而在語言理解和生成等任務(wù)上表現(xiàn)更好。

      但是現(xiàn)在,計(jì)算量、參數(shù)大小、數(shù)據(jù)集大小,都遭遇了瓶頸,特別是閉源模型們,進(jìn)步速度對(duì)比過去,齊刷刷的開始放緩,且開源模型跟閉源模型的能力逐漸開始縮小。

      也就是說,再靠大力出奇跡,模型的能力已經(jīng)快上不去了。

      因?yàn)楸举|(zhì)上,所有的大模型訓(xùn)練,幾乎都是人類已有知識(shí)的極致利用,我們給出數(shù)據(jù)、給出人類反饋數(shù)據(jù)或者標(biāo)注數(shù)據(jù)等等,你會(huì)發(fā)現(xiàn),大模型不是通過自我探索去“發(fā)現(xiàn)”語言的規(guī)律,而是直接從我們給出的內(nèi)容中提取有用的信息。

      這就像是一個(gè)學(xué)生,一開始通過不斷地背書確實(shí)能提高成績,但到了一定程度后,已經(jīng)沒啥書可以背了了,而且成績也到了上限,再怎么死記硬背也很難有大的進(jìn)步了,這也是如今的困境。

      一個(gè)是,現(xiàn)有的知識(shí)的量級(jí),已經(jīng)不夠了。

      另一個(gè)點(diǎn)是,所有的知識(shí)都是拿現(xiàn)成的直接背出來的,不是自己從0開始探索的,所以大模型在這個(gè)過程中,學(xué)到的全是相關(guān)性,而不是因果性。

      相關(guān)性和因果性這兩個(gè)詞解釋起來非常簡單。

      相關(guān)性:如果你發(fā)現(xiàn)每次你帶傘,天都會(huì)下雨,這就是相關(guān)性。傘和下雨看起來是相關(guān)的,但實(shí)際上帶傘并不會(huì)導(dǎo)致下雨。

      因果性:下雨了你才帶傘,這是因果性,因?yàn)橄掠陮?dǎo)致了你帶傘。

      所以這就是為啥,你讓他做個(gè)復(fù)雜推理,要寫明推理過程,中途推理邏輯經(jīng)常亂七八糟,錯(cuò)的沒邊,就是這個(gè)原因。

      它們就像是一個(gè)百科全書式的學(xué)霸,知道很多事實(shí),但可能并不真正理解這些事實(shí)背后的原理以及真正的因果關(guān)系。

      如果你問一個(gè)只會(huì)死記硬背的學(xué)生:"為什么蘋果會(huì)落到地上?"他可能會(huì)立刻回答:"因?yàn)橛兄亓Α?quot;

      但如果你繼續(xù)追問:"那重力是什么?為什么會(huì)有重力?"他可能就無法給出深入的解釋了。

      現(xiàn)在的大模型跟這個(gè)現(xiàn)象沒啥區(qū)別。它們可以告訴你地球是圓的,但可能也沒辦法真正解釋為什么地球是圓的,或者地球的形狀對(duì)我們的生活有什么影響。

      它們學(xué)到的是"地球"和"圓"這兩個(gè)詞經(jīng)常一起出現(xiàn),有強(qiáng)相關(guān)性,而不是理解地球?yàn)槭裁磿?huì)是圓的這種因果關(guān)系。

      相關(guān)性告訴你兩件事總是一起發(fā)生,因果性則告訴你為什么它們會(huì)一起發(fā)生。

      所以,這也是為什么,我們需要新方法新范式,來破這個(gè)局。

      而這個(gè)解法,是目前我觀察下來,OpenAI、Google、Anthropic、Ilya等人的共識(shí):

      Self-play RL。

      全稱是自我對(duì)弈強(qiáng)化學(xué)習(xí),聽起來很復(fù)雜,但其實(shí)可以用一個(gè)簡單的比喻來理解:一個(gè)孩子學(xué)習(xí)下圍棋。

      現(xiàn)在大模型的學(xué)習(xí)方式是什么樣的?看棋譜,記住開局布置,背誦一些固定的戰(zhàn)術(shù)。它們學(xué)習(xí)了大量的數(shù)據(jù),知道很多可能的解法,但可能并不真正理解為什么要這樣下棋。

      而Self-play RL,它則是讓這個(gè)孩子不停地和自己下棋。剛開始可能下得很拉跨,但是通過不斷嘗試不同的走法,觀察每步棋的結(jié)果,慢慢地,他會(huì)發(fā)現(xiàn)哪些策略更有效,哪些走法會(huì)輸。

      這個(gè)過程中,孩子不僅僅是在記住棋譜,而是在真正理解棋局的變化,理解每一步棋為什么要這樣走。

      這就是從相關(guān)性學(xué)習(xí)到因果性學(xué)習(xí)的飛躍。

      有沒有感覺,這個(gè)描述很熟悉?

      這就是2017年名動(dòng)天下的AlphaGo Zero。

      當(dāng)年,AlphaGo在烏鎮(zhèn)以3:0擊碎柯潔道心,轟動(dòng)世界。

      而AlphaGo Zero,是AlphaGo的進(jìn)階版。

      官方是這么描述AlphaGo Zero的:

      “剛開始時(shí),AlphaGo Zero很菜,還會(huì)填真眼自殺。

      3小時(shí)后,AlphaGo Zero成功入門圍棋。

      36小時(shí)后,AlphaGo Zero就摸索出所有基本而且重要的圍棋知識(shí),以100:0的戰(zhàn)績,碾壓了當(dāng)年擊敗李世乭的AlphaGo v18版本。

      21天后,AlphaGo Zero達(dá)到了Master的水平,這也就是年初在網(wǎng)上60連勝橫掃圍棋界的版本,Master后來擊敗了柯潔。

      40天后,AlphaGo Zero對(duì)戰(zhàn)Master的勝率達(dá)到90%,也就是說,AlphaGo Zero成為寂寞無敵的最強(qiáng)圍棋AI。”

      這就是Self-play RL的恐怖威力。

      Self-play RL就是讓AI不斷地和自己"對(duì)弈",可能是下棋,也可能是解決數(shù)學(xué)問題,甚至是進(jìn)行對(duì)話。

      在這個(gè)過程中,AI不僅僅是在重復(fù)它看到過的內(nèi)容,而是在主動(dòng)探索、嘗試和學(xué)習(xí)。

      跟大模型的學(xué)習(xí)方式,形成了鮮明的對(duì)比,大模型是把“死記硬背”發(fā)揮到了極致,而Self-play RL則是把“自我成長”發(fā)揮到了極致。

      數(shù)據(jù)還是那個(gè)數(shù)據(jù),只不過一個(gè)是人給的,一個(gè)是自己造的。

      用人給的東西來死記硬背,你永遠(yuǎn)成為不了超越人的超級(jí)AI,但是自己造自己學(xué)習(xí)的,那是有很大的可能的。

      圍棋、Dota2,這兩個(gè)領(lǐng)域,已經(jīng)證明了這一點(diǎn)。

      而大模型+Self-play RL,就是不斷的大模型自己跟自己博弈,得到反饋之后,優(yōu)化模型權(quán)重,改一下自己的水平,然后接著戰(zhàn)。

      且得益于大模型自身的能力,所以在自我博弈過程中,可以不再是只給出最終結(jié)果反饋,這種獎(jiǎng)勵(lì)反饋,在提升AI推理能力上其實(shí)也有很大的局限。

      因?yàn)椴煌趪、Dota2這種特定任務(wù),大模型的能力實(shí)在是太太太泛化了。我們需要更多的因果關(guān)系,而不僅僅只是結(jié)果。

      對(duì)于大模型而言,就可以使用“思維鏈”,把AI推理過程中每一步的思考過程都記下來。然后對(duì)每一步進(jìn)行評(píng)分,讓AI知道每個(gè)推理步驟的好壞。這種方法讓AI不僅僅學(xué)習(xí)到如何給出正確答案,還能改進(jìn)整個(gè)推理過程,從而知道,真正的因果。

      甚至,不僅僅只是打分,得益于大模型的能力,還可以進(jìn)行文字評(píng)價(jià)。這就很像你在做作業(yè)時(shí),老師不僅給你打分,還會(huì)寫下評(píng)語告訴你哪里做得好,哪里需要改進(jìn),你肯定只比知道一個(gè)得分結(jié)果來的更牛逼對(duì)吧。

      而且每一次的學(xué)習(xí),都是從推理過程中得到寶貴的反饋。

      當(dāng)模型在回答一個(gè)復(fù)雜問題時(shí),它就會(huì)進(jìn)行一個(gè)類似Self-play的過程。模型會(huì)生成多個(gè)可能的思路,然后評(píng)估這些思路的質(zhì)量,選擇最佳的一個(gè)。

      在海外獨(dú)角獸的文章中,曾經(jīng)做過一個(gè)計(jì)算,一個(gè)百億參數(shù)的大模型,如果用Self-play的方式去生產(chǎn)思路,如果每次生產(chǎn)32個(gè)思路,每個(gè)思路里都有5個(gè)步驟,一次推理回答,總?cè)蝿?wù)消耗是100K token,將近6美元。

      又貴、又慢,但是真的智能。

      最好的數(shù)據(jù)會(huì)被保存下來,以固定周期對(duì)模型進(jìn)行迭代,以持續(xù)進(jìn)化。

      這也是為啥,在草莓的曝光中,說:

      “Strawberry 與其他模型的最大區(qū)別在于它能夠在響應(yīng)之前「思考」,⽽不是立即回答查詢,這個(gè)思考階段通常持續(xù)10到20秒。”

      且,我們在文章的一開始,看到ChatGPT Pro會(huì)員,是200美元一個(gè)月了吧。

      推理成本,太特么高了。

      這就是典型的,在大力出奇跡的方式邊際效應(yīng)遞減的情況下,用推理成本,換訓(xùn)練成本,繼續(xù)給模型做迭代。

      這也是為什么,OpenAI一直說,草莓,是給下一代大模型,合成數(shù)據(jù)用的,因?yàn),它就是Self-play RL的載體

      所以回頭看,草莓,可能是什么。

      是基于新范式Self-play RL所做的,在數(shù)學(xué)、代碼能力上強(qiáng)到爆炸、且具備自主為用戶執(zhí)行瀏覽器/系統(tǒng)操作級(jí)別的新模型。

      更智能、更慢、更貴。

      還有最后一個(gè)問題是,為啥草莓在數(shù)學(xué)能力和代碼能力上會(huì)強(qiáng)到爆炸?

      這個(gè)答案就非常簡單了。

      因?yàn)?..數(shù)學(xué)和代碼,是非常好驗(yàn)證的,在Self-play里,可以給出明確的結(jié)果的,數(shù)學(xué)就不說了,代碼,你能不能跑起來不就能驗(yàn)證了,對(duì)吧。

      所以,這兩玩意,一定是最先一飛沖天的。

      Claude3.5的代碼能力為啥這么牛逼,就是用Self-play RL做的。

      想起前幾天,去跟一個(gè)做AI投資非常專業(yè)且牛逼的朋友聊,她前段時(shí)間剛從硅谷回來,見了OpenAI的人。

      OpenAI內(nèi)部的研究員,是這么形容Self-play RL的:

      “我們通往AGI的路上,已經(jīng)沒有任何阻礙。”

      在沉寂了近一年之后,我們,可能要迎來一個(gè)全新的大模型技術(shù)爆發(fā)周期了。

      真的。

      我,拭目以待。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    研究

    2024全球開發(fā)者先鋒大會(huì)即將開幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。