• 首頁 > 云計算頻道 > 大模型

    o1研發(fā)團隊首次集體訪談:教AI數(shù)r用了一年半

    2024年09月23日 09:36:55   來源:量子位公眾號

      笑死,原來o1也像人類一樣喜歡趕ddl。

      這是在o1團隊的“大型見面會”上,OpenAI創(chuàng)始成員Wojciech Zaremba揭開的o1“黑歷史”。

      包括Zaremba在內(nèi)的18名團隊成員,在首席研究官Bob McGrew的帶領(lǐng)之下圍坐一團。

      o1核心貢獻者Hyung Won Chung、Noam Brown等關(guān)鍵人物,也都在此列。

      隨著成員們的踴躍發(fā)言,o1的發(fā)展歷程也逐漸被揭開——受AlphaGo和早期GPT模型的啟發(fā),想到了將兩張背后的范式結(jié)合。

      后來,團隊訓(xùn)練出了第一個可以生成連貫思維鏈的模型,標志著研究方向開始逐漸明朗和聚焦……

      在充滿松弛感的氣氛當中,眾人還分享了有關(guān)o1研發(fā)的許多趣事:

      在OpenAI內(nèi)部,也喜歡用“數(shù)r”來測試大模型能力

      為了解決“數(shù)r”的問題,OpenAI花費了一年半

      技術(shù)人員會把代碼報錯信息直接丟給o1去debug

      o1曾經(jīng)說過,生命的意義是“42”,還試圖用代數(shù)來定義“love”

      同時在研究過程中他們還發(fā)現(xiàn),o1不僅比人類更善于發(fā)現(xiàn)新的CoT推理步驟,并且還涌現(xiàn)出了自我批評能力。

      有網(wǎng)友稱贊說,這的確是一個出色的團隊,非常喜歡聽他們的發(fā)言,并且模型的推理能力也確實比以前強。

      量子位整理了這次訪談的實錄,下面就一起來看~

      o1是什么?推理又是啥?

      Bob McGrew:我是OpenAI研究團隊的負責(zé)人,我們剛剛發(fā)布了o1和o1-mini模型。

      對此我們感到非常激動,今天我們的整個團隊聚集在此,來介紹這兩個模型。

      什么是o1?

      Bob McGrew:所以,(第一個問題),到底什么是o1?

      Hyung Won Chung:我們開啟了新的模型系列,并且起了一個新的名字叫o1。

      這是為了強調(diào),與GPT-4o等之前的模型相比,o1有很大的不同,稍后會有人詳細解釋。

      o1是一個推理模式,所以它在回答問題之前思考的會更多。

      我們發(fā)布了兩個模型——(滿血)o1的o1-preview,以及更小、更快的o1-mini,它和(滿血)o1采用的是相同的訓(xùn)練框架。

      我們希望大家喜歡我們的新命名方式。

      推理又是什么?

      Bob McGrew:那么推理又是什么意思?

      Giambattista Parascandolo:對于簡單問題來說,我們希望提問之后立刻就能得到答案。

      比如你問意大利的首都在哪,你不用思考很多也知道答案是羅馬。

      但如果你想知道一個復(fù)雜問題的答案,或者寫出一份好的商業(yè)計劃,或者寫一部小說,你可能就要思考一段時間了,并且你思考的越多,最后得到結(jié)果也就越好。

      而推理就是把思考時間化為更好的成果的能力。

      研發(fā)過程的那些事

      你們在o1上工作多長時間了?

      Bob McGrew:你們在o1上工作多長時間了?

      Jakub Pachocki:在OpenAI早期,我們深受AlphaGo的成績的啟發(fā),看到了深度強化學(xué)習(xí)的潛力,因此我們對其進行了深入研究,并看到了數(shù)據(jù)和機器人技術(shù)的大規(guī)模擴展。

      我們也開始思考如何才能在通用領(lǐng)域進行強化學(xué)習(xí),從而實現(xiàn)非常強大的人工智能。

      然后我們看到了GPT范式中擴展和監(jiān)督學(xué)習(xí)帶來的驚人成果,從那時起,我們就一直在思考如何將這兩種不同的范式合二為一。

      Mark Chen:項目開始的確切時間很難確定,但已經(jīng)與Yaku和Shimon進行了早期探索,與Lukash、Ilya進行了早期探索。

      一個重要的時刻是Jerry的加入,他推動了這個大型項目的進展。

      研究過程中的“Aha moment”

      Bob McGrew:我認為在研究過程中最精彩的就是哪些“Aha moment”,你們的工作當中有哪些高光時刻呢?

      Jerry Tworek:我們訓(xùn)練了 GPT-2、GPT-3和 GPT-4,每一次都成為了媒體上的熱點。

      但第一次有這種感覺是當模型出來的時刻,所有人都稱贊很棒。

      對于我而言,這樣的時刻是當我們投入了更多計算資源,并第一次生成了連貫的思維鏈時。

      當時我們心想,這和以前的模型看起來真的很不一樣。

      Trapit Bansal:當我們考慮訓(xùn)練一個推理模型時,我立即想到的一件事是,用人類的思維過程進行訓(xùn)練。

      但我發(fā)現(xiàn),使用RL訓(xùn)練模型來生成己的思維鏈,結(jié)果可以做得比人類寫的思維鏈更好

      在我看來這就是一個“Aha moment”,它告訴我們可以通過這種訓(xùn)練方式,讓擴展模型的推理能力得到擴展。

      Hunter Lightman:我們花了很長的時間,一直嘗試讓模型更好地解決數(shù)學(xué)問題。

      為此我們付出了很多努力,我們想出了很多不同的方法,但有一件事讓我一直很沮喪,

      每次我讀到這些模型的輸出時,發(fā)現(xiàn)模型似乎永遠不會質(zhì)疑自己哪里出了問題,什么時候犯了錯誤。

      但當我們訓(xùn)練早期的o1模型并與之對話時,發(fā)現(xiàn)它在數(shù)學(xué)測試中得分更高了。

      通過觀察它的推理方式,我們發(fā)現(xiàn)它開始質(zhì)疑自己,并進行了非常有趣的反思。

      那一刻我感覺哇,我們發(fā)現(xiàn)了一些不同的東西。

      感覺模型像人還是像機器?

      Bob McGrew:你們在看模型的思考過程時,覺得他們是更像真人還是更像機器人?

      Liam Fedus:這更像是一種“精神體驗”。

      你可以看到模型也會犯很多人類經(jīng)常犯的錯誤,又能看到它對一些常識提出質(zhì)疑。

      很奇怪,模型會帶有人類的行為。

      Wojciech Zaremba:在模型被設(shè)定了ddl的情況下,往往會在快due的時候迅速得出結(jié)論

      好像大模型也知道自己必須立刻給出答案。

      Karl Cobbe:我年輕的時候花了很多時間參加數(shù)學(xué)競賽,而我進入人工智能領(lǐng)域的原因,就是試圖實現(xiàn)這個過程的自動化。

      所以對我來說,這是一個非常重要的轉(zhuǎn)折點,因為我看到這個模型實際上能夠遵循我解決這些問題時使用的步驟

      雖然這不是完全相同的思路,但非常非?煽俊

      Wojciech Zaremba:可以相信,這些模型正在成為真正推動工程和科學(xué)發(fā)展的因素。

      如果它們似乎能解決即使專家也難以解決的問題,那么將能夠推動科學(xué)進步。

      研發(fā)過程中的困難

      Bob McGrew:我們談了很多令人興奮的時刻,那么在工作過程中又遇到了什么障礙?

      Jerry Tworek:訓(xùn)練大型模型從根本上來說就是一件非常非常困難的事情。

      有成千上萬的事情可能出錯,而且在每個領(lǐng)域都有事情確實出錯了。

      所以幾乎這里的每個人都像你們知道的一樣,在訓(xùn)練這些事情上付出了很多心血和汗水,并想出了如何讓模型繼續(xù)學(xué)習(xí)和進步的方法。

      實際上,成功的道路非常狹窄,而失敗的方式卻有很多。

      Wojciech Zaremba:就像發(fā)射火箭一樣,如果你偏離了一個角度,你就無法到達目的地,而這就是我們的工作。

      Ilge Akkaya:這個模型非常好,通常比人類好幾倍,能達到博士的水平。

      但是這有時是一個挑戰(zhàn),因為我們必須經(jīng)常去驗證模型沒有偏離軌道。

      但我們已經(jīng)飽和了所有行業(yè)級的評估,我們不知道下一步該研究什么。

      Mark Chen:這也是一種成就感,就像每次遇到難題一樣。

      這就像這個團隊要克服的另一個障礙,我真的很高興我們克服了所有這些小障礙。

      OpenAI內(nèi)部這樣用o1

      如何測試模型表現(xiàn)

      Bob McGrew:你們測試模型的方法有哪些,有沒有什么喜歡的問題,并發(fā)現(xiàn)模型在這些問題上變得越來越好?

      Shengjia Zhao:Strawberry里有幾個r?

      Wojciech Zaremba:不管是什么原因,ChatGPT無法可靠地解決這些問題。

      我們花了一年半的時間,現(xiàn)在我們可以計算出strawberry中的“r”的數(shù)量。

      Hunter Lightman:我有一個習(xí)慣,我想其他人也有。

      每當上推特時,都會看到一些帖子說大模型無法解決這類問題。

      我就把它復(fù)制粘貼進去,然后發(fā)現(xiàn)我們的模型可以做到。

      內(nèi)部o1使用方法

      Bob McGrew:為了讓人們了解他們可以使用這個模型做什么,我很想聽聽你們使用o1的一些方法。

      Hyung Won Chung:我使用o1的方式主要是用來寫代碼。

      我的很多工作都是關(guān)于代碼的,我越來越關(guān)注問題定義,并使用TDD(測試驅(qū)動開發(fā))。

      因此,我不再編寫實現(xiàn)功能的代碼,而是專注于編寫單元測試。

      因為o1可以實現(xiàn)東西,所以我可以專注于重要的、需要解決的高級問題,這真的是一種轉(zhuǎn)移我注意力的重要方式。

      另一個領(lǐng)域是debug,現(xiàn)在當我收到一些錯誤消息時,我只需傳遞給o1,有時它會立即解決。

      即使沒有,它至少會給出一些更好的問題,提供一些更好地思考這個問題的方法。

      所以對我來說,這是一個非常重要的工作變化,我希望這也能幫助其他人。

      o1-mini的誕生過程

      Bob McGrew:o1-mini的故事是怎樣的?它是如何誕生的?

      Hongyu Ren:我們想把o1系列帶給更多人,它有更低的成本,所以做了o1mini。它是o1框架的最小演示,是“推理專家”。它不一定能知道你喜歡的名人的生日,但是它能有效地推理,并且很智能。

      實際上它真的很聰明,比我們之前最好的模型都要聰明很多,幾乎與o1相當,但是成本和時延比它低很多。

      不過也確實有局限性,可能不知道很多外部世界知識。這與技術(shù)本身無關(guān),我們試圖讓它達到和此前最好模型最小版本差不多的水平,并且仍舊在努力進一步改進它。

      用戶嘗試了o1mini會很興奮,因為它推理和思考的速度真的很快。

      是什么激勵你做這些研究?

      Łukasz Kaiser:我只是覺得在這個世界上,有一些可以做推理、有智能的東西,比想象中小很多。它們可以以不同方式做到這一點,這就非常迷人了。

      Giambattista Parascandolo:我覺得這是向模型范式轉(zhuǎn)變的第一步。以前花很長時間才能解決的問題,現(xiàn)在做到了分鐘級,這只是漫長道路的第一步。我們希望能在幾個月或幾年后,邁出第二步。

      Wojciech Zaremba:我覺得這很有意義,我們可以對世界產(chǎn)生一些實質(zhì)性的積極影響。

      而且這很有趣,我喜歡對著電腦“說話”,喜歡在集群上開始一項工作,也非常喜歡合作。

      Jerry Tworek:我認為科技可以改善人類生活,我喜歡我們的模型能為人工作,幫助我們解決日常問題,賦予它推理能力讓它做事。

      Liam Fedus:我認為這一范式解決了一些模型無法解決的問題,所以不僅僅是回答變好一點,而是通過規(guī)劃、通過錯誤糾正,它解鎖了全新能力,在世界上創(chuàng)造新知識的能力,比如科學(xué)發(fā)現(xiàn),我認為這是最令人興奮的部分。

      短時間內(nèi),它的自身進化會越來越快,這真的很棒。

      Mark Chen:我們團隊中一些成員有數(shù)學(xué)等方面的背景,這驅(qū)動我們自己想去創(chuàng)造一個最好的系統(tǒng)。

      Hyung Won Chung:我認為推理比人們想象中的還要強大。當人類想要完成某項任務(wù)時,最基本的方法就是推理,你會遇到困難,你必須要找到解決方法。

      我覺得AI研究員的工作好像是要找到一種方法來投入更多的計算。硬件方面的研究者在這方面做的很好,很長一段時間硬件成本都在指數(shù)級下降。

      需要的計算量越來越多,就好像肩膀上的重量越來越重。這個新模式找到了一種方法,來幫我們卸下一些重量。

      在這項研究中,你們還觀察到什么嗎?

      Jason Wei:我們發(fā)現(xiàn)一個有趣的現(xiàn)象是,每個模型都有自己的“怪癖”。

      訓(xùn)練的每個模型在每個任務(wù)上的表現(xiàn)都不完全相同。所以模型可能有些任務(wù)表現(xiàn)得更好,有些表現(xiàn)得更差。每個模型都有它自己的個性和優(yōu)點。

      最后,原視頻在這里奉上~

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    唯品會雙11銷量前十品牌中有7個國貨品牌

    11月11日,據(jù)網(wǎng)經(jīng)社數(shù)字零售臺(DR.100EC.CN)數(shù)據(jù)顯示,秋冬服飾仍是雙11的C位,女士針織衫、女士外套、女士羽絨服等位居服飾消費前列,女士夾克銷量同比增長72%,女士棉衣、女士羊毛衫銷量同比增長50%以上。男士外套銷量同比增長30%以上。

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。