首頁 > 云計(jì)算頻道 > 大模型

o1研發(fā)團(tuán)隊(duì)首次集體訪談：教AI數(shù)r用了一年半

2024年09月23日 09:36:55 克雷西明敏 來源：量子位公眾號

　　笑死，原來o1也像人類一樣喜歡趕ddl。

　　這是在o1團(tuán)隊(duì)的“大型見面會”上，OpenAI創(chuàng)始成員Wojciech Zaremba揭開的o1“黑歷史”。

　　包括Zaremba在內(nèi)的18名團(tuán)隊(duì)成員，在首席研究官Bob McGrew的帶領(lǐng)之下圍坐一團(tuán)。

　　o1核心貢獻(xiàn)者Hyung Won Chung、Noam Brown等關(guān)鍵人物，也都在此列。

　　隨著成員們的踴躍發(fā)言，o1的發(fā)展歷程也逐漸被揭開——受AlphaGo和早期GPT模型的啟發(fā)，想到了將兩張背后的范式結(jié)合。

　　后來，團(tuán)隊(duì)訓(xùn)練出了第一個可以生成連貫思維鏈的模型，標(biāo)志著研究方向開始逐漸明朗和聚焦……

　　在充滿松弛感的氣氛當(dāng)中，眾人還分享了有關(guān)o1研發(fā)的許多趣事:

　　在OpenAI內(nèi)部，也喜歡用“數(shù)r”來測試大模型能力

　　為了解決“數(shù)r”的問題，OpenAI花費(fèi)了一年半

　　技術(shù)人員會把代碼報(bào)錯信息直接丟給o1去debug

　　o1曾經(jīng)說過，生命的意義是“42”，還試圖用代數(shù)來定義“love”

　　同時在研究過程中他們還發(fā)現(xiàn)，o1不僅比人類更善于發(fā)現(xiàn)新的CoT推理步驟，并且還涌現(xiàn)出了自我批評能力。

　　有網(wǎng)友稱贊說，這的確是一個出色的團(tuán)隊(duì)，非常喜歡聽他們的發(fā)言，并且模型的推理能力也確實(shí)比以前強(qiáng)。

　　量子位整理了這次訪談的實(shí)錄，下面就一起來看~

　　o1是什么?推理又是啥?

　　Bob McGrew:我是OpenAI研究團(tuán)隊(duì)的負(fù)責(zé)人，我們剛剛發(fā)布了o1和o1-mini模型。

　　對此我們感到非常激動，今天我們的整個團(tuán)隊(duì)聚集在此，來介紹這兩個模型。

　　什么是o1?

　　Bob McGrew:所以，(第一個問題)，到底什么是o1?

　　Hyung Won Chung:我們開啟了新的模型系列，并且起了一個新的名字叫o1。

　　這是為了強(qiáng)調(diào)，與GPT-4o等之前的模型相比，o1有很大的不同，稍后會有人詳細(xì)解釋。

　　o1是一個推理模式，所以它在回答問題之前思考的會更多。

　　我們發(fā)布了兩個模型——(滿血)o1的o1-preview，以及更小、更快的o1-mini，它和(滿血)o1采用的是相同的訓(xùn)練框架。

　　我們希望大家喜歡我們的新命名方式。

　　推理又是什么?

　　Bob McGrew:那么推理又是什么意思?

　　Giambattista Parascandolo:對于簡單問題來說，我們希望提問之后立刻就能得到答案。

　　比如你問意大利的首都在哪，你不用思考很多也知道答案是羅馬。

　　但如果你想知道一個復(fù)雜問題的答案，或者寫出一份好的商業(yè)計(jì)劃，或者寫一部小說，你可能就要思考一段時間了，并且你思考的越多，最后得到結(jié)果也就越好。

　　而推理就是把思考時間化為更好的成果的能力。

　　研發(fā)過程的那些事

　　你們在o1上工作多長時間了?

　　Bob McGrew:你們在o1上工作多長時間了?

　　Jakub Pachocki:在OpenAI早期，我們深受AlphaGo的成績的啟發(fā)，看到了深度強(qiáng)化學(xué)習(xí)的潛力，因此我們對其進(jìn)行了深入研究，并看到了數(shù)據(jù)和機(jī)器人技術(shù)的大規(guī)模擴(kuò)展。

　　我們也開始思考如何才能在通用領(lǐng)域進(jìn)行強(qiáng)化學(xué)習(xí)，從而實(shí)現(xiàn)非常強(qiáng)大的人工智能。

　　然后我們看到了GPT范式中擴(kuò)展和監(jiān)督學(xué)習(xí)帶來的驚人成果，從那時起，我們就一直在思考如何將這兩種不同的范式合二為一。

　　Mark Chen:項(xiàng)目開始的確切時間很難確定，但已經(jīng)與Yaku和Shimon進(jìn)行了早期探索，與Lukash、Ilya進(jìn)行了早期探索。

　　一個重要的時刻是Jerry的加入，他推動了這個大型項(xiàng)目的進(jìn)展。

　　研究過程中的“Aha moment”

　　Bob McGrew:我認(rèn)為在研究過程中最精彩的就是哪些“Aha moment”，你們的工作當(dāng)中有哪些高光時刻呢?

　　Jerry Tworek:我們訓(xùn)練了 GPT-2、GPT-3和 GPT-4，每一次都成為了媒體上的熱點(diǎn)。

　　但第一次有這種感覺是當(dāng)模型出來的時刻，所有人都稱贊很棒。

　　對于我而言，這樣的時刻是當(dāng)我們投入了更多計(jì)算資源，并第一次生成了連貫的思維鏈時。

　　當(dāng)時我們心想，這和以前的模型看起來真的很不一樣。

　　Trapit Bansal:當(dāng)我們考慮訓(xùn)練一個推理模型時，我立即想到的一件事是，用人類的思維過程進(jìn)行訓(xùn)練。

　　但我發(fā)現(xiàn)，使用RL訓(xùn)練模型來生成己的思維鏈，結(jié)果可以做得比人類寫的思維鏈更好。

　　在我看來這就是一個“Aha moment”，它告訴我們可以通過這種訓(xùn)練方式，讓擴(kuò)展模型的推理能力得到擴(kuò)展。

　　Hunter Lightman:我們花了很長的時間，一直嘗試讓模型更好地解決數(shù)學(xué)問題。

　　為此我們付出了很多努力，我們想出了很多不同的方法，但有一件事讓我一直很沮喪，

　　每次我讀到這些模型的輸出時，發(fā)現(xiàn)模型似乎永遠(yuǎn)不會質(zhì)疑自己哪里出了問題，什么時候犯了錯誤。

　　但當(dāng)我們訓(xùn)練早期的o1模型并與之對話時，發(fā)現(xiàn)它在數(shù)學(xué)測試中得分更高了。

　　通過觀察它的推理方式，我們發(fā)現(xiàn)它開始質(zhì)疑自己，并進(jìn)行了非常有趣的反思。

　　那一刻我感覺哇，我們發(fā)現(xiàn)了一些不同的東西。

　　感覺模型像人還是像機(jī)器?

　　Bob McGrew:你們在看模型的思考過程時，覺得他們是更像真人還是更像機(jī)器人?

　　Liam Fedus:這更像是一種“精神體驗(yàn)”。

　　你可以看到模型也會犯很多人類經(jīng)常犯的錯誤，又能看到它對一些常識提出質(zhì)疑。

　　很奇怪，模型會帶有人類的行為。

　　Wojciech Zaremba:在模型被設(shè)定了ddl的情況下，往往會在快due的時候迅速得出結(jié)論。

　　好像大模型也知道自己必須立刻給出答案。

　　Karl Cobbe:我年輕的時候花了很多時間參加數(shù)學(xué)競賽，而我進(jìn)入人工智能領(lǐng)域的原因，就是試圖實(shí)現(xiàn)這個過程的自動化。

　　所以對我來說，這是一個非常重要的轉(zhuǎn)折點(diǎn)，因?yàn)槲铱吹竭@個模型實(shí)際上能夠遵循我解決這些問題時使用的步驟

　　雖然這不是完全相同的思路，但非常非常可靠。

　　Wojciech Zaremba:可以相信，這些模型正在成為真正推動工程和科學(xué)發(fā)展的因素。

　　如果它們似乎能解決即使專家也難以解決的問題，那么將能夠推動科學(xué)進(jìn)步。

　　研發(fā)過程中的困難

　　Bob McGrew:我們談了很多令人興奮的時刻，那么在工作過程中又遇到了什么障礙?

　　Jerry Tworek:訓(xùn)練大型模型從根本上來說就是一件非常非常困難的事情。

　　有成千上萬的事情可能出錯，而且在每個領(lǐng)域都有事情確實(shí)出錯了。

　　所以幾乎這里的每個人都像你們知道的一樣，在訓(xùn)練這些事情上付出了很多心血和汗水，并想出了如何讓模型繼續(xù)學(xué)習(xí)和進(jìn)步的方法。

　　實(shí)際上，成功的道路非常狹窄，而失敗的方式卻有很多。

　　Wojciech Zaremba:就像發(fā)射火箭一樣，如果你偏離了一個角度，你就無法到達(dá)目的地，而這就是我們的工作。

　　Ilge Akkaya:這個模型非常好，通常比人類好幾倍，能達(dá)到博士的水平。

　　但是這有時是一個挑戰(zhàn)，因?yàn)槲覀儽仨毥?jīng)常去驗(yàn)證模型沒有偏離軌道。

　　但我們已經(jīng)飽和了所有行業(yè)級的評估，我們不知道下一步該研究什么。

　　Mark Chen:這也是一種成就感，就像每次遇到難題一樣。

　　這就像這個團(tuán)隊(duì)要克服的另一個障礙，我真的很高興我們克服了所有這些小障礙。

　　OpenAI內(nèi)部這樣用o1

　　如何測試模型表現(xiàn)

　　Bob McGrew:你們測試模型的方法有哪些，有沒有什么喜歡的問題，并發(fā)現(xiàn)模型在這些問題上變得越來越好?

　　Shengjia Zhao:Strawberry里有幾個r?

　　Wojciech Zaremba:不管是什么原因，ChatGPT無法可靠地解決這些問題。

　　我們花了一年半的時間，現(xiàn)在我們可以計(jì)算出strawberry中的“r”的數(shù)量。

　　Hunter Lightman:我有一個習(xí)慣，我想其他人也有。

　　每當(dāng)上推特時，都會看到一些帖子說大模型無法解決這類問題。

　　我就把它復(fù)制粘貼進(jìn)去，然后發(fā)現(xiàn)我們的模型可以做到。

　　內(nèi)部o1使用方法

　　Bob McGrew:為了讓人們了解他們可以使用這個模型做什么，我很想聽聽你們使用o1的一些方法。

　　Hyung Won Chung:我使用o1的方式主要是用來寫代碼。

　　我的很多工作都是關(guān)于代碼的，我越來越關(guān)注問題定義，并使用TDD(測試驅(qū)動開發(fā))。

　　因此，我不再編寫實(shí)現(xiàn)功能的代碼，而是專注于編寫單元測試。

　　因?yàn)閛1可以實(shí)現(xiàn)東西，所以我可以專注于重要的、需要解決的高級問題，這真的是一種轉(zhuǎn)移我注意力的重要方式。

　　另一個領(lǐng)域是debug，現(xiàn)在當(dāng)我收到一些錯誤消息時，我只需傳遞給o1，有時它會立即解決。

　　即使沒有，它至少會給出一些更好的問題，提供一些更好地思考這個問題的方法。

　　所以對我來說，這是一個非常重要的工作變化，我希望這也能幫助其他人。

　　o1-mini的誕生過程

　　Bob McGrew:o1-mini的故事是怎樣的?它是如何誕生的?

　　Hongyu Ren:我們想把o1系列帶給更多人，它有更低的成本，所以做了o1mini。它是o1框架的最小演示，是“推理專家”。它不一定能知道你喜歡的名人的生日，但是它能有效地推理，并且很智能。

　　實(shí)際上它真的很聰明，比我們之前最好的模型都要聰明很多，幾乎與o1相當(dāng)，但是成本和時延比它低很多。

　　不過也確實(shí)有局限性，可能不知道很多外部世界知識。這與技術(shù)本身無關(guān)，我們試圖讓它達(dá)到和此前最好模型最小版本差不多的水平，并且仍舊在努力進(jìn)一步改進(jìn)它。

　　用戶嘗試了o1mini會很興奮，因?yàn)樗评砗退伎嫉乃俣日娴暮芸臁?/p>

　　是什么激勵你做這些研究?

　　Łukasz Kaiser:我只是覺得在這個世界上，有一些可以做推理、有智能的東西，比想象中小很多。它們可以以不同方式做到這一點(diǎn)，這就非常迷人了。

　　Giambattista Parascandolo:我覺得這是向模型范式轉(zhuǎn)變的第一步。以前花很長時間才能解決的問題，現(xiàn)在做到了分鐘級，這只是漫長道路的第一步。我們希望能在幾個月或幾年后，邁出第二步。

　　Wojciech Zaremba:我覺得這很有意義，我們可以對世界產(chǎn)生一些實(shí)質(zhì)性的積極影響。

　　而且這很有趣，我喜歡對著電腦“說話”，喜歡在集群上開始一項(xiàng)工作，也非常喜歡合作。

　　Jerry Tworek:我認(rèn)為科技可以改善人類生活，我喜歡我們的模型能為人工作，幫助我們解決日常問題，賦予它推理能力讓它做事。

　　Liam Fedus:我認(rèn)為這一范式解決了一些模型無法解決的問題，所以不僅僅是回答變好一點(diǎn)，而是通過規(guī)劃、通過錯誤糾正，它解鎖了全新能力，在世界上創(chuàng)造新知識的能力，比如科學(xué)發(fā)現(xiàn)，我認(rèn)為這是最令人興奮的部分。

　　短時間內(nèi)，它的自身進(jìn)化會越來越快，這真的很棒。

　　Mark Chen:我們團(tuán)隊(duì)中一些成員有數(shù)學(xué)等方面的背景，這驅(qū)動我們自己想去創(chuàng)造一個最好的系統(tǒng)。

　　Hyung Won Chung:我認(rèn)為推理比人們想象中的還要強(qiáng)大。當(dāng)人類想要完成某項(xiàng)任務(wù)時，最基本的方法就是推理，你會遇到困難，你必須要找到解決方法。

　　我覺得AI研究員的工作好像是要找到一種方法來投入更多的計(jì)算。硬件方面的研究者在這方面做的很好，很長一段時間硬件成本都在指數(shù)級下降。

　　需要的計(jì)算量越來越多，就好像肩膀上的重量越來越重。這個新模式找到了一種方法，來幫我們卸下一些重量。

　　在這項(xiàng)研究中，你們還觀察到什么嗎?

　　Jason Wei:我們發(fā)現(xiàn)一個有趣的現(xiàn)象是，每個模型都有自己的“怪癖”。

　　訓(xùn)練的每個模型在每個任務(wù)上的表現(xiàn)都不完全相同。所以模型可能有些任務(wù)表現(xiàn)得更好，有些表現(xiàn)得更差。每個模型都有它自己的個性和優(yōu)點(diǎn)。

　　最后，原視頻在這里奉上~

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信