黃仁勛對(duì)話 Transformer 八子：大模型的起源、現(xiàn)在和未來

2024年03月21日 18:15:45 鄭玥來源：微信公眾號(hào)：極客公園

　　隨著新一波 AI 浪潮席卷而來，英偉達(dá)突破 2 萬億美元市值成為最炙手可熱的科技公司，今年 GTC 大會(huì)儼然成為年度最受關(guān)注的科技行業(yè)盛會(huì)。

　　四天的數(shù)百場(chǎng)主題分享中，英偉達(dá)創(chuàng)始人黃仁勛和 Transformer 八子的對(duì)談，無疑是最受關(guān)注的場(chǎng)次之一。因?yàn)槟撤N意義上，雙方正是這波 AI 浪潮的奠基人。

　　谷歌大腦團(tuán)隊(duì) 2017 年發(fā)表了一篇名為《注意力就是你所需要的一切(Attention is all you need)》的論文，主要目的是解決自然語言處理領(lǐng)域，使用傳統(tǒng)的 RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))模型不能解決并行計(jì)算，從而導(dǎo)致算法效率低下的問題。

　　這篇文章提出的新的處理架構(gòu)就是 Transformer 模型，也是今天大模型的基石，而當(dāng)時(shí)這篇文章的八位聯(lián)名作者今天也被稱為 Transformer 八子。幾年后八子陸續(xù)離開谷歌，今天已經(jīng)成為 Essential AI、Character.AI 等硅谷重要 AI 公司的創(chuàng)始人或技術(shù)核心。

　　Transformer 八子

　　Ashish Vaswani，EssentialAI 聯(lián)合創(chuàng)始人兼 CEO

　　Noam Shazeer，Character.AI 首席執(zhí)行官兼聯(lián)合創(chuàng)始人

　　Jakob Uszkoreit，Inceptive 聯(lián)合創(chuàng)始人兼首席執(zhí)行官

　　Llion Jones，SakanaAI 聯(lián)合創(chuàng)始人兼首席技術(shù)官

　　Aidan Gomez，Cohere 聯(lián)合創(chuàng)始人兼首席執(zhí)行官

　　Lukasz Kaiser，OpenAI 技術(shù)人員

　　Illia Polosukhin，NEAR Protocol 聯(lián)合創(chuàng)始人

　　Niki Parmar，EssentialAI 聯(lián)合創(chuàng)始人(因家庭原因未出席)

　　八子在文章中提出了可以解決并行計(jì)算問題的新架構(gòu)，并預(yù)言了隨著訓(xùn)練規(guī)模的提升 AI 會(huì)展現(xiàn)出更強(qiáng)大的智能。但這一切需要更龐大的算力支持，而過去十年一直投入研發(fā) GPU 和加速計(jì)算的英偉達(dá)，則為八子的構(gòu)想提供了算力這個(gè)最關(guān)鍵的燃料。

　　于是，就有了 GPT 的誕生以及今天日新月異加速發(fā)展的 AGI 浪潮。而在這樣的一個(gè)時(shí)間節(jié)點(diǎn)上，黃仁勛和八子這些時(shí)代開拓者再次對(duì)話，也就有了更多看點(diǎn)。

　　以下是黃仁勛的開場(chǎng)獨(dú)白和他與八子的對(duì)話原文，由極客公園整理編譯。

　　黃仁勛開場(chǎng)

　　計(jì)算機(jī)處理器誕生于我出生的*年(與我出生無關(guān))。IBM System 360 定義了現(xiàn)代計(jì)算機(jī)的范疇，包括中央處理單元、I/O 子系統(tǒng)、多任務(wù)處理、硬件與軟件的分離、整個(gè)系列的兼容性以及向后兼容性，以保護(hù)軟件工程師的投資。這個(gè)描述到 80 年代末、90 年代初，個(gè)人電腦革命將計(jì)算機(jī)推向了高速發(fā)展，使計(jì)算機(jī)變成了我們所熟知的形態(tài)。每年性能的邊際成本下降，每 10 年計(jì)算成本降低約 10 倍。在過去的 20 年里，PC 革命使計(jì)算成本降低了 10,000 倍，比歷史上任何其他商品都要多。你能想象 20 年后，生活中的一切都變得更加便宜，汽車的價(jià)格從 2 萬美元降至 1 美元嗎，也許是 Uber。

　　英偉達(dá)創(chuàng)始人黃仁勛 | 圖片來源：NVIDIA GTC

　　但計(jì)算成本的大幅下降停止了，雖然每年仍有略微的改進(jìn)，但變化的速度已經(jīng)放緩。我們開始追求加速計(jì)算，這并不容易，因?yàn)樾枰獙栴}公式化，轉(zhuǎn)化為并行算法，這是一個(gè)非常困難的科學(xué)領(lǐng)域。我們相信，如果能夠加速代表 99% 運(yùn)行時(shí)間的 1% 代碼，那么將獲得巨大的好處，可以實(shí)現(xiàn)一些之前認(rèn)為不可能的事情，或者將需要大量金錢或能量的事情變得更加成本效益和節(jié)能。

　　在公司歷史的整個(gè)過程中，我們一直在研究加速計(jì)算，不斷地加速應(yīng)用領(lǐng)域。盡管人們認(rèn)為我們是一家電腦游戲公司，但我們也在追求其他領(lǐng)域的加速計(jì)算。我們最初在計(jì)算機(jī)圖形和游戲中找到了這種情況，這推動(dòng)了技術(shù)的創(chuàng)新和市場(chǎng)的發(fā)展。2012 年，我們首次意識(shí)到人工智能與 Nvidia GPU 的潛力，引發(fā)了我們對(duì)這個(gè)領(lǐng)域的興趣。

　　我們堅(jiān)信，如果我們能夠加速代表 99% 運(yùn)行時(shí)間的 1% 代碼，那么在某些應(yīng)用領(lǐng)域，我們將獲得巨大的好處，實(shí)現(xiàn)巨大的差異。

　　我們可以將一些不可能的事情變?yōu)榭赡�，將需要花費(fèi)大量金錢的事情變得具有成本效益，或者將需要消耗大量能量的事情變得更加節(jié)能。因此，我們將這一概念稱為加速計(jì)算，并在公司歷史的整個(gè)持續(xù)時(shí)間內(nèi)不斷進(jìn)行研究。

　　我們可以在一個(gè)接一個(gè)的應(yīng)用領(lǐng)域加速發(fā)展。盡管人們認(rèn)為我們是一家電腦游戲公司，但我們也在其他領(lǐng)域不斷追求進(jìn)步。我們認(rèn)識(shí)到計(jì)算機(jī)圖形和游戲的價(jià)值，因?yàn)樗鼈儾粌H是龐大的市場(chǎng)，還推動(dòng)了技術(shù)創(chuàng)新。這種罕見的情況是由從未被滿足的龐大市場(chǎng)與技術(shù)革命的潛力交匯而成。我們最初在計(jì)算機(jī)圖形和游戲中找到了這種情況，引發(fā)了我們對(duì)這個(gè)領(lǐng)域的興趣。

　　幾年后，一些驚人的事情發(fā)生了，導(dǎo)致了今天的局面。我將馬上告訴你那件事。這一切導(dǎo)致了生成式人工智能的出現(xiàn)�，F(xiàn)在，當(dāng)你聽到生成式人工智能時(shí)，當(dāng)然會(huì)感到不可思議。

　　事實(shí)上，軟件不僅可以識(shí)別一張貓的圖片并保存貓，還可以根據(jù)「貓」這個(gè)詞生成一張貓的圖片。它可以根據(jù)一些條件提示，如在毛伊島的陽光明媚的海岸上，站在沖浪板上，喝著麥芬酒，戴著滑雪帽，無論你添加什么樣的提示，生成式人工智能都能夠生成出來。我們已經(jīng)開發(fā)出一種軟件程序，能夠理解像素的含義，識(shí)別像素，并從像素的含義中生成內(nèi)容。這種能力具有深遠(yuǎn)的變革意義，促使了今天的局面。

　　這是新的工業(yè)革命的開端，我有充分的理由。在這個(gè)新的工業(yè)革命中，我們正在創(chuàng)造一些以前從未存在過的東西。就像以前的工業(yè)革命一樣，最后一次，水進(jìn)入工廠，能量被應(yīng)用到水上。那個(gè)被稱為發(fā)電機(jī)的裝置開始運(yùn)轉(zhuǎn)，并創(chuàng)造出了我們今天所依賴的那些看不見但價(jià)值非凡的東西。

　　水進(jìn)入建筑物，基本上是將其轉(zhuǎn)化為能量，將其燒開，那么你會(huì)得到什么?你會(huì)得到電。這種電的魔力無處不在，它創(chuàng)造了我們所熟知的工業(yè)革命。

　　一種新的設(shè)施創(chuàng)造了一種新的、具有巨大價(jià)值的產(chǎn)品。雖然生成式人工智能是一種全新類型的軟件，軟件本質(zhì)上也是需要被創(chuàng)造的。令人驚奇的計(jì)算機(jī)科學(xué)必須去塑造它。但在那之后，它就可以進(jìn)行大規(guī)模生產(chǎn)了。一個(gè)裝有我們稱之為 GPU 的機(jī)器設(shè)備的建筑，本質(zhì)上就是一個(gè)發(fā)電機(jī)，一個(gè)內(nèi)部裝有機(jī)器設(shè)備的大型建筑。

　　你給它原材料數(shù)據(jù)，你給它能量，然后這個(gè)驚人的東西就出現(xiàn)了。數(shù)字進(jìn)去，數(shù)字出來，而出來的數(shù)字能夠做出令人驚奇、難以置信的事情。

　　當(dāng)然，它們可以被應(yīng)用。它們可以用于醫(yī)療保健和藥物設(shè)計(jì)，用于交通和降低汽車成本，以及用于制造業(yè)和工業(yè)，我們所熟知的每一個(gè)行業(yè)都將受益于這種新產(chǎn)品、這種新的生產(chǎn)物。因此，這是一個(gè)行業(yè)從未見過的全新產(chǎn)品。

　　它將在世界上從未見過的 AI 工廠和設(shè)施中進(jìn)行生產(chǎn)，并且 AI 將被每個(gè)行業(yè)使用。你會(huì)怎么稱呼這種情況呢?一個(gè)新的工業(yè)革命?這一切在此之前都不存在，但我們正在親眼見證著未來十年的發(fā)展。你*不能錯(cuò)過接下來的這十年，會(huì)誕生令人難以置信的能力。這一切始于一些研究人員的努力。

　　所以今天我們邀請(qǐng)了機(jī)器語言模型「Transformer」的發(fā)明者、創(chuàng)造者們，是那篇名為《注意力就是一切(Attention is All you need)》的論文的作者。好的，現(xiàn)在讓我們歡迎 Ashish Vaswani，EssentialAI 聯(lián)合創(chuàng)始人兼 CEO;Noam Shazeer，Character.AI 首席執(zhí)行官兼聯(lián)合創(chuàng)始人;Jakob Uszkoreit，Inceptive 聯(lián)合創(chuàng)始人兼首席執(zhí)行官;Llion Jones，SakanaAI 聯(lián)合創(chuàng)始人兼首席技術(shù)官;Aidan Gomez，Cohere 聯(lián)合創(chuàng)始人兼首席執(zhí)行官;Lukasz Kaiser，OpenAI 技術(shù)人員;Illia Polosukhin，NEAR Protocol 聯(lián)合創(chuàng)始人，我們還有一位同事和朋友 Niki Parmar，EssentialAI 聯(lián)合創(chuàng)始人，因?yàn)榧彝ゾo急情況無法出席，我們的心和思緒都與她在一起。

　　首先，我要說他們實(shí)際上從未同時(shí)出現(xiàn)在同一個(gè)房間里。我知道在家工作這件事有點(diǎn)失控了。但顯然，這并沒有阻止創(chuàng)新和發(fā)明。我們將會(huì)討論 Transformer 的重要性和意義，以及它不可思議的變革能力，對(duì)行業(yè)的影響。我們今天享受的一切都可以追溯到那一刻。我們能夠從數(shù)據(jù)中學(xué)習(xí)，從龐大的數(shù)據(jù)序列中學(xué)習(xí)，以及空間數(shù)據(jù)，但是能夠從大量數(shù)據(jù)中學(xué)習(xí)，找到關(guān)系和模式。創(chuàng)建這些龐大的模型真的是非常具有變革性的。

　　我們都同意，互相打斷、互相反駁甚至站起來進(jìn)行白板討論并非不禮貌。我們需要一個(gè)白板，今天沒有禁區(qū)。回到起點(diǎn)，工程師們，我們需要問題來激發(fā)靈感。

　　黃仁勛和 Transformer 八子| 圖片來源：NVIDIA GTC

　　回顧當(dāng)年，Transformer

　　是怎么被創(chuàng)造的？

　　黃仁勛：你們當(dāng)時(shí)面臨的問題或挑戰(zhàn)是什么，導(dǎo)致了這個(gè)想法的產(chǎn)生？Illia Polosukhin：因?yàn)槟莻€(gè)時(shí)候，模型在處理時(shí)間方面是不夠的。

　　黃仁勛：當(dāng)時(shí)存在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)和具有注意力機(jī)制的 RNNs，但在一次讀取一個(gè)詞和一次讀取一個(gè)詞之間存在差異。

　　Jakob Uszkoreit：我們生成的訓(xùn)練數(shù)據(jù)比我們能夠訓(xùn)練的*進(jìn)的架構(gòu)要快得多。因此，實(shí)際上有相似的架構(gòu)，只是使用了一些 n-grams 或其他特征，因?yàn)樗鼈冊(cè)谟?xùn)練上更快，這是規(guī)模的問題。大量的訓(xùn)練數(shù)據(jù)基本上總是超過了當(dāng)時(shí)更先進(jìn)、更強(qiáng)大的網(wǎng)絡(luò)。我們意識(shí)到了這一點(diǎn)。因此，修復(fù)這個(gè)問題似乎是有價(jià)值的。

　　Noam Shazeer：早在 2015 年，我們就已經(jīng)看到了這些縮放定律。你可以看到，讓模型變得更大，它就變得更聰明。這個(gè)問題就像世界歷史上*的問題一樣簡(jiǎn)單。你只需要預(yù)測(cè)下一個(gè) token，而模型將會(huì)變得越來越聰明，能夠執(zhí)行數(shù)百萬種不同的任務(wù)。我們的目標(biāo)只是擴(kuò)展它并使其更強(qiáng)大。

　　Illia Polosukhin：對(duì)于電力行業(yè)的人們來說，現(xiàn)在我們只需要等待它擴(kuò)展。

　　Ashish Vaswani：在攻讀研究生期間，特別是在 Transformer 出現(xiàn)時(shí)，我不斷被提醒兩個(gè)教訓(xùn)。*個(gè)是當(dāng)時(shí)我在進(jìn)行機(jī)器翻譯方面的工作時(shí)，我意識(shí)到學(xué)習(xí)語言規(guī)則并不重要，因?yàn)樘荻认陆祵?duì)于模型來說是一個(gè)更好的老師。第二個(gè)是我從苦澀的教訓(xùn)中明白，通用架構(gòu)的可擴(kuò)展性最終會(huì)獲得成功。

　　今天的 token 是明天計(jì)算機(jī)行動(dòng)的體現(xiàn)，它們開始模仿我們的活動(dòng)，并自動(dòng)化我們的工作。Transformer 自我注意，并使梯度下降變得更快。這是一種重復(fù)的主題，每次我們創(chuàng)建規(guī)則樣本時(shí)都會(huì)體現(xiàn)。

　　Noam Shazeer：沒錯(cuò)，這就是我們正在做的事情。所有的深度學(xué)習(xí)都是如此，我們正在構(gòu)建一個(gè)形狀類似 GPU 的 AI 模型，它的形狀類似于超級(jí)計(jì)算機(jī)。

　　在這里，這就像是世界歷史上*的問題。它是如此簡(jiǎn)單。你只是在預(yù)測(cè)下一個(gè) tokens，它將變得如此聰明，能夠做出數(shù)百萬種不同的事情，而你只是想要擴(kuò)展它并使其變得更好。黃仁勛：現(xiàn)在，你們?cè)诮鉀Q什么問題？

　　Lukasz Kaiser：機(jī)器翻譯。八年前，它看起來是如此困難，就像你不得不收集數(shù)據(jù)，也許會(huì)翻譯，也許會(huì)有點(diǎn)錯(cuò)誤。當(dāng)時(shí)這是非�；A(chǔ)的水平�，F(xiàn)在這些模型，你根本不需要任何數(shù)據(jù)。所以你只需學(xué)會(huì)翻譯這種語言，那種語言。模型就能翻譯了。

　　黃仁勛：什么樣的靈感讓你們想到了「AttentionIs All You Need」？

　　Llion Jones：酷，是我想出了這個(gè)標(biāo)題。我們當(dāng)時(shí)嘗試做切除，扔掉模型的一部分，只是為了看看會(huì)變得多糟糕。令我們驚訝的是，它開始變得更好，甚至包括扔掉所有的卷積。那時(shí)我腦海中的想法是，我就是和我的腦子在一起工作。這就是標(biāo)題的來源。

　　Llion Jones，SakanaAI 聯(lián)合創(chuàng)始人兼首席技術(shù)官|(zhì) 圖片來源：NVIDIA GTC

　　黃仁勛：誰想出了 Transformer 這個(gè)名字？為什么叫做 Transformer 呢？

　　Jakob Uszkoreit：但它確實(shí)符合模型的功能，它實(shí)際上改變了它所操作的整個(gè)信號(hào)，而不是去處理邏輯。Llion Jones：我認(rèn)為它成為一個(gè)如此通用的名稱的原因是，在論文中，我們集中討論了翻譯，但我們*意識(shí)到我們實(shí)際上正在嘗試創(chuàng)建一種非常通用的東西，它確實(shí)可以將任何東西轉(zhuǎn)化為其他任何東西。我不認(rèn)為我們預(yù)測(cè)到這將會(huì)有多么成功。

　　黃仁勛：當(dāng) Transformer 被用于圖像時(shí)，這是一個(gè)相當(dāng)令人驚訝的嘗試。事實(shí)上，你們可以將圖像分塊并標(biāo)記化每一部分。我認(rèn)為這在架構(gòu)上早就存在了。所以當(dāng)我們構(gòu)建張量到張量庫時(shí)，我們發(fā)現(xiàn)這不僅僅是針對(duì)語言的。其中包含了圖像、音頻、文本的組件，以及輸入和輸出方面的內(nèi)容。所以 Lukasz Kaiser 說他正在處理這些事情，我們現(xiàn)在開始看到的這些模態(tài)正在匯聚在一起，其實(shí)自始至終都是如此。

　　Aidan Gomez：這些想法在很早之前就已經(jīng)存在了，這些想法一直在醞釀，花了一些時(shí)間。我們的目標(biāo)是我們有所有這些學(xué)術(shù)數(shù)據(jù)集，它們從圖像到文本，再從文本到圖像，從音頻到文本，從文本到文本。我們應(yīng)該對(duì)所有內(nèi)容進(jìn)行訓(xùn)練。這個(gè)想法真正推動(dòng)了模型進(jìn)行擴(kuò)展，以模擬網(wǎng)絡(luò)�，F(xiàn)在我們?cè)S多人都在做類似的事情。

　　所以我認(rèn)為北極星*天就存在，所以看到這一切正在發(fā)生，是非常令人興奮滿足的。

　　黃仁勛：在這么多不同知識(shí)中，有翻譯的想法是普遍的。你們正在將它用于生物學(xué)？

　　Jakob Uszkoreit：我們可以將其稱為生物軟件，類似于計(jì)算機(jī)軟件，它起初是一個(gè)程序，然后編譯成可以在 GPU 上運(yùn)行的形式�；旧�，生物軟件的生命始于對(duì)特定行為規(guī)范的需求，比如在細(xì)胞中生成大量特定蛋白質(zhì)，然后通過深度學(xué)習(xí)將其轉(zhuǎn)譯成 RNA 分子。但實(shí)際上，一旦它們進(jìn)入細(xì)胞，它們就會(huì)表現(xiàn)出這些行為。所以，這個(gè)概念不僅僅是將安全的英語翻譯成計(jì)算機(jī)代碼，而且涉及到藥物的規(guī)范，即完全轉(zhuǎn)化為實(shí)際的分子藥物。

　　黃仁勛：你們是否創(chuàng)建了一個(gè)生產(chǎn)所有這些的大型網(wǎng)絡(luò)實(shí)驗(yàn)室？

　　Jakob Uszkoreit：如果你必須對(duì)自然進(jìn)行實(shí)驗(yàn)，你必須驗(yàn)證。有大量極其有價(jià)值的基因組數(shù)據(jù)可以下載，主要是因?yàn)樗旧先匀皇枪_的，是公共資助的。但實(shí)際上，你仍然需要數(shù)據(jù)，這些數(shù)據(jù)明確地解釋了你試圖模擬的現(xiàn)象。例如，針對(duì)某種產(chǎn)品，比如 mRNA 疫苗中的蛋白質(zhì)表達(dá)，這確實(shí)是相當(dāng)大的傳輸。

　　在帕洛阿爾托，我們有一群機(jī)器人和網(wǎng)絡(luò)公司的人員以及實(shí)驗(yàn)室的研究人員，他們以前是生物學(xué)家�，F(xiàn)在我們把自己看作是一種新事物的先驅(qū)者，努力工作并實(shí)際創(chuàng)建數(shù)據(jù)，并驗(yàn)證設(shè)計(jì)這些數(shù)據(jù)的模型。

　　黃仁勛：所以你說一開始就有一些關(guān)于普遍 Transformer 的早期想法。但你們所有人在這條路上都看到了一些重大的、你們認(rèn)為是基于基本 Transformer 設(shè)計(jì)的，真正偉大的額外貢獻(xiàn)，主要是架構(gòu)性的修復(fù)、增強(qiáng)和突破。

　　Aidan Gomez：我覺得在推理方面，已經(jīng)有很多工作來加速這些模型，使它們更高效。但我仍然覺得有點(diǎn)不安，因?yàn)樗c我們以前的形式非常相似。我認(rèn)為世界需要比 Transformer 更好的東西。我想問一下在座的每個(gè)人，你認(rèn)為接下來會(huì)發(fā)生什么?是令人興奮的一步嗎?因?yàn)槲矣X得現(xiàn)在與 6、7 年前的情況相似。

　　Llion Jones：人們可能會(huì)感到驚訝。但我認(rèn)為重要的是要明顯、顯而易見地變得更好。因?yàn)槿绻皇巧晕⒏倪M(jìn)，那還不足以讓整個(gè)人工智能行業(yè)轉(zhuǎn)向新事物。所以盡管原始模型可能不是我們現(xiàn)在擁有的最強(qiáng)大的東西，但我們?nèi)匀还淌卦谠瓉淼哪Ｐ蜕稀?/p>

　　黃仁勛：但是每個(gè)人的工具集都是不同的，但你們想要改進(jìn)的屬性是什么呢？是我想要改進(jìn)生成能力，還是想要更快。

　　Jakob Uszkoreit：我不確定你是否喜歡這個(gè)答案，但他們現(xiàn)在使用的計(jì)算量太大了。我覺得他們浪費(fèi)了很多計(jì)算資源。

　　黃仁勛：我們正在努力提高效率。謝謝你。

　　Jakob Uszkoreit 等人：但實(shí)際上，這是關(guān)于分配，而不是關(guān)于總量。我同意你的觀點(diǎn)。實(shí)際上，這真的是關(guān)于在問題上投入適量的努力和能量。你不想在一個(gè)容易的問題上投入太多，或者在一個(gè)困難的問題上投入太少，然后無法提供適當(dāng)?shù)慕鉀Q方案。

　　Illia Polosukhin：所以現(xiàn)在一個(gè)真實(shí)的例子就是 2 加 2。如果你輸入這個(gè)模型，它會(huì)使用 1 萬億個(gè)參數(shù)。用戶群體完全自己有能力做到這一點(diǎn)。

　　我認(rèn)為自適應(yīng)計(jì)算是接下來必須解決的問題之一，這樣我們就知道在特定問題上要花費(fèi)多少計(jì)算資源。

　　Illia Polosukhin，NEAR Protocol 聯(lián)合創(chuàng)始人| 圖片來源：NVIDIA GTC

　　Aidan Gomez：我們中一些作者已經(jīng)發(fā)布了跟進(jìn)通用 Transformer 的論文，在解決了這個(gè)問題。

　　Lukasz Kaiser：這些想法在一年前就存在了，但現(xiàn)在已經(jīng)普及到各個(gè)領(lǐng)域，甚至在 Transformer 出現(xiàn)之前就已經(jīng)展開了。

　　Ashish Vaswani：我們最初的目標(biāo)是模擬 token 的演變，實(shí)現(xiàn)線性生成。現(xiàn)在這個(gè)過程也適用于圖像，擴(kuò)散模型會(huì)迭代地進(jìn)行改進(jìn)和完善。

　　根本的問題是，哪些知識(shí)應(yīng)該存在于模型內(nèi)部，哪些應(yīng)該存在于模型外部?例如，推理應(yīng)該在外部使用符號(hào)系統(tǒng)進(jìn)行，這是一個(gè)效率的論點(diǎn)。

　　Ashish Vaswani，EssentialAI 聯(lián)合創(chuàng)始人兼 CEO| 圖片來源：NVIDIA GTC

　　Noam Shazeer：擁有 5000 億參數(shù)的模型每個(gè) tokens 仍然只相當(dāng)于一美元的百萬分之一。這是非常便宜的。我們可以利用這個(gè)來提升模型的智能。

　　我們有一些應(yīng)用程序的價(jià)值是計(jì)算巨型神經(jīng)網(wǎng)絡(luò)的效率的百萬倍以上。比如治愈癌癥之類的，當(dāng)然很重要，但即使只是與任何人交談，與你的醫(yī)生、律師、程序員交談，你也需要支付 1 美元一個(gè) tokens，或者更多。我們有一百萬個(gè) tokens 來使用，我們可以用它來讓模型變得更聰明。有時(shí)候，恰到好處的詞語就能改變世界。

　　Ashish Vaswani：獲取正確的反饋對(duì)于提升模型智能至關(guān)重要。我們需要將任務(wù)分解為人類可以干預(yù)的步驟，并構(gòu)建能夠通過觀察我們學(xué)習(xí)的模型。

　　現(xiàn)在「散是滿天星」，

　　都在做什么？

　　黃仁勛：你們能不能快速地談?wù)?/strong>現(xiàn)在的公司以及為什么決定創(chuàng)辦它？

　　Ashish Vaswani：我們非常興奮地致力于構(gòu)建模型，這些模型最終可以以與人類相同的效率水平學(xué)習(xí)解決新任務(wù)。它們觀察我們的行為，理解我們的意圖和目標(biāo)，并開始模仿我們的行為。這將徹底改變我們與計(jì)算機(jī)的互動(dòng)方式和工作方式。這是在 2021 年的目標(biāo)。

　　我離開的一個(gè)重要原因是，要使這些模型變得更智能，不能僅在實(shí)驗(yàn)室的真空中培養(yǎng)它們。實(shí)際上，你必須把它們放到人們手中，因?yàn)槟阈枰澜鐏碜⑨�。確切地說，你希望世界與這些模型互動(dòng)，從中獲得反饋，并使這些模型變得更智能。做到這一點(diǎn)的方法就是走出去，建立一些有用的東西。

　　Jakob Uszkoreit，Inceptive 聯(lián)合創(chuàng)始人兼首席執(zhí)行官|(zhì) 圖片來源：NVIDIA GTC

　　黃仁勛：學(xué)習(xí)確實(shí)需要*變量飛輪。

　　Noam Shazeer：當(dāng)我在 2021 年發(fā)現(xiàn)這一切時(shí)，我當(dāng)時(shí)*的挫敗感是，這項(xiàng)令人難以置信的技術(shù)沒有普及到每個(gè)人手中。因?yàn)樗刑嗟挠猛�，而且使用起來非常�?jiǎn)單。作為一個(gè)心急的人，我希望這項(xiàng)技術(shù)能夠被十億人使用，讓他們能夠開展各種各樣的活動(dòng)。

　　讓我們盡可能快地建造一些東西，把它推廣出去，讓數(shù)十億人能夠使用它。首先，很多人只是為了娛樂、情感支持、陪伴或類似的東西而使用它等等。

　　Noam Shazeer，Character.AI 首席執(zhí)行官兼聯(lián)合創(chuàng)始人| 圖片來源：NVIDIA GTC

　　Jakob Uszkoreit：我已經(jīng)稍微談到了生物軟件的一些內(nèi)容，對(duì)我個(gè)人而言，在 2021 年，我共同創(chuàng)立了 Inceptive，主要是因?yàn)橐庾R(shí)到這項(xiàng)技術(shù)可以對(duì)商業(yè)生活產(chǎn)生更直接的影響，甚至比之前的廣泛應(yīng)用更為直接。在疫情期間，我的*個(gè)孩子出生了，這無疑讓我對(duì)生命的脆弱有了新的認(rèn)識(shí)。然后，在 AlphaFold 2 發(fā)布蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)結(jié)果幾周后，我對(duì)這一技術(shù)產(chǎn)生了濃厚的興趣。

　　而 AlphaFold 2 與 AlphaFold 1 之間的一個(gè)重大區(qū)別在于，他們開始使用了 Transformer，并用它替換了模型或架構(gòu)的其余部分。因此，很明顯，這些技術(shù)已經(jīng)可以在分子生物學(xué)領(lǐng)域發(fā)揮作用。幾周后，mRNA 新冠疫苗的有效性結(jié)果出來了，很明顯，mRNA 和 RNA 在一般情況下可以特別生存，你可以使用 RNA 做生命的任何事情。很長(zhǎng)一段時(shí)間以來，RNA 在某種程度上一直被視為分子生物學(xué)的被忽視的親生子女。所以這似乎幾乎是一種道德義務(wù)，這必須發(fā)生。

　　黃仁勛：我一直認(rèn)為它是藥物設(shè)計(jì)。但我喜歡你把它看作蛋白質(zhì)編程。

　　Llion Jones：我去年剛剛開始了一項(xiàng)新項(xiàng)目，現(xiàn)在還處于非常早期的階段，但我可以告訴你到目前為止我們都取得了哪些進(jìn)展。

　　我是 Sakana AI 公司的共同創(chuàng)始人之一。Sakana 在日語中意為魚，日本人似乎很喜歡這個(gè)名字，我們選擇這個(gè)名稱是因?yàn)槲覀兿Ｍぐl(fā)人們對(duì)魚群的聯(lián)想。我們的目標(biāo)是實(shí)現(xiàn)自然啟發(fā)的人工智能。就像一群小魚一樣簡(jiǎn)單，但當(dāng)將許多簡(jiǎn)單的元素聚集在一起時(shí)，它們就會(huì)變得相當(dāng)復(fù)雜。然而，人們對(duì)我們所說的自然啟發(fā)并不完全理解。

　　我試圖向加入我們的研究人員傳達(dá)的核心思想是，只要不斷學(xué)習(xí)，就會(huì)取得成功。每當(dāng)我們?cè)噲D手工操作某事時(shí)，嘗試自己工程化，但最終轉(zhuǎn)向使用計(jì)算機(jī)搜索空間時(shí)，我們總是會(huì)取得成功。深度學(xué)習(xí)革命就是一個(gè)例子，我們從手工工程化特征轉(zhuǎn)向?qū)W習(xí)它們，結(jié)果效果要好得多。我想提醒大家，除了梯度下降，我們還可以利用 Nvidia 提供的大量計(jì)算資源來進(jìn)行其他工作。

　　今天或明天我們準(zhǔn)備做一些公告。我很驚訝我們這么早就有東西要宣布，但我們即將開源一些研究成果。這與我們的品牌形象非常契合，因?yàn)槟壳傲餍械内厔?shì)是模型融合，但這通常需要手工完成。我們并不是手工制作合并這些模型的算法。相反，我們利用了大量的計(jì)算資源，使用進(jìn)化計(jì)算來搜索如何合并和堆疊層。結(jié)果非常令人滿意。

　　Aidan Gomez：我創(chuàng)建 Coherer 的原因與 Jones 非常相似。我看到了一項(xiàng)我認(rèn)為能改變世界的技術(shù)。計(jì)算機(jī)開始向我們回應(yīng)。它們獲得了一種新的模態(tài)。因此，我認(rèn)為這應(yīng)該改變一切，每一個(gè)產(chǎn)品，我們工作的方式，以及我們與所有建立在計(jì)算機(jī)之上的東西互動(dòng)的方式。

　　有一種停滯感，以及我們這些了解情況的人所面對(duì)的技術(shù)與外界實(shí)際運(yùn)用的情況之間存在的不一致。因此，我想要彌合這種差距。我與諾姆的做法有些不同，因?yàn)?Coherer 是為企業(yè)建造的。因此，我們?yōu)槊考移髽I(yè)創(chuàng)建平臺(tái)，使其能夠?qū)⑵浼傻疆a(chǎn)品中，而不是直接面向消費(fèi)者。但這正是我們想要推動(dòng)這項(xiàng)技術(shù)的方式，使其更加普及，更加便宜，并幫助企業(yè)采用它。

　　Aidan Gomez，Cohere 聯(lián)合創(chuàng)始人兼首席執(zhí)行官|(zhì) 圖片來源：NVIDIA GTC

　　Lukasz Kaiser：我沒有找到適合我的……

　　黃仁勛：我知道，但你繼續(xù)改變著世界，繼續(xù)吧。

　　Lukasz Kaiser：是的，我最終決定再次加入 OpenAI�？ㄆ占{被問到為什么會(huì)回來，他說那里有錢，有時(shí)間。我加入的地方是 AI *的地方。公司里非常有趣。我們知道你可以利用大量數(shù)據(jù)和計(jì)算資源創(chuàng)建出優(yōu)秀的東西，我仍然希望能夠招募更多的人，以及更多的計(jì)算資源。

　　Illia Polosukhin ：我實(shí)際上是*個(gè)中途離開的人。因?yàn)榕c阿什利的觀點(diǎn)相似，我堅(jiān)信我們向著實(shí)現(xiàn)幾乎所有世界中的軟件化進(jìn)步，而機(jī)器學(xué)習(xí)就是軟件的一部分。因此，最直接的方法是教會(huì)機(jī)器編碼，這樣你就能夠生成軟件并改變所有人的訪問方式。

　　現(xiàn)在這是在 2017 年。當(dāng)時(shí)還有點(diǎn)早。我們的計(jì)算能力還不夠好。因此，我們?cè)噲D協(xié)調(diào)人們來生成更多的數(shù)據(jù)。作為一家初創(chuàng)公司，你實(shí)際上有能力將產(chǎn)品放在用戶面前，并激勵(lì)他們。

　　我們最終意識(shí)到我們需要一種新的基本原語，那就是可編程貨幣，因?yàn)榭删幊特泿攀亲屛覀兡軌蛟谝?guī)模上協(xié)調(diào)人們的工具。因此，我們最終建立了一個(gè)協(xié)議，這是一個(gè)區(qū)塊鏈，自 2020 年以來一直在運(yùn)行。這個(gè)協(xié)議擁有世界上最多的用戶。在區(qū)塊鏈空間中，每天有數(shù)百萬用戶使用它，甚至他們自己都不知道他們?cè)谑褂脜^(qū)塊鏈，但他們與可編程貨幣、可編程價(jià)值進(jìn)行交互。現(xiàn)在我們開始利用這一點(diǎn)，實(shí)際上將一些工具帶回來，以生成更多的數(shù)據(jù)。我認(rèn)為從根本上來說，在這個(gè)群體中是毫無爭(zhēng)議的，但在其他地方可能會(huì)有爭(zhēng)議，那就是從 18 世紀(jì)起的版權(quán)技術(shù)需要改變。我們正處于一個(gè)新的敘事時(shí)代，我們現(xiàn)在所獎(jiǎng)勵(lì)創(chuàng)作者的方式已經(jīng)失效。*的方法是利用可編程貨幣和區(qū)塊鏈來創(chuàng)建價(jià)值。因此，我們正在致力于創(chuàng)建一種新穎的方式，讓人們可以貢獻(xiàn)數(shù)據(jù)，以使用那些超級(jí)酷的模型。

　　Lukasz Kaiser，OpenAI 技術(shù)人員| 圖片來源：NVIDIA GTC

　　黃仁勛：這確實(shí)非�？�。然后你們將建立一個(gè)全新的正反饋系統(tǒng)，完全符合我們正在做的一切。在此之上還有一個(gè)偉大的新經(jīng)濟(jì)。我們有可編程的人類，有可編程的蛋白質(zhì)，有可編程的貨幣。我喜歡這個(gè)想法。

　　當(dāng)前一代的 GPT 模型擁有巨大的訓(xùn)練數(shù)據(jù)集，大約有 10 萬億個(gè) tokens，與互聯(lián)網(wǎng)上可自由抓取的內(nèi)容相當(dāng)。那么接下來呢？下一步需要探索哪些新的模型技術(shù)，比如推理、知識(shí)等等，你們有討論過嗎？

　　Illia Polosukhin：數(shù)據(jù)需要來自用戶的交互，這需要大規(guī)模的平臺(tái)來建立并跟蹤。人們需要從中獲得經(jīng)濟(jì)價(jià)值來進(jìn)行這些交互。在后臺(tái)，你可以將數(shù)據(jù)導(dǎo)入到所有這些模型中，以使它們變得更智能，并且可以更智能地處理它，使模型變得更好。

　　黃仁勛：你可以通過強(qiáng)化學(xué)習(xí)讓模型相互交互，從而逐步優(yōu)化出一個(gè)令人想要與之互動(dòng)的、令人滿意的預(yù)訓(xùn)練模型。此外，你還可以利用合成數(shù)據(jù)生成技術(shù)來豐富數(shù)據(jù)集，從而幫助模型更好地學(xué)習(xí)和泛化。

　　Llion Jones：推理是下一個(gè)重要的發(fā)展方向。很多人已經(jīng)意識(shí)到了這一點(diǎn)，并且正在致力于研究。但是目前很多工作都是手工設(shè)計(jì)的，我們?cè)谑止ぞ帉懱崾拘畔�，然后嘗試讓它們以我們認(rèn)為合適的方式進(jìn)行交互。當(dāng)然，我們實(shí)際上應(yīng)該搜索這個(gè)領(lǐng)域，學(xué)習(xí)如何將它們連接起來，打造出我們想要的功能強(qiáng)大的模型。

　　Jakob Uszkoreit：這是一個(gè)很好的思路。我們希望模型生成的內(nèi)容能夠符合人類的消費(fèi)需求，因此這些模型應(yīng)該接受我們喜歡或可以接受的所有刺激作為訓(xùn)練數(shù)據(jù)。因此，任何類型的視頻、音頻、任何觀察世界的方式所獲得的信息，包括時(shí)序信息，都應(yīng)該被納入到訓(xùn)練數(shù)據(jù)中。

　　Lukasz Kaiser ：是的，推理和學(xué)習(xí)之間的關(guān)系確實(shí)非常密切。如果你有一個(gè)能夠進(jìn)行推理的模型，然后你只需要一點(diǎn)點(diǎn)數(shù)據(jù)。它就會(huì)進(jìn)行一系列的推理，從中產(chǎn)生結(jié)果。為什么這個(gè)事物會(huì)如此發(fā)展?但是它可以投入大量計(jì)算來進(jìn)行這樣的推理。然后，結(jié)果就出來了，它能夠從更少的數(shù)據(jù)中進(jìn)行泛化，因?yàn)樗谕评磉^程中進(jìn)行了大量計(jì)算。這就像是一個(gè)思考的系統(tǒng)，就像人類一樣。

　　Illia Polosukhin：是的，然后你可以讓它自行發(fā)展，嘗試將它設(shè)計(jì)的東西融入其中，這樣它就能夠在繼續(xù)搜索推理時(shí)構(gòu)建出*影響力的數(shù)據(jù)。

　　Lukasz Kaiser：當(dāng)我們弄清楚了之后，這將極大地減少數(shù)量。但數(shù)據(jù)的質(zhì)量將變得更加重要，這就是人們與現(xiàn)實(shí)世界互動(dòng)的地方。因此，我認(rèn)為會(huì)出現(xiàn)一個(gè)新時(shí)代，仍然會(huì)有一些免費(fèi)的預(yù)訓(xùn)練模型，但重要的事情可能會(huì)是大型、高質(zhì)量的事情。這可能會(huì)更容易讓人們接受。

　　Ashish Vaswani：我也認(rèn)為，領(lǐng)域取得了很大進(jìn)展，這就好比是將大規(guī)模的現(xiàn)實(shí)世界任務(wù)分解為更簡(jiǎn)單的任務(wù)，這種逐步漸進(jìn)的過程也很重要，因?yàn)槲覀兊哪Ｐ涂赡芸梢酝瓿善渲械囊恍┤蝿?wù)，然后部署并獲取更多數(shù)據(jù)。一旦這個(gè)循環(huán)閉合了，它們就有權(quán)利去處理更復(fù)雜的任務(wù)，因?yàn)樗鼈円部赡茉谟^察它們正在做什么。

　　確實(shí)，這是一個(gè)很好的觀點(diǎn)。建立衡量進(jìn)展和取得進(jìn)步需要拆解或創(chuàng)建類似我們對(duì)某些電子郵件所做的，即自動(dòng)化或交互的科學(xué)，與代碼生成的科學(xué)相比，這些都是不同的領(lǐng)域。成功的工程學(xué)需要良好的測(cè)量。

　　黃仁勛：你們想問對(duì)方的三個(gè)問題是什么？

　　Llion Jones ：是的，你提到的這些早期模型在當(dāng)時(shí)的研究領(lǐng)域確實(shí)起到了一定作用，但由于 Transformer 模型的出現(xiàn)，人們可能忘記了它們的存在。然而，這些早期模型所面臨的問題可能在一定程度上也存在于當(dāng)前的模型中。因此，我同意你的觀點(diǎn)，未來可能會(huì)出現(xiàn)混合模型，結(jié)合了 Transformer 模型和早期模型的優(yōu)勢(shì)。

　　Illia Polosukhin ：Transformer 模型中的自注意力機(jī)制可以視為一種「遞歸步驟」，在每個(gè)步驟中，模型都會(huì)根據(jù)輸入中的不同部分來更新信息。這種遞歸性質(zhì)使得模型能夠在每個(gè)步驟中對(duì)輸入進(jìn)行增強(qiáng)和推理。然而，有趣的是，目前很少有人探索通過連接不同數(shù)量的遞歸步驟來訓(xùn)練模型，這可能是一個(gè)值得研究的方向。通過探索遞歸性質(zhì)，我們可能能夠擴(kuò)展模型的推理能力，并使其能夠處理更復(fù)雜的任務(wù)。

　　確實(shí)，有時(shí)候并不需要固定數(shù)量的步驟，而是需要根據(jù)輸入的復(fù)雜程度來動(dòng)態(tài)調(diào)整遞歸步驟的數(shù)量。這種動(dòng)態(tài)調(diào)整可能會(huì)使模型更加靈活，能夠更好地處理不同類型的輸入和任務(wù)。另外，關(guān)于如何擺脫 tokens，這也是一個(gè)非常值得探索的問題。

　　Lukasz Kaiser：我個(gè)人認(rèn)為，對(duì)于如何使用梯度下降來完全學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的訓(xùn)練，我們尚未完全掌握。或許這很簡(jiǎn)單。我是說，長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)有一些誤差操作符，這使得早期的情況能夠工作。

　　那么，SSMs(Structured Self-Attentive Models)工作得更好，對(duì)嗎?這是因?yàn)樗鼈兊慕Y(jié)構(gòu)可能需要用不同的方式訓(xùn)練，而不是用梯度下降。也許我們需要像人類一樣在一些服務(wù)中進(jìn)行遞歸訓(xùn)練，我們生活在時(shí)間中。我們會(huì)帶來一些生活時(shí)間，但這并不那么清楚。我們是否通過傳播進(jìn)行訓(xùn)練，可能不是。因此，也許有一種方法只是我們還沒有找到。

　　Illia Polosukhin ：以及下降，為什么很難做到這一點(diǎn)。

　　黃仁勛：好的，伙計(jì)們，和你們共度時(shí)光真是太棒了。我真的希望你們偶爾能聚在一起。下次你們的互動(dòng)會(huì)帶來多么驚人的魔力。所以我們有一個(gè)整個(gè)行業(yè)都感激你們所做的工作。

　　大家：同樣。謝謝。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信

擴(kuò)展閱讀
業(yè)界新聞

無相關(guān)信息

即時(shí)

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會(huì)上，Adobe推出了最新版本的Adobe Creative Cloud。

QQ音樂年度聽歌報(bào)告發(fā)布：誰是你最喜歡的歌手？
OpenAI正式發(fā)布o(jì)3 - 通往AGI的路上，已經(jīng)沒有了任何阻礙

游戲體驗(yàn)天花板一加Ace 5系列正式定檔12月26日
“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅(jiān)持質(zhì)價(jià)比不動(dòng)

新聞

明火炊具市場(chǎng)：三季度健康屬性貫穿全類目

奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示，2024年1-9月明火炊具線上零售額94.2億元，同比增加3.1%，其中抖音渠道表現(xiàn)優(yōu)異，同比有14%的漲幅，傳統(tǒng)電商略有下滑，同比降低2.3%。

2024下半年可信云·行業(yè)云平臺(tái)評(píng)估成
2024年11月中國(guó)家用智能門鎖線上市場(chǎng)

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

“以前都要去窗口辦，一套流程下來都要半個(gè)月了，現(xiàn)在方便多了!”打開“重慶公積金”微信小程序，按照提示流程提交相關(guān)材料，僅幾秒鐘，重慶市民曾某的賬戶就打進(jìn)了21600元。

QQ音樂年度聽歌報(bào)告發(fā)布：誰是你最喜
OpenAI正式發(fā)布o(jì)3 - 通往AGI的路上，

3C消費(fèi)

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實(shí)力，創(chuàng)

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力，為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助，雙十一期間低至2799元，性價(jià)比很高，簡(jiǎn)直是創(chuàng)作者們的首選。

“萬象分區(qū)”引領(lǐng)電視行業(yè)新潮流，T
一加Ace 5系列雙杯齊發(fā)：性能大作壓

研究

中國(guó)信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

9月14日，2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。

2024下半年可信云·行業(yè)云平臺(tái)評(píng)估成
第二屆智能車載光峰會(huì)舉行：光智交融

專題

中文科技資訊關(guān)于我單位網(wǎng)站被仿冒一
2021 CCF全國(guó)高性能計(jì)算學(xué)術(shù)年會(huì)

黃仁勛對(duì)話 Transformer 八子：大模型的起源、現(xiàn)在和未來

擴(kuò)展閱讀

黃仁勛對(duì)話 Transformer 八子：大模型的起源、現(xiàn)在和未來