同樣是基于GPT預(yù)訓(xùn)練模型,為什么ChatGPT的效果要遠(yuǎn)遠(yuǎn)超出GPT-3等前幾代模型?
答案已經(jīng)揭曉,成就ChatGPT的秘密武器在于RLHF,也就是人類(lèi)反饋的強(qiáng)化學(xué)習(xí)。
在預(yù)訓(xùn)練階段,GPT模型學(xué)習(xí)關(guān)于這個(gè)世界的一切,而在RLHF階段,ChatGPT更關(guān)注的讓模型輸出正確、有益的恰當(dāng)結(jié)果,并對(duì)結(jié)果不斷進(jìn)行微調(diào)。
具體而言,RLHF階段的調(diào)優(yōu)又分為三大步驟:
第一步:通過(guò)監(jiān)督學(xué)習(xí),用人類(lèi)對(duì)不同提示的“理想”回答數(shù)據(jù)微調(diào)LLM;
第二步:LLM 為每個(gè)提示提供多個(gè)答案,然后由人工評(píng)估員對(duì)這些答案進(jìn)行排名(該排名用于訓(xùn)練獎(jiǎng)勵(lì)模型);
第三步:用近端策略?xún)?yōu)化(PPO)模型來(lái)優(yōu)化LLM的獎(jiǎng)勵(lì)模型。
此前,ChatGPT負(fù)責(zé)人John Schulman介紹了RLHF想法的起源,關(guān)鍵在于他們?cè)谡Z(yǔ)言模型中應(yīng)用強(qiáng)化學(xué)習(xí),使用人類(lèi)反饋去定義獎(jiǎng)勵(lì)函數(shù)。
此外,OpenAI的RLHF所使用的諸多技術(shù)也是基于前人研究基礎(chǔ)上組合而成的成果,其中就包括Natasha Jaques的工作。
Natasha是Google Brain的高級(jí)研究科學(xué)家,OpenAI的不少工作引用了她所發(fā)表的與RLHF和對(duì)話(huà)模型相關(guān)的強(qiáng)化學(xué)習(xí)論文。在近期Robin Ranjit Singh Chauhan主持的TalkRL播客節(jié)目中,她從第三方視角,介紹了對(duì)RLHF及其獎(jiǎng)勵(lì)模型相關(guān)思路,以及對(duì)強(qiáng)化學(xué)習(xí)研究與AGI發(fā)展等方面的看法。
目前,她的研究重點(diǎn)是社交強(qiáng)化學(xué)習(xí)(Social Reinforcement Learning),開(kāi)發(fā)結(jié)合來(lái)自社交學(xué)習(xí)和多智能體訓(xùn)練的見(jiàn)解的算法,以提高AI智能體的學(xué)習(xí)、泛化、協(xié)作以及人機(jī)交互能力。2024年1月,她將加入華盛頓大學(xué)計(jì)算機(jī)科學(xué)學(xué)院擔(dān)任助理教授。
詳情請(qǐng)參考:https://www.talkrl.com/episodes/natasha-jaques-2
01 RLHF相關(guān)研究與成本效益
Robin Chauhan:你很早就開(kāi)始了人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)以及對(duì)話(huà)模型這方面的類(lèi)似研究,而且OpenAI發(fā)表的許多重要論文引用了你的研究成果。能否談?wù)勀愕难芯颗cOpenAI當(dāng)前的研究和這些模型之間的聯(lián)系?
Natasha Jaques:回到2016年,當(dāng)時(shí)我正在思考如何利用預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行微調(diào)。具體來(lái)說(shuō),我關(guān)注的是LSTM模型,并嘗試使用強(qiáng)化學(xué)習(xí)對(duì)其進(jìn)行微調(diào)。那時(shí),我關(guān)注的點(diǎn)不在語(yǔ)言本身,而是音樂(lè)生成和分子生成之類(lèi)的方法,例如生成類(lèi)似藥物分子的方法。
在我看來(lái),分子生成是一個(gè)很好的示例。我們可以基于已知分子數(shù)據(jù)集去訓(xùn)練一個(gè)監(jiān)督模型,并生成新的分子,但是這些分子可能缺乏我們所需的特性,如易于合成藥物。因此,我們還需要對(duì)分子的“合成可及性(synthetic accessibility)”進(jìn)行評(píng)估。但僅依靠數(shù)據(jù)集訓(xùn)練是不夠的,因?yàn)檫@樣無(wú)法得到優(yōu)化的分子。如果僅僅優(yōu)化分子的合成可及性,也可能會(huì)生成一些無(wú)用的分子。
因此,我們需要對(duì)這兩個(gè)方面進(jìn)行評(píng)估和優(yōu)化。對(duì)于這一問(wèn)題,我們可以使用強(qiáng)化學(xué)習(xí)來(lái)優(yōu)化藥物相似性(drug likeness)或合成可及性,但由于數(shù)據(jù)存在缺陷,這種方法并不完美。
我們提出了一個(gè)解決方案:首先在數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,然后再使用強(qiáng)化學(xué)習(xí)來(lái)優(yōu)化某些獎(jiǎng)勵(lì),同時(shí)最小化預(yù)訓(xùn)練策略與當(dāng)前策略之間的KL散度。這種方法可以靈活地結(jié)合監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí),使用監(jiān)督學(xué)習(xí)來(lái)獲得數(shù)據(jù)集中的有用信息,同時(shí)使用強(qiáng)化學(xué)習(xí)來(lái)優(yōu)化在數(shù)據(jù)分布空間內(nèi)具有高回報(bào)的序列?梢钥闯觯@與當(dāng)前使用的RLHF方法密切相關(guān)。
在該技術(shù)中,我們首先在數(shù)據(jù)集上對(duì)大型語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練,然后通過(guò)人類(lèi)反饋來(lái)優(yōu)化模型,同時(shí)最小化優(yōu)化模型與預(yù)訓(xùn)練先驗(yàn)?zāi)P椭g的KL散度,這對(duì)于RLHF框架有重要意義。
同時(shí),我也在研究從人類(lèi)反饋中學(xué)習(xí)的RLHF方法。2019年前后,我們采用了同樣的KL控制方法,即讓對(duì)話(huà)模型嘗試優(yōu)化與人類(lèi)交談獲得的信號(hào),而非讓人類(lèi)評(píng)價(jià)對(duì)話(huà)的好壞,同時(shí)采用與OpenAI的RLHF算法不同的方式來(lái)實(shí)現(xiàn)偏好排序。
我們的目標(biāo)是從與人類(lèi)對(duì)話(huà)的隱含信號(hào)中學(xué)習(xí),而非僅僅依靠人類(lèi)的評(píng)價(jià)來(lái)進(jìn)行優(yōu)化。我們不需要人們額外提供反饋,而是通過(guò)分析文本的情感等隱含信號(hào)來(lái)為模型提供獎(jiǎng)勵(lì)信號(hào)。
例如,當(dāng)對(duì)話(huà)中的人聽(tīng)起來(lái)普遍高興時(shí),我們就會(huì)將其視為正面獎(jiǎng)勵(lì)信號(hào)來(lái)訓(xùn)練模型。反之,當(dāng)他們聽(tīng)起來(lái)沮喪或困惑時(shí),可能是模型說(shuō)了一些胡話(huà),我們會(huì)將其視為負(fù)面獎(jiǎng)勵(lì)信號(hào)。因此,我們使用同樣的技術(shù)來(lái)優(yōu)化這些信號(hào),以提高模型的表現(xiàn)。
Robin Chauhan:這聽(tīng)起來(lái)很像ChatGPT現(xiàn)在正在進(jìn)行的工作。也許函數(shù)逼近器(function approximator)略有不同,或是獲得反饋的方式有所不同,但從底層原理來(lái)看,它實(shí)際上基于RLHF。
Natasha Jaques:沒(méi)錯(cuò),不過(guò)也有一些關(guān)鍵區(qū)別。OpenAI采用了不同的方法來(lái)處理人類(lèi)反饋,該方法與我們?cè)?019年的論文中所使用的有所不同,區(qū)別在于他們訓(xùn)練了一個(gè)獎(jiǎng)勵(lì)模型。他們的方法是請(qǐng)一群人為兩個(gè)輸出評(píng)分,然后通過(guò)訓(xùn)練模型來(lái)逼近這些評(píng)分。實(shí)際上,早在OpenAI探索使用人類(lèi)偏好進(jìn)行深度強(qiáng)化學(xué)習(xí)研究時(shí),就已經(jīng)提出過(guò)這個(gè)想法。
相比之下,我在2019年的研究是關(guān)于離線(xiàn)強(qiáng)化學(xué)習(xí)(offline RL)。當(dāng)時(shí),我使用了特定輸出的實(shí)際人類(lèi)評(píng)分作為獎(jiǎng)勵(lì)樣本進(jìn)行訓(xùn)練,但缺乏一個(gè)通用的獎(jiǎng)勵(lì)模型。由于訓(xùn)練獎(jiǎng)勵(lì)模型的方法可以進(jìn)行多次采樣,實(shí)際上具有良好的可擴(kuò)展性。
Robin Chauhan:OpenAI聯(lián)合創(chuàng)始人和PPO算法發(fā)明者John Schulman致力于研究RLHF。他談到ChatGPT的兄弟模型InstructGPT需要大量的人類(lèi)反饋。此外,需要詳細(xì)而冗長(zhǎng)的評(píng)分說(shuō)明來(lái)評(píng)估人類(lèi)反饋,而獲取這些人類(lèi)反饋需要付出相當(dāng)大的成本。這種成本會(huì)限制RLHF的應(yīng)用嗎?還是說(shuō)成本并不重要,從回報(bào)來(lái)看完全值得?
Natasha Jaques:在InstructGPT之前,OpenAI就已經(jīng)在摘要(summarization)方面進(jìn)行了大量的研究。而在摘要研究中,能夠有效運(yùn)用RLHF的關(guān)鍵因素之一,是投入大量精力獲取高質(zhì)量的人類(lèi)數(shù)據(jù)。
在OpenAI的一篇摘要研究論文中,他們采用了一種更好的評(píng)估者招募方法,研究人員與評(píng)估者共享Slack群組,并回答評(píng)估者的問(wèn)題以確保評(píng)估者與研究人員保持一致。這樣的投入顯然是非常昂貴的。
值得一提的是,在InstructGPT可以看到一個(gè)現(xiàn)象:使用RLHF訓(xùn)練的13億參數(shù)模型的表現(xiàn)要優(yōu)于使用監(jiān)督學(xué)習(xí)訓(xùn)練的1750億參數(shù)模型。也就是說(shuō),只需使用RLHF,效果就可以趕超100倍大小的模型,而訓(xùn)練100倍大小的模型所需的計(jì)算成本相當(dāng)昂貴。雖然OpenAI并未公開(kāi)他們用于收集人類(lèi)數(shù)據(jù)和訓(xùn)練巨型模型的具體花費(fèi)金額,但不難發(fā)現(xiàn),由于RLHF可以降低訓(xùn)練更大型號(hào)模型的成本,實(shí)際上可能更具成本效益。
Robin Chauhan:在我看來(lái),他們通常使用基于on-policy的PPO(Proximal Policy Optimization)方法來(lái)處理數(shù)據(jù)集。這種方法無(wú)法重復(fù)使用數(shù)據(jù),因?yàn)樗鼈円蕾?lài)于當(dāng)前模型樣本數(shù)據(jù)或非常接近模型的數(shù)據(jù)。如果對(duì)這些數(shù)據(jù)進(jìn)行訓(xùn)練后,模型出現(xiàn)偏差,那么該數(shù)據(jù)集是否仍然有效?或者說(shuō)該數(shù)據(jù)集是否可以用于訓(xùn)練其他模型?
Natasha Jaques:這些數(shù)據(jù)集并非是一次性的。獎(jiǎng)勵(lì)模型的訓(xùn)練過(guò)程實(shí)際類(lèi)似于對(duì)文本摘要進(jìn)行比較。這種比較的結(jié)果不僅僅取決于策略模型本身,更是一種較為客觀普遍的結(jié)果,所以具有off-policy特性,可以重復(fù)的使用這些數(shù)據(jù)。
02 獎(jiǎng)勵(lì)模型的局限性
Robin Chauhan:John Schulman指出,雖然人類(lèi)反饋在訓(xùn)練過(guò)程中具有一定有效性,但如果使用相同的獎(jiǎng)勵(lì)模型進(jìn)行長(zhǎng)時(shí)間訓(xùn)練,性能可能在某個(gè)時(shí)刻下降。因此我認(rèn)為,在每個(gè)階段后需要繼續(xù)收集額外的人類(lèi)反饋,而為了進(jìn)一步提高性能,則可能需要使用全新的數(shù)據(jù)集。你怎么看?
Natasha Jaques:我不太熟悉OpenAI的工作,不過(guò)在我的工作中發(fā)現(xiàn)了這一現(xiàn)象:我們嘗試通過(guò)優(yōu)化獎(jiǎng)勵(lì)來(lái)實(shí)現(xiàn)目標(biāo),同時(shí)也考慮到了數(shù)據(jù)的可行范圍,但很容易被獎(jiǎng)勵(lì)函數(shù)所束縛,形成過(guò)度依賴(lài)。
例如,在訓(xùn)練對(duì)話(huà)模型時(shí),我們使用了獎(jiǎng)勵(lì)函數(shù),鼓勵(lì)模型與人類(lèi)進(jìn)行對(duì)話(huà),同時(shí)輸出高情感度的文本來(lái)獲取積極的反饋。但是由于數(shù)據(jù)資源有限,我們很可能會(huì)過(guò)度擬合數(shù)據(jù)和獎(jiǎng)勵(lì),從而導(dǎo)致模型在新數(shù)據(jù)上表現(xiàn)不佳。
我們的目標(biāo)是,在保持模型適應(yīng)數(shù)據(jù)分布(data distribution)的同時(shí)最大化獎(jiǎng)勵(lì)。我們使用了最大熵強(qiáng)化學(xué)習(xí)(maximum entropy RL)算法來(lái)找到最優(yōu)策略,行為是否受到限制并不重要,而是會(huì)重復(fù)使用獎(jiǎng)勵(lì)函數(shù)。因此,在使用獎(jiǎng)勵(lì)方式來(lái)訓(xùn)練智能體時(shí),它可能會(huì)表現(xiàn)得過(guò)于積極、禮貌和愉悅。
智能體的行為多樣性建立在輸出文本的多樣性基礎(chǔ)之上。我想知道他們的結(jié)果是否存在類(lèi)似的問(wèn)題,即過(guò)度訓(xùn)練獎(jiǎng)勵(lì)模型實(shí)際上會(huì)導(dǎo)致收益遞減,甚至最終變成負(fù)面收益(negative return)。此外,獎(jiǎng)勵(lì)模型本身似乎并不完美,通過(guò)驗(yàn)證數(shù)據(jù)(validation data),你會(huì)發(fā)現(xiàn)其準(zhǔn)確率大約在七成左右。因此在訓(xùn)練時(shí),很可能會(huì)發(fā)生過(guò)度擬合。尚不清楚獎(jiǎng)勵(lì)模型是否足夠全面,以描述優(yōu)質(zhì)的輸出。
Robin Chauhan:現(xiàn)有的模型并不擅長(zhǎng)忽略干擾項(xiàng),但這主要是函數(shù)逼近問(wèn)題,而非強(qiáng)化學(xué)習(xí)的問(wèn)題。我們似乎還沒(méi)有找到解決干擾項(xiàng)問(wèn)題的方法。
Natasha Jaques:可能需要更多基于符號(hào)的表示法來(lái)實(shí)現(xiàn)泛化,以便像卡車(chē)和草堆這樣的物體能夠被地理解。我們不能僅僅依賴(lài)歸納式的深度學(xué)習(xí),例如只依賴(lài)訓(xùn)練數(shù)據(jù)集中的卡車(chē)示例來(lái)識(shí)別卡車(chē),因?yàn)檫@種方法在面對(duì)超出訓(xùn)練數(shù)據(jù)范圍的卡車(chē)時(shí)將失效。
將語(yǔ)言模型集成到強(qiáng)化學(xué)習(xí)智能體中很有發(fā)展?jié)摿,因(yàn)檎Z(yǔ)言是組合性的,或許可以提供組合表示法(compositional representation),從而有助于更好地進(jìn)行泛化。用語(yǔ)言提示生成逼真圖像就證明了組合表示法的潛在優(yōu)勢(shì)。
03 基于token級(jí)別的強(qiáng)化學(xué)習(xí)
Robin Chauhan:你之前在該領(lǐng)域做過(guò)類(lèi)似的工作,在token級(jí)別上進(jìn)行強(qiáng)化學(xué)習(xí),將每個(gè)token視為一個(gè)獨(dú)立的動(dòng)作(action),并使用“Sequence Tutor”和“Side Learning”等方法。
Natasha Jaques:沒(méi)錯(cuò)。如果你深入挖掘一下就會(huì)發(fā)現(xiàn)InstructGPT也是如此。使用策略梯度(policy gradient)的方法更容易,通過(guò)計(jì)算每個(gè)token的概率并對(duì)其進(jìn)行求和,就可以獲得整個(gè)序列的概率。然而,無(wú)論使用哪種方法,最終都是通過(guò)增加或減少token級(jí)別(token level)的概率來(lái)傳遞模型中的損失。
Robin Chauhan:你的論文中將它描述為一種“bandit算法”。在我看來(lái),這可能會(huì)給人一種錯(cuò)覺(jué),認(rèn)為所有的tokens是一個(gè)整體動(dòng)作(one action)。但你的看法是,其組織方式仍允許我們單獨(dú)分析每個(gè)token的概率。
Natasha Jaques:你可以使用以下公式計(jì)算整個(gè)序列的獎(jiǎng)勵(lì):每個(gè)單詞的獎(jiǎng)勵(lì)相加,再乘以整個(gè)輸出的概率。然而,在實(shí)際操作中,得到整個(gè)序列概率的方法是將token級(jí)別的概率相加。因此,影響模型的方法實(shí)際上是通過(guò)修改token級(jí)別的概率來(lái)實(shí)現(xiàn)的。
Robin Chauhan:那這是否意味著在token級(jí)別上進(jìn)行分析沒(méi)有任何好處?因?yàn)槲矣浀肑ohn說(shuō)過(guò),將數(shù)據(jù)集作為一個(gè)整體進(jìn)行分析更易于處理。
Natasha Jaques:他們采用了一種不同于token級(jí)別強(qiáng)化學(xué)習(xí)的方法。他們將貼現(xiàn)因子(discount factor)設(shè)為1,并沒(méi)有對(duì)序列中的所有token應(yīng)用的相同獎(jiǎng)勵(lì)進(jìn)行貼現(xiàn)處理,也就是說(shuō),序列末尾收到的獎(jiǎng)勵(lì)與序列開(kāi)頭收到的獎(jiǎng)勵(lì)具有相同的價(jià)值。這種方法效果還不錯(cuò)。
如果我沒(méi)記錯(cuò)的話(huà),我們進(jìn)行過(guò)這樣的實(shí)驗(yàn):嘗試在序列級(jí)別和整個(gè)對(duì)話(huà)級(jí)別上進(jìn)行獎(jiǎng)勵(lì)設(shè)計(jì),比如說(shuō)獎(jiǎng)勵(lì)對(duì)話(huà)的持續(xù)時(shí)間,這涉及到多個(gè)
對(duì)話(huà)回合。
此外,我們還對(duì)句子中的token進(jìn)行均勻分布,實(shí)施了在句子級(jí)別的獎(jiǎng)勵(lì)設(shè)計(jì)。然而,在涉及對(duì)話(huà)長(zhǎng)度的問(wèn)題上,我們?nèi)匀徊捎昧速N現(xiàn)因子(discount factor)。這是因?yàn)闊o(wú)法確定對(duì)話(huà)會(huì)持續(xù)多久,因此需要對(duì)這些獎(jiǎng)勵(lì)進(jìn)行貼現(xiàn)處理。不過(guò)對(duì)話(huà)的時(shí)間夠長(zhǎng),獎(jiǎng)勵(lì)就會(huì)相應(yīng)提高。雖然如此,優(yōu)化對(duì)話(huà)中的貼現(xiàn)獎(jiǎng)勵(lì)(discounted reward)還是相當(dāng)困難。
04 AGI與AI具身化
Robin Chauhan:你認(rèn)為當(dāng)前討論和思考通用人工智能(AGI)是否有必要,還是說(shuō)這只是一個(gè)遙遠(yuǎn)的夢(mèng)想,不值一提?
Natasha Jaques:當(dāng)談?wù)撏ㄓ萌斯ぶ悄?AGI)時(shí),我感到有些沮喪,因?yàn)槿藗兺ǔ2⒉磺宄约赫谡務(wù)撌裁础?/p>
AGI的定義并不清晰,試圖澄清其含義又會(huì)導(dǎo)致循環(huán)論證。比如,有人可能會(huì)告訴我AGI將在五年內(nèi)問(wèn)世,但如果我問(wèn)他們?yōu)楹巫詣?dòng)駕駛汽車(chē)公司的CEO認(rèn)為推出全自動(dòng)駕駛汽車(chē)需要20年時(shí),就會(huì)出現(xiàn)自相矛盾的情況。
在我看來(lái),AGI可以完成人類(lèi)所能完成的一切,甚至比人類(lèi)更出色,但如果它不能駕駛汽車(chē),那就不能被視作AGI。盡管有些人認(rèn)為AGI不需要具備任何具體的物理形態(tài),但這意義何在呢?
撇開(kāi)這些爭(zhēng)論不談,我確實(shí)對(duì)人工智能發(fā)展的速度感到非常驚訝,甚至有些擔(dān)憂(yōu)。如果我們將AGI定義為具有高度顛覆性和快速發(fā)展的人工智能技術(shù),我們已經(jīng)達(dá)到了這個(gè)階段。以ChatGPT為例,現(xiàn)在大學(xué)不得不重新設(shè)計(jì)他們的寫(xiě)作課程,因?yàn)楝F(xiàn)在ChatGPT寫(xiě)出來(lái)的文章比部分本科生寫(xiě)得還要好。
Robin Chauhan:確實(shí),AGI并不能替代所有工作,但像ChatGPT這樣無(wú)疑具有巨大的發(fā)展前景,這也是我所見(jiàn)過(guò)的第一個(gè)真正實(shí)現(xiàn)通用性的技術(shù)。此外,你提到的自動(dòng)駕駛汽車(chē)也是一個(gè)很好的例子。盡管許多人過(guò)去預(yù)測(cè)完全自動(dòng)駕駛汽車(chē)將在兩到三年內(nèi)推出,但實(shí)際推出時(shí)間卻一再被推遲。
Natasha Jaques:在短時(shí)間內(nèi)推出全自動(dòng)駕駛汽車(chē)確實(shí)很困難,從Andrej Karpathy提到的特斯拉事故就可看出。因?yàn)樘厮估詣?dòng)駕駛系統(tǒng)不能感知一輛半掛車(chē)上裝載另一個(gè)半掛車(chē)的情況,所以事故就發(fā)生了。簡(jiǎn)而言之,一輛車(chē)上裝載了一輛半掛車(chē),而后面這輛半掛車(chē)上又裝載著另一輛半掛車(chē),最終就造成了“堆砌”。
這些事故發(fā)生的原因是,特斯拉自動(dòng)駕駛系統(tǒng)無(wú)法感知訓(xùn)練數(shù)據(jù)之外的情況。我們知道,如果模型超出了訓(xùn)練數(shù)據(jù)的支持范圍,它們的性能通常會(huì)下降。那么如何才能創(chuàng)建一個(gè)數(shù)據(jù)集,能夠包含現(xiàn)實(shí)世界中可能發(fā)生的所有情況呢?實(shí)際上這是不可能的,因?yàn)槭澜缫恢痹谧兓碌氖挛镆苍诓粩嘤楷F(xiàn)。
我一直在研究如何通過(guò)對(duì)抗環(huán)境設(shè)計(jì)或者無(wú)監(jiān)督環(huán)境設(shè)計(jì)的方法來(lái)訓(xùn)練強(qiáng)化學(xué)習(xí)智能體。在這些方法中,我們可以找到可能導(dǎo)致模型失敗的問(wèn)題,并針對(duì)性地進(jìn)行訓(xùn)練。相比僅僅依靠有限數(shù)據(jù)集的監(jiān)督學(xué)習(xí)方法,這些新的方法更具可行性。
Robin Chauhan:你提及的AI具身化(embodiment)仍然存在許多問(wèn)題。但ChatGPT所展示的是,如果我們能夠在抽象的文本世界中自由地創(chuàng)作和表達(dá),問(wèn)題就能迎刃而解了。
Natasha Jaques:對(duì)我來(lái)說(shuō),最吸引我的是具身化智能體,它可以在理解語(yǔ)言的同時(shí)做具身化,就拿AGI來(lái)說(shuō),如果我們要對(duì)它下定義,不僅要能理解文本,同時(shí)還要理解文本對(duì)世界的映射方式,只有這樣我們才能對(duì)事情進(jìn)行完整概括。有一個(gè)能在相同網(wǎng)絡(luò)中編碼所有東西的智能體是一件很不錯(cuò)的事。
Robin Chauhan:利用現(xiàn)有技術(shù),我們的能力得到了極大提升,可以完成許多以前無(wú)法完成的事情。曾經(jīng)我們主要關(guān)注的是文本、抽象思維、代碼以及抽象符號(hào)等,但現(xiàn)實(shí)表明,機(jī)器人和動(dòng)物智能(animal intelligence)才是真正難做的東西,相比之下,人類(lèi)獨(dú)有的抽象思維反而更容易實(shí)現(xiàn)。我們現(xiàn)在已經(jīng)達(dá)成了之前認(rèn)為遙不可及的目標(biāo),ChatGPT讓我們看到了機(jī)器人身上缺乏的通用性。
Natasha Jaques:我記得有這樣一種說(shuō)法,對(duì)人類(lèi)來(lái)說(shuō)很難的活動(dòng)(例如國(guó)際象棋和圍棋),AI卻能夠輕松應(yīng)對(duì)。對(duì)于AI來(lái)說(shuō),一些低水平的操縱活動(dòng)(比如用手從地上撿起東西)才是真正挑戰(zhàn)。
我想分享一件趣事,這件事可以較好地說(shuō)明為什么具身化如此困難。我一直在研究語(yǔ)言條件強(qiáng)化學(xué)習(xí)智能體(language conditioned RL agents),旨在通過(guò)自然語(yǔ)言的指導(dǎo),讓機(jī)器完成實(shí)際事務(wù)。
當(dāng)時(shí)我讀了一篇DeepMind的論文,論文主要內(nèi)容是模仿交互式智能,創(chuàng)造出一種模擬世界,在這個(gè)世界里,機(jī)器人可以隨意走動(dòng),這個(gè)世界就像是低分辨率的視頻游戲一樣,機(jī)器人得到指令以后,可以做一些事情,比如拿起橘子把它放在床上,或者拿起杯子把它放在桌子上等等。
這個(gè)30人的研究團(tuán)隊(duì)在這個(gè)項(xiàng)目上花了兩年時(shí)間,投入了數(shù)百萬(wàn)美元。他們收集了大量人類(lèi)數(shù)據(jù),并嘗試在模擬環(huán)境中應(yīng)用這些數(shù)據(jù)。由于收集的數(shù)據(jù)量過(guò)于龐大,所以其中可能有半數(shù)都是重復(fù)數(shù)據(jù)。而他們則基于這些數(shù)據(jù)去訓(xùn)練機(jī)器人。最后你猜他們成功執(zhí)行指令的機(jī)率是50%。
我認(rèn)為這個(gè)比例比較低。盡管“將橘子放到床上”等指令看似簡(jiǎn)單,但考慮到項(xiàng)目團(tuán)隊(duì)已經(jīng)投入了大量資金,他們應(yīng)該能夠取得更高的成功率。這也表明了具身化任務(wù)的挑戰(zhàn)性,即使我們已經(jīng)成功實(shí)現(xiàn)了文本到圖像的有效結(jié)合,文本到圖像的組合生成模型也實(shí)現(xiàn)了良好運(yùn)轉(zhuǎn),但是物理實(shí)體的操作卻難以控制,讓它們?cè)诮邮找曈X(jué)和文本信息的基礎(chǔ)上完成簡(jiǎn)單任務(wù)的難度也非常大。
05 回歸學(xué)界:研究社交強(qiáng)化學(xué)習(xí)
Robin Chauhan:我聽(tīng)說(shuō)你打算回到學(xué)術(shù)界,擔(dān)任華盛頓大學(xué)的助理教授。你打算研究什么?
Natasha Jaques:我已經(jīng)有一個(gè)清晰的想法。在企業(yè)招聘時(shí),如果你不能清晰地描述你的計(jì)劃,他們就不會(huì)雇用你。我想做的是社交強(qiáng)化學(xué)習(xí),即:當(dāng)在多智能體環(huán)境中進(jìn)行學(xué)習(xí)時(shí),我們可以在哪些方面提升AI的性能。目前大多數(shù)AI活動(dòng)都需要人類(lèi)參與,而人類(lèi)非常聰明,有多種方式來(lái)完成任務(wù)。
因此,我們不僅要思考如何使AI靈活地向人類(lèi)學(xué)習(xí),還要思考人類(lèi)在社交學(xué)習(xí)方面的技能,即如何確認(rèn)哪些模型值得學(xué)習(xí),以及何時(shí)應(yīng)該依賴(lài)向他人學(xué)習(xí)而不是獨(dú)立探索。我想開(kāi)發(fā)的是能夠與人類(lèi)交互并且有用的AI。
這就要解決以下問(wèn)題,例如:如何與一個(gè)從未見(jiàn)過(guò)的人合作解決任務(wù)?如何理解人類(lèi)想要解決的目標(biāo)?如何從人類(lèi)反饋(包括隱式反饋)中進(jìn)行學(xué)習(xí)?如何使用自然語(yǔ)言與人類(lèi)交流以解決任務(wù)?如何使用人類(lèi)反饋訓(xùn)練語(yǔ)言?這些都是我一直在研究的語(yǔ)言條件下的強(qiáng)化學(xué)習(xí)。
Robin Chauhan:在業(yè)內(nèi)領(lǐng)先實(shí)驗(yàn)室工作后再回到學(xué)術(shù)界是一個(gè)很有趣的選擇,我敢打賭,很多人會(huì)做出相反的選擇,特別是考慮到在學(xué)術(shù)預(yù)算有限的情況下,做頂尖AI研究是一個(gè)很大的挑戰(zhàn),因?yàn)橐?guī);瘜(duì)于AI來(lái)說(shuō)十分重要,但規(guī);瘮U(kuò)展又十分昂貴。
Natasha Jaques:有人可能會(huì)認(rèn)為,如果想要為AI做出貢獻(xiàn),就需要巨大的計(jì)算預(yù)算和訓(xùn)練大型模型,而學(xué)術(shù)界怎么可能承擔(dān)得起這個(gè)成本?但實(shí)際上,業(yè)界常有30-50人組成的團(tuán)隊(duì)在致力于研究那些已經(jīng)被證實(shí)可行的想法,所以研究人員可以加入其中,將其擴(kuò)展成大規(guī)模項(xiàng)目。比如谷歌的一些大型團(tuán)隊(duì)就正在嘗試開(kāi)展RLHF項(xiàng)目。他們的做法與OpenAI都大同小異,都在嘗試擴(kuò)展編寫(xiě)自己的基礎(chǔ)設(shè)施。
OpenAI和DeepMind現(xiàn)在越來(lái)越注重規(guī)模化擴(kuò)展,而非僅僅發(fā)布研究成果。如果你想要從事創(chuàng)新性的、探索新想法的研究方向,并通過(guò)實(shí)驗(yàn)確認(rèn)這些想法,那么在業(yè)界可能會(huì)有更多的挑戰(zhàn)。
我比較關(guān)注的是研究自由度和能夠獨(dú)立思考并實(shí)驗(yàn)的能力。學(xué)術(shù)界的作用在于提出新的研究思路,并進(jìn)行概念驗(yàn)證,而工業(yè)界則負(fù)責(zé)將這些思路轉(zhuǎn)化為實(shí)用的系統(tǒng)。
以我從事KL控制為例,學(xué)術(shù)界的探索性工作就對(duì)工業(yè)界的技術(shù)發(fā)展起到了積極的推動(dòng)作用。所以起決定作用的是看個(gè)人喜歡做什么,加入基礎(chǔ)設(shè)施工作團(tuán)隊(duì)還是做更多研究。就我個(gè)人而言,我更喜歡從事更具有研究性質(zhì)的工作。
Robin Chauhan:你對(duì)AI的貢獻(xiàn)已經(jīng)得到學(xué)術(shù)界的認(rèn)可,但公眾卻鮮為人知。人們只看到OpenAI取得的成就,卻不知道它也是站在前人的肩膀上才獲得的。
Natasha Jaques:現(xiàn)狀確實(shí)如此。不過(guò)我的目標(biāo)是實(shí)踐自己的想法并驗(yàn)證是否可行,進(jìn)而為AI的發(fā)展作出貢獻(xiàn),而不只是追求榮譽(yù)。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線(xiàn)上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶(hù)就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性?xún)r(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專(zhuān)題論壇在沈陽(yáng)成功舉辦。