6700萬(wàn)參數(shù)比肩萬(wàn)億巨獸GPT-4！微軟MIT等聯(lián)手破解Transformer推理密碼

2024年07月15日 10:27:28 來(lái)源：新智元公眾號(hào)

　　來(lái)自微軟、MIT等機(jī)構(gòu)的學(xué)者提出了一種創(chuàng)新的訓(xùn)練范式，攻破了大模型的推理缺陷。他們通過(guò)因果模型構(gòu)建數(shù)據(jù)集，直接教模型學(xué)習(xí)公理，結(jié)果只有67M參數(shù)的微型Transformer竟能媲美GPT-4的推理能力。

　　「因果推理」絕對(duì)是當(dāng)前GenAI熱潮下的小眾領(lǐng)域，但是它有一個(gè)大佬級(jí)的堅(jiān)定支持者——Yann LeCun。

　　他在推特上的日常操作之一，就是炮轟Sora等生成模型，并為自己堅(jiān)信的因果推理領(lǐng)域搖旗吶喊。

　　甚至，早在2019年VentureBeat的采訪(fǎng)中，他就表達(dá)過(guò)這一觀(guān)點(diǎn)：我們需要在深度學(xué)習(xí)模型中引入事件的因果關(guān)系，才能增強(qiáng)泛化能力，減少訓(xùn)練數(shù)據(jù)使用。

　　對(duì)于當(dāng)前最流行的模型架構(gòu)Transformer，我們能教它因果推理嗎?

　　最近，來(lái)自微軟MIT等機(jī)構(gòu)的研究人員提出了一種訓(xùn)練大模型新范式——公理框架(Axiomatic Framework)。

　　論文中，作者從頭開(kāi)始訓(xùn)練了6700萬(wàn)參數(shù)的模型，僅使用了簡(jiǎn)單的因果鏈作為訓(xùn)練數(shù)據(jù)。

　　令人驚訝的是，在推斷復(fù)雜圖表中的因果關(guān)系時(shí)，67M模型的表現(xiàn)超越了十億級(jí)參數(shù)LLM，甚至可以與GPT-4相媲美。

　　論文地址：https://arxiv.org/abs/2407.07612v1

　　微軟MIT等團(tuán)隊(duì)最新方法的提出，是受到了圖靈獎(jiǎng)得主Judea Pearl啟發(fā)。

　　Pearl曾提出了結(jié)構(gòu)化因果規(guī)則中的因果無(wú)關(guān)性公理，即直接通過(guò)符號(hào)化公理示例來(lái)教Transformer模型學(xué)習(xí)被動(dòng)數(shù)據(jù)(passive data)。

　　這種方法不同于傳統(tǒng)機(jī)器學(xué)習(xí)模型，使用由公理推導(dǎo)出的數(shù)據(jù)。

　　正如結(jié)果所示，通過(guò)公理訓(xùn)練，研究證明了Transformer模型可以學(xué)習(xí)因果，從而推斷因果關(guān)系，并從相關(guān)性中識(shí)別因果性。

　　這暗示了，像GPT-4等大模型的訓(xùn)練，可以通過(guò)網(wǎng)絡(luò)數(shù)據(jù)中的帶噪聲的公理化示例學(xué)習(xí)因果知識(shí)，而無(wú)需進(jìn)行干預(yù)實(shí)驗(yàn)。

　　網(wǎng)友稱(chēng)贊道，「研究者的觀(guān)點(diǎn)非常耐人尋味，因果推理一直是LLM的致命弱點(diǎn)，進(jìn)一步發(fā)展這一領(lǐng)域，勢(shì)在必行」。

　　「這類(lèi)研究可能是通向半AGI的一條途徑」。

　　研究背景

　　因果推理(causal reasoning)是一種推理過(guò)程，遵守有特定因果性的預(yù)定義公理或規(guī)則。

　　圖靈獎(jiǎng)得主Judea Pearl曾通過(guò)如下的「因果關(guān)系階梯」(ladder of causation)定義了可能的因果推理類(lèi)型。

　　通常因果推理所用的公理或規(guī)則并不會(huì)被直接引入，模型學(xué)習(xí)的只是數(shù)據(jù)。公理或規(guī)則作為歸納偏差被納入模型，比如通過(guò)正則化、模型架構(gòu)或變量選擇等方式。

　　而這篇論文想要探討的，就是模型能否從被動(dòng)的符號(hào)演示中直接學(xué)習(xí)公理或規(guī)則。作者將這種方法稱(chēng)為「公理化訓(xùn)練」(axiomatic training)。

　　假設(shè)因果公理都可以以如下形式表示： <前提，假設(shè)，結(jié)果> ，其中結(jié)果只有「是」和「否」兩種形式。

　　這基本類(lèi)似于亞里士多德提出的「三段論」格式，比如Judeal Pearl書(shū)中提出的「碰撞公理」(collider axiom)就可以表示為：

　　這只是單個(gè)公理的表示，那么如何表達(dá)一個(gè)復(fù)雜系統(tǒng)中多個(gè)公理的組合呢?甚至，我們能用有限數(shù)量的公理表達(dá)任意因果模型嗎?

　　此處，論文引用了Judea Pearl和David Galles在1997年發(fā)表的一項(xiàng)研究，他們證明了，對(duì)于給定的穩(wěn)定概率因果模型，都存在一組有限公理，可以充分表征對(duì)應(yīng)的有向因果圖。

　　因果模型M=(X,U,F)被定義為內(nèi)部變量X、外部變量U和一組結(jié)構(gòu)方程F的集合，結(jié)構(gòu)方程描述了變量X和U之間的因果關(guān)系。

　　模型M的另一種等效表示方式就是有向圖G，用有向邊Vi⭢Vj表示兩個(gè)節(jié)點(diǎn)Vi和Vj之間的因果關(guān)系。

　　所謂的「穩(wěn)定概率」(stable probabilistic)因果模型，是指他們對(duì)模型作出的穩(wěn)定性假設(shè)，指M中所有的不相關(guān)性(X ↛ Y|Z)都是穩(wěn)定的，寫(xiě)作：

　　在穩(wěn)定性假設(shè)下，Galles和Pearl共描述了6個(gè)公理，而這篇論文主要關(guān)注傳遞性公理。對(duì)于穩(wěn)定概率的因果模型，給定系統(tǒng)中的變量X、Y、Z，傳遞性公理可以寫(xiě)作：

　　將上述表達(dá)式通過(guò)取反進(jìn)一步簡(jiǎn)化，可以寫(xiě)出其含有因果相關(guān)性的版本：

　　其中表達(dá)式左側(cè)即為前提，右側(cè)即為假設(shè)。

　　這樣的公理可以派生出數(shù)千個(gè)合成的符號(hào)表達(dá)式，從而用于向Transformer模型「教授」特定公理。

　　公理化訓(xùn)練

　　訓(xùn)練數(shù)據(jù)

　　上述含有前提和假設(shè)的公理能映射到「是」或「否」的標(biāo)簽，一條訓(xùn)練數(shù)據(jù)就可以表示為{(P,H,L)}的元組形式。

　　給定一個(gè)真實(shí)的因果圖，就可以通過(guò)應(yīng)用傳遞性公理(一次或多次)，枚舉出所有可能的N個(gè)元組{(P,H,L)}，從而構(gòu)建出數(shù)據(jù)集D。

　　比如，因果圖中包含X1⭢X2⭢X3⭢…⭢Xn這樣的鏈拓?fù)鋾r(shí)，一個(gè)可能的前提是X1⭢X2∧X2⭢X3，相應(yīng)的假設(shè)X1⭢X3的標(biāo)簽為「是」，而另一個(gè)假設(shè)X3⭢X1標(biāo)簽就為「否」。

　　值得注意的是，論文中為了表達(dá)的清晰性，使用了數(shù)學(xué)語(yǔ)言進(jìn)行描述，但實(shí)際上用于訓(xùn)練的數(shù)據(jù)集只包含自然語(yǔ)言。

　　比如，上面例子中的前提應(yīng)該表達(dá)為「X1導(dǎo)致X2，且X2導(dǎo)致X3」。

　　數(shù)據(jù)擾動(dòng)：泛化的關(guān)鍵

　　之前有研究表明，以「擾動(dòng)」(perturbation)形式增加訓(xùn)練數(shù)據(jù)的可變性與多樣性，有助于提升模型的泛化能力。

　　因此，作者在不同層次上對(duì)訓(xùn)練數(shù)據(jù)引入結(jié)構(gòu)化擾動(dòng)，以最大化數(shù)據(jù)集分布的多樣性。

　　1)節(jié)點(diǎn)名稱(chēng)：傳遞鏈上每個(gè)節(jié)點(diǎn)的名稱(chēng)都由1～3個(gè)字母/數(shù)字組成，長(zhǎng)度和使用的特定字符是隨機(jī)生成的。

　　2)因果圖拓?fù)浣Y(jié)構(gòu)：主要包含兩種類(lèi)型

　　- 順序結(jié)構(gòu)(sequential)：所有的因果邊方向都是從后向前，共同形成一個(gè)典型的「?jìng)鬟f鏈」，比如X⭢Y⭢Z這種形式

　　- 隨機(jī)翻轉(zhuǎn)(random flipping)：給定一個(gè)順序結(jié)構(gòu)的傳遞鏈，對(duì)其中一些邊進(jìn)行隨機(jī)翻轉(zhuǎn)，從而引入復(fù)雜性。比如X⭢Y⭢Z可以被修改為X⭢Y⭠Z。

　　隨機(jī)翻轉(zhuǎn)可以在單一方向的鏈中添加分叉結(jié)構(gòu)(X⭠Y⭢Z，fork)和碰撞結(jié)構(gòu)(X⭢Y⭠Z，collider)，它們是任何有向因果圖的基本構(gòu)建塊，有助于提升模型進(jìn)行跨結(jié)構(gòu)泛化的能力。

　　3)鏈長(zhǎng)度：訓(xùn)練集中加入了長(zhǎng)度不等的鏈，包含3～6節(jié)點(diǎn)。

　　損失函數(shù)

　　論文沒(méi)有采用訓(xùn)練Transformer模型常用的next token預(yù)測(cè)損失，而是根據(jù)給定數(shù)據(jù)集中每個(gè)元組的真實(shí)標(biāo)簽進(jìn)行定義，表示為：

　　位置編碼

　　除了訓(xùn)練數(shù)據(jù)和損失函數(shù)之外，另一個(gè)重要因素是位置編碼的選擇。

　　之前有研究表明，位置編碼機(jī)制對(duì)Transformer的序列長(zhǎng)度泛化能力有明顯影響，但不同的研究似乎得出了互相矛盾的結(jié)果。

　　因此，作者在研究中分別嘗試了不同的方法，包括可學(xué)習(xí)位置編碼(LPE)、正弦位置編碼(SPE)和無(wú)位置編碼(NoPE)。

　　訓(xùn)練和評(píng)估的整體流程如圖1所示，Transformer模型在順序鏈和帶有隨機(jī)翻轉(zhuǎn)的鏈上訓(xùn)練，長(zhǎng)度為3～6個(gè)節(jié)點(diǎn)。

　　之后，訓(xùn)練過(guò)的模型在具有>6個(gè)節(jié)點(diǎn)的更復(fù)雜結(jié)構(gòu)上進(jìn)行評(píng)估，其中節(jié)點(diǎn)平均的出度(out-degree)和入度(in-degree)都更大，序列更長(zhǎng)，且引入了分支、反轉(zhuǎn)(reversal)等復(fù)雜變化。

　　實(shí)現(xiàn)細(xì)節(jié)：架構(gòu)、分詞器和訓(xùn)練過(guò)程

　　具體來(lái)說(shuō)，研究人員基于GPT-2的架構(gòu)，訓(xùn)練了一個(gè)擁有6700萬(wàn)參數(shù)的解碼器模型。

　　該模型有12個(gè)注意力層、8個(gè)注意力頭，以及512個(gè)嵌入維度。

　　值得一提的是，67M模型是在各種訓(xùn)練數(shù)據(jù)集上，從頭開(kāi)始訓(xùn)練的。為了理解位置編碼(PE)的影響，他們考慮了正弦位置編碼(SPE)、可學(xué)習(xí)位置編碼(LPE)以及不使用位置編碼(NoPE)三種情況。

　　所有模型都使用AdamW優(yōu)化器進(jìn)行訓(xùn)練，學(xué)習(xí)率為1e-4，訓(xùn)練100個(gè)epoch。

　　由于訓(xùn)練數(shù)據(jù)集遵循特定結(jié)構(gòu)，研究人員還開(kāi)發(fā)了一個(gè)自定義分詞器(custom tokenizer)。

　　字母數(shù)字節(jié)點(diǎn)名稱(chēng)在字符級(jí)別進(jìn)行分詞，而像「causes」、「cause」、「Does」、「Yes」「No」這樣的特殊術(shù)語(yǔ)則在詞級(jí)別進(jìn)行分詞。

　　簡(jiǎn)言之，字符級(jí)分詞用于字母數(shù)字節(jié)點(diǎn)名稱(chēng)，詞級(jí)分詞用于特殊術(shù)語(yǔ)。

　　這種方法可以避免在測(cè)試時(shí)，出現(xiàn)詞匯表外(OOV)token，因?yàn)闇y(cè)試集中的字母數(shù)字節(jié)點(diǎn)名稱(chēng)可能與訓(xùn)練集中的不同。

　　采用這種方法后，6700萬(wàn)參數(shù)Transformer模型的詞匯表大小為69。

　　實(shí)驗(yàn)結(jié)果

　　復(fù)雜因果場(chǎng)景的泛化

　　研究人員首先展示了，通過(guò)公理化訓(xùn)練的Transformer模型在泛化到更大、更復(fù)雜的因果圖方面的表現(xiàn)，并將其與預(yù)訓(xùn)練的大模型進(jìn)行了比較。

　　序列長(zhǎng)度泛化

　　表1展示了不同模型在評(píng)估訓(xùn)練過(guò)程中，未見(jiàn)過(guò)的更長(zhǎng)因果鏈時(shí)的準(zhǔn)確率。

　　在基線(xiàn)預(yù)訓(xùn)練語(yǔ)言模型中，GPT-4在標(biāo)準(zhǔn)和隨機(jī)翻轉(zhuǎn)的因果鏈上都取得了最高的準(zhǔn)確率。

　　令人驚訝的是，盡管TS2(NoPE)模型在訓(xùn)練過(guò)程中從未見(jiàn)過(guò)更長(zhǎng)的序列，但它的表現(xiàn)能夠與萬(wàn)億參數(shù)規(guī)模的GPT-4模型相媲美。

　　雖然訓(xùn)練時(shí)只用到了長(zhǎng)度為3～6個(gè)節(jié)點(diǎn)的因果鏈，但序列長(zhǎng)度為7～13時(shí)，TS2(NoPE)在標(biāo)準(zhǔn)和隨機(jī)翻轉(zhuǎn)的鏈上，獲得了比GPT-4更高或相當(dāng)?shù)臏?zhǔn)確率。

　　對(duì)于序列長(zhǎng)度為14-15的情況下，其準(zhǔn)確率有所下降(標(biāo)準(zhǔn)鏈為0.85，隨機(jī)翻轉(zhuǎn)鏈為0.78)，但仍然顯著高于Gemini-Pro 、Phi-3模型。

　　需要注意的是，隨機(jī)預(yù)測(cè)會(huì)得到50%的準(zhǔn)確率，這表明通過(guò)公理化訓(xùn)練的TS2(NoPE)模型，能夠?qū)⑵渫评砟芰Ψ夯礁L(zhǎng)的序列上。

　　節(jié)點(diǎn)名稱(chēng)轉(zhuǎn)變

　　對(duì)于在TS2數(shù)據(jù)集上訓(xùn)練的模型，研究人員還評(píng)估了其對(duì)變量名稱(chēng)變化的泛化能力(圖 3)。

　　結(jié)果發(fā)現(xiàn)，TS2(NoPE)對(duì)節(jié)點(diǎn)名稱(chēng)的變化很穩(wěn)健，在引入新的、更長(zhǎng)的名稱(chēng)時(shí)仍能保持較高的準(zhǔn)確率。它還保持了對(duì)新節(jié)點(diǎn)名稱(chēng)較長(zhǎng)序列的通用性，其表現(xiàn)與GPT-4相似。

　　因果序列順序

　　與長(zhǎng)度和節(jié)點(diǎn)名稱(chēng)的變化不同，反轉(zhuǎn)(reversal)以及分支(branching)操作改變了因果結(jié)構(gòu)，因此能更好地評(píng)估模型是否學(xué)習(xí)到了對(duì)結(jié)構(gòu)的準(zhǔn)確表示。

　　在表2b中，TS2(NoPE)在長(zhǎng)度不超過(guò)8的因果鏈上，獲得的準(zhǔn)確率高于Gemini Pro、Phi-3。長(zhǎng)度為9時(shí)，TS2(NoPE)的準(zhǔn)確率為0.73，與Gemini Pro(0.74)相當(dāng)。

　　在表2a中，研究者還觀(guān)察到對(duì)完全反轉(zhuǎn)序列進(jìn)行評(píng)估的類(lèi)似模式。

　　在這項(xiàng)任務(wù)中，公理訓(xùn)練模型TS2(NoPE)在限制鏈長(zhǎng)度為3-6時(shí)，表現(xiàn)優(yōu)于GPT-4。特別是，其準(zhǔn)確率(長(zhǎng)度為 6 的鏈為0.94)大大高于Gemini Pro和Phi-3(分別為0.62和0.69)。

　　分支(Branching)

　　分支可能是最有挑戰(zhàn)性的任務(wù)，因?yàn)樗肓嗽谟?xùn)練期間未見(jiàn)的新結(jié)構(gòu)。

　　雖然GPT-4在圖大小不斷增大的情況下獲得了最佳準(zhǔn)確率，但TS2(NoPE)模型在除一個(gè)節(jié)點(diǎn)外的所有圖大小上，都比Gemini Pro獲得了更高的準(zhǔn)確率。

　　即使在有12個(gè)節(jié)點(diǎn)和1.4個(gè)分支因子的圖形上進(jìn)行評(píng)估，TS2(NoPE)模型也能獲得70%的準(zhǔn)確率，明顯優(yōu)于隨機(jī)模型(50%)。

　　總結(jié)

　　在所有評(píng)估設(shè)置中，公理化訓(xùn)練模型TS2(NoPE)的性能明顯優(yōu)于隨機(jī)基線(xiàn)，即使因果鏈的長(zhǎng)度超過(guò)其訓(xùn)練數(shù)據(jù)。

　　特別是，模型沒(méi)有在完全反轉(zhuǎn)的鏈上進(jìn)行訓(xùn)練，它的表現(xiàn)也與規(guī)模更大的GPT-4模型相當(dāng)(圖 2)。

　　在其他任務(wù)中，它的準(zhǔn)確性往往優(yōu)于或與Gemini Pro、Phi-3等十億參數(shù)規(guī)模的模型相當(dāng)。

　　這些結(jié)果表明，經(jīng)過(guò)公理訓(xùn)練的模型可以從簡(jiǎn)單因果序列的演示中，學(xué)會(huì)推理更復(fù)雜的因果結(jié)構(gòu)。這表明公理訓(xùn)練在因果圖推理方面的潛力。

　　其他結(jié)果：數(shù)據(jù)多樣性和位置編碼的作用

　　位置編碼的作用

　　比較不同位置編碼選擇的模型性能，研究人員發(fā)現(xiàn)沒(méi)有位置編碼的模型在更長(zhǎng)的序列(最長(zhǎng)到15個(gè)節(jié)點(diǎn)的鏈)和復(fù)雜的、未見(jiàn)過(guò)的圖結(jié)構(gòu)上都能很好地泛化，盡管它們僅在3-6個(gè)節(jié)點(diǎn)的鏈上進(jìn)行訓(xùn)練。

　　使用正弦位置編碼(SPE)和可學(xué)習(xí)位置編碼(LPE)的模型在更長(zhǎng)的鏈上表現(xiàn)也不錯(cuò)，但當(dāng)節(jié)點(diǎn)名稱(chēng)長(zhǎng)度增加時(shí)表現(xiàn)較差，即使是在節(jié)點(diǎn)數(shù)較少的鏈上也是如此(圖3)。

　　這種使用SPE和LPE的泛化失敗，突出了模型無(wú)法處理訓(xùn)練集中序列的微小擾動(dòng)。

　　此外，SPE在不同的結(jié)構(gòu)維度上表現(xiàn)不佳(如分支)以及基于順序的設(shè)置(shuffling和反轉(zhuǎn))。

　　可學(xué)習(xí)的位置編碼在長(zhǎng)度達(dá)9的線(xiàn)性鏈上表現(xiàn)良好，但之后急劇下降。

　　總的來(lái)說(shuō)，研究結(jié)果擴(kuò)展了早期關(guān)于不使用位置編碼(NoPE)有效性的研究，將其應(yīng)用于理解因果序列的任務(wù)，并在測(cè)試時(shí)泛化到更長(zhǎng)的長(zhǎng)度和復(fù)雜的結(jié)構(gòu)。

　　數(shù)據(jù)擾動(dòng)的重要性

　　除了位置編碼外，訓(xùn)練數(shù)據(jù)中序列的多樣性也起著重要作用。

　　僅在因果鏈上，訓(xùn)練的模型可以泛化到較長(zhǎng)的鏈(表 1)，但不能泛化到其他DAG結(jié)構(gòu)(見(jiàn)圖4中的翻轉(zhuǎn)，圖2中的反轉(zhuǎn)，表3中的分支)。

　　在TS1或TS1上訓(xùn)練的模型在所有情況下都具有通用性，包括隨機(jī)翻轉(zhuǎn)、順序排列和分支;因此突出了通過(guò)隨機(jī)翻轉(zhuǎn)在邊水平上納入可變性的影響。

　　不過(guò)，在不同任務(wù)中，研究發(fā)現(xiàn)TS2的準(zhǔn)確率高于TS1，即使TS1因隨機(jī)翻轉(zhuǎn)而產(chǎn)生了更多變化。

　　這表明，雖然擾動(dòng)有助于結(jié)構(gòu)泛化，但過(guò)度的擾動(dòng)可能會(huì)阻礙結(jié)構(gòu)泛化。

　　使用公理訓(xùn)練從相關(guān)性推斷因果關(guān)系

　　接下來(lái)，作者研究這種能力是否可以轉(zhuǎn)移到其他因果任務(wù)上。

　　為此，研究人員將公理化訓(xùn)練應(yīng)用于一個(gè)任務(wù)，該任務(wù)是從觀(guān)察數(shù)據(jù)中的相關(guān)性陳述推斷因果關(guān)系。

　　如圖5所示，每個(gè)數(shù)據(jù)實(shí)例包括用自然語(yǔ)言描述的3到6個(gè)節(jié)點(diǎn)圖的相關(guān)關(guān)系;目標(biāo)是推斷假設(shè)的真值，判斷任何給定節(jié)點(diǎn)之間是否存在直接或間接關(guān)系，以及可能存在的碰撞節(jié)點(diǎn)和混雜因素。