OPPO A5 Pro首創(chuàng)獵手天線架構(gòu):信號(hào)能穿十堵墻一加 Ace 5 Pro首發(fā)電競(jìng)Wi-Fi芯片G1 帶來(lái)「穿墻王」和「搶網(wǎng)王」般的網(wǎng)絡(luò)體驗(yàn)電視市場(chǎng)又出黑馬!TCL同檔Mini LED音畫王P12K,萬(wàn)象分區(qū)打造超強(qiáng)控光!零下25℃如何取暖?海爾水暖通溫暖驛站亮相冰雪大世界馬太效應(yīng),強(qiáng)者恒強(qiáng)?——《中國(guó)企業(yè)科創(chuàng)力研究報(bào)告(2024)》美團(tuán)年度報(bào)告竟然用上了AI和短?這下是真出圈了消息稱上汽大眾正開(kāi)發(fā)三款新車,技術(shù)分別來(lái)自小鵬、智己和榮威鴻蒙智行泊車代駕VPD正式開(kāi)啟全量推送!升級(jí)自動(dòng)泊車/接駕等多項(xiàng)功能華為官方翻新手機(jī)最高降價(jià)4000元曝蘋果研發(fā)帶Face ID的智能家居門鈴:內(nèi)置自研W-Fi芯片李斌回應(yīng)螢火蟲(chóng)外觀設(shè)計(jì):看過(guò)實(shí)車的人都喜歡這個(gè)設(shè)計(jì)林杰:未來(lái) A 級(jí)、A0 級(jí)、A00 級(jí)車型都將是領(lǐng)克純電的“主場(chǎng)”豐巢存包柜亮相南寧地鐵站,助力城市韌性建設(shè)與智慧出行萬(wàn)象分區(qū)、絢彩XDR、量子點(diǎn)Pro 2025齊出手,TCL引領(lǐng)觀影體驗(yàn)新變革!QQ音樂(lè)年度聽(tīng)歌報(bào)告發(fā)布:誰(shuí)是你最喜歡的歌手?OpenAI正式發(fā)布o(jì)3 - 通往AGI的路上,已經(jīng)沒(méi)有了任何阻礙「送禮物」難撬動(dòng)社交電商,微信小店缺的是供給微軟Phi-4封神,14B小模型數(shù)學(xué)擊敗GPT-4o,合成數(shù)據(jù)占比40%,36頁(yè)技術(shù)報(bào)告出爐2024年結(jié)束,哪里是原創(chuàng)動(dòng)畫的應(yīng)許之地?深扒一個(gè)正被游戲行業(yè)「搶占」的流量帝國(guó)
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    6700萬(wàn)參數(shù)比肩萬(wàn)億巨獸GPT-4!微軟MIT等聯(lián)手破解Transformer推理密碼

    2024年07月15日 10:27:28   來(lái)源:新智元公眾號(hào)

      來(lái)自微軟、MIT等機(jī)構(gòu)的學(xué)者提出了一種創(chuàng)新的訓(xùn)練范式,攻破了大模型的推理缺陷。他們通過(guò)因果模型構(gòu)建數(shù)據(jù)集,直接教模型學(xué)習(xí)公理,結(jié)果只有67M參數(shù)的微型Transformer竟能媲美GPT-4的推理能力。

      「因果推理」絕對(duì)是當(dāng)前GenAI熱潮下的小眾領(lǐng)域,但是它有一個(gè)大佬級(jí)的堅(jiān)定支持者——Yann LeCun。

      他在推特上的日常操作之一,就是炮轟Sora等生成模型,并為自己堅(jiān)信的因果推理領(lǐng)域搖旗吶喊。

      甚至,早在2019年VentureBeat的采訪中,他就表達(dá)過(guò)這一觀點(diǎn):我們需要在深度學(xué)習(xí)模型中引入事件的因果關(guān)系,才能增強(qiáng)泛化能力,減少訓(xùn)練數(shù)據(jù)使用。

      對(duì)于當(dāng)前最流行的模型架構(gòu)Transformer,我們能教它因果推理嗎?

      最近,來(lái)自微軟MIT等機(jī)構(gòu)的研究人員提出了一種訓(xùn)練大模型新范式——公理框架(Axiomatic Framework)。

      論文中,作者從頭開(kāi)始訓(xùn)練了6700萬(wàn)參數(shù)的模型,僅使用了簡(jiǎn)單的因果鏈作為訓(xùn)練數(shù)據(jù)。

      令人驚訝的是,在推斷復(fù)雜圖表中的因果關(guān)系時(shí),67M模型的表現(xiàn)超越了十億級(jí)參數(shù)LLM,甚至可以與GPT-4相媲美。

      論文地址:https://arxiv.org/abs/2407.07612v1

      微軟MIT等團(tuán)隊(duì)最新方法的提出,是受到了圖靈獎(jiǎng)得主Judea Pearl啟發(fā)。

      Pearl曾提出了結(jié)構(gòu)化因果規(guī)則中的因果無(wú)關(guān)性公理,即直接通過(guò)符號(hào)化公理示例來(lái)教Transformer模型學(xué)習(xí)被動(dòng)數(shù)據(jù)(passive data)。

      這種方法不同于傳統(tǒng)機(jī)器學(xué)習(xí)模型,使用由公理推導(dǎo)出的數(shù)據(jù)。

      正如結(jié)果所示,通過(guò)公理訓(xùn)練,研究證明了Transformer模型可以學(xué)習(xí)因果,從而推斷因果關(guān)系,并從相關(guān)性中識(shí)別因果性。

      這暗示了,像GPT-4等大模型的訓(xùn)練,可以通過(guò)網(wǎng)絡(luò)數(shù)據(jù)中的帶噪聲的公理化示例學(xué)習(xí)因果知識(shí),而無(wú)需進(jìn)行干預(yù)實(shí)驗(yàn)。

      網(wǎng)友稱贊道,「研究者的觀點(diǎn)非常耐人尋味,因果推理一直是LLM的致命弱點(diǎn),進(jìn)一步發(fā)展這一領(lǐng)域,勢(shì)在必行」。

      「這類研究可能是通向半AGI的一條途徑」。

      研究背景

      因果推理(causal reasoning)是一種推理過(guò)程,遵守有特定因果性的預(yù)定義公理或規(guī)則。

      圖靈獎(jiǎng)得主Judea Pearl曾通過(guò)如下的「因果關(guān)系階梯」(ladder of causation)定義了可能的因果推理類型。

      通常因果推理所用的公理或規(guī)則并不會(huì)被直接引入,模型學(xué)習(xí)的只是數(shù)據(jù)。公理或規(guī)則作為歸納偏差被納入模型,比如通過(guò)正則化、模型架構(gòu)或變量選擇等方式。

      而這篇論文想要探討的,就是模型能否從被動(dòng)的符號(hào)演示中直接學(xué)習(xí)公理或規(guī)則。作者將這種方法稱為「公理化訓(xùn)練」(axiomatic training)。

      假設(shè)因果公理都可以以如下形式表示: <前提,假設(shè),結(jié)果> ,其中結(jié)果只有「是」和「否」兩種形式。

      這基本類似于亞里士多德提出的「三段論」格式,比如Judeal Pearl書中提出的「碰撞公理」(collider axiom)就可以表示為:

      這只是單個(gè)公理的表示,那么如何表達(dá)一個(gè)復(fù)雜系統(tǒng)中多個(gè)公理的組合呢?甚至,我們能用有限數(shù)量的公理表達(dá)任意因果模型嗎?

      此處,論文引用了Judea Pearl和David Galles在1997年發(fā)表的一項(xiàng)研究,他們證明了,對(duì)于給定的穩(wěn)定概率因果模型,都存在一組有限公理,可以充分表征對(duì)應(yīng)的有向因果圖。

      因果模型M=(X,U,F)被定義為內(nèi)部變量X、外部變量U和一組結(jié)構(gòu)方程F的集合,結(jié)構(gòu)方程描述了變量X和U之間的因果關(guān)系。

      模型M的另一種等效表示方式就是有向圖G,用有向邊Vi⭢Vj表示兩個(gè)節(jié)點(diǎn)Vi和Vj之間的因果關(guān)系。

      所謂的「穩(wěn)定概率」(stable probabilistic)因果模型,是指他們對(duì)模型作出的穩(wěn)定性假設(shè),指M中所有的不相關(guān)性(X ↛ Y|Z)都是穩(wěn)定的,寫作:

      在穩(wěn)定性假設(shè)下,Galles和Pearl共描述了6個(gè)公理,而這篇論文主要關(guān)注傳遞性公理。對(duì)于穩(wěn)定概率的因果模型,給定系統(tǒng)中的變量X、Y、Z,傳遞性公理可以寫作:

      將上述表達(dá)式通過(guò)取反進(jìn)一步簡(jiǎn)化,可以寫出其含有因果相關(guān)性的版本:

      其中表達(dá)式左側(cè)即為前提,右側(cè)即為假設(shè)。

      這樣的公理可以派生出數(shù)千個(gè)合成的符號(hào)表達(dá)式,從而用于向Transformer模型「教授」特定公理。

      公理化訓(xùn)練

      訓(xùn)練數(shù)據(jù)

      上述含有前提和假設(shè)的公理能映射到「是」或「否」的標(biāo)簽,一條訓(xùn)練數(shù)據(jù)就可以表示為{(P,H,L)}的元組形式。

      給定一個(gè)真實(shí)的因果圖,就可以通過(guò)應(yīng)用傳遞性公理(一次或多次),枚舉出所有可能的N個(gè)元組{(P,H,L)},從而構(gòu)建出數(shù)據(jù)集D。

      比如,因果圖中包含X1⭢X2⭢X3⭢…⭢Xn這樣的鏈拓?fù)鋾r(shí),一個(gè)可能的前提是X1⭢X2∧X2⭢X3,相應(yīng)的假設(shè)X1⭢X3的標(biāo)簽為「是」,而另一個(gè)假設(shè)X3⭢X1標(biāo)簽就為「否」。

      值得注意的是,論文中為了表達(dá)的清晰性,使用了數(shù)學(xué)語(yǔ)言進(jìn)行描述,但實(shí)際上用于訓(xùn)練的數(shù)據(jù)集只包含自然語(yǔ)言。

      比如,上面例子中的前提應(yīng)該表達(dá)為「X1導(dǎo)致X2,且X2導(dǎo)致X3」。

      數(shù)據(jù)擾動(dòng):泛化的關(guān)鍵

      之前有研究表明,以「擾動(dòng)」(perturbation)形式增加訓(xùn)練數(shù)據(jù)的可變性與多樣性,有助于提升模型的泛化能力。

      因此,作者在不同層次上對(duì)訓(xùn)練數(shù)據(jù)引入結(jié)構(gòu)化擾動(dòng),以最大化數(shù)據(jù)集分布的多樣性。

      1)節(jié)點(diǎn)名稱:傳遞鏈上每個(gè)節(jié)點(diǎn)的名稱都由1~3個(gè)字母/數(shù)字組成,長(zhǎng)度和使用的特定字符是隨機(jī)生成的。

      2)因果圖拓?fù)浣Y(jié)構(gòu):主要包含兩種類型

      - 順序結(jié)構(gòu)(sequential):所有的因果邊方向都是從后向前,共同形成一個(gè)典型的「?jìng)鬟f鏈」,比如X⭢Y⭢Z這種形式

      - 隨機(jī)翻轉(zhuǎn)(random flipping):給定一個(gè)順序結(jié)構(gòu)的傳遞鏈,對(duì)其中一些邊進(jìn)行隨機(jī)翻轉(zhuǎn),從而引入復(fù)雜性。比如X⭢Y⭢Z可以被修改為X⭢Y⭠Z。

      隨機(jī)翻轉(zhuǎn)可以在單一方向的鏈中添加分叉結(jié)構(gòu)(X⭠Y⭢Z,fork)和碰撞結(jié)構(gòu)(X⭢Y⭠Z,collider),它們是任何有向因果圖的基本構(gòu)建塊,有助于提升模型進(jìn)行跨結(jié)構(gòu)泛化的能力。

      3)鏈長(zhǎng)度:訓(xùn)練集中加入了長(zhǎng)度不等的鏈,包含3~6節(jié)點(diǎn)。

      損失函數(shù)

      論文沒(méi)有采用訓(xùn)練Transformer模型常用的next token預(yù)測(cè)損失,而是根據(jù)給定數(shù)據(jù)集中每個(gè)元組的真實(shí)標(biāo)簽進(jìn)行定義,表示為:

      位置編碼

      除了訓(xùn)練數(shù)據(jù)和損失函數(shù)之外,另一個(gè)重要因素是位置編碼的選擇。

      之前有研究表明,位置編碼機(jī)制對(duì)Transformer的序列長(zhǎng)度泛化能力有明顯影響,但不同的研究似乎得出了互相矛盾的結(jié)果。

      因此,作者在研究中分別嘗試了不同的方法,包括可學(xué)習(xí)位置編碼(LPE)、正弦位置編碼(SPE)和無(wú)位置編碼(NoPE)。

      訓(xùn)練和評(píng)估的整體流程如圖1所示,Transformer模型在順序鏈和帶有隨機(jī)翻轉(zhuǎn)的鏈上訓(xùn)練,長(zhǎng)度為3~6個(gè)節(jié)點(diǎn)。

      之后,訓(xùn)練過(guò)的模型在具有>6個(gè)節(jié)點(diǎn)的更復(fù)雜結(jié)構(gòu)上進(jìn)行評(píng)估,其中節(jié)點(diǎn)平均的出度(out-degree)和入度(in-degree)都更大,序列更長(zhǎng),且引入了分支、反轉(zhuǎn)(reversal)等復(fù)雜變化。

      實(shí)現(xiàn)細(xì)節(jié):架構(gòu)、分詞器和訓(xùn)練過(guò)程

      具體來(lái)說(shuō),研究人員基于GPT-2的架構(gòu),訓(xùn)練了一個(gè)擁有6700萬(wàn)參數(shù)的解碼器模型。

      該模型有12個(gè)注意力層、8個(gè)注意力頭,以及512個(gè)嵌入維度。

      值得一提的是,67M模型是在各種訓(xùn)練數(shù)據(jù)集上,從頭開(kāi)始訓(xùn)練的。為了理解位置編碼(PE)的影響,他們考慮了正弦位置編碼(SPE)、可學(xué)習(xí)位置編碼(LPE)以及不使用位置編碼(NoPE)三種情況。

      所有模型都使用AdamW優(yōu)化器進(jìn)行訓(xùn)練,學(xué)習(xí)率為1e-4,訓(xùn)練100個(gè)epoch。

      由于訓(xùn)練數(shù)據(jù)集遵循特定結(jié)構(gòu),研究人員還開(kāi)發(fā)了一個(gè)自定義分詞器(custom tokenizer)。

      字母數(shù)字節(jié)點(diǎn)名稱在字符級(jí)別進(jìn)行分詞,而像「causes」、「cause」、「Does」、「Yes」「No」這樣的特殊術(shù)語(yǔ)則在詞級(jí)別進(jìn)行分詞。

      簡(jiǎn)言之,字符級(jí)分詞用于字母數(shù)字節(jié)點(diǎn)名稱,詞級(jí)分詞用于特殊術(shù)語(yǔ)。

      這種方法可以避免在測(cè)試時(shí),出現(xiàn)詞匯表外(OOV)token,因?yàn)闇y(cè)試集中的字母數(shù)字節(jié)點(diǎn)名稱可能與訓(xùn)練集中的不同。

      采用這種方法后,6700萬(wàn)參數(shù)Transformer模型的詞匯表大小為69。

      實(shí)驗(yàn)結(jié)果

      復(fù)雜因果場(chǎng)景的泛化

      研究人員首先展示了,通過(guò)公理化訓(xùn)練的Transformer模型在泛化到更大、更復(fù)雜的因果圖方面的表現(xiàn),并將其與預(yù)訓(xùn)練的大模型進(jìn)行了比較。

      序列長(zhǎng)度泛化

      表1展示了不同模型在評(píng)估訓(xùn)練過(guò)程中,未見(jiàn)過(guò)的更長(zhǎng)因果鏈時(shí)的準(zhǔn)確率。

      在基線預(yù)訓(xùn)練語(yǔ)言模型中,GPT-4在標(biāo)準(zhǔn)和隨機(jī)翻轉(zhuǎn)的因果鏈上都取得了最高的準(zhǔn)確率。

      令人驚訝的是,盡管TS2(NoPE)模型在訓(xùn)練過(guò)程中從未見(jiàn)過(guò)更長(zhǎng)的序列,但它的表現(xiàn)能夠與萬(wàn)億參數(shù)規(guī)模的GPT-4模型相媲美。

      雖然訓(xùn)練時(shí)只用到了長(zhǎng)度為3~6個(gè)節(jié)點(diǎn)的因果鏈,但序列長(zhǎng)度為7~13時(shí),TS2(NoPE)在標(biāo)準(zhǔn)和隨機(jī)翻轉(zhuǎn)的鏈上,獲得了比GPT-4更高或相當(dāng)?shù)臏?zhǔn)確率。

      對(duì)于序列長(zhǎng)度為14-15的情況下,其準(zhǔn)確率有所下降(標(biāo)準(zhǔn)鏈為0.85,隨機(jī)翻轉(zhuǎn)鏈為0.78),但仍然顯著高于Gemini-Pro 、Phi-3模型。

      需要注意的是,隨機(jī)預(yù)測(cè)會(huì)得到50%的準(zhǔn)確率,這表明通過(guò)公理化訓(xùn)練的TS2(NoPE)模型,能夠?qū)⑵渫评砟芰Ψ夯礁L(zhǎng)的序列上。

      節(jié)點(diǎn)名稱轉(zhuǎn)變

      對(duì)于在TS2數(shù)據(jù)集上訓(xùn)練的模型,研究人員還評(píng)估了其對(duì)變量名稱變化的泛化能力(圖 3)。

      結(jié)果發(fā)現(xiàn),TS2(NoPE)對(duì)節(jié)點(diǎn)名稱的變化很穩(wěn)健,在引入新的、更長(zhǎng)的名稱時(shí)仍能保持較高的準(zhǔn)確率。它還保持了對(duì)新節(jié)點(diǎn)名稱較長(zhǎng)序列的通用性,其表現(xiàn)與GPT-4相似。

      因果序列順序

      與長(zhǎng)度和節(jié)點(diǎn)名稱的變化不同,反轉(zhuǎn)(reversal)以及分支(branching)操作改變了因果結(jié)構(gòu),因此能更好地評(píng)估模型是否學(xué)習(xí)到了對(duì)結(jié)構(gòu)的準(zhǔn)確表示。

      在表2b中,TS2(NoPE)在長(zhǎng)度不超過(guò)8的因果鏈上,獲得的準(zhǔn)確率高于Gemini Pro、Phi-3。長(zhǎng)度為9時(shí),TS2(NoPE)的準(zhǔn)確率為0.73,與Gemini Pro(0.74)相當(dāng)。

      在表2a中,研究者還觀察到對(duì)完全反轉(zhuǎn)序列進(jìn)行評(píng)估的類似模式。

      在這項(xiàng)任務(wù)中,公理訓(xùn)練模型TS2(NoPE)在限制鏈長(zhǎng)度為3-6時(shí),表現(xiàn)優(yōu)于GPT-4。特別是,其準(zhǔn)確率(長(zhǎng)度為 6 的鏈為0.94)大大高于Gemini Pro和Phi-3(分別為0.62和0.69)。

      分支(Branching)

      分支可能是最有挑戰(zhàn)性的任務(wù),因?yàn)樗肓嗽谟?xùn)練期間未見(jiàn)的新結(jié)構(gòu)。

      雖然GPT-4在圖大小不斷增大的情況下獲得了最佳準(zhǔn)確率,但TS2(NoPE)模型在除一個(gè)節(jié)點(diǎn)外的所有圖大小上,都比Gemini Pro獲得了更高的準(zhǔn)確率。

      即使在有12個(gè)節(jié)點(diǎn)和1.4個(gè)分支因子的圖形上進(jìn)行評(píng)估,TS2(NoPE)模型也能獲得70%的準(zhǔn)確率,明顯優(yōu)于隨機(jī)模型(50%)。

      總結(jié)

      在所有評(píng)估設(shè)置中,公理化訓(xùn)練模型TS2(NoPE)的性能明顯優(yōu)于隨機(jī)基線,即使因果鏈的長(zhǎng)度超過(guò)其訓(xùn)練數(shù)據(jù)。

      特別是,模型沒(méi)有在完全反轉(zhuǎn)的鏈上進(jìn)行訓(xùn)練,它的表現(xiàn)也與規(guī)模更大的GPT-4模型相當(dāng)(圖 2)。

      在其他任務(wù)中,它的準(zhǔn)確性往往優(yōu)于或與Gemini Pro、Phi-3等十億參數(shù)規(guī)模的模型相當(dāng)。

      這些結(jié)果表明,經(jīng)過(guò)公理訓(xùn)練的模型可以從簡(jiǎn)單因果序列的演示中,學(xué)會(huì)推理更復(fù)雜的因果結(jié)構(gòu)。這表明公理訓(xùn)練在因果圖推理方面的潛力。

      其他結(jié)果:數(shù)據(jù)多樣性和位置編碼的作用

      位置編碼的作用

      比較不同位置編碼選擇的模型性能,研究人員發(fā)現(xiàn)沒(méi)有位置編碼的模型在更長(zhǎng)的序列(最長(zhǎng)到15個(gè)節(jié)點(diǎn)的鏈)和復(fù)雜的、未見(jiàn)過(guò)的圖結(jié)構(gòu)上都能很好地泛化,盡管它們僅在3-6個(gè)節(jié)點(diǎn)的鏈上進(jìn)行訓(xùn)練。

      使用正弦位置編碼(SPE)和可學(xué)習(xí)位置編碼(LPE)的模型在更長(zhǎng)的鏈上表現(xiàn)也不錯(cuò),但當(dāng)節(jié)點(diǎn)名稱長(zhǎng)度增加時(shí)表現(xiàn)較差,即使是在節(jié)點(diǎn)數(shù)較少的鏈上也是如此(圖3)。

      這種使用SPE和LPE的泛化失敗,突出了模型無(wú)法處理訓(xùn)練集中序列的微小擾動(dòng)。

      此外,SPE在不同的結(jié)構(gòu)維度上表現(xiàn)不佳(如分支)以及基于順序的設(shè)置(shuffling和反轉(zhuǎn))。

      可學(xué)習(xí)的位置編碼在長(zhǎng)度達(dá)9的線性鏈上表現(xiàn)良好,但之后急劇下降。

      總的來(lái)說(shuō),研究結(jié)果擴(kuò)展了早期關(guān)于不使用位置編碼(NoPE)有效性的研究,將其應(yīng)用于理解因果序列的任務(wù),并在測(cè)試時(shí)泛化到更長(zhǎng)的長(zhǎng)度和復(fù)雜的結(jié)構(gòu)。

      數(shù)據(jù)擾動(dòng)的重要性

      除了位置編碼外,訓(xùn)練數(shù)據(jù)中序列的多樣性也起著重要作用。

      僅在因果鏈上,訓(xùn)練的模型可以泛化到較長(zhǎng)的鏈(表 1),但不能泛化到其他DAG結(jié)構(gòu)(見(jiàn)圖4中的翻轉(zhuǎn),圖2中的反轉(zhuǎn),表3中的分支)。

      在TS1或TS1上訓(xùn)練的模型在所有情況下都具有通用性,包括隨機(jī)翻轉(zhuǎn)、順序排列和分支;因此突出了通過(guò)隨機(jī)翻轉(zhuǎn)在邊水平上納入可變性的影響。

      不過(guò),在不同任務(wù)中,研究發(fā)現(xiàn)TS2的準(zhǔn)確率高于TS1,即使TS1因隨機(jī)翻轉(zhuǎn)而產(chǎn)生了更多變化。

      這表明,雖然擾動(dòng)有助于結(jié)構(gòu)泛化,但過(guò)度的擾動(dòng)可能會(huì)阻礙結(jié)構(gòu)泛化。

      使用公理訓(xùn)練從相關(guān)性推斷因果關(guān)系

      接下來(lái),作者研究這種能力是否可以轉(zhuǎn)移到其他因果任務(wù)上。

      為此,研究人員將公理化訓(xùn)練應(yīng)用于一個(gè)任務(wù),該任務(wù)是從觀察數(shù)據(jù)中的相關(guān)性陳述推斷因果關(guān)系。

      如圖5所示,每個(gè)數(shù)據(jù)實(shí)例包括用自然語(yǔ)言描述的3到6個(gè)節(jié)點(diǎn)圖的相關(guān)關(guān)系;目標(biāo)是推斷假設(shè)的真值,判斷任何給定節(jié)點(diǎn)之間是否存在直接或間接關(guān)系,以及可能存在的碰撞節(jié)點(diǎn)和混雜因素。

      這個(gè)任務(wù)比應(yīng)用傳遞性公理要困難得多。

      由于任務(wù)的復(fù)雜性,結(jié)果發(fā)現(xiàn)像Gemini Pro、Phi-3這樣的預(yù)訓(xùn)練模型的表現(xiàn)與隨機(jī)猜測(cè)相似(準(zhǔn)確率為52%)。

      雖然GPT-4的表現(xiàn)稍好一些,但其性能仍然較低(準(zhǔn)確率為58%)。

      值得注意的是,研究者的小型Transformer模型表現(xiàn)優(yōu)于所有基線模型,準(zhǔn)確率達(dá)到64%,比GPT-4高出6%。

      通過(guò)進(jìn)一步探索不同的訓(xùn)練設(shè)置,公理化訓(xùn)練的Transformer模型可能會(huì)在這類因果推理任務(wù)上得到進(jìn)一步的優(yōu)化。

      總的來(lái)說(shuō),研究人員認(rèn)為公理化訓(xùn)練是教Transformer模型學(xué)習(xí)因果關(guān)系的一種很有前景的方法。

      受Judea Pearl愿景的啟發(fā),這項(xiàng)工作代表著一個(gè)潛在的新科學(xué)前沿——因果關(guān)系研究和語(yǔ)言模型的交叉點(diǎn)上。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國(guó)信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。