首頁 > 云計算頻道 > 大模型

大模型「強崩潰」！Meta新作：合成數(shù)據(jù)有「劇毒」，1%即成LLM殺手

2024年10月14日 09:47:24 來源：新智元公眾號

　　1%合成數(shù)據(jù)，就能讓模型瞬間崩潰!來自Meta、NYU等機構(gòu)團隊證實，「微量」合成數(shù)據(jù)便讓LLM弱不可堪。甚至，參數(shù)規(guī)模越大，模型崩潰越嚴重。

　　1%的合成數(shù)據(jù)，就讓LLM完全崩潰了?

　　7月，，用合成數(shù)據(jù)訓(xùn)練模型就相當(dāng)于「近親繁殖」，9次迭代后就會讓模型原地崩潰。

　　然而，許多大佬都不同意這篇文章的方法和結(jié)論。

　　比如，Scale AI的CEO Alexandr Wang就很看好合成數(shù)據(jù)的前景，甚至使用了98%的合成數(shù)據(jù)。

　　最近，Meta、紐約大學(xué)、UCLA機構(gòu)發(fā)表的最新論文，再一次動搖了這些大佬們的結(jié)論。

　　他們發(fā)現(xiàn)，即使合成數(shù)據(jù)僅僅占到總數(shù)據(jù)集的最小部分，甚至是1%的比例，仍然可能導(dǎo)致模型崩潰。

　　甚至，ChatGPT和Llama這種較大的模型，還可能放大這種「崩潰」現(xiàn)象。

　　強模型崩潰，如何發(fā)生的?

　　隨著越來越多的合成數(shù)據(jù)出現(xiàn)在訓(xùn)練集中，一種新的現(xiàn)象應(yīng)運而生：「模型崩潰」。

　　所謂「模型崩潰」，是指隨著時間的推移，LLM或大型圖像生成器在其前幾代生成的數(shù)據(jù)上進行遞歸訓(xùn)練，導(dǎo)致性能下降，直至模型完全喪失能力的情況。

　　圍繞著這個問題，AI學(xué)界和業(yè)界的大佬依舊莫衷一是，尚未達成一致的結(jié)論。

　　而合成數(shù)據(jù)究竟會在多大比例、多大程度上導(dǎo)致「模型崩潰」，直接影響著我們在未來如何應(yīng)用這項技術(shù)。

　　從直覺上理解，合成數(shù)據(jù)導(dǎo)致「模型崩潰」的底層邏輯，是由于模型開始對合成數(shù)據(jù)中的模式進行過擬合，而這些模式可能無法代表現(xiàn)實世界數(shù)據(jù)的豐富性或可變性。

　　如果進行連續(xù)的迭代訓(xùn)練，這種反饋循環(huán)會導(dǎo)致模型強化合成數(shù)據(jù)中存在的錯誤、偏差或過度簡化，因而損害了對現(xiàn)實世界的準確表示能力和泛化能力。

　　總體而言，這篇文章旨在回答以下兩個重要問題：

　　Q1：模型崩潰是不可避免的，還是可以通過策略性地混合真實數(shù)據(jù)和合成數(shù)據(jù)來解決?

　　Q2：較大的模型比較小的模型更容易崩潰嗎?

　　針對這兩個問題，論文以經(jīng)典線性設(shè)置中的回歸問題為例進行了理論分析，之后在「玩具設(shè)置」(MINIST數(shù)據(jù)集+迷你模型)和更接近真實場景的GPT-2模型上運行了實驗。

　　理論設(shè)置

　　數(shù)據(jù)分布

　　考慮從真實數(shù)據(jù)分布P_1采樣得到的n_1個獨立同分布樣本_1={(x_i, y_i)∣1≤i≤n_1}，以及從合成數(shù)據(jù)分布采樣得到了n_2個獨立同分布樣本_2={(x_i, y_i)∣1≤i≤n_2}，令n:=n_1+n_2為訓(xùn)練數(shù)據(jù)總量。

　　這里，數(shù)據(jù)分布的特征可以在ℝ^d×ℝ上給出，即P_k=P_{Σ_k,w_k^∗,σ_k^2}：

　　其中，每個Σ_k都是一個d×d的正定協(xié)方差矩陣，捕獲輸入特征向量x的內(nèi)在變化;σ_k控制每種分布中標(biāo)簽噪聲的水平。

　　為了簡潔起見，我們將對w_k^∗做出以下先驗假設(shè)(對于某些d×d正半定矩陣Γ和Δ)：

　　- 真實標(biāo)簽：w_1^∗∼N⁢(0,Γ)

　　- 真實標(biāo)簽與合成標(biāo)簽之間的不匹配：δ:=w_2^∗−w_1^∗∼N⁢(0,Δ) ，獨立于w_1^∗

　　其中，矩陣Γ捕獲真實/測試分布中的真實標(biāo)簽函數(shù)的結(jié)構(gòu)P_1;矩陣Δ=cov⁢(w_2^∗−w_1^∗)捕獲數(shù)據(jù)分布P_1和P_2之間關(guān)于條件分布p⁢(y|x)差異的協(xié)方差結(jié)構(gòu)，連同標(biāo)簽的噪聲水平σ_1^2和σ_2^2。

　　平均而言，兩種分布的L2范數(shù)差異可以表示為，。

　　因此，合成數(shù)據(jù)的質(zhì)量就可以被定義為，。

　　模型和性能度量

　　給定訓(xùn)練數(shù)據(jù)，模型的學(xué)習(xí)目標(biāo)是構(gòu)建一個估計器w\hat，這可以看作是一個線性模型 x↦x^⊤⁢w\hat。與真實數(shù)據(jù)分布P_1對比，模型的測試誤差f\hat:ℝ^d→ℝ就可被定義為：

　　針對不同的模型，f\hat就是本篇論文的主要研究對象。此處考慮兩類易于分析處理的模型：1)經(jīng)典線性模型，對輸入空間中的回歸施加懲罰，以及2)通過隨機投影得到特征空間，之后施加回歸懲罰獲得的模型。

　　第一類線性模型的優(yōu)化目標(biāo)如公式3所定義：

　　該模型存在如下的比例縮放限制(proportionate scaling limit)：

　　由此，我們可以得到表示經(jīng)典線性模型 f_{C⁢L}\hat的定理1：

　　由定理1和相關(guān)推論可知，在Scaling Law范式中(ϕ→0+)，如果要保持穩(wěn)定，則必須要求p2→0+，即僅對真實數(shù)據(jù)進行訓(xùn)練，否則就會導(dǎo)致模型崩潰。

　　對第二類的隨機投影模型(random projections model)，可以通過其中的隨機投影來簡單近似神經(jīng)網(wǎng)絡(luò)。

　　中，v\hat ∈ ℝ^k通過擬合數(shù)據(jù)集進行學(xué)習(xí)，優(yōu)化目標(biāo)如公式5所定義：

　　同樣規(guī)定在如下的漸近(asymptotic)機制中工作：

　　這類模型可以被視為實際神經(jīng)網(wǎng)絡(luò)高維動態(tài)的簡化。將定理1擴展到隨機投影情況，可以得到定理2：

　　。

　　這就意味著，除非p2→0+，即訓(xùn)練集中合成數(shù)據(jù)部分消失，否則模型的性能將始終穩(wěn)定在基線E\bar之上(意味著強烈的模型崩潰)。

　　部分僅取決于模型的設(shè)計選擇(之前通過標(biāo)量θ定義)，因此可以預(yù)計，不同的設(shè)計選擇(例如模型大小)，將導(dǎo)致不同的模型崩潰輪廓。

　　實驗結(jié)果

　　如上所示，定理2作為定理1的拓展，給了我們相同的結(jié)論：要想模型不崩潰，合成數(shù)據(jù)比例就需要無限接近0。

　　接下來，作者通過一系列實驗驗證了這一理論推導(dǎo)，并探究模型尺寸在其中扮演的作用。

　　圖1對應(yīng)的實驗中，訓(xùn)練樣本總數(shù)固定為 n=500，不同的c^2值對應(yīng)不同質(zhì)量的合成數(shù)據(jù)。

　　c^2=0 (非常高質(zhì)量的綜合數(shù)據(jù))，用方形標(biāo)記表示;c^2=0.1 (高質(zhì)量合成數(shù)據(jù))，用菱形表示;c^2=0.5 (低質(zhì)量)，用三角形表示，以及c^2=1 (非常低質(zhì)量的合成數(shù)據(jù))，用星形表示

　　由圖可知，對于較高質(zhì)量的合成數(shù)據(jù)(方形和菱形)，使用較大的模型(即更大的ψ)的確是最佳實踐;但如果數(shù)據(jù)質(zhì)量較低，模型并不是越大越好，最佳權(quán)衡反而處于中等大小。

　　此外，如圖5所示，網(wǎng)絡(luò)的寬度m也會造成影響，而且實驗得到的曲線與理論預(yù)測值的擬合效果比較理想。

　　實線對應(yīng)實驗結(jié)果(5次運行)，而虛線對應(yīng)理論預(yù)測

　　改變合成數(shù)據(jù)的質(zhì)量后，圖5所示的整體趨勢依舊成立。

　　圖6所示的實驗采用了經(jīng)過全面訓(xùn)練的兩層網(wǎng)絡(luò)，但僅根據(jù)合成數(shù)據(jù)進行訓(xùn)練，依舊支持了上述的總體趨勢：

　　- 合成數(shù)據(jù)造成了顯著的模型崩潰

　　- 模型越大，崩潰程度越嚴重

　　圖7分別顯示了隨機特征模型(左)和完全訓(xùn)練的神經(jīng)網(wǎng)絡(luò)(右)的結(jié)果，探究合成數(shù)據(jù)比例的影響。

　　兩種情況基本一致，除非P_2接近0，否則模型就逐漸脫離Scaling Law的軌跡，逐漸拉平成為一條水平線，即MSE損失不再隨樣本增加而降低，意味著出現(xiàn)了模型崩潰。

　　相比圖7的小模型和小數(shù)據(jù)集，圖8使用的BabiStories數(shù)據(jù)集和GPT-2模型更接近現(xiàn)實中的復(fù)雜情況。

　　可以看到，即便是少量的合成數(shù)據(jù)也會延遲Scaling Law的進展，作者預(yù)計，這最終會導(dǎo)致最終Scaling Law提前達到飽和狀態(tài)或至少出現(xiàn)非常糟糕的指數(shù)(即小指數(shù))。

　　圖8(右)所示的關(guān)于模型尺寸的影響。在數(shù)據(jù)集的某個閾值前，較大/較深的模型保持較低的測試損失;但超過一定閾值后，較小的模型反而由于減少過擬合而占了上風(fēng)。

　　這表明，較大的模型往往會將模型崩潰放大到某個插值的閾值之外。

　　BabiStories包含Mixtral-8x7B生成的高質(zhì)量合成數(shù)據(jù)

　　數(shù)據(jù)混合，能否防止LLM崩潰?

　　如上，作者分別從理論、實證上，證實了強模型崩潰所在。

　　接下來，他們將通過合成數(shù)據(jù)策略，探索如何緩解模型崩潰這一現(xiàn)象。

　　這里首先假設(shè)有關(guān)于數(shù)據(jù)源的明確信息，并使用兩種數(shù)據(jù)混合方法：

　　1 加權(quán)數(shù)據(jù)混合

　　2 戰(zhàn)略性迭代混合

　　加權(quán)單步數(shù)據(jù)混合

　　為了研究學(xué)習(xí)真實數(shù)據(jù)和替代數(shù)據(jù)(例如合成數(shù)據(jù))混合的scaling law，考慮的設(shè)置需包括以下優(yōu)化問題：

　　結(jié)果如下所示，真實數(shù)據(jù)+模擬數(shù)據(jù)混合法，無法解決模型崩潰問題。

　　在實驗中，作者使用了多個不同的真實數(shù)據(jù)n1和合成數(shù)據(jù)n2的大小值。

　　動態(tài)/多步數(shù)據(jù)混合

　　迭代混合恢復(fù)了scaling law，但在實踐中可能不可行。

　　研究人員觀察到，在t次迭代(t的數(shù)量級為log(n/d))的迭代混合后，會得到與E成比例的縮放規(guī)律，這在圖10中得到了經(jīng)驗證實。

　　然而，這需要付出顯著的自舉(bootstrapping)成本，大量的真實數(shù)據(jù)，以及在多次迭代中清晰區(qū)分真實和合成數(shù)據(jù)的能力——這些條件在實踐中都過于計算密集且難以實現(xiàn)。

　　而且，迭代混合主要依賴真實數(shù)據(jù)。

　　在圖10中，研究人員比較了迭代混合的scaling效果，與僅使用同一訓(xùn)練集中部分真實數(shù)據(jù)(Clean)所獲得的scaling效果。

　　雖然scaling率保持一致，但迭代混合的表現(xiàn)始終不如單獨使用真實數(shù)據(jù)。

　　這表明迭代混合可能主要是中和了合成數(shù)據(jù)，并嚴重依賴真實數(shù)據(jù)來恢復(fù)scaling效果。

　　即使原始合成數(shù)據(jù)質(zhì)量很高(即當(dāng)很小時，如圖10最右側(cè)所示)，迭代方法也未能有效利用合成數(shù)據(jù)，導(dǎo)致性能比單次混合更差。

　　因此，盡管迭代混合恢復(fù)了相同的scaling率，模型仍在某種程度上發(fā)生了崩潰，并且沒有觀察到顯著的性能改善。

　　最后，研究人員還證明了，與少量實際數(shù)據(jù)進行迭代混合，也是會導(dǎo)致模型崩潰。

　　總而言之，這項研究系統(tǒng)地描述了真實、合成數(shù)據(jù)混合，訓(xùn)練模型的效果，表明了模型崩潰是一種穩(wěn)健的現(xiàn)象，即使在合成數(shù)據(jù)比例很小的情況下。

　　作者介紹

　　Elvis Dohmatob

　　2021年，Elvis Dohmatob加入了FacebookAI Research(FAIL)成為一名研究員。在此之前，他曾在INRIA、Criteo擔(dān)任過研究員。

　　他的研究興趣包括：深度學(xué)習(xí)(主要是理論方面)、穩(wěn)健優(yōu)化等等。

　　Yunzhen Feng(馮韞禛)

　　Yunzhen Feng目前是紐約大學(xué)數(shù)據(jù)科學(xué)中心數(shù)學(xué)和數(shù)據(jù)組的博士生，導(dǎo)師是Julia Kempe教授。在Meta的FIRE實習(xí)期間，與Yann Olivier博士共事。

　　目前，他的研究興趣在于：1)改進的科學(xué)推理方法，2)強化學(xué)習(xí)和測試時間優(yōu)化，3)人工智能合成數(shù)據(jù)對當(dāng)代學(xué)習(xí)范式的影響。

　　他曾在2021年獲得北大數(shù)院應(yīng)用數(shù)學(xué)學(xué)士學(xué)位，導(dǎo)師是Bin Dong教授。

　　Arjun Subramonian目前是UCLA計算機科學(xué)理論博士生，并在Meta實習(xí)。

　　他的博士研究重點是圖神經(jīng)網(wǎng)絡(luò)中社會不公平的理論基礎(chǔ)，對利用譜圖理論和統(tǒng)計學(xué)來表征圖的結(jié)構(gòu)屬性如何導(dǎo)致算法不公平感興趣。

　　Julia Kempe是紐約大學(xué)數(shù)據(jù)科學(xué)中心和Courant數(shù)學(xué)科學(xué)研究所計算機科學(xué)、數(shù)學(xué)和數(shù)據(jù)科學(xué)的銀牌教授，也是Meta Fair的客座高級研究員。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅持質(zhì)價比不動

中端質(zhì)價比之王，真我Neo7正式發(fā)布2099元起　　

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

大模型「強崩潰」！Meta新作：合成數(shù)據(jù)有「劇毒」，1%即成LLM殺手

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

3C消費

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實力，創(chuàng)

研究

中國信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

專題

大模型「強崩潰」！Meta新作：合成數(shù)據(jù)有「劇毒」，1%即成LLM殺手

擴展閱讀

大模型「強崩潰」！Meta新作：合成數(shù)據(jù)有「劇毒」，1%即成LLM殺手