研究人員證實用 AI 生成的結果訓練 AI 將導致模型退化乃至崩潰

2023年06月15日 16:14:06 來源：IT之家

　　IT之家的小伙伴們可能都有設想過，如果用 AI 生成的結果來訓練 AI，進行“套娃式訓練”，能得到什么樣的結果?目前還真有研究團隊對此進行了觀察記錄，詳細論文及得出的結果發(fā)表在了 arXiv 上。

　　一句話總結 —— “在訓練中使用模型生成的內(nèi)容，將導致后續(xù)生成的模型出現(xiàn)不可逆轉的缺陷”，說人話就是研究人員發(fā)現(xiàn)“用 AI 生成的結果訓練 AI，只會讓模型變得越來越差”。

　　據(jù)悉，研究人員專門研究了 AI 生成模型的概率分布，主要圍繞“文本到文本”和“圖像到圖像”展開，最終得出結論：“由于每個模型生成的結果都具有一定的特點，因此用 AI 生成的模型訓練 AI，隨著時間的推移，后者會忘記真正的底層數(shù)據(jù)分布。”

　　論文的主要作者之一 Ilia Shumailov 同時表示“隨著時間的推移，生成數(shù)據(jù)中的錯誤(IT之家注：例如虛假舉例)會迫使 AI 進一步錯誤地感知現(xiàn)實，我們驚訝地觀察到模型崩潰發(fā)生的速度相當快，模型可以迅速忘記他們最初從中學習的大部分原始數(shù)據(jù)。”

　　但小伙伴們可能會有所疑問，如果將 AI 生成的結果經(jīng)過人工潤色后再投入模型訓練，是否可以避免模型“退化”?

　　答案是否定的，研究人員發(fā)現(xiàn)“模型退化過程是不可避免的”，因此即使對于“經(jīng)過潤色后理想化的 AI 輸出內(nèi)容”，模型在長期學習后，也會出現(xiàn)一定的退化現(xiàn)象。

　　對于任何大模型而言，由于其學習數(shù)據(jù)過多，它們都將不可避免地接觸到其他 AI 生成的數(shù)據(jù)，因此研究人員表示“應當引入 AI 鑒定來挑出可能存在錯誤的學習數(shù)據(jù)”以提升模型的學習能力與準確性。

　　文章內(nèi)容僅供閱讀，不構成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信