IT之家的小伙伴們可能都有設想過,如果用 AI 生成的結果來訓練 AI,進行“套娃式訓練”,能得到什么樣的結果?目前還真有研究團隊對此進行了觀察記錄,詳細論文及得出的結果發(fā)表在了 arXiv 上。
一句話總結 —— “在訓練中使用模型生成的內(nèi)容,將導致后續(xù)生成的模型出現(xiàn)不可逆轉的缺陷”,說人話就是研究人員發(fā)現(xiàn)“用 AI 生成的結果訓練 AI,只會讓模型變得越來越差”。
據(jù)悉,研究人員專門研究了 AI 生成模型的概率分布,主要圍繞“文本到文本”和“圖像到圖像”展開,最終得出結論:“由于每個模型生成的結果都具有一定的特點,因此用 AI 生成的模型訓練 AI,隨著時間的推移,后者會忘記真正的底層數(shù)據(jù)分布。”
論文的主要作者之一 Ilia Shumailov 同時表示“隨著時間的推移,生成數(shù)據(jù)中的錯誤(IT之家注:例如虛假舉例)會迫使 AI 進一步錯誤地感知現(xiàn)實,我們驚訝地觀察到模型崩潰發(fā)生的速度相當快,模型可以迅速忘記他們最初從中學習的大部分原始數(shù)據(jù)。”
但小伙伴們可能會有所疑問,如果將 AI 生成的結果經(jīng)過人工潤色后再投入模型訓練,是否可以避免模型“退化”?
答案是否定的,研究人員發(fā)現(xiàn)“模型退化過程是不可避免的”,因此即使對于“經(jīng)過潤色后理想化的 AI 輸出內(nèi)容”,模型在長期學習后,也會出現(xiàn)一定的退化現(xiàn)象。
對于任何大模型而言,由于其學習數(shù)據(jù)過多,它們都將不可避免地接觸到其他 AI 生成的數(shù)據(jù),因此研究人員表示“應當引入 AI 鑒定來挑出可能存在錯誤的學習數(shù)據(jù)”以提升模型的學習能力與準確性。
文章內(nèi)容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。