下單前先比價不花冤枉錢 同款圖書京東價低于抖音6折日媒感慨中國電動汽車/智駕遙遙領(lǐng)先:本田、日產(chǎn)、三菱合并也沒戲消委會吹風(fēng)機(jī)品質(zhì)檢測結(jié)果揭曉 徠芬獨占鰲頭 共話新質(zhì)營銷力,2024梅花數(shù)據(jù)峰會圓滿落幕索尼影像專業(yè)服務(wù) PRO Support 升級,成為會員至少需注冊 2 臺 α 全畫幅相機(jī)、3 支 G 大師鏡頭消息稱vivo加碼電池軍備競賽:6500mAh 旗艦機(jī)+7500mAh中端機(jī)寶馬M8雙門轎跑車明年年初將停產(chǎn),后續(xù)無2026款車型比亞迪:2025 款漢家族車型城市領(lǐng)航智駕功能開啟內(nèi)測雷神預(yù)告2025年首次出席CES 將發(fā)布三款不同技術(shù)原理智能眼鏡realme真我全球首發(fā)聯(lián)發(fā)科天璣 8400 耐玩戰(zhàn)神共創(chuàng)計劃iQOO Z9 Turbo長續(xù)航版手機(jī)被曝電池加大到6400mAh,搭驍龍 8s Gen 3處理器普及放緩 銷量大跌:曝保時捷將重新評估電動汽車計劃來京東參與榮耀Magic7 RSR 保時捷設(shè)計預(yù)售 享365天只換不修國補(bǔ)期間電視迎來換機(jī)潮,最暢銷MiniLED品牌花落誰家?美團(tuán)旗下微信社群團(tuán)購業(yè)務(wù)“團(tuán)買買”宣布年底停運(yùn)消息稱微軟正與第三方廠商洽談,試圖合作推出Xbox游戲掌機(jī)設(shè)備在海外,要再造一個京東物流?消息稱蘋果正為AirPods開發(fā)多項健康功能,包括心率監(jiān)測和溫度感應(yīng)一加 Ace 5系列將搭載全新游戲助手:大幅提升游戲體驗東芝全部業(yè)務(wù)實現(xiàn)盈利,退市裁員重組后終于賺錢
  • 首頁 > 云計算頻道 > 大模型

    用AI生成數(shù)據(jù)訓(xùn)練AI,最終只會“模型崩潰”

    2023年06月20日 14:05:00   來源:DoNews

      撰文 | 李   熙

      編輯 | 楊博丞

      人盡皆知:過去的科幻文學(xué)家預(yù)言了潛艇、衛(wèi)星、人工智能等后世科技里程碑。然而科幻文學(xué)家們的預(yù)言中,其實應(yīng)驗的烏鴉嘴不比正面成就少,比如DDOS網(wǎng)絡(luò)攻擊、個人生物信息盜竊、和人工智能模型的退化。

      2023年2月,美國華裔科幻文學(xué)家特德·姜發(fā)表文章稱:ChatGPT等大語言模型,實質(zhì)是對互聯(lián)網(wǎng)語料庫的有損模糊壓縮,如同JPEG格式之于原始高清圖片。

      按特德·姜的觀點,用大語言模型生成的文本來訓(xùn)練新的模型,如同反復(fù)以JPEG格式存儲同一圖像,每次都會丟失更多的信息,最終成品質(zhì)量只會越來越差。大語言模型生成的文本在網(wǎng)絡(luò)上發(fā)布得越多,信息網(wǎng)絡(luò)本身就變得越發(fā)模糊、難以獲取有效真實信息。

      2023年6月中,牛津、劍橋、倫敦帝國學(xué)院、愛丁堡大學(xué)、多倫多大學(xué)等高校的AI研究者發(fā)布的論文預(yù)印本《遞歸之詛咒:用生成數(shù)據(jù)訓(xùn)練會使模型遺忘》在業(yè)界流傳開來。論文中用實驗結(jié)果證明了特德·姜的預(yù)言:用AI生成數(shù)據(jù)訓(xùn)練新的AI,最終會讓新的AI模型退化以至崩潰。

      一、“糞口循環(huán)”9次,就能讓大語言模型崩潰

      這些研究者們發(fā)現(xiàn),在訓(xùn)練新的神經(jīng)網(wǎng)絡(luò)AI模型時,使用大語言模型生成的內(nèi)容作為訓(xùn)練數(shù)據(jù)集,會導(dǎo)致訓(xùn)練出的模型出現(xiàn)不可逆轉(zhuǎn)的缺陷,即使模型最初的基礎(chǔ)架構(gòu)原始數(shù)據(jù)來自真實世界的實際數(shù)據(jù)。研究者們將這一新模型的退化過程與結(jié)果稱為“模型崩潰”。

      按論文所述,不管受訓(xùn)的新模型功能是以文字生成文字還是以圖片生成圖片,只要使用其他模型生成的內(nèi)容來訓(xùn)練,這個過程是不可避免的,即使模型處在近乎理想狀態(tài)的長時間學(xué)習(xí)條件亦如此。

      論文一作伊利亞·蘇瑪利沃夫(Ilia Shumailov)稱,AI生成數(shù)據(jù)中的錯誤會極快沉淀,最終導(dǎo)致從生成數(shù)據(jù)中學(xué)習(xí)的模型進(jìn)一步錯誤地感知現(xiàn)實。

      “模型崩潰”分為早期與晚期兩種。在早期時,被喂生成數(shù)據(jù)的AI模型會開始失去原初數(shù)據(jù)分布的信息;在晚期,被喂生成數(shù)據(jù)的AI模型會吐出完全不符合現(xiàn)實、不相關(guān)原初底層數(shù)據(jù)的結(jié)果。

      而且與癥狀類似的“災(zāi)難性遺忘”不同,“模型崩潰”的AI一直保有對之前學(xué)習(xí)過的原初底層數(shù)據(jù)的記憶,但極其固執(zhí),錯誤會千篇一律且難以矯正,模型將持續(xù)甚至強(qiáng)化將錯誤結(jié)果認(rèn)為是正確的結(jié)論。

      論文中“模型崩潰”過程的示意圖

      研究者們先用小模型試驗起,用相同模型生成的數(shù)據(jù)訓(xùn)練同一模型。以此方法在高斯混合模型(GMM)上實驗,拿AI分辨人工生成的不同正態(tài)分布。結(jié)果是在如此訓(xùn)練50次后模型開始出錯到無法分辨原初底層數(shù)據(jù)。訓(xùn)練到兩千次后,模型的錯誤結(jié)果收斂到每次基本雷同毫無變化。

      以同樣方法訓(xùn)練變分自編碼器(VAE)模型,訓(xùn)練5次后模型開始出錯,10次后模型的錯誤結(jié)果開始與原初底層數(shù)據(jù)無關(guān),20次后錯誤結(jié)果就開始收斂至基本雷同。

      以上的小模型的原初數(shù)據(jù)量小,或許易于迷惑。研究者再用現(xiàn)在商用廣泛的OPT-125m文本生成模型實驗,此模型由Meta 公司開發(fā),參數(shù)量1.25億。研究者先用有1億詞元的“維基文本庫2”數(shù)據(jù)集喂給模型,跑出同樣詞元量的生成結(jié)果數(shù)據(jù)集。再用生成結(jié)果數(shù)據(jù)集反復(fù)訓(xùn)練OPT-125m模型。

      結(jié)果是,在研究者輸入提示詞之后,起初的OPT-125m模型吐出的是帶有亂碼但大體成文的語句。被如此訓(xùn)練1次的大模型吐出的是帶有瞎編內(nèi)容的幻覺性文本,但仍然成文。被如此訓(xùn)練7次的大模型吐出的是完全與初始提示詞無關(guān)的文本,9次后大模型的生成文本就是完全不知所云的車轱轆話。

      二、“模型崩潰”,是因為AI與生俱來的的統(tǒng)計特性

      “模型崩潰”的原因其實并不難懂。概言之,與特德·姜、馬斯克這些名人們嘲笑生成式AI的說辭很相近:這些大模型本質(zhì)上是高端統(tǒng)計學(xué)應(yīng)用,離“智能”的實質(zhì)還差得遠(yuǎn)。

      用AI生成內(nèi)容來訓(xùn)練AI的話,無可避免就會踩進(jìn)“統(tǒng)計近似值偏差”的坑里。實質(zhì)是高端統(tǒng)計程序的神經(jīng)網(wǎng)絡(luò)模型們,天然會高估、過于重視大概率的通常值,也會低估、過于忽視小概率的非常值。

      這些模型生成的結(jié)果無法規(guī)避以上缺陷,持續(xù)用來再訓(xùn)練新模型,數(shù)據(jù)的多樣性會越來越小、符合真實的正確度會越來越有限、“近似值擬合”會越來越嚴(yán)重。用研究者的話來說,用AI生成數(shù)據(jù)來訓(xùn)練新的AI,是在毒化模型對真實世界的認(rèn)知。

      論文中“模型崩潰”成因的示意圖

      用論文作者之一羅斯·安德森(Ross Anderson)的話說,這就如同用莫扎特作品來訓(xùn)練AI,結(jié)果會得出一個風(fēng)格類似莫扎特但缺乏靈氣的“薩列尼”模型。再用“薩列尼”模型的作品訓(xùn)練新的模型,如此反復(fù)五六次后,最終模型的音樂作品既不會有莫扎特的風(fēng)格也不會有莫扎特的靈光。

      除了這一主因外,“函數(shù)近似值誤差”也會為“模型崩潰”推波助瀾。任何神經(jīng)網(wǎng)絡(luò)AI在本質(zhì)都算是有限的通用函數(shù)近似器,但總會出現(xiàn)函數(shù)近似值過度表達(dá)或不充分表達(dá)帶來的結(jié)果不精確。

      理論上來說,“統(tǒng)計近似值偏差”與“函數(shù)近似值誤差”并不必然會帶來惡果,有少許可能,這些偏差恰好會消除真實數(shù)據(jù)中的噪音值,讓AI模型的生成結(jié)果更符合真實數(shù)據(jù)分布。然而更大的可能是,這些誤差會放大、加乘數(shù)據(jù)噪音。

      在羅斯·安德森的個人博客中,有人評論這是熱力學(xué)中的熵、生物學(xué)中的近親繁殖退化,在AI界的復(fù)現(xiàn)。

      三、模型生成內(nèi)容充斥網(wǎng)絡(luò)后,真人數(shù)據(jù)將成AI維生必需

      對于業(yè)界,此發(fā)現(xiàn)再次凸顯了真實人類創(chuàng)造的數(shù)據(jù)的稀缺性。羅斯·安德森戲稱,在海洋布滿不可降解塑料垃圾、空氣里充滿二氧化碳排放物后,互聯(lián)網(wǎng)以后也會被大語言模型生成的低質(zhì)量結(jié)果污染。反過來說,真實人類創(chuàng)造的數(shù)據(jù)如同潔凈的空氣與飲水,是日后生成式AI必須依賴的維生補(bǔ)給。

      在如此背景下,不難理解為何推特與Reddit這些用戶活躍的社交媒體紛紛取消應(yīng)用程序接口扒數(shù)據(jù)的權(quán)限。這些社交媒體上的真人互動內(nèi)容都是以后越來越值錢的不可再生資源,馬斯克們是絕不愿繼續(xù)免費(fèi)讓OpenAI們拿去用的。

      數(shù)據(jù)饑渴的AI公司們,現(xiàn)在兩種繼續(xù)發(fā)掘高質(zhì)量數(shù)據(jù)的辦法都在用。

      一是扒完當(dāng)代互聯(lián)網(wǎng)數(shù)據(jù)后,繼續(xù)扒古舊文本與圖像數(shù)據(jù)。保存了遠(yuǎn)至兩百年前書籍掃描件的“互聯(lián)網(wǎng)檔案館”,在5月底稱網(wǎng)站之前短暫崩潰,是因為托管在亞馬遜云服務(wù)器上的數(shù)十個虛擬接口做出了每秒數(shù)萬次的數(shù)據(jù)查詢請求,導(dǎo)致網(wǎng)站無法承載。

      二是老實花錢買。北京時間6月17日0點,《金融時報》獨家報道,稱最近數(shù)月內(nèi),谷歌、OpenAI、微軟等公司在與新聞業(yè)界的大企業(yè),如新聞集團(tuán)(News Corp)、紐約時報和衛(wèi)報在內(nèi)的出版商接觸,尋求AI訓(xùn)練數(shù)據(jù)材料的持續(xù)來源并避免未來的版權(quán)糾紛。

      雖然商洽還在早期階段,但信源透露出的信息是AI巨頭企業(yè)們愿意為作為AI 模型訓(xùn)練數(shù)據(jù)的新聞內(nèi)容向媒體巨頭們支付定期訂閱費(fèi)用,媒體巨頭們開出的價位是年均500-2000萬美元。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。