ChatGPT等模型瘋狂訓(xùn)練，最快2026年消耗盡公開文本數(shù)據(jù)

2024年06月19日 11:16:58 來源：AIGC開放社區(qū)公眾號

　　AI發(fā)展科研機(jī)構(gòu)Epochai在官網(wǎng)發(fā)布了一項(xiàng)，關(guān)于大模型消耗訓(xùn)練數(shù)據(jù)的研究報(bào)告。

　　目前，人類公開的高質(zhì)量文本訓(xùn)練數(shù)據(jù)集大約有300萬億tokens。但隨著ChatGPT等模大型的參數(shù)、功能越來越強(qiáng)以及過度訓(xùn)練，對訓(xùn)練數(shù)據(jù)的需求呈指數(shù)級增長，預(yù)計(jì)將在2026年——2032年消耗完這些數(shù)據(jù)。

　　研究人員特別提到了“過度訓(xùn)練”(Overtraining)是加速消耗訓(xùn)練數(shù)據(jù)進(jìn)程的主要原因之一。例如，Meta最新開源的Llama3的8B版本過度訓(xùn)練達(dá)到了驚人的100倍，如果其他模型都按照這個方法來訓(xùn)練，數(shù)據(jù)可能在2025年就消耗盡了;70B版本還好，過度訓(xùn)練只有10倍。

　　所以，無論是閉源還是開源大模型，已經(jīng)進(jìn)入比拼訓(xùn)練數(shù)據(jù)的階段，誰的模型學(xué)習(xí)的數(shù)據(jù)更多、維度更廣，即便是小參數(shù)同樣可以戰(zhàn)勝大參數(shù)模型，尤其是在RAG、MoE、MTL等加持下效果更明顯。

　　什么是過度訓(xùn)練

　　過度訓(xùn)練是在深度學(xué)習(xí)領(lǐng)域，特別是在大模型的訓(xùn)練過程中，開發(fā)者有意讓模型使用的訓(xùn)練數(shù)據(jù)量超過計(jì)算最優(yōu)模型所需的量。這種做法與傳統(tǒng)的機(jī)器學(xué)習(xí)中避免過擬合的目標(biāo)不同。

　　過擬合發(fā)生在模型過于復(fù)雜或者訓(xùn)練時間過長，以至于模型開始記憶訓(xùn)練數(shù)據(jù)中的噪聲而非泛化到未見數(shù)據(jù)。但在大模型的過度訓(xùn)練是一種優(yōu)化策略，可以節(jié)省推理成本和效率，同時模型開始學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的噪音和細(xì)節(jié)，而不是潛在的數(shù)據(jù)分布。

　　這就像學(xué)生學(xué)習(xí)歷史一樣，如果只記住大量的日期和事件，而沒有理解它們之間的聯(lián)系和意義，在面對新的問題或需要綜合分析時，可能無法給出準(zhǔn)確的邏輯答案。

　　此外，大模型過度訓(xùn)練意味著參數(shù)量與訓(xùn)練數(shù)據(jù)量的比例超過了Chinchilla縮放定律建議的最佳比例大約D/N比為20。

　　在Chinchilla縮放定律下，保持這個比例可以使得模型在固定的訓(xùn)練計(jì)算預(yù)算下達(dá)到最低的可減少損失。不過開發(fā)者可能會選擇讓這個比例高于最優(yōu)值，會讓模型使用更多的數(shù)據(jù)來訓(xùn)練。

　　這樣做雖然會增加訓(xùn)練階段的數(shù)據(jù)需求，但能夠減少模型在推理階段的算力成本。因?yàn)橄鄬τ诎嘿FGPU，訓(xùn)練數(shù)據(jù)就便宜的多，尤其是在超大規(guī)模參數(shù)模型中的收益更明顯。

　　Meta最新開源的Llama3系列模型是過度訓(xùn)練的典型，GPT-3、Flan137B、Falcon-180B等模型也都存在這一現(xiàn)象。

　　如果保持在5——10倍的過度訓(xùn)練量，訓(xùn)練數(shù)據(jù)的消耗度還在可控范圍之內(nèi)，如果在100倍以上，將呈指數(shù)級增長，而Llama3的8B版本過度訓(xùn)練就已經(jīng)達(dá)到100倍。

　　公開訓(xùn)練數(shù)據(jù)沒了，4種其他獲取方法

　　在大模型領(lǐng)域，訓(xùn)練數(shù)據(jù)已經(jīng)和AI算力一樣變得非常重要，是決定模型性能的關(guān)鍵元素之一。雖然可以再生，但消耗速度過快可能會蓋過生成速度出現(xiàn)無數(shù)據(jù)可用的局面。Epoch ai給出了以下4種獲取訓(xùn)練數(shù)據(jù)的新方法。

　　1）合成數(shù)據(jù):合成數(shù)據(jù)主要利用深度學(xué)習(xí)來模擬真實(shí)數(shù)據(jù)，來生成全新的數(shù)據(jù)。這種方法在數(shù)據(jù)短缺的情況下顯得尤為重要，因?yàn)樘峁┝艘环N潛在的無限擴(kuò)展數(shù)據(jù)集的方式。目前，很多科技巨頭已經(jīng)在使用這個方法，不過也有很大的弊端。

　　合成數(shù)據(jù)的質(zhì)量可能會比較差并出現(xiàn)過擬合行，這是因?yàn)樵诤铣傻倪^程中無法完全捕捉到真實(shí)數(shù)據(jù)的復(fù)雜性和多樣性。

　　例如，合成數(shù)據(jù)可能缺乏真實(shí)文本中的某些細(xì)微的語言特征，或者可能過于依賴模型訓(xùn)練時使用的特定數(shù)據(jù)集，導(dǎo)致生成的文本缺乏多樣性。此外，合成數(shù)據(jù)可能會引入一些新的偏差，這些偏差可能會影響模型的性能。

　　2）多模態(tài)和跨領(lǐng)域數(shù)據(jù)學(xué)習(xí):多模態(tài)學(xué)習(xí)是一種涉及多種數(shù)據(jù)類型的學(xué)習(xí)方法，它不僅限于文本，還包括圖像、視頻、音頻等多種形式的數(shù)據(jù)。通過結(jié)合不同模態(tài)的信息，可以更全面地理解和處理復(fù)雜的任務(wù)。

　　例如，GPT-4o、GPT-4V、Gemini等可以同時處理文本描述和相應(yīng)的圖片，以更好地理解場景和語境。這也是目前多模態(tài)大模型的主要訓(xùn)練數(shù)據(jù)方法之一。

　　此外，開發(fā)者也可以將目光投向其他領(lǐng)域，例如，金融市場數(shù)據(jù)、科學(xué)數(shù)據(jù)庫、基因數(shù)據(jù)庫等。根據(jù)預(yù)測，基因領(lǐng)域的數(shù)據(jù)增長每年保持在幾百萬億甚至上千萬億，可以產(chǎn)生源源不斷的真實(shí)數(shù)據(jù)。

　　3）私有數(shù)據(jù):根據(jù)Epoch ai調(diào)查數(shù)據(jù)顯示，目前全球文本數(shù)據(jù)包含私有總量大概在3100萬億tokens。而公開數(shù)據(jù)只有300萬億，也就是說還有90%的私有數(shù)據(jù)可以使用。

　　目前，已經(jīng)有科技公司開始從這方面下手，例如，OpenAI成立了一個“數(shù)據(jù)聯(lián)盟”專門搜集高質(zhì)量、沒公開過的私有數(shù)據(jù)，在訓(xùn)練GPT系列和最新的前沿模型。

　　但使用私有數(shù)據(jù)很有難度，首先，隱私和安全性是最大的顧慮，非公共數(shù)據(jù)往往包含敏感信息，如果用于模型訓(xùn)練，可能會引發(fā)隱私泄露的風(fēng)險。例如，社交媒體上的私人對話、個人郵箱中的通信記錄，這些都是用戶不希望被公開的數(shù)據(jù)。

　　其次，獲取和整合非公共數(shù)據(jù)的過程可能非常復(fù)雜。與公共數(shù)據(jù)相比，非公共數(shù)據(jù)分散在不同的平臺和系統(tǒng)中，缺乏統(tǒng)一的標(biāo)準(zhǔn)和格式。這就需要開發(fā)新的技術(shù)和方法來收集、清洗和標(biāo)準(zhǔn)化這些數(shù)據(jù)，以便它們能夠被有效地用于大模型訓(xùn)練

　　4）與真實(shí)世界實(shí)時交互學(xué)習(xí):可以讓模型通過與真實(shí)世界的直接互動來學(xué)習(xí)和進(jìn)步。與傳統(tǒng)的基于靜態(tài)數(shù)據(jù)集的訓(xùn)練方法不同，這種學(xué)習(xí)方法強(qiáng)調(diào)的是大模型的自主性和適應(yīng)性。在這種模式下，模型不僅僅是被動地接收數(shù)據(jù)，而是主動地探索環(huán)境，通過與人類交互來獲得知識和技能。

　　但這種方法對模型的架構(gòu)、性能、算力要求較高，需要具備一定的自主性和決策能力。大模型需能夠準(zhǔn)確理解用戶輸入的指令或問題，并根據(jù)這些指令在現(xiàn)實(shí)世界中采取行動。

　　例如，大模型可能需要根據(jù)用戶的請求來推薦餐廳，這不僅需要它理解用戶的偏好，還需要它能夠訪問和分析實(shí)時的餐廳信息。

　　此外，與真實(shí)世界互動的學(xué)習(xí)還需要模型具備處理不確定性的能力。現(xiàn)實(shí)世界是復(fù)雜多變的，充滿了不確定性和偶然性。

　　模型需要能夠適應(yīng)這些不確定性，從不斷變化的環(huán)境中學(xué)習(xí)并做出合理的決策。這就涉及到概率推理、風(fēng)險評估和決策制定等高級認(rèn)知功能。

　　企業(yè)、開發(fā)者們珍惜訓(xùn)練數(shù)據(jù)吧，就像我們珍惜水資源一樣。不要等著枯竭的那一天，望著荒漠干流淚。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信