AI發(fā)展科研機(jī)構(gòu)Epochai在官網(wǎng)發(fā)布了一項(xiàng),關(guān)于大模型消耗訓(xùn)練數(shù)據(jù)的研究報(bào)告。
目前,人類公開的高質(zhì)量文本訓(xùn)練數(shù)據(jù)集大約有300萬億tokens。但隨著ChatGPT等模大型的參數(shù)、功能越來越強(qiáng)以及過度訓(xùn)練,對訓(xùn)練數(shù)據(jù)的需求呈指數(shù)級增長,預(yù)計(jì)將在2026年——2032年消耗完這些數(shù)據(jù)。
研究人員特別提到了“過度訓(xùn)練”(Overtraining)是加速消耗訓(xùn)練數(shù)據(jù)進(jìn)程的主要原因之一。例如,Meta最新開源的Llama3的8B版本過度訓(xùn)練達(dá)到了驚人的100倍,如果其他模型都按照這個方法來訓(xùn)練,數(shù)據(jù)可能在2025年就消耗盡了;70B版本還好,過度訓(xùn)練只有10倍。
所以,無論是閉源還是開源大模型,已經(jīng)進(jìn)入比拼訓(xùn)練數(shù)據(jù)的階段,誰的模型學(xué)習(xí)的數(shù)據(jù)更多、維度更廣,即便是小參數(shù)同樣可以戰(zhàn)勝大參數(shù)模型,尤其是在RAG、MoE、MTL等加持下效果更明顯。
什么是過度訓(xùn)練
過度訓(xùn)練是在深度學(xué)習(xí)領(lǐng)域,特別是在大模型的訓(xùn)練過程中,開發(fā)者有意讓模型使用的訓(xùn)練數(shù)據(jù)量超過計(jì)算最優(yōu)模型所需的量。這種做法與傳統(tǒng)的機(jī)器學(xué)習(xí)中避免過擬合的目標(biāo)不同。
過擬合發(fā)生在模型過于復(fù)雜或者訓(xùn)練時間過長,以至于模型開始記憶訓(xùn)練數(shù)據(jù)中的噪聲而非泛化到未見數(shù)據(jù)。但在大模型的過度訓(xùn)練是一種優(yōu)化策略,可以節(jié)省推理成本和效率,同時模型開始學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的噪音和細(xì)節(jié),而不是潛在的數(shù)據(jù)分布。
這就像學(xué)生學(xué)習(xí)歷史一樣,如果只記住大量的日期和事件,而沒有理解它們之間的聯(lián)系和意義,在面對新的問題或需要綜合分析時,可能無法給出準(zhǔn)確的邏輯答案。
此外,大模型過度訓(xùn)練意味著參數(shù)量與訓(xùn)練數(shù)據(jù)量的比例超過了Chinchilla縮放定律建議的最佳比例大約D/N比為20。
在Chinchilla縮放定律下,保持這個比例可以使得模型在固定的訓(xùn)練計(jì)算預(yù)算下達(dá)到最低的可減少損失。不過開發(fā)者可能會選擇讓這個比例高于最優(yōu)值,會讓模型使用更多的數(shù)據(jù)來訓(xùn)練。
這樣做雖然會增加訓(xùn)練階段的數(shù)據(jù)需求,但能夠減少模型在推理階段的算力成本。因?yàn)橄鄬τ诎嘿FGPU,訓(xùn)練數(shù)據(jù)就便宜的多,尤其是在超大規(guī)模參數(shù)模型中的收益更明顯。
Meta最新開源的Llama3系列模型是過度訓(xùn)練的典型,GPT-3、Flan137B、Falcon-180B等模型也都存在這一現(xiàn)象。
如果保持在5——10倍的過度訓(xùn)練量,訓(xùn)練數(shù)據(jù)的消耗度還在可控范圍之內(nèi),如果在100倍以上,將呈指數(shù)級增長,而Llama3的8B版本過度訓(xùn)練就已經(jīng)達(dá)到100倍。
公開訓(xùn)練數(shù)據(jù)沒了,4種其他獲取方法
在大模型領(lǐng)域,訓(xùn)練數(shù)據(jù)已經(jīng)和AI算力一樣變得非常重要,是決定模型性能的關(guān)鍵元素之一。雖然可以再生,但消耗速度過快可能會蓋過生成速度出現(xiàn)無數(shù)據(jù)可用的局面。Epoch ai給出了以下4種獲取訓(xùn)練數(shù)據(jù)的新方法。
1)合成數(shù)據(jù):合成數(shù)據(jù)主要利用深度學(xué)習(xí)來模擬真實(shí)數(shù)據(jù),來生成全新的數(shù)據(jù)。這種方法在數(shù)據(jù)短缺的情況下顯得尤為重要,因?yàn)樘峁┝艘环N潛在的無限擴(kuò)展數(shù)據(jù)集的方式。目前,很多科技巨頭已經(jīng)在使用這個方法,不過也有很大的弊端。
合成數(shù)據(jù)的質(zhì)量可能會比較差并出現(xiàn)過擬合行,這是因?yàn)樵诤铣傻倪^程中無法完全捕捉到真實(shí)數(shù)據(jù)的復(fù)雜性和多樣性。
例如,合成數(shù)據(jù)可能缺乏真實(shí)文本中的某些細(xì)微的語言特征,或者可能過于依賴模型訓(xùn)練時使用的特定數(shù)據(jù)集,導(dǎo)致生成的文本缺乏多樣性。此外,合成數(shù)據(jù)可能會引入一些新的偏差,這些偏差可能會影響模型的性能。
2)多模態(tài)和跨領(lǐng)域數(shù)據(jù)學(xué)習(xí):多模態(tài)學(xué)習(xí)是一種涉及多種數(shù)據(jù)類型的學(xué)習(xí)方法,它不僅限于文本,還包括圖像、視頻、音頻等多種形式的數(shù)據(jù)。通過結(jié)合不同模態(tài)的信息,可以更全面地理解和處理復(fù)雜的任務(wù)。
例如,GPT-4o、GPT-4V、Gemini等可以同時處理文本描述和相應(yīng)的圖片,以更好地理解場景和語境。這也是目前多模態(tài)大模型的主要訓(xùn)練數(shù)據(jù)方法之一。
此外,開發(fā)者也可以將目光投向其他領(lǐng)域,例如,金融市場數(shù)據(jù)、科學(xué)數(shù)據(jù)庫、基因數(shù)據(jù)庫等。根據(jù)預(yù)測,基因領(lǐng)域的數(shù)據(jù)增長每年保持在幾百萬億甚至上千萬億,可以產(chǎn)生源源不斷的真實(shí)數(shù)據(jù)。
3)私有數(shù)據(jù):根據(jù)Epoch ai調(diào)查數(shù)據(jù)顯示,目前全球文本數(shù)據(jù)包含私有總量大概在3100萬億tokens。而公開數(shù)據(jù)只有300萬億,也就是說還有90%的私有數(shù)據(jù)可以使用。
目前,已經(jīng)有科技公司開始從這方面下手,例如,OpenAI成立了一個“數(shù)據(jù)聯(lián)盟”專門搜集高質(zhì)量、沒公開過的私有數(shù)據(jù),在訓(xùn)練GPT系列和最新的前沿模型。
但使用私有數(shù)據(jù)很有難度,首先,隱私和安全性是最大的顧慮,非公共數(shù)據(jù)往往包含敏感信息,如果用于模型訓(xùn)練,可能會引發(fā)隱私泄露的風(fēng)險。例如,社交媒體上的私人對話、個人郵箱中的通信記錄,這些都是用戶不希望被公開的數(shù)據(jù)。
其次,獲取和整合非公共數(shù)據(jù)的過程可能非常復(fù)雜。與公共數(shù)據(jù)相比,非公共數(shù)據(jù)分散在不同的平臺和系統(tǒng)中,缺乏統(tǒng)一的標(biāo)準(zhǔn)和格式。這就需要開發(fā)新的技術(shù)和方法來收集、清洗和標(biāo)準(zhǔn)化這些數(shù)據(jù),以便它們能夠被有效地用于大模型訓(xùn)練
4)與真實(shí)世界實(shí)時交互學(xué)習(xí):可以讓模型通過與真實(shí)世界的直接互動來學(xué)習(xí)和進(jìn)步。與傳統(tǒng)的基于靜態(tài)數(shù)據(jù)集的訓(xùn)練方法不同,這種學(xué)習(xí)方法強(qiáng)調(diào)的是大模型的自主性和適應(yīng)性。在這種模式下,模型不僅僅是被動地接收數(shù)據(jù),而是主動地探索環(huán)境,通過與人類交互來獲得知識和技能。
但這種方法對模型的架構(gòu)、性能、算力要求較高,需要具備一定的自主性和決策能力。大模型需能夠準(zhǔn)確理解用戶輸入的指令或問題,并根據(jù)這些指令在現(xiàn)實(shí)世界中采取行動。
例如,大模型可能需要根據(jù)用戶的請求來推薦餐廳,這不僅需要它理解用戶的偏好,還需要它能夠訪問和分析實(shí)時的餐廳信息。
此外,與真實(shí)世界互動的學(xué)習(xí)還需要模型具備處理不確定性的能力。現(xiàn)實(shí)世界是復(fù)雜多變的,充滿了不確定性和偶然性。
模型需要能夠適應(yīng)這些不確定性,從不斷變化的環(huán)境中學(xué)習(xí)并做出合理的決策。這就涉及到概率推理、風(fēng)險評估和決策制定等高級認(rèn)知功能。
企業(yè)、開發(fā)者們珍惜訓(xùn)練數(shù)據(jù)吧,就像我們珍惜水資源一樣。不要等著枯竭的那一天,望著荒漠干流淚。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。