AI發(fā)展科研機(jī)構(gòu)Epochai在官網(wǎng)發(fā)布了一項(xiàng),關(guān)于大模型消耗訓(xùn)練數(shù)據(jù)的研究報(bào)告。
目前,人類公開的高質(zhì)量文本訓(xùn)練數(shù)據(jù)集大約有300萬億tokens。但隨著ChatGPT等模大型的參數(shù)、功能越來越強(qiáng)以及過度訓(xùn)練,對(duì)訓(xùn)練數(shù)據(jù)的需求呈指數(shù)級(jí)增長(zhǎng),預(yù)計(jì)將在2026年——2032年消耗完這些數(shù)據(jù)。
研究人員特別提到了“過度訓(xùn)練”(Overtraining)是加速消耗訓(xùn)練數(shù)據(jù)進(jìn)程的主要原因之一。例如,Meta最新開源的Llama3的8B版本過度訓(xùn)練達(dá)到了驚人的100倍,如果其他模型都按照這個(gè)方法來訓(xùn)練,數(shù)據(jù)可能在2025年就消耗盡了;70B版本還好,過度訓(xùn)練只有10倍。
所以,無論是閉源還是開源大模型,已經(jīng)進(jìn)入比拼訓(xùn)練數(shù)據(jù)的階段,誰(shuí)的模型學(xué)習(xí)的數(shù)據(jù)更多、維度更廣,即便是小參數(shù)同樣可以戰(zhàn)勝大參數(shù)模型,尤其是在RAG、MoE、MTL等加持下效果更明顯。
什么是過度訓(xùn)練
過度訓(xùn)練是在深度學(xué)習(xí)領(lǐng)域,特別是在大模型的訓(xùn)練過程中,開發(fā)者有意讓模型使用的訓(xùn)練數(shù)據(jù)量超過計(jì)算最優(yōu)模型所需的量。這種做法與傳統(tǒng)的機(jī)器學(xué)習(xí)中避免過擬合的目標(biāo)不同。
過擬合發(fā)生在模型過于復(fù)雜或者訓(xùn)練時(shí)間過長(zhǎng),以至于模型開始記憶訓(xùn)練數(shù)據(jù)中的噪聲而非泛化到未見數(shù)據(jù)。但在大模型的過度訓(xùn)練是一種優(yōu)化策略,可以節(jié)省推理成本和效率,同時(shí)模型開始學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的噪音和細(xì)節(jié),而不是潛在的數(shù)據(jù)分布。
這就像學(xué)生學(xué)習(xí)歷史一樣,如果只記住大量的日期和事件,而沒有理解它們之間的聯(lián)系和意義,在面對(duì)新的問題或需要綜合分析時(shí),可能無法給出準(zhǔn)確的邏輯答案。
此外,大模型過度訓(xùn)練意味著參數(shù)量與訓(xùn)練數(shù)據(jù)量的比例超過了Chinchilla縮放定律建議的最佳比例大約D/N比為20。
在Chinchilla縮放定律下,保持這個(gè)比例可以使得模型在固定的訓(xùn)練計(jì)算預(yù)算下達(dá)到最低的可減少損失。不過開發(fā)者可能會(huì)選擇讓這個(gè)比例高于最優(yōu)值,會(huì)讓模型使用更多的數(shù)據(jù)來訓(xùn)練。
這樣做雖然會(huì)增加訓(xùn)練階段的數(shù)據(jù)需求,但能夠減少模型在推理階段的算力成本。因?yàn)橄鄬?duì)于昂貴GPU,訓(xùn)練數(shù)據(jù)就便宜的多,尤其是在超大規(guī)模參數(shù)模型中的收益更明顯。
Meta最新開源的Llama3系列模型是過度訓(xùn)練的典型,GPT-3、Flan137B、Falcon-180B等模型也都存在這一現(xiàn)象。
如果保持在5——10倍的過度訓(xùn)練量,訓(xùn)練數(shù)據(jù)的消耗度還在可控范圍之內(nèi),如果在100倍以上,將呈指數(shù)級(jí)增長(zhǎng),而Llama3的8B版本過度訓(xùn)練就已經(jīng)達(dá)到100倍。
公開訓(xùn)練數(shù)據(jù)沒了,4種其他獲取方法
在大模型領(lǐng)域,訓(xùn)練數(shù)據(jù)已經(jīng)和AI算力一樣變得非常重要,是決定模型性能的關(guān)鍵元素之一。雖然可以再生,但消耗速度過快可能會(huì)蓋過生成速度出現(xiàn)無數(shù)據(jù)可用的局面。Epoch ai給出了以下4種獲取訓(xùn)練數(shù)據(jù)的新方法。
1)合成數(shù)據(jù):合成數(shù)據(jù)主要利用深度學(xué)習(xí)來模擬真實(shí)數(shù)據(jù),來生成全新的數(shù)據(jù)。這種方法在數(shù)據(jù)短缺的情況下顯得尤為重要,因?yàn)樘峁┝艘环N潛在的無限擴(kuò)展數(shù)據(jù)集的方式。目前,很多科技巨頭已經(jīng)在使用這個(gè)方法,不過也有很大的弊端。
合成數(shù)據(jù)的質(zhì)量可能會(huì)比較差并出現(xiàn)過擬合行,這是因?yàn)樵诤铣傻倪^程中無法完全捕捉到真實(shí)數(shù)據(jù)的復(fù)雜性和多樣性。
例如,合成數(shù)據(jù)可能缺乏真實(shí)文本中的某些細(xì)微的語(yǔ)言特征,或者可能過于依賴模型訓(xùn)練時(shí)使用的特定數(shù)據(jù)集,導(dǎo)致生成的文本缺乏多樣性。此外,合成數(shù)據(jù)可能會(huì)引入一些新的偏差,這些偏差可能會(huì)影響模型的性能。
2)多模態(tài)和跨領(lǐng)域數(shù)據(jù)學(xué)習(xí):多模態(tài)學(xué)習(xí)是一種涉及多種數(shù)據(jù)類型的學(xué)習(xí)方法,它不僅限于文本,還包括圖像、視頻、音頻等多種形式的數(shù)據(jù)。通過結(jié)合不同模態(tài)的信息,可以更全面地理解和處理復(fù)雜的任務(wù)。
例如,GPT-4o、GPT-4V、Gemini等可以同時(shí)處理文本描述和相應(yīng)的圖片,以更好地理解場(chǎng)景和語(yǔ)境。這也是目前多模態(tài)大模型的主要訓(xùn)練數(shù)據(jù)方法之一。
此外,開發(fā)者也可以將目光投向其他領(lǐng)域,例如,金融市場(chǎng)數(shù)據(jù)、科學(xué)數(shù)據(jù)庫(kù)、基因數(shù)據(jù)庫(kù)等。根據(jù)預(yù)測(cè),基因領(lǐng)域的數(shù)據(jù)增長(zhǎng)每年保持在幾百萬億甚至上千萬億,可以產(chǎn)生源源不斷的真實(shí)數(shù)據(jù)。
3)私有數(shù)據(jù):根據(jù)Epoch ai調(diào)查數(shù)據(jù)顯示,目前全球文本數(shù)據(jù)包含私有總量大概在3100萬億tokens。而公開數(shù)據(jù)只有300萬億,也就是說還有90%的私有數(shù)據(jù)可以使用。
目前,已經(jīng)有科技公司開始從這方面下手,例如,OpenAI成立了一個(gè)“數(shù)據(jù)聯(lián)盟”專門搜集高質(zhì)量、沒公開過的私有數(shù)據(jù),在訓(xùn)練GPT系列和最新的前沿模型。
但使用私有數(shù)據(jù)很有難度,首先,隱私和安全性是最大的顧慮,非公共數(shù)據(jù)往往包含敏感信息,如果用于模型訓(xùn)練,可能會(huì)引發(fā)隱私泄露的風(fēng)險(xiǎn)。例如,社交媒體上的私人對(duì)話、個(gè)人郵箱中的通信記錄,這些都是用戶不希望被公開的數(shù)據(jù)。
其次,獲取和整合非公共數(shù)據(jù)的過程可能非常復(fù)雜。與公共數(shù)據(jù)相比,非公共數(shù)據(jù)分散在不同的平臺(tái)和系統(tǒng)中,缺乏統(tǒng)一的標(biāo)準(zhǔn)和格式。這就需要開發(fā)新的技術(shù)和方法來收集、清洗和標(biāo)準(zhǔn)化這些數(shù)據(jù),以便它們能夠被有效地用于大模型訓(xùn)練
4)與真實(shí)世界實(shí)時(shí)交互學(xué)習(xí):可以讓模型通過與真實(shí)世界的直接互動(dòng)來學(xué)習(xí)和進(jìn)步。與傳統(tǒng)的基于靜態(tài)數(shù)據(jù)集的訓(xùn)練方法不同,這種學(xué)習(xí)方法強(qiáng)調(diào)的是大模型的自主性和適應(yīng)性。在這種模式下,模型不僅僅是被動(dòng)地接收數(shù)據(jù),而是主動(dòng)地探索環(huán)境,通過與人類交互來獲得知識(shí)和技能。
但這種方法對(duì)模型的架構(gòu)、性能、算力要求較高,需要具備一定的自主性和決策能力。大模型需能夠準(zhǔn)確理解用戶輸入的指令或問題,并根據(jù)這些指令在現(xiàn)實(shí)世界中采取行動(dòng)。
例如,大模型可能需要根據(jù)用戶的請(qǐng)求來推薦餐廳,這不僅需要它理解用戶的偏好,還需要它能夠訪問和分析實(shí)時(shí)的餐廳信息。
此外,與真實(shí)世界互動(dòng)的學(xué)習(xí)還需要模型具備處理不確定性的能力,F(xiàn)實(shí)世界是復(fù)雜多變的,充滿了不確定性和偶然性。
模型需要能夠適應(yīng)這些不確定性,從不斷變化的環(huán)境中學(xué)習(xí)并做出合理的決策。這就涉及到概率推理、風(fēng)險(xiǎn)評(píng)估和決策制定等高級(jí)認(rèn)知功能。
企業(yè)、開發(fā)者們珍惜訓(xùn)練數(shù)據(jù)吧,就像我們珍惜水資源一樣。不要等著枯竭的那一天,望著荒漠干流淚。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。
近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。