iPhone16系列新品正式發(fā)售 新品爆發(fā)就在抖音電商廣告燒錢過億,70%用戶靠投流,大模型算不過成本賬?PS1經(jīng)典配色!索尼發(fā)布30周年紀(jì)念版PS5、PS5 Pro:限量賣泰順:聚智聚力數(shù)字創(chuàng)客激發(fā)鄉(xiāng)村振興新動(dòng)能電商12年 ,ALL IN 小紅書,開店3月賣出1100萬Mate 70最受期待!華為三款重磅機(jī)型蓄勢(shì)待發(fā)云天勵(lì)飛“算力積木”架構(gòu):引領(lǐng)邊緣AI芯片新變革徹底告別3999元!小米15入網(wǎng) 支持90W快充FF發(fā)布第二品牌Faraday X:對(duì)標(biāo)豐田 專注增程式混動(dòng)車型黑神話悟空總收入超67億:銷量已超2000萬份通快成立激光業(yè)務(wù)區(qū)域中心(中國(guó)),強(qiáng)勢(shì)布局中國(guó)市場(chǎng)Sandalwood Advisors受邀參加第31屆中信里昂投資者論壇淘寶倒逼新風(fēng)向:一場(chǎng)電商減負(fù)運(yùn)動(dòng)博浪AI時(shí)代,阿里、華為“硬碰硬”Youtube將推出人工智能工具 可生成創(chuàng)意、標(biāo)題甚至完整視頻申通、圓通、韻達(dá)發(fā)布 8 月簡(jiǎn)報(bào):快遞業(yè)務(wù)量、收入均同比增長(zhǎng),單票收入均下降蘋果iPhone 16系列開啟發(fā)售,Max最高加2500元TECNO 全球發(fā)布二代折疊屏旗艦—PHANTOM V Fold2 5G及PHANTOM V Flip2 5G科大訊飛還是AI“小甜甜”嗎?消息稱美團(tuán)外賣調(diào)整經(jīng)營(yíng)目標(biāo),從追求 GMV 變?yōu)樽非笥唵瘟?/a>
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    ChatGPT等模型瘋狂訓(xùn)練,最快2026年消耗盡公開文本數(shù)據(jù)

    2024年06月19日 11:16:58   來源:AIGC開放社區(qū)公眾號(hào)

      AI發(fā)展科研機(jī)構(gòu)Epochai在官網(wǎng)發(fā)布了一項(xiàng),關(guān)于大模型消耗訓(xùn)練數(shù)據(jù)的研究報(bào)告。

      目前,人類公開的高質(zhì)量文本訓(xùn)練數(shù)據(jù)集大約有300萬億tokens。但隨著ChatGPT等模大型的參數(shù)、功能越來越強(qiáng)以及過度訓(xùn)練,對(duì)訓(xùn)練數(shù)據(jù)的需求呈指數(shù)級(jí)增長(zhǎng),預(yù)計(jì)將在2026年——2032年消耗完這些數(shù)據(jù)。

      研究人員特別提到了“過度訓(xùn)練”(Overtraining)是加速消耗訓(xùn)練數(shù)據(jù)進(jìn)程的主要原因之一。例如,Meta最新開源的Llama3的8B版本過度訓(xùn)練達(dá)到了驚人的100倍,如果其他模型都按照這個(gè)方法來訓(xùn)練,數(shù)據(jù)可能在2025年就消耗盡了;70B版本還好,過度訓(xùn)練只有10倍。

      所以,無論是閉源還是開源大模型,已經(jīng)進(jìn)入比拼訓(xùn)練數(shù)據(jù)的階段,誰(shuí)的模型學(xué)習(xí)的數(shù)據(jù)更多、維度更廣,即便是小參數(shù)同樣可以戰(zhàn)勝大參數(shù)模型,尤其是在RAG、MoE、MTL等加持下效果更明顯。

      什么是過度訓(xùn)練

      過度訓(xùn)練是在深度學(xué)習(xí)領(lǐng)域,特別是在大模型的訓(xùn)練過程中,開發(fā)者有意讓模型使用的訓(xùn)練數(shù)據(jù)量超過計(jì)算最優(yōu)模型所需的量。這種做法與傳統(tǒng)的機(jī)器學(xué)習(xí)中避免過擬合的目標(biāo)不同。

      過擬合發(fā)生在模型過于復(fù)雜或者訓(xùn)練時(shí)間過長(zhǎng),以至于模型開始記憶訓(xùn)練數(shù)據(jù)中的噪聲而非泛化到未見數(shù)據(jù)。但在大模型的過度訓(xùn)練是一種優(yōu)化策略,可以節(jié)省推理成本和效率,同時(shí)模型開始學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的噪音和細(xì)節(jié),而不是潛在的數(shù)據(jù)分布。

      這就像學(xué)生學(xué)習(xí)歷史一樣,如果只記住大量的日期和事件,而沒有理解它們之間的聯(lián)系和意義,在面對(duì)新的問題或需要綜合分析時(shí),可能無法給出準(zhǔn)確的邏輯答案。

      此外,大模型過度訓(xùn)練意味著參數(shù)量與訓(xùn)練數(shù)據(jù)量的比例超過了Chinchilla縮放定律建議的最佳比例大約D/N比為20。

      在Chinchilla縮放定律下,保持這個(gè)比例可以使得模型在固定的訓(xùn)練計(jì)算預(yù)算下達(dá)到最低的可減少損失。不過開發(fā)者可能會(huì)選擇讓這個(gè)比例高于最優(yōu)值,會(huì)讓模型使用更多的數(shù)據(jù)來訓(xùn)練。

      這樣做雖然會(huì)增加訓(xùn)練階段的數(shù)據(jù)需求,但能夠減少模型在推理階段的算力成本。因?yàn)橄鄬?duì)于昂貴GPU,訓(xùn)練數(shù)據(jù)就便宜的多,尤其是在超大規(guī)模參數(shù)模型中的收益更明顯。

      Meta最新開源的Llama3系列模型是過度訓(xùn)練的典型,GPT-3、Flan137B、Falcon-180B等模型也都存在這一現(xiàn)象。

      如果保持在5——10倍的過度訓(xùn)練量,訓(xùn)練數(shù)據(jù)的消耗度還在可控范圍之內(nèi),如果在100倍以上,將呈指數(shù)級(jí)增長(zhǎng),而Llama3的8B版本過度訓(xùn)練就已經(jīng)達(dá)到100倍。

      公開訓(xùn)練數(shù)據(jù)沒了,4種其他獲取方法

      在大模型領(lǐng)域,訓(xùn)練數(shù)據(jù)已經(jīng)和AI算力一樣變得非常重要,是決定模型性能的關(guān)鍵元素之一。雖然可以再生,但消耗速度過快可能會(huì)蓋過生成速度出現(xiàn)無數(shù)據(jù)可用的局面。Epoch ai給出了以下4種獲取訓(xùn)練數(shù)據(jù)的新方法。

      1)合成數(shù)據(jù):合成數(shù)據(jù)主要利用深度學(xué)習(xí)來模擬真實(shí)數(shù)據(jù),來生成全新的數(shù)據(jù)。這種方法在數(shù)據(jù)短缺的情況下顯得尤為重要,因?yàn)樘峁┝艘环N潛在的無限擴(kuò)展數(shù)據(jù)集的方式。目前,很多科技巨頭已經(jīng)在使用這個(gè)方法,不過也有很大的弊端。

      合成數(shù)據(jù)的質(zhì)量可能會(huì)比較差并出現(xiàn)過擬合行,這是因?yàn)樵诤铣傻倪^程中無法完全捕捉到真實(shí)數(shù)據(jù)的復(fù)雜性和多樣性。

      例如,合成數(shù)據(jù)可能缺乏真實(shí)文本中的某些細(xì)微的語(yǔ)言特征,或者可能過于依賴模型訓(xùn)練時(shí)使用的特定數(shù)據(jù)集,導(dǎo)致生成的文本缺乏多樣性。此外,合成數(shù)據(jù)可能會(huì)引入一些新的偏差,這些偏差可能會(huì)影響模型的性能。

      2)多模態(tài)和跨領(lǐng)域數(shù)據(jù)學(xué)習(xí):多模態(tài)學(xué)習(xí)是一種涉及多種數(shù)據(jù)類型的學(xué)習(xí)方法,它不僅限于文本,還包括圖像、視頻、音頻等多種形式的數(shù)據(jù)。通過結(jié)合不同模態(tài)的信息,可以更全面地理解和處理復(fù)雜的任務(wù)。

      例如,GPT-4o、GPT-4V、Gemini等可以同時(shí)處理文本描述和相應(yīng)的圖片,以更好地理解場(chǎng)景和語(yǔ)境。這也是目前多模態(tài)大模型的主要訓(xùn)練數(shù)據(jù)方法之一。

      此外,開發(fā)者也可以將目光投向其他領(lǐng)域,例如,金融市場(chǎng)數(shù)據(jù)、科學(xué)數(shù)據(jù)庫(kù)、基因數(shù)據(jù)庫(kù)等。根據(jù)預(yù)測(cè),基因領(lǐng)域的數(shù)據(jù)增長(zhǎng)每年保持在幾百萬億甚至上千萬億,可以產(chǎn)生源源不斷的真實(shí)數(shù)據(jù)。

      3)私有數(shù)據(jù):根據(jù)Epoch ai調(diào)查數(shù)據(jù)顯示,目前全球文本數(shù)據(jù)包含私有總量大概在3100萬億tokens。而公開數(shù)據(jù)只有300萬億,也就是說還有90%的私有數(shù)據(jù)可以使用

      目前,已經(jīng)有科技公司開始從這方面下手,例如,OpenAI成立了一個(gè)“數(shù)據(jù)聯(lián)盟”專門搜集高質(zhì)量、沒公開過的私有數(shù)據(jù),在訓(xùn)練GPT系列和最新的前沿模型。

      但使用私有數(shù)據(jù)很有難度,首先,隱私和安全性是最大的顧慮,非公共數(shù)據(jù)往往包含敏感信息,如果用于模型訓(xùn)練,可能會(huì)引發(fā)隱私泄露的風(fēng)險(xiǎn)。例如,社交媒體上的私人對(duì)話、個(gè)人郵箱中的通信記錄,這些都是用戶不希望被公開的數(shù)據(jù)。

      其次,獲取和整合非公共數(shù)據(jù)的過程可能非常復(fù)雜。與公共數(shù)據(jù)相比,非公共數(shù)據(jù)分散在不同的平臺(tái)和系統(tǒng)中,缺乏統(tǒng)一的標(biāo)準(zhǔn)和格式。這就需要開發(fā)新的技術(shù)和方法來收集、清洗和標(biāo)準(zhǔn)化這些數(shù)據(jù),以便它們能夠被有效地用于大模型訓(xùn)練

      4)與真實(shí)世界實(shí)時(shí)交互學(xué)習(xí):可以讓模型通過與真實(shí)世界的直接互動(dòng)來學(xué)習(xí)和進(jìn)步。與傳統(tǒng)的基于靜態(tài)數(shù)據(jù)集的訓(xùn)練方法不同,這種學(xué)習(xí)方法強(qiáng)調(diào)的是大模型的自主性和適應(yīng)性。在這種模式下,模型不僅僅是被動(dòng)地接收數(shù)據(jù),而是主動(dòng)地探索環(huán)境,通過與人類交互來獲得知識(shí)和技能。

      但這種方法對(duì)模型的架構(gòu)、性能、算力要求較高,需要具備一定的自主性和決策能力。大模型需能夠準(zhǔn)確理解用戶輸入的指令或問題,并根據(jù)這些指令在現(xiàn)實(shí)世界中采取行動(dòng)。

      例如,大模型可能需要根據(jù)用戶的請(qǐng)求來推薦餐廳,這不僅需要它理解用戶的偏好,還需要它能夠訪問和分析實(shí)時(shí)的餐廳信息。

      此外,與真實(shí)世界互動(dòng)的學(xué)習(xí)還需要模型具備處理不確定性的能力,F(xiàn)實(shí)世界是復(fù)雜多變的,充滿了不確定性和偶然性。

      模型需要能夠適應(yīng)這些不確定性,從不斷變化的環(huán)境中學(xué)習(xí)并做出合理的決策。這就涉及到概率推理、風(fēng)險(xiǎn)評(píng)估和決策制定等高級(jí)認(rèn)知功能。

      企業(yè)、開發(fā)者們珍惜訓(xùn)練數(shù)據(jù)吧,就像我們珍惜水資源一樣。不要等著枯竭的那一天,望著荒漠干流淚。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    研究

    2024全球開發(fā)者先鋒大會(huì)即將開幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。