谷歌發(fā)布大模型數(shù)據(jù)篩選方法：效率提升13倍，算力降低10倍

2024年08月08日 11:07:03 AIGC開放社區(qū) 來源：微信公眾號 AIGC開放社區(qū)

　　本文來自于微信公眾號 AIGC開放社區(qū)，作者:AIGC開放社區(qū)。

　　隨著GPT-4o、Gemini等多模態(tài)大模型的出現(xiàn)，對訓(xùn)練數(shù)據(jù)的需求呈指數(shù)級上升。無論是自然語言文本理解、計算機視覺還是語音識別，使用精心標(biāo)注的數(shù)據(jù)集能帶來顯著的性能提升，同時大幅減少所需的訓(xùn)練數(shù)據(jù)量。

　　但目前多數(shù)模型的數(shù)據(jù)處理流程嚴(yán)重依賴于人工篩選，不僅費時、費力并且成本非常高，難以應(yīng)對大規(guī)模數(shù)據(jù)集的需求。

　　因此，谷歌Deepmind的研究人員提出了創(chuàng)新數(shù)據(jù)篩選方法JEST，通過聯(lián)合選擇數(shù)據(jù)批次來加速多模態(tài)大模型的學(xué)習(xí)效率。與目前最先進的算法相比，JEST可以將大模型的數(shù)據(jù)篩選效率提升13倍，算力需求降低10倍。

　　JEST三種評分策略

　　傳統(tǒng)的數(shù)據(jù)標(biāo)注方法通常針對單個數(shù)據(jù)點進行操作，但一個批次數(shù)據(jù)的質(zhì)量不僅取決于其內(nèi)部各個數(shù)據(jù)點的獨立質(zhì)量，還受到它們組合方式的影響。那些難解的負(fù)樣本，也就是標(biāo)簽雖不同卻緊密聚集在一起的點，被證明比容易解決的例子更能提供有效的學(xué)習(xí)信號。

　　而JEST算法可以從更大的超級批次中高效地挑選出相關(guān)性高的子批次。與傳統(tǒng)的優(yōu)先級采樣方法不同，JEST不是給每個單獨的例子打分，而是對整個子批次進行評分，根據(jù)這些批次級別的分?jǐn)?shù)進行采樣。

　　JEST的核心在于使用模型為基礎(chǔ)的評分函數(shù)，這些函數(shù)結(jié)合了學(xué)習(xí)者模型的損失或預(yù)訓(xùn)練參考模型的損失，并提供硬學(xué)習(xí)者、易參考和可學(xué)習(xí)性三種評分策略。

　　硬學(xué)習(xí)者策略通過計算子批次在當(dāng)前學(xué)習(xí)者模型下的高損失，選擇那些模型尚未掌握的樣本，以避免浪費資源在已知信息上。但是，對于大而雜亂的數(shù)據(jù)集，這種策略可能適得其反，因為會過度采樣噪聲樣本。

　　易參考策略恰好相反，它優(yōu)先選擇對預(yù)訓(xùn)練參考模型而言比較的數(shù)據(jù)，損失較低的樣本。這種策略在多模態(tài)學(xué)習(xí)中已被成功應(yīng)用，用于識別高質(zhì)量的例子，但缺點是過于依賴參考模型的選擇，可能不適用于大規(guī)模計算預(yù)算。

　　可學(xué)習(xí)性策略則合了前兩種方法的優(yōu)點，通過計算學(xué)習(xí)者模型和參考模型的損失之差，選擇那些既未被學(xué)習(xí)者掌握又對參考模型相對簡單的樣本。

　　這種策略既能避免噪聲數(shù)據(jù)的干擾，又能保證選取的數(shù)據(jù)是模型可以學(xué)習(xí)，因此在大規(guī)模學(xué)習(xí)中即使對單個例子進行優(yōu)先級排序也能加速訓(xùn)練過程。

　　模型近似和多分辨率訓(xùn)練

　　為了進一步增強JEST算法的性能以及對算力需求的降低，還使用了模型近似和多分辨率訓(xùn)練兩種方法。

　　模型近似主要通過兩種方式實現(xiàn):一是降低圖像分辨率，二是減少模型層的計算，幫助大模型在保持模型性能的同時，顯著減少每次迭代所需的算力需求。

　　降低圖像分辨率是一種直觀的近似方法。在傳統(tǒng)的高分辨率圖像處理中，模型需要對每一個像素點進行分析和學(xué)習(xí)，這無疑增加了算力負(fù)擔(dān)。

　　而在JEST算法中，通過將圖像分辨率降低，減少了模型需要處理的像素數(shù)量，從而降低了單次迭代的計算成本，并且對模型的性能影響很小。

　　減少模型層的計算則是另一種有效的近似手段。深度學(xué)習(xí)模型通常包含多個層次，每個層次都可能帶來計算量的增加。JEST算法通過在評分階段使用簡化的模型結(jié)構(gòu)，減少了模型在每次迭代中的算力負(fù)荷，也不會影響模型最終的訓(xùn)練結(jié)果。

　　多分辨率訓(xùn)練允許模型在不同的分辨率下處理數(shù)據(jù)，從而在訓(xùn)練過程中實現(xiàn)更高的靈活性和效率。

　　在多分辨率訓(xùn)練中，模型首先在較低分辨率下對數(shù)據(jù)進行初步處理，這有助于快速捕捉數(shù)據(jù)的大致特征。然后，模型在較高分辨率下對數(shù)據(jù)進行更細致的分析，以提取更精細的特征信息。這種分階段的處理方式不僅提高了模型對數(shù)據(jù)的理解能力，也使得模型能夠在不同層次上進行有效的學(xué)習(xí)。

　　此外，多分辨率訓(xùn)練還有助于提高模型的泛化能力。通過在不同分辨率下訓(xùn)練，模型能夠?qū)W習(xí)到不同尺度的特征，這使得模型在面對不同尺寸和分辨率的輸入數(shù)據(jù)時，都能夠表現(xiàn)出良好的適應(yīng)性。

　　為了測試JEST算法的有效性，在ImageNet、COCO等數(shù)據(jù)集上，對圖像分類、零樣本學(xué)習(xí)、圖像到文本的檢索和文本到圖像檢索等任務(wù)上進行了綜合測試。

　　結(jié)果顯示，JEST在多個任務(wù)上都取得了顯著的數(shù)據(jù)篩選效率，例如，當(dāng)過濾90%的數(shù)據(jù)時，JEST僅需使用6700萬樣本即可達到傳統(tǒng)方法使用30億樣本的性能水平，相當(dāng)于效率提升13倍和算力降低了10倍，同時還能幫助大模型提升大約6%的性能。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信

即時

TCL實業(yè)榮獲IFA2024多項大獎，展示全球科技創(chuàng)新力量

近日，德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革，全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎，有力證明了其在全球市場的強大影響力。

OPPO續(xù)約歐洲冠軍聯(lián)賽未來三季再續(xù)輝煌

華為見非凡品牌盛典及鴻蒙智行新品發(fā)布會定檔 9月10日

新聞

敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

近日，中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相，以敢為精神勇闖技術(shù)無人區(qū)，斬獲四項AWE 2024艾普蘭大獎。

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

“以前都要去窗口辦，一套流程下來都要半個月了，現(xiàn)在方便多了!”打開“重慶公積金”微信小程序，按照提示流程提交相關(guān)材料，僅幾秒鐘，重慶市民曾某的賬戶就打進了21600元。

3C消費

“純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

2024年3月12日，由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

研究

2024全球開發(fā)者先鋒大會即將開幕

由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo)，由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”，將于2024年3月23日至24日舉辦。

專題

2021 CCF全國高性能計算學(xué)術(shù)年會

返回主頁 ┊ 關(guān)于我們 ┊ 內(nèi)容聯(lián)系 ┊ 聯(lián)系我們 ┊ 免責(zé)聲明 ┊ 原創(chuàng)新聞 ┊ 友情鏈接 ┊ 舊版首頁

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网
久久精品视频国产女人扒开腿让人桶视频男女做爰猛烈叫床视频免费 99精品久久久中文字幕欧美日韩一区精品视频

<mark id="fkxy4"><strong id="fkxy4"></strong></mark>

谷歌發(fā)布大模型數(shù)據(jù)篩選方法：效率提升13倍，算力降低10倍

擴展閱讀

谷歌發(fā)布大模型數(shù)據(jù)篩選方法：效率提升13倍，算力降低10倍