下單前先比價不花冤枉錢 同款圖書京東價低于抖音6折日媒感慨中國電動汽車/智駕遙遙領先:本田、日產、三菱合并也沒戲消委會吹風機品質檢測結果揭曉 徠芬獨占鰲頭 共話新質營銷力,2024梅花數(shù)據(jù)峰會圓滿落幕索尼影像專業(yè)服務 PRO Support 升級,成為會員至少需注冊 2 臺 α 全畫幅相機、3 支 G 大師鏡頭消息稱vivo加碼電池軍備競賽:6500mAh 旗艦機+7500mAh中端機寶馬M8雙門轎跑車明年年初將停產,后續(xù)無2026款車型比亞迪:2025 款漢家族車型城市領航智駕功能開啟內測雷神預告2025年首次出席CES 將發(fā)布三款不同技術原理智能眼鏡realme真我全球首發(fā)聯(lián)發(fā)科天璣 8400 耐玩戰(zhàn)神共創(chuàng)計劃iQOO Z9 Turbo長續(xù)航版手機被曝電池加大到6400mAh,搭驍龍 8s Gen 3處理器普及放緩 銷量大跌:曝保時捷將重新評估電動汽車計劃來京東參與榮耀Magic7 RSR 保時捷設計預售 享365天只換不修國補期間電視迎來換機潮,最暢銷MiniLED品牌花落誰家?美團旗下微信社群團購業(yè)務“團買買”宣布年底停運消息稱微軟正與第三方廠商洽談,試圖合作推出Xbox游戲掌機設備在海外,要再造一個京東物流?消息稱蘋果正為AirPods開發(fā)多項健康功能,包括心率監(jiān)測和溫度感應一加 Ace 5系列將搭載全新游戲助手:大幅提升游戲體驗東芝全部業(yè)務實現(xiàn)盈利,退市裁員重組后終于賺錢
  • 首頁 > 企業(yè)IT頻道 > 人工智能

    GPT模型中的數(shù)據(jù)中心型AI揭秘

    2023年04月23日 16:04:46   來源:51CTO

      譯者 | 朱先忠

      圖像來自文章https://arxiv.org/abs/2303.10158,由作者本人制作

      人工智能在改變我們的生活、工作和與技術互動的方式方面取得了令人難以置信的進步。最近,一個取得重大進展的領域是大型語言模型(LLM)的開發(fā),如GPT-3、ChatGPT和GPT-4。這些模型能夠以令人印象深刻的準確性執(zhí)行語言完成翻譯、文本摘要和問答等任務。

      雖然很難忽視大型語言模型不斷增加的模型規(guī)模,但同樣重要的是要認識到,它們的成功很大程度上歸功于用于訓練它們的大量高質量數(shù)據(jù)。

      在本文中,我們將從以數(shù)據(jù)為中心的人工智能角度概述大型語言模型的最新進展,參考我們最近的調查論文(末尾文獻1與2)中的觀點以及GitHub上的相應技術資源。特別是,我們將通過以數(shù)據(jù)為中心的人工智能的視角仔細研究GPT模型,這是數(shù)據(jù)科學界日益增長的一種觀點。我們將通過討論三個以數(shù)據(jù)為中心的人工智能目標——訓練數(shù)據(jù)開發(fā)、推理數(shù)據(jù)開發(fā)和數(shù)據(jù)維護,來揭示GPT模型背后以數(shù)據(jù)為核心的人工智能概念。

      大型語言模型與GPT模型

      LLM(大型語言模型)是一種自然語言處理模型,經過訓練可以在上下文中推斷單詞。例如,LLM最基本的功能是在給定上下文的情況下預測丟失的令牌。為了做到這一點,LLM被訓練來從海量數(shù)據(jù)中預測每個候選令牌的概率。

      使用具有上下文的大型語言模型預測丟失令牌的概率的說明性示例(作者本人提供的圖片)

      GPT模型是指OpenAI創(chuàng)建的一系列大型語言模型,如GPT-1、GPT-2、GPT-3、InstructGPT和ChatGPT/GPT-4。與其他大型語言模型一樣,GPT模型的架構在很大程度上基于轉換器(Transformer),它使用文本和位置嵌入作為輸入,并使用注意力層來建模令牌間的關系。

      GPT-1模型體系架構示意圖,本圖像來自論文https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

      后來的GPT模型使用了與GPT-1類似的架構,只是使用了更多的模型參數(shù),具有更多的層、更大的上下文長度、隱藏層大小等。

      GPT模型的各種模型大小比較(作者提供圖片)

      什么是以數(shù)據(jù)為中心的人工智能?

      以數(shù)據(jù)為中心的人工智能是一種新興的思考如何構建人工智能系統(tǒng)的新方式。人工智能先驅吳恩達(Andrew Ng)一直在倡導這一理念。

      以數(shù)據(jù)為中心的人工智能是對用于構建人工智能系統(tǒng)的數(shù)據(jù)進行系統(tǒng)化工程的學科。

      ——吳恩達

      過去,我們主要專注于在數(shù)據(jù)基本不變的情況下創(chuàng)建更好的模型(以模型為中心的人工智能)。然而,這種方法可能會在現(xiàn)實世界中導致問題,因為它沒有考慮數(shù)據(jù)中可能出現(xiàn)的不同問題,例如不準確的標簽、重復和偏置。因此,“過度擬合”一個數(shù)據(jù)集可能不一定會導致更好的模型行為。

      相比之下,以數(shù)據(jù)為中心的人工智能專注于提高用于構建人工智能系統(tǒng)的數(shù)據(jù)的質量和數(shù)量。這意味著,注意力將集中在數(shù)據(jù)本身,而模型相對來說更固定。以數(shù)據(jù)為中心的方法開發(fā)人工智能系統(tǒng)在現(xiàn)實世界中具有更大的潛力,因為用于訓練的數(shù)據(jù)最終決定了模型的最大能力。

      值得注意的是,“以數(shù)據(jù)為中心”與“數(shù)據(jù)驅動”有根本不同,因為后者只強調使用數(shù)據(jù)來指導人工智能開發(fā),而人工智能開發(fā)通常仍以開發(fā)模型而非工程數(shù)據(jù)為中心。

      以數(shù)據(jù)為中心的人工智能與以模型為中心的AI的比較(圖片來自https://arxiv.org/abs/2301.04819論文作者)

      總體來看,以數(shù)據(jù)為中心的人工智能框架由三個目標組成:

      訓練數(shù)據(jù)開發(fā)是收集和產生豐富、高質量的數(shù)據(jù),以支持機器學習模型的訓練。

      推理數(shù)據(jù)開發(fā)是為了創(chuàng)建新的評估集,這些評估集可以為模型提供更精細的見解,或者通過工程數(shù)據(jù)輸入觸發(fā)模型的特定能力。

      數(shù)據(jù)維護是為了確保數(shù)據(jù)在動態(tài)環(huán)境中的質量和可靠性。數(shù)據(jù)維護至關重要,因為現(xiàn)實世界中的數(shù)據(jù)不是一次性創(chuàng)建的,而是需要持續(xù)維護的。

      以數(shù)據(jù)為中心的人工智能框架(圖像來自論文https://arxiv.org/abs/2303.10158的作者)

      為什么以數(shù)據(jù)為中心的人工智能使GPT模型如此成功?

      幾個月前,人工智能界大佬Yann LeCun在其推特上表示,ChatGPT并不是什么新鮮事。事實上,在ChatGPT和GPT-4中使用的所有技術(Transformer和從人類反饋中強化學習等)都不是新技術。然而,他們確實取得了以前的模型無法取得的令人難以置信的成績。那么,他們成功的動力是什么呢?

      首先,加強訓練數(shù)據(jù)開發(fā)。通過更好的數(shù)據(jù)收集、數(shù)據(jù)標記和數(shù)據(jù)準備策略,用于訓練GPT模型的數(shù)據(jù)的數(shù)量和質量顯著提高。

      GPT-1:BooksCorpus數(shù)據(jù)集用于訓練。該數(shù)據(jù)集包含4629MB的原始文本,涵蓋了冒險、幻想和浪漫等一系列流派的書籍。

      沒有使用以數(shù)據(jù)為中心的人工智能策略。

      訓練結果:在該數(shù)據(jù)集上應用GPT-1可以通過微調來提高下游任務的性能。

      采用了以數(shù)據(jù)為中心的人工智能策略:(1)僅使用Reddit的出站鏈接來控制/過濾數(shù)據(jù),該鏈接至少收到3個結果;(2)使用工具Dragnet和Newspaper提取“干凈”的內容;(3)采用重復數(shù)據(jù)消除和其他一些基于啟發(fā)式的凈化方法(論文中沒有提到細節(jié))。

      訓練結果:凈化后得到40GB的文本。GPT-2無需微調即可實現(xiàn)強大的零樣本結果。

      使用了以數(shù)據(jù)為中心的人工智能策略:(1)訓練分類器,根據(jù)每個文檔與WebText的相似性篩選出低質量文檔,WebText是高質量文檔的代理。(2)使用Spark的MinHashLSH對文檔進行模糊的重復數(shù)據(jù)消除。(3)使用WebText、圖書語料庫和維基百科來增強數(shù)據(jù)。

      訓練結果:從45TB的明文中過濾得到570GB的文本(在本次質量過濾中僅選擇1.27%的數(shù)據(jù))。在零樣本設置中,GPT-3顯著優(yōu)于GPT-2。

      使用了以數(shù)據(jù)為中心的人工智能策略:(1)使用人工提供的提示答案,通過監(jiān)督訓練調整模型。(2)收集比較數(shù)據(jù)以訓練獎勵模型,然后使用該獎勵模型通過來自人類反饋的強化學習(RLHF)來調整GPT-3。

      訓練結果:InstructGPT顯示出更好的真實性和更少的偏差,即更好的一致性。

      GPT-2:使用WebText來進行訓練。這是OpenAI中的一個內部數(shù)據(jù)集,通過從Reddit中抓取出站鏈接創(chuàng)建。

      GPT-3:GPT-3的訓練主要基于Common Crawl工具。

      InstructGPT:讓人類評估調整GPT-3的答案,使其能夠更好地符合人類的期望。他們?yōu)樽⑨屍髟O計了測試,只有那些能夠通過測試的人才有資格進行注釋。此外,他們甚至還設計了一項調查,以確保注釋者喜歡注釋過程。

      ChatGPT/GPT-4:OpenAI未披露詳細信息。但眾所周知,ChatGPT/GPT-4在很大程度上遵循了以前GPT模型的設計,它們仍然使用RLHF來調整模型(可能有更多、更高質量的數(shù)據(jù)/標簽)。人們普遍認為,隨著模型權重的增加,GPT-4使用了更大的數(shù)據(jù)集。

      其次,進行推理數(shù)據(jù)開發(fā)。由于最近的GPT模型已經足夠強大,我們可以通過在固定模型的情況下調整提示(或調整推理數(shù)據(jù))來實現(xiàn)各種目標。例如,我們可以通過提供摘要的文本以及“summarize it”或“TL;DR”等指令來進行文本摘要,以指導推理過程。

      提示符微調,圖片由作者提供

      設計正確的推理提示是一項具有挑戰(zhàn)性的任務。它在很大程度上依賴于啟發(fā)式技術。一項很好的調查總結了目前為止人們使用的不同的提示方法。有時,即使在語義上相似的提示也可能具有非常不同的輸出。在這種情況下,可能需要基于軟提示的校準來減少差異。

      基于軟提示符的校準。本圖像來自于論文https://arxiv.org/abs/2303.13035v1,經原作者許可

      大型語言模型推理數(shù)據(jù)開發(fā)的研究仍處于早期階段。在不久的將來,已經在其他任務中使用的更多推理數(shù)據(jù)開發(fā)技術可能會應用于大型語言模型領域。

      就數(shù)據(jù)維護方面來說,ChatGPT/GPT-4作為一種商業(yè)產品,并不僅僅是訓練一次成功的,而是需要不斷更新和維護。顯然,我們不知道數(shù)據(jù)維護是如何在OpenAI之外執(zhí)行的。因此,我們討論了一些以數(shù)據(jù)為中心的通用人工智能策略,這些策略很可能已用于或將用于GPT模型:

      持續(xù)數(shù)據(jù)收集:當我們使用ChatGPT/GPT-4時,我們的提示/反饋反過來可以被OpenAI用來進一步推進他們的模型?赡芤呀浽O計和實施了質量指標和保證策略,以便在此過程中收集高質量的數(shù)據(jù)。

      數(shù)據(jù)理解工具:有可能已經開發(fā)出各種工具來可視化和理解用戶數(shù)據(jù),促進更好地理解用戶的需求,并指導未來的改進方向。

      高效的數(shù)據(jù)處理:隨著ChatGPT/GPT-4用戶數(shù)量的快速增長,需要一個高效的數(shù)據(jù)管理系統(tǒng)來實現(xiàn)快速的數(shù)據(jù)采集。

      ChatGPT/GPT-4系統(tǒng)能夠通過如圖所示的“拇指向上”和“拇指向下”兩個圖標按鈕收集用戶反饋,以進一步促進他們的系統(tǒng)發(fā)展。此處屏幕截圖來自于https://chat.openai.com/chat。

      數(shù)據(jù)科學界能從這一波大型語言模型中學到什么?

      大型語言模型的成功徹底改變了人工智能。展望未來,大型語言模型可能會進一步徹底改變數(shù)據(jù)科學的生命周期。為此,我們做出兩個預測:

      以數(shù)據(jù)為中心的人工智能變得更加重要。經過多年的研究,模型設計已經非常成熟,尤其是在Transformer之后。工程數(shù)據(jù)成為未來改進人工智能系統(tǒng)的關鍵(或可能是唯一)方法。此外,當模型變得足夠強大時,我們不需要在日常工作中訓練模型。相反,我們只需要設計適當?shù)耐评頂?shù)據(jù)(即時工程)來從模型中探索知識。因此,以數(shù)據(jù)為中心的人工智能的研發(fā)將推動未來的進步。

      大型語言模型將實現(xiàn)更好的以數(shù)據(jù)為中心的人工智能解決方案。在大型語言模型的幫助下,許多乏味的數(shù)據(jù)科學工作可以更有效地進行。例如,ChaGPT/GPT-4已經可以編寫可操作的代碼來處理和清理數(shù)據(jù)。此外,大型語言模型甚至可以用于創(chuàng)建用于訓練的數(shù)據(jù)。例如,最近的工作表明,使用大型語言模型生成合成數(shù)據(jù)可以提高臨床文本挖掘中的模型性能。

      使用大型語言模型生成合成數(shù)據(jù)以訓練模型,此處圖像來自論文https://arxiv.org/abs/2303.04360,經原作者許可

      參考資料

      我希望這篇文章能在你自己的工作中給你帶來啟發(fā)。您可以在以下論文中了解更多關于以數(shù)據(jù)為中心的人工智能框架及其如何為大型語言模型帶來好處:

      [1]以數(shù)據(jù)為中心的人工智能綜述。

      [2]以數(shù)據(jù)為中心的人工智能前景與挑戰(zhàn)。

      注意,我們還維護了一個GitHub代碼倉庫,它將定期更新相關的以數(shù)據(jù)為中心的人工智能資源。

      在以后的文章中,我將深入研究以數(shù)據(jù)為中心的人工智能的三個目標(訓練數(shù)據(jù)開發(fā)、推理數(shù)據(jù)開發(fā)和數(shù)據(jù)維護),并介紹具有代表性的方法。

      譯者介紹

      朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

      原文標題:What Are the Data-Centric AI Concepts behind GPT Models?,作者:Henry Lai

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。