CrowdStrike“全球滅霸響指”事件后續(xù),德國(guó) 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺(tái)合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫(huà)像”平臺(tái),加速數(shù)字化轉(zhuǎn)型重慶:力爭(zhēng)今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬(wàn)輛,到 2027 年建成萬(wàn)億級(jí)產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實(shí)況照片了蘋(píng)果有線耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚(yú)相關(guān)搜索量暴漲384%2024 vivo開(kāi)發(fā)者大會(huì)官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來(lái)了,阿里云「通義靈碼」全面進(jìn)化,全流程開(kāi)發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來(lái)了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國(guó)AR/VR出貨23.3萬(wàn)臺(tái),同比下滑了 29.1%IDC:2024 上半年中國(guó) AR / VR 頭顯出貨 23.3 萬(wàn)臺(tái),同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測(cè)屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個(gè)運(yùn)行時(shí)安全解決方案,實(shí)現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購(gòu)物體驗(yàn)全面升級(jí)機(jī)器人公司1X推出世界模型
  • 首頁(yè) > 企業(yè)IT頻道 > 人工智能

    GPT模型中的數(shù)據(jù)中心型AI揭秘

    2023年04月23日 16:04:46   來(lái)源:51CTO

      譯者 | 朱先忠

      圖像來(lái)自文章https://arxiv.org/abs/2303.10158,由作者本人制作

      人工智能在改變我們的生活、工作和與技術(shù)互動(dòng)的方式方面取得了令人難以置信的進(jìn)步。最近,一個(gè)取得重大進(jìn)展的領(lǐng)域是大型語(yǔ)言模型(LLM)的開(kāi)發(fā),如GPT-3、ChatGPT和GPT-4。這些模型能夠以令人印象深刻的準(zhǔn)確性執(zhí)行語(yǔ)言完成翻譯、文本摘要和問(wèn)答等任務(wù)。

      雖然很難忽視大型語(yǔ)言模型不斷增加的模型規(guī)模,但同樣重要的是要認(rèn)識(shí)到,它們的成功很大程度上歸功于用于訓(xùn)練它們的大量高質(zhì)量數(shù)據(jù)。

      在本文中,我們將從以數(shù)據(jù)為中心的人工智能角度概述大型語(yǔ)言模型的最新進(jìn)展,參考我們最近的調(diào)查論文(末尾文獻(xiàn)1與2)中的觀點(diǎn)以及GitHub上的相應(yīng)技術(shù)資源。特別是,我們將通過(guò)以數(shù)據(jù)為中心的人工智能的視角仔細(xì)研究GPT模型,這是數(shù)據(jù)科學(xué)界日益增長(zhǎng)的一種觀點(diǎn)。我們將通過(guò)討論三個(gè)以數(shù)據(jù)為中心的人工智能目標(biāo)——訓(xùn)練數(shù)據(jù)開(kāi)發(fā)、推理數(shù)據(jù)開(kāi)發(fā)和數(shù)據(jù)維護(hù),來(lái)揭示GPT模型背后以數(shù)據(jù)為核心的人工智能概念。

      大型語(yǔ)言模型與GPT模型

      LLM(大型語(yǔ)言模型)是一種自然語(yǔ)言處理模型,經(jīng)過(guò)訓(xùn)練可以在上下文中推斷單詞。例如,LLM最基本的功能是在給定上下文的情況下預(yù)測(cè)丟失的令牌。為了做到這一點(diǎn),LLM被訓(xùn)練來(lái)從海量數(shù)據(jù)中預(yù)測(cè)每個(gè)候選令牌的概率。

      使用具有上下文的大型語(yǔ)言模型預(yù)測(cè)丟失令牌的概率的說(shuō)明性示例(作者本人提供的圖片)

      GPT模型是指OpenAI創(chuàng)建的一系列大型語(yǔ)言模型,如GPT-1、GPT-2、GPT-3、InstructGPT和ChatGPT/GPT-4。與其他大型語(yǔ)言模型一樣,GPT模型的架構(gòu)在很大程度上基于轉(zhuǎn)換器(Transformer),它使用文本和位置嵌入作為輸入,并使用注意力層來(lái)建模令牌間的關(guān)系。

      GPT-1模型體系架構(gòu)示意圖,本圖像來(lái)自論文https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

      后來(lái)的GPT模型使用了與GPT-1類似的架構(gòu),只是使用了更多的模型參數(shù),具有更多的層、更大的上下文長(zhǎng)度、隱藏層大小等。

      GPT模型的各種模型大小比較(作者提供圖片)

      什么是以數(shù)據(jù)為中心的人工智能?

      以數(shù)據(jù)為中心的人工智能是一種新興的思考如何構(gòu)建人工智能系統(tǒng)的新方式。人工智能先驅(qū)吳恩達(dá)(Andrew Ng)一直在倡導(dǎo)這一理念。

      以數(shù)據(jù)為中心的人工智能是對(duì)用于構(gòu)建人工智能系統(tǒng)的數(shù)據(jù)進(jìn)行系統(tǒng)化工程的學(xué)科。

      ——吳恩達(dá)

      過(guò)去,我們主要專注于在數(shù)據(jù)基本不變的情況下創(chuàng)建更好的模型(以模型為中心的人工智能)。然而,這種方法可能會(huì)在現(xiàn)實(shí)世界中導(dǎo)致問(wèn)題,因?yàn)樗鼪](méi)有考慮數(shù)據(jù)中可能出現(xiàn)的不同問(wèn)題,例如不準(zhǔn)確的標(biāo)簽、重復(fù)和偏置。因此,“過(guò)度擬合”一個(gè)數(shù)據(jù)集可能不一定會(huì)導(dǎo)致更好的模型行為。

      相比之下,以數(shù)據(jù)為中心的人工智能專注于提高用于構(gòu)建人工智能系統(tǒng)的數(shù)據(jù)的質(zhì)量和數(shù)量。這意味著,注意力將集中在數(shù)據(jù)本身,而模型相對(duì)來(lái)說(shuō)更固定。以數(shù)據(jù)為中心的方法開(kāi)發(fā)人工智能系統(tǒng)在現(xiàn)實(shí)世界中具有更大的潛力,因?yàn)橛糜谟?xùn)練的數(shù)據(jù)最終決定了模型的最大能力。

      值得注意的是,“以數(shù)據(jù)為中心”與“數(shù)據(jù)驅(qū)動(dòng)”有根本不同,因?yàn)楹笳咧粡?qiáng)調(diào)使用數(shù)據(jù)來(lái)指導(dǎo)人工智能開(kāi)發(fā),而人工智能開(kāi)發(fā)通常仍以開(kāi)發(fā)模型而非工程數(shù)據(jù)為中心。

      以數(shù)據(jù)為中心的人工智能與以模型為中心的AI的比較(圖片來(lái)自https://arxiv.org/abs/2301.04819論文作者)

      總體來(lái)看,以數(shù)據(jù)為中心的人工智能框架由三個(gè)目標(biāo)組成:

      訓(xùn)練數(shù)據(jù)開(kāi)發(fā)是收集和產(chǎn)生豐富、高質(zhì)量的數(shù)據(jù),以支持機(jī)器學(xué)習(xí)模型的訓(xùn)練。

      推理數(shù)據(jù)開(kāi)發(fā)是為了創(chuàng)建新的評(píng)估集,這些評(píng)估集可以為模型提供更精細(xì)的見(jiàn)解,或者通過(guò)工程數(shù)據(jù)輸入觸發(fā)模型的特定能力。

      數(shù)據(jù)維護(hù)是為了確保數(shù)據(jù)在動(dòng)態(tài)環(huán)境中的質(zhì)量和可靠性。數(shù)據(jù)維護(hù)至關(guān)重要,因?yàn)楝F(xiàn)實(shí)世界中的數(shù)據(jù)不是一次性創(chuàng)建的,而是需要持續(xù)維護(hù)的。

      以數(shù)據(jù)為中心的人工智能框架(圖像來(lái)自論文https://arxiv.org/abs/2303.10158的作者)

      為什么以數(shù)據(jù)為中心的人工智能使GPT模型如此成功?

      幾個(gè)月前,人工智能界大佬Yann LeCun在其推特上表示,ChatGPT并不是什么新鮮事。事實(shí)上,在ChatGPT和GPT-4中使用的所有技術(shù)(Transformer和從人類反饋中強(qiáng)化學(xué)習(xí)等)都不是新技術(shù)。然而,他們確實(shí)取得了以前的模型無(wú)法取得的令人難以置信的成績(jī)。那么,他們成功的動(dòng)力是什么呢?

      首先,加強(qiáng)訓(xùn)練數(shù)據(jù)開(kāi)發(fā)。通過(guò)更好的數(shù)據(jù)收集、數(shù)據(jù)標(biāo)記和數(shù)據(jù)準(zhǔn)備策略,用于訓(xùn)練GPT模型的數(shù)據(jù)的數(shù)量和質(zhì)量顯著提高。

      GPT-1:BooksCorpus數(shù)據(jù)集用于訓(xùn)練。該數(shù)據(jù)集包含4629MB的原始文本,涵蓋了冒險(xiǎn)、幻想和浪漫等一系列流派的書(shū)籍。

      沒(méi)有使用以數(shù)據(jù)為中心的人工智能策略。

      訓(xùn)練結(jié)果:在該數(shù)據(jù)集上應(yīng)用GPT-1可以通過(guò)微調(diào)來(lái)提高下游任務(wù)的性能。

      采用了以數(shù)據(jù)為中心的人工智能策略:(1)僅使用Reddit的出站鏈接來(lái)控制/過(guò)濾數(shù)據(jù),該鏈接至少收到3個(gè)結(jié)果;(2)使用工具Dragnet和Newspaper提取“干凈”的內(nèi)容;(3)采用重復(fù)數(shù)據(jù)消除和其他一些基于啟發(fā)式的凈化方法(論文中沒(méi)有提到細(xì)節(jié))。

      訓(xùn)練結(jié)果:凈化后得到40GB的文本。GPT-2無(wú)需微調(diào)即可實(shí)現(xiàn)強(qiáng)大的零樣本結(jié)果。

      使用了以數(shù)據(jù)為中心的人工智能策略:(1)訓(xùn)練分類器,根據(jù)每個(gè)文檔與WebText的相似性篩選出低質(zhì)量文檔,WebText是高質(zhì)量文檔的代理。(2)使用Spark的MinHashLSH對(duì)文檔進(jìn)行模糊的重復(fù)數(shù)據(jù)消除。(3)使用WebText、圖書(shū)語(yǔ)料庫(kù)和維基百科來(lái)增強(qiáng)數(shù)據(jù)。

      訓(xùn)練結(jié)果:從45TB的明文中過(guò)濾得到570GB的文本(在本次質(zhì)量過(guò)濾中僅選擇1.27%的數(shù)據(jù))。在零樣本設(shè)置中,GPT-3顯著優(yōu)于GPT-2。

      使用了以數(shù)據(jù)為中心的人工智能策略:(1)使用人工提供的提示答案,通過(guò)監(jiān)督訓(xùn)練調(diào)整模型。(2)收集比較數(shù)據(jù)以訓(xùn)練獎(jiǎng)勵(lì)模型,然后使用該獎(jiǎng)勵(lì)模型通過(guò)來(lái)自人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)來(lái)調(diào)整GPT-3。

      訓(xùn)練結(jié)果:InstructGPT顯示出更好的真實(shí)性和更少的偏差,即更好的一致性。

      GPT-2:使用WebText來(lái)進(jìn)行訓(xùn)練。這是OpenAI中的一個(gè)內(nèi)部數(shù)據(jù)集,通過(guò)從Reddit中抓取出站鏈接創(chuàng)建。

      GPT-3:GPT-3的訓(xùn)練主要基于Common Crawl工具。

      InstructGPT:讓人類評(píng)估調(diào)整GPT-3的答案,使其能夠更好地符合人類的期望。他們?yōu)樽⑨屍髟O(shè)計(jì)了測(cè)試,只有那些能夠通過(guò)測(cè)試的人才有資格進(jìn)行注釋。此外,他們甚至還設(shè)計(jì)了一項(xiàng)調(diào)查,以確保注釋者喜歡注釋過(guò)程。

      ChatGPT/GPT-4:OpenAI未披露詳細(xì)信息。但眾所周知,ChatGPT/GPT-4在很大程度上遵循了以前GPT模型的設(shè)計(jì),它們?nèi)匀皇褂肦LHF來(lái)調(diào)整模型(可能有更多、更高質(zhì)量的數(shù)據(jù)/標(biāo)簽)。人們普遍認(rèn)為,隨著模型權(quán)重的增加,GPT-4使用了更大的數(shù)據(jù)集。

      其次,進(jìn)行推理數(shù)據(jù)開(kāi)發(fā)。由于最近的GPT模型已經(jīng)足夠強(qiáng)大,我們可以通過(guò)在固定模型的情況下調(diào)整提示(或調(diào)整推理數(shù)據(jù))來(lái)實(shí)現(xiàn)各種目標(biāo)。例如,我們可以通過(guò)提供摘要的文本以及“summarize it”或“TL;DR”等指令來(lái)進(jìn)行文本摘要,以指導(dǎo)推理過(guò)程。

      提示符微調(diào),圖片由作者提供

      設(shè)計(jì)正確的推理提示是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。它在很大程度上依賴于啟發(fā)式技術(shù)。一項(xiàng)很好的調(diào)查總結(jié)了目前為止人們使用的不同的提示方法。有時(shí),即使在語(yǔ)義上相似的提示也可能具有非常不同的輸出。在這種情況下,可能需要基于軟提示的校準(zhǔn)來(lái)減少差異。

      基于軟提示符的校準(zhǔn)。本圖像來(lái)自于論文https://arxiv.org/abs/2303.13035v1,經(jīng)原作者許可

      大型語(yǔ)言模型推理數(shù)據(jù)開(kāi)發(fā)的研究仍處于早期階段。在不久的將來(lái),已經(jīng)在其他任務(wù)中使用的更多推理數(shù)據(jù)開(kāi)發(fā)技術(shù)可能會(huì)應(yīng)用于大型語(yǔ)言模型領(lǐng)域。

      就數(shù)據(jù)維護(hù)方面來(lái)說(shuō),ChatGPT/GPT-4作為一種商業(yè)產(chǎn)品,并不僅僅是訓(xùn)練一次成功的,而是需要不斷更新和維護(hù)。顯然,我們不知道數(shù)據(jù)維護(hù)是如何在OpenAI之外執(zhí)行的。因此,我們討論了一些以數(shù)據(jù)為中心的通用人工智能策略,這些策略很可能已用于或?qū)⒂糜贕PT模型:

      持續(xù)數(shù)據(jù)收集:當(dāng)我們使用ChatGPT/GPT-4時(shí),我們的提示/反饋反過(guò)來(lái)可以被OpenAI用來(lái)進(jìn)一步推進(jìn)他們的模型?赡芤呀(jīng)設(shè)計(jì)和實(shí)施了質(zhì)量指標(biāo)和保證策略,以便在此過(guò)程中收集高質(zhì)量的數(shù)據(jù)。

      數(shù)據(jù)理解工具:有可能已經(jīng)開(kāi)發(fā)出各種工具來(lái)可視化和理解用戶數(shù)據(jù),促進(jìn)更好地理解用戶的需求,并指導(dǎo)未來(lái)的改進(jìn)方向。

      高效的數(shù)據(jù)處理:隨著ChatGPT/GPT-4用戶數(shù)量的快速增長(zhǎng),需要一個(gè)高效的數(shù)據(jù)管理系統(tǒng)來(lái)實(shí)現(xiàn)快速的數(shù)據(jù)采集。

      ChatGPT/GPT-4系統(tǒng)能夠通過(guò)如圖所示的“拇指向上”和“拇指向下”兩個(gè)圖標(biāo)按鈕收集用戶反饋,以進(jìn)一步促進(jìn)他們的系統(tǒng)發(fā)展。此處屏幕截圖來(lái)自于https://chat.openai.com/chat。

      數(shù)據(jù)科學(xué)界能從這一波大型語(yǔ)言模型中學(xué)到什么?

      大型語(yǔ)言模型的成功徹底改變了人工智能。展望未來(lái),大型語(yǔ)言模型可能會(huì)進(jìn)一步徹底改變數(shù)據(jù)科學(xué)的生命周期。為此,我們做出兩個(gè)預(yù)測(cè):

      以數(shù)據(jù)為中心的人工智能變得更加重要。經(jīng)過(guò)多年的研究,模型設(shè)計(jì)已經(jīng)非常成熟,尤其是在Transformer之后。工程數(shù)據(jù)成為未來(lái)改進(jìn)人工智能系統(tǒng)的關(guān)鍵(或可能是唯一)方法。此外,當(dāng)模型變得足夠強(qiáng)大時(shí),我們不需要在日常工作中訓(xùn)練模型。相反,我們只需要設(shè)計(jì)適當(dāng)?shù)耐评頂?shù)據(jù)(即時(shí)工程)來(lái)從模型中探索知識(shí)。因此,以數(shù)據(jù)為中心的人工智能的研發(fā)將推動(dòng)未來(lái)的進(jìn)步。

      大型語(yǔ)言模型將實(shí)現(xiàn)更好的以數(shù)據(jù)為中心的人工智能解決方案。在大型語(yǔ)言模型的幫助下,許多乏味的數(shù)據(jù)科學(xué)工作可以更有效地進(jìn)行。例如,ChaGPT/GPT-4已經(jīng)可以編寫(xiě)可操作的代碼來(lái)處理和清理數(shù)據(jù)。此外,大型語(yǔ)言模型甚至可以用于創(chuàng)建用于訓(xùn)練的數(shù)據(jù)。例如,最近的工作表明,使用大型語(yǔ)言模型生成合成數(shù)據(jù)可以提高臨床文本挖掘中的模型性能。

      使用大型語(yǔ)言模型生成合成數(shù)據(jù)以訓(xùn)練模型,此處圖像來(lái)自論文https://arxiv.org/abs/2303.04360,經(jīng)原作者許可

      參考資料

      我希望這篇文章能在你自己的工作中給你帶來(lái)啟發(fā)。您可以在以下論文中了解更多關(guān)于以數(shù)據(jù)為中心的人工智能框架及其如何為大型語(yǔ)言模型帶來(lái)好處:

      [1]以數(shù)據(jù)為中心的人工智能綜述。

      [2]以數(shù)據(jù)為中心的人工智能前景與挑戰(zhàn)。

      注意,我們還維護(hù)了一個(gè)GitHub代碼倉(cāng)庫(kù),它將定期更新相關(guān)的以數(shù)據(jù)為中心的人工智能資源。

      在以后的文章中,我將深入研究以數(shù)據(jù)為中心的人工智能的三個(gè)目標(biāo)(訓(xùn)練數(shù)據(jù)開(kāi)發(fā)、推理數(shù)據(jù)開(kāi)發(fā)和數(shù)據(jù)維護(hù)),并介紹具有代表性的方法。

      譯者介紹

      朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計(jì)算機(jī)教師,自由編程界老兵一枚。

      原文標(biāo)題:What Are the Data-Centric AI Concepts behind GPT Models?,作者:Henry Lai

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無(wú)人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開(kāi)幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛(ài)普生4K 3LCD 激光工程投影

    2024年3月12日,由愛(ài)普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

    研究

    2024全球開(kāi)發(fā)者先鋒大會(huì)即將開(kāi)幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開(kāi)放原子開(kāi)源基金會(huì)主辦的“2024全球開(kāi)發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。