2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進(jìn)化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測屏幕指紋殘留,提高手機安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗全面升級機器人公司1X推出世界模型Apple Intelligence測試版現(xiàn)已開放革命性AI對話系統(tǒng)Moshi問世:機器也能說人話了?阿里國際推出最新多模態(tài)大模型 Ovis,看菜品就能提供烹飪步驟華為發(fā)布智聯(lián)集成行業(yè)解決方案,助力客戶打造行業(yè)領(lǐng)先的目標(biāo)網(wǎng)絡(luò)AI 3D生成天花板再拉升!清華團(tuán)隊煉成3D Scaling Law正在逐步覆蓋!騰訊提醒勿為實況圖重裝微信:以免丟失微信聊天記錄
  • 首頁 > 云計算頻道 > 大模型

    ChatGPT只是表面的喧囂 大模型才是那柄尖刀

    2023年05月23日 16:31:39   來源:微信公眾號:數(shù)據(jù)猿

       如果把時鐘撥到2023年底,當(dāng)我們回過頭來看今年科技界最激動人心的大事件,ChatGPT的橫空出世無疑會占據(jù)一席之地。就像幾年前大家被谷歌AlphaGo點燃對人工智能的熱情一樣,人們對ChatGPT的熱情只多不少。

      并且,AlphaGo其實只是虛晃一槍,并沒能帶來很多的實際應(yīng)用,而ChatGPT不一樣,商業(yè)應(yīng)用速度異常迅速,超過了大部分的預(yù)期。OpenAI很快推出了GPT-4,微軟很快將相應(yīng)模型接入其搜索、office全家桶等各條業(yè)務(wù)線;谷歌以Bard倉促應(yīng)戰(zhàn),并與其搜索業(yè)務(wù)深度綁定,褒貶不一;國內(nèi)的百度以文心一言快速跟進(jìn),目前已經(jīng)有數(shù)十萬家企業(yè)在排隊接入文心一言;阿里巴巴發(fā)布的通義千問,同樣得到數(shù)十萬企業(yè)的熱情回應(yīng)。

      人們對于這類AI應(yīng)用的熱情可見一斑。

      實際上,人工智能、可控核聚變、元宇宙這三個領(lǐng)域的每一次突破,都將極大的挑動人類敏感的神經(jīng),都能引發(fā)一波全民追捧熱浪。

      然而,外行看熱鬧,內(nèi)行看門道。作為一個專業(yè)媒體,數(shù)據(jù)猿并不滿足于報道浮在行業(yè)表面的熱點新聞,而要試圖去挖掘隱藏在冰山底下的秘密。

      在我們看來,雖然現(xiàn)在ChatGPT已經(jīng)成為萬眾矚目的明星,但它卻只是擺在臺面上的“提線木偶”,真正隱藏在幕后操控這一切的幕后大佬另有其人。

      一言以蔽之:ChatGPT只是表面的喧囂,大模型才是刺破AI的那柄尖刀。

      所以,要搞清楚目前的狀況,應(yīng)該把更多的注意力放在底層的大模型上,而不是停留在ChatGPT上。正如上一輪AlphaGo引發(fā)的AI浪潮,其底層驅(qū)動力是深度學(xué)習(xí)技術(shù)的突破。

      接下來,我們就來深入分析一下大模型,試圖搞清楚大模型跟以往的機器學(xué)習(xí)、深度學(xué)習(xí)模型有什么不一樣;大模型這么厲害,那它到底是如何工作的。

      1、大模型是深度學(xué)習(xí)技術(shù)的進(jìn)化版

      人工智能已經(jīng)發(fā)展了幾十年了,整體朝著機器學(xué)習(xí)、深度學(xué)習(xí)、大模型的進(jìn)化方向發(fā)展。

      人工智能是一種廣義的概念,指的是使機器能夠表現(xiàn)出人類智能的任何技術(shù)。機器學(xué)習(xí)是實現(xiàn)人工智能的一種方法,它通過讓機器從數(shù)據(jù)中學(xué)習(xí),自動發(fā)現(xiàn)數(shù)據(jù)中的模式和規(guī)律。深度學(xué)習(xí)是機器學(xué)習(xí)的一種特殊形式,它使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)和預(yù)測。

      大規(guī)模預(yù)訓(xùn)練模型是一種機器學(xué)習(xí)模型,使用大量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,并在后續(xù)任務(wù)中進(jìn)行微調(diào)。這種模型通常采用深度學(xué)習(xí)技術(shù),可以自動從數(shù)據(jù)中提取特征和模式,從而進(jìn)行各種任務(wù),例如自然語言處理、圖像識別、語音識別等。目前最著名的大規(guī)模預(yù)訓(xùn)練模型之一是 GPT系列。

      大規(guī)模預(yù)訓(xùn)練模型可以被看作是深度學(xué)習(xí)技術(shù)的一種進(jìn)化和擴展,大規(guī)模預(yù)訓(xùn)練模型通常也使用了以往深度學(xué)習(xí)模型的一些技術(shù),如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等。通過預(yù)訓(xùn)練加微調(diào)的方式,大規(guī)模預(yù)訓(xùn)練模型在處理大規(guī)模數(shù)據(jù)和多個任務(wù)方面具有很強的能力,成為了當(dāng)前人工智能領(lǐng)域的一個重要研究方向。

      因此,大模型、深度學(xué)習(xí)、機器學(xué)習(xí)、人工智能的關(guān)系可以用下圖來表示:

    數(shù)據(jù)猿制圖

     

      深度學(xué)習(xí)技術(shù)可以視為大模型的地基之一,大模型發(fā)展也跟深度學(xué)習(xí)技術(shù)的突破息息相關(guān)。2012-2018年,深度學(xué)習(xí)技術(shù)在默默發(fā)展,2018年OpenAI推出GPT模型為分水嶺,大模型的發(fā)展進(jìn)入加速階段。各個科技巨頭都開始狂煉大模型,一方面是在核心算法上進(jìn)行探索,另一方面就是的不斷提升參數(shù)規(guī)模——大模型領(lǐng)域的“暴力美學(xué)”。

      當(dāng)然,除了美國,中國在大模型領(lǐng)域是跟的最緊的,百度、騰訊、阿里巴巴、華為等也誕生了不少成果。

      其中,百度在這個領(lǐng)域的積累最深,這也是百度能在中國率先推出對標(biāo)ChatGPT的文心一言產(chǎn)品的原因。

      接下來我們試圖從技術(shù)角度,來探討一下大模型產(chǎn)業(yè)發(fā)展的核心邏輯。

      2、全新的訓(xùn)練模式:預(yù)訓(xùn)練+微調(diào)

      同樣是深度學(xué)習(xí)技術(shù),為什么大模型能表現(xiàn)的如此驚艷,它有什么不一樣呢?

      以往的深度學(xué)習(xí)模型通常需要從頭開始訓(xùn)練,需要大量的標(biāo)注數(shù)據(jù)和計算資源。而大規(guī)模預(yù)訓(xùn)練模型則采用了一種更加高效的訓(xùn)練方式,即預(yù)訓(xùn)練加微調(diào)。預(yù)訓(xùn)練是指在海量數(shù)據(jù)上進(jìn)行無監(jiān)督學(xué)習(xí),使得模型學(xué)到更加通用的特征和表示。在預(yù)訓(xùn)練完成后,可以在不同的任務(wù)上進(jìn)行微調(diào),使得模型能夠適應(yīng)具體的任務(wù)。

      可以發(fā)現(xiàn),大模型的訓(xùn)練有兩個關(guān)鍵的步驟,即預(yù)訓(xùn)練+微調(diào)。通過預(yù)訓(xùn)練,來獲得一些通用特征,并提升模型泛化能力。

      在大規(guī)模預(yù)訓(xùn)練模型中,通用的特征和表示指的是一些基本的語言或圖像特征,這些特征是在模型在大規(guī)模數(shù)據(jù)上無監(jiān)督學(xué)習(xí)時自動學(xué)習(xí)到的。

      這些通用的特征和表示具有一定的抽象性,可以在不同的任務(wù)中被重新利用,從而使得模型可以更加高效地學(xué)習(xí)新的任務(wù)。這就像是學(xué)生在學(xué)習(xí)不同的科目時,會學(xué)到一些基本的學(xué)習(xí)方法和技巧,比如如何理解概念、如何思考問題、如何進(jìn)行邏輯推理等等。這些基本的學(xué)習(xí)方法和技巧可以被應(yīng)用在不同的科目中,幫助學(xué)生更加高效地學(xué)習(xí)和掌握知識。

      目前大模型的泛化效果已經(jīng)相當(dāng)不錯,比如在自然語言處理領(lǐng)域,大模型如GPT-4在多個NLP任務(wù)上均取得了出色的表現(xiàn),表明大模型在泛化方面已經(jīng)取得了很大的進(jìn)展。未來的突破重點可能在于進(jìn)一步提高模型的泛化能力,比如在數(shù)據(jù)增強、對抗訓(xùn)練等方面繼續(xù)探索創(chuàng)新方法。

      相比之前的深度學(xué)習(xí)模型,大模型之所以能夠?qū)崿F(xiàn)更好的泛化能力,關(guān)鍵在于大模型具有更多的參數(shù)和更豐富的特征表示能力。大模型在預(yù)訓(xùn)練階段就能夠?qū)W習(xí)到大規(guī)模數(shù)據(jù)的特征表示,這些通用的特征能夠被遷移應(yīng)用到各種不同的任務(wù)中,使得大模型能夠更好地適應(yīng)新的任務(wù),從而提高了泛化能力。

      關(guān)于泛化能力,可以把它比喻成一個人的適應(yīng)能力。如果一個人只是在自己家里待著,很少接觸外面的世界,那么他可能很難適應(yīng)到新的環(huán)境中去。但是如果一個人經(jīng)常外出旅行,接觸不同的文化和環(huán)境,那么他的適應(yīng)能力就會更強,無論面對何種情況,都能夠迅速適應(yīng)。同樣地,一個模型的泛化能力越強,也就意味著它對于不同的數(shù)據(jù)集都能夠有很好的適應(yīng)能力。

      舉個例子,假設(shè)你是一個學(xué)習(xí)者,正在學(xué)習(xí)如何區(qū)分不同種類的水果。傳統(tǒng)的深度學(xué)習(xí)模型可能只能學(xué)習(xí)到一些基礎(chǔ)的特征,比如顏色、大小等,但是如果遇到一些特殊的水果,比如火龍果、楊桃等,模型可能就無法正確識別。這就好比你只是學(xué)習(xí)了蘋果、香蕉等常見水果的特征,但對于火龍果、楊桃這類非常規(guī)的水果,你可能無從下手。但是,如果你使用了一種大規(guī)模預(yù)訓(xùn)練模型,就好比你已經(jīng)學(xué)習(xí)了各種不同種類的水果的特征,并且可以將這些特征遷移到新的水果上。這樣,即使你遇到了一些之前沒見過的水果,也可以根據(jù)它們的特征正確地識別它們。

      3、自監(jiān)督學(xué)習(xí),數(shù)據(jù)“爆炸”的引信

      從上面的分析可以發(fā)現(xiàn),足夠多的數(shù)據(jù),是大模型實現(xiàn)泛化的重要基礎(chǔ),只有模型“見多識廣”了,遇到以前沒見過的情況才可以從容應(yīng)對。

      事實上,大模型之所以能取得如此驚艷的表現(xiàn),有一個關(guān)鍵的突破,就是訓(xùn)練數(shù)據(jù)集的擴大。

      數(shù)據(jù)猿對比了機器學(xué)習(xí)模型(以隨機森林模型為例)、傳統(tǒng)深度學(xué)習(xí)模型和大模型的訓(xùn)練數(shù)據(jù)集規(guī)模。發(fā)現(xiàn)大模型的訓(xùn)練數(shù)據(jù)集規(guī)模要比傳統(tǒng)深度學(xué)習(xí)高幾個數(shù)量級,至于更傳統(tǒng)的機器學(xué)習(xí)模型就更沒有可比性了。

      既然訓(xùn)練數(shù)據(jù)集規(guī)模越大模型的表現(xiàn)越好,那為什么以前不把數(shù)據(jù)集規(guī)模做大呢?不是不想,是不能。傳統(tǒng)深度學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù),大多是標(biāo)注數(shù)據(jù),對數(shù)據(jù)進(jìn)行標(biāo)注是一個費時費力的過程,這極大的限制了數(shù)據(jù)規(guī)模。

      要打破數(shù)據(jù)標(biāo)注的桎梏,自監(jiān)督學(xué)習(xí)技術(shù)閃亮登場了。

      自監(jiān)督學(xué)習(xí)是一種無需人工標(biāo)注數(shù)據(jù)的機器學(xué)習(xí)方法,它通過利用數(shù)據(jù)自身的內(nèi)在結(jié)構(gòu),訓(xùn)練模型來學(xué)習(xí)數(shù)據(jù)的特征表示。其核心思想是在未標(biāo)注數(shù)據(jù)上構(gòu)建模型,并從數(shù)據(jù)中自動發(fā)現(xiàn)模式和結(jié)構(gòu)。自監(jiān)督學(xué)習(xí)已經(jīng)在計算機視覺、自然語言處理、語音識別等領(lǐng)域中得到廣泛應(yīng)用。

      自監(jiān)督學(xué)習(xí)的核心技術(shù)包括預(yù)測任務(wù)的設(shè)計、數(shù)據(jù)增強方法和模型架構(gòu)的設(shè)計:預(yù)測任務(wù)的設(shè)計是指在未標(biāo)注的數(shù)據(jù)上構(gòu)建一些任務(wù),讓模型通過這些任務(wù)來學(xué)習(xí)數(shù)據(jù)的特征表示。數(shù)據(jù)增強方法則是通過對未標(biāo)注數(shù)據(jù)進(jìn)行一些變換和擾動,生成新的數(shù)據(jù)來擴充訓(xùn)練集,提高模型的泛化能力。模型架構(gòu)的設(shè)計則是指選擇合適的網(wǎng)絡(luò)結(jié)構(gòu)和優(yōu)化算法,使得模型能夠從未標(biāo)注數(shù)據(jù)中學(xué)習(xí)出有用的特征表示。

      具體來看,實現(xiàn)自監(jiān)督學(xué)習(xí)的具體過程包括以下幾個步驟:

      收集未標(biāo)注數(shù)據(jù)集。未標(biāo)注數(shù)據(jù)集的選擇和收集對于自監(jiān)督學(xué)習(xí)的效果至關(guān)重要,需要根據(jù)具體任務(wù)選擇適合的數(shù)據(jù)集。

      設(shè)計預(yù)測任務(wù)。預(yù)測任務(wù)的設(shè)計需要根據(jù)具體任務(wù)選擇合適的目標(biāo)和方法,如圖像分類、圖像重構(gòu)、圖像補全等。

      數(shù)據(jù)增強。數(shù)據(jù)增強可以提高模型的泛化能力,可以通過圖像旋轉(zhuǎn)、裁剪、變形等方法來擴充數(shù)據(jù)集。

      構(gòu)建模型。模型的選擇和設(shè)計需要根據(jù)具體任務(wù)選擇適合的模型架構(gòu)和優(yōu)化算法。

      模型訓(xùn)練。使用未標(biāo)注數(shù)據(jù)進(jìn)行模型訓(xùn)練,通過優(yōu)化損失函數(shù)來學(xué)習(xí)數(shù)據(jù)的特征表示。

      模型評估。對訓(xùn)練好的模型進(jìn)行評估,包括特征表示的質(zhì)量、模型的泛化能力和任務(wù)性能等指標(biāo)。

      需要指出的是,自監(jiān)督學(xué)習(xí)技術(shù)已經(jīng)有超過20年的發(fā)展歷史。

      冰凍三尺非一日之寒,雖然看起來ChatGPT是突然爆火的,但其核心的大模型技術(shù)卻是經(jīng)過了多年的發(fā)展,一點點突破之后。從深度學(xué)習(xí)到大模型,從標(biāo)注數(shù)據(jù)訓(xùn)練到基于自監(jiān)督學(xué)習(xí)的非標(biāo)注數(shù)據(jù)訓(xùn)練,技術(shù)的發(fā)展就像一場接力賽,然后在最近達(dá)到了一個臨界點。

      4、十年大模型無人問,一朝ChatGPT天下知

      我們不僅要看到表面的熱鬧,也要看到產(chǎn)業(yè)背后的發(fā)展脈絡(luò)和邏輯。只有掌握產(chǎn)業(yè)的底層密碼,才能真正融入時代的浪潮,而不只是當(dāng)一個吃瓜群眾。

      ChatGPT爆火之后,中國有大量的公司想要搭上這趟快車,紛紛高調(diào)宣布自己已經(jīng)或者即將推出對標(biāo)的產(chǎn)品。

      當(dāng)我們關(guān)注ChatGPT時,視角應(yīng)該放在GPT,而不是Chat!

      中國公司能否推出對標(biāo)ChatGPT的產(chǎn)品,核心也在于底層大模型的突破,而不是推出一個跟ChatGPT“長得像”的對話式AI產(chǎn)品。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。