拼多多解開了新疆的“包郵絕緣體”封印宏景智駕完成數(shù)億元C輪融資植物生長好幫手:廣明源金線蓮組培燈照亮生長每一步ROG純白系列DIY好物:簡約不失高雅,買它準沒錯!穩(wěn)扎穩(wěn)打,中影光峰4K 14米 VLED LED電影屏通過DCI認證并投入市場安吉爾空間大師亮相IFA 斬獲年度創(chuàng)新產品成果大獎電動自行車強制性“國標”再修訂,綠源電動車以創(chuàng)新技術引領產業(yè)高質量發(fā)展輕松籌:十年深耕大健康領域,打造全方位健康保障生態(tài)面對承壓的小家電市場,小熊、蘇泊爾上半年為何一降一增?研發(fā)投入高增、占營收比超5%,科沃斯、石頭科技升高技術壁壘激光顯示全面“向新”發(fā)展,未來激光電視主機僅有iPad大小2024年冷年空調市場總結:規(guī)模下探,結構降級,空調行業(yè)邁入新周OpenAI o1全方位SOTA登頂lmsys推薦榜!數(shù)學能力碾壓Claude和谷歌模型,o1-mini并列第一iPhone16系列新品正式發(fā)售 新品爆發(fā)就在抖音電商廣告燒錢過億,70%用戶靠投流,大模型算不過成本賬?PS1經典配色!索尼發(fā)布30周年紀念版PS5、PS5 Pro:限量賣泰順:聚智聚力數(shù)字創(chuàng)客激發(fā)鄉(xiāng)村振興新動能電商12年 ,ALL IN 小紅書,開店3月賣出1100萬Mate 70最受期待!華為三款重磅機型蓄勢待發(fā)云天勵飛“算力積木”架構:引領邊緣AI芯片新變革
  • 首頁 > 云計算頻道 > 大模型

    思維鏈提出者Jason Wei:關于大模型的6個直覺

    2023年12月07日 15:28:51   來源:微信公眾號 機器之心

      本文來自于微信公眾號 機器之心(ID:almosthuman2014),作者:Jason Wei。

      大模型究竟從下一個詞預測任務中學到了什么呢?

      還記得 Jason Wei 嗎?這位思維鏈的提出者還曾共同領導了指令調優(yōu)的早期工作,并和 Yi Tay、Jeff Dean 等人合著了關于大模型涌現(xiàn)能力的論文。目前他正在 OpenAI 參與 ChatGPT 的開發(fā)工作。機器之心曾經報道過他為年輕 AI 研究者提供的一些建議。

      近日,他以客座講師的身份為斯坦福的 CS330深度多任務學習與元學習課程講了一堂課,分享了他對大型語言模型的一些直觀認識。目前斯坦福尚未公布其演講視頻,但他本人已經在自己的博客上總結了其中的主要內容。

      當今的 AI 領域有一個仍待解答的問題:大型語言模型的表現(xiàn)為何如此之好?對此,Jason Wei 談到了六個直覺認識。這些直覺認識中許多都是通過人工檢查數(shù)據(jù)得到的,Jason Wei 表示這是一種非常有幫助的實踐措施,值得推薦。

      語言模型的預訓練目標就只是預測文本語料的下一個詞,而它們卻從中學到了許多東西,著實讓人驚訝。它們從下一個詞預測任務中學到了什么呢?下面有一些例子。

      直覺1:基于大規(guī)模自監(jiān)督數(shù)據(jù)的下一個詞預測是大規(guī)模多任務學習

      盡管下一個詞預測是非常簡單的任務,但當數(shù)據(jù)集規(guī)模很大時,就會迫使模型學會很多任務。比如下面的傳統(tǒng) NLP 任務就可以通過預測語料文本的下一個詞來學習。

      上述任務很明確,但有點理想化。在現(xiàn)實情況中,預測下一個詞還會涉及到很多的「古怪」任務。以下列句子為例:

      當以這樣的方式看待這些數(shù)據(jù)時,很明顯下一個詞預測會促使模型學到很多有關語言的東西,而不只是句法和語義,還包括標點符號預測、事實預測、甚至是推理。這些例子能夠佐證這一觀點:簡單目標加上復雜數(shù)據(jù)可以帶來高度智能的行為(如果你認同語言模型是智能的)。

      直覺2:學習輸入 - 輸出關系的任務可以被視為下一個詞預測任務,這也被稱為上下文學習

      過去幾十年,機器學習領域的重點就是學習 < 輸入,輸出 > 對的關系。由于下一個詞預測非常普適,因此我們可以輕松地把機器學習視為下一個詞預測。我們把這稱為上下文學習(也稱少樣本學習或少樣本提示工程)。這一領域的先驅研究是 GPT-3論文,其中提出在自然語言指令后面加上 < 輸入,輸出 > 對。如下左圖所示。

      而在上圖右側,則可以看到增加上下文中的示例數(shù)量可以提升 GPT-3論文中任務的性能。這意味著,為模型提供 < 輸入,輸出 > 示例是有好處的。

      上下文學習是使用大型語言模型的一種標準形式,而且很方便,因為 < 輸入,輸出 > 對就是過去幾十年人們執(zhí)行機器學習的方式。但是,我們?yōu)槭裁磻斃^續(xù)采用 < 輸入,輸出 > 對呢?我們還沒有第一性原理的原因。當我們與人類交流時,我們也會向他們提供指示和解釋,并以互動方式教導他們。

      直覺3:token 可能有非常不同的信息密度,所以請給模型思考的時間

      不同 token 的信息量也不同,這是一個基本事實。

      一些 token 很容易預測下一個,基本沒多少信息。舉個例子,如果有句子「I’m Jason Wei, a researcher at OpenAI working on large language 」,不難預測下一個詞是「models」。這個 token 的預測是如此得容易,就算是省略它,這句話也不會丟失什么信息。

      另一些 token 則極難預測;它們的信息量很大。比如句子「Jason Wei’s favorite color is 」就基本不可能預測正確。因為這個 token 包含大量新信息。

      某些 token 也可能很難以計算。比如,在句子「Question:What is the square of ((8-2×3+4)^3/8?(A)1,483,492; (B)1,395,394; (C)1,771,561; Answer: (」中,預測下一個 token 就需要不少工作(計算數(shù)學式)。

      可以想象一下,如果你是 ChatGPT,你必須一看到 prompt 就馬上開始打字回復,那就很難答對這個問題。

      對此的解決方案是為語言模型提供更多計算,讓其執(zhí)行推理,然后再給出最終答案。這可以通過一個簡單技巧來實現(xiàn),即思維鏈提示工程,其可以通過提供少樣本「思維鏈」示例來鼓勵模型執(zhí)行推理,如下圖藍色高亮部分。

      這項技術可用于提升在人類也需要些時間來處理的復雜推理任務上的性能。對于比上面的算術問題更復雜的問題,它可以幫助語言模型將 prompt 首先分解成子問題,然后再按順序解決這些子問題(從最少到最多提示工程)。

      這種范式非常強大,因為我們希望 AI 最終能解決人類面臨的最困難的問題(例如貧困、氣候變化等),而推理能力是解決此類問題的基本組成部分。

      上面的下一詞預測任務之所以有效,關鍵原因是規(guī)模,這就意味著要在更多數(shù)據(jù)上訓練更大的神經網絡。很顯然,訓練前沿語言模型需要花費很多資金,而我們之所以還這么做,是因為我們有信心使用更大的神經網絡和更多數(shù)據(jù)就能得到更好的模型(即增大模型和數(shù)據(jù)規(guī)模時性能不會飽和)。

      直覺4:預計增大語言模型規(guī)模(模型大小和數(shù)據(jù))會改善損失

      規(guī)模擴展可以提升模型性能這一現(xiàn)象被稱為 scaling laws,即擴展律;如下左圖所示,隨著計算量增長,測試損失也會平穩(wěn)地下降。

      右圖則是另一個證據(jù):通過跟蹤較小模型的損失曲線,你可以使用少一萬倍的計算量來預測 GPT-4的損失。

      擴展規(guī)模為何有用還有待解答,但這里有兩個尚待證明的原因。一是小語言模型的參數(shù)無法記憶那么多的知識,而大模型可以記憶大量有關世界的事實信息。第二個猜測是小語言模型能力有限,可能只能學習數(shù)據(jù)中的一階相關性。而大型語言模型則可以學習數(shù)據(jù)中的復雜啟發(fā)式知識。

      直覺5:盡管總體損失會平穩(wěn)地擴展,但單個下游任務的擴展情況則可能發(fā)生突變

      我們來看看當損失降低時究竟會發(fā)生什么。我們可以將總體損失看作是在所學習的大量任務上的加權平均。

      現(xiàn)在假設你的損失從4降到了3。那么你的任務都會變好嗎?可能不會。也許損失 =4的模型的語法就已經完美了,因此已經飽和了,但當損失 =3時模型的數(shù)學能力提升了很多。

      研究表明,如果觀察模型在200個下游任務上的性能,你會看到盡管某些任務會平穩(wěn)地提升,但其它一些任務完全不會提升,還有一些任務則會突然提升。下圖給出了8個這類任務的例子,其中模型較小時性能是隨機的,而一旦模型規(guī)模到達一定閾值,性能就會顯著超越隨機。

      對于這種由量變引起的質變現(xiàn)象,人們稱之為「涌現(xiàn)(emergence)」。更具體而言,如果一個能力在更小的模型中沒有,但更大的模型有,我們就說這個能力是涌現(xiàn)的能力。在這樣的任務中,我們往往可以看到小模型的能力是大致隨機的,而超過一定閾值規(guī)模的模型則會顯著超越隨機,如下圖所示。

      涌現(xiàn)現(xiàn)象具有三個重要含義:

      不能簡單地通過外推更小模型的擴展曲線來預測涌現(xiàn)。

      涌現(xiàn)能力不是語言模型的訓練者明確指定的。

      由于規(guī)模擴展會解鎖涌現(xiàn)能力,因此可以預期進一步擴展還能進一步產生更多能力。

      直覺6:確實是有真正的上下文學習,但只有足夠大的語言模型才行

      GPT-3論文已經告訴我們,增加上下文中的示例數(shù)量可以提升性能。盡管我們希望這是因為模型真的從其上下文示例中學習到了 < 輸入,輸出 > 映射關系,但性能的提升還可能會有其它原因,比如示例告訴了模型有關格式或可能標簽的信息。

      事實上,論文《Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?》表明,即使為上下文示例使用隨機標簽,GPT-3的性能也幾乎不會下降。其中認為,性能的提升并非由于學習到了 < 輸入,輸出 > 映射關系,而是由于上下文讓模型了解了格式或可能的標簽。

      但是,相比于當今最強大的模型,GPT-3并非一個「超級」語言模型。如果我們對翻轉標簽(即正表示負,負表示正)采取更極端的設置,那么我們會發(fā)現(xiàn)語言模型會更嚴格地遵守翻轉標簽,而小模型則完全不會受到影響。如下圖所示,大型語言模型(PaLM-540B、code-davinci-002和 text-davinci-002)的能力下降了。

      這表明語言模型確實會考慮 < 輸入,輸出 > 映射,但前提是語言模型要足夠大。

      在博客最后,Jason Wei 表示,他希望這些直覺是有用的,盡管它們看起來非常基礎。此外,他發(fā)現(xiàn),通過手動查看數(shù)據(jù)可以學到很多東西,這是他最近很喜歡做的一件事情,推薦大家也嘗試一下。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。