CrowdStrike“全球滅霸響指”事件后續(xù),德國 10% 企業(yè)更換安全供應商導致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實況照片了蘋果有線耳機或將停產(chǎn)沖上熱搜!閑魚相關搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術邂逅千年色彩美學!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴展到企業(yè)和教育領域三星新專利探索AR技術新應用:檢測屏幕指紋殘留,提高手機安全性猛瑪傳奇C1:直播圖傳技術的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗全面升級機器人公司1X推出世界模型
  • 首頁 > 云計算頻道 > 大模型

    谷歌:大模型不僅有涌現(xiàn)能力,訓練時間長了還有「領悟」能力

    2023年08月15日 14:26:06   來源:微信公眾號 機器之心

      本文來自于微信公眾號 機器之心(ID:almosthuman2014),作者:陳萍、小舟、梓文。

      模型在達到一定規(guī)模時會出現(xiàn)涌現(xiàn)現(xiàn)象,谷歌的研究表明,模型在訓練到一定時間后,會出現(xiàn)另一種現(xiàn)象,即「領悟」現(xiàn)象。

      2021年,研究人員在訓練一系列微型模型時取得了一個驚人的發(fā)現(xiàn),即模型經(jīng)過長時間的訓練后,會有一個變化,從開始只會「記憶訓練數(shù)據(jù)」,轉變?yōu)閷]見過的數(shù)據(jù)也表現(xiàn)出很強的泛化能力。

      這種現(xiàn)象被稱為「領悟(grokking)」,如下圖所示,模型在長時間擬合訓練數(shù)據(jù)后,「領悟」現(xiàn)象會突然出現(xiàn)。

      既然微型模型有這種特性,那么更復雜一點的模型在經(jīng)過更長時間的訓練后,是否也會突然出現(xiàn)「領悟」現(xiàn)象?最近大型語言模型(LLM)發(fā)展迅猛,它們看起來對世界有著豐富的理解力,很多人認為 LLM 只是在重復所記憶的訓練內容,這一說法正確性如何,我們該如何判斷 LLM 是輸出記憶內容,還是對輸入數(shù)據(jù)進行了很好的泛化?

      為了更好的了解這一問題,本文來自谷歌的研究者撰寫了一篇博客,試圖弄清楚大模型突然出現(xiàn)「領悟」現(xiàn)象的真正原因。

      本文先從微型模型的訓練動態(tài)開始,他們設計了一個具有24個神經(jīng)元的單層 MLP,訓練它們學會做模加法(modular addition)任務,我們只需知道這個任務的輸出是周期性的,其形式為 (a + b) mod n。

      MLP 模型權重如下圖所示,研究發(fā)現(xiàn)模型的權重最初非常嘈雜,但隨著時間的增加,開始表現(xiàn)出周期性。

      如果將單個神經(jīng)元的權重可視化,這種周期性變化更加明顯:

      別小看周期性,權重的周期性表明該模型正在學習某種數(shù)學結構,這也是模型從記憶數(shù)據(jù)轉變?yōu)榫哂蟹夯芰Φ年P鍵。很多人對這一轉變感到迷惑,為什么模型會從記憶數(shù)據(jù)模式轉變?yōu)榉夯瘮?shù)據(jù)模式。

      用01序列進行實驗

      為了判斷模型是在泛化還是記憶,該研究訓練模型預測30個1和0隨機序列的前三位數(shù)字中是否有奇數(shù)個1。例如000110010110001010111001001011為0,而010110010110001010111001001011為1。這基本就是一個稍微棘手的 XOR 運算問題,帶有一些干擾噪聲。如果模型在泛化,那么應該只使用序列的前三位數(shù)字;而如果模型正在記憶訓練數(shù)據(jù),那么它還會使用后續(xù)數(shù)字。

      該研究使用的模型是一個單層 MLP,在1200個序列的固定批上進行訓練。起初,只有訓練準確率有所提高,即模型會記住訓練數(shù)據(jù)。與模運算一樣,測試準確率本質上是隨機的,隨著模型學會通用解決方案而急劇上升。

      通過01序列問題這個簡單的示例,我們可以更容易地理解為什么會發(fā)生這種情況。原因就是模型在訓練期間會做兩件事:最小化損失 和權重衰減。在模型泛化之前,訓練損失實際上會略有增加,因為它交換了與輸出正確標簽相關的損失,以獲得較低的權重。

      測試損失的急劇下降使得模型看起來像是突然泛化,但如果查看模型在訓練過程中的權重,大多數(shù)模型都會在兩個解之間平滑地插值。當與后續(xù)分散注意力的數(shù)字相連的最后一個權重通過權重衰減被修剪時,快速泛化就會發(fā)生。

      「領悟」現(xiàn)象是什么時候發(fā)生的?

      值得注意的是,「領悟(grokking)」是一種偶然現(xiàn)象 —— 如果模型大小、權重衰減、數(shù)據(jù)大小和其他超參數(shù)不合適,「領悟」現(xiàn)象就會消失。如果權重衰減太少,模型就會對訓練數(shù)據(jù)過渡擬合。如果權重衰減過多,模型將無法學到任何東西。

      下面,該研究使用不同的超參數(shù)針對1和0任務訓練了1000多個模型。訓練過程充滿噪音,因此針對每組超參數(shù)訓練了九個模型。表明只有兩類模型出現(xiàn)「領悟」現(xiàn)象,藍色和黃色。

      具有五個神經(jīng)元的模塊化加法

      模加法 a+b mod67是周期性的,如果總和超過67,則答案會產(chǎn)生環(huán)繞現(xiàn)象,可以用一個圓來表示。為了簡化問題,該研究構建了一個嵌入矩陣,使用 cos⁡ 和 sin⁡ 將 a 和 b 放置在圓上,表示為如下形式。

      結果表明,模型僅用5個神經(jīng)元就可以完美準確地找到解決方案:

      觀察經(jīng)過訓練的參數(shù),研究團隊發(fā)現(xiàn)所有神經(jīng)元都收斂到大致相等的范數(shù)。如果直接繪制它們的 cos⁡ 和 sin⁡ 分量,它們基本上均勻分布在一個圓上。

      接下來是

      ,它是從頭開始訓練的,沒有內置周期性,這個模型有很多不同的頻率。

      該研究使用離散傅立葉變換 (DFT) 分離出頻率。就像在1和0任務中一樣,只有幾個權重起到關鍵作用:

      下圖表明,在不同的頻率,模型也能實現(xiàn)「領悟」:

      開放問題

      現(xiàn)在,雖然我們對單層 MLP 解決模加法的機制及其在訓練過程中出現(xiàn)的原因有了扎實的了解,但在記憶和泛化方面仍有許多有趣的開放性問題。

      哪種模型的約束效果更好呢?

      從廣義上講,權重衰減的確可以引導各種模型避免記憶訓練數(shù)據(jù)。其他有助于避免過擬合的技術包括 dropout、縮小模型,甚至數(shù)值不穩(wěn)定的優(yōu)化算法。這些方法以復雜的非線性方式相互作用,因此很難先驗地預測哪種方法最終會誘導泛化。

      此外,不同的超參數(shù)也會使改進不那么突然。

      為什么記憶比泛化更容易?

      有一種理論認為:記憶訓練集的方法可能比泛化解法多得多。因此,從統(tǒng)計學上講,記憶應該更有可能首先發(fā)生,尤其是在沒有正則化或正則化很少的情況中。正則化技術(如權重衰減)會優(yōu)先考慮某些解決方案,例如,優(yōu)先考慮 「稀疏 」解決方案,而不是 「密集 」解決方案。

      研究表明,泛化與結構良好的表征有關。然而,這不是必要條件;在求解模加法時,一些沒有對稱輸入的 MLP 變體學習到的 「循環(huán) 」表征較少。研究團隊還發(fā)現(xiàn),結構良好的表征并不是泛化的充分條件。這個小模型(訓練時沒有權重衰減)開始泛化,然后轉為使用周期性嵌入的記憶。

      在下圖中可以看到,如果沒有權重衰減,記憶模型可以學習更大的權重來減少損失。

      甚至可以找到模型開始泛化的超參數(shù),然后切換到記憶,然后切換回泛化。

      較大的模型呢?

      理解模加法的解決方案并非易事。我們有希望理解更大的模型嗎?在這條路上可能需要:

      1) 訓練更簡單的模型,具有更多的歸納偏差和更少的運動部件。

      2) 使用它們來解釋更大模型如何工作的費解部分。

      3) 按需重復。

      研究團隊相信,這可能是一種更好地有效理解大型模型的的方法,此外,隨著時間的推移,這種機制化的可解釋性方法可能有助于識別模式,從而使神經(jīng)網(wǎng)絡所學算法的揭示變得容易甚至自動化。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產(chǎn)品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。