還能再漲23%!AI寵兒NVIDIA成大摩明年首選AMD FSR 4.0將與RX 9070 XT顯卡同步登場羅永浩細(xì)紅線最新進展,暫別AR,迎來AI Jarvis構(gòu)建堅實數(shù)據(jù)地基,南京打造可信數(shù)據(jù)空間引領(lǐng)數(shù)字城市建設(shè)下單前先比價不花冤枉錢 同款圖書京東價低于抖音6折日媒感慨中國電動汽車/智駕遙遙領(lǐng)先:本田、日產(chǎn)、三菱合并也沒戲消委會吹風(fēng)機品質(zhì)檢測結(jié)果揭曉 徠芬獨占鰲頭 共話新質(zhì)營銷力,2024梅花數(shù)據(jù)峰會圓滿落幕索尼影像專業(yè)服務(wù) PRO Support 升級,成為會員至少需注冊 2 臺 α 全畫幅相機、3 支 G 大師鏡頭消息稱vivo加碼電池軍備競賽:6500mAh 旗艦機+7500mAh中端機寶馬M8雙門轎跑車明年年初將停產(chǎn),后續(xù)無2026款車型比亞迪:2025 款漢家族車型城市領(lǐng)航智駕功能開啟內(nèi)測雷神預(yù)告2025年首次出席CES 將發(fā)布三款不同技術(shù)原理智能眼鏡realme真我全球首發(fā)聯(lián)發(fā)科天璣 8400 耐玩戰(zhàn)神共創(chuàng)計劃iQOO Z9 Turbo長續(xù)航版手機被曝電池加大到6400mAh,搭驍龍 8s Gen 3處理器普及放緩 銷量大跌:曝保時捷將重新評估電動汽車計劃來京東參與榮耀Magic7 RSR 保時捷設(shè)計預(yù)售 享365天只換不修國補期間電視迎來換機潮,最暢銷MiniLED品牌花落誰家?美團旗下微信社群團購業(yè)務(wù)“團買買”宣布年底停運消息稱微軟正與第三方廠商洽談,試圖合作推出Xbox游戲掌機設(shè)備
  • 首頁 > 云計算頻道 > 大模型

    更強的Llama 2開源,可直接商用:一夜之間,大模型格局變了

    2023年07月19日 17:08:47   來源:機器之心

      機器之心報道

      機器之心編輯部

      已上微軟 Azure,即將要上 AWS、Hugging Face。

      一夜之間,大模型格局再次發(fā)生巨變。

      一直以來 Llama 可以說是 AI 社區(qū)內(nèi)最強大的開源大模型。但因為開源協(xié)議問題,一直不可免費商用。

      今日,Meta 終于發(fā)布了大家期待已久的免費可商用版本 Llama 2。

      此次 Meta 發(fā)布的 Llama 2 模型系列包含 70 億、130 億和 700 億三種參數(shù)變體。此外還訓(xùn)練了 340 億參數(shù)變體,但并沒有發(fā)布,只在技術(shù)報告中提到了。

      據(jù)介紹,相比于 Llama 1,Llama 2 的訓(xùn)練數(shù)據(jù)多了 40%,上下文長度也翻倍,并采用了分組查詢注意力機制。具體來說,Llama 2 預(yù)訓(xùn)練模型是在 2 萬億的 token 上訓(xùn)練的,精調(diào) Chat 模型是在 100 萬人類標(biāo)記數(shù)據(jù)上訓(xùn)練的。

      公布的測評結(jié)果顯示,Llama 2 在包括推理、編碼、精通性和知識測試等許多外部基準(zhǔn)測試中都優(yōu)于其他開源語言模型。

      接下來,我們就從 Meta 公布的技術(shù)報告中,詳細(xì)了解下 Llama 2。

      論文地址:https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

      項目地址:https://github.com/facebookresearch/llama

      總的來說,作為一組經(jīng)過預(yù)訓(xùn)練和微調(diào)的大語言模型(LLM),Llama 2 模型系列的參數(shù)規(guī)模從 70 億到 700 億不等。其中的 Llama 2-Chat 針對對話用例進行了專門優(yōu)化。

      Llama 2-Chat 的訓(xùn)練 pipeline。

      Llama 2 模型系列除了在大多數(shù)基準(zhǔn)測試中優(yōu)于開源模型之外,根據(jù) Meta 對有用性和安全性的人工評估,它或許也是閉源模型的合適替代品。

      Llama 2-Chat 與其他開源和閉源模型在安全性人類評估上的結(jié)果。

      Meta 詳細(xì)介紹了 Llama 2-Chat 的微調(diào)和安全改進方法,使社區(qū)可以在其工作基礎(chǔ)上繼續(xù)發(fā)展,為大語言模型的負(fù)責(zé)任發(fā)展做出貢獻(xiàn)。

      預(yù)訓(xùn)練

      為了創(chuàng)建全新的 Llama 2 模型系列,Meta 以 Llama 1 論文中描述的預(yù)訓(xùn)練方法為基礎(chǔ),使用了優(yōu)化的自回歸 transformer,并做了一些改變以提升性能。

      具體而言,Meta 執(zhí)行了更穩(wěn)健的數(shù)據(jù)清理,更新了混合數(shù)據(jù),訓(xùn)練 token 總數(shù)增加了 40%,上下文長度翻倍。下表 1 比較了 Llama 2 與 Llama 1 的詳細(xì)數(shù)據(jù)。

      Llama 2 的訓(xùn)練語料庫包含了來自公開可用資源的混合數(shù)據(jù),并且不包括 Meta 產(chǎn)品或服務(wù)相關(guān)的數(shù)據(jù)。Llama 2 采用了 Llama 1 中的大部分預(yù)訓(xùn)練設(shè)置和模型架構(gòu),包括標(biāo)準(zhǔn) Transformer 架構(gòu)、使用 RMSNorm 的預(yù)歸一化、SwiGLU 激活函數(shù)和旋轉(zhuǎn)位置嵌入。

      在超參數(shù)方面,Meta 使用 AdamW 優(yōu)化器進行訓(xùn)練,其中 β_1 = 0.9,β_2 = 0.95,eps = 10^−5。同時使用余弦學(xué)習(xí)率計劃(預(yù)熱 2000 步),并將最終學(xué)習(xí)率衰減到了峰值學(xué)習(xí)率的 10%。

      下圖 5 為這些超參數(shù)設(shè)置下 Llama 2 的訓(xùn)練損失曲線。

      在訓(xùn)練硬件方面,Meta 在其研究超級集群(Research Super Cluster, RSC)以及內(nèi)部生產(chǎn)集群上對模型進行了預(yù)訓(xùn)練。兩個集群均使用了 NVIDIA A100。

      在預(yù)訓(xùn)練的碳足跡方面,Meta 根據(jù)以往的研究方法,利用 GPU 設(shè)備的功耗估算和碳效率,計算了 Llama 2 模型預(yù)訓(xùn)練所產(chǎn)生的碳排放量。

      預(yù)訓(xùn)練期間 Llama 2 各個模型的碳排放量。

      Llama 2 預(yù)訓(xùn)練模型評估

      Meta 報告了 Llama 1、Llama 2 基礎(chǔ)模型、MPT(MosaicML)和 Falcon 等開源模型在標(biāo)準(zhǔn)學(xué)術(shù)基準(zhǔn)上的結(jié)果。

      下表 3 總結(jié)了這些模型在一系列流行基準(zhǔn)上的整體性能,結(jié)果表明,Llama 2 優(yōu)于 Llama 1 。

      除了開源模型之外,Meta 還將 Llama 2 70B 的結(jié)果與閉源模型進行了比較,結(jié)果如下表 4 所示。Llama 2 70B 在 MMLU 和 GSM8K 上接近 GPT-3.5,但在編碼基準(zhǔn)上存在顯著差距。

      此外,在幾乎所有基準(zhǔn)上,Llama 2 70B 的結(jié)果均與谷歌 PaLM (540B) 持平或表現(xiàn)更好,不過與 GPT-4 和 PaLM-2-L 的性能仍存在較大差距。

      微調(diào)

      Llama 2-Chat 是數(shù)個月研究和迭代應(yīng)用對齊技術(shù)(包括指令調(diào)整和 RLHF)的成果,需要大量的計算和注釋資源。

      監(jiān)督微調(diào) (SFT)

      第三方監(jiān)督微調(diào)數(shù)據(jù)可從許多不同來源獲得,但 Meta 發(fā)現(xiàn)其中許多數(shù)據(jù)的多樣性和質(zhì)量都不夠高,尤其是在使 LLM 與對話式指令保持一致方面。因此,他們首先重點收集了幾千個高質(zhì)量 SFT 數(shù)據(jù)示例,如下表 5 所示。

      在微調(diào)過程中,每個樣本都包括一個提示和一個回答。為確保模型序列長度得到正確填充,Meta 將訓(xùn)練集中的所有提示和答案連接起來。他們使用一個特殊的 token 來分隔提示和答案片段,利用自回歸目標(biāo),將來自用戶提示的 token 損失歸零,因此只對答案 token 進行反向傳播。最后對模型進行了 2 次微調(diào)。

      RLHF

      RLHF 是一種模型訓(xùn)練程序,適用于經(jīng)過微調(diào)的語言模型,以進一步使模型行為與人類偏好和指令遵循相一致。Meta 收集了代表了人類偏好經(jīng)驗采樣的數(shù)據(jù),人類注釋者可據(jù)此選擇他們更喜歡的兩種模型輸出。這種人類反饋隨后被用于訓(xùn)練獎勵模型,該模型可學(xué)習(xí)人類注釋者的偏好模式,然后自動做出偏好決定。

      下表 6 報告了 Meta 長期以來收集到的獎勵建模數(shù)據(jù)的統(tǒng)計結(jié)果,并將其與多個開源偏好數(shù)據(jù)集進行了對比。他們收集了超過 100 萬個基于人類應(yīng)用指定準(zhǔn)則的二元比較的大型數(shù)據(jù)集,也就是元獎賞建模數(shù)據(jù)。

      請注意,提示和答案中的標(biāo)記數(shù)因文本領(lǐng)域而異。摘要和在線論壇數(shù)據(jù)的提示通常較長,而對話式的提示通常較短。與現(xiàn)有的開源數(shù)據(jù)集相比,本文的偏好數(shù)據(jù)具有更多的對話回合,平均長度也更長。

      獎勵模型將模型響應(yīng)及其相應(yīng)的提示(包括前一輪的上下文)作為輸入,并輸出一個標(biāo)量分?jǐn)?shù)來表示模型生成的質(zhì)量(例如有用性和安全性)。利用這種作為獎勵的響應(yīng)得分,Meta 在 RLHF 期間優(yōu)化了 Llama 2-Chat,以更好地與人類偏好保持一致,并提高有用性和安全性。

      在每一批用于獎勵建模的人類偏好注釋中,Meta 都拿出 1000 個樣本作為測試集來評估模型,并將相應(yīng)測試集的所有提示的集合分別稱為「元有用性」和「元安全性」。

      下表 7 中報告了準(zhǔn)確率結(jié)果。不出所料,Meta 自己的獎勵模型在基于 Llama 2-Chat 收集的內(nèi)部測試集上表現(xiàn)最佳,其中「有用性」獎勵模型在「元有用性」測試集上表現(xiàn)最佳,同樣,「安全性」獎勵模型在「元安全性」測試集上表現(xiàn)最佳。

      總體而言,Meta 的獎勵模型優(yōu)于包括 GPT-4 在內(nèi)的所有基線模型。有趣的是,盡管 GPT-4 沒有經(jīng)過直接訓(xùn)練,也沒有專門針對這一獎勵建模任務(wù),但它的表現(xiàn)卻優(yōu)于其他非元獎勵模型。

      縮放趨勢。Meta 研究了獎勵模型在數(shù)據(jù)和模型大小方面的縮放趨勢,在每周收集的獎勵模型數(shù)據(jù)量不斷增加的情況下,對不同的模型大小進行了微調(diào)。下圖 6 報告了這些趨勢,顯示了預(yù)期的結(jié)果,即在類似的數(shù)據(jù)量下,更大的模型能獲得更高的性能。

      隨著收到更多批次的人類偏好數(shù)據(jù)注釋,能夠訓(xùn)練出更好的獎勵模型并收集更多的提示。因此,Meta 訓(xùn)練了連續(xù)版本的 RLHF 模型,在此稱為 RLHF-V1、...... , RLHF-V5。

      此處使用兩種主要算法對 RLHF 進行了微調(diào):

      近端策略優(yōu)化 (PPO);

      Rejection 采樣微調(diào)。

      RLHF 結(jié)果

      首先是基于模型的評估結(jié)果。下圖 11 報告了不同 SFT 和 RLHF 版本在安全性和有用性方面的進展,其中通過 Meta 內(nèi)部的安全性和有用性獎勵模型進行評估。

      再來看人類評估結(jié)果。如下圖 12 所示,Llama 2-Chat 模型在單輪和多輪提示方面均顯著優(yōu)于開源模型。特別地,Llama 2-Chat 7B 在 60% 的提示上優(yōu)于 MPT-7B-chat,Llama 2-Chat 34B 相對于同等大小的 Vicuna-33B 和 Falcon 40B,表現(xiàn)出了 75% 以上的整體勝率。

      在這里,Meta 也指出了人工評估的一些局限性。

      雖然結(jié)果表明 Llama 2-Chat 在人工評估方面與 ChatGPT 不相上下,但必須指出的是,人工評估存在一些局限性。

      按照學(xué)術(shù)和研究標(biāo)準(zhǔn),本文擁有一個 4k 提示的大型提示集。但是,這并不包括這些模型在現(xiàn)實世界中的使用情況,而現(xiàn)實世界中的使用情況可能要多得多。

      提示語的多樣性可能是影響結(jié)果的另一個因素,例如本文提示集不包括任何編碼或推理相關(guān)的提示。

      本文只評估了多輪對話的最終生成。更有趣的評估方法可能是要求模型完成一項任務(wù),并對模型在多輪對話中的整體體驗進行評分。

      人類對生成模型的評估本身就具有主觀性和噪聲性。因此,使用不同的提示集或不同的指令進行評估可能會產(chǎn)生不同的結(jié)果。

      安全性

      該研究使用三個常用基準(zhǔn)評估了 Llama 2 的安全性,針對三個關(guān)鍵維度:

      真實性,指語言模型是否會產(chǎn)生錯誤信息,采用 TruthfulQA 基準(zhǔn);

      毒性,指語言模型是否會產(chǎn)生「有毒」、粗魯、有害的內(nèi)容,采用 ToxiGen 基準(zhǔn);

      偏見,指語言模型是否會產(chǎn)生存在偏見的內(nèi)容,采用 BOLD 基準(zhǔn)。

      預(yù)訓(xùn)練的安全性

      首先,預(yù)訓(xùn)練數(shù)據(jù)對模型來說非常重要。Meta 進行實驗評估了預(yù)訓(xùn)練數(shù)據(jù)的安全性。

      該研究使用在 ToxiGen 數(shù)據(jù)集上微調(diào)的 HateBERT 分類器來測量預(yù)訓(xùn)練語料庫英文數(shù)據(jù)的「毒性」,具體結(jié)果如下圖 13 所示:

      為了分析偏見方面的問題,該研究統(tǒng)計分析了預(yù)訓(xùn)練語料庫中的代詞和身份相關(guān)術(shù)語及其占比,如下表 9 所示:

      此外,在語言分布方面,Llama 2 語料庫涵蓋的語種及其占比如下表 10 所示:

      安全微調(diào)

      具體來說,Meta 在安全微調(diào)中使用了以下技術(shù):1、監(jiān)督安全微調(diào);2、安全 RLHF;3、安全上下文蒸餾。

      Meta 在 Llama 2-Chat 的開發(fā)初期就觀察到,它能夠在有監(jiān)督的微調(diào)過程中從安全演示中有所總結(jié)。模型很快就學(xué)會了撰寫詳細(xì)的安全回復(fù)、解決安全問題、解釋話題可能敏感的原因并提供更多有用信息。特別是,當(dāng)模型輸出安全回復(fù)時,它們往往比普通注釋者寫得更詳細(xì)。因此,在只收集了幾千個有監(jiān)督的示范后,Meta 就完全改用 RLHF 來教模型如何寫出更細(xì)致入微的回復(fù)。使用 RLHF 進行全面調(diào)整的另一個好處是,它可以使模型對越獄嘗試更加魯棒。

      Meta 首先通過收集人類對安全性的偏好數(shù)據(jù)來進行 RLHF,其中注釋者編寫他們認(rèn)為會引發(fā)不安全行為的 prompt,然后將多個模型響應(yīng)與 prompt 進行比較,并根據(jù)一系列指南選擇最安全的響應(yīng)。接著使用人類偏好數(shù)據(jù)來訓(xùn)練安全獎勵模型,并在 RLHF 階段重用對抗性 prompt 以從模型中進行采樣。

      如下圖 15 所示,Meta 使用平均獎勵模型得分作為模型在安全性和有用性方面的表現(xiàn)結(jié)果。Meta 觀察到,當(dāng)他們增加安全數(shù)據(jù)的比例時,模型處理風(fēng)險和對抗性 prompt 的性能顯著提高。

      最后,Meta 通過上下文蒸餾完善了 RLHF 流程。這涉及到通過在 prompt 前加上安全前置 prompt 來生成更安全的模型響應(yīng),例如「你是一個安全且負(fù)責(zé)任的助手」,然后在沒有前置 prompt 的情況下根據(jù)更安全的響應(yīng)微調(diào)模型,這本質(zhì)上是提取了安全前置 prompt(上下文)進入模型。

      Meta 使用了有針對性的方法,允許安全獎勵模型選擇是否對每個樣本使用上下文蒸餾。

      下圖 17 展示了各種 LLM 的總體違規(guī)百分比和安全評級。

      下圖 18 展示了單輪和多輪對話的違規(guī)百分比?缒P偷囊粋趨勢是,多輪對話更容易引發(fā)不安全的響應(yīng)。也就是說,與基線相比,Llama 2-Chat 仍然表現(xiàn)良好,尤其是在多輪對話中。

      下圖 19 顯示了不同 LLM 在不同類別中安全違規(guī)百分比。

      參考鏈接:https://ai.meta.com/llama/

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。