Llama 3.1震撼發(fā)布，真正的全民GPT-4時(shí)代來(lái)了

2024年07月24日 13:35:20 來(lái)源：智東西

　　昨夜，Meta宣布推出迄今為止最強(qiáng)大的開(kāi)源模型——Llama 3.1 405B，同時(shí)發(fā)布了全新升級(jí)的Llama 3.1 70B和8B模型。

　　Llama 3.1 405B支持上下文長(zhǎng)度為128K Tokens，在基于15萬(wàn)億個(gè)Tokens、超1.6萬(wàn)個(gè)H100 GPU上進(jìn)行訓(xùn)練，這也是Meta有史以來(lái)第一個(gè)以這種規(guī)模進(jìn)行訓(xùn)練的Llama模型。

　　研究人員基于超150個(gè)基準(zhǔn)測(cè)試集的評(píng)測(cè)結(jié)果顯示，Llama 3.1 405B可與GPT-4o、Claude 3.5 Sonnet和Gemini Ultra等業(yè)界頭部模型媲美。

　　除了性能強(qiáng)勁外，Meta創(chuàng)始人兼CEO馬克·扎克伯格還親自發(fā)文助陣，他稱，除了比閉源模型成本和性能更優(yōu)，405B開(kāi)源模型將成為企業(yè)微調(diào)和訓(xùn)練較小模型的最佳選擇。

　　Meta AI宣布接入Llama 3.1 405B，并推出AI圖片編輯、AI編程、VR/AR設(shè)備智能助手等新功能。扎克伯格預(yù)測(cè)，Meta AI助手使用率幾個(gè)月后將超越ChatGPT。

　　Meta的開(kāi)源生態(tài)圈也已準(zhǔn)備就緒。Meta與超過(guò)25個(gè)合作伙伴將提供Llama 3.1模型，包括亞馬遜AWS、NVIDIA、Databricks、Groq、戴爾、微軟Azure和谷歌云等。

　　迄今為止，所有Llama模型版本的總下載量已經(jīng)超過(guò)3億次，與主流閉源模型能力相當(dāng)?shù)腖lama 3.1模型發(fā)布或許意味著，Meta要講的開(kāi)源模型故事剛剛開(kāi)始……

　　一、405B開(kāi)源模型對(duì)標(biāo)GPT-4o，25家合作伙伴已就緒

　　Meta評(píng)估了超150個(gè)基準(zhǔn)數(shù)據(jù)集的性能，Llama 3.1 405B在常識(shí)、可操作性、數(shù)學(xué)、工具使用和多語(yǔ)言翻譯等一系列任務(wù)中，可與GPT-4o、Claude 3.5 Sonnet和Gemini Ultra相媲美。

　　在現(xiàn)實(shí)場(chǎng)景中，Llama 3.1 405B進(jìn)行了與人工評(píng)估的比較，其總體表現(xiàn)優(yōu)于GPT-4o和Claude 3.5 Sonnet。

　　升級(jí)后的Llama 3.1 8B和70B模型，相比于同樣參數(shù)大小的模型性能表現(xiàn)也更好，這些較小參數(shù)的模型支持相同的128K Tokens上下文窗口、多語(yǔ)言、改進(jìn)的推理和最先進(jìn)的工具使用，以支持實(shí)現(xiàn)更高級(jí)應(yīng)用。

　　Meta更新了許可證，允許開(kāi)發(fā)人員首次使用包括405B參數(shù)規(guī)模的Llama模型的輸出來(lái)改進(jìn)其他模型。

　　同時(shí)，Meta的開(kāi)源生態(tài)進(jìn)一步擴(kuò)張，已經(jīng)有超過(guò)25個(gè)企業(yè)推出了Llama 3.1新模型。

　　其中，亞馬遜云科技、Databricks和英偉達(dá)正在推出全套服務(wù)，以支持開(kāi)發(fā)人員微調(diào)和訓(xùn)練自己的模型。AI芯片創(chuàng)企Groq等為Meta此次發(fā)布的所有新模型構(gòu)建了低延遲、低成本的推理服務(wù)。

　　同時(shí)這些模型將在亞馬遜云科技、微軟Azure、谷歌云、Oracle等主要云平臺(tái)上提供服務(wù)。

　　Scale AI、戴爾、德勤等公司已準(zhǔn)備好幫助企業(yè)采用Llama模型并使用自己的數(shù)據(jù)訓(xùn)練定制模型。

　　Llama 3.1 405B不僅是最強(qiáng)開(kāi)源模型，還有望成為最強(qiáng)模型，開(kāi)源和閉源的距離再次大大縮短。

　　二、完整優(yōu)化訓(xùn)練堆棧，專注于讓模型可擴(kuò)展

　　為了能基于15萬(wàn)億個(gè)Tokens進(jìn)行模型訓(xùn)練，同時(shí)在合理時(shí)間內(nèi)實(shí)現(xiàn)研究人員想要的效果，Meta對(duì)訓(xùn)練堆棧進(jìn)行了完整優(yōu)化。

　　在解決上述難題方面，Meta選擇專注于保持模型開(kāi)發(fā)過(guò)程可擴(kuò)展并更直接的策略：

　　1、研究人員選擇了標(biāo)準(zhǔn)僅解碼器的Transformer模型架構(gòu)進(jìn)行小幅調(diào)整，而不是采用MoE混合專家模型，可以最大限度提高訓(xùn)練穩(wěn)定性。

　　2、研究人員采用了迭代的后訓(xùn)練程序，每輪都使用監(jiān)督微調(diào)和直接偏好優(yōu)化。這使模型能夠?yàn)槊恳惠唲?chuàng)建最高質(zhì)量的合成數(shù)據(jù)，并提高每項(xiàng)能力的性能。

　　與此前Llama系列模型相比，Meta改進(jìn)了用于訓(xùn)練前和訓(xùn)練后的數(shù)據(jù)的數(shù)量和質(zhì)量。這些改進(jìn)包括為訓(xùn)練前數(shù)據(jù)開(kāi)發(fā)更仔細(xì)的預(yù)處理和管理pipelines、開(kāi)發(fā)更嚴(yán)格的質(zhì)量保證，以及訓(xùn)練后數(shù)據(jù)的過(guò)濾方法。

　　正如大語(yǔ)言模型的Scaling Laws(規(guī)模定律)所預(yù)期的那樣，Meta新旗艦?zāi)Ｐ蛢?yōu)于使用相同策略訓(xùn)練的較小模型。Meta還使用405B參數(shù)的模型提高了其較小模型的訓(xùn)練質(zhì)量。

　　同時(shí)，為了支持405B參數(shù)模型的大規(guī)模推理，研究人員將模型從BF16到FP8進(jìn)行了量化，有效降低了所需的計(jì)算要求，并允許模型在單個(gè)服務(wù)器節(jié)點(diǎn)內(nèi)運(yùn)行。

　　在指令和聊天微調(diào)方面，研究人員通過(guò)在預(yù)訓(xùn)練模型之上進(jìn)行幾輪對(duì)齊以生成最終模型，每一輪都涉及監(jiān)督微調(diào)(SFT)、拒絕采樣(RS)和直接偏好優(yōu)化(DPO)，其使用合成數(shù)據(jù)生成來(lái)生成絕大多數(shù)SFT示例以生成所有功能中更高質(zhì)量的合成數(shù)據(jù)。

　　此外，Meta采取了多種數(shù)據(jù)處理技術(shù)以將這些合成數(shù)據(jù)過(guò)濾到最高質(zhì)量，這使新模型能夠跨功能擴(kuò)展微調(diào)數(shù)據(jù)量。

　　在數(shù)據(jù)方面，研究人員還對(duì)數(shù)據(jù)進(jìn)行了仔細(xì)平衡以生成具有所有功能的高質(zhì)量模型。例如，在短上下文基準(zhǔn)上保證模型質(zhì)量，使其能擴(kuò)展到128K上下文長(zhǎng)度。

　　此外，Meta還宣布推出一個(gè)整體的Llama系統(tǒng)。該系統(tǒng)除了涵蓋Llama模型，還涉及多個(gè)組件協(xié)調(diào)及外部工具調(diào)用，以此助開(kāi)發(fā)者開(kāi)發(fā)比基礎(chǔ)模型更強(qiáng)的定制產(chǎn)品。

　　Llama系統(tǒng)將涵蓋一系列新組件，包括開(kāi)源新的安全工具如Llama Guard 3(多語(yǔ)言安全模型)和Prompt Guard(即時(shí)注入過(guò)濾器)。為了讓分散的組件聯(lián)接起來(lái)，Meta還發(fā)布了對(duì)Llama Stack API的評(píng)論請(qǐng)求，這是一個(gè)標(biāo)準(zhǔn)接口，以此第三方項(xiàng)目更輕松地利用Llama模型。

　　對(duì)于普通開(kāi)發(fā)者來(lái)說(shuō)，使用405B規(guī)模的模型仍是一項(xiàng)挑戰(zhàn)，這需要大量的計(jì)算資源和專業(yè)知識(shí)。

　　基于Llama系統(tǒng)，生成式AI開(kāi)發(fā)不僅僅是提示模型，每個(gè)人都應(yīng)該可以利用405B模型完成更多的任務(wù)，包括實(shí)時(shí)和批量推理、監(jiān)督微調(diào)、針對(duì)特定應(yīng)用評(píng)估模型、持續(xù)預(yù)訓(xùn)練、檢索增強(qiáng)生成(RAG)、函數(shù)調(diào)用、合成數(shù)據(jù)生成等。

　　這是Meta迄今為止推出的最大模型，未來(lái)將推出更多設(shè)備友好的尺寸、更多模式以及在Agent層面的更新。

　　三、405B大模型爆改Meta AI，Quest智能語(yǔ)音助手升級(jí)

　　現(xiàn)在，Meta旗下的多個(gè)終端，比如WhatsApp和Meta AI聊天機(jī)器人中都開(kāi)始使用Llama 3.1 405B。

　　Meta AI目前已支持七種新語(yǔ)言，本次Meta推出一批新的Meta AI創(chuàng)意工具，主要聚焦視覺(jué)生成、數(shù)學(xué)和編碼等領(lǐng)域。

　　首先看看視覺(jué)生成，Meta AI推出“想象我（Imagine Me）”圖像生成提示功能，支持用戶在Meta AI聊天中輸入“想象我”并添加提示，例如“想象我是皇室成員”或“想象我在一幅超現(xiàn)實(shí)主義繪畫(huà)中”，就可以生成圖像并與朋友和家人分享。

　　Meta AI將上線“使用AI編輯（Edit With AI）”功能，用戶可以通過(guò)點(diǎn)擊鼠標(biāo)輕松添加或刪除對(duì)象，或更改和編輯它們，并保持圖像的其余部分不變，比如將“將貓改為柯基犬”。Meta AI還將支持將新制作的圖片添加到Facebook帖子中，以及Instagram、Messenger和WhatsApp等社交平臺(tái)上。

　　在數(shù)學(xué)和編程方面，用戶可以通過(guò)分步解釋和反饋獲得數(shù)學(xué)作業(yè)方面的幫助，通過(guò)調(diào)試支持和優(yōu)化建議更快地編寫(xiě)代碼，并通過(guò)專家指導(dǎo)掌握復(fù)雜的技術(shù)和科學(xué)概念。

　　用戶可以結(jié)合Meta AI的編碼專業(yè)知識(shí)和圖像生成功能，從頭開(kāi)始構(gòu)建新游戲或?qū)?jīng)典游戲進(jìn)行全新演繹。只需幾分鐘即可將奇思妙想變成現(xiàn)實(shí)，甚至讓用戶直接預(yù)覽游戲。

　　值得一提的是，Meta AI也適用于雷朋Meta智能眼鏡，并將于下個(gè)月在美國(guó)和加拿大的Meta Quest上以實(shí)驗(yàn)?zāi)Ｊ酵瞥�。Meta AI將取代Quest上當(dāng)前的語(yǔ)音命令，讓用戶可以免提控制耳機(jī)、獲取問(wèn)題的答案、隨時(shí)了解實(shí)時(shí)信息、查看天氣等。

　　用戶還可以將Meta AI與在頭顯中看到的視圖結(jié)合使用，比如詢問(wèn)其在物理環(huán)境中看到的事物相關(guān)情況。

　　四、扎克伯格公開(kāi)信：開(kāi)源對(duì)開(kāi)發(fā)者、Meta、世界都更有利

　　Llama 3.1系列剛發(fā)布，扎克伯格的長(zhǎng)篇博客同時(shí)上線官網(wǎng)，使得開(kāi)閉源模型之間的火藥味更濃了。

　　一開(kāi)始，扎克伯格就提到開(kāi)源模型與閉源模型之間的差距正在逐漸縮小。去年，Llama 2僅與上一代最先進(jìn)的閉源模型相當(dāng)。今年，Llama 3可與最先進(jìn)的模型媲美，并在某些領(lǐng)域處于領(lǐng)先地位。

　　從明年開(kāi)始，他預(yù)計(jì)Llama模型將成為業(yè)內(nèi)最先進(jìn)的模型。并且當(dāng)下Llama系列模型已經(jīng)在開(kāi)放性、可修改性和成本效益方面處于領(lǐng)先地位。

　　在博客中，他直指閉源模型，回答了為什么開(kāi)源AI對(duì)開(kāi)發(fā)者有利、為什么開(kāi)源AI對(duì)Meta有利、為什么開(kāi)源AI對(duì)世界有利這三大問(wèn)題。

　　首先，為什么開(kāi)源AI對(duì)開(kāi)發(fā)者有利?

　　他認(rèn)為開(kāi)發(fā)者需要訓(xùn)練、微調(diào)自己的模型，以滿足各自的特定需求;開(kāi)發(fā)者需要掌控自己的命運(yùn)，而不是被一家封閉的供應(yīng)商所束縛;開(kāi)發(fā)者需要保護(hù)自己的數(shù)據(jù);開(kāi)發(fā)者需要高效且運(yùn)行成本低廉的模型;開(kāi)發(fā)者希望投資于將成為長(zhǎng)期標(biāo)準(zhǔn)的生態(tài)系統(tǒng)。

　　開(kāi)源AI對(duì)Meta的好處在于，Meta的商業(yè)模式是為人們打造最佳體驗(yàn)和服務(wù)，要做到這一點(diǎn)，他認(rèn)為必須確保其始終能夠使用最佳技術(shù)，并且不會(huì)陷入競(jìng)爭(zhēng)對(duì)手的封閉生態(tài)系統(tǒng)。

　　同時(shí)，開(kāi)源AI會(huì)促使Meta將Llama發(fā)展為一個(gè)完整的生態(tài)系統(tǒng)，并有成為行業(yè)標(biāo)準(zhǔn)的潛力。

　　他還提到，Meta與閉源模型玩家之間的關(guān)鍵區(qū)別之一是，出售AI模型訪問(wèn)權(quán)限不是Meta的商業(yè)模式，這意味著開(kāi)源不會(huì)削減其收入、可持續(xù)性發(fā)展或繼續(xù)投資研究的能力。

　　最后就是Meta擁有悠久的開(kāi)源項(xiàng)目和成功歷史。

　　關(guān)于開(kāi)源AI模型安全性的爭(zhēng)論，扎克伯格的觀點(diǎn)是開(kāi)源AI將比其他選擇更安全。他認(rèn)為開(kāi)源將確保全世界更多的人能夠享受AI帶來(lái)的好處和機(jī)會(huì)，權(quán)力不會(huì)集中在少數(shù)公司手中，并且該技術(shù)可以更均勻、更安全地應(yīng)用于整個(gè)社會(huì)。

　　結(jié)語(yǔ)：Meta再度落子，大模型開(kāi)閉源之爭(zhēng)生變

　　開(kāi)閉源大模型之爭(zhēng)仍在繼續(xù)……

　　從Meta Llama 3.1系列模型的發(fā)布，可以看出開(kāi)閉源大模型之間的差距正在縮小，且大有齊頭并進(jìn)、互相趕超之勢(shì)。作為開(kāi)源大模型陣營(yíng)的忠實(shí)擁躉者，同時(shí)也是技術(shù)創(chuàng)新的先鋒，Meta從Llama系列模型發(fā)布之初，就堅(jiān)定要打造自己的開(kāi)源生態(tài)圈。同時(shí)，相比于此前的Llama模型，此次新模型發(fā)布Meta還將在內(nèi)部組建團(tuán)隊(duì)，讓盡可能多的開(kāi)發(fā)人員和合作伙伴使用Llama系列。

　　Meta再度落子，使得開(kāi)閉源模型之爭(zhēng)的定論更加撲朔迷離。但歸根結(jié)底，在實(shí)際應(yīng)用中，很多企業(yè)和開(kāi)發(fā)者會(huì)根據(jù)具體需求和情況選擇使用開(kāi)源或閉源模型，因此模型的具體能力、適用的真實(shí)場(chǎng)景等，還需要時(shí)間來(lái)證明。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信