昨夜,Meta宣布推出迄今為止最強(qiáng)大的開(kāi)源模型——Llama 3.1 405B,同時(shí)發(fā)布了全新升級(jí)的Llama 3.1 70B和8B模型。
Llama 3.1 405B支持上下文長(zhǎng)度為128K Tokens,在基于15萬(wàn)億個(gè)Tokens、超1.6萬(wàn)個(gè)H100 GPU上進(jìn)行訓(xùn)練,這也是Meta有史以來(lái)第一個(gè)以這種規(guī)模進(jìn)行訓(xùn)練的Llama模型。
研究人員基于超150個(gè)基準(zhǔn)測(cè)試集的評(píng)測(cè)結(jié)果顯示,Llama 3.1 405B可與GPT-4o、Claude 3.5 Sonnet和Gemini Ultra等業(yè)界頭部模型媲美。
除了性能強(qiáng)勁外,Meta創(chuàng)始人兼CEO馬克·扎克伯格還親自發(fā)文助陣,他稱,除了比閉源模型成本和性能更優(yōu),405B開(kāi)源模型將成為企業(yè)微調(diào)和訓(xùn)練較小模型的最佳選擇。
Meta AI宣布接入Llama 3.1 405B,并推出AI圖片編輯、AI編程、VR/AR設(shè)備智能助手等新功能。扎克伯格預(yù)測(cè),Meta AI助手使用率幾個(gè)月后將超越ChatGPT。
Meta的開(kāi)源生態(tài)圈也已準(zhǔn)備就緒。Meta與超過(guò)25個(gè)合作伙伴將提供Llama 3.1模型,包括亞馬遜AWS、NVIDIA、Databricks、Groq、戴爾、微軟Azure和谷歌云等。
迄今為止,所有Llama模型版本的總下載量已經(jīng)超過(guò)3億次,與主流閉源模型能力相當(dāng)?shù)腖lama 3.1模型發(fā)布或許意味著,Meta要講的開(kāi)源模型故事剛剛開(kāi)始……
一、405B開(kāi)源模型對(duì)標(biāo)GPT-4o,25家合作伙伴已就緒
Meta評(píng)估了超150個(gè)基準(zhǔn)數(shù)據(jù)集的性能,Llama 3.1 405B在常識(shí)、可操作性、數(shù)學(xué)、工具使用和多語(yǔ)言翻譯等一系列任務(wù)中,可與GPT-4o、Claude 3.5 Sonnet和Gemini Ultra相媲美。
在現(xiàn)實(shí)場(chǎng)景中,Llama 3.1 405B進(jìn)行了與人工評(píng)估的比較,其總體表現(xiàn)優(yōu)于GPT-4o和Claude 3.5 Sonnet。
升級(jí)后的Llama 3.1 8B和70B模型,相比于同樣參數(shù)大小的模型性能表現(xiàn)也更好,這些較小參數(shù)的模型支持相同的128K Tokens上下文窗口、多語(yǔ)言、改進(jìn)的推理和最先進(jìn)的工具使用,以支持實(shí)現(xiàn)更高級(jí)應(yīng)用。
Meta更新了許可證,允許開(kāi)發(fā)人員首次使用包括405B參數(shù)規(guī)模的Llama模型的輸出來(lái)改進(jìn)其他模型。
同時(shí),Meta的開(kāi)源生態(tài)進(jìn)一步擴(kuò)張,已經(jīng)有超過(guò)25個(gè)企業(yè)推出了Llama 3.1新模型。
其中,亞馬遜云科技、Databricks和英偉達(dá)正在推出全套服務(wù),以支持開(kāi)發(fā)人員微調(diào)和訓(xùn)練自己的模型。AI芯片創(chuàng)企Groq等為Meta此次發(fā)布的所有新模型構(gòu)建了低延遲、低成本的推理服務(wù)。
同時(shí)這些模型將在亞馬遜云科技、微軟Azure、谷歌云、Oracle等主要云平臺(tái)上提供服務(wù)。
Scale AI、戴爾、德勤等公司已準(zhǔn)備好幫助企業(yè)采用Llama模型并使用自己的數(shù)據(jù)訓(xùn)練定制模型。
Llama 3.1 405B不僅是最強(qiáng)開(kāi)源模型,還有望成為最強(qiáng)模型,開(kāi)源和閉源的距離再次大大縮短。
二、完整優(yōu)化訓(xùn)練堆棧,專注于讓模型可擴(kuò)展
為了能基于15萬(wàn)億個(gè)Tokens進(jìn)行模型訓(xùn)練,同時(shí)在合理時(shí)間內(nèi)實(shí)現(xiàn)研究人員想要的效果,Meta對(duì)訓(xùn)練堆棧進(jìn)行了完整優(yōu)化。
在解決上述難題方面,Meta選擇專注于保持模型開(kāi)發(fā)過(guò)程可擴(kuò)展并更直接的策略:
1、研究人員選擇了標(biāo)準(zhǔn)僅解碼器的Transformer模型架構(gòu)進(jìn)行小幅調(diào)整,而不是采用MoE混合專家模型,可以最大限度提高訓(xùn)練穩(wěn)定性。
2、研究人員采用了迭代的后訓(xùn)練程序,每輪都使用監(jiān)督微調(diào)和直接偏好優(yōu)化。這使模型能夠?yàn)槊恳惠唲?chuàng)建最高質(zhì)量的合成數(shù)據(jù),并提高每項(xiàng)能力的性能。
與此前Llama系列模型相比,Meta改進(jìn)了用于訓(xùn)練前和訓(xùn)練后的數(shù)據(jù)的數(shù)量和質(zhì)量。這些改進(jìn)包括為訓(xùn)練前數(shù)據(jù)開(kāi)發(fā)更仔細(xì)的預(yù)處理和管理pipelines、開(kāi)發(fā)更嚴(yán)格的質(zhì)量保證,以及訓(xùn)練后數(shù)據(jù)的過(guò)濾方法。
正如大語(yǔ)言模型的Scaling Laws(規(guī)模定律)所預(yù)期的那樣,Meta新旗艦?zāi)P蛢?yōu)于使用相同策略訓(xùn)練的較小模型。Meta還使用405B參數(shù)的模型提高了其較小模型的訓(xùn)練質(zhì)量。
同時(shí),為了支持405B參數(shù)模型的大規(guī)模推理,研究人員將模型從BF16到FP8進(jìn)行了量化,有效降低了所需的計(jì)算要求,并允許模型在單個(gè)服務(wù)器節(jié)點(diǎn)內(nèi)運(yùn)行。
在指令和聊天微調(diào)方面,研究人員通過(guò)在預(yù)訓(xùn)練模型之上進(jìn)行幾輪對(duì)齊以生成最終模型,每一輪都涉及監(jiān)督微調(diào)(SFT)、拒絕采樣(RS)和直接偏好優(yōu)化(DPO),其使用合成數(shù)據(jù)生成來(lái)生成絕大多數(shù)SFT示例以生成所有功能中更高質(zhì)量的合成數(shù)據(jù)。
此外,Meta采取了多種數(shù)據(jù)處理技術(shù)以將這些合成數(shù)據(jù)過(guò)濾到最高質(zhì)量,這使新模型能夠跨功能擴(kuò)展微調(diào)數(shù)據(jù)量。
在數(shù)據(jù)方面,研究人員還對(duì)數(shù)據(jù)進(jìn)行了仔細(xì)平衡以生成具有所有功能的高質(zhì)量模型。例如,在短上下文基準(zhǔn)上保證模型質(zhì)量,使其能擴(kuò)展到128K上下文長(zhǎng)度。
此外,Meta還宣布推出一個(gè)整體的Llama系統(tǒng)。該系統(tǒng)除了涵蓋Llama模型,還涉及多個(gè)組件協(xié)調(diào)及外部工具調(diào)用,以此助開(kāi)發(fā)者開(kāi)發(fā)比基礎(chǔ)模型更強(qiáng)的定制產(chǎn)品。
Llama系統(tǒng)將涵蓋一系列新組件,包括開(kāi)源新的安全工具如Llama Guard 3(多語(yǔ)言安全模型)和Prompt Guard(即時(shí)注入過(guò)濾器)。為了讓分散的組件聯(lián)接起來(lái),Meta還發(fā)布了對(duì)Llama Stack API的評(píng)論請(qǐng)求,這是一個(gè)標(biāo)準(zhǔn)接口,以此第三方項(xiàng)目更輕松地利用Llama模型。
對(duì)于普通開(kāi)發(fā)者來(lái)說(shuō),使用405B規(guī)模的模型仍是一項(xiàng)挑戰(zhàn),這需要大量的計(jì)算資源和專業(yè)知識(shí)。
基于Llama系統(tǒng),生成式AI開(kāi)發(fā)不僅僅是提示模型,每個(gè)人都應(yīng)該可以利用405B模型完成更多的任務(wù),包括實(shí)時(shí)和批量推理、監(jiān)督微調(diào)、針對(duì)特定應(yīng)用評(píng)估模型、持續(xù)預(yù)訓(xùn)練、檢索增強(qiáng)生成(RAG)、函數(shù)調(diào)用、合成數(shù)據(jù)生成等。
這是Meta迄今為止推出的最大模型,未來(lái)將推出更多設(shè)備友好的尺寸、更多模式以及在Agent層面的更新。
三、405B大模型爆改Meta AI,Quest智能語(yǔ)音助手升級(jí)
現(xiàn)在,Meta旗下的多個(gè)終端,比如WhatsApp和Meta AI聊天機(jī)器人中都開(kāi)始使用Llama 3.1 405B。
Meta AI目前已支持七種新語(yǔ)言,本次Meta推出一批新的Meta AI創(chuàng)意工具,主要聚焦視覺(jué)生成、數(shù)學(xué)和編碼等領(lǐng)域。
首先看看視覺(jué)生成,Meta AI推出“想象我(Imagine Me)”圖像生成提示功能,支持用戶在Meta AI聊天中輸入“想象我”并添加提示,例如“想象我是皇室成員”或“想象我在一幅超現(xiàn)實(shí)主義繪畫(huà)中”,就可以生成圖像并與朋友和家人分享。
Meta AI將上線“使用AI編輯(Edit With AI)”功能,用戶可以通過(guò)點(diǎn)擊鼠標(biāo)輕松添加或刪除對(duì)象,或更改和編輯它們 ,并保持圖像的其余部分不變,比如將“將貓改為柯基犬”。Meta AI還將支持將新制作的圖片添加到Facebook帖子中,以及Instagram、Messenger和WhatsApp等社交平臺(tái)上。
在數(shù)學(xué)和編程方面,用戶可以通過(guò)分步解釋和反饋獲得數(shù)學(xué)作業(yè)方面的幫助,通過(guò)調(diào)試支持和優(yōu)化建議更快地編寫(xiě)代碼,并通過(guò)專家指導(dǎo)掌握復(fù)雜的技術(shù)和科學(xué)概念。
用戶可以結(jié)合Meta AI的編碼專業(yè)知識(shí)和圖像生成功能,從頭開(kāi)始構(gòu)建新游戲或?qū)?jīng)典游戲進(jìn)行全新演繹。只需幾分鐘即可將奇思妙想變成現(xiàn)實(shí),甚至讓用戶直接預(yù)覽游戲。
值得一提的是,Meta AI也適用于雷朋Meta智能眼鏡,并將于下個(gè)月在美國(guó)和加拿大的Meta Quest上以實(shí)驗(yàn)?zāi)J酵瞥。Meta AI將取代Quest上當(dāng)前的語(yǔ)音命令,讓用戶可以免提控制耳機(jī)、獲取問(wèn)題的答案、隨時(shí)了解實(shí)時(shí)信息、查看天氣等。
用戶還可以將Meta AI與在頭顯中看到的視圖結(jié)合使用,比如詢問(wèn)其在物理環(huán)境中看到的事物相關(guān)情況。
四、扎克伯格公開(kāi)信:開(kāi)源對(duì)開(kāi)發(fā)者、Meta、世界都更有利
Llama 3.1系列剛發(fā)布,扎克伯格的長(zhǎng)篇博客同時(shí)上線官網(wǎng),使得開(kāi)閉源模型之間的火藥味更濃了。
一開(kāi)始,扎克伯格就提到開(kāi)源模型與閉源模型之間的差距正在逐漸縮小。去年,Llama 2僅與上一代最先進(jìn)的閉源模型相當(dāng)。今年,Llama 3可與最先進(jìn)的模型媲美,并在某些領(lǐng)域處于領(lǐng)先地位。
從明年開(kāi)始,他預(yù)計(jì)Llama模型將成為業(yè)內(nèi)最先進(jìn)的模型。并且當(dāng)下Llama系列模型已經(jīng)在開(kāi)放性、可修改性和成本效益方面處于領(lǐng)先地位。
在博客中,他直指閉源模型,回答了為什么開(kāi)源AI對(duì)開(kāi)發(fā)者有利、為什么開(kāi)源AI對(duì)Meta有利、為什么開(kāi)源AI對(duì)世界有利這三大問(wèn)題。
首先,為什么開(kāi)源AI對(duì)開(kāi)發(fā)者有利?
他認(rèn)為開(kāi)發(fā)者需要訓(xùn)練、微調(diào)自己的模型,以滿足各自的特定需求;開(kāi)發(fā)者需要掌控自己的命運(yùn),而不是被一家封閉的供應(yīng)商所束縛;開(kāi)發(fā)者需要保護(hù)自己的數(shù)據(jù);開(kāi)發(fā)者需要高效且運(yùn)行成本低廉的模型;開(kāi)發(fā)者希望投資于將成為長(zhǎng)期標(biāo)準(zhǔn)的生態(tài)系統(tǒng)。
開(kāi)源AI對(duì)Meta的好處在于,Meta的商業(yè)模式是為人們打造最佳體驗(yàn)和服務(wù),要做到這一點(diǎn),他認(rèn)為必須確保其始終能夠使用最佳技術(shù),并且不會(huì)陷入競(jìng)爭(zhēng)對(duì)手的封閉生態(tài)系統(tǒng)。
同時(shí),開(kāi)源AI會(huì)促使Meta將Llama發(fā)展為一個(gè)完整的生態(tài)系統(tǒng),并有成為行業(yè)標(biāo)準(zhǔn)的潛力。
他還提到,Meta與閉源模型玩家之間的關(guān)鍵區(qū)別之一是,出售AI模型訪問(wèn)權(quán)限不是Meta的商業(yè)模式,這意味著開(kāi)源不會(huì)削減其收入、可持續(xù)性發(fā)展或繼續(xù)投資研究的能力。
最后就是Meta擁有悠久的開(kāi)源項(xiàng)目和成功歷史。
關(guān)于開(kāi)源AI模型安全性的爭(zhēng)論,扎克伯格的觀點(diǎn)是開(kāi)源AI將比其他選擇更安全。他認(rèn)為開(kāi)源將確保全世界更多的人能夠享受AI帶來(lái)的好處和機(jī)會(huì),權(quán)力不會(huì)集中在少數(shù)公司手中,并且該技術(shù)可以更均勻、更安全地應(yīng)用于整個(gè)社會(huì)。
結(jié)語(yǔ):Meta再度落子,大模型開(kāi)閉源之爭(zhēng)生變
開(kāi)閉源大模型之爭(zhēng)仍在繼續(xù)……
從Meta Llama 3.1系列模型的發(fā)布,可以看出開(kāi)閉源大模型之間的差距正在縮小,且大有齊頭并進(jìn)、互相趕超之勢(shì)。作為開(kāi)源大模型陣營(yíng)的忠實(shí)擁躉者,同時(shí)也是技術(shù)創(chuàng)新的先鋒,Meta從Llama系列模型發(fā)布之初,就堅(jiān)定要打造自己的開(kāi)源生態(tài)圈。同時(shí),相比于此前的Llama模型,此次新模型發(fā)布Meta還將在內(nèi)部組建團(tuán)隊(duì),讓盡可能多的開(kāi)發(fā)人員和合作伙伴使用Llama系列。
Meta再度落子,使得開(kāi)閉源模型之爭(zhēng)的定論更加撲朔迷離。但歸根結(jié)底,在實(shí)際應(yīng)用中,很多企業(yè)和開(kāi)發(fā)者會(huì)根據(jù)具體需求和情況選擇使用開(kāi)源或閉源模型,因此模型的具體能力、適用的真實(shí)場(chǎng)景等,還需要時(shí)間來(lái)證明。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。