Llama-4使用10萬(wàn)塊GPU訓(xùn)練、更好開源，扎克伯格親口確認(rèn)！

2024年09月27日 09:12:16 來(lái)源：AIGC開放社區(qū)公眾號(hào)

　　全球最大社交平臺(tái)Meta(Facebook、Instagram、WhatsApp等母公司)聯(lián)合創(chuàng)始人兼CEO扎克伯格接受了，前Vox著名記者Cleo Abram的專訪。

　　主要談到了Meta最新發(fā)布的變革性產(chǎn)品全息AR眼鏡，開源大模型、生成式AI的發(fā)展以及全球開發(fā)者非常關(guān)心的Llama-4。

　　扎克伯格親口確認(rèn)了Llama-4使用了超過10萬(wàn)個(gè)GPU進(jìn)行訓(xùn)練。目前Meta公開的算力是60萬(wàn)塊GPU，也就是說Llama-4已經(jīng)成為Meta的主力拳頭產(chǎn)品，使用更多的GPU訓(xùn)練有助于突破AI極限。

　　下面的內(nèi)容主要分為三大塊:第一部分是「AIGC開放社區(qū)」剪輯扎克伯格談Llama-4的部分;

　　第二部分則是完整的47分鐘專訪，我們只進(jìn)行了簡(jiǎn)單的大意概括，聽力好的小伙伴可以忽略直接看原視頻;

　　第三部分則是Meta最新開源的輕量級(jí)多模態(tài)大模型Llama-3.2，這是專門為手機(jī)、平板等移動(dòng)端設(shè)計(jì)的模型，性能非常強(qiáng)。

　　扎克伯格談Llama-4

　　扎克伯格認(rèn)為AI大模型的極限非常高，遠(yuǎn)沒有達(dá)到盡頭。例如，Llama3使用了2萬(wàn)塊GPU進(jìn)行訓(xùn)練;Llama4使用了超10萬(wàn)塊GPU，Llama5則會(huì)使用更多。這就是說在如此多的GPU訓(xùn)練下，模型的性能和商業(yè)潛力會(huì)進(jìn)一步被人類挖掘。

　　它可能會(huì)在某個(gè)時(shí)候達(dá)到了一個(gè)極限，就像以前的系統(tǒng)一樣存在一個(gè)漸近線，不會(huì)繼續(xù)增長(zhǎng)。但也有可能這個(gè)極限不會(huì)很快到來(lái)，我們可以繼續(xù)構(gòu)建更多的算力集群，生成更多的合成數(shù)據(jù)來(lái)訓(xùn)練模型，并且在相當(dāng)長(zhǎng)的一段時(shí)間內(nèi)它們對(duì)人們變得越來(lái)越有用。

　　所以，這對(duì)于大模型賽道的玩家來(lái)說非常非常重大且高風(fēng)險(xiǎn)。因?yàn)槲覀冃枰獙?duì)未來(lái)需要構(gòu)建多少基礎(chǔ)算力設(shè)施進(jìn)行押注，這對(duì)于Meta這樣的超大規(guī)模企業(yè)會(huì)涉及數(shù)千億美元投資。

　　同時(shí)隨著這種大規(guī)模GPU訓(xùn)練的出現(xiàn)，模型的性能可能會(huì)發(fā)生實(shí)時(shí)性的變化，可能架構(gòu)會(huì)再一次發(fā)生根本性變化(例如，出現(xiàn)比Transformer、Mamba架構(gòu)更好)，這個(gè)時(shí)間點(diǎn)可能很快會(huì)到來(lái)。

　　扎克伯格相信在大模型、生成式AI領(lǐng)域，未來(lái)20年的競(jìng)爭(zhēng)格局可能會(huì)實(shí)時(shí)變化(例如，現(xiàn)如今的領(lǐng)頭羊是OpenAI，那時(shí)可能就是別人了)。

　　47分鐘完整專訪

　　在整個(gè)完整的采訪中，扎克伯格還談到了Meta最新發(fā)布的顛覆性產(chǎn)品全息AR眼鏡。這是Meta花費(fèi)了10年研發(fā)，將所有計(jì)算設(shè)備小型化裝進(jìn)眼鏡中，使其能在廣闊視野中呈現(xiàn)全全息圖。

　　這個(gè)眼鏡可以讓人們?cè)谖磥?lái)進(jìn)行類似真實(shí)在場(chǎng)的交流，比如我和你可能一個(gè)在物理位置，一個(gè)以全息圖形式交流，還能互動(dòng)、工作、玩游戲等，會(huì)重塑工作、科學(xué)、教育、娛樂等多個(gè)領(lǐng)域。這只是第一個(gè)原型版本還會(huì)繼續(xù)改進(jìn)，讓它更便宜、質(zhì)量更高、更小、更時(shí)尚，希望能做成像電腦一樣大眾能普遍接觸到的產(chǎn)品。

　　還有類似抬頭顯示器的產(chǎn)品，視野較小，在與人工智能對(duì)話等方面有價(jià)值;而全全息增強(qiáng)現(xiàn)實(shí)眼鏡會(huì)是最高端、較昂貴但有潛力普及的產(chǎn)品�；旌犀F(xiàn)實(shí)頭戴式設(shè)備也會(huì)繼續(xù)存在，因?yàn)樗苋菁{更多計(jì)算能力。Meta的使命是讓技術(shù)普及，像推出價(jià)格較低但高質(zhì)量的 Quest3S 等混合現(xiàn)實(shí)頭戴式設(shè)備。

　　在 AI 方面，扎克伯格覺得有兩個(gè)重要價(jià)值:在增強(qiáng)現(xiàn)實(shí)和混合現(xiàn)實(shí)這邊，主要是帶來(lái)在場(chǎng)感，就是和另一個(gè)人真正在場(chǎng)的那種深刻感覺，這是目前其他技術(shù)給不了的，人們體驗(yàn)虛擬或混合現(xiàn)實(shí)時(shí)的本能反應(yīng)其實(shí)就是對(duì)這種在場(chǎng)感的反應(yīng)。

　　Meta專注設(shè)計(jì)社交應(yīng)用20年，就是想建立能提供這種社交在場(chǎng)感的技術(shù)平臺(tái)。但實(shí)現(xiàn)全面的在場(chǎng)感還面臨一些挑戰(zhàn)，例如，觸覺方面，從手開始實(shí)現(xiàn)較為重要，現(xiàn)在用控制器有初步版本未來(lái)會(huì)更好，像打乒乓球演示中能感受球擊中球拍，但像柔道那種需要真實(shí)力反饋的運(yùn)動(dòng)在虛擬現(xiàn)實(shí)中實(shí)現(xiàn)較難。

　　還有很多因素會(huì)影響在場(chǎng)感，比如視野、延遲、物理表現(xiàn)等，任何一個(gè)環(huán)節(jié)出錯(cuò)都可能破壞在場(chǎng)感，像人們對(duì)物理真實(shí)的接受度也有差異，例如，在化身方面，不同風(fēng)格的化身與不同類型世界的融合有有趣的效果，這需要在技術(shù)上全面且出色地實(shí)現(xiàn)，是長(zhǎng)期項(xiàng)目，也能幫助我們了解人類大腦對(duì)真實(shí)的認(rèn)知。

　　另一個(gè)大方向是個(gè)性化 AI，Llama 和 Meta AI 等都在朝這個(gè)方向發(fā)展。模型會(huì)越來(lái)越智能，但關(guān)鍵是為用戶個(gè)性化，這就需要它有背景，理解用戶生活中發(fā)生的事，而眼鏡是理想外形因素，因?yàn)樗芸吹接脩羲�、聽到用戶所聽，獲取信息和背景。

　　在 AI 的使用場(chǎng)景方面，存在一個(gè)類似光譜的情況。一方面，像實(shí)時(shí)自動(dòng)翻譯(如星際迷航中的通用翻譯器)等技術(shù)能消除人與人之間的交流障礙，雖然有人擔(dān)心這會(huì)讓人減少學(xué)習(xí)語(yǔ)言，但實(shí)際人們?nèi)詴?huì)學(xué)習(xí)拉丁語(yǔ)和希臘語(yǔ)等。

　　另一方面，在教育等領(lǐng)域，努力和掙扎本身有其意義，例如，孩子和成人在情感表達(dá)上的掙扎，AI 可作為幫助他們表達(dá)情感的方式，但這也引發(fā)了關(guān)于在哪些方面應(yīng)保留努力和掙扎以促進(jìn)個(gè)人發(fā)展的思考，比如在編程和語(yǔ)言學(xué)習(xí)上，雖然未來(lái)有強(qiáng)大的AI工具，但教孩子編程有助于培養(yǎng)嚴(yán)謹(jǐn)思維，語(yǔ)言學(xué)習(xí)雖功能性可能降低但對(duì)思維和文化理解有幫助，人們需要根據(jù)未來(lái)變化選擇要重點(diǎn)學(xué)習(xí)的內(nèi)容。

　　AI 會(huì)加速社交媒體的變化，使其從以朋友互動(dòng)為主轉(zhuǎn)向更多與創(chuàng)作者或非熟人內(nèi)容互動(dòng)。AI 會(huì)為人們提供更多創(chuàng)作工具，朋友能制作更有趣的內(nèi)容，創(chuàng)作者能利用更先進(jìn)工具制作更吸引人的內(nèi)容，還會(huì)有純 AI 生成的個(gè)性化內(nèi)容，以及 AI 創(chuàng)作者和創(chuàng)作者制作的 AI 版本自己與粉絲互動(dòng)等新形式，這將是一個(gè)深度探索的領(lǐng)域，AI 會(huì)像互聯(lián)網(wǎng)一樣改變幾乎每個(gè)領(lǐng)域和應(yīng)用程序的每個(gè)功能，帶來(lái)大量創(chuàng)新和令人興奮的變化，但也引發(fā)了對(duì)變化速度和影響的擔(dān)憂。

　　關(guān)于大模型開源，扎克伯格認(rèn)為開源意味著人們可以構(gòu)建很多不同的東西。一些公司希望打造一個(gè)通用的 AI 系統(tǒng)供人們使用，但我覺得未來(lái)會(huì)有很多不同的 AI 系統(tǒng)，就像有很多不同的應(yīng)用程序一樣，每個(gè)企業(yè)、創(chuàng)作者等都會(huì)有自己的 AI。

　　開源能讓每個(gè)人都可以修改模型并在其基礎(chǔ)上構(gòu)建東西，與閉源模型的集中式方法不同。在安全方面，有人認(rèn)為封閉模型更安全，但歷史上開源軟件往往更安全，因?yàn)楦嗳丝梢詫彶�，問題能更快被發(fā)現(xiàn)和解決，就像 Llama 模型不斷升級(jí)一樣，開源能讓模型更智能、更安全，為更多人所用，開源可能會(huì)帶來(lái)更繁榮和安全的未來(lái)。

　　開源多模態(tài)大模型Llama-3.2

　　Meta又開源了首個(gè)多模態(tài)大模型Llama-3.2，這是Llama-3系列的一次重大升級(jí)，一共有4個(gè)版本。

　　1B和3B參數(shù)專為邊緣和移動(dòng)設(shè)備設(shè)計(jì)，而較大的11B和90B參數(shù)模型為 Llama 生態(tài)系統(tǒng)帶來(lái)了新的視覺能力。

　　1B 和3B支持12K 令牌的上下文長(zhǎng)度，擅長(zhǎng)總結(jié)、指令遵循和文本重寫等任務(wù)，并且能在移動(dòng)設(shè)備上本地運(yùn)行。更重要的是，這些輕量級(jí)模型發(fā)布時(shí)便對(duì)高通和聯(lián)發(fā)科的硬件進(jìn)行了適配，并針對(duì) Arm 處理器進(jìn)行了優(yōu)化，廣泛的兼容性將加速其在各種移動(dòng)和物聯(lián)網(wǎng)設(shè)備中的應(yīng)用。

　　11B和90B視覺模型是 Llama首次發(fā)布的多模態(tài)大模型，能理解和推理圖像，實(shí)現(xiàn)文檔分析、圖像字幕和視覺問答等任務(wù)。Meta 報(bào)告其性能在圖像識(shí)別和視覺理解基準(zhǔn)測(cè)試中與領(lǐng)先的閉源模型具有競(jìng)爭(zhēng)力。新的視覺模型可作為現(xiàn)有純文本模型的直接替代品，方便開發(fā)者為現(xiàn)有基于 Llama 的應(yīng)用添加圖像理解功能。

　　除了新開源的模型，Meta 還推出了 Llama Stack Distribution 以簡(jiǎn)化開發(fā)者和企業(yè)圍繞 Llama 構(gòu)建應(yīng)用的流程。其核心是 Llama CLI，這是一個(gè)命令行界面，簡(jiǎn)化了構(gòu)建、配置和運(yùn)行 Llama Stack 分布的過程。

　　Meta 提供了多種編程語(yǔ)言的客戶端代碼，包括 Python、Node.js、Kotlin和 Swift，以實(shí)現(xiàn)與不同應(yīng)用和平臺(tái)的集成。

　　Llama Stack 具有部署靈活性，為 Distribution Server 和 Agents API Provider 提供預(yù)制 Docker 容器以減少配置錯(cuò)誤，并針對(duì)不同運(yùn)營(yíng)規(guī)模提供從單機(jī)單節(jié)點(diǎn)分布到與 AWS、Databricks、Fireworks 和 Together AI 合作的可擴(kuò)展云部署等解決方案。在 iOS上通過 PyTorch ExecuTorch 提供設(shè)備端分布，方便開發(fā)直接在移動(dòng)設(shè)備上運(yùn)行的AI 應(yīng)用。

　　由于安全、合規(guī)或性能考慮需要內(nèi)部AI能力的公司可以利用Dell Technologies支持的本地分發(fā)�？赏ㄟ^將多個(gè)API提供商打包到一個(gè)單一端點(diǎn)，并與合作伙伴合作以適應(yīng)Llama Stack API，Meta為這些多樣化環(huán)境中的開發(fā)者創(chuàng)造了一致且簡(jiǎn)化的體驗(yàn)。

　　這種方法顯著降低了構(gòu)建Llama模型的復(fù)雜性，加速了AI在廣泛的應(yīng)用程序和用例中的創(chuàng)新。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信