合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫(huà)像”平臺(tái),加速數(shù)字化轉(zhuǎn)型重慶:力爭(zhēng)今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬(wàn)輛,到 2027 年建成萬(wàn)億級(jí)產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實(shí)況照片了蘋(píng)果有線耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚(yú)相關(guān)搜索量暴漲384%2024 vivo開(kāi)發(fā)者大會(huì)官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來(lái)了,阿里云「通義靈碼」全面進(jìn)化,全流程開(kāi)發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來(lái)了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國(guó)AR/VR出貨23.3萬(wàn)臺(tái),同比下滑了 29.1%IDC:2024 上半年中國(guó) AR / VR 頭顯出貨 23.3 萬(wàn)臺(tái),同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測(cè)屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個(gè)運(yùn)行時(shí)安全解決方案,實(shí)現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購(gòu)物體驗(yàn)全面升級(jí)機(jī)器人公司1X推出世界模型Apple Intelligence測(cè)試版現(xiàn)已開(kāi)放革命性AI對(duì)話系統(tǒng)Moshi問(wèn)世:機(jī)器也能說(shuō)人話了?
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    馬斯克開(kāi)源Grok-1:3140億參數(shù)迄今最大,權(quán)重架構(gòu)全開(kāi)放,磁力下載

    2024年03月18日 09:00:40   來(lái)源:機(jī)器之心Pro

      開(kāi)源社區(qū)有福了。

      說(shuō)到做到,馬斯克承諾的開(kāi)源版大模型 Grok 終于來(lái)了!

      今天凌晨,馬斯克旗下大模型公司 xAI 宣布正式開(kāi)源 3140 億參數(shù)的混合專家(MoE)模型「Grok-1」,以及該模型的權(quán)重和網(wǎng)絡(luò)架構(gòu)。

      這也使得Grok-1成為當(dāng)前參數(shù)量最大的開(kāi)源大語(yǔ)言模型。

      封面圖根據(jù) Grok 提示使用 Midjourney 生成的:神經(jīng)網(wǎng)絡(luò)的 3D 插圖,具有透明節(jié)點(diǎn)和發(fā)光連接,以不同粗細(xì)和顏色的連接線展示不同的權(quán)重。

      這個(gè)時(shí)候,馬斯克當(dāng)然不會(huì)忘了嘲諷 OpenAI 一番,「我們想了解更多 OpenAI 的開(kāi)放部分」。

      回到模型本身,Grok-1 從頭開(kāi)始訓(xùn)練,并且沒(méi)有針對(duì)任何特定應(yīng)用(如對(duì)話)進(jìn)行微調(diào)。相對(duì)的,在 X(原 Twitter)上可用的 Grok 大模型是微調(diào)過(guò)的版本,其行為和原始權(quán)重版本并不相同。

      Grok-1 的模型細(xì)節(jié)包括如下:

      基礎(chǔ)模型基于大量文本數(shù)據(jù)進(jìn)行訓(xùn)練,沒(méi)有針對(duì)任何具體任務(wù)進(jìn)行微調(diào);

      3140 億參數(shù)的 MoE 模型,在給定 token 上的激活權(quán)重為 25%;

      2023 年 10 月,xAI 使用 JAX 庫(kù)和 Rust 語(yǔ)言組成的自定義訓(xùn)練堆棧從頭開(kāi)始訓(xùn)練。

      xAI 遵守 Apache 2.0 許可證來(lái)開(kāi)源 Grok-1 的權(quán)重和架構(gòu)。Apache 2.0 許可證允許用戶自由地使用、修改和分發(fā)軟件,無(wú)論是個(gè)人還是商業(yè)用途。項(xiàng)目發(fā)布短短四個(gè)小時(shí),已經(jīng)攬獲 3.4k 星標(biāo),熱度還在持續(xù)增加。

      項(xiàng)目地址 https://github.com/xai-org/grok-1

      該存儲(chǔ)庫(kù)包含用于加載和運(yùn)行 Grok-1 開(kāi)放權(quán)重模型的 JAX 示例代碼。使用之前,用戶需要確保先下載 checkpoint,并將 ckpt-0 目錄放置在 checkpoint 中, 然后,運(yùn)行下面代碼進(jìn)行測(cè)試:

      pip install -r requirements.txt

      python run.py

      項(xiàng)目說(shuō)明中明確強(qiáng)調(diào),由于 Grok-1 是一個(gè)規(guī)模較大(314B 參數(shù))的模型,因此需要有足夠 GPU 內(nèi)存的機(jī)器才能使用示例代碼測(cè)試模型。此外,該存儲(chǔ)庫(kù)中 MoE 層的實(shí)現(xiàn)效率并不高,之所以選擇該實(shí)現(xiàn)是為了避免需要自定義內(nèi)核來(lái)驗(yàn)證模型的正確性。

      用戶可以使用 Torrent 客戶端和這個(gè)磁力鏈接來(lái)下載權(quán)重文件:

      magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

      看到這,有網(wǎng)友開(kāi)始好奇 314B 參數(shù)的 Grok-1 到底需要怎樣的配置才能運(yùn)行。對(duì)此有人給出答案:可能需要一臺(tái)擁有 628 GB GPU 內(nèi)存的機(jī)器(每個(gè)參數(shù) 2 字節(jié))。這么算下來(lái),8xH100(每個(gè) 80GB)就可以了。

      知名機(jī)器學(xué)習(xí)研究者、《Python 機(jī)器學(xué)習(xí)》暢銷書(shū)作者 Sebastian Raschka 評(píng)價(jià)道:「Grok-1 比其他通常帶有使用限制的開(kāi)放權(quán)重模型更加開(kāi)源,但是它的開(kāi)源程度不如 Pythia、Bloom 和 OLMo,后者附帶訓(xùn)練代碼和可復(fù)現(xiàn)的數(shù)據(jù)集。」

      DeepMind 研究工程師 Aleksa Gordié 則預(yù)測(cè),Grok-1 的能力應(yīng)該比 LLaMA-2 要強(qiáng),但目前尚不清楚有多少數(shù)據(jù)受到了污染。另外,二者的參數(shù)量也不是一個(gè)量級(jí)。

      還有一位推特用戶 @itsandrewgao 詳細(xì)分析了 Grok-1 的架構(gòu)細(xì)節(jié),并做出了一下幾點(diǎn)總結(jié)。

      首先 Grok-1 是 8 個(gè)專家的混合(2個(gè)活躍)、860億激活參數(shù)(比Llama-2 70B還多),使用旋轉(zhuǎn)嵌入而非固定位置嵌入。

      tokenizer 詞匯大小為 131,072(類似于 GPT-4)2^17,嵌入大小 6,144 (48*128),64 個(gè) transformer 層(sheesh), 每層都有一個(gè)解碼器層:多頭注意力塊和密集塊,鍵值大小 128。

      多頭注意力塊:48 個(gè) head 用于查詢,8 個(gè)用于鍵 / 值(KV)。KV 大小為 128。密集塊(密集前饋塊):加寬因子 8,隱藏層大小 32768。每個(gè) token 從 8 個(gè)專家中選擇 2 個(gè)。

      旋轉(zhuǎn)位置嵌入大小為 6144,與輸入嵌入大小相同。上下文長(zhǎng)度為 8192 tokens,精度為 bf16。

      此外還提供了一些權(quán)重的 8bit 量化內(nèi)容。

      當(dāng)然,我們還是希望 xAI 官方能夠盡快公布 Grok-1 的更多模型細(xì)節(jié)。

      Grok-1 是個(gè)什么模型?能力如何?

      Grok 是馬斯克 xAI 團(tuán)隊(duì)去年 11 月推出的一款大型語(yǔ)言模型。在去年 11 月的官宣博客中(參見(jiàn)《馬斯克 xAI 公布大模型詳細(xì)進(jìn)展,Grok 只訓(xùn)練了 2 個(gè)月》), xAI 寫(xiě)道:

      Grok 是一款仿照《銀河系漫游指南》設(shè)計(jì)的 AI,可以回答幾乎任何問(wèn)題,更難能可貴的是,它甚至可以建議你問(wèn)什么問(wèn)題!

      Grok 在回答問(wèn)題時(shí)略帶詼諧和叛逆,因此如果你討厭幽默,請(qǐng)不要使用它!

      Grok 的一個(gè)獨(dú)特而基本的優(yōu)勢(shì)是,它可以通過(guò) X 平臺(tái)實(shí)時(shí)了解世界。它還能回答被大多數(shù)其他 AI 系統(tǒng)拒絕的辛辣問(wèn)題。

      Grok 仍然是一個(gè)非常早期的測(cè)試版產(chǎn)品 —— 這是我們通過(guò)兩個(gè)月的訓(xùn)練能夠達(dá)到的最佳效果 —— 因此,希望在您的幫助下,它能在測(cè)試中迅速改進(jìn)。

      xAI 表示,Grok-1 的研發(fā)經(jīng)歷了四個(gè)月。在此期間,Grok-1 經(jīng)歷了多次迭代。

      在公布了 xAI 創(chuàng)立的消息之后,他們訓(xùn)練了一個(gè) 330 億參數(shù)的 LLM 原型 ——Grok-0。這個(gè)早期模型在標(biāo)準(zhǔn) LM 測(cè)試基準(zhǔn)上接近 LLaMA 2 (70B) 的能力,但只使用了一半的訓(xùn)練資源。之后,他們對(duì)模型的推理和編碼能力進(jìn)行了重大改進(jìn),最終開(kāi)發(fā)出了 Grok-1,這是一款功能更為強(qiáng)大的 SOTA 語(yǔ)言模型,在 HumanEval 編碼任務(wù)中達(dá)到了 63.2% 的成績(jī),在 MMLU 中達(dá)到了 73%。

      xAI 使用了一些旨在衡量數(shù)學(xué)和推理能力的標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)基準(zhǔn)對(duì) Grok-1 進(jìn)行了一系列評(píng)估:

      在這些基準(zhǔn)測(cè)試中,Grok-1 顯示出了強(qiáng)勁的性能,超過(guò)了其計(jì)算類中的所有其他模型,包括 ChatGPT-3.5 和 Inflection-1。只有像 GPT-4 這樣使用大量訓(xùn)練數(shù)據(jù)和計(jì)算資源訓(xùn)練的模型才能超越它。xAI 表示,這展示了他們?cè)诟咝в?xùn)練 LLM 方面取得的快速進(jìn)展。

      不過(guò),xAI 也表示,由于這些基準(zhǔn)可以在網(wǎng)上找到,他們不能排除模型無(wú)意中在這些數(shù)據(jù)上進(jìn)行了訓(xùn)練。因此,他們?cè)谑占陻?shù)據(jù)集之后,根據(jù)去年 5 月底(數(shù)據(jù)截止日期之后)公布的 2023 年匈牙利全國(guó)高中數(shù)學(xué)期末考試題,對(duì)他們的模型(以及 Claude-2 和 GPT-4 模型)進(jìn)行了人工評(píng)分。結(jié)果,Grok 以 C 級(jí)(59%)通過(guò)考試,Claude-2 也取得了類似的成績(jī)(55%),而 GPT-4 則以 68% 的成績(jī)獲得了 B 級(jí)。xAI 表示,他們沒(méi)有為應(yīng)對(duì)這個(gè)考試而特別準(zhǔn)備或調(diào)整模型。

      下面這個(gè)表格展示了 Grok-1 的更多信息(來(lái)自 2023 年 11 月的博客,部分信息可能存在更新):

      模型細(xì)節(jié):Grok-1 是一個(gè)基于 Transformer 的自回歸模型。xAI 利用來(lái)自人類和早期 Grok-0 模型的大量反饋對(duì)模型進(jìn)行了微調(diào)。初始的 Grok-1 能夠處理 8192 個(gè) token 的上下文長(zhǎng)度。模型于 2023 年 11 月發(fā)布。

      預(yù)期用途:Grok-1 將作為 Grok 背后的引擎,用于自然語(yǔ)言處理任務(wù),包括問(wèn)答、信息檢索、創(chuàng)意寫(xiě)作和編碼輔助。

      局限性:雖然 Grok-1 在信息處理方面表現(xiàn)出色,但讓人類檢查 Grok-1 的工作以確保準(zhǔn)確性至關(guān)重要。Grok-1 語(yǔ)言模型不具備獨(dú)立搜索網(wǎng)絡(luò)的能力。在 Grok 中部署搜索工具和數(shù)據(jù)庫(kù)可以增強(qiáng)模型的能力和真實(shí)性。盡管可以訪問(wèn)外部信息源,但模型仍會(huì)產(chǎn)生幻覺(jué)。

      訓(xùn)練數(shù)據(jù):Grok-1 發(fā)布版本所使用的訓(xùn)練數(shù)據(jù)來(lái)自截至 2023 年第三季度的互聯(lián)網(wǎng)數(shù)據(jù)和 xAI 的 AI 訓(xùn)練師提供的數(shù)據(jù)。

      評(píng)估:xAI 在一系列推理基準(zhǔn)任務(wù)和國(guó)外數(shù)學(xué)考試試題中對(duì) Grok-1 進(jìn)行了評(píng)估。他們與早期 alpha 測(cè)試者合作,以評(píng)估 Grok-1 的一個(gè)版本,包括對(duì)抗性測(cè)試。目前,Grok 已經(jīng)對(duì)一部分早期用戶開(kāi)啟了封閉測(cè)試訪問(wèn)權(quán)限,進(jìn)一步擴(kuò)大測(cè)試人群。

      在博客中,xAI 還公布了 Grok 的構(gòu)建工程工作和 xAI 大致的研究方向。其中,長(zhǎng)上下文的理解與檢索、多模態(tài)能力都是未來(lái)將會(huì)探索的方向之一。

      xAI 表示,他們打造 Grok 的愿景是,希望創(chuàng)造一些 AI 工具,幫助人類尋求理解和知識(shí)。

      具體來(lái)說(shuō),他們希望達(dá)到以下目標(biāo):

      收集反饋,確保他們打造的 AI 工具能夠最大限度地造福全人類。他們認(rèn)為,設(shè)計(jì)出對(duì)有各種背景和政治觀點(diǎn)的人都有用的 AI 工具非常重要。他們還希望在遵守法律的前提下,通過(guò)他們的 AI 工具增強(qiáng)用戶的能力。Grok 的目標(biāo)是探索并公開(kāi)展示這種方法;

      增強(qiáng)研究和創(chuàng)新能力:他們希望 Grok 成為所有人的強(qiáng)大研究助手,幫助他們快速獲取相關(guān)信息、處理數(shù)據(jù)并提出新想法。

      他們的最終目標(biāo)是讓他們的 AI 工具幫助人們尋求理解。

      在 X 平臺(tái)上,Grok-1 的開(kāi)源已經(jīng)引發(fā)了不少討論。值得注意的是,技術(shù)社區(qū)指出,該模型在前饋層中使用了 GeGLU,并采用了有趣的 sandwich norm 技術(shù)進(jìn)行歸一化。甚至 OpenAI 的員工也發(fā)帖表示對(duì)該模型很感興趣。

      不過(guò),開(kāi)源版 Grok 目前還有些事情做不到,比如「通過(guò) X 平臺(tái)實(shí)時(shí)了解世界」,實(shí)現(xiàn)這一功能目前仍需要訂閱部署在 X 平臺(tái)上的付費(fèi)版本。

      鑒于馬斯克對(duì)開(kāi)源的積極態(tài)度,有些技術(shù)人員已經(jīng)在期待后續(xù)版本的開(kāi)源了。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無(wú)人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開(kāi)幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛(ài)普生4K 3LCD 激光工程投影

    2024年3月12日,由愛(ài)普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

    研究

    2024全球開(kāi)發(fā)者先鋒大會(huì)即將開(kāi)幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開(kāi)放原子開(kāi)源基金會(huì)主辦的“2024全球開(kāi)發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。