合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫(huà)像”平臺(tái),加速數(shù)字化轉(zhuǎn)型重慶:力爭(zhēng)今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬(wàn)輛,到 2027 年建成萬(wàn)億級(jí)產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實(shí)況照片了蘋(píng)果有線耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚(yú)相關(guān)搜索量暴漲384%2024 vivo開(kāi)發(fā)者大會(huì)官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來(lái)了,阿里云「通義靈碼」全面進(jìn)化,全流程開(kāi)發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來(lái)了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國(guó)AR/VR出貨23.3萬(wàn)臺(tái),同比下滑了 29.1%IDC:2024 上半年中國(guó) AR / VR 頭顯出貨 23.3 萬(wàn)臺(tái),同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測(cè)屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個(gè)運(yùn)行時(shí)安全解決方案,實(shí)現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購(gòu)物體驗(yàn)全面升級(jí)機(jī)器人公司1X推出世界模型Apple Intelligence測(cè)試版現(xiàn)已開(kāi)放革命性AI對(duì)話系統(tǒng)Moshi問(wèn)世:機(jī)器也能說(shuō)人話了?
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    英特爾AI軟硬件協(xié)同發(fā)力,為L(zhǎng)lama 2大模型提供加速

    2023年07月25日 11:53:07   來(lái)源:中文科技資訊

      英特爾廣泛的AI硬件組合及開(kāi)放的軟件環(huán)境,為Meta發(fā)布的Llama 2模型提供了極具競(jìng)爭(zhēng)力的選擇,進(jìn)一步助力大語(yǔ)言模型的普及,推動(dòng)AI發(fā)展惠及各行各業(yè)。

      大語(yǔ)言模型(LLM)在生成文本、總結(jié)和翻譯內(nèi)容、回答問(wèn)題、參與對(duì)話以及執(zhí)行復(fù)雜任務(wù)(如解決數(shù)學(xué)問(wèn)題或推理)方面表現(xiàn)出的卓越能力,使其成為最有希望規(guī)模化造福社會(huì)的AI技術(shù)之一。大語(yǔ)言模型有望解鎖更豐富的創(chuàng)意和洞察,并激發(fā)AI社區(qū)推進(jìn)技術(shù)發(fā)展的熱情。

      Llama 2旨在幫助開(kāi)發(fā)者、研究人員和組織構(gòu)建基于生成式AI的工具和體驗(yàn)。Meta發(fā)布了多個(gè)Llama 2的預(yù)訓(xùn)練和微調(diào)版本,擁有70億、130億和700億三種參數(shù)。通過(guò)Llama 2,Meta在公司的各個(gè)微調(diào)模型中采用了三項(xiàng)以安全為導(dǎo)向的核心技術(shù):安全的有監(jiān)督微調(diào)、安全的目標(biāo)文本提取以及安全的人類反饋強(qiáng)化學(xué)習(xí)(RLHF)。這些技術(shù)相結(jié)合,使Meta得以提高安全性能。隨著越來(lái)越廣泛的使用,人們將能夠以透明、公開(kāi)的方式不斷識(shí)別并降低生成有害內(nèi)容的風(fēng)險(xiǎn)。

      英特爾致力于通過(guò)提供廣泛的硬件選擇和開(kāi)放的軟件環(huán)境,推動(dòng)AI的發(fā)展與普及。英特爾提供了一系列AI解決方案,為AI社區(qū)開(kāi)發(fā)和運(yùn)行Llama 2等模型提供了極具競(jìng)爭(zhēng)力和極具吸引力的選擇。英特爾豐富的AI硬件產(chǎn)品組合與優(yōu)化開(kāi)放的軟件相結(jié)合,為應(yīng)對(duì)算力挑戰(zhàn)提供了可行的方案。

      英特爾提供了滿足模型的開(kāi)發(fā)和部署的AI優(yōu)化軟件。開(kāi)放生態(tài)系統(tǒng)是英特爾得天獨(dú)厚的戰(zhàn)略優(yōu)勢(shì),在AI領(lǐng)域亦是如此。我們致力于培育一個(gè)充滿活力的開(kāi)放生態(tài)系統(tǒng)來(lái)推動(dòng)AI創(chuàng)新,其安全、可追溯、負(fù)責(zé)任以及遵循道德,這對(duì)整個(gè)行業(yè)至關(guān)重要。此次發(fā)布的大模型進(jìn)一步彰顯了我們的核心價(jià)值觀——開(kāi)放,為開(kāi)發(fā)人員提供了一個(gè)值得信賴的選擇。Llama 2模型的發(fā)布是我們行業(yè)向開(kāi)放式AI發(fā)展轉(zhuǎn)型邁出的重要一步,即以公開(kāi)透明的方式推動(dòng)創(chuàng)新并助力其蓬勃發(fā)展。

      -- 李煒

      英特爾軟件與先進(jìn)技術(shù)副總裁

      兼人工智能和分析部門(mén)總經(jīng)理

      -- Melissa Evers

      英特爾軟件與先進(jìn)技術(shù)副總裁

      兼執(zhí)行戰(zhàn)略部總經(jīng)理

      在Llama 2發(fā)布之際,我們很高興地分享70億和130億參數(shù)模型的初始推理性能測(cè)試結(jié)果。這些模型在英特爾AI產(chǎn)品組合上運(yùn)行,包括Habana®Gaudi®2 深度學(xué)習(xí)加速器、第四代英特爾®至強(qiáng)®可擴(kuò)展處理器、英特爾®至強(qiáng)®CPU Max系列和英特爾®數(shù)據(jù)中心GPU Max系列。我們?cè)诒疚闹蟹窒淼男阅苤笜?biāo)是我們當(dāng)前軟件提供的“開(kāi)箱即用”的性能,并有望在未來(lái)的軟件中進(jìn)一步提升。我們還支持700億參數(shù)模型,并將很快分享最新相關(guān)信息。

      Habana®Gaudi®2 深度學(xué)習(xí)加速器

      Habana Gaudi2旨在為用戶提供高性能、高能效的訓(xùn)練與推理,尤其適用于諸如Llama和Llama 2的大語(yǔ)言模型。Gaudi2加速器具備96GB HBM2E的內(nèi)存容量,可滿足大語(yǔ)言模型的內(nèi)存需求并提高推理性能。Gaudi2配備Habana®SynapseAI®軟件套件,該套件集成了對(duì)PyTorch和DeepSpeed的支持,以用于大語(yǔ)言模型的訓(xùn)練和推理。此外,SynapseAI近期開(kāi)始支持HPU Graphs和DeepSpeed推理,專門(mén)針對(duì)時(shí)延敏感度高的推理應(yīng)用。Gaudi2還將進(jìn)行進(jìn)一步的軟件優(yōu)化,包括計(jì)劃在2023年第三季度支持FP8數(shù)據(jù)類型。此優(yōu)化預(yù)計(jì)將在執(zhí)行大語(yǔ)言模型時(shí)大幅提高性能、吞吐量,并有效降低延遲。

      大語(yǔ)言模型的性能需要靈活敏捷的可擴(kuò)展性,來(lái)突破服務(wù)器內(nèi)以及跨節(jié)點(diǎn)間的網(wǎng)絡(luò)瓶頸。每張Gaudi2芯片集成了21個(gè)100Gbps以太網(wǎng)接口,21個(gè)接口專用于連接服務(wù)器內(nèi)的8顆Gaudi2,該網(wǎng)絡(luò)配置有助于提升服務(wù)器內(nèi)外的擴(kuò)展性能。

      在近期發(fā)布的MLPerf基準(zhǔn)測(cè)試中,Gaudi2在大語(yǔ)言模型上展現(xiàn)了出色的訓(xùn)練性能,包括在384個(gè)Gaudi2加速器上訓(xùn)練1750億參數(shù)的GPT-3模型所展現(xiàn)的結(jié)果。Gaudi2經(jīng)過(guò)驗(yàn)證的高性能使其成為L(zhǎng)lama和Llama 2模型訓(xùn)練和推理的高能效解決方案。

      圖1顯示了70億參數(shù)和130億參數(shù)Llama 2模型的推理性能。模型分別在一臺(tái)Habana Gaudi2設(shè)備上運(yùn)行,batch size=1,輸出token長(zhǎng)度256,輸入token長(zhǎng)度不定,使用BF16精度。報(bào)告的性能指標(biāo)為每個(gè)token的延遲(不含第一個(gè))。該測(cè)試使用optimum-habana文本生成腳本在Llama模型上運(yùn)行推理。optimum-habana庫(kù)能夠幫助簡(jiǎn)化在Gaudi加速器上部署此類模型的流程,僅需極少的代碼更改即可實(shí)現(xiàn)。如圖1所示,對(duì)于128至2000輸入token,在70億參數(shù)模型上Gaudi2的推理延遲范圍為每token 9.0-12.2毫秒,而對(duì)于130億參數(shù)模型,范圍為每token 15.5-20.4毫秒1。

    image.png

      圖1 基于Habana Gaudi2,70億和130億參數(shù)Llama 2模型的推理性能

      若想訪問(wèn)Gaudi2,可按照此處(https://developer.habana.ai/intel-developer-cloud/)在英特爾開(kāi)發(fā)者云平臺(tái)上注冊(cè)一個(gè)實(shí)例,或聯(lián)系超微(Supermicro)了解Gaudi2服務(wù)器基礎(chǔ)設(shè)施。

      英特爾®至強(qiáng)®可擴(kuò)展處理器

      第四代英特爾至強(qiáng)可擴(kuò)展處理器是一款通用計(jì)算處理器,具有英特爾®高級(jí)矩陣擴(kuò)展(英特爾®AMX)的AI加速功能。具體而言,該處理器的每個(gè)核心內(nèi)置了BF16和INT8通用矩陣乘(GEMM)加速器,以加速深度學(xué)習(xí)訓(xùn)練和推理工作負(fù)載。此外,英特爾®至強(qiáng)®CPU Max系列,每顆CPU提供64GB的高帶寬內(nèi)存(HBM2E),兩顆共128GB,由于大語(yǔ)言模型的工作負(fù)載通常受到內(nèi)存帶寬的限制,因此,該性能對(duì)于大模型來(lái)說(shuō)極為重要。

      目前,針對(duì)英特爾至強(qiáng)處理器的軟件優(yōu)化已升級(jí)到深度學(xué)習(xí)框架中,并可用于PyTorch*、TensorFlow*、DeepSpeed*和其它AI庫(kù)的默認(rèn)發(fā)行版。英特爾主導(dǎo)了torch.compile CPU后端的開(kāi)發(fā)和優(yōu)化,這是PyTorch 2.0的旗艦功能。與此同時(shí),英特爾還提供英特爾®PyTorch擴(kuò)展包*(Intel®Extension for PyTorch*),旨在PyTorch官方發(fā)行版之前,盡早、及時(shí)地為客戶提供英特爾CPU的優(yōu)化。

      第四代英特爾至強(qiáng)可擴(kuò)展處理器擁有更高的內(nèi)存容量,支持在單個(gè)插槽內(nèi)實(shí)現(xiàn)適用于對(duì)話式AI和文本摘要應(yīng)用的、低延遲的大語(yǔ)言模型執(zhí)行。對(duì)于BF16和INT8,該結(jié)果展示了單個(gè)插槽內(nèi)執(zhí)行1個(gè)模型時(shí)的延遲。英特爾®PyTorch擴(kuò)展包*支持SmoothQuant,以確保INT8精度模型具有良好的準(zhǔn)確度。

      考慮到大語(yǔ)言模型應(yīng)用需要以足夠快的速度生成token,以滿足讀者較快的閱讀速度,我們選擇token延遲,即生成每個(gè)token所需的時(shí)間作為主要的性能指標(biāo),并以快速人類讀者的閱讀速度(約為每個(gè)token 100毫秒)作為參考。如圖2、3所示,對(duì)于70億參數(shù)的Llama2 BF16模型和130億參數(shù)的Llama 2 INT8模型,第四代英特爾至強(qiáng)單插槽的延遲均低于100毫秒2。

      得益于更高的HBM2E帶寬,英特爾至強(qiáng)CPU Max系列為以上兩個(gè)模型提供了更低的延遲。而憑借英特爾AMX加速器,用戶可以通過(guò)更高的批量尺寸(batch size)來(lái)提高吞吐量。

    image.png

      圖2 基于英特爾至強(qiáng)可擴(kuò)展處理器,70億參數(shù)和130億參數(shù)Llama 2模型(BFloat16)的推理性能

    image.png

      圖3 基于英特爾至強(qiáng)可擴(kuò)展處理器,70億參數(shù)和130億參數(shù)Llama 2模型(INT8)的推理性能

      對(duì)于70億和130億參數(shù)的模型,每個(gè)第四代至強(qiáng)插槽可提供低于100毫秒的延遲。用戶可以分別在兩個(gè)插槽上同時(shí)運(yùn)行兩個(gè)并行實(shí)例,從而獲得更高的吞吐量,并獨(dú)立地服務(wù)客戶端。亦或者,用戶可以通過(guò)英特爾®PyTorch擴(kuò)展包*和DeepSpeed* CPU,使用張量并行的方式在兩個(gè)第四代至強(qiáng)插槽上運(yùn)行推理,從而進(jìn)一步降低延遲或支持更大的模型。

      關(guān)于在至強(qiáng)平臺(tái)上運(yùn)行大語(yǔ)言模型和Llama 2,開(kāi)發(fā)者可以點(diǎn)擊此處(https://intel.github.io/intel-extension-for-pytorch/llm/cpu/)了解更多詳細(xì)信息。第四代英特爾至強(qiáng)可擴(kuò)展處理器的云實(shí)例可在AWS和Microsoft Azure上預(yù)覽,目前已在谷歌云平臺(tái)和阿里云全面上線。英特爾將持續(xù)在PyTorch*和DeepSpeed*進(jìn)行軟件優(yōu)化,以進(jìn)一步加速Llama 2和其它大語(yǔ)言模型。

      英特爾®數(shù)據(jù)中心GPU Max系列

      英特爾數(shù)據(jù)中心GPU Max系列提供并行計(jì)算、科學(xué)計(jì)算和適用于科學(xué)計(jì)算的AI加速。作為英特爾性能最為出色、密度最高的獨(dú)立顯卡,英特爾數(shù)據(jù)中心GPU Max系列產(chǎn)品中封裝超過(guò)1000億個(gè)晶體管,并包含多達(dá)128個(gè)Xe內(nèi)核,Xe是英特爾GPU的計(jì)算構(gòu)建模塊。

      英特爾數(shù)據(jù)中心GPU Max系列旨在為AI和科學(xué)計(jì)算中使用的數(shù)據(jù)密集型計(jì)算模型提供突破性的性能,包括:

      ●408 MB基于獨(dú)立SRAM技術(shù)的L2緩存、64MB L1緩存以及高達(dá)128GB的高帶寬內(nèi)存(HBM2E)。

      ●AI增強(qiáng)型的Xe英特爾®矩陣擴(kuò)展(英特爾®XMX)搭載脈動(dòng)陣列,在單臺(tái)設(shè)備中可實(shí)現(xiàn)矢量和矩陣功能。

      英特爾Max系列產(chǎn)品統(tǒng)一支持oneAPI,并基于此實(shí)現(xiàn)通用、開(kāi)放、基于標(biāo)準(zhǔn)的編程模型,釋放生產(chǎn)力和性能。英特爾oneAPI工具包括高級(jí)編譯器、庫(kù)、分析工具和代碼遷移工具,可使用SYCL輕松將CUDA代碼遷移到開(kāi)放的C++。

      英特爾數(shù)據(jù)中心Max系列GPU通過(guò)當(dāng)今框架的開(kāi)源擴(kuò)展來(lái)實(shí)現(xiàn)軟件支持和優(yōu)化,例如面向PyTorch*的英特爾擴(kuò)展、面向TensorFlow*的英特爾®擴(kuò)展和面向DeepSpeed*的英特爾®擴(kuò)展。通過(guò)將這些擴(kuò)展與上游框架版本一起使用,用戶將能夠在機(jī)器學(xué)習(xí)工作流中實(shí)現(xiàn)快速整合。

      我們?cè)谝粋(gè)600瓦OAM形態(tài)的GPU上評(píng)估了Llama 2的70億參數(shù)模型和Llama 2的130億參數(shù)模型推理性能,這個(gè)GPU上封裝了兩個(gè)tile,而我們只使用其中一個(gè)tile來(lái)運(yùn)行推理。圖4顯示,對(duì)于輸入長(zhǎng)度為32到2000的token,英特爾數(shù)據(jù)中心GPU Max系列的一個(gè)tile可以為70億參數(shù)模型的推理提供低于20毫秒的單token延遲,130億參數(shù)模型的單token延遲為29.2-33.8毫秒3。因?yàn)樵揋PU上封裝了兩個(gè)tile,用戶可以同時(shí)并行運(yùn)行兩個(gè)獨(dú)立的實(shí)例,每個(gè)tile上運(yùn)行一個(gè),以獲得更高的吞吐量并獨(dú)立地服務(wù)客戶端。

    image.png

      圖4 英特爾數(shù)據(jù)中心GPU Max 1550上的Llama 2的70億和130億參數(shù)模型的推理性能

      關(guān)于在英特爾GPU平臺(tái)上運(yùn)行大語(yǔ)言模型和Llama 2,可以點(diǎn)擊此處(https://intel.github.io/intel-extension-for-pytorch/llm/xpu/)獲取詳細(xì)信息。目前英特爾開(kāi)發(fā)者云平臺(tái)上已發(fā)布英特爾GPU Max云實(shí)例測(cè)試版。

      英特爾平臺(tái)上的大語(yǔ)言模型微調(diào)

      除了推理之外,英特爾一直在積極地推進(jìn)微調(diào)加速,通過(guò)向Hugging Face Transformers、PEFT、Accelerate和Optimum庫(kù)提供優(yōu)化,并在面向Transformers的英特爾®擴(kuò)展中提供參考工作流。這些工作流支持在相關(guān)英特爾平臺(tái)上高效地部署典型的大語(yǔ)言模型任務(wù),如文本生成、代碼生成、完成和摘要。

      總結(jié)

      上述內(nèi)容介紹了在英特爾AI硬件產(chǎn)品組合上運(yùn)行Llama 2的70億和130億參數(shù)模型推理性能的初始評(píng)估,包括Habana Gaudi2深度學(xué)習(xí)加速器、第四代英特爾至強(qiáng)可擴(kuò)展處理器、英特爾®至強(qiáng)®CPU Max系列和英特爾數(shù)據(jù)中心GPU Max系列。我們將繼續(xù)通過(guò)軟件發(fā)布提供優(yōu)化,后續(xù)會(huì)再分享更多關(guān)于大語(yǔ)言模型和更大的Llama 2模型的評(píng)估。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    [No. X058-2]
    分享到微信

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無(wú)人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開(kāi)幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛(ài)普生4K 3LCD 激光工程投影

    2024年3月12日,由愛(ài)普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

    研究

    2024全球開(kāi)發(fā)者先鋒大會(huì)即將開(kāi)幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開(kāi)放原子開(kāi)源基金會(huì)主辦的“2024全球開(kāi)發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。