中國(guó)品牌,讓東南亞感受“消費(fèi)升級(jí)”小紅書本地“坐抖望團(tuán)”CrowdStrike“全球滅霸響指”事件后續(xù),德國(guó) 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺(tái)合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺(tái),加速數(shù)字化轉(zhuǎn)型重慶:力爭(zhēng)今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬(wàn)輛,到 2027 年建成萬(wàn)億級(jí)產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實(shí)況照片了蘋果有線耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會(huì)官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來(lái)了,阿里云「通義靈碼」全面進(jìn)化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來(lái)了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國(guó)AR/VR出貨23.3萬(wàn)臺(tái),同比下滑了 29.1%IDC:2024 上半年中國(guó) AR / VR 頭顯出貨 23.3 萬(wàn)臺(tái),同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測(cè)屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個(gè)運(yùn)行時(shí)安全解決方案,實(shí)現(xiàn)從代碼到云的全面軟件完整性和可追溯性
  • 大芯片,新機(jī)會(huì)!

    2023年08月16日 14:12:38   來(lái)源:微信公眾號(hào):半導(dǎo)體行業(yè)觀察

      “計(jì)算”的演變:新時(shí)代提出“芯”要求

      在詳細(xì)介紹計(jì)算要求之前,我們先要了解一下這幾個(gè)“計(jì)算”。

      集中式計(jì)算:PC (personal computer,個(gè)人計(jì)算機(jī))一詞源自于1981年IBM的*部桌上型計(jì)算機(jī)。集中式計(jì)算主要是通過(guò)不斷增加處理器的性能來(lái)增強(qiáng)單個(gè)計(jì)算機(jī)的計(jì)算能力

      分布式計(jì)算:是一種計(jì)算方法和計(jì)算形態(tài),和集中式計(jì)算是相對(duì)的。隨著計(jì)算技術(shù)的發(fā)展,有些應(yīng)用需要非常巨大的計(jì)算能力才能完成,如果采用集中式計(jì)算,需要耗費(fèi)相當(dāng)長(zhǎng)的時(shí)間來(lái)完成。分布式計(jì)算將該應(yīng)用分解成許多小的部分,分配給多臺(tái)計(jì)算機(jī)進(jìn)行處理。這樣可以共享稀有資源,平衡復(fù)雜,節(jié)約整體計(jì)算時(shí)間,大大提高計(jì)算效率和資源利用率。

      云計(jì)算:云計(jì)算早期,就是簡(jiǎn)單的分布式計(jì)算,解決任務(wù)分發(fā),并進(jìn)行計(jì)算結(jié)果的合并。因而,云計(jì)算又稱為網(wǎng)格計(jì)算,F(xiàn)階段所說(shuō)的云服務(wù)已經(jīng)不單單是一種分布式計(jì)算,而是分布式計(jì)算、效用計(jì)算、負(fù)載均衡、并行計(jì)算、網(wǎng)絡(luò)存儲(chǔ)、熱備份冗雜和虛擬化等計(jì)算機(jī)技術(shù)混合演進(jìn)并躍升的結(jié)果。

      智能化轉(zhuǎn)型和計(jì)算范式

      智能計(jì)算:是一種通用算力和AI算力的融合,計(jì)算和通信兩個(gè)領(lǐng)域的融合開創(chuàng)了智能計(jì)算的新天地,使得通用算力和AI算力的異構(gòu)成為現(xiàn)實(shí),從而支撐了大量以DNN為代表的AI應(yīng)用。

      AI新時(shí)代計(jì)算:今年3月15日,此前研發(fā)了ChatGPT的OpenAI公司,發(fā)布了新一代語(yǔ)言模型GPT-4,引起全球廣泛關(guān)注。GPT4擁有超過(guò)1.6萬(wàn)億個(gè)參數(shù),而GPT3只有1750億個(gè)參數(shù)(1.75e+11)。這意味著GPT4可以處理更多的數(shù)據(jù),生成更長(zhǎng)、更復(fù)雜、更連貫、更準(zhǔn)確、更多樣化和更有創(chuàng)造力的文本。

      智能化轉(zhuǎn)型:加速大數(shù)據(jù)、大模型、大算力融合

      隨著大模型的快速發(fā)展和部署,人工智能正在推動(dòng)各行各業(yè)的變革,從圖片文字識(shí)別、推薦系統(tǒng)、視頻內(nèi)容搜索、文字翻譯甚至到云端應(yīng)用場(chǎng)景都與人工智能息息相關(guān)。未來(lái)的人工智能上游有三大場(chǎng)景:企業(yè)應(yīng)用、消費(fèi)者和開發(fā)者,底層基礎(chǔ)設(shè)施有三大支柱:大數(shù)據(jù)、大模型和大算力,中間層則需要端邊云協(xié)同。

      (端邊云協(xié)同:云側(cè)中心化,邊側(cè)算力下沉,端側(cè)智能化)

      隨著 5G 、AI和IOT時(shí)代的到來(lái),僅靠云計(jì)算中心集中存儲(chǔ)、統(tǒng)一計(jì)算或集中式的模式已經(jīng)無(wú)法滿足終端設(shè)備對(duì)于時(shí)效、容量、算力的需求。端邊云協(xié)同方案,將 AI 算力下沉到邊緣,在靠近終端用戶的邊緣集群進(jìn)行數(shù)據(jù)本地處理,減少數(shù)據(jù)傳輸成本和存儲(chǔ)成本,并將 AI 算力下沉到邊緣,提高本地算力和邊緣智能,處理實(shí)時(shí)性要求高的場(chǎng)景需求;邊緣側(cè)和云端數(shù)據(jù)保持同步,云端集群提供更強(qiáng)大的算力支撐,針對(duì)實(shí)時(shí)性要求低、模型復(fù)雜的場(chǎng)景需求,提供復(fù)雜模型訓(xùn)練、配置、部署,為邊緣集群提供能力傳遞。

      AI新時(shí)代對(duì)數(shù)據(jù)中心算力創(chuàng)新的要求

      在1965年Gordon Moore提出摩爾定律到今天的近58年中,摩爾定律的效率已經(jīng)逐步衰退到接近失效。2017年在一篇著名的 "計(jì)算機(jī)體系結(jié)構(gòu)的新黃金時(shí)代 "的論文中,John Hennessy和David Paterson追溯了計(jì)算機(jī)體系結(jié)構(gòu)的歷史,并描述了隨著擴(kuò)展的結(jié)束而面臨的挑戰(zhàn)。他們認(rèn)為領(lǐng)域?qū)S眉軜?gòu)或領(lǐng)域?qū)S眉铀倨?DSA)是計(jì)算機(jī)架構(gòu)的新機(jī)遇。面向下一個(gè)計(jì)算時(shí)代,需要軟硬件全棧的系統(tǒng)全面創(chuàng)新,重點(diǎn)要在如下幾點(diǎn)突破:開放的通用指令微架構(gòu),高效的融合加速器,異構(gòu)互聯(lián)和I/O 設(shè)備,工具鏈和軟件優(yōu)化。

      從計(jì)算發(fā)展史,看未來(lái)計(jì)算新范式

      當(dāng)IBM設(shè)計(jì)出最早的通用電子計(jì)算機(jī)IBM360,當(dāng)程序員敲下*行Hello World程序,計(jì)算便從單CPU開始了。然后為了解決更大規(guī)模的問題,分布式計(jì)算蓬勃發(fā)展了起來(lái)。它的計(jì)算核心基本都是CPU,是同構(gòu)的。與此同時(shí),單CPU的計(jì)算能力不斷得到提高,多核,多線程,多層cache,片上加速器,原子性操作,Transaction Memory,位寬更寬,路數(shù)更多的計(jì)算單元。制造工藝也不斷進(jìn)步,65nm,45nm,22nm,14nm,7nm甚至到研發(fā)中的5nm,3nm,小小一塊芯片上集成的晶體管數(shù)目在不斷挑戰(zhàn)極限。

      計(jì)算發(fā)展史:?jiǎn)魏?rarr;多核→分布式→異構(gòu)

      “每過(guò)18個(gè)月,集成電路上的晶體管數(shù)目就會(huì)翻倍”,這是著名的摩爾定律?墒,時(shí)代發(fā)展到了今天,隨著人類不斷接近物理的極限,摩爾定律的增速也逐漸平緩,當(dāng)前需要靠異構(gòu)計(jì)算滿足高速增長(zhǎng)的計(jì)算需求;那未來(lái)的計(jì)算模式會(huì)會(huì)如何,怎樣滿足下一代人工智能的快速發(fā)展?

      計(jì)算范式:通用性vs專用性

      計(jì)算架構(gòu)的演進(jìn)是從以 CPU 為中心,逐步到現(xiàn)在的 DSA 對(duì)等架構(gòu),可以稱為XPU (包括 CPU、GPU、NPU、DPU、QPU 等,QPU 即量子計(jì)算單元)。未來(lái)會(huì)怎樣繼續(xù)演進(jìn)呢?會(huì)出現(xiàn)怎樣的新計(jì)算架構(gòu)?

      在技術(shù)延長(zhǎng)線上,操作系統(tǒng)要持續(xù)去攻克 DSA 架構(gòu)下的 XPU 異構(gòu)算力間的高效協(xié)同與資源共享能力。但可以看到,DSA 的原生弊端正在逐步顯現(xiàn),一方面是廠家需要看護(hù)多種多樣的硬件架構(gòu),維護(hù)成本極其高,且存在功能重疊的問題。而且 DSA 很多是為特定運(yùn)算設(shè)計(jì)的,稍微改變運(yùn)算的形狀 (shape),可能會(huì)導(dǎo)致效率有很大下降。此外,還存在軟件棧難共享,XPU 間協(xié)同調(diào)度效率低等問題。

      沒有專用結(jié)構(gòu)就不可能有通用結(jié)構(gòu)所產(chǎn)生的基礎(chǔ)材料,就不可能延展到做成通用產(chǎn)品的芯片。沒有通用結(jié)構(gòu)就不可能有可以分層復(fù)用和清晰編程界面的接口,并通過(guò)泛化去擴(kuò)展更多的應(yīng)用場(chǎng)景和市場(chǎng)空間。泛化這個(gè)邏輯在商業(yè)市場(chǎng)是必需品,因?yàn)榉夯芰σ馕吨统杀荆瑥亩哉虻腞OI(投資回報(bào))做為商業(yè)閉環(huán)才能驅(qū)動(dòng)技術(shù)長(zhǎng)期穩(wěn)健發(fā)展,歷史上很多曇花一現(xiàn)的技術(shù)和產(chǎn)品,從指標(biāo)上看都很好,但泛化能力有限,最終都倒在了商業(yè)閉環(huán)上。

      按照牧村定律,業(yè)界有望誕生出新的計(jì)算架構(gòu)。(牧村定律/牧村波動(dòng),日立公司總工程師牧村次夫 (Tsugio Makimoto) 在 1987 年提出,芯片架構(gòu)的發(fā)展,總是在分層解耦和垂直整合之間交替擺動(dòng),大概每十年波動(dòng)一次。牧村定律背后是性能功耗和開發(fā)效率之間的平衡。) 經(jīng)過(guò)當(dāng)下 DSA 這樣的“分”之后,未來(lái)一段時(shí)間內(nèi),如果大部分的算力模型已定型,出于維護(hù)、成本、能力發(fā)揮等因素的考量,大家可能會(huì)自然想到,能否將各種 XPU 進(jìn)行融合,甚至融合到同一個(gè)架構(gòu)上去呢?這個(gè)新計(jì)算架構(gòu)到底是什么,目前還需要進(jìn)一步探索。

      但不管怎么樣,操作系統(tǒng)的計(jì)算范式可能會(huì)被重新定義,其底層的機(jī)制也將大幅重構(gòu)。

      計(jì)算范式:分層解耦vs垂直整合

      在華為計(jì)算2030中,曾有一章節(jié)介紹過(guò),軟硬件分層和整合的關(guān)系。具體來(lái)講,軟硬件垂直整合和分層解耦看似是兩種不同的方法論,但實(shí)際是辯證統(tǒng)一的。分層抽象和解耦,是計(jì)算機(jī)領(lǐng)域普遍適用的分而治之思想。圖靈獎(jiǎng)獲得者 Butler Lampson 提過(guò)這樣一個(gè)大家熟知的理念,即“計(jì)算機(jī)科學(xué)的任何問題都可以通過(guò)增加一個(gè)中間層來(lái)解決”(其實(shí)是增加一個(gè)抽象來(lái)解決),但他后面還講了一句話大家都常常忽視,“除了因此引起的層次厚重的問題”。

      隨著人工智能領(lǐng)域的快速深入發(fā)展,我們?cè)诤芏鄨?chǎng)景中還是需要一些短鏈條式的創(chuàng)新。比如,操作系統(tǒng)的應(yīng)用調(diào)用,可以分不同層級(jí),使其調(diào)用到不同效率的接口。垂直整合是面向硬件與業(yè)務(wù)的重新分層與協(xié)同,并非走向“煙囪化”。在合理軟硬分工協(xié)同上,應(yīng)結(jié)合硬件與業(yè)務(wù)的特征,提供“短鏈條創(chuàng)新”。

      產(chǎn)業(yè)界正在關(guān)注的三大熱點(diǎn)

      當(dāng)然,垂直整合仍要堅(jiān)持軟件的平臺(tái)化,構(gòu)筑友好的生態(tài),而不是走向自我封閉。目前做GPU、NPU、DPU及其他XPU的廠商無(wú)一例外的都在思考這一問題。這進(jìn)而引出了業(yè)界正在廣泛關(guān)注的三大熱點(diǎn)話題:

      熱點(diǎn)1:ARM在通用場(chǎng)景加速替代x86,RISC-V正在加速構(gòu)建ISA新體系

      RISC-V主打開源(僅ISA)指令集架構(gòu),也就是說(shuō) RISC-V 指令集可以自由地用于任何目的,允許任何人設(shè)計(jì)、制造和銷售 RISC-V 芯片和軟件,而不必向任何公司支付專利費(fèi)用。RISC-V的一大優(yōu)點(diǎn)是模塊化:芯片設(shè)計(jì)者可以根據(jù)自己的需求,對(duì)不需要的模塊進(jìn)行拆解;芯片設(shè)計(jì)模塊化能夠極大的提升產(chǎn)品的靈活度,使得設(shè)計(jì)與應(yīng)用更加匹配。

      RISC-V有很大的后發(fā)優(yōu)勢(shì),但也要注意工具鏈、生態(tài)層面要做的功課依舊艱巨,特別是高性能領(lǐng)域。高性能領(lǐng)域如HPC、數(shù)據(jù)庫(kù)、企業(yè)存儲(chǔ)等不僅軟件棧厚重,而且需要很深的行業(yè)知識(shí)沉淀。因而未來(lái)要避免生態(tài)碎片化,避免大家在同樣的指令集架構(gòu)下還去重復(fù)“造輪子”。因此在一些基礎(chǔ)的編譯工具鏈、操作系統(tǒng),比如GCC/LLVM,Linux等,希望整個(gè)行業(yè)能夠合力去共同打造,而不是說(shuō)每個(gè)RISC-V廠家都要自己做一套,這其實(shí)是一個(gè)很大的浪費(fèi)。

      ARM 架構(gòu)花了10年多時(shí)間從消費(fèi)端到數(shù)據(jù)中心端逐步打造完整生態(tài),RISC-V 未來(lái)在通用服務(wù)器場(chǎng)景有很大潛力,但也需要比較長(zhǎng)時(shí)間去沉淀,短時(shí)間內(nèi)更適合專用場(chǎng)景,其中AI推理將是極大的機(jī)會(huì)。

      熱點(diǎn)2:AI模型小型化和RISC-V架構(gòu)不謀而合

      通用+異構(gòu)融合,即 Scaler小標(biāo)量+SIMT大算力的指令集+微架構(gòu)融合將是未來(lái)RISC-V 發(fā)力重點(diǎn),面向AI推理側(cè)應(yīng)用產(chǎn)生巨大優(yōu)勢(shì)。

      左圖:GPU的發(fā)展,滿足了大型 DNN 網(wǎng)絡(luò)的內(nèi)存帶寬和計(jì)算能力的需求。由于計(jì)算能力的提高和可用數(shù)據(jù)量的增加,DNN 已經(jīng)演變成更寬、更深的架構(gòu)。DNN 中的層數(shù)可以達(dá)到數(shù)萬(wàn)層,參數(shù)達(dá)數(shù)十億,研究人員很難在硬件資源(例如,內(nèi)存、帶寬和功耗)有限的便攜式設(shè)備中部署 DNN。迫切需要在資源受限的邊緣設(shè)備(例如,手機(jī)、嵌入式設(shè)備、智能可穿戴設(shè)備、機(jī)器人、無(wú)人機(jī)等)中有效部署 DNN 的方法。于是AI科學(xué)家們又開展AI模型小型化的研究,也就是用最少的參數(shù)量,最少的計(jì)算量去達(dá)到想要的模型精度。于是shufflenet、mobilenet、網(wǎng)絡(luò)架構(gòu)搜索 (NAS) 算法等輕量級(jí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)開始被推出。能夠在很少的參數(shù)量上去達(dá)到與大參數(shù)量模型接近的精度。同時(shí)神經(jīng)網(wǎng)絡(luò)的參數(shù)剪枝、參數(shù)量化、緊湊網(wǎng)絡(luò)、知識(shí)蒸餾、低秩分解、參數(shù)共享、混合方式等等壓縮技術(shù)與計(jì)算加速技術(shù)開始成為研究的熱門。

      右圖:RISC-V 因其相對(duì)精簡(jiǎn)的指令集架構(gòu)(ISA)以及開源寬松的 BSD 協(xié)議使得Fabless可以基于RISC-V架構(gòu)進(jìn)行任意的架構(gòu)拓展與定制。相信RISC-V DSA可以利用其經(jīng)典的CPU的編程模型與相對(duì)低成本獲取的AI算力,加之標(biāo)準(zhǔn)RISC-V Vector拓展提供的通用算力。能夠給AI推理場(chǎng)景下幾十~幾百T算力需求范圍的AI產(chǎn)業(yè)應(yīng)用帶來(lái)全新的商業(yè)化硬件方案。RISC-V,其精簡(jiǎn)的架構(gòu)使得芯片架構(gòu)師們能夠?qū)⒏嗟木性谛阅芴匦陨,而不是解決其他 ISA 的歷史包袱和極端問題。除了標(biāo)準(zhǔn)的 RISC-V 指令外,RISC V 架構(gòu)還支持自定義的指令擴(kuò)展,如多周期張量指令和伴隨的向量超越指令(vector transcendental instructions),為AI推理側(cè)的很多應(yīng)用提供高效支持。

      比如近年來(lái)大熱的Jim Keller所在的Tenstorrent有一個(gè)全面的路線圖,包括基于RISC-V的高性能CPU小芯片和先進(jìn)的AI加速器小芯片,它們有望為機(jī)器學(xué)習(xí)提供功能強(qiáng)大的解決方案,提供AI加速器和高性能CPU內(nèi)核似乎是一種非常靈活的商業(yè)模式。

      熱點(diǎn)3:一致性異構(gòu)總線和高速互聯(lián)使得通用算力和異構(gòu)算力緊密耦合

      異構(gòu)編程一直是整個(gè)異構(gòu)計(jì)算系統(tǒng)中一個(gè)比較頭疼的事情。通用算力和異構(gòu)算力需要通過(guò)CPU上比較豐富的異構(gòu)計(jì)算接口資源(NVLink/CXL/UCIE, etc)緊密相連,使得整個(gè)系統(tǒng)的內(nèi)存在邏輯上可以被統(tǒng)一為一個(gè)更大的具有一致性的內(nèi)存空間,可以同時(shí)供各種異構(gòu)算力芯片來(lái)進(jìn)行訪問,這種一致性的模式可以讓異構(gòu)計(jì)算芯片之間更好的協(xié)同工作,從而提高整個(gè)系統(tǒng)的性能和功耗。

      另外很重要的一點(diǎn)是,高效的異構(gòu)一致性總線可以使編程的復(fù)雜度大幅度降低,程序員可以更多去關(guān)注計(jì)算分配本身,而不用去過(guò)多的考慮Memory去尋址的問題。因?yàn)檎麄(gè)系統(tǒng)具有統(tǒng)一的一致性內(nèi)存模型,針對(duì)該模型,可以去設(shè)計(jì)專門對(duì)統(tǒng)一尋址的模型基礎(chǔ)優(yōu)化過(guò)的軟件庫(kù)。

      一致性異構(gòu)總線讓XPU與CPU處理器協(xié)同更加緊密

      如圖所示,以CPU和GPU協(xié)同計(jì)算為例,CPU和GPU通過(guò)異構(gòu)計(jì)算接口和總線緊密相連,CPU System memory和加速器Cache memory在邏輯上被統(tǒng)一為一個(gè)更大的具有一致性的內(nèi)存空間, 可同時(shí)供CPU和GPU訪問,使得編程復(fù)雜度得以降低,原因如下:1)整個(gè)系統(tǒng)具有統(tǒng)一的一致性內(nèi)存模型;2)豐富的專門針對(duì)此異構(gòu)計(jì)算架構(gòu)進(jìn)行優(yōu)化的軟件庫(kù) (OpenMP4.x, OpenACC, etc.)

      特別是對(duì)于DSA專用芯片,有效算力(或可獲得算力)往往尤其重要,直接決定應(yīng)用的實(shí)際性能,而不是紙面上的算力(FLOPS 或 MACs)。為了更直觀簡(jiǎn)單的量化分析有效算力,我們可以通過(guò)Roofline模型分析,這是由加州理工大學(xué)伯利克提出的用來(lái)建立當(dāng)前計(jì)算平臺(tái)在不同的計(jì)算強(qiáng)度(Operational Intensity)下能夠達(dá)到的理論計(jì)算上限 。

      如以上示意圖所示:以CPU或GPU芯片為例,屋頂線模型(Roofline Model)中縱軸P代表芯片算力,單位是操作數(shù)每秒,橫軸I代表AI或OI應(yīng)用的計(jì)算強(qiáng)度(Arithmetic/Operational intensity),即單位內(nèi)存交換用來(lái)進(jìn)行了多少次計(jì)算,單位是操作數(shù)每字節(jié)。AI應(yīng)用的計(jì)算強(qiáng)度可以由應(yīng)用的計(jì)算量除以應(yīng)用的訪存量得到。

      屋頂線模型可以體現(xiàn)出芯片的三個(gè)重要參數(shù),它們分別是π代表了芯片的算力峰值,β代表芯片的內(nèi)存帶寬峰值,即每秒最多能完成的內(nèi)存交換量,單位是字節(jié)每秒,亦即圖中綠色斜線和X軸的夾角。第三個(gè)參數(shù)是Imax,代表芯片的計(jì)算強(qiáng)度上限,即π/β。此外圖中曲線脊點(diǎn)(Ridge Point)代表了達(dá)到峰值算力所需的最小的計(jì)算強(qiáng)度。

      屋頂線模型把平均帶寬需求和峰值計(jì)算能力與吞吐量聯(lián)系在一起,以計(jì)算強(qiáng)度上限Imax為界,劃分出芯片的兩個(gè)瓶頸區(qū)域,即圖中內(nèi)存受限區(qū)(Memory Bound)和計(jì)算受限區(qū)(Compute Bound)。

      由此可知,一味通過(guò)簡(jiǎn)單粗暴堆砌硬件資源(MACs)提升算力(FLOPS)并不經(jīng)濟(jì),而是結(jié)合提升總線/內(nèi)存/接口整體效率,以差異化SoC的硬件形態(tài)并配合軟硬件協(xié)同優(yōu)化,來(lái)提升有效算力是面向真實(shí)應(yīng)用產(chǎn)生價(jià)值的關(guān)鍵。

      芯片工程,提升大算力的關(guān)鍵路徑

      隨著 Chiplet、3D 堆疊、Wafer Scale Computing / Wafer on Wafer  等芯片技術(shù)的出現(xiàn),單純依靠摩爾定律的芯片工藝可能會(huì)演變?yōu)橹饕揽啃酒こ,成為提升算力密度的關(guān)鍵路徑。

      Cerebras 以其WSE-2 (Wafer Scale Engine)芯片而聞名,它是世界上*的芯片之一,類似于一個(gè)8x8英寸的平板,每個(gè)平板包含2.6萬(wàn)億個(gè)晶體管和85萬(wàn)個(gè)“人工智能優(yōu)化”內(nèi)核。特斯拉通過(guò)使用臺(tái)積電芯片先進(jìn)封裝技術(shù)InFO_SoW,集成25個(gè)D1芯片的訓(xùn)練模塊在人工智能訓(xùn)練芯片D1上,從而構(gòu)建出Dojo超算系統(tǒng)的基本單元,到24年初,Dojo將成為全球*進(jìn)的5臺(tái)超級(jí)計(jì)算機(jī)之一,Dojo的交付將加速自動(dòng)駕駛FSD和人形機(jī)器人走進(jìn)現(xiàn)實(shí)。

      Cerebras & Tesla 面向大模型的Wafer Level 大芯片

      以Tesla 的Dojo為例,他的特別之處在于,其D1 芯片 tile并非由多個(gè)小芯片所構(gòu)成,而是單一包含354個(gè)核心的大芯片,專門針對(duì)AI和機(jī)器學(xué)習(xí)設(shè)計(jì)而成。之后,一個(gè)托架可以容納6塊D1 tile外加配套計(jì)算硬件,每臺(tái)機(jī)柜可以安裝兩個(gè)這樣的托架。這樣算來(lái),每機(jī)柜就將包含4248個(gè)核心,而由10臺(tái)機(jī)柜組成的exapod共擁有42480個(gè)核心。基于CPU的超級(jí)計(jì)算機(jī)在相同空間中的核心數(shù)量肯定達(dá)不到這么多,GPU在這方面具有碾壓性優(yōu)勢(shì)。而且由于Dojo專門針對(duì)AI和機(jī)器學(xué)習(xí)處理進(jìn)行了優(yōu)化,所以在同等數(shù)據(jù)中心空間之內(nèi),它比傳統(tǒng)CPU或GPU超級(jí)計(jì)算機(jī)都要快上幾個(gè)數(shù)量級(jí)。

      基于上述思考,筆者認(rèn)為,開放微架構(gòu)、異構(gòu)互聯(lián)、芯片工程高速將演進(jìn)推動(dòng) “算力統(tǒng)一場(chǎng)”。

      寫在最后,一些展望

      在行業(yè)內(nèi)都在焦慮集成電路的發(fā)展受困于摩爾定律不斷放緩并走向極限, John M. Hennessy和David A. Patterson (2017年圖靈獎(jiǎng)獲得者)在2018年圖靈講座曾發(fā)表過(guò):“計(jì)算機(jī)體系結(jié)構(gòu)的黃金時(shí)代” (講座視頻:https://www.bilibili.com/video/av756320330/)。

      當(dāng)前,隨著新應(yīng)用、新技術(shù)的持續(xù)演進(jìn),特別是AI大模型、算力網(wǎng)絡(luò)等快速推進(jìn),計(jì)算芯片新范式也隨之出現(xiàn),使得算力基礎(chǔ)架構(gòu)正在快速發(fā)展, 新的集成電路體系架構(gòu)黃金時(shí)代也在加速到來(lái),也將給芯片行業(yè)注入更多創(chuàng)新的機(jī)會(huì)。

      未來(lái)的機(jī)會(huì):重構(gòu)計(jì)算體系結(jié)構(gòu),打造算力統(tǒng)一場(chǎng),發(fā)展軟件大生態(tài)

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無(wú)人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會(huì)即將開幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。