大芯片，新機(jī)會(huì)！

2023年08月16日 14:12:38 尹文@芯至科技 來(lái)源：微信公眾號(hào)：半導(dǎo)體行業(yè)觀察

　　“計(jì)算”的演變：新時(shí)代提出“芯”要求

　　在詳細(xì)介紹計(jì)算要求之前，我們先要了解一下這幾個(gè)“計(jì)算”。

　　集中式計(jì)算：PC (personal computer，個(gè)人計(jì)算機(jī))一詞源自于1981年IBM的*部桌上型計(jì)算機(jī)。集中式計(jì)算主要是通過(guò)不斷增加處理器的性能來(lái)增強(qiáng)單個(gè)計(jì)算機(jī)的計(jì)算能力

　　分布式計(jì)算：是一種計(jì)算方法和計(jì)算形態(tài)，和集中式計(jì)算是相對(duì)的。隨著計(jì)算技術(shù)的發(fā)展，有些應(yīng)用需要非常巨大的計(jì)算能力才能完成，如果采用集中式計(jì)算，需要耗費(fèi)相當(dāng)長(zhǎng)的時(shí)間來(lái)完成。分布式計(jì)算將該應(yīng)用分解成許多小的部分，分配給多臺(tái)計(jì)算機(jī)進(jìn)行處理。這樣可以共享稀有資源，平衡復(fù)雜，節(jié)約整體計(jì)算時(shí)間，大大提高計(jì)算效率和資源利用率。

　　云計(jì)算：云計(jì)算早期，就是簡(jiǎn)單的分布式計(jì)算，解決任務(wù)分發(fā)，并進(jìn)行計(jì)算結(jié)果的合并。因而，云計(jì)算又稱(chēng)為網(wǎng)格計(jì)算�，F(xiàn)階段所說(shuō)的云服務(wù)已經(jīng)不單單是一種分布式計(jì)算，而是分布式計(jì)算、效用計(jì)算、負(fù)載均衡、并行計(jì)算、網(wǎng)絡(luò)存儲(chǔ)、熱備份冗雜和虛擬化等計(jì)算機(jī)技術(shù)混合演進(jìn)并躍升的結(jié)果。

　　智能化轉(zhuǎn)型和計(jì)算范式

　　智能計(jì)算：是一種通用算力和AI算力的融合，計(jì)算和通信兩個(gè)領(lǐng)域的融合開(kāi)創(chuàng)了智能計(jì)算的新天地，使得通用算力和AI算力的異構(gòu)成為現(xiàn)實(shí)，從而支撐了大量以DNN為代表的AI應(yīng)用。

　　AI新時(shí)代計(jì)算：今年3月15日，此前研發(fā)了ChatGPT的OpenAI公司，發(fā)布了新一代語(yǔ)言模型GPT-4，引起全球廣泛關(guān)注。GPT4擁有超過(guò)1.6萬(wàn)億個(gè)參數(shù)，而GPT3只有1750億個(gè)參數(shù)(1.75e+11)。這意味著GPT4可以處理更多的數(shù)據(jù)，生成更長(zhǎng)、更復(fù)雜、更連貫、更準(zhǔn)確、更多樣化和更有創(chuàng)造力的文本。

　　智能化轉(zhuǎn)型：加速大數(shù)據(jù)、大模型、大算力融合

　　隨著大模型的快速發(fā)展和部署，人工智能正在推動(dòng)各行各業(yè)的變革，從圖片文字識(shí)別、推薦系統(tǒng)、視頻內(nèi)容搜索、文字翻譯甚至到云端應(yīng)用場(chǎng)景都與人工智能息息相關(guān)。未來(lái)的人工智能上游有三大場(chǎng)景：企業(yè)應(yīng)用、消費(fèi)者和開(kāi)發(fā)者，底層基礎(chǔ)設(shè)施有三大支柱：大數(shù)據(jù)、大模型和大算力，中間層則需要端邊云協(xié)同。

　　(端邊云協(xié)同：云側(cè)中心化，邊側(cè)算力下沉，端側(cè)智能化)

　　隨著 5G 、AI和IOT時(shí)代的到來(lái)，僅靠云計(jì)算中心集中存儲(chǔ)、統(tǒng)一計(jì)算或集中式的模式已經(jīng)無(wú)法滿(mǎn)足終端設(shè)備對(duì)于時(shí)效、容量、算力的需求。端邊云協(xié)同方案，將 AI 算力下沉到邊緣，在靠近終端用戶(hù)的邊緣集群進(jìn)行數(shù)據(jù)本地處理，減少數(shù)據(jù)傳輸成本和存儲(chǔ)成本，并將 AI 算力下沉到邊緣，提高本地算力和邊緣智能，處理實(shí)時(shí)性要求高的場(chǎng)景需求;邊緣側(cè)和云端數(shù)據(jù)保持同步，云端集群提供更強(qiáng)大的算力支撐，針對(duì)實(shí)時(shí)性要求低、模型復(fù)雜的場(chǎng)景需求，提供復(fù)雜模型訓(xùn)練、配置、部署，為邊緣集群提供能力傳遞。

　　AI新時(shí)代對(duì)數(shù)據(jù)中心算力創(chuàng)新的要求

　　在1965年Gordon Moore提出摩爾定律到今天的近58年中，摩爾定律的效率已經(jīng)逐步衰退到接近失效。2017年在一篇著名的 "計(jì)算機(jī)體系結(jié)構(gòu)的新黃金時(shí)代 "的論文中，John Hennessy和David Paterson追溯了計(jì)算機(jī)體系結(jié)構(gòu)的歷史，并描述了隨著擴(kuò)展的結(jié)束而面臨的挑戰(zhàn)。他們認(rèn)為領(lǐng)域?qū)Ｓ眉軜?gòu)或領(lǐng)域?qū)Ｓ眉铀倨?DSA)是計(jì)算機(jī)架構(gòu)的新機(jī)遇。面向下一個(gè)計(jì)算時(shí)代，需要軟硬件全棧的系統(tǒng)全面創(chuàng)新，重點(diǎn)要在如下幾點(diǎn)突破：開(kāi)放的通用指令微架構(gòu)，高效的融合加速器，異構(gòu)互聯(lián)和I/O 設(shè)備，工具鏈和軟件優(yōu)化。

　　從計(jì)算發(fā)展史，看未來(lái)計(jì)算新范式

　　當(dāng)IBM設(shè)計(jì)出最早的通用電子計(jì)算機(jī)IBM360，當(dāng)程序員敲下*行Hello World程序，計(jì)算便從單CPU開(kāi)始了。然后為了解決更大規(guī)模的問(wèn)題，分布式計(jì)算蓬勃發(fā)展了起來(lái)。它的計(jì)算核心基本都是CPU，是同構(gòu)的。與此同時(shí)，單CPU的計(jì)算能力不斷得到提高，多核，多線程，多層cache，片上加速器，原子性操作，Transaction Memory，位寬更寬，路數(shù)更多的計(jì)算單元。制造工藝也不斷進(jìn)步，65nm，45nm，22nm，14nm，7nm甚至到研發(fā)中的5nm，3nm，小小一塊芯片上集成的晶體管數(shù)目在不斷挑戰(zhàn)極限。

　　計(jì)算發(fā)展史：?jiǎn)魏?rarr;多核→分布式→異構(gòu)

　　“每過(guò)18個(gè)月，集成電路上的晶體管數(shù)目就會(huì)翻倍”，這是著名的摩爾定律�？墒牵瑫r(shí)代發(fā)展到了今天，隨著人類(lèi)不斷接近物理的極限，摩爾定律的增速也逐漸平緩，當(dāng)前需要靠異構(gòu)計(jì)算滿(mǎn)足高速增長(zhǎng)的計(jì)算需求;那未來(lái)的計(jì)算模式會(huì)會(huì)如何，怎樣滿(mǎn)足下一代人工智能的快速發(fā)展?

　　計(jì)算范式：通用性vs專(zhuān)用性

　　計(jì)算架構(gòu)的演進(jìn)是從以 CPU 為中心，逐步到現(xiàn)在的 DSA 對(duì)等架構(gòu)，可以稱(chēng)為XPU (包括 CPU、GPU、NPU、DPU、QPU 等，QPU 即量子計(jì)算單元)。未來(lái)會(huì)怎樣繼續(xù)演進(jìn)呢?會(huì)出現(xiàn)怎樣的新計(jì)算架構(gòu)?

　　在技術(shù)延長(zhǎng)線上，操作系統(tǒng)要持續(xù)去攻克 DSA 架構(gòu)下的 XPU 異構(gòu)算力間的高效協(xié)同與資源共享能力。但可以看到，DSA 的原生弊端正在逐步顯現(xiàn)，一方面是廠家需要看護(hù)多種多樣的硬件架構(gòu)，維護(hù)成本極其高，且存在功能重疊的問(wèn)題。而且 DSA 很多是為特定運(yùn)算設(shè)計(jì)的，稍微改變運(yùn)算的形狀 (shape)，可能會(huì)導(dǎo)致效率有很大下降。此外，還存在軟件棧難共享，XPU 間協(xié)同調(diào)度效率低等問(wèn)題。

　　沒(méi)有專(zhuān)用結(jié)構(gòu)就不可能有通用結(jié)構(gòu)所產(chǎn)生的基礎(chǔ)材料，就不可能延展到做成通用產(chǎn)品的芯片。沒(méi)有通用結(jié)構(gòu)就不可能有可以分層復(fù)用和清晰編程界面的接口，并通過(guò)泛化去擴(kuò)展更多的應(yīng)用場(chǎng)景和市場(chǎng)空間。泛化這個(gè)邏輯在商業(yè)市場(chǎng)是必需品，因?yàn)榉夯芰σ馕吨统杀荆瑥亩哉虻腞OI(投資回報(bào))做為商業(yè)閉環(huán)才能驅(qū)動(dòng)技術(shù)長(zhǎng)期穩(wěn)健發(fā)展，歷史上很多曇花一現(xiàn)的技術(shù)和產(chǎn)品，從指標(biāo)上看都很好，但泛化能力有限，最終都倒在了商業(yè)閉環(huán)上。

　　按照牧村定律，業(yè)界有望誕生出新的計(jì)算架構(gòu)。(牧村定律/牧村波動(dòng)，日立公司總工程師牧村次夫 (Tsugio Makimoto) 在 1987 年提出，芯片架構(gòu)的發(fā)展，總是在分層解耦和垂直整合之間交替擺動(dòng)，大概每十年波動(dòng)一次。牧村定律背后是性能功耗和開(kāi)發(fā)效率之間的平衡。) 經(jīng)過(guò)當(dāng)下 DSA 這樣的“分”之后，未來(lái)一段時(shí)間內(nèi)，如果大部分的算力模型已定型，出于維護(hù)、成本、能力發(fā)揮等因素的考量，大家可能會(huì)自然想到，能否將各種 XPU 進(jìn)行融合，甚至融合到同一個(gè)架構(gòu)上去呢?這個(gè)新計(jì)算架構(gòu)到底是什么，目前還需要進(jìn)一步探索。

　　但不管怎么樣，操作系統(tǒng)的計(jì)算范式可能會(huì)被重新定義，其底層的機(jī)制也將大幅重構(gòu)。

　　計(jì)算范式：分層解耦vs垂直整合

　　在華為計(jì)算2030中，曾有一章節(jié)介紹過(guò)，軟硬件分層和整合的關(guān)系。具體來(lái)講，軟硬件垂直整合和分層解耦看似是兩種不同的方法論，但實(shí)際是辯證統(tǒng)一的。分層抽象和解耦，是計(jì)算機(jī)領(lǐng)域普遍適用的分而治之思想。圖靈獎(jiǎng)獲得者 Butler Lampson 提過(guò)這樣一個(gè)大家熟知的理念，即“計(jì)算機(jī)科學(xué)的任何問(wèn)題都可以通過(guò)增加一個(gè)中間層來(lái)解決”(其實(shí)是增加一個(gè)抽象來(lái)解決)，但他后面還講了一句話(huà)大家都常常忽視，“除了因此引起的層次厚重的問(wèn)題”。

　　隨著人工智能領(lǐng)域的快速深入發(fā)展，我們?cè)诤芏鄨?chǎng)景中還是需要一些短鏈條式的創(chuàng)新。比如，操作系統(tǒng)的應(yīng)用調(diào)用，可以分不同層級(jí)，使其調(diào)用到不同效率的接口。垂直整合是面向硬件與業(yè)務(wù)的重新分層與協(xié)同，并非走向“煙囪化”。在合理軟硬分工協(xié)同上，應(yīng)結(jié)合硬件與業(yè)務(wù)的特征，提供“短鏈條創(chuàng)新”。

　　產(chǎn)業(yè)界正在關(guān)注的三大熱點(diǎn)

　　當(dāng)然，垂直整合仍要堅(jiān)持軟件的平臺(tái)化，構(gòu)筑友好的生態(tài)，而不是走向自我封閉。目前做GPU、NPU、DPU及其他XPU的廠商無(wú)一例外的都在思考這一問(wèn)題。這進(jìn)而引出了業(yè)界正在廣泛關(guān)注的三大熱點(diǎn)話(huà)題：

　　熱點(diǎn)1：ARM在通用場(chǎng)景加速替代x86，RISC-V正在加速構(gòu)建ISA新體系

　　RISC-V主打開(kāi)源(僅ISA)指令集架構(gòu)，也就是說(shuō) RISC-V 指令集可以自由地用于任何目的，允許任何人設(shè)計(jì)、制造和銷(xiāo)售 RISC-V 芯片和軟件，而不必向任何公司支付專(zhuān)利費(fèi)用。RISC-V的一大優(yōu)點(diǎn)是模塊化：芯片設(shè)計(jì)者可以根據(jù)自己的需求，對(duì)不需要的模塊進(jìn)行拆解;芯片設(shè)計(jì)模塊化能夠極大的提升產(chǎn)品的靈活度，使得設(shè)計(jì)與應(yīng)用更加匹配。

　　RISC-V有很大的后發(fā)優(yōu)勢(shì)，但也要注意工具鏈、生態(tài)層面要做的功課依舊艱巨，特別是高性能領(lǐng)域。高性能領(lǐng)域如HPC、數(shù)據(jù)庫(kù)、企業(yè)存儲(chǔ)等不僅軟件棧厚重，而且需要很深的行業(yè)知識(shí)沉淀。因而未來(lái)要避免生態(tài)碎片化，避免大家在同樣的指令集架構(gòu)下還去重復(fù)“造輪子”。因此在一些基礎(chǔ)的編譯工具鏈、操作系統(tǒng)，比如GCC/LLVM，Linux等，希望整個(gè)行業(yè)能夠合力去共同打造，而不是說(shuō)每個(gè)RISC-V廠家都要自己做一套，這其實(shí)是一個(gè)很大的浪費(fèi)。

　　ARM 架構(gòu)花了10年多時(shí)間從消費(fèi)端到數(shù)據(jù)中心端逐步打造完整生態(tài)，RISC-V 未來(lái)在通用服務(wù)器場(chǎng)景有很大潛力，但也需要比較長(zhǎng)時(shí)間去沉淀，短時(shí)間內(nèi)更適合專(zhuān)用場(chǎng)景，其中AI推理將是極大的機(jī)會(huì)。

　　熱點(diǎn)2：AI模型小型化和RISC-V架構(gòu)不謀而合

　　通用+異構(gòu)融合，即 Scaler小標(biāo)量+SIMT大算力的指令集+微架構(gòu)融合將是未來(lái)RISC-V 發(fā)力重點(diǎn)，面向AI推理側(cè)應(yīng)用產(chǎn)生巨大優(yōu)勢(shì)。

　　左圖：GPU的發(fā)展，滿(mǎn)足了大型 DNN 網(wǎng)絡(luò)的內(nèi)存帶寬和計(jì)算能力的需求。由于計(jì)算能力的提高和可用數(shù)據(jù)量的增加，DNN 已經(jīng)演變成更寬、更深的架構(gòu)。DNN 中的層數(shù)可以達(dá)到數(shù)萬(wàn)層，參數(shù)達(dá)數(shù)十億，研究人員很難在硬件資源(例如，內(nèi)存、帶寬和功耗)有限的便攜式設(shè)備中部署 DNN。迫切需要在資源受限的邊緣設(shè)備(例如，手機(jī)、嵌入式設(shè)備、智能可穿戴設(shè)備、機(jī)器人、無(wú)人機(jī)等)中有效部署 DNN 的方法。于是AI科學(xué)家們又開(kāi)展AI模型小型化的研究，也就是用最少的參數(shù)量，最少的計(jì)算量去達(dá)到想要的模型精度。于是shufflenet、mobilenet、網(wǎng)絡(luò)架構(gòu)搜索 (NAS) 算法等輕量級(jí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)開(kāi)始被推出。能夠在很少的參數(shù)量上去達(dá)到與大參數(shù)量模型接近的精度。同時(shí)神經(jīng)網(wǎng)絡(luò)的參數(shù)剪枝、參數(shù)量化、緊湊網(wǎng)絡(luò)、知識(shí)蒸餾、低秩分解、參數(shù)共享、混合方式等等壓縮技術(shù)與計(jì)算加速技術(shù)開(kāi)始成為研究的熱門(mén)。

　　右圖：RISC-V 因其相對(duì)精簡(jiǎn)的指令集架構(gòu)(ISA)以及開(kāi)源寬松的 BSD 協(xié)議使得Fabless可以基于RISC-V架構(gòu)進(jìn)行任意的架構(gòu)拓展與定制。相信RISC-V DSA可以利用其經(jīng)典的CPU的編程模型與相對(duì)低成本獲取的AI算力，加之標(biāo)準(zhǔn)RISC-V Vector拓展提供的通用算力。能夠給AI推理場(chǎng)景下幾十~幾百T算力需求范圍的AI產(chǎn)業(yè)應(yīng)用帶來(lái)全新的商業(yè)化硬件方案。RISC-V，其精簡(jiǎn)的架構(gòu)使得芯片架構(gòu)師們能夠?qū)⒏嗟木性谛阅芴匦陨�，而不是解決其他 ISA 的歷史包袱和極端問(wèn)題。除了標(biāo)準(zhǔn)的 RISC-V 指令外，RISC V 架構(gòu)還支持自定義的指令擴(kuò)展，如多周期張量指令和伴隨的向量超越指令(vector transcendental instructions)，為AI推理側(cè)的很多應(yīng)用提供高效支持。

　　比如近年來(lái)大熱的Jim Keller所在的Tenstorrent有一個(gè)全面的路線圖，包括基于RISC-V的高性能CPU小芯片和先進(jìn)的AI加速器小芯片，它們有望為機(jī)器學(xué)習(xí)提供功能強(qiáng)大的解決方案，提供AI加速器和高性能CPU內(nèi)核似乎是一種非常靈活的商業(yè)模式。

　　熱點(diǎn)3：一致性異構(gòu)總線和高速互聯(lián)使得通用算力和異構(gòu)算力緊密耦合

　　異構(gòu)編程一直是整個(gè)異構(gòu)計(jì)算系統(tǒng)中一個(gè)比較頭疼的事情。通用算力和異構(gòu)算力需要通過(guò)CPU上比較豐富的異構(gòu)計(jì)算接口資源(NVLink/CXL/UCIE, etc)緊密相連，使得整個(gè)系統(tǒng)的內(nèi)存在邏輯上可以被統(tǒng)一為一個(gè)更大的具有一致性的內(nèi)存空間，可以同時(shí)供各種異構(gòu)算力芯片來(lái)進(jìn)行訪問(wèn)，這種一致性的模式可以讓異構(gòu)計(jì)算芯片之間更好的協(xié)同工作，從而提高整個(gè)系統(tǒng)的性能和功耗。

　　另外很重要的一點(diǎn)是，高效的異構(gòu)一致性總線可以使編程的復(fù)雜度大幅度降低，程序員可以更多去關(guān)注計(jì)算分配本身，而不用去過(guò)多的考慮Memory去尋址的問(wèn)題。因?yàn)檎麄€(gè)系統(tǒng)具有統(tǒng)一的一致性?xún)?nèi)存模型，針對(duì)該模型，可以去設(shè)計(jì)專(zhuān)門(mén)對(duì)統(tǒng)一尋址的模型基礎(chǔ)優(yōu)化過(guò)的軟件庫(kù)。

　　一致性異構(gòu)總線讓XPU與CPU處理器協(xié)同更加緊密

　　如圖所示，以CPU和GPU協(xié)同計(jì)算為例，CPU和GPU通過(guò)異構(gòu)計(jì)算接口和總線緊密相連，CPU System memory和加速器Cache memory在邏輯上被統(tǒng)一為一個(gè)更大的具有一致性的內(nèi)存空間, 可同時(shí)供CPU和GPU訪問(wèn)，使得編程復(fù)雜度得以降低，原因如下：1)整個(gè)系統(tǒng)具有統(tǒng)一的一致性?xún)?nèi)存模型;2)豐富的專(zhuān)門(mén)針對(duì)此異構(gòu)計(jì)算架構(gòu)進(jìn)行優(yōu)化的軟件庫(kù) (OpenMP4.x, OpenACC, etc.)

　　特別是對(duì)于DSA專(zhuān)用芯片，有效算力(或可獲得算力)往往尤其重要，直接決定應(yīng)用的實(shí)際性能，而不是紙面上的算力(FLOPS 或 MACs)。為了更直觀簡(jiǎn)單的量化分析有效算力，我們可以通過(guò)Roofline模型分析，這是由加州理工大學(xué)伯利克提出的用來(lái)建立當(dāng)前計(jì)算平臺(tái)在不同的計(jì)算強(qiáng)度(Operational Intensity)下能夠達(dá)到的理論計(jì)算上限。

　　如以上示意圖所示：以CPU或GPU芯片為例，屋頂線模型(Roofline Model)中縱軸P代表芯片算力，單位是操作數(shù)每秒，橫軸I代表AI或OI應(yīng)用的計(jì)算強(qiáng)度(Arithmetic/Operational intensity)，即單位內(nèi)存交換用來(lái)進(jìn)行了多少次計(jì)算，單位是操作數(shù)每字節(jié)。AI應(yīng)用的計(jì)算強(qiáng)度可以由應(yīng)用的計(jì)算量除以應(yīng)用的訪存量得到。

　　屋頂線模型可以體現(xiàn)出芯片的三個(gè)重要參數(shù)，它們分別是π代表了芯片的算力峰值，β代表芯片的內(nèi)存帶寬峰值，即每秒最多能完成的內(nèi)存交換量，單位是字節(jié)每秒，亦即圖中綠色斜線和X軸的夾角。第三個(gè)參數(shù)是Imax，代表芯片的計(jì)算強(qiáng)度上限，即π/β。此外圖中曲線脊點(diǎn)(Ridge Point)代表了達(dá)到峰值算力所需的最小的計(jì)算強(qiáng)度。

　　屋頂線模型把平均帶寬需求和峰值計(jì)算能力與吞吐量聯(lián)系在一起，以計(jì)算強(qiáng)度上限Imax為界，劃分出芯片的兩個(gè)瓶頸區(qū)域，即圖中內(nèi)存受限區(qū)(Memory Bound)和計(jì)算受限區(qū)(Compute Bound)。

　　由此可知，一味通過(guò)簡(jiǎn)單粗暴堆砌硬件資源(MACs)提升算力(FLOPS)并不經(jīng)濟(jì)，而是結(jié)合提升總線/內(nèi)存/接口整體效率，以差異化SoC的硬件形態(tài)并配合軟硬件協(xié)同優(yōu)化，來(lái)提升有效算力是面向真實(shí)應(yīng)用產(chǎn)生價(jià)值的關(guān)鍵。

　　芯片工程，提升大算力的關(guān)鍵路徑

　　隨著 Chiplet、3D 堆疊、Wafer Scale Computing / Wafer on Wafer 等芯片技術(shù)的出現(xiàn)，單純依靠摩爾定律的芯片工藝可能會(huì)演變?yōu)橹饕揽啃酒こ�，成為提升算力密度的關(guān)鍵路徑。

　　Cerebras 以其WSE-2 (Wafer Scale Engine)芯片而聞名，它是世界上*的芯片之一，類(lèi)似于一個(gè)8x8英寸的平板，每個(gè)平板包含2.6萬(wàn)億個(gè)晶體管和85萬(wàn)個(gè)“人工智能優(yōu)化”內(nèi)核。特斯拉通過(guò)使用臺(tái)積電芯片先進(jìn)封裝技術(shù)InFO_SoW，集成25個(gè)D1芯片的訓(xùn)練模塊在人工智能訓(xùn)練芯片D1上，從而構(gòu)建出Dojo超算系統(tǒng)的基本單元，到24年初，Dojo將成為全球*進(jìn)的5臺(tái)超級(jí)計(jì)算機(jī)之一，Dojo的交付將加速自動(dòng)駕駛FSD和人形機(jī)器人走進(jìn)現(xiàn)實(shí)。

　　Cerebras & Tesla 面向大模型的Wafer Level 大芯片

　　以Tesla 的Dojo為例，他的特別之處在于，其D1 芯片 tile并非由多個(gè)小芯片所構(gòu)成，而是單一包含354個(gè)核心的大芯片，專(zhuān)門(mén)針對(duì)AI和機(jī)器學(xué)習(xí)設(shè)計(jì)而成。之后，一個(gè)托架可以容納6塊D1 tile外加配套計(jì)算硬件，每臺(tái)機(jī)柜可以安裝兩個(gè)這樣的托架。這樣算來(lái)，每機(jī)柜就將包含4248個(gè)核心，而由10臺(tái)機(jī)柜組成的exapod共擁有42480個(gè)核心�；贑PU的超級(jí)計(jì)算機(jī)在相同空間中的核心數(shù)量肯定達(dá)不到這么多，GPU在這方面具有碾壓性?xún)?yōu)勢(shì)。而且由于Dojo專(zhuān)門(mén)針對(duì)AI和機(jī)器學(xué)習(xí)處理進(jìn)行了優(yōu)化，所以在同等數(shù)據(jù)中心空間之內(nèi)，它比傳統(tǒng)CPU或GPU超級(jí)計(jì)算機(jī)都要快上幾個(gè)數(shù)量級(jí)。

　　基于上述思考，筆者認(rèn)為，開(kāi)放微架構(gòu)、異構(gòu)互聯(lián)、芯片工程高速將演進(jìn)推動(dòng) “算力統(tǒng)一場(chǎng)”。

　　寫(xiě)在最后，一些展望

　　在行業(yè)內(nèi)都在焦慮集成電路的發(fā)展受困于摩爾定律不斷放緩并走向極限， John M. Hennessy和David A. Patterson (2017年圖靈獎(jiǎng)獲得者)在2018年圖靈講座曾發(fā)表過(guò)：“計(jì)算機(jī)體系結(jié)構(gòu)的黃金時(shí)代” (講座視頻：https://www.bilibili.com/video/av756320330/)。

　　當(dāng)前，隨著新應(yīng)用、新技術(shù)的持續(xù)演進(jìn)，特別是AI大模型、算力網(wǎng)絡(luò)等快速推進(jìn)，計(jì)算芯片新范式也隨之出現(xiàn)，使得算力基礎(chǔ)架構(gòu)正在快速發(fā)展，新的集成電路體系架構(gòu)黃金時(shí)代也在加速到來(lái)，也將給芯片行業(yè)注入更多創(chuàng)新的機(jī)會(huì)。

　　未來(lái)的機(jī)會(huì)：重構(gòu)計(jì)算體系結(jié)構(gòu)，打造算力統(tǒng)一場(chǎng)，發(fā)展軟件大生態(tài)