中國品牌,讓東南亞感受“消費升級”小紅書本地“坐抖望團”CrowdStrike“全球滅霸響指”事件后續(xù),德國 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實況照片了蘋果有線耳機或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測屏幕指紋殘留,提高手機安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性
  • 首頁 > 云計算頻道 > 公有云

    昆侖芯科技芯片研發(fā)總監(jiān)漆維:昆侖芯AI芯片——讓計算更智能

    2022年06月14日 10:36:08   來源:中文科技資訊

      在近日閉幕的2022北京智源大會上,昆侖芯科技芯片研發(fā)總監(jiān)漆維受邀參與 “芯片前沿技術(shù)”專題論壇。

      圍繞當前學術(shù)領(lǐng)域迫切需要解決的問題,以及產(chǎn)業(yè)落地過程中存在的諸多挑戰(zhàn),漆維與來自中科院、清華大學、北京大學、杜克大學、倫敦帝國理工學院的各位專家學者一同分享重大成果與真知灼見,獻上了一場誠意滿滿的芯片前沿技術(shù)盛宴。

      以下內(nèi)容整理于主題報告 “昆侖芯AI芯片:讓計算更智能”直播實錄:

      昆侖芯科技芯片研發(fā)總監(jiān)漆維

      大家好,我是來自昆侖芯科技的漆維。

      相信很多朋友都認同,當下是芯片最好的時代。我個人也是非常幸運,很早就進入AI芯片這個賽道。接下來,結(jié)合我和團隊這十年的積累講一講對這個領(lǐng)域的理解。

      AI芯片的機遇:空前繁榮的AI生態(tài)

      今天整個AI芯片生態(tài)非常繁榮。從場景看,語音、視覺、自然語言處理這些不同的場景,AI算法都有持續(xù)突破。這些算法的突破不僅僅是對原有業(yè)務(wù)進行新的賦能,也極大便利了人們的日常生活。

      另外一個維度,AI算法持續(xù)突破,工程師們嘗試更大的模型把AI能力帶到各行各業(yè)。國外GPT-3是首個千億規(guī)模的模型,國內(nèi)像百度的文心、智源的悟道在這塊也有了很多積累和突破。

      幾年前看AI的時候,大家可能會覺得AI更多是對現(xiàn)有業(yè)務(wù)做賦能,是“AI+”。但其實最近幾年,AI已經(jīng)開始去賦能產(chǎn)業(yè)變革,像自動駕駛這個萬億級的市場,可以改變?nèi)藗兊某鲂蟹绞健A硗庖粋案例是Alphafold做蛋白質(zhì)結(jié)構(gòu)預(yù)測。能看到,AI算法很有機會對當前的科學難題進行突破。

      上層整個AI生態(tài)非常繁榮,AI算法也不是第一次提出了,為什么最近這十年發(fā)展特別好?

      其實是因為底層的AI計算提供了支持。當然,眾所周知摩爾定律正在逐漸失效,傳統(tǒng)的處理器結(jié)構(gòu)已經(jīng)不能滿足支持。GPU得益于很早在HPC有布局,也對架構(gòu)進行了迭代。除了NV的GPU,國外以谷歌為例,結(jié)合自己的場景和需求去自研了AI芯片。在國內(nèi),互聯(lián)網(wǎng)紛紛下場造芯,同時也有很多AI的startup進入這個賽道?梢哉f,對AI芯片來說,這確實是一個歷史性的新機遇。

      理想非常好,上層整個生態(tài)及算法對底層都有硬件的依賴,自研AI芯片不僅能解決這種需求,同時也是利國利民的事情。但回到現(xiàn)實,就沒有那么豐滿了,這是一件很有挑戰(zhàn)的事情。

      AI芯片的挑戰(zhàn)

      AI芯片真的能做到在產(chǎn)業(yè)大規(guī)模落地是一件非常有挑戰(zhàn)的事情。

      首先,算法的多樣化。前面提到,AI是有多種產(chǎn)品的,語音、視覺、自然語言處理,不同的業(yè)務(wù)場景有各自不同的算法模型以及底層計算精度的需求。除此之外,即便是同一個業(yè)務(wù)線,算法也在持續(xù)優(yōu)化和突破。今天的算法需求或設(shè)計的芯片是不是能夠滿足明天的需求,這也是一個挑戰(zhàn)。一個很有意思的例子,谷歌也在GPU的一篇論文中提到過,他們剛開始做芯片的時候跟業(yè)務(wù)團隊溝通,業(yè)務(wù)告訴他們1%精度損失可接受。等芯片做完要推到業(yè)務(wù)做落地部署,發(fā)現(xiàn)業(yè)務(wù)改了說法,之前說的模型精度被推翻了。這也是對AI 芯片設(shè)計的一個挑戰(zhàn)。

      其次,行業(yè)巨頭的生態(tài)壁壘。雖然大家都看好這個賽道、紛紛進入,但其實它不是一個藍海。這個賽道是有一個行業(yè)巨頭在前面。一方面,它確實做的比較早,到現(xiàn)在已經(jīng)有十多年的積累,做成了一條非常強大的護城河。另外,它也敢于對自己的架構(gòu)做持續(xù)的創(chuàng)新。隨著AI算法的需求,它的GPU產(chǎn)品已經(jīng)跟所有的主流框架做了適配。大家天然地去用GPU做AI算法的應(yīng)用。面對新的硬件、定制的指令集和微架構(gòu),以及新建的整個軟件生態(tài),對于客戶來說,為什么要選你?一定是有一個心理防線的。所以,一定要兩個維度都做到,第一方面,要有一個非?捎^的實際的性能收益去吸引業(yè)務(wù)。另一方面,需要整個軟件棧做的非常靈活,用盡量小的遷移成本去打破客戶的這種心理防線。

      第三,『苛刻』的客戶需求?蛻舻男枨蟛皇且怀刹蛔兊,也是非常嚴苛的。以互聯(lián)網(wǎng)為例,客戶并不會關(guān)心一個單一的指標,他們關(guān)心延時、關(guān)心吞吐,也關(guān)心TCO,而且這些指標很多時候是融合在一起的。舉個例子,客戶關(guān)心的可能是在滿足一定的延時條件下,單卡能夠帶來的吞吐是多少。甚至,有時候他還會加一些限制:要求他的CPU、整個AI芯片或者GPU在一定程度的利用率去確保整個業(yè)務(wù)系統(tǒng)的魯棒性。TCO也不是說單卡的性能和成本,而是說單卡跟服務(wù)器整機適配,在實際業(yè)務(wù)應(yīng)用場景整機的分攤成本,甚至具體到分攤的網(wǎng)絡(luò)成本、功耗成本等等。

      最后,復(fù)雜的真實部署環(huán)境。從研發(fā)人員的角度,會覺得把芯片做出來、點亮,是非常關(guān)鍵的milestone,這一點肯定毋庸置疑。但其實從點亮到芯片在真實業(yè)務(wù)場景中實現(xiàn)規(guī)模落地,這中間還有非常大的工程挑戰(zhàn),這是軟硬件、整個系統(tǒng)都會面臨的挑戰(zhàn)。硬件層面,做到萬級、十萬級甚至更高的時候,穩(wěn)定性怎么樣?成本對業(yè)務(wù)來說是不是可接受?軟件也是,整個軟件棧要適配不同的深度學習框架,包括國內(nèi)外主流的各種操作系統(tǒng)甚至不同機型的適配等等。

      這些都是實際的工程工作,克服這兩塊到了實際業(yè)務(wù)部署的時候,會發(fā)現(xiàn)并不是一個單線程的作業(yè),有時候會做多線程的混部,甚至為了把整個運營資源利用率做高,會做兩個不同的業(yè)務(wù)線混部。在這種場景下,AI卡的實際性能能不能做到很穩(wěn)定,這些都是走向量產(chǎn)之后需要面臨的工程化挑戰(zhàn)。

      AI芯片:從定制到通用

      伴隨上述挑戰(zhàn),我們團隊的發(fā)展其實也是分成了兩個階段。

      第一階段:2011到2017年,跟著整個AI算法的迭代,AI逐漸在更多的業(yè)務(wù)線落地。跟這個階段相匹配的,我們基于FPGA開發(fā)了AI的加速集群,做到了行業(yè)中一個非常大規(guī)模、有影響力的部署。16年17年的時候,隨著Intel收購Altera,Amazon推出FPGA云服務(wù),F(xiàn)PGA突然變得特別火;但因為我們在這個領(lǐng)域布局得很早,其實已經(jīng)明顯能感覺到FPGA從業(yè)務(wù)形態(tài)上、架構(gòu)上的一些瓶頸。

      在2017到2018年我們開始轉(zhuǎn)型,2018年正式啟動昆侖芯片的研發(fā)。目前,兩代芯片都已經(jīng)正式量產(chǎn)。

      為什么做通用的AI處理器?尤其是像芯片這種高投入的場景,前面也提過,整個業(yè)務(wù)的算法其實都還在持續(xù)迭代和變化,如果要做一個AI芯片,尤其是真正能達到量產(chǎn),一定是通用、能夠靈活支持所有的應(yīng)用和產(chǎn)品的,同時,需要軟件棧去對接所有的業(yè)務(wù)系統(tǒng)。這就需要非常靈活的可編程的方案,一方面要能夠適應(yīng)業(yè)務(wù)需求,另外,商業(yè)化落地要能夠盡量減少對應(yīng)的軟件成本以及對用戶來說的遷移成本。

      昆侖芯2代

      以昆侖芯第二代芯片架構(gòu)XPU-R為例做一個分享。該架構(gòu)非常核心的兩部分分別是:Cluster和SDNN。

      Cluster是通用計算單元,我們有自定義的指令集,支持標量和向量計算。某種程度上,其實軟件可以像寫擴展一樣,或者說是像寫處理器一樣去編程。

      SDNN是面向AI運算的指令、加速單元,主要是支持像卷積、矩陣乘等這種高頻、高算力需求的一些算子。SDNN是Software Defined Neural Network。為什么要軟件定義呢?其實我們早期也做過偏定制的架構(gòu),它的問題在于模型持續(xù)變化的時候,尤其是涉及到分支跳轉(zhuǎn),或者動態(tài)reshape這種,不一定能支持好。另外一個維度,整個算法一定是持續(xù)迭代的,未來一定還會有新的模型、新的算法出現(xiàn)。某種程度上,Cluster和SDNN對標CUDA Core和Tensor Core。

      除了這兩塊之外,整個Memory的設(shè)計也是結(jié)合我們的產(chǎn)品定義做的設(shè)計。比如說,片上有比較大的Shared Memory能夠支持Cluster和SDNN之間的數(shù)據(jù)交互。片外的Device Memory這塊,昆侖芯2代選的是GDDR6,可以兼顧帶寬和成本。昆侖芯2代也是國內(nèi)首款應(yīng)用GDDR6的AI芯片。跟主機的接口這塊,集成了PCIe4.0協(xié)議。同時,我們也具備片間互聯(lián)能力,多個芯片之間能夠互聯(lián)通信去支持訓練和大規(guī)模推理的應(yīng)用場景。

      還有很多功能,比如我們自研的調(diào)度系統(tǒng)。AI芯片計算加速有的時候還不到微秒,這個時候如果是一個非常重的處理器進行調(diào)度,或者依賴于host的話,會有一些性能的影響。所以我們也是自研了一個調(diào)度系統(tǒng),能夠做到ns(nanosecond,納秒)級別的調(diào)度,確保整個硬件的利用率非常高。

      如果說芯片提供了這個能力,那整個軟件棧就關(guān)系到產(chǎn)品到底能不能快速在多個業(yè)務(wù)場景、大規(guī)模量產(chǎn)落地。我們也提供了一套非常完善的SDK,包括底層驅(qū)動、Runtime,到上層也包括一些高性能的控制庫以及圖編譯的引擎。結(jié)合不同客戶的需求,可以做到快速的實現(xiàn)和部署。

      這是昆侖芯2代AI芯片。這代芯片采用7nm工藝,算力高達256TOPS@INT8。

      我們在這個芯片上也引入了很多新的feature,包括硬件虛擬化。另外,芯片集成了包括視頻的編解碼以及圖像處理能力,能夠做到整個視頻全流程的打通。

      在GEMM、BERT/ERNIE、YOLOv3和ResNet-50這些模型上,昆侖芯2代實際性能全面領(lǐng)先,針對很多業(yè)務(wù)實際的模型也會有更好的表現(xiàn)。

      目前,昆侖芯2代已經(jīng)在多個場景落地;ヂ(lián)網(wǎng)領(lǐng)域,不局限于百度集團,我們在外部也有很好的突破。智算中心,比如智源研究院項目的合作。還有一些新的領(lǐng)域,像生物計算,我們有跟國內(nèi)的一些高校和社會系統(tǒng)、公司合作探索,有一些項目的落地。也就是說,我們的產(chǎn)品并不僅限于AI。

      未來的課題

      面向未來,第三代AI芯片已投入研發(fā),同時也在規(guī)劃第四代產(chǎn)品。

      昆侖芯科技剛剛成立一周年,我們也在持續(xù)思考,結(jié)合應(yīng)用場景哪些地方能夠做優(yōu)化,以及性能提升,做到通用,同時能夠兼顧實際的性能。在這個過程中,我們的產(chǎn)品到底怎么定義、是不是能夠有更先進的技術(shù),甚至說產(chǎn)品到底是做“AI+”還是賦能產(chǎn)業(yè)變革,能否做更大的場景等等,這些也是我們?nèi)粘9ぷ髦谐掷m(xù)在思考的課題。

      最后,借著這個機會,非常歡迎日后有機會能夠跟同行、跨行的人進行更多交流。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    [No. S049-3]
    分享到微信

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。