還能再漲23%!AI寵兒NVIDIA成大摩明年首選AMD FSR 4.0將與RX 9070 XT顯卡同步登場(chǎng)羅永浩細(xì)紅線最新進(jìn)展,暫別AR,迎來(lái)AI Jarvis構(gòu)建堅(jiān)實(shí)數(shù)據(jù)地基,南京打造可信數(shù)據(jù)空間引領(lǐng)數(shù)字城市建設(shè)下單前先比價(jià)不花冤枉錢(qián) 同款圖書(shū)京東價(jià)低于抖音6折日媒感慨中國(guó)電動(dòng)汽車(chē)/智駕遙遙領(lǐng)先:本田、日產(chǎn)、三菱合并也沒(méi)戲消委會(huì)吹風(fēng)機(jī)品質(zhì)檢測(cè)結(jié)果揭曉 徠芬獨(dú)占鰲頭 共話新質(zhì)營(yíng)銷(xiāo)力,2024梅花數(shù)據(jù)峰會(huì)圓滿(mǎn)落幕索尼影像專(zhuān)業(yè)服務(wù) PRO Support 升級(jí),成為會(huì)員至少需注冊(cè) 2 臺(tái) α 全畫(huà)幅相機(jī)、3 支 G 大師鏡頭消息稱(chēng)vivo加碼電池軍備競(jìng)賽:6500mAh 旗艦機(jī)+7500mAh中端機(jī)寶馬M8雙門(mén)轎跑車(chē)明年年初將停產(chǎn),后續(xù)無(wú)2026款車(chē)型比亞迪:2025 款漢家族車(chē)型城市領(lǐng)航智駕功能開(kāi)啟內(nèi)測(cè)雷神預(yù)告2025年首次出席CES 將發(fā)布三款不同技術(shù)原理智能眼鏡realme真我全球首發(fā)聯(lián)發(fā)科天璣 8400 耐玩戰(zhàn)神共創(chuàng)計(jì)劃iQOO Z9 Turbo長(zhǎng)續(xù)航版手機(jī)被曝電池加大到6400mAh,搭驍龍 8s Gen 3處理器普及放緩 銷(xiāo)量大跌:曝保時(shí)捷將重新評(píng)估電動(dòng)汽車(chē)計(jì)劃來(lái)京東參與榮耀Magic7 RSR 保時(shí)捷設(shè)計(jì)預(yù)售 享365天只換不修國(guó)補(bǔ)期間電視迎來(lái)?yè)Q機(jī)潮,最暢銷(xiāo)MiniLED品牌花落誰(shuí)家?美團(tuán)旗下微信社群團(tuán)購(gòu)業(yè)務(wù)“團(tuán)買(mǎi)買(mǎi)”宣布年底停運(yùn)消息稱(chēng)微軟正與第三方廠商洽談,試圖合作推出Xbox游戲掌機(jī)設(shè)備
  • 首頁(yè) > 云計(jì)算頻道 > 公有云

    昆侖芯科技芯片研發(fā)總監(jiān)漆維:昆侖芯AI芯片——讓計(jì)算更智能

    2022年06月14日 10:36:08   來(lái)源:中文科技資訊

      在近日閉幕的2022北京智源大會(huì)上,昆侖芯科技芯片研發(fā)總監(jiān)漆維受邀參與 “芯片前沿技術(shù)”專(zhuān)題論壇。

      圍繞當(dāng)前學(xué)術(shù)領(lǐng)域迫切需要解決的問(wèn)題,以及產(chǎn)業(yè)落地過(guò)程中存在的諸多挑戰(zhàn),漆維與來(lái)自中科院、清華大學(xué)、北京大學(xué)、杜克大學(xué)、倫敦帝國(guó)理工學(xué)院的各位專(zhuān)家學(xué)者一同分享重大成果與真知灼見(jiàn),獻(xiàn)上了一場(chǎng)誠(chéng)意滿(mǎn)滿(mǎn)的芯片前沿技術(shù)盛宴。

      以下內(nèi)容整理于主題報(bào)告 “昆侖芯AI芯片:讓計(jì)算更智能”直播實(shí)錄:

      昆侖芯科技芯片研發(fā)總監(jiān)漆維

      大家好,我是來(lái)自昆侖芯科技的漆維。

      相信很多朋友都認(rèn)同,當(dāng)下是芯片最好的時(shí)代。我個(gè)人也是非常幸運(yùn),很早就進(jìn)入AI芯片這個(gè)賽道。接下來(lái),結(jié)合我和團(tuán)隊(duì)這十年的積累講一講對(duì)這個(gè)領(lǐng)域的理解。

      AI芯片的機(jī)遇:空前繁榮的AI生態(tài)

      今天整個(gè)AI芯片生態(tài)非常繁榮。從場(chǎng)景看,語(yǔ)音、視覺(jué)、自然語(yǔ)言處理這些不同的場(chǎng)景,AI算法都有持續(xù)突破。這些算法的突破不僅僅是對(duì)原有業(yè)務(wù)進(jìn)行新的賦能,也極大便利了人們的日常生活。

      另外一個(gè)維度,AI算法持續(xù)突破,工程師們嘗試更大的模型把AI能力帶到各行各業(yè)。國(guó)外GPT-3是首個(gè)千億規(guī)模的模型,國(guó)內(nèi)像百度的文心、智源的悟道在這塊也有了很多積累和突破。

      幾年前看AI的時(shí)候,大家可能會(huì)覺(jué)得AI更多是對(duì)現(xiàn)有業(yè)務(wù)做賦能,是“AI+”。但其實(shí)最近幾年,AI已經(jīng)開(kāi)始去賦能產(chǎn)業(yè)變革,像自動(dòng)駕駛這個(gè)萬(wàn)億級(jí)的市場(chǎng),可以改變?nèi)藗兊某鲂蟹绞。另外一個(gè)案例是Alphafold做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。能看到,AI算法很有機(jī)會(huì)對(duì)當(dāng)前的科學(xué)難題進(jìn)行突破。

      上層整個(gè)AI生態(tài)非常繁榮,AI算法也不是第一次提出了,為什么最近這十年發(fā)展特別好?

      其實(shí)是因?yàn)榈讓拥腁I計(jì)算提供了支持。當(dāng)然,眾所周知摩爾定律正在逐漸失效,傳統(tǒng)的處理器結(jié)構(gòu)已經(jīng)不能滿(mǎn)足支持。GPU得益于很早在HPC有布局,也對(duì)架構(gòu)進(jìn)行了迭代。除了NV的GPU,國(guó)外以谷歌為例,結(jié)合自己的場(chǎng)景和需求去自研了AI芯片。在國(guó)內(nèi),互聯(lián)網(wǎng)紛紛下場(chǎng)造芯,同時(shí)也有很多AI的startup進(jìn)入這個(gè)賽道?梢哉f(shuō),對(duì)AI芯片來(lái)說(shuō),這確實(shí)是一個(gè)歷史性的新機(jī)遇。

      理想非常好,上層整個(gè)生態(tài)及算法對(duì)底層都有硬件的依賴(lài),自研AI芯片不僅能解決這種需求,同時(shí)也是利國(guó)利民的事情。但回到現(xiàn)實(shí),就沒(méi)有那么豐滿(mǎn)了,這是一件很有挑戰(zhàn)的事情。

      AI芯片的挑戰(zhàn)

      AI芯片真的能做到在產(chǎn)業(yè)大規(guī)模落地是一件非常有挑戰(zhàn)的事情。

      首先,算法的多樣化。前面提到,AI是有多種產(chǎn)品的,語(yǔ)音、視覺(jué)、自然語(yǔ)言處理,不同的業(yè)務(wù)場(chǎng)景有各自不同的算法模型以及底層計(jì)算精度的需求。除此之外,即便是同一個(gè)業(yè)務(wù)線,算法也在持續(xù)優(yōu)化和突破。今天的算法需求或設(shè)計(jì)的芯片是不是能夠滿(mǎn)足明天的需求,這也是一個(gè)挑戰(zhàn)。一個(gè)很有意思的例子,谷歌也在GPU的一篇論文中提到過(guò),他們剛開(kāi)始做芯片的時(shí)候跟業(yè)務(wù)團(tuán)隊(duì)溝通,業(yè)務(wù)告訴他們1%精度損失可接受。等芯片做完要推到業(yè)務(wù)做落地部署,發(fā)現(xiàn)業(yè)務(wù)改了說(shuō)法,之前說(shuō)的模型精度被推翻了。這也是對(duì)AI 芯片設(shè)計(jì)的一個(gè)挑戰(zhàn)。

      其次,行業(yè)巨頭的生態(tài)壁壘。雖然大家都看好這個(gè)賽道、紛紛進(jìn)入,但其實(shí)它不是一個(gè)藍(lán)海。這個(gè)賽道是有一個(gè)行業(yè)巨頭在前面。一方面,它確實(shí)做的比較早,到現(xiàn)在已經(jīng)有十多年的積累,做成了一條非常強(qiáng)大的護(hù)城河。另外,它也敢于對(duì)自己的架構(gòu)做持續(xù)的創(chuàng)新。隨著AI算法的需求,它的GPU產(chǎn)品已經(jīng)跟所有的主流框架做了適配。大家天然地去用GPU做AI算法的應(yīng)用。面對(duì)新的硬件、定制的指令集和微架構(gòu),以及新建的整個(gè)軟件生態(tài),對(duì)于客戶(hù)來(lái)說(shuō),為什么要選你?一定是有一個(gè)心理防線的。所以,一定要兩個(gè)維度都做到,第一方面,要有一個(gè)非?捎^的實(shí)際的性能收益去吸引業(yè)務(wù)。另一方面,需要整個(gè)軟件棧做的非常靈活,用盡量小的遷移成本去打破客戶(hù)的這種心理防線。

      第三,『苛刻』的客戶(hù)需求。客戶(hù)的需求不是一成不變的,也是非常嚴(yán)苛的。以互聯(lián)網(wǎng)為例,客戶(hù)并不會(huì)關(guān)心一個(gè)單一的指標(biāo),他們關(guān)心延時(shí)、關(guān)心吞吐,也關(guān)心TCO,而且這些指標(biāo)很多時(shí)候是融合在一起的。舉個(gè)例子,客戶(hù)關(guān)心的可能是在滿(mǎn)足一定的延時(shí)條件下,單卡能夠帶來(lái)的吞吐是多少。甚至,有時(shí)候他還會(huì)加一些限制:要求他的CPU、整個(gè)AI芯片或者GPU在一定程度的利用率去確保整個(gè)業(yè)務(wù)系統(tǒng)的魯棒性。TCO也不是說(shuō)單卡的性能和成本,而是說(shuō)單卡跟服務(wù)器整機(jī)適配,在實(shí)際業(yè)務(wù)應(yīng)用場(chǎng)景整機(jī)的分?jǐn)偝杀,甚至具體到分?jǐn)偟木W(wǎng)絡(luò)成本、功耗成本等等。

      最后,復(fù)雜的真實(shí)部署環(huán)境。從研發(fā)人員的角度,會(huì)覺(jué)得把芯片做出來(lái)、點(diǎn)亮,是非常關(guān)鍵的milestone,這一點(diǎn)肯定毋庸置疑。但其實(shí)從點(diǎn)亮到芯片在真實(shí)業(yè)務(wù)場(chǎng)景中實(shí)現(xiàn)規(guī)模落地,這中間還有非常大的工程挑戰(zhàn),這是軟硬件、整個(gè)系統(tǒng)都會(huì)面臨的挑戰(zhàn)。硬件層面,做到萬(wàn)級(jí)、十萬(wàn)級(jí)甚至更高的時(shí)候,穩(wěn)定性怎么樣?成本對(duì)業(yè)務(wù)來(lái)說(shuō)是不是可接受?軟件也是,整個(gè)軟件棧要適配不同的深度學(xué)習(xí)框架,包括國(guó)內(nèi)外主流的各種操作系統(tǒng)甚至不同機(jī)型的適配等等。

      這些都是實(shí)際的工程工作,克服這兩塊到了實(shí)際業(yè)務(wù)部署的時(shí)候,會(huì)發(fā)現(xiàn)并不是一個(gè)單線程的作業(yè),有時(shí)候會(huì)做多線程的混部,甚至為了把整個(gè)運(yùn)營(yíng)資源利用率做高,會(huì)做兩個(gè)不同的業(yè)務(wù)線混部。在這種場(chǎng)景下,AI卡的實(shí)際性能能不能做到很穩(wěn)定,這些都是走向量產(chǎn)之后需要面臨的工程化挑戰(zhàn)。

      AI芯片:從定制到通用

      伴隨上述挑戰(zhàn),我們團(tuán)隊(duì)的發(fā)展其實(shí)也是分成了兩個(gè)階段。

      第一階段:2011到2017年,跟著整個(gè)AI算法的迭代,AI逐漸在更多的業(yè)務(wù)線落地。跟這個(gè)階段相匹配的,我們基于FPGA開(kāi)發(fā)了AI的加速集群,做到了行業(yè)中一個(gè)非常大規(guī)模、有影響力的部署。16年17年的時(shí)候,隨著Intel收購(gòu)Altera,Amazon推出FPGA云服務(wù),F(xiàn)PGA突然變得特別火;但因?yàn)槲覀冊(cè)谶@個(gè)領(lǐng)域布局得很早,其實(shí)已經(jīng)明顯能感覺(jué)到FPGA從業(yè)務(wù)形態(tài)上、架構(gòu)上的一些瓶頸。

      在2017到2018年我們開(kāi)始轉(zhuǎn)型,2018年正式啟動(dòng)昆侖芯片的研發(fā)。目前,兩代芯片都已經(jīng)正式量產(chǎn)。

      為什么做通用的AI處理器?尤其是像芯片這種高投入的場(chǎng)景,前面也提過(guò),整個(gè)業(yè)務(wù)的算法其實(shí)都還在持續(xù)迭代和變化,如果要做一個(gè)AI芯片,尤其是真正能達(dá)到量產(chǎn),一定是通用、能夠靈活支持所有的應(yīng)用和產(chǎn)品的,同時(shí),需要軟件棧去對(duì)接所有的業(yè)務(wù)系統(tǒng)。這就需要非常靈活的可編程的方案,一方面要能夠適應(yīng)業(yè)務(wù)需求,另外,商業(yè)化落地要能夠盡量減少對(duì)應(yīng)的軟件成本以及對(duì)用戶(hù)來(lái)說(shuō)的遷移成本。

      昆侖芯2代

      以昆侖芯第二代芯片架構(gòu)XPU-R為例做一個(gè)分享。該架構(gòu)非常核心的兩部分分別是:Cluster和SDNN。

      Cluster是通用計(jì)算單元,我們有自定義的指令集,支持標(biāo)量和向量計(jì)算。某種程度上,其實(shí)軟件可以像寫(xiě)擴(kuò)展一樣,或者說(shuō)是像寫(xiě)處理器一樣去編程。

      SDNN是面向AI運(yùn)算的指令、加速單元,主要是支持像卷積、矩陣乘等這種高頻、高算力需求的一些算子。SDNN是Software Defined Neural Network。為什么要軟件定義呢?其實(shí)我們?cè)缙谝沧鲞^(guò)偏定制的架構(gòu),它的問(wèn)題在于模型持續(xù)變化的時(shí)候,尤其是涉及到分支跳轉(zhuǎn),或者動(dòng)態(tài)reshape這種,不一定能支持好。另外一個(gè)維度,整個(gè)算法一定是持續(xù)迭代的,未來(lái)一定還會(huì)有新的模型、新的算法出現(xiàn)。某種程度上,Cluster和SDNN對(duì)標(biāo)CUDA Core和Tensor Core。

      除了這兩塊之外,整個(gè)Memory的設(shè)計(jì)也是結(jié)合我們的產(chǎn)品定義做的設(shè)計(jì)。比如說(shuō),片上有比較大的Shared Memory能夠支持Cluster和SDNN之間的數(shù)據(jù)交互。片外的Device Memory這塊,昆侖芯2代選的是GDDR6,可以兼顧帶寬和成本。昆侖芯2代也是國(guó)內(nèi)首款應(yīng)用GDDR6的AI芯片。跟主機(jī)的接口這塊,集成了PCIe4.0協(xié)議。同時(shí),我們也具備片間互聯(lián)能力,多個(gè)芯片之間能夠互聯(lián)通信去支持訓(xùn)練和大規(guī)模推理的應(yīng)用場(chǎng)景。

      還有很多功能,比如我們自研的調(diào)度系統(tǒng)。AI芯片計(jì)算加速有的時(shí)候還不到微秒,這個(gè)時(shí)候如果是一個(gè)非常重的處理器進(jìn)行調(diào)度,或者依賴(lài)于host的話,會(huì)有一些性能的影響。所以我們也是自研了一個(gè)調(diào)度系統(tǒng),能夠做到ns(nanosecond,納秒)級(jí)別的調(diào)度,確保整個(gè)硬件的利用率非常高。

      如果說(shuō)芯片提供了這個(gè)能力,那整個(gè)軟件棧就關(guān)系到產(chǎn)品到底能不能快速在多個(gè)業(yè)務(wù)場(chǎng)景、大規(guī)模量產(chǎn)落地。我們也提供了一套非常完善的SDK,包括底層驅(qū)動(dòng)、Runtime,到上層也包括一些高性能的控制庫(kù)以及圖編譯的引擎。結(jié)合不同客戶(hù)的需求,可以做到快速的實(shí)現(xiàn)和部署。

      這是昆侖芯2代AI芯片。這代芯片采用7nm工藝,算力高達(dá)256TOPS@INT8。

      我們?cè)谶@個(gè)芯片上也引入了很多新的feature,包括硬件虛擬化。另外,芯片集成了包括視頻的編解碼以及圖像處理能力,能夠做到整個(gè)視頻全流程的打通。

      在GEMM、BERT/ERNIE、YOLOv3和ResNet-50這些模型上,昆侖芯2代實(shí)際性能全面領(lǐng)先,針對(duì)很多業(yè)務(wù)實(shí)際的模型也會(huì)有更好的表現(xiàn)。

      目前,昆侖芯2代已經(jīng)在多個(gè)場(chǎng)景落地;ヂ(lián)網(wǎng)領(lǐng)域,不局限于百度集團(tuán),我們?cè)谕獠恳灿泻芎玫耐黄。智算中心,比如智源研究院?xiàng)目的合作。還有一些新的領(lǐng)域,像生物計(jì)算,我們有跟國(guó)內(nèi)的一些高校和社會(huì)系統(tǒng)、公司合作探索,有一些項(xiàng)目的落地。也就是說(shuō),我們的產(chǎn)品并不僅限于AI。

      未來(lái)的課題

      面向未來(lái),第三代AI芯片已投入研發(fā),同時(shí)也在規(guī)劃第四代產(chǎn)品。

      昆侖芯科技剛剛成立一周年,我們也在持續(xù)思考,結(jié)合應(yīng)用場(chǎng)景哪些地方能夠做優(yōu)化,以及性能提升,做到通用,同時(shí)能夠兼顧實(shí)際的性能。在這個(gè)過(guò)程中,我們的產(chǎn)品到底怎么定義、是不是能夠有更先進(jìn)的技術(shù),甚至說(shuō)產(chǎn)品到底是做“AI+”還是賦能產(chǎn)業(yè)變革,能否做更大的場(chǎng)景等等,這些也是我們?nèi)粘9ぷ髦谐掷m(xù)在思考的課題。

      最后,借著這個(gè)機(jī)會(huì),非常歡迎日后有機(jī)會(huì)能夠跟同行、跨行的人進(jìn)行更多交流。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    [No. S049-3]
    分享到微信

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類(lèi)目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶(hù)就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性?xún)r(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。