66元搶爆款A(yù)R眼鏡!京東AR眼鏡超級(jí)新品日30天無(wú)憂適用等你來(lái)攜手共進(jìn),智啟未來(lái) —— 華為與CypressTel賽柏特成立 SD-WAN 聯(lián)合創(chuàng)新實(shí)驗(yàn)合合信息成功IPO開啟新篇章全球首款第二代酷睿Ultra處理器筆記本!聯(lián)想YOGA Air 15 Aura AI元啟版開啟預(yù)售中國(guó)品牌,讓東南亞感受“消費(fèi)升級(jí)”小紅書本地“坐抖望團(tuán)”CrowdStrike“全球滅霸響指”事件后續(xù),德國(guó) 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺(tái)合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺(tái),加速數(shù)字化轉(zhuǎn)型重慶:力爭(zhēng)今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬(wàn)輛,到 2027 年建成萬(wàn)億級(jí)產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實(shí)況照片了蘋果有線耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會(huì)官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來(lái)了,阿里云「通義靈碼」全面進(jìn)化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來(lái)了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國(guó)AR/VR出貨23.3萬(wàn)臺(tái),同比下滑了 29.1%IDC:2024 上半年中國(guó) AR / VR 頭顯出貨 23.3 萬(wàn)臺(tái),同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴
  • 首頁(yè) > 產(chǎn)經(jīng)新聞?lì)l道 > 業(yè)界新聞

    曠視科學(xué)家詳解AlphaGo Zero的偉大與局限

    2017年10月28日 17:25:50   來(lái)源:飛象網(wǎng)

      10 月19 日凌晨,DeepMind 在《Nature》發(fā)布最新論文,AlphaGo 最強(qiáng)最新的版本AlphaGo Zero 使用純強(qiáng)化學(xué)習(xí),3 天訓(xùn)練后就以100 比0 擊敗了上一版本的AlphaGo,21 天達(dá)到AlphaGo Master 水平。AlphaGo Zero 的勝利引起了業(yè)內(nèi)和網(wǎng)友們的廣泛關(guān)注,但是機(jī)器已經(jīng)真的進(jìn)化到可以自我學(xué)習(xí)了嗎?日前,專注報(bào)道AI的量子位對(duì)曠視科技Face++首席科學(xué)家孫劍博士做了專訪,詳盡解讀了AlphaGo Zero的技術(shù)創(chuàng)新和應(yīng)用局限。

      “人類太多余了。”——面對(duì)無(wú)師自通碾壓一切前輩的AlphaGo Zero,柯潔說(shuō)出了這樣一句話。

      如果你無(wú)法理解柯潔的絕望,請(qǐng)先跟著量子位回顧上一集:

      今年5月,20歲生日還未到的世界圍棋第一人柯潔,在烏鎮(zhèn)0:3敗給了DeepMind的人工智能程序AlphaGo,當(dāng)時(shí)的版本叫做Master,就是今年年初在網(wǎng)上60:0挑落中日韓高手的那個(gè)神秘AI。

      AlphaGo Zero驟然出現(xiàn),可以說(shuō)是在柯潔快要被人類對(duì)手和迷妹們治愈的傷口上,撒了一大把胡椒粉。

      被震動(dòng)的不止柯潔,在DeepMind的Nature論文公布之后,悲觀、甚至恐慌的情緒,在大眾之間蔓延著,甚至有媒體一本正經(jīng)地探討“未來(lái)是終結(jié)者還是黑客帝國(guó)”。

      于是,不少認(rèn)真讀了論文的人工智能“圈內(nèi)人”紛紛站出來(lái),為這次技術(shù)進(jìn)展“去魅”。

      AlphaGo Zero無(wú)師自通?

      首當(dāng)其沖的問(wèn)題就是:在AlphaGo Zero下棋的過(guò)程中,人類知識(shí)和經(jīng)驗(yàn)真的一點(diǎn)用都沒(méi)有嗎?

      在這一版本的AlphaGo中,雖說(shuō)人類的知識(shí)和經(jīng)驗(yàn)沒(méi)多大作用,但也不至于“多余”。

      在Zero下棋的過(guò)程中,并沒(méi)有從人類的對(duì)局經(jīng)驗(yàn)和數(shù)據(jù)中進(jìn)行學(xué)習(xí),但這個(gè)算法依然需要人類向它灌輸圍棋的規(guī)則:哪些地方可以落子、怎樣才算獲勝等等。

      剩下的,就由AI自己來(lái)搞定了。

      對(duì)于這個(gè)話題,鮮有人比曠視科技首席科學(xué)家孫劍更有發(fā)言權(quán)了,因?yàn)锳lphaGo Zero里面最核心使用的技術(shù)ResNet,正是孫劍在微軟亞洲研究院時(shí)期的發(fā)明。

      △ 曠視科技Face++首席科學(xué)家孫劍博士

      孫劍也在接受量子位等媒體采訪的過(guò)程中,對(duì)AlphaGo Zero的“無(wú)師自通”作出了評(píng)價(jià),他認(rèn)為這個(gè)說(shuō)法“對(duì),也不對(duì)”,并且表示“偉大與局限并存”。

      究竟對(duì)不對(duì),還是取決于怎樣定義無(wú)師自通,從哪個(gè)角度來(lái)看。

      和之前三版AlphaGo相比,這一版去掉了人類教授棋譜的過(guò)程,在訓(xùn)練過(guò)程最開始的時(shí)候,AI落子完全是隨機(jī)的,AlphaGo團(tuán)隊(duì)的負(fù)責(zé)人David Silver透露,它一開始甚至?xí)验_局第一手下在1-1。在和自己對(duì)弈的過(guò)程中,算法才逐漸掌握了勝利的秘訣。

      從這個(gè)角度來(lái)看,Zero的確可以說(shuō)是第一次做到了無(wú)師自通,也正是出于這個(gè)原因,DeepMind這篇Nature論文才能引起這么多圈內(nèi)人關(guān)注。

      但要說(shuō)它是“無(wú)監(jiān)督學(xué)習(xí)”,就有點(diǎn)“不對(duì)”。孫劍說(shuō):“如果仔細(xì)看這個(gè)系統(tǒng),它還是有監(jiān)督的。”它的監(jiān)督不是來(lái)自棋譜,而是圍棋規(guī)則所決定的最后誰(shuí)輸誰(shuí)贏這個(gè)信號(hào)。

      “從這個(gè)意義上說(shuō),它不是百分之百絕對(duì)的無(wú)師自通,而是通過(guò)這個(gè)規(guī)則所帶來(lái)的監(jiān)督信號(hào),它是一種非常弱監(jiān)督的增強(qiáng)學(xué)習(xí),它不是完全的無(wú)師自通。”

      孫劍還進(jìn)一步強(qiáng)調(diào):“但是同時(shí)這種無(wú)師自通在很多AI落地上也存在一些局限,因?yàn)閲?yán)格意義上講,圍棋規(guī)則和判定棋局輸贏也是一種監(jiān)督信號(hào),所以有人說(shuō)人類無(wú)用、或者說(shuō)機(jī)器可以自己產(chǎn)生認(rèn)知,都是對(duì)AlphaGo Zero錯(cuò)誤理解。”

      離全面碾壓人類有多遠(yuǎn)?

      Zero發(fā)布之后,媒體關(guān)切地詢問(wèn)“這個(gè)算法以后會(huì)用在哪些其他領(lǐng)域”,網(wǎng)友認(rèn)真地?fù)?dān)心“這個(gè)AI會(huì)不會(huì)在各個(gè)領(lǐng)域全面碾壓人類”。

      對(duì)于Zero算法的未來(lái)發(fā)展,DeepMind聯(lián)合創(chuàng)始人哈薩比斯介紹說(shuō),AlphaGo團(tuán)隊(duì)的成員都已經(jīng)轉(zhuǎn)移到其他團(tuán)隊(duì)中,正在嘗試將這項(xiàng)技術(shù)用到其他領(lǐng)域,“最終,我們想用這樣的算法突破,來(lái)解決真實(shí)世界中各種各樣緊迫的問(wèn)題。”

      DeepMind期待Zero解決的,是“其他結(jié)構(gòu)性問(wèn)題”,他們?cè)诓┛椭刑貏e列舉出幾項(xiàng):蛋白質(zhì)折疊、降低能耗、尋找革命性的新材料。

      哈薩比斯說(shuō)AlphaGo可以看做一個(gè)在復(fù)雜數(shù)據(jù)中進(jìn)行搜索的機(jī)器,除了博客中提到幾項(xiàng),新藥發(fā)現(xiàn)、量子化學(xué)、粒子物理學(xué)也是AlphaGo可能大展拳腳的領(lǐng)域。

      不過(guò),究竟哪些領(lǐng)域可以擴(kuò)展、哪些領(lǐng)域不行呢?

      孫劍說(shuō)要解釋AlphaGo算法能擴(kuò)展到哪些領(lǐng)域,需要先了解它現(xiàn)在所解決的問(wèn)題——圍棋——具有哪些特性。

      首先,它沒(méi)有噪聲,是能夠完美重現(xiàn)的算法;

      其次,圍棋中的信息是完全可觀測(cè)的,不像在麻將、撲克里,對(duì)手的信息觀測(cè)不到;

      最后也是最重要的一點(diǎn),是圍棋對(duì)局可以用計(jì)算機(jī)迅速模擬,很快地輸出輸贏信號(hào)。

      基于對(duì)圍棋這個(gè)領(lǐng)域特性的理解,提到用AlphaGo算法來(lái)發(fā)現(xiàn)新藥,孫劍是持懷疑態(tài)度的。

      他說(shuō),發(fā)現(xiàn)新藥和下圍棋之間有一個(gè)非常顯著的區(qū)別,就是“輸贏信號(hào)”能不能很快輸出:“新藥品很多內(nèi)部的結(jié)構(gòu)需要通過(guò)搜索,搜索完以后制成藥,再到真正怎么去檢驗(yàn)這個(gè)藥有效,這個(gè)閉環(huán)非常代價(jià)昂貴,非常慢,你很難像下圍棋這么簡(jiǎn)單做出來(lái)。”

      不過(guò),如果找到快速驗(yàn)證新藥是否有效的方法,這項(xiàng)技術(shù)就能很好地用在新藥開發(fā)上了。而用AlphaGo算法用來(lái)幫數(shù)據(jù)中心節(jié)能,孫劍就認(rèn)為非常說(shuō)得通,因?yàn)樗蛧宓奶匦院芤恢拢芸焖佥敵鼋Y(jié)果反饋,也就是AlphaGo算法依賴的弱監(jiān)督信號(hào)。

      當(dāng)然,從AlphaGo算法的這些限制,我們也不難推想,它在某些小領(lǐng)域內(nèi)可以做得非常好,但其實(shí)并沒(méi)有“全面碾壓人類”的潛力。

      去魅歸去魅,對(duì)于AlphaGo Zero的算法,科研人員紛紛贊不絕口。

      大道至簡(jiǎn)的算法

      在評(píng)價(jià)Zero的算法時(shí),創(chuàng)新工場(chǎng)AI工程院副院長(zhǎng)王詠剛用了“大道至簡(jiǎn)”四個(gè)字。

      簡(jiǎn)單,是不少人工智能“圈內(nèi)人”讀完論文后對(duì)Zero的評(píng)價(jià)。剛剛宣布將要跳槽伯克利的前微軟亞洲研究院首席研究員馬毅教授就發(fā)微博評(píng)論說(shuō),這篇論文“沒(méi)有提出任何新的方法和模型”,但是徹底地實(shí)現(xiàn)了一個(gè)簡(jiǎn)單有效的想法。

      為什么“簡(jiǎn)單”這件事如此被學(xué)術(shù)圈津津樂(lè)道?孫劍的解釋是“我們做研究追求極簡(jiǎn),去除復(fù)雜”,而Zero的算法基本就是在前代基礎(chǔ)上從各方面去簡(jiǎn)化。

      他說(shuō),這種簡(jiǎn)化,一方面體現(xiàn)在把原來(lái)的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)合并成一個(gè)網(wǎng)絡(luò),簡(jiǎn)化了搜索過(guò)程;另一方面體現(xiàn)在用深度殘差網(wǎng)絡(luò)(ResNet)來(lái)對(duì)輸入進(jìn)行簡(jiǎn)化,以前需要人工設(shè)計(jì)棋盤的輸入,體現(xiàn)“這個(gè)子下過(guò)幾次、周圍有幾個(gè)黑子幾個(gè)白子”這樣的信息,而現(xiàn)在是“把黑白子二值的圖直接送進(jìn)來(lái),相當(dāng)于可以理解成對(duì)著棋盤拍照片,把照片送給神經(jīng)網(wǎng)絡(luò),讓神經(jīng)網(wǎng)絡(luò)看著棋盤照片做決策”。孫劍認(rèn)為,擬合搜索和ResNet,正是Zero算法中的兩個(gè)核心技術(shù)。

      其中擬合搜索所解決的問(wèn)題,主要是定制化,它可以對(duì)棋盤上的每一次落子都進(jìn)行量化,比如會(huì)對(duì)最終獲勝幾率做多大貢獻(xiàn),但是這其實(shí)并不是近期才產(chǎn)生的一種理論,而是在很早之前就存在的一種基礎(chǔ)算法理論。

      而另一核心技術(shù)是最深可達(dá)80層的ResNet?偟膩(lái)說(shuō),神經(jīng)網(wǎng)絡(luò)越深,函數(shù)映射能力就越強(qiáng)、越有效率,越有可能有效預(yù)測(cè)一個(gè)復(fù)雜的映射。

      下圍棋時(shí)要用到的,就是一個(gè)非常復(fù)雜的映射,神經(jīng)網(wǎng)絡(luò)需要輸出每個(gè)可能位置落子時(shí)贏的概率,也就是最高要輸出一個(gè)361維的向量。這是一個(gè)非常復(fù)雜的輸出,需要很深的網(wǎng)絡(luò)來(lái)解決。

      人類棋手下棋,落子很多時(shí)候靠直覺(jué),而這背后實(shí)際上有一個(gè)非常復(fù)雜的函數(shù),Zero就用深層ResNet,擬合出了這樣的函數(shù)。

      ResNet特點(diǎn)就是利用殘差學(xué)習(xí),讓非常深的網(wǎng)絡(luò)可以很好地學(xué)習(xí),2015年,孫劍帶領(lǐng)的團(tuán)隊(duì)就用ResNet把深度神經(jīng)網(wǎng)絡(luò)的層數(shù)從十幾二十層,推到了152層。

      也正是憑借這樣的創(chuàng)新,孫劍團(tuán)隊(duì)拿下了ImageNet和MSCOCO圖像識(shí)別大賽各項(xiàng)目的冠軍。到2016年,他們又推出了第一個(gè)上千層的網(wǎng)絡(luò),獲得了CVPR最佳論文獎(jiǎng)。

      而令孫劍更加意料之外的是,ResNet還被AlphaGo團(tuán)隊(duì)看中,成為AlphaGo Zero算法中的核心組件之一。

      這位曠視科技Face++首席科學(xué)家表示很開心為推動(dòng)整個(gè)AI進(jìn)步“做了一點(diǎn)微小的貢獻(xiàn)”,同時(shí)也很欽佩DeepMind團(tuán)隊(duì)追求極致的精神。孫劍還說(shuō),在曠視研究院的工作中,還會(huì)不斷分享、開放研究成果,更注重技術(shù)在產(chǎn)業(yè)中的實(shí)用性,進(jìn)一步推動(dòng)整個(gè)AI產(chǎn)業(yè)的進(jìn)步。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無(wú)人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛(ài)普生4K 3LCD 激光工程投影

    2024年3月12日,由愛(ài)普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會(huì)即將開幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。