“理解和運(yùn)用自然語(yǔ)言是人工智能的核心問(wèn)題之一。大數(shù)據(jù)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和知識(shí)圖譜等技術(shù)的發(fā)展,正在給語(yǔ)言與智能的發(fā)展帶來(lái)突破。”4月20日,第十四屆中國(guó)電子信息技術(shù)年會(huì)上,百度高級(jí)副總裁、AI技術(shù)平臺(tái)體系(AIG)和基礎(chǔ)技術(shù)體系(TG)總負(fù)責(zé)人王海峰發(fā)表題為《語(yǔ)言與智能》的演講,以翻譯為例介紹了人工智能技術(shù)的演進(jìn),闡釋近期語(yǔ)言與知識(shí)技術(shù)和大數(shù)據(jù)、深度學(xué)習(xí)等技術(shù)結(jié)合帶來(lái)的突破、行業(yè)應(yīng)用,以及技術(shù)趨勢(shì)和挑戰(zhàn)。
王海峰是人工智能研究及應(yīng)用,尤其是自然語(yǔ)言處理領(lǐng)域的領(lǐng)軍者,在國(guó)內(nèi)外學(xué)界和工業(yè)界享有盛譽(yù)。他先后為百度開(kāi)創(chuàng)和發(fā)展了自然語(yǔ)言處理、機(jī)器翻譯、語(yǔ)音、圖像、深度學(xué)習(xí)、數(shù)據(jù)挖掘、知識(shí)圖譜等技術(shù)方向,帶領(lǐng)百度AI取得了大量領(lǐng)先業(yè)界的技術(shù)成果,并推動(dòng)百度大腦對(duì)外開(kāi)放賦能,被業(yè)界稱譽(yù)為少有的學(xué)術(shù)與工程并舉的科學(xué)家。他主導(dǎo)研發(fā)的“百度大腦核心技術(shù)及開(kāi)放平臺(tái)”,著眼于人工智能的前沿技術(shù)研發(fā)及大規(guī)模產(chǎn)業(yè)化應(yīng)用,打造世界級(jí)的人工智能開(kāi)放平臺(tái),助力國(guó)家人工智能產(chǎn)業(yè)發(fā)展,推動(dòng)各行各業(yè)的智能化升級(jí),為國(guó)家創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略提供有力支撐,榮獲2018年度中國(guó)電子學(xué)會(huì)科學(xué)技術(shù)獎(jiǎng)科技進(jìn)步一等獎(jiǎng)。
王海峰表示,通俗來(lái)講,人工智能是讓機(jī)器可以像人一樣,具備聽(tīng)覺(jué)、視覺(jué)、語(yǔ)言、行為能力,可以進(jìn)行邏輯計(jì)算和推理規(guī)劃,并基于知識(shí)學(xué)習(xí)持續(xù)進(jìn)化。
語(yǔ)言是人類(lèi)思考的媒介,是人類(lèi)特有的高級(jí)智力活動(dòng)。早期的簡(jiǎn)單符號(hào),到甲骨文,到紙質(zhì)的書(shū),以及現(xiàn)代互聯(lián)網(wǎng)上的文本,語(yǔ)言文字這一載體讓知識(shí)得以凝煉和傳承,可以說(shuō),語(yǔ)言文字促進(jìn)了人類(lèi)文明的發(fā)展。因此,如何理解和運(yùn)用自然語(yǔ)言,是人工智能需要解決的核心問(wèn)題之一。當(dāng)下,大數(shù)據(jù)、知識(shí)圖譜、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)快速發(fā)展,并與自然語(yǔ)言處理密切結(jié)合,推動(dòng)語(yǔ)言智能持續(xù)發(fā)展和突破,并越來(lái)越多地應(yīng)用于各個(gè)行業(yè)。
自然語(yǔ)言處理是人工智能皇冠上的明珠,而填補(bǔ)語(yǔ)言鴻溝的機(jī)器翻譯則是自然語(yǔ)言處理最典型的應(yīng)用技術(shù)之一。王海峰在這一領(lǐng)域深耕近30年,他從親歷的機(jī)器翻譯發(fā)展史中以小窺大,梳理介紹了人工智能技術(shù)的發(fā)展和演化歷程。
從現(xiàn)代計(jì)算機(jī)誕生之初,就開(kāi)始有人提出用計(jì)算機(jī)來(lái)進(jìn)行語(yǔ)言翻譯的設(shè)想。在早期發(fā)展過(guò)程中,研究者們很多采用理性主義、規(guī)則系統(tǒng)、知識(shí)工程的方法來(lái)進(jìn)行研究。王海峰從1993年開(kāi)始從事機(jī)器翻譯的相關(guān)研究,初期便采用基于規(guī)則的方法,在國(guó)家“863”評(píng)測(cè)獲得第一。早在1999年,王海峰在博士論文中即開(kāi)始探索神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的可能性,但由于當(dāng)時(shí)算力和數(shù)據(jù)的制約,他轉(zhuǎn)而嘗試統(tǒng)計(jì)機(jī)器翻譯與大規(guī)模規(guī)則翻譯系統(tǒng)的結(jié)合,并開(kāi)創(chuàng)性地提出樞軸語(yǔ)言翻譯方法以解決小語(yǔ)種翻譯語(yǔ)料稀缺的難題。2008年,王海峰主持研發(fā)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)參加了國(guó)際口語(yǔ)機(jī)器翻譯評(píng)測(cè)比賽IWSLT,在所參加的 5項(xiàng)任務(wù)15個(gè)評(píng)測(cè)指標(biāo)中,共取得12項(xiàng)第一、3項(xiàng)第二的優(yōu)異成績(jī),展露出明顯的技術(shù)領(lǐng)先優(yōu)勢(shì)。
2010年加入百度后,他帶領(lǐng)團(tuán)隊(duì)融合統(tǒng)計(jì)與規(guī)則、實(shí)例和神經(jīng)網(wǎng)絡(luò)等方法,實(shí)現(xiàn)了多方面的技術(shù)創(chuàng)新,打造出服務(wù)億萬(wàn)用戶的百度翻譯,并在2015年率先發(fā)布互聯(lián)網(wǎng)神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)。目前,百度翻譯可支持全球28種語(yǔ)言互譯,覆蓋756個(gè)翻譯方向,超過(guò)15萬(wàn)家第三方應(yīng)用接入百度翻譯API,每日翻譯字符數(shù)超過(guò)千億。百度翻譯因此榮獲2015年國(guó)家科技進(jìn)步二等獎(jiǎng)。2018年的百度世界大會(huì)上,百度又發(fā)布了世界上首個(gè)集成了預(yù)測(cè)和可控延遲的語(yǔ)音實(shí)時(shí)翻譯系統(tǒng),這是自然語(yǔ)言處理方面的重大技術(shù)突破。
王海峰表示,機(jī)器翻譯的發(fā)展從最初運(yùn)用規(guī)則系統(tǒng),到統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法,后又解決算法、算力等各方面的問(wèn)題,不斷登上新的臺(tái)階。人工智能的發(fā)展脈絡(luò)與此相似,經(jīng)歷多種方法的探索和實(shí)踐,有過(guò)低谷和高潮,總的趨勢(shì)是在持續(xù)進(jìn)步。
近年來(lái),深度學(xué)習(xí)的崛起,及其與大數(shù)據(jù)的結(jié)合,使人工智能得到飛躍式的發(fā)展。
在自然語(yǔ)言處理領(lǐng)域,深度學(xué)習(xí)模型具有比傳統(tǒng)機(jī)器學(xué)習(xí)模型更強(qiáng)的數(shù)據(jù)學(xué)習(xí)能力,使得基于深度學(xué)習(xí)的依存句法分析等自然語(yǔ)言處理系統(tǒng)準(zhǔn)確率得到大幅提升。
目前,深度學(xué)習(xí)領(lǐng)域主要有強(qiáng)化學(xué)習(xí)、監(jiān)督學(xué)習(xí)、無(wú)/自監(jiān)督學(xué)習(xí)三種學(xué)習(xí)范式,而無(wú)/自監(jiān)督學(xué)習(xí)可以類(lèi)比人類(lèi)學(xué)習(xí),是重要的一種學(xué)習(xí)方式。
自監(jiān)督學(xué)習(xí)讓基于大規(guī)模無(wú)標(biāo)記語(yǔ)料的語(yǔ)言模型得到了長(zhǎng)足的發(fā)展。近期,Google、百度分別提出了無(wú)監(jiān)督文本的預(yù)訓(xùn)練語(yǔ)言模型BERT、ERNIE,將NLP任務(wù)的性能提升到新高度。百度提出的基于知識(shí)增強(qiáng)的ERNIE 模型,通過(guò)建模海量數(shù)據(jù)中的實(shí)體概念等先驗(yàn)語(yǔ)義知識(shí),學(xué)習(xí)真實(shí)世界的語(yǔ)義關(guān)系。相較于Google BERT基于字單元的語(yǔ)義建模,ERNIE直接對(duì)先驗(yàn)語(yǔ)義知識(shí)單元進(jìn)行建模,并通過(guò)海量文本數(shù)據(jù)學(xué)習(xí)實(shí)體間的語(yǔ)義關(guān)系。這種融合知識(shí)的語(yǔ)義建模大幅增強(qiáng)了模型語(yǔ)義表示能力,在包括語(yǔ)言推斷、語(yǔ)義相似度、命名實(shí)體識(shí)別、情感分析、問(wèn)答匹配等自然語(yǔ)言處理各類(lèi)任務(wù)上的多個(gè)公開(kāi)中文數(shù)據(jù)集上,ERNIE均取得了優(yōu)于BERT的效果。
依托深度學(xué)習(xí)技術(shù)的發(fā)展,語(yǔ)音、圖像等感知技術(shù)取得了巨大進(jìn)步,但認(rèn)知技術(shù)的突破,會(huì)越來(lái)越依賴知識(shí),需要提升對(duì)知識(shí)和大規(guī)模知識(shí)圖譜的運(yùn)用。在物理世界、人類(lèi)社會(huì)和網(wǎng)絡(luò)空間中,匯聚了大量的多元、異構(gòu)、多模態(tài)的數(shù)據(jù),百度借助無(wú)標(biāo)簽大數(shù)據(jù)開(kāi)放域知識(shí)挖掘、知識(shí)體系自動(dòng)擴(kuò)展、知識(shí)整合等技術(shù),基于海量數(shù)據(jù)構(gòu)建起了超大規(guī)模知識(shí)圖譜。目前,百度擁有世界上最大的多元異構(gòu)知識(shí)圖譜,除了包含數(shù)億實(shí)體、千億級(jí)事實(shí),能夠滿足90%用戶需求的實(shí)體圖譜,針對(duì)不同的應(yīng)用場(chǎng)景和知識(shí)形態(tài),百度還建立起關(guān)注點(diǎn)圖譜、行業(yè)知識(shí)圖譜、POI圖譜、事件圖譜等多種知識(shí)圖譜。比如在醫(yī)療領(lǐng)域,能夠從病歷等原始文本中,抽取出實(shí)體及多元關(guān)系,并進(jìn)行文本結(jié)構(gòu)化,最終構(gòu)建起醫(yī)療圖譜,同時(shí)結(jié)合醫(yī)療大數(shù)據(jù)、醫(yī)療認(rèn)知計(jì)算,應(yīng)用于醫(yī)療臨床輔助決策服務(wù)中。
多模態(tài)知識(shí)與語(yǔ)言、視覺(jué)等技術(shù)結(jié)合,發(fā)展進(jìn)入“多模態(tài)深度語(yǔ)義理解”階段。例如,基于知識(shí)圖譜的視頻理解技術(shù),能夠視頻中抽取結(jié)構(gòu)化語(yǔ)義知識(shí),真正“看懂”視頻。
語(yǔ)言理解技術(shù)持續(xù)發(fā)展,并通過(guò)與知識(shí)圖譜、深度學(xué)習(xí)等技術(shù)融合,不斷提高各種應(yīng)用的智能化程度。
王海峰在演講中介紹,百度創(chuàng)新地融合知識(shí)圖譜、自然語(yǔ)言處理及深度學(xué)習(xí)技術(shù),研發(fā)了能夠深刻理解用戶意圖、精準(zhǔn)滿足搜索需求、提供更豐富知識(shí)內(nèi)容的智能搜索引擎,并結(jié)合語(yǔ)音、圖像、AR等感知技術(shù)能力,更便捷地與用戶交互,為用戶提供更精準(zhǔn)高效的信息服務(wù)。
例如,用戶用自然語(yǔ)言搜索“林徽因的丈夫的父親是誰(shuí)”,智能搜索引擎能夠理解用戶的意圖,并結(jié)合知識(shí)圖譜以圖文并茂的形式把答案“梁?jiǎn)⒊?rdquo;精準(zhǔn)呈現(xiàn)給用戶。又如,用戶搜索“上面草字頭下面句子的句是什么字”,智能搜索引擎能夠?yàn)橛脩籼峁?ldquo;茍”的讀音、筆畫(huà)、釋義等豐富的信息。
除了智能搜索方面的應(yīng)用,百度還基于語(yǔ)言理解和生成技術(shù)提供智能寫(xiě)作等能力。智能寫(xiě)作適用于財(cái)經(jīng)、體育、天氣、熱點(diǎn)與娛樂(lè)事件等多領(lǐng)域的輔助與自動(dòng)寫(xiě)作,大幅提升創(chuàng)作效率。比如,基于結(jié)構(gòu)化的股票數(shù)據(jù),可以生成關(guān)于股市的快訊新聞。結(jié)合視覺(jué)技術(shù)的智能春聯(lián),可通過(guò)刷臉檢測(cè)出人物性別、年齡、微笑程度、性格特征等,生成特征詞,然后基于神經(jīng)網(wǎng)絡(luò)生成技術(shù)創(chuàng)作出應(yīng)景的春聯(lián),讓人工智能技術(shù)融入大眾的文化娛樂(lè)生活。
智能客服是結(jié)合自然語(yǔ)言處理、知識(shí)圖譜和語(yǔ)音等技術(shù)打造的行業(yè)解決方案。在智能客服場(chǎng)景中,基于語(yǔ)音語(yǔ)義一體化技術(shù),百度大腦可以準(zhǔn)確識(shí)別出用戶的話語(yǔ),理解用戶意圖,進(jìn)而通過(guò)行業(yè)知識(shí)圖譜的賦能理解業(yè)務(wù)流程,為用戶提供相應(yīng)的服務(wù)。整個(gè)服務(wù)過(guò)程流暢自然,實(shí)現(xiàn)了與用戶無(wú)障礙溝通,提升業(yè)務(wù)效率并滿足用戶需求。
百度領(lǐng)先的語(yǔ)言與知識(shí)技術(shù),不僅廣泛應(yīng)用于智能搜索、深度問(wèn)答、對(duì)話系統(tǒng)、智能寫(xiě)作、機(jī)器翻譯等領(lǐng)域,為廣大用戶提供更智能的體驗(yàn),滿足用戶對(duì)信息和服務(wù)的需求,還通過(guò)百度大腦平臺(tái)全面開(kāi)放,促進(jìn)行業(yè)應(yīng)用和創(chuàng)新。
當(dāng)然,自然語(yǔ)言理解技術(shù)也面臨著數(shù)據(jù)稀疏、知識(shí)未被有效利用、結(jié)合場(chǎng)景的語(yǔ)用研究等挑戰(zhàn)。但王海峰表示,“隨著技術(shù)發(fā)展,我們會(huì)越來(lái)越深入地理解自然語(yǔ)言、掌握知識(shí),推動(dòng)人工智能發(fā)揮更大的價(jià)值,為人類(lèi)社會(huì)發(fā)展提供更大的助力。”
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專(zhuān)題論壇在沈陽(yáng)成功舉辦。