機器學(xué)習(xí)日漸升溫它給巨頭們帶來哪些機遇和挑戰(zhàn)

2017年08月11日 11:47:25 來源：網(wǎng)易智能

　　8月10日消息，大型科技公司都在積極地圍繞人工智能和機器學(xué)習(xí)進行調(diào)整：谷歌提出了“AI First”的戰(zhàn)略，而優(yōu)步將ML語言貫徹到了極致，內(nèi)部人工智能研究實驗室不斷涌現(xiàn)出新的成果。

　　他們傾注了大量的資源和精力讓全世界相信，機器智能革命正在到來。他們認為，深度學(xué)習(xí)是推動這一轉(zhuǎn)型的突破性進展，并為新型自動駕駛汽車、虛擬助手等提供了動力。

　　拋去對這種科學(xué)形式的大肆宣傳不談，這種科學(xué)實踐其實并沒有那么遙遠。

　　機器學(xué)習(xí)學(xué)科的軟件工程師和數(shù)據(jù)科學(xué)家仍然使用許多相同的算法和，程工具，如同他們多年前做的那樣。

　　也就是說，相比深層的神經(jīng)網(wǎng)絡(luò)，傳統(tǒng)的機器學(xué)習(xí)模式正在為大多數(shù)人工智能應(yīng)用提供動力。工程師們?nèi)栽谑褂脗鹘y(tǒng)的軟件工程工具來進行機器學(xué)習(xí)工程，但這些工具并不起作用：數(shù)據(jù)建模的管道試圖將數(shù)據(jù)轉(zhuǎn)為模型，但最終得到的只是一些不完整的碎片。隨著大型科技公司構(gòu)建具有端到端功能的新型機器學(xué)習(xí)平臺，這一過程將會有所改觀。

　　大型科技公司最近開始使用他們自己的集中平臺來研究機器學(xué)習(xí)，這能更清晰地將之前科學(xué)家和工程師分散的工作流程整合到一起。

　　“機器學(xué)習(xí)三部曲”是怎樣的過程

　　機器學(xué)習(xí)工程分為三個階段，數(shù)據(jù)處理、模型構(gòu)建、部署和監(jiān)控。在這個過程中，我們有管道和模型，也就是機器學(xué)習(xí)算法學(xué)習(xí)預(yù)測給定輸入數(shù)據(jù)的過程。

　　“深度學(xué)習(xí)”就是在這一過程發(fā)生。深度學(xué)習(xí)是一種機器學(xué)習(xí)算法的子范疇，它使用多層次的神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)輸入和輸出之間的復(fù)雜關(guān)系。神經(jīng)網(wǎng)絡(luò)的層次越多，它所能捕捉到的復(fù)雜性就越高。

　　傳統(tǒng)的統(tǒng)計機器學(xué)習(xí)算法(即那些不使用深層神經(jīng)網(wǎng)絡(luò)的算法)擁有更有限的能力來獲取關(guān)于訓(xùn)練數(shù)據(jù)的信息。但是，這些更基本的機器學(xué)習(xí)算法與許多程序都高度適配，這使得深度學(xué)習(xí)模型在很多情況下是多余的。因此，我們?nèi)阅芸吹杰浖こ處熢跈C器學(xué)習(xí)工程中廣泛使用這些傳統(tǒng)模型——即使我們正處于對深度學(xué)習(xí)的狂熱之中。

　　但是，支撐起整個學(xué)習(xí)過程的基礎(chǔ)，是訓(xùn)練機器學(xué)習(xí)模型前后的環(huán)節(jié)。

　　第一個階段涉及清理和格式化大量數(shù)據(jù)，并將其輸入到模型中。最后一個階段涉及對模型的仔細部署和監(jiān)控。我們發(fā)現(xiàn)，人工智能的大部分工程時間實際上并不是用來構(gòu)建機器學(xué)習(xí)模型的，而是用來準備和監(jiān)控這些模型。

　　盡管大型科技公司人工智能研究實驗室專注于深度學(xué)習(xí)，但在這些公司中，大多數(shù)機器學(xué)習(xí)應(yīng)用程序并不依賴于神經(jīng)網(wǎng)絡(luò)，而是使用傳統(tǒng)的機器學(xué)習(xí)模式。最常見的模型包括線性/邏輯回歸、隨機森林和增強決策樹。但這些都是不被推薦的模型，甚至不如朋友建議、廣告定向、用戶興趣預(yù)測、供需模擬和搜索結(jié)果排名。

　　工程師用來訓(xùn)練這些模型的一些工具也同樣能取得很好的效果。盡管谷歌的TensorFlow正在回溫，但最常用的機器學(xué)習(xí)庫之一是scikit-learning，它是十年前發(fā)布的。

　　我們有充分的理由使用更簡單的模型而不是深度學(xué)習(xí)。深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練難度很大。它們需要更多的時間和計算能力(它們通常需要不同的硬件，特別是圖形處理器)。讓深入學(xué)習(xí)運轉(zhuǎn)成功是很困難的，它仍然需要大量的手工操作，包括直覺、嘗試和報錯。

　　在傳統(tǒng)的機器學(xué)習(xí)模式下，工程師花在模型培訓(xùn)和調(diào)優(yōu)上的時間相對較短，通常只有幾個小時。最終，如果深度學(xué)習(xí)能夠?qū)崿F(xiàn)的準確度提升較小，那么它所能帶來的價值將遠低于其對可擴展性和開發(fā)速度的需求。

　　因此，在訓(xùn)練機器學(xué)習(xí)模式時，傳統(tǒng)方法效果很好。但是，同樣的情況并不適用于連接機器學(xué)習(xí)管道的基礎(chǔ)設(shè)施。在機器學(xué)習(xí)工程中使用同樣的舊版軟件工程工具，將有更大可能出現(xiàn)錯誤。

　　機器學(xué)習(xí)管道的第一階段數(shù)據(jù)收集和處理恰恰論證了這一點。雖然大公司肯定有大數(shù)據(jù)，但數(shù)據(jù)科學(xué)家或工程師必須清理數(shù)據(jù)，使之有用，也就是驗證并整合來自不同來源的重復(fù)數(shù)據(jù)，標(biāo)準化指標(biāo)，設(shè)計和證明功能。

　　在大多數(shù)公司，工程師通常結(jié)合使用SQL或Hive查詢和Python腳本，從一個或多個數(shù)據(jù)源聚合并格式化多達數(shù)百萬個數(shù)據(jù)點。這通常需要幾天的體力勞動。其中一些可能是重復(fù)性的工作，因為許多公司的流程是分散的，數(shù)據(jù)科學(xué)家或工程師經(jīng)常使用本地腳本或Jupyter筆記本操作數(shù)據(jù)。

　　此外，大型科技公司的規(guī)模較大，難免會造成錯誤。在生產(chǎn)任務(wù)中，要謹慎部署和監(jiān)控模型。正如一位工程師所描述的那樣，“在大公司，百分之八十的機器學(xué)習(xí)流程都相當(dāng)于基礎(chǔ)設(shè)施。”“在大公司，百分之八十的機器學(xué)習(xí)流程都相當(dāng)于基礎(chǔ)設(shè)施。”

　　然而，傳統(tǒng)的單元測試——傳統(tǒng)軟件測試的支柱——并不真正適用于機器學(xué)習(xí)模型，因為機器學(xué)習(xí)模型的正確輸出在之前是未知的。畢竟，機器學(xué)習(xí)的目的是在沒有工程師編寫任何規(guī)則的引導(dǎo)下，讓模型學(xué)會根據(jù)數(shù)據(jù)做出預(yù)測。因此，工程師們采用的不是單元測試，而是采用一種不那么結(jié)構(gòu)化的方法：他們手動監(jiān)控儀表板，并為新模型編寫警報。

　　實際世界數(shù)據(jù)的變化可能會讓訓(xùn)練的模型變得不那么準確，因此工程師根據(jù)應(yīng)用程序的不同，每天按月對新數(shù)據(jù)進行重新培訓(xùn)。但是，現(xiàn)有的工程基礎(chǔ)設(shè)施中缺少機器學(xué)習(xí)的支持，可能會造成開發(fā)模型和生產(chǎn)模型之間的脫節(jié)——畢竟正常代碼更新的頻率要低得多。

　　許多工程師仍依賴于將模型部署到生產(chǎn)中的基本方法，比如將已訓(xùn)練模型的串行化版本或模型權(quán)重保存到一個文件中。工程師有時需要用另一種語言或框架重建模型原型和部分數(shù)據(jù)管道，因此他們在生產(chǎn)基礎(chǔ)設(shè)施上工作。從數(shù)據(jù)處理到培訓(xùn)再到部署的所有階段，任何與機器學(xué)習(xí)開發(fā)的不兼容都可能導(dǎo)致錯誤。

　　為了解決這些問題，一些擁有開發(fā)定制工具資源的大公司已經(jīng)投入了時間和工程技術(shù)來創(chuàng)建他們自己的機器學(xué)習(xí)工具。他們的目標(biāo)是擁有一個無縫的、端對端的機器學(xué)習(xí)平臺，完全兼容該公司的工程基礎(chǔ)設(shè)施。

　　Facebook的FBLearner和Uber的米開朗基羅都是內(nèi)置的機器學(xué)習(xí)平臺，它們都可以做到這一點。它們允許工程師用直觀的用戶界面來構(gòu)建培訓(xùn)和驗證數(shù)據(jù)集，減少在這一階段花費的時間。然后，工程師就可以通過點擊按鈕來(或多或少地)訓(xùn)練模型。最后，他們可以輕松地監(jiān)控和直接更新生產(chǎn)模型。

　　像Azure機器學(xué)習(xí)和亞馬遜機器學(xué)習(xí)這樣的服務(wù)都是公開的可選方案，提供類似端到端平臺功能，但只與其他Amazon或微軟服務(wù)集成，用于存儲管道數(shù)據(jù)和部署組件。

　　盡管大型科技公司一直強調(diào)要通過機器學(xué)習(xí)來提高產(chǎn)品質(zhì)量，但在大多數(shù)公司，這一過程仍面臨重大挑戰(zhàn)和效率低下問題。他們?nèi)匀皇褂脗鹘y(tǒng)的機器學(xué)習(xí)模式，而不是更先進的深度學(xué)習(xí)，仍然依賴于傳統(tǒng)的工具基礎(chǔ)設(shè)施，而這些工具根本不適合機器學(xué)習(xí)。

　　幸運的是，由于目前專注于這些公司的人工智能，他們正在投資研發(fā)專門的工具，使機器學(xué)習(xí)變得更好。有了這些內(nèi)部工具，或者有可能與第三方機器學(xué)習(xí)平臺結(jié)合起來，這些平臺能夠緊密地整合到現(xiàn)有的基礎(chǔ)設(shè)施中，這些組織就能將人工智能的潛能變?yōu)楝F(xiàn)實。(選自：techcrunch 作者：Catherine Dong 編譯：網(wǎng)易見外智能編譯平臺審校：姜啟航)

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信