8月10日消息,大型科技公司都在積極地圍繞人工智能和機器學(xué)習(xí)進行調(diào)整:谷歌提出了“AI First”的戰(zhàn)略,而優(yōu)步將ML語言貫徹到了極致,內(nèi)部人工智能研究實驗室不斷涌現(xiàn)出新的成果。
他們傾注了大量的資源和精力讓全世界相信,機器智能革命正在到來。他們認為,深度學(xué)習(xí)是推動這一轉(zhuǎn)型的突破性進展,并為新型自動駕駛汽車、虛擬助手等提供了動力。
拋去對這種科學(xué)形式的大肆宣傳不談,這種科學(xué)實踐其實并沒有那么遙遠。
機器學(xué)習(xí)學(xué)科的軟件工程師和數(shù)據(jù)科學(xué)家仍然使用許多相同的算法和,程工具,如同他們多年前做的那樣。
也就是說,相比深層的神經(jīng)網(wǎng)絡(luò),傳統(tǒng)的機器學(xué)習(xí)模式正在為大多數(shù)人工智能應(yīng)用提供動力。工程師們?nèi)栽谑褂脗鹘y(tǒng)的軟件工程工具來進行機器學(xué)習(xí)工程,但這些工具并不起作用:數(shù)據(jù)建模的管道試圖將數(shù)據(jù)轉(zhuǎn)為模型,但最終得到的只是一些不完整的碎片。隨著大型科技公司構(gòu)建具有端到端功能的新型機器學(xué)習(xí)平臺,這一過程將會有所改觀。
大型科技公司最近開始使用他們自己的集中平臺來研究機器學(xué)習(xí),這能更清晰地將之前科學(xué)家和工程師分散的工作流程整合到一起。
“機器學(xué)習(xí)三部曲”是怎樣的過程
機器學(xué)習(xí)工程分為三個階段,數(shù)據(jù)處理、模型構(gòu)建、部署和監(jiān)控。在這個過程中,我們有管道和模型,也就是機器學(xué)習(xí)算法學(xué)習(xí)預(yù)測給定輸入數(shù)據(jù)的過程。
“深度學(xué)習(xí)”就是在這一過程發(fā)生。深度學(xué)習(xí)是一種機器學(xué)習(xí)算法的子范疇,它使用多層次的神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)輸入和輸出之間的復(fù)雜關(guān)系。神經(jīng)網(wǎng)絡(luò)的層次越多,它所能捕捉到的復(fù)雜性就越高。
傳統(tǒng)的統(tǒng)計機器學(xué)習(xí)算法(即那些不使用深層神經(jīng)網(wǎng)絡(luò)的算法)擁有更有限的能力來獲取關(guān)于訓(xùn)練數(shù)據(jù)的信息。但是,這些更基本的機器學(xué)習(xí)算法與許多程序都高度適配,這使得深度學(xué)習(xí)模型在很多情況下是多余的。因此,我們?nèi)阅芸吹杰浖こ處熢跈C器學(xué)習(xí)工程中廣泛使用這些傳統(tǒng)模型——即使我們正處于對深度學(xué)習(xí)的狂熱之中。
但是,支撐起整個學(xué)習(xí)過程的基礎(chǔ),是訓(xùn)練機器學(xué)習(xí)模型前后的環(huán)節(jié)。
第一個階段涉及清理和格式化大量數(shù)據(jù),并將其輸入到模型中。最后一個階段涉及對模型的仔細部署和監(jiān)控。我們發(fā)現(xiàn),人工智能的大部分工程時間實際上并不是用來構(gòu)建機器學(xué)習(xí)模型的,而是用來準備和監(jiān)控這些模型。
盡管大型科技公司人工智能研究實驗室專注于深度學(xué)習(xí),但在這些公司中,大多數(shù)機器學(xué)習(xí)應(yīng)用程序并不依賴于神經(jīng)網(wǎng)絡(luò),而是使用傳統(tǒng)的機器學(xué)習(xí)模式。最常見的模型包括線性/邏輯回歸、隨機森林和增強決策樹。但這些都是不被推薦的模型,甚至不如朋友建議、廣告定向、用戶興趣預(yù)測、供需模擬和搜索結(jié)果排名。
工程師用來訓(xùn)練這些模型的一些工具也同樣能取得很好的效果。盡管谷歌的TensorFlow正在回溫,但最常用的機器學(xué)習(xí)庫之一是scikit-learning,它是十年前發(fā)布的。
我們有充分的理由使用更簡單的模型而不是深度學(xué)習(xí)。深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練難度很大。它們需要更多的時間和計算能力(它們通常需要不同的硬件,特別是圖形處理器)。讓深入學(xué)習(xí)運轉(zhuǎn)成功是很困難的,它仍然需要大量的手工操作,包括直覺、嘗試和報錯。
在傳統(tǒng)的機器學(xué)習(xí)模式下,工程師花在模型培訓(xùn)和調(diào)優(yōu)上的時間相對較短,通常只有幾個小時。最終,如果深度學(xué)習(xí)能夠?qū)崿F(xiàn)的準確度提升較小,那么它所能帶來的價值將遠低于其對可擴展性和開發(fā)速度的需求。
因此,在訓(xùn)練機器學(xué)習(xí)模式時,傳統(tǒng)方法效果很好。但是,同樣的情況并不適用于連接機器學(xué)習(xí)管道的基礎(chǔ)設(shè)施。在機器學(xué)習(xí)工程中使用同樣的舊版軟件工程工具,將有更大可能出現(xiàn)錯誤。
機器學(xué)習(xí)管道的第一階段數(shù)據(jù)收集和處理恰恰論證了這一點。雖然大公司肯定有大數(shù)據(jù),但數(shù)據(jù)科學(xué)家或工程師必須清理數(shù)據(jù),使之有用,也就是驗證并整合來自不同來源的重復(fù)數(shù)據(jù),標(biāo)準化指標(biāo),設(shè)計和證明功能。
在大多數(shù)公司,工程師通常結(jié)合使用SQL或Hive查詢和Python腳本,從一個或多個數(shù)據(jù)源聚合并格式化多達數(shù)百萬個數(shù)據(jù)點。這通常需要幾天的體力勞動。其中一些可能是重復(fù)性的工作,因為許多公司的流程是分散的,數(shù)據(jù)科學(xué)家或工程師經(jīng)常使用本地腳本或Jupyter筆記本操作數(shù)據(jù)。
此外,大型科技公司的規(guī)模較大,難免會造成錯誤。在生產(chǎn)任務(wù)中,要謹慎部署和監(jiān)控模型。正如一位工程師所描述的那樣,“在大公司,百分之八十的機器學(xué)習(xí)流程都相當(dāng)于基礎(chǔ)設(shè)施。”“在大公司,百分之八十的機器學(xué)習(xí)流程都相當(dāng)于基礎(chǔ)設(shè)施。”
然而,傳統(tǒng)的單元測試——傳統(tǒng)軟件測試的支柱——并不真正適用于機器學(xué)習(xí)模型,因為機器學(xué)習(xí)模型的正確輸出在之前是未知的。畢竟,機器學(xué)習(xí)的目的是在沒有工程師編寫任何規(guī)則的引導(dǎo)下,讓模型學(xué)會根據(jù)數(shù)據(jù)做出預(yù)測。因此,工程師們采用的不是單元測試,而是采用一種不那么結(jié)構(gòu)化的方法:他們手動監(jiān)控儀表板,并為新模型編寫警報。
實際世界數(shù)據(jù)的變化可能會讓訓(xùn)練的模型變得不那么準確,因此工程師根據(jù)應(yīng)用程序的不同,每天按月對新數(shù)據(jù)進行重新培訓(xùn)。但是,現(xiàn)有的工程基礎(chǔ)設(shè)施中缺少機器學(xué)習(xí)的支持,可能會造成開發(fā)模型和生產(chǎn)模型之間的脫節(jié)——畢竟正常代碼更新的頻率要低得多。
許多工程師仍依賴于將模型部署到生產(chǎn)中的基本方法,比如將已訓(xùn)練模型的串行化版本或模型權(quán)重保存到一個文件中。工程師有時需要用另一種語言或框架重建模型原型和部分數(shù)據(jù)管道,因此他們在生產(chǎn)基礎(chǔ)設(shè)施上工作。從數(shù)據(jù)處理到培訓(xùn)再到部署的所有階段,任何與機器學(xué)習(xí)開發(fā)的不兼容都可能導(dǎo)致錯誤。
為了解決這些問題,一些擁有開發(fā)定制工具資源的大公司已經(jīng)投入了時間和工程技術(shù)來創(chuàng)建他們自己的機器學(xué)習(xí)工具。他們的目標(biāo)是擁有一個無縫的、端對端的機器學(xué)習(xí)平臺,完全兼容該公司的工程基礎(chǔ)設(shè)施。
Facebook的FBLearner和Uber的米開朗基羅都是內(nèi)置的機器學(xué)習(xí)平臺,它們都可以做到這一點。它們允許工程師用直觀的用戶界面來構(gòu)建培訓(xùn)和驗證數(shù)據(jù)集,減少在這一階段花費的時間。然后,工程師就可以通過點擊按鈕來(或多或少地)訓(xùn)練模型。最后,他們可以輕松地監(jiān)控和直接更新生產(chǎn)模型。
像Azure機器學(xué)習(xí)和亞馬遜機器學(xué)習(xí)這樣的服務(wù)都是公開的可選方案,提供類似端到端平臺功能,但只與其他Amazon或微軟服務(wù)集成,用于存儲管道數(shù)據(jù)和部署組件。
盡管大型科技公司一直強調(diào)要通過機器學(xué)習(xí)來提高產(chǎn)品質(zhì)量,但在大多數(shù)公司,這一過程仍面臨重大挑戰(zhàn)和效率低下問題。他們?nèi)匀皇褂脗鹘y(tǒng)的機器學(xué)習(xí)模式,而不是更先進的深度學(xué)習(xí),仍然依賴于傳統(tǒng)的工具基礎(chǔ)設(shè)施,而這些工具根本不適合機器學(xué)習(xí)。
幸運的是,由于目前專注于這些公司的人工智能,他們正在投資研發(fā)專門的工具,使機器學(xué)習(xí)變得更好。有了這些內(nèi)部工具,或者有可能與第三方機器學(xué)習(xí)平臺結(jié)合起來,這些平臺能夠緊密地整合到現(xiàn)有的基礎(chǔ)設(shè)施中,這些組織就能將人工智能的潛能變?yōu)楝F(xiàn)實。(選自:techcrunch 作者:Catherine Dong 編譯:網(wǎng)易見外智能編譯平臺 審校:姜啟航)
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。