中國(guó)品牌,讓東南亞感受“消費(fèi)升級(jí)”小紅書本地“坐抖望團(tuán)”CrowdStrike“全球滅霸響指”事件后續(xù),德國(guó) 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺(tái)合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺(tái),加速數(shù)字化轉(zhuǎn)型重慶:力爭(zhēng)今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬(wàn)輛,到 2027 年建成萬(wàn)億級(jí)產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實(shí)況照片了蘋果有線耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會(huì)官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來(lái)了,阿里云「通義靈碼」全面進(jìn)化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來(lái)了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國(guó)AR/VR出貨23.3萬(wàn)臺(tái),同比下滑了 29.1%IDC:2024 上半年中國(guó) AR / VR 頭顯出貨 23.3 萬(wàn)臺(tái),同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測(cè)屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個(gè)運(yùn)行時(shí)安全解決方案,實(shí)現(xiàn)從代碼到云的全面軟件完整性和可追溯性
  • 首頁(yè) > 企業(yè)IT頻道 > 人工智能

    機(jī)器學(xué)習(xí)在領(lǐng)英的規(guī);瘧(yīng)用

    2019年12月06日 13:27:27   來(lái)源:中文科技資訊

      人工智能和機(jī)器學(xué)習(xí)仍然是全球持續(xù)增長(zhǎng)的領(lǐng)域之一,近年來(lái)涌現(xiàn)出越來(lái)越多本科生或者非人工智能專業(yè)出身的工程師,他們努力學(xué)習(xí)和使用技術(shù)來(lái)改進(jìn)產(chǎn)品,幾乎每天都有新的機(jī)器學(xué)習(xí)技術(shù)和框架發(fā)布。這篇文章將討論領(lǐng)英如何規(guī)模化利用技術(shù),幫助更多工程師提升機(jī)器學(xué)習(xí)的效率。近日,領(lǐng)英中國(guó)機(jī)器學(xué)習(xí)研發(fā)經(jīng)理李子在IEEE數(shù)據(jù)挖掘國(guó)際會(huì)議(ICDM)上分享了領(lǐng)英是如何規(guī)模化開展機(jī)器學(xué)習(xí),介紹領(lǐng)英的核心產(chǎn)品以及如何利用技術(shù)幫助更多工程師提升機(jī)器學(xué)習(xí)的效率。

      Pro-ML提升機(jī)器學(xué)習(xí)效率

    blob.png

      過(guò)去10年,領(lǐng)英把人工智能技術(shù)應(yīng)用于各個(gè)方面來(lái)提升用戶和客戶體驗(yàn),比如你可能認(rèn)識(shí)的人(People You May Know),可以為你推薦能夠給你的職業(yè)發(fā)展帶來(lái)價(jià)值的人;Feed可以幫你找到最相關(guān)的行業(yè)信息,比如最新的文章或聯(lián)系人的最新動(dòng)態(tài);Recruiter Search可以幫助企業(yè)了解趨勢(shì),更好地進(jìn)行招聘;職位推薦系統(tǒng)(Job Recommendations System)可以幫你找到工作或者跳槽到更好的企業(yè)。機(jī)器學(xué)習(xí)推動(dòng)著領(lǐng)英的核心產(chǎn)品。

      但領(lǐng)英發(fā)現(xiàn),過(guò)去每個(gè)團(tuán)隊(duì)用自己的AI技術(shù)堆棧開發(fā)各自的產(chǎn)品。,這種做法無(wú)法有效實(shí)現(xiàn)規(guī);,因?yàn)槊總(gè)團(tuán)隊(duì)使用的技術(shù)不同,從邏輯回歸到深度學(xué)習(xí),從Pig 、 Hive、Spark到Scalding等等,團(tuán)隊(duì)之間的AI技術(shù)堆棧很難共享協(xié)作。所以領(lǐng)英希望在招入新的工程師或是開發(fā)新功能、使用新技術(shù)時(shí),盡可能減少大家的負(fù)擔(dān)。此外,近年來(lái)很多人工智能領(lǐng)域的從業(yè)者其實(shí)并不是人工智能專業(yè)出身,領(lǐng)英的AI基礎(chǔ)架構(gòu)對(duì)他們來(lái)說(shuō)過(guò)于復(fù)雜,難以用來(lái)構(gòu)建、迭代模型。

      為了高效地促進(jìn)機(jī)器學(xué)習(xí)規(guī);I(lǐng)英構(gòu)建了名為“Productive Machine Learning”(高效機(jī)器學(xué)習(xí))的項(xiàng)目,簡(jiǎn)稱Pro-ML。Pro-ML的目標(biāo)是將AI工程師的工作效率翻一番,讓他們能更輕松、更高效地構(gòu)建模型。在過(guò)去十年里領(lǐng)英發(fā)現(xiàn),模型性能與模型更新速度直接相關(guān)。因此,如果能讓工程師加快模型迭代速度,那么模型性能也會(huì)提高。

      具體來(lái)說(shuō)Pro-ML采用分層解決方案,目標(biāo)是提高整個(gè)模型開發(fā)周期的效率,從模型探索和構(gòu)建(Exploring and Authoring),到模型訓(xùn)練(Training)、模型部署(Deploying)、模型運(yùn)行(Running),再到持續(xù)監(jiān)控模型狀態(tài)。領(lǐng)英希望把所有常規(guī)工作自動(dòng)化,這樣算法工程師就能更加聚焦于創(chuàng)新。

    blob.png

      Pro-ML中有兩個(gè)工具貫穿剛剛提到的所有階段:一個(gè)是Feature Marketplace,另一個(gè)是Health Assurance Layer。在Feature Marketplace,領(lǐng)英使用先進(jìn)的技術(shù)來(lái)生成、共享和管理新特征。AI建模的核心是特征工程(Feature Engineering),領(lǐng)英有數(shù)百名工程師和數(shù)萬(wàn)種正在研究的特征。提高工程師生成、共享和管理特征的效率,對(duì)于提高他們的工作效率至關(guān)重要。

      而Health Assurance Layer可以在整個(gè)開發(fā)周期中持續(xù)監(jiān)控模型狀態(tài)。比如,它確保用于模型訓(xùn)練的離線特征和用于在線推理的在線特征在統(tǒng)計(jì)意義上一致或近似,同時(shí)確保在線模型的良好性能。比如在預(yù)測(cè)分?jǐn)?shù)的時(shí)候,工程師希望在線打的分與離線訓(xùn)練的分?jǐn)?shù)精度一致。一旦Health Assurance Layer檢測(cè)到異常,會(huì)自動(dòng)提醒工程師,然后工程師可以介入,進(jìn)行調(diào)試。Health Assurance Layer還提供了很多有用的工具,幫助工程師進(jìn)一步確認(rèn)問(wèn)題所在。是代碼出錯(cuò)?還是數(shù)據(jù)缺失?還是僅僅因?yàn)槟P屠吓f,需要重新訓(xùn)練?

      Pro-ML提升效率的第一步——探索與授權(quán)

      建模過(guò)程實(shí)際上始于對(duì)問(wèn)題的探索。目標(biāo)是什么?目標(biāo)函數(shù)是什么?有什么特征?數(shù)據(jù)有哪些?對(duì)于這些問(wèn)題,工程師需要做無(wú)數(shù)個(gè)實(shí)驗(yàn)來(lái)探索數(shù)據(jù),進(jìn)行特征工程,調(diào)整模型和超參數(shù)。為了提高這一階段的工作效率,領(lǐng)英構(gòu)建了集成了 Pro-ML內(nèi)核的Jupyter Notebook。在Jupyter Notebook的幫助下,工程師可以一步一步地進(jìn)行數(shù)據(jù)探索、特征選擇和模型繪制,并以交互的方式做實(shí)驗(yàn)。Jupyter Notebook由領(lǐng)英的Spark集群提供計(jì)算資源,這樣工程師就可以在線完成工作而不需要把數(shù)據(jù)下載到本地,不僅提高了他們的工作效率,同時(shí)也保護(hù)了用戶隱私。

    blob.png

      為了定義模型,除了Jupyter Notebook,領(lǐng)英還構(gòu)建了一種領(lǐng)域特定語(yǔ)言(Domain-specific Language, DSL)叫做Quasar。本質(zhì)上來(lái)說(shuō),機(jī)器學(xué)習(xí)模型就是有向無(wú)環(huán)圖(DAG),它定義了輸入特征和在這些特征上的轉(zhuǎn)換。Quasar DSL是領(lǐng)英用來(lái)定義模型的語(yǔ)言,它為建模者提供了幾乎所有常見的特征轉(zhuǎn)換函數(shù)。因此AI工程師們可以專注于新特征或者特征組合實(shí)驗(yàn),而不需要書寫大量重復(fù)代碼來(lái)做特征轉(zhuǎn)換。Quasar的另一個(gè)優(yōu)勢(shì)是離線訓(xùn)練出來(lái)的模型可以直接部署到線上,大大簡(jiǎn)化了模型從離線到在線的過(guò)渡。

    blob.png

      多種工具高效協(xié)助模型訓(xùn)練

      眾所周知,一個(gè)模型實(shí)際上有兩個(gè)關(guān)鍵組成部分,一個(gè)是特征,另一個(gè)是算法。首先來(lái)看一下特征。如前所述,特征工程是AI建模的核心所在。在領(lǐng)英,為了提高學(xué)習(xí)效率,領(lǐng)英構(gòu)建的框架Feature Marketplace可以讓工程師可以有效地生成、發(fā)現(xiàn)、共享和管理特征。工程師可以將特征共享到Feature Marketplace上以便其他人使用,也可以按名稱搜索特征,發(fā)現(xiàn)該特征并獲取關(guān)于該特征的所有信息,例如特征的創(chuàng)建者、特征是如何生成的、特征應(yīng)用在哪些領(lǐng)英的模型中以特征的統(tǒng)計(jì)分布等等,所有這些問(wèn)題都可以在Feature Marketplace找到答案。Feature Marketplace還為工程師提供了諸多切實(shí)有用的工具,幫助工程師選擇特征以及持續(xù)監(jiān)控和驗(yàn)證特征。通過(guò)Feature Marketplace,工程師可以快速找到建模所需的特征。

    blob.png

      不過(guò),F(xiàn)eature Marketplace也面臨著挑戰(zhàn):如何確保工程師能夠得到他們所需要的么,比如在線和離線特征是一致的。如果做了大量離線實(shí)驗(yàn),收集好的特征用于建模,那么這個(gè)模型可能會(huì)表現(xiàn)得很好,但不能保證在線的時(shí)候這個(gè)特征是穩(wěn)定的,如果不穩(wěn)定,那模型性能可能會(huì)下降。事實(shí)上,這種事故在過(guò)去幾年屢見不鮮。為了解決這個(gè)問(wèn)題,領(lǐng)英構(gòu)建了一個(gè)工具稱為Frame。Frame是一個(gè)基于相同配置和相同公共庫(kù)離線和在線生成特征的平臺(tái),保證了離線和在線的一致性。領(lǐng)英向工程師提供操作細(xì)節(jié),工程師只需要在Quasar模型中指定特征的名稱,就可以保證在線和離線獲取特征的一致性。

      特征集齊后就需要算法。領(lǐng)英支持深度學(xué)習(xí)、決策樹算法、Generalized Linear Mixed Model (GLMix)等多種算法。在深度學(xué)習(xí)的場(chǎng)景中,領(lǐng)英使用Tensorflow;在決策樹算法的場(chǎng)景中使用XGBoost,兩者都是第三方庫(kù)。對(duì)于GLMix,領(lǐng)英研發(fā)并開源了一個(gè)機(jī)器學(xué)習(xí)庫(kù)叫做Photon。GLMix模型大大提高了職位推薦系統(tǒng)的性能,成功使職位申請(qǐng)數(shù)量增加了20%。

      根據(jù)特征和算法,領(lǐng)英構(gòu)建了Photon Connect訓(xùn)練引擎,把上述所有組件連接起來(lái)。Photon Connect用Frame來(lái)訪問(wèn)特征,并將特征與標(biāo)簽數(shù)據(jù)連接起來(lái),然后將數(shù)據(jù)傳輸至Quasar模型進(jìn)行特征轉(zhuǎn)換。在這個(gè)階段,Quasar模型的參數(shù)是未知的,領(lǐng)英利用Quasar模型進(jìn)行特征轉(zhuǎn)換,然后使用算法來(lái)學(xué)習(xí)這些參數(shù)。學(xué)習(xí)到的參數(shù)會(huì)插入到Quasar模型中。這樣,一個(gè)Quasar模型建模就完成了,它可以直接部署到線上服務(wù)中。

    blob.png

      Health Assurance Layer保證算法順利運(yùn)行

      模型訓(xùn)練和部署完成后,最后一個(gè)問(wèn)題是:當(dāng)模型實(shí)際運(yùn)行的時(shí)候,如何保持它能夠正常運(yùn)行呢?根據(jù)過(guò)去的經(jīng)驗(yàn)教訓(xùn),在開發(fā)的早期階段越重視這個(gè)問(wèn)題,越容易在實(shí)際運(yùn)行時(shí)保證模型正常運(yùn)行。因此,在模型探索和訓(xùn)練等早期階段,領(lǐng)英的Health Assurance Layer提供了一系列工具,用于持續(xù)監(jiān)控和驗(yàn)證。有人可能會(huì)問(wèn),在實(shí)際運(yùn)行中,所有在線特征都可用嗎?特征更新的速度是否足夠快?實(shí)際上,如果出現(xiàn)任何異樣, Health Assurance Layer 將通知相應(yīng)的工程師,他們會(huì)介入進(jìn)行調(diào)試。Health Assurance Layer為工程師提供了一系列工具,幫助他們快速鎖定問(wèn)題。

    blob.png

      領(lǐng)英的機(jī)器學(xué)習(xí)與Pro-ML團(tuán)隊(duì)

      經(jīng)過(guò)十年的快速發(fā)展和實(shí)驗(yàn)后,領(lǐng)英將人工智能團(tuán)隊(duì)與產(chǎn)品團(tuán)隊(duì)緊密地聯(lián)系在一起,使機(jī)器學(xué)習(xí)團(tuán)隊(duì)能夠與致力于解決類似難題的同行專家合作并分享最佳實(shí)踐。

      類似地,Pro-ML團(tuán)隊(duì)圍繞五個(gè)主要支柱構(gòu)建,每個(gè)支柱都支持模型開發(fā)生命周期的一個(gè)階段。通常,每個(gè)支柱都有一個(gè)負(fù)責(zé)人(通常是一名工程師)、一個(gè)技術(shù)負(fù)責(zé)人和幾個(gè)工程師。這些工程師也來(lái)自各個(gè)組織,包括產(chǎn)品工程組織、基礎(chǔ)/工具組織和基礎(chǔ)架構(gòu)團(tuán)隊(duì)。Pro-ML團(tuán)隊(duì)分布在世界各地,包括班加羅爾、歐洲和美國(guó)多個(gè)地方。領(lǐng)英還擁有一個(gè)領(lǐng)導(dǎo)團(tuán)隊(duì),幫助制定項(xiàng)目愿景,并且最重要的是致力于消除摩擦,以便每一個(gè)支柱能夠獨(dú)立存在。

      Pro-ML將增加能夠利用人工智能的產(chǎn)品數(shù)量,并擴(kuò)大能夠培訓(xùn)和部署模型的團(tuán)隊(duì)數(shù)量。此外,它將減少模型選擇、部署等所需的時(shí)間,并使Health Assurance等關(guān)鍵領(lǐng)域自動(dòng)化。領(lǐng)英現(xiàn)在已經(jīng)花了一年多的時(shí)間來(lái)改造人工智能,使其能保持快速、高效和可操作性,擴(kuò)展到所有工程領(lǐng)域。它讓工程師有更多的時(shí)間去做他們最擅長(zhǎng)的事情:利用領(lǐng)英獨(dú)特的高度結(jié)構(gòu)化的數(shù)據(jù)集,為棘手的技術(shù)問(wèn)題找到創(chuàng)造性的解決方案。

      從 2014 年進(jìn)入中國(guó)開始,領(lǐng)英不斷地探索著中國(guó)這片獨(dú)具特點(diǎn)的市場(chǎng),在中國(guó)北京和美國(guó)硅谷從無(wú)到有,構(gòu)建了一支超過(guò) 100人的本土研發(fā)團(tuán)隊(duì),兩地團(tuán)隊(duì)以“One Team”的形式協(xié)作,利用總部的技術(shù)資源優(yōu)勢(shì),希望推動(dòng)中國(guó)市場(chǎng)完成本地化產(chǎn)品與技術(shù)創(chuàng)新。未來(lái)領(lǐng)英也將進(jìn)一步依靠 AI 和大數(shù)據(jù)技術(shù)升級(jí)優(yōu)化用戶體驗(yàn)。如果你也想加入領(lǐng)英中國(guó)這支強(qiáng)大的研發(fā)團(tuán)隊(duì),歡迎點(diǎn)擊下方鏈接/掃描二維碼,查看并申請(qǐng)職位吧!

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    [No. X026]
    分享到微信

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無(wú)人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會(huì)即將開幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。