首頁 > 延展閱讀 > 2016歸檔

一點資訊田明軍：深度融合搜索+個性化推薦背景下的興趣引擎構(gòu)架

2016年12月05日 17:45:31 來源：中華網(wǎng)投資

　　由InfoQ中國團隊推出，面向高端技術(shù)管理者和架構(gòu)師的全球架構(gòu)師峰會(ArchSummit)日前在北京國際會議中心舉行。來自騰訊、滴滴出行、一點資訊等互聯(lián)網(wǎng)企業(yè)的技術(shù)專家受邀出席并做主題演講。

　　一點資訊高級技術(shù)總監(jiān)田明軍發(fā)表主題演講

　　在本次大會上，一點資訊高級技術(shù)總監(jiān)田明軍詳細詮釋了深度融合搜索和推薦引擎對獲取用戶閱讀興趣、實現(xiàn)信息精準分發(fā)的必要性，并以一點資訊為例，從技術(shù)框架和產(chǎn)品理念角度，分享了興趣引擎將二者有機融合的心得。

　　他認為，搜索和推薦兩種獲取信息的途徑和體驗缺一不可。一點資訊的興趣引擎系統(tǒng)通過結(jié)合了用戶搜索行為所觸及的全網(wǎng)數(shù)據(jù)，不斷學習用戶的興趣再進行推薦，并由用戶主動“訂閱”深化這一興趣，建立興趣之間的連接點，從而打通用戶對信息的主動表達和被動接受兩條通道，使信息獲取更加高效、精準，為全方位提升用戶體驗打下了堅實的基礎(chǔ)。

　　以下為田明軍演講內(nèi)容精編版：

　　大家早上好，非常榮幸今天有機會與大家分享一點資訊關(guān)于融合搜索和推薦引擎的一些思考和實踐。

　　單一的搜索或推薦引擎不利于全面滿足信息分發(fā)需求

　　在移動互聯(lián)網(wǎng)時代，搜索和個性化推薦都是用戶獲取信息的兩種重要的方式：搜索通常伴隨著用戶的明確表達，用戶輸入關(guān)鍵詞即可找到自己想要的答案;反觀推薦，則是用戶通過產(chǎn)品呈現(xiàn)的內(nèi)容進行非目標性的興趣瀏覽。但這兩種體驗是不能互替的，單純根據(jù)歷史瀏覽記錄進行的個性化推薦并不能了解用戶某時刻的自身想法，而另一方面，也很難根據(jù)每天一兩次搜索行為總結(jié)出用戶的長期規(guī)律。

　　所以從產(chǎn)品角度來說，搜索和推薦的體驗二者不可或缺、關(guān)系緊密。這也是我們致力于實現(xiàn)二者融合的原因。

　　但需要注意的是，二者在意圖表達方式、訓練模型等方面存在著巨大差異，基于這些差異點，我們不能簡單的用其中一種系統(tǒng)來實現(xiàn)搜索和推薦融合的目的。

　　搜索和推薦的融合之路應(yīng)該怎樣走?

　　對于融合的解決之道，一點資訊選擇在搜索和推薦引擎之間加入了一個基于用戶興趣的任意關(guān)鍵詞訂閱環(huán)節(jié)。通過搜索發(fā)現(xiàn)用戶所查詢的答案同時，我們也提煉、擴充出針對用戶興趣的表達，并以此固定沉淀在用戶畫像里。因此，搜索讓個性化推薦層面，增加了一條高效地獲取用戶興趣的途徑。

　　反過來說，通過推薦系統(tǒng)把共性的有趣、有料的內(nèi)容呈現(xiàn)給用戶，通過推薦產(chǎn)品收集到用戶更多層面的反饋，從而得到這些內(nèi)容的普適性特征。基于這些特征的挖掘，我們也能夠?qū)?nèi)容有更深刻的了解。而再將搜索體驗中加入并有效利用這些共性特征，也更加強化、提升了搜索的品質(zhì)。

　　接下來，我將從興趣引擎的整體系統(tǒng)架構(gòu)中，選取了幾項關(guān)鍵技術(shù)點，闡述一點資訊將搜索和推薦內(nèi)容體驗真正融合的方法：

　　異構(gòu)索引引領(lǐng)檢索效率提升針對搜索+推薦深度優(yōu)化

　　為實現(xiàn)深度融合的目的，針對搜索和推薦不同的服務(wù)特點和系統(tǒng)性能要求，首先我們提出了異構(gòu)索引結(jié)構(gòu)。

　　從上圖可以清楚地看出異構(gòu)索引的數(shù)據(jù)來源和組織形式。我們可以從圖的底部可以看到，產(chǎn)生異性索引數(shù)據(jù)的平臺一分為三：數(shù)據(jù)平臺、編輯運維平臺和內(nèi)容平臺。圖片頂部則展示了不同數(shù)據(jù)的索引構(gòu)建所采用的不同技術(shù)。

　　內(nèi)容平臺方面，對外網(wǎng)抓取的內(nèi)容和自媒體平臺生產(chǎn)的內(nèi)容，我們建立了通用的倒排索引。

　　在左側(cè)的數(shù)據(jù)平臺，則通過對用戶行為的挖掘，產(chǎn)生基于協(xié)同過濾信息的挖掘的推薦列表，以及針對不同人群放置的熱文列表，這部分我們使用通用的KV數(shù)據(jù)庫存儲。

　　中間這部分的數(shù)據(jù)來源于內(nèi)容平臺和編輯運維平臺，體現(xiàn)了技術(shù)與人工的結(jié)合。這部分數(shù)據(jù)存在內(nèi)容的競爭機制，變化比較靈活，使用了自建的支持排序列表的索引結(jié)構(gòu)。

　　大家也許會問，為什么會有這樣的區(qū)分?這主要是基于優(yōu)化檢索性能角度的思考。根據(jù)關(guān)鍵詞對倒排索引進行查詢的方式非常成熟，完全夠能夠滿足搜索系統(tǒng)的需求，然而，傳統(tǒng)的倒排索引卻很難對推薦需求的幾十維以上的特征進行查詢。

　　在這個基礎(chǔ)上，我們做了兩個優(yōu)化：一是針對稀疏的頻道，實現(xiàn)了支持WAND(一種介于AND和OR之間的索引查詢操作符)檢索系統(tǒng)加快召回內(nèi)容的效率;而對于稠密的頭部頻道，則通過開發(fā)頻道文章索引庫，維護從頻道到排序內(nèi)容列表的映射，將線上查詢壓力轉(zhuǎn)移到線下，提升檢索的效率。

　　以unified feeder為核心的內(nèi)容處理平臺解決寫入難題

　　剛才看到方方面面的索引，接下來，我們必須要解決里面索引的寫入的問題。這就需要在統(tǒng)一的內(nèi)容處理平臺，把這些內(nèi)容寫到異構(gòu)的索引結(jié)構(gòu)里面。

　　我們的內(nèi)容處理平臺的核心之一，則是unified feeder系統(tǒng)，這是內(nèi)容處理平臺與索引系統(tǒng)之間傳遞信息的橋梁。

　　在unified feeder實際工作中，首先針對不同的輸入數(shù)據(jù)，我們存入了很多不同的索引庫，這個工作通過統(tǒng)一的配置與模板中心進行管理，可以方便的維護和擴展。此外，unified feeder內(nèi)部有一個checkpoint系統(tǒng)，在各個關(guān)鍵索引內(nèi)容寫入之后，會向checkpoint系統(tǒng)發(fā)送驗證信號，如果任何數(shù)據(jù)寫入失敗，checkpoint系統(tǒng)會有記錄，系統(tǒng)可以自動進行數(shù)據(jù)的重新寫入。這種方式有效的解決了系統(tǒng)容錯和異構(gòu)索引數(shù)據(jù)一致性的問題。

　　雙層架構(gòu)的自適應(yīng)索引召回突破異構(gòu)索引挑戰(zhàn)

　　接下來我將講解在有了以上數(shù)據(jù)基礎(chǔ)之后，針對上面的搜索和推薦請求，我們?nèi)绾瓮ㄟ^自適應(yīng)索引召回技術(shù)，從不同的索引里面獲取數(shù)據(jù)?這主要面臨三個方面的技術(shù)挑戰(zhàn)——決策需要調(diào)用的索引后端、異構(gòu)索引召回效率，以及可擴展性與開發(fā)效率。