由InfoQ中國團隊推出,面向高端技術管理者和架構師的全球架構師峰會(ArchSummit)日前在北京國際會議中心舉行。來自騰訊、滴滴出行、一點資訊等互聯(lián)網企業(yè)的技術專家受邀出席并做主題演講。
一點資訊高級技術總監(jiān)田明軍發(fā)表主題演講
在本次大會上,一點資訊高級技術總監(jiān)田明軍詳細詮釋了深度融合搜索和推薦引擎對獲取用戶閱讀興趣、實現(xiàn)信息精準分發(fā)的必要性,并以一點資訊為例,從技術框架和產品理念角度,分享了興趣引擎將二者有機融合的心得。
他認為,搜索和推薦兩種獲取信息的途徑和體驗缺一不可。一點資訊的興趣引擎系統(tǒng)通過結合了用戶搜索行為所觸及的全網數據,不斷學習用戶的興趣再進行推薦,并由用戶主動“訂閱”深化這一興趣,建立興趣之間的連接點,從而打通用戶對信息的主動表達和被動接受兩條通道,使信息獲取更加高效、精準,為全方位提升用戶體驗打下了堅實的基礎。
以下為田明軍演講內容精編版:
大家早上好,非常榮幸今天有機會與大家分享一點資訊關于融合搜索和推薦引擎的一些思考和實踐。
單一的搜索或推薦引擎不利于全面滿足信息分發(fā)需求
在移動互聯(lián)網時代,搜索和個性化推薦都是用戶獲取信息的兩種重要的方式:搜索通常伴隨著用戶的明確表達,用戶輸入關鍵詞即可找到自己想要的答案;反觀推薦,則是用戶通過產品呈現(xiàn)的內容進行非目標性的興趣瀏覽。但這兩種體驗是不能互替的,單純根據歷史瀏覽記錄進行的個性化推薦并不能了解用戶某時刻的自身想法,而另一方面,也很難根據每天一兩次搜索行為總結出用戶的長期規(guī)律。
所以從產品角度來說,搜索和推薦的體驗二者不可或缺、關系緊密。這也是我們致力于實現(xiàn)二者融合的原因。
但需要注意的是,二者在意圖表達方式、訓練模型等方面存在著巨大差異,基于這些差異點,我們不能簡單的用其中一種系統(tǒng)來實現(xiàn)搜索和推薦融合的目的。
搜索和推薦的融合之路應該怎樣走?
對于融合的解決之道,一點資訊選擇在搜索和推薦引擎之間加入了一個基于用戶興趣的任意關鍵詞訂閱環(huán)節(jié)。通過搜索發(fā)現(xiàn)用戶所查詢的答案同時,我們也提煉、擴充出針對用戶興趣的表達,并以此固定沉淀在用戶畫像里。因此,搜索讓個性化推薦層面,增加了一條高效地獲取用戶興趣的途徑。
反過來說,通過推薦系統(tǒng)把共性的有趣、有料的內容呈現(xiàn)給用戶,通過推薦產品收集到用戶更多層面的反饋,從而得到這些內容的普適性特征;谶@些特征的挖掘,我們也能夠對內容有更深刻的了解。而再將搜索體驗中加入并有效利用這些共性特征,也更加強化、提升了搜索的品質。
接下來,我將從興趣引擎的整體系統(tǒng)架構中,選取了幾項關鍵技術點,闡述一點資訊將搜索和推薦內容體驗真正融合的方法:
異構索引引領檢索效率提升 針對搜索+推薦深度優(yōu)化
為實現(xiàn)深度融合的目的,針對搜索和推薦不同的服務特點和系統(tǒng)性能要求,首先我們提出了異構索引結構。
從上圖可以清楚地看出異構索引的數據來源和組織形式。我們可以從圖的底部可以看到,產生異性索引數據的平臺一分為三:數據平臺、編輯運維平臺和內容平臺。圖片頂部則展示了不同數據的索引構建所采用的不同技術。
內容平臺方面,對外網抓取的內容和自媒體平臺生產的內容,我們建立了通用的倒排索引。
在左側的數據平臺,則通過對用戶行為的挖掘,產生基于協(xié)同過濾信息的挖掘的推薦列表,以及針對不同人群放置的熱文列表,這部分我們使用通用的KV數據庫存儲。
中間這部分的數據來源于內容平臺和編輯運維平臺,體現(xiàn)了技術與人工的結合。這部分數據存在內容的競爭機制,變化比較靈活,使用了自建的支持排序列表的索引結構。
大家也許會問,為什么會有這樣的區(qū)分?這主要是基于優(yōu)化檢索性能角度的思考。根據關鍵詞對倒排索引進行查詢的方式非常成熟,完全夠能夠滿足搜索系統(tǒng)的需求,然而,傳統(tǒng)的倒排索引卻很難對推薦需求的幾十維以上的特征進行查詢。
在這個基礎上,我們做了兩個優(yōu)化:一是針對稀疏的頻道,實現(xiàn)了支持WAND(一種介于AND和OR之間的索引查詢操作符)檢索系統(tǒng)加快召回內容的效率;而對于稠密的頭部頻道,則通過開發(fā)頻道文章索引庫,維護從頻道到排序內容列表的映射,將線上查詢壓力轉移到線下,提升檢索的效率。
以unified feeder為核心的內容處理平臺解決寫入難題
剛才看到方方面面的索引,接下來,我們必須要解決里面索引的寫入的問題。這就需要在統(tǒng)一的內容處理平臺,把這些內容寫到異構的索引結構里面。
我們的內容處理平臺的核心之一,則是unified feeder系統(tǒng),這是內容處理平臺與索引系統(tǒng)之間傳遞信息的橋梁。
在unified feeder實際工作中,首先針對不同的輸入數據,我們存入了很多不同的索引庫,這個工作通過統(tǒng)一的配置與模板中心進行管理,可以方便的維護和擴展。此外,unified feeder內部有一個checkpoint系統(tǒng),在各個關鍵索引內容寫入之后,會向checkpoint系統(tǒng)發(fā)送驗證信號,如果任何數據寫入失敗,checkpoint系統(tǒng)會有記錄,系統(tǒng)可以自動進行數據的重新寫入。這種方式有效的解決了系統(tǒng)容錯和異構索引數據一致性的問題。
雙層架構的自適應索引召回突破異構索引挑戰(zhàn)
接下來我將講解在有了以上數據基礎之后,針對上面的搜索和推薦請求,我們如何通過自適應索引召回技術,從不同的索引里面獲取數據?這主要面臨三個方面的技術挑戰(zhàn)——決策需要調用的索引后端、異構索引召回效率,以及可擴展性與開發(fā)效率。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。
近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
由世界人工智能大會組委會、上海市經信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。