首頁 > 數(shù)據(jù)存儲(chǔ)頻道 > 數(shù)據(jù).存儲(chǔ)頻道 > 半導(dǎo)體

京東零售在電商搜索場(chǎng)景下的數(shù)據(jù)科學(xué)實(shí)踐

2023年01月31日 16:58:56 孫曉宇 來源：IT168

　　導(dǎo)讀：電商場(chǎng)景數(shù)據(jù)量大、業(yè)務(wù)復(fù)雜，搜索場(chǎng)景作為其中最為核心的流量分發(fā)與轉(zhuǎn)化場(chǎng)域，更面臨著諸多數(shù)據(jù)科學(xué)領(lǐng)域的問題與挑戰(zhàn)。

　　本文將分享京東零售搜索數(shù)據(jù)科學(xué)團(tuán)隊(duì)在電商搜索場(chǎng)景下的數(shù)據(jù)科學(xué)實(shí)踐，主要介紹：1. 電商搜索場(chǎng)景的特點(diǎn);2. 實(shí)驗(yàn)科學(xué)和因果推斷實(shí)踐;3. 觀測(cè)指標(biāo)設(shè)計(jì)和業(yè)務(wù)分析。

　　01 電商搜索場(chǎng)景的特點(diǎn)

　　首先介紹電商搜索場(chǎng)景下基礎(chǔ)數(shù)據(jù)建設(shè)與AB實(shí)驗(yàn)體系的特點(diǎn)。

　　1. 搜索訂單歸因

　　京東零售搜索業(yè)務(wù)負(fù)責(zé)精準(zhǔn)高效地連接搜索用戶和商家，涵蓋各零售渠道的關(guān)鍵字搜索、店鋪內(nèi)搜索、優(yōu)惠券與活動(dòng)搜索等核心搜索業(yè)務(wù)。

　　京東零售搜索的核心目標(biāo)是：提升訂單轉(zhuǎn)換效率，兼顧結(jié)果的精確性和豐富性。因此，搜索訂單數(shù)據(jù)，是搜索業(yè)務(wù)最為核心的 feature、label、metrics 數(shù)據(jù)源

　　一條訂單，如何歸因到搜索訂單?

　　(1)訂單事件歸因

　　多觸點(diǎn)歸因(MTA, Multi-Touch Attribution Model)是計(jì)算廣告里的經(jīng)典問題，對(duì)于一次轉(zhuǎn)化中的各模塊影響進(jìn)行定性/定量的判斷。歸因模型對(duì)于搜索跟單、AB 口徑、樣本 Label 都有直接的影響，常見的規(guī)則型的歸因模型有首次歸因、末次歸因、平均歸因、復(fù)雜歸因模型(Markov 模型歸因、Shap 值分解歸因)。比如推薦模塊，更為關(guān)注何時(shí)進(jìn)行首次觸達(dá)，進(jìn)行有效“種草”，傾向于進(jìn)行首次歸因;如果是關(guān)注轉(zhuǎn)化的模塊，例如搜索，會(huì)注重最后的訂單成單是否是由搜索轉(zhuǎn)化的，因此會(huì)傾向于末次歸因。不同的歸因方式，會(huì)用來解決不同的業(yè)務(wù)問題。

　　(2)時(shí)間相關(guān)性

　　在歸因分析中,關(guān)聯(lián)事件的時(shí)間窗口是很重要的。例如,懷疑因素 X 引發(fā)了疾病 Y，那么對(duì)于 Y 的實(shí)驗(yàn)分析工作，就需要觀察 X 發(fā)生的時(shí)間來做判斷。

　　一條訂單的產(chǎn)生,通常會(huì)經(jīng)歷這些流程：曝光→點(diǎn)擊→加購→下單→支付→出庫→完成。這一流程，往往會(huì)跨越一定的時(shí)間窗口, 也就是說電商里的訂單反饋，是有很大遲滯的!

　　對(duì)于我們的 AB 實(shí)驗(yàn)同樣，6 月 1 8 日用戶 A 從購物車?yán)锵碌挠唵�，�?06-01 的時(shí)候進(jìn)入 Test 實(shí)驗(yàn) X 并加購的。即使 06-18 的時(shí)候 Test X 下線了，用戶 A 已經(jīng)被劃分到 Test F 了，那么這個(gè)訂單依然和 Test F 無關(guān)。

　　因此，我們需要回追真正用戶真正受到策略影響的時(shí)間，以此保證下單行為和搜索行為在時(shí)間窗口上的相關(guān)性。

　　2.搜索場(chǎng)景下的 AB 實(shí)驗(yàn)

　　隨機(jī)分流的 AB 實(shí)驗(yàn)是最好用的因果效應(yīng)分析工具，在線 AB 實(shí)驗(yàn)是互聯(lián)網(wǎng)產(chǎn)品迭代的核心方式。AB 實(shí)驗(yàn)的核心，有三個(gè)要素:

　　實(shí)驗(yàn)對(duì)象——Randomization Unit

　　實(shí)驗(yàn)變量——Treatment

　　實(shí)驗(yàn)效應(yīng)——Metrics

　　(1)實(shí)驗(yàn)對(duì)象——Randomization Unit

　　隨機(jī)分流單元的選擇很多，包括：瀏覽器 Cookies(PC)、device id/ MEID_ IMEI(APP)、PIN、request id。選擇不同的分流單元，可能會(huì)面臨不同的問題。例如實(shí)驗(yàn)效應(yīng)有跨天的情況，那么 request id 就可能無法追到，但 device id 不會(huì)變。需要特別注意，當(dāng)隨機(jī)分流的單元與指標(biāo)分析單元不同時(shí)，評(píng)估需要非常謹(jǐn)慎。例如，分流單元為 device id，但分析單元為 request id 時(shí)，一方面要注意，從分流單元到分析單元之間還有一個(gè)“平均請(qǐng)求數(shù)”指標(biāo)可能會(huì)變化;另一方面，在假設(shè)檢驗(yàn)時(shí)，對(duì)于 request id 為單元的指標(biāo)，其 variance 需要通過 delta method 進(jìn)行校正。

　　隨機(jī)分流的穩(wěn)定性是電商平臺(tái)經(jīng)常會(huì)面臨的一個(gè)問題。電商平臺(tái)頻繁開展促銷，短期內(nèi)的樣本分布會(huì)產(chǎn)生劇烈波動(dòng)。最常用的方式是先開一組AA實(shí)驗(yàn)，看實(shí)驗(yàn)效果來評(píng)估現(xiàn)在流量是否均勻。但如果每次都去開 AA 實(shí)驗(yàn)，流量穩(wěn)定了，再開一組 AB 實(shí)驗(yàn)，這樣代價(jià)是非常大的。因此希望在觀測(cè)到波動(dòng)的情況下，對(duì)波動(dòng)進(jìn)行剔除。另外，每天電商都有巨大的流量，如果是多層正交的分流實(shí)驗(yàn)平臺(tái)，一天在線實(shí)驗(yàn)可能會(huì)有幾百層，有的 AA 波動(dòng)顯著，有的沒有，那么如何評(píng)估整體流量分發(fā)是否平穩(wěn)呢?我們的辦法是做 Multi-AA Test，比如在一個(gè)實(shí)驗(yàn)層上切 50 組 AA，兩兩之間計(jì)算顯著性差異，在 95% 的顯著性水平下，P 值應(yīng)當(dāng)服從均勻分布。如果 P 值分布明顯出現(xiàn)左偏(如下圖所示)，則意味著可能有系統(tǒng)性的 AA 波動(dòng)出現(xiàn)，而右偏則可能是檢驗(yàn)效力不足。因此，Multi-AA Test 除了檢測(cè) AA 異常之外，也是對(duì) Metrics 穩(wěn)定性與假設(shè)檢驗(yàn)方式是否合理的一種有效工具。

　　另一個(gè)有趣的問題是，樣本獨(dú)立性問題，在社交/團(tuán)購類 APP 很容易出現(xiàn)樣本間溢出效應(yīng)。例如，當(dāng)團(tuán)購 APP 在針對(duì)新的“促銷推送”功能做 AB 實(shí)驗(yàn)時(shí)，test組收到影響的用戶可能通過分享、或者線下方式，告知自己周邊的 base 用戶，從而造成 treatment 策略同時(shí)影響了 base 和 test 組的用戶。

　　(2)實(shí)驗(yàn)變量——Treatment

　　Treatment 應(yīng)當(dāng)盡量單一，Multi-Treatment 的加入會(huì)導(dǎo)致實(shí)驗(yàn)效果的混淆。若一個(gè)實(shí)驗(yàn)策略,需要多個(gè)模塊同步修改，在多層正交分流的前提下，可以進(jìn)行聯(lián)合實(shí)驗(yàn)，觀察整體策略效果。

　　如下圖中的例子，在藍(lán)色圈選的時(shí)間點(diǎn)，一個(gè)精排排序策略的全量，導(dǎo)致了當(dāng)前在觀測(cè)的 EE 策略實(shí)驗(yàn)效果突然反向。因此，實(shí)驗(yàn)期間出現(xiàn)多個(gè) treatment 共同影響的時(shí)候，很難嚴(yán)謹(jǐn)評(píng)估出這個(gè)策略本身是否有問題，因此要盡量保證單一 treatment，減少實(shí)驗(yàn)間的耦合破壞多層正交性。

　　(3)實(shí)驗(yàn)效應(yīng)——Metrics

　　評(píng)估一個(gè)實(shí)驗(yàn)指標(biāo)的優(yōu)劣，可以考慮以下三個(gè)方面：

　　敏感性：指標(biāo)收斂能力，指標(biāo)的 Test Power 與所需 Sample Size 預(yù)估，根據(jù)歷史實(shí)驗(yàn) case 進(jìn)行 variance 估計(jì)，下圖中給出了一個(gè)經(jīng)典的預(yù)估公式;

　　解釋性：指標(biāo)是否可拆解、是否便于 AB 效果的分維度分析、是否直接反映到業(yè)務(wù)上，在電商搜索場(chǎng)景下，一個(gè)指標(biāo)的解釋性往往更加重要;

　　魯棒性/穩(wěn)定性：指標(biāo)是否會(huì)誤顯著，需要關(guān)注指標(biāo)的 AA 穩(wěn)定性。

　　02 實(shí)驗(yàn)科學(xué)&因果推斷實(shí)踐

　　通過前面的講解可以看到，電商 AB 實(shí)驗(yàn)過程中可能會(huì)存在一些問題，我們通過實(shí)驗(yàn)科學(xué)和因果推斷技術(shù)不斷迭代和修正，積累了一些成功案例。

　　1.因果推斷基礎(chǔ)框架

　　因果推斷典型框架之一是 Rubin’s Potential outcome 框架，其核心是尋找反事實(shí)樣本。從個(gè)體效應(yīng)的角度，在現(xiàn)實(shí)生活中反事實(shí)樣本通常難以獲取，但通常電商樣本的數(shù)據(jù)量足夠大，在一群人中總能找到某個(gè)事實(shí)的反情況樣本。

　　個(gè)體實(shí)驗(yàn)效應(yīng)是指電商場(chǎng)景下某個(gè)單獨(dú)的人或某件單獨(dú)的商品的情況。

　　子群實(shí)驗(yàn)效應(yīng)是指某個(gè)商品類目、某個(gè)用戶群分層下的收益。

　　全局實(shí)驗(yàn)效應(yīng)是指整個(gè)電商銷售平臺(tái)的大盤收益或者整體銷售價(jià)值提升。

　　另外一個(gè)典型框架是 Peral’s Causal Graph 因果圖框架，即建立有向圖描述因果關(guān)系，通過確認(rèn)節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系，來剔除更多的 confounder，以保證更加單純無偏的因果關(guān)系。但在電商場(chǎng)景下，每天用戶點(diǎn)擊搜索會(huì)是上億甚至十億級(jí)別，這樣規(guī)模上建模因果圖成本會(huì)很大。僅在 case 級(jí)別的研究時(shí)會(huì)用因果圖框架。

　　我們歸納了因果推斷基礎(chǔ)框架，如上圖右側(cè)所示，包括實(shí)驗(yàn)數(shù)據(jù)因果推斷和觀測(cè)數(shù)據(jù)因果推斷兩個(gè)方向。實(shí)驗(yàn)數(shù)據(jù)雖然由隨機(jī)分流AB實(shí)驗(yàn)得到，但是依然可能存在實(shí)驗(yàn)前樣本差異，實(shí)驗(yàn)中低滲透率，實(shí)驗(yàn)后損益不均等問題，因此主要使用因果推斷方法來修正或者下鉆實(shí)驗(yàn)效應(yīng)分析。當(dāng)沒有條件進(jìn)行 AB 實(shí)驗(yàn)時(shí)，針對(duì)觀測(cè)數(shù)據(jù)也有一些方法，如策略全量生效時(shí)，有經(jīng)典的斷點(diǎn)回歸和時(shí)序分析;當(dāng)策略分批生效時(shí)，可能存在組間差異，可以使用宏觀雙重差分 DID、宏觀合成控制 SCM 等技術(shù);當(dāng)全局不均勻生效，則需要樣本微觀層面進(jìn)行 PSM、SCM-DID 等工作。

　　2.小流量/高波動(dòng)場(chǎng)景下的實(shí)驗(yàn)方法論

　　搜索實(shí)驗(yàn)，由于訂單反饋的延遲、頻繁的促銷行為、垂直場(chǎng)景豐富等原因，往往可能存在以下問題：

　　樣本量小，反饋稀疏

　　方差大，難收斂

　　波動(dòng)大，不穩(wěn)定

　　混淆因子多，隨機(jī)性差

　　(1)樣本糾偏

　　為解決以上問題，首先會(huì)做樣本糾偏，用 PSM 回歸 propensity score，修正樣本分布，借用用戶畫像 tag 尋找 confounder。例如年齡可能會(huì)導(dǎo)致抽煙和不抽煙的用戶發(fā)生變化，如果直接把抽煙的用戶和不抽煙的用戶放在一起，去看死亡率，那肯定會(huì)有問題。因此首先要控制 base 和 test 組年齡分布相同。當(dāng)實(shí)驗(yàn)只看一個(gè) treatment 的影響時(shí)候，年齡這樣的 confounder 就會(huì)帶來影響。在對(duì)于 ATE 的計(jì)算上可以把 propensity score 代入，去做 PSM，找兩組樣本盡可能一樣，或者是用 IPTW 這種方法，把每個(gè)樣本對(duì)于 treatment effect 的貢獻(xiàn)做權(quán)重上的調(diào)整。我們更多會(huì)關(guān)注 IPTW 的方法，因?yàn)?PSM 有一個(gè)關(guān)鍵的問題是，去做 matching，總有一部分樣本是 match 不到的，那么 match 不到的這部分樣本上面的收益和損失，可能就已經(jīng)帶來了選擇偏差。

　　(2)方差縮減

　　CUPED 方差縮減的想法也很樸素，就是如果能夠找到在 treatment 真正作用之前，這個(gè)樣本本身就是一個(gè)很愛點(diǎn)擊很愛反饋的樣本，那么進(jìn)入 treatment 之后，這樣的可能會(huì)給 treatment effect 的估計(jì)帶來偏差。我們要盡可能用實(shí)驗(yàn)前的樣本行為來減少實(shí)驗(yàn)中帶來的 variance。這時(shí)的做法就如圖中公式，找到一個(gè)協(xié)變量x。比如要去評(píng)估 UCTR 指標(biāo)，如果能找到他的回訪周期是否頻繁，瀏覽深度如何等，就可以通過這些協(xié)變量來消除點(diǎn)擊上的 variance。這個(gè)協(xié)變量的相關(guān)系數(shù)越高，對(duì)方差的縮減就越大。

　　上圖右下角的圖展示了 P 值的縮減效果，原本要七八天都無法收斂的實(shí)驗(yàn)，現(xiàn)在使用 CUPED 方法，第四天就可以看到收斂效果。但這里的縮減不一定正確，可能讓你在第四天就做出了錯(cuò)誤的決定，p 值后續(xù)可能又會(huì)增高。因此使用方差縮減，在反向?qū)嶒?yàn)時(shí)要加強(qiáng)驗(yàn)證，避免誤顯著帶來錯(cuò)誤決策。

　　(3)分流單元切換

　　在電商搜索里，用戶劃分在樣本量不足的情況下，通常難以構(gòu)建有效的 AB實(shí)驗(yàn)。解決方案是讓一個(gè)用戶同時(shí)暴露在兩種實(shí)驗(yàn)策略下，即不使用用戶維度分流，而是使用 interleaving 坑位穿插分流，這種實(shí)驗(yàn)方式在 feed 流實(shí)驗(yàn)中會(huì)更為有效。對(duì)比正交分流實(shí)驗(yàn)，interleaving 分流方式收斂速度會(huì)非�？�。但是，在電商排序場(chǎng)景中，interleaving 分流方式會(huì)存在一定的風(fēng)險(xiǎn)：一方面，電商場(chǎng)景存在 position bias，首位商品的 ctr 會(huì)明顯高于后續(xù)位置，interleaving 分流需要非常嚴(yán)格按照位置進(jìn)行分流，否則極易產(chǎn)生錯(cuò)誤結(jié)論;另一方面，base 和 test 穿插的搜索結(jié)果頁，可能導(dǎo)致用戶整體翻頁下滑，換句話說，坑位樣本的提升效果不一定在用戶樣本上仍然存在，后續(xù)的正交分流 holdback 實(shí)驗(yàn)是非常重要的。

　　3. 異質(zhì)性效應(yīng)分析

　　為應(yīng)對(duì)異質(zhì)性效應(yīng)，可以通過以下方式建模：

　　(1)CATE 的建模——Causal Tree 樣本劃分

　　此處的建模目的是，使用 Causal Tree 劃分 AB 實(shí)驗(yàn)樣本空間,剔除不敏感的用戶子群，從而加速實(shí)驗(yàn)決策。具體方法如下圖，修改樹模型的節(jié)點(diǎn)增益計(jì)算方式，從而使樹模型最小化 P_ value �；谝�(guī)則樹的建模方式，可以直接得到子群劃分規(guī)則，小幅度剔除不敏感用戶子群后，P 值收斂明顯加快，從而加速實(shí)驗(yàn)的分析決策。

　　(2)ITE 的建模——Uplift Model 預(yù)估 ITE

　　此處建模的目的是，分析實(shí)驗(yàn)在樣本維度的異質(zhì)性損益，用于綜合評(píng)估實(shí)驗(yàn)風(fēng)險(xiǎn)。其中，Transform Outcome 方法用于轉(zhuǎn)化因果 label，Tree- based model 建模用于得到可解釋規(guī)則。使用 Qini Curve 評(píng)估實(shí)驗(yàn)對(duì)于敏感樣本的排序能力。例如，對(duì)于新品實(shí)驗(yàn)進(jìn)行分析，其中較為敏感的 feature 是“商品評(píng)論數(shù)”，基于該 feature 劃分樣本可以發(fā)現(xiàn)，對(duì)于高評(píng)論用戶的新品策略收益是最大的。

　　4.準(zhǔn)實(shí)驗(yàn)評(píng)估方案

　　在沒有條件進(jìn)行 AB 實(shí)驗(yàn), 或 AB 實(shí)驗(yàn)受到干擾導(dǎo)致隨機(jī)分流失效時(shí)，就需要我們構(gòu)建準(zhǔn)實(shí)驗(yàn)。具體應(yīng)用如下：

　　(1)RDDiT 時(shí)間斷點(diǎn)回歸

　　斷點(diǎn)回歸 RDD 的應(yīng)用例如下圖中，在 12 號(hào)存在一次集群配置突變，該數(shù)據(jù)僅有大盤整體的 daily 數(shù)據(jù)點(diǎn)，需要評(píng)估該集群突變帶來的用戶轉(zhuǎn)化變化，此處就需要使用 RDDiT 進(jìn)行。左圖可以看出斷點(diǎn)明顯，回歸后得到量化的截距差就是這個(gè) treament 帶來的影響;右圖的安慰劑實(shí)驗(yàn)也可以判斷，僅在 12 號(hào)存在斷點(diǎn)顯著差異。傳統(tǒng)的 RDD 使用鄰域采樣，RDDiT 使用時(shí)間序列，因此會(huì)有以下區(qū)別：無法進(jìn)行帶寬選擇,樣本點(diǎn)較少;需要時(shí)間序列平穩(wěn)性驗(yàn)證;需要安慰劑實(shí)驗(yàn)驗(yàn)證顯著性。

　　(2)DID 修正后的多重差分

　　在下圖例子中，一組物理實(shí)驗(yàn)，在 2022-01-07 前后出現(xiàn)了集群切換，同時(shí)在 2022-01-12 前后出現(xiàn)了實(shí)驗(yàn)策略的反向交換。因此，此處不再是常規(guī)的 DID 雙重差分，而是需要引入 treatment、timing、group 三重變量的多重差分。搜索實(shí)驗(yàn)中應(yīng)用 DID 方法有以下問題需要關(guān)注：

　　首先，DID 務(wù)必需要進(jìn)行 Common Trends 校驗(yàn)，回歸實(shí)驗(yàn)前虛擬的時(shí)間變量和分組變量交叉項(xiàng);對(duì)于非平穩(wěn)時(shí)間序列，此處增加時(shí)間項(xiàng)修正誤差;經(jīng)典雙重 DID 評(píng)估斜率變化，適合評(píng)估絕對(duì)值，而搜索場(chǎng)景評(píng)估截距變化，關(guān)注的是 ratio 指標(biāo)。

　　03 觀測(cè)指標(biāo)設(shè)計(jì)與業(yè)務(wù)分析

　　除了以上實(shí)驗(yàn)科學(xué)的工作之外，指標(biāo)設(shè)計(jì)也是數(shù)據(jù)科學(xué)中一項(xiàng)重要的工作。除了傳統(tǒng)的 CVR、CTR 等指標(biāo)之外，在復(fù)雜業(yè)務(wù)場(chǎng)景中還有諸多業(yè)務(wù)效果的衡量訴求，這些業(yè)務(wù)的 Metrics 都是需要一定設(shè)計(jì)的。

　　1. 流量分發(fā)的度量

　　大家默認(rèn)有個(gè)共識(shí)，搜索的流量會(huì)集中在很多頭部詞上,而長尾詞和長尾供應(yīng)上天然是不足的。但是，搜索詞是否真的全部符合“長尾分布”?這個(gè)“長尾效應(yīng)”的強(qiáng)弱到底如何?這些問題一直是沒有固定答案的。

　　那么，如何度量搜索流量分發(fā)的頭部效應(yīng)?就是一個(gè)困難而有趣的課題。

　　觀察搜索 Query 的 Session 量分布,有很明顯的冪率分布的特征,頭部query 的 Session 量聚集明顯。

　　搜索 session 分布符合一種很典型的分布，即冪率分布，它的特征是有顯著的轉(zhuǎn)折點(diǎn)，累積可能有一個(gè)很快的上升并最終收斂在某一區(qū)間，如果對(duì)縱軸和橫軸都取 log 會(huì)變成線性。

　　而冪律分布的成因，有一個(gè)非常有趣的解釋。借由無標(biāo)度網(wǎng)絡(luò)的角度來看，樣本間不獨(dú)立，增量與存量不獨(dú)立，從而帶來了頭部節(jié)點(diǎn)指數(shù)級(jí)別的“度”增長。

　　結(jié)合冪率分布的性質(zhì),我們可以圍繞流量分發(fā)的集中程度進(jìn)行指標(biāo)設(shè)計(jì):

　　冪率分布的冪指數(shù)

　　雙 log 后會(huì)看到典型的線性特征。斜線的斜率可以很好的度量當(dāng)前流量集中情況。冪指數(shù)可以全面衡量數(shù)據(jù)分布，穩(wěn)定性好，但解釋性差，敏感度差。

　　Top80% 搜索量覆蓋的 query 個(gè)數(shù)/占比

　　關(guān)注業(yè)務(wù)解釋性，穩(wěn)定性和敏感度較差。

　　搜索 Querv 熵指標(biāo)

　　穩(wěn)定性和敏感度較好，但解釋性較差。

　　擬合一個(gè)冪率分布很難，但擬合一個(gè)線性關(guān)系很簡(jiǎn)單。我們對(duì)于雙 log 圖進(jìn)行線性擬合，發(fā)現(xiàn)大量腰尾部點(diǎn)是符合冪率分布性質(zhì)的，但是頭部 query 卻并非完全符合冪率分布。這里體現(xiàn)的，在實(shí)踐中，長尾效應(yīng)并非是覆蓋所有樣本點(diǎn)的，存在明顯的分段冪率效應(yīng)(Broken Power Law)。

　　為什么存在分段冪率效應(yīng)?我們可以通過一個(gè)生動(dòng)的例子來看，人類的城市化進(jìn)程中，人口的分布就是一個(gè)典型的冪率效應(yīng)。人類的遷徙聚落，就是一個(gè)無標(biāo)度網(wǎng)絡(luò)連接的過程。我們會(huì)從一個(gè)縣走到一個(gè)省的省會(huì)，也可能從省會(huì)走到首都，北上廣這樣超級(jí)城市的誕生就是人口流動(dòng)和遷徙帶來的。但是，人口的流動(dòng)和遷徙也會(huì)有不滿足線性特征的情況，比如右圖中西歐城市化進(jìn)程中的人口分布，因?yàn)橥恋爻休d力是有極限的，頭部城市無法完全滿足冪率特征。類似的，我們 query 的承載力也是有極限的。不可能在一個(gè) query 上滿足所有用戶需求。用戶的需求會(huì)進(jìn)一步細(xì)化。

　　這樣去看我們現(xiàn)在的流量分發(fā)，就可以很好的意識(shí)到，頭部流量上偏離擬合，就是因?yàn)檫@一部分的流量承接已經(jīng)飽和了，沒有更多的成長空間了。通過擬合值和真實(shí)值之間的差異，或者去校驗(yàn)冪率分布和真實(shí)分布之間的差異是從哪個(gè)斷點(diǎn)開始的，就能很好地確認(rèn)哪些詞是頭部詞。同時(shí)，在二八定律下，80% 的流量能覆蓋哪些詞，這些詞其實(shí)就是我們真正的去再做細(xì)化的腰部詞。最后，可能還有很巨量的尾部詞，已經(jīng)是非常細(xì)化的用戶需求了，我們也需要通過算法去引導(dǎo)。

　　結(jié)語：

　　從訂單樣本的構(gòu)建，到 AB 實(shí)驗(yàn)與因果推斷的應(yīng)用，以及最后流量分發(fā)的metrics 設(shè)計(jì)。搜索數(shù)據(jù)科學(xué)始終堅(jiān)持以業(yè)界先進(jìn)方法解決實(shí)際的業(yè)務(wù)難題，堅(jiān)持從基礎(chǔ)數(shù)據(jù)入手為復(fù)雜方法論構(gòu)建地基。如果讀者對(duì)我們的團(tuán)隊(duì)感興趣，歡迎參考下圖中的團(tuán)隊(duì)介紹，或通過郵箱 sunxiaoyu5@jd.com 與我交流。