還能再漲23%!AI寵兒NVIDIA成大摩明年首選AMD FSR 4.0將與RX 9070 XT顯卡同步登場(chǎng)羅永浩細(xì)紅線最新進(jìn)展,暫別AR,迎來AI Jarvis構(gòu)建堅(jiān)實(shí)數(shù)據(jù)地基,南京打造可信數(shù)據(jù)空間引領(lǐng)數(shù)字城市建設(shè)下單前先比價(jià)不花冤枉錢 同款圖書京東價(jià)低于抖音6折日媒感慨中國電動(dòng)汽車/智駕遙遙領(lǐng)先:本田、日產(chǎn)、三菱合并也沒戲消委會(huì)吹風(fēng)機(jī)品質(zhì)檢測(cè)結(jié)果揭曉 徠芬獨(dú)占鰲頭 共話新質(zhì)營銷力,2024梅花數(shù)據(jù)峰會(huì)圓滿落幕索尼影像專業(yè)服務(wù) PRO Support 升級(jí),成為會(huì)員至少需注冊(cè) 2 臺(tái) α 全畫幅相機(jī)、3 支 G 大師鏡頭消息稱vivo加碼電池軍備競(jìng)賽:6500mAh 旗艦機(jī)+7500mAh中端機(jī)寶馬M8雙門轎跑車明年年初將停產(chǎn),后續(xù)無2026款車型比亞迪:2025 款漢家族車型城市領(lǐng)航智駕功能開啟內(nèi)測(cè)雷神預(yù)告2025年首次出席CES 將發(fā)布三款不同技術(shù)原理智能眼鏡realme真我全球首發(fā)聯(lián)發(fā)科天璣 8400 耐玩戰(zhàn)神共創(chuàng)計(jì)劃iQOO Z9 Turbo長續(xù)航版手機(jī)被曝電池加大到6400mAh,搭驍龍 8s Gen 3處理器普及放緩 銷量大跌:曝保時(shí)捷將重新評(píng)估電動(dòng)汽車計(jì)劃來京東參與榮耀Magic7 RSR 保時(shí)捷設(shè)計(jì)預(yù)售 享365天只換不修國補(bǔ)期間電視迎來換機(jī)潮,最暢銷MiniLED品牌花落誰家?美團(tuán)旗下微信社群團(tuán)購業(yè)務(wù)“團(tuán)買買”宣布年底停運(yùn)消息稱微軟正與第三方廠商洽談,試圖合作推出Xbox游戲掌機(jī)設(shè)備
  • 首頁 > 數(shù)據(jù)存儲(chǔ)頻道 > 數(shù)據(jù).存儲(chǔ)頻道 > 半導(dǎo)體

    京東零售在電商搜索場(chǎng)景下的數(shù)據(jù)科學(xué)實(shí)踐

    2023年01月31日 16:58:56   來源:IT168

      導(dǎo)讀:電商場(chǎng)景數(shù)據(jù)量大、業(yè)務(wù)復(fù)雜,搜索場(chǎng)景作為其中最為核心的流量分發(fā)與轉(zhuǎn)化場(chǎng)域,更面臨著諸多數(shù)據(jù)科學(xué)領(lǐng)域的問題與挑戰(zhàn)。

      本文將分享京東零售搜索數(shù)據(jù)科學(xué)團(tuán)隊(duì)在電商搜索場(chǎng)景下的數(shù)據(jù)科學(xué)實(shí)踐,主要介紹:1. 電商搜索場(chǎng)景的特點(diǎn);2. 實(shí)驗(yàn)科學(xué)和因果推斷實(shí)踐;3. 觀測(cè)指標(biāo)設(shè)計(jì)和業(yè)務(wù)分析。

      01 電商搜索場(chǎng)景的特點(diǎn)

      首先介紹電商搜索場(chǎng)景下基礎(chǔ)數(shù)據(jù)建設(shè)與AB實(shí)驗(yàn)體系的特點(diǎn)。

      1. 搜索訂單歸因

      京東零售搜索業(yè)務(wù)負(fù)責(zé)精準(zhǔn)高效地連接搜索用戶和商家,涵蓋各零售渠道的關(guān)鍵字搜索、店鋪內(nèi)搜索、優(yōu)惠券與活動(dòng)搜索等核心搜索業(yè)務(wù)。

      京東零售搜索的核心目標(biāo)是:提升訂單轉(zhuǎn)換效率,兼顧結(jié)果的精確性和豐富性。因此,搜索訂單數(shù)據(jù),是搜索業(yè)務(wù)最為核心的 feature、label、metrics 數(shù)據(jù)源

      一條訂單,如何歸因到搜索訂單?

      (1)訂單事件歸因

      多觸點(diǎn)歸因(MTA, Multi-Touch Attribution Model)是計(jì)算廣告里的經(jīng)典問題,對(duì)于一次轉(zhuǎn)化中的各模塊影響進(jìn)行定性/定量的判斷。歸因模型對(duì)于搜索跟單、AB 口徑、樣本 Label 都有直接的影響,常見的規(guī)則型的歸因模型有首次歸因、末次歸因、平均歸因、復(fù)雜歸因模型(Markov 模型歸因、Shap 值分解歸因)。比如推薦模塊,更為關(guān)注何時(shí)進(jìn)行首次觸達(dá),進(jìn)行有效“種草”,傾向于進(jìn)行首次歸因;如果是關(guān)注轉(zhuǎn)化的模塊,例如搜索,會(huì)注重最后的訂單成單是否是由搜索轉(zhuǎn)化的,因此會(huì)傾向于末次歸因。不同的歸因方式,會(huì)用來解決不同的業(yè)務(wù)問題。

      (2)時(shí)間相關(guān)性

      在歸因分析中,關(guān)聯(lián)事件的時(shí)間窗口是很重要的。例如,懷疑因素 X 引發(fā)了疾病 Y,那么對(duì)于 Y 的實(shí)驗(yàn)分析工作,就需要觀察 X 發(fā)生的時(shí)間來做判斷。

      一條訂單的產(chǎn)生,通常會(huì)經(jīng)歷這些流程:曝光→點(diǎn)擊→加購→下單→支付→出庫→完成。這一流程,往往會(huì)跨越一定的時(shí)間窗口, 也就是說電商里的訂單反饋,是有很大遲滯的!

      對(duì)于我們的 AB 實(shí)驗(yàn)同樣,6 月 1 8 日用戶 A 從購物車?yán)锵碌挠唵,?06-01 的時(shí)候進(jìn)入 Test 實(shí)驗(yàn) X 并加購的。即使 06-18 的時(shí)候 Test X 下線了,用戶 A 已經(jīng)被劃分到 Test F 了,那么這個(gè)訂單依然和 Test F 無關(guān)。

      因此,我們需要回追真正用戶真正受到策略影響的時(shí)間,以此保證下單行為和搜索行為在時(shí)間窗口上的相關(guān)性。

      2.搜索場(chǎng)景下的 AB 實(shí)驗(yàn)

      隨機(jī)分流的 AB 實(shí)驗(yàn)是最好用的因果效應(yīng)分析工具,在線 AB 實(shí)驗(yàn)是互聯(lián)網(wǎng)產(chǎn)品迭代的核心方式。AB 實(shí)驗(yàn)的核心,有三個(gè)要素:

      實(shí)驗(yàn)對(duì)象——Randomization Unit

      實(shí)驗(yàn)變量——Treatment

      實(shí)驗(yàn)效應(yīng)——Metrics

      (1)實(shí)驗(yàn)對(duì)象——Randomization Unit

      隨機(jī)分流單元的選擇很多,包括:瀏覽器 Cookies(PC)、device id/ MEID_ IMEI(APP)、PIN、request id。選擇不同的分流單元,可能會(huì)面臨不同的問題。例如實(shí)驗(yàn)效應(yīng)有跨天的情況,那么 request id 就可能無法追到,但 device id 不會(huì)變。需要特別注意,當(dāng)隨機(jī)分流的單元與指標(biāo)分析單元不同時(shí),評(píng)估需要非常謹(jǐn)慎。例如,分流單元為 device id,但分析單元為 request id 時(shí),一方面要注意,從分流單元到分析單元之間還有一個(gè)“平均請(qǐng)求數(shù)”指標(biāo)可能會(huì)變化;另一方面,在假設(shè)檢驗(yàn)時(shí),對(duì)于 request id 為單元的指標(biāo),其 variance 需要通過 delta method 進(jìn)行校正。

      隨機(jī)分流的穩(wěn)定性是電商平臺(tái)經(jīng)常會(huì)面臨的一個(gè)問題。電商平臺(tái)頻繁開展促銷,短期內(nèi)的樣本分布會(huì)產(chǎn)生劇烈波動(dòng)。最常用的方式是先開一組AA實(shí)驗(yàn),看實(shí)驗(yàn)效果來評(píng)估現(xiàn)在流量是否均勻。但如果每次都去開 AA 實(shí)驗(yàn),流量穩(wěn)定了,再開一組 AB 實(shí)驗(yàn),這樣代價(jià)是非常大的。因此希望在觀測(cè)到波動(dòng)的情況下,對(duì)波動(dòng)進(jìn)行剔除。另外,每天電商都有巨大的流量,如果是多層正交的分流實(shí)驗(yàn)平臺(tái),一天在線實(shí)驗(yàn)可能會(huì)有幾百層,有的 AA 波動(dòng)顯著,有的沒有,那么如何評(píng)估整體流量分發(fā)是否平穩(wěn)呢?我們的辦法是做 Multi-AA Test,比如在一個(gè)實(shí)驗(yàn)層上切 50 組 AA,兩兩之間計(jì)算顯著性差異,在 95% 的顯著性水平下,P 值應(yīng)當(dāng)服從均勻分布。如果 P 值分布明顯出現(xiàn)左偏(如下圖所示),則意味著可能有系統(tǒng)性的 AA 波動(dòng)出現(xiàn),而右偏則可能是檢驗(yàn)效力不足。因此,Multi-AA Test 除了檢測(cè) AA 異常之外,也是對(duì) Metrics 穩(wěn)定性與假設(shè)檢驗(yàn)方式是否合理的一種有效工具。

      另一個(gè)有趣的問題是,樣本獨(dú)立性問題,在社交/團(tuán)購類 APP 很容易出現(xiàn)樣本間溢出效應(yīng)。例如,當(dāng)團(tuán)購 APP 在針對(duì)新的“促銷推送”功能做 AB 實(shí)驗(yàn)時(shí),test組收到影響的用戶可能通過分享、或者線下方式,告知自己周邊的 base 用戶,從而造成 treatment 策略同時(shí)影響了 base 和 test 組的用戶。

      (2)實(shí)驗(yàn)變量——Treatment

      Treatment 應(yīng)當(dāng)盡量單一,Multi-Treatment 的加入會(huì)導(dǎo)致實(shí)驗(yàn)效果的混淆。若一個(gè)實(shí)驗(yàn)策略,需要多個(gè)模塊同步修改,在多層正交分流的前提下,可以進(jìn)行聯(lián)合實(shí)驗(yàn),觀察整體策略效果。

      如下圖中的例子,在藍(lán)色圈選的時(shí)間點(diǎn),一個(gè)精排排序策略的全量,導(dǎo)致了當(dāng)前在觀測(cè)的 EE 策略實(shí)驗(yàn)效果突然反向。因此,實(shí)驗(yàn)期間出現(xiàn)多個(gè) treatment 共同影響的時(shí)候,很難嚴(yán)謹(jǐn)評(píng)估出這個(gè)策略本身是否有問題,因此要盡量保證單一 treatment,減少實(shí)驗(yàn)間的耦合破壞多層正交性。

      (3)實(shí)驗(yàn)效應(yīng)——Metrics

      評(píng)估一個(gè)實(shí)驗(yàn)指標(biāo)的優(yōu)劣,可以考慮以下三個(gè)方面:

      敏感性:指標(biāo)收斂能力,指標(biāo)的 Test Power 與所需 Sample Size 預(yù)估,根據(jù)歷史實(shí)驗(yàn) case 進(jìn)行 variance 估計(jì),下圖中給出了一個(gè)經(jīng)典的預(yù)估公式;

      解釋性:指標(biāo)是否可拆解、是否便于 AB 效果的分維度分析、是否直接反映到業(yè)務(wù)上,在電商搜索場(chǎng)景下,一個(gè)指標(biāo)的解釋性往往更加重要;

      魯棒性/穩(wěn)定性:指標(biāo)是否會(huì)誤顯著,需要關(guān)注指標(biāo)的 AA 穩(wěn)定性。

      02 實(shí)驗(yàn)科學(xué)&因果推斷實(shí)踐

      通過前面的講解可以看到,電商 AB 實(shí)驗(yàn)過程中可能會(huì)存在一些問題,我們通過實(shí)驗(yàn)科學(xué)和因果推斷技術(shù)不斷迭代和修正,積累了一些成功案例。

      1.因果推斷基礎(chǔ)框架

      因果推斷典型框架之一是 Rubin’s Potential outcome 框架,其核心是尋找反事實(shí)樣本。從個(gè)體效應(yīng)的角度,在現(xiàn)實(shí)生活中反事實(shí)樣本通常難以獲取,但通常電商樣本的數(shù)據(jù)量足夠大,在一群人中總能找到某個(gè)事實(shí)的反情況樣本。

      個(gè)體實(shí)驗(yàn)效應(yīng)是指電商場(chǎng)景下某個(gè)單獨(dú)的人或某件單獨(dú)的商品的情況。

      子群實(shí)驗(yàn)效應(yīng)是指某個(gè)商品類目、某個(gè)用戶群分層下的收益。

      全局實(shí)驗(yàn)效應(yīng)是指整個(gè)電商銷售平臺(tái)的大盤收益或者整體銷售價(jià)值提升。

      另外一個(gè)典型框架是 Peral’s Causal Graph 因果圖框架,即建立有向圖描述因果關(guān)系,通過確認(rèn)節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系,來剔除更多的 confounder,以保證更加單純無偏的因果關(guān)系。但在電商場(chǎng)景下,每天用戶點(diǎn)擊搜索會(huì)是上億甚至十億級(jí)別,這樣規(guī)模上建模因果圖成本會(huì)很大。僅在 case 級(jí)別的研究時(shí)會(huì)用因果圖框架。

      我們歸納了因果推斷基礎(chǔ)框架,如上圖右側(cè)所示,包括實(shí)驗(yàn)數(shù)據(jù)因果推斷和觀測(cè)數(shù)據(jù)因果推斷兩個(gè)方向。實(shí)驗(yàn)數(shù)據(jù)雖然由隨機(jī)分流AB實(shí)驗(yàn)得到,但是依然可能存在實(shí)驗(yàn)前樣本差異,實(shí)驗(yàn)中低滲透率,實(shí)驗(yàn)后損益不均等問題,因此主要使用因果推斷方法來修正或者下鉆實(shí)驗(yàn)效應(yīng)分析。當(dāng)沒有條件進(jìn)行 AB 實(shí)驗(yàn)時(shí),針對(duì)觀測(cè)數(shù)據(jù)也有一些方法,如策略全量生效時(shí),有經(jīng)典的斷點(diǎn)回歸和時(shí)序分析;當(dāng)策略分批生效時(shí),可能存在組間差異,可以使用宏觀雙重差分 DID、宏觀合成控制 SCM 等技術(shù);當(dāng)全局不均勻生效,則需要樣本微觀層面進(jìn)行 PSM、SCM-DID 等工作。

      2.小流量/高波動(dòng)場(chǎng)景下的實(shí)驗(yàn)方法論

      搜索實(shí)驗(yàn),由于訂單反饋的延遲、頻繁的促銷行為、垂直場(chǎng)景豐富等原因,往往可能存在以下問題:

      樣本量小,反饋稀疏

      方差大,難收斂

      波動(dòng)大,不穩(wěn)定

      混淆因子多,隨機(jī)性差

      (1)樣本糾偏

      為解決以上問題,首先會(huì)做樣本糾偏,用 PSM 回歸 propensity score,修正樣本分布,借用用戶畫像 tag 尋找 confounder。例如年齡可能會(huì)導(dǎo)致抽煙和不抽煙的用戶發(fā)生變化,如果直接把抽煙的用戶和不抽煙的用戶放在一起,去看死亡率,那肯定會(huì)有問題。因此首先要控制 base 和 test 組年齡分布相同。當(dāng)實(shí)驗(yàn)只看一個(gè) treatment 的影響時(shí)候,年齡這樣的 confounder 就會(huì)帶來影響。在對(duì)于 ATE 的計(jì)算上可以把 propensity score 代入,去做 PSM,找兩組樣本盡可能一樣,或者是用 IPTW 這種方法,把每個(gè)樣本對(duì)于 treatment effect 的貢獻(xiàn)做權(quán)重上的調(diào)整。我們更多會(huì)關(guān)注 IPTW 的方法,因?yàn)?PSM 有一個(gè)關(guān)鍵的問題是,去做 matching,總有一部分樣本是 match 不到的,那么 match 不到的這部分樣本上面的收益和損失,可能就已經(jīng)帶來了選擇偏差。

      (2)方差縮減

      CUPED 方差縮減的想法也很樸素,就是如果能夠找到在 treatment 真正作用之前,這個(gè)樣本本身就是一個(gè)很愛點(diǎn)擊很愛反饋的樣本,那么進(jìn)入 treatment 之后,這樣的可能會(huì)給 treatment effect 的估計(jì)帶來偏差。我們要盡可能用實(shí)驗(yàn)前的樣本行為來減少實(shí)驗(yàn)中帶來的 variance。這時(shí)的做法就如圖中公式,找到一個(gè)協(xié)變量x。比如要去評(píng)估 UCTR 指標(biāo),如果能找到他的回訪周期是否頻繁,瀏覽深度如何等,就可以通過這些協(xié)變量來消除點(diǎn)擊上的 variance。這個(gè)協(xié)變量的相關(guān)系數(shù)越高,對(duì)方差的縮減就越大。

      上圖右下角的圖展示了 P 值的縮減效果,原本要七八天都無法收斂的實(shí)驗(yàn),現(xiàn)在使用 CUPED 方法,第四天就可以看到收斂效果。但這里的縮減不一定正確,可能讓你在第四天就做出了錯(cuò)誤的決定,p 值后續(xù)可能又會(huì)增高。因此使用方差縮減,在反向?qū)嶒?yàn)時(shí)要加強(qiáng)驗(yàn)證,避免誤顯著帶來錯(cuò)誤決策。

      (3)分流單元切換

      在電商搜索里,用戶劃分在樣本量不足的情況下,通常難以構(gòu)建有效的 AB實(shí)驗(yàn)。解決方案是讓一個(gè)用戶同時(shí)暴露在兩種實(shí)驗(yàn)策略下,即不使用用戶維度分流,而是使用 interleaving 坑位穿插分流,這種實(shí)驗(yàn)方式在 feed 流實(shí)驗(yàn)中會(huì)更為有效。對(duì)比正交分流實(shí)驗(yàn),interleaving 分流方式收斂速度會(huì)非?。但是,在電商排序場(chǎng)景中,interleaving 分流方式會(huì)存在一定的風(fēng)險(xiǎn):一方面,電商場(chǎng)景存在 position bias,首位商品的 ctr 會(huì)明顯高于后續(xù)位置,interleaving 分流需要非常嚴(yán)格按照位置進(jìn)行分流,否則極易產(chǎn)生錯(cuò)誤結(jié)論;另一方面,base 和 test 穿插的搜索結(jié)果頁,可能導(dǎo)致用戶整體翻頁下滑,換句話說,坑位樣本的提升效果不一定在用戶樣本上仍然存在,后續(xù)的正交分流 holdback 實(shí)驗(yàn)是非常重要的。

      3. 異質(zhì)性效應(yīng)分析

      為應(yīng)對(duì)異質(zhì)性效應(yīng),可以通過以下方式建模:

      (1)CATE 的建模——Causal Tree 樣本劃分

      此處的建模目的是,使用 Causal Tree 劃分 AB 實(shí)驗(yàn)樣本空間,剔除不敏感的用戶子群,從而加速實(shí)驗(yàn)決策。具體方法如下圖,修改樹模型的節(jié)點(diǎn)增益計(jì)算方式,從而使樹模型最小化 P_ value ;谝(guī)則樹的建模方式,可以直接得到子群劃分規(guī)則,小幅度剔除不敏感用戶子群后,P 值收斂明顯加快,從而加速實(shí)驗(yàn)的分析決策。

      (2)ITE 的建模——Uplift Model 預(yù)估 ITE

      此處建模的目的是,分析實(shí)驗(yàn)在樣本維度的異質(zhì)性損益,用于綜合評(píng)估實(shí)驗(yàn)風(fēng)險(xiǎn)。其中,Transform Outcome 方法用于轉(zhuǎn)化因果 label,Tree- based model 建模用于得到可解釋規(guī)則。使用 Qini Curve 評(píng)估實(shí)驗(yàn)對(duì)于敏感樣本的排序能力。例如,對(duì)于新品實(shí)驗(yàn)進(jìn)行分析,其中較為敏感的 feature 是“商品評(píng)論數(shù)”,基于該 feature 劃分樣本可以發(fā)現(xiàn),對(duì)于高評(píng)論用戶的新品策略收益是最大的。

      4.準(zhǔn)實(shí)驗(yàn)評(píng)估方案

      在沒有條件進(jìn)行 AB 實(shí)驗(yàn), 或 AB 實(shí)驗(yàn)受到干擾導(dǎo)致隨機(jī)分流失效時(shí),就需要我們構(gòu)建準(zhǔn)實(shí)驗(yàn)。具體應(yīng)用如下:

      (1)RDDiT 時(shí)間斷點(diǎn)回歸

      斷點(diǎn)回歸 RDD 的應(yīng)用例如下圖中,在 12 號(hào)存在一次集群配置突變,該數(shù)據(jù)僅有大盤整體的 daily 數(shù)據(jù)點(diǎn),需要評(píng)估該集群突變帶來的用戶轉(zhuǎn)化變化,此處就需要使用 RDDiT 進(jìn)行。左圖可以看出斷點(diǎn)明顯,回歸后得到量化的截距差就是這個(gè) treament 帶來的影響;右圖的安慰劑實(shí)驗(yàn)也可以判斷,僅在 12 號(hào)存在斷點(diǎn)顯著差異。傳統(tǒng)的 RDD 使用鄰域采樣,RDDiT 使用時(shí)間序列,因此會(huì)有以下區(qū)別:無法進(jìn)行帶寬選擇,樣本點(diǎn)較少;需要時(shí)間序列平穩(wěn)性驗(yàn)證;需要安慰劑實(shí)驗(yàn)驗(yàn)證顯著性。

      (2)DID 修正后的多重差分

      在下圖例子中,一組物理實(shí)驗(yàn),在 2022-01-07 前后出現(xiàn)了集群切換,同時(shí)在 2022-01-12 前后出現(xiàn)了實(shí)驗(yàn)策略的反向交換。因此,此處不再是常規(guī)的 DID 雙重差分,而是需要引入 treatment、timing、group 三重變量的多重差分。搜索實(shí)驗(yàn)中應(yīng)用 DID 方法有以下問題需要關(guān)注:

      首先,DID 務(wù)必需要進(jìn)行 Common Trends 校驗(yàn),回歸實(shí)驗(yàn)前虛擬的時(shí)間變量和分組變量交叉項(xiàng);對(duì)于非平穩(wěn)時(shí)間序列,此處增加時(shí)間項(xiàng)修正誤差;經(jīng)典雙重 DID 評(píng)估斜率變化,適合評(píng)估絕對(duì)值,而搜索場(chǎng)景評(píng)估截距變化,關(guān)注的是 ratio 指標(biāo)。

      03 觀測(cè)指標(biāo)設(shè)計(jì)與業(yè)務(wù)分析

      除了以上實(shí)驗(yàn)科學(xué)的工作之外,指標(biāo)設(shè)計(jì)也是數(shù)據(jù)科學(xué)中一項(xiàng)重要的工作。除了傳統(tǒng)的 CVR、CTR 等指標(biāo)之外,在復(fù)雜業(yè)務(wù)場(chǎng)景中還有諸多業(yè)務(wù)效果的衡量訴求,這些業(yè)務(wù)的 Metrics 都是需要一定設(shè)計(jì)的。

      1. 流量分發(fā)的度量

      大家默認(rèn)有個(gè)共識(shí),搜索的流量會(huì)集中在很多頭部詞上,而長尾詞和長尾供應(yīng)上天然是不足的。但是,搜索詞是否真的全部符合“長尾分布”?這個(gè)“長尾效應(yīng)”的強(qiáng)弱到底如何?這些問題一直是沒有固定答案的。

      那么,如何度量搜索流量分發(fā)的頭部效應(yīng)?就是一個(gè)困難而有趣的課題。

      觀察搜索 Query 的 Session 量分布,有很明顯的冪率分布的特征,頭部query 的 Session 量聚集明顯。

      搜索 session 分布符合一種很典型的分布,即冪率分布,它的特征是有顯著的轉(zhuǎn)折點(diǎn),累積可能有一個(gè)很快的上升并最終收斂在某一區(qū)間,如果對(duì)縱軸和橫軸都取 log 會(huì)變成線性。

      而冪律分布的成因,有一個(gè)非常有趣的解釋。借由無標(biāo)度網(wǎng)絡(luò)的角度來看,樣本間不獨(dú)立,增量與存量不獨(dú)立,從而帶來了頭部節(jié)點(diǎn)指數(shù)級(jí)別的“度”增長。

      結(jié)合冪率分布的性質(zhì),我們可以圍繞流量分發(fā)的集中程度進(jìn)行指標(biāo)設(shè)計(jì):

      冪率分布的冪指數(shù)

      雙 log 后會(huì)看到典型的線性特征。斜線的斜率可以很好的度量當(dāng)前流量集中情況。冪指數(shù)可以全面衡量數(shù)據(jù)分布,穩(wěn)定性好,但解釋性差,敏感度差。

      Top80% 搜索量覆蓋的 query 個(gè)數(shù)/占比

      關(guān)注業(yè)務(wù)解釋性,穩(wěn)定性和敏感度較差。

      搜索 Querv 熵指標(biāo)

      穩(wěn)定性和敏感度較好,但解釋性較差。

      擬合一個(gè)冪率分布很難,但擬合一個(gè)線性關(guān)系很簡(jiǎn)單。我們對(duì)于雙 log 圖進(jìn)行線性擬合,發(fā)現(xiàn)大量腰尾部點(diǎn)是符合冪率分布性質(zhì)的,但是頭部 query 卻并非完全符合冪率分布。這里體現(xiàn)的,在實(shí)踐中,長尾效應(yīng)并非是覆蓋所有樣本點(diǎn)的,存在明顯的分段冪率效應(yīng)(Broken Power Law)。

      為什么存在分段冪率效應(yīng)?我們可以通過一個(gè)生動(dòng)的例子來看,人類的城市化進(jìn)程中,人口的分布就是一個(gè)典型的冪率效應(yīng)。人類的遷徙聚落,就是一個(gè)無標(biāo)度網(wǎng)絡(luò)連接的過程。我們會(huì)從一個(gè)縣走到一個(gè)省的省會(huì),也可能從省會(huì)走到首都,北上廣這樣超級(jí)城市的誕生就是人口流動(dòng)和遷徙帶來的。但是,人口的流動(dòng)和遷徙也會(huì)有不滿足線性特征的情況,比如右圖中西歐城市化進(jìn)程中的人口分布,因?yàn)橥恋爻休d力是有極限的,頭部城市無法完全滿足冪率特征。類似的,我們 query 的承載力也是有極限的。不可能在一個(gè) query 上滿足所有用戶需求。用戶的需求會(huì)進(jìn)一步細(xì)化。

      這樣去看我們現(xiàn)在的流量分發(fā),就可以很好的意識(shí)到,頭部流量上偏離擬合,就是因?yàn)檫@一部分的流量承接已經(jīng)飽和了,沒有更多的成長空間了。通過擬合值和真實(shí)值之間的差異,或者去校驗(yàn)冪率分布和真實(shí)分布之間的差異是從哪個(gè)斷點(diǎn)開始的,就能很好地確認(rèn)哪些詞是頭部詞。同時(shí),在二八定律下,80% 的流量能覆蓋哪些詞,這些詞其實(shí)就是我們真正的去再做細(xì)化的腰部詞。最后,可能還有很巨量的尾部詞,已經(jīng)是非常細(xì)化的用戶需求了,我們也需要通過算法去引導(dǎo)。

      結(jié)語:

      從訂單樣本的構(gòu)建,到 AB 實(shí)驗(yàn)與因果推斷的應(yīng)用,以及最后流量分發(fā)的metrics 設(shè)計(jì)。搜索數(shù)據(jù)科學(xué)始終堅(jiān)持以業(yè)界先進(jìn)方法解決實(shí)際的業(yè)務(wù)難題,堅(jiān)持從基礎(chǔ)數(shù)據(jù)入手為復(fù)雜方法論構(gòu)建地基。如果讀者對(duì)我們的團(tuán)隊(duì)感興趣,歡迎參考下圖中的團(tuán)隊(duì)介紹,或通過郵箱 sunxiaoyu5@jd.com 與我交流。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。