行業(yè)唯一!海爾熱聲熱泵技術(shù)獲全國(guó)顛覆性技術(shù)創(chuàng)新大賽最高獎(jiǎng)OPPO A5 Pro首創(chuàng)獵手天線架構(gòu):信號(hào)能穿十堵墻一加 Ace 5 Pro首發(fā)電競(jìng)Wi-Fi芯片G1 帶來(lái)「穿墻王」和「搶網(wǎng)王」般的網(wǎng)絡(luò)體驗(yàn)電視市場(chǎng)又出黑馬!TCL同檔Mini LED音畫王P12K,萬(wàn)象分區(qū)打造超強(qiáng)控光!零下25℃如何取暖?海爾水暖通溫暖驛站亮相冰雪大世界馬太效應(yīng),強(qiáng)者恒強(qiáng)?——《中國(guó)企業(yè)科創(chuàng)力研究報(bào)告(2024)》美團(tuán)年度報(bào)告竟然用上了AI和短?這下是真出圈了消息稱上汽大眾正開發(fā)三款新車,技術(shù)分別來(lái)自小鵬、智己和榮威鴻蒙智行泊車代駕VPD正式開啟全量推送!升級(jí)自動(dòng)泊車/接駕等多項(xiàng)功能華為官方翻新手機(jī)最高降價(jià)4000元曝蘋果研發(fā)帶Face ID的智能家居門鈴:內(nèi)置自研W-Fi芯片李斌回應(yīng)螢火蟲外觀設(shè)計(jì):看過實(shí)車的人都喜歡這個(gè)設(shè)計(jì)林杰:未來(lái) A 級(jí)、A0 級(jí)、A00 級(jí)車型都將是領(lǐng)克純電的“主場(chǎng)”豐巢存包柜亮相南寧地鐵站,助力城市韌性建設(shè)與智慧出行萬(wàn)象分區(qū)、絢彩XDR、量子點(diǎn)Pro 2025齊出手,TCL引領(lǐng)觀影體驗(yàn)新變革!QQ音樂年度聽歌報(bào)告發(fā)布:誰(shuí)是你最喜歡的歌手?OpenAI正式發(fā)布o(jì)3 - 通往AGI的路上,已經(jīng)沒有了任何阻礙「送禮物」難撬動(dòng)社交電商,微信小店缺的是供給微軟Phi-4封神,14B小模型數(shù)學(xué)擊敗GPT-4o,合成數(shù)據(jù)占比40%,36頁(yè)技術(shù)報(bào)告出爐2024年結(jié)束,哪里是原創(chuàng)動(dòng)畫的應(yīng)許之地?
  • 首頁(yè) > 產(chǎn)經(jīng)新聞?lì)l道 > 科技資訊

    谷歌搜索引擎全面揭秘:近百份文檔泄露,博主爆肝數(shù)周逆向工程

    2024年08月23日 15:26:36   來(lái)源:IT之家

      繼 5 月的文件泄露事件后,谷歌的搜索引擎又被掀了個(gè)底朝天。不僅 DeepMind 發(fā)論文解釋了 Vizier 系統(tǒng)的機(jī)制,博客作者 Mario Fischer 還對(duì)近百份文檔做了徹底的調(diào)研分析,為我們還原了這個(gè)互聯(lián)網(wǎng)巨獸的全貌。

      谷歌發(fā)表的論文又開始揭自家技術(shù)的老底了。

      DeepMind 高級(jí)研究科學(xué)家 Xingyou (Richard) Song 等人最近發(fā)表的論文中,解釋了谷歌 Vizier 服務(wù)背后的算法秘密。

      作為一個(gè)運(yùn)行過數(shù)百萬(wàn)次的黑盒優(yōu)化器,Vizier 幫助谷歌內(nèi)部?jī)?yōu)化了很多研究和系統(tǒng);同時(shí),谷歌云和 Vertex 也上線了 Vizier 服務(wù),幫助研究者和開發(fā)人員進(jìn)行超參數(shù)調(diào)整或黑盒優(yōu)化。

      Song 表示,與 Ax / BoTorch、HEBO、Optuna、HyperOpt、SkOpt 等其他行業(yè)基線相比,Vizier 在很多用戶場(chǎng)景中都有更穩(wěn)健的表現(xiàn),比如高維度、批查詢、多目標(biāo)問題等。

      趁著論文發(fā)布,谷歌元老 Jeff Dean 也發(fā)推贊揚(yáng) Vizier 系統(tǒng)。

      他提到的開源版 Vizier 已經(jīng)托管在 GitHub 倉(cāng)庫(kù)上,有非常詳細(xì)的文檔說(shuō)明,并且最近仍在持續(xù)維護(hù)更新。

      倉(cāng)庫(kù)地址:https://github.com/google/vizier

      OSS Vizier 的分布式客戶端-服務(wù)器系統(tǒng)

      雖然谷歌研究院早在 2017 年就發(fā)文討論過整個(gè) Vizier 系統(tǒng),但內(nèi)容遠(yuǎn)沒有最新的這篇詳實(shí)。

      論文地址:https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/46180.pdf

      這篇技術(shù)報(bào)告包含了大量研究工作的成果和用戶反饋,在描述開源 Vizier 算法的實(shí)現(xiàn)細(xì)節(jié)和設(shè)計(jì)選擇的同時(shí),用標(biāo)準(zhǔn)化基準(zhǔn)的實(shí)驗(yàn)表現(xiàn)了 Vizier 在多種實(shí)用模式上的穩(wěn)健性和多功能性。

      論文地址:https://arxiv.org/abs/2408.11527

      其中,Vizier 系統(tǒng)迭代過程的經(jīng)驗(yàn)教訓(xùn)也被一一展示,這對(duì)學(xué)界和行業(yè)都有很大的借鑒意義,值得一觀。

      Vizier 系統(tǒng)所用貝葉斯算法的核心組件

      文章的主要貢獻(xiàn)如下:

      - 正式確認(rèn)了 Vizier 當(dāng)前版本的默認(rèn)算法并解釋其功能、設(shè)計(jì)選擇,以及整個(gè)迭代過程中吸取的經(jīng)驗(yàn)教訓(xùn)

      - 在原始的 C++ 實(shí)現(xiàn)基礎(chǔ)上提供了開源的 Python 和 JAX 框架實(shí)現(xiàn)

      - 使用行業(yè)通用基準(zhǔn)進(jìn)行測(cè)試,體現(xiàn)了 Vizier 在高維、分類、批量和多目標(biāo)優(yōu)化等模式下的穩(wěn)健性

      - 對(duì)零階進(jìn)化采集優(yōu)化器(zeroth-order evolutionary acquisition optimizer)這個(gè)非常規(guī)的設(shè)計(jì)選擇進(jìn)行了消融實(shí)驗(yàn),展示并討論了其中的關(guān)鍵優(yōu)勢(shì)

      論文作者列表中排名前二的是兩個(gè) Richard——

      Xingyou (Richard) Song 曾在 OpenAI 擔(dān)任強(qiáng)化學(xué)習(xí)泛化方面的研究員,2019 年以高級(jí)研究科學(xué)家的身份加入 Google Brain,并從 2023 年起擔(dān)任 DeepMind 高級(jí)研究科學(xué)家,從事 GenAI 方面的工作。

      Qiuyi (Richard) Zhang 目前在 DeepMind Vizier 團(tuán)隊(duì)中工作,也是開源版 Vizier 的共同創(chuàng)建者,他的研究主要關(guān)注超參數(shù)優(yōu)化、貝葉斯校準(zhǔn)和理論機(jī)器學(xué)習(xí)方向,此外在 AI 對(duì)齊、反事實(shí) / 公平性等方面也有涉足。

      2014 年,Zhang 以優(yōu)秀畢業(yè)生的身份從普林斯頓大學(xué)獲得學(xué)士學(xué)位,之后在加州大學(xué)伯克利分校獲得獲得應(yīng)用數(shù)學(xué)和計(jì)算機(jī)科學(xué)的博士學(xué)位。

      搜索引擎機(jī)制大起底

      作為絕對(duì)的行業(yè)巨頭,谷歌很多未被披露的核心技術(shù)都讓外界好奇已久,比如,搜索引擎。

      十多年來(lái)超過 90% 的市場(chǎng)份額,讓谷歌搜索成為了或許是整個(gè)互聯(lián)網(wǎng)上最具影響力的系統(tǒng),它決定了網(wǎng)站的生死存亡及網(wǎng)絡(luò)內(nèi)容的呈現(xiàn)形態(tài)。

      但谷歌究竟是如何對(duì)網(wǎng)站進(jìn)行排名的具體細(xì)節(jié),從來(lái)都是「黑匣子」。

      不像 Vizier 這類產(chǎn)品,搜索引擎既是谷歌的財(cái)富密碼,也是看家技術(shù),官方發(fā)論文披露是不可能的。

      雖然也有媒體、研究人員以及從事搜索引擎優(yōu)化工作的人士進(jìn)行過種種猜測(cè),但也只是盲人摸象。

      曠日持久的谷歌反壟斷訴訟最近宣布判決,美國(guó)的各級(jí)檢察官搜羅了約 500 萬(wàn)頁(yè)的文件,變成公開的呈堂證供。

      然而,谷歌內(nèi)部文檔泄露和反壟斷聽證會(huì)的公開文件等等,并沒有真正告訴我們排名的具體工作原理。

      并且,由于機(jī)器學(xué)習(xí)的使用,自然搜索結(jié)果的結(jié)構(gòu)非常復(fù)雜,以至于參與排名算法開發(fā)的谷歌員工也表示,他們并不能完全理解許多信號(hào)權(quán)重的相互作用,無(wú)法解釋為什么某個(gè)結(jié)果會(huì)排在第一或第二。

      5 月 27 日,一位匿名消息人士(后證實(shí)為搜索引擎優(yōu)化行業(yè)資深從業(yè)者 Erfan Azimi)曾向 SparkToro 公司的 CEO Rand Fishkin 提供了一份 2500 頁(yè)的谷歌搜索 API 泄露文檔,揭示了谷歌搜索引擎內(nèi)部排名算法的詳細(xì)信息。

      但這還不是全部。

      專門報(bào)道搜索引擎行業(yè)的新聞網(wǎng)站 Search Engine Land 最近還發(fā)表了一篇博客,根據(jù)數(shù)千份泄露的谷歌法庭文件進(jìn)行逆向工程,首次揭秘谷歌網(wǎng)絡(luò)搜索排名的核心技術(shù)原理。

      原文鏈接:https://searchengineland.com/how-google-search-ranking-works-445141

      這篇博文是原作者在幾周的工作中對(duì)近 100 份文檔經(jīng)過多次查看、分析、結(jié)構(gòu)化、丟棄和重組之后才誕生的,雖然并不一定嚴(yán)格準(zhǔn)確或面面俱到,但可以說(shuō)是了解谷歌搜索引擎絕無(wú)僅有的全面且詳細(xì)的資料。

      作者的省流版結(jié)構(gòu)示意圖如下:

      毫無(wú)疑問,谷歌搜索引擎是一個(gè)龐大而復(fù)雜的工程。從爬蟲系統(tǒng)、存儲(chǔ)庫(kù) Alexandria、粗排名 Mustang,再到過濾和細(xì)排名系統(tǒng) Superroot 以及負(fù)責(zé)最終呈現(xiàn)頁(yè)面的 GWS,這些都會(huì)影響網(wǎng)站頁(yè)面最終的呈現(xiàn)和曝光。

      新文件:等待 Googlebot 訪問

      當(dāng)一個(gè)新網(wǎng)站發(fā)布時(shí),它不會(huì)立刻被谷歌索引,谷歌如何通過收集和更新網(wǎng)頁(yè)信息呢?

      第一步就是爬蟲和數(shù)據(jù)收集,谷歌首先需要知道該網(wǎng)站 URL 的存在,網(wǎng)站地圖的更新或放置 URL 鏈接可以讓谷歌抓取到新網(wǎng)站。

      并且,頻繁被訪問的頁(yè)面鏈接能更快地引起谷歌的注意。

      爬蟲系統(tǒng)(trawler system)會(huì)抓取新內(nèi)容,并記錄何時(shí)重新訪問 URL 以檢查網(wǎng)站更新,這由一個(gè)稱為調(diào)度器的組件管理。

      接著,存儲(chǔ)服務(wù)器決定是否轉(zhuǎn)發(fā)該 URL 或是否將其放到沙箱(sandbox)中。

      谷歌之前一直否認(rèn)沙箱的存在,但最近的泄露信息表明,(可疑的)垃圾網(wǎng)站和低價(jià)值網(wǎng)站也會(huì)被放入沙箱,谷歌顯然會(huì)轉(zhuǎn)發(fā)一些垃圾網(wǎng)站,可能是為了進(jìn)一步分析內(nèi)容和訓(xùn)練算法。

      然后,圖像鏈接被傳輸?shù)?ImageBot 中,以便后續(xù)的搜索調(diào)用,有時(shí)會(huì)出現(xiàn)延遲的情況,ImageBot 有分類功能,能夠?qū)⑾嗤蛳嗨频膱D片放置在一個(gè)圖像容器中。

      爬蟲系統(tǒng)似乎使用自己的 PageRank 來(lái)調(diào)整信息抓取頻率,如果一個(gè)網(wǎng)站的流量更大,這個(gè)抓取頻率就會(huì)增加(ClientTrafficFraction)。

      Alexandria:谷歌索引系統(tǒng)

      谷歌的索引系統(tǒng)被稱為 Alexandria,為每個(gè)網(wǎng)頁(yè)內(nèi)容分配唯一的 DocID。如果出現(xiàn)內(nèi)容重復(fù)的情況,則不會(huì)創(chuàng)建新的 ID,而是將 URL 鏈接到已有的 DocID。

      谷歌會(huì)明確區(qū)分 URL 和文檔:一個(gè)文檔可以由多個(gè)包含相似內(nèi)容的 URL 構(gòu)成,包括不同語(yǔ)言版本,所有這些 URL 都由同一個(gè) DocID 進(jìn)行調(diào)用。

      如果碰到不同域名的重復(fù)內(nèi)容,谷歌會(huì)選擇在搜索排名中會(huì)顯示規(guī)范版本。這也解釋了為什么其他的 URL 有時(shí)可能會(huì)有相似的排名。并且,所謂「規(guī)范」版本的 URL 也不是一錘子買賣,而是會(huì)隨著時(shí)間發(fā)生變化。

      Alexandria 收集文檔的 URL

      作者的文檔在網(wǎng)上只有一個(gè)版本,因此它被系統(tǒng)賦予了自己的 DocID。

      有了 DocID 之后,文檔的各個(gè)部分都會(huì)搜索出關(guān)鍵詞并匯總到搜索索引(search index)中!笩嵩~列表」(hit list)中匯總了每頁(yè)多次出現(xiàn)的關(guān)鍵詞,會(huì)先被發(fā)送到直接索引(direct index)中。

      以作者的網(wǎng)頁(yè)為例,由于其中多次出現(xiàn)「pencil」一詞,在詞匯索引(word index)中,DocID 就列在「pencil」條目下。

      算法會(huì)根據(jù)各種文本特征計(jì)算出文檔中「鉛筆」一詞的 IR(信息檢索)分?jǐn)?shù)并分配給 DocID,稍后用于發(fā)布列表(Posting List)。

      比如,文檔中「pencil」一詞被加粗,并包含在一級(jí)標(biāo)題中(存儲(chǔ)在 AvrTermWeight 中),這類信號(hào)都會(huì)增加 IR 得分。

      谷歌會(huì)將重要的文檔移至 HiveMind,即主內(nèi)存系統(tǒng),同時(shí)使用快速 SSD 和傳統(tǒng) HDD(稱為 TeraGoogle)來(lái)長(zhǎng)期存儲(chǔ)不需要快速訪問的信息。

      值得注意的是,專家估計(jì),在最近的 AI 熱潮之前,谷歌掌握了全球約半數(shù)的網(wǎng)絡(luò)服務(wù)器。

      一個(gè)龐大的互聯(lián)集群網(wǎng)絡(luò)能夠讓數(shù)百萬(wàn)個(gè)主存單元一起工作,一位谷歌工程師曾在一次會(huì)議上指出,理論上,谷歌的主存儲(chǔ)器可以存儲(chǔ)整個(gè)網(wǎng)絡(luò)。

      有趣的是,存儲(chǔ)在 HiveMind 中的重要文檔的鏈接以及反向鏈接似乎有更高的權(quán)重,而 HDD(TeraGoogle)中的 URL 鏈接可能權(quán)重較低,甚至可能不被考慮。

      每個(gè) DocID 的附加信息和信號(hào)都以動(dòng)態(tài)方式存儲(chǔ)在 PerDocData 中,這個(gè)存儲(chǔ)庫(kù)保存了每個(gè)文檔最近的 20 個(gè)版本(通過 CrawlerChangerateURLHistory),許多系統(tǒng)在調(diào)整相關(guān)性時(shí)都會(huì)訪問這些信息。

      并且,谷歌有能力隨著時(shí)間變化評(píng)估不同的版本。如果想要完全更改文檔的內(nèi)容或主題,理論上需要?jiǎng)?chuàng)建 20 個(gè)過渡版本來(lái)完全覆蓋掉舊的版本。

      這就是為什么恢復(fù)一個(gè)過期域名(一個(gè)曾經(jīng)活躍,但之后由于破產(chǎn)或其他原因被放棄或出售的域名)不會(huì)保留原來(lái)域名的排名優(yōu)勢(shì)。

      如果一個(gè)域名的 Admin-C 和其主題內(nèi)容同時(shí)發(fā)生變化,機(jī)器可以輕松識(shí)別出這一點(diǎn)。

      此時(shí),谷歌會(huì)將所有信號(hào)置零,曾經(jīng)有流量?jī)r(jià)值的舊域名不再提供任何優(yōu)勢(shì),與全新注冊(cè)的域名無(wú)異,接手舊域名并不意味著接手原本的流量和排名。

      除了泄密事件之外,美國(guó)司法機(jī)構(gòu)針對(duì)谷歌的聽證會(huì)和審判的證據(jù)文件也是有用的研究來(lái)源,甚至包含內(nèi)部電子郵件

      QBST:有人在搜索「pencil」

      當(dāng)有人在谷歌中輸入搜索詞「pencil」時(shí),QBST(Query Based Salient Terms)開始工作。

      QBST 負(fù)責(zé)分析用戶輸入的搜索詞,根據(jù)重要性和相關(guān)性為其中包含的各個(gè)詞語(yǔ)分配不同的權(quán)重,并分別進(jìn)行相關(guān) DocID 的查詢。

      詞匯加權(quán)過程相當(dāng)復(fù)雜,涉及 RankBrain、DeepRank(前身為 BERT)和 RankEmbeddedBERT 等系統(tǒng)。

      QBST 對(duì)于 SEO 很重要,因?yàn)樗鼤?huì)影響 Google 對(duì)搜索結(jié)果的排名,從而影響網(wǎng)站可以獲得多少流量和可見度。

      如果網(wǎng)站包含與用戶查詢匹配最常用的術(shù)語(yǔ),QBST 就會(huì)讓網(wǎng)站排名更高。

      經(jīng)過 QBST 后,相關(guān)詞匯如「pencil」,會(huì)被傳遞給 Ascorer 做進(jìn)一步處理。

      Ascorer:創(chuàng)建「綠環(huán)」

      Ascorer 從倒排索引(即詞匯索引)中提取「pencil」條目下的前 1000 個(gè) DocID,按 IR 得分排名。

      根據(jù)內(nèi)部文件,這個(gè)列表稱為「綠環(huán)」。在業(yè)內(nèi),這被稱為發(fā)布列表(posting list)。

      在我們關(guān)于「鉛筆」例子中,相應(yīng)文檔在發(fā)布列表中排名第 132 位。如果沒有其他系統(tǒng)的介入,這將是它的最終位次。

      Superroot:「千里挑十」

      Superroot 負(fù)責(zé)對(duì)剛剛 Mustang 篩選出的 1000 個(gè)候選網(wǎng)頁(yè)重新排名,將 1000 個(gè) DocID 的「綠環(huán)」縮減為 10 個(gè)結(jié)果的「藍(lán)環(huán)」。

      這個(gè)任務(wù)具體由 Twiddlers 和 NavBoost 執(zhí)行,其他系統(tǒng)可能也有參與,但由于信息不準(zhǔn)確,具體細(xì)節(jié)尚不清楚。

      Mustang 生成 1000 個(gè)潛在結(jié)果,Superroot 將其過濾為 10 個(gè)

      Twiddlers:層層過濾

      各種文件表明,谷歌使用了數(shù)百個(gè) Twiddler 系統(tǒng),我們可以將其視為類似于 WordPress 插件中的過濾器。

      每個(gè) Twiddler 都有自己特定的過濾目標(biāo),可以調(diào)整 IR 分?jǐn)?shù)或者排名位次。

      之所以用這種方式設(shè)計(jì),是因?yàn)?Twiddler 相對(duì)容易創(chuàng)建,而且無(wú)需修改 Ascorer 中復(fù)雜的排名算法。

      排名算法的修改非常具有挑戰(zhàn)性,因?yàn)樯婕皾撛诘母弊饔,需要大量的?guī)劃和編程。相反,多個(gè) Twiddler 并行或順序操作,并不知道其他 Twiddler 的活動(dòng)。

      Twiddler 基本可以分為兩種類型:

      -PreDoc Twiddlers 可以處理幾百個(gè) DocID 的集合,因?yàn)樗鼈儙缀醪恍枰~外的信息;

      -相反,「Lazy」類型的 Twiddler 需要更多的信息,例如來(lái)自 PerDocData 數(shù)據(jù)庫(kù)的信息,需要相對(duì)更長(zhǎng)的時(shí)間和更復(fù)雜的過程。

      因此,PreDocs 先接收發(fā)布列表并減少網(wǎng)頁(yè)條目,然后再使用較慢的「Lazy」類型的過濾器,兩者結(jié)合使用大大節(jié)省了算力和時(shí)間。

      兩種類型的、超過 100 個(gè) Twiddler 負(fù)責(zé)減少潛在的搜索結(jié)果數(shù)量并重新排序

      經(jīng)過測(cè)試,Twiddler 有多種用途,開發(fā)者可以嘗試使用新的過濾器、乘數(shù)或特定位置限制,甚至可以做到非常精準(zhǔn)的操控,將一個(gè)特定的搜索結(jié)果排名到另一個(gè)結(jié)果的前面或后面。

      谷歌的一份泄露的內(nèi)部文件顯示,某些 Twiddler 功能應(yīng)僅由專家與核心搜索團(tuán)隊(duì)協(xié)商后使用。

      如果您認(rèn)為自己了解 Twidder 的工作原理,請(qǐng)相信我們:您不了解。我們也不確定自己是否了解

      還有一些 Twiddlers 僅用于創(chuàng)建注釋,并將這些注釋添加到 DocID 中。

      在 COIVD 期間,為什么你所在國(guó)家的衛(wèi)生部門在 COVID-19 搜索中總是排在第一位?

      那正是因?yàn)?Twiddler 會(huì)根據(jù)語(yǔ)言和地區(qū),使用 queriesForWhichOfficial 來(lái)促進(jìn)官方資源的精確分配。

      雖然開發(fā)者無(wú)法控制 Twiddler 重新排序的結(jié)果,但了解其機(jī)制可以更好地解釋排名波動(dòng)和那些「無(wú)法解釋的排名」。

      質(zhì)量評(píng)估員和 RankLab 實(shí)驗(yàn)室

      全球范圍內(nèi)有數(shù)千名質(zhì)量評(píng)估員負(fù)責(zé)為谷歌評(píng)估搜索結(jié)果,對(duì)新算法或過濾器進(jìn)行上線前的測(cè)試。

      谷歌表示,他們的評(píng)分僅供參考,不會(huì)直接影響排名。

      這本質(zhì)上是正確的,但他們的評(píng)分和投標(biāo)票的確對(duì)排名產(chǎn)生了極大的間接影響。

      評(píng)估員通常在移動(dòng)設(shè)備上進(jìn)行評(píng)估,從系統(tǒng)接收 URL 或搜索短語(yǔ),并回答預(yù)設(shè)的問題。

      例如,他們會(huì)被問到,「這篇內(nèi)容作者和創(chuàng)作實(shí)踐是否清晰?作者是否擁有該主題的專業(yè)知識(shí)?」

      這些答案會(huì)被存儲(chǔ)起來(lái)并用于訓(xùn)練機(jī)器學(xué)習(xí)算法,讓算法能夠更好地識(shí)別高質(zhì)量、值得信賴的頁(yè)面,和不太可靠的頁(yè)面。

      也就是說(shuō),人類評(píng)估者提供的結(jié)果成為深度學(xué)習(xí)算法的重要標(biāo)準(zhǔn),谷歌搜索團(tuán)隊(duì)創(chuàng)建的排名標(biāo)準(zhǔn)反而沒那么重要。

      想象一下,什么樣的網(wǎng)頁(yè)會(huì)讓人類評(píng)估者覺得可信?

      如果某個(gè)網(wǎng)頁(yè)包含作者的照片、全名和 LinkedIn 鏈接,通常會(huì)顯得令人信服。反之,缺乏這些特征的網(wǎng)頁(yè)會(huì)被判定為不那么可信。

      接著,神經(jīng)網(wǎng)絡(luò)將識(shí)別這一特征為關(guān)鍵因素,經(jīng)過至少 30 天的積極測(cè)試運(yùn)行,模型可能開始自動(dòng)將此特征用作排名標(biāo)準(zhǔn)。

      因此,具有作者照片、全名和 LinkedIn 鏈接的頁(yè)面可能會(huì)通過 Twiddler 機(jī)制獲得排名提升,而缺乏這些特征的頁(yè)面則會(huì)出現(xiàn)排名下降。

      另外,根據(jù)谷歌泄露的信息,通過 isAuthor 屬性和 AuthorVectors 屬性(類似于「作者指紋識(shí)別」),可以讓系統(tǒng)識(shí)別并區(qū)分出作者的獨(dú)特用詞和表達(dá)方式(即個(gè)人語(yǔ)言特征)。

      評(píng)估員的評(píng)價(jià)被匯總成「信息滿意度」(IS)分?jǐn)?shù)。盡管有許多評(píng)估員參與,但 IS 評(píng)分僅適用于少數(shù) URL。

      谷歌指出,許多沒有被點(diǎn)擊的文檔可能也很重要。當(dāng)系統(tǒng)無(wú)法進(jìn)行推斷時(shí),文檔會(huì)被自動(dòng)發(fā)送給評(píng)估員并生成評(píng)分。

      評(píng)估員相關(guān)的術(shù)語(yǔ)中提到了「黃金」,這表明某些文檔可能有一個(gè)「黃金標(biāo)準(zhǔn)」,符合人類評(píng)估員的預(yù)期可能有助于文檔達(dá)到「黃金」標(biāo)準(zhǔn)。

      此外,一個(gè)或多個(gè) Twiddler 系統(tǒng)可能會(huì)將符合「黃金標(biāo)準(zhǔn)」的 DocID 推進(jìn)排名前十。

      質(zhì)量評(píng)估員通常不是谷歌的全職員工,而是隸屬于外包公司。

      相比之下,谷歌自己的專家在 RankLab 實(shí)驗(yàn)室中工作,負(fù)責(zé)進(jìn)行實(shí)驗(yàn)、開發(fā)新的 Twiddler 以及進(jìn)行評(píng)估和改進(jìn),看 Twiddler 能否提高結(jié)果質(zhì)量還是僅僅只能過濾掉垃圾郵件。

      經(jīng)過驗(yàn)證并有效的 Twiddler 隨后被集成到 Mustang 系統(tǒng)中,使用了復(fù)雜、互連且計(jì)算密集型的算法。

      NavBoost:用戶喜歡什么?

      在 Superroot 中,另一個(gè)核心系統(tǒng) NavBoost 在搜索結(jié)果排名方面也發(fā)揮著重要作用。

      Navboost 主要用于收集用戶與搜索結(jié)果交互的數(shù)據(jù),特別是他們對(duì)不同查詢結(jié)果的點(diǎn)擊量。

      盡管谷歌官方否認(rèn)將用戶點(diǎn)擊數(shù)據(jù)用于排名,但聯(lián)邦貿(mào)易委員會(huì)(FTC)披露的一封內(nèi)部電子郵件指示,點(diǎn)擊數(shù)據(jù)的處理方式必須保密。

      谷歌對(duì)此進(jìn)行否認(rèn)涉及兩方面的原因。

      首先,站在用戶的角度來(lái)看,谷歌作為搜索平臺(tái)無(wú)時(shí)無(wú)刻監(jiān)視用戶的在線活動(dòng),這會(huì)引起媒體對(duì)于隱私問題的憤怒。

      但站在谷歌的角度來(lái)看,使用點(diǎn)擊數(shù)據(jù)是為了獲得具有統(tǒng)計(jì)意義的數(shù)據(jù)指標(biāo),而不是監(jiān)控單個(gè)用戶。

      FTC 文件確認(rèn)了點(diǎn)擊數(shù)據(jù)將會(huì)影響排名,并頻繁提到 NavBoost 系統(tǒng)(在 2023 年 4 月 18 日的聽證會(huì)上提到 54 次),2012 年的一次官方聽證會(huì)也證明了這一點(diǎn)。

      自 2012 年 8 月起,官方明確表示點(diǎn)擊數(shù)據(jù)會(huì)影響排名

      搜索結(jié)果頁(yè)面上的各種用戶行為,包括搜索、點(diǎn)擊、重復(fù)搜索和重復(fù)點(diǎn)擊,以及網(wǎng)站或網(wǎng)頁(yè)的流量都會(huì)影響排名。

      對(duì)用戶隱私的擔(dān)憂只是原因之一。另一種擔(dān)憂是,通過點(diǎn)擊數(shù)據(jù)和流量進(jìn)行評(píng)估,可能會(huì)鼓勵(lì)垃圾郵件發(fā)送者和騙子使用機(jī)器人系統(tǒng)偽造流量來(lái)操縱排名。

      谷歌也有反制這種情況的方法,例如通過多方面的評(píng)估將用戶點(diǎn)擊區(qū)分為不良點(diǎn)擊和良好點(diǎn)擊。

      所使用的指標(biāo)包括在目標(biāo)頁(yè)面的停留時(shí)間、在什么時(shí)間段查看網(wǎng)頁(yè)、搜索的起始頁(yè)面、用戶搜索歷史中最近一次「良好點(diǎn)擊」的記錄等等。

      對(duì)于每個(gè)在搜索結(jié)果頁(yè)面(SERPs)中的排名,都有一個(gè)平均預(yù)期點(diǎn)擊率(CTR)作為基準(zhǔn)線。

      例如,根據(jù) Johannes Beus 在今年柏林 CAMPIXX 大會(huì)上的分析指出,自然搜索結(jié)果的第 1 位平均獲得 26.2% 的點(diǎn)擊,第 2 位獲得 15.5% 的點(diǎn)擊。

      如果一個(gè) CTR 顯著低于預(yù)期的比率,NavBoost 系統(tǒng)會(huì)記錄下這一差距,并相應(yīng)地調(diào)整 DocID 的排名。

      如果「expected_CRT」與實(shí)際值偏差較大,則排名會(huì)相應(yīng)調(diào)整

      用戶的點(diǎn)擊量基本上代表了用戶對(duì)結(jié)果相關(guān)性的意見,包括標(biāo)題、描述和域名。

      根據(jù) SEO 專家和數(shù)據(jù)分析師的報(bào)告,當(dāng)全面監(jiān)控點(diǎn)擊率時(shí),他們注意到了以下現(xiàn)象:

      如果一個(gè)文檔在搜索查詢中進(jìn)入前 10 名,而 CTR 顯著低于預(yù)期,可以觀察到排名將在幾天內(nèi)下降(取決于搜索量)。

      相反,如果 CTR 相對(duì)于排名來(lái)說(shuō)高得多,排名通常會(huì)上升。如果 CTR 較差,網(wǎng)站需要在短時(shí)間內(nèi)調(diào)整和優(yōu)化標(biāo)題和內(nèi)容描述,以便獲得更多的點(diǎn)擊。

      計(jì)算和更新 PageRank 是耗時(shí)且計(jì)算密集的,這就是使用 PageRank_NS 指標(biāo)的原因。NS 代表「最近的種子」,一組相關(guān)頁(yè)面共享一個(gè) PageRank 值,該值暫時(shí)或永久地應(yīng)用于新頁(yè)面。

      谷歌在一次聽證會(huì)上就如何提供最新信息樹立了一個(gè)良好典范。例如,當(dāng)用戶搜索「斯坦利杯」時(shí),搜索結(jié)果通常會(huì)顯示一個(gè)水杯。

      然而,當(dāng)斯坦利杯冰球比賽正在進(jìn)行時(shí),NavBoost 會(huì)調(diào)整結(jié)果以優(yōu)先顯示關(guān)于比賽的實(shí)時(shí)信息。

      根據(jù)最新發(fā)現(xiàn),文檔的點(diǎn)擊指標(biāo)包含了 13 個(gè)月的數(shù)據(jù),有一個(gè)月的重疊,以便與前一年進(jìn)行比較。

      出乎意料的是,谷歌實(shí)際上并沒有提供太多個(gè)性化的搜索結(jié)果。測(cè)試結(jié)果已經(jīng)表明,對(duì)用戶行為進(jìn)行建模并調(diào)整,比評(píng)估單個(gè)用戶的個(gè)人偏好更能帶來(lái)優(yōu)質(zhì)的結(jié)果。

      然而,個(gè)人偏好,例如對(duì)搜索和視頻內(nèi)容的偏好,仍然包含在個(gè)性化結(jié)果中。

      GWS:搜索的結(jié)尾和開端

      谷歌網(wǎng)絡(luò)服務(wù)器(GWS)負(fù)責(zé)呈現(xiàn)搜索結(jié)果頁(yè)面(SERP),包括 10 個(gè)「藍(lán)色鏈接」,以及廣告、圖片、Google 地圖視圖、「People also ask」和其他元素。

      FreshnessNode、InstantGlue(在 24 小時(shí)內(nèi)反應(yīng),延遲約 10 分鐘)和 InstantNavBoost 等這些組件可以在頁(yè)面顯示前的最后時(shí)刻調(diào)整排名。

      FreshnessNode 可以實(shí)時(shí)監(jiān)測(cè)用戶搜索行為的變化,并根據(jù)這些變化調(diào)整排名,確保搜索結(jié)果與最新的搜索意圖匹配。

      InstantNavBoost 和 InstantGlue 在最終呈現(xiàn)搜索結(jié)果之前,對(duì)排名進(jìn)行最后的調(diào)整,例如根據(jù)突發(fā)新聞和熱門話題調(diào)整排名等。

      因此,要想取得高排名,一個(gè)優(yōu)秀的文檔內(nèi)容還得加上正確的 SEO 措施。

      排名可能會(huì)受到多種因素的影響,包括搜索行為的變化、其他文檔的出現(xiàn)和實(shí)時(shí)信息的更新。因此,必須認(rèn)識(shí)到,擁有高質(zhì)量的內(nèi)容和做好 SEO 只是動(dòng)態(tài)排名格局中的一部分。

      谷歌的 John Mueller 強(qiáng)調(diào),排名下降通常并不意味著內(nèi)容質(zhì)量不佳,用戶行為的變化或其他因素可能會(huì)改變結(jié)果的表現(xiàn)。

      例如,如果用戶開始偏好更簡(jiǎn)短的文本,NavBoost 將自動(dòng)相應(yīng)地調(diào)整排名。然而,Alexandria 系統(tǒng)或 Ascorer 中的 IR 分?jǐn)?shù)是保持不變的。

      這告訴我們,必須在更廣泛的意義上理解 SEO。如果文檔內(nèi)容與用戶搜索意圖不一致,僅僅優(yōu)化標(biāo)題或內(nèi)容是無(wú)效的。

      本文來(lái)自微信公眾號(hào):微信公眾號(hào)(ID:null),作者:新智元

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國(guó)信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。