鴻蒙智行泊車代駕VPD正式開啟全量推送!升級(jí)自動(dòng)泊車/接駕等多項(xiàng)功能華為官方翻新手機(jī)最高降價(jià)4000元曝蘋果研發(fā)帶Face ID的智能家居門鈴:內(nèi)置自研W-Fi芯片李斌回應(yīng)螢火蟲外觀設(shè)計(jì):看過實(shí)車的人都喜歡這個(gè)設(shè)計(jì)林杰:未來 A 級(jí)、A0 級(jí)、A00 級(jí)車型都將是領(lǐng)克純電的“主場(chǎng)”豐巢存包柜亮相南寧地鐵站,助力城市韌性建設(shè)與智慧出行萬象分區(qū)、絢彩XDR、量子點(diǎn)Pro 2025齊出手,TCL引領(lǐng)觀影體驗(yàn)新變革!QQ音樂年度聽歌報(bào)告發(fā)布:誰是你最喜歡的歌手?OpenAI正式發(fā)布o(jì)3 - 通往AGI的路上,已經(jīng)沒有了任何阻礙「送禮物」難撬動(dòng)社交電商,微信小店缺的是供給微軟Phi-4封神,14B小模型數(shù)學(xué)擊敗GPT-4o,合成數(shù)據(jù)占比40%,36頁技術(shù)報(bào)告出爐2024年結(jié)束,哪里是原創(chuàng)動(dòng)畫的應(yīng)許之地?深扒一個(gè)正被游戲行業(yè)「搶占」的流量帝國百思買重新進(jìn)軍跨境電商領(lǐng)域視頻生成大模型賽道,只是看上去擁擠GGII:預(yù)計(jì)2024年中國工業(yè)機(jī)器人全年銷量約30萬臺(tái),同比下滑5%左右冰雪大世界盛大開園,美的空調(diào)橫跨50℃打造“東北夏威夷”臺(tái)灣小土豆勇闖冰雪大世界,美的空調(diào)真暖快車成為最熱打卡點(diǎn)京東iPhone 16系列年底大放價(jià)!至高補(bǔ)貼1200元價(jià)格低過11.11新一季圓滿假期結(jié)伴大使出發(fā)在即 LG電子十年相伴助力溫暖傳遞
  • 首頁 > 云計(jì)算頻道 > 大模型

    跨語言檢索、檢索增強(qiáng)生成……一文看懂最火大模型AI搜索技術(shù)

    2023年11月29日 17:45:22

      引言:2023年,大模型技術(shù)迎來顛覆性突破,新興AI應(yīng)用不斷涌現(xiàn),重塑著人類、機(jī)器與智能的關(guān)系。一場(chǎng)人工智能風(fēng)暴,席卷世界。為此,昆侖萬維天工團(tuán)隊(duì)重磅推出「天工一刻」系列內(nèi)容,對(duì)大模型上下游技術(shù)進(jìn)行一次全面解讀,涵蓋學(xué)術(shù)熱點(diǎn)、技術(shù)創(chuàng)新、應(yīng)用案例等。希望我們的內(nèi)容能為所有關(guān)注大模型技術(shù)的讀者,提供一些借鑒與參考。

      問:把大模型放進(jìn)AI搜索里,要做哪幾步?

      答:搜索里的每一步。

      對(duì)于廣大用戶而言,大模型的能力最直觀體現(xiàn)在答案生成上。用戶向“天工”AI搜索提問后,大模型將直接結(jié)合搜索內(nèi)容生成答案,無需用戶在紛繁冗雜的鏈接集合中親自尋找。

      但事實(shí)上,大模型在“天工”AI搜索里發(fā)揮的作用,可遠(yuǎn)不僅僅在此。

      數(shù)據(jù)搜集、索引建立、檢索算法設(shè)計(jì)、排序算法設(shè)計(jì)、向量數(shù)據(jù)庫、檢索增強(qiáng)生成、搜索結(jié)果生成……大模型的能力貫穿了“天工”AI搜索的幾乎每一個(gè)環(huán)節(jié)。

      對(duì)于用戶而言,大模型加持的新一代搜索引擎,能夠讓搜索結(jié)果更精準(zhǔn)、更高效、更可信;

      而對(duì)于搜索引擎的設(shè)計(jì)者而言,大模型加持,能讓開發(fā)人員投入更少的重復(fù)工作、更快的開發(fā)速度、得到更好的搜索效果。

      本文將從以下方向介紹與AI搜索引擎相關(guān)的大模型技術(shù):

      1.為什么搜索引擎這么難做?

      2.搜索三大環(huán)節(jié):數(shù)據(jù)、檢索、匹配

      3.大模型AI搜索關(guān)鍵技術(shù)有哪些?

      01 搜索引擎的歷史和萬維網(wǎng)一樣長

      很少人知道,搜索引擎的歷史,和萬維網(wǎng)(www)一樣長。

      1990年,萬維網(wǎng)之父蒂姆·伯納斯-李(Tim Berners-Lee)剛剛將WorldWideWeb瀏覽器和Web服務(wù)器的源代碼發(fā)布到了互聯(lián)網(wǎng)上,HTTP協(xié)議還要數(shù)年之后才會(huì)出現(xiàn)。

      當(dāng)時(shí),F(xiàn)TP(文件傳輸協(xié)議)仍是網(wǎng)絡(luò)文件共享的主要工具。但不同的FTP文件零星儲(chǔ)存在互聯(lián)網(wǎng)的各個(gè)角落,沒有具體的文件地址就無法訪問。

      為了解決這個(gè)問題,三名加拿大蒙特利爾的大學(xué)生聚在一起,發(fā)明了一款用于FTP文件資源檢索的工具——Archie。使用Archie,用戶只需要知道文件名稱,就能夠查詢文件所在FTP地址。

      這三名年輕人沒有意識(shí)到,他們隨手的一個(gè)舉動(dòng),竟揭開了互聯(lián)網(wǎng)歷史上全新的一頁——搜索引擎。

      自此,全球第一款互聯(lián)網(wǎng)搜索引擎誕生,互聯(lián)網(wǎng)搜索概念迎來大爆發(fā)。

      3年后,世界上第一個(gè)互聯(lián)網(wǎng)互聯(lián)網(wǎng)爬蟲程序誕生;

      4年后,世界上第一個(gè)既可搜索又可瀏覽的分類目錄誕生、基于網(wǎng)站索引的門戶網(wǎng)站雅虎誕生、日后名噪一時(shí)的 Infoseek搜索引擎誕生;

      此后,全球搜索引擎層出不窮;

      8年之后,谷歌誕生。

      從1990年至今,三十多年間,搜索技術(shù)已經(jīng)逐漸滲透到了我們電子生活的方方面面。除了傳統(tǒng)意義的搜索引擎外,社交軟件、電商平臺(tái)、視頻APP、職場(chǎng)APP、甚至外賣APP中,搜索技術(shù)都扮演著重要的角色。

      02 238萬億億粒沙子

      設(shè)計(jì)一個(gè)搜索引擎,大致需要以下步驟:收集及處理數(shù)據(jù)、建立索引、設(shè)計(jì)檢索算法、信息匹配與排序、返回結(jié)果并呈現(xiàn)搜索答案。

      這些環(huán)節(jié)又可以大致分為三步:數(shù)據(jù)、檢索、匹配。

      第一步,把互聯(lián)網(wǎng)上海量的數(shù)據(jù)(如網(wǎng)頁、文檔、內(nèi)容等)收集起來,并對(duì)它們進(jìn)行初步的處理。

      第二步,給每個(gè)數(shù)據(jù)打上合適的“標(biāo)簽”,再分門別類地儲(chǔ)存到數(shù)據(jù)庫里,并設(shè)計(jì)一套精妙的檢索方案,讓自己隨時(shí)能夠找到合適的數(shù)據(jù)。

      第三步,收到用戶發(fā)出的搜索指令后,對(duì)該指令進(jìn)行拆解分析、提取核心信息,然后把與這一指令有關(guān)的眾多數(shù)據(jù)按照相關(guān)性進(jìn)行排序,最終匹配呈現(xiàn)最佳答案。

      聽上去似乎不難,但如果你考慮到全球范圍內(nèi)究竟有多少數(shù)據(jù),這事就遠(yuǎn)不簡單了。

      根據(jù)IDC Global DataSphere 2023數(shù)據(jù),2022年,全球范圍內(nèi)的數(shù)據(jù)總量達(dá)到了103.66ZB,其中中國數(shù)據(jù)總量達(dá)到了23.88ZB,年均增長速度高達(dá)26.3%。

      如果你對(duì)這幾個(gè)天文數(shù)字沒什么概念的話,打個(gè)比方:1ZB數(shù)據(jù)是10萬億億字節(jié),而整個(gè)地球上所有沙子加起來,大概也就56萬億億粒。

      也就是說,2022年,全中國的數(shù)據(jù)總量超過了238萬億億字節(jié)——比四個(gè)地球的沙子加起來還多。

      在四個(gè)地球的沙子里,找到一粒符合要求的沙子,難度可想而知。

      03 把大模型裝進(jìn)AI搜索里

      自1990年至今的三十多年間,搜索技術(shù)經(jīng)歷了多番迭代升級(jí),逐漸變成了一個(gè)復(fù)雜的系統(tǒng)性工程——涵蓋數(shù)據(jù)庫、索引、檢索、自然語言處理、甚至計(jì)算機(jī)視覺等諸多交叉學(xué)科。

      近年間,預(yù)訓(xùn)練Transformer模型橫空出世,在人工智能領(lǐng)域掀起革命,此后,以GPT為代表的大語言模型(LLM, Large Language Model)席卷全球,沖擊著各行各業(yè)。

      搜索也不例外。

      大模型對(duì)于搜索技術(shù)的重塑,貫穿每一個(gè)環(huán)節(jié)。

      首先是數(shù)據(jù)。在搜索技術(shù)的諸多環(huán)節(jié)之中,數(shù)據(jù)的收集與處理是被討論得最少的環(huán)節(jié),卻也是最重要的環(huán)節(jié)之一。

      數(shù)據(jù)收集處理之于搜索引擎,相當(dāng)于地基之于摩天大樓。

      沒有數(shù)據(jù)的積累,再好的檢索算法也是巧婦難為無米之炊。然而,數(shù)據(jù)質(zhì)量也分優(yōu)良中差。

      上文提到,2022年,全中國的數(shù)據(jù)總量超過了238萬億億字節(jié),這其中包含的可能是千億級(jí)別的網(wǎng)頁內(nèi)容、百億級(jí)別的音視頻內(nèi)容。

      這其中,又充斥著海量重復(fù)信息、虛假新聞、廣告內(nèi)容……傳統(tǒng)的搜索引擎需要大量的資源對(duì)這些信息進(jìn)行初步的篩選與處理,但耗時(shí)長、效率低、成本高。

      而在昆侖萬維“天工”AI搜索的設(shè)計(jì)之初,就在數(shù)據(jù)收集與索引環(huán)節(jié)引入了大模型技術(shù),對(duì)互聯(lián)網(wǎng)上海量內(nèi)容進(jìn)行識(shí)別和篩選,屏蔽虛假廣告內(nèi)容,再引入網(wǎng)站權(quán)威性、可靠性等其他影響因子,初步清洗出較為純凈、高質(zhì)量的搜索結(jié)果。

      目前,昆侖萬維“天工”AI搜索團(tuán)隊(duì)已經(jīng)累計(jì)索引了上百億優(yōu)質(zhì)數(shù)據(jù)資源,用戶使用天工AI搜索時(shí),將會(huì)顯著地體會(huì)到搜索結(jié)果質(zhì)量更高,冗余信息更少。但是,這還不夠。

      根據(jù)W3Techs數(shù)據(jù),截止至2020年,全球前100萬網(wǎng)頁中,英文網(wǎng)站內(nèi)容占比59.3%,中文網(wǎng)站內(nèi)容占比僅為1.3%。在當(dāng)前全球信息版圖中,英文信息數(shù)量幾乎是中文的45倍。即便拋開中文APP的信息孤島因素,全網(wǎng)英文信息數(shù)量至少也是中文的10倍以上。特別是在人工智能、生物醫(yī)學(xué)等前沿科技領(lǐng)域,最新、最快、最“硬核”的內(nèi)容幾乎全部來自英文網(wǎng)站。

      這個(gè)問題,大模型能解決嗎?

      能。

      為了解決這一問題,昆侖萬維“天工”AI搜索團(tuán)隊(duì)在搜索引擎中引入了當(dāng)今最前沿的跨語言檢索技術(shù)(Cross-Language Information Retrieval,CLIR)。

      利用大模型的跨語言理解能力,跨語言檢索技術(shù)能夠讓用戶在使用一種語言(如中文)查詢時(shí),搜索引擎依然能在全球范圍內(nèi),深入英文知識(shí)庫和學(xué)術(shù)文獻(xiàn)進(jìn)行檢索,并將有用的信息翻譯整合,最終生成全面、安全、準(zhǔn)確的中文回答。

      有了大模型技術(shù)“加持”,即便用戶只用中文進(jìn)行查詢,天工AI搜索也能提供來自全球的最新信息,大大擴(kuò)展了答案的知識(shí)邊界。

      除此之外,理解用戶搜索指令(Query)也是大模型技術(shù)發(fā)揮作用的環(huán)節(jié)。如果把搜索比作下館子,數(shù)據(jù)處理是廚師買菜洗菜,理解用戶指令是看懂用戶“點(diǎn)的菜”,檢索和答案呈現(xiàn)就是炒菜和上菜。你以為用戶在點(diǎn)菜的時(shí)候會(huì)說“給我來盤宮保雞丁”,但實(shí)際上,用戶說的往往是“今天想吃個(gè)糊辣口的東西,最好有雞肉,要川派做法,不要京派的。最好帶點(diǎn)甜,不甜也沒關(guān)系。”沒想到吧?讀懂用戶指令也是個(gè)大難題。

      因此,昆侖萬維“天工”AI搜索團(tuán)隊(duì)在用戶搜索指令理解環(huán)節(jié)就加入了大模型技術(shù),對(duì)用戶搜索指令做Query改寫,深入挖掘用戶真實(shí)意圖,并敏銳地捕捉到查詢語句中的上下文關(guān)系,從而得到更精確、更相關(guān)、更合心意的搜索結(jié)果。

      而在檢索與匹配環(huán)節(jié)中,大模型可發(fā)揮的用處則更多。在搜索引擎的設(shè)計(jì)中,最核心的兩項(xiàng)技術(shù)是“召回(Match)”和“排序(Rank)”。

      召回指的是從數(shù)據(jù)庫的全量信息集合中觸發(fā)盡可能多的正確結(jié)果,并將結(jié)果返回。排序又分為“粗排”和“精排”,指的是根據(jù)用戶搜索內(nèi)容的相關(guān)性,對(duì)召回結(jié)果進(jìn)行排序。在召回與排序環(huán)節(jié)里,“相關(guān)性”是最重要的目標(biāo)之一。

      傳統(tǒng)搜索引擎花了海量的資源投入在“人工相關(guān)性”中,需要大量人力資源去充分理解用戶搜索指令跟目標(biāo)內(nèi)容之間相匹配的特征、頻次、距離、長短等等,幾乎每個(gè)抽象算子都需要有專人去做人工分析,實(shí)時(shí)調(diào)校算法參數(shù)。面對(duì)海量的互聯(lián)網(wǎng)信息,這種做法必然難度大、成本高、耗時(shí)長、效率低。大模型在此時(shí)發(fā)揮了它的作用。

      昆侖萬維“天工”AI搜索的召回與排序環(huán)節(jié)中,大量引入了大模型能力。訓(xùn)練好的大模型能夠模仿人類的識(shí)別判斷能力,判斷搜索指令(Query)和被搜索文檔(Doc)是否具有相關(guān)性,并將這些匹配好的相關(guān)性樣本當(dāng)作“教科書案例”讓搜索引擎學(xué)習(xí),進(jìn)而提升搜索引擎的召回、排序性能,并且實(shí)現(xiàn)模型側(cè)的端對(duì)端迭代。

      除了效率更高、耗時(shí)更短外,更重要的是,由于人類存在個(gè)體差異、認(rèn)知差異、判斷差異,即便是同一個(gè)人在不同時(shí)刻的評(píng)估結(jié)果都會(huì)有所不同。相較于人工評(píng)估,大模型能夠提供更加穩(wěn)定的輸出結(jié)果。除了上述對(duì)搜索技術(shù)的重塑、優(yōu)化、改良外,但在更前沿的科研領(lǐng)域,大模型還在顛覆著搜索引擎的核心架構(gòu)。

      比如,在昆侖萬維“天工”AI搜索中,引入了當(dāng)前大模型學(xué)術(shù)界、產(chǎn)業(yè)界最火的研究方向之一——檢索增強(qiáng)生成(RAG)技術(shù)。

      RAG將信息檢索與答案生成這兩個(gè)環(huán)節(jié)結(jié)合在了一起,其技術(shù)路徑可以簡化理解為:用戶提問——在數(shù)據(jù)庫中檢索相關(guān)答案——系統(tǒng)將用戶的提問及檢索出的相關(guān)答案一起合成Prompt——將Prompt提交給大模型——大模型返回提問結(jié)果。

      (RAG技術(shù)原理圖,來自論文《Retrieval-Augmented Generation for Knowledge-intensive NLP Tasks》)

      引入了檢索環(huán)節(jié),RAG技術(shù)能夠顯著提高搜索答案質(zhì)量,還能為答案輸出提供可解釋性,一定程度避免了大模型“胡說八道”的傾向。尤其是在面對(duì)復(fù)雜的、需要深度理解的知識(shí)檢索場(chǎng)景時(shí),RAG技術(shù)的效果非常優(yōu)秀,在準(zhǔn)確率、召回率等關(guān)鍵指標(biāo)上都超越了不少傳統(tǒng)檢索方法。

      結(jié)語

      在海量信息面前,人類對(duì)于信息精準(zhǔn)匹配的需求日益強(qiáng)烈。搜索,變得越來越重要。

      與此同時(shí),搜索的形態(tài),也在悄然發(fā)生改變。

      大模型時(shí)代,隨著各類“GPT”的不斷涌現(xiàn),信息檢索和生成的界限日趨模糊。2023年2月,微軟發(fā)布集成ChatGPT的AI搜索引擎New Bing,2023年5月,谷歌推出試驗(yàn)版AI搜索引擎Search Generative Experience,2023年8月,昆侖萬維推出國內(nèi)第一款大模型搜索引擎天工AI搜索,越來越多的融合與變革正在發(fā)生。

      在搜索引擎誕生的三十余年里,搜索技術(shù)曾不止一次地來到技術(shù)創(chuàng)新的奇點(diǎn)時(shí)刻,陳舊的體驗(yàn)被顛覆,用戶認(rèn)知被重塑。大模型不是搜索引擎的第一次革命,也不會(huì)是最后一次。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。