合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實(shí)況照片了蘋果有線耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進(jìn)化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個(gè)運(yùn)行時(shí)安全解決方案,實(shí)現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗(yàn)全面升級機(jī)器人公司1X推出世界模型Apple Intelligence測試版現(xiàn)已開放革命性AI對話系統(tǒng)Moshi問世:機(jī)器也能說人話了?
  • 首頁 > 企業(yè)IT頻道 > 數(shù)字化

    星環(huán)科技向量數(shù)據(jù)庫Transwarp Hippo1.1發(fā)布:一庫搞定向量+全文聯(lián)合檢索,提升大模型準(zhǔn)確率!

    2023年10月17日 15:18:46   來源:中文科技資訊

      星環(huán)科技向量數(shù)據(jù)庫Transwarp Hippo自發(fā)布已來,受到了眾多用戶的歡迎,幫助用戶實(shí)現(xiàn)向量數(shù)據(jù)的存儲、管理和檢索,探索和實(shí)踐大模型場景。在與用戶不斷地深入交流以及實(shí)踐中,Hippo迎來了V1.1版本,一套系統(tǒng)即可支持向量與全文聯(lián)合檢索,提高文本數(shù)據(jù)的召回精度,從而提升大語言模型應(yīng)用的準(zhǔn)確率。同時(shí),Hippo1.1新增余弦距離、批量數(shù)據(jù)導(dǎo)入導(dǎo)出、Explain與Profile支持、ARM架構(gòu)支持等能力,大幅降低用戶使用門檻和成本。

      此外,Hippo社區(qū)版同樣支持以上新特性,點(diǎn)擊文末閱讀原文或者訪問星環(huán)科技官網(wǎng),即可申請下載體驗(yàn),開啟大語言模型場景探索之旅。

      一庫搞定向量+全文聯(lián)合檢索,提升大模型準(zhǔn)確率

      在大語言模型應(yīng)用中,向量數(shù)據(jù)庫作為中間載體,可以有效地解決大模型在知識時(shí)效性低、輸入能力有限、準(zhǔn)確度低等問題,賦予大模型擁有“長期記憶”。因此,向量數(shù)據(jù)庫的召回精度直接影響大模型輸出結(jié)果的準(zhǔn)確率。然而,在一些實(shí)踐場景中,對于向量數(shù)據(jù)庫本身而言,單一使用向量檢索會產(chǎn)生召回準(zhǔn)確率不高的問題:

      * 對噪聲和冗余信息敏感:若向量數(shù)據(jù)庫中存在大量的噪聲和冗余信息,則檢索的準(zhǔn)確率會降低;

      * 對特征選擇的依賴:在向量檢索中,需要對數(shù)據(jù)進(jìn)行特征提取和選擇,若特征選擇不當(dāng),則會影響檢索的準(zhǔn)確性;

      * 對查詢語義理解的局限性:當(dāng)查詢語義比較復(fù)雜或模糊時(shí),向量檢索無法準(zhǔn)確理解用戶的意圖,導(dǎo)致準(zhǔn)確率降低;

      此外,像一些特殊情況,如所檢索內(nèi)容未構(gòu)建特征或特征比重較小時(shí),會導(dǎo)致準(zhǔn)確率降低,甚至無召回結(jié)果。

      針對文本搜索場景,全文檢索更適合做關(guān)鍵字匹配,可以避免檢索內(nèi)容低頻的問題。而向量檢索則能找出字面上不同但語義上相近的內(nèi)容。通過將向量檢索和全文檢索的聯(lián)合召回,可以降低漏檢和誤檢的概率,能夠?qū)崿F(xiàn)比單獨(dú)使用向量或全文檢索更高的精度。

      此外,向量數(shù)據(jù)與全文數(shù)據(jù)在存儲、計(jì)算上有很大的差別,單一的數(shù)據(jù)庫架構(gòu)很難同時(shí)高效支持這兩種場景。例如,對于公開數(shù)據(jù)集如ANN Benchmark,Elasticsearch的性能遠(yuǎn)落后于專業(yè)的向量數(shù)據(jù)庫。

      星環(huán)科技向量數(shù)據(jù)庫Hippo底層使用自研的分布式數(shù)據(jù)管理系統(tǒng)TDDMS,能夠支持向量數(shù)據(jù)和全文數(shù)據(jù)統(tǒng)一存儲管理,一套數(shù)據(jù)庫系統(tǒng)即可支持向量與全文數(shù)據(jù)聯(lián)合檢索召回,避免了部署多套系統(tǒng)帶來的架構(gòu)復(fù)雜、開發(fā)運(yùn)維成本高等問題。同時(shí),Hippo1.1提供兼容Elasticsearch協(xié)議的SDK支持,方便用戶更便捷地使用向量數(shù)據(jù)庫。

    11.png

      例如,當(dāng)查詢“A公司業(yè)務(wù)發(fā)展情況”時(shí),通過向量檢索可以檢索出A公司“主要業(yè)務(wù)”、“經(jīng)營模式”、“財(cái)務(wù)情況”、“市場地位”等信息,通過全文檢索可以檢索出知識庫中和關(guān)鍵字“業(yè)務(wù)”、“發(fā)展”相關(guān)的結(jié)果作為補(bǔ)充,通過將兩者檢索的結(jié)果進(jìn)行結(jié)合,可以使得大模型回答的結(jié)果更加豐滿和準(zhǔn)確。

      當(dāng)查詢“A公司產(chǎn)品經(jīng)理B的履歷”時(shí),若該產(chǎn)品經(jīng)理B在知識庫中出現(xiàn)的頻率較低或未構(gòu)建特征時(shí),單一使用向量檢索召回的結(jié)果可能主要是A公司介紹,而通過全文檢索則會檢索出產(chǎn)品經(jīng)理B相關(guān)的內(nèi)容,通過向量+全文的聯(lián)合檢索召回,使得大模型能夠準(zhǔn)確地給出答案。

    222.png

      多個(gè)新特性升級,幫助用戶實(shí)現(xiàn)降本增效

      1、余弦距離支持,簡化業(yè)務(wù)邏輯

      余弦距離在大模型領(lǐng)域有著廣泛的應(yīng)用。在過去,用戶在將向量數(shù)據(jù)導(dǎo)入向量數(shù)據(jù)庫之前,需要對數(shù)據(jù)庫做L2歸一化,并搭配內(nèi)積距離間接實(shí)現(xiàn)余弦距離,這個(gè)過程較為復(fù)雜,需要用戶手工操作,并要求有一定的技術(shù)基礎(chǔ)。Hippo1.1新增原生的余弦距離支持,用戶不再需要通過向量歸一化計(jì)算 IP metrics 來使用余弦距離,大幅簡化了業(yè)務(wù)邏輯,降低了用戶使用門檻。

      2、批量數(shù)據(jù)導(dǎo)入導(dǎo)出,加速數(shù)據(jù)流轉(zhuǎn)

      Hippo1.1新增基于csv格式的批量數(shù)據(jù)導(dǎo)入導(dǎo)出功能,方便用戶進(jìn)行數(shù)據(jù)流轉(zhuǎn)。此外,用戶還可以通過Python、Restful等API進(jìn)行數(shù)據(jù)操作。

      3、支持ARM架構(gòu),滿足國產(chǎn)化需求

      隨著 ARM架構(gòu) CPU 的普及程度越來越高,Hippo1.1在支持X86架構(gòu)的基礎(chǔ)上,新增支持ARM架構(gòu),滿足企業(yè)用戶國產(chǎn)化需求。

      4、支持Explain與Profile,高效性能優(yōu)化

      當(dāng)執(zhí)行帶過濾條件的向量檢索時(shí),Hippo會根據(jù)過濾條件預(yù)估過濾率,選擇最優(yōu)的搜索路徑。通過Explain接口,用戶可以準(zhǔn)確地看到檢索的具體執(zhí)行路徑,通過Profile接口,用戶可以看到⼀次搜索中各階段的細(xì)分耗時(shí)情況;谶@兩點(diǎn)特性,用戶可以更高效地進(jìn)行數(shù)據(jù)庫調(diào)試、問題排查和性能優(yōu)化。

    333.png

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    [No. H002]
    分享到微信

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費(fèi)品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎”金獎,有力證明了其在全球市場的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎

    近日,中國家電及消費(fèi)電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。