合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫(huà)像”平臺(tái),加速數(shù)字化轉(zhuǎn)型重慶:力爭(zhēng)今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬(wàn)輛,到 2027 年建成萬(wàn)億級(jí)產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實(shí)況照片了蘋(píng)果有線耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚(yú)相關(guān)搜索量暴漲384%2024 vivo開(kāi)發(fā)者大會(huì)官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來(lái)了,阿里云「通義靈碼」全面進(jìn)化,全流程開(kāi)發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來(lái)了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國(guó)AR/VR出貨23.3萬(wàn)臺(tái),同比下滑了 29.1%IDC:2024 上半年中國(guó) AR / VR 頭顯出貨 23.3 萬(wàn)臺(tái),同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測(cè)屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個(gè)運(yùn)行時(shí)安全解決方案,實(shí)現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購(gòu)物體驗(yàn)全面升級(jí)機(jī)器人公司1X推出世界模型Apple Intelligence測(cè)試版現(xiàn)已開(kāi)放革命性AI對(duì)話系統(tǒng)Moshi問(wèn)世:機(jī)器也能說(shuō)人話了?
  • 首頁(yè) > 云計(jì)算頻道 > 云計(jì)算

    科技云報(bào)道:押注向量數(shù)據(jù)庫(kù),為時(shí)過(guò)早?

    2023年10月07日 15:11:19   來(lái)源:科技云報(bào)道

      在大模型的高調(diào)火熱之下,向量數(shù)據(jù)庫(kù)也獲得了前所未有的關(guān)注。

      近兩個(gè)月內(nèi),向量數(shù)據(jù)庫(kù)迎來(lái)融資潮,Qdrant、Chroma、Weaviate先后獲得融資,Pinecone宣布1億美元B輪融資,估值達(dá)到7.5億美元。

      東北證券預(yù)測(cè),到2030年,全球向量數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模有望達(dá)到500億美元,國(guó)內(nèi)向量數(shù)據(jù)庫(kù)市場(chǎng)規(guī)模有望超600億人民幣。

      但是在這蒸蒸日上的發(fā)展態(tài)勢(shì)下,向量數(shù)據(jù)庫(kù)依然面臨著不可忽視的挑戰(zhàn)。

      有聲音認(rèn)為,不必專門(mén)開(kāi)發(fā)一款純粹的向量數(shù)據(jù)庫(kù),而是可以在現(xiàn)有數(shù)據(jù)庫(kù)的基礎(chǔ)上添加一些層,賦予其向量檢索的能力。更有業(yè)內(nèi)人士認(rèn)為,現(xiàn)在入局向量數(shù)據(jù)庫(kù)可能并非合適的時(shí)機(jī)。

      那么,向量數(shù)據(jù)庫(kù)是否算得上AI時(shí)代的標(biāo)配?其熱度能維持到幾時(shí),此時(shí)押注后續(xù)又要擠出多少泡沫?

      向量數(shù)據(jù)庫(kù) 大模型的“海馬體”

      與傳統(tǒng)數(shù)據(jù)庫(kù)不同,向量數(shù)據(jù)庫(kù)不依賴于結(jié)構(gòu)化格式,而是將數(shù)據(jù)作為數(shù)學(xué)向量存儲(chǔ)在高維空間中并對(duì)其進(jìn)行索引。

      這種方法被稱為“向量化”,可以更有效地搜索相似性并更好地處理復(fù)雜的數(shù)據(jù)類型(圖像、音視頻、自然語(yǔ)言)。

      某種程度上,向量數(shù)據(jù)庫(kù)代表了數(shù)據(jù)存儲(chǔ)和檢索的范式轉(zhuǎn)變。隨著大模型的興起,向量數(shù)據(jù)庫(kù)的優(yōu)勢(shì)得以充分發(fā)揮,甚至有人將其視為AIGC成功的基石。

      一種通俗的比方是,行業(yè)內(nèi)將大模型稱為“大腦”,向量數(shù)據(jù)庫(kù)則是其“海馬體”。

      目前的大模型都是預(yù)訓(xùn)練模型,對(duì)于訓(xùn)練截止日之后發(fā)生的事情一無(wú)所知,第一是沒(méi)有實(shí)時(shí)的數(shù)據(jù),第二是缺乏私域數(shù)據(jù)或者企業(yè)數(shù)據(jù)。

      向量數(shù)據(jù)庫(kù)可以通過(guò)存儲(chǔ)最新信息或者企業(yè)數(shù)據(jù)有效彌補(bǔ)了這些不足,讓大模型突破在時(shí)間和空間上的限制,加速大模型落地行業(yè)場(chǎng)景。

      同時(shí),通過(guò)向量數(shù)據(jù)的本地存儲(chǔ),還能夠協(xié)助解決目前企業(yè)界最擔(dān)憂的大模型泄露隱私的問(wèn)題。

      不過(guò)值得一提的是,向量技術(shù)并不新鮮,早在ChatGPT橫空出世之前,向量數(shù)據(jù)庫(kù)非常小眾。前文提到的兩家初創(chuàng)公司Pinecone和Weaviate都成立于2019年,但此前無(wú)論是融資還是營(yíng)收都是乏善可陳的狀態(tài)。

      Pinecone聯(lián)合創(chuàng)始人兼首席執(zhí)行官Edo Liberty曾坦率地提到,如果沒(méi)有ChatGPT的出現(xiàn),我們根本不可能獲得巨額融資。

      軟件服務(wù)初創(chuàng)公司Heltar的創(chuàng)始人Avyukt Aggarwal也談到,AIGC的爆火成就了向量數(shù)據(jù)庫(kù)。

      “每次淘金熱都會(huì)有人賣鏟子。對(duì)于生成式AI,鏟子是什么?向量數(shù)據(jù)庫(kù)。幾乎每一個(gè)LLM支持的應(yīng)用程序都在使用它們或即將使用它們。”

      向量數(shù)據(jù)庫(kù) 有必要走向?qū)I(yè)化嗎?

      向量數(shù)據(jù)庫(kù)系統(tǒng)的誕生,來(lái)源于具體業(yè)務(wù)需求——想要高效處理海量的向量數(shù)據(jù),就需要更細(xì)分、更專業(yè)的數(shù)據(jù)基礎(chǔ)設(shè)施,為向量構(gòu)建專門(mén)的數(shù)據(jù)庫(kù)處理系統(tǒng)。

      但這種路徑是必須的嗎?

      從產(chǎn)品層面講,如果傳統(tǒng)數(shù)據(jù)庫(kù)廠商不單獨(dú)研發(fā)向量數(shù)據(jù)庫(kù),那么基本上會(huì)主張支持原生的向量詞嵌入和向量搜索引擎。

      向量數(shù)據(jù)庫(kù)市場(chǎng)的陣營(yíng),在ChatGPT影響之前就已經(jīng)在形成分化,既包括提供開(kāi)源組件的Milvus、Vald、Weaviate、Qdrant、Vaspa、Vearch、AquilaDB、Marqo,到商業(yè)化服務(wù)產(chǎn)品Pinecone,再到大廠谷歌推出的Vertex AI匹配引擎,數(shù)據(jù)庫(kù)廠商Elastic和Redis基于自身提供的向量檢索功能等等。

      這其實(shí)也表明了當(dāng)前向量數(shù)據(jù)庫(kù)市場(chǎng)存在的兩種路線:

      一個(gè)是基于分析數(shù)據(jù)庫(kù)的向量化執(zhí)行引擎,英文是Vectorization,這是學(xué)術(shù)界2013年提出的名詞,如Clickhouse、Spark引擎,是一種新型的執(zhí)行方式,用于處理傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)如表單等,更多的是結(jié)構(gòu)化數(shù)據(jù)分析數(shù)據(jù)里面做并行執(zhí)行的一種方式,在新型的處理芯片上進(jìn)行處理。

      另一個(gè)則是推出向量數(shù)據(jù)庫(kù)(Vector Database),本質(zhì)上處理的是AI領(lǐng)域的一類新型數(shù)據(jù)類型,例如對(duì)多模數(shù)據(jù)的處理,相比其他的向量檢索技術(shù)在檢索速度和精準(zhǔn)性上都有了一個(gè)很高的提升。

      后者的做法也基本在幾家主流云廠商如亞馬遜云、阿里云上能夠看到,而這些云平臺(tái)應(yīng)用市場(chǎng)也會(huì)提供給這些第三方向量數(shù)據(jù)庫(kù)企業(yè)進(jìn)行托管。

      例如,阿里云開(kāi)發(fā)的內(nèi)存數(shù)據(jù)庫(kù)Tair,在兼容Redis生態(tài)的同時(shí),也具備向量檢索能力,實(shí)現(xiàn)緩存+向量二合一,已經(jīng)投入在電商等場(chǎng)景。

      有業(yè)內(nèi)人士認(rèn)為,對(duì)于簡(jiǎn)單的用戶和場(chǎng)景來(lái)說(shuō),在傳統(tǒng)數(shù)據(jù)庫(kù)上添加一個(gè)向量分層來(lái)滿足技術(shù)發(fā)展需求,這種方法是可行的。

      然而,考慮到 AI 場(chǎng)景和產(chǎn)業(yè)需求,情況可能有所不同。AI領(lǐng)域的迭代非常快,隨著數(shù)據(jù)量和應(yīng)用場(chǎng)景的增加,傳統(tǒng)數(shù)據(jù)庫(kù)可能不再適用于高要求的計(jì)算密集型場(chǎng)景,向量數(shù)據(jù)庫(kù)可能才是最終的解決方案。

      押注向量數(shù)據(jù)庫(kù) 挑戰(zhàn)頗多

      作為今年以來(lái)的熱門(mén)技術(shù)賽道,向量數(shù)據(jù)庫(kù)已吸引了大量廠商和創(chuàng)業(yè)團(tuán)隊(duì)入場(chǎng),先發(fā)者與后來(lái)者,老牌廠商與新生力量之間的競(jìng)爭(zhēng)正在持續(xù)升溫。

      但值得注意的是,向量數(shù)據(jù)庫(kù)真的值得廠商全力投入嗎?

      在《為什么你不應(yīng)該投資向量數(shù)據(jù)庫(kù)?》一文中,吳英駿表示,現(xiàn)在入局向量數(shù)據(jù)庫(kù)可能并非合適的時(shí)機(jī)。其理由主要集中于以下幾點(diǎn):

      其一,先發(fā)優(yōu)勢(shì)明顯。目前向量化技術(shù)目前已十分成熟,并存在大量開(kāi)源解決方案,在不同的領(lǐng)域也存在不同的向量化方案,潛在用戶可以很容易地在現(xiàn)有市場(chǎng)中找到合適的選擇。

      其二,需求層次不同。如果一家公司已經(jīng)采用了Elastic,Redis,SingleStore或Rockset等商業(yè)數(shù)據(jù)庫(kù),并且不需要高度先進(jìn)的向量搜索功能,則可以充分利用這些數(shù)據(jù)庫(kù)的現(xiàn)有功能。

      盡管在向量數(shù)據(jù)處理方面的表現(xiàn)不如專業(yè)的向量數(shù)據(jù)庫(kù),但依然可以滿足多數(shù)用戶的一般要求。

      其三,技術(shù)在不斷前進(jìn)。隨著數(shù)據(jù)庫(kù)領(lǐng)域技術(shù)的進(jìn)步,越來(lái)越多的數(shù)據(jù)庫(kù)會(huì)考慮納入向量搜索功能,以滿足當(dāng)前用戶群的需求。對(duì)于目前缺乏向量搜索功能的數(shù)據(jù)庫(kù),實(shí)現(xiàn)這些功能或許只是時(shí)間問(wèn)題。

      也有聲音認(rèn)為,相較于大模型的高調(diào)火熱,向量數(shù)據(jù)庫(kù)仍然靠近底層,并沒(méi)有達(dá)到真正意義上的全民皆知,向量數(shù)據(jù)庫(kù)更多時(shí)候是需要集成到其他平臺(tái)或云上被銷售。

      而從需求端看,過(guò)去向量檢索還主要聚焦于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域,通過(guò)高效的數(shù)據(jù)存儲(chǔ)和查詢工具,使得相似性搜索和聚類分析成為可能。

      在推薦系統(tǒng)中,向量數(shù)據(jù)庫(kù)助力個(gè)性化推薦,根據(jù)用戶興趣和商品相似性,呈現(xiàn)給用戶最貼切的推薦結(jié)果。

      簡(jiǎn)言之,“與其投資新的向量數(shù)據(jù)庫(kù)項(xiàng)目,不如集中精力于現(xiàn)有數(shù)據(jù)庫(kù),并探索利用向量引擎增強(qiáng)這些數(shù)據(jù)庫(kù)的機(jī)會(huì),使其更加健壯和強(qiáng)大”。

      結(jié)語(yǔ)

      無(wú)論如何,在技術(shù)的快速迭代下,數(shù)據(jù)庫(kù)市場(chǎng)的持續(xù)擴(kuò)張是不可避免的。當(dāng)前存在著大量的需求,將吸引越來(lái)越多的數(shù)據(jù)庫(kù)甚至向量數(shù)據(jù)庫(kù)加入競(jìng)爭(zhēng)。

      不過(guò)從長(zhǎng)遠(yuǎn)來(lái)看,向量數(shù)據(jù)庫(kù)的市場(chǎng)需求尚處于初期,中遠(yuǎn)期規(guī)模尚難以預(yù)估。在若干輪優(yōu)勝劣汰之后,我們或許才能看清誰(shuí)是真正的執(zhí)棋者。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無(wú)人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開(kāi)幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛(ài)普生4K 3LCD 激光工程投影

    2024年3月12日,由愛(ài)普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

    研究

    2024全球開(kāi)發(fā)者先鋒大會(huì)即將開(kāi)幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開(kāi)放原子開(kāi)源基金會(huì)主辦的“2024全球開(kāi)發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。