隨著企業(yè)、機構(gòu)中非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用的日益增多以及AI的爆發(fā)式增長所帶來的大量生成式數(shù)據(jù),所涉及的數(shù)據(jù)呈現(xiàn)了體量大、格式和存儲方式多樣、處理速度要求高、潛在價值大等特點。但傳統(tǒng)數(shù)據(jù)平臺對這些數(shù)據(jù)的處理能力較為有限,如使用文件系統(tǒng)、多類不同數(shù)據(jù)庫存儲上述數(shù)據(jù),在數(shù)據(jù)存儲管理、查詢分析效率、數(shù)據(jù)價值挖掘等方面都存在一定的瓶頸,例如傳統(tǒng)數(shù)據(jù)庫查詢是點查和范圍查的一種精確查詢,無法滿足大模型下如智能問答、智能推薦等場景。
因此,企業(yè)急需一款或數(shù)款管理好非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)管理平臺。業(yè)內(nèi)常用的做法,是利用人工智能中的表示學(xué)習(xí),將這些非結(jié)構(gòu)化數(shù)據(jù)抽象、轉(zhuǎn)換為高維度的多維向量,由此可以結(jié)構(gòu)化地在向量數(shù)據(jù)庫中進(jìn)行管理,實現(xiàn)快速、高效的數(shù)據(jù)存儲和檢索過程,結(jié)合相似性檢索特性,進(jìn)而更高效地支撐更廣泛的應(yīng)用場景,比如智能推薦場景等。同時,隨著大語言模型應(yīng)用中對長文本處理和領(lǐng)域知識表示使用的深入,對向量數(shù)據(jù)庫的需求也日益迫切。
近日,在向星力•未來數(shù)據(jù)技術(shù)峰會上,星環(huán)科技正式發(fā)布了分布式向量數(shù)據(jù)庫Transwarp Hippo。作為一款企業(yè)級云原生分布式向量數(shù)據(jù)庫,星環(huán)分布式向量數(shù)據(jù)庫Hippo支持存儲、索引以及管理海量的向量式數(shù)據(jù)集,提供向量相似度檢索、高密度向量聚類等能力,有效地解決了大模型在知識時效性低、輸入能力有限、準(zhǔn)確度低等問題,讓大模型更高效率地存儲和讀取知識庫,降低訓(xùn)練和推理成本,激發(fā)更多的AI應(yīng)用場景。在賦予大模型擁有“長期記憶”的同時,還可以協(xié)助企業(yè)解決目前最擔(dān)憂的大模型數(shù)據(jù)隱私泄露問題。
大模型的快速應(yīng)用,推動向量數(shù)據(jù)庫向高擴展、高性能、實時性方向發(fā)展
大模型正在與企業(yè)應(yīng)用迅速結(jié)合,重塑企業(yè)應(yīng)用中人與數(shù)據(jù)的交互方式。然而,不管是通用模型,還是微調(diào)出來的行業(yè)模型,都存在著一定的局限性:
實時性難題:模型訓(xùn)練需要很長的時間,可能需要半年或一年,實時資訊、新聞、市場行情等快速變化的信息,無法及時地內(nèi)置到模型當(dāng)中。
長Token難題:大模型的輸入Token(文本中的最小單位)能力受到算力和工程化程度的限制。在這種限制下,例如無法將一家上市公司的全部年報數(shù)據(jù)輸入進(jìn)大模型,導(dǎo)致不能進(jìn)行全面的分析。
精度校正難題:大模型雖然經(jīng)過大量數(shù)據(jù)的長期訓(xùn)練,但很多場景下精準(zhǔn)度還是不夠,需要補充知識庫進(jìn)行校正,讓其能夠給出更準(zhǔn)確的結(jié)果和更實時的信息。
目前,大模型訓(xùn)練所使用的數(shù)據(jù)包含了如文檔、圖片、音視頻等各種類型的非結(jié)構(gòu)化數(shù)據(jù)。用戶可以通過表示學(xué)習(xí)的預(yù)處理方式將這些數(shù)據(jù)轉(zhuǎn)化為多維向量,并存儲在向量數(shù)據(jù)庫中,從而可以很好地解決上述三個問題。比如,在應(yīng)用端與大模型進(jìn)行交互時,將輸入的文字、圖片等問題信息進(jìn)行向量化,先進(jìn)行語義搜索,找到相關(guān)的信息,將其拼接成提示詞傳遞給大模型,大模型通過計算分析后反饋結(jié)果。
星環(huán)科技創(chuàng)始人、CEO孫元浩表示,“向量數(shù)據(jù)庫承擔(dān)了中間存儲的角色,我們認(rèn)為向量數(shù)據(jù)庫就是大語言模型的海馬體,是一個記憶體。其基本功能是能夠存儲多維向量,并提供進(jìn)一步的檢索。”
向量數(shù)據(jù)庫早先被用于文本搜索或者語義搜索,過去不少公司用來做個性化推薦、構(gòu)建知識圖譜等。隨著大模型的興起,向量數(shù)據(jù)庫可以讓大模型更高效率地存儲和讀取知識庫,并以更低的成本進(jìn)行模型微調(diào),進(jìn)一步地激發(fā)AI應(yīng)用場景。此外,幾千、上萬種應(yīng)用帶來海量的數(shù)據(jù),需要一個高擴展的向量數(shù)據(jù)庫來存放更多的數(shù)據(jù)信息。而向量數(shù)據(jù)復(fù)雜度的提升,模型推理速度的加快等也要求能夠提供高性能的檢索能力。實時動態(tài)變化的數(shù)據(jù),對向量數(shù)據(jù)庫的實時寫入、實時更新、實現(xiàn)召回能力的要求變高,通過將實時資訊、實時新聞、市場行情等快速變化的信息及時地內(nèi)置到模型中,使其能夠提供更實時、更精準(zhǔn)的結(jié)果。
星環(huán)科技分布式向量數(shù)據(jù)庫Transwarp Hippo
星環(huán)分布式向量數(shù)據(jù)庫Hippo作為一款企業(yè)級云原生分布式向量數(shù)據(jù)庫,基于分布式特性,可以對文檔、圖片、音視頻等多源、海量數(shù)據(jù)轉(zhuǎn)化后的多維向量進(jìn)行統(tǒng)一存儲和管理。通過多進(jìn)程架構(gòu)與GPU加速技術(shù),充分發(fā)揮并行檢索能力,實現(xiàn)毫秒級高性能數(shù)據(jù)檢索,結(jié)合相似度檢索等技術(shù),幫助用戶快速挖掘數(shù)據(jù)價值。
與開源的向量數(shù)據(jù)庫不同,星環(huán)分布式向量數(shù)據(jù)庫Hippo具備高可用、高性能、易拓展等特點,支持多種向量搜索索引,支持?jǐn)?shù)據(jù)分區(qū)分片、數(shù)據(jù)持久化、增量數(shù)據(jù)攝取、向量標(biāo)量字段過濾混合查詢等功能,很好地滿足了企業(yè)針對海量向量數(shù)據(jù)的高實時性檢索等場景。
* 云原生技術(shù),支持彈性擴縮容
星環(huán)分布式向量數(shù)據(jù)庫Hippo采用全面容器化部署,支持服務(wù)的彈性擴縮容,同時具備多租戶和強大的資源管控能力。
* 高擴展性,海量向量數(shù)據(jù)存儲
與直接利用各類算法lib不同,星環(huán)Hippo存儲和計算都可以充分利用分布式特性,按需靈活擴展,滿足大規(guī)模集群部署需求;通過Raft算法確保數(shù)據(jù)的強一致性;并提供故障遷移,數(shù)據(jù)修復(fù)等數(shù)據(jù)保障能力。
* 深度優(yōu)化,高性能數(shù)據(jù)檢索
星環(huán)分布式向量數(shù)據(jù)庫Hippo支持多進(jìn)程架構(gòu)與GPU加速,充分發(fā)揮并行檢索能力;支持基于檢索速度和內(nèi)存使用的特定優(yōu)化,以及寄存器級算法優(yōu)化;同時提供多類索引支持,滿足不同需求不同體量的業(yè)務(wù)場景。
* 動態(tài)更新,實時檢索
星環(huán)分布式向量數(shù)據(jù)庫Hippo提供數(shù)據(jù)動態(tài)更新的能力,對于實時插入/更新的數(shù)據(jù),可以快速完成數(shù)據(jù)的加載和索引的構(gòu)建,解決向量數(shù)據(jù)T+1的傳統(tǒng)處理邏輯,滿足實時動態(tài)變化數(shù)據(jù)的向量檢索分析。
* 多樣化接口,豐富場景支持
星環(huán)分布式向量數(shù)據(jù)庫Hippo供標(biāo)準(zhǔn)的Python、Restful、CPP、Java API等接口,可輕松對接各類應(yīng)用和模型,提高應(yīng)用開發(fā)和調(diào)用的效率。同時,提供類SQL接口,滿足入庫等特定場景,大幅降低使用和操作的難度。
* 多模型聯(lián)合
基于TDH多模型統(tǒng)一技術(shù)架構(gòu),向量數(shù)據(jù)與關(guān)系型數(shù)據(jù)、圖數(shù)據(jù)、時序數(shù)據(jù)等多種模型數(shù)據(jù)可進(jìn)行統(tǒng)一存儲管理,并通過統(tǒng)一接口實現(xiàn)數(shù)據(jù)跨模型聯(lián)合分析。
具備高可用、高性能、易拓展等特點的星環(huán)分布式向量數(shù)據(jù)庫Hippo,可以很好地滿足企業(yè)針對海量向量數(shù)據(jù)的高實時性等場景。
* 文本檢索
傳統(tǒng)搜索引擎更偏向于詞/句的精確查詢,星環(huán)分布式向量數(shù)據(jù)庫Hippo通過向量引擎提供自然語言處理能力,可以更好地支持基于語義的查詢分析,讓查詢更滿足人性化的需求。
* 語音/視頻/圖像檢索
星環(huán)分布式向量數(shù)據(jù)庫Hippo將多維向量特征構(gòu)建成高效的向量索引,實現(xiàn)數(shù)據(jù)的相似性檢索,可覆蓋人臉識別、語音識別、視頻指紋等多類AI場景。
* 個性化推薦
星環(huán)分布式向量數(shù)據(jù)庫Hippo可與各類深度學(xué)習(xí)平臺搭建的模型進(jìn)行耦合,通過向量相似度檢索,可以對用戶行為與喜好等多方面進(jìn)行分析、挖掘,做到千人千面的推薦效果。
* 智能搜索,智能問答
知識圖譜的目的在于將結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及這些數(shù)據(jù)、實體之間的關(guān)聯(lián)關(guān)系進(jìn)行存儲和表達(dá)。通過星環(huán)分布式向量數(shù)據(jù)庫Hippo可以將這些信息更好地進(jìn)行表達(dá)和處理,給出符合需求的一系列近似答案和推薦查詢。
向量數(shù)據(jù)庫與圖數(shù)據(jù)庫聯(lián)合,低成本、高效構(gòu)建特定領(lǐng)域大模型應(yīng)用
基于星環(huán)分布式向量數(shù)據(jù)庫Hippo,可以有效地解決大模型在知識時效性低、輸入能力有限、準(zhǔn)確度低等問題。通過將最新資料、專業(yè)知識、個人習(xí)慣等海量信息向量存儲在星環(huán)分布式向量數(shù)據(jù)庫Hippo中,可以極大地拓展大模型的應(yīng)用邊界,讓大模型保持信息實時性,并能夠動態(tài)調(diào)整,使大模型擁有“長期記憶”。
通過建立垂直領(lǐng)域的知識庫,對大模型輸出結(jié)果進(jìn)行校正,可以提高結(jié)果的精準(zhǔn)度,在一定程度上解決“AI幻覺”問題。
此外,通過星環(huán)分布式向量數(shù)據(jù)庫Hippo對向量數(shù)據(jù)進(jìn)行存儲,有效解除大模型對輸入的限制,并且大模型在安全機制下訪問向量數(shù)據(jù)庫中的隱私數(shù)據(jù),可以充分保證數(shù)據(jù)安全,杜絕隱私泄露風(fēng)險。
然而,大模型只有向量數(shù)據(jù)庫還不夠。在召回的基礎(chǔ)上通過提示工程確保數(shù)據(jù)更精確,更貼近實際場景,同樣也是重要的一環(huán)。星環(huán)科技將分布式向量數(shù)據(jù)庫Hippo和分布式圖數(shù)據(jù)庫StellarDB結(jié)合,并以此作為微調(diào)的數(shù)據(jù)憑依,可以更低成本、更高效地構(gòu)建特定領(lǐng)域的大模型應(yīng)用。
圖數(shù)據(jù)庫StellarDB和知識圖譜聯(lián)合,與大模型可視化端到端構(gòu)建工具一起,提供了知識抽取融合、知識建模、知識圖譜生成存儲、基于大模型的知識問答等閉環(huán)功能?蛻粢灾R圖譜作為大語言模型提示即可發(fā)起模型微調(diào),以較低代價就可獲得行業(yè)的專屬大語言模型問答應(yīng)用。
將向量數(shù)據(jù)庫、圖數(shù)據(jù)庫與大語言模型結(jié)合,可以構(gòu)建業(yè)務(wù)域知識圖譜和業(yè)務(wù)系統(tǒng)的應(yīng)用服務(wù),進(jìn)一步提高人機交互的效率,提供更靈活的組合業(yè)務(wù)服務(wù),激發(fā)出更多更深入的業(yè)務(wù)場景AI應(yīng)用。
例如,在詢問某開源通用大模型關(guān)于某集團玉米收儲價格、某集團主要合作上下游企業(yè)等問題,通用大模型沒有行業(yè)知識,無法給出準(zhǔn)確答案。而把農(nóng)業(yè)知識圖譜和向量數(shù)據(jù)庫結(jié)合后,可以從知識圖譜中去獲取或者補充大模型的答案,使其可以精確地回答新收豬價以及價格影響等。
通過這樣的組合可以解決大模型目前存在的三大問題。一是能夠把實時的知識、變化的信息放到大模型中,二是能夠校正結(jié)果的準(zhǔn)確性,極大地提升精準(zhǔn)度,三是構(gòu)建相應(yīng)的知識圖譜,增強大模型的能力。
在星環(huán)科技此次推出的金融領(lǐng)域大模型“無涯”中,基于星環(huán)科技自身在金融領(lǐng)域積累的上百萬金融專業(yè)領(lǐng)域的語料,結(jié)合圖數(shù)據(jù)庫StellarDB、深度圖推理算法技術(shù),形成了大規(guī)模高質(zhì)量的金融類事件訓(xùn)練指令集,共同鑄就了星環(huán)開發(fā)金融領(lǐng)域大語言模型的堅實底座。星環(huán)“無涯”大模型能夠理解金融行業(yè)的術(shù)語,也能夠執(zhí)行特定的任務(wù),比如分析上市公司的年報、公告,生成新聞?wù),判斷特定新聞事件產(chǎn)生的影響等,提升分析師、研究員、投資經(jīng)理的效率。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。