今年7月,微軟首次開源了超大知識索引GraphRAG,僅4個多月的時間在Github已超過19000顆星,成為目前最火的RAG框架之一。
但GraphRAG在處理全局數(shù)據(jù)查詢時成本非常高,尤其是應用在那些大參數(shù)的AI模型中格外明顯,查詢的過程中也存在延遲、不準確等問題。
今天凌晨,微軟研究院發(fā)布了GraphRAG迭代版本——LazyGraphRAG。這個RAG的最大亮點之一就是成本非常低,數(shù)據(jù)索引成本只有完整版GraphRAG的0.1%,同時采用了全新混合數(shù)據(jù)搜索方法,生成結(jié)果的準確率、效率等卻更好,很快發(fā)布開源版本并加入到GraphRAG庫中。
下面「AIGC開放社區(qū)」將根據(jù)微軟官方博客發(fā)布的內(nèi)容,為大家詳細解讀LazyGraphRAG的技術(shù)區(qū)別,同時回顧一下GraphRAG。
LazyGraphRAG技術(shù)特點
微軟之前開源的GraphRAG在數(shù)據(jù)索引階段,主要依賴于大模型來提取和描述實體及其關(guān)系,并且會為每個實體和關(guān)系生成總結(jié)。
這個過程涉及到圖統(tǒng)計來優(yōu)化實體圖,并提取出層次化的社區(qū)結(jié)構(gòu)。不過這種方法的成本非常高,因為它需要借助大量的語言模型處理,使得GraphRAG的數(shù)據(jù)索引成本非常非常貴。
與GraphRAG不同是,LazyGraphRAG在數(shù)據(jù)索引階段不進行任何預先的總結(jié)或嵌入生成,而是采用NLP名詞短語提取來識別概念及其共現(xiàn)關(guān)系,然后再通過圖統(tǒng)計來優(yōu)化概念圖,并提取層次社區(qū)結(jié)構(gòu)。這使得LazyGraphRAG的索引成本極低,僅為GraphRAG的0.1%。也就是說將成本降低了1000倍。
在查詢處理方面,GraphRAG使用廣度優(yōu)先搜索來確保查詢回答時考慮了整個數(shù)據(jù)集的廣度,而LazyGraphRAG則結(jié)合了最佳優(yōu)先搜索和廣度優(yōu)先搜索的動態(tài),采用迭代加深的方式。首先按相似度排名文本片段,然后通過動態(tài)選擇相關(guān)社區(qū)來逐步細化查詢結(jié)果。
這種方法使得LazyGraphRAG能夠支持本地和全局查詢,同時在考慮整個數(shù)據(jù)集的廣度的同時,高效地找到最佳匹配的文本塊。
在靈活性和擴展性方面,GraphRAG由于其豐富的總結(jié)信息,可以用于多種用途,但高成本限制了其在一次性查詢和探索性分析中的使用。LazyGraphRAG則提供了統(tǒng)一的查詢接口,支持本地和全局查詢,非常靈活,適合一次性查詢、探索性分析和流式數(shù)據(jù)使用場景。
在應用場景上,GraphRAG適合需要高質(zhì)量、全面查詢結(jié)果的場景,例如,企業(yè)級知識管理和復雜數(shù)據(jù)分析等。而LazyGraphRAG則適合需要高效處理全局查詢且對成本敏感的場景,如中小企業(yè)和個人開發(fā)者的內(nèi)容推薦系統(tǒng)和項目管理工具,這對于那些資源有限的人來說非常友好。
LazyGraphRAG測試數(shù)據(jù)
為了評估LazyGraphRAG的性能,微軟設定了三種不同的預算,以觀察其在不同條件下的表現(xiàn)。
在最低預算水平下,100次相關(guān)性測試,并且使用低成本的大模型時,LazyGraphRAG展現(xiàn)出了顯著的優(yōu)勢,在本地和全局查詢上的表現(xiàn)都優(yōu)于其他所有方法。
在本地查詢中,LazyGraphRAG明顯超過了C1、C2、C3_Dynamic、LS、DRIFT、SS_8K、SS_64K和RAPTOR等方法。盡管GraphRAG全局搜索在全局查詢中有時表現(xiàn)較好,但LazyGraphRAG在成本效益上仍然占據(jù)了優(yōu)勢。
當預算水平提高到500次,并且使用更高級的大模型時,LazyGraphRAG的優(yōu)勢進一步顯現(xiàn)。它的成本僅為C2級別的4%,但性能卻顯著優(yōu)于所有其他條件,包括C2級別的GraphRAG全局搜索。
這表明LazyGraphRAG不僅在成本上具有優(yōu)勢,而且在查詢質(zhì)量上也表現(xiàn)出色,無論是在本地查詢還是全局查詢中,都能提供更高質(zhì)量的答案。
當達到1500次高預算時,LazyGraphRAG的優(yōu)勢進一步加大。LazyGraphRAG在本地和全局查詢上的表現(xiàn)繼續(xù)提升,尤其是在全局查詢中,其獲勝率顯著高于其他方法。
即使在高預算條件下,LazyGraphRAG仍然保持了其成本效益和查詢質(zhì)量的雙重優(yōu)勢。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。