開源搜索引擎國產(chǎn)化替代勢在必行
科技自立自強是時代發(fā)展的迫切需要和必然選擇。“集聚力量進行原創(chuàng)性引領(lǐng)科技攻關(guān),堅決打贏關(guān)鍵核心技術(shù)攻堅戰(zhàn)”。從中興等一系列高新技企業(yè)被制裁,到今年俄烏沖突發(fā)生后,多家科技公司宣布暫停在俄羅斯的所有業(yè)務,包括芯片、軟件、云服務等斷供事件,都在警示我們要擺脫被科技制裁風險的唯一出路就是要自主研發(fā),實現(xiàn)真正的自主可控。
1、開源協(xié)議變更帶來商業(yè)風險
Elasticsearch是一款開源搜索引擎,憑借著先發(fā)優(yōu)勢和早期的積累,被用于多種檢索類業(yè)務場景,并占據(jù)了一定的市場。2021年初, Elastic公司決定將這款開源軟件的 Apache License 2.0 變更為雙授權(quán)許可,即Server Side Public License (SSPL) 和 Elastic License。其核心條款是“如果將程序的功能或修改后的版本作為服務提供給第三方,那么必須免費公開提供服務源代碼”。這意味著不法分子可以獲得其源代碼并研究其漏洞,給企業(yè)用戶帶來巨大的安全風險。
2、開源軟件存在“被制裁”風險
Apache 軟件基金會和GitHub官網(wǎng)都有公開說明,產(chǎn)品和技術(shù)受到美國的出口法律和法規(guī)限制。盡管此類軟件的使用是免費的,但它的許可協(xié)議仍然存在諸多限制,包括禁止受制裁的國家使用原本對公眾免費開放的代碼。受美國出口管制的俄羅斯在近期俄烏事件中將這方面風險徹底暴露。
3、安全工具出口和漏洞分享禁令政策陸續(xù)出臺
2021年美國商務部和安全局發(fā)布最新控制措施,禁止美國公司向中國和俄羅斯等“有問題”的國家出口和轉(zhuǎn)售網(wǎng)絡安全產(chǎn)品。
今年6月份,美國商務部和安全局又發(fā)布了一項針對網(wǎng)絡安全領(lǐng)域的出口管制規(guī)定,未經(jīng)審批禁止向中國分享安全漏洞。簡單的說,就是美國實體與中國政府相關(guān)的組織和個人合作時,如果發(fā)現(xiàn)潛在安全漏洞和信息,不能直接公布,要先經(jīng)過美國商務部審核。這意味著如果繼續(xù)使用國外軟件,那安全問題將掌握在別人手里。
Elasticsearch數(shù)據(jù)泄露事件頻發(fā),安全能力不足
1、Elasticsearch數(shù)據(jù)泄露事件頻發(fā)
在過去幾年內(nèi),Elasticsearch 數(shù)據(jù)泄露事件頻發(fā),甚至一個月被曝6次數(shù)據(jù)泄露。
去年,受美國出口管制的巴林,暴露的Elasticsearch集群中近200萬條信息被泄露,包含有關(guān)人員的敏感信息。
而作為美國出口管制重點對象的俄羅斯,近幾年發(fā)生多起Elasticsearch數(shù)據(jù)泄露事件。
* 2019年,2000萬條個人信息和稅務記錄在網(wǎng)上曝光,任何擁有網(wǎng)絡瀏覽器的人都可以訪問;
* 2021年底,Elasticsearch服務器再次發(fā)生數(shù)據(jù)泄露,超過8.7億條記錄或147GB個人信息數(shù)據(jù)在網(wǎng)上曝光;
* 2022年6月,俄羅斯金融領(lǐng)域也發(fā)生了一起駭人的數(shù)據(jù)泄露事件,130GB的數(shù)據(jù)集包含俄羅斯人的付款,發(fā)票和其他財務敏感信息,甚至包括政府方面的日志數(shù)據(jù);
在國內(nèi),今年某漫畫閱讀平臺也遭遇數(shù)據(jù)泄露,黑客從不安全的Elasticsearch數(shù)據(jù)庫中竊取了2300萬用戶帳戶敏感信息。
此外,根據(jù)Group-IB報告顯示,2021年網(wǎng)絡上暴露的 Elasticsearch 實例超過10萬個,約占2021年暴露數(shù)據(jù)庫總數(shù)的30%。
2、數(shù)據(jù)保護能力不足
Elasticsearch 開源版本是不具備數(shù)據(jù)保護功能的,看似免費,但不安全。用戶必須付費獲得Gold+許可才能獲得相關(guān)的安全保護功能,且不同的安全功能對應不同的收費標準。
3、數(shù)據(jù)有丟失風險
為了滿足數(shù)據(jù)入庫性能要求,Elasticsearch在數(shù)據(jù)層采用了簡單的主從最終一致性模型。當主副本出現(xiàn)故障時,從副本和主副本不能保證數(shù)據(jù)的強一致性,從副本的數(shù)據(jù)有可能不是最新的。以此為基礎恢復數(shù)據(jù),很有可能導致部分數(shù)據(jù)丟失。
星環(huán)科技自主研發(fā)的國產(chǎn)搜索引擎Transwarp Scope
Transwarp Scope是星環(huán)科技自主研發(fā)的企業(yè)級分布式搜索引擎,提供PB級海量數(shù)據(jù)的交互式多維檢索分析服務,支持百萬級高并發(fā)和毫秒級低延時檢索業(yè)務,覆蓋模糊匹配,精確查詢,多維檢索等各類檢索類場景,滿足數(shù)據(jù)檢索多樣化需求。
* 海量日志存儲與檢索 Scope在數(shù)據(jù)存儲做了多層優(yōu)化,輕松滿足海量檢索數(shù)據(jù)的存儲,支持大規(guī)模數(shù)據(jù)的入庫,而且架構(gòu)穩(wěn)定,數(shù)據(jù)提供一致性和多副本容災。此外,底層的搜索模塊通過分區(qū),索引排序等各類優(yōu)化手段,滿足大體量數(shù)據(jù)的快速精確檢索,實現(xiàn)毫秒級檢索和讀寫互不影響,非常適合電信、安全、能源等領(lǐng)域的檢索需求。
* 一站式檢索平臺Scope支持結(jié)構(gòu)化/半結(jié)構(gòu)化/非結(jié)構(gòu)化小對象數(shù)據(jù)的分級存儲與毫秒級檢索響應,提供完備的分區(qū)優(yōu)化機制和高并發(fā)檢索能力。一站化服務使得業(yè)務無需通過不同數(shù)據(jù)庫產(chǎn)品的組合來實現(xiàn)復雜檢索場景,一套產(chǎn)品滿足多類需求。高并發(fā)非結(jié)構(gòu)化數(shù)據(jù)靈活檢索等業(yè)務均可通過Scope滿足。
1、國產(chǎn)自研搜索引擎,自主可控
Transwarp Scope通過了工信部源代碼掃描測試,并于2019年上榜由信息技術(shù)應用創(chuàng)新工作委員會編制的國產(chǎn)軟硬件技術(shù)圖譜。
2、國產(chǎn)軟硬件適配
Scope已完成與主流信創(chuàng)生態(tài)廠商的適配互認工作,支持適配長城飛騰、華為泰山、龍芯等服務器架構(gòu),同時滿足麒麟,UOS等操作系統(tǒng),滿足信創(chuàng)要求和國產(chǎn)化替換需求。
3、兼容Elasticsearch接口,多生態(tài)兼容,實現(xiàn)低成本平滑遷移
Transwarp Scope兼容常用Elasticsearch的接口,可實現(xiàn)Elasticsearch業(yè)務的平滑遷移。星環(huán)科技提供多種數(shù)據(jù)遷移方案,用戶可根據(jù)實際情況靈活選擇。經(jīng)過大量項目的實踐和經(jīng)驗,星環(huán)科技建立了成熟標準的Elasticsearch平滑遷移方法論,通過調(diào)研評估、方案測試和上線保障“三步”策略,全程保障數(shù)據(jù)與業(yè)務的平滑遷移。
除了兼容以上Elasticsearch接口,Scope還兼容PostgreSQL協(xié)議以及Spark等大數(shù)據(jù)產(chǎn)品的接入。同時,Scope還提供完備的SQL語法支持,滿足傳統(tǒng)數(shù)據(jù)庫遷移到Scope的需求,通過星環(huán)科技SQL編譯器QUARK實現(xiàn)大數(shù)據(jù)基礎平臺TDH內(nèi)部的完整數(shù)據(jù)流轉(zhuǎn)方案。
ROI、擴展性、穩(wěn)定性、安全性、數(shù)據(jù)讀寫/恢復/一致性等全面超越開源搜索引擎
1、硬件和運維成本
Elasticsearch單節(jié)點支持的數(shù)據(jù)量最多到20TB左右,在項目實踐中客戶通常在每臺服務器上部署多個Elasticsearch實例,而如此多的實例將會帶來不穩(wěn)定問題,觸發(fā)節(jié)點失聯(lián),運維成本高。反之,如果每臺服務器配置較少容量的磁盤,那么用戶將付出非常高的硬件成本。而當節(jié)點數(shù)超過100時,同樣會有穩(wěn)定性問題。
這兩類方案,運維成本和硬件成本變成了魚和熊掌不可兼得,讓用戶陷入兩難的境地。
星環(huán)科技Transwarp Scope對內(nèi)存進行創(chuàng)新優(yōu)化,提高單集群單節(jié)點容量上限,單實例可突破至百TB的數(shù)據(jù)存儲,是Elasticsearch的5倍以上,大大降低用戶硬件成本。
在提高單實例存儲容量,降低集群規(guī)模的同時,Scope通過多進程架構(gòu),充分利用集群cpu/內(nèi)存資源,讀寫壓力分流,滿足更高的并發(fā)需求,提高集群穩(wěn)定性的同時降低運維成本。
2、集群擴展性
Elasticsearch在集群擴展上存在瓶頸,其采用的P2P架構(gòu)和排隊模型處理一些狀態(tài)同步和元數(shù)據(jù)改變等操作時,效率比較低。在項目實踐中,當節(jié)點(或?qū)嵗?規(guī)模超過100個時,會遇到穩(wěn)定性問題,特別是多種任務并發(fā)的情景下,集群壓力大,容易觸發(fā)節(jié)點接連失聯(lián)的問題。
星環(huán)科技Transwarp Scope采用多進程架構(gòu),充分利用集群cpu/內(nèi)存資源,讀寫壓力分流,滿足更高的并發(fā)需求以及提升穩(wěn)定性,單集群在200以上節(jié)點規(guī)模下穩(wěn)定運行,同時保障性能無衰減。
3、全方位數(shù)據(jù)安全保障
Transwarp Scope內(nèi)置配套的安全授權(quán)、用戶權(quán)限控制等相關(guān)安全功能,可以有效保障系統(tǒng)數(shù)據(jù)和訪問上的安全。
在用戶權(quán)限認證上,基于SASL提供plain與gssapi兩種認證方式,對應傳統(tǒng)的用戶名密碼認證方式和基于Kerberos的登錄驗證方式。其中kerberos可依賴于TDH平臺的安全服務Guardian,同時提供用戶組概念,便于通過平臺實現(xiàn)統(tǒng)一管理與操作。
在數(shù)據(jù)權(quán)限上,基于角色的訪問控制(RBAC) 機制,使用戶能夠通過將權(quán)限分配給角色并將角色分配給用戶或組來授權(quán)用戶,支持Index level Security &Database level Security。
在數(shù)據(jù)加密上,Scope支持基于SSL/TLS兩類協(xié)議進行數(shù)據(jù)加密,確保數(shù)據(jù)傳輸過程的安全。
4、數(shù)據(jù)讀寫性能
Elasticsearch在數(shù)據(jù)讀寫性能方面存在不足,如壓縮率不足,數(shù)據(jù)膨脹率高,讀寫策略優(yōu)化不足等都大大降低了數(shù)據(jù)讀寫的效率。數(shù)據(jù)讀寫性能受限,直接影響查詢操作的并發(fā)度和數(shù)據(jù)入倉的效率。
星環(huán)科技Transwarp Scope對讀寫線程資源的管理更嚴格、更精細,使讀寫性能更優(yōu),數(shù)據(jù)批量寫入速度相對Elasticsearch提升40%,讀寫分離的特性大幅提升查詢的穩(wěn)定性。
5、數(shù)據(jù)恢復性能
Elasticsearch缺乏“增量數(shù)據(jù)”的概念,當單點發(fā)生故障進行數(shù)據(jù)恢復時,采用全量數(shù)據(jù)拷貝方式恢復數(shù)據(jù),工作量大,往往需要小時級的時間才能恢復服務,嚴重影響服務的正常進行。星環(huán)科技Transwarp Scope具有很強的容災和數(shù)據(jù)恢復能力。Scope基于Raft協(xié)議保證數(shù)據(jù)的一致性,同時提供多副本支持,重啟恢復時間在TB級數(shù)據(jù)量下控制在分鐘級,不到Elasticsearch的1/10,大幅降低了服務不可用時間。
此外,Scope支持跨數(shù)據(jù)中心的多活部署,使得重要業(yè)務在多數(shù)據(jù)中心交互和流轉(zhuǎn),還支持主備集群的實時數(shù)據(jù)同步,滿足主備集群的failover和switchover。
6、數(shù)據(jù)一致性
Elasticsearch主本和副本之間同步采用P2P架構(gòu)和排隊模型實現(xiàn)主從最終一致性。當主副本出現(xiàn)故障時,從副本和主副本不能保證數(shù)據(jù)的強一致性,很有可能導致部分數(shù)據(jù)丟失。
Transwarp Scope基于自主研發(fā)的分布式數(shù)據(jù)庫管理系統(tǒng)TDDMS,采用shared-nothing架構(gòu),通過多副本機制實現(xiàn)數(shù)據(jù)服務高可用,使用raft協(xié)議保證副本之間的數(shù)據(jù)一致性,保障數(shù)據(jù)不丟失。此外,TDDMS支持彈性擴縮容、自動故障恢復、權(quán)限控制、多租戶與冷熱數(shù)據(jù)分層存儲等功能。
7、售后服務
Elasticsearch是開源產(chǎn)品,用戶需自己探索和解決問題,無法獲取有效的服務保障。用戶需要購買企業(yè)版才能獲得相應的服務,且在國內(nèi)沒有原廠技術(shù)研發(fā)人員,很難保障SLA。Transwarp Scope的產(chǎn)品提供方星環(huán)科技是國內(nèi)廠商,具有非常強大的研發(fā)、技術(shù)支持與服務能力,提供強大的原廠服務保障能力,保障用戶售后無憂。
星環(huán)科技Transwarp Scope助力某政府單位平滑替換Elasticsearch
1、客戶挑戰(zhàn)
某政府單位原先使用開源Elasticsearch,隨著內(nèi)部系統(tǒng)數(shù)據(jù)量的高速增長,總數(shù)據(jù)量超幾十PB,單張表達百億條級別,在不斷擴容下節(jié)點數(shù)達Elasticsearch上限,穩(wěn)定性經(jīng)常出現(xiàn)問題,同時當集群出現(xiàn)問題時,Elasticsearch重啟需要小時級別,集群恢復速度慢。在性能問題方面,讀寫資源無法隔離,拖累查詢性能,系統(tǒng)設計為讀寫兩套集群。
2、解決方案
基于星環(huán)科技大數(shù)據(jù)基礎平臺TDH構(gòu)建大規(guī)模數(shù)據(jù)綜合搜索平臺,Slipstream做實時數(shù)據(jù)引擎,清洗分析并入庫到Hyperbase與Scope的綜合搜索庫中,提供基于幾十PB數(shù)據(jù)量的快速查詢和搜索能力,集群規(guī)模達200個節(jié)點。
3、項目成果
融合人、地、物、事、組織與視頻/圖片等因素,通過星環(huán)TDH構(gòu)建一站式搜索平臺,實現(xiàn)了PB級數(shù)據(jù)統(tǒng)一存儲、檢索滿足海量數(shù)據(jù)毫秒級響應,高并發(fā)、快速統(tǒng)計、字段精確與模糊查詢等復雜組合場景,指定條件查詢1s內(nèi)返回并支持上千并發(fā),并通過單節(jié)點存儲容量比開源高5倍的優(yōu)勢,降低了客戶硬件投資成本。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。