穩(wěn)扎穩(wěn)打,中影光峰4K 14米 VLED LED電影屏通過DCI認(rèn)證并投入市場安吉爾空間大師亮相IFA 斬獲年度創(chuàng)新產(chǎn)品成果大獎(jiǎng)電動(dòng)自行車強(qiáng)制性“國標(biāo)”再修訂,綠源電動(dòng)車以創(chuàng)新技術(shù)引領(lǐng)產(chǎn)業(yè)高質(zhì)量發(fā)展輕松籌:十年深耕大健康領(lǐng)域,打造全方位健康保障生態(tài)面對承壓的小家電市場,小熊、蘇泊爾上半年為何一降一增?研發(fā)投入高增、占營收比超5%,科沃斯、石頭科技升高技術(shù)壁壘激光顯示全面“向新”發(fā)展,未來激光電視主機(jī)僅有iPad大小2024年冷年空調(diào)市場總結(jié):規(guī)模下探,結(jié)構(gòu)降級(jí),空調(diào)行業(yè)邁入新周OpenAI o1全方位SOTA登頂lmsys推薦榜!數(shù)學(xué)能力碾壓Claude和谷歌模型,o1-mini并列第一iPhone16系列新品正式發(fā)售 新品爆發(fā)就在抖音電商廣告燒錢過億,70%用戶靠投流,大模型算不過成本賬?PS1經(jīng)典配色!索尼發(fā)布30周年紀(jì)念版PS5、PS5 Pro:限量賣泰順:聚智聚力數(shù)字創(chuàng)客激發(fā)鄉(xiāng)村振興新動(dòng)能電商12年 ,ALL IN 小紅書,開店3月賣出1100萬Mate 70最受期待!華為三款重磅機(jī)型蓄勢待發(fā)云天勵(lì)飛“算力積木”架構(gòu):引領(lǐng)邊緣AI芯片新變革徹底告別3999元!小米15入網(wǎng) 支持90W快充FF發(fā)布第二品牌Faraday X:對標(biāo)豐田 專注增程式混動(dòng)車型黑神話悟空總收入超67億:銷量已超2000萬份通快成立激光業(yè)務(wù)區(qū)域中心(中國),強(qiáng)勢布局中國市場
  • 首頁 > 企業(yè)IT頻道 > 大數(shù)據(jù)

    四個(gè)“一體化”——構(gòu)建數(shù)智融合時(shí)代下的一站式大數(shù)據(jù)平臺(tái)

    2024年06月28日 10:01:55   來源:中文科技資訊

      隨著智能化技術(shù)的飛速發(fā)展,尤其是以生成式AI為代表的技術(shù)快速應(yīng)用,推動(dòng)了數(shù)據(jù)與智能的深化融合,給數(shù)據(jù)基礎(chǔ)設(shè)施帶來了新的變革和挑戰(zhàn)。如何簡化日益復(fù)雜的系統(tǒng)架構(gòu),提高數(shù)據(jù)處理效率,降低開發(fā)運(yùn)維成本,促進(jìn)數(shù)據(jù)開放共享和創(chuàng)新應(yīng)用,成為企業(yè)關(guān)注的核心問題。

      一站式大數(shù)據(jù)平臺(tái),旨在通過一個(gè)平臺(tái)即可滿足各類業(yè)務(wù)需求,成為數(shù)智融合時(shí)代下數(shù)據(jù)基礎(chǔ)設(shè)施的發(fā)展趨勢,并從四個(gè)維度向四個(gè)“一體化”方向演進(jìn):數(shù)據(jù)架構(gòu)-湖倉集一體化;數(shù)據(jù)處理-多模型一體化;數(shù)據(jù)分析-歷史與實(shí)時(shí)數(shù)據(jù)一體化;資源管理-多集群應(yīng)用、資源和數(shù)據(jù)一體化。

      數(shù)據(jù)架構(gòu):湖倉集一體化

      過去,企業(yè)在建設(shè)數(shù)據(jù)平臺(tái)時(shí)通常使用傳統(tǒng)的Hadoop湖+MPP倉的混合架構(gòu),逐漸有部分企業(yè)開始使用類似Hudi/Iceberg的湖倉技術(shù)。這兩種技術(shù)架構(gòu)都存在一些局限性,在線分析能力較弱,無法滿足集市業(yè)務(wù)需求。因此企業(yè)往往需要再引入額外的分析查詢引擎,用混合架構(gòu)來滿足湖倉集業(yè)務(wù)需求。

      混合架構(gòu)中,數(shù)據(jù)需要存儲(chǔ)在不同平臺(tái)里來提供服務(wù),首先就造成了數(shù)據(jù)冗余和存儲(chǔ)資源占用。其次,數(shù)據(jù)需要跨平臺(tái)ETL流轉(zhuǎn),流轉(zhuǎn)開銷高,時(shí)效性較差。數(shù)據(jù)跨平臺(tái)流轉(zhuǎn)中還容易導(dǎo)致數(shù)據(jù)一致性問題,影響業(yè)務(wù)正確性。此外,多平臺(tái)的開發(fā)標(biāo)準(zhǔn)不一致,存在一定的技術(shù)門檻,權(quán)限管理復(fù)雜。

      星環(huán)科技大數(shù)據(jù)基礎(chǔ)平臺(tái)TDH從2014年支持了事務(wù)表和存儲(chǔ)過程開始,形成了湖倉集一體雛形,在2023年TDH9.3版本中引入了湖倉集統(tǒng)一存儲(chǔ)格式Holodesk,只需一種存儲(chǔ)格式即可同時(shí)滿足ODS數(shù)據(jù)實(shí)時(shí)數(shù)據(jù)接入、數(shù)倉模型加工和高性能集市查詢分析等業(yè)務(wù),不需要針對不同的業(yè)務(wù)場景使用不同的存儲(chǔ)引擎而構(gòu)建煙囪式混合架構(gòu)。在星環(huán)一體架構(gòu)下,湖倉集對用戶來說,僅僅是業(yè)務(wù)邏輯上的區(qū)分,底層使用統(tǒng)一的技術(shù)棧,真正實(shí)現(xiàn)湖倉集一體化。

    圖1.png

      新發(fā)布的TDH9.4在資源隔離、端到端性能、統(tǒng)一運(yùn)維管理等方面升級(jí),幫助用戶構(gòu)建真一體化、高性能、易運(yùn)維的湖倉集一體化平臺(tái)。

      * 資源隔離新架構(gòu),在同一份數(shù)據(jù)上跑批查詢混合負(fù)載互不影響。一套集群一份數(shù)據(jù),基于Raft協(xié)議保障分布式一致性,在CPU、內(nèi)存、IO、網(wǎng)絡(luò)資源方面完全隔離,結(jié)合基于容器化的動(dòng)態(tài)資源調(diào)整能力,保障不同的批量業(yè)務(wù)與查詢業(yè)務(wù)性能需求。存儲(chǔ)方面,針對湖倉集多種混合負(fù)載業(yè)務(wù),支持分區(qū)級(jí)多級(jí)冷熱數(shù)據(jù)存儲(chǔ),最大化利用存儲(chǔ)資源,降低總體存儲(chǔ)成本。

      * 端到端性能10倍提升,全面降低TCO。相比于Hudi+Clickhouse+Hbase的混合架構(gòu),TDH湖倉集同一份數(shù)據(jù),ETL時(shí)間節(jié)約95%,存儲(chǔ)空間節(jié)省3/4,批量入庫性能提升3倍,實(shí)時(shí)入庫性能提升5倍,批量加工和多表關(guān)聯(lián)分析性能提升5-10倍,統(tǒng)計(jì)性能提升3倍,帶小量聚合的查詢業(yè)務(wù)性能提升1.5倍。

      * 湖倉集統(tǒng)一運(yùn)維管理,大幅降低運(yùn)維管理成本。湖倉集統(tǒng)一的監(jiān)控導(dǎo)向UI,提供更細(xì)粒度的集群運(yùn)行、資源使用、組件指標(biāo)等監(jiān)測,提供界面化補(bǔ)丁管理、磁盤管理等。此外,TDH支持X86和ARM混合集群部署和統(tǒng)一管理,首個(gè)在10000節(jié)點(diǎn)X86/ARM混部集群下,通過信通院云原生湖倉一體專項(xiàng)評測。

      * 支持Python 生態(tài),高效支撐大模型應(yīng)用。基于統(tǒng)一的分布式計(jì)算引擎,提供分布式Python引擎,來幫助用戶更方便地用Python進(jìn)行分布式數(shù)據(jù)處理。并提供POSIX接口,掛載分布式文件系統(tǒng)TDFS到本體磁盤,讓用戶可以像處理本地?cái)?shù)據(jù)一樣處理海量AI訓(xùn)練數(shù)據(jù),高效支撐數(shù)智融合時(shí)代下大模型應(yīng)用和各類數(shù)據(jù)智能場景。

      數(shù)據(jù)處理:多模型一體化

      過去,不同的數(shù)據(jù)模型往往需要獨(dú)立的平臺(tái)來處理,而這些不同的產(chǎn)品在接口標(biāo)準(zhǔn)上不一致,開發(fā)者和業(yè)務(wù)分析人員需要掌握不同的語言。同樣,這些產(chǎn)品也使用了各自獨(dú)立的計(jì)算引擎和存儲(chǔ),數(shù)據(jù)存儲(chǔ)在各自生態(tài)中難以互通,在業(yè)務(wù)上如果涉及到跨模型的混合業(yè)務(wù),需要把數(shù)據(jù)從一個(gè)平臺(tái)導(dǎo)入到另一個(gè)平臺(tái)中,ETL流轉(zhuǎn)效率低,同時(shí)也難以保證數(shù)據(jù)的準(zhǔn)確性、一致性和實(shí)效性。

      多模數(shù)據(jù)庫旨在單個(gè)系統(tǒng)中集成了多個(gè)關(guān)系型和/或非關(guān)系型數(shù)據(jù)引擎(例如,文檔、圖、鍵值、時(shí)序等),滿足業(yè)務(wù)對于結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理需求,實(shí)現(xiàn)數(shù)據(jù)的多模融合處理。通過使用單個(gè)系統(tǒng)來降低操作的復(fù)雜性,更好地支持不同場景下的多種類型數(shù)據(jù)處理。

      隨著大語言模型的快速發(fā)展,對于多種模型數(shù)據(jù)的處理需求越來越高,同時(shí)由于其存在領(lǐng)域知識(shí)缺乏、知識(shí)時(shí)效性低、回答易幻覺、隱私數(shù)據(jù)不安全等局限性,需要通過檢索外置知識(shí)庫的方式來增強(qiáng)大模型能力。通過多種模型一體化處理的平臺(tái),在增強(qiáng)大模型的同時(shí),可以降低系統(tǒng)搭建、開發(fā)、運(yùn)維等方面難度,因此多模數(shù)據(jù)庫成為大模型時(shí)代的剛需。

      星環(huán)科技從2020年實(shí)現(xiàn)了多模型數(shù)據(jù)的統(tǒng)一處理技術(shù),基于四層統(tǒng)一的架構(gòu)提供統(tǒng)一的接口層,統(tǒng)一的計(jì)算引擎層,統(tǒng)一的分布式存儲(chǔ)管理層和統(tǒng)一的資源管理層,并支持關(guān)系型、圖、時(shí)序、時(shí)空、向量、鍵值等11種數(shù)據(jù)模型,業(yè)內(nèi)首個(gè)通過了信通院《多模數(shù)據(jù)庫技術(shù)要求》評測。

    圖2.png

      TDH9.4在多模型能力進(jìn)行了升級(jí),向量存儲(chǔ)引擎Hippo發(fā)布了2.0版本,單機(jī)存儲(chǔ)容量提升20倍,結(jié)合分布式架構(gòu)可支持百億字的向量存儲(chǔ),檢索性能提升10倍以上,并提供完整的企業(yè)級(jí)能力,包括冷熱災(zāi)備、跨集群數(shù)據(jù)同步、生命周期管理等,幫助用戶更安全、便捷地支撐大模型應(yīng)用。

      圖存儲(chǔ)引擎StellarDB發(fā)布了5.1版本,引入GPU作為計(jì)算資源,部份場景下如子圖查詢性能提升10倍以上,結(jié)合深度圖算法提供圖譜召回、圖譜推理等能力,提升大模型的準(zhǔn)確度,幫助用戶構(gòu)建企業(yè)級(jí)知識(shí)庫系統(tǒng)。

      基于TDH多模型統(tǒng)一技術(shù)架構(gòu),滿足大模型場景下多模態(tài)數(shù)據(jù)的統(tǒng)一存儲(chǔ)管理與服務(wù),大幅簡化知識(shí)庫的知識(shí)存儲(chǔ)與服務(wù)層架構(gòu),降低開發(fā)與運(yùn)維成本。通過將TDH作為大模型外置知識(shí)庫,可以檢索文本/圖片/音視頻轉(zhuǎn)化后的向量數(shù)據(jù)、圖數(shù)據(jù)、以及傳統(tǒng)關(guān)系型數(shù)據(jù)等,并進(jìn)行聯(lián)合召回,可以極大增強(qiáng)大模型的準(zhǔn)確率。

    圖3.png

      數(shù)據(jù)分析:實(shí)時(shí)與歷史數(shù)據(jù)一體化

      隨著業(yè)務(wù)的快速發(fā)展以及企業(yè)內(nèi)部決策的要求不斷提高,用戶對數(shù)據(jù)實(shí)時(shí)性的要求越來越迫切。實(shí)時(shí)數(shù)據(jù)處理架構(gòu)Lambda和Kappa,在各自使用的場景都能解決一部分實(shí)時(shí)或近實(shí)時(shí)的用戶需求,但是隨著業(yè)務(wù)實(shí)時(shí)要求的提高,兩種架構(gòu)均存在一定的不足,主要體現(xiàn)在:

      (1)Lambda架構(gòu)將實(shí)時(shí)和歷史數(shù)據(jù)分離,隨著歷史數(shù)據(jù)的積累,批量計(jì)算的性能會(huì)下降明顯;

      (2)Kappa架構(gòu)通過流計(jì)算的方式實(shí)現(xiàn)了數(shù)據(jù)融合,但流與流之間的時(shí)間窗口難以精確控制,流與流存在數(shù)據(jù)關(guān)聯(lián)不上的問題。

      星環(huán)科技ArgoDB 6.1版本中推出了數(shù)據(jù)增量計(jì)算能力,提出了業(yè)務(wù)實(shí)時(shí)計(jì)算新范式。在實(shí)時(shí)處理數(shù)據(jù)架構(gòu)上,解決了Lambda架構(gòu)中的實(shí)時(shí)與歷史數(shù)據(jù)的不融合問題;同時(shí)避免了Kappa架構(gòu)中的流與流計(jì)算窗口不可控問題。從數(shù)據(jù)的加載到數(shù)據(jù)的加工,保障了數(shù)據(jù)業(yè)務(wù)端到端的實(shí)時(shí)性能,極大地提升了業(yè)務(wù)分析的時(shí)效性。

      ArgoDB6.1的增量計(jì)算技術(shù),打破流表和物理表的使用壁壘,增量交由數(shù)據(jù)庫識(shí)別、關(guān)聯(lián)和分析:

      * 大幅降低資源維護(hù)成本,窗口下沉到存儲(chǔ),數(shù)據(jù)無中間狀態(tài),流狀態(tài)時(shí)間窗口維護(hù)成本從100%降至0(即“零”維護(hù)成本);

      * 實(shí)時(shí)性能 & 數(shù)據(jù)準(zhǔn)確性提升,減少計(jì)算數(shù)據(jù)量,為結(jié)果表實(shí)時(shí)提供最新的關(guān)聯(lián)計(jì)算值;(即數(shù)據(jù)“不丟”“不重”且“計(jì)算高效”);

      * 增量數(shù)據(jù)可重復(fù)使用,原始數(shù)據(jù)落表,增量的數(shù)據(jù)可供下游使用,配置鏈路簡單且數(shù)據(jù)可重復(fù)使用。

    圖4.png

      基于ArgoDB 6.1增量數(shù)據(jù)計(jì)算能力,可在一個(gè)數(shù)據(jù)庫系統(tǒng)中實(shí)現(xiàn)多種實(shí)時(shí)場景,數(shù)據(jù)僅需在庫內(nèi)流轉(zhuǎn):

      場景一(即席查詢,寫入即服務(wù)):數(shù)據(jù)直接寫入ArgoDB,由ArgoDB提供OLAP 查詢和在線服務(wù);

      場景二(增量數(shù)據(jù)準(zhǔn)實(shí)時(shí)加工):在 ArgoDB 中進(jìn)行ODS數(shù)據(jù)清洗,并在DWD數(shù)據(jù)明細(xì)層預(yù)加工后直接進(jìn)行匯聚層加工,對接上層應(yīng)用;

      場景三(增量數(shù)據(jù)實(shí)時(shí)統(tǒng)計(jì),事件驅(qū)動(dòng)加工):DWD明細(xì)層預(yù)加工和DWS匯聚層預(yù)加工全部由ArgoDB增量計(jì)算完成,并提供給上層應(yīng)用,幫助用構(gòu)建新一代的實(shí)時(shí)數(shù)據(jù)倉庫。

      資源管理:多集群應(yīng)用、資源和數(shù)據(jù)一體化

      企業(yè)通常根據(jù)不同的業(yè)務(wù)系統(tǒng)構(gòu)建多個(gè)不同的大數(shù)據(jù)集群,多個(gè)集群的運(yùn)維管理給企業(yè)帶來了很多困擾。不同的集群各自孤立,底層資源無法統(tǒng)一、無法均衡的調(diào)度和最大化利用,并且各個(gè)集群上的數(shù)據(jù)難以互通,當(dāng)涉及跨集群數(shù)據(jù)調(diào)用時(shí),需要在各個(gè)集群之間ETL,效率較低,也難以保證數(shù)據(jù)的準(zhǔn)確性、一致性和實(shí)效性。當(dāng)有新業(yè)務(wù)需要上線時(shí),需要建設(shè)新的集群,進(jìn)一步加劇上述問題。

      多個(gè)大數(shù)據(jù)集群統(tǒng)一管理,能夠?qū)⒍嗉航y(tǒng)一納管,實(shí)現(xiàn)資源統(tǒng)一調(diào)度,數(shù)據(jù)統(tǒng)一管理,并能夠快速響應(yīng),滿足新業(yè)務(wù)上線需求。

      星環(huán)科技數(shù)據(jù)云平臺(tái)TDC,在一個(gè)平臺(tái)上提供了數(shù)據(jù)PaaS、分析PaaS、應(yīng)用PaaS服務(wù),底層共享基礎(chǔ)設(shè)施資源,能夠?qū)崿F(xiàn)不同業(yè)務(wù)、不同環(huán)境下的多個(gè)集群統(tǒng)一納管,不僅提供星環(huán)科技的大數(shù)據(jù)與人工智能產(chǎn)品等產(chǎn)品服務(wù),也能夠托管如Spark、Flink等開源生態(tài)產(chǎn)品。

    圖5.png

      TDC 5.0在多集群及應(yīng)用統(tǒng)一納管基礎(chǔ)上,對跨集群資源均衡調(diào)度、自動(dòng)彈性伸縮、數(shù)據(jù)共享等能力進(jìn)一步升級(jí),幫助用戶構(gòu)建一體化的大數(shù)據(jù)與智能平臺(tái),降低企業(yè)多集群運(yùn)維管理成本,最大化資源利用率,加速業(yè)務(wù)上線與創(chuàng)新。

      跨集群資源均衡調(diào)度實(shí)現(xiàn)對多個(gè)集群底層資源的統(tǒng)一管理,當(dāng)某個(gè)集群負(fù)載較大,需要擴(kuò)展存儲(chǔ)或者計(jì)算資源時(shí),能夠跨集群自動(dòng)調(diào)用富余集群的資源,實(shí)現(xiàn)多個(gè)集群之間資源的均衡調(diào)度,提升所有集群的整體資源利用率。

      跨集群自動(dòng)彈性伸縮根據(jù)配置的基于時(shí)間周期、負(fù)載變化的自動(dòng)彈性伸縮策略,對業(yè)務(wù)繁忙時(shí)間段和業(yè)務(wù)負(fù)載突增時(shí),自動(dòng)進(jìn)行存儲(chǔ)和計(jì)算資源的擴(kuò)縮容,滿足業(yè)務(wù)對資源的需求,保障業(yè)務(wù)性能的穩(wěn)定性。

      跨集群數(shù)據(jù)共享跨多個(gè)集群實(shí)現(xiàn)數(shù)據(jù)的共享,集群之間不需要做ETL,可以直接共享使用對方集群的存儲(chǔ),進(jìn)而實(shí)現(xiàn)No Copy的數(shù)據(jù)共享,避免數(shù)據(jù)復(fù)制帶來的存儲(chǔ)壓力和數(shù)據(jù)時(shí)延,以及不一致性問題。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    [No. H002]
    分享到微信

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    研究

    2024全球開發(fā)者先鋒大會(huì)即將開幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。