中國品牌,讓東南亞感受“消費(fèi)升級”小紅書本地“坐抖望團(tuán)”CrowdStrike“全球滅霸響指”事件后續(xù),德國 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實(shí)況照片了蘋果有線耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進(jìn)化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個(gè)運(yùn)行時(shí)安全解決方案,實(shí)現(xiàn)從代碼到云的全面軟件完整性和可追溯性
  • 首頁 > 網(wǎng)絡(luò)通信頻道 > 物聯(lián)網(wǎng)

    StarRocks在中移物聯(lián)網(wǎng)PGW實(shí)時(shí)會話業(yè)務(wù)領(lǐng)域的應(yīng)用

    2021年11月16日 11:14:31   來源:中文科技資訊

      中移物聯(lián)網(wǎng)作為中國移動通信集團(tuán)有限公司出資成立的全資子公司。公司按照中國移動整體戰(zhàn)略布局,圍繞“物聯(lián)網(wǎng)業(yè)務(wù)服務(wù)的支撐者、專用模組和芯片的提供者、物聯(lián)網(wǎng)專用產(chǎn)品的推動者”的戰(zhàn)略定位,專業(yè)化運(yùn)營物聯(lián)網(wǎng)專用網(wǎng)絡(luò),設(shè)計(jì)生產(chǎn)物聯(lián)網(wǎng)專用模組和芯片,打造車聯(lián)網(wǎng)、智能家居、智能穿戴等特色產(chǎn)品,開發(fā)運(yùn)營物聯(lián)網(wǎng)連接管理平臺OneLink和物聯(lián)網(wǎng)開放平臺OneNET,推廣物聯(lián)網(wǎng)解決方案,形成了五大方向業(yè)務(wù)布局和物聯(lián)網(wǎng)“云-網(wǎng)-邊-端”全方位的體系架構(gòu)。

      本文主要討論了中移物聯(lián)網(wǎng)在PGW實(shí)時(shí)會話業(yè)務(wù)數(shù)據(jù)分析與建模方面,利用SparkStreaming和StarRocks進(jìn)行的探索與實(shí)踐。并希望我們在實(shí)時(shí)數(shù)倉建模領(lǐng)域的應(yīng)用實(shí)踐,能給大家一些啟發(fā),也歡迎大家多多交流,給我們提出寶貴的建議。

      PGW實(shí)時(shí)會話業(yè)務(wù)背景介紹

      中移物聯(lián)網(wǎng)作為物聯(lián)網(wǎng)業(yè)務(wù)領(lǐng)域的支撐者,目前在線物聯(lián)卡用戶達(dá)到6.7億。中移物聯(lián)網(wǎng)智能連接部大數(shù)據(jù)團(tuán)隊(duì)作為物聯(lián)卡用戶與物聯(lián)卡之間的數(shù)據(jù)分析紐帶,主要依托物聯(lián)卡的基礎(chǔ)屬性數(shù)據(jù)和使用行為數(shù)據(jù)通過數(shù)倉建模、大數(shù)據(jù)挖掘等其他手段為用戶提供高效的數(shù)據(jù)服務(wù)。

      PGW實(shí)時(shí)會話業(yè)務(wù)主要指的是,通過PGW網(wǎng)元設(shè)備實(shí)時(shí)收集從全球各地傳送回來、符合Radius協(xié)議的GGSN報(bào)文數(shù)據(jù),然后通過大數(shù)據(jù)分析等手段,進(jìn)行數(shù)據(jù)建模、數(shù)據(jù)挖掘等其他子項(xiàng)目。例如為集團(tuán)客戶提供每張物聯(lián)卡的實(shí)時(shí)位置和分布情況;通過風(fēng)險(xiǎn)防控模型,對比實(shí)時(shí)收集的報(bào)文數(shù)據(jù),為客戶提供每張物聯(lián)卡的風(fēng)險(xiǎn)等級等項(xiàng)目。

      業(yè)務(wù)痛點(diǎn)及實(shí)時(shí)技術(shù)的挑戰(zhàn)

      目前該業(yè)務(wù)在具體落地過程中,以及應(yīng)用業(yè)務(wù)對實(shí)時(shí)數(shù)據(jù)需求方面,主要存在以下問題和技術(shù)難點(diǎn):

      1.流式數(shù)據(jù)join。目前PGW實(shí)時(shí)會話業(yè)務(wù),峰值每秒數(shù)據(jù)達(dá)到35萬/s,針對不同的業(yè)務(wù)需求,往往在數(shù)據(jù)清洗階段,需要對流式數(shù)據(jù)進(jìn)行字段關(guān)聯(lián),然后以寬表形式寫入;

      2.存量數(shù)據(jù)排序、實(shí)時(shí)分析。一方面因?yàn)楦鞯貐^(qū)網(wǎng)元設(shè)備的不穩(wěn)定等其他因素,往往實(shí)時(shí)傳送過來的數(shù)據(jù)存在亂序問題,另一方面因?yàn)閱螚l會話長期在線(最長超過14天),對于單條會話的實(shí)時(shí)分析往往需要對存量數(shù)據(jù)進(jìn)行排序;

      3.統(tǒng)一的實(shí)時(shí)OLAP數(shù)據(jù)平臺構(gòu)建。我們的用戶包括:內(nèi)部售后團(tuán)隊(duì)、運(yùn)營、產(chǎn)品等內(nèi)部人員外,還有外部政企平臺客戶。不同的用戶往往關(guān)系的數(shù)據(jù)粒度、時(shí)間頻率、維度等各不相同。但是我們希望能建立一套統(tǒng)一的實(shí)時(shí)OLAP數(shù)據(jù)平臺,并提供一套靈活、安全可靠的實(shí)時(shí)數(shù)據(jù)服務(wù)。

      目前整個(gè)業(yè)務(wù)的數(shù)據(jù)規(guī)模和業(yè)務(wù)如下:

      技術(shù)框架的調(diào)研與演進(jìn)

      1.原有技術(shù)框架

      原有技術(shù)框架以及整個(gè)PGW實(shí)時(shí)會話業(yè)務(wù)的處理流程如上。實(shí)時(shí)數(shù)據(jù)通過流處理組件處理后,針對不同需求和業(yè)務(wù)方,數(shù)據(jù)存儲和展示借助多技術(shù)組件。并且大多情況下為滿足一個(gè)業(yè)務(wù)需求往往需要多技術(shù)組件配合使用。如PGW明細(xì)會話查詢,往往是借助Redis或ES作為索引組件再去查詢Hbase,一方面Hbase只能進(jìn)行簡單的模糊查詢,無法做到聯(lián)邦查詢、聚合統(tǒng)計(jì)查詢,另一方面若統(tǒng)計(jì)查詢借助Impala+Hive時(shí)效性往往很難保證。

      2.MPP技術(shù)框架的調(diào)研

      為解決實(shí)時(shí)分析的時(shí)效性,同時(shí)又能保證數(shù)據(jù)快速寫入,并且能夠?qū)ν馓峁┮粋(gè)較為統(tǒng)一和簡單的OLAP數(shù)據(jù)平臺。我們先后調(diào)研了ClickHouse、StarRocks、Kudu。并針對我們的業(yè)務(wù)分析和業(yè)務(wù)痛點(diǎn)做了以下測試。

      ClickHouse:雖然具備較好的OLAP分析性能,但因其底層的架構(gòu)設(shè)計(jì),集群模式下數(shù)據(jù)寫入需開發(fā)人員手動指定寫入節(jié)點(diǎn)以及數(shù)據(jù)存儲目錄以保證集群數(shù)據(jù)平衡。同時(shí)集群擴(kuò)容后很難做到數(shù)據(jù)自平衡,對運(yùn)維人員提出較高要求,另一方面由于該數(shù)據(jù)庫不支持事務(wù)特性,在數(shù)據(jù)更新時(shí)容易出現(xiàn)數(shù)據(jù)重復(fù),且不易解決此問題。

      StarRocks:查詢分析性能強(qiáng)悍,多表關(guān)聯(lián)速度比其他產(chǎn)品快很多。與Clickhouse類似,StarRocks目前不支持字段級別的數(shù)據(jù)更新,同時(shí)查詢性能與表的設(shè)計(jì)和集群性能密切相關(guān)。原則上集群性能隨數(shù)據(jù)節(jié)點(diǎn)線性增長。另外,簡便的運(yùn)維管理也是StarRocks的一大亮點(diǎn)。目前StarRocks開發(fā)版本迭代快,需要及時(shí)跟進(jìn)官方的版本進(jìn)展。

      Kudu:支持快速數(shù)據(jù)更新、快速數(shù)據(jù)分析與即席查詢,但是數(shù)據(jù)量不宜過大,單表數(shù)據(jù)量不宜超過15億。

      性能方面,批量寫入性能Clickhouse略優(yōu)于其他系統(tǒng),相同資源條件下明細(xì)查詢性能ClickHouse和StarRocks比Impala+Kudu更快,StarRocks有比較方便的物化視圖(Rollup)可以滿足統(tǒng)計(jì)查詢的需求,另外StarRocks在關(guān)聯(lián)查詢方面性能有比較明顯的優(yōu)勢。

      綜上所述,實(shí)時(shí)數(shù)倉方案,采用Kudu+StarRocks相結(jié)合,實(shí)現(xiàn)現(xiàn)有PGW實(shí)時(shí)會話業(yè)務(wù)。StarRocks作為主要技術(shù)組件,Kudu輔助實(shí)現(xiàn)字段級別更新業(yè)務(wù)場景。

      3.現(xiàn)有技術(shù)框架

      3.1、現(xiàn)有技術(shù)框架整體介紹

      為解決現(xiàn)有的業(yè)務(wù)痛點(diǎn),同時(shí)平衡在實(shí)時(shí)數(shù)據(jù)處理技術(shù)實(shí)現(xiàn)上的難點(diǎn)。我們摒棄了部分技術(shù)組件,采用新的技術(shù)組件搭建整個(gè)實(shí)時(shí)數(shù)倉用于滿足PGW實(shí)時(shí)會話業(yè)務(wù)。其中StarRocks可以滿足大多場景的需求。

      PGW會話業(yè)務(wù)中流式Join問題,一部分我們通過在StarRocks中星型建模的方案的解決,另一部分我們借助關(guān)系型內(nèi)存數(shù)據(jù)庫VoltDB+Google Guava Cache,流式組件處理過程中代碼實(shí)現(xiàn)。

      存量數(shù)據(jù)的排序、實(shí)時(shí)分析問題。我們借助StarRocksrange分區(qū)以及高效的OLAP性能初步緩解。

      最后統(tǒng)一OLAP分析平臺,我們完全借助StarRocks實(shí)現(xiàn)。

      3.2、StarRocks解決的痛點(diǎn)和挑戰(zhàn)

      1.充分利用StarRocks在多表join方面的性能優(yōu)化,如Colocate Join、內(nèi)存表等特性。將原來的流式j(luò)oin方案改為通過星型建模方案,在數(shù)據(jù)服務(wù)層進(jìn)行多表join的聯(lián)邦查詢;

      2.通過StarRocks動態(tài)分區(qū)特性對存量數(shù)據(jù)進(jìn)行分區(qū),然后利用Bitmap數(shù)據(jù)類型進(jìn)行精確去重,然后再在各分區(qū)內(nèi)完成排序。排序的結(jié)果進(jìn)一步匯總到一張數(shù)據(jù)表中,和實(shí)時(shí)到來的數(shù)據(jù)放在一起排序,可以有效地解決數(shù)據(jù)亂序問題,并且保證數(shù)據(jù)分析的效率。

      3.StarRocks可作為數(shù)據(jù)服務(wù)層的統(tǒng)一對外引擎,一方面保證查詢性能,另一方面避免了原來多技術(shù)組件帶來的冗余問題,極大降低了系統(tǒng)的管理成本。

      4.技術(shù)實(shí)現(xiàn)方面:替代Hbase部分業(yè)務(wù),緩解了Hbase分區(qū)分裂帶來的性能問題;通過ES外表引擎,解決ES表不能進(jìn)行join、語法特殊等技術(shù)問題。

      StarRocks在具體項(xiàng)目上的應(yīng)用及優(yōu)化

      目前StarRocks集群總共25臺BE,4臺FE,存儲采用支持采用NVME協(xié)議的SSD硬盤。

      1.PGW用戶實(shí)時(shí)位置軌跡

      1.1、方案介紹

      實(shí)時(shí)收集到的GGSN報(bào)文,通過StarRocks的聚合模型,將發(fā)生位置變更軌跡的明細(xì)數(shù)據(jù)實(shí)時(shí)沉淀下來。并對不同的區(qū)域維度生成Rollup表。最細(xì)粒度到基站級別,然后生成省、地市級別的Rollup表以供不同業(yè)務(wù)查詢。

      GGSN報(bào)文量35萬/s,通過SparkStreaming處理解析后,每1分鐘StreamLoad一次入StarRocks。

      1.2、方案優(yōu)化

      最開始因?yàn)镽ollup表建了省、地市、區(qū)縣、鄉(xiāng)鎮(zhèn),導(dǎo)致在寫入時(shí)IO負(fù)擔(dān)過大,寫入速度跟不上數(shù)據(jù)推送,SparkStreaming出現(xiàn)擠壓,后期通過性能測試Rollup表只建立了省、地市維度。同時(shí)新增一張鄉(xiāng)鎮(zhèn)base表,并在其基礎(chǔ)上建立區(qū)縣Rollup表。

      同時(shí)為保證查詢的時(shí)效性,base表Rollup表前綴索引在字段類型和選擇上按照官方建議,避免使用Varchar類型。

      2.區(qū)域會話明細(xì)模型

      2.1、項(xiàng)目背景

      數(shù)據(jù)服務(wù)層需對外提供每張物聯(lián)卡,統(tǒng)一會話發(fā)生位置變更后在不同區(qū)域的套餐使用情況,會話時(shí)常等信息。進(jìn)而統(tǒng)計(jì)物聯(lián)卡各區(qū)域的漫入漫出情況。

      2.2、項(xiàng)目方案

      實(shí)時(shí)收集到的GGSN報(bào)文,通過StarRocks的聚合模型,將發(fā)生位置變更時(shí)的套餐記錄,變更時(shí)間沉淀下來。然后通過定時(shí)任務(wù),從聚合模型明細(xì)數(shù)據(jù)中計(jì)算出套餐使用情況,會話時(shí)長,生成新的DWD表。StarRocks目前的物化視圖很有用,但還不是很靈活,比如,只支持明細(xì)數(shù)據(jù)表模型,并且支持單表創(chuàng)建物化視圖,不支持多表Join構(gòu)建物化視圖。

      StarRocks在中移物聯(lián)網(wǎng)PGW實(shí)時(shí)會話業(yè)務(wù)領(lǐng)域的展望

      一方面我們目前了解到,StarRocks開發(fā)團(tuán)隊(duì),目前正在解決StarRocks字段級別無法支持更新的短板。在未來StarRocks升級過程中,我們可能會摒棄掉Kudu,完全借助StarRocks實(shí)現(xiàn)實(shí)時(shí)數(shù)倉技術(shù)架構(gòu)。

      另一方面,我們期待StarRocks物化視圖的靈活性更高,可以支持Join級別的物化視圖和不同表引擎的物化視圖。除此之外,在接下來的項(xiàng)目開發(fā)過程中我們也計(jì)劃進(jìn)一步使用bitmap索引、Colocation Join等更豐富的功能提高我們的查詢速度。

      除此之外,為了完善實(shí)時(shí)數(shù)倉的分層結(jié)構(gòu),我們計(jì)劃在未來使用Flink來對接StarRocks,保證數(shù)倉的分層結(jié)構(gòu),同時(shí)進(jìn)一步完善統(tǒng)一的OLAP數(shù)據(jù)分析平臺。(作者:寧彥輝中移物聯(lián)網(wǎng)大數(shù)據(jù)開發(fā)工程師,主要從事流計(jì)算開發(fā)、物聯(lián)網(wǎng)機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘以及OLAP查詢引擎數(shù)據(jù)開發(fā))

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費(fèi)品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎”金獎,有力證明了其在全球市場的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎

    近日,中國家電及消費(fèi)電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。