中國(guó)品牌,讓東南亞感受“消費(fèi)升級(jí)”小紅書本地“坐抖望團(tuán)”CrowdStrike“全球滅霸響指”事件后續(xù),德國(guó) 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺(tái)合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺(tái),加速數(shù)字化轉(zhuǎn)型重慶:力爭(zhēng)今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級(jí)產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實(shí)況照片了蘋果有線耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會(huì)官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進(jìn)化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國(guó)AR/VR出貨23.3萬臺(tái),同比下滑了 29.1%IDC:2024 上半年中國(guó) AR / VR 頭顯出貨 23.3 萬臺(tái),同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測(cè)屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個(gè)運(yùn)行時(shí)安全解決方案,實(shí)現(xiàn)從代碼到云的全面軟件完整性和可追溯性
  • 首頁(yè) > 企業(yè)IT頻道 > 數(shù)字化

    數(shù)倉(cāng)知識(shí):關(guān)于數(shù)據(jù)倉(cāng)庫(kù)分層設(shè)計(jì)

    2022年08月17日 10:33:37   來源:讀數(shù)據(jù)

      前言:

      不是做數(shù)倉(cāng)的,但是也需要了解數(shù)倉(cāng)的知識(shí)。

      其實(shí)分層好多因人而異,問了同事好多分層的區(qū)別也不是很清晰。

      所以后續(xù)有機(jī)會(huì)還是跟數(shù)倉(cāng)的同事碰一下吧~

      一. 各種名詞解釋

      1.1 ODS是什么?

      ODS層最好理解,基本上就是數(shù)據(jù)從源表拉過來,進(jìn)行etl,比如mysql 映射到hive,那么到了hive里面就是ods層。

      ODS 全稱是 Operational Data Store,操作數(shù)據(jù)存儲(chǔ).“面向主題的”,數(shù)據(jù)運(yùn)營(yíng)層,也叫ODS層,是最接近數(shù)據(jù)源中數(shù)據(jù)的一層,數(shù)據(jù)源中的數(shù)據(jù),經(jīng)過抽取、洗凈、傳輸,也就說傳說中的 ETL 之后,裝入本層。本層的數(shù)據(jù),總體上大多是按照源頭業(yè)務(wù)系統(tǒng)的分類方式而分類的。但是,這一層面的數(shù)據(jù)卻不等同于原始數(shù)據(jù)。在源數(shù)據(jù)裝入這一層時(shí),要進(jìn)行諸如去噪(例如有一條數(shù)據(jù)中人的年齡是 300 歲,這種屬于異常數(shù)據(jù),就需要提前做一些處理)、去重(例如在個(gè)人資料表中,同一 ID 卻有兩條重復(fù)數(shù)據(jù),在接入的時(shí)候需要做一步去重)、字段命名規(guī)范等一系列操作。

      1.2 數(shù)據(jù)倉(cāng)庫(kù)層DW?

      數(shù)據(jù)倉(cāng)庫(kù)層(DW),是數(shù)據(jù)倉(cāng)庫(kù)的主體.在這里,從 ODS 層中獲得的數(shù)據(jù)按照主題建立各種數(shù)據(jù)模型。這一層和維度建模會(huì)有比較深的聯(lián)系。

      細(xì)分:

      數(shù)據(jù)明細(xì)層:DWD(Data Warehouse Detail)

      數(shù)據(jù)中間層:DWM(Data WareHouse Middle)

      數(shù)據(jù)服務(wù)層:DWS(Data WareHouse Servce)

      1.2.1 DWD明細(xì)層?

      明細(xì)層(ODS, Operational Data Store,DWD: data warehouse detail)

      概念:是數(shù)據(jù)倉(cāng)庫(kù)的細(xì)節(jié)數(shù)據(jù)層,是對(duì)STAGE層數(shù)據(jù)進(jìn)行沉淀,減少了抽取的復(fù)雜性,同時(shí)ODS/DWD的信息模型組織主要遵循企業(yè)業(yè)務(wù)事務(wù)處理的形式,將各個(gè)專業(yè)數(shù)據(jù)進(jìn)行集中,明細(xì)層跟stage層的粒度一致,屬于分析的公共資源

      數(shù)據(jù)生成方式:部分?jǐn)?shù)據(jù)直接來自kafka,部分?jǐn)?shù)據(jù)為接口層數(shù)據(jù)與歷史數(shù)據(jù)合成。

      這個(gè)stage層不是很清晰

      1.2.2 DWM 輕度匯總層(MID或DWB, data warehouse basis)

      概念:輕度匯總層數(shù)據(jù)倉(cāng)庫(kù)中DWD層和DM層之間的一個(gè)過渡層次,是對(duì)DWD層的生產(chǎn)數(shù)據(jù)進(jìn)行輕度綜合和匯總統(tǒng)計(jì)(可以把復(fù)雜的清洗,處理包含,如根據(jù)PV日志生成的會(huì)話數(shù)據(jù))。輕度綜合層與DWD的主要區(qū)別在于二者的應(yīng)用領(lǐng)域不同,DWD的數(shù)據(jù)來源于生產(chǎn)型系統(tǒng),并未滿意一些不可預(yù)見的需求而進(jìn)行沉淀;輕度綜合層則面向分析型應(yīng)用進(jìn)行細(xì)粒度的統(tǒng)計(jì)和沉淀

      數(shù)據(jù)生成方式:由明細(xì)層按照一定的業(yè)務(wù)需求生成輕度匯總表。明細(xì)層需要復(fù)雜清洗的數(shù)據(jù)和需要MR處理的數(shù)據(jù)也經(jīng)過處理后接入到輕度匯總層。

      日志存儲(chǔ)方式:內(nèi)表,parquet文件格式。

      日志刪除方式:長(zhǎng)久存儲(chǔ)。

      表schema:一般按天創(chuàng)建分區(qū),沒有時(shí)間概念的按具體業(yè)務(wù)選擇分區(qū)字段。

      庫(kù)與表命名。庫(kù)名:dwb,表名:初步考慮格式為:dwb日期業(yè)務(wù)表名,待定。

      舊數(shù)據(jù)更新方式:直接覆蓋

      1.2.3 DWS 主題層(DM,data market或DWS, data warehouse service)

      概念:又稱數(shù)據(jù)集市或?qū)挶。按照業(yè)務(wù)劃分,如流量、訂單、用戶等,生成字段比較多的寬表,用于提供后續(xù)的業(yè)務(wù)查詢,OLAP分析,數(shù)據(jù)分發(fā)等。

      數(shù)據(jù)生成方式:由輕度匯總層和明細(xì)層數(shù)據(jù)計(jì)算生成。

      日志存儲(chǔ)方式:使用impala內(nèi)表,parquet文件格式。

      日志刪除方式:長(zhǎng)久存儲(chǔ)。

      表schema:一般按天創(chuàng)建分區(qū),沒有時(shí)間概念的按具體業(yè)務(wù)選擇分區(qū)字段。

      庫(kù)與表命名。庫(kù)名:dm,表名:初步考慮格式為:dm日期業(yè)務(wù)表名,待定。

      舊數(shù)據(jù)更新方式:直接覆蓋

      1.3 APP?

      數(shù)據(jù)產(chǎn)品層(APP),這一層是提供為數(shù)據(jù)產(chǎn)品使用的結(jié)果數(shù)據(jù)。

      主要是提供給數(shù)據(jù)產(chǎn)品和數(shù)據(jù)分析使用的數(shù)據(jù),一般會(huì)存放在 ES、Mysql 等系統(tǒng)中供線上系統(tǒng)使用,也可能會(huì)存在 Hive 或者 Druid 中供數(shù)據(jù)分析和數(shù)據(jù)挖掘使用。

      如我們經(jīng)常說的報(bào)表數(shù)據(jù),或者說那種大寬表,一般就放在這里。

      應(yīng)用層(App)

      概念:應(yīng)用層是根據(jù)業(yè)務(wù)需要,由前面三層數(shù)據(jù)統(tǒng)計(jì)而出的結(jié)果,可以直接提供查詢展現(xiàn),或?qū)胫罬ysql中使用。

      數(shù)據(jù)生成方式:由明細(xì)層、輕度匯總層,數(shù)據(jù)集市層生成,一般要求數(shù)據(jù)主要來源于集市層。

      日志存儲(chǔ)方式:使用impala內(nèi)表,parquet文件格式。

      日志刪除方式:長(zhǎng)久存儲(chǔ)。

      表schema:一般按天創(chuàng)建分區(qū),沒有時(shí)間概念的按具體業(yè)務(wù)選擇分區(qū)字段。

      庫(kù)與表命名。庫(kù)名:暫定apl,另外根據(jù)業(yè)務(wù)不同,不限定一定要一個(gè)庫(kù)。(其實(shí)就叫app_)就好了

      舊數(shù)據(jù)更新方式:直接覆蓋。

      1.4 數(shù)據(jù)的來源

      數(shù)據(jù)主要會(huì)有兩個(gè)大的來源:

      業(yè)務(wù)庫(kù),這里經(jīng)常會(huì)使用 Sqoop 來抽取

      我們業(yè)務(wù)庫(kù)用的是databus來進(jìn)行接收,處理kafka就好了。

      在實(shí)時(shí)方面,可以考慮用 Canal 監(jiān)聽 Mysql 的 Binlog,實(shí)時(shí)接入即可。(有機(jī)會(huì)補(bǔ)一下這個(gè)canal)

      埋點(diǎn)日志,線上系統(tǒng)會(huì)打入各種日志,這些日志一般以文件的形式保存,我們可以選擇用 Flume 定時(shí)抽取,也可以用用 Spark Streaming 或者 Storm 來實(shí)時(shí)接入,當(dāng)然,Kafka 也會(huì)是一個(gè)關(guān)鍵的角色。

      還有使用filebeat收集日志,打到kafka,然后處理日志

      注意: 在這層,理應(yīng)不是簡(jiǎn)單的數(shù)據(jù)接入,而是要考慮一定的數(shù)據(jù)清洗,比如異常字段的處理、字段命名規(guī)范化、時(shí)間字段的統(tǒng)一等,一般這些很容易會(huì)被忽略,但是卻至關(guān)重要。特別是后期我們做各種特征自動(dòng)生成的時(shí)候,會(huì)十分有用。

      1.5 ODS、DW → App層

      這里面也主要分兩種類型:

      每日定時(shí)任務(wù)型:比如我們典型的日計(jì)算任務(wù),每天凌晨算前一天的數(shù)據(jù),早上起來看報(bào)表。 這種任務(wù)經(jīng)常使用 Hive、Spark 或者生擼 MR 程序來計(jì)算,最終結(jié)果寫入 Hive、Hbase、Mysql、Es 或者 Redis 中。

      實(shí)時(shí)數(shù)據(jù):這部分主要是各種實(shí)時(shí)的系統(tǒng)使用,比如我們的實(shí)時(shí)推薦、實(shí)時(shí)用戶畫像,一般我們會(huì)用 Spark Streaming、Storm 或者 Flink 來計(jì)算,最后會(huì)落入 Es、Hbase 或者 Redis 中。

      1.6 維表層DIM?

      維表層(Dimension)

      最后補(bǔ)充一個(gè)維表層,維表層主要包含兩部分?jǐn)?shù)據(jù):

      高基數(shù)維度數(shù)據(jù):一般是用戶資料表、商品資料表類似的資料表。數(shù)據(jù)量可能是千萬級(jí)或者上億級(jí)別。

      低基數(shù)維度數(shù)據(jù):一般是配置表,比如枚舉值對(duì)應(yīng)的中文含義,或者日期維表。數(shù)據(jù)量可能是個(gè)位數(shù)或者幾千幾萬。

      1.7 層級(jí)的簡(jiǎn)單分層圖

      見下圖,對(duì)DWD層在進(jìn)行加工的話,就是DWM層(MID層)(我們的數(shù)倉(cāng)還是有很多dwm層的)

    【漫談數(shù)據(jù)倉(cāng)庫(kù)】 如何優(yōu)雅地設(shè)計(jì)數(shù)據(jù)分層

      這里解釋一下DWS、DWD、DIM和TMP的作用。

      DWS:輕度匯總層,從ODS層中對(duì)用戶的行為做一個(gè)初步的匯總,抽象出來一些通用的維度:時(shí)間、ip、id,并根據(jù)這些維度做一些統(tǒng)計(jì)值,比如用戶每個(gè)時(shí)間段在不同登錄ip購(gòu)買的商品數(shù)等。這里做一層輕度的匯總會(huì)讓計(jì)算更加的高效,在此基礎(chǔ)上如果計(jì)算僅7天、30天、90天的行為的話會(huì)快很多。我們希望80%的業(yè)務(wù)都能通過我們的DWS層計(jì)算,而不是ODS。

      DWD:這一層主要解決一些數(shù)據(jù)質(zhì)量問題和數(shù)據(jù)的完整度問題。比如用戶的資料信息來自于很多不同表,而且經(jīng)常出現(xiàn)延遲丟數(shù)據(jù)等問題,為了方便各個(gè)使用方更好的使用數(shù)據(jù),我們可以在這一層做一個(gè)屏蔽。(匯總多個(gè)表)

      DIM:這一層比較單純,舉個(gè)例子就明白,比如國(guó)家代碼和國(guó)家名、地理位置、中文名、國(guó)旗圖片等信息就存在DIM層中。

      TMP:每一層的計(jì)算都會(huì)有很多臨時(shí)表,專設(shè)一個(gè)DWTMP層來存儲(chǔ)我們數(shù)據(jù)倉(cāng)庫(kù)的臨時(shí)表。

      二. 問題

      2.1 DWS 與 DWD?

      問答一: dws 和 dwd 的關(guān)系

      問:dws 和dwd 是并行而不是先后順序?

      答:并行的,dw 層

      問:那其實(shí)對(duì)于同一個(gè)數(shù)據(jù),這兩個(gè)過程是串行的?

      答:dws 會(huì)做匯總,dwd 和 ods 的粒度相同,這兩層之間也沒有依賴的關(guān)系

      問:對(duì)呀,那這樣 dws 里面的匯總沒有經(jīng)過數(shù)據(jù)質(zhì)量和完整度的處理,或者單獨(dú)做了這種質(zhì)量相關(guān)的處理,為什么不在 dwd 之上再做匯總呢?我的疑問其實(shí)就是,dws的輕度匯總數(shù)據(jù)結(jié)果,有沒有做數(shù)據(jù)質(zhì)量的處理?

      答:ods 直接到 dws 就好,沒必要過 dwd,我舉個(gè)例子,你的瀏覽商品行為,我做一層輕度匯總,就直接放在 dws 了。但是你的資料表,要從好多表湊成一份,我們從四五份個(gè)人資料表中湊出來了一份完整的資料表放在了 dwd 中。然后在 app 層,我們要出一張畫像表,包含用戶資料和用戶近一年的行為,我們就直接從dwd中拿資料, 然后再在 dws 的基礎(chǔ)上做一層統(tǒng)計(jì),就成一個(gè)app表了。當(dāng)然,這不是絕對(duì),dws 和 dwd 有沒有依賴關(guān)系主要看有沒有這種需求。

      2.2 ODS與DWD區(qū)別?

      問:還是不太明白 ods 和 dwd 層的區(qū)別,有了 ods 層后感覺 dwd 沒有什么用了。

      答:嗯,我是這樣理解的,站在一個(gè)理想的角度來講,如果 ods 層的數(shù)據(jù)就非常規(guī)整,基本能滿足我們絕大部分的需求,這當(dāng)然是好的,這時(shí)候 dwd 層其實(shí)也沒太大必要。 但是現(xiàn)實(shí)中接觸的情況是 ods 層的數(shù)據(jù)很難保證質(zhì)量,畢竟數(shù)據(jù)的來源多種多樣,推送方也會(huì)有自己的推送邏輯,在這種情況下,我們就需要通過額外的一層 dwd 來屏蔽一些底層的差異。

      問:我大概明白了,是不是說 dwd 主要是對(duì) ods 層做一些數(shù)據(jù)清洗和規(guī)范化的操作,dws 主要是對(duì) ods 層數(shù)據(jù)做一些輕度的匯總?

      答:對(duì)的,可以大致這樣理解。

      2.3 app層干什么的?

      問答三:app 層是干什么的?

      問:感覺數(shù)據(jù)集市層是不是沒地方放了,各個(gè)業(yè)務(wù)的數(shù)據(jù)集市表是應(yīng)該在 dwd 還是在 app?

      答:這個(gè)問題不太好回答,我感覺主要就是明確一下數(shù)據(jù)集市層是干什么的,如果你的數(shù)據(jù)集市層放的就是一些可以供業(yè)務(wù)方使用的寬表表,放在 app 層就行。如果你說的數(shù)據(jù)集市層是一個(gè)比較泛一點(diǎn)的概念,那么其實(shí) dws、dwd、app 這些合起來都算是數(shù)據(jù)集市的內(nèi)容。

      問:那存到 Redis、ES 中的數(shù)據(jù)算是 app層嗎?

      答:算是的,我個(gè)人的理解,app 層主要存放一些相對(duì)成熟的表,能供業(yè)務(wù)側(cè)使用的。這些表可以在 Hive 中,也可以是從 Hive 導(dǎo)入 Redis 或者 ES 這種查詢性能比較好的系統(tǒng)中。

      三. 總結(jié)

      另一個(gè)博主的圖蠻好:

      主題(Subject)是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)進(jìn)行綜合、歸類和分析利用的一個(gè)抽象概念,每一個(gè)主題基本對(duì)應(yīng)一個(gè)宏觀的分析領(lǐng)域。在邏輯意義上,它是對(duì)應(yīng)企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對(duì)象。例如“銷售分析”就是一個(gè)分析領(lǐng)域,因此這個(gè)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的主題就是“銷售分析”。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會(huì)即將開幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。