【友盟+】數(shù)據(jù)訓(xùn)練營(yíng)系列
【友盟+】數(shù)據(jù)存量高達(dá)60PB,相當(dāng)于A4紙正反面寫(xiě)滿(mǎn)數(shù)字并裝滿(mǎn)15萬(wàn)輛卡車(chē);【友盟+】每天的數(shù)據(jù)計(jì)算需要近2萬(wàn)個(gè)高性能CPU,每個(gè)CPU每1毫秒計(jì)算1億次,相當(dāng)于200個(gè)地球上的100億人24小時(shí)不間斷的運(yùn)算。
互聯(lián)網(wǎng)企業(yè)每天都會(huì)產(chǎn)生大量的業(yè)務(wù)數(shù)據(jù),如何構(gòu)建一個(gè)極速響應(yīng)、穩(wěn)定安全、低成本的數(shù)據(jù)存儲(chǔ)、加工、挖掘、應(yīng)用的全流程體系,成為企業(yè)實(shí)現(xiàn)數(shù)據(jù)化的關(guān)鍵。
【友盟+】工程師首次揭秘,友盟+是如何對(duì)超級(jí)體量數(shù)據(jù)進(jìn)行存儲(chǔ)與加工,為超過(guò)150萬(wàn)款應(yīng)用以及710萬(wàn)家網(wǎng)站提供全域數(shù)據(jù)服務(wù),并讓這些龐大的數(shù)據(jù)源源不斷的實(shí)現(xiàn)秒級(jí)計(jì)算與應(yīng)用。
我們將從三個(gè)部分展開(kāi):數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘、特征加工。
一.數(shù)據(jù)倉(cāng)庫(kù)是如何運(yùn)作的?
數(shù)據(jù)倉(cāng)庫(kù)輸入、輸出的是什么數(shù)據(jù)?數(shù)據(jù)倉(cāng)庫(kù)是如何運(yùn)作的?數(shù)據(jù)倉(cāng)庫(kù)到底做了什么?
我們先看一下數(shù)據(jù)倉(cāng)庫(kù),左邊是輸入數(shù)據(jù),第一是數(shù)據(jù)采集,直接通過(guò)JS代碼或者SDK采集設(shè)備行為數(shù)據(jù);第二是業(yè)務(wù)數(shù)據(jù)上傳;第三是營(yíng)銷(xiāo)領(lǐng)域的問(wèn)卷數(shù)據(jù)上傳、文件數(shù)據(jù)上傳等。右邊是輸出數(shù)據(jù)。數(shù)據(jù)經(jīng)過(guò)處理后主要以四種形式輸出,包括統(tǒng)計(jì)報(bào)表、數(shù)據(jù)超市、DMP、數(shù)據(jù)報(bào)告。
重點(diǎn)介紹中間的數(shù)據(jù)倉(cāng)庫(kù)!居衙+】數(shù)據(jù)存量高達(dá)60PB,如果用一張A4紙正反面寫(xiě)滿(mǎn)數(shù)字,把A4紙疊起來(lái)可以裝15萬(wàn)輛卡車(chē)。倉(cāng)庫(kù)里面有多少?gòu)埍砟?大概是上萬(wàn)張。我們每年計(jì)算/存儲(chǔ)成本非常高。
大數(shù)據(jù)的挖掘、分析和運(yùn)算就是我們的CPU,我們每天的運(yùn)算量需要2萬(wàn)個(gè)CPU,相當(dāng)于200個(gè)地球上的100億人24小時(shí)不間斷的運(yùn)算。
數(shù)據(jù)處理。這么龐大的數(shù)據(jù)量在數(shù)據(jù)倉(cāng)庫(kù)內(nèi)是如何運(yùn)作的?數(shù)據(jù)倉(cāng)庫(kù)組件分為四類(lèi):存儲(chǔ)框架、開(kāi)發(fā)工具、數(shù)據(jù)保障和數(shù)據(jù)管理。
第一, 存儲(chǔ)框架。包含(阿里云)ODPS、HDFS、Oracle、HBASE等。
第二,開(kāi)發(fā)工具。分為開(kāi)發(fā)平臺(tái)和調(diào)度器。調(diào)度器代表對(duì)這個(gè)關(guān)系的依賴(lài),讓這個(gè)任務(wù)完成之后進(jìn)行下一個(gè)任務(wù)的通知和運(yùn)行。
第三,數(shù)據(jù)保障機(jī)制,通過(guò)數(shù)據(jù)監(jiān)控去做保障,監(jiān)控任務(wù)、數(shù)據(jù)異常并報(bào)警,通過(guò)任務(wù)調(diào)度管理保障數(shù)據(jù)任務(wù)的優(yōu)先級(jí)和數(shù)據(jù)質(zhì)量。之前說(shuō)我們數(shù)據(jù)倉(cāng)庫(kù)里有上萬(wàn)張表,對(duì)每一個(gè)生產(chǎn)表打標(biāo)簽,快速定位到我們想要的表就是數(shù)據(jù)地圖。數(shù)據(jù)健康,如果1TB數(shù)據(jù)執(zhí)行一個(gè)小時(shí),就代表很慢,就可以通過(guò)數(shù)據(jù)優(yōu)化判斷出你的任務(wù),你的數(shù)據(jù)表可能不夠健康,你的健康分會(huì)被降低,健康分降低了優(yōu)先級(jí)就會(huì)降低。
第四,數(shù)據(jù)管理,比如開(kāi)發(fā)規(guī)范、數(shù)據(jù)空間管理、元數(shù)據(jù)管理。
1)開(kāi)發(fā)規(guī)范。這么大的數(shù)據(jù)量為避免數(shù)據(jù)重復(fù)開(kāi)發(fā)和浪費(fèi),我們會(huì)對(duì)代碼和命名進(jìn)行有效規(guī)范。還可以通過(guò)方法論,比如數(shù)據(jù)分層、統(tǒng)一語(yǔ)言,索引條件優(yōu)先等級(jí)劃分,都需要記錄在開(kāi)發(fā)規(guī)范中。
2)數(shù)據(jù)空間,就是我們有這么一個(gè)平臺(tái)能看到各個(gè)BU、各個(gè)平臺(tái)、各個(gè)部門(mén)現(xiàn)在的數(shù)據(jù)狀況。比如,有些同學(xué)可能SQL寫(xiě)的有問(wèn)題,出現(xiàn)傾斜之類(lèi)的,我們能夠快速的發(fā)現(xiàn)并通知,及時(shí)修復(fù)和優(yōu)化。
3)源數(shù)據(jù)管理,就是在這么大的一個(gè)數(shù)據(jù)管理里面快速查找到數(shù)據(jù)表是什么情況,這個(gè)數(shù)據(jù)是不是做了壓縮,包括任務(wù)是誰(shuí)提交的,提交時(shí)間等。同時(shí)還有每個(gè)數(shù)據(jù)公司對(duì)自己的數(shù)據(jù)資產(chǎn)有一個(gè)盤(pán)點(diǎn),有一個(gè)清晰的認(rèn)識(shí)。當(dāng)前我們到底有什么數(shù)據(jù),這樣的一個(gè)數(shù)據(jù)洞察的體系。
二. 數(shù)據(jù)挖掘,如何讓雜亂數(shù)據(jù)統(tǒng)一、分層解耦?
數(shù)據(jù)處理之后,是數(shù)據(jù)挖掘。數(shù)據(jù)挖掘一般分為6個(gè)步驟:數(shù)據(jù)挖掘、數(shù)據(jù)ETL,第三個(gè)是對(duì)數(shù)據(jù)進(jìn)行分析,然后提取出特征工程,從而進(jìn)行模擬訓(xùn)練,然后再進(jìn)行模型評(píng)估。
今天我們重點(diǎn)講兩塊,一個(gè)是數(shù)據(jù)的ETL,一個(gè)是特征工程。
1)ETL是什么呢?就是清洗、加工和加載。
第一是控制處理;
第二是數(shù)據(jù)格式化,比如說(shuō)時(shí)間格式,有些是秒,有些是毫秒,有些直接采用的就是年月日時(shí)分秒,用的時(shí)候肯定要統(tǒng)一,讓下游很方便的應(yīng)用;
第三是數(shù)據(jù)的驗(yàn)證。在我們已有的知識(shí)體系、業(yè)務(wù)邏輯、常識(shí)中,對(duì)數(shù)據(jù)的邏輯性進(jìn)行一個(gè)判別,如果不符合邏輯的話(huà),我們把這個(gè)數(shù)據(jù)進(jìn)行達(dá)標(biāo)和分割存儲(chǔ);
第四是數(shù)據(jù)補(bǔ)充。就是手機(jī)都會(huì)采集設(shè)備上的經(jīng)緯度,是一個(gè)負(fù)點(diǎn)數(shù),我們并不能直接理解,需要對(duì)數(shù)據(jù)進(jìn)行分割化,圈出一塊區(qū)域,對(duì)數(shù)據(jù)做POI關(guān)聯(lián),把經(jīng)緯度做轉(zhuǎn)化;
第五是公共層。以前的數(shù)據(jù)庫(kù)講的是泛式關(guān)系,大數(shù)據(jù)更多是OLTP、OLAP的概念。我們更多的以事實(shí)行為去做事實(shí)寬表。比如說(shuō)維度表以及數(shù)據(jù)的立方體。這里面提到了數(shù)據(jù)達(dá)標(biāo)和數(shù)據(jù)分割,一般會(huì)遵守的準(zhǔn)則是所有的數(shù)據(jù)進(jìn)到了數(shù)據(jù)倉(cāng)庫(kù),哪怕這個(gè)數(shù)據(jù)是無(wú)用的、是空的,我們也不會(huì)剔除。
有很多數(shù)據(jù)需要做數(shù)據(jù)分層,比方說(shuō)今天重新建了一張表,這個(gè)業(yè)務(wù)發(fā)生變化了,F(xiàn)在互聯(lián)網(wǎng)的狀態(tài)就是擁抱變化,每周都會(huì)不停的在開(kāi)發(fā)新表,如何用2分鐘就把這個(gè)表變了。分層業(yè)界里面都會(huì)分為三層:數(shù)據(jù)接入層ODS、數(shù)據(jù)公共層CDM、數(shù)據(jù)應(yīng)用層ADS。我們針對(duì)明細(xì)數(shù)據(jù)做分析,比如說(shuō)廣州市是廣東省的這樣一個(gè)對(duì)應(yīng)關(guān)系。公共聚合層就是數(shù)據(jù)立方體,數(shù)據(jù)應(yīng)用層就是針對(duì)不同的業(yè)務(wù)去劃分獨(dú)特的一塊區(qū)域,通過(guò)分層可以做到業(yè)務(wù)解耦。
數(shù)據(jù)加工中的一個(gè)拉鏈表,左邊這張表記錄了小明每年的學(xué)籍,小明在2012-2013年之間都是小學(xué),我們記錄開(kāi)始時(shí)間和結(jié)束時(shí)間。左邊這個(gè)數(shù)據(jù)到右邊這個(gè)數(shù)據(jù)很頻繁,只記錄狀態(tài)的變化就可以了。這個(gè)場(chǎng)景可能會(huì)應(yīng)用于哪些行業(yè)呢?比如電商系統(tǒng),這個(gè)商品今天做促銷(xiāo),明天促銷(xiāo)就取消了,對(duì)商品價(jià)格打一個(gè)快照。
這個(gè)表主要就是為了節(jié)省存儲(chǔ)空間,讓運(yùn)算速度更快。剛剛提到了數(shù)據(jù)立方體,做數(shù)據(jù)分析的同學(xué)會(huì)經(jīng)常接觸,也就是QB。
簡(jiǎn)單的畫(huà)了一個(gè)圖,橫坐標(biāo)是一個(gè)季度的維度,縱坐標(biāo)是品類(lèi)的維度,還有地區(qū)維度,構(gòu)成三維立方體。現(xiàn)實(shí)中的維度遠(yuǎn)遠(yuǎn)不止三個(gè),它會(huì)變成9塊,每個(gè)這樣的組合至少有9種組合關(guān)系,現(xiàn)實(shí)中這個(gè)關(guān)系有可能是10個(gè)、20個(gè)。當(dāng)擴(kuò)大到20的時(shí)候數(shù)據(jù)量非常龐大。怎么處理呢?維度的組合關(guān)系,一般還會(huì)有一級(jí)分類(lèi)、二級(jí)分類(lèi),一級(jí)分類(lèi)必然是和二級(jí)分類(lèi)有關(guān)系。比如江蘇省,另一個(gè)維度是城市,南京市必然是江蘇省,把這些維度做一些關(guān)聯(lián),我們一般叫關(guān)聯(lián)維度的結(jié)合。
數(shù)據(jù)立方體的鉆取。就是對(duì)某一個(gè)維度進(jìn)行下鉆,對(duì)月份進(jìn)行下鉆,就是對(duì)維度進(jìn)行細(xì)分。我們來(lái)看一個(gè)季度的分布,上卷就看到一、二、三季度的分布。我們鎖定了品類(lèi)的維度叫電子產(chǎn)品,去看季度、地區(qū)的情況,這叫切片。切塊很簡(jiǎn)單,多個(gè)維度就變成了切塊。以季度和地區(qū)去看品類(lèi)的情況,做立體三維空間的反轉(zhuǎn),就是數(shù)據(jù)立方體。
三. 特征加工,如何提取有價(jià)值的特征?
如何在這么多數(shù)據(jù)中提取跟用戶(hù)相關(guān)、跟設(shè)備相關(guān)的特征?通常將特征分為四大類(lèi),第一是基本特征,比如空降的種類(lèi)、數(shù)量、金額、重量、長(zhǎng)度等;還有時(shí)間上的時(shí)長(zhǎng)、次數(shù)、購(gòu)買(mǎi)次數(shù);還有比例上的,比如男女比例,平均比例等;還有復(fù)雜特征,就是將基本特征和統(tǒng)計(jì)特征做一個(gè)組合;還有自然特征,比如聲音、圖像等。
對(duì)這個(gè)特征進(jìn)行分析,大概會(huì)分為這幾個(gè)步驟,特征分析、特征選取、特征評(píng)估。比如對(duì)用戶(hù)的換機(jī)的判斷。第一步先要去想特征,比如性別、年齡、收入水平、財(cái)富水平,興趣偏好等。
第二塊就是從現(xiàn)有的數(shù)據(jù)里提取出來(lái),能夠采集到APP數(shù)據(jù),用戶(hù)喜歡哪個(gè)APP,是玩游戲還是購(gòu)物。特征的評(píng)估是針對(duì)這個(gè)數(shù)據(jù)做分析,比如這個(gè)數(shù)據(jù)是不是可靠。
簡(jiǎn)述特征處理的3種方式
1)二值化:將一個(gè)特征轉(zhuǎn)換成用0/1表示的多個(gè)特征
解決兩個(gè)特征的差沒(méi)有意義的情況,尤其針對(duì)枚舉值;
例如:性別男和女,或者年齡段,比如20、30相加相減都是沒(méi)有意義的。所以我們處理特征,第一位1表示男,第2位1表示女。
2)權(quán)重和平滑處理
用戶(hù)特征往往無(wú)法拿到具體值,比如品牌特征,用戶(hù)往往并不是只對(duì)某一品牌感興趣,而是對(duì)多個(gè)品牌感興趣,只是感興趣的程度不一樣。例如:[lily:0.5, Loft Shine:0.2, J.crew:0.15];時(shí)間衰減,歷史數(shù)據(jù)進(jìn)行權(quán)重處理,如果沒(méi)有新增,數(shù)據(jù)更平滑。
3)合理化:異常值發(fā)現(xiàn)
根據(jù)常識(shí)或知識(shí)體系,剔除不合理數(shù)據(jù),避免對(duì)特征的影響。
比如,一個(gè)用戶(hù)的定位數(shù)據(jù),100條記錄都在北京,其中有1條在廣州且時(shí)間與其他記錄相差幾分鐘,可以對(duì)該數(shù)據(jù)進(jìn)行標(biāo)注。
【友盟+】全球領(lǐng)先的第三方全域數(shù)據(jù)服務(wù)商。 擁有實(shí)時(shí)更新的全域數(shù)據(jù)資源、7億真實(shí)活躍消費(fèi)者畫(huà)像體系、強(qiáng)大的數(shù)據(jù)技術(shù)和領(lǐng)先的算法能力。在此之上,【友盟+】構(gòu)建了以DIP數(shù)據(jù)智能平臺(tái)為核心,涵蓋用戶(hù)增值、數(shù)據(jù)營(yíng)銷(xiāo)、新零售、金融風(fēng)控等服務(wù)的大數(shù)據(jù)產(chǎn)品體系。并通過(guò)靈活的SaaS+PaaS模式,激發(fā)企業(yè)和品牌的數(shù)據(jù)智能潛力,驅(qū)動(dòng)品牌持續(xù)增長(zhǎng)。
作者 |【友盟+】數(shù)據(jù)研發(fā)專(zhuān)家 吳丹
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
京東11.11采銷(xiāo)直播探廠為消費(fèi)者揭開(kāi)答案。近日,京東3C數(shù)碼采銷(xiāo)走進(jìn)武漢攀升工廠、合肥聯(lián)想工廠和科大訊飛展廳,通過(guò)直播帶貨廠商爆款產(chǎn)品,并為消費(fèi)者帶來(lái)超值低價(jià)與福利。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶(hù)就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性?xún)r(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專(zhuān)題論壇在沈陽(yáng)成功舉辦。