小紅書本地“坐抖望團”CrowdStrike“全球滅霸響指”事件后續(xù),德國 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實況照片了蘋果有線耳機或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測屏幕指紋殘留,提高手機安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗全面升級
  • 首頁 > 企業(yè)IT頻道 > 大數(shù)據(jù)

    我們?yōu)槭裁葱枰冈圃髷?shù)據(jù)」?

    2022年08月31日 17:07:42   來源:數(shù)據(jù)說

      「云原生大數(shù)據(jù) 」已經(jīng)是現(xiàn)在科技領(lǐng)域的熱詞了,尤其是對于大中型企業(yè)的可擴展性和敏捷性開發(fā)需求而言。什么是「云原生大數(shù)據(jù)」呢?首先大數(shù)據(jù)是我們很熟悉的詞匯了,主要講的是儲存、使用、挖掘海量的數(shù)據(jù)。而因為數(shù)據(jù)量過大,因此無法在本地單機上運行,而必須在云上進行管理。云原生指的是進一步提升云服務(wù)的可擴展性(scalability)和敏捷性(agility),前者指的是處理數(shù)據(jù)的數(shù)量,后者指的是開發(fā)的便捷性。因此簡單來說, 云原生大數(shù)據(jù)就是「為了在更大的數(shù)據(jù)上做更快的開發(fā)」的這一類技術(shù)與平臺 。

      很多企業(yè)都有這樣的需求。以微信為例,它有超過3000個(微)服務(wù),而每天可能要更新部署超過一千次。流服務(wù)媒體奈飛(Netflix)有超過600個(微)服務(wù),每天也需要部署高達100多次 [1]。而云原生的重要性就在于把原本只有在本地上才可行的敏捷開發(fā)拓展到云上,從而支持海量運算的快速開發(fā),這樣也才能保證數(shù)據(jù)量巨大的應(yīng)用(比如微信)不需要離線測試和更新。

      云原生有很多優(yōu)點。首先它繼承了傳統(tǒng)云服務(wù)的優(yōu)點,著重于向外擴展而不是增大資源投放 。舉個簡單的例子,傳統(tǒng)的開發(fā)會找一個機器,然后讓它專門負責(zé)一個任務(wù),而隨著任務(wù)的拓展給它補充更多的資源(scale up)。但壞處很明顯,就是當這個機器出了問題以后整個任務(wù)就會下線。而云原生走的是向外擴展的思路(scale out),也就是說它虛擬出多個機器來共同完成任務(wù),而任意一臺機器的鼓掌不影響整體的運營。因此它可以很輕易的提升服務(wù)的擴展性,比如一個APP從服務(wù)1000人到2000人可能只需要加一個虛擬機即可,不容易遇到上限。

      上圖:資源擴展(scale up); 下圖:云原生所采取的向外擴展(scale out)

      其次云原生的另一個特點是著重微服務(wù)(microservice)和容器(container)來提高開發(fā)便捷性 。簡單來說,一個負責(zé)的系統(tǒng)可以被拆解為多個獨立但可以被組合的模塊(微服務(wù)),那么開發(fā)新的功能就只需要增加新的小模塊并與現(xiàn)有的組合。當我們部署這樣的新功能時,可以把打包好的功能放到統(tǒng)一的容器里。在這種情況下,我們無需每次重新處理所有的微服務(wù),而可以敏捷的進行替換和升級,簡單理解就像是充電電池。我們可以給每個電池單獨充電(類比微服務(wù)升級),充好電之后(微服務(wù)升級好了),即插即用替換現(xiàn)有的微服務(wù)即可。比如一款社交軟件如何給用戶推送內(nèi)容,可能就是一個微服務(wù),它改變推送策略一般是把這個部分拿出來做升級與AB測試,再逐步在云上替換掉所有用戶的推薦系統(tǒng)。因為云原生采用的是向外擴展,這樣可以對用戶進行獨立或者有對比的升級,不會造成任何服務(wù)的中斷。

      而在這些抽象的概念以外,其實原生云大數(shù)據(jù)從2013年被首次提出已經(jīng)逐步的被應(yīng)用到了越來越多的商業(yè)案例里 。國外的微軟在這個上面做的一直很好,而國內(nèi)的話騰訊云發(fā)起了首個原生大數(shù)據(jù)的生態(tài),也有很多用原生云大數(shù)據(jù)賦能產(chǎn)品的案例。

      以微信來說,它們正在使用騰訊云的原生云設(shè)計來進行數(shù)據(jù)挖掘和分析。其實不難想象微信的數(shù)據(jù)量有多大,畢竟月活超過十億。因此在這樣的海量用戶場景下,很容易產(chǎn)生龐大的數(shù)據(jù)量進行分析,尤其是在整合多種用戶信息時需要大量時間,往往準備數(shù)據(jù)就需要數(shù)個小時甚至以天來計算,以前的AB 測試的滯后性比較明顯。而近水樓臺先得月,微信現(xiàn)在用騰訊云的云數(shù)據(jù)倉庫來處理這樣的數(shù)據(jù),最大的優(yōu)勢就是把數(shù)據(jù)量的吞吐、儲存和挖掘問題轉(zhuǎn)移到了騰訊云,每秒可以吞吐10億+的數(shù)據(jù)。而微信的工程師只需要通過業(yè)務(wù)需求進行具體的分析和開發(fā),避免了把大量的時間放在等待上的問題。所以原生云大數(shù)據(jù)平臺的核心目的就是把儲存和開發(fā)中因為數(shù)據(jù)量造成的問題解決,而只把開發(fā)和分析問題留給使用者。

      作為一套系統(tǒng)完整的解決方案,云原生大數(shù)據(jù)的重要組件有「大數(shù)據(jù)的基礎(chǔ)引擎」,用來保存、倉儲和調(diào)用數(shù)據(jù),而在數(shù)據(jù)之上更重要的是「數(shù)據(jù)開發(fā)與治理」,即怎么從數(shù)據(jù)中挖掘有用的信息。當然再上層還可以集成各種商業(yè)可視化面板,從而更簡單的進行分析。而在這些系統(tǒng)的統(tǒng)籌下,原生云平臺可以支持各種重要的場景和應(yīng)用。

      騰訊云大數(shù)據(jù)架構(gòu)

      我個人認為在這一整套架構(gòu)中,最重要的部分就是底層的「大數(shù)據(jù)引擎」和中層的「數(shù)據(jù)開發(fā)與治理」, 非?疾旒夹g(shù)。而更難的是怎么有機的把這些技術(shù)模塊結(jié)合起來。

      在騰訊云的大數(shù)據(jù)引擎里,我個人覺得最有意思的是數(shù)據(jù)湖分析(DLC)和云數(shù)據(jù)倉庫(CDW)。先說數(shù)據(jù)湖分析DLC。和傳統(tǒng)的數(shù)據(jù)庫不同,數(shù)據(jù)湖(data lake)可以支持更大的數(shù)據(jù)存儲,它不僅可以支持保存關(guān)系數(shù)據(jù)庫(relational database),還可以保存半結(jié)構(gòu)化的數(shù)據(jù),比如CSV,JSON和XML等,甚至包括非結(jié)構(gòu)性的數(shù)據(jù),像是PDF、文檔、圖片,音視頻等。數(shù)據(jù)湖的出現(xiàn)讓我們有了一個統(tǒng)一的地方來儲存數(shù)據(jù)。 簡單來說,數(shù)據(jù)湖的出現(xiàn)避免了各個數(shù)據(jù)庫的孤立問題,為數(shù)據(jù)整合提供了一站式的地點 。騰訊云的DLC提供數(shù)據(jù)湖的數(shù)據(jù)分析因此也提供了:(1)從多個數(shù)據(jù)庫進行聯(lián)合查詢(2)serverless的架構(gòu)使得使用者無需關(guān)注底層架構(gòu),可以直接用SQL語句進行處理。數(shù)據(jù)湖分析的場景非常適合游戲開發(fā)和迭代,比如可以進行網(wǎng)絡(luò)游戲的運營和應(yīng)力分析,我們可以通過DLC把用戶的游戲日志和購買習(xí)慣等各種不同格式的數(shù)據(jù)拿到數(shù)據(jù)湖中,進行統(tǒng)一分析,從而最大化盈利。其中很有代表性的案例包括B站,可以通過游戲運營日志指標實時分析來為企業(yè)獲得更大的價值。

      而云數(shù)據(jù)倉庫(CDW)的目標主要是整合大數(shù)據(jù)(尤其是寬表類數(shù)據(jù)),從而進行統(tǒng)一分析 。以騰訊的云數(shù)據(jù)倉庫ClickHouse為例,它的主要目的是在短時間內(nèi)對于復(fù)雜的用戶特征進行分析,也就是我們常說的”大寬表”。即每個用戶可能在網(wǎng)絡(luò)上產(chǎn)生了個各種特征,比如購買習(xí)慣比如搜索習(xí)慣的,因此當我們把大量數(shù)據(jù)的行為整合起來,就會形成一個巨大的表格,不僅長度可能有上億行,寬度上可能也成千上萬(各種行為特征)。因此Clickhouse提供的就是一個開箱即用可擴展的數(shù)據(jù)整合工具。以下圖為例,大部分電商和營銷類企業(yè)都可以簡單的使用Clickhouse進行數(shù)據(jù)整合,從而篩選符合特征的用戶,并把數(shù)據(jù)喂到下一步的數(shù)據(jù)應(yīng)用里進行實時訂單分析或者精準營銷。

      以騰訊云的「數(shù)據(jù)開發(fā)與治理」平臺WeData為例 ,它的核心特色就在于云上的敏捷化開發(fā)和一體化操作。我們前面講了云原生大數(shù)據(jù)的一個重要就是需要敏捷化開發(fā),可以根據(jù)數(shù)據(jù)的反饋即時進行修正和部署,從需求、開發(fā)和部署的過程需要非?焖伲@也是現(xiàn)在新的概念叫做DataOps。而WeData的重要創(chuàng)新就是支持協(xié)同開發(fā),這個可以通多IDE和內(nèi)置的DAG實現(xiàn),而多人協(xié)作時一個很有用的功能就是數(shù)據(jù)可視化,這樣避免代碼層面的沖突。WeData因此在打通下游大數(shù)據(jù)引擎的前提下,同時支持快速的開發(fā)、迭代與部署。

      而在數(shù)據(jù)治理層面,另一個重點是安全性 。WeData在多人協(xié)作時可以精細化的控制每個人可以接觸到的數(shù)據(jù),從而防止有數(shù)據(jù)泄露的安全問題。敏捷性不代表我們應(yīng)該在開發(fā)中犧牲安全性。

      WeData數(shù)據(jù)開發(fā)治理平臺

      而結(jié)合這些引擎和處理系統(tǒng),云原生大數(shù)據(jù)確實已經(jīng)被應(yīng)用到了我們生活當中 。除了前文提到的知乎、微信、B站等,大部分我們熟悉的行業(yè)其實都已經(jīng)用上了云原生的技術(shù)。比如金融行業(yè)包括證券和銀行,它們利用云服務(wù),比如騰訊云,把多個渠道的用戶信息匯總,并在海量的數(shù)據(jù)里挖掘欺詐與洗錢,或是開設(shè)智能的風(fēng)控與理賠。又或是教育行業(yè),它們會利用原生云完成從個性化學(xué)習(xí)內(nèi)容推薦,智能測評與批改,到實時對學(xué)員表現(xiàn)進行分析的全鏈條支持。雖然有些功能對于小企業(yè)在本地也可以完成,但云原生的特性就是可以隨著用戶數(shù)的上升彈性擴容,提供一樣便捷的數(shù)據(jù)儲存和分析。

      因此云原生大數(shù)據(jù)確實是技術(shù)發(fā)展上不可阻擋的趨勢 。而隨著我們每天產(chǎn)生數(shù)據(jù)量的繼續(xù)的飛速增加,未來它的使用場景還會進一步拓展。人類現(xiàn)在每年產(chǎn)生的數(shù)據(jù)已經(jīng)是前十幾年的總和,而隨著越來越多的數(shù)據(jù)產(chǎn)生,我們也會從中有更多對自己和社會的理解,而更好的云服務(wù)和技術(shù)將會是其中重要的一環(huán)。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。