歷經(jīng)十多年發(fā)展,大數(shù)據(jù)應(yīng)用井噴式涌現(xiàn),不但讓商業(yè)和企業(yè)的先行者利用了數(shù)據(jù)的價(jià)值,獲得商業(yè)成功,而且改變了當(dāng)前全球企業(yè)業(yè)務(wù)發(fā)展的驅(qū)動(dòng)力,由原來的流程等驅(qū)動(dòng),發(fā)展到現(xiàn)在的數(shù)據(jù)驅(qū)動(dòng)。
另一個(gè)變化就是在企業(yè)級(jí)市場(chǎng),大數(shù)據(jù)核心軟件主要由國外企業(yè)把持的市場(chǎng)格局開始松動(dòng),中國大數(shù)據(jù)核心軟件迅速成長,在一些方面實(shí)現(xiàn)了超越。
在全球大數(shù)據(jù)軟件分工越來越專業(yè)、競(jìng)爭(zhēng)越來越有序的環(huán)境下,大數(shù)據(jù)應(yīng)用對(duì)大數(shù)據(jù)基礎(chǔ)軟件提出了更高的要求,在大數(shù)據(jù)核心軟件眾多發(fā)展路線中,誰會(huì)邁過這道坎,引領(lǐng)發(fā)展呢?
技術(shù)路線之爭(zhēng)延綿十余年
在大數(shù)據(jù)基礎(chǔ)軟件發(fā)展中,技術(shù)路線發(fā)展演繹精彩紛呈,令人目不暇接。不過,經(jīng)過多方采訪,記者發(fā)現(xiàn)目前大數(shù)據(jù)軟件的技術(shù)路線基本可以分為四大類:
第一條技術(shù)路線就是Hadoop
提起大數(shù)據(jù),依然不能不提Hadoop。因?yàn)镠adoop讓海量的數(shù)據(jù)能分布存儲(chǔ),并能分布的存取與處理。過去Hadoop幾乎成了大數(shù)據(jù)的代名詞。在大數(shù)據(jù)發(fā)展中,開源大數(shù)據(jù)平臺(tái)Hadoop占據(jù)至關(guān)重要的地位。Cloudera、Hortonworks、MapR是Hadoop的三駕馬車。
提到Hadoop,就不能不提Cloudera。雖然Cloudera也發(fā)布商業(yè)化工具產(chǎn)品,但以提供Hadoop發(fā)行版為主。產(chǎn)品分為免費(fèi)版和企業(yè)版,只有企業(yè)版的核心組件不對(duì)外開放,其他技術(shù)均提供給社區(qū)。
Hortonworks就是通過Hadoop框架搭建其產(chǎn)品的最大的一家公司,將自己的技術(shù)完全貢獻(xiàn)給社區(qū),不靠產(chǎn)品獲利,而是靠向企業(yè)客戶提供支持服務(wù)和后期維護(hù)盈利。
MapR以發(fā)布商業(yè)化工具產(chǎn)品為主,同時(shí)提供Hadoop發(fā)行版;陂_源技術(shù),提高穩(wěn)定性,同時(shí)強(qiáng)化了一些高級(jí)功能,定制化程度較高,核心技術(shù)是不公開的,營收主要來自軟件收入。MapR的企業(yè)級(jí)產(chǎn)品的優(yōu)勢(shì)是更好地管理和確保數(shù)據(jù)在Hadoop中的可恢復(fù)性和可靠性,以及多租戶和高可用性功能提供了工具。
專家認(rèn)為,作為大數(shù)據(jù)基礎(chǔ)軟件的一大技術(shù)路線,基于開源Hadoop發(fā)展的最大優(yōu)勢(shì)就是可處理的數(shù)據(jù)量龐大且運(yùn)行穩(wěn)定。在節(jié)點(diǎn)資源不增加的情況下,運(yùn)行速度雖然不占優(yōu)勢(shì),但卻十分穩(wěn)定。既是優(yōu)勢(shì)也是劣勢(shì),Hadoop在批處理方面的強(qiáng)大無法掩蓋其在交互式分析和流處理方面的缺憾。
第二條技術(shù)路線就是Spark。
Gartner連續(xù)多年唱衰Hadoop,并認(rèn)為,盡管企業(yè)對(duì)大數(shù)據(jù)解決方案的需求不斷增長,但對(duì)Hadoop的需求沒有像預(yù)期那樣加速。同時(shí),25%的Spark已經(jīng)開始脫離Hadoop生態(tài)單獨(dú)運(yùn)行。
一位業(yè)界專家介紹非常形象:如果說Hadoop是一家大型包工隊(duì),Hadoop是人工的搬磚蓋房子,所以慢,但是穩(wěn)妥;Spark是用機(jī)器搬磚蓋房子,可以很快很靈活,缺點(diǎn)就是更容易出機(jī)械故障。
Hadoop開始升級(jí),指定調(diào)度專家YARN調(diào)度工人,其MapReduce也可以支持Mesos;Spark從多個(gè)倉庫(HDFS、Cassandra、S3、HBase)搬磚,還允許不同專家如YARN/ MESOS對(duì)人員和任務(wù)進(jìn)行調(diào)度。
其實(shí),這兩者并不是水火不容。Spark經(jīng)常和Hadoop團(tuán)隊(duì)合作,讓問題變得更加復(fù)雜。不管怎么說,Spark和Hadoop都是兩個(gè)獨(dú)立的包工隊(duì),都有著各自的優(yōu)缺點(diǎn)和特定的業(yè)務(wù)用例。
Spark技術(shù)的代表企業(yè)是Databricks。Databricks公司是由加州大學(xué)伯克利分校負(fù)責(zé)開發(fā)流行的開源Apache Spark數(shù)據(jù)處理框架的團(tuán)隊(duì)創(chuàng)建的。該公司幫助大企業(yè)快速處理、整合和分析大量數(shù)據(jù)。它的統(tǒng)一分析平臺(tái)旨在孤立的數(shù)據(jù)存儲(chǔ)系統(tǒng)之間建立數(shù)字管道,并幫助工程師和數(shù)據(jù)科學(xué)家更好地溝通。
Spark的優(yōu)勢(shì)是在內(nèi)存中運(yùn)行速度比Hadoop快100倍,在磁盤上運(yùn)行速度快10倍。此外,Spark在機(jī)器學(xué)習(xí)應(yīng)用中的速度同樣更快,如Naive Bayes和k-means。
所以說大數(shù)據(jù)應(yīng)用基礎(chǔ)平臺(tái)并不是固定的,也是需要優(yōu)化的,優(yōu)化后的性能表現(xiàn)會(huì)有出色的表現(xiàn)。
第三條技術(shù)路線就是以星環(huán)科技為代表的自主開發(fā)。
中國獨(dú)特的國情帶來的大數(shù)據(jù)量,國外的技術(shù)在處理本土業(yè)時(shí)經(jīng)常會(huì)水土不服:中國用戶需要處理的數(shù)據(jù)量遠(yuǎn)超過之前在其他國家的需求。同時(shí)中國用戶在應(yīng)用場(chǎng)景方面有著非常強(qiáng)的創(chuàng)新意識(shí),需要處理的場(chǎng)景復(fù)雜度也超過了其他國家用戶。星環(huán)科技就是專注解決用戶難點(diǎn),不盲從社區(qū)或其他路線的代表,走出了一條獨(dú)特的自主研發(fā)技術(shù)創(chuàng)新之路。星環(huán)的產(chǎn)品體系已經(jīng)從最早的分析型數(shù)據(jù)庫擴(kuò)展至分析型數(shù)據(jù)庫、實(shí)時(shí)計(jì)算、全文檢索數(shù)據(jù)庫、圖數(shù)據(jù)庫、Bigtable數(shù)據(jù)庫、交易數(shù)據(jù)庫、基于容器技術(shù)的數(shù)據(jù)云等,從底層資源調(diào)度到上面的計(jì)算引擎,形成了一條有別于Hadoop或Spark、而具有星環(huán)特色的技術(shù)路線,實(shí)現(xiàn)了多個(gè)領(lǐng)域的技術(shù)突破。例如分析型數(shù)據(jù)庫ArgoDB采用了星環(huán)統(tǒng)一的計(jì)算引擎以及統(tǒng)一的存儲(chǔ)管理系統(tǒng),同時(shí)針對(duì)閃存設(shè)計(jì)的存儲(chǔ)格式,取代了傳統(tǒng)的Hadoop+MPP的結(jié)構(gòu),同時(shí)對(duì)比MPP和Hadoop平臺(tái)在數(shù)據(jù)量較大時(shí)都有性能上的優(yōu)勢(shì)。
在實(shí)時(shí)流處理領(lǐng)域,星環(huán)自主的Slipstream不僅僅支持SQL的實(shí)時(shí)數(shù)據(jù)庫,搭載了一個(gè)自主研發(fā)的規(guī)則引擎和復(fù)雜事件處理引擎,用戶可以直接在對(duì)業(yè)務(wù)所需要用的計(jì)算方式進(jìn)行直接的編寫,還可以對(duì)開發(fā)的結(jié)果進(jìn)行一站式的部署調(diào)試,極大的方便了業(yè)務(wù)的開發(fā)人員。
第四條其他技術(shù)路線。
其中最重要的一條就是上一代MPP架構(gòu)的繼續(xù)沿用。早在大數(shù)據(jù)廣為人知之前,大規(guī)模并行處理MPP架構(gòu)就已誕生。其設(shè)計(jì)理念是對(duì)傳統(tǒng)關(guān)系型數(shù)據(jù)庫進(jìn)行分布式化,是對(duì)以往數(shù)據(jù)庫擴(kuò)展性差的改良。Teradata、Greenplum、Vertica、Netezza等大家早已熟知企業(yè)都是基于此架構(gòu)來完成解決方案。不過由于其根源仍是對(duì)舊技術(shù)的修修補(bǔ)補(bǔ),不支持非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)分析,擴(kuò)展上限仍不足夠,硬件設(shè)備昂貴等特性隨著時(shí)間逐漸暴露出來。
除此之外,還有部分專屬領(lǐng)域的技術(shù)活躍在市場(chǎng)上,例如應(yīng)用于網(wǎng)站數(shù)據(jù)存儲(chǔ)的文檔數(shù)據(jù)庫MongDB,專注于滿足各類復(fù)雜搜索需求的ElasticSearch,常被應(yīng)用于會(huì)話緩存的高速NoSQL數(shù)據(jù)庫Redis,圖數(shù)據(jù)庫Neo4J,以及由實(shí)時(shí)計(jì)算引擎正蔓延成為通用大數(shù)據(jù)引擎的Flink等。這些技術(shù)有幾大特點(diǎn):一是大多是開源系統(tǒng);二是應(yīng)用面相對(duì)較窄,影響范圍有限。
2.四條技術(shù)路線開始出現(xiàn)分化
伴隨著技術(shù)的興起到發(fā)展成熟,技術(shù)路線也從百花齊放到部分技術(shù)路線消亡或者合并。任何技術(shù)的發(fā)展最終只會(huì)有兩三條路線沉淀下來。實(shí)踐證明,大數(shù)據(jù)基礎(chǔ)平臺(tái)是不可或缺的。但是隨著應(yīng)用的深入,要想利用開源通過服務(wù)或者訂閱賺錢的難度卻越來越大了,要把它做成生意的門檻越來越高了。近年來,大數(shù)據(jù)基礎(chǔ)軟件典型的四條技術(shù)路線開始出現(xiàn)分化。
首先 Hadoop 商業(yè)化最典型的公司就是Hadoop的三駕馬車——Hortonworks、Cloudera和MapR。2014年,Hortonworks成功在納斯達(dá)克上市。該公司以每股16美元的價(jià)格發(fā)行625萬股股票,募集1億美元資金,開盤首日上漲幅度達(dá)到60%,市值接近11億美元。
2017年4月底,Cloudera以每股15美元的定價(jià)在紐約證券交易所上市,股價(jià)一日上漲超20%至18.09美元。這一價(jià)格也超出了此前公司12到14美元的預(yù)期范圍。Cloudera市值約為23億美元,遠(yuǎn)低于2014年英特爾給出的41億美元估值。
2018年,大數(shù)據(jù)領(lǐng)域的兩大巨頭公司Cloudera和Hortonworks因?yàn)檫B連虧損,宣布平等合并,Cloudera以股票方式收購Hortonworks,Cloudera股東最終獲得合并公司60%的股份。這筆交易意味著Hadoop市場(chǎng)再也無法維持兩大競(jìng)爭(zhēng)對(duì)手對(duì)峙的狀態(tài)了。但合并后公司股價(jià)繼續(xù)下跌,在過去的七個(gè)月市值減半。
MapR于2009年成立,曾在五輪風(fēng)險(xiǎn)投資里拿到1.14億美元。公司的風(fēng)投支持者通常希望看到兩個(gè)結(jié)果,其一是上市,另一個(gè)是被收購。但是公司MapR的首席執(zhí)行官米爾斯表示,“我想上市,但我也想尊重上市的步驟。”
遺憾的是,MapR于近期宣布,如果無法獲得額外的資金,可能削減122個(gè)工作崗位,并關(guān)閉其位于美國加利福尼亞州的總部。關(guān)閉總部意味著什么?是企業(yè)關(guān)門大吉,還是不要行政總部,繼續(xù)發(fā)展開源系統(tǒng),幾乎無人可以確認(rèn)。
其次,Spark技術(shù)的代表企業(yè)Databricks公司2018年的經(jīng)常性收入達(dá)到1億美元,訂閱收入增加了兩倍。但是其業(yè)務(wù)方向已經(jīng)轉(zhuǎn)移到“大數(shù)據(jù)分析和人工智能解決方案”。行業(yè)內(nèi)更多的將其看成一家AI公司。
第三, 星環(huán)科技堅(jiān)持走自己的技術(shù)路線,堅(jiān)持自主研發(fā)和技術(shù)創(chuàng)新,成果豐碩。
星環(huán)科技的產(chǎn)品連續(xù)兩年入選工信部“星河獎(jiǎng)”最佳大數(shù)據(jù)產(chǎn)品獎(jiǎng)。知名咨詢機(jī)構(gòu)wikibon在2018年的《大數(shù)據(jù)市場(chǎng)分析報(bào)告》中,星環(huán)科技作為唯一進(jìn)入報(bào)告的中國廠商,被評(píng)價(jià)為“產(chǎn)品策略對(duì)西方供應(yīng)商非常具有指導(dǎo)意義,因?yàn)樗鉀Q了許多同行的開源版本的限制”。因?yàn)槌暗募夹g(shù)眼光和產(chǎn)品發(fā)展路線,星環(huán)科技行業(yè)技術(shù)引領(lǐng)者的地位獲得了初步認(rèn)可。
另外,Elasticsearch則轉(zhuǎn)為實(shí)時(shí)分布式搜索和分析引擎,可以應(yīng)用在任何實(shí)時(shí)檢索的場(chǎng)景中;诖思夹g(shù)的公司Elastic一手抓住搜索,一手專注開源,利用創(chuàng)新的搜索引擎技術(shù)和開源的軟件,成為大數(shù)據(jù)搜索和數(shù)據(jù)實(shí)時(shí)處理領(lǐng)域的頭部企業(yè)。公司成功在紐約證券交易所上市。
3.誰能邁過這道坎,成為引領(lǐng)者?
那么,哪條大數(shù)據(jù)軟件技術(shù)發(fā)展路線能成為領(lǐng)導(dǎo)者呢?筆者認(rèn)為,主要看四個(gè)方面:
首先,適應(yīng)性,能否適應(yīng)云計(jì)算發(fā)展大勢(shì)。企業(yè)向公有云的轉(zhuǎn)變,各種規(guī)模的公司都在增加對(duì)AWS、Azure、阿里云、Google Cloud等云服務(wù)的采用。如果企業(yè)正在轉(zhuǎn)向云計(jì)算,那么選擇將大數(shù)據(jù)視為其中一部分的云平臺(tái)既省時(shí)又省力。利用云計(jì)算的資源池化,利用容器技術(shù)統(tǒng)一管理和調(diào)度,支持單行擴(kuò)展,按需使用,按需付費(fèi),讓業(yè)務(wù)人員隨時(shí)使用數(shù)據(jù)分析平臺(tái)成為一個(gè)發(fā)展方向。
第二,獨(dú)特性。軟件產(chǎn)品自主可控固然重要,但是獨(dú)特性則是市場(chǎng)競(jìng)爭(zhēng)致勝的法寶。星環(huán)科技CEO孫元浩說,我們發(fā)展新技術(shù)最看重獨(dú)特性、領(lǐng)先性。
第三,豐富性。目前來看,單有大數(shù)據(jù)平臺(tái)還不夠,應(yīng)該與人工智能、云計(jì)算融合發(fā)展,提供一體化平臺(tái),彈性資源策略讓服務(wù)隨處可見。另外,全棧自主開發(fā)也成為一道風(fēng)景。
第四,生態(tài)體系與用戶成功實(shí)踐經(jīng)驗(yàn)。大數(shù)據(jù)和云計(jì)算的基礎(chǔ)軟件,需要一個(gè)強(qiáng)大的生態(tài)才能夠形成一定的規(guī)模。覆蓋的行業(yè)廣泛性、用戶應(yīng)用成功經(jīng)驗(yàn)等也都是非常重要的因素。
提供基于私有云服務(wù)的云上大數(shù)據(jù)廠商BlueData在去年將服務(wù)延伸至人工智能和分析服務(wù),今年被HP收購,以提升HP為客戶提供的服務(wù)全棧性,彌補(bǔ)HP的短板。而另外一家公司Qubole則是選擇了在各個(gè)公有云上提供數(shù)據(jù)分析與機(jī)器學(xué)習(xí)平臺(tái),其口號(hào)是“讓你的數(shù)據(jù)湖變成利潤中心”。
星環(huán)科技于2018年在行業(yè)首先推出了數(shù)據(jù)云平臺(tái)Transwarp Data Cloud,這一云原生平臺(tái)采用容器技術(shù),以數(shù)據(jù)為中心,通過提供完整的數(shù)據(jù)、應(yīng)用和智能的開發(fā)工具,實(shí)現(xiàn)數(shù)據(jù)和應(yīng)用互通互聯(lián)。今年5月推出的TDC 2.0與上一版本相比,能更全面地滿足不用業(yè)務(wù)、不同角色的工作需求。經(jīng)過近4年的發(fā)展,星環(huán)形成了有突出的技術(shù)優(yōu)勢(shì)的PaaS產(chǎn)品——星環(huán)數(shù)據(jù)云。
有趣的是,2018年Cloudera和Hortonworks宣布合并時(shí)也創(chuàng)建其首個(gè)企業(yè)數(shù)據(jù)云。除了主打是100%開源外,能夠同時(shí)兼容混合云、多云部署應(yīng)用情境,提供企業(yè)用戶足夠的搬遷、部署彈性,避免被特定廠商綁定。
僅在公有云上提供DB-PaaS的公司Snowflake去年估值已達(dá)35億美金,而業(yè)績不到1億美金,估值倍數(shù)超過了其他同類公司。星環(huán)的數(shù)據(jù)云TDC除了提供與Snowflake類似服務(wù)外,還可以支持 DB-PaaS、Application PaaS和Analytic PaaS三個(gè)核心模塊,并能支持公有云-公有云、公有云-私有云之間互操作,有效的融合了數(shù)據(jù)、應(yīng)用和智能,異構(gòu)云的互通擴(kuò)大了產(chǎn)品應(yīng)用范圍。
隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,預(yù)計(jì)在未來三到五年內(nèi),會(huì)發(fā)展為僅剩一到兩條技術(shù)路線。誰能成為大數(shù)據(jù)技術(shù)引領(lǐng)者,我們將拭目以待!
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。