社區(qū)零售“換品牌”,三只松鼠做推手榮耀CEO趙明因健康原因辭職,前華為高管李健接任騰訊朱雀大模型檢測(cè)上線「鑒別工具」可鑒別圖片、文章是否由AI生成哪吒汽車(chē)回應(yīng)獲得60億融資:消息不實(shí)中國(guó)​2024年度十大科技名詞出爐,“人工智能 +”入選消息稱榮耀CEO趙明離職下午對(duì)外官宣 官方回應(yīng):不實(shí)蘋(píng)果M4 Mac mini曝出USB-C接口問(wèn)題!隨機(jī)間歇性斷開(kāi)連接天璣9400小屏旗艦!OPPO Find X8 mini將配6.3英寸直屏極狐汽車(chē)加入蔚來(lái)加電聯(lián)盟!14400根充電樁即日起正式上線Mistral 與法新社達(dá)成內(nèi)容合作 升級(jí) Le Chat 聊天機(jī)器人性能微軟將AI功能整合進(jìn)Microsoft 365 接著提高訂閱價(jià)格華碩推出搭載彩色 E Ink 顯示屏的 NUC AI 迷你電腦百度發(fā)布升級(jí)版生物計(jì)算模型工具 HelixFold 3 助力生命科學(xué)研究微軟打擊惡意使用生成式 AI 的網(wǎng)絡(luò)犯罪行為360集團(tuán)發(fā)布鴻蒙原生AI應(yīng)用,納米搜索月訪問(wèn)量破3.5億阿里智能互聯(lián)并入夸克:布局AI眼鏡 整合通義能力同程旅行:美國(guó)網(wǎng)友涌入中國(guó)社交媒體,帶動(dòng)入境游消費(fèi)熱潮SensorTower:12 月全球手游吸金約 69.8 億美元老伙計(jì),明年見(jiàn)!雅迪×央視賀歲大片邀所有人共走追夢(mèng)路星環(huán)科技實(shí)時(shí)湖倉(cāng)集一體技術(shù)榮獲IT168技術(shù)卓越獎(jiǎng),引領(lǐng)數(shù)據(jù)與AI深度融合新紀(jì)元
  • 首頁(yè) > 延展閱讀 > 新聞特快 > 新聞特快

    深度揭秘騰訊云TSF日調(diào)用量超萬(wàn)億次背后技術(shù)架構(gòu)

    2018年03月19日 17:57:55   來(lái)源:飛象網(wǎng)

      騰訊云TSF是整合外部開(kāi)源框架和騰訊內(nèi)部歷經(jīng)多年錘煉的PaaS平臺(tái)打造而成的企業(yè)級(jí)分布式應(yīng)用服務(wù)開(kāi)發(fā)與托管平臺(tái),本文重點(diǎn)對(duì)TSF中負(fù)責(zé)服務(wù)托管的PaaS平臺(tái)進(jìn)行揭秘,從技術(shù)角度解析TSF 平臺(tái)是如何每天應(yīng)對(duì)萬(wàn)億次調(diào)用的服務(wù)托管與治理。

      TSF PaaS平臺(tái)的前身是CAE(Cloud App Engine),其核心架構(gòu)是參考Cloud Foundry設(shè)計(jì)研發(fā)的。為了給開(kāi)發(fā)者提供更加便捷的服務(wù),TSF和公司很多基礎(chǔ)服務(wù)打通,例如騰訊網(wǎng)關(guān)TGW、名字服務(wù)L5、內(nèi)部鑒權(quán)服務(wù)、以及消息隊(duì)列等,使得用戶可以在TSF平臺(tái)完成一站式開(kāi)發(fā)、上線、托管服務(wù);除此之外還支持對(duì)托管在平臺(tái)上的應(yīng)用進(jìn)行健康檢查、進(jìn)程監(jiān)控、日志匯聚展示等服務(wù)。讓開(kāi)發(fā)者只需關(guān)心自己應(yīng)用代碼,而其它一切事情,都由平臺(tái)為其提供,極大地提高了開(kāi)發(fā)者的效率,降低了運(yùn)維成本。下圖簡(jiǎn)要描述了PaaS平臺(tái)和不同角色用戶之間的關(guān)系。

      整體架構(gòu)示意圖

      目前騰訊內(nèi)部有上萬(wàn)個(gè)應(yīng)用托管在TSF PaaS平臺(tái),這些應(yīng)用每天的請(qǐng)求量超過(guò)萬(wàn)億次。下面對(duì)TSF PaaS平臺(tái)的所解決的問(wèn)題及核心能力分別展開(kāi)介紹。

      彈性擴(kuò)展能力,真正實(shí)現(xiàn)無(wú)人值守

      在公司眾多的互聯(lián)網(wǎng)業(yè)務(wù)中,往往有這樣的一些業(yè)務(wù)場(chǎng)景,海量用戶突然同時(shí)去訪問(wèn)一組服務(wù),如限時(shí)搶購(gòu)、秒殺活動(dòng),或者游戲整點(diǎn)開(kāi)服,tips彈窗都會(huì)觸發(fā)用戶的此類行為。服務(wù)器經(jīng)常會(huì)面臨在短時(shí)間涌入大量請(qǐng)求,快速的吃掉CPU和內(nèi)存,造成服務(wù)器癱瘓,前端用戶進(jìn)一步重試,導(dǎo)致雪崩現(xiàn)象加劇。因此在一些非常重要的業(yè)務(wù)搞活動(dòng)的時(shí)候,需要運(yùn)維事先準(zhǔn)備好大量的機(jī)器(預(yù)估值要遠(yuǎn)遠(yuǎn)大于可能實(shí)際值),部署好程序,等待活動(dòng)的到來(lái)。如果有一套自動(dòng)伸縮機(jī)制,活動(dòng)時(shí)可以自動(dòng)擴(kuò)容,不需要時(shí)可以很方便的下線,整個(gè)運(yùn)營(yíng)將簡(jiǎn)單很多,彈性伸縮能力是PaaS平臺(tái)的基礎(chǔ)能力之一,TSF 根據(jù)公司內(nèi)部不同業(yè)務(wù)需求場(chǎng)景提供多種方式的彈性規(guī)則:

      規(guī)則一:可以對(duì)應(yīng)用所在節(jié)點(diǎn)在一定時(shí)間內(nèi)的物理負(fù)載情況、請(qǐng)求量、延時(shí)、返回錯(cuò)誤碼等多維度進(jìn)行配置規(guī)則,一旦觸發(fā)彈性條件,平臺(tái)將自動(dòng)進(jìn)行相應(yīng)擴(kuò)縮容操作。

      規(guī)則二:對(duì)于請(qǐng)求量有周期性波峰波谷規(guī)律的應(yīng)用,可以配置定時(shí)彈性伸縮,入下圖所示。

      圖:定時(shí)擴(kuò)縮容規(guī)則

      無(wú)論是動(dòng)態(tài)伸縮還是定時(shí)伸縮,其后臺(tái)實(shí)現(xiàn)原理是類似的,整體調(diào)度架構(gòu)如下,

      圖:彈性伸縮模塊示意圖

      配置系統(tǒng): 用戶在控制臺(tái)根據(jù)業(yè)務(wù)情況,設(shè)置彈性伸縮觸發(fā)規(guī)則,規(guī)則包括以下幾個(gè)維度:

      采樣間隔:1~60s,可任意配置,平臺(tái)具備秒級(jí)別采集數(shù)據(jù)的能力。配置規(guī)則中需要制定連續(xù)高負(fù)載次數(shù),服務(wù)自動(dòng)擴(kuò)容首要條件就是服務(wù)分組下至少存在一個(gè)實(shí)例連續(xù)上報(bào)幾次上報(bào)高負(fù)載數(shù)據(jù)。同時(shí)還要配置冷卻時(shí)間,在冷卻時(shí)間平臺(tái)會(huì)忽略實(shí)例高負(fù)載信息,這樣可避免在擴(kuò)容還沒(méi)完成期間,再次觸發(fā)擴(kuò)容。配置規(guī)則中的性能指標(biāo),包括CPU、內(nèi)存、磁盤(pán)、網(wǎng)卡流量、TCP連接數(shù)、請(qǐng)求量、錯(cuò)誤比例、延時(shí)大小等的維度。

      通知中心: 負(fù)責(zé)對(duì)外推送的模塊高負(fù)載信息及擴(kuò)容決策信息。

      流程系統(tǒng): 通知中心收到信息后,觸發(fā)自動(dòng)擴(kuò)容流程,包括資源部署,程序包安裝,配置下發(fā)等。

      彈性伸縮能力在微信紅包誕生的那個(gè)春節(jié)發(fā)揮到了極致,2014年春節(jié)微信紅包出乎所有人的意料一夜之前紅遍大江南北,每一秒鐘都有大量用戶涌入,TSF 根據(jù)事先配置的規(guī)則,自動(dòng)彈性擴(kuò)展,成功支撐了突入起來(lái)的海量請(qǐng)求。為微信紅包初期的發(fā)展贏得了寶貴的時(shí)間,下圖為自動(dòng)擴(kuò)容任務(wù)列表,可以看到同一個(gè)服務(wù)在短時(shí)間內(nèi)自動(dòng)觸發(fā)了很多次擴(kuò)容操作,大大減輕了運(yùn)維壓力,真正達(dá)到了無(wú)人值守。

      圖:彈性伸縮任務(wù)查詢列表

      精確流量控制能力,業(yè)務(wù)指標(biāo)可視化展示

      TSF平臺(tái)可以完成對(duì)應(yīng)用整個(gè)生命周期的管理,從代碼開(kāi)發(fā)到CI/CD再到版本的升級(jí)與回退。在新功能上線過(guò)程中通常需要一個(gè)灰度過(guò)程來(lái)控制能訪問(wèn)到新版本的流量比重,如果發(fā)現(xiàn)了異常問(wèn)題需要及時(shí)回滾到穩(wěn)定版本。另外,灰度發(fā)布并不是短暫的過(guò)程,可能會(huì)持續(xù)很久。例如某個(gè)重大的框架或者系統(tǒng)更新可能會(huì)持續(xù)很久,有可能整個(gè)服務(wù)在幾個(gè)月內(nèi)都是新舊并存,甚至有可能需要兩個(gè)版本分別各自迭代。而從產(chǎn)品的角度來(lái)看可能就會(huì)更靈活,很有可能線上有五六個(gè)方案都在收集數(shù)據(jù),每天有了一些新想法都要上一些小版本看效果,每個(gè)版本上線后可能都要再各自做優(yōu)化調(diào)整觀察效果。這種情況可能線上就永遠(yuǎn)不會(huì)有一個(gè)統(tǒng)一的版本灰度反而是個(gè)常態(tài)來(lái)應(yīng)對(duì)不斷變化的需求和挑戰(zhàn)。

      TSF 灰度發(fā)布系統(tǒng)包括以下兩個(gè)方面

      精確的流量分發(fā)控制:從運(yùn)維風(fēng)險(xiǎn)控制的角度,需要把受影響的流量控制在一個(gè)精確的范圍內(nèi),在上線前就知道哪部分用戶會(huì)有問(wèn)題,而不是真出問(wèn)題誰(shuí)受到影響都不知道。一個(gè)常見(jiàn)場(chǎng)景是新版本只讓公司內(nèi)部的員工能訪問(wèn)到,再一個(gè)市、一個(gè)省的一點(diǎn)點(diǎn)推上去。TSF 灰度發(fā)布系統(tǒng)可以對(duì)應(yīng)用實(shí)例進(jìn)行分組操作,新版本按照分組來(lái)灰度發(fā)布,將一部分流量導(dǎo)入灰度分組,觀察是否符合預(yù)期,具體導(dǎo)入那部分流量可以是公司內(nèi)部員工,也可以按照其他維度來(lái)切分。

      監(jiān)控系統(tǒng)的支撐:流量精確分配只是第一步,接下來(lái)更重要的是獲得多個(gè)版本的關(guān)鍵指標(biāo)。對(duì)運(yùn)維來(lái)說(shuō)可能是看錯(cuò)誤率、吞吐量、延遲、CPU內(nèi)存消耗這些系統(tǒng)層面指標(biāo)。對(duì)于產(chǎn)品來(lái)說(shuō)可能是要看點(diǎn)擊率、pv、uv 等業(yè)務(wù)指標(biāo)的變化。這些都可以在PaaS控制臺(tái)以圖表的方式展現(xiàn)出來(lái),方便對(duì)下一步灰度做出決策。

      完備的日志與監(jiān)控系統(tǒng),助力企業(yè)智能運(yùn)維

      完善的統(tǒng)計(jì)監(jiān)控與日志系統(tǒng)是一個(gè)PaaS平臺(tái)最基礎(chǔ)的能力,沒(méi)有之一。TSF的監(jiān)控與日志系統(tǒng)底層采用EFK(ES+ Filebeat+Kinana)方案搭建而成,監(jiān)控?cái)?shù)據(jù)維度主要分為以下幾類:

      a.訪問(wèn)量:請(qǐng)求數(shù)、成功數(shù)、失敗數(shù)、成功百分比、同比環(huán)比波動(dòng)百分比

      b.響應(yīng)包大小、響應(yīng)延時(shí)

      c.機(jī)器負(fù)載:CPU、內(nèi)存、讀寫(xiě)磁盤(pán)、TCP連接數(shù)、出入流量、出入包量

      d.進(jìn)程監(jiān)控

      其中前兩類采集頻率是分鐘級(jí)別的,機(jī)器負(fù)載和進(jìn)程類的監(jiān)控是秒級(jí)的,各個(gè)業(yè)務(wù)可以根據(jù)實(shí)際需要進(jìn)行個(gè)性化配置。

      上述以“監(jiān)”,在“控”方面,支持字符串類型的微信、短信、郵件告警,另一方面支持如下圖所示的曲線告警,用戶可以根據(jù)需要來(lái)配置觸發(fā)告警條件。

      同時(shí)TSF 后臺(tái)也會(huì)根據(jù)歷史上報(bào)數(shù)據(jù)和告警策略進(jìn)行大數(shù)據(jù)分析對(duì)比,進(jìn)行智能運(yùn)維。

      圖:統(tǒng)計(jì)監(jiān)控示意圖

      不斷整合創(chuàng)新,打造TSF強(qiáng)大分布式作業(yè)能力

      TSF PaaS平臺(tái)的分布式作業(yè)系統(tǒng)是基于Quartz開(kāi)發(fā)而來(lái)的,充分繼承了Quartz強(qiáng)大的調(diào)度功能和豐富多樣的調(diào)度方法,以及其分布式集群能力。

      通過(guò)TSF 分布式作業(yè)管控平臺(tái)不僅可以完成所有的運(yùn)維操作,還可以自動(dòng)選取負(fù)載較低節(jié)點(diǎn)來(lái)下發(fā)計(jì)算任務(wù),充分利用設(shè)備資源。除此之外所有作業(yè)的執(zhí)行詳細(xì)情況都可以在控制臺(tái)進(jìn)行查詢,從下圖可以看出目前分布式作業(yè)平臺(tái)一天大約執(zhí)行幾十萬(wàn)個(gè)任務(wù)。

      圖:分布式作業(yè)示意圖

      總結(jié):本文針對(duì)騰訊內(nèi)部接入TSF平臺(tái)的業(yè)務(wù)在日常運(yùn)營(yíng)過(guò)程中重點(diǎn)關(guān)注的幾個(gè)核心功能點(diǎn)來(lái)介紹了TSF平臺(tái)服務(wù)生命周期管理部分的核心能力,如想進(jìn)一步了解實(shí)習(xí)技術(shù)細(xì)節(jié)歡迎進(jìn)一步交流。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    [編號(hào): ]
    分享到微信

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國(guó)信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。