繼續(xù)見證5G+AI成長(zhǎng),進(jìn)博會(huì)全勤生高通確認(rèn)明年第八次參展來(lái)采銷直播間看京東11.11外設(shè)辦公總裁直播 11日14點(diǎn)準(zhǔn)時(shí)開播第七屆進(jìn)博會(huì)盤點(diǎn):高通攜手伙伴展示的驍龍8至尊版旗艦終端備受關(guān)注產(chǎn)業(yè)合作推動(dòng)AI發(fā)展 高通孟樸:攜手伙伴共抓5G+AI新機(jī)遇進(jìn)博會(huì)看技術(shù)變化,從5G手機(jī)到AI終端,高通技術(shù)支持行業(yè)拓展    高通獲頒“2024新消費(fèi)創(chuàng)新案例”,5G-A推動(dòng)數(shù)字消費(fèi)高質(zhì)量發(fā)展3G追趕,4G并行,5G趕超!高通孟樸進(jìn)博會(huì)談與中國(guó)伙伴合作歷程京東11.11巔峰28小時(shí)倒計(jì)時(shí) 爆款耳機(jī)音箱5折開搶手機(jī)內(nèi)卷下一站,AI Agent消息稱著名 AI 學(xué)者、天工智能首席科學(xué)家顏水成離開昆侖萬(wàn)維昆侖萬(wàn)維SkyReels AI短劇平臺(tái)將于12月10日在美國(guó)正式上線韓國(guó)今年進(jìn)口柴油車銷量預(yù)計(jì)跌破 1 萬(wàn)輛,創(chuàng)近 17 年新低讓游戲黨一秒種草的大屏電視?海信這款百吋旗艦做到了!為用戶節(jié)省超120萬(wàn)元 京東11.11攜手奔圖加速打印國(guó)產(chǎn)化進(jìn)程京東3C數(shù)碼“瘋狂星期一”驚喜放價(jià) TP-LINK攝像頭限時(shí)直降210元11月9日晚8點(diǎn)京東11.11火熱開啟!潮流配件9.9元起京東11.11最后一波Apple大放價(jià) iPhone 16 Pro系列持續(xù)加補(bǔ)1600元2024 ROG DAY狂歡啟航,ROG電競(jìng)顯示器助力三大戰(zhàn)車燃爆鄭州站!來(lái)京東11.11一次性搞定視頻、音頻等APP會(huì)員充值 省錢又省心歐萊雅中國(guó)"FUN YOUniverTH有意思青年"創(chuàng)變盛典耀動(dòng)進(jìn)博會(huì)
  • 首頁(yè) > 云計(jì)算頻道 > 云計(jì)算

    經(jīng)驗(yàn)沒有壓縮算法,揭秘亞馬遜云科技打造韌性云服務(wù)背后的工程思維

    2024年09月03日 16:31:37   來(lái)源:TechWeb

      近日,亞馬遜云科技大中華區(qū)解決方案架構(gòu)總經(jīng)理代聞在談及亞馬遜云科技云服務(wù)穩(wěn)定性、可靠性和韌性(應(yīng)用程序抵御中斷或從中恢復(fù)的能力)方面的話題時(shí)表示,如同應(yīng)縣木塔能屹立千年,背后涉及到“選址、架構(gòu)、維護(hù)”等關(guān)鍵因素和環(huán)節(jié)一樣,保障云端服務(wù)的穩(wěn)定性和韌性同樣需要有這樣的工程思維。

      事實(shí)上,隨著各類應(yīng)用程序深度進(jìn)入人們的日常生活中,人們對(duì)在線應(yīng)用的穩(wěn)定性要求就像空氣和水一樣自然——擁有時(shí)感受不明顯,一旦缺失卻會(huì)帶來(lái)極大嚴(yán)重后果。如何確保業(yè)務(wù)連續(xù)性,提升韌性,是企業(yè)需要解決的“基礎(chǔ)”而又“永恒”的問題。

      代聞表示,作為行業(yè)云服務(wù)的領(lǐng)先者,亞馬遜云科技自2006年發(fā)布第一款云服務(wù)至今,已提供了超過 240 種功能全面的服務(wù),積淀了一套行之有效的提升云服務(wù)“韌性”的方法,包括設(shè)計(jì)、實(shí)踐、實(shí)施,工程經(jīng)驗(yàn)的積累等,希望分享給行業(yè),大家共同來(lái)促進(jìn)企業(yè)業(yè)務(wù)的“韌性”發(fā)展。

      首先,由果導(dǎo)因,亞馬遜云科技將常見的系統(tǒng)故障的歸因進(jìn)行了分類:

      基礎(chǔ)設(shè)施層——包括數(shù)據(jù)中心、主機(jī)、機(jī)架、網(wǎng)絡(luò)故障,或自然災(zāi)害導(dǎo)致的損壞;

      架構(gòu)設(shè)計(jì)層——數(shù)據(jù)狀態(tài)、應(yīng)用程序狀態(tài)異常、依賴項(xiàng)失效等;

      運(yùn)營(yíng)機(jī)制層——由運(yùn)維操作、代碼部署、配置錯(cuò)誤等引起的故障。

      “亞馬遜云科技過去的18年里,在基礎(chǔ)設(shè)施的設(shè)計(jì)落地、系統(tǒng)架構(gòu)的設(shè)計(jì)實(shí)施、運(yùn)營(yíng)機(jī)制的不斷的積累這三方面都做了非常多的工作。”代聞稱。

      基礎(chǔ)設(shè)施怎么建,韌性最好?

      亞馬遜云科技對(duì)基礎(chǔ)設(shè)施布局設(shè)計(jì)有一套嚴(yán)格標(biāo)準(zhǔn)。首先,分為區(qū)域(Region)和可用區(qū)(AZ):

      區(qū)域(Region),就是亞馬遜云科技在世界各地聚集數(shù)據(jù)中心的物理位置。

      可用區(qū)(AZ),是區(qū)域的下一級(jí)。亞馬遜云科技將每個(gè)邏輯數(shù)據(jù)中心組稱為可用區(qū),每個(gè)區(qū)域由三個(gè)或更多可用區(qū)組成。每個(gè)可用區(qū)又由多個(gè)或單個(gè)超大數(shù)據(jù)中心連接組成。

      每個(gè)可用區(qū)的數(shù)據(jù)中心都有獨(dú)立的電力、制冷和物理安全設(shè)施。

      可用區(qū)間的距離:同一區(qū)域內(nèi)的可用區(qū)之間具有足夠的距離,一般在約100公里內(nèi)。代聞介紹道:“這意味著一個(gè)可用區(qū)發(fā)生電力中斷,自然災(zāi)害時(shí),區(qū)域內(nèi)其他可用區(qū)不會(huì)受到任何影響, 安全距離既能防止相關(guān)故障,又能實(shí)現(xiàn)單位毫秒級(jí)延遲的同步復(fù)制。“

      最后,在可用區(qū)內(nèi)部、可用區(qū)之間、區(qū)域和區(qū)域之間,均鋪設(shè)光纖線路兩兩互聯(lián),實(shí)現(xiàn)高速數(shù)據(jù)傳輸?shù)耐瑫r(shí)任一連接是冗余的。

      代聞以亞馬遜云科技在中國(guó)大陸的兩個(gè)區(qū)域?yàn)槔龑?duì)這種基礎(chǔ)設(shè)施設(shè)計(jì)進(jìn)行了介紹:

      可用區(qū)內(nèi)部:寧夏或北京區(qū)域的每個(gè)可用區(qū)內(nèi)有多個(gè)數(shù)據(jù)中心,它們兩兩之間鋪設(shè)多條冗余鏈路互聯(lián),可用區(qū)內(nèi)任何數(shù)據(jù)中心連接直達(dá);

      可用區(qū)之間:寧夏或北京的每個(gè)可用區(qū)間由至少兩個(gè)的傳輸中心互聯(lián),任一可用區(qū)的任一數(shù)據(jù)中心均有多條冗余鏈路與傳輸中心互聯(lián),跨可用區(qū)的任意一個(gè)數(shù)據(jù)中心可通過傳輸中心互聯(lián);

      區(qū)域與區(qū)域互聯(lián):在寧夏和北京區(qū)域分別實(shí)現(xiàn)多層級(jí)互聯(lián)韌性保障之后,北京和寧夏之間通過冗余的連接中心站點(diǎn)和分布的冗余鏈路互聯(lián)。這些連接中心站點(diǎn)之間的大帶寬冗余鏈路形成亞馬遜云科技堅(jiān)實(shí)的基建骨干網(wǎng)絡(luò)。

      代聞強(qiáng)調(diào)道:“這種保障韌性的冗余設(shè)計(jì)的投資是非常巨大的,但是為了能夠?qū)崿F(xiàn)最高的可用性,亞馬遜云科技不會(huì)在任何的設(shè)計(jì)標(biāo)準(zhǔn)和實(shí)施的時(shí)候打折扣。”

      截至目前,亞馬遜云科技全球基礎(chǔ)設(shè)施遍及34個(gè)地理區(qū)域的108個(gè)可用區(qū)。

      有韌性的“系統(tǒng)架構(gòu)設(shè)計(jì)”的基本思維是什么?

      代聞?wù)J為,對(duì)于系統(tǒng)架構(gòu)設(shè)計(jì)來(lái)保障云服務(wù)的韌性,一個(gè)基本的思維是控制“失效的范圍”。

      亞馬遜云科技總結(jié)云服務(wù)自身韌性的四大要素:區(qū)域隔離,多可用區(qū);控制面和數(shù)據(jù)面獨(dú)立;單元架構(gòu);隨機(jī)分片。

      具體來(lái)看,

      一、 “區(qū)域隔離,多可用區(qū)”:根據(jù)故障隔離邊界,亞馬遜云科技將服務(wù)劃分為三種不同類別:可用區(qū)級(jí)、區(qū)域級(jí)和全球級(jí),從而控制故障發(fā)生時(shí)對(duì)客戶的影響范圍。

      以全球級(jí)服務(wù)Amazon IAM為例,在全球級(jí)別的控制平面,IAM的增刪改邏輯和數(shù)據(jù)存儲(chǔ)架構(gòu)被切分成細(xì)小的計(jì)算和存儲(chǔ)單元。這些分布式的數(shù)據(jù)細(xì)胞共同提供服務(wù),通過單元細(xì)胞模型實(shí)現(xiàn)高可用且極小爆炸半徑,確保服務(wù)韌性。即便在極端情況下,全球控制平面和數(shù)據(jù)下發(fā)出現(xiàn)故障,影響范圍僅限于無(wú)法創(chuàng)建新的IAM信息。但每個(gè)區(qū)域的數(shù)據(jù)平面依然可以繼續(xù)穩(wěn)定提供本區(qū)域的認(rèn)證授權(quán)服務(wù)。

      二、控制面和數(shù)據(jù)面獨(dú)立:亞馬遜云科技將服務(wù)拆分為控制平面和數(shù)據(jù)平面兩個(gè)層面。

      代聞介紹這樣設(shè)計(jì)出于兩個(gè)原因:

      其一,確保云服務(wù)的數(shù)據(jù)平面能夠獨(dú)立于控制平面的狀態(tài)持續(xù)穩(wěn)定運(yùn)行。即使控制平面出現(xiàn)故障,數(shù)據(jù)平面也可以正常對(duì)外服務(wù)。系統(tǒng)的控制面往往由更多組件構(gòu)成,因此從統(tǒng)計(jì)概率上講,它發(fā)生故障的可能性更高,但對(duì)于服務(wù)的可用性而言,數(shù)據(jù)平面的可用性比控制平面更為重要。對(duì)大多數(shù)客戶而言,Amazon EC2實(shí)例在啟動(dòng)后的持續(xù)正常運(yùn)行,比啟動(dòng)新實(shí)例的能力更為關(guān)鍵。

      其二,獨(dú)立擴(kuò)展互不影響。通常情況下,數(shù)據(jù)平面的運(yùn)營(yíng)容量和控制平面并不一致,數(shù)據(jù)平面要高于控制平面。隔離后,這兩個(gè)平面可以根據(jù)各自的需求進(jìn)行獨(dú)立擴(kuò)展。

      代聞補(bǔ)充解釋道:“控制面和數(shù)據(jù)面的隔離,類似于叫車軟件和打車,兩者其實(shí)是相對(duì)獨(dú)立的。當(dāng)你坐上車以后,如果一段時(shí)間叫車軟件沒有信號(hào)無(wú)法響應(yīng)了,也不影響司機(jī)將你送到預(yù)定的目的地。很多故障失效的情況關(guān)鍵在于沒有把數(shù)據(jù)面和控制面做到很好的隔離。”

      三、單元架構(gòu)及隨機(jī)分片:?jiǎn)卧軜?gòu)設(shè)計(jì)的的核心思想是將整個(gè)系統(tǒng)分解為更小的獨(dú)立單元,當(dāng)發(fā)生故障時(shí),只有該單元受影響,而不會(huì)導(dǎo)致整個(gè)系統(tǒng)癱瘓。以數(shù)據(jù)庫(kù)為例,亞馬遜云科技為常規(guī)數(shù)據(jù)庫(kù)添加分片分區(qū)層,并在存儲(chǔ)和計(jì)算維度將整個(gè)系統(tǒng)分害成更小的單元,當(dāng)發(fā)生故障時(shí),無(wú)論硬件、網(wǎng)絡(luò)、電力系統(tǒng)還是代碼,都將影響最小化。同時(shí),隨機(jī)分片可以進(jìn)一步提高整個(gè)應(yīng)用和系統(tǒng)的可用性。

      基于實(shí)踐總結(jié)的“運(yùn)營(yíng)機(jī)制”的建立

      “為確保云服務(wù)的韌性,卓越的運(yùn)營(yíng)和機(jī)制至關(guān)重要,也是亞馬遜云科技的差異化優(yōu)勢(shì)之一。”代聞強(qiáng)調(diào)。

      如亞馬遜CEO Andy Jassy所言,“經(jīng)驗(yàn)沒有壓縮算法”,經(jīng)過18年的發(fā)展,目前,亞馬遜云科技的運(yùn)營(yíng)機(jī)制總結(jié)為4個(gè)模塊:服務(wù)責(zé)任模型、運(yùn)營(yíng)就緒審查、持續(xù)安全部署、糾錯(cuò)流程。

      1.服務(wù)責(zé)任模型:采用服務(wù)所有權(quán)模型,激勵(lì)團(tuán)隊(duì)不斷改進(jìn)運(yùn)營(yíng)。工程和產(chǎn)品管理工作由小型、多學(xué)科團(tuán)隊(duì)領(lǐng)導(dǎo),并對(duì)其提供的服務(wù)擁有強(qiáng)大的所有權(quán)。這種所有權(quán)不僅要負(fù)責(zé)設(shè)計(jì)和啟動(dòng)服務(wù),還要在生產(chǎn)期間運(yùn)營(yíng)它,并在出現(xiàn)問題時(shí)隨叫隨到。

      2.運(yùn)營(yíng)就緒性審查:在發(fā)布和更新亞馬遜云科技服務(wù)之前,還需要使用運(yùn)營(yíng)就緒性審查(ORR)流程對(duì)所有新服務(wù)進(jìn)行審查。發(fā)布團(tuán)隊(duì)會(huì)回答一系列關(guān)于復(fù)原力以及其他已知最佳實(shí)踐的問題,并使用標(biāo)準(zhǔn)化的運(yùn)行手冊(cè)來(lái)確保服務(wù)符合標(biāo)準(zhǔn)。服務(wù)部署后,每周舉行運(yùn)營(yíng)會(huì)議,檢查系統(tǒng)的運(yùn)營(yíng)性能以及任何懸而未決的問題。

      3.安全、持續(xù)部署:亞馬遜云科技進(jìn)行服務(wù)更新或推出新服務(wù)時(shí)會(huì)使用安全、持續(xù)部署管道。通過使用廣泛的生產(chǎn)前測(cè)試、自動(dòng)回滾和交錯(cuò)生產(chǎn)部署,將自動(dòng)化部署安全性構(gòu)建到發(fā)布過程中,能夠最大限度地減少錯(cuò)誤部署對(duì)生產(chǎn)造成的潛在影響。例如,服務(wù)的更新從小處開始。更新首先推出到AZ內(nèi)的單個(gè)服務(wù)器,并經(jīng)過指定的等待期來(lái)驗(yàn)證沒有出現(xiàn)問題。隨后更新部署到整個(gè)AZ的其余部分,然后部署到其他AZ,然后部署到單個(gè)區(qū)域,最后部署到其余區(qū)域。

      4.糾錯(cuò)流程:出現(xiàn)任何問題會(huì)利用糾錯(cuò)(COE)流程等事件管理機(jī)制來(lái)幫助團(tuán)隊(duì)了解根本原因。在問題得到緩解后推動(dòng)全公司的工程沖刺,以確保該問題在所有服務(wù)中得到解決,這減少了未來(lái)類似事件影響另一個(gè)服務(wù)的可能性。這些學(xué)習(xí)被記錄下來(lái),并成為ORR過程的一部分,這確保了類似的問題不會(huì)再次發(fā)生。

      另外,為了幫助客戶更輕松地提升云中應(yīng)用的韌性,亞馬遜云科技基于自身以及多年服務(wù)客戶的廣泛經(jīng)驗(yàn),總結(jié)了一套包含了服務(wù)、策略和架構(gòu)最佳實(shí)踐的“韌性系統(tǒng)建設(shè)生命周期框架”。該框架包含五個(gè)階段:設(shè)定目標(biāo)、設(shè)計(jì)和實(shí)施、驗(yàn)證和測(cè)試、持續(xù)運(yùn)營(yíng)以及響應(yīng)和改進(jìn)。同時(shí),亞馬遜云科技在每個(gè)階段都為客戶提供了適用的工具和服務(wù)。

      2022 年,奇瑞捷豹路虎選擇將關(guān)鍵的 SAP 系統(tǒng)遷移至亞馬遜云科技云上,成功地邁出了數(shù)字化轉(zhuǎn)型的關(guān)鍵一步。通過將 SAP 系統(tǒng)所有模塊平移上云,奇瑞捷豹路虎的業(yè)務(wù)敏捷性、人員工作效率大幅提升。其中,利用亞馬遜云科技獨(dú)有的一個(gè)區(qū)域三個(gè)可用區(qū)特性,并在亞馬遜云科技特有的自適應(yīng)跨可用區(qū)高可用集群進(jìn)行整體切換基礎(chǔ)上,創(chuàng)新性提出高可用和同城災(zāi)備融合方案,使用云上三個(gè)可用區(qū)及引入仲裁方案使集群可靠性、穩(wěn)定性得到增強(qiáng),最大限度地減少了停機(jī)時(shí)間和保障零數(shù)據(jù)丟失,故障切換時(shí)間從半小時(shí)縮短至 3 分鐘。

      “構(gòu)建韌性是一個(gè)持續(xù)的過程,而不是一次性的努力”,代聞強(qiáng)調(diào)道,“亞馬遜云科技每天穩(wěn)定啟動(dòng)的Amazon EC2實(shí)例超過1億,每秒 API請(qǐng)求數(shù)高達(dá)100萬(wàn)億。正是因?yàn)樽鰧?duì)了很多事情,才有今天全球數(shù)百萬(wàn)客戶的選擇和信任。”

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國(guó)信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。