合合信息啟信產業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產量突破 100 萬輛,到 2027 年建成萬億級產業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實況照片了蘋果有線耳機或將停產沖上熱搜!閑魚相關搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術邂逅千年色彩美學!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴展到企業(yè)和教育領域三星新專利探索AR技術新應用:檢測屏幕指紋殘留,提高手機安全性猛瑪傳奇C1:直播圖傳技術的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗全面升級機器人公司1X推出世界模型Apple Intelligence測試版現(xiàn)已開放革命性AI對話系統(tǒng)Moshi問世:機器也能說人話了?
  • 首頁 > 云計算頻道 > 云計算

    科技云報到:有韌性才能更“任性”,云韌性構筑業(yè)務最后一道防線

    2024年09月20日 15:48:20   來源:科技云報到

      科技云報到原創(chuàng)。

      人們的生活里,充滿了很多看似理所當然的事情:只要網(wǎng)上下單,過幾天想要的東西就會出現(xiàn)在樓下快遞柜;飯點一到,按動幾下手機很快會有熱氣騰騰的飯菜送上門;下班了往沙發(fā)上一躺,與三五好友開黑享受片刻歡愉……假如這一切忽然消失,世界會變成怎樣?

      很多時候,關鍵業(yè)務數(shù)據(jù)意外丟失,或某些內部或外部基礎服務上一個小小的錯誤配置導致半個地球范圍內的服務中斷……所有這些不確定性,不僅讓業(yè)務時刻面臨風險,還會讓企業(yè)聲譽遭受不小的影響。

      有這一句話:破壞穩(wěn)態(tài)的難度越大,我們對系統(tǒng)行為的信心就越強。如果發(fā)現(xiàn)了一個弱點,那么我們就有了一個改進目標。避免在系統(tǒng)規(guī);蟊环糯。

      以往在本地部署和運行關鍵應用時,包括基礎架構、底層硬件在內的很多因素可由企業(yè)自行掌控,因此發(fā)現(xiàn)并解決弱點還是好處理的。但當企業(yè)開始上云,通過云平臺運行這些關鍵應用時,底層基礎架構的管理和維護由云平臺承擔,這時又該如何解決弱點,打造更穩(wěn)定、更有韌性的云基礎設施和應用程序?

      當不穩(wěn)定正在成為常態(tài)

      今年7月19日,微軟公司旗下多個應用和服務出現(xiàn)訪問延遲、功能不全甚至無法訪問的問題。從美國到歐洲,再到亞洲多國,大量用戶的電腦突然藍屏,提示系統(tǒng)遇到問題需要重啟。此次事件波及范圍之廣、影響之大,堪稱近年來少有的全球性技術故障。

      此次微軟服務中斷事件對全球多個行業(yè)造成了嚴重影響。航空公司方面,美國邊疆航空公司、Allegiant航空、SunCountry航空等多家航空公司因系統(tǒng)問題取消了數(shù)百個航班,造成旅客滯留和行程延誤。

      金融領域,以色列、南非等國的銀行系統(tǒng)受到波及,澳大利亞超市的自動收銀機也出現(xiàn)結算異常。此外,電信、媒體、醫(yī)療等多個行業(yè)也不同程度受到影響,倫敦證券交易所的部分服務也一度中斷。

      在國內,雖然三大航及北京首都機場和大興機場的國際航班運行正常,但仍有部分外企及酒店等服務業(yè)受到波及。例如,上?等R德酒店就因系統(tǒng)問題影響了客戶入住和退房流程。

      面對全球范圍內的服務中斷和藍屏問題,微軟迅速做出回應,其表示,問題的根本原因在于第三方殺毒軟件CrowdStrike的一次錯誤更新。經過事故調查,此次事件的核心技術原因在于CrowdStrike的安全軟件更新與Windows系統(tǒng)之間的不兼容。

      CrowdStrike作為全球知名的網(wǎng)絡安全公司,其安全軟件廣泛應用于企業(yè)環(huán)境。然而,在7月19日的更新中,CrowdStrike推送了一個與某些Windows系統(tǒng)特性不兼容的更新,觸發(fā)了系統(tǒng)級的錯誤,最終導致藍屏死機。

      Windows作為全球最廣泛使用的桌面操作系統(tǒng)之一,其穩(wěn)定性直接關系到數(shù)億用戶的日常工作和生活。然而,隨著技術的不斷發(fā)展和應用的日益復雜,系統(tǒng)穩(wěn)定性的挑戰(zhàn)也在不斷增加。

      此次事件再次提醒我們,即使是像微軟這樣的行業(yè)巨頭,也無法完全避免技術故障的發(fā)生。因此,對于操作系統(tǒng)提供商而言,持續(xù)優(yōu)化系統(tǒng)架構、提高代碼質量、加強兼容性測試等工作顯得尤為重要。

      隨著云計算技術的普及,越來越多的企業(yè)和服務依賴于云服務提供商。然而,這也帶來了新的挑戰(zhàn)。一旦云服務提供商出現(xiàn)服務中斷或故障,將直接影響依賴其服務的企業(yè)和個人。此次微軟服務中斷事件就充分展示了云計算時代面臨的這一挑戰(zhàn)。因此,云服務提供商需要加強自身的技術實力和穩(wěn)定性保障能力,確保能夠為用戶提供持續(xù)、穩(wěn)定的服務。

      為什么云中會出現(xiàn)臨時性故障?

      任何環(huán)境、任何平臺或操作系統(tǒng)以及任何類型的應用程序都會發(fā)生臨時性故障。在本地基礎架構上運行的解決方案中,應用程序及其組件的性能和可用性通常由昂貴且利用率不足的冗余硬件來保證。

      雖然此方法使故障的可能性降低,但仍可能導致臨時性故障,甚至因外部電源、網(wǎng)絡問題或其他災難情況等不可預測的事件而中斷。

      托管型云服務雖然可以跨多個計算節(jié)點使用共享資源、冗余、自動故障轉移和動態(tài)資源分配,實現(xiàn)更高的整體可用性,但是這些環(huán)境的性質意味著更可能發(fā)生臨時性故障,導致故障的原因有很多類型。

      首先,由于云環(huán)境中的許多資源是共享的,為了有效管理這些資源,云通常會嚴格管控對這些資源的訪問。例如,某些服務在負載上升到特定級別,或到達吞吐量比率上限時,會拒絕額外連接以便處理現(xiàn)有請求,并為所有現(xiàn)存用戶維持服務性能。限制有助于為共享資源的鄰居與其他租戶維持服務質量。

      其次,云環(huán)境使用大量商用硬件單元構建而成。云環(huán)境將負載動態(tài)分散到多個計算單元和基礎架構組件上以獲得更多性能,并通過自動回收或更換故障單元來提供可靠性。這種動態(tài)性意味著可能偶爾會發(fā)生臨時性故障或暫時性連接失敗。

      第三,在應用程序與資源及其使用的服務之間,通常有多個硬件組件,包括網(wǎng)絡基礎架構,例如路由器和負載均衡器。這些附加的組件偶爾會導致額外的連接延遲或臨時性連接故障。

      第四,客戶端與服務器之間的網(wǎng)絡狀況會不時改變,尤其是通過互聯(lián)網(wǎng)通信時。即使在本地位置,高流量負載也可能減慢通信速度,并造成間歇性的連接故障。

      云韌性如何保障業(yè)務連續(xù)性?

      韌性作為衡量應用程序抵御及快速恢復中斷能力的關鍵指標,涵蓋應對基礎設施故障、依賴服務中斷、錯誤配置、網(wǎng)絡問題乃至負載激增等多方面的能力。

      在數(shù)智化轉型的今天,云端韌性不僅是IT系統(tǒng)穩(wěn)定性和可靠性的體現(xiàn),更是企業(yè)業(yè)務連續(xù)性和市場競爭力的關鍵所在。一旦云服務出現(xiàn)中斷,可能導致企業(yè)運營受阻、客戶體驗下降甚至數(shù)據(jù)丟失等嚴重后果。因此,構建云端韌性已成為企業(yè)IT戰(zhàn)略不可或缺的一部分。

      面對自然災害、網(wǎng)絡攻擊、系統(tǒng)故障等不確定性因素,云端韌性顯得尤為重要。作為全球領先的云計算服務提供商,亞馬遜云科技以其卓越的技術實力和豐富的實踐經驗,在云端韌性領域樹立了標桿。

      亞馬遜云科技大中華區(qū)解決方案架構總經理代聞表示:“亞馬遜云科技去年每天穩(wěn)定啟動的Amazon EC2實例超過1億,每秒API請求數(shù)高達100萬億。正是因為做對了很多事情,才有今天全球數(shù)百萬客戶的選擇和信任。”

      亞馬遜云科技云端韌性的三大支柱涵蓋:韌性的基礎設施,通過全球布局與冗余設計確保服務的全球可達性和高可用性;韌性系統(tǒng)架構,通過單元架構和數(shù)據(jù)面與控制面的分離,減少故障影響范圍,提升系統(tǒng)可用性;卓越的運營機制,通過的DevOps文化與自動化工具,促進團隊協(xié)作與持續(xù)改進,提升運維效率和響應速度。

      在全球范圍內,亞馬遜云科技構建了龐大而高效的數(shù)據(jù)中心網(wǎng)絡,設計了區(qū)域、可用區(qū)、數(shù)據(jù)中心的層級設計,并覆蓋了主要的市場區(qū)域。亞馬遜云科技在全球34個地理區(qū)域部署108個可用區(qū),包括在中國大陸的北京和寧夏兩大區(qū)域,每個區(qū)域均包含三個或更多獨立電力、制冷及物理安全設施的可用區(qū),且這些可用區(qū)之間距離適中,約100公里內,確保高可用性和低延遲。

      這些基礎設施不僅地理位置分布廣泛,而且通過高速骨干網(wǎng)絡相互連接,形成了一個強大的全球云計算網(wǎng)絡。這種全球布局不僅降低了延遲、提高了數(shù)據(jù)傳輸效率,還為跨區(qū)域的數(shù)據(jù)備份和容災提供了便利。

      每個區(qū)域內,亞馬遜云科技都設有多個可用區(qū)(AZ),每個可用區(qū)下又有數(shù)個數(shù)據(jù)中心相連。三個層級內外部均提供低延遲網(wǎng)絡互連,并配備了獨立的電力供應、冷卻系統(tǒng)和物理安全設施。這種多可用區(qū)的設計有效降低了單點故障的風險,即使某個可用區(qū)出現(xiàn)故障,其他可用區(qū)仍然能夠正常運行,確保服務的連續(xù)性。此外,亞馬遜云科技還提供了跨區(qū)域的數(shù)據(jù)復制和故障轉移解決方案,如Amazon S3的跨區(qū)域復制功能,確保用戶數(shù)據(jù)的安全性和可用性。

      除了基礎設施的審慎選址和分散式的布局,云服務的韌性也與其使用的技術架構有著重要的關聯(lián)。越是在技術層面事先做好對風險的分散,一旦面臨問題,所遭受的損失可能就會越小。

      對此,亞馬遜云科技提出了“控制平面”和“數(shù)據(jù)平面”分離的原則。從軟件架構層面來說,云服務的控制面往往包含更多組件,因此其在概率上發(fā)生故障的可能性更大。但是對于絕大多數(shù)的云服務來說,控制面并非是日常運行所必須。

      將控制面與數(shù)據(jù)面分離帶來的一個好處是,假如控制面所在的機房、或者控制面軟件本身出現(xiàn)故障,那么由于數(shù)據(jù)面依然完好、且能正常運作,此時云服務頂多只是表現(xiàn)為無法新建任務或無法進入后臺控制UI,但正在運行的云端程序本身則完全可以不受影響。對于許多企業(yè)用戶來說,這將會使得故障變得對用戶而言幾乎“不可察覺”,甚至不會對業(yè)務本身造成顯著的負面影響。

      此外,亞馬遜云科技還提出了“爆炸半徑”的概念,它指的是故障發(fā)生時、具體的軟硬件影響范圍。為了解決這一問題,亞馬遜云科技采用了“單元架構”設計,將單個服務進一步切分為多個部署堆棧,每一個部署堆棧服務于一個或多個客戶。這樣一來,單一堆棧故障影響的范圍就會更小,不再累及整個可用區(qū)或整個服務。

      在運營機制方面,亞馬遜云科技推行DevOps文化,強調開發(fā)與運維的緊密聯(lián)系。在亞馬遜云科技內部,每個服務團隊都對其負責的服務擁有完整的所有權和運維責任,這種機制確保了服務的穩(wěn)定性和可靠性。通過打破傳統(tǒng)開發(fā)與運維之間的壁壘,亞馬遜云科技促進了團隊協(xié)作和持續(xù)改進,提高了整體運營效率。

      亞馬遜云科技提供了豐富的自動化工具來支持運營機制的實施,這些工具涵蓋了資源部署、配置管理、性能監(jiān)控、故障排查等多個方面。例如,Amazon CloudFormation允許用戶通過模板化的方式來部署和管理亞馬遜云科技資源,大大簡化了資源管理的復雜性;Amazon OpsWorks則提供了一套自動化運維解決方案,幫助用戶實現(xiàn)應用的快速部署、配置和擴展;Amazon DevOps Guru利用AI和機器學習技術實現(xiàn)對系統(tǒng)的實時監(jiān)控和故障預測,進一步提升了系統(tǒng)的韌性和穩(wěn)定性。

      構建云韌性是一個持續(xù)的過程,而不是一次性的努力,需要在業(yè)務需求、可靠性、成本和系統(tǒng)復雜度之間找到平衡點。正如亞馬遜首席信息官Werner Vogels說的那樣,“Everything fails all the time”(故障總在情理之中、意料之外)。

      無論是對于云計算企業(yè)、還是對于志在“上云”的企業(yè)而言,故障的概率永遠都不會是0%。在這個基礎上,良好的基礎設施、成熟的服務架構、有經驗的運營團隊,以及一切為客戶著想的業(yè)務機制,總能幫助企業(yè)將風險化解于無形。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。