合合信息:破解大模型語料庫難題的引領者核聚變2024北京站高能開幕,ROG電競顯示器強勢助力游戲狂歡華為企業(yè)客戶支持圓桌會議成功舉辦,共筑ICT基礎設施維護新未來66元搶爆款AR眼鏡!京東AR眼鏡超級新品日30天無憂適用等你來攜手共進,智啟未來 —— 華為與CypressTel賽柏特成立 SD-WAN 聯(lián)合創(chuàng)新實驗合合信息成功IPO開啟新篇章全球首款第二代酷睿Ultra處理器筆記本!聯(lián)想YOGA Air 15 Aura AI元啟版開啟預售中國品牌,讓東南亞感受“消費升級”小紅書本地“坐抖望團”CrowdStrike“全球滅霸響指”事件后續(xù),德國 10% 企業(yè)更換安全供應商導致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實況照片了蘋果有線耳機或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%
  • 首頁 > 企業(yè)IT頻道 > 人工智能

    智能運維AIOps關鍵技術概覽

    2020年06月18日 15:33:32   來源:中文科技資訊

      傳統(tǒng)運維管理的人工及被動響應方式,已經(jīng)無法支撐數(shù)字化業(yè)務靈活、快速的發(fā)展,要靠智能運維(AIOps)能力來獲得數(shù)據(jù)分析和決策支持。而從傳統(tǒng)ITOM到智能運維的演進過程中,需要一系列關鍵技術的支撐。本文試圖就智能運維落地過程所需關鍵技術點進行概要說明。

    1.jpg

      圖片來源:Gartner

      從智能運維的平臺架構來看,可抽象為幾個層面:數(shù)據(jù)采集層、數(shù)據(jù)匯聚層、數(shù)據(jù)存儲層、建模應用層、分析學習層、應用反饋層。這是一個非常理想的層次劃分,但在智能運維實踐落地過程中,卻存在著諸多坑壑,需要我們正視和解決。

      數(shù)據(jù)采集與傳輸

      運維數(shù)據(jù)的產(chǎn)生和采集來自于ITOM監(jiān)控工具集,通常包括:基礎服務可用性和性能監(jiān)控、網(wǎng)絡性能監(jiān)測與診斷、中間件服務可用性和性能監(jiān)控、應用性能管理、系統(tǒng)運行日志管理、IT資產(chǎn)管理、IT服務支持管理等。

      這些基礎監(jiān)控工具采集的運行狀態(tài)數(shù)據(jù)和運行性能數(shù)據(jù),需要具備足夠存量的數(shù)據(jù)和數(shù)據(jù)增量;以及足夠的數(shù)據(jù)維度覆蓋度(時間維度、空間維度、系統(tǒng)級維度、應用級維度等)才能進行建模利用。與此同時,運維數(shù)據(jù)的時效性強、多維數(shù)據(jù)源割裂采集的現(xiàn)狀、以及如何在后續(xù)建模過程中進行多維數(shù)據(jù)的高效關聯(lián),因此智能運維平臺對數(shù)據(jù)采集層提出以下技術要求:

      • 跨平臺、跨語言棧、高兼容性的多模式統(tǒng)一采集質(zhì)量標準;

      • 兼容多種非容器化與容器化運行環(huán)境;

      • 一致的維度關聯(lián)屬性;

      • 在資源占用、數(shù)據(jù)壓縮比、時效性之間可權衡、可調(diào)節(jié)的傳送機制;

      • 可靠的熔斷和止損機制;

      • 易于部署和維護、統(tǒng)一的配置和任務管理。

      數(shù)據(jù)匯聚、存儲與建模

      數(shù)據(jù)的增量是迅猛的,或?qū)⑦_到網(wǎng)絡的上行極限或磁盤的寫入極限,因此對匯聚層的服務自身可用性和吞吐性能要求極高。匯聚層更像“數(shù)據(jù)湖”,提供元數(shù)據(jù)限制更為寬松的數(shù)據(jù)寫入和獲取途徑、簡易的數(shù)據(jù)清洗任務創(chuàng)建與管理、靈活的數(shù)據(jù)訪問控制和使用行為審計、具備從原始數(shù)據(jù)的發(fā)掘中更便利的進行價值發(fā)掘、具備更敏捷的擴展特性等。

      同時,在設計匯聚存儲層的建設方案時,需要避免數(shù)據(jù)泥沼、無法自助建模、無法執(zhí)行權限管控等困境。在智能運維實踐落地時,要由一組大數(shù)據(jù)業(yè)務專家/架構師,明確地為匯聚與存儲層設計一系列的能力項,這些能力項不僅要滿足“數(shù)據(jù)湖”的諸多特征,還要具備便捷的開發(fā)和實施友好性,降低數(shù)據(jù)接入與抽取清洗的成本,它應該具備至少以下關鍵技術能力:

      • 多數(shù)據(jù)源、海量數(shù)據(jù)的快速接入能力;

      • 元數(shù)據(jù)提取和管理能力;

      • 極其簡易的、高性能的數(shù)據(jù)清洗轉(zhuǎn)換能力;

      • 可根據(jù)數(shù)據(jù)字典或特征算法對數(shù)據(jù)進行關鍵字識別、模式識別的標記能力;

      • 自動的、自助的,對敏感數(shù)據(jù)進行脫敏或加密處理能力;

      • 對數(shù)據(jù)質(zhì)量檢驗并對質(zhì)量標準進行歸一化處置的能力;

      • 數(shù)據(jù)可依據(jù)某種維度或特征進行所屬和應用權限控制的能力;

      • 自動的、自助的,數(shù)據(jù)建模探索能力;

      • 對已建立的搜索、過濾、關聯(lián)、探索模型,友好的進行數(shù)據(jù)輸出能力;

      • 自動的、自助的,分布式集群伸縮能力;

      • 對外提供高效、敏捷數(shù)據(jù)服務的能力。

    2.jpg

      圖:DODB邏輯架構(2017-2020)

      云智慧專業(yè)運維數(shù)據(jù)庫DODB(Digital Operation Database)正是符合上述設計目標的一款專業(yè)運維數(shù)據(jù)庫,基礎運行環(huán)境搭建在CDH/HDP之上,包含了HDFS、Kafka集群、Zookeeper集群以及Spark集群。

      DODB可方便地進行采集任務的配置和管理,支持數(shù)百種數(shù)據(jù)源,包括日志數(shù)據(jù)采集、數(shù)據(jù)庫和中間件數(shù)據(jù)性能數(shù)據(jù)采集、數(shù)十種數(shù)據(jù)庫中表數(shù)據(jù)采集、數(shù)十種數(shù)據(jù)消息中間件中數(shù)據(jù)采集等,支持集群部署、中心化配置管理、狀態(tài)自監(jiān)控與高效熔斷等能力,支持高可擴展性,同時巧妙的解決了數(shù)據(jù)泥沼和無法自助建模的困擾。

      算法體系建設

      在智能運維(AIOps)落地實踐中,算法體系的建設是至關重要的一個環(huán)節(jié)。算法體系建設方面,應從三個角度來去考慮實現(xiàn)思路:

      • 感知:如異常檢測、趨勢預測、問題定位、智能告警;

      • 決策:如彈性擴縮容策略、告警策略;

      • 執(zhí)行:如擴縮容執(zhí)行、資源調(diào)度執(zhí)行。

      智能分析系統(tǒng)將感知、決策、執(zhí)行三個角度落地到智能運維解決方案中,形成發(fā)現(xiàn)問題、產(chǎn)生告警事件、算法模式定位問題、根據(jù)分析結果解決問題的閉環(huán)功能。

      因此,智能分析平臺應具備交互式建模功能、算法庫、樣本庫、數(shù)據(jù)準備、可擴展的底層框架支持、數(shù)據(jù)分析探索、模型評估、參數(shù)及算法搜索、場景模型、實驗報告、模型的版本管理、模型部署應用等功能或模塊。

      云智慧智能分析平臺DOIA(Digital Operation Intelligent Analysis),依托DODB專業(yè)運維數(shù)據(jù)庫提供的基礎大數(shù)據(jù)資源,賦予智能運維的能力,包括動態(tài)基線、異常檢測、根因分析、智能合并、智能故障預測、知識工程等。智能分析平臺是產(chǎn)出算法,滿足跨平臺、多樣化的客戶現(xiàn)場環(huán)境,從最小單元化部署到大規(guī)模集群式部署的可行性方案。

      算法和數(shù)據(jù)的工程融合

      在智能運維(AIOps)平臺落地的實踐中,算法和數(shù)據(jù)的融合,第一步是數(shù)據(jù)的采集和匯聚,通過前文介紹的關鍵技術,我們已經(jīng)獲得了質(zhì)量標準歸一化的、經(jīng)過了提取和轉(zhuǎn)換的、時間/空間/業(yè)務維度標記清楚的數(shù)據(jù),需要補充的是數(shù)據(jù)預處理相關的核心要點。

      1、數(shù)據(jù)預處理

      在數(shù)據(jù)挖掘中,海量原始數(shù)據(jù)中存在大量不完整(有缺失值)、不一致或有異常的數(shù)據(jù),嚴重影響到數(shù)據(jù)挖掘建模的執(zhí)行效率,甚至可能導致挖掘結果的偏差。數(shù)據(jù)預處理的目的是提高數(shù)據(jù)質(zhì)量,從而提升數(shù)據(jù)挖掘的質(zhì)量。方法包括數(shù)據(jù)清洗、數(shù)據(jù)集成和轉(zhuǎn)換,以及數(shù)據(jù)歸約。

      通過數(shù)據(jù)預處理,可以去掉數(shù)據(jù)中的噪音,糾正不一致;數(shù)據(jù)集成將數(shù)據(jù)由多個源合并成一致的數(shù)據(jù)存儲,如數(shù)據(jù)倉儲或數(shù)據(jù)立方;數(shù)據(jù)變換(如規(guī)范化)也可以使用,例如規(guī)范化可以改進涉及距離度量的挖掘算法的精度和有效性;數(shù)據(jù)規(guī)約可以通過合并、刪除冗余特征或聚類來壓縮數(shù)據(jù)。這些數(shù)據(jù)處理技術在數(shù)據(jù)挖掘之前使用,可以大大提高數(shù)據(jù)挖掘模式的質(zhì)量,降低實際挖掘所需要的時間。

      需要注意,有些算法對異常值非常敏感。任何依賴均值/方差的算法都對離群值敏感,因為這些統(tǒng)計量受極值的影響極大。另一方面,一些算法對離群點具有更強的魯棒性。數(shù)據(jù)分析中的描述性統(tǒng)計分析認為:當我們面對大量信息的時候,經(jīng)常會出現(xiàn)數(shù)據(jù)越多,事實越模糊的情況,因此我們需要對數(shù)據(jù)進行簡化,描述統(tǒng)計學就是用幾個關鍵的數(shù)字來描述數(shù)據(jù)集的整體情況。

      2、算法工程集成

      在智能運維(AIOps)算法分析系統(tǒng)中,不同算法對應不同的適配場景,需要根據(jù)數(shù)據(jù)特征模式來選擇合適的算法應用。如指標異常算法的應用:針對周期穩(wěn)定性數(shù)據(jù),我們采取動態(tài)極限的模型;針對周期不不穩(wěn)定的數(shù)據(jù),采⽤頻域分析的模型;針對穩(wěn)定性的數(shù)據(jù)采⽤極限閾值判斷的模型。通過模型選擇的算法,對不同的數(shù)據(jù)的模型進行適配,達到最優(yōu)的效果。

      因此,想要以開箱即用的方式、采用某種標準的機器學習算法直接應用,而不考慮業(yè)務特征,通常并不可行。

      我們需要首先考慮該組業(yè)務指標間的關聯(lián)性,如果有應用或系統(tǒng)間的調(diào)用鏈或調(diào)用拓撲供參考,這是最好不過的。如果沒有調(diào)用鏈或拓撲,則需要先根據(jù)已知可能的業(yè)務相關性,進行曲線波動關聯(lián)、回歸分析等算法分析,獲得極限閾值嘗試得到因果匹配,通過一系列的事件歸集得到相關性,再對每一次反饋進行適應,嘗試自動匹配更為準確的算法和參數(shù),才可能達到期望的異常檢測目標。

      智能運維的工程化過程,是一個算法、算力與數(shù)據(jù)相結合,平臺自身與業(yè)務系統(tǒng)反饋相結合的復雜過程。在與業(yè)務場景結合的前提下,靈活的算力組織、高效的數(shù)據(jù)同步、可插拔的服務化、模型應用過程中的高精度與高速度,是AI工程化本身的核心訴求。

      總結和展望

      智能運維(AIOps)落地的過程中的坑非常多,這是云智慧過去幾年大量行業(yè)實踐得到的真實體驗。它對數(shù)據(jù)平臺搭建、數(shù)據(jù)采集與傳輸、數(shù)據(jù)匯聚、存儲與建模、數(shù)據(jù)計算、AI體系化、場景與工程化融合等方面提出了極其苛刻的要求,需要更專業(yè)的、更高質(zhì)量標準的運維數(shù)據(jù)庫,還需要一支強有力的分析、架構和開發(fā)團隊支撐,才能真正帶來生產(chǎn)力的提高。

      文章內(nèi)容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    [No. H001]
    分享到微信

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產(chǎn)品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。