攜手共進,智啟未來 —— 華為與CypressTel賽柏特成立 SD-WAN 聯(lián)合創(chuàng)新實驗合合信息成功IPO開啟新篇章全球首款第二代酷睿Ultra處理器筆記本!聯(lián)想YOGA Air 15 Aura AI元啟版開啟預(yù)售中國品牌,讓東南亞感受“消費升級”小紅書本地“坐抖望團”CrowdStrike“全球滅霸響指”事件后續(xù),德國 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實況照片了蘋果有線耳機或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴展到企業(yè)和教育領(lǐng)域
  • 首頁 > 產(chǎn)經(jīng)新聞頻道 > 業(yè)界新聞

    川慶物探數(shù)據(jù)機房運維:實現(xiàn)資源統(tǒng)一、自動化調(diào)度管理

    2017年10月09日 15:28:55   來源:慧聰網(wǎng)

      經(jīng)過快速穩(wěn)定的發(fā)展,川慶物探IT規(guī)模逐漸擴大,IT基礎(chǔ)架構(gòu)建設(shè)趨于完備。云計算時代,川慶物探著眼于業(yè)務(wù)擴展的需要,引入云資源,加快了川慶物探信息化建設(shè)的步伐。但是,川慶物探原有的IT運維并不完善,IT運維服務(wù)模式的改革創(chuàng)新勢在必行。

      目前川慶物探共有3個數(shù)據(jù)中心機房:2個在成都,1個在新疆庫爾勒。其中庫爾勒為移動式機房,成都1樓機房主要為利舊將下線的老設(shè)備,2樓機房為承載川慶物探重要業(yè)務(wù)應(yīng)用的集群化服務(wù)器和存儲資源。

      目前針對機房及設(shè)備間的管理都比較完善,服務(wù)器和存儲設(shè)備資源均已池化,但隨著支撐業(yè)務(wù)應(yīng)用的逐漸增多,資源的合理利用是一個較大問題。

      1 行業(yè)特性

      對石油勘探行業(yè)而言,IT資源除了存儲海量數(shù)據(jù)的設(shè)備外,最關(guān)鍵的就是計算資源。石油勘探行業(yè)采集的地質(zhì)數(shù)據(jù)數(shù)量龐大,而且需要經(jīng)由地震資料處理類軟件和地震資料解釋類軟件復(fù)雜的運算才能完成數(shù)據(jù)分析工作,這兩類軟件分別用于地震數(shù)據(jù)的處理和地震數(shù)據(jù)的解釋,其所需要的運算量相當龐大。

      采集上來的原始數(shù)據(jù)經(jīng)過地震資料處理類軟件或解釋類軟件的復(fù)雜運算,再通過矩陣的變化,迭代后會產(chǎn)生更龐大的數(shù)據(jù)量。最后,輸出原始數(shù)據(jù)處理結(jié)果時,又需要進行大量計算,最后變成與原始數(shù)據(jù)體量規(guī)模相似的數(shù)據(jù)。

      2 項目背景

      2016年底,勤智運維與川慶物探研究中心合作,搭建一體化智能運維平臺承擔整個研究中心的運維支撐工作。川慶物探研究中心通過部署勤智OneCenter一體化運維管理平臺,對川慶成都數(shù)據(jù)中心機房的核心網(wǎng)絡(luò)設(shè)備、計算和存儲集群資源進行了全面監(jiān)控;通過網(wǎng)絡(luò)拓撲圖、設(shè)備性能視圖、設(shè)備告警視圖、自動化運維及定制化功能,直觀了解網(wǎng)絡(luò)設(shè)備、技術(shù)、存儲集群資源的使用情況,并能及時發(fā)現(xiàn)設(shè)備故障;通過自動化資源調(diào)度合理分配、計算、存儲資源,由被動運維變?yōu)橹鲃舆\維。

      3 現(xiàn)狀描述及需求分析

      3.1 現(xiàn)狀描述

      類似川慶物探研究中心計算所這樣的科研機構(gòu),承載地學(xué)研究、勘探數(shù)據(jù)分析等任務(wù)的石油勘探行業(yè)的研究所或計算中心,都面臨著同樣的信息化運維難題。隨著數(shù)據(jù)規(guī)模不斷增長,計算壓力逐漸變大,計算所的規(guī)模也在擴大。川慶物探現(xiàn)有3個數(shù)據(jù)中心,2個在成都,1個在新疆。各數(shù)據(jù)中心只能負責(zé)各自的數(shù)據(jù),數(shù)據(jù)中心之間的遠程監(jiān)控還未實現(xiàn)。

      為了保障勘探項目的順利進行,為各項目組提供服務(wù),川慶物探研究中心計算所投資建設(shè)的高性能計算平臺有2000多個計算節(jié)點,近40000個CPU,每個CPU的核數(shù)超過了10000。硬件上的投入看似足夠,但當項目繁忙需要很多應(yīng)用軟件同時在高性能計算平臺上運行時,系統(tǒng)的穩(wěn)定性就會出現(xiàn)問題。川慶物探急需一套專業(yè)的一體化運維平臺,實現(xiàn)網(wǎng)絡(luò)、計算、存儲資源監(jiān)控、遠程、自動化的調(diào)度管理,讓投資的硬件、軟件資源的利用率更高,為業(yè)務(wù)順利開展提供服務(wù)保障。

      3.2 需求分析

      隨著川慶物探投資建設(shè)的高性能計算平臺上線運行,各核心網(wǎng)絡(luò)設(shè)備運行基本暢通,計算及存儲資源在實際項目中的合理高效利用成為關(guān)注的焦點。為此,川慶物探從實際業(yè)務(wù)出發(fā)提出了如下要求:

      1)實現(xiàn)對核心網(wǎng)絡(luò)設(shè)備的全面監(jiān)控,并可在拓撲視圖中直觀顯示網(wǎng)絡(luò)架構(gòu)、設(shè)備的運行狀態(tài)和網(wǎng)絡(luò)鏈路的性能和通斷情況。

      2)實現(xiàn)對計算及存儲集群資源監(jiān)控,并通過統(tǒng)計視圖展現(xiàn)集群資源CPU、內(nèi)存使用情況。

      3)實現(xiàn)磁盤陣列各文件系統(tǒng)的信息采集,并以圖表方式展現(xiàn)。

      4)實現(xiàn)以矩陣方式展現(xiàn)各計算集群節(jié)點運行應(yīng)用分布情況,不同應(yīng)用以不同顏色區(qū)分。

      5)實現(xiàn)計算集群資源通過自動化執(zhí)行腳本方式自動調(diào)度分配。

      4 解決方案

      經(jīng)過前期需求調(diào)研,考慮到需監(jiān)控管理的計算節(jié)點超過1000個,勤智運維決定采用分布式部署方式,數(shù)據(jù)處理器單獨部署一臺服務(wù)器,兩個數(shù)據(jù)采集器、集中門戶等組件單獨部署一臺服務(wù)器,數(shù)據(jù)庫采用Oracle11g單獨部署一臺服務(wù)器。

      1)通過網(wǎng)絡(luò)拓撲視圖展示,自動發(fā)現(xiàn)生成網(wǎng)絡(luò)拓撲,并且關(guān)聯(lián)設(shè)備的性能和告警信息,便于進行故障隔離和快速定位。

    川慶物探數(shù)據(jù)機房運維:實現(xiàn)資源統(tǒng)一、自動化調(diào)度管理

      1 拓撲圖展示

      2)通過勤智OneCenter一體化智能運維平臺實現(xiàn)對網(wǎng)絡(luò)、計算、存儲集群資源全面監(jiān)控,實時展現(xiàn)各資源的CPU、內(nèi)存、磁盤、接口等性能指標信息。

    川慶物探數(shù)據(jù)機房運維:實現(xiàn)資源統(tǒng)一、自動化調(diào)度管理

      2 網(wǎng)絡(luò)設(shè)備

    川慶物探數(shù)據(jù)機房運維:實現(xiàn)資源統(tǒng)一、自動化調(diào)度管理

      3 計算集群節(jié)點

    川慶物探數(shù)據(jù)機房運維:實現(xiàn)資源統(tǒng)一、自動化調(diào)度管理

      4 存儲集群節(jié)點

      將業(yè)務(wù)資源分組,以統(tǒng)計視圖方式集中展現(xiàn)各計算、存儲集群資源CPU、內(nèi)存使用情況。

    川慶物探數(shù)據(jù)機房運維:實現(xiàn)資源統(tǒng)一、自動化調(diào)度管理

      5 計算集群資源使用統(tǒng)計視圖

    川慶物探數(shù)據(jù)機房運維:實現(xiàn)資源統(tǒng)一、自動化調(diào)度管理

      6 計算集群各節(jié)點CPU利用率

      川慶物探數(shù)據(jù)機房運維:實現(xiàn)資源統(tǒng)一、自動化調(diào)度管理

    川慶物探數(shù)據(jù)機房運維:實現(xiàn)資源統(tǒng)一、自動化調(diào)度管理

      7 計算集群各節(jié)點內(nèi)存利用率

      3)磁盤陣列使用情況統(tǒng)計:通過定時代理方式,在指定存儲節(jié)點上執(zhí)行腳本命令采集獲取磁盤陣列文件系統(tǒng)目錄使用情況,并以圖表方式進行集中展現(xiàn)。

    川慶物探數(shù)據(jù)機房運維:實現(xiàn)資源統(tǒng)一、自動化調(diào)度管理

      8 存儲文件系統(tǒng)一級目錄

    川慶物探數(shù)據(jù)機房運維:實現(xiàn)資源統(tǒng)一、自動化調(diào)度管理

      9 存儲文件系統(tǒng)一級目錄

      4)項目應(yīng)用矩陣視圖展現(xiàn):按照川慶物探的業(yè)務(wù),每個計算集群節(jié)點上均會部署運行一個項目應(yīng)用,例如:Omega、Paradigm等。計算集群節(jié)點為Linux系統(tǒng),勤智OneCenter一體化智能運維平臺按照Linux對各節(jié)點進行監(jiān)控,并將川慶物探的項目應(yīng)用名稱同Linux操作系統(tǒng)的“系統(tǒng)說明”字段進行綁定,綁定策略可在后臺配置文件中進行維護。

      以矩陣方式集中展現(xiàn)a段、b段、c段等計算集群節(jié)點上運行應(yīng)用情況。

    川慶物探數(shù)據(jù)機房運維:實現(xiàn)資源統(tǒng)一、自動化調(diào)度管理

      10 矩陣視圖展示

      5)自動化資源調(diào)度:通過對計算集群資源的全面監(jiān)控,及時掌控各集群節(jié)點的使用情況,結(jié)合資源調(diào)度功能實現(xiàn)自動化在線分配節(jié)點資源(釋放空閑節(jié)點的資源到業(yè)務(wù)緊張的節(jié)點中)。

    川慶物探數(shù)據(jù)機房運維:實現(xiàn)資源統(tǒng)一、自動化調(diào)度管理

      11 資源調(diào)度

      5 用戶收益

      勤智OneCenter一體化智能運維平臺,能夠幫助川慶物探用戶找到問題出現(xiàn)的根源,比如哪些資源已經(jīng)超負荷,哪些資源處于閑置狀態(tài),并通過在線資源調(diào)度合理分配超負荷資源和閑置資源,使其得到高效利用。川慶物探能夠?qū)崟r掌控計算平臺上的應(yīng)用運行情況,預(yù)知分配給應(yīng)用的計算節(jié)點何時達到峰值。如果當前CPU利用率較低,就可以加載將要運行的軟件,提高平臺處理效率。

      川慶物探反饋引入勤智OneCenter一體化智能運維平臺后,業(yè)務(wù)能夠更好地順利開展,所有可監(jiān)控的業(yè)務(wù)都做到了提前報警,計算集群節(jié)點使用狀況實時可控,實現(xiàn)了資源的統(tǒng)一、自動化管理,投資的軟硬件資源利用率更高。

      6 案例亮點

      本項目一期建設(shè)亮點如下:

      1)實現(xiàn)對川慶物探核心網(wǎng)絡(luò)設(shè)備、計算和存儲集群資源全面監(jiān)控,結(jié)合ITAM平臺實現(xiàn)自動調(diào)用腳本實現(xiàn)計算集群資源的在線調(diào)度。

      2)通過定制化需求對計算集群節(jié)點CPU、內(nèi)存性能指標進行集中展現(xiàn);以矩陣方式展現(xiàn)各計算集群節(jié)點運行業(yè)務(wù)應(yīng)用情況。

      3)通過定時代理方式在指定存儲節(jié)點上執(zhí)行腳本命令,獲取磁盤陣列文件系統(tǒng)目錄使用情況,并以圖表方式進行集中展現(xiàn)。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。