經(jīng)過快速穩(wěn)定的發(fā)展,川慶物探IT規(guī)模逐漸擴大,IT基礎(chǔ)架構(gòu)建設(shè)趨于完備。云計算時代,川慶物探著眼于業(yè)務(wù)擴展的需要,引入云資源,加快了川慶物探信息化建設(shè)的步伐。但是,川慶物探原有的IT運維并不完善,IT運維服務(wù)模式的改革創(chuàng)新勢在必行。
目前川慶物探共有3個數(shù)據(jù)中心機房:2個在成都,1個在新疆庫爾勒。其中庫爾勒為移動式機房,成都1樓機房主要為利舊將下線的老設(shè)備,2樓機房為承載川慶物探重要業(yè)務(wù)應(yīng)用的集群化服務(wù)器和存儲資源。
目前針對機房及設(shè)備間的管理都比較完善,服務(wù)器和存儲設(shè)備資源均已池化,但隨著支撐業(yè)務(wù)應(yīng)用的逐漸增多,資源的合理利用是一個較大問題。
1 行業(yè)特性
對石油勘探行業(yè)而言,IT資源除了存儲海量數(shù)據(jù)的設(shè)備外,最關(guān)鍵的就是計算資源。石油勘探行業(yè)采集的地質(zhì)數(shù)據(jù)數(shù)量龐大,而且需要經(jīng)由地震資料處理類軟件和地震資料解釋類軟件復(fù)雜的運算才能完成數(shù)據(jù)分析工作,這兩類軟件分別用于地震數(shù)據(jù)的處理和地震數(shù)據(jù)的解釋,其所需要的運算量相當龐大。
采集上來的原始數(shù)據(jù)經(jīng)過地震資料處理類軟件或解釋類軟件的復(fù)雜運算,再通過矩陣的變化,迭代后會產(chǎn)生更龐大的數(shù)據(jù)量。最后,輸出原始數(shù)據(jù)處理結(jié)果時,又需要進行大量計算,最后變成與原始數(shù)據(jù)體量規(guī)模相似的數(shù)據(jù)。
2 項目背景
2016年底,勤智運維與川慶物探研究中心合作,搭建一體化智能運維平臺承擔整個研究中心的運維支撐工作。川慶物探研究中心通過部署勤智OneCenter一體化運維管理平臺,對川慶成都數(shù)據(jù)中心機房的核心網(wǎng)絡(luò)設(shè)備、計算和存儲集群資源進行了全面監(jiān)控;通過網(wǎng)絡(luò)拓撲圖、設(shè)備性能視圖、設(shè)備告警視圖、自動化運維及定制化功能,直觀了解網(wǎng)絡(luò)設(shè)備、技術(shù)、存儲集群資源的使用情況,并能及時發(fā)現(xiàn)設(shè)備故障;通過自動化資源調(diào)度合理分配、計算、存儲資源,由被動運維變?yōu)橹鲃舆\維。
3 現(xiàn)狀描述及需求分析
3.1 現(xiàn)狀描述
類似川慶物探研究中心計算所這樣的科研機構(gòu),承載地學(xué)研究、勘探數(shù)據(jù)分析等任務(wù)的石油勘探行業(yè)的研究所或計算中心,都面臨著同樣的信息化運維難題。隨著數(shù)據(jù)規(guī)模不斷增長,計算壓力逐漸變大,計算所的規(guī)模也在擴大。川慶物探現(xiàn)有3個數(shù)據(jù)中心,2個在成都,1個在新疆。各數(shù)據(jù)中心只能負責(zé)各自的數(shù)據(jù),數(shù)據(jù)中心之間的遠程監(jiān)控還未實現(xiàn)。
為了保障勘探項目的順利進行,為各項目組提供服務(wù),川慶物探研究中心計算所投資建設(shè)的高性能計算平臺有2000多個計算節(jié)點,近40000個CPU,每個CPU的核數(shù)超過了10000。硬件上的投入看似足夠,但當項目繁忙需要很多應(yīng)用軟件同時在高性能計算平臺上運行時,系統(tǒng)的穩(wěn)定性就會出現(xiàn)問題。川慶物探急需一套專業(yè)的一體化運維平臺,實現(xiàn)網(wǎng)絡(luò)、計算、存儲資源監(jiān)控、遠程、自動化的調(diào)度管理,讓投資的硬件、軟件資源的利用率更高,為業(yè)務(wù)順利開展提供服務(wù)保障。
3.2 需求分析
隨著川慶物探投資建設(shè)的高性能計算平臺上線運行,各核心網(wǎng)絡(luò)設(shè)備運行基本暢通,計算及存儲資源在實際項目中的合理高效利用成為關(guān)注的焦點。為此,川慶物探從實際業(yè)務(wù)出發(fā)提出了如下要求:
1)實現(xiàn)對核心網(wǎng)絡(luò)設(shè)備的全面監(jiān)控,并可在拓撲視圖中直觀顯示網(wǎng)絡(luò)架構(gòu)、設(shè)備的運行狀態(tài)和網(wǎng)絡(luò)鏈路的性能和通斷情況。
2)實現(xiàn)對計算及存儲集群資源監(jiān)控,并通過統(tǒng)計視圖展現(xiàn)集群資源CPU、內(nèi)存使用情況。
3)實現(xiàn)磁盤陣列各文件系統(tǒng)的信息采集,并以圖表方式展現(xiàn)。
4)實現(xiàn)以矩陣方式展現(xiàn)各計算集群節(jié)點運行應(yīng)用分布情況,不同應(yīng)用以不同顏色區(qū)分。
5)實現(xiàn)計算集群資源通過自動化執(zhí)行腳本方式自動調(diào)度分配。
4 解決方案
經(jīng)過前期需求調(diào)研,考慮到需監(jiān)控管理的計算節(jié)點超過1000個,勤智運維決定采用分布式部署方式,數(shù)據(jù)處理器單獨部署一臺服務(wù)器,兩個數(shù)據(jù)采集器、集中門戶等組件單獨部署一臺服務(wù)器,數(shù)據(jù)庫采用Oracle11g單獨部署一臺服務(wù)器。
1)通過網(wǎng)絡(luò)拓撲視圖展示,自動發(fā)現(xiàn)生成網(wǎng)絡(luò)拓撲,并且關(guān)聯(lián)設(shè)備的性能和告警信息,便于進行故障隔離和快速定位。
1 拓撲圖展示
2)通過勤智OneCenter一體化智能運維平臺實現(xiàn)對網(wǎng)絡(luò)、計算、存儲集群資源全面監(jiān)控,實時展現(xiàn)各資源的CPU、內(nèi)存、磁盤、接口等性能指標信息。
2 網(wǎng)絡(luò)設(shè)備
3 計算集群節(jié)點
4 存儲集群節(jié)點
將業(yè)務(wù)資源分組,以統(tǒng)計視圖方式集中展現(xiàn)各計算、存儲集群資源CPU、內(nèi)存使用情況。
5 計算集群資源使用統(tǒng)計視圖
6 計算集群各節(jié)點CPU利用率
川慶物探數(shù)據(jù)機房運維:實現(xiàn)資源統(tǒng)一、自動化調(diào)度管理
7 計算集群各節(jié)點內(nèi)存利用率
3)磁盤陣列使用情況統(tǒng)計:通過定時代理方式,在指定存儲節(jié)點上執(zhí)行腳本命令采集獲取磁盤陣列文件系統(tǒng)目錄使用情況,并以圖表方式進行集中展現(xiàn)。
8 存儲文件系統(tǒng)一級目錄
9 存儲文件系統(tǒng)一級目錄
4)項目應(yīng)用矩陣視圖展現(xiàn):按照川慶物探的業(yè)務(wù),每個計算集群節(jié)點上均會部署運行一個項目應(yīng)用,例如:Omega、Paradigm等。計算集群節(jié)點為Linux系統(tǒng),勤智OneCenter一體化智能運維平臺按照Linux對各節(jié)點進行監(jiān)控,并將川慶物探的項目應(yīng)用名稱同Linux操作系統(tǒng)的“系統(tǒng)說明”字段進行綁定,綁定策略可在后臺配置文件中進行維護。
以矩陣方式集中展現(xiàn)a段、b段、c段等計算集群節(jié)點上運行應(yīng)用情況。
10 矩陣視圖展示
5)自動化資源調(diào)度:通過對計算集群資源的全面監(jiān)控,及時掌控各集群節(jié)點的使用情況,結(jié)合資源調(diào)度功能實現(xiàn)自動化在線分配節(jié)點資源(釋放空閑節(jié)點的資源到業(yè)務(wù)緊張的節(jié)點中)。
11 資源調(diào)度
5 用戶收益
勤智OneCenter一體化智能運維平臺,能夠幫助川慶物探用戶找到問題出現(xiàn)的根源,比如哪些資源已經(jīng)超負荷,哪些資源處于閑置狀態(tài),并通過在線資源調(diào)度合理分配超負荷資源和閑置資源,使其得到高效利用。川慶物探能夠?qū)崟r掌控計算平臺上的應(yīng)用運行情況,預(yù)知分配給應(yīng)用的計算節(jié)點何時達到峰值。如果當前CPU利用率較低,就可以加載將要運行的軟件,提高平臺處理效率。
川慶物探反饋引入勤智OneCenter一體化智能運維平臺后,業(yè)務(wù)能夠更好地順利開展,所有可監(jiān)控的業(yè)務(wù)都做到了提前報警,計算集群節(jié)點使用狀況實時可控,實現(xiàn)了資源的統(tǒng)一、自動化管理,投資的軟硬件資源利用率更高。
6 案例亮點
本項目一期建設(shè)亮點如下:
1)實現(xiàn)對川慶物探核心網(wǎng)絡(luò)設(shè)備、計算和存儲集群資源全面監(jiān)控,結(jié)合ITAM平臺實現(xiàn)自動調(diào)用腳本實現(xiàn)計算集群資源的在線調(diào)度。
2)通過定制化需求對計算集群節(jié)點CPU、內(nèi)存性能指標進行集中展現(xiàn);以矩陣方式展現(xiàn)各計算集群節(jié)點運行業(yè)務(wù)應(yīng)用情況。
3)通過定時代理方式在指定存儲節(jié)點上執(zhí)行腳本命令,獲取磁盤陣列文件系統(tǒng)目錄使用情況,并以圖表方式進行集中展現(xiàn)。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔。
近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。
近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。