摘要:IDC安防巡檢機器人的網(wǎng)絡監(jiān)控系統(tǒng)拓撲結構復雜且存在盲區(qū),以整體思路設計的告警系統(tǒng)可能導致機器人無法準確監(jiān)測到所有的安全事件或異常情況。提出基于分布式Hadoop的IDC安防巡檢機器人網(wǎng)絡監(jiān)控告警系統(tǒng)設計。引入HDFS體系結構及MapReduce任務處理技術,設計Hadoop高性能監(jiān)控數(shù)據(jù)處理平臺,降低運維成本;在該平臺上設計IDC安防巡檢機器人網(wǎng)絡監(jiān)控系統(tǒng),對數(shù)據(jù)中心實施全面巡檢;構建基于能量特征變換的無閾值告警算法,提取監(jiān)控項數(shù)據(jù)中的能量、波動以及時間3種特征,在此基礎上將隨機森林算法融合到模型中,自動形成巡檢軟件設計并觸發(fā)告警。實驗結果表明:所提方法具有較高的告警準確率和效率,且能夠有效降低IDC運維成本。
關鍵詞:Hadoop平臺;IDC;安防巡檢機器人;監(jiān)控告警;能量特征變換提取;隨機森林
中圖分類號:TP242.3;TP277文獻標志碼:B文章編號:1671-5276(2024)06-0262-06
Abstract:As the network monitoring system topology of IDC security patrol robot is complex in structure with blind spots, its alarm system may cause the failure in accurately monitoring all security events or abnormalities. The design of IDC security patrol robot Network monitoring alarm system based on distributed Hadoop is proposed. The HDFS architecture and MapReduce task processing technology are introduced to design a Hadoop high-performance monitoring data processing platform for operation and maintenance cost reduction. The IDC security patrol robot Network monitoring system is designed on the platform to implement comprehensive patrol inspection on the data center. A threshold free alarm algorithm based on energy feature transformation is constructed to extract the three characteristics of energy, fluctuation and time in the monitoring item data. On this basis, the random forest algorithm is integrated into the model, automatically forming the patrol software design and trigger the alarm. The experimental results show that the proposed method has high alarm accuracy and efficiency and can effectively reduce IDC operation and maintenance costs.
Keywords:hadoop platform; IDC; security inspection robot; monitoring alarm; energy feature transformation extraction; random forest
0引言
互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)的運行維護是一項重要且艱難的工作。IDC可使企業(yè)從繁雜、重復性以及低價值的維護工作中解脫出來,投入到價值更高的處理工作中去,雖然極大地提高了生產能力和效益,但隨之而來的安全問題也越來越多。數(shù)據(jù)運營公司在人工智能不斷發(fā)展的背景下,迫切需要考慮如何引入IDC安防巡檢機器人并采用完備的有效網(wǎng)絡監(jiān)控系統(tǒng)來應對突發(fā)的災難性事件,對異常情況及時告警并處理,保障網(wǎng)絡安全。因此IDC安防巡檢機器人網(wǎng)絡監(jiān)控系統(tǒng)告警技術已成為該領域的研究重點。
趙慶兵等[1]利用參數(shù)自回歸算法實現(xiàn)IDC巡檢機器人網(wǎng)絡監(jiān)控系統(tǒng)的早期預警。利用多維度時序數(shù)據(jù)進行參數(shù)自回歸,實現(xiàn)了對系統(tǒng)正常工作狀態(tài)的估計,并從實測值中提取殘差的特征,在此基礎上設定一個動態(tài)閾值,根據(jù)該閾值完成系統(tǒng)的狀態(tài)監(jiān)測和告警機制。但方法容易產生誤告警問題,加重運維成本。林凌云等[2]利用知識圖譜技術建立IDC安防巡檢網(wǎng)絡監(jiān)控系統(tǒng)的故障告警策略。該方法首先以系統(tǒng)歷史事故和變位信號作為IDC監(jiān)控系統(tǒng)事故行為圖譜;其次利用異常行為建立系統(tǒng)異常行為圖譜;最后從圖譜中挖掘出告警信號之間的行為邏輯并顯示出來。該方法告警效率較低,同時也降低了系統(tǒng)的運行效率。
為了解決上述系統(tǒng)設計方法中存在的問題,本文提出一種IDC安防巡檢機器人網(wǎng)絡監(jiān)控告警系統(tǒng)設計方法。
1系統(tǒng)基礎Hadoop平臺設計
IDC的海量運維監(jiān)控數(shù)據(jù)是動態(tài)實時的,頻繁的數(shù)據(jù)采集,降低了監(jiān)控效率,不能及時得到作業(yè)系統(tǒng)狀態(tài)問題的反饋,且增加了服務器運行成本。Hadoop平臺具有低成本、大規(guī)模、高效安全的優(yōu)勢[3],因此將整個IDC安防巡檢機器人網(wǎng)絡監(jiān)控系統(tǒng)建立在Hadoop之上是實現(xiàn)低成本、高性能處理平臺的必要方式,其體系結構如圖1所示。
Hadoop主要由提供數(shù)據(jù)存儲功能的HDFS和在集群環(huán)境中提供數(shù)據(jù)分析計算功能的MapReduce組成。
1)HDFS
HDFS[4]是一個獨立的分布式文件系統(tǒng),其容錯性較高,能夠根據(jù)IDC安防巡檢機器人網(wǎng)絡監(jiān)控系統(tǒng)所需要和查詢的條件,存儲任意形式的數(shù)據(jù)并自動優(yōu)化數(shù)據(jù)流量,保障較高的帶寬,降低數(shù)據(jù)的丟失并提高工作效率。其體系結構如圖2所示。
2)MapReduce
在IDC網(wǎng)絡監(jiān)控數(shù)據(jù)采集時已經(jīng)將采集到的數(shù)據(jù)實時保存在HDFS中,基于此可以利用MapReduce完成數(shù)據(jù)的讀取和處理。通過Map階段和Reduce階段實現(xiàn)網(wǎng)絡監(jiān)控數(shù)據(jù)的分析和處理,也同樣適用于離線大數(shù)據(jù)的計算分析,其工作原理如圖3所示。
由此即可搭建一個數(shù)據(jù)規(guī)模易擴展、處理速度快的分布式海量數(shù)據(jù)處理監(jiān)控平臺,在該平臺上完成后續(xù)IDC安防巡檢機器人網(wǎng)絡監(jiān)控系統(tǒng)告警處理,能夠有效降低運行成本和提高安全性。
2系統(tǒng)的硬件與軟件設計
2.1Hadoop平臺上監(jiān)控告警系統(tǒng)硬件設計
傳統(tǒng)的人工周期性安防巡檢存在巡檢內容單一、數(shù)據(jù)重復率較高等缺陷,IDC運維環(huán)境的復雜度以及巡檢人員工作能力等因素均會影響安防巡檢工作的質量。為此,本文基于Hadoop平臺,引入IDC安防巡檢機器人[5]輔助替代人工巡檢。IDC安防巡檢機器人的網(wǎng)絡監(jiān)控系統(tǒng)主要由巡檢端和上機位監(jiān)控系統(tǒng)兩部分組成,總體設計框架如圖4所示。
巡檢端主要負責底層控制端實施數(shù)據(jù)采集(包含溫濕度信息、燃氣濃度信息和甲醛濃度信息等)以及自主導航巡檢,其結構如圖5所示。
在機器人巡檢端中,ARM微處理器[6]的主要任務是處理采集到的各種數(shù)據(jù),若數(shù)據(jù)超過預警值則執(zhí)行語音報警和補救,以此減少經(jīng)濟損失,在此基礎上利用串口將信息傳輸給樹莓派,再通過樹莓派將信息從網(wǎng)絡上傳到監(jiān)控系統(tǒng)中。
當IDC安防巡檢機器人完成巡檢任務后,會將采集到的巡檢數(shù)據(jù)信息自動傳送到其網(wǎng)絡監(jiān)控系統(tǒng)中,再利用網(wǎng)絡監(jiān)控系統(tǒng)將信息傳送給上述設計的Hadoop平臺中,以此高效率、低成本地完成監(jiān)控信息存儲和分析處理,為后續(xù)監(jiān)控系統(tǒng)告警策略提供有利條件。
2.2軟件算法設計
本文所提方法通過上述方法獲取到監(jiān)控項數(shù)據(jù)后,建立一種基于能量特征變換提取的無閾值告警算法,該算法能夠在滿足實時業(yè)務告警需求的前提下,有效提高告警準確性,其流程如圖6所示。
通過能量特征變換方法對監(jiān)控項數(shù)據(jù)進行特征提取。能量特征變換是一種基于能量的特征提取方法,它能夠捕獲到信號中的能量分布特征并提取出能量相關的特征。
1)數(shù)據(jù)預處理
在監(jiān)控過程中,由于受到某些主要儀器故障以及巡檢環(huán)境干擾,會導致在監(jiān)控數(shù)據(jù)采集過程中出現(xiàn)部分數(shù)據(jù)缺失的現(xiàn)象。為了確保監(jiān)控項數(shù)據(jù)的質量,利用數(shù)據(jù)填充法[7],通過調整前后數(shù)據(jù)點的平均值填補中間的缺失數(shù)據(jù),并采用滑窗建立數(shù)據(jù)集中的樣本,示意圖如圖7所示。
在Hadoop平臺上,滑窗窗口大小預設為5,監(jiān)控項每隔5min讀取一次監(jiān)控項數(shù)據(jù),經(jīng)數(shù)據(jù)預處理后得到N個監(jiān)控值,相應獲?。∟-5)+1個數(shù)據(jù)樣本。
2)基于能量特征變換的特征提取
通過數(shù)據(jù)預處理獲取監(jiān)控數(shù)據(jù)完整樣本后,根據(jù)IDC監(jiān)控項數(shù)據(jù)特點,采用基于能量特征變換的特征提取算法,提取以下3個方面的特征值。
a)能量
能量用于反映監(jiān)控值的大小,提取計算公式如下:
式中:g1、g2、g3分別代表當前值、平均值以及能量值;u代表監(jiān)控值;t代表第t個時間點。
b)波動
波動用于反映監(jiān)控項數(shù)據(jù)的變化,計算公式如下:
式中:g4、g5、g6、g7分別表示斜率、標準差、高于均值個數(shù)以及相鄰絕對波動;η表示全部監(jiān)控數(shù)據(jù)的平均值;I表示當前窗口內大于η的數(shù)量。
c)時間特性
時間特性表征當前監(jiān)控值與時間的關聯(lián),計算公式如下:
式中g8、g9分別表示以周為周期以及以分鐘為周期的關聯(lián)挖掘時間。將當前窗口t和前兩個窗口t-1、t-2中的特征組合作為最終特征值,表達式如下:
式中:At為每個窗口所提取的特征;Gi為組合特征集;t為窗口大小。
3)引入隨機森林劃分高維監(jiān)控項數(shù)據(jù)
利用隨機森林來進行高維監(jiān)控項數(shù)據(jù)的劃分,輸出告警結果。隨機森林[8]是一種包含一系列樹結構分類器,用j(x,Θk,k=1,2,…)描述,其中的Θk表示具有獨立均勻分布特性的隨機向量,分類過程分為3個步驟。
步驟1:子訓練集生成
通過Bootstrap方法從大小為N的原始監(jiān)控數(shù)據(jù)集中采樣N次,建立M個子訓練集。
步驟2:特征選擇
從森林中所有樹節(jié)點中隨機選取部分特征,通過基尼指數(shù)法選取最優(yōu)特征劃分節(jié)點建立決策樹[9]?;嶂笖?shù)越高說明該監(jiān)控項數(shù)據(jù)純度越高,其一致性也越好,計算公式如下:
式中:Gini(·)為基尼指數(shù);F為給定的數(shù)據(jù)樣本;K表示其類別;Fk代表第k個類別的數(shù)量。若引入特征A,則需將F分為V1和V2兩部分,由此得到基于特征A的數(shù)據(jù)樣本F的基尼指數(shù)計算公式:
步驟3:由所建立的全部決策樹生成M顆樹組成的森林,每棵樹的權重相同,利用森林投票機制選擇到最多的類別則是監(jiān)控項數(shù)據(jù)樣本的最終分類結果[10],流程如圖8所示。
隨機森林具有較快的訓練速度、較高的分類精度以及較強的抗噪能力,能夠有效劃分高維監(jiān)控項數(shù)據(jù)。為此將其引入到無閾值告警模型中完成訓練,訓練后的結果傳輸?shù)紿adoop平臺上的IDC安防巡檢機器人網(wǎng)絡監(jiān)控系統(tǒng)中,即可根據(jù)實際情況實時觸發(fā)告警并執(zhí)行相應的措施。
3實驗與分析
3.1實驗設置
為了驗證基于Hadoop的IDC安防巡檢機器人網(wǎng)絡監(jiān)控系統(tǒng)告警方法的整體有效性,需要對其展開測試。實驗對象為IDC數(shù)據(jù)機房巡檢機器人RW400,在主測計算機上安裝Hadoop分布式文件系統(tǒng)和Hadoop計算框架,搭建以IDC安防巡檢機器人為核心的機器人網(wǎng)絡監(jiān)控系統(tǒng)告警實驗平臺,實現(xiàn)相關軟件的運行。
IDC安防巡檢機器人的巡檢環(huán)境設置如下。
1)攝像頭布置:實驗選擇500 m2的中型IDC機房,在IDC機房內合理地布置攝像頭以覆蓋關鍵區(qū)域和設備。攝像頭可以固定在天花板上或掛在墻壁上,確保能夠完整記錄需要巡檢的區(qū)域。
2)傳感器安裝:在機房內部安裝合適的LM35溫度傳感器、DHT22濕度傳感器、MQ-2煙霧傳感器,以便監(jiān)測環(huán)境狀態(tài)并及時發(fā)現(xiàn)異常情況。
實驗參數(shù)如下。
1)Hadoop集群的節(jié)點數(shù)量:共設置3個節(jié)點,其中一個用作主節(jié)點,其余節(jié)點用作工作節(jié)點,以提供基本的容錯能力和高可用性。
2)使用YARN(yet another resource negotiator)來管理和分配計算資源,根據(jù)每個任務的需求動態(tài)分配資源。
3)數(shù)據(jù)分片大小:128MB或64MB。
3.2結果分析
采用本文所提方法和文獻[1]方法、文獻[2]方法開展誤警率和告警準確率、穩(wěn)定度以及運行時間3個方面的測試。
1)誤警率和告警準確率
在IDC運維環(huán)境巡檢監(jiān)控告警過程中,IDC安防巡檢機器人極易出現(xiàn)誤警情況,導致告警精度較低,為此將誤警率作為衡量IDC安防巡檢機器人網(wǎng)絡監(jiān)控系統(tǒng)告警有效性的重要指標之一。誤警率指的是本來正常的數(shù)據(jù)被誤認為異常數(shù)據(jù)并觸發(fā)警告,利用所提方法和文獻[1]方法、文獻[2]方法并展開12次測試,得到圖9的對比結果。
由圖9可以看出,在實驗次數(shù)不斷增加的前提下,文獻[1]方法和文獻[2]方法的誤警率波動較大,文獻[1]方法的誤警率呈較大的增長趨勢,而文獻[2]方法曲線波動較大,穩(wěn)定性較差;相比之下,所提方法的誤警率最小,最多不超過15%,說明所提方法具有更好的運行性能。
告警準確率指的是異常監(jiān)控數(shù)據(jù)被成功判斷為異常數(shù)據(jù)的概率以及正常監(jiān)控數(shù)據(jù)被判斷為正常數(shù)據(jù)的概率,將其作為評估指標,測試3種方法的告警準確率,結果如圖10所示。
由圖10可知,隨著實驗次數(shù)的增加,所提方法的告警準確率始終保持在88%以上且過程較穩(wěn)定;文獻[1]方法的告警準確率在前3次測試中雖然能夠保持在65%左右,但隨著實驗次數(shù)的增加,該方法的告警準確率出現(xiàn)變化,告警準確率最低已經(jīng)降到32%,會直接導致誤告警的發(fā)生;文獻[2]方法的告警準確率在全部測試中保持在50%~80%的范圍內。對比可知,所提方法的告警準確率相對較高,能夠有效增強網(wǎng)絡的安全性。
2)穩(wěn)定度
告警方法的穩(wěn)定度是保障IDC安防巡檢機器人監(jiān)控性能的第二個重要指標,穩(wěn)定度越高,系統(tǒng)運行的性能和可靠性越強,隨著監(jiān)控數(shù)據(jù)的不斷增加,3種方法的穩(wěn)定度變化情況如圖11所示。
從圖11中可以看出,其他兩種傳統(tǒng)方法在監(jiān)控數(shù)據(jù)較少的情況下,穩(wěn)定性較好,但隨著監(jiān)控數(shù)據(jù)的增加,文獻[1]方法的運算穩(wěn)定度出現(xiàn)大幅度下降的趨勢,文獻[2]方法的運算穩(wěn)定度曲線不平穩(wěn)。由此可以說明所提方法具有更高的運算穩(wěn)定度,在提高系統(tǒng)運維穩(wěn)定性的同時,也能相應地降低運行時間。
3)運行時間
在監(jiān)控數(shù)據(jù)異常情況下的及時告警是保障IDC運維環(huán)境安全的關鍵。告警方法的運行時間越少,表明其告警實時性越高,對運維環(huán)境安全的可靠性越強。在與上述測試條件相同的基礎上,采用3種方法對監(jiān)控數(shù)據(jù)分別展開異常告警測試,結果統(tǒng)計如表1所示。
分析表1可得,所提方法在監(jiān)控數(shù)據(jù)增加到最多的800個時,運行時間為11.42ms,整體平均耗時為9.58ms;而文獻[1]方法耗時最長,平均為23.44ms,高于所提方法13.86ms;文獻[2]方法雖然低于文獻[1]方法,但高于所提方法2.58ms。相比之下,所提方法具有更高的計算效率,同時也代表所提方法具有更高的告警效率,提高了系統(tǒng)的工作效率。
在此基礎上,對上述實驗結果進行實際驗證。通過監(jiān)控系統(tǒng)對機器人進行實時監(jiān)測,收集機器人傳感器數(shù)據(jù)和執(zhí)行狀態(tài)信息。利用Hadoop平臺進行數(shù)據(jù)處理和分析,檢測異常情況并觸發(fā)相應的告警。在上述設定的IDC安防巡檢機器人的巡檢環(huán)境下,基于Hadoop平臺構建異常檢測模型,通過監(jiān)控系統(tǒng)實時采集機器人的傳感器數(shù)據(jù)和執(zhí)行狀態(tài)信息,記錄機器人的位置坐標。當機器人位置偏離預定區(qū)域,系統(tǒng)及時發(fā)送告警信息給相關人員。檢測異常情況結果統(tǒng)計如表2所示。
由表2可知,當檢測到機器人位置偏離預定區(qū)域,IDC安防巡檢機器人網(wǎng)絡監(jiān)控系統(tǒng)告警信息發(fā)送時延最長為3.34ms,表明所設計系統(tǒng)能夠及時觸發(fā)相應的告警機制。運維人員接收到告警信息后進行驗證和處理,還可以前往現(xiàn)場檢查機器人位置或傳感器狀態(tài),或與機器人操作人員聯(lián)系確認狀況。通過上述實際驗證,可以確保IDC安防巡檢機器人的網(wǎng)絡監(jiān)控系統(tǒng)的可靠性、及時性和準確性,提高IDC安全和機房設備維護的效率和可靠性。
4結語
為了降低IDC運維成本,保障運維環(huán)境的安全性,提出基于Hadoop的IDC安防巡檢機器人網(wǎng)絡監(jiān)控系統(tǒng)告警方法。首先設計低成本、高效率的Hadoop數(shù)據(jù)處理平臺,在該平臺上引入IDC安防巡檢機器人網(wǎng)絡監(jiān)控系統(tǒng),用于數(shù)據(jù)中心運維環(huán)境的全面巡檢,最后以獲取到的巡檢監(jiān)控數(shù)據(jù)為基礎,將隨機森林融入到建立的基于能量特征變換的無閾值告警模型中,實現(xiàn)IDC安防巡檢機器人網(wǎng)絡監(jiān)控系統(tǒng)告警。本方法能夠有效提升IDC安防巡檢機器人網(wǎng)絡監(jiān)控系統(tǒng)告警的準確率及穩(wěn)定度,且方法耗時較短,具有重要的實際應用意義。
參考文獻:
[1] 趙慶兵,魏士源,翟小飛,等. 基于參數(shù)自回歸算法的核電廠關鍵設備早期預警方法研究[J]. 核動力工程,2021,42(6):209-214.
[2] 林凌云,陳青,金磊,等. 基于知識圖譜的變電站告警信息故障知識表示研究與應用[J]. 電力系統(tǒng)保護與控制,2022,50(12):90-99.
[3] 朱嘉斌. 基于Hadoop+MPP架構的城市軌道交通大數(shù)據(jù)中心建設方案[J]. 城市軌道交通研究,2022,25(5):54-57.
[4] 喬嘉林,黃向東,楊義繁,等. 基于著色Petri網(wǎng)的HDFS數(shù)據(jù)一致性建模與分析[J]. 軟件學報,2021,32(10):2993-3013.
[5] 賀曉峰,廖志偉,肖華明,等. 智能巡檢機器人傳感與控制系統(tǒng)研究與設計[J]. 中國煤炭,2022,48(增刊1):1-5.
[6] 王春露,田瑞冬,趙旭,等. ARM處理器分支預測漏洞分析測評及新漏洞發(fā)現(xiàn)[J]. 西安交通大學學報,2021,55(7):71-78.
[7] 熊中敏,郭懷宇,吳月欣. 缺失數(shù)據(jù)處理方法研究綜述[J]. 計算機工程與應用,2021,57(14):27-38.
[8] 吳忠強,曹碧蓮,侯林成,等. 基于小波包變換和隨機森林算法的光伏系統(tǒng)故障分類[J]. 計量學報,2021,42(12):1650-1657.
[9] 吳澤楓,李成剛,宋勇,等. 基于NB-IoT模塊的機器人監(jiān)控系統(tǒng)移動應用開發(fā)[J]. 機械制造與自動化,2021,50(1):161-163,197.
[10] 鄭伶俊. 變電站巡檢機器人系統(tǒng)設計與實現(xiàn)[J]. 機械制造與自動化,2023,52(2):162-165,188.
收稿日期:20230808
第一作者簡介:張晨(1981—),男,四川成都人,工程師,本科,研究方向為電子信息工程,zdz5412145@yeah.net。
DOI:10.19344/j.cnki.issn1671-5276.2024.06.052