鐘茂年
(中興通信股份有限公司,深圳 518057)
整體而言,我國互聯(lián)網(wǎng)金融的發(fā)展起步較晚,運維體系有很大的改進空間,將大數(shù)據(jù)技術(shù)融合到智能運維體系中,可以挖掘數(shù)據(jù)的潛在價值,并且實時進行監(jiān)控,做好事前預(yù)測和事故處理工作。針對傳統(tǒng)運維方式的不足之處,本文從新的角度對智能運維體系進行了研究,具有一定的積極意義。
目前,IT 運維環(huán)境日益復(fù)雜,需要管控的對象日益龐大,傳統(tǒng)的運維體系在應(yīng)用過程中顯得捉襟見肘,所以需要應(yīng)用大數(shù)據(jù)分析技術(shù)構(gòu)建智能運維體系。
本文以某工商銀行的管理系統(tǒng)為例,并且采訪了相關(guān)的專家,根據(jù)專家的意見,確定了模型的數(shù)據(jù)范圍,比如登錄日志、交易日志等,以2017年1 ~12月的數(shù)據(jù)為主要參考對象,在此基礎(chǔ)上進行了加工處理,并且分為登錄、登出、失敗、交易和異常五大指標(biāo),然后對這些指標(biāo)進行匯總,建立了相關(guān)的時間序列。
在對數(shù)據(jù)進行探索時,需要將數(shù)據(jù)進行分類,比如分為訓(xùn)練集、驗證集等,并且對五大指標(biāo)進行觀察,可以選擇10分鐘為一個時間粒度。經(jīng)過探索發(fā)現(xiàn),工作日的上午和下午都會有兩個波峰,趨勢相似,但是幅度有所區(qū)別,而非工作日,比如周末、法定假日等,交易量明顯減少。如果系統(tǒng)出現(xiàn)故障,那么交易量會急速下降,而當(dāng)故障解除后,交易量會逐漸回到正常水平。因為系統(tǒng)日志記錄存在一定的誤差,也沒有對出現(xiàn)異常的原因進行分析,加上登錄失敗可能是由于密碼錯誤引起的,所以本文以登錄、登出和交易這三大指標(biāo)為主要研究對象。
首先,要對數(shù)據(jù)進行預(yù)處理和預(yù)分析,可以通過數(shù)據(jù)的集合,觀察系統(tǒng)亞健康狀態(tài)時變量的情況和特征,找到規(guī)律。一般而言,系統(tǒng)發(fā)生故障時,系統(tǒng)變量會有所降低,而且在故障發(fā)生之前,這種降低已經(jīng)出現(xiàn),只是比較緩慢,需要經(jīng)過多個周期。
其次,要建立參考區(qū)間,對歷史數(shù)據(jù)進行全面的分析,確定不同時間段內(nèi)變量的波動區(qū)間。為了保證序列能夠進行對比,我們需要將數(shù)據(jù)進行統(tǒng)一的處理,形成標(biāo)準(zhǔn)數(shù)據(jù)。公式為Vit=Iit/ηit,其中Iit 指的是t 時刻第i 個變量的輸入值,而ηit 指的是標(biāo)準(zhǔn)化系數(shù),也就是均值,而Vit 指的是經(jīng)過處理后的變量值,也是頻數(shù)相對率。
再次,因為變量標(biāo)準(zhǔn)化需要獲取當(dāng)日均值,而在進行實時監(jiān)控時,要引入因子指標(biāo),計算出不同時刻頻數(shù)占總頻數(shù)的比值。一般而言,上班時間開始時,系統(tǒng)的變異系數(shù)相對較低,約等于0.2。
最后,在預(yù)警信號的產(chǎn)生方面,需要對變量的相對值和邊界值進行加權(quán)計算,這樣能夠提高信號的準(zhǔn)確性。對于一些突發(fā)式的故障或者是黑客的攻擊等,該系統(tǒng)并不適用,所以在應(yīng)用的過程中,還要具體情況具體分析。
在對智能運維體系模型進行檢驗時,需要做好概念的分析工作,比如系統(tǒng)故障,假設(shè)15個工作日,其中有8次波形異常,而系統(tǒng)亞健康狀態(tài)發(fā)生時間在波形異常之前,如果缺乏記錄,就會影響頻數(shù)最低點記錄的真實性,而且會產(chǎn)生較大的誤差。至于波形異常,包括波形顯著上升、顯著下降和平穩(wěn)時間過長三類。經(jīng)過檢驗,發(fā)現(xiàn)故障點共有13個,有10次識別成功并且進行了預(yù)警,而波形異常情況共有20次,有18次成功識別。在對信號進行統(tǒng)計后,發(fā)現(xiàn)智能運維體系的準(zhǔn)確率為77%,漏報率為23%,而且預(yù)報的平均時間比故障時間提前了將近半小時,能夠很好地保證系統(tǒng)運行的效果,并且為故障的及時解決爭取到了寶貴的時間[1]。
大數(shù)據(jù)分析技術(shù)智能運維體系的流程如圖1所示,在模型應(yīng)用過程中,發(fā)現(xiàn)能夠準(zhǔn)確預(yù)測和判斷系統(tǒng)的亞健康狀態(tài),尤其是在2017年10月份,系統(tǒng)運行出現(xiàn)高峰,在這一期間運維體系發(fā)揮了得天獨厚的優(yōu)勢,對故障進行了多次預(yù)警,幫助和協(xié)調(diào)工作人員順利完成維護工作,減少了可能出現(xiàn)的損失。
圖1 大數(shù)據(jù)分析技術(shù)智能運維體系
為了保證智能運維體系達到最佳效果,對所有故障都能夠進行準(zhǔn)確的判斷和預(yù)警,需要從以下三方面入手:
第一方面,擴大數(shù)據(jù)來源。在數(shù)據(jù)采集方面,要打破縱向和橫向的局限,擴大數(shù)據(jù)的周期,比如選擇十一五期間某銀行的數(shù)據(jù),這樣可以減少系統(tǒng)用戶行為受到季節(jié)或者是特殊日期的影響,從而保證結(jié)果的真實性。另外,可以對數(shù)據(jù)進行分類,分為管控數(shù)據(jù)、配置數(shù)據(jù)、作業(yè)數(shù)據(jù)、容器數(shù)據(jù)以及集成數(shù)據(jù)等,同時還要做好故障的定位工作。
第二方面,豐富算法規(guī)則。可以引入新的變量,然后結(jié)合關(guān)鍵指標(biāo)的變化情況,建立決策樹或者是使用神經(jīng)網(wǎng)絡(luò)算法,提高預(yù)測結(jié)果的精度,降低外界因素的干擾。如果輸入和輸出存在正相關(guān)的關(guān)系,那么就可以對向量進行分解,然后調(diào)節(jié)各個分量之和的參數(shù),讓最終結(jié)果能夠接近真實結(jié)果,如圖2所示。
第三方面,結(jié)合專業(yè)經(jīng)驗。在對數(shù)據(jù)進行定量分析和定性分析時,不能停留在表面,而是需要與大數(shù)據(jù)領(lǐng)域的專家進行溝通和交流,并且根據(jù)故障發(fā)生的場景,總結(jié)出故障的特點,然后形成模型,這樣能夠保證當(dāng)再次發(fā)生同樣的故障時,可以及時采取既有的故障解決措施進行解決[2]。
圖2 神經(jīng)算法
對于金融機構(gòu)而言,如果想要保證大數(shù)據(jù)分析技術(shù)智能運維體系正常運行,需要做好定位工作,尤其是要明確智能運維體系的特點以及能夠取得的效果。另外,還要注意執(zhí)行的方式,是選擇個性化還是側(cè)重于安全,是兼顧效率和安全,還是強調(diào)體系的整體性。從客觀角度看,隨著大數(shù)據(jù)分析技術(shù)的日益成熟,智能運維體系在金融機構(gòu)日常運行和管理的重要性日益凸顯,所以安全問題逐漸受到人們的重視,所以在明確體系定位上,既要從整體角度考慮問題,也要確保體系的安全[3]。
對于智能運維體系所需要和涉及的信息,要做好統(tǒng)一工作,比如用戶信息、口令信息等,并且做好監(jiān)控和管理工作,尤其是要做好實時更新工作。在信息認(rèn)證方面,眾所周知,身份認(rèn)證十分關(guān)鍵而且必不可少,如何對用戶信息進行集中管理,是一項十分艱巨的任務(wù),稍有不慎,可能會與監(jiān)管工作存在一定的沖突,而且進行改動時,可能涉及密碼保存的形式,所以需要認(rèn)真考慮。另外,在流程和權(quán)限方面,也要從全局的角度考慮,避免對整個金融機構(gòu)的運營產(chǎn)生不良影響。雖然智能運維體系能夠起到很好的預(yù)警作用,但是由于金融機構(gòu)的活動眾多,客戶廣泛,所以必須要規(guī)范金融活動的流程,而且要明確工作人員的責(zé)任,做好分工,比如在授權(quán)方面,需要金融機構(gòu)領(lǐng)導(dǎo)批準(zhǔn)和簽字,工作人員未經(jīng)許可,不得從事權(quán)限以外的活動。
無論是管理人員,還是技術(shù)人員,都要提高自身工作水平和素質(zhì),保障智能運維體系的穩(wěn)定運行。在過去很長一段時間內(nèi),由于工作人員水平低下,導(dǎo)致金融機構(gòu)蒙受損失的情況時有發(fā)生,所以要對這類人員進行培訓(xùn),提高他們的能力,打造素質(zhì)過硬的員工隊伍,同時也要做好宣傳工作,讓智能運維體系深入人心,在機構(gòu)和單位內(nèi)部形成良好的氛圍和環(huán)境。只有工作人員了解智能運維體系的特點,才能真正提高運維水平,并且提高服務(wù)水平。
綜上所述,基于大數(shù)據(jù)分析技術(shù)的智能運維體系在應(yīng)用過程中取得了很好的效果,提高了系統(tǒng)預(yù)警的質(zhì)量,保證了系統(tǒng)的穩(wěn)定運行,極大地減輕了工作人員的負(fù)擔(dān)和壓力。但是在具體的應(yīng)用過程中,還有很大的提升空間,所以在未來的發(fā)展中,智能運維體系還需要不斷豐富內(nèi)容和形式,與時俱進。