丁瑩
摘要:因為ATM機的自動化處理機制,基本無工作人員監(jiān)管,商業(yè)銀行需要通過對每家分行的匯總統(tǒng)計信息做數(shù)據(jù)分析,來捕捉整個前端和后端整體應用系統(tǒng)運行情況以及時發(fā)現(xiàn)異常或故障。為了能夠幫助銀行檢測出系統(tǒng)運行時的異?;蚬收?,本文將提取出指標的特征參數(shù),通過閾值劃分,方差分析法,數(shù)據(jù)的臺階檢測等,設計出一套交易狀態(tài)異常檢測方案。
關鍵詞:方差分析法;統(tǒng)計分析;散點圖;正態(tài)分布
1.問題重述
某商業(yè)銀行的 ATM 應用系統(tǒng)包括前端和后端兩個部分。前端是部署在銀行營業(yè)部和各自助服務點的 ATM 機(系統(tǒng)),后端是總行數(shù)據(jù)中心的處理系統(tǒng)。持卡人從前端提交業(yè)務請求,到后臺處理完畢,并將處理結果返回到前端,通知持卡人業(yè)務處理最終狀態(tài),我們稱這樣完整的一個流程為一筆交易。商業(yè)銀行總行數(shù)據(jù)中心監(jiān)控系統(tǒng)通過對每家分行的匯總統(tǒng)計信息做數(shù)據(jù)分析,來捕捉整個前端和后端整體應用系統(tǒng)運行情況以及時發(fā)現(xiàn)異?;蚬收?。
任務:
①選擇、提取和分析 ATM 交易狀態(tài)的特征參數(shù);
②設計一套交易狀態(tài)異常檢測方案,在對該交易系統(tǒng)的應用可用性異常情況下能做到及時報警,同時盡量減少虛警誤報;
③設想可增加采集的數(shù)據(jù)?;跀U展數(shù)據(jù),提升任務(1)(2)中達到的目標。
2.問題分析
針對交易狀態(tài)特征參數(shù)的選擇提取問題分析,應用MATLAB和Excel通過相關性分析和圖像的直觀判斷發(fā)現(xiàn)三個指標之間并不存在明顯相關性,只有交易量與時間、日期存在明顯的相關性。因此我們將三個指標分別進行處理,提取特征參數(shù)。通過日總交易量圖的分析,發(fā)現(xiàn)交易量在1-2月之間相較其他時間有顯著的波動,推測是春節(jié)因素的影響,因此分析時將其分段處理。結合每日交易量圖,工作日和非工作日的日總交易量和每日交易量散點圖并沒有明顯區(qū)別。對于成功率指標,我們通過散點圖發(fā)現(xiàn)其在交易量少的時間段波動范圍較大,因此使用一個模型將交易量累加到一定值的平均成功率來替代,處理后提取其標準差和平均值作為特征參數(shù)。對于響應時間,通過對其圖像的觀察,得到數(shù)據(jù)點分布的特征,同樣提取其標準差和平均值作為其特征參數(shù)。
針對問題異常數(shù)據(jù)分析的問題,經過分析,三個指標不存在明顯相關性,且每個指標都至少對應一個故障源,因此對三個參數(shù)異常數(shù)據(jù)進行獨立檢測。首先使用三個指標提取的特征參數(shù),通過大量數(shù)據(jù)的分析,發(fā)現(xiàn)成功率和響應時間數(shù)據(jù)十分集中,我們采用方差分析法判斷異常數(shù)據(jù)。交易量與時間及日期存在相關性,所以數(shù)據(jù)處理較為復雜,因此我們建立了多個模型來判斷異常數(shù)據(jù).在建立異常和故障報警模型時,結合現(xiàn)實中故障有一定的持續(xù)時間,因此只有當一個指標出現(xiàn)異常持續(xù)一定時間,才會發(fā)出異常或故障報警。
針對報警系統(tǒng)建立的問題,本文考慮增加交易金額、業(yè)務類型作為擴展數(shù)據(jù),來減少對交易量突減情況的誤報。
3.模型的建立與分析
通過上述分析,本人建立了異常檢測模型,解決了如下問題:
①針對不同指標,選取出不同的特征參數(shù)。
②對數(shù)據(jù)進行處理,依據(jù)工作日和非工作日、業(yè)務低谷時段和業(yè)務正常時段分割數(shù)據(jù),應用描述分析、N次檢驗,參照選取的特征參數(shù),找出了成功率突變和恢復的時間節(jié)點,從而能夠檢測出異常區(qū)間做出預警。
因為缺少每種故障場景所需的修復時間,單個異常值也可能是正常情況,設定當一個指標出現(xiàn)異常超過十分鐘才發(fā)出故障報警。這樣可以提高預警精度,規(guī)避部分誤報情況。
問題三的分析
可增加采集的數(shù)據(jù)有:
①每分鐘交易金額:若每分鐘交易金額增大,每筆交易的平均時間會有一定的增加,間接的導致交易量的下降。根據(jù)高額現(xiàn)金交易所用時間時間樣本做數(shù)理統(tǒng)計,找出合理的置信區(qū)間,在此區(qū)間范圍內,若發(fā)現(xiàn)交易量的突降,如果同時交易金額的突增,可以不進行故障場景1預警,降低故障場景1的誤報率。但是值得注意的是,交易金額在交易量絕對數(shù)量較大時對交易量影響較大,在ATM閑時影響會比較小。
②業(yè)務類型:不同業(yè)務類型請求所用的業(yè)務處理時間不同,例如轉賬交易普遍慢于存取交易,存取款業(yè)務普遍慢于查詢業(yè)務。若發(fā)現(xiàn)交易量明顯降低,響應時間明顯變長,則需查看業(yè)務類型,對每一類型業(yè)務的用時做數(shù)理統(tǒng)計找出合適的置信區(qū)間,若用時在該業(yè)務類型的正常用時范圍內,則可以不進行預警,降低誤報率。
③DNS服務器反應時間:通過檢測每個傳輸節(jié)點的DNS反應時間來檢查傳輸節(jié)點是否故障,若檢測結果出現(xiàn)明顯異常,及時作出做出預警。
④網絡負載率:若檢測到網絡負載率達到較大值或者滿載值,響應時間較大,成功率較低或交易量驟減就很可能不是前端或后端的故障問題導致,而是數(shù)據(jù)傳輸過程出現(xiàn)阻塞導致,此數(shù)據(jù)的采集也能一定程度上減少誤報率。
⑤每種故障的修復時間:
對于問題一 可增加一個特征參數(shù),即為每種故障的平均修復時間
對于問題二 這個因素直接影響到異常值持續(xù)多少時間判定為出現(xiàn)故障
該數(shù)據(jù)采集難度較低,只需每次修復各種故障時進行登記統(tǒng)計即可。
參考文獻:
[1]劉豐年,一種基于UML-Petri網的ATM自動取款機建模方法[J].寧波技術學院學報,2016,20(1):91-94.
[2]劉卓軍李曉明.基于時間序列建模和控制圖的異常交易檢測方法[J].計算機應用與軟件,2013,30(1):165-170.
[3]張成虎趙小虎.基于小波分析的可疑金融交易時間序列研究[J].現(xiàn)代管理科學,2009,(7):102-104.