摘 要:本文主要研究了基于拓?fù)渚W(wǎng)絡(luò)結(jié)構(gòu)圖的ATM系統(tǒng)的故障應(yīng)對機制問題,采用回歸分析法以及聚類分析法,構(gòu)建CPU載荷(和響應(yīng)時間、交易量成正比)以及預(yù)測的交易量作為兩個新的特征參數(shù)。構(gòu)建成功率和響應(yīng)時間的中心聚類模型,挑選出分行側(cè)網(wǎng)絡(luò)出現(xiàn)故障及數(shù)據(jù)中心后端處理系統(tǒng)應(yīng)用進程異常數(shù)據(jù)點;運用箱線圖得出響應(yīng)時間正常范圍的閾值,建立后端CPU負(fù)荷模型;最后利用滑動時間窗口模型剔除時間窗口過小的異常數(shù)據(jù)點,指出了某年1~4月的10次異常情況。
關(guān)鍵詞:回歸分析;聚類分析;滑動時間窗口;時間序列模型;樸素貝葉斯分類器
1 問題背景
銀行的ATM應(yīng)用系統(tǒng)包括前端和后端兩個部分。銀行總行數(shù)據(jù)中心監(jiān)控系統(tǒng)通過匯總統(tǒng)計每家分行的業(yè)務(wù)量、交易成功率、交易響應(yīng)時間,來做出數(shù)據(jù)分析,從而捕捉整個前端和后端整體應(yīng)用系統(tǒng)運行情況以及時發(fā)現(xiàn)異?;蚬收?。
常見的故障場景包括但不限于如下情形:1)分行側(cè)網(wǎng)絡(luò)傳輸節(jié)點故障,前端交易異常,導(dǎo)致業(yè)務(wù)量陡降;2)分行側(cè)參數(shù)數(shù)據(jù)變更或者配置錯誤,前端交易異常,影響交易成功率指標(biāo);3)數(shù)據(jù)中心后端處理系統(tǒng)異常(如操作系統(tǒng)CPU負(fù)荷過大),影響交易響應(yīng)時間指標(biāo);4)數(shù)據(jù)中心后端處理系統(tǒng)應(yīng)用進程異常,導(dǎo)致交易失敗或響應(yīng)緩慢。
本文根據(jù)某商業(yè)銀行ATM應(yīng)用系統(tǒng)某分行的交易統(tǒng)計數(shù)據(jù),建立模型對ATM機交易狀的特征參數(shù)進行了選擇、提取和分析。
2 問題分析
要求確定特征參數(shù),通過觀察和分析數(shù)據(jù),發(fā)現(xiàn)在選擇特征參數(shù)時,不能夠只是簡單的選擇題中所給交易量,成功率,響應(yīng)時間單一分析,還應(yīng)該尋找他們與時間之間的關(guān)系或彼此之間的關(guān)系。通過分析后,得出綜合的特征參數(shù)。
3 基于業(yè)務(wù)量的回歸模型
通過分析,結(jié)合圖中與生活中的實際情況,一月份由于過年,交易量整月增加。二、三、四月的總交易量大致相同。因而將二、三、四月共同分析,一月單獨分析。同時因為工作日和非工作日交易量差異量較大,所以將工作日與非工作日分開處理。
● 00:00~06:00
首先分別分析二、三、四月工作日00:00~06:00交易量與時間的關(guān)系,通過觀察兩者之間的散點圖,可猜測兩者成二次或三次曲線模型。
經(jīng)過擬合發(fā)現(xiàn),三次曲線模型的R2更大,擬合度更好,因此選擇三次曲線模型。
由此可以寫出三次曲線方程為:
y=-9.931×10-7x3+0.002x2-0.689x+84.758
同理可得,二、三、四月非工作日00:00~06:00交易量也滿足三次曲線模型。由此可以寫出三次曲線方程為:
y=-1.219×10-6x3+0.002x2-0.764x+93.781
● 06:00~12:00
由此可以寫出三次曲線方程為:
y=-1.065×10-5x3+12.560x-4170.905
同理可得,二、三、四月非工作日06:00-12:00交易量也滿足三次曲線模型為:
y=-9.884×10-6x3+11.946x-4022.602
● 12:00~00:00
最后,分別分析二、三、四月工作日12:00~00:00交易量與時間的關(guān)系,通過觀察兩者之間的散點圖,可猜測兩者成二次或三次曲線模型。
由此可以寫出二次曲線方程為:
y=-0.005x2+8.874x-2982.018
同理可得,二、三、四月非工作日00:00~24:00交易量也滿足二次曲線模型為:
y=-0.004x2+7.759x-2530.101
4 模型檢驗
綜合上述情況,當(dāng)時間為x交易量為y且為工作日時時,滿足如下關(guān)系:
y=-9.931×10-7x3+0.002x2-0.689x+84.758, 00:00-06:00-1.065×10-5x3+12.560x-4170.905,06:00-12:00-0.005x2+8.874x-2982.018,12:00-24:00
當(dāng)時間為x交易量為y且為非工作日時時,滿足如下關(guān)系:
y=-1.219×10-6x3+0.002x2-0.764x+93.781, 00:00-06:00-9.884×10-6x3+11.946x-4022.602,06:00-12:00-0.004x2+7.759x-2530.101,12:00-24:00
一月份交易量隨時間的變化形式和二、三、四月相似,交易量整體增加??深惐榷?、三、四月寫出相關(guān)函數(shù),并篩選出異常點。
通過對數(shù)據(jù)的分析,在所有的131013組數(shù)據(jù)中,有67組異常數(shù)據(jù)符合該點處交易量陡降的特征,屬于第1種異常的情況。如每天的凌晨時段,同時也應(yīng)該排除一些極為離散的異常值。
在對排除過的異常數(shù)據(jù)做進一步分析后,選取隨時間連續(xù)下降的幾段交易量,作為告警指標(biāo)。一、二、三、四月中因交易量異常而告警的情況如下:
1月23日19:32~19:36
1月25日16:58~17:03
5 模型的評價
(1)由于綜合應(yīng)用多種方法提取特征,所以模型具有代表性,結(jié)合所給的數(shù)據(jù)發(fā)現(xiàn),能夠較好的反應(yīng)ATM系統(tǒng)交易特征。
(2)數(shù)據(jù)處理規(guī)范。建模時按照科學(xué)的方法對數(shù)據(jù)進行了預(yù)處理,使的模型更加精準(zhǔn)。
同時也可以應(yīng)用于研究經(jīng)濟方面的股票的波浪變化問題以及一些期貨公司所遇到的財務(wù)困境問題。在基于時間窗口的情況下,可以對相關(guān)數(shù)據(jù)進行挖掘來建立模型,對可能發(fā)生的問題進行告警。
參考文獻:
[1]劉暢.城市商業(yè)銀行ATM監(jiān)控管理系統(tǒng)的設(shè)計與開發(fā).電子科技大學(xué),2012.
[2]蔣良孝.樸素貝葉斯分類器及其改進算法研究.武漢:中國地質(zhì)大學(xué),2009.
[3]段晶.樸素貝葉斯分類及其應(yīng)用研究.大連海事大學(xué),2011.
[4]卓金武,周英.量化投資:數(shù)據(jù)挖掘技術(shù)與實踐(MATLAB版).電子工業(yè)出版社,2015.
作者簡歷:王嬪(1982-),女,漢族,湖南瀏陽人,現(xiàn)為川慶鉆探工程有限公司長慶鉆井總公司信息與檔案管理中心計算機應(yīng)用工程師,研究方向:軟件開發(fā)與維護。