隋曉雪+彭韋一+劉魚遷
【摘 要】本文運(yùn)用數(shù)據(jù)挖掘、幾何知識、統(tǒng)計(jì)學(xué)等知識對ATM應(yīng)用系統(tǒng)交易狀態(tài)的業(yè)務(wù)量、交易成功率、交易響應(yīng)時(shí)間三個(gè)指標(biāo)進(jìn)行數(shù)據(jù)分析,提取了ATM交易狀態(tài)的特征參數(shù)。借助MATLAB、R語言、SPSS與Excel等辦公軟件,對ATM交易狀態(tài)特征進(jìn)行分析。運(yùn)用K-Means聚類分析、Pearson相關(guān)性分析、建立logistic回歸模型、決策樹預(yù)警模型,進(jìn)一步分析了交易數(shù)據(jù)分布存在的特征,建立相應(yīng)預(yù)警模型,對該交易系統(tǒng)應(yīng)用可用性異常情況做出及時(shí)有效的預(yù)警。為ATM應(yīng)用系統(tǒng)的規(guī)范化管理提供了參考。
【關(guān)鍵詞】K-Means聚類分析;Pearson相關(guān)性分析;logistic回歸分析;決策樹
一、問題的提出與分析
隨著銀行卡業(yè)務(wù)的快速發(fā)展,自助設(shè)備在銀行對外服務(wù)中的作用日漸突出。作為自助現(xiàn)金服務(wù)的主要渠道,ATM機(jī)能夠?yàn)榭蛻籼峁?4小時(shí)不間斷便捷服務(wù),其承擔(dān)的業(yè)務(wù)是銀行服務(wù)的有效延伸。因此,如何提高ATM應(yīng)用系統(tǒng)運(yùn)行效率便成為本課題分析研究的主要工作。本題旨在通過對下設(shè)分行的交易信息進(jìn)行匯總統(tǒng)計(jì)、數(shù)據(jù)分析,來捕捉ATM應(yīng)用系統(tǒng)的運(yùn)行情況以及時(shí)發(fā)現(xiàn)異?;蚬收希⒓皶r(shí)發(fā)出警報(bào),以保證系統(tǒng)正常高效的運(yùn)行。
針對問題一(選擇、提取和分析 ATM 交易狀態(tài)的特征參數(shù)):
由于所給各分行交易信息情況以分鐘計(jì),數(shù)據(jù)量過于龐大,軟件運(yùn)行困難,為簡化問題,暫時(shí)先考慮每小時(shí)銀行ATM交易狀態(tài)特征分析與異常檢測。
為防止異常值在數(shù)據(jù)分析和解算結(jié)果中造成顯著的變化,提高數(shù)據(jù)的精確性,首先提取異常值。用R語言實(shí)現(xiàn)K—means算法做聚類分析,將離群異常值剔除,并將異常交易數(shù)據(jù)標(biāo)記為1,非異常數(shù)據(jù)標(biāo)記為0,進(jìn)一步尋找參數(shù)與ATM交易狀態(tài)的特征參數(shù);然后,利用SPSS軟件做Pearson相關(guān)分析,得到相關(guān)系圖表;然后通過查閱相關(guān)資料,選擇盡可能相關(guān)的特征參數(shù),用logistic回歸模型提取特征參數(shù),分析ATM交易狀態(tài)。
針對問題二(設(shè)計(jì)一套交易狀態(tài)異常檢測方案,對該交易系統(tǒng)的應(yīng)用可用性異常情況及時(shí)預(yù)警):
為能確保ATM交易系統(tǒng)正常運(yùn)行,對其可能出現(xiàn)的異常交易進(jìn)行及時(shí)監(jiān)控、檢測并報(bào)警,我們需建立一種預(yù)測模型。
首先,我們用Excel畫出交易數(shù)據(jù)時(shí)間序列圖,分析數(shù)據(jù)規(guī)律,找出工作日與非工作日。再用SPSS對所有交易進(jìn)行聚類,畫出系統(tǒng)聚類圖——分類樹狀圖,即將交易數(shù)據(jù)分為不同的類別,即分為節(jié)假日高峰期、節(jié)假日低谷期、工作日高峰期、工作日低谷期進(jìn)行分析。將1-3月份交易數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),用4月份交易數(shù)據(jù)作為預(yù)測數(shù)據(jù)集,使用訓(xùn)練數(shù)據(jù)建立決策樹模型,使用決策樹分別對預(yù)測數(shù)據(jù)集進(jìn)行異常值檢測,即將每個(gè)類別的每種方法的真實(shí)異常值和預(yù)測異常值進(jìn)行對比,得到每種模型的錯(cuò)誤率。最終設(shè)計(jì)出最佳ATM異常檢測方案。
二、模型的建立與求解
(一)檢測異常交易數(shù)據(jù)
查閱相關(guān)資料,本文嘗試?yán)没诰嚯x的方法將孤立或者沒有足夠多鄰居的數(shù)據(jù)作為異常。利用MATLAB實(shí)現(xiàn)K—means算法初步顯示異常數(shù)據(jù)值,進(jìn)一步利用R語言對各數(shù)據(jù)值做聚類分析以提取異常點(diǎn),該算法以劃分為基本出發(fā)點(diǎn),對給定的數(shù)據(jù)集,利用分裂法構(gòu)造k個(gè)分組,每一個(gè)分組就代表一個(gè)聚類,通過反復(fù)迭代的方法改變分組,使得同一分組中的數(shù)據(jù)記錄越來越近,不同分組中的數(shù)據(jù)越來越遠(yuǎn),從而達(dá)到提取異常值的目的。
(二)ATM交易狀態(tài)特征參數(shù)的確定
本文先對已知的三個(gè)指標(biāo)(即交易量、交易成功率、交易響應(yīng)時(shí)間)和異常交易進(jìn)行相關(guān)性分析,并且盡可能去尋找能夠更好描述交易狀態(tài)的特征參數(shù),對這些參數(shù)用logistic回歸模型進(jìn)行提取和分析,最終確定衡量ATM交易狀態(tài)的特征參數(shù)。
(三)預(yù)警模型的建立
利用系統(tǒng)聚類法開始將n個(gè)樣品各自作為一類,并規(guī)定樣品之間的距離和類與類之間的距離,然后將距離最近的兩類合并成一個(gè)新類,計(jì)算新類與其他類的距離;重復(fù)進(jìn)行兩個(gè)最近類的合并,每次減少一類,直至所有的樣品合并為一類。本文利用SPSS將數(shù)據(jù)分為工作日進(jìn)和非工作日(接下來都以非工作日為例,其他情況類似進(jìn)行分析),通過系統(tǒng)聚類法找到業(yè)務(wù)低谷時(shí)間和正常業(yè)務(wù)時(shí)間段。
進(jìn)一步利用決策樹建立預(yù)測模型,將1-3月份交易數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),利用SPSS對1—3月份數(shù)據(jù)建立決策樹模型,從根節(jié)點(diǎn)開始進(jìn)行不斷地劃分,進(jìn)行剪枝,不斷改變劃分節(jié)點(diǎn)的純度,以確定最佳劃分的標(biāo)準(zhǔn)。最后用4月份交易數(shù)據(jù)作為預(yù)測數(shù)據(jù)集,將4月份交易數(shù)據(jù)應(yīng)用先前建立的決策模型,進(jìn)行異常值預(yù)測,最終確立決策樹模型。
三、模型求解與結(jié)果分析
SPSS運(yùn)行下的決策樹預(yù)測模在導(dǎo)入四月份的交易數(shù)據(jù)后,對其異常交易進(jìn)行預(yù)測,得到如下預(yù)測結(jié)果:
在以上解決過程中,我們將1—3月份交易數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)建立決策樹模型,而4月份交易數(shù)據(jù)作為預(yù)測數(shù)據(jù),對異常交易值進(jìn)行預(yù)測,進(jìn)一步驗(yàn)證模型的準(zhǔn)確性,實(shí)用性,發(fā)現(xiàn)其無論是在工作日或非工作日,低谷時(shí)間段或是正常時(shí)間段,預(yù)測值與已觀測數(shù)據(jù)值達(dá)到高度的一致性,其正確百分比達(dá)到95%.而預(yù)測標(biāo)準(zhǔn)誤差僅0.005,如下表:
參考文獻(xiàn):
[1]李春林,陳旭紅,應(yīng)用多元統(tǒng)計(jì)分析,北京:清華大學(xué)出版社,2013年
[2]許汝福,Logistic回歸變量篩選及回歸方法選擇實(shí)例分析[J],中國循證醫(yī)學(xué)雜志,2016(11):1360—1364
[3]V.N.Vapnik,The natural of statistical learning theory,Springer,New York,1995
[4]王艷兵,趙銳,姚青,基于可變精度的ID3改進(jìn)算法[J],計(jì)算機(jī)工程與設(shè)計(jì),27(14):2683—2685,2006年
[5]劉鳳芹,K—means聚類算法改進(jìn)研究,山東師范大學(xué)碩士學(xué)位論文,2013年