華順航 江孟源 張蓉 王偉杰
摘? 要:為了有效檢測ATM機(jī)數(shù)據(jù)出現(xiàn)的問題,本文通過對ATM機(jī)交易量、交易成功率和交易響應(yīng)時(shí)間進(jìn)行分析處理,提取特征參數(shù),建立成功率和響應(yīng)時(shí)間基于歐式距離的異常檢測模型。采用k-means聚類分析,確定異常的具體情況,建立多級化報(bào)警系統(tǒng)。此外,運(yùn)用拉依達(dá)準(zhǔn)則,針對聚類分析后判定的正常數(shù)據(jù)再劃分,使異常檢測模型更加精確。
關(guān)鍵詞:k-means聚類分析;拉依達(dá)準(zhǔn)則;異常檢測;單樣本k-s檢驗(yàn)
引言
隨著近幾年來ATM機(jī)的迅速發(fā)展,帶來了經(jīng)濟(jì)前所未有的騰飛。ATM機(jī)人力資源投入少,使用頻率高以及24小時(shí)全天營業(yè)的優(yōu)點(diǎn)。隨之而來的,是ATM機(jī)數(shù)據(jù)大,分析困難的問題。當(dāng)ATM機(jī)出現(xiàn)故障或者卡頓時(shí),用戶們往往抱怨,甚至波及到后面排隊(duì)等候的人群。所以幫助銀行及時(shí)發(fā)現(xiàn)出現(xiàn)異常的營業(yè)點(diǎn),提高運(yùn)行效率是很有必要的。
為了檢測ATM機(jī)運(yùn)行異常情況,我們針對成功率和響應(yīng)時(shí)間建立一套異常檢測方案,在基于現(xiàn)實(shí)生活中ATM機(jī)異常點(diǎn)稀疏,正常點(diǎn)集中的假設(shè)下,對成功率和響應(yīng)時(shí)間采用K-means聚類分析,根據(jù)數(shù)據(jù)點(diǎn)的分布范圍來均勻生成K個(gè)質(zhì)心。一輪循環(huán)后,監(jiān)測點(diǎn)被劃分為正常點(diǎn)、疑似異常點(diǎn)以及異常點(diǎn)。對于正常點(diǎn),我們使用拉依達(dá)準(zhǔn)則,剔除正常點(diǎn)包含的少量異常點(diǎn),將得到的異常點(diǎn)匯總,分為三個(gè)等級報(bào)警。
1.數(shù)據(jù)分析處理
(1)數(shù)據(jù)的預(yù)處理
為了使模型更加具有說服力,我們采用了2017年深圳杯B題1-4月的數(shù)據(jù)用作數(shù)據(jù)的分析,當(dāng)然,由于數(shù)據(jù)存在少量的不完整,我們對缺失的時(shí)間段的數(shù)據(jù)補(bǔ) 0 處理。
(2)數(shù)據(jù)分析
每日成功率隨時(shí)間變化分布圖---以一月為例
基于以上的圖形,可得結(jié)論有:①每日成功率在凌晨六點(diǎn)之前波動最大,之后的時(shí)間比較平穩(wěn)。②每日里響應(yīng)時(shí)間的波動非常大,但由響應(yīng)時(shí)間的頻數(shù)分布圖可知:正常的響應(yīng)時(shí)間應(yīng)該約在55-130 范圍內(nèi)。
此外,我們對數(shù)據(jù)還進(jìn)行了相關(guān)分析。發(fā)現(xiàn)一天之中的交易時(shí)刻與交易量存在正相關(guān)性、響應(yīng)時(shí)間和成功率呈負(fù)相關(guān)性
2.異常檢測模型的建立
(1)成功率-響應(yīng)時(shí)間異常模型建立
根據(jù)上文所描述的數(shù)據(jù)特征,我們截取兩個(gè)具有明顯差別的時(shí)間段分別對數(shù)據(jù)進(jìn)行探索。這兩個(gè)時(shí)間段分別是晚上十點(diǎn)到第二天清晨六點(diǎn),及中午十點(diǎn)到下午三點(diǎn)。以下分析以第二段時(shí)間為例。
我們先對數(shù)據(jù)進(jìn)行K-means聚類分析,將數(shù)據(jù)劃分為三類。我們假定周圍數(shù)據(jù)點(diǎn)最多的聚類質(zhì)心為正常點(diǎn)聚類質(zhì)心,數(shù)據(jù)量最少的為異常點(diǎn)聚類質(zhì)心,介于其中的為疑似異常點(diǎn)聚類質(zhì)心。聚類分析結(jié)果如下:
由上圖,我們發(fā)現(xiàn),① 聚類質(zhì)心2附近包含26841條案例,且成功率最高、相應(yīng)時(shí)間最低,我們稱其為正常點(diǎn)。② 對于聚類質(zhì)心1,其成功率低,響應(yīng)時(shí)間高,可以確認(rèn)是故障點(diǎn)情況。③ 聚類質(zhì)心3在這兩者之間,我們判斷為疑似異常點(diǎn)。因此,我們得到了粗略分類的三種情況,接下來我們運(yùn)用拉依達(dá)準(zhǔn)則確定正常點(diǎn)的界限。
由于對聚類質(zhì)心2附近點(diǎn)的分布(即成功率和響應(yīng)時(shí)間)分別用單樣本k-s檢驗(yàn)的p值為0,因此,我們對數(shù)據(jù)正態(tài)化轉(zhuǎn)換,采用Blom比例估算公式計(jì)算正態(tài)得分,公式如下:
(r-3/8)/(w+1/4)? ? ? ? ? ? ? ? ? ? ? ? ? (1)
其中w 是個(gè)案權(quán)重的總和,r 是等級。
運(yùn)用個(gè)案排秩后得到的數(shù)據(jù)進(jìn)行單樣本k-s檢驗(yàn),發(fā)現(xiàn)處理得到的數(shù)據(jù)是服從正態(tài)分布的,且保留五位小數(shù)后平均值為0,標(biāo)準(zhǔn)差為1。因此,我們對處理后的數(shù)據(jù)當(dāng)作標(biāo)準(zhǔn)正態(tài)分布處理。
得到正態(tài)化轉(zhuǎn)換數(shù)據(jù)后,我們用拉依達(dá)準(zhǔn)則對數(shù)據(jù)劃分,拉依達(dá)準(zhǔn)則是指先假設(shè)一組檢測數(shù)據(jù)只含有隨機(jī)誤差,對其進(jìn)行計(jì)算處理得到標(biāo)準(zhǔn)偏差,按一定概率確定一個(gè)區(qū)間,認(rèn)為凡超過這個(gè)區(qū)間的誤差,就不屬于隨機(jī)誤差而是粗大誤差,含有該誤差的數(shù)據(jù)應(yīng)予以剔除。這種判別處理原理及方法僅局限于對正態(tài)或近似正態(tài)分布的樣本數(shù)據(jù)處理。
(2)實(shí)驗(yàn)驗(yàn)證
為檢驗(yàn)本研究的提出的方法的準(zhǔn)確性和實(shí)踐性,選取聚類處理后質(zhì)心2附近的點(diǎn)作為拉依達(dá)準(zhǔn)則檢測有效數(shù)據(jù)。對于成功率,我們?nèi)≈眯艆^(qū)間為? ,對于實(shí)際生活中,我們希望成功率越大越好,因此只選取下限,不考慮上限。對于響應(yīng)時(shí)間,同上選取置信區(qū)間為 ,不考慮其下限,只考慮上限。
運(yùn)用SPSS軟件對數(shù)據(jù)篩選個(gè)案之后,我們得到了72個(gè)異常值。其中成功率異常有36個(gè),響應(yīng)時(shí)間異常共有36個(gè)。由于篇幅的限制,以下部分檢測數(shù)據(jù)為例
我們發(fā)現(xiàn),交易成功率異常檢測值基本在93%以下,響應(yīng)時(shí)間在350ms以上判定為異常。而對于聚類質(zhì)心1和聚類質(zhì)心3類附近的點(diǎn),這些點(diǎn)的響應(yīng)時(shí)間異常程度比通過拉依達(dá)準(zhǔn)則篩選出來的更大,但是成功率高于93%。
另外,為了更精確的發(fā)現(xiàn)異常值,定義由拉依達(dá)準(zhǔn)則判定的成功率異常為藍(lán)色預(yù)警。我們對拉依達(dá)準(zhǔn)則分析出來的響應(yīng)時(shí)間異常點(diǎn)和聚類質(zhì)心1和3處的點(diǎn)合并分析,并區(qū)分紅色預(yù)警和橙色預(yù)警。觀察該時(shí)間段(上午十點(diǎn)至下午三點(diǎn))異常出現(xiàn)的次數(shù),判定在五個(gè)小時(shí)內(nèi)出現(xiàn)同種類型的異常來決斷。由以上分析,我們有信心確定,該方法具有較好的篩選能力:
設(shè)定1類的權(quán)值為 ,二類(拉依達(dá)準(zhǔn)則判定后)的權(quán)值為 ,三類的權(quán)值為 ,閾值為 。 小時(shí)內(nèi),發(fā)生一類的次數(shù)為 ,發(fā)生二類異常的次數(shù)為? ,發(fā)生三類異常的次數(shù)為 ,則滿足下述條件的被判定為紅色預(yù)警點(diǎn):
這里的參數(shù)我們無法得知,需要下一步專家確定,這里我們給出一種我們假定的參數(shù)來測試效果。設(shè) ;間隔 分別為五個(gè)小時(shí)內(nèi)發(fā)生1類、2類、3類異常的次數(shù)。即當(dāng)滿足以下條件時(shí),五個(gè)小時(shí)內(nèi)的異常點(diǎn)被判定為紅色預(yù)警點(diǎn)。
在我們的參數(shù)設(shè)定情況下,374處交易量異常點(diǎn)中有153處為紅色預(yù)警,221處為橙色預(yù)警。
3.結(jié)論
本文對大量數(shù)據(jù)進(jìn)行聚類分析和拉依達(dá)準(zhǔn)則判定提取了特征參數(shù),深入探討了ATM 指標(biāo)中響應(yīng)時(shí)間和成功率之間的關(guān)聯(lián)性。本文模型對大數(shù)據(jù)分析有著獨(dú)特的優(yōu)點(diǎn),并且對初步分析的數(shù)據(jù)設(shè)定權(quán)重比,提升模型的全面性和可信度,將模型出現(xiàn)誤差的可能性降到最低。本文所提方法對于龐大的數(shù)據(jù),不能進(jìn)行實(shí)時(shí)分析,只是按類進(jìn)行分類的分析,從而得到分析結(jié)果的過程中存在一定缺陷,但這并不影響對異常數(shù)據(jù)的判斷結(jié)果和實(shí)際的運(yùn)用。
參考文獻(xiàn)
[1]? 董天文,葉勇超,俞周瑜,等.ATM交易狀態(tài)特征分析與異常檢測[J].數(shù)學(xué)建模及其應(yīng)用,2017,6(3):42- 54.
[2]? 張敏,袁輝;拉依達(dá)(PauTa)準(zhǔn)則與異常值剔除[J];鄭州工業(yè)大學(xué)學(xué)報(bào);1997年01期:85-89
[3]? 柴洪峰等.基于數(shù)據(jù)挖掘的異常交易檢測方法[M]計(jì)算機(jī)應(yīng)用及軟件.2013.1
[4]? Chan P K,F(xiàn)an W,Prodromidis A L,et al. Distributed Data Mining in Credit Card Fraud Detection[J]. IEEE Intelligent Systems & Their Applications,1999,14(6):67-74..
[5]? Ben-Haim Y,Tom-Tov E. A Streaming Parallel Decision Tree Algorithm.[J]. Journal of Machine Learning Research,2008,11(11):849-872.