摘要:本文運用數(shù)據(jù)挖掘方法,以銀行自助設備實際業(yè)務中發(fā)生的流水數(shù)據(jù)作為數(shù)據(jù)來源,試圖解決自助設備備付金預測問題。通過分析自助設備影響因素,比較了神經(jīng)網(wǎng)絡、支持向量機等預測算法,給出了自助設備預測模型。
關鍵詞:銀行自助設備 ?備付金 ?預測模型 ?探索
0 引言
隨著金融系統(tǒng)的不斷完善、業(yè)務的飛速發(fā)展以及信息化的普及,極大拓寬了銀行的交易渠道,但因我國支付體系與交易習慣等因素,現(xiàn)金業(yè)務在銀行業(yè)務中仍然占有不可或缺的重要地位,導致了現(xiàn)金流通量極其龐大,而利用自助設備完成的存取款交易,就占現(xiàn)金交易的70%以上。與此同時,金融行業(yè)作為經(jīng)濟的核心,信息化水平緊跟潮流步伐,信息技術應用已經(jīng)深入銀行經(jīng)營管理的各個層面,數(shù)據(jù)不斷積累,使利用數(shù)據(jù)挖掘技術提升銀行經(jīng)理營管理水平成為可能。如果能夠對每臺自助設備每天的現(xiàn)金進行預測,就能夠及時、準確、安全地向自助設備調(diào)撥資金,使設備的現(xiàn)金正好滿足營業(yè)需要,既保證設備正常對外服務又減少現(xiàn)金占用,達到減少現(xiàn)金管理、提高資金利用率的雙重目標。
1 數(shù)據(jù)挖掘簡述
數(shù)據(jù)挖掘綜合利用各種統(tǒng)計分析方法,從海量的數(shù)據(jù)中自動搜索隱藏于數(shù)據(jù)本身之中的特殊關系,并展現(xiàn)為用戶所理解信息的過程。從商業(yè)層面說,數(shù)據(jù)挖掘就是從海量的商業(yè)歷史業(yè)務數(shù)據(jù)中,借助查詢、分析、轉換以及其他數(shù)學建模方法,提煉關鍵性的商業(yè)輔助決策數(shù)據(jù)。它的核心是提供一種機制,將萃取的知識融入到未來的經(jīng)營管理中。
數(shù)據(jù)挖掘是數(shù)據(jù)庫知識發(fā)現(xiàn)的關鍵步驟,它主要利用機器學習的學習算法,并融合人工智能的相關原理,實現(xiàn)數(shù)據(jù)挖掘。什么是機器學習?如果一個程序針對某項任務A,能夠根據(jù)經(jīng)驗B進行自我完善,并且能夠用C對其性能進行測量,那么稱此程序為任務A的B學習。機器學習主要有人工神經(jīng)網(wǎng)絡、支持向量機方法等算法。人工神經(jīng)網(wǎng)絡是一種用模擬人類大腦神經(jīng)結構進行信息處理的數(shù)學模型。支持向量機方法(簡稱SVM)在模型的復雜性和學習能力之間尋求最佳折衷,期望取得最好的推廣能力。
2 預測模型
數(shù)據(jù)挖掘本質(zhì)上是一個不斷反復的過程,其核心步驟被反復執(zhí)行,直到獲得比較滿意的結果。當進行特定的數(shù)據(jù)挖掘任務時,需要針對業(yè)務問題選取數(shù)據(jù),再對選取的數(shù)據(jù)進行數(shù)據(jù)預處理,使其符合模型對數(shù)據(jù)的輸入要求;然后將數(shù)據(jù)送入模型進行分析。模型建立是一個多次重復的過程,需要仔細判斷哪個模型對問題最有效。在“數(shù)據(jù)處理”階段,首先要解決的問題是明確業(yè)務層面的目標。在“建立模型”階段,首先選擇一個比較貼切的算法,再根據(jù)實際模型的類型與特點進行實際的試驗與比較,選擇最適合于解決問題的方法進行建模;在“數(shù)據(jù)分析階段”,主要進行數(shù)據(jù)轉換,使之更好地匹配業(yè)務問題和已選擇的算法,從而使模型取得較好的效果。
本文的目的在于預測自助設備所需現(xiàn)金,由于自助設備現(xiàn)金流動自身變化規(guī)律十分復雜,不僅受環(huán)境、日期、星期、節(jié)假日、天氣等多種因素影響,而且還存在著隨機、多變和多樣等特性。在諸多因素的共影響下,導致自助設備現(xiàn)金流動呈現(xiàn)一個復雜的、非線形形態(tài),難以用精確的數(shù)據(jù)模型進行擬合,因此在選擇模型時,采用人工神經(jīng)網(wǎng)絡、SVM等非線性映射功能模型為主,傳統(tǒng)的統(tǒng)計方法如回歸分析、指數(shù)平滑等作為輔助方法。預測流程如圖1所示:
■
2.1 數(shù)據(jù)預處理
數(shù)據(jù)預處理主要對抽取的源數(shù)據(jù)進行相關處理并存儲,以滿足建模要求。處理主要包括數(shù)據(jù)清洗、指數(shù)平滑、壞點處理、相似日分析、規(guī)范化等。本文使用的源數(shù)據(jù)是由自助設備每天交易的流水數(shù)據(jù)所形成的時間序列。
數(shù)據(jù)清洗。數(shù)據(jù)倉庫中的數(shù)據(jù)很容易受到各種因素的干擾。因此在數(shù)據(jù)挖掘之前規(guī)范原始數(shù)據(jù)、檢測調(diào)整異常數(shù)據(jù),進行必要的數(shù)據(jù)清洗。
首先完成數(shù)據(jù)篩選,再進行匯總合并。挑選涉及現(xiàn)金的交易,選取對現(xiàn)金預測有用信息如交易日期、交易金額、存取等;匯總合并核心是按天計算“最大需鈔量”:按照“存款為正,取款為負”的原則對流水中每條記錄按交易時間先后順序逐筆軋差,取軋差中負值絕對值最大的軋差值為該設備的最大需鈔量。匯總合并后數(shù)據(jù)示例如表1:
表1 ?最大需鈔量計算規(guī)則
■
壞點處理。因突發(fā)性事件或偶然因素,如臺風、節(jié)假日、超級客戶取現(xiàn)等,造成某天的交易量急劇異常增大或降低,與平常日數(shù)據(jù)存在巨大差異,這些數(shù)據(jù)稱為壞數(shù)據(jù)或噪聲數(shù)據(jù),必須進行處理,處理方法一般采用指數(shù)平滑或臨近類似值。
2.2 自助設備現(xiàn)金影響因素分析
銀行網(wǎng)點每天的現(xiàn)金流量受多方面因素影響,總的來說有宏觀經(jīng)濟因素和自自客觀條件。
宏觀經(jīng)濟因素:指國家宏觀政策層面對銀行業(yè)造成的影響,如樓市調(diào)控政策、利率市場化、利率變化、濟濟整體走勢、股市的長跌等等。由于此類宏觀因素本身具有不確定性、并且常常不是非常清晰,因此對業(yè)務的影響處于一種模糊狀態(tài)。而自助設備現(xiàn)金預測不是長期趨勢預測、屬于短期預測,短期預測受宏觀因素的影響非常小,并且現(xiàn)金流量的規(guī)律主要隱藏于大量歷史數(shù)據(jù)中,與宏觀經(jīng)濟因素關系不明顯,因此預測的關鍵是如何從海量的、雜亂的歷史數(shù)據(jù)中找出其變化規(guī)律,所以預測時暫時不考慮宏觀經(jīng)濟因素。
客觀因素的影響,主要有網(wǎng)點類別、網(wǎng)點所處的位置、日期(工作日與節(jié)假日的區(qū)別)、特殊日子(如養(yǎng)老金發(fā)放時間)、特殊事件的影響等等。一般來說,市縣中心網(wǎng)點、城市網(wǎng)點開辦的業(yè)務種類比較多,吸引的客戶相對較多,業(yè)務量也會相應增大,現(xiàn)金收支量也會相應加大;另一方面,網(wǎng)點所處的地理環(huán)境,如城市、農(nóng)村、不同地段、繁華程度等等,對業(yè)務量具有非常大的影響:在公司、企業(yè)、人流密集的區(qū)域,業(yè)務量明顯增大;而邊遠郊區(qū)、農(nóng)村地區(qū)的業(yè)務量就會小很多。節(jié)假日由于客戶分流、部分業(yè)務停辦等原因,現(xiàn)金業(yè)務會有所減少;而節(jié)假日前后的數(shù)天一般會出現(xiàn)業(yè)務高峰期,現(xiàn)金業(yè)務會明顯增大。基于以上因素,在已有數(shù)據(jù)的基礎上,增加網(wǎng)點類別、節(jié)假日與工作日標識等因素。
2.3 算法比較
建立模型時,首先將經(jīng)過預處理的數(shù)據(jù)分為訓練集與測試集兩個數(shù)據(jù)集。一般來說,選取數(shù)據(jù)總量的■-■作為測試集,選取■-■作為訓練集。用訓練集樣本對模型進行訓練,訓練完成后,用測試集樣本作為模型的輸出進行測試,驗證模型的準確性。
2.3.1 衡量指標
為了衡量模型預測結果的好壞,選定了幾個衡量指標。設αt是實際輸出值,■表示平均值,ci表示預測值,衡量指標如下:
相關系數(shù):用數(shù)值衡量實際輸出值與預測值之間的相關性,其值越大說明模型性能越好,
■
平均平方根誤差:反映實際輸出值與預測值之間的差距,
■
平均絕對誤差:表示實際輸出值與預測值之差的平均值,
■
相對平方根誤差:將實際輸出值與預測值之差大于輸出值與平均值之差的情況進行放大,
■
絕對誤差:表示實際輸出值與預測值之差的總和與實際輸出值差值總和的比值,
■
平均相對誤差:表示實際輸出值與絕對誤差之比,
■■■
2.3.2 不同學習方法比較
選用1-鄰近法、SVM、神經(jīng)網(wǎng)絡等三種機器學習方法進行預測,以1-鄰近法作為參照標桿,從預測準確度、處理速度、推廣能力等方面比較不同方法的預測效果。
預測準確度:神經(jīng)網(wǎng)絡預測效果最為理想,SVM次之,1-鄰近法的預測效果最差。實驗數(shù)據(jù)見表2:
表2 ?不同算法預測準確度比較
■
處理速度:以一個訓練集130個樣本,測試集302個樣本的數(shù)據(jù)集為例,神經(jīng)網(wǎng)絡比較慢,但還在可以接受的范圍;SVM速度效果比較理想。各方法運算速度如下:
1-NN:0.02 秒,時間可以忽略不計;
神經(jīng)網(wǎng)絡(迭代600次):15.46秒,可以接受;
SVM:2.6秒,效果較好。
推廣能力:選擇一個432個樣本數(shù)據(jù)集按不同比例進行拆分,分別進行訓練與測試,對比測試結果。對比結果表明,在本案例中神經(jīng)網(wǎng)絡推廣能力要強于1-NN與SVM,實驗數(shù)據(jù)見表3。
2.4 建模
經(jīng)過以上分析,確定以自助設備每天最大需鈔量為樣本數(shù)據(jù),以日期、星期、網(wǎng)點類別為影響因素,采用神經(jīng)網(wǎng)絡算法,能夠對自助設備備付金進行預測。
3 結束語
本文論以自助設備付金預測為切入點,將數(shù)據(jù)挖掘引于銀行經(jīng)營管理實際,建立了自助設備備付金預測模型,取得了較好應用效果。
銀行的備付金包含多方面內(nèi)容,除網(wǎng)點現(xiàn)金外,還包括柜面現(xiàn)金、金庫現(xiàn)金、超額備付金(非現(xiàn)金)等,只有將影響備付金的所有因素全部進行考慮,降低銀行整體備付金,才能使節(jié)省的資金真正產(chǎn)生效益,因此下一步打算對全省網(wǎng)點柜面、金庫以及超額備付建立預測模型,并建立備付金預測系統(tǒng),使之涵蓋網(wǎng)點、金庫、超額備付等銀行備付金的多個環(huán)節(jié)。
參考文獻:
[1]王凱平.基于函數(shù)型數(shù)據(jù)分析的數(shù)據(jù)挖掘功能研究[J].統(tǒng)計與決策,2011(04):162-164.
[2]苗永薈,孫英英.數(shù)據(jù)分析與挖掘在代理金融業(yè)務發(fā)展中的應用研究[J].郵政研究,2013(05):24-27.
[3]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013(01):148-171.
[4]周江,王偉平,孟丹,等.面向大數(shù)據(jù)分析的分布式文件系統(tǒng)關鍵技術[J].計算機研究與發(fā)展,2014(02):148-160.
[5]滕少華,洪嘉銘,張巍.序列模式挖掘在警用車輛維修數(shù)據(jù)分析中的研究與應用[J].江西師范大學學報:自然科學版,2013(04):45-49.
[6]郭均鵬,寧靜,史志奇.基于區(qū)間型符號數(shù)據(jù)的群組推薦算法研究[J].計算機應用研究,2013(01):88-91.
[7]張禮,劉學軍.一種基于Gamma模型的RNA-seq數(shù)據(jù)分析方法[J].南京大學學報:自然科學版,2013(04):70-79.
[8]J.Han,G Dong, Y.Yin,Efficient ?mining of partial periodic patterns in time series database.In Proc ? Int Conf Data Engineering (ICDE'99),1999:123-135.
[9]S.Singh and P.McAtackney,Dynamic Time-Series Forecasting Using Local Approxi mation. In Proceedings of the IEEE Tenth International Conference on Tools with Artificial Intelligence,1998(03):392-399.
作者簡介:
何昆(1974-),男,湖北天門人,系統(tǒng)分析師,研究方向:數(shù)據(jù)分析。