石向榮(教授) 郭鵬賽 鄭祺 葉一飛
(1浙江財經(jīng)大學信息管理與人工智能學院 2浙江財經(jīng)大學會計學院 浙江杭州 310018)
近年來,隨著居民個人收入水平的提升、家庭財富的不斷積累,我國經(jīng)濟向消費主導型轉變。根據(jù)中投產(chǎn)業(yè)研究院發(fā)布的《2020—2024年中國消費金融行業(yè)深度調(diào)研及投資前景預測報告》,2015到2020年,我國消費金融市場規(guī)模從19萬億元增長到45萬億元,消費金融業(yè)務量增速較快。截至2020年,銀保監(jiān)會公布的全國持有消費金融牌照的公司達30家,消費金融的廣闊前景使這一市場成為資本的熱門賽道。但是高速發(fā)展的消費金融也引發(fā)了一些問題,如現(xiàn)金貸的授信過度、交易平臺的欺詐行為等,本文關注的信用卡欺詐也是情形之一。
2016—2020年,我國信用卡及借貸合一卡人均持卡量呈現(xiàn)持續(xù)增長趨勢,五年間從人均0.39張增至0.57張;信用卡逾期半年未償總額增長幅度在6.4%—18.9%之間(見表1),這也和我國過去五年消費金融市場的增長情況相一致。
表1 2016—2020年人均持卡量、逾期半年未償總額
2020年12月,銀保監(jiān)會發(fā)布《消費金融公司監(jiān)管評級管理辦法(試行)的通知》,這一管理辦法的施行體現(xiàn)出監(jiān)管部門對促進消費金融行業(yè)合法合規(guī)經(jīng)營的決心。2021年9月,中國銀行業(yè)協(xié)會發(fā)布《中國銀行卡產(chǎn)業(yè)發(fā)展藍皮書(2021)》,提出要繼續(xù)全面提升風險防控能力,加強金融科技與銀行風控的結合,優(yōu)化行業(yè)自律機制,有效防范和打擊銀行卡欺詐、反催收聯(lián)盟等,完善風險管理體系。由于監(jiān)管部門及社會公眾和消費金融機構之間存在信息不對稱,需要審計等社會力量作為中介,打破信息壁壘,通過技術手段及早介入并揭示問題,防范風險進一步放大。為此,本文提出基于集成學習算法的審計思路,也是對科技強審工作要求的具體實踐。
尹振濤、程雪軍(2019)針對我國場景消費金融快速發(fā)展的背景,對我國場景消費金融的風險防控相關問題進行了研究,認為當前我國場景消費金融市場的主要風險為用戶信用風險、欺詐與套現(xiàn)風險、法律滯后糾紛頻發(fā)風險、資金流動性風險、金融科技風險和內(nèi)部管理風險等。劉艷暢(2019)認為,一些借款人惡意逃避債務形成的重大錯報風險,是網(wǎng)貸平臺審計風險的重要來源之一,并對網(wǎng)絡信貸平臺審計提出了新的方法和思路,以降低審計風險。
對于信用卡欺詐檢測模型的研究,國內(nèi)外學者主要集中在機器學習的模型訓練。國內(nèi)學者徐永華(2011)研究發(fā)現(xiàn),采用支持向量機的信用卡欺詐檢測精度達到95%以上;陳啟偉、王偉等(2018)基于Ext-GBDT集成的類別不平衡信用評分模型,使用欠采樣的方法對數(shù)據(jù)集進行切割,結果表明該模型的性能較好;王紅雨(2019)研究了基于機器學習的信用卡欺詐檢測方案,對比了不同學習模型的檢測效果,提出了基于訓練集劃分和聚類的集成學習框架、主動學習和半監(jiān)督學習相結合的欺詐檢測方案等;郭建山等(2020)研究了基于隨機森林(Random Forest,RF)的信用卡違約預測,提出了SSD算法改進的隨機森林檢測模型;琚春華等(2021)提出了基于kNN-Smote-LSTM的消費金融風險檢測模型,對判別分類器、生成器進行了融合,認為該模型對于降低噪音、提升分類性能、降低誤分類呈現(xiàn)了更好的性能。
國外學者也對信用卡欺詐檢測展開了研究,Bhatnagar Vishal等(2021)設計了一個深度學習欺詐檢測框架,具體是采用基于神經(jīng)網(wǎng)絡的序列分類技術,同時引入閾值以度量交易(與正常交易之間的)偏離,以此對信用卡交易欺詐進行檢測。Angela Makolo等(2021)提出了一種利用機器學習進行金融欺詐檢測的直觀方案,具體是建立基于遺傳算法和多元正態(tài)分布的異常檢測模型,識別信用卡上的欺詐交易。Kalhotra Satish Kumar等(2022)重點研究了C4.5、CART、J48、Na?ve Bayes、EM、Apriori、SVM等多種數(shù)據(jù)挖掘算法,并對結果的準確性和精度進行了分析對比。
從以上文獻可以看出,諸多學者對信用卡欺詐檢測模型進行了較為充分的研究,但所完成的工作仍有改進提升空間:一是單一分類器存在擬合不足或過度擬合的狀況;二是對模型評估指標不夠全面,對模型的準確率(accuracy,Acc)、召回率(recall)、查準率(precision)、AUC值、F1值缺少綜合分析。本文的貢獻在于:(1)提出并驗證了綜合評估指標下檢測性能優(yōu)越的分類模型。本文結合幾種性能較好的基分類器進行對比分析,得出隨機森林、CatBoost的分類性能較好并且比較穩(wěn)定,在此基礎上采用基于馬氏距離的SMOTE改進算法,即過采樣方案以應對信用卡數(shù)據(jù)集兩類樣本的不平衡問題。應用多個指標對所提出的復合模型進行評估,結論是Maha-Smote-RF有著最為優(yōu)越的檢測性能。(2)提出將檢測模型應用于信用卡欺詐審計的具體思路。本文在驗證Maha-Smote-RF模型性能的基礎上,進一步提出可行的審計思路,可幫助審計師精準、高效地鎖定欺詐交易行為和交易主體。(3)豐富了消費金融行業(yè)的審計方法。消費金融行業(yè)在互聯(lián)網(wǎng)的沖擊下出現(xiàn)新的業(yè)態(tài),傳統(tǒng)的審計方法面對“科技+金融”的業(yè)務模式難以發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的舞弊情形,必須采用機器學習等新工具,才能讓審計插上信息化的翅膀,本文為基于數(shù)據(jù)的消費金融審計工作提供了有益借鑒。
隨機森林模型于1995年由貝爾實驗室的Tin Kam Ho提出,它的基本單元是決策樹。由成百上千棵數(shù)構成了所謂森林,這種構成方式體現(xiàn)了集成學習的思想。通過組合多個弱分類器,并對弱分類器的結果投票表決,從而構成整體的強分類器。隨機森林算法的優(yōu)越性能,主要歸功于“隨機”和“森林”,前者使它具有抗過擬合能力,后者使它更加精準,模型工作原理見圖1。
圖1 隨機森林工作原理
1.構造n組隨機樣本。從原始數(shù)據(jù)中,隨機抽取n次樣本,為簡潔起見,每次抽取的樣本數(shù)目均相同,設為m。
2.對每組樣本進行特征抽樣。假設每個樣本數(shù)據(jù)都有K個特征,從所有特征中隨機地選取k(k≤K)個,結合步驟1,形成樣本1、樣本2、…、樣本n,它們的大小均為m×k。
3.選擇最佳分割屬性作為節(jié)點建立n棵CART決策樹,這也是所謂的森林。
4.對以上n棵決策樹的預測結果進行投票,確定樣本的最后預測類別。對于最常見的二類分類問題,須注意設置n為奇數(shù),以保障最終投票不產(chǎn)生平局。
由于在現(xiàn)實世界中,欺詐行為發(fā)生的概率總是小的,大量的樣本所對應的是正常交易,因此基于真實數(shù)據(jù)的原始數(shù)據(jù)集中,“正常”和“欺詐”兩類樣本數(shù)目相差懸殊,這就是所謂的樣本不平衡問題。樣本不平衡會導致模型偏差較大,預測精度下降。解決樣本不平衡問題的思路有二:一是對正常類樣本進行下采樣,以縮小兩者差異。但這樣做的缺點明顯,就是丟棄了大量有價值的正常類樣本數(shù)據(jù)。二是對欺詐類數(shù)據(jù)進行上采樣,即:在現(xiàn)有數(shù)據(jù)點的“周邊”構造新的數(shù)據(jù),以使得兩類樣本的數(shù)目相當或接近相當。這個思路就是SMOTE(Synthetic Minority Over-Sampling Technique),SMOTE方法解決的是不平衡樣本中的少數(shù)類樣本數(shù)量過少的問題,具體做法是:
找出每個樣本的k個鄰居(鄰居通過距離來度量),然后分別在原樣本和個鄰居之間進行隨機線性插值,這樣保證了所構造的新樣本處于原樣本的周邊,具體算法如下:
并且k是一個可靈活調(diào)節(jié)的參數(shù),一輪操作之后,樣本數(shù)量變?yōu)樵瓟?shù)量的k倍,若不平衡問題依然存在,可繼續(xù)重復上述過程??梢姡S著不斷重復,新樣本的總數(shù)目將呈幾何式增長。
在上文提及的SMOTE方法中,須對距離進行度量,根據(jù)距離找出k個鄰居,可見距離的定義是一個重要問題。在眾多距離的度量方式中,最常見的是歐式距離,但對本研究所面臨的問題,使用歐式距離并不合適,因為它無差別地對待每一個特征,而不考慮特征之間量綱的差異性。因此,由歐式距離方案所得的最近鄰點,在很大程度上由量綱小而數(shù)值大的特征所決定,這當然是一種不合理的、需要解決的問題。為此,本文提出馬氏距離(Mahalanobis Distance)方案。對數(shù)據(jù)集X中的兩點x、x,馬氏距離定義如下:
式中,∑為X的協(xié)方差矩陣,而Q是∑的特征向量組成的矩陣,以上均可通過主流數(shù)據(jù)分析模塊的線性代數(shù)函數(shù)計算求得。
綜上,通過馬氏距離方案定義距離,依據(jù)所定義距離實施SMOTE上采樣,構造新的建模數(shù)據(jù),在更均衡的建模數(shù)據(jù)下實施隨機森林集成學習,最終可得到理想的分類模型和預測結果。
本文對真實的信用卡欺詐數(shù)據(jù)集進行數(shù)據(jù)預處理、模型訓練以及實驗分析對比,采用的數(shù)據(jù)集由比利時布魯塞爾ULB(Université Libre de Bruxelles)的研究小組Worldline and the Machine Learning Group搜集整理,可從kaggle官網(wǎng)下載。數(shù)據(jù)集包含由歐洲持卡人于2013年9月某兩天使用信用卡交易所產(chǎn)生的記錄,共284 807筆,其中492筆被認定為欺詐,欺詐樣本占總交易數(shù)的0.172%。可見,欺詐樣本占比嚴重偏少,屬于典型的樣本不均衡情形。該數(shù)據(jù)集共有31列,其中Time(時間)和Amount(金額)是原始數(shù)據(jù),最后一列為類別標簽,其余28列為從大量特征經(jīng)由PCA變換得到的28維新特征,記為V1、V2、…、V28。經(jīng)PCA處理后,既降低了樣本復雜度,又起到了保密原始數(shù)據(jù)、對原始數(shù)據(jù)進行脫敏的作用。
該數(shù)據(jù)集是經(jīng)過清洗的數(shù)據(jù),已經(jīng)進行了降維處理,故而28維特征的準確含義無法定性描述。可確定的是28維特征相互正交,特征之間不存在線性相關。Time列表示每個事務與數(shù)據(jù)集中第一個事務之間所相差的秒數(shù),在本模型中未使用,故可作剔除處理。
我們同時訓練了邏輯回歸(Logistic Regression)、支持向量機(Supprot Vector Machine,SVM)、CatBoost、梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)以及隨機森林(Random Forest,RF)五個業(yè)界應用廣泛的基分類器。按照主流的模型數(shù)據(jù)相對多、測試數(shù)據(jù)相對少的配置,從284 807條總體中隨機抽取80%作為建模數(shù)據(jù),用于模型訓練,其余20%作為測試數(shù)據(jù),用于模型評價。
對每組建模數(shù)據(jù)進行訓練,設置決策樹數(shù)目n為15,特征數(shù)目k為28,即k=K,將測試數(shù)據(jù)代入訓練模型,得到預測值,根據(jù)預測值和真實值的對比,計算出多個評價指標,分別為準確率、召回率、查準率、AUC值、F1值。設真實值為Y,預測值為Y,定義混淆矩陣為:
表2 混淆矩陣表
基于TP、FN、FP、TN,定義4個評價指標為:
AUC(Area Under Curve)值被定義為ROC曲線下的面積,ROC曲線全稱為受試者工作特征曲線,它是以真陽性率(敏感性)為縱坐標、假陽性率(1-特異性)為橫坐標繪制的曲線。根據(jù)以上定義,可編程或調(diào)用主流數(shù)據(jù)分析模塊的函數(shù)求得AUC值,該值介于0、1之間,值越大分類器的性能越好。
重復以上步驟30次,以得到對評價指標更全面和準確的觀察。
通過循環(huán)實驗,發(fā)現(xiàn)所選取模型都有著較高的準確率,其中四個超過99.9%,相比而言,RF和CatBoost的準確率更高,達99.95%。需要說明的是,準確率每萬分之一的差距,就代表每一萬筆交易中有一個欺詐檢測判斷錯誤。根據(jù)中國人民銀行《2021年支付體系運行總體情況》的報告,2021年全國銀行共辦理非現(xiàn)金支付業(yè)務4 395.06億筆,若每提升萬分之一的準確率,將至少減少四千萬個檢測錯誤發(fā)生??梢姕蚀_率的微小提高,放到全社會來看,都會產(chǎn)生較重大的影響。實驗所得具體數(shù)據(jù)見下頁表3。
表3 模型分類預測對比分析
在此基礎上對比召回率、查準率、F1值,也都處于較高的水平,但RF和CatBoost模型略有領先,從AUC對比來看,RF和CatBoost相對于LR、SVM、GBDT有著明顯的優(yōu)勢。因此,選擇RF和CatBoost作為基礎分類器進行模型提升。
基于上文基分類器的實驗結果,將分類效果表現(xiàn)優(yōu)異的CatBoost以及RF作進一步提升,引入結合馬氏距離的SMOTE過采樣方法,設置近鄰鄰居數(shù)目k為1,增加欺詐數(shù)據(jù)的樣本量至8萬條,增加之后總樣本量為324 298條,此時欺詐樣本占總樣本的21.96%,樣本均衡性顯著改善。兩個模型使用相同的方案進行提升,并且同樣隨機抽取80%和20%作為訓練數(shù)據(jù)、測試數(shù)據(jù),進行30次的循環(huán)實驗,并求取平均值,使所得實驗結果具有充分的可比性。兩個提升后的模型同原模型各項指標的對比見表4。
表4 提升模型、基分類器分類效果比較
可見,模型提升后,Maha-Smote-RF相較于基分類器在準確率方面提升了萬分之三,召回率相應下降,但從重要性的角度來說,準確率的提升更為重要。此外,AUC值提升了0.1108,其他方面也有小幅提升,有著較為理想的綜合改進效果。Maha-Smote-CatBoost在AUC值上有提升,但其他方面尤其是準確率上并沒有表現(xiàn)得更好。四個模型的單個指標30次循環(huán)變化情況見圖2—圖6。
圖2 準確率循環(huán)變化圖
圖3 召回率循環(huán)變化圖
圖4 查準率循環(huán)變化圖
圖5 AUC值循環(huán)變化圖
圖6 F1值循環(huán)變化圖
實驗表明,Maha-Smote-RF模型在信用卡欺詐檢測問題上,預測準確率達99.8%,在所有模型中最高,F(xiàn)1值高于其他模型,AUC值一直接近于1,表明分類效果高度穩(wěn)定,查準率和召回率兩個指標也都處于模型中的前兩位,綜合誤分類水平最低。綜上,Maha-Smote-RF模型在五個指標上綜合表現(xiàn)優(yōu)于Maha-Smote-CatBoost、RF、CatBoost三個模型,欺詐檢測性能最為優(yōu)越。
我國信用卡業(yè)務規(guī)模激增,用卡環(huán)境日趨復雜。在卡片申請階段,銀行和客戶之間信息不對稱,加之部分銀行為了搶占市場,增加發(fā)卡量,疏忽了對風險的管理和控制;在用卡階段,移動支付的普及應用造成支付環(huán)節(jié)的安全性下降,信用卡欺詐手段日益復雜多樣?,F(xiàn)階段我國商業(yè)銀行信用卡審計工作方法主要是書面資料審閱、客觀實物證實以及溝通分析調(diào)查方法等。新的經(jīng)濟形勢下,傳統(tǒng)的審計工作面臨著以下三方面的困境。
1.審計抽樣方法效度低。商業(yè)銀行有大量的信用卡用戶以及相應的交易記錄,依靠現(xiàn)有的審計方法,加之人力資源和時間資源的限制,只能進行統(tǒng)計抽樣和經(jīng)驗抽樣審計,即使是各個部門相互配合,也難以做到對信用卡客戶以及交易的全面精準把握,容易遺漏欺詐風險點。
2.審計分析方法滯后。商業(yè)銀行現(xiàn)有的信用卡審計分析系統(tǒng)主要是建立在信貸審計需求之上,然而信用卡業(yè)務和信貸業(yè)務在交易筆數(shù)、交易方式、審核授信以及業(yè)務總量等主要風險點有較大差距,再加上信用卡營銷和發(fā)卡環(huán)節(jié)中便攜式發(fā)卡機、網(wǎng)絡虛擬卡、營銷APP等新技術層出不窮,信用卡審計分析系統(tǒng)滯后于業(yè)務發(fā)展。因此,現(xiàn)有的信用卡審計分析系統(tǒng)無法滿足信用卡業(yè)務日益復雜的審計要求。
3.信息科技審計人才短缺。信息科技審計要求相關的專業(yè)人員了解掌握兩種語言,一種是信息語言,一種是審計語言,將審計需求轉化成可以實現(xiàn)的技術手段,通過模型工具獲取審計所需要的相關數(shù)據(jù),甚至利用技術打破原有的審計思維模式,提供更加有效的審計證據(jù)。然而目前,無論是內(nèi)部審計部門還是會計師事務所,這樣的復合型人才都十分稀缺,并且短期內(nèi)難以培養(yǎng)成熟的專業(yè)人員。
綜上,當前我國信用卡業(yè)務審計方法不夠有效,風險管控機制不夠成熟,審計效果不夠理想。在大數(shù)據(jù)背景下,審計部門如何利用信用卡海量的數(shù)據(jù)資源,將大數(shù)據(jù)和信息化審計手段有效結合,從而提升信用卡業(yè)務審計的質量,已成為審計部門面臨的重要問題。
信用卡欺詐可分為申請欺詐、交易欺詐和用途欺詐三種類型。本文結合當前信用卡業(yè)務審計工作困境,提出可信賴的高性能信用風險和異常交易分類模型,即Maha-Smote-RF欺詐檢測模型,其應用于信用卡欺詐審計思路如下:第一步,構建數(shù)據(jù)庫。金融機構對信用卡申請、交易等所產(chǎn)生的歷史數(shù)據(jù),以及已發(fā)現(xiàn)欺詐的客戶進行記錄,實時存儲,形成數(shù)據(jù)庫,將這部分數(shù)據(jù)作為模型的原始數(shù)據(jù)。第二步,預處理訓練數(shù)據(jù)。數(shù)據(jù)庫中包含的原始數(shù)據(jù)可能是多源、異構、高維度的,無法直接用于模型訓練,必須首先對數(shù)據(jù)進行清洗、整理、去重、并采用諸如本文歐洲持卡人數(shù)據(jù)集中的PCA降維處理方法,最終得到與上列案例類似的規(guī)范輸入數(shù)據(jù)。第三步,訓練模型。對輸入數(shù)據(jù)采用與本文案例類似方法進行Maha-Smote-RF模型訓練,構造集成學習強分類器。第四步,檢測目標交易。用訓練后的Maha-Smote-RF模型對目標交易進行分類識別,獲取預測結果。對客戶信用卡申請、交易的狀況做出判斷,標定異常交易和異??蛻?,并以此作為審計疑點,提交相關部門進一步核實查證。
本文以信用卡欺詐檢測為例,基于真實的信用卡欺詐數(shù)據(jù)集,通過對不平衡分類、機器學習、集成學習技術等方面的研究,提出了融合基礎分類器、數(shù)據(jù)生成器的Maha-Smote-RF欺詐檢測模型,該模型與其他信用卡欺詐檢測方法相比,可以更好地克服不平衡樣本誤分類的缺陷。從實驗結果看,模型準確率達到99.98%,AUC值達到0.9998,查準率達到99.99%,各方面表現(xiàn)優(yōu)越。
在實驗的基礎上,結合當前審計工作的難點,本文提出檢測模型在信用卡欺詐審計實務中的應用思路,以提升金融機構內(nèi)部審計部門、會計師事務所等識別信用卡欺詐行為的效率和審計工作的效果,可有效防范金融風險放大。本文是集成學習技術在消費金融審計領域的探索,為大數(shù)據(jù)審計實務拓寬了思路,為科技強審開辟了可行路徑。