趙 峰,李妞妞
(安徽工業(yè)大學(xué)管理科學(xué)與工程學(xué)院,安徽 馬鞍山 243032)
“互聯(lián)網(wǎng)+金融”的發(fā)展使人們交易方式變得更為便捷,其中,信用卡交易成為線上和線下最為流行的支付方式之一,信用卡交易數(shù)量的增加,使得信用卡欺詐行為也時(shí)常發(fā)生.根據(jù)《中國銀行卡產(chǎn)業(yè)發(fā)展藍(lán)皮書(2022)》,截至2021年底,中國共發(fā)行信用卡92.5億張,全年新增發(fā)行信用卡2.7億張,同比增長3.0%;全國銀行卡交易金額1 060.6萬億元,同比增長33.8%;銀行卡未償信用余額8.62萬億元,比上年增長8.9%;信用卡逾期半年未償信用總額860.4億元,同比增長2.6%;銀行卡欺詐率為0.32個(gè)基點(diǎn),較上年下降0.43個(gè)基點(diǎn).
信用卡欺詐是一種以獲取經(jīng)濟(jì)利益為目的的犯罪欺騙行為,它會擾亂正常的金融發(fā)展秩序,制約金融行業(yè)的普惠目標(biāo)和創(chuàng)新發(fā)展.因此,對信用卡欺詐的檢測已經(jīng)成為金融機(jī)構(gòu)核心能力之一.中國銀行行業(yè)協(xié)會在《藍(lán)皮書(2019)》中提到,要加強(qiáng)欺詐風(fēng)險(xiǎn)防控體系建設(shè),提高銀行卡欺詐防范水平,構(gòu)建“銀行+持卡人”風(fēng)險(xiǎn)管控體系,提高欺詐監(jiān)控準(zhǔn)確性.可見,對信用卡欺詐的檢測識別已經(jīng)成為銀行風(fēng)險(xiǎn)控制的關(guān)鍵因素.
信用卡欺詐檢測是一個(gè)不平衡分類問題,目前,不平衡數(shù)據(jù)處理方法主要以算法層和數(shù)據(jù)層為主進(jìn)行改進(jìn).在算法層,有集成學(xué)習(xí)和成本敏感學(xué)習(xí),根據(jù)不平衡數(shù)據(jù)特點(diǎn)對算法進(jìn)行優(yōu)化,旨在提高算法處理不平衡分類問題的能力[1].數(shù)據(jù)級包括上采樣、下采樣和混合采樣.上采樣通過對少數(shù)類增加樣本、下采樣是對多數(shù)類減少樣本,或通過將兩者結(jié)合來平衡樣本[2].
由于數(shù)據(jù)層面方法對分類算法的通用性以及處理方法的簡單性和直觀性,在解決不平衡問題上得到廣泛應(yīng)用.但是,在實(shí)際應(yīng)用中,傳統(tǒng)過采樣僅依據(jù)少數(shù)樣本的信息,容易制造出冗余的數(shù)據(jù)樣本增加模型的訓(xùn)練難度;采樣不足會導(dǎo)致大量樣本數(shù)據(jù)信息丟失,處理不平衡問題的能力有限[3].
變分自編碼器(VAE)作為一種新的生成式模型,自提出以來一直被認(rèn)為是深度學(xué)習(xí)中最有價(jià)值的方法之一,并在許多方面得到了應(yīng)用.如文本分類中,文獻(xiàn)[4]提出融合變分自編碼器模型和深度置信網(wǎng)絡(luò)模型(VAE-DBN)進(jìn)行智能文本分類.語音處理領(lǐng)域中,Tan等[5]使用變分自編碼器提取語言特征.文獻(xiàn)[6]將VAE應(yīng)用于語音語料庫數(shù)據(jù)增強(qiáng)和語音特征向量提取中進(jìn)行聲學(xué)建模.目前,變分自編碼器關(guān)于不平衡數(shù)據(jù)處理的研究較少.
輕量級梯度提升機(jī)(LightGBM)[7-8]是以決策樹為弱分類器的boosting集成學(xué)習(xí)框架,是梯度提升決策樹(Gradient boosting decision tree,GBDT)的一種高效實(shí)現(xiàn).LightGBM不僅能夠有效提升準(zhǔn)確率,并且診斷效率高.文獻(xiàn)[9-10]研究結(jié)果表明,LightGBM與XGBoost(極端梯度提升)、CNN(卷積神經(jīng)網(wǎng)絡(luò))等算法相比,不僅能獲得更高的準(zhǔn)確率且診斷效率更好.由于集成學(xué)習(xí)模型涉及的參數(shù)較多,許多研究表明,參數(shù)的選擇將直接影響到模型的性能,因此需要將參數(shù)優(yōu)化.灰狼算法(GWO)是一種全局迭代優(yōu)化算法.由于其收斂性能強(qiáng)、參數(shù)少、易于實(shí)現(xiàn),被廣泛應(yīng)用到作業(yè)車間調(diào)度、參數(shù)尋優(yōu)和圖像分類等領(lǐng)域.然而,關(guān)于其在信用卡欺詐檢測中的應(yīng)用研究還較少.
綜上所述,為了進(jìn)一步提高信用卡欺詐識別率,本文提出了基于VAE-GWO-LightGBM的信用卡欺詐診斷模型.基于變分自編碼器(VAE)進(jìn)行過采樣平衡樣本分布,采用GWO對模型參數(shù)進(jìn)行優(yōu)化,將獲得的超參數(shù)組合輸入輕量級梯級梯度提升機(jī)(LightGBM)進(jìn)行了分類預(yù)測.
深度生成模型VAE是由Kingma[11]等提出的運(yùn)用變分下界和貝葉斯理論的生成式網(wǎng)絡(luò)結(jié)構(gòu).VAE過采樣過程如圖1所示.VAE包含2個(gè)部分:一是編碼過程,對原始真實(shí)樣本X進(jìn)行輸入編碼,生成隱變量Z的變分概率分布;另一個(gè)是解碼器將隱向量Z還原成盡可能接近原始數(shù)據(jù)的生成數(shù)據(jù)X′,此過程稱為解碼過程[12-13].
圖1 VAE過采樣原理
VAE的損失函數(shù)為
cost=KL[N(μ(X),σ2(X)||N(0,1)]-log[Pp(X′/Z)(X)].
(1)
其中:KL為q=(Z/X)與標(biāo)準(zhǔn)正態(tài)分布N(0,1)的距離,P=(X′/Z)為生成樣本X′與輸入樣本X的距離下P(X)的對數(shù)似然表示.
LightGBM是一種分布式的梯度Boosting框架[14],其原理與GBDT相似.它使用損失函數(shù)的負(fù)梯度作為當(dāng)前決策樹的殘差近似來擬合新的決策樹,即每次迭代都保持原始模型不變,然后向模型添加新函數(shù),使預(yù)測值不斷接近真實(shí)值.
LightGBM的實(shí)現(xiàn)如下:
(1) 每一次迭代是為獲得一個(gè)弱學(xué)習(xí)器,使迭代損失函數(shù)L(y,Ft(x))最小.
L(y,Ft(x))=L(y,Ft-1(x)+ht(x)).
(2)
式中Ft-1(x)和L(y,Ft-1(x))是上一次迭代獲得的強(qiáng)學(xué)習(xí)器和損失函數(shù).
(2) 利用(2)式負(fù)梯度擬合本次迭代損失近似值,公式為
(3)
(3) 使用平方差近似擬合為
(4)
(4) 本次迭代獲得的強(qiáng)學(xué)習(xí)器為
Ft(x)=Ft-1(x)+ht(x).
(5)
與標(biāo)準(zhǔn)梯度提升樹算法相比,LightGBM使用直方圖優(yōu)化分割連續(xù)特征值,通過逐葉生長策略生長樹,并限制樹的深度以防止過度擬合,這可以有效提高模型預(yù)測的準(zhǔn)確性和魯棒性.此外,LightGBM在特征的處理上和并行計(jì)算上都做了很多的優(yōu)化,是當(dāng)前流行的機(jī)器學(xué)習(xí)模型,相對于神經(jīng)網(wǎng)絡(luò)模型和傳統(tǒng)機(jī)器學(xué)習(xí)模型,具有運(yùn)行速度快和精度高的優(yōu)勢,所以本文選擇LightGBM模型作為分類器.
GWO通過對狼的社會等級和捕獵活動建立數(shù)學(xué)模型,進(jìn)而提出一種具有群體智能優(yōu)化的搜索算法,簡單、快速且易于實(shí)現(xiàn)[15].灰狼優(yōu)化算法中的狼群有α,β,δ,ω4類.其中頭狼α狼是最高領(lǐng)導(dǎo)者;β是α的下屬狼,服從并輔助α做決策;δ聽從α和β的決策命令;最底層是ω,服從α,β,δ狼,并通過α,β,δ狼的位置尋找獵物.
灰狼捕食獵物的行為定義為
D=|C′·Xp(t)-X(t)|,X(t+1)=Xp(t)-A·D.
(6)
其中:D表示狼群個(gè)體與獵物間相對距離,t表示當(dāng)前迭代次數(shù),X(t)是狼當(dāng)前位置,獵物當(dāng)前位置為XP(t).
系數(shù)向量A和E可表示為
A=2ar1-a,E=2r2.
(7)
群體中其他灰狼個(gè)體根據(jù)α,β,δ的位置分別更新各自的位置,即有
(8)
其中:X1,X2,X3表示ω向α,β,δ方向的位移量;X(t+1)是灰狼個(gè)體ω位置;X′是灰狼當(dāng)前位置;Xα,Xβ,Xδ分別為灰狼α,β,δ位置.
針對不平衡數(shù)據(jù)分類性能的評價(jià),整體的分類精度并不能較好地評價(jià)一個(gè)分類模型的優(yōu)劣,因此本文采用F1、xAUC和yAUPRC這3個(gè)指標(biāo)對不平衡數(shù)據(jù)的分類性能進(jìn)行評估.
(1)F1值為綜合評價(jià)準(zhǔn)確率(P)和召回率(R)的指標(biāo),整體衡量不平衡數(shù)據(jù)檢測模型的性能為
(9)
其中P和R分別表示準(zhǔn)確率和召回率.
(2)xAUC值用于衡量分類性能的綜合指標(biāo).
(10)
其中:TFP和TFN分別代表欺詐類樣本被誤判為正類數(shù)量、正類樣本被誤判為欺詐類樣本數(shù)量,N代表正類樣本數(shù)量,M表示欺詐類樣本的數(shù)目.
(3)yAUPRC:P-R精確回憶曲線下面積,數(shù)值范圍是0至1,值越大越好,能夠反映全局的指標(biāo),直觀看出分類器性能好壞,yAUPRC值越大,或者PR曲線越接近右上角(p=1,r=1),則模型就越理想.
VAE作為當(dāng)前流行的深度生成模型,該模型過采樣時(shí)考慮到少數(shù)類樣本不同層次的特征,學(xué)習(xí)到少數(shù)類采樣數(shù)據(jù)的分布,進(jìn)而通過生成器模型生成相似但具有更多信息的數(shù)據(jù)樣本,使數(shù)據(jù)集達(dá)到均衡.在文本分類、自然語言處理、語音識別等領(lǐng)域得到多方面應(yīng)用,說明其作為數(shù)據(jù)采樣方法具有很大的優(yōu)勢.因此本文將VAE應(yīng)用到信用卡欺詐數(shù)據(jù)集中,通過VAE過采樣平衡少數(shù)類欺詐樣本,降低因數(shù)據(jù)集不平衡導(dǎo)致樣本檢測準(zhǔn)確率低帶來的影響[16-18].
機(jī)器學(xué)習(xí)中的LightGBM算法具有訓(xùn)練速度快、泛化性好、分類精度高等優(yōu)點(diǎn).然而,由于訓(xùn)練前模型參數(shù)數(shù)量較多,參數(shù)的隨機(jī)設(shè)置會導(dǎo)致一些參數(shù)未達(dá)到最佳狀態(tài),這容易導(dǎo)致輸出結(jié)果不穩(wěn)定[17].GWO算法作為智能搜索算法,具備較強(qiáng)的收斂性能,且參數(shù)少易于實(shí)現(xiàn),迄今為止,該優(yōu)化算法被廣泛地應(yīng)用在各科學(xué)研究領(lǐng)域.因此選用GWO對LightGBM參數(shù)進(jìn)行優(yōu)化,尋找LightGBM最優(yōu)的參數(shù)組合.
針對欺詐檢測數(shù)據(jù)樣本量大、樣本類別不平衡等特點(diǎn),結(jié)合VAE、LightGBM和GWO的優(yōu)異性能,充分利用各自的優(yōu)勢克服各自的不足[19-20],構(gòu)建了基于VAE-GWO-LightGBM的信用卡欺詐檢測分類方法.總體框架如圖2所示.
圖2 基于VAE-GWO-LightGBM的欺詐檢測框架
檢測流程如下:
(1) 對輸入的原始數(shù)據(jù)進(jìn)行異常特征處理,然后對數(shù)據(jù)進(jìn)行歸一化預(yù)處理.
(2) 訓(xùn)練正常數(shù)據(jù)和欺詐數(shù)據(jù),欺詐樣本數(shù)據(jù)量遠(yuǎn)小于正常數(shù)據(jù)樣本,樣本類別嚴(yán)重不平衡.因而通過VAE對訓(xùn)練集中少數(shù)欺詐數(shù)據(jù)進(jìn)行過采樣平衡樣本.
(3) 樣本平衡后,訓(xùn)練LightGBM模型,并使用GWO優(yōu)化LightGBM的超參數(shù).優(yōu)化過程如圖3所示.
圖3 GWO算法優(yōu)化LightGBM參數(shù)流程
(4) 將優(yōu)化得到的GWO-LightGBM模型在信用卡欺詐數(shù)據(jù)集上進(jìn)行驗(yàn)證,檢測模型分類結(jié)果.
本文使用數(shù)據(jù)來源于Kaggle平臺2018年最新公開發(fā)布的信用卡欺詐檢測專題,數(shù)據(jù)集有31個(gè)特征,類別是0和1,1表示少數(shù)類欺詐樣本.為了證明模型的適用性,同時(shí)選取UCI和Kaggle平臺的4個(gè)其他類型的不平衡數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集特征如表1所示.
表1 數(shù)據(jù)集信息
實(shí)驗(yàn)前先對不同數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理,將每組數(shù)據(jù)集取80%樣本數(shù)量作為訓(xùn)練集,20%作為測試集.根據(jù)當(dāng)前不平衡數(shù)據(jù)集,首先分別以采樣效果展示和數(shù)據(jù)對比的形式將VAE方法同其他經(jīng)典過采樣方法進(jìn)行比較,驗(yàn)證將其作為過采樣方法的有效性;再將本文算法VAE-GWO-LightGBM同其他分類方法進(jìn)行比較,證明該集成分類方法對不平衡數(shù)據(jù)進(jìn)行分類表現(xiàn)效果更好.
圖4給出原始數(shù)據(jù)集以及采用不同過采樣方法的生成樣本可視化對比圖.其中Original dataset是原始數(shù)據(jù)集的分布圖,可以看出原始數(shù)據(jù)集中少數(shù)類樣本規(guī)模較小且生成的部分樣本會落在多數(shù)類區(qū)域;從SMOTE采樣方法分布圖可以看出,SMOTE方法從局部鄰域出發(fā)并通過線性插值的方法合成新樣本,合成的新樣本與原始樣本差異較小,存在較多的重疊樣本不利于分類器的訓(xùn)練;從Borderline-SMOTE和SVMSMOTE采樣圖可以看出,兩者采樣效果分布類似,兩者少數(shù)類樣本與正常樣本存在部分交叉,邊界附近生成部分噪聲樣本;ADASYN和VAE過采樣可視化圖分布也是類似,兩者所生成的新樣本與真實(shí)樣本分布基本一致但又不完全相同,VAE能夠有效減緩經(jīng)典過采樣方法出現(xiàn)的樣本重疊等問題.總體比較這些采樣效果圖,可以看出本文方法所生成的樣本能較好地模擬原始數(shù)據(jù)的分布特征,基本都在原始樣本的分布區(qū)域中,雖然有小部分噪聲樣本的產(chǎn)生,說明本文采用VAE過采樣方法對少數(shù)類樣本進(jìn)行擴(kuò)充,可以有效學(xué)習(xí)到少數(shù)類樣本分布特征,生成更符合原始數(shù)據(jù)特征的少數(shù)類新樣本.
圖4 不同過采樣方法生成樣本對比圖
然而,僅憑直觀的可視化展示還不足以證明本文過采樣方法在不平衡數(shù)據(jù)分類處理方面的有效性和泛化性,本文將進(jìn)一步對VAE改進(jìn)前后的合成樣本質(zhì)量進(jìn)行評估,并基于上述評價(jià)指標(biāo)在信用卡欺詐數(shù)據(jù)集和其他數(shù)據(jù)集進(jìn)行欺詐分類性能比較.
實(shí)驗(yàn)設(shè)置選用兩組對比實(shí)驗(yàn)進(jìn)行分析,第一組將本文所采用的過采樣方法與其他經(jīng)典過采樣方法在信用卡欺詐公開數(shù)據(jù)集以準(zhǔn)確率(A)、F1、xAUC和yAUPRC為評價(jià)指標(biāo)進(jìn)行比較,實(shí)驗(yàn)中均采用LightGBM輕量級梯度提升機(jī)作為分類器,驗(yàn)證VAE過采樣方法在處理不平衡數(shù)據(jù)上的有效性;第二組實(shí)驗(yàn),將本文采用的VAE-GWO-LightGBM集成學(xué)習(xí)分類方法與其他機(jī)器學(xué)習(xí)方法在信用卡欺詐數(shù)據(jù)集上做比較,進(jìn)一步驗(yàn)證本文所提出的將VAE過采樣方法與改進(jìn)的LightGBM方法相結(jié)合的方式,可進(jìn)一步提升不平衡數(shù)據(jù)的分類性能.實(shí)驗(yàn)中設(shè)置VAE迭代次數(shù)為2 000,將數(shù)據(jù)樣本編碼映射到高斯分布N(0,1)中.其中,編碼器和解碼器是3個(gè)隱層,每層為100個(gè)神經(jīng)元的神經(jīng)網(wǎng)絡(luò).使用Relu函數(shù)作為激活函數(shù)、Adam optimizer優(yōu)化器進(jìn)行最小損失求解.GWO算法種群規(guī)模為2 000,最大迭代次數(shù)為500.
表2為信用卡數(shù)據(jù)集使用VAE、SMOTE、Borderline SMOTE、SVMSMOTE和Adasyn與LightGBM所得出的A、F1、xAUC和yAUPRC等評價(jià)指標(biāo).表3為信用卡數(shù)據(jù)集使用RF、MLP、Catboost、KNN所得出的評價(jià)指標(biāo)A、F1、xAUC和yAUPRC.
表2 各種采樣方法的評估指標(biāo)值
表3 各模型的欺詐檢測指標(biāo)比較
從表2可以看出各種采樣方法在A這一項(xiàng)都相差不大且表現(xiàn)良好,都達(dá)到了99%以上.對比各種采樣方法中可以看出采用原始數(shù)據(jù)進(jìn)行檢測效果最差,F1、xAUC、yAUPRC值都低于其他過采樣方法;VAE作為過采樣方法表現(xiàn)最好,對比SMOTEF1提高了6.7%,xAUC提高了7.6%,yAUPRC提高了6.8%;對比BorderlineSMOTEF1值提高了4.7%,xAUC提高了7.1%,yAUPRC提高了4.7%;對比SVMSMOTEF1值提高了6.9%,xAUC提高了9.7%,yAUPRC提高了6.3%;對比ADASYNF1值提高了9.3%,xAUC提高了7.6%,yAUPRC提高了9.6%.
從表3可以看出各種分類算法的A都表現(xiàn)較好,尤其本文方法的準(zhǔn)確率最好,達(dá)到了0.999 7.對比F1值和yAUPRC值,表現(xiàn)最差的是KNN,本文VAE-GWO-LightGBM方法比KNN模型的F1值提高17.7%,yAUPRC提高17.3%.對比其他分類模型,本文的xAUC值同樣表現(xiàn)最好.
綜上分析,從少數(shù)類欺詐檢測評估指標(biāo)檢測A、F1、xAUC和yAUPRC、整體方面考慮,在處理非平衡的信用卡欺詐檢測數(shù)據(jù)時(shí),VAE-GWO-LightGBM方法具有較好的整體檢測效果.
為了證明本文方法的適用性,在UCI和Kaggle的4個(gè)數(shù)據(jù)集上進(jìn)行同樣的實(shí)驗(yàn).表4和5分別為各算法在這些數(shù)據(jù)集上所得出的A、F1、xAUC和yAUPRC值.從表4和5可以看出,以F1、A、xAUC和yAUPRC值為評價(jià)指標(biāo),在Pima、Wine_red、UCI_breast、BankNote_Authentication這4個(gè)數(shù)據(jù)集中,本文提出的算法整體表現(xiàn)性能最好,與其他分類算法對比,A最高提高了14.9%,F1值最高提高了19.0%,xAUC值最高提高了16.0%,yAUPRC最高提高了12.8%.
表4 不同算法在數(shù)據(jù)集上的A值
表5 不同算法在數(shù)據(jù)集上的F1值
表6 不同算法在數(shù)據(jù)集上的xAUC值
表7 不同算法在數(shù)據(jù)集上的yAUPRC值
VAE作為過采樣方法處理不平衡數(shù)據(jù)時(shí)易受到少數(shù)類樣本規(guī)模的限制,在數(shù)據(jù)規(guī)模偏小的情況下難以有效學(xué)習(xí)其分布特征,導(dǎo)致生成的樣本質(zhì)量欠佳.針對上述問題,本文以VAE和集成學(xué)習(xí)為基礎(chǔ),同時(shí)在數(shù)據(jù)層面和算法層面對不平衡數(shù)據(jù)處理方法進(jìn)行改進(jìn),提出了一種基于GWO-VAE-LightGBM的不平衡數(shù)據(jù)集成分類算法,第一階段首先采用VAE方法快速生成少數(shù)類樣本,使少數(shù)類樣本達(dá)到一定規(guī)模,保證VAE能充分學(xué)習(xí)到少數(shù)類樣本的分布特征提高合成樣本的質(zhì)量;第二階段對原始LightGBM模型進(jìn)行改進(jìn),采用GWO算法優(yōu)化LightGBM參數(shù),使優(yōu)化后的LightGBM方法更好地適用于不平衡數(shù)據(jù)的分類;最后用優(yōu)化后的LightGBM方法訓(xùn)練平衡數(shù)據(jù)集得到集成分類模型,以A、F1、xAUC和yAUPRC作為評價(jià)指標(biāo),在5組公開數(shù)據(jù)集上的對比,結(jié)果表明,所提方法可以顯著提高不平衡數(shù)據(jù)的分類精度.后續(xù)工作考慮將此模型與其他學(xué)習(xí)算法融合,構(gòu)建更為強(qiáng)大的欺詐檢測分類器,進(jìn)一步提升分類器性能.