呂 芳,湯豐赫,黃俊恒,王佰玲
(1.哈爾濱工業(yè)大學(xué)(威海)計算機科學(xué)與技術(shù)學(xué)院,山東 威海 264209;2.哈爾濱工業(yè)大學(xué)(威海)網(wǎng)絡(luò)空間安全研究院,山東 威海 264209)
欺詐可以定義為導(dǎo)致金錢或個人利益損失的不正當或刑事欺騙行為。近年來,欺詐活動的形式和規(guī)模隨著跨銀行交易而變得越來越復(fù)雜和龐大,普華永道(PwC)[1]2018 年的全球經(jīng)濟犯罪調(diào)查結(jié)果顯示,有49%的公司在過去兩年經(jīng)歷過金融欺詐行為,2016 年的這一數(shù)據(jù)僅為36%。面對海量、多樣的欺詐手段,基于專家知識、偵查經(jīng)驗的傳統(tǒng)欺詐賬戶識別方法已經(jīng)難以滿足當前金融安全保障的需求。如何從海量金融數(shù)據(jù)中自動識別少數(shù)欺詐賬戶逐漸成為偵查部門及大數(shù)據(jù)研究人員關(guān)注的問題。
金融欺詐賬戶檢測是一項難度較高的任務(wù),許多學(xué)者使用不同方法從多個角度研究檢測模型。文獻[2]采用廣義的定性相應(yīng)模型(EGB2)來預(yù)測企業(yè)管理層進行的欺詐活動,文獻[3]提出一種成本敏感的決策樹欺詐檢測方法,文獻[4]對比了利用支持向量機(SVM)、邏輯回歸和隨機森林構(gòu)建模型對欺詐檢測的性能,文獻[5]通過比較金融欺詐檢測中機器學(xué)習(xí)算法的性能,得出隨機森林算法是最佳的金融欺詐檢測技術(shù)。在真實的交易數(shù)據(jù)中,欺詐賬戶的數(shù)據(jù)量相對整個數(shù)據(jù)集來說比例極少,且其具有欺詐傾向的行為活動被淹沒在海量、常規(guī)的金融交易活動中。若直接采用上述分類模型,由于常規(guī)交易(多數(shù)類樣本)數(shù)量多,欺詐交易(少數(shù)類樣本)數(shù)量少,會導(dǎo)致欺詐檢測模型在學(xué)習(xí)分類邊界時無法充分捕捉少數(shù)類樣本的類別特征,從而影響對欺詐賬戶的檢測性能。因此,解決數(shù)據(jù)集在類間的非平衡問題對提升賬戶分類模型的檢測性能具有重要意義。文獻[6]發(fā)現(xiàn)不平衡性通常會導(dǎo)致少數(shù)類內(nèi)部形成小雜項(間斷和分離),導(dǎo)致其在決策時易被錯誤地學(xué)習(xí),從而降低欺詐檢測性能,造成該現(xiàn)象的主要原因是一些典型的少數(shù)類樣本在少數(shù)類中分布稀疏,數(shù)量較少。可見,解決小雜項引起的類內(nèi)不平衡問題也同樣值得關(guān)注。
目前,解決數(shù)據(jù)集不平衡問題的方法主要分為兩類。一類從數(shù)據(jù)層面入手,通過改變數(shù)據(jù)樣本的分布來降低數(shù)據(jù)的非平衡性,常用方法有欠采樣和過采樣技術(shù),它們分別對應(yīng)少數(shù)類樣本的增加和多數(shù)類樣本的減少。另一類從算法層面入手,通過調(diào)整算法來適應(yīng)分類不平衡問題,如代價敏感學(xué)習(xí)、集成學(xué)習(xí)等。在過采樣技術(shù)的研究中,文獻[7]提出用于不平衡學(xué)習(xí)的自適應(yīng)合成采樣方法(ADASYN),該方法使用密度分布作為準則為少數(shù)類樣本分配權(quán)重,從而自適應(yīng)地生成少數(shù)類的合成數(shù)據(jù)樣本,以減少由不平衡數(shù)據(jù)分布引起的偏差。對于處于多數(shù)類高密度分布區(qū)域內(nèi)的少數(shù)類樣本,ADASYN 會將該樣本作為“較難學(xué)習(xí)”的樣本,賦予其高權(quán)重并為其生成更多的合成樣本。雖然使用ADASYN 會面臨跨決策區(qū)域合成樣本的風險,但作為一種新的學(xué)習(xí)方法,其基于密度分布自適應(yīng)地給予樣本權(quán)重并進行樣本合成的思想,可以用于處理不同情況下的不平衡學(xué)習(xí)問題。除了采用分類模型進行少數(shù)類檢測,有研究人員將“異?!倍x為“離群點”,進而提出眾多“異?!睓z測方法,如基于密度、測量和iForest方法。其中,iForest是由文獻[8]提出的基于孤立概念的無監(jiān)督異常檢測方法,其將“異?!倍x為“容易被孤立的離群點”。在特征空間中,分布在稀疏區(qū)域的點表示某事件在稀疏區(qū)域發(fā)生的概率很低,iForest 認為落在這些區(qū)域中的點是“異?!钡?,因此,通過iForest可以快速高效地檢測數(shù)據(jù)集中分布稀疏且離密度高群體較遠的異常點。
欺詐賬戶交易行為的隱蔽性導(dǎo)致正常賬戶和欺詐賬戶的類別邊界模糊,嚴重影響了分類器的檢測性能。因此,有必要針對金融賬戶模糊的類別邊界進行分析。模糊邊界中的節(jié)點集合主要分為少數(shù)類的異常點和多數(shù)類的異常點。其中,多數(shù)類的異常點作為存在于少數(shù)類內(nèi)部或決策邊界的冗余樣本,是導(dǎo)致決策邊界混亂的重要原因;少數(shù)類的異常點作為少數(shù)類內(nèi)部的稀疏樣本會導(dǎo)致小雜項的產(chǎn)生,是引發(fā)類內(nèi)不平衡問題的重要原因。
本文借鑒iForest 檢測異常點的算法思想以及ADASYN 決策邊界樣本合成方法,設(shè)計一種樣本均衡策略。提出一種基于iForest解決分類不平衡問題的金融欺詐賬戶檢測框架(iForest-SMOTE),框架主要包括特征抽取、數(shù)據(jù)集均衡、欺詐賬戶檢測三個部分。樣本的分類特征提取是影響分類器性能的一個關(guān)鍵因素,金融數(shù)據(jù)同時具有網(wǎng)絡(luò)、流式數(shù)據(jù)的特點。因此,為了全面描述賬戶的交易行為,本文分別從靜態(tài)交易信息、交易關(guān)系和交易周期性三個維度進行特征抽取。具體地,本文分別從交易資金、交易網(wǎng)絡(luò)和交易周期三個維度設(shè)計銀行賬戶的交易行為特征抽取方法。為了解決類別樣本不均衡問題,提出一種基于iForest 解決非平衡數(shù)據(jù)集的方法。該方法通過iForest對數(shù)據(jù)集進行檢測以獲取預(yù)處理樣本子集,根據(jù)類別不同對其采用不同的調(diào)整策略,從而提升欺詐檢測的性能,具體地,負采樣多數(shù)類樣本,減輕決策邊界的混亂程度,重采樣少數(shù)類樣本,減少內(nèi)部小雜項的產(chǎn)生,結(jié)合ADASYN 將決策邊界向具有決策影響力的少數(shù)類異常點附近移動。在分類器的選擇上,結(jié)合金融數(shù)據(jù)分類特征復(fù)雜、類間不均衡的特點,本文采用隨機森林分類器模型[9]檢測金融欺詐賬戶。
iForest 是文獻[8]基于樣本集中異常樣本是稀疏且異于正常樣本的兩個假設(shè)而提出的一種基于孤立點的無監(jiān)督異常檢測方法,該方法使用二值樹結(jié)構(gòu)(iTree)將每個實體轉(zhuǎn)化為樹結(jié)構(gòu)中的孤立節(jié)點?;诋惓|c對孤立劃分更敏感的理論,通過子采樣使得異常點相對正常點距離iTree 的root節(jié)點路徑更近。iForest有效解決了異常檢測中的淹沒效應(yīng)(異常點和正常點的距離很?。┖脱诒涡?yīng)(異常點增多,導(dǎo)致其密度增大),因此,iForest可以快速高效地檢測離群點。隨后,為將iForest擴展到分類、在線異常檢測和高維數(shù)據(jù)中,研究人員進行了一系列探索。文獻[10]將iForest擴展到類別數(shù)據(jù)集上,對用戶日志中體現(xiàn)出的用戶行為模式進行異常檢測。文獻[11]改進iForest 中的約束條件,實現(xiàn)對多類別正常數(shù)據(jù)中局部聚集異常數(shù)據(jù)集合的檢測,文獻[12]根據(jù)iForest中異常分數(shù)的熱圖提出擴展隔離森林(EIF),ELF 可以穩(wěn)定高效地對高維數(shù)據(jù)進行異常檢測。此外,文獻[13]基于iForest 提出一種自適應(yīng)方法,實現(xiàn)對網(wǎng)絡(luò)管理系統(tǒng)的快速異常檢測,文獻[14]通過iForest 對軟件進行缺陷預(yù)測。
針對金融賬戶數(shù)據(jù),由于正常和欺詐賬戶在金融交易模式上具有一定的相似性,在特征空間中表現(xiàn)為分布在決策區(qū)域附近的樣本密度集中且分布混亂,導(dǎo)致iForest 在樣本密集區(qū)域中檢測少數(shù)類樣本的效率較低,不能直接用于金融欺詐賬戶檢測任務(wù)。但是,由于iForest 檢測出的異常點具有孤立的特性,使得該點在不同類別的決策中具有重要作用,因此iForest 的異常點可用于樣本均衡。
改善數(shù)據(jù)集類別不均衡問題的方法分為數(shù)據(jù)級別和算法級別兩類。其中,數(shù)據(jù)級算法主要包括對數(shù)據(jù)集進行欠采樣和過采樣。在欠采樣方面,文獻[15]將聚類與實例選擇相結(jié)合對不均衡數(shù)據(jù)集進行欠采樣。上述方法加速了分類過程,但對數(shù)據(jù)進行過度欠抽樣時將導(dǎo)致提升分類器性能的樣本信息被消除。文獻[16]通過欠采樣技術(shù)去除決策邊界的嘈雜和冗余多數(shù)類實例,以減少分類器對分類不平衡的敏感度。在銀行賬戶數(shù)據(jù)集中,一部分多數(shù)類樣本會成為嘈聲存在于少數(shù)類內(nèi)部或決策邊界,因此,選擇有效的欠采樣技術(shù)有助于排除降低決策的多數(shù)類樣本。過采樣通過增加少數(shù)類樣本以達到數(shù)據(jù)集平衡,若隨機復(fù)制樣本有可能降低樣本的泛化能力、加劇少數(shù)類中噪音數(shù)據(jù)對模型的影響。為此,研究人員通過插值生成人工樣本,擴大少數(shù)類的泛化空間。文獻[17]提出SMOTE 技術(shù),插入彼此接近的少數(shù)類樣本以合成新的少數(shù)類樣本,保證新增少數(shù)類樣本的質(zhì)量。然而,SMOTE 為所有實例賦予相同的權(quán)重,忽略了決策區(qū)附近實例對分類的重要性。據(jù)此,文獻[18]提出了borderline-SMOTE1 和borderline-SMOTE2 兩種改進方法,然而這兩種方法均只為決策邊界附近的少數(shù)類樣本分配高采樣權(quán)重。文獻[19]提出一種混合采樣的方法,該方法將過采樣技術(shù)SMOTE 與從多數(shù)類中消除歧義樣本的欠采樣技術(shù)相結(jié)合,通過進行樣本均衡來解決數(shù)據(jù)集的不平衡問題。另外,文獻[6]提出用于不平衡學(xué)習(xí)的基于密度分布的自適應(yīng)合成采樣方法ADASYN,其將分布在高密度多數(shù)類中的少數(shù)類樣本定義為較難學(xué)習(xí)的樣本,設(shè)計參數(shù)調(diào)節(jié)較難學(xué)習(xí)的樣本的采樣權(quán)重,從而自定義地合成更多樣本。ADASYN 在改善數(shù)據(jù)集非平衡問題的同時還可以將分類的決策邊界自適應(yīng)地轉(zhuǎn)移到教難學(xué)習(xí)的樣本上。但是,當有大量較難學(xué)習(xí)樣本存在于多數(shù)類內(nèi)部時,ADASYN 會在合成少數(shù)類樣本時跨越?jīng)Q策區(qū)域,加劇決策區(qū)域的混亂程度??傮w而言,ADASYN 算法具有較強的泛化能力,通過修改和擴展,可用于解決不同場景下的類別不平衡問題。
由于ADASYN 根據(jù)多數(shù)類的密度分布準則對少數(shù)類進行權(quán)重分配,當少數(shù)類樣本分布在多數(shù)類內(nèi)部時,合成樣本會面臨跨決策邊界合成的風險。金融數(shù)據(jù)的復(fù)雜性導(dǎo)致其類別邊界模糊,直接使用ADASYN 會加劇決策邊界的混亂程度。金融數(shù)據(jù)中不同類別的異常點具有不同的特性,難以確定其能否對決策產(chǎn)生正面影響。為了提高欺詐檢測性能,本文對不同類別的異常點實施不同的策略:一方面,將屬于多數(shù)類的異常點(多數(shù)類異常樣本)作為嘈雜樣本,對該樣本和其附近的多數(shù)類樣本進行篩除,以降低決策邊界和少數(shù)類內(nèi)部的混亂程度;另一方面,對于屬于少數(shù)類的異常點(少數(shù)類異常樣本),借鑒ADASYN 的思想進行樣本合成,以在樣本均衡的同時減少出現(xiàn)小雜項的風險,并將少數(shù)類的決策邊界調(diào)整到具有典型性的少數(shù)類樣本附近。
隨機森林[8]是一種由多棵決策樹組成的集成學(xué)習(xí)模型,隨機森林在多種分類任務(wù)中相對其他機器學(xué)習(xí)算法具有明顯優(yōu)勢,因此受到數(shù)據(jù)分析、知識管理、模式識別等眾多領(lǐng)域研究人員的廣泛關(guān)注[20]。在異常檢測方面,文獻[21]使用兩種不同的隨機森林算法分別訓(xùn)練正常和欺詐交易的行為特征,檢測信用卡欺詐行為;文獻[22]提出一種采用交易時間序列中固有模式對文件進行匯總的欺詐檢測方法,從而評估支持向量機、隨機森林等多種分類模型,驗證了隨機森林具有高效的檢測性能。
隨機森林在金融數(shù)據(jù)分類任務(wù)中具有明顯優(yōu)勢,但非平衡數(shù)據(jù)集引發(fā)的數(shù)據(jù)稀缺、噪聲等問題會大幅降低分類準確性。因此,本文提出iForest-SMOTE 框架,對金融數(shù)據(jù)集進行樣本均衡后使用隨機森林分類器模型實現(xiàn)欺詐賬戶檢測。
iForest-SMOTE 框架如圖1 所示。首先,在銀行賬戶交易數(shù)據(jù)集中抽取分類特征,包括交易資金、交易網(wǎng)絡(luò)、交易周期、有監(jiān)督交易行為等特征,從而構(gòu)建樣本特征數(shù)據(jù)集;其次,為解決樣本不均衡問題,利用iForest 進行特征數(shù)據(jù)集均衡預(yù)處理,得到異常樣本數(shù)據(jù)集,并針對其中的多數(shù)類異常樣本、少數(shù)類異常樣本分別設(shè)計去采樣、過采樣數(shù)據(jù)均衡策略,實現(xiàn)樣本自適應(yīng)合成以達到類別數(shù)據(jù)均衡的目的;最后,采用隨機森林分類器對類別均衡特征數(shù)據(jù)集進行欺詐檢測。
圖1 iForest-SMOTE 框架Fig.1 The framework of iForest-SMOTE
在詳細描述iForest-SMOTE 欺詐賬戶檢測框架之前,本文先給出一些基本的問題說明和定義。
定義1(銀行賬戶數(shù)據(jù)集)一個銀行賬戶數(shù)據(jù)集表示為D?C×B,其中,C={c1,c2,…,cn}為銀行賬戶數(shù)據(jù)集信息,ci為賬戶i的數(shù)據(jù),集合B={T,F}作為欺詐賬戶檢測的標記集,T和F分別代表欺詐標記和正常標記,代表賬戶i的標記。在數(shù)據(jù)集D中,少數(shù)類記為P={p1,p2,…,ppnum},P?D,且=T,多數(shù)類記為N={n1,n2,…,nnnum},N?D,且=F。
定義2(分類特征集)設(shè)集合C={c1,c2,…,cn}是符合定義1 的銀行賬戶數(shù)據(jù)集,ci的m維分類特征依次定義為交易行為特征值向量(a=1,2,…,lμ)、交易網(wǎng)絡(luò)特征值向量(b=lμ+1,lμ+2,…,lν)、交易周期特征值向量(c=lν+1,lν+2,…,lξ)、有監(jiān)督交易行為特征值向量(d=lξ+1,lξ+2,…,m),由所有ci的交易統(tǒng)計特征向量構(gòu)成的集合記為銀行賬戶分類特征集。
定義3(iForest 異常標記)給定銀行賬戶數(shù)據(jù)集D,其分類特征集為Cxα,采用iForest 對D進行異常檢測的模型可表示為:
其中,L為iForest 中要選擇 的iTree 數(shù)量,Nw為采樣大小,A={Tspecial,Fspecial}為iForest 對賬戶的標記集,Tspecial和Fspecial分別代表異常和正常標記,表示iForest 對ci的標記。
定義4(樣本預(yù)處理)給定標記集A,Dspecial?C為C中屬于異常標記的預(yù)處理樣本子集,其中,Dspecial滿足如下條件:
定義5(異常樣本集)給定Dspecial,其中,屬于少數(shù)類的樣本組成少數(shù)類異常樣本集Pspecial,屬于多數(shù)類的樣本組成多數(shù)類異常樣本集Nspecial,則Pspecial和Nspecial的數(shù)學(xué)定義如下(P、N詳見定義1):
受到iForest 檢測出的異常樣本在不同類別中具有不同特性的啟發(fā),本文設(shè)計一種樣本均衡策略。
多數(shù)類異常點指遠離多數(shù)類的離群點。文獻[23]采用去采樣多數(shù)類(記為x?Smaj)的方法減弱噪聲數(shù)據(jù)對分類器的影響。去采樣的核心是確定要篩除的多數(shù)類樣本。遠離多數(shù)類的離群點會成為噪聲數(shù)據(jù),致使分類器依據(jù)錯誤的樣本學(xué)習(xí)。因此,本文將多數(shù)類異常點作為噪聲源點,并將多數(shù)類異常點近鄰的多數(shù)類樣本構(gòu)成的集合作為噪聲簇,將多數(shù)類異常點和其對應(yīng)的噪聲簇從多數(shù)類中去除。
少數(shù)類異常點指在特征空間中分布稀疏、數(shù)量較少的離群點。過采樣技術(shù)通過對少數(shù)類(記為Smin)進行人工合成數(shù)據(jù),以解決小樣本數(shù)據(jù)不均衡問題。過采樣算法的核心[7]是確定每個少數(shù)類樣本x?Smin的合成樣本數(shù)量k。ADASYN 首先計算?xi?Smin在Smaj中的密度分布,并 將作為權(quán)重衡量準則來確定xi的過采樣次數(shù)ki??梢?值正比于集合S=Si-near⌒Smaj的大小,其中,Si-near為xi的KNN鄰近樣本集,高值樣本分布在多數(shù)類高密度區(qū)域,該樣本在分類器中難以被學(xué)習(xí),因此,ADASYN 根據(jù)值賦予該類樣本更多的過采樣次數(shù),使分類器更加關(guān)注難以學(xué)習(xí)的樣本。
從上述分析可以看出,過采樣通過對少數(shù)類進行樣本合成從而使分類器充分地對少數(shù)類進行學(xué)習(xí),進而提升決策性能,去采樣因篩除了噪聲數(shù)據(jù)而提升決策性能,過采樣改善了數(shù)據(jù)集的不平衡性問題。然而,ADASYN 在處理S集合過大或決策邊界混合嚴重的問題時,會面臨跨決策區(qū)域合成數(shù)據(jù)的風險。欺詐賬戶的隱蔽性導(dǎo)致金融賬戶數(shù)據(jù)集中存在一定數(shù)量的少數(shù)類樣本分布在決策邊界和多數(shù)類內(nèi)部,使用多數(shù)類的密度分布計算并合成樣本會使多數(shù)類內(nèi)部和決策邊界出現(xiàn)大量的少數(shù)類合成數(shù)據(jù),提高了分類器模型錯誤地學(xué)習(xí)樣本的幾率并加劇了決策邊界的混亂程度。
為解決上述問題,本文利用異常點在特征空間的密度改進ADASYN 中的權(quán)重衡量準則ri,以提升分類器的欺詐檢測性能。
在分類框架設(shè)計時需要考慮如何表示樣本的類別特征以及避免特征集合冗雜等問題。根據(jù)定義2,銀行賬戶的交易行為可量化為資金特征、網(wǎng)絡(luò)特征、周期特征以及有監(jiān)督的交易特征。
2.3.1 交易資金特征
將賬戶視為單一個體,其歷史交易數(shù)據(jù)視為靜態(tài)時序數(shù)據(jù),可從統(tǒng)計角度表示其交易資金特征,則定義2 中的(a=1,2,…,lμ)具體表示為賬號i收入和支出兩種交易類型分別對應(yīng)的資金相關(guān)統(tǒng)計項,如交易金額、交易次數(shù)等,交易資金特征如表1所示。
表1 交易資金特征匯總Table 1 Summary of transaction capital characteristics
2.3.2 交易網(wǎng)絡(luò)特征
賬戶與其直接交易賬戶集合之間的資金流動構(gòu)成了自我中心金融關(guān)系網(wǎng)絡(luò),據(jù)此,將賬戶的交易行為轉(zhuǎn)化為一個局部中心網(wǎng)絡(luò),該網(wǎng)絡(luò)的屬性特征可視為賬戶的交易特征,則定義2中的(b=lμ+1,lμ+2,…,lν)為賬戶i的一階關(guān)系網(wǎng)絡(luò)特征,具體特征項如表2 所示。
表2 交易網(wǎng)絡(luò)特征匯總Table 2 Summary of transaction network characteristics
如表2 所示,(b=lμ+1,lμ+2,…,lν)包括賬戶i的交易入度din、出度dout、根據(jù)進出交易對比得到的賬戶i的黑洞(賬戶轉(zhuǎn)賬遠大于出賬)和白洞(賬戶出賬遠大于轉(zhuǎn)賬)節(jié)點標記、根據(jù)網(wǎng)絡(luò)計算出的LeaderRank 值[24]和對流邊[25]賬戶之間的頻繁交易等特征。
2.3.3 交易行為周期特征
賬戶的交易行為反映了持卡者的社會經(jīng)濟活動,則社會活動的周期性、規(guī)律性也會體現(xiàn)在交易數(shù)據(jù)上。以一個月為一個活動周期單位,分析賬戶交易的周期波動,則賬戶i的交易周期特征(c=lν+1,lν+2,…,lξ)如表3 所示。
2.3.4 有監(jiān)督的交易特征
在異常檢測任務(wù)中,若將已知的專家知識量化為分類特征,對優(yōu)化分類器具有重要作用。這類特征與具體的欺詐類型相關(guān),金融欺詐的實施方式、欺詐團伙的牟利模式、欺詐組織的運營方式等,均直接影響有監(jiān)督交易特征的定義和量化。本文以傳銷欺詐組織為例,對此類特征進行說明。傳銷組織的資金流通方式多呈現(xiàn)金字塔形式,會員費(本文稱為申購資金)自底向上流經(jīng)固定的申購賬戶匯集到頂層賬戶;提成(本文稱為返利資金)按比例從頂層經(jīng)由返利賬戶下發(fā)給各會員。針對涉及傳銷的賬戶i,其(d=lξ+1,lξ+2,…,m)的各特征分量如表4 所示。
表4 有監(jiān)督的交易特征匯總Table 4 Summary of supervised transaction characteristics
需要指出的是,本文提出的特征為串聯(lián)關(guān)系,因此,若異常檢測任務(wù)缺乏背景知識則特征值向量可忽略此類特征。
如上文所述,金融交易數(shù)據(jù)中正常賬戶、欺詐賬戶樣本的不均衡問題,嚴重影響欺詐賬戶檢測模型的性能。為此,本文提出一種基于iForest 改善非平衡數(shù)據(jù)集的策略。采用iForest 進行異常子集篩選,以獲取銀行賬戶特征數(shù)據(jù)集中的異常樣本集,進而將其劃分成多數(shù)類異常樣本和少數(shù)類異常樣本,分別對上述兩類樣本采用欠采樣和自適應(yīng)生成合成樣本的方式實現(xiàn)類別均衡。
2.4.1 基于iForest 的異常子集篩選
本文首先對所構(gòu)建的銀行賬戶特征數(shù)據(jù)集進行iForest 異常檢測,為每個賬戶樣本分配一個異常賬戶檢測標記,其次根據(jù)樣本的異常檢測標記對樣本進行預(yù)處理,最后根據(jù)預(yù)處理樣本子集中樣本的欺詐標記對樣本進行篩選,以獲取少數(shù)類異常樣本集和多數(shù)類異常樣本集。具體過程如下:
1)通過iForest 對特征數(shù)據(jù)集Cxα進行檢測并得到每個特征樣本的標記集:
2)將標記集An中標記為Tspecial的樣本加入到Dspecial中,對于?ci?C,如果=Tspecial,則Dspecial=Dspecial?ci。
3)對預(yù)處理樣本子集的樣本進行篩選:對于?cj?Dspecial,如 果?cj?N,則Nspecial=Nspecial?cj,如 果?cj?P,則Nspecial=Nspecial?cj。
在具體實現(xiàn)過程中,分別表示銀行賬戶特征數(shù)據(jù)集、iTree 的數(shù)量、數(shù)據(jù)采樣大小,N、P是符合定義1 的多數(shù)類和少數(shù)類,是符合定義3 中ci樣本的異常標記,Dspecial是符合定義4 的預(yù)處理樣本子集,Nspecial和Pspecial分別為符合定義5 的多數(shù)類異常樣本集和少數(shù)類異常樣本集。
2.4.2 多數(shù)類樣本去采樣
本節(jié)將對2.4.1 節(jié)篩選的多數(shù)類異常樣本進行欠采樣處理,以減少嘈聲樣本對決策的影響,具體過程如下:
1)對于每一個多數(shù)類異常樣本ci?Nspecial,計算距離ci最近并且屬于多數(shù)類的K1個鄰近樣本ci-near,將ci-near構(gòu)成ci的噪聲簇:
2)將每一個多數(shù)類異常樣本ci?Nspecial和ci對應(yīng)的噪聲簇從多數(shù)類N中去除:
樣本之間距離計算采用歐幾里得距離:
其中,x、y為空間中的任意兩個樣本,xi和yi為對應(yīng)的i維度的數(shù)值。
2.4.3 少數(shù)類樣本過采樣
1)計算需要生成的合成數(shù)據(jù)數(shù)量G:
其中,θ?[0,1]為用戶定義參數(shù),用于指定生成合成數(shù)據(jù)的水平,當θ=1 時將得到完全平衡的樣本集。
2)計算針對每個少數(shù)類樣本pi?P需要合成的數(shù)據(jù)數(shù)量gi,計算過程如下:
對于?pi?P,首先計算距離pi最近的K2個近鄰樣本構(gòu)成的近鄰樣本集Di-near,其次計算Di-near中少數(shù)類異常樣本cj?Pspecial所占的比重ri:
3)對少數(shù)類樣本進行樣本合成。對于每一個少數(shù)類樣本pi,進行g(shù)i次樣本合成,在合成人工數(shù)據(jù)時,本文選擇近似SMOTE[17]中的數(shù)據(jù)合成方法,具體過程如下:
對每個少數(shù)類樣本pi進行g(shù)i次循環(huán),每次循環(huán)步驟為:
步驟1計算距離pi最近的K3個屬于少數(shù)類的近鄰樣本并構(gòu)成近鄰樣本集
步驟2在中隨機選擇一個少數(shù)類樣本pzi。
步驟3根據(jù)pzi和pi的特征進行人工數(shù)據(jù)合成,合成公式如下:
其中,sxi是合成樣本的特征,pxi和pxzi分別是少數(shù)類樣本pi和pzi符合定義2 對應(yīng)的特征向量,(pxzi-pxi)為n維空間中特征的差失量,λ是隨機數(shù),λ?[0,1]。
步驟4賦予合成的特征向量少數(shù)類標簽Bsi=T,并將對應(yīng)的樣本si加入少數(shù)類中,P=P?si。
結(jié)束循環(huán)。
本文通過賦予少數(shù)類異常點和其臨近樣本更高的權(quán)重來調(diào)整合成樣本的數(shù)量,不僅實現(xiàn)了樣本均衡還降低了跨區(qū)域合成的風險,同時合成的樣本會提高少數(shù)類異常樣本附近的少數(shù)類密度,降低內(nèi)部小雜項出現(xiàn)的概率,通過合成樣本能夠轉(zhuǎn)移少數(shù)類的決策邊界。
iForest-SMOTE 首先通過對銀行賬戶數(shù)據(jù)進行特征抽取并生成特征數(shù)據(jù)集,再通過銀行特征數(shù)據(jù)集實現(xiàn)類別均衡,得到樣本均衡數(shù)據(jù)集Dbalance,隨后采用隨機森林分類模型檢測欺詐樣本,分類器的輸入為Dbalance中樣本平衡特征數(shù)據(jù)集,輸出為分類模型對每個樣本的分類結(jié)果。
本文實驗的硬件環(huán)境為Inter?CoreTMi7-7700HQ,內(nèi)存(RAM)為16 GB。軟件環(huán)境為Python 語言,Windows 10 操作系統(tǒng)。實驗數(shù)據(jù)為由經(jīng)偵部門提供的脫敏資金交易數(shù)據(jù),其中包括正常金融賬戶和欺詐賬戶四年內(nèi)產(chǎn)生的銀行交易數(shù)據(jù),每條交易數(shù)據(jù)包括交易雙方賬戶、交易方向、交易時間、交易金額等屬性,共涉及賬戶15 633 個,傳銷賬戶為1 303 個。數(shù)據(jù)集含有總賬戶交易數(shù)據(jù)227 179 條,傳銷賬戶交易數(shù)據(jù)64 630 條。實驗將數(shù)據(jù)轉(zhuǎn)化為7 859 條銀行賬戶數(shù)據(jù),其中屬于少數(shù)類的賬戶數(shù)據(jù)共778 條,屬于多數(shù)類的賬戶數(shù)據(jù)共7 081 條,多數(shù)類和少數(shù)類節(jié)點比為10∶1。隨機抽取數(shù)據(jù)集中70%的數(shù)據(jù)作為訓(xùn)練集,其余30%的數(shù)據(jù)作為測試集。
隨機森林是用于分類和預(yù)測的組合分類器,分類效果是評價分類器性能的典型指標。本文使用混淆矩陣作為分類器的性能衡量指標,混淆矩陣詳見表5。
表5 混淆矩陣Table 5 Confusion matrix
其中,TP 表示真實值和分類結(jié)果均為欺詐,F(xiàn)N 表示真實值為欺詐而分類結(jié)果為正常,F(xiàn)P 表示真實值為正常而分類結(jié)果為欺詐,TN 表示真實值和分類結(jié)果均為正常。
本文采用準確率、召回率、精確率、F-value 值評價模型的分類效果。準確率Accuracy 為分類模型所有判斷正確的樣本數(shù)占樣本總數(shù)的比例;召回率Recall 為在模型預(yù)測為欺詐的樣本集合中,真實值也為欺詐的樣本數(shù)占所有真正為欺詐的樣本總數(shù)的比例;精確率Precision 為在被模型預(yù)測為欺詐的所有樣本集合中,真正為欺詐的樣本比例;F-value 值從少數(shù)類的角度綜合評價隨機森林的性能,它是召回率和精確率的組合。
3.3.1 采樣均衡策略評估
在非平衡數(shù)據(jù)欺詐檢測問題中,由于欺詐類別屬于少數(shù)類,因此少數(shù)類的分類準確率對于評價分類模型更有意義,本文采用召回率Recall、精確率Precision、F-value 值等指標在少數(shù)類上的平均得分來評價不同欺詐檢測模型的性能。為了驗證本文iForest-SMOTE 框架對不均衡數(shù)據(jù)集的優(yōu)化效果,統(tǒng)一對不同算法處理后的特征數(shù)據(jù)集采用隨機森林進行欺詐檢測。特征數(shù)據(jù)集包括分別經(jīng)過隨機過采樣算法(RamdonOverSampler)、ADASYN 算法、SMOTE算法、iForest-SMOTE 框架處理后的數(shù)據(jù)集以及只進行特征提取的數(shù)據(jù)集。隨機森林對不同特征數(shù)據(jù)集的檢測效果如表6 所示。其中,使用下劃線標出每項指標的最佳取值,并加粗顯示本文算法(iForest-SMOTE)的各項指標取值。
表6 不同方法的性能比較結(jié)果Table 6 Performance comparison results of different methods %
由表6 可知,盡管某些算法(如ADASYN)的召回率Recall 指標具有較高水平,但其他指標大多處于較低的水平,導(dǎo)致綜合指標F-value 值偏低。ADASYN 的F-value 值較低說明其存在跨區(qū)域合成樣本的風險,不適合用來解決金融數(shù)據(jù)集的非平衡問題。與其他算法相比,本文iForest-SMOTE 模型在召回率和準確率方面都處于較高的水平,F(xiàn)-value 相比對比算法至少提升2.13 個百分點。綜合各項指標得出,iForest-SMOTE 框架能夠為檢測模型提供更好的特征集合篩選功能,可以明顯提高分類器的欺詐賬戶檢測能力。
ROC 曲線可以描述分類器的性能,是針對不平衡技術(shù)的重要判斷依據(jù),ROC 曲線越靠近左上角表示非平衡技術(shù)越能提升分類器的性能。圖2 所示為金融賬戶數(shù)據(jù)集的ROC 曲線。
圖2 不同分類方法的ROC 曲線Fig.2 ROC curves of different classification methods
從圖2 可以看出,各個方法的分類性能較為接近,其中,iForest-SOMTE 具有相對較高的少數(shù)類識別正確率。ROC 曲線下的面積可以用來度量非平衡分類模型的功效,通常將該度量值稱為AUC,AUC 值介于0 和1 之間,其中,0.5 為隨機猜測值。在非平衡數(shù)據(jù)集中,AUC 值更加能夠體現(xiàn)兩個類別的正確性。不同方法的AUC 值如表7 所示。
表7 不同方法的AUC 值Table 7 AUC values of different methods %
由表7 可知,iForest-SMOTE 具有較高的AUC 值,表明其對金融不平衡數(shù)據(jù)集具有更好的處理效果。
3.3.2 分類特征重要性評估
通過隨機森林對特征重要性的評估,可以了解每種特征在構(gòu)建決策模型時的重要性,這為后續(xù)的特征篩選提供了一定支撐,有利于提高模型的魯棒性。本節(jié)對提取的每維分類特征在決策中的重要性進行評估。
隨機森林特征重要性評估的思想為:比較每個特征在隨機森林的所有決策樹上分類貢獻的平均值,然后比較特征之間的貢獻值大小。本文采用基尼指數(shù)評估重要性,對于特征xj,計算在隨機森林的每一顆決策樹中由特征xj形成的分支節(jié)點的基尼指數(shù)Gini(p)下降程度之和(基尼不純度下降程度)。其中,基尼指數(shù)Gini(p)為:
其中,K代表類別個數(shù)
特征xj的重要性評估過程具體如下:
1)計算特征xj在決策樹中節(jié)點m處的下降程度
其中,Gl和Gr表示在決策樹中節(jié)點m分支前后兩個新節(jié)點的Gini 指數(shù)。
2)計算特征xj在決策樹i上的特征重要性:
其中,m為特征xj在決策樹i中出現(xiàn)的節(jié)點,M為節(jié)點m的集合。
3)計算特征xj在隨機森林中的分類重要性:
其中,n為隨機森林中的決策樹數(shù)量。
4)對所有特征的重要性評分進行歸一化處理,特征xj的重要性評分為:
其中,c為特征的總數(shù)量。
根據(jù)上述方法,本文提取的金融賬戶分類特征集合中每維特征的重要性如圖3 所示,其中,銀行賬戶特征中LeaderRank 值(編號14)、入度(編號12)、出度(編號13)等特征的貢獻占比較高,由此可知,這三個特征對辨識欺詐賬戶尤為關(guān)鍵,表示交易網(wǎng)絡(luò)特征(編號7~編號14)對欺詐賬戶檢測具有重要作用。此外,銀行賬戶交易資金特征(編號1~編號6)的特征貢獻度總體相對較低,但體現(xiàn)賬戶交易敏感資金和交易敏感次數(shù)的申購返利特征(編號29~編號40)具有較高的貢獻占比,說明在傳銷賬戶識別中,賬戶的申購和返利交易能有效區(qū)分欺詐賬戶和正常賬戶,即有監(jiān)督交易特征在提升欺詐賬戶檢測性能中具有重要作用。
圖3 分類特征的重要性程度Fig.3 Importance degree of classification features
本文設(shè)計一種欺詐賬戶檢測框架iForest-SMOTE。針對實際數(shù)據(jù)中欺詐樣本不均衡的問題,結(jié)合iForest 對異常邊界的識別能力與ADASYN 對決策邊界的樣本合成思想,改善分類器的訓(xùn)練數(shù)據(jù)集。分析樣本在交易的時序、關(guān)系、周期及有監(jiān)督異常行為方面體現(xiàn)出的判別特征,進而組合生成分類特征數(shù)據(jù)集。iForest-SMOTE 中的隨機森林分類模型用于提高分類準確性并實現(xiàn)對各分類特征的重要性評估。在真實含有傳銷欺詐賬戶的數(shù)據(jù)集上進行實驗,結(jié)果表明,iForest-SMOTE 在嚴重不均衡數(shù)據(jù)集中仍能取得較高的識別準確率。下一步將在無監(jiān)督的數(shù)據(jù)集上實現(xiàn)異常邊界調(diào)整,以改進無標簽非平衡數(shù)據(jù)的異常檢測效果。