魏全
摘要:數(shù)據(jù)不平衡條件下的信用風(fēng)險(xiǎn)評(píng)估是一項(xiàng)重要但具有挑戰(zhàn)性的任務(wù),其表現(xiàn)為違約者類別的數(shù)量不夠。本文提出了一種基于多源異構(gòu)信用數(shù)據(jù)的不平衡生成對(duì)抗網(wǎng)絡(luò)來(lái)緩解當(dāng)前的類別不平衡信用評(píng)分問(wèn)題。具體地說(shuō),本文設(shè)計(jì)了一個(gè)融合模塊,將來(lái)自多個(gè)來(lái)源的異構(gòu)信用數(shù)據(jù)整合到一個(gè)統(tǒng)一的潛在特征空間中。然后設(shè)計(jì)了一個(gè)基于生成對(duì)抗性網(wǎng)絡(luò)(GAN)的平衡模塊,為不平衡數(shù)據(jù)集的少數(shù)類生成新樣本的潛在表示。最后將GAN的性能與多種傳統(tǒng)的機(jī)器學(xué)習(xí)采樣算法進(jìn)行了比較,實(shí)驗(yàn)表明本文所提出的GAN在真實(shí)數(shù)據(jù)集上具有明顯優(yōu)于比較方法的性能。
關(guān)鍵詞:信用風(fēng)險(xiǎn)評(píng)估;數(shù)據(jù)不平衡;生成對(duì)抗網(wǎng)絡(luò)
1.引言
近年來(lái),我國(guó)人民的收入和消費(fèi)能力水平得到不斷提升,消費(fèi)場(chǎng)景不斷豐富,人們的消費(fèi)觀念逐步升級(jí),信貸消費(fèi)已經(jīng)成為消費(fèi)的主要形式之一。越來(lái)越多的金融機(jī)構(gòu)大力發(fā)展信貸業(yè)務(wù),直接促進(jìn)了我國(guó)個(gè)人信貸市場(chǎng)規(guī)模的持續(xù)擴(kuò)大。日益增長(zhǎng)的貸款需求及較高的不良貸款率促使著銀行業(yè)金融機(jī)構(gòu)在不斷簡(jiǎn)化信貸審批流程的同時(shí),要更加關(guān)注信貸資產(chǎn)風(fēng)險(xiǎn)的控制。
信用評(píng)分風(fēng)險(xiǎn)評(píng)估旨在自動(dòng)判斷是否應(yīng)該批準(zhǔn)或拒絕信用申請(qǐng),以降低信用風(fēng)險(xiǎn)和減少不良貸款。由于其在銀行和其他金融機(jī)構(gòu)[1]的廣泛應(yīng)用,引起業(yè)界越來(lái)越多的關(guān)注。以往的大多數(shù)工作都采用了傳統(tǒng)的機(jī)器學(xué)習(xí)方法,如支持向量機(jī)、決策樹(shù)和邏輯回歸方法來(lái)建立信用風(fēng)險(xiǎn)評(píng)估模型。受計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域深度學(xué)習(xí)成功的啟發(fā),最近的幾項(xiàng)研究采用了深度學(xué)習(xí)算法,如卷積神經(jīng)網(wǎng)絡(luò)[2]和深度信念網(wǎng)絡(luò)[3]的信用風(fēng)險(xiǎn)評(píng)估。
信用評(píng)分?jǐn)?shù)據(jù)通常是結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的混合數(shù)據(jù),稱為多源異構(gòu)數(shù)據(jù),如用戶檔案數(shù)據(jù)和基于時(shí)間的用戶行為數(shù)據(jù)。大多數(shù)研究只關(guān)注單一類型的數(shù)據(jù),但沒(méi)有融合這兩種類型的數(shù)據(jù)來(lái)提取高級(jí)隱藏特征。一些研究[4]平等地對(duì)待各種數(shù)據(jù),未能捕捉到用戶支付行為隨時(shí)間變化的動(dòng)態(tài),而另一些研究[5]只關(guān)注用戶行為數(shù)據(jù),而不是對(duì)信用評(píng)分任務(wù)至關(guān)重要的用戶檔案數(shù)據(jù)。這些傳統(tǒng)的方法無(wú)法從這些多源異構(gòu)信用數(shù)據(jù)中挖掘和融合豐富的潛在信息。在這種情況下,多源的集成異構(gòu)數(shù)據(jù)被認(rèn)為是信用評(píng)分的重要研究點(diǎn)之一。同時(shí)研究表明,普通采樣方法重疊區(qū)域的樣本在提高不平衡數(shù)據(jù)的分類性能方面發(fā)揮著更重要的作用。然而,如何有效地消除重疊區(qū)域中的多數(shù)類樣本,同時(shí)避免因丟失原始分布而導(dǎo)致分類性能下降,仍然是一個(gè)懸而未決的問(wèn)題。
2.文獻(xiàn)綜述
不平衡學(xué)習(xí)對(duì)于傳統(tǒng)算法來(lái)說(shuō)是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。研究人員意識(shí)到類別的不平衡確實(shí)會(huì)影響信用評(píng)估的分類,通過(guò)設(shè)計(jì)了上采樣和下采樣的方法去關(guān)注信用風(fēng)險(xiǎn)評(píng)估中的多數(shù)類和少數(shù)類,分析了采樣技術(shù)對(duì)信用評(píng)分中類別不平衡問(wèn)題的適用性[6, 7]。數(shù)據(jù)采樣的方式有非常多種,值得一提的是,SMOTE算法[8]及在其基礎(chǔ)上一些改進(jìn)的方法[9]在信用風(fēng)險(xiǎn)評(píng)估中得到廣泛應(yīng)用并取得不錯(cuò)的效果,有效緩解了數(shù)據(jù)不均衡帶來(lái)的偏差。
Shen[10]等人對(duì)SMOTE采樣方法進(jìn)行改進(jìn)之后生成少數(shù)類樣本,利用這種采樣技術(shù)來(lái)處理不平衡的信用數(shù)據(jù)能夠有效克服了SMOTE合成噪聲樣本的問(wèn)題,提高信用風(fēng)險(xiǎn)評(píng)估模型在處理不平衡數(shù)據(jù)時(shí)的性能。Wang等[11]人改進(jìn)并集成了過(guò)采樣、欠采樣和混合采樣等多種采樣方法以獲得平衡的信用數(shù)據(jù)集。然而,這些算法共同的缺點(diǎn)是創(chuàng)造的少數(shù)類樣本具有相同的特征性質(zhì),新樣本與原始數(shù)據(jù)具有很高的重疊性,并不一定能為模型提供有效信息。
本研究考慮了上述所有的局限性,首先,整合來(lái)自多個(gè)來(lái)源的異構(gòu)數(shù)據(jù),其次提出了基于生成對(duì)抗網(wǎng)絡(luò),通過(guò)為少數(shù)類生成新的代表性樣本來(lái)恢復(fù)數(shù)據(jù)集的平衡,以緩解信用評(píng)分任務(wù)中的類別不平衡問(wèn)題。
3.數(shù)據(jù)來(lái)源及分析
本研究的數(shù)據(jù)集選取了中國(guó)某商業(yè)銀行的個(gè)人信貸數(shù)據(jù),包含了用戶的基本信息和交易數(shù)據(jù)。數(shù)據(jù)集中正常樣本個(gè)數(shù)有25141個(gè),違約樣本有6852個(gè)。其中個(gè)人基本信息數(shù)據(jù)中一些特征變量存在缺失嚴(yán)重的現(xiàn)象,必將導(dǎo)致特征信息損失嚴(yán)重,對(duì)其進(jìn)行刪除。交易數(shù)據(jù)中不存在缺失值,主要對(duì)交易時(shí)間進(jìn)行了一系列時(shí)間特征的提取,并將字符型的類別特征,如交易方式、交易特征、一級(jí)交易代碼進(jìn)行獨(dú)熱編碼的處理,以便后續(xù)進(jìn)行特征構(gòu)造。
4.商業(yè)銀行客戶信用風(fēng)險(xiǎn)評(píng)估
針對(duì)多源異構(gòu)信用數(shù)據(jù),本文對(duì)交易數(shù)據(jù)構(gòu)造用戶的靜態(tài)和動(dòng)態(tài)風(fēng)險(xiǎn)特征,并與個(gè)人基本信息進(jìn)行融合,然后加入數(shù)據(jù)不平衡處理模塊,提高模型預(yù)測(cè)的性能。具體的流程如圖1所示。
4.1特征工程
(一)基于RFM模型的客戶價(jià)值特征
交易數(shù)據(jù)中用戶的每筆交易主要包含了三大維度特征:一是交易類型,如支出、收入、支付方式及交易對(duì)象等;二是交易時(shí)間,其中蘊(yùn)含了用戶消費(fèi)的行為習(xí)慣;三是交易金額,能夠反映了用戶的消費(fèi)能力和財(cái)富情況。借鑒RFM模型對(duì)客戶價(jià)值衡量的思路,本文針對(duì)交易數(shù)據(jù)構(gòu)造個(gè)人的用戶價(jià)值特征。具體表示為:R反映個(gè)人最近的交易活躍度,如最近一次交易的時(shí)間;F代表一段時(shí)間內(nèi)用戶不同類型交易的次數(shù),如:支付的次數(shù)、收入的次數(shù),日均交易次等;M反映用戶在一定時(shí)間內(nèi)的不同交易類型的交易金額,如:日均收入、日均支出、周均支出等。
(二)個(gè)人交易行為的序列特征
單筆交易信息包含了時(shí)間、金額、交易方向等特征,由于特征的類型不同,無(wú)法采用相同的處理方式。針對(duì)不同類型的特征變量,本文將采用合適的方式進(jìn)行處理。對(duì)于交易時(shí)間,我們提取每筆交易的時(shí)間特征,如年、月、周、日等,同時(shí)衍生為周末和工作日等特征;對(duì)于類別型特征,進(jìn)行獨(dú)熱編碼處理為稀疏矩陣;對(duì)于金額等數(shù)值型變量,直接進(jìn)行輸入。
本文選取在一定的時(shí)間段內(nèi)擁有交易記錄的用戶樣本,但是由于不同用戶的交易筆數(shù)存在差異,假定用戶在該段時(shí)間內(nèi)的交易筆數(shù)為n,為了使得交易數(shù)據(jù)的序列向量表示能夠變成統(tǒng)一的結(jié)構(gòu)輸入到神經(jīng)網(wǎng)絡(luò)中,需要對(duì)用戶的交易記錄數(shù)量進(jìn)行統(tǒng)一。如果某用戶交易記錄數(shù)超過(guò)n,將選取最后的n筆交易作為輸入.對(duì)于不足n筆交易的用戶,我們將其交易序列前面補(bǔ)充0使其滿足與其他樣本向量的維度相同。
(三)交易數(shù)據(jù)的窗口聚合特征
單一的交易信息并不足以揭露出個(gè)人的信用風(fēng)險(xiǎn),同時(shí)交易記錄之間的時(shí)間間隔非常不規(guī)則,從分鐘到天不等。這種時(shí)間間隔的不規(guī)則性導(dǎo)致很難提取交易時(shí)間序列的周期。因此我們考慮用戶交易行為的一種更有效的方法是使用交易數(shù)據(jù)的聚合函數(shù)構(gòu)造出一些特征。首先將用戶在一段時(shí)間內(nèi)的交易記錄按照每周進(jìn)行分組,然后計(jì)算這一段時(shí)間段內(nèi)不同類型的交易數(shù)量、交易數(shù)量比例、交易金額、交易金額比例。為了在較長(zhǎng)的過(guò)程中識(shí)別用戶的行為模式,本文通過(guò)把用戶的歷史交易數(shù)據(jù)中按照每周的窗口進(jìn)行聚合得到矩陣特征,其目標(biāo)是根據(jù)用戶的交易歷史創(chuàng)建一個(gè)活動(dòng)記錄,揭示當(dāng)前的交易行為與以往的不同程度。
4.2數(shù)據(jù)不平衡處理
生成式對(duì)抗網(wǎng)絡(luò)(Generative adversarial network,GAN)是Goodfellow等人提出一種無(wú)監(jiān)督算法,從剛提出就引起了許多研究人員的關(guān)注,繼而在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、語(yǔ)音等領(lǐng)域取得了不俗的表現(xiàn),并向其它一些領(lǐng)域逐漸延伸。生成式對(duì)抗網(wǎng)絡(luò)不同于以往的生成模型預(yù)先假設(shè)生成樣本服從某種分布,而是基于隨機(jī)的噪聲生成原始樣本分布的新樣本。GAN網(wǎng)絡(luò)最大的創(chuàng)新是結(jié)合了生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)兩部分,生成網(wǎng)絡(luò)能夠根據(jù)輸入的隨機(jī)噪聲去構(gòu)建映射函數(shù)生成新的樣本,判別網(wǎng)絡(luò)的能夠?qū)⑸善鞯纳蓸颖九c真實(shí)樣本進(jìn)行比較,然后將結(jié)果反饋給生成器,直到最終生成的新樣本近似服從真實(shí)樣本的分布,兩種網(wǎng)絡(luò)是一種相互對(duì)抗優(yōu)化的關(guān)系。
5.實(shí)驗(yàn)及分析
5.1分類評(píng)估指標(biāo)
單一評(píng)價(jià)指標(biāo)無(wú)法準(zhǔn)確、全面、綜合衡量模型的預(yù)測(cè)性能??紤]到評(píng)價(jià)標(biāo)準(zhǔn)在實(shí)際應(yīng)用領(lǐng)域中的特點(diǎn)和局限性,為了更準(zhǔn)確和全面地評(píng)價(jià)個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型真實(shí)預(yù)測(cè)效果,本文采用了信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域中四個(gè)主要的評(píng)價(jià)指標(biāo)來(lái)綜合評(píng)價(jià)模型的性能:準(zhǔn)確率(Accuracy)、AUC(Area Under Curve)、F1值和KS(Kolmogorov-Smirnov)曲線。
5.2實(shí)驗(yàn)結(jié)果分析
針對(duì)基于多源異構(gòu)信用數(shù)據(jù)融合中的不平衡問(wèn)題,本文提出的一種基于GAN的數(shù)據(jù)不平衡處理方法,其能夠最大限度地學(xué)習(xí)原始數(shù)據(jù)中少數(shù)類樣本地分布,從而生成接近真實(shí)分布地少數(shù)類樣本。同時(shí)與現(xiàn)有機(jī)器學(xué)習(xí)主流采樣方法,如SMOTE、ADASYN、Borderline-SMOTE、SVM-SMOTE、Random Over-Sampler、SMOTE-Tomek等進(jìn)行對(duì)比,驗(yàn)證本文所提出的方法的性能,結(jié)果如表1所示。
從表1可以看出,在經(jīng)過(guò)不同數(shù)據(jù)采樣方法之后,傳統(tǒng)的數(shù)據(jù)不平衡處理方法在四個(gè)評(píng)價(jià)指標(biāo)上均低于本文的方法。Random Over-Sampler、SMOTE以及基于SMOTE的其它改進(jìn)方法的評(píng)價(jià)指標(biāo)雖然總體評(píng)價(jià)不錯(cuò),但由于在信用風(fēng)險(xiǎn)評(píng)估對(duì)違約用戶的錯(cuò)誤分類要比預(yù)測(cè)正常用戶有害得多,我們更關(guān)注模型識(shí)別具有違約風(fēng)險(xiǎn)用戶的能力。
本文所提出的GAN模型優(yōu)于所測(cè)試的傳統(tǒng)采樣方法。從本質(zhì)看,基于GAN的數(shù)據(jù)生成方式主要是通過(guò)輸入隨機(jī)噪聲,讓生成器與判別器互相對(duì)抗優(yōu)化去獲得近似真實(shí)分布的數(shù)據(jù),這樣生成的數(shù)據(jù)因?yàn)榕c原始數(shù)據(jù)之間有著非常大的共性和顯著性特征,數(shù)據(jù)質(zhì)量更高。而對(duì)于傳統(tǒng)的采樣方法,都是在整體數(shù)據(jù)中的局部進(jìn)行抽樣,這樣的結(jié)果就不如GAN穩(wěn)定。本文所提出的GAN模型通過(guò)生成樣本來(lái)平衡數(shù)據(jù)類可以學(xué)習(xí)到原始樣本少數(shù)類足夠的規(guī)律信息,更準(zhǔn)確地識(shí)別具有違約風(fēng)險(xiǎn)的用戶,這在信用風(fēng)險(xiǎn)評(píng)估場(chǎng)景中是十分有意義的。
參考文獻(xiàn):
[1] 顧洲一, 胡麗娟. 機(jī)器學(xué)習(xí)視角下商業(yè)銀行客戶信用風(fēng)險(xiǎn)評(píng)估研究[J]. 金融發(fā)展研究, 2022(01).
[2] Zhang X, Han Y, Xu W, et al. HOBA: A novel feature engineering methodology for credit card fraud detection with a deep learning architecture[J]. Information Sciences, 2021(03).
[3] 熊志斌, 吳維燁. 基于深度信念網(wǎng)絡(luò)的信用評(píng)估研究[J]. 科研信息化技術(shù)與應(yīng)用, 2019(03).
[4] Zhang Y, Wang D, Chen Y, et al. Credit risk assessment based on long short-term memory model[C].International conference on intelligent computing. 2017(02).
[5] 陳煜, 周繼恩, 杜金泉. 基于交易數(shù)據(jù)的信用評(píng)估方法[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2018(05)
[6] Crone S F, Finlay S. Instance sampling in credit scoring: An empirical study of sample size and balancing[J]. International Journal of Forecasting, 2012(01).
[7] Marqués A I, García V, Sánchez J S. On the suitability of resampling techniques for the class imbalance problem in credit scoring[J]. Journal of the Operational Research Society, 2013(07).
[8] Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of artificial intelligence research, 2002(06).
[9] Wang L. Imbalanced credit risk prediction based on SMOTE and multi-kernel FCM improved by particle swarm optimization[J]. Applied Soft Computing, 2022(04).
[10] Shen F, Zhao X, Kou G, et al. A new deep learning ensemble credit risk evaluation model with an improved synthetic minority oversampling technique[J]. Applied Soft Computing, 2021(01).
[11] Wang D, Dong L, Wang R, et al. Targeted speech adversarial example generation with generative adversarial network[J]. IEEE Access, 2020(08).