程玉勝,鄒海歡
(安慶師范大學計算機與信息學院,安徽安慶246133)
從近幾年國家統(tǒng)計局發(fā)布的數(shù)據(jù)來看,商業(yè)銀行總資產(chǎn)與同期相比持續(xù)增長,貸款業(yè)務作為銀行資產(chǎn)主要組成部分也在增多,同時貸款行為要承擔的風險也在增加。因此,怎樣消除和降低信用風險,就成為銀行管理的重中之重。本文提出在RFM(Recency,Frequency,Monetary)模型的基礎上,將其與隨機森林算法相結合,用于信用風險評估并與其他算法進行比較,實驗結果顯示這一模型在銀行信用風險評估中是有效的。
傳統(tǒng)RFM模型主要是通過“近期購買行為(Recency)”、“購買的總體頻率(Frequency)”和“購買金額(Monetary)”將客戶劃分成一定的等分,計算出客戶的RFM得分,得分越高的顧客其價值就越大,然后利用客戶得分構建金字塔,劃分客戶等級,把這種分級策略理解為市場營銷中客戶劃群的思想。
在這一模型的基礎上重新定義RFM,即根據(jù)銀行數(shù)據(jù)特點,將RFM分別賦予新的含義,R指最近還款金額,還款金額越多的客戶其信用狀況越好;F指一段時間內(nèi)違約的次數(shù),利用某時間段內(nèi)客戶的還款行為對其信用做一個大概的檢測;M指在某一時間段客戶的賬戶余額情況,余額越多,表示客戶還款的能力和可能性越高。通過新型RFM重構,將RFM模型篩選出的特征再次運用于銀行貸款客戶分析當中。
首先,采用常用的數(shù)據(jù)分析方法,如貝葉斯分類方法、決策樹算法、隨機森林算法等,找出原始數(shù)據(jù)集相關的重要屬性;然后,借助于客戶劃群的思想,對銀行數(shù)據(jù)集進行數(shù)據(jù)重構;最后,利用對應的算法對重構后的RFM模型數(shù)據(jù)進行風險評估。重建策略主要包括:
第一步:確定各個指標的權重,將最重要的3個變量按其重要性排序分別記為M,F(xiàn),R;
第二步:設定某一標準,將數(shù)據(jù)劃分:
(1)R≥A2為R1,A1<R≤A2為R2,R<A1為R3;
(2)F<X1為F1,X1≤F<X2為F2,F(xiàn)≥X2為F3;
(3)M≥B2為M1,B1≤M<B2為M2,M<B1為M3。
其中,Ai、Bi、Xi表示數(shù)據(jù)的范圍,可以由專家指定,也可以通過聚類算法進行相應設定。
通過上述重建,接下來采用相應的數(shù)據(jù)分析方法進行模型挖掘,本文采用隨機森林對重建后的數(shù)據(jù)進行分析。
隨機森林是一種降維的方法,多應用于數(shù)據(jù)值缺失、異常情況或探索其他數(shù)據(jù)時,尤其是在預防或降低信用風險中具有很好的適用性及優(yōu)越性。蕭超武等創(chuàng)造性地將隨機森林組合分類算法用于個人信用評估模型,實驗證明,這種分類器模型在預測個人信用評估時具有更高的精確性和穩(wěn)定性[1]。李進構建了基于隨機森林算法的綠色信貸信用風險評估模型,結果表明,該評估模型實現(xiàn)速度更快、評估準確率更高,較為有效地提升了評估效率[2]。李泉通過引入ROC曲線對基于隨機森林的個人信用評估模型進行評估,發(fā)現(xiàn)隨機森林的準確率和穩(wěn)定性都要優(yōu)于logistic回歸和支持向量機[3]。因此本文選擇隨機森林的方法作為風險評估的分析工具。隨機森林能夠處理大量的輸入變量,并根據(jù)它自帶的feature importance對特征進行篩選,進行特征的重要性度量,選擇重要性較高的特征。
所用數(shù)據(jù)源于Z銀行數(shù)據(jù)庫,因存在缺失值以及不真實數(shù)據(jù)的情況,所以將數(shù)據(jù)中的異常值全部刪除。數(shù)據(jù)集包含23個變量,包括信用額度,客戶基本信息(性別、學歷、婚姻、年齡等),過去6個月的還款金額,還款是否逾期情況以及客戶賬戶金額。對各個特征進行標記,具體見表1。
表1 銀行數(shù)據(jù)相應字段說明
首先將數(shù)據(jù)進行預處理,通過對客戶資料進行篩選發(fā)現(xiàn),年齡在60歲以上以及信用額度在50萬以上的客戶所占的百分比非常低,可忽略不計,因此不做統(tǒng)計。年齡方面,21歲~30歲用1表示,31歲~40歲用2表示,41歲~50歲用3表示,51歲~60歲用4表示。信用額度方面1萬~10萬的用1表示,11萬~20萬的用2表示,21萬~30萬的用3表示,31萬~40萬的用4表示,41萬~50萬的用5表示。
為了解各類人群在信貸方面的分布情況,將以往學者比較感興趣的幾個因素做了簡單分析,這些變量主要包括信用額度、性別、學歷、婚姻情況等。
由分析結果可以知道,銀行的貸款業(yè)務中中小額貸款居多,超過40萬的很少。按照常理,會覺得銀行更需要重視大客戶,因為他們會給銀行帶來更高的利潤,但事實往往不是這樣,大客戶畢竟是少數(shù),中小型客戶才是銀行貸款的主要人群。其次,貸款的人群主要為女性。國內(nèi)外很多研究顯示女性相較于男性來說,有更高的風險規(guī)避意識,對不確定性反應也更加強烈。但并不意味著男性在信貸方面的比例就高于女性,現(xiàn)在的中國大陸包括臺灣地區(qū),男女比例都嚴重失調,女性客戶占比高于男性也是一種趨勢。另外,貸款的主體基本上是受過高等教育的群體,且?guī)缀跏乔嗄耆?,多?0歲~40歲之間。因為青年人接受新事物的能力較強,觀念也更為開放一些,所以更喜歡超前消費。而婚姻狀況則對客戶的信貸狀況影響不大。對于這些小額貸款客戶、女性客戶、高學歷客戶以及青年人客戶人群,銀行應作出更有針對性的業(yè)務管理。
數(shù)據(jù)的特征描述及其分析給出了銀行客戶的大致分布,屬于屬性數(shù)據(jù)的定性分析,但是銀行數(shù)據(jù)屬性很多,僅僅進行定性分析,很難找到重要屬性。本實驗選取80%的樣本作為訓練集,其余的20%作為測試集,采用隨機森林屬性檢測方法對數(shù)據(jù)進行分析,實驗得出隨機森林劃分客戶信用等級的錯誤率為24.40%。其重要性檢測的可視化結果如圖1所示。
圖1 重要屬性排序后可視化結果
平均降低精度和基尼指數(shù)是隨機森林中衡量變量重要性的指標,其值越大,變量越重要。對圖1中23個特征進行重要性評估,發(fā)現(xiàn)賬戶余額M、逾期頻率F及最近還款金額R在變量中最為重要,所以下面將進一步分析這3個變量對信用的影響。
分別計算平均逾期時間FA(單位:月),平均還款金額RA(單位:元),每月賬戶平均余額MA(單位:元),并將數(shù)據(jù)劃分如下:
(1)F<1為F1級客戶,1≤F<3為F2級客戶,F(xiàn)≥3為F3級客戶。
(2)R>10 000為R1級客戶,3 000<R≤10 000為R2級客戶,R≤3 000為R3級客戶。
(3)M≥10 000為M1級客戶,1 000≤ M<10 000為M2級客戶,M<1 000為M3級客戶。
將原始銀行數(shù)據(jù)轉化為基于新型RFM模型的銀行數(shù)據(jù),結果保存到相應數(shù)據(jù)集中,記為“mydata”。實驗得出MDA(Mean Decrease Accuracy)值和MDG(Mean Decrease Gini)值如表2所示。
表2 基于新型RFM模型隨機森林重要性檢測結果
由表2可以看出,客戶的信用歷史是申請貸款中最重要的變量,其次是賬戶余額和平均每月還款金額。
除了隨機森林,不少學者也嘗試將其他方法用于信用風險的管理。陳云等針對SVM集成學習在信用風險評估中的應用,提出了一種混合集成方法,使得組合成員分類器的多樣性有效提升,并最終提高模型的預測準確率[4]。李戰(zhàn)江等針對實際能夠獲取到的銀行樣本量少而無法準確劃分信用級別的問題,建立了可分為9個信用級別的小樣本評級模型[5]。周壽彬將擴散控制與違約強度兩個函數(shù)應用到擴散理論中,提出給予反常擴散模型的信用風險評估方法,盡可能地降低銀行和個人的經(jīng)濟損失,從而優(yōu)化信貸資源的配置[6]。為了證明本文算法的有效性,將隨機森林算法(RF)和人工神經(jīng)網(wǎng)絡(ANN)、K最近鄰(KNN)以及C4.5算法的錯誤分類率、耗時以及精確度進行比較,同時使用80%的數(shù)據(jù)集作為訓練集,結果如表3所示。
表3 實驗對比
由表3可以明顯看出,人工神經(jīng)網(wǎng)絡和隨機森林算法在處理本文數(shù)據(jù)時的正確率要高于其他兩種算法,隨機森林所用時間比人工神經(jīng)網(wǎng)絡的短。將RFM模型與隨機森林結合之后,雖然正確率沒有得到提升,但耗時明顯縮短,精確度也有所提升。
針對銀行業(yè)的不良資產(chǎn)問題以及信貸風險管理難題,運用隨機森林算法進行分析,與其他算法對比發(fā)現(xiàn),隨機森林的正確率、精確度和耗時方面都具有優(yōu)勢。同時根據(jù)隨機森林自帶的feature importance得出客戶的信用歷史是最重要的特征,這也說明了銀行在處理客戶的貸款申請時首先看該客戶信用歷史的必要性。而對于首次貸款無歷史信用記錄的客戶,則可以根據(jù)其賬戶余額來評估其是否具有按時還款的能力。同時,根據(jù)之前的特征分析,可以看出貸款客戶中,女性、高學歷及青年人是銀行貸款的主體,銀行對這些人可以開展更有針對性的業(yè)務。