陳海龍,楊暢,杜梅,張穎宇
基于邊界自適應(yīng)SMOTE和Focal Loss函數(shù)改進(jìn)LightGBM的信用風(fēng)險(xiǎn)預(yù)測(cè)模型
陳海龍*,楊暢,杜梅,張穎宇
(哈爾濱理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱 150080)( ? 通信作者電子郵箱hrbustchl@163.com)
針對(duì)信用風(fēng)險(xiǎn)評(píng)估中數(shù)據(jù)集不平衡影響模型預(yù)測(cè)效果的問(wèn)題,提出一種基于邊界自適應(yīng)合成少數(shù)類過(guò)采樣方法(BA-SMOTE)和利用Focal Loss函數(shù)改進(jìn)LightGBM損失函數(shù)的算法(FLLightGBM)相結(jié)合的信用風(fēng)險(xiǎn)預(yù)測(cè)模型。首先,在邊界合成少數(shù)類過(guò)采樣(Borderline-SMOTE)的基礎(chǔ)上,引入自適應(yīng)思想和新的插值方式,使每個(gè)處于邊界的少數(shù)類樣本生成不同數(shù)量的新樣本,并且新樣本的位置更靠近原少數(shù)類樣本,以此來(lái)平衡數(shù)據(jù)集;其次,利用Focal Loss函數(shù)來(lái)改進(jìn)LightGBM算法的損失函數(shù),并以改進(jìn)的算法訓(xùn)練新的數(shù)據(jù)集以得到最終結(jié)合BA-SMOTE方法和FLLightGBM算法建立的BA-SMOTE-FLLightGBM模型;最后,在Lending Club數(shù)據(jù)集上進(jìn)行信用風(fēng)險(xiǎn)預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,與其他不平衡分類算法RUSBoost、CUSBoost、KSMOTE-AdaBoost和AK-SMOTE-Catboost相比,所建立的模型在G-mean和AUC兩個(gè)指標(biāo)上都有明顯的提升,提升了9.0%~31.3%和5.0%~14.1%。以上結(jié)果驗(yàn)證了所提出的模型在信用風(fēng)險(xiǎn)評(píng)估中具有更好的違約預(yù)測(cè)效果。
信用風(fēng)險(xiǎn);不平衡數(shù)據(jù);過(guò)采樣;LightGBM;Focal Loss
互聯(lián)網(wǎng)技術(shù)的快速發(fā)展給傳統(tǒng)金融行業(yè)帶來(lái)了巨大的影響,網(wǎng)絡(luò)借貸就是一項(xiàng)重要的創(chuàng)新成果。由于其靈活、便捷的融資方式,網(wǎng)絡(luò)借貸成為了越來(lái)越多的人選擇融資的渠道,但是另一方面,信用風(fēng)險(xiǎn)問(wèn)題也一直制約著網(wǎng)貸平臺(tái)的發(fā)展,較高的違約率帶來(lái)了極大的負(fù)面影響[1],因此,建立有效的信用風(fēng)險(xiǎn)預(yù)測(cè)模型對(duì)借貸人的風(fēng)險(xiǎn)控制以及網(wǎng)貸平臺(tái)的持續(xù)發(fā)展具有重大的意義[2]。
近年來(lái),許多基于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的方法被應(yīng)用于信用風(fēng)險(xiǎn)預(yù)測(cè)模型中,其中包括邏輯回歸[3]、神經(jīng)網(wǎng)絡(luò)[4]和支持向量機(jī)[5]等方法。國(guó)內(nèi)外很多學(xué)者的研究證實(shí)了這些方法的可行性,但是在研究信用風(fēng)險(xiǎn)評(píng)估模型的實(shí)際問(wèn)題中,由于發(fā)生貸款違約的樣本相對(duì)于正常還款的樣本來(lái)說(shuō)數(shù)量很少,因此正負(fù)樣本比例極不平衡。利用不平衡的數(shù)據(jù)集進(jìn)行模型訓(xùn)練,將嚴(yán)重影響模型的分類性能,得到較差的預(yù)測(cè)效果[6]。對(duì)于解決不平衡數(shù)據(jù)集的分類問(wèn)題,可以從數(shù)據(jù)和算法兩個(gè)方面入手:一是利用采樣方法處理數(shù)據(jù),解決數(shù)據(jù)集本身分布不均的現(xiàn)象;二是對(duì)傳統(tǒng)分類算法進(jìn)行改進(jìn)。
1) 數(shù)據(jù)層面。比較常見(jiàn)的處理數(shù)據(jù)集不平衡的方法有欠采樣和過(guò)采樣方法[7]。陳啟偉等[8]利用欠采樣方法平衡數(shù)據(jù)集并與引入?yún)?shù)擾動(dòng)的集成學(xué)習(xí)方法相結(jié)合建立信用評(píng)分模型。該方法雖然改善了由于隨機(jī)欠采樣而導(dǎo)致的信息丟失問(wèn)題,但是對(duì)于正負(fù)樣本比例失衡比較嚴(yán)重的數(shù)據(jù)集來(lái)說(shuō),分類效果仍有待提高。Chawla等[9]提出的SMOTE(Synthetic Minority Oversampling TEchnique)方法在一定程度上改善了過(guò)擬合的問(wèn)題。Niu等[10]利用SMOTE方法處理不平衡數(shù)據(jù)集,驗(yàn)證了該方法在信用風(fēng)險(xiǎn)評(píng)估模型中的有效性。Khemakhem等[11]利用隨機(jī)過(guò)采樣和合成少數(shù)類過(guò)采樣方法來(lái)解決數(shù)據(jù)集不平衡問(wèn)題,結(jié)果表明過(guò)采樣方法可以提高模型分類的準(zhǔn)確率。但是SMOTE方法在生成新樣本的過(guò)程中沒(méi)有對(duì)少數(shù)類樣本進(jìn)行區(qū)別選擇,并且容易出現(xiàn)樣本重疊的問(wèn)題[12]。對(duì)此Han等[13]提出了邊界合成少數(shù)類過(guò)采樣(Borderline Synthetic Minority Oversampling TEchnique, Borderline-SMOTE)算法,改善了樣本重疊的問(wèn)題。該方法只對(duì)處于邊界的少數(shù)類樣本進(jìn)行過(guò)采樣,容易造成正負(fù)類邊界模糊的問(wèn)題。Nakamura等[14]提出基于密度的SMOTE改進(jìn)算法,根據(jù)正類樣本的分類密度形成聚類簇來(lái)控制新樣本的合成。文獻(xiàn)[15-16]中提出帶多數(shù)類權(quán)重的少數(shù)類過(guò)采樣方法結(jié)合隨機(jī)森林的信用評(píng)估模型,與傳統(tǒng)隨機(jī)森林和樸素貝葉斯相比得到了更好的預(yù)測(cè)效果。除此之外,在SMOTE方法的基礎(chǔ)上進(jìn)行改進(jìn)的還有ADASYN(ADAptive SYNthetic sampling)[17]方法,該方法根據(jù)數(shù)據(jù)分布情況為每個(gè)少數(shù)類樣本生成不同數(shù)目的新樣本,雖然改進(jìn)了新樣本的分布情況,但是仍會(huì)出現(xiàn)樣本重疊的問(wèn)題。
2) 算法層面。傳統(tǒng)分類算法在解決不平衡數(shù)據(jù)的分類問(wèn)題時(shí)存在局限性,為此可以在算法層面上做出改進(jìn),主要方法有代價(jià)敏感學(xué)習(xí)以及集成學(xué)習(xí)方法[18-19]。代價(jià)敏感學(xué)習(xí)解決數(shù)據(jù)不平衡的方法是增加少數(shù)類樣本錯(cuò)分的懲罰代價(jià),通過(guò)優(yōu)化目標(biāo)函數(shù)使分類模型更關(guān)注少數(shù)類樣本的分類準(zhǔn)確率。而集成學(xué)習(xí)方法是通過(guò)某種方式將多個(gè)基分類器集成起來(lái),減少單個(gè)分類器對(duì)不平衡數(shù)據(jù)分類形成的誤差,從而提高分類器整體的預(yù)測(cè)效果。目前大多采用的方法是將集成學(xué)習(xí)與采樣方法或代價(jià)敏感學(xué)習(xí)方法相結(jié)合,陳白強(qiáng)等[20]將錯(cuò)分損失函數(shù)用于集成分類算法中,極大地提高了少數(shù)類的分類性能。王俊紅等[21]提出將欠采樣方法和代價(jià)敏感相結(jié)合的分類算法,提高了在不平衡數(shù)據(jù)上的分類性能。
基于上述分析,由于對(duì)數(shù)據(jù)過(guò)采樣中未考慮樣本分布差異的影響和樣本邊界模糊的問(wèn)題,以及未考慮分類算法中損失函數(shù)對(duì)分類效果的影響等問(wèn)題,本文提出一種基于邊界自適應(yīng)合成少數(shù)類過(guò)采樣方法(Borderline Adaptive Synthetic Minority Oversampling TEchnique, BA-SMOTE)和利用Focal Loss函數(shù)改進(jìn)LightGBM (Light Gradient Boosting Machine)損失函數(shù)的算法(Focal Loss-LightGBM, FLLightGBM) 相結(jié)合的信用風(fēng)險(xiǎn)預(yù)測(cè)模型,來(lái)改善數(shù)據(jù)不平衡問(wèn)題對(duì)分類效果的影響。該模型從數(shù)據(jù)和算法兩個(gè)方面進(jìn)行改進(jìn),來(lái)解決信用風(fēng)險(xiǎn)預(yù)測(cè)中數(shù)據(jù)不平衡的問(wèn)題。在數(shù)據(jù)方面,利用改進(jìn)的過(guò)采樣方法生成新樣本來(lái)平衡數(shù)據(jù)集;在算法方面利用Focal Loss來(lái)改進(jìn)LightGBM中的損失函數(shù)[22],并用改進(jìn)的分類算法訓(xùn)練新的數(shù)據(jù)集得到最終的預(yù)測(cè)模型。將本文提出的過(guò)采樣方法與經(jīng)典的過(guò)采樣方法對(duì)比,本文模型和處理不平衡數(shù)據(jù)的分類模型RUSBoost(Random Under-Sampling with adaBoost)[23]、CUSBoost(Cluster-based Under-Sampling with adaBoost[24]和KSMOTE-AdaBoost(-means clustering SMOTE with AdaBoost)[25]以及AK-SMOTE-Catboost(AllKnn-SMOTE with Catboost)[26]對(duì)比,實(shí)驗(yàn)結(jié)果表明本文提出的改進(jìn)模型在信用風(fēng)險(xiǎn)預(yù)測(cè)中具有較好的分類效果。
SMOTE算法通過(guò)少數(shù)類樣本和其近鄰的少數(shù)類樣本之間進(jìn)行隨機(jī)線性插值來(lái)生成新樣本,達(dá)到平衡數(shù)據(jù)集的目的。算法的原理如下:
1) 對(duì)于每一個(gè)少數(shù)類樣本X(=1,2,…,),根據(jù)歐氏距離計(jì)算出最近鄰的個(gè)少數(shù)類樣本(1,2,…,Y)。
2) 從個(gè)最近鄰樣本中隨機(jī)選擇若干個(gè)樣本,在每一個(gè)選出的樣本Y和原樣本X之間進(jìn)行隨機(jī)線性插值,生成新樣本new。插值方法如式(1)所示:
其中rand(0,1)表示為(0,1)區(qū)間的隨機(jī)數(shù)。
3) 將新生成的樣本加入原數(shù)據(jù)集中。
SMOTE算法是對(duì)隨機(jī)過(guò)采樣的一種改進(jìn)方法,它簡(jiǎn)單有效,并且避免了過(guò)擬合的問(wèn)題。但是SMOTE算法在生成新的少數(shù)類樣本時(shí),只是單一地在同類近鄰樣本間插值,并沒(méi)有考慮到少數(shù)類樣本附近的多數(shù)類樣本分布情況。若新生成的少數(shù)類樣本周圍有多數(shù)類樣本,則很容易發(fā)生重疊的現(xiàn)象,使樣本分類時(shí)發(fā)生錯(cuò)誤。
Borderline-SMOTE算法是對(duì)SMOTE進(jìn)行改進(jìn)的一種過(guò)采樣方法,它只對(duì)處于邊界的少數(shù)類樣本利用隨機(jī)線性插值的方式生成新樣本。算法步驟如下:
1) 計(jì)算每個(gè)少數(shù)類樣本的個(gè)最近鄰樣本。
2) 根據(jù)近鄰樣本中多數(shù)類樣本的分布情況對(duì)少數(shù)類樣本進(jìn)行分類。若個(gè)近鄰中都是多數(shù)類樣本,則認(rèn)為該少數(shù)類樣本屬于噪聲樣本;若個(gè)近鄰中都是少數(shù)類樣本,則認(rèn)為該少數(shù)類樣本屬于安全樣本;若個(gè)近鄰中多數(shù)類樣本個(gè)數(shù)多于少數(shù)類樣本數(shù),則認(rèn)為該少數(shù)類樣本屬于邊界樣本。
3) 對(duì)于邊界樣本中的每個(gè)少數(shù)類樣本,利用SMOTE方法生成新樣本。
相較于SMOTE算法,Borderline-SMOTE算法雖然改善了樣本重疊的問(wèn)題,但是生成新樣本的方式與SMOTE算法相同,對(duì)于每個(gè)少數(shù)類樣本合成的新樣本數(shù)是一樣的,并沒(méi)有考慮到樣本差異性帶來(lái)的影響;并且當(dāng)對(duì)處于邊界的少數(shù)類樣本過(guò)采樣時(shí),新生成的樣本也會(huì)處于樣本邊界,這樣容易使多數(shù)類與少數(shù)類的樣本邊界越來(lái)越模糊,難以區(qū)分。
因此,本文提出一種改進(jìn)的過(guò)采樣方法,將自適應(yīng)密度分布思想引入Borderline-SMOTE算法中,并且利用新的插值方式生成新樣本來(lái)解決上述問(wèn)題。算法步驟如下:
1) 計(jì)算每個(gè)少數(shù)類樣本的個(gè)最近鄰樣本。
2) 若個(gè)最近鄰中多數(shù)類樣本個(gè)數(shù)多于少數(shù)類樣本數(shù),則將原少數(shù)類樣本加入邊界樣本集合中。
4) 對(duì)于邊界樣本集合(1,2,…,X)中的每一個(gè)少數(shù)類樣本,記為X,計(jì)算出X的近鄰中多數(shù)類樣本的個(gè)數(shù),記為N。則近鄰中多數(shù)類樣本的占比R如式(2)所示,計(jì)算多數(shù)類樣本分布情況的總和,記為。
5) 計(jì)算出邊界樣本集合中每個(gè)少數(shù)類樣本X需要合成的新樣本數(shù)g,其中r表示少數(shù)類樣本X周圍的多數(shù)類樣本占比情況。
6) 對(duì)處于邊界的少數(shù)類樣本X,利用新的插值方式,生成g個(gè)少數(shù)類樣本。
新的插值方式如下:
1) 從少數(shù)類樣本X的近鄰中隨機(jī)選擇兩個(gè)樣本,記為1、2。若1、2都是多數(shù)類樣本,則首先在1、2之間進(jìn)行線性插值,生成臨時(shí)樣本X,再在X與X之間進(jìn)行隨機(jī)插值,生成的新樣本new放入少數(shù)類樣本集中。
2) 若1為少數(shù)類,2為多數(shù)類,則生成臨時(shí)樣本X和新樣本new的公式為:
其中:用來(lái)限制合成區(qū)域的大小,0<<1。插值區(qū)域如圖2所示,可以看出插值區(qū)域仍然靠近少數(shù)類樣本。
圖1 第一種插值方式
圖2 第二種插值方式
3) 若1,2都為少數(shù)類樣本,則根據(jù)式(6)和式(9)生成新樣本。
LightGBM[27]是基于決策樹算法的梯度提升框架,相較于XGBoost(eXtreme Gradient Boosting)算法,速度更快,內(nèi)存占用率更低。LightGBM的一個(gè)優(yōu)化是利用基于Histogram的決策樹算法,將連續(xù)型的特征值離散成個(gè)值,并且形成一個(gè)寬度為的直方圖。遍歷樣本時(shí),利用離散后的值作為索引在圖中累計(jì)統(tǒng)計(jì)量,然后通過(guò)遍歷直方圖中的離散值尋找最優(yōu)分割點(diǎn)。
LightGBM的另一個(gè)優(yōu)化是采用帶深度限制的葉子生長(zhǎng)方法(leaf-wise)。與按層生長(zhǎng)(level-wise)的決策樹生長(zhǎng)方法不同的是,leaf-wise方法每次從當(dāng)前所有葉子中找到分裂增益最大的葉子再進(jìn)行分裂,可以有效提高精度,同時(shí)加入最大深度限制防止過(guò)擬合。
LightGBM算法的原理是利用最速下降法,把損失函數(shù)的負(fù)梯度在當(dāng)前模型的值當(dāng)作殘差的近似值,進(jìn)而擬合出一棵回歸樹;經(jīng)過(guò)多輪迭代,最后將所有回歸樹的結(jié)果累加得到最終結(jié)果。與GBDT(Gradient Boosting Decision Tree)和XGBoost的節(jié)點(diǎn)分裂方式不同的是,先將特征分桶構(gòu)建直方圖再進(jìn)行節(jié)點(diǎn)分裂計(jì)算。對(duì)于當(dāng)前模型的每個(gè)葉子節(jié)點(diǎn),需要遍歷所有的特征來(lái)找到增益最大的特征及其劃分值,以此來(lái)分裂該葉子節(jié)點(diǎn)。節(jié)點(diǎn)分裂步驟如下:
1) 離散特征值,將全部樣本在該特征上的取值劃分到某一段bin中。
2) 為每個(gè)特征構(gòu)建一個(gè)直方圖,直方圖中存儲(chǔ)每個(gè)bin中樣本的梯度之和以及樣本數(shù)量。
Focal Loss被提出是為了解決在目標(biāo)檢測(cè)中樣本不平衡影響分類效果的問(wèn)題[28-29]。它在標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù)的基礎(chǔ)上進(jìn)行修改,在損失函數(shù)中調(diào)整類別權(quán)重和易分類樣本權(quán)重及難分類樣本權(quán)重來(lái)提升模型的分類準(zhǔn)確率。交叉熵?fù)p失函數(shù)如式(11)所示:
其中:表示真實(shí)樣本的標(biāo)簽,表示預(yù)測(cè)值。
Focal Loss損失函數(shù)引入類別權(quán)重因子來(lái)調(diào)節(jié)不同類別的樣本的權(quán)重大小,∈(0,1),通過(guò)增加少數(shù)類樣本權(quán)重來(lái)平衡正負(fù)樣本的重要性。引入權(quán)重因子后的損失函數(shù)變?yōu)椋?/p>
FLLightGBM算法是在LightGBM算法的基礎(chǔ)上引用Focal Loss函數(shù)作為其損失函數(shù)。它通過(guò)調(diào)節(jié)和的值,更改樣本權(quán)重,使模型更關(guān)注少數(shù)類樣本和難分類樣本,在算法層面上改善樣本類別不平衡問(wèn)題,進(jìn)一步提高分類模型的準(zhǔn)確率。
隨機(jī)森林算法[30]構(gòu)建決策樹時(shí),每次有放回地從數(shù)據(jù)集中抽取個(gè)樣本,共抽取次,其中每次未被抽到的樣本稱為袋外數(shù)據(jù)(Out Of Bag, OOB)。利用隨機(jī)森林算法進(jìn)行特征選擇時(shí),通過(guò)最小袋外數(shù)據(jù)誤差率準(zhǔn)則來(lái)度量每個(gè)特征的重要性程度?;舅枷胧菍?duì)一個(gè)特征加入噪聲后,預(yù)測(cè)準(zhǔn)確率會(huì)降低,準(zhǔn)確率的變化決定了這個(gè)特征的重要性程度,并以此為依據(jù)對(duì)特征進(jìn)行排序。特征選擇算法如下:
1) 根據(jù)組袋外數(shù)據(jù)計(jì)算每棵決策樹的誤差值,記為1(=1,2,…,)。
2) 在其余特征分布不變的情況下,對(duì)第個(gè)特征添加噪聲干擾,再次計(jì)算每棵決策樹的誤差值2(=1,2,…,)。
3) 特征的重要性與前后兩次誤差變化的平均值有關(guān),因此第個(gè)特征的重要性如式(14)所示:
對(duì)經(jīng)過(guò)特征篩選的訓(xùn)練集數(shù)據(jù)利用BA-SMOTE過(guò)采樣方法進(jìn)行數(shù)據(jù)平衡處理,通過(guò)設(shè)置值來(lái)控制需要合成的少數(shù)類樣本總數(shù),根據(jù)處于邊界的少數(shù)類樣本周圍的多數(shù)類樣本分布情況,為每個(gè)處于邊界的少數(shù)類樣本計(jì)算出需要合成的樣本數(shù)量,使新樣本的分布更加合理。針對(duì)原有插值方式易造成樣本邊界模糊的問(wèn)題,利用改進(jìn)的插值方法生成新樣本,通過(guò)設(shè)置值來(lái)調(diào)節(jié)插值區(qū)域大小,使新樣本更靠近原來(lái)的少數(shù)類樣本,達(dá)到區(qū)分邊界、易于分類的目的。
算法1 BA-SMOTE算法。
輸入 樣本集,控制合成樣本量的系數(shù),控制插值區(qū)域的系數(shù),近鄰值;
輸出 新的樣本集new。
1) 將樣本集分成多數(shù)類maj和少數(shù)類min
2)=[ ]
3)=[ ]
4)new=[ ]
5) Forinmin:
5.1) 找到的近鄰
5.2) 計(jì)算近鄰中多數(shù)類樣本數(shù)N
5.3) if/2<=N<
.append()
.append(N/)
=+R
6)=(maj-min) *
7)=sum()
8) Forin:
8.1)r=R/
8.2)g=r*
8.3) 找到的近鄰
8.3.1)Foring
1,2=random.choice(,2)
if1∈majand2∈maj:
按照式(6)和式(7)插值,并將樣本加入new中
elif1∈minand2∈min:
按照式(6)和式(9)插值,樣本加入new中
else:
按照式(8)和式(9)插值,樣本加入new中
9)new=∪new
10)Returnnew
本文建立模型首先利用隨機(jī)森林算法篩選特征,然后通過(guò)BA-SMOTE方法生成新樣本,并加入到原訓(xùn)練集中來(lái)平衡數(shù)據(jù)集,再利用改進(jìn)的FLLightGBM分類算法在新的訓(xùn)練集上根據(jù)篩選得到的變量特征進(jìn)行訓(xùn)練,最終建立BA-SMOTE-FLLightGBM模型。建模流程如圖3所示,具體實(shí)現(xiàn)過(guò)程如下:
1) 輸入數(shù)據(jù)集,對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,包括對(duì)缺失值和異常值的處理,構(gòu)成新的數(shù)據(jù)集1。
2) 利用隨機(jī)森林算法,根據(jù)決策樹誤差值的變化選擇出新的特征集合,形成新數(shù)據(jù)集2。
3) 在數(shù)據(jù)集2上應(yīng)用BA-SMOTE算法合成新的少數(shù)類樣本,并加入到原數(shù)據(jù)集中,構(gòu)成新數(shù)據(jù)集3。
4) 利用FLLightGBM分類算法對(duì)新數(shù)據(jù)集3進(jìn)行訓(xùn)練,并通過(guò)網(wǎng)格搜索算法確定最佳的參數(shù)組合進(jìn)行模型優(yōu)化,得到最終的分類模型。
5) 用測(cè)試集數(shù)據(jù)進(jìn)行測(cè)試,驗(yàn)證模型分類效果。
圖3 建模流程
本文使用的數(shù)據(jù)來(lái)源于Lending Club網(wǎng)貸平臺(tái)上2018年第一季度的借貸人數(shù)據(jù),選擇前1萬(wàn)條用戶樣本,其中每條樣本涉及145個(gè)字段信息。每一條用戶樣本中包含個(gè)人屬性變量和一個(gè)目標(biāo)變量。對(duì)于目標(biāo)變量,有7種狀態(tài),分別是Current(正常還款并且沒(méi)到最后一個(gè)還款日)、Fully Paid(到期還清)、In Grace Period(處于寬限期)、Late(16~30 d)(逾期了16~30 d)、Late(31~120 d)(逾期了31~120 d)、Charged Off(壞賬)和Default(違約)。定義Current和Fully Paid為“好”用戶,其余狀態(tài)為“壞”用戶,將目標(biāo)變量數(shù)值化,用0表示“好”用戶,1表示“壞”用戶。貸款狀態(tài)分布如圖4所示,從圖中可以看出數(shù)據(jù)集屬于不平衡數(shù)據(jù),比例約為17∶1,嚴(yán)重影響模型分類效果,因此需要對(duì)數(shù)據(jù)集進(jìn)行不平衡處理。
圖 4 貸款狀態(tài)分布
經(jīng)過(guò)對(duì)數(shù)據(jù)集的統(tǒng)計(jì)分析后發(fā)現(xiàn),由于P2P網(wǎng)貸平臺(tái)沒(méi)有收集和用戶未填寫等多種原因,原始數(shù)據(jù)集中存在部分?jǐn)?shù)據(jù)缺失嚴(yán)重的情況,其中部分特征全部缺失,部分連續(xù)型特征用離散型字符標(biāo)記。因此在訓(xùn)練模型前要先進(jìn)行數(shù)據(jù)預(yù)處理,本文刪除缺失比超過(guò)60%的特征,將原本是數(shù)值型的字符型特征轉(zhuǎn)化為數(shù)值型。對(duì)分類型變量采取特殊值填充法,將空值當(dāng)作一種特殊的屬性值來(lái)處理,所有的空值都用“Unknown”填充。對(duì)于數(shù)值型變量的缺失值處理采用均值填充法。然后對(duì)分類型數(shù)據(jù)進(jìn)行獨(dú)熱編碼。
利用隨機(jī)森林算法進(jìn)行特征選擇,經(jīng)過(guò)重要性排序,選取前18個(gè)特征進(jìn)行模型訓(xùn)練,特征及其重要性如表1所示。
表1特征及其重要性
Tab.1 Features and their importances
混淆矩陣也稱誤差矩陣,主要用于比較分類結(jié)果和實(shí)際測(cè)得值。二分類的混淆矩陣如表2所示。
用0表示正類即按時(shí)還款,1表示負(fù)類即違約。其中(True Positive)表示真實(shí)值為0,預(yù)測(cè)值也為0的樣本數(shù);(False Negative)表示真實(shí)值為0,預(yù)測(cè)值為1的樣本數(shù);(False Positive)表示真實(shí)值為1,預(yù)測(cè)值為0的樣本數(shù);(True Negative)表示真實(shí)值為1,預(yù)測(cè)值也為1的樣本數(shù)。
表2混淆矩陣
Tab.2 Confusion matrix
模型評(píng)價(jià)指標(biāo)如下。
1) 精確率(Precision)和召回率(Recall)。精確率表示在模型預(yù)測(cè)為正類的所有結(jié)果中,模型預(yù)測(cè)正確的比例;召回率表示在實(shí)際為正類的所有結(jié)果中,模型預(yù)測(cè)正確的比例。
2) 特異度(specificity)。特異度表示在所有負(fù)類中模型預(yù)測(cè)正確的比列:
3) F1值(F1-score)??梢钥醋魇悄P途_率和召回率的一種加權(quán)平均,它的最大值是1,最小值是0。
4) 幾何平均值(G-mean),可以衡量模型在兩個(gè)類別上的平均性能。
5) ROC(Receiver Operating Characteristic)曲線和AUC(Area Under Curve)值。ROC曲線的橫坐標(biāo)表示假正率(False Positive Rate,),縱坐標(biāo)表示真正率(True Positive Rate,)。=/(+),=/(+),分別表示為錯(cuò)當(dāng)成正實(shí)例的負(fù)實(shí)例占負(fù)實(shí)例總數(shù)的比值和預(yù)測(cè)正確的正實(shí)例占正實(shí)例總數(shù)的比值。但是用ROC曲線評(píng)價(jià)分類模型的預(yù)測(cè)效果不是很直觀,因此引入了AUC值。AUC值表示的是ROC曲線下方和軸上方所形成區(qū)域的面積大小,AUC值位于0.5~1。在大于0.5的情況下,AUC值越接近于1表示模型的預(yù)測(cè)效果越好。
6) KS(Kolmogorov-Smirnov)值。KS值主要驗(yàn)證模型對(duì)違約用戶的區(qū)分能力,需要用到和兩個(gè)值。KS值在0~1,KS值如果小于0.2表示模型不可用,KS值大于0.3表明模型的區(qū)分能力較好。
4.4.1參數(shù)敏感性分析
本文在數(shù)據(jù)層面提出的BA-SMOTE過(guò)采樣方法,需要設(shè)置值來(lái)控制需要生成的新樣本數(shù)量,設(shè)置值來(lái)調(diào)節(jié)生成新樣本的插值區(qū)域大小。為了評(píng)估和的取值對(duì)算法結(jié)果的影響,選擇LightGBM、XGBoost、GBDT、隨機(jī)森林(Random Forest, RF)和邏輯回歸(Logistics Regression, LR)5個(gè)分類器模型,利用Lending Club平臺(tái)的借貸人歷史數(shù)據(jù)進(jìn)行測(cè)試,并且用F1-score、G-mean、AUC值和KS值等評(píng)價(jià)指標(biāo)評(píng)估參數(shù)的影響。實(shí)驗(yàn)過(guò)程利用PyCharm 2018平臺(tái)實(shí)現(xiàn),采用五折交叉驗(yàn)證的方式,將數(shù)據(jù)集分成5份,每次選擇其中4份作為訓(xùn)練集,1份作為測(cè)試集,最后結(jié)果取平均值。
的取值用來(lái)控制采樣倍率,本文設(shè)置=0.5和1這兩個(gè)取值;的取值控制插值區(qū)域,值越大生成的新樣本越容易靠近多數(shù)類樣本,造成邊界模糊;值越小生成的新樣本越靠近少數(shù)類樣本。雖然有效改善了邊界模糊問(wèn)題,但更易發(fā)生樣本重疊現(xiàn)象。因此設(shè)置取值為0.3和0.5。和的取值進(jìn)行組合,將(,)組合為(0.5,0.3)、(0.5,0.5)、(1,0.3)和(1,0.5)等4組分別進(jìn)行實(shí)驗(yàn),近鄰取值為5,實(shí)驗(yàn)結(jié)果如表3所示,加粗部分為每組算法中效果最好的值。從表3中評(píng)價(jià)指標(biāo)的結(jié)果可以看出,當(dāng)(,)取值為(1,0.5)時(shí),分類器的預(yù)測(cè)結(jié)果更好,也就是正負(fù)樣本比例平衡并且插值區(qū)域范圍限制在中間部分時(shí),算法更易于區(qū)分正負(fù)類樣本。
表3不同,下的分類效果對(duì)比
Tab.3 Comparison of classification effect under different b, ε
在算法層面提出的FLLightGBM算法中,引入系數(shù)和,分別用來(lái)調(diào)節(jié)樣本類別權(quán)重和樣本難度權(quán)重的大小,以提升模型分類準(zhǔn)確率。為了評(píng)估和取值對(duì)算法結(jié)果的影響,設(shè)置(,)取值為(0.75,0.2)、(0.5,0.5)、(0.25,1)、(0.25,2)和(0.25,5)幾種參數(shù)組合,同樣采用五折交叉驗(yàn)證的方式,利用G-mean和AUC值作為評(píng)價(jià)指標(biāo),其中橫軸表示(,)的取值情況,結(jié)果如圖5所示。從圖中可以看出當(dāng)(,)的取值為(0.25,2)時(shí)G-mean值和AUC值高于其他參數(shù)組合的值,表明此時(shí)的參數(shù)取值對(duì)FLLightGBM算法來(lái)說(shuō)具有更好的分類效果。
圖5 不同(α,γ)下FLLightGBM的G-mean值和AUC值
4.4.2改進(jìn)方法的階段性實(shí)驗(yàn)對(duì)比
為驗(yàn)證本文提出的模型在數(shù)據(jù)層面和算法層面的改進(jìn)效果,實(shí)驗(yàn)對(duì)原始的LightGBM模型,以及經(jīng)過(guò)采樣處理的BA-SMOTE-LightGBM模型和改進(jìn)完全的BA-SMOTE-FLLightGBM模型之間進(jìn)行比較分析。實(shí)驗(yàn)參數(shù)依據(jù)上述參數(shù)分析中的結(jié)果,(,)取值為(1,0.5),(,)的取值為(0.25,2),分類模型利用網(wǎng)格搜索算法優(yōu)化模型參數(shù)。各模型的F1-score、G-mean、AUC值和KS值如表4所示。
從表4中的結(jié)果可以看出,與原始模型相比,經(jīng)過(guò)數(shù)據(jù)層面BA-SMOTE過(guò)采樣方法處理過(guò)的模型和最終改進(jìn)完全的模型的F1-score變化不大,而G-mean、AUC值和KS值都有明顯提升。其中改進(jìn)完全的模型的各項(xiàng)指標(biāo)最高,驗(yàn)證了本文提出的改進(jìn)方法的可行性。
表4不同改進(jìn)方法的階段性實(shí)驗(yàn)對(duì)比結(jié)果
Tab.4 Phase experimental comparison results of different improvement methods
4.4.3與其他分類模型的實(shí)驗(yàn)對(duì)比
為了驗(yàn)證基于BA-SMOTE和FLLightGBM的信用風(fēng)險(xiǎn)預(yù)測(cè)模型的分類效果,本文首先與一些經(jīng)典的過(guò)采樣方法和分類算法相結(jié)合的模型作比較。其中包括SMOTE、Borderline-SMOTE和ADASYN等過(guò)采樣方法,和XGBoost、GBDT、隨機(jī)森林以及邏輯回歸等分類算法。在實(shí)驗(yàn)過(guò)程中BA-SMOTE方法的參數(shù)和設(shè)置為=1,=0.5,F(xiàn)LLightGBM算法中參數(shù)的取值為0.25,的取值為2,并為其他過(guò)采樣方法設(shè)置與之相同的采樣倍率,且近鄰值都取為5。模型優(yōu)化階段利用網(wǎng)格搜索算法優(yōu)化模型參數(shù)。各算法的實(shí)驗(yàn)結(jié)果如表5所示,不同過(guò)采樣方法的ROC曲線如圖6所示,表5中加粗部分為本文所提模型的評(píng)價(jià)指標(biāo)值。
表5不同過(guò)采樣方法的實(shí)驗(yàn)結(jié)果比較
Tab.5 Experimental results comparison of different oversampling methods
從表5和圖6的結(jié)果可以看出,當(dāng)分類模型相同時(shí),相較于SMOTE、Borderline-SMOTE和ADASYN等3種過(guò)采樣方法,本文提出的基于BA-SMOTE方法的分類模型的各項(xiàng)評(píng)價(jià)指標(biāo)值都有明顯提升,預(yù)測(cè)效果更好。說(shuō)明BA-SMOTE過(guò)采樣方法中區(qū)別地為邊界少數(shù)類樣本生成不同數(shù)目的新樣本以及更靠近少數(shù)類樣本的插值方式,在一定程度上避免了生成新樣本的盲目性,有效地提高了樣本的分類準(zhǔn)確率。從表5還可以看出,采用同樣的過(guò)采樣方法處理不平衡數(shù)據(jù)時(shí),相較于XGBoost算法、GBDT算法、隨機(jī)森林算法和邏輯回歸算法來(lái)說(shuō),基于FLLightGBM算法的分類模型的預(yù)測(cè)效果更好。其中本文提出的BA-SMOTE-FLLightGBM模型的各項(xiàng)評(píng)價(jià)指標(biāo)均取得了較高值,與其他過(guò)采樣方法和FLLightGBM算法相結(jié)合的模型相比,AUC值最高提升了7.2%,G-mean最高提升了22.1%,KS值最高提升了22.4%,證實(shí)了本文提出的基于BA-SMOTE和FLLightGBM的信用風(fēng)險(xiǎn)預(yù)測(cè)模型的有效性。
圖6 不同過(guò)采樣方法的ROC曲線
為進(jìn)一步證明所提模型的有效性,將本文模型與針對(duì)不平衡數(shù)據(jù)分類的改進(jìn)算法RUSBoost、CUSBoost、KSMOTE-AdaBoost和AK-SMOTE-Catboost進(jìn)行比較。設(shè)置本文模型中BA-SMOTE方法的參數(shù)為=1,=0.5,F(xiàn)LLightGBM算法的參數(shù)為=0.25,=2。各算法的F1-score、G-mean、AUC值和KS值如表6所示,ROC曲線如圖7所示。
表6所提模型與其他不平衡分類算法的結(jié)果比較
Tab.6 Results comparison among the proposed model and other imbalanced classification algorithms
從表6和圖7中的結(jié)果可以看出,相較于其他處理不平衡數(shù)據(jù)的分類算法,本文提出的改進(jìn)模型的準(zhǔn)確率更高,分類性能更好。與RUSBoost算法相比,本文算法的優(yōu)勢(shì)更加明顯,可能由于隨機(jī)欠采樣方法的不確定性影響了RUSBoost算法的分類性能。而與CUSBoost算法、KSMOTE-AdaBoost算法和AK-SMOTE-Catboost算法相比,本文算法在4個(gè)評(píng)價(jià)指標(biāo)值上均有提升,尤其在G-mean值、AUC值和KS值上提升明顯。這是由于CUSBoost算法是利用欠采樣方法處理不平衡數(shù)據(jù),而欠采樣方法對(duì)于正負(fù)樣本比例極不平衡的數(shù)據(jù)集來(lái)說(shuō),難以提升分類效果;而KSMOTE-AdaBoost算法和AK-SMOTE-Catboost算法中仍存在樣本邊界模糊的問(wèn)題,影響了模型的分類效果。通過(guò)與上述算法的比較,可以證實(shí)本文模型在數(shù)據(jù)不平衡的信用風(fēng)險(xiǎn)預(yù)測(cè)中具有較好的分類效果。
圖7 不同不平衡分類算法的ROC曲線
為了進(jìn)一步驗(yàn)證本文模型在其他數(shù)據(jù)集上的有效性,選擇UCI數(shù)據(jù)庫(kù)中的German數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。該數(shù)據(jù)集包含1 000個(gè)樣本,每個(gè)樣本有21個(gè)屬性特征,正負(fù)樣本比例為7∶3。利用German數(shù)據(jù)集,將本文模型與其他針對(duì)不平衡數(shù)據(jù)分類的算法RUSBoost、CUSBoost、KSMOTE-AdaBoost和AK-SMOTE-Catboost進(jìn)行比較分析。其中本文模型的BA-SMOTE方法的參數(shù)設(shè)置為=1,=0.5,F(xiàn)LLightGBM算法的參數(shù)設(shè)置為=0.25,=2。實(shí)驗(yàn)采用五折交叉驗(yàn)證的方式,各個(gè)算法的F1-score、G-mean、AUC值和KS值如表7所示。
表7German數(shù)據(jù)集上的算法比較結(jié)果
Tab.7 Comparison results of algorithms on German dataset
從表7的結(jié)果可以看出,本文模型在4個(gè)評(píng)價(jià)指標(biāo)上都取得了最高值。這也可以證實(shí)在German數(shù)據(jù)集上,相較于其他處理不平衡數(shù)據(jù)的分類算法,本文模型具有更好的信用風(fēng)險(xiǎn)預(yù)測(cè)效果。
信用風(fēng)險(xiǎn)問(wèn)題一直制約著網(wǎng)貸平臺(tái)的發(fā)展,一個(gè)有效的信用風(fēng)險(xiǎn)預(yù)測(cè)模型是研究的重點(diǎn)。在實(shí)際的研究中數(shù)據(jù)集不平衡問(wèn)題嚴(yán)重影響著模型分類效果,為此本文從數(shù)據(jù)和算法兩個(gè)方面提出改進(jìn)方法。在數(shù)據(jù)方面,通過(guò)BA-SMOTE過(guò)采樣方法平衡數(shù)據(jù)集,考慮了樣本分布差異的影響并改善了樣本邊界模糊的問(wèn)題;在算法方面,利用Focal Loss損失函數(shù)改進(jìn)LightGBM,提出FLLightGBM分類算法。通過(guò)與其他方法的對(duì)比實(shí)驗(yàn),證實(shí)了本文模型在信用風(fēng)險(xiǎn)預(yù)測(cè)中具有更好的預(yù)測(cè)效果。但是本文提出的模型仍然需要進(jìn)一步改進(jìn),在未來(lái)應(yīng)更關(guān)注特征選擇對(duì)結(jié)果的影響,期望進(jìn)一步提高分類效果。
[1] 馬曉君,沙靖嵐,牛雪琪. 基于LightGBM算法的P2P項(xiàng)目信用評(píng)級(jí)模型的設(shè)計(jì)及應(yīng)用[J]. 數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究, 2018, 35(5):144-160.(MA X J, SHA J L, NIU X Q. An empirical study on the credit rating of P2P projects based on LightGBM algorithm[J]. The Journal of Quantitative and Technical Economics, 2018, 35(5): 144-160.)
[2] 謝陳昕. P2P網(wǎng)貸平臺(tái)借款人信用風(fēng)險(xiǎn)評(píng)估模型適應(yīng)性研究[J]. 武漢金融, 2019(3):23-29.(XIE C X. Research on adaptability of credit risk assessment model for borrowers of P2P online lending platform[J]. Wuhan Finance, 2019(3): 23-29.)
[3] COSTA E SILVA E, LOPES I C, CORREIA A, et al. A logistic regression model for consumer default risk[J]. Journal of Applied Statistics, 2020, 47(13/14/15): 2879-2894.
[4] BEKHET H A, ELETTER S F K. Credit risk assessment model for Jordanian commercial banks: neural scoring approach[J]. Review of Development Finance, 2014, 4(1): 20-28.
[5] WANG T, LI J C. An improved support vector machine and its application in P2P lending personal credit scoring[J]. IOP Conference Series: Materials Science and Engineering, 2019, 490(6): No.062041.
[6] 邵良杉,周玉. 一種改進(jìn)過(guò)采樣算法在類別不平衡信用評(píng)分中的應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用研究, 2019, 36(6):1683-1687.(SHAO L S, ZHOU Y. Application of improved oversampling algorithm in class-imbalance credit scoring[J]. Application Research of Computers, 2019, 36(6): 1683-1687.)
[7] GARCíA V, SáNCHEZ J S, MOLLINEDA R A. On the effectiveness of preprocessing methods when dealing with different levels of class imbalance[J]. Knowledge-Based Systems, 2012, 25(1): 13-21.
[8] 陳啟偉,王偉,馬迪,等. 基于Ext-GBDT集成的類別不平衡信用評(píng)分模型[J]. 計(jì)算機(jī)應(yīng)用研究, 2018, 35(2):421-427.(CHEN Q W, WANG W, MA D, et al. Class-imbalance credit scoring using Ext-GBDT ensemble[J]. Application Research of Computers, 2018, 35(2): 421-427.)
[9] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: Synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16: 321-357.
[10] NIU A W, CAI B Q, CAI S S, et al. Big data analytics for complex credit risk assessment of network lending based on SMOTE algorithm[J] Complexity, 2020, 2020: No.8563030.
[11] KHEMAKHEM S, BEN SAID F, BOUJELBENE Y. Credit risk assessment for unbalanced datasets based on data mining, artificial neural network and support vector machines[J]. Journal of Modelling in Management, 2018, 13(4): 932-951.
[12] 王超學(xué),張濤,馬春森. 面向不平衡數(shù)據(jù)集的改進(jìn)型SMOTE算法[J]. 計(jì)算機(jī)科學(xué)與探索, 2014, 8(6):727-734.(WANG C X, ZHANG T, MA C S. Improved SMOTE algorithm for imbalanced datasets[J]. Journal of Frontiers of Computer Science and Technology, 2014, 8(6): 727-734.)
[13] HAN H, WANG W Y, MAO B H. Border-line-SMOTE: a new over-sampling method in imbalanced data sets learning[C]// Proceedings of the 2005 International Conference on Intelligent Computing, LNCS 3644. Berlin: Springer, 2005: 878-887.
[14] NAKAMURA M, KAJIWARA Y, OTSUKA A, et al. LVQ-SMOTE — learning vector quantization based synthetic minority over-sampling technique for biomedical data[J]. BioData Mining, 2013, 6: No.16.
[15] 田臣,周麗娟. 基于帶多數(shù)類權(quán)重的少數(shù)類過(guò)采樣技術(shù)和隨機(jī)森林的信用評(píng)估方法[J]. 計(jì)算機(jī)應(yīng)用, 2019, 39(6):1707-1712.(TIAN C, ZHOU L J. Credit assessment method based on majority weight minority oversampling technique and random forest[J]. Journal of Computer Applications, 2019, 39(6): 1707-1712.)
[16] BARUA S, ISLAM M M, YAO X, et al. MWMOTE — majority weighted minority oversampling technique for imbalanced data set learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(2):405-425.
[17] HE H B, BAI Y, GARCIA E A, et al. ADASYN: adaptive synthetic sampling approach for imbalanced learning[C]// Proceedings of the 2008 IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence). Piscataway: IEEE, 2008: 1322-1328.
[18] 趙楠,張小芳,張利軍. 不平衡數(shù)據(jù)分類研究綜述[J]. 計(jì)算機(jī)科學(xué), 2018, 45(6A):22-27, 57.(ZHAO N, ZHANG X F, ZHANG L J. Overview of imbalanced data classification[J]. Computer Science, 2018, 45(6A):22-27, 57.)
[19] 吳雨茜,王俊麗,楊麗,等. 代價(jià)敏感深度學(xué)習(xí)方法研究綜述[J]. 計(jì)算機(jī)科學(xué), 2019, 46(5):1-12.(WU Y X, WANG J L, YANG L, et al. Survey on cost-sensitive deep learning methods[J]. Computer Science, 2019, 46(5):1-12.)
[20] 陳白強(qiáng),盛靜文,江開(kāi)忠. 基于損失函數(shù)的代價(jià)敏感集成算法[J]. 計(jì)算機(jī)應(yīng)用, 2020, 40(S2):60-65.(CHEN B Q, SHENG J W, JIANG K Z. Cost-sensitive ensemble algorithm based on loss function[J]. Journal of Computer Applications, 2020, 40(S2):60-65.)
[21] 王俊紅,閆家榮. 基于欠采樣和代價(jià)敏感的不平衡數(shù)據(jù)分類算法[J]. 計(jì)算機(jī)應(yīng)用, 2021, 41(1):48-52.(WANG J H, YAN J R. Classification algorithm based on undersampling and cost-sensitiveness for unbalanced data[J]. Journal of Computer Applications, 2021, 41(1):48-52.)
[22] WANG C, DENG C Y, WANG S Z. Imbalance-XGBoost: leveraging weighted and focal losses for binary label-imbalanced classification with XGBoost[J]. Pattern Recognition Letters, 2020, 136: 190-197.
[23] SEIFFERT C, KHOSHGOFTAAR T M, VAN HULSE J, et al. RUSBoost: a hybrid approach to alleviating class imbalance[J]. IEEE Transactions on Systems, Man, and Cybernetics — Part A: Systems and Humans, 2010, 40(1):185-197.
[24] RAYHAN F, AHMED S, MAHBUB A, et al. CUSBoost: cluster-based under-sampling with boosting for imbalanced classification[C]// Proceedings of the 2nd International Conference on Computational Systems and Information Technology for Sustainable Solutions. Piscataway: IEEE, 2017: 1-5.
[25] 王忠震,黃勃,方志軍,等. 改進(jìn)SMOTE的不平衡數(shù)據(jù)集成分類算法[J]. 計(jì)算機(jī)應(yīng)用, 2019, 39(9):2591-2596.(WANG Z Z, HUANG B, FANG Z J, et al. Improved SMOTE unbalanced data integration classification algorithm[J]. Journal of Computer Applications, 2019, 39(9):2591-2596.)
[26] 張德鑫,雒騰,曾志勇. 基于改進(jìn)的SMOTE采樣Catboost分類算法[J]. 信息通信, 2020(1):57-60.(ZHANG D X, LUO T, ZENG Z Y. Catboost classification algorithm based on improved SMOTE sampling[J]. Information & Communications, 2020(1):57-60.)
[27] KE G L, MENG Q, FINLEY T, et al. LightGBM: a highly efficient gradient boosting decision tree[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 3149-3157.
[28] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318-327.
[29] 宋玲玲,王時(shí)繪,楊超,等. 改進(jìn)的XGBoost在不平衡數(shù)據(jù)處理中的應(yīng)用研究[J]. 計(jì)算機(jī)科學(xué), 2020, 47(6):98-103.(SONG L L, WANG S H, YANG C, et al. Application research of improved XGBoost in unbalanced data processing[J]. Computer Science, 2020, 47(6):98-103.)
[30] 姚登舉,楊靜,詹曉娟. 基于隨機(jī)森林的特征選擇算法[J]. 吉林大學(xué)學(xué)報(bào)(工學(xué)版), 2014, 44(1):137-141.(YAO D J, YANG J, ZHAN X J. Feature selection algorithm based on random forest[J]. Journal of Jilin University (Engineering and Technology Edition), 2014, 44(1): 137-141.)
CHEN Hailong, born in 1975, Ph. D., professor. His research interests include recommendation algorithm, distributed artificial intelligence.
YANG Chang,born in 1997, M. S. candidate. Her research interests include machine learning.
DU Mei,born in 1996, M. S. candidate. Her research interests include machine learning.
ZHANG Yingyu, born in 1996, M. S. candidate. Her research interests include machine learning.
Credit risk prediction model based on borderline adaptive SMOTE and Focal Loss improved LightGBM
CHEN Hailong*, YANG Chang, DU Mei, ZHANG Yingyu
(,,150080,)
Aiming at the problem that the imbalance of datasets in credit risk assessment affects the prediction effect of the model, a credit risk prediction model based on Borderline Adaptive Synthetic Minority Oversampling TEchnique (BA-SMOTE) and Focal Loss-Light Gradient Boosting Machine (FLLightGBM) was proposed. Firstly, on the basis of Borderline Synthetic Minority Oversampling TEchnique (Borderline-SMOTE), the adaptive idea and new interpolation method were introduced, so that different numbers of new samples were generated for each minority sample at the border, and the positions of the new samples were closer to the original minority sample, thereby balancing the dataset. Secondly, the Focal Loss function was used to improve the loss function of LightGBM (Light Gradient Boosting Machine) algorithm, and the improved algorithm was used to train a new dataset to obtain the final BA-SMOTE-FLLightGBM model constructed by BA-SMOTE method and FLLightGBM algorithm. Finally, on Lending Club dataset, the credit risk prediction was performed. Experimental results show that compared with other imbalanced classification algorithms RUSBoost (Random Under-Sampling with adaBoost), CUSBoost (Cluster-based Under-Sampling with adaBoost), KSMOTE-AdaBoost (-means clustering SMOTE with AdaBoost), and AK-SMOTE-Catboost (AllKnn-SMOTE-Catboost), the constructed model has a significant improvement on two evaluation indicators G-mean and AUC (Area Under Curve) with 9.0%-31.3% and 5.0%-14.1% respectively. The above results verify that the proposed model has a better default prediction effect in credit risk assessment.
credit risk; imbalanced data; oversampling; LightGBM (Light Gradient Boosting Machine); Focal Loss
This work is partially supported by National Natural Science Foundation of China (61772160), Special Research Program of Scientific and Technological Innovation for Young Scientists of Harbin (2017RAQXJ045).
TP391.9
A
1001-9081(2022)07-2256-09
10.11772/j.issn.1001-9081.2021050810
2021?05?18;
2021?09?29;
2021?10?12。
國(guó)家自然科學(xué)基金資助項(xiàng)目(61772160);哈爾濱市科技創(chuàng)新人才研究專項(xiàng)(2017RAQXJ045)。
陳海龍(1975—),男,黑龍江寧安人,教授,博士,CCF會(huì)員,主要研究方向:推薦算法、分布式人工智能; 楊暢(1997—),女,黑龍江綏化人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí); 杜梅(1996—),女,山東濟(jì)南人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí); 張穎宇(1996—),女,河北唐山人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)。