衣柏衡,朱建軍,李 杰
(南京航空航天大學(xué)經(jīng)濟與管理學(xué)院,江蘇 南京 211106)
?
基于改進SMOTE的小額貸款公司客戶信用風(fēng)險非均衡SVM分類
衣柏衡,朱建軍,李 杰
(南京航空航天大學(xué)經(jīng)濟與管理學(xué)院,江蘇 南京 211106)
研究了小額貸款公司對客戶進行信用風(fēng)險評估時面臨的問題,構(gòu)建了信用風(fēng)險評估指標(biāo)體系,改進了支持向量機(Support Vector Machine, SVM)對非均衡樣本分類時分類超平面偏移的不足。首先分析小額貸款公司業(yè)務(wù)區(qū)域性強、信用數(shù)據(jù)來源不規(guī)范、評價標(biāo)準(zhǔn)不一致等特點,給出用于客戶信用風(fēng)險評估的四個維度指標(biāo)。針對傳統(tǒng)SMOTE算法在處理非均衡數(shù)據(jù)時對全部少數(shù)類樣本操作的問題,提出僅對錯分樣本人工合成的改進思想,給出具體算法步驟。將改進算法用于某小額貸款公司客戶信用風(fēng)險評估案例中,分類精確度較其他算法有所提升,表明該方法的可行性和有效性。
小額貸款;信用風(fēng)險;支持向量機;非均衡數(shù)據(jù);SMOTE
小額貸款公司作為新興的民間金融服務(wù)機構(gòu),在一定程度上解決了小微企業(yè)和低收入人群融資難問題,同時對“地下錢莊”這類非法借貸活動起到抑制作用[1-2]。相比于城市金融市場,國有銀行、大型商業(yè)銀行、農(nóng)村合作信用社在農(nóng)村和欠發(fā)達(dá)地區(qū)貸款業(yè)務(wù)的普及和推廣仍有諸多障礙和滯后,而民營小額貸款公司的出現(xiàn),與前者一同構(gòu)成較為完善的金融體系層次,彌補了政策限制、信貸配給不平衡、管理成本高等缺點和不足,是促進社會金融組織體系多樣化、健康化發(fā)展的有益嘗試[3]。然而,小額貸款公司面臨的信用風(fēng)險有其行業(yè)特殊性[4]。除去企業(yè)本身的財務(wù)杠桿比率、短期債務(wù)比率、流動資金等因素,客戶質(zhì)量和其違約情況是小額貸款公司的主要風(fēng)險來源[5]。目前,小額貸款公司用于風(fēng)險評估的數(shù)據(jù)主觀性較大,通常是審核人員與借款人面對面交流,加上從其他渠道側(cè)面獲得的借款人信息來綜合評估風(fēng)險,這些數(shù)據(jù)可能出現(xiàn)造假或辨識度不高的問題。最重要的是,在進行信用風(fēng)險評估的過程中,經(jīng)常面臨評價標(biāo)準(zhǔn)不一致,輸入數(shù)據(jù)維度高、復(fù)雜度高這類問題,傳統(tǒng)的決策方法不足以抓住導(dǎo)致違約的關(guān)鍵因素,不能合理將評價指標(biāo)組合并做出判斷。此時,小額貸款公司需要使用新的評價模型和方法,針對性解決上述信用風(fēng)險評估中的問題[6]。
許多學(xué)者在信用風(fēng)險評估問題上做了大量工作并應(yīng)用到不同的領(lǐng)域。張大斌等[7]建立了信用風(fēng)險評價的差分進化自動聚類模型,并將其應(yīng)用到我國上市公司信用風(fēng)險評價中。陳庭強等[8]從信用風(fēng)險持有者的心理和行為角度對信用風(fēng)險傳染過程進行了分析,通過引入信用風(fēng)險傳染的主體行為因素,建立了信用風(fēng)險傳染的網(wǎng)絡(luò)模型。Moges等[9]從數(shù)據(jù)質(zhì)量角度出發(fā),通過對世界范圍內(nèi)的金融機構(gòu)進行問卷調(diào)查,給出了數(shù)據(jù)質(zhì)量的定義、測度,并結(jié)合信用風(fēng)險數(shù)據(jù)庫分析了評價數(shù)據(jù)質(zhì)量的關(guān)鍵指標(biāo)。在個人信貸風(fēng)險評估方面,Verbraken等[10]提出基于期望利潤最大化(Expected Maximum Profit, EMP)思想,在預(yù)期損失和收益間進行權(quán)衡,進而給出允許向客戶放貸的閾值。Li Yongbin等[11]提出基于猶豫三角模糊數(shù)的多屬性決策模型,并用于商業(yè)銀行個人信用風(fēng)險評估案例。Zhang Zhiwang等[12]提出融合核函數(shù)、模糊隸屬度和罰函數(shù)的多準(zhǔn)則優(yōu)化分類器,以解決個人信用風(fēng)險評估中非線性和不確定性等問題。
計算科學(xué)和機器學(xué)習(xí)的快速發(fā)展,催生了一批新的智能數(shù)據(jù)挖掘方法,其中基于結(jié)構(gòu)風(fēng)險最小化的SVM克服了傳統(tǒng)分類器局部最優(yōu)解、過擬合、維數(shù)災(zāi)難等缺點[13]。Harris[14]提出聚類SVM來降低傳統(tǒng)方法處理高維信用數(shù)據(jù)的計算復(fù)雜度。然而在信用風(fēng)險評估問題中,數(shù)據(jù)不均衡是影響SVM分類精度最主要的原因,分類超平面偏移現(xiàn)象嚴(yán)重[15]。為此,Bagging、boosting、SMOTE和一些組合算法被相繼提出,來解決分類問題中的數(shù)據(jù)不均衡問題[16]。Chawla等[17]提出的SMOTE借助少數(shù)類樣本及其鄰域樣本生成新數(shù)據(jù),抗噪性能較好。但通常SMOTE與SVM結(jié)合是對全部少數(shù)類樣本進行操作,而只有分類面附近的少量樣本會影響最終結(jié)果[18]。文傳軍等[19]從SVM求解過程出發(fā),對上述問題進行了分析。章少平等[20]提出采用KSMOTE對非平衡數(shù)據(jù)處理并用Bootstrap抽樣來生成基SVM分類器,再通過投票機制得出最終結(jié)果。
總體來看,現(xiàn)有文獻大多融合SMOTE與其他算法來解決非均衡分類問題,而較少從SVM角度分析SMOTE所合成樣本對其分類面的影響。基于此,本文提出一種改進的SMOTE思想,對SMOTE算法進行迭代,且僅選擇上一次迭代中被錯分的樣本作為下一次迭代的起始樣本,直到少數(shù)類和多數(shù)類樣本數(shù)量均衡或不再有少數(shù)類樣本被錯分,算法停止。在實證分析中,本文對小額貸款公司客戶信用風(fēng)險評估的各項指標(biāo)加以分析,構(gòu)建了4個維度16個指標(biāo)的評價體系,并將本文模型應(yīng)用到具有高不均衡率的真實借貸數(shù)據(jù)中,算法精度有所提高,違約樣本能被較好識別。
為保證敘述的完整性,本節(jié)首先簡要介紹支持向量機理論,具體可參閱文獻[21];結(jié)合小額貸款公司客戶信用風(fēng)險評估的特點,分析支持向量機在處理非均衡數(shù)據(jù)分類問題中的缺陷;最后提出改進SMOTE的SVM分類算法,并給出具體算法流程。
2.1 現(xiàn)有方法及問題分析
給定訓(xùn)練集T={(x1,y1),(x2,y2),…,(xl,yl)}∈(n×)l,其中每個樣本點(xi,yi)中xi∈n是包含n維屬性的向量,yi={+1,-1}是對應(yīng)的類別標(biāo)簽。支持向量機試圖尋找n空間上的一個使分類邊界最小的實數(shù)函數(shù)g(x)=(wT·x+b),以便用決策函數(shù)f(x)=sgn(g(x))推斷任意新輸入x對應(yīng)的分類類別y。對于線性分類問題,求解最優(yōu)分類超平面可表示為求解下列二次規(guī)劃:
(1)
其中C>0為罰函數(shù),ξi為允許數(shù)據(jù)點xi偏離的松弛變量。
為方便求解,構(gòu)造拉格朗日函數(shù):
(2)
對L關(guān)于w,b,ξ求極小,并將結(jié)果帶回(2),可得到原問題(1)的對偶問題:
(3)
求解對偶問題(3)得到αi,進而推倒出w和b。
傳統(tǒng)SVM分類算法大都基于數(shù)據(jù)集中正負(fù)類樣本數(shù)量大致相同的假設(shè),然而這一假設(shè)在很多現(xiàn)實應(yīng)用領(lǐng)域并不成立。在信用風(fēng)險評估中,無違約記錄通常占絕大多數(shù),只有極個別的用戶出現(xiàn)違約。作為小額貸款公司,并不會過多關(guān)注無違約記錄,相反希望能夠準(zhǔn)確識別出可能存在違約風(fēng)險的客戶,甚至在很多時候為了控制風(fēng)險,寧愿將處于無違約風(fēng)險邊緣的客戶劃為違約風(fēng)險客戶。而傳統(tǒng)SVM在處理非均衡數(shù)據(jù)分類問題,分類平面會向少數(shù)類偏移,即將更多的少數(shù)類樣本錯分為多數(shù)類,這樣勢必會增大小額貸款公司的放貸風(fēng)險。
為方便說明問題,用matlab隨機生成兩類高斯樣本,樣本數(shù)分別為20個和200個,不均衡比例為10。一類樣本中心為(1.5,1.5),另一類樣本中心為(2.5,2.5),兩類樣本的方差均為0.5。用傳統(tǒng)SVM進行分類,選用線性核函數(shù),罰函數(shù)C取2,分類結(jié)果如圖1所示:
圖1 傳統(tǒng)SVM在非均衡數(shù)據(jù)中的分類效果
從圖 1可明顯看出,SVM的分類邊界向少數(shù)類方向偏移,部分少數(shù)類樣本被分類成多數(shù)類。這是由于傳統(tǒng)SVM對兩個類別的樣本采用了相同的罰函數(shù)C,為了使SVM的目標(biāo)函數(shù)最小化,分類平面需向密度較小的少數(shù)類樣本移動以換取對多數(shù)類樣本更少的錯分懲罰。因此,為了提高少數(shù)類樣本的識別精度,必須解決SVM算法在處理非均衡數(shù)據(jù)下的分類面偏移問題。
SMOTE算法由Chawla等人在2002年提出,通過人工合成少數(shù)類樣本以達(dá)到與多數(shù)類樣本的均衡。具體操作如下:首先找到少數(shù)類樣本xi的k個鄰近同類樣本,在這k個樣本中隨機選取一個xj,通過下列公式合成新的樣本:
xnew=xi+rand(0,1)×(xi-xj)
(4)
利用SMOTE算法生成新樣本后,再對上述例子進行分類,結(jié)果如圖2所示。相比圖1,分類平面明顯向多數(shù)類發(fā)生了偏移,但仍有部分原始少數(shù)類樣本被錯分為多數(shù)類。不難發(fā)現(xiàn),SMOTE在原始數(shù)據(jù)包絡(luò)里隨機生成新樣本,而影響SVM分類結(jié)果的只有分界面附近的樣本,所以傳統(tǒng)SMOTE算法生成的部分樣本是沒有實際意義的,因此需要對此加以改進。
圖2 SMOTE-SVM在非均衡數(shù)據(jù)中的分類效果
2.2 基于改進SMOTE的非均衡數(shù)據(jù)SVM分類算法
針對上文涉及的問題,本節(jié)提出一種改進SMOTE的非均衡數(shù)據(jù)SVM分類算法。區(qū)別于傳統(tǒng)SMOTE算法在所有少數(shù)類樣本中隨機生成新樣本,本文算法關(guān)注影響分類面位置的錯分樣本,根據(jù)錯分樣本人工合成新樣本,來提高這些關(guān)鍵樣本在分類過程中的重要程度,具體算法設(shè)計如下:
1)設(shè)原始數(shù)據(jù)T={(x1,y1),(x2,y2),…,(xl,yl)}∈(n×)l中少數(shù)類為正類P,多數(shù)類為負(fù)類N,樣本數(shù)量分別為nP和nN。
2)用原始SVM模型對T進行分類,并用原始數(shù)據(jù)T對模型進行驗證,找出所有錯分的少數(shù)類樣本,生成集合P_mis。
3)判斷P_mis是否為空集,若是,結(jié)束算法;若不是,令新集合S=T,進入下一步。
4)用SMOTE算法對P_mis中的所有樣本人工合成一次,合成的新樣本加入到集合S中。
5)用原始SVM模型對S進行分類,并用原始數(shù)據(jù)T對模型進行驗證,找出所有錯分的少數(shù)類樣本,更新集合P_mis。
6)重復(fù)步驟4和步驟5,直到集合S中原始少數(shù)類樣本數(shù)nP與合成樣本數(shù)之和大于等于多數(shù)類樣本數(shù)nN,算法終止。
利用本文算法對上文中的例子進行分類,結(jié)果如圖3所示,分類平面繼續(xù)向多數(shù)類移動,對少數(shù)類樣本基本達(dá)到100%的識別精度,由此證明本文方法可以很好解決傳統(tǒng)SVM和SMOTE算法的各自問題。
圖3 本文方法在非均衡數(shù)據(jù)中的分類效果
3.1 數(shù)據(jù)來源
為驗證改進SMOTE的非均衡數(shù)據(jù)SVM分類算法在小額貸款公司客戶信用風(fēng)險評估中的效果,本文從某小額貸款公司采集393條借款記錄作為實驗原始數(shù)據(jù),借款日期從2009年11月到2013年5月。這一區(qū)域中小企業(yè)和低收入人群占比較大,因此研究這一區(qū)域的小額貸款公司數(shù)據(jù),能更加真實的反映出小額貸款行業(yè)面臨的問題和風(fēng)險。在數(shù)據(jù)集中,無違約記錄369條,違約記錄24條,不均衡比例為15.38,因此需要使用針對非均衡數(shù)據(jù)的分類方法進行風(fēng)險評估。
3.2 信用風(fēng)險評估指標(biāo)構(gòu)建
在信用風(fēng)險評估中,指標(biāo)的選取起到了關(guān)鍵作用。在小額貸款行業(yè)特征和公司實際運營基礎(chǔ)上,要求審核人員充分挖掘借款人的經(jīng)濟、社會、信用等各方面信息,以確保規(guī)避風(fēng)險的前提下為公司贏得最大收益。從國內(nèi)外的文獻研究來看,借款客戶的信用風(fēng)險評估指標(biāo)體系主要集中在個人信息、信用信息、借款信息和擔(dān)保信息四個維度,數(shù)據(jù)類型大多是數(shù)值型和類別型。
在四個維度中,個人信息包括年齡、性別、婚姻和文化程度四個指標(biāo),由于小額貸款公司的服務(wù)對象多為務(wù)農(nóng)人員、個體工商戶這類低文化水平客戶,因此在對文化程度分類時按照小學(xué)、初中、高中、大專和本科及以上五個等級較為合適。信用信息則涵蓋借款人在正規(guī)金融機構(gòu)的歷史信用記錄、名下是否擁有住房、是否為本公司的歷史借款客戶、現(xiàn)有業(yè)務(wù)從業(yè)年限,這四個二級指標(biāo)能反應(yīng)出客戶生活、工作、經(jīng)濟情況是否穩(wěn)定,也是是否構(gòu)成違約潛在風(fēng)險的主要因素。另一方面,大額高息借款用于長時間的房地產(chǎn)開發(fā),風(fēng)險可能會大于小額低息借款用于短期家庭裝修,因此從借款本身考慮,借款金額、用途、期限以及借款利息率作為風(fēng)險評估的指標(biāo)較為合適。最后,一旦客戶出現(xiàn)違約,其抵押擔(dān)??蓻_抵部分違約損失,使小額貸款公司風(fēng)險有效降低,其中是否有擔(dān)保、是否有抵押品、抵押方式和抵押品是否足值四個較易獲得數(shù)據(jù)被納入信用風(fēng)險評估的指標(biāo)當(dāng)中。由此,將小額貸款公司客戶信用風(fēng)險評估的指標(biāo)在表1中列出。
3.3 精確度測量標(biāo)準(zhǔn)
對于均衡數(shù)據(jù)集,通常采用整體分類誤差作為模型性能的評估指標(biāo),但對于非均衡數(shù)據(jù)集,整體誤差難以反應(yīng)分類器在少數(shù)類樣本中的表現(xiàn)。舉例說明,若訓(xùn)練集包括95%的多數(shù)類樣本和5%的少數(shù)類樣本,即使全部少數(shù)類樣本被錯分為多數(shù)類,整體的分類精度仍然在95%,而少數(shù)類的分類精度為0。為此,在非均衡數(shù)據(jù)實驗中,許多學(xué)者提出使用G-mean和F-measure來評價分類器的性能。定義非均衡數(shù)據(jù)集中少數(shù)類為正類P,多數(shù)類為負(fù)類N;FN表示將正類錯分成負(fù)類的樣本數(shù),F(xiàn)P表示將負(fù)類錯分為正類的樣本數(shù),TN和TP分別表示負(fù)類和正類被正確分類的樣本數(shù)。由此可以得到:
少數(shù)類樣本查全率:
TPR=TP/(TP+FN)
(5)
多數(shù)類樣本查全率:
TNR=TN/(TN+FP)
(6)
少數(shù)類樣本查準(zhǔn)率:
Precision=TP/(TP+FP)
(7)
綜合G-mean:
(8)
少數(shù)類樣本F-measure:
(9)
表1 小額貸款公司借款人信息
G-mean考慮了兩類樣本的分類性能,只有分類平面不發(fā)生偏移,兩類樣本都有較大的查全率時,G值才會較大。F-measure考慮了少數(shù)類的查全率和查準(zhǔn)率,任何一個值的變化都能影響F的大小,因此能全面反映分類器對少數(shù)類樣本的分類性能。
表2 SVM、SMOTE-SVM與本文方法的比較
3.4 結(jié)果及分析
本文采用LibSVM工具箱[22]在小額貸款公司客戶信貸數(shù)據(jù)上進行實驗,對比傳統(tǒng)SVM和對全體少數(shù)類人工合成的SMOTE-SVM兩種模型,驗證本文方法的有效性。實驗采用RBF核函數(shù),罰函數(shù)C取10,gamma取1,由于SMOTE生成新數(shù)據(jù)的隨機性,SMOTE-SVM和本文方法分別進行10次后取平均值,傳統(tǒng)SVM不涉及生成樣本,只需進行1次實驗。由于個人信貸數(shù)據(jù)包含不同類別、不同范圍的數(shù)據(jù),因此首先需要對原始數(shù)據(jù)進行預(yù)處理,利用公式(10)將原始數(shù)據(jù)進行歸一化,然后利用三種模型進行學(xué)習(xí),最后用G-mean和F-measure衡量各方法的分類精確度,結(jié)果如表2所示。
(10)
其中k=1,2,…,n,i=1,2,…,l,xi(k)表示第i個借款人的第k個指標(biāo)。
從三種方法的比較結(jié)果可以看出,由于未考慮非均衡樣本的問題,傳統(tǒng)SVM在三者中表現(xiàn)最差,G-mean和F-measure分別只有84.16%和82.93%。使用SMOTE算法生成新樣本后,多數(shù)類和少數(shù)類樣本達(dá)到一致,分類精度有了明顯提升,G-mean和F-measure分別達(dá)到98.52%和83.57%。本文方法同時考慮了SVM和SMOTE-SVM方法的不足,對關(guān)鍵樣本進行人工合成,實驗精度有了進一步提升。其中,本文方法G-mean的最小值與SMOTE-SVM方法G-mean的最大值相同,而本文方法F-measure全部結(jié)果均大于SMOTE-SVM中的結(jié)果,充分說明本文方法在處理小額貸款公司客戶信用風(fēng)險評估案例中的有效性,數(shù)據(jù)非均衡情況得到了良好改善,即更多具有潛在違約風(fēng)險的借款人被識別出來,小額貸款公司所面臨的借款人違約風(fēng)險大幅降低。
本文以某小額貸款公司為例,分析了在對客戶放貸前信用風(fēng)險評估過程中涉及的諸多因素,制訂了個人信息、信用信息、借款信息和擔(dān)保信息四個維度下的評價指標(biāo)體系。通過對傳統(tǒng)SVM分類器的研究,指出其在處理非均衡數(shù)據(jù)時分類平面向少數(shù)類偏移的現(xiàn)象,同時說明在使用傳統(tǒng)SMOTE算法對全體少數(shù)類樣本進行人工合成時,沒有考慮不同樣本對分類平面具有不同的重要性。因此,提出一種改進SMOTE的SVM分類算法,考慮可以改變分類平面位置的錯分樣本,通過對這些樣本使用SMOTE人工合成新樣本,不僅使多數(shù)類和少數(shù)類樣本數(shù)量得到均衡,而且讓存在違約風(fēng)險的少數(shù)類樣本被反復(fù)學(xué)習(xí),從而更好的識別不良借款人以降低小額貸款公司的借貸風(fēng)險。本文方法在人造數(shù)據(jù)集和真實信用數(shù)據(jù)集的實驗中均表現(xiàn)出較高的分類精度,優(yōu)于傳統(tǒng)SVM和SMOTE-SVM方法,說明本文方法具有較強的實用性。后續(xù)工作可在人工合成樣本的同時,考慮噪聲和野值點的影響,使非均衡數(shù)據(jù)的人工合成更為精確、合理。
[1] Armendariz B, Morduch J.The economics of microfinance[M]. 2nd, Cambridge, MA: MIT Press, 2010.
[2] 鄭毓盛, 于點默. 小額貸款的理論、實踐和危機[J]. 中國農(nóng)村經(jīng)濟, 2013, (8): 88-95.
[3] Banerjee A, Chandrasekhar A G, Duflo E, et al. The diffusion of microfinance[J]. Science, 2013,341(6144).
[4] 龐素琳. 基于貸款風(fēng)險損失比的農(nóng)戶信貸模型與應(yīng)用[J]. 管理科學(xué)學(xué)報, 2012, 15(11): 11-22.
[5] Yang Jian, Zhou Yinggang. Credit risk spillovers among financial institutions around the global credit crisis: Firm-level evidence[J]. Management Science, 2013, 59(10): 2343-2359.
[6] Kruppa J, Schwarz A, Arminger G, et al. Consumer credit risk: Individual probability estimates using machine learning[J]. Expert Systems with Applications, 2013, 40(13):5125-5131.
[7] 張大斌, 周志剛, 許職, 等. 基于差分進化自動聚類的信用風(fēng)險評價模型研究[J]. 中國管理科學(xué), 2015, 23(4): 39-45.
[8] 陳庭強, 何建敏. 基于復(fù)雜網(wǎng)絡(luò)的信用風(fēng)險傳染模型研究[J]. 中國管理科學(xué), 2014, 22(11): 1-10.
[9] Moges H T, Dejaeger K, Lemahieu W, et al. A multidimensional analysis of data quality for credit risk management: New insights and challenges[J]. Information & Management, 2013, 50(1):43-58.
[10] Verbraken T, Bravo C, Weber R, et al. Development and application of consumer credit scoring models using profit-based classification measures[J]. European Journal of Operational Research, 2014, 238(2):505-513.
[11] Li Yongbin, Zhang Jianping. Approach to multiple attribute decision making with hesitant triangular fuzzy information and their application to customer credit risk assessment[J]. Journal of Intelligent & Fuzzy Systems, 2014, 26(6): 2853-2860.
[12] Zhang Zhiwang, Gao Guangxia, Shi Yong. Credit risk evaluation using multi-criteria optimization classifier with kernel, fuzzification and penalty factors[J]. European Journal of Operational Research, 2014, 237(1):335-348.
[13] Marqués A I, García V, Sánchez J S. A literature review on the application of evolutionary computing to credit scoring[J]. Journal of the Operational Research Society, 2013, 64(9):1384-1399.
[14] Harris T. Credit scoring using the clustered support vector machine[J]. Expert Systems with Applications, 2015, 42(2):741-750.
[15] Sun Zhongbin, Song Qinbao, Zhu Xiaoyan, et al. A novel ensemble method for classifying imbalanced data[J]. Pattern Recognition, 2015, 48(5): 1623-1637.
[16] Li Qiujie, Mao Yaobin.A review of boosting methods for imbalanced data classification[J]. Pattern Analysis and Applications, 2014, 17(4): 679-693.
[17] Chawla N V, Bowyer K W, Kegelmeyer W P. SMOTE: Synthetic Minority Over-sampling Technique[J]. Journal of Artificial Intelligence Research, 2002,16: 321-357.
[18] 陶新民, 郝思媛, 張冬雪,等. 基于樣本特性欠取樣的不均衡支持向量機[J]. 控制與決策, 2013, 28(7): 978-984.
[19] 文傳軍, 詹永照. 基于自調(diào)節(jié)分類面SVM的平衡不平衡數(shù)據(jù)分類[J]. 系統(tǒng)工程, 2009, 27(3): 110-114.
[20] 章少平, 梁雪春. 優(yōu)化的支持向量機集成分類器在非平衡數(shù)據(jù)集分類中的應(yīng)用[J]. 計算機應(yīng)用, 2015, 35(5): 1306-1309.
[21] 鄧乃楊, 田英杰. 支持向量機——理論、方法與拓展[M]. 北京: 科學(xué)出版社, 2009.
[22] Chang C C, Lin C J. LIBSVM: A library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011,2(3):1-27.
Imbalanced Data Classification on Micro-Credit Company Customer Credit Risk Assessment Using Improved SMOTE Support Vector Machine
YI Bai-heng, ZHU Jian-jun, LI Jie
(School of Economics and Management, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China)
A great number of machine learning methods have been successfully applied for customer credit risk assessment cases, and support vector machine (SVM) is considered as an “off-the-shelf” supervised learning algorithm to solve classification problem by many researchers. Unfortunately, SVM fails to provide excellent enough classification performance when the data set is imbalanced, i.e., the accuracy of the majority class is usually much higher than that of the minority class due to the shifting of the hyper-plane. In most cases, people pay more attention on the minority class such as fault diagnosis and credit default. Thus, a Synthetic Minority Over-sampling Technique (SMOTE) is presented to deal with the imbalanced classification by generating new samples in the whole minority class. However, in the process of solving SVM by Sequential Minimal Optimization (SMO) algorithm, only those support vector samples xiwith the corresponding αi>0 can affect the position of the hyper-plane while the samples far from the hyper-plane have no influence on the final result. It is obvious that the classic SMOTE algorithm can generate more redundant samples which are far from the hyper-plane. In this article, an improved method for classic SMOTE algorithm is proposed that SMOTE is looped and only misclassified samples in the previous loop are selected to be processed in the next loop until the minority class outnumbers the majority class or all minority class samples are correctly classified. In the empirical study, a data set granted by a micro-credit company in Jiangsu Province is studied. The data set originates from a company that provides loans to local individuals and enterprises for the house condition improving, farm production expanding, business operating and so on. The customers’ information are analyzed according to the characteristics of micro-loan industry, and a credit risk assessment index system is suggested from four aspects with sixteen attributes in this paper. G-mean and F-measure score are used to evaluate the classification performance of the minority class, which is the accuracy of detecting default customers in this case. The results show high prediction accuracy of default customers, indicating the effectiveness of our method on credit risk assessment.
micro-credit; credit risk; support vector machine; imbalanced data; SMOTE
1003-207(2016)03-0024-07
10.16381/j.cnki.issn1003-207x.2016.03.004
2015-05-30;
2015-10-09
國家社會科學(xué)基金重點項目(14AZD049);國家自然科學(xué)基金資助項目(71171112,71401064);中央高?;究蒲袠I(yè)務(wù)費專項資金資助(NS2014086);廣義虛擬經(jīng)濟研究專項(GX2013-1017 (M))
簡介:衣柏衡(1990-),男(漢族),天津人,南京航空航天大學(xué)經(jīng)濟與管理學(xué)院碩士研究生,研究方向:數(shù)據(jù)挖掘、系統(tǒng)分析與決策,E-mail: ysb900818@126.com.
F830.5;TP391
A