(上海對(duì)外經(jīng)貿(mào)大學(xué),上海 201620)
在數(shù)據(jù)挖掘中決策樹(shù)方法[1]是一個(gè)有效并且常用的方法。它的目標(biāo)是創(chuàng)建一個(gè)模型來(lái)預(yù)測(cè)樣本的目標(biāo)值。這種決策樹(shù)的自頂向下歸納是貪心算法[2]一種,也是目前為止最為常用的一種訓(xùn)練方法,與相對(duì)其他的訓(xùn)練方法相比,決策樹(shù)最大的特點(diǎn)是符合人類(lèi)的直覺(jué),根據(jù)某些條件進(jìn)行分類(lèi),具有很強(qiáng)的解釋性,有利于分析影響因素,[3]可使用決策樹(shù)方法分析影響違約風(fēng)險(xiǎn)因素。
隨機(jī)森林是一個(gè)包含多個(gè)決策樹(shù)的分類(lèi)器,并且其輸出的類(lèi)別是由個(gè)別樹(shù)輸出的類(lèi)別眾數(shù)而定。隨機(jī)森林的引入最初是由Leo Breiman[4]在一篇論文中提出的。這篇文章描述了一種結(jié)合隨機(jī)節(jié)點(diǎn)優(yōu)化和Bagging,利用了C&RT[5]過(guò)程構(gòu)建不相關(guān)樹(shù)的森林的方法。梯度提升是一種用于回歸和分類(lèi)問(wèn)題的機(jī)器學(xué)習(xí)技術(shù),其產(chǎn)生的預(yù)測(cè)模型是弱預(yù)測(cè)模型的集成,如采用典型的決策樹(shù)作為弱預(yù)測(cè)模型,這時(shí)則為梯度提升樹(shù)(GBDT)。梯度提升的思想源自Leo Breiman[6]的一個(gè)觀察:可以將提升方法解釋為針對(duì)適當(dāng)成本函數(shù)的優(yōu)化算法。也就是通過(guò)不斷的弱分類(lèi)模型集成最終得到一個(gè)強(qiáng)分類(lèi)器。
本文第一部分概述,第二部分介紹C&RT 決策樹(shù)、隨機(jī)森林、梯度增強(qiáng)樹(shù)的基本理論,第三部分進(jìn)行數(shù)據(jù)預(yù)處理,第四部分進(jìn)行數(shù)值實(shí)驗(yàn),第五部分結(jié)論。
在本篇文章中我們從最基本的決策樹(shù)模型開(kāi)始,延伸到隨機(jī)森林、梯度提升樹(shù),介紹這些模型的基本概念、核心思想、以及三者之間的對(duì)比差異,接下來(lái)再對(duì)三個(gè)模型進(jìn)行數(shù)據(jù)實(shí)驗(yàn),分析不同效果。
決策樹(shù)是一個(gè)傳統(tǒng)的根據(jù)條件聚集的學(xué)習(xí)模型,在這里我們主要分析Classification and Regression Tree(C&RT)。那么我們的決策樹(shù)模型可以表示為:
其中,c 為每一個(gè)分支,G(x)為全體樹(shù),b(x)為分枝規(guī)則,為在c 分枝時(shí)的子樹(shù)。我們主要從三個(gè)角度來(lái)討論C&RT。
(1)分枝的數(shù)量:由于是C&RT 樹(shù),那么我們假設(shè)每個(gè)節(jié)點(diǎn)都有且只有兩個(gè)子節(jié)點(diǎn)。
(2)分枝規(guī)則:
其中h(x)是分枝函數(shù),分為左枝(c=1)和右(c=2)枝。上式第一項(xiàng)表示左(右)枝的數(shù)據(jù)集大小,第二項(xiàng)表示左(右)枝的純度大小。對(duì)于二分類(lèi)決策樹(shù)來(lái)說(shuō),我們的純度用基尼指數(shù)來(lái)衡量
(3)分枝終止條件:所有的y 都一樣,也就是純度等于0。所有的x 都一樣,則無(wú)法分為左右枝。
依據(jù)以上的三個(gè)條件,我們可以建立算法表示C&RT 決策樹(shù)模型。
從決策樹(shù)的推導(dǎo)過(guò)程中發(fā)現(xiàn),決策樹(shù)容易重現(xiàn)過(guò)擬合現(xiàn)象,也就是說(shuō)當(dāng)我們的測(cè)試集合不一樣時(shí),預(yù)測(cè)的方差比較大,為了降低這個(gè)方差,我們引入隨機(jī)森林[8]。首先在這里引入Bootstrap[9]:采用重復(fù)抽樣方法從初始樣本中抽取一定數(shù)量的樣本,此過(guò)程允許重復(fù)抽樣。應(yīng)用這個(gè)方法我們可以估計(jì)到很多不同的目標(biāo)函數(shù),然后再來(lái)求這些目標(biāo)函數(shù)的均值即得到最終的目標(biāo)函數(shù)。我們將C&RT 與Bootstrap結(jié)合起來(lái),也就是說(shuō)我們有以下過(guò)程:
(3)返回第一步,并且重復(fù)N 次;
在實(shí)驗(yàn)的時(shí)候,我們可以控制N 的大小,進(jìn)而控制模型的擬合度。
首先梯度提升樹(shù)是自適應(yīng)增強(qiáng)Adaboost 和C&RT 的結(jié)合。那么我們先來(lái)介紹AdaBoost。AdaBoost 方法[10]是一種迭代算法,它通過(guò)輸入不同弱分類(lèi)器,不斷的調(diào)整樣本匹配權(quán)重,得到新的弱分類(lèi)器,最后將所有分類(lèi)器疊加[11],那么Adaboost 可以轉(zhuǎn)化為下面這個(gè)優(yōu)化問(wèn)題:
其中h(x)是第t 次擬合數(shù)據(jù)最佳的梯度變化量,也就是先求出第t 次的gt,然后再求其對(duì)應(yīng)的最佳,最后我們求得的目標(biāo)函數(shù)是,對(duì)應(yīng)的GBDT可以轉(zhuǎn)化為下面的優(yōu)化問(wèn)題:
在這一部分我們首先對(duì)數(shù)據(jù)作簡(jiǎn)單的介紹,用python對(duì)數(shù)據(jù)做缺失值處理,為了從特征中提取更多的信息,必須對(duì)特征進(jìn)行特定屬性處理。針對(duì)本文章的數(shù)據(jù)特點(diǎn),出現(xiàn)了類(lèi)別不平衡的問(wèn)題,下面我們給出具體的解決辦法。
數(shù)據(jù)來(lái)源于全國(guó)部分中小企業(yè)的政府登記數(shù)據(jù),樣本數(shù)量為14366 個(gè),178 個(gè)特征,1 個(gè)標(biāo)簽。特征主要有以下部分:ID、企業(yè)類(lèi)型、經(jīng)營(yíng)期限至、登記機(jī)關(guān)、企業(yè)狀態(tài)、郵政編碼、投資總額、核準(zhǔn)日期、行業(yè)代碼、注銷(xiāo)時(shí)間、經(jīng)營(yíng)期限自、成立日期、行業(yè)門(mén)類(lèi)、企業(yè)類(lèi)別、管轄機(jī)關(guān)、經(jīng)營(yíng)范圍、城建稅、遞延收益、長(zhǎng)期負(fù)債合計(jì)、長(zhǎng)期借款、長(zhǎng)期應(yīng)付款、短期借款、遞延所得稅負(fù)債、非流動(dòng)負(fù)債合計(jì)、負(fù)債合計(jì)等共178 個(gè)。
查看發(fā)現(xiàn)許多特征缺失嚴(yán)重。我們特別刪除缺失比例超過(guò)70%的特征:經(jīng)營(yíng)期限至,投資總額,注銷(xiāo)時(shí)間。
下面分析每個(gè)特征和標(biāo)簽之間的相關(guān)系數(shù),并刪除相關(guān)系數(shù)不存在的特征,即:長(zhǎng)期負(fù)債合計(jì)_年初數(shù),其他負(fù)債(或長(zhǎng)期負(fù)債)_年初數(shù),其他應(yīng)交款_年初數(shù),應(yīng)付福利費(fèi)_年初數(shù),預(yù)提費(fèi)用_年初數(shù),長(zhǎng)期負(fù)債合計(jì)_年末數(shù)等。經(jīng)查看這些數(shù)據(jù)不僅缺失嚴(yán)重,而且值變化方差很小,故刪去。
最后對(duì)類(lèi)型數(shù)據(jù)處理:郵政編碼、核準(zhǔn)日期、經(jīng)營(yíng)期限、成立日期、經(jīng)營(yíng)范圍和特殊無(wú)信息特征ID,由于處理較困難,這些特征都刪去。
在這些處理之后我們有152 個(gè)特征,1 個(gè)標(biāo)簽。為簡(jiǎn)單起見(jiàn),我們給每一列特征的缺失值賦值為該特征的均值。
查看標(biāo)簽值{0,1}在樣本中所占的比例,我們發(fā)現(xiàn)未違約所占比例為93.4%,違約比例為6.6%,那么在這里我們需要處理類(lèi)別不平衡問(wèn)題。在這里主要有三種方式,我們主要采用第三種方式,對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充。
(1)對(duì)較多的那個(gè)類(lèi)別進(jìn)行欠采樣(under-sampling),舍棄一部分?jǐn)?shù)據(jù),使其與較少類(lèi)別的數(shù)據(jù)相當(dāng)。
(2)對(duì)較少的類(lèi)別進(jìn)行過(guò)采樣(over-sampling),重復(fù)使用一部分?jǐn)?shù)據(jù),使其與較多類(lèi)別的數(shù)據(jù)相。
(3)對(duì)數(shù)據(jù)進(jìn)行采用的過(guò)程中通過(guò)相似性同時(shí)生成并插樣“少數(shù)類(lèi)別數(shù)據(jù)”,叫做SMOTE 算法。具體SMOTE算法介紹可以參考[12],SMOTE 算法是對(duì)較少數(shù)類(lèi)別的樣本進(jìn)行擴(kuò)充,擴(kuò)充的方法類(lèi)似于k 近鄰方法進(jìn)行樣本間差值,最后得到新的數(shù)據(jù)集合。
這一部分主要介紹擬合模型、參數(shù)的選擇、以及擬合的效果與分析。主要利用三個(gè)模型來(lái)進(jìn)行擬合數(shù)據(jù)。
·決策樹(shù)
·隨機(jī)森林
·梯度上升樹(shù)(GBDT)
我們將數(shù)據(jù)的70%的作為訓(xùn)練集合,數(shù)據(jù)的30%作為測(cè)試集合,并做10 層的交叉驗(yàn)證。
經(jīng)查看表,我們可以看出企業(yè)所得稅、城建稅、印花稅對(duì)企業(yè)信用風(fēng)險(xiǎn)的影響因素最大(如表1)。下面對(duì)幾個(gè)稅種做簡(jiǎn)要介紹。
企業(yè)所得稅:是對(duì)我國(guó)境內(nèi)的企業(yè)和其他取得收入的組織的生產(chǎn)經(jīng)營(yíng)所得和其他所得征收的一種所得稅。
城建稅:是以納稅人實(shí)際繳納的產(chǎn)品稅、增值稅、營(yíng)業(yè)稅稅額為計(jì)稅依據(jù)。該稅主要有以下兩個(gè)特征:(1)以納稅人實(shí)際繳納的產(chǎn)品稅、增值稅、營(yíng)業(yè)稅稅額為計(jì)稅依據(jù),分別與產(chǎn)品稅、增值稅、營(yíng)業(yè)稅同時(shí)繳納;(2)加強(qiáng)城市的維護(hù)建設(shè),擴(kuò)大和穩(wěn)定城市維護(hù)建設(shè)資金的來(lái)源。
印花稅:是對(duì)經(jīng)濟(jì)活動(dòng)和經(jīng)濟(jì)交往中訂立、領(lǐng)受具有法律效力的憑證的行為所征收的一種稅。因采用在應(yīng)稅憑證上粘貼印花稅票作為完稅的標(biāo)志而得名。
再者對(duì)比分析三個(gè)模型,我們可以得到以下結(jié)論:
(1)決策樹(shù)在識(shí)別違約企業(yè)中,準(zhǔn)確率最高。
表1
(2)隨機(jī)森林和GBDT 這兩個(gè)模型效果差不多,因此復(fù)雜模型針對(duì)風(fēng)險(xiǎn)問(wèn)題可能是無(wú)力的。
(3)說(shuō)明簡(jiǎn)單模型的在某些情況下有可能是最好的。
在中小企業(yè)信用評(píng)估過(guò)程中,企業(yè)借款違約不歸還本金和利息是比較常見(jiàn)的現(xiàn)象。如何控制企業(yè)風(fēng)險(xiǎn)是中小企業(yè)健康發(fā)展的關(guān)鍵。本文站在銀行角度,研究企業(yè)這一主題的信用違約風(fēng)險(xiǎn)的方法。通過(guò)總結(jié)和比較目前信用評(píng)估模型的基本原理和優(yōu)缺點(diǎn),提出了應(yīng)用集成學(xué)習(xí)方法改進(jìn)決策樹(shù)模型來(lái)度量企業(yè)信用違約風(fēng)險(xiǎn)的思路。
本文采用的數(shù)據(jù)是全國(guó)部分中小企業(yè)的政府登記數(shù)據(jù)。我們采用協(xié)方差矩陣的形式,摘除部分步相關(guān)特征,在此數(shù)據(jù)的基礎(chǔ)上做缺失值處理。然而由于本數(shù)據(jù)類(lèi)別不平衡問(wèn)題嚴(yán)重,我們采用SMOTE 算法進(jìn)行數(shù)據(jù)預(yù)處理。接下來(lái)用決策樹(shù),隨機(jī)森林,GBDT 來(lái)進(jìn)行分類(lèi)評(píng)估效果,并取得了滿意的效果。
本文的主要結(jié)論如下:
第一:本文以中小企業(yè)這一貸款主體參與主體為切入點(diǎn),研究其違約風(fēng)險(xiǎn)度量方法的問(wèn)題,目前國(guó)內(nèi)外對(duì)中國(guó)國(guó)內(nèi)中小企業(yè)信用違約風(fēng)險(xiǎn)度量較少且都不夠深入,本文將中小企業(yè)信用風(fēng)險(xiǎn)評(píng)估與集成學(xué)習(xí)聯(lián)系在一起,對(duì)中小企業(yè)的違約風(fēng)險(xiǎn)進(jìn)行了初步探究與度量。
第二:本文終結(jié)了決策樹(shù)中集中流行的風(fēng)險(xiǎn)評(píng)估方法及其它們的應(yīng)用。通過(guò)比較幾類(lèi)模型的優(yōu)缺點(diǎn)和幾種模型的側(cè)重點(diǎn)得到:決策樹(shù)容易過(guò)擬合,隨機(jī)森林可以有效的降低過(guò)擬合,GBDT 可以關(guān)注于分錯(cuò)的目標(biāo),提高分類(lèi)的準(zhǔn)確率,進(jìn)而得出在本數(shù)據(jù)情況下,決策樹(shù)模型在識(shí)別企業(yè)有信用違約風(fēng)險(xiǎn)有很大優(yōu)勢(shì)。
第三:本文最后得出對(duì)中小企業(yè)風(fēng)險(xiǎn)影響的重要特征有以下十項(xiàng):企業(yè)所得稅、城建稅、印花稅、增值稅、行業(yè)門(mén)類(lèi)、管轄機(jī)關(guān)、企業(yè)狀態(tài)、行業(yè)代碼、注冊(cè)資本、存貨中的原材料_年末數(shù),可以看出對(duì)中小企業(yè)運(yùn)行影響最大的因素是稅收,隨著這幾年中小企業(yè)生存環(huán)境惡劣,對(duì)中小企業(yè)減稅不乏是一種很不錯(cuò)的政策。