摘 要:結(jié)合我國(guó)創(chuàng)新型小微企業(yè)融資難以及湖南省A行開(kāi)展“投貸聯(lián)動(dòng)”業(yè)務(wù)的實(shí)際情況,利用AdaBoost組合分類模型建立信貸評(píng)級(jí)模型。
關(guān)鍵詞:創(chuàng)新型小微企業(yè) 信貸評(píng)級(jí) AdaBoost組合分類模型
一、引言
2016年5月國(guó)務(wù)院辦公廳印發(fā)《關(guān)于建設(shè)大眾創(chuàng)業(yè)萬(wàn)眾創(chuàng)新示范基地的實(shí)施意見(jiàn)》(以下簡(jiǎn)稱《實(shí)施意見(jiàn)》),系統(tǒng)部署雙創(chuàng)示范基地建設(shè)工作。目前我國(guó)共成立17個(gè)區(qū)域示范基地、4個(gè)高校和科研院所示范基地和7個(gè)企業(yè)示范基地。在國(guó)家雙創(chuàng)政策的刺激下,創(chuàng)新型小微企業(yè)迎來(lái)了前所未有的發(fā)展機(jī)遇。據(jù)統(tǒng)計(jì),北京中關(guān)村園區(qū)“一區(qū)十六園”范圍內(nèi)現(xiàn)共有1.7萬(wàn)多家企業(yè),其中創(chuàng)新型小微企業(yè)約達(dá)1.2萬(wàn)家,主要集中在電子信息、新能源及節(jié)能、新材料、先進(jìn)制造、環(huán)保以及生物醫(yī)藥等行業(yè)。在創(chuàng)新型小微企業(yè)的快速發(fā)展的背后,融資難逐漸成為制約其繼續(xù)快速發(fā)展的重要瓶頸。創(chuàng)新型小微企業(yè)最主要的的特點(diǎn)是“輕資產(chǎn)”。大部分的輕資產(chǎn)企業(yè)因找不到合適擔(dān)保物難以達(dá)到商業(yè)銀行貸款條件,使公司的貸款難度增加,貸款利率水平居高不下。面對(duì)創(chuàng)新型小微企業(yè)融資難的問(wèn)題,2016年4月中國(guó)銀監(jiān)會(huì)、科技部以及中國(guó)人民銀行出臺(tái)了《關(guān)于支持銀行業(yè)金融機(jī)構(gòu)加大創(chuàng)新力度開(kāi)展科創(chuàng)企業(yè)投貸聯(lián)動(dòng)試點(diǎn)的指導(dǎo)意見(jiàn)》(以下簡(jiǎn)稱《指導(dǎo)意見(jiàn)》)。投貸聯(lián)動(dòng)是指銀行業(yè)金融機(jī)構(gòu)以“信貸投放”與本集團(tuán)設(shè)立的具有投資功能的子公司“股權(quán)投資”相結(jié)合的方式,通過(guò)相關(guān)制度安排,由投資收益抵補(bǔ)信貸風(fēng)險(xiǎn),實(shí)現(xiàn)創(chuàng)新型企業(yè)信貸風(fēng)險(xiǎn)和收益的匹配,為創(chuàng)新型企業(yè)提供持續(xù)資金支持的融資模式。面對(duì)國(guó)家出臺(tái)的《實(shí)施意見(jiàn)》和《指導(dǎo)意見(jiàn)》兩項(xiàng)措施,商業(yè)銀行也應(yīng)當(dāng)積極調(diào)整貸款結(jié)構(gòu),建立新的信貸評(píng)級(jí)系統(tǒng),滿足創(chuàng)新型小微企業(yè)的融資需求。
二、AdaBoost組合分類模型
大量研究表明,決策樹(shù)、BP神經(jīng)網(wǎng)絡(luò)、Logistic回歸和支持向量機(jī)算法在研究公司及個(gè)人信貸評(píng)級(jí)時(shí)有較好的效果,其評(píng)級(jí)準(zhǔn)確率也相對(duì)較高。相比于上述方法,AdaBoost算法能夠很好的利用了弱分類器進(jìn)行級(jí)聯(lián),將不同的分類算法作為弱分類器,具有很高的精度。
Boosting算法是一種提高任意給定學(xué)習(xí)算法準(zhǔn)確度的方法。它的思想起源于Valiant提出的PAC(Probably Approximately Correct可編程自動(dòng)化控制器)學(xué)習(xí)模型。Valiant 和Keams 提出識(shí)別錯(cuò)誤率小于,即準(zhǔn)確率僅比隨機(jī)猜測(cè)概率略高的學(xué)習(xí)算法稱為弱學(xué)習(xí)算法;識(shí)別準(zhǔn)確率很高并能在多項(xiàng)式時(shí)間內(nèi)完成的學(xué)習(xí)算法稱為強(qiáng)學(xué)習(xí)算法。同時(shí),Valiant 和Keams首次提出了PAC學(xué)習(xí)模型中弱學(xué)習(xí)算法和強(qiáng)學(xué)習(xí)算法的等價(jià)性問(wèn)題,即任意給定僅比隨機(jī)猜測(cè)略好的弱學(xué)習(xí)算法,是否可以將其提升為強(qiáng)學(xué)習(xí)算法?如果二者等價(jià),那么只需找到一個(gè)比隨機(jī)猜測(cè)略好的弱學(xué)習(xí)算法就可以將其提升為強(qiáng)學(xué)習(xí)算法,而不必尋找很難獲得的強(qiáng)學(xué)習(xí)算法。
AdaBoost算法是Boosting家族最具代表性的算法,之后出現(xiàn)的各種Boosting 算法都是在AdaBoost 算法的基礎(chǔ)之上發(fā)展而來(lái)的。對(duì)AdaBoost算法的研究應(yīng)用大多集中在分類問(wèn)題中,近年來(lái)也出現(xiàn)了一些在回歸問(wèn)題上的研究。
AdaBoost算法的基本思想是:首先給出任意一個(gè)弱學(xué)習(xí)算法和訓(xùn)練集
,此處,表示某個(gè)域或?qū)嵗臻g,在分類問(wèn)題中是一個(gè)帶類別標(biāo)志的集合,。初始化時(shí),Adaboost為訓(xùn)練集指定分布為,即每個(gè)訓(xùn)練例的權(quán)重都相同。接著,調(diào)用弱學(xué)習(xí)算法進(jìn)行T次迭代,每次迭代后,按照訓(xùn)練結(jié)果更新訓(xùn)練集上的分布,對(duì)于訓(xùn)練失敗的訓(xùn)練例賦予較大的權(quán)重,使得下一次迭代更加關(guān)注這些訓(xùn)練例,從而得到一個(gè)預(yù)測(cè)函數(shù)序列,每個(gè)預(yù)測(cè)函數(shù),也賦予一個(gè)權(quán)重,預(yù)測(cè)效果好的,相應(yīng)的權(quán)重越大。T次迭代之后,在分類問(wèn)題中最終的預(yù)測(cè)函數(shù)H采用帶權(quán)重的投票法產(chǎn)生。單個(gè)弱學(xué)習(xí)器的學(xué)習(xí)準(zhǔn)確率不高,經(jīng)過(guò)運(yùn)用Adaboost算法之后,最終結(jié)果準(zhǔn)確率將得到提高。
AdaBoost算法具體步驟如下:
三、基于AdaBoost組合分類模型信貸評(píng)級(jí)系統(tǒng)
本章擬結(jié)合湖南省A行的自身情況利用AdaBoost算法建立適合湖南省A行的信貸評(píng)級(jí)模型。創(chuàng)新型小微企業(yè)信貸評(píng)級(jí)模型的建立可以分為四個(gè)階段,分別是建模數(shù)據(jù)的選取及預(yù)處理、評(píng)級(jí)模型的建立和檢驗(yàn)、評(píng)級(jí)模型的實(shí)施已經(jīng)評(píng)級(jí)模型的監(jiān)測(cè)和升級(jí)。
信貸評(píng)級(jí)指標(biāo)是預(yù)測(cè)企業(yè)信貸評(píng)級(jí)的重要依據(jù),它對(duì)信貸評(píng)級(jí)模型的設(shè)計(jì)、評(píng)級(jí)模型的穩(wěn)定性以及預(yù)測(cè)結(jié)果的準(zhǔn)確率有著重要的影響。因此,建立信貸評(píng)級(jí)模型必須結(jié)合湖南省A行的實(shí)際情況才能達(dá)到預(yù)定的效果。參考湖南省A行現(xiàn)有的針對(duì)大中型企業(yè)的信貸管理系統(tǒng),提出選取企業(yè)特征變量指標(biāo)、企業(yè)規(guī)模指標(biāo)、企業(yè)盈利能力、企業(yè)償債能力、企業(yè)營(yíng)運(yùn)指標(biāo)、企業(yè)盈利指標(biāo)共六個(gè)一級(jí)指標(biāo)體系,總共包含二十六個(gè)二級(jí)指標(biāo),具體描述如表3-1所示:
為保證評(píng)級(jí)模型的預(yù)測(cè)力以及穩(wěn)定性,本文考慮以樣本的充足性、完整性、時(shí)效性和代表性四個(gè)方面為考慮前提選取樣本數(shù)據(jù)。從湖南省A行信貸管理系統(tǒng)中選取截至2015年在本行有貸款業(yè)務(wù)的新三板創(chuàng)新型上市公司。經(jīng)篩選最后選取325家樣本企業(yè)。針對(duì)現(xiàn)有的數(shù)據(jù),將325個(gè)樣本數(shù)據(jù)運(yùn)用隨機(jī)函數(shù)隨機(jī)產(chǎn)生,其比例分別為80%、20%,得到的訓(xùn)練樣本個(gè)數(shù)和測(cè)試樣本個(gè)數(shù)分別為260和65。樣本數(shù)據(jù)的評(píng)級(jí)分為Ⅰ、Ⅱ、Ⅲ三個(gè)級(jí)別,其中訓(xùn)練樣本中Ⅰ、Ⅱ、Ⅲ三個(gè)級(jí)別的數(shù)目分別為100、111和49,測(cè)試樣本中Ⅰ、Ⅱ、Ⅲ三個(gè)級(jí)別的數(shù)目分別為27、29和9。
考慮采用單隱層的BP神經(jīng)網(wǎng)絡(luò)作為AdaBoost算法的基分類器。在基分類模型的參數(shù)設(shè)定方面,BP神經(jīng)網(wǎng)絡(luò)輸出層、隱含層和輸入層其中拓?fù)浣Y(jié)構(gòu)為24—9—1,即輸入層有個(gè)24節(jié)點(diǎn)、隱層節(jié)點(diǎn)數(shù)為9、輸出層節(jié)點(diǎn)為1。
首先對(duì)基分類模型(BP神經(jīng)網(wǎng)絡(luò)模型)數(shù)量與模型精確性的關(guān)系進(jìn)行討論,基分類模型數(shù)量過(guò)多,將會(huì)加大模型的計(jì)算量,計(jì)算時(shí)間延長(zhǎng),降低了模型的效率;若基分類模型數(shù)量太少,則新模型的評(píng)級(jí)正確率提高太少,體現(xiàn)不出采用AdaBoost組合分類模型的優(yōu)勢(shì)。假設(shè)初始迭代次數(shù)為400次,通過(guò)對(duì)不同數(shù)目基分類模型計(jì)算得出表1-2的預(yù)測(cè)結(jié)果。根據(jù)表3-2可知,當(dāng)基分類模型的數(shù)量為30個(gè)時(shí),預(yù)測(cè)樣本的精確度基本上達(dá)到最大,而當(dāng)基分類模型的數(shù)量超過(guò)30個(gè)時(shí),預(yù)測(cè)樣本的精確度基本保持不變。
基分類模型的數(shù)量為30個(gè)時(shí),迭代次數(shù)從1開(kāi)始,當(dāng)?shù)螖?shù)為210次左右,預(yù)測(cè)的精確度達(dá)到最大,超過(guò)百分之九十,當(dāng)?shù)螖?shù)超過(guò)250次時(shí),預(yù)測(cè)的精確度穩(wěn)定在百分之八十九左右。因此AdaBoost算法模型選取的迭代次數(shù)為250。
按照上文中確定好的基分類模型個(gè)數(shù)和迭代次數(shù)后,運(yùn)用R軟件進(jìn)行計(jì)算,得出的訓(xùn)練樣本和測(cè)試樣本的結(jié)果分別如3-3和3-4所示:
首先比較兩種模型的精確度。從表3-3中的數(shù)據(jù)可以看出, AdaBoost組合分類模型都對(duì)訓(xùn)練樣本有著較好的擬和度,訓(xùn)練樣本的總正確率為百分之百。對(duì)于測(cè)試樣本數(shù)據(jù),從表3-4中的分析預(yù)測(cè)結(jié)果可以看出,AdaBoost組合分類模型的評(píng)級(jí)的預(yù)測(cè)準(zhǔn)確率也相對(duì)較高,Ⅰ類、Ⅱ類和Ⅲ類預(yù)測(cè)樣本的準(zhǔn)確率分別為:96.5%、88.9%、88.9%。對(duì)于AdaBoost組合分類模型的穩(wěn)定性,從上文中圖3-1可以看出,當(dāng)?shù)螖?shù)在0—250之間變動(dòng)時(shí),預(yù)測(cè)樣本的評(píng)級(jí)的準(zhǔn)確率在81%—91%直接變動(dòng),迭代次數(shù)超過(guò)250次時(shí),評(píng)級(jí)的準(zhǔn)確率穩(wěn)定在0.89,當(dāng)?shù)螖?shù)在200左右時(shí),評(píng)級(jí)的準(zhǔn)確率最高,接近91%。
四、結(jié)語(yǔ)
建立信貸評(píng)級(jí)模型的方法有很多,AdaBoost組合分類模型建立適合于湖南省A行的針對(duì)創(chuàng)新型小微企業(yè)的信貸評(píng)級(jí)模型。通過(guò)分析表明,AdaBoost組合分類模型的穩(wěn)定性、準(zhǔn)確率都相對(duì)較高,在實(shí)際運(yùn)用中對(duì)于湖南省A行信貸人員進(jìn)行信貸分析有一定的指導(dǎo)性作用,并能夠?yàn)樾刨J決策提供支持。
參考文獻(xiàn):
[1]楊海江,魏秋萍,張景肖.基于改進(jìn)的AdaBoost算法的信用評(píng)分模型[J]. 統(tǒng)計(jì)與信息論壇,2011.
[2]Kearns M.,ValiantL.G.,Learning Boolean Formulae or Factoring. Technical Report TR-1488,Cambridge,MA:Havard UniversityAiken Computation Laboratory,1988.
[3]龐素琳,鞏吉璋. C5.0分類算法及在銀行個(gè)人信用評(píng)級(jí)中的應(yīng)用[J]. 系統(tǒng)工程理論與實(shí)踐,2009.