姜志旺+張紅霞+鄭艷娟+張宇敬+曹瑩
摘 要:隨著小額貸款規(guī)模的擴(kuò)大化和貸款對象的多樣化,金融機(jī)構(gòu)的信貸風(fēng)險問題日益突出,成為制約其發(fā)展的短板。本文運(yùn)用數(shù)據(jù)挖掘技術(shù),對金融機(jī)構(gòu)信用風(fēng)險評估進(jìn)行研究,通過建立決策樹、神經(jīng)網(wǎng)絡(luò)模型,從建模結(jié)果、預(yù)測精度等方面對信貸風(fēng)險進(jìn)行比較分析,為其提供決策依據(jù),從而提高風(fēng)險防范能力。
關(guān)鍵詞:數(shù)據(jù)挖掘 決策樹 神經(jīng)網(wǎng)絡(luò) 小貸公司
中圖分類號:TP39 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2014)01(c)-0032-02
隨著河北省農(nóng)戶、個體工商戶以及中小企業(yè)的迅猛發(fā)展,信貸需求和融資需求成為這些企業(yè)的發(fā)展和壯大所必須的金融服務(wù),于是小額貸款公司應(yīng)運(yùn)而生,在一定程度上解決了對這些“三農(nóng)”及中小企業(yè)的融資難題,也對河北省金融市場進(jìn)行了有益的補(bǔ)充。但是小額貸款公司在其業(yè)務(wù)發(fā)展和借貸過程中,由于其貸款融資業(yè)務(wù)的單一性,貸款客戶的違約信用風(fēng)險成為小額貸款公司目前需要面對的主要風(fēng)險。而小額貸款公司當(dāng)前由于對信用風(fēng)險缺乏科學(xué)合理有針對性的準(zhǔn)確評估,導(dǎo)致企業(yè)在運(yùn)營和發(fā)展中缺乏相應(yīng)的有效的風(fēng)險預(yù)警控制能力。本文通過旨在對小額貸款公司的信用風(fēng)險評估方法進(jìn)行研究,提出通過建立信用模型進(jìn)行風(fēng)險預(yù)警的機(jī)制,以點(diǎn)帶面,以期達(dá)到借鑒作用。
1 數(shù)據(jù)挖掘技術(shù)
1.1 決策樹方法
決策樹學(xué)習(xí)[1]是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí),是一種逼近離散函數(shù)值的算法,從一組無次序、無規(guī)則的事例中推理出決策樹表示形式的分類規(guī)則,然后使用決策對新數(shù)據(jù)進(jìn)行分析,本質(zhì)上決策樹是通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程。
C4.5算法是一種典型的決策樹算法,首先定義“分裂信息”,可以表示成:
(1)
然后,增益率被定義為:
(2)
1.2 神經(jīng)網(wǎng)絡(luò)方法
分層網(wǎng)絡(luò)[2]是一種經(jīng)典的神經(jīng)網(wǎng)絡(luò)算法,將一個神經(jīng)元網(wǎng)絡(luò)模型中的所有神經(jīng)元按功能分為若干層,一般有輸入層、中間層和輸入層,各層順序連接,第I層的輸入僅與第I-1層輸出相關(guān)聯(lián)。在神經(jīng)網(wǎng)絡(luò)中,學(xué)習(xí)過程就是訓(xùn)練過程,即將數(shù)據(jù)集輸入到神經(jīng)網(wǎng)絡(luò)的過程中,按照一定的方式去調(diào)整神經(jīng)元之間的連接權(quán)值,使得網(wǎng)絡(luò)能將數(shù)據(jù)集的內(nèi)涵以連接權(quán)值矩陣的方式存儲起來,從而使得在網(wǎng)絡(luò)接受輸入時,可以給出恰當(dāng)?shù)妮敵觥?/p>
2 信用模型建立與分析
通過對大量既存的客戶基本信息和相關(guān)資料的數(shù)據(jù)透視分析,分別建立決策樹模型和神經(jīng)網(wǎng)絡(luò)模型,并基于這兩個模型進(jìn)行評估和分析對比,以尋求一個最適用的模型。再根據(jù)該模型對客戶的信用風(fēng)險進(jìn)行分析與評分,從而得到了“好客戶、壞客戶”的最有效的區(qū)分辦法和途徑,以便為企業(yè)提供科學(xué)的輔助決策。
2.1 數(shù)據(jù)預(yù)處理[3]
本文實(shí)驗(yàn)所使用的數(shù)據(jù)是某銀行提供給的業(yè)務(wù)數(shù)據(jù),來源于信用業(yè)務(wù)系統(tǒng)。通過對數(shù)據(jù)的分析和處理,最后進(jìn)入建模的輸入變量為:Break強(qiáng)制??ㄓ涗洝ge年齡、Mar婚否、Sex性別、Bad_debt呆賬記錄、Card_num卡數(shù)、Per持卡人月平均收入、Spend持卡人月平均開銷、Card_spend信用卡月平均刷卡金額Rufuse拒往記錄、Reture退票記錄、Frequence刷卡頻率,目標(biāo)變量定義為Cus客戶類別,把樣本中的信用卡持有者分成兩類:類標(biāo)號為“1”的“好”客戶和類標(biāo)號為“2的差”客戶。在建立了最佳模型后,在申請后,如果模型判斷為“好”客戶,則批準(zhǔn),如果判斷為“差”客戶,則拒絕。
2.2 模型建立
(1)決策樹模型。
(2)神經(jīng)網(wǎng)絡(luò)模型。
這里利用平衡抽樣后分割的訓(xùn)練數(shù)據(jù)集進(jìn)行神經(jīng)網(wǎng)絡(luò)建模,采用Neural Net節(jié)點(diǎn)進(jìn)行建模分析。在構(gòu)建模型的過程中,采用快速建模的方式,設(shè)置預(yù)防過度訓(xùn)練參數(shù)以及取消隨機(jī)數(shù)種子,終止條件為默認(rèn)。網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如下:輸入層有14個神經(jīng)元,隱藏層有3個神經(jīng)元,輸出層有1個神經(jīng)元。另外,輸入變量對模型的相對重要性排序如下:Break、Refuse、Frequency、Return、Bad_debt、Spend、Per、Age。通過對測試數(shù)據(jù)集進(jìn)行測試,對模型進(jìn)行評估。
按照上述步驟構(gòu)建模型后,生成神經(jīng)網(wǎng)絡(luò)模型。神經(jīng)網(wǎng)絡(luò)是一種“黑箱”技術(shù),根據(jù)樣本不斷調(diào)整模型,提高預(yù)測準(zhǔn)確率,因而預(yù)測結(jié)果缺乏解釋力,而且不能觀察到中間的學(xué)習(xí)過程。此次所建模型的估計(jì)精確性達(dá)到71.429%。
3 結(jié)論
(1)在建模之前,進(jìn)行數(shù)據(jù)的預(yù)處理是很必要的。
(2)在對數(shù)據(jù)進(jìn)行探索性分析中發(fā)現(xiàn),它行強(qiáng)制??ㄓ涗洠˙reak)、逾期情況屬性分析(Over)、呆賬記錄屬性分析(Bad_debt)、借款余額(Loan)及退票記錄(Return)這五個變量對預(yù)測一個客戶的“好”“壞”有顯著影響。
(3)通過使用Clementine對本文采用的客戶數(shù)據(jù)的建模分析,從建模結(jié)果、預(yù)測精度、運(yùn)行效率及理論這四個角度考慮,得出決策樹方法最優(yōu)。
參考文獻(xiàn)
[1] 張?jiān)茲徚?數(shù)據(jù)挖掘原理與技術(shù)[M].電子工業(yè)出版社,2004.
[2] (意)Paolo Giudici.實(shí)用數(shù)據(jù)挖掘[M].袁方,王煜,王麗娟,譯.電子工業(yè)出版社,2003.
[3] (美)林·C.托馬斯,戴維·B.埃德爾曼,喬納森·N.克魯克.信用評分及其應(yīng)用[M].王曉蕾,石慶焱,吳曉惠,譯.中國金融出版社,2005.endprint
摘 要:隨著小額貸款規(guī)模的擴(kuò)大化和貸款對象的多樣化,金融機(jī)構(gòu)的信貸風(fēng)險問題日益突出,成為制約其發(fā)展的短板。本文運(yùn)用數(shù)據(jù)挖掘技術(shù),對金融機(jī)構(gòu)信用風(fēng)險評估進(jìn)行研究,通過建立決策樹、神經(jīng)網(wǎng)絡(luò)模型,從建模結(jié)果、預(yù)測精度等方面對信貸風(fēng)險進(jìn)行比較分析,為其提供決策依據(jù),從而提高風(fēng)險防范能力。
關(guān)鍵詞:數(shù)據(jù)挖掘 決策樹 神經(jīng)網(wǎng)絡(luò) 小貸公司
中圖分類號:TP39 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2014)01(c)-0032-02
隨著河北省農(nóng)戶、個體工商戶以及中小企業(yè)的迅猛發(fā)展,信貸需求和融資需求成為這些企業(yè)的發(fā)展和壯大所必須的金融服務(wù),于是小額貸款公司應(yīng)運(yùn)而生,在一定程度上解決了對這些“三農(nóng)”及中小企業(yè)的融資難題,也對河北省金融市場進(jìn)行了有益的補(bǔ)充。但是小額貸款公司在其業(yè)務(wù)發(fā)展和借貸過程中,由于其貸款融資業(yè)務(wù)的單一性,貸款客戶的違約信用風(fēng)險成為小額貸款公司目前需要面對的主要風(fēng)險。而小額貸款公司當(dāng)前由于對信用風(fēng)險缺乏科學(xué)合理有針對性的準(zhǔn)確評估,導(dǎo)致企業(yè)在運(yùn)營和發(fā)展中缺乏相應(yīng)的有效的風(fēng)險預(yù)警控制能力。本文通過旨在對小額貸款公司的信用風(fēng)險評估方法進(jìn)行研究,提出通過建立信用模型進(jìn)行風(fēng)險預(yù)警的機(jī)制,以點(diǎn)帶面,以期達(dá)到借鑒作用。
1 數(shù)據(jù)挖掘技術(shù)
1.1 決策樹方法
決策樹學(xué)習(xí)[1]是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí),是一種逼近離散函數(shù)值的算法,從一組無次序、無規(guī)則的事例中推理出決策樹表示形式的分類規(guī)則,然后使用決策對新數(shù)據(jù)進(jìn)行分析,本質(zhì)上決策樹是通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程。
C4.5算法是一種典型的決策樹算法,首先定義“分裂信息”,可以表示成:
(1)
然后,增益率被定義為:
(2)
1.2 神經(jīng)網(wǎng)絡(luò)方法
分層網(wǎng)絡(luò)[2]是一種經(jīng)典的神經(jīng)網(wǎng)絡(luò)算法,將一個神經(jīng)元網(wǎng)絡(luò)模型中的所有神經(jīng)元按功能分為若干層,一般有輸入層、中間層和輸入層,各層順序連接,第I層的輸入僅與第I-1層輸出相關(guān)聯(lián)。在神經(jīng)網(wǎng)絡(luò)中,學(xué)習(xí)過程就是訓(xùn)練過程,即將數(shù)據(jù)集輸入到神經(jīng)網(wǎng)絡(luò)的過程中,按照一定的方式去調(diào)整神經(jīng)元之間的連接權(quán)值,使得網(wǎng)絡(luò)能將數(shù)據(jù)集的內(nèi)涵以連接權(quán)值矩陣的方式存儲起來,從而使得在網(wǎng)絡(luò)接受輸入時,可以給出恰當(dāng)?shù)妮敵觥?/p>
2 信用模型建立與分析
通過對大量既存的客戶基本信息和相關(guān)資料的數(shù)據(jù)透視分析,分別建立決策樹模型和神經(jīng)網(wǎng)絡(luò)模型,并基于這兩個模型進(jìn)行評估和分析對比,以尋求一個最適用的模型。再根據(jù)該模型對客戶的信用風(fēng)險進(jìn)行分析與評分,從而得到了“好客戶、壞客戶”的最有效的區(qū)分辦法和途徑,以便為企業(yè)提供科學(xué)的輔助決策。
2.1 數(shù)據(jù)預(yù)處理[3]
本文實(shí)驗(yàn)所使用的數(shù)據(jù)是某銀行提供給的業(yè)務(wù)數(shù)據(jù),來源于信用業(yè)務(wù)系統(tǒng)。通過對數(shù)據(jù)的分析和處理,最后進(jìn)入建模的輸入變量為:Break強(qiáng)制??ㄓ涗?、Age年齡、Mar婚否、Sex性別、Bad_debt呆賬記錄、Card_num卡數(shù)、Per持卡人月平均收入、Spend持卡人月平均開銷、Card_spend信用卡月平均刷卡金額Rufuse拒往記錄、Reture退票記錄、Frequence刷卡頻率,目標(biāo)變量定義為Cus客戶類別,把樣本中的信用卡持有者分成兩類:類標(biāo)號為“1”的“好”客戶和類標(biāo)號為“2的差”客戶。在建立了最佳模型后,在申請后,如果模型判斷為“好”客戶,則批準(zhǔn),如果判斷為“差”客戶,則拒絕。
2.2 模型建立
(1)決策樹模型。
(2)神經(jīng)網(wǎng)絡(luò)模型。
這里利用平衡抽樣后分割的訓(xùn)練數(shù)據(jù)集進(jìn)行神經(jīng)網(wǎng)絡(luò)建模,采用Neural Net節(jié)點(diǎn)進(jìn)行建模分析。在構(gòu)建模型的過程中,采用快速建模的方式,設(shè)置預(yù)防過度訓(xùn)練參數(shù)以及取消隨機(jī)數(shù)種子,終止條件為默認(rèn)。網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如下:輸入層有14個神經(jīng)元,隱藏層有3個神經(jīng)元,輸出層有1個神經(jīng)元。另外,輸入變量對模型的相對重要性排序如下:Break、Refuse、Frequency、Return、Bad_debt、Spend、Per、Age。通過對測試數(shù)據(jù)集進(jìn)行測試,對模型進(jìn)行評估。
按照上述步驟構(gòu)建模型后,生成神經(jīng)網(wǎng)絡(luò)模型。神經(jīng)網(wǎng)絡(luò)是一種“黑箱”技術(shù),根據(jù)樣本不斷調(diào)整模型,提高預(yù)測準(zhǔn)確率,因而預(yù)測結(jié)果缺乏解釋力,而且不能觀察到中間的學(xué)習(xí)過程。此次所建模型的估計(jì)精確性達(dá)到71.429%。
3 結(jié)論
(1)在建模之前,進(jìn)行數(shù)據(jù)的預(yù)處理是很必要的。
(2)在對數(shù)據(jù)進(jìn)行探索性分析中發(fā)現(xiàn),它行強(qiáng)制??ㄓ涗洠˙reak)、逾期情況屬性分析(Over)、呆賬記錄屬性分析(Bad_debt)、借款余額(Loan)及退票記錄(Return)這五個變量對預(yù)測一個客戶的“好”“壞”有顯著影響。
(3)通過使用Clementine對本文采用的客戶數(shù)據(jù)的建模分析,從建模結(jié)果、預(yù)測精度、運(yùn)行效率及理論這四個角度考慮,得出決策樹方法最優(yōu)。
參考文獻(xiàn)
[1] 張?jiān)茲徚?數(shù)據(jù)挖掘原理與技術(shù)[M].電子工業(yè)出版社,2004.
[2] (意)Paolo Giudici.實(shí)用數(shù)據(jù)挖掘[M].袁方,王煜,王麗娟,譯.電子工業(yè)出版社,2003.
[3] (美)林·C.托馬斯,戴維·B.埃德爾曼,喬納森·N.克魯克.信用評分及其應(yīng)用[M].王曉蕾,石慶焱,吳曉惠,譯.中國金融出版社,2005.endprint
摘 要:隨著小額貸款規(guī)模的擴(kuò)大化和貸款對象的多樣化,金融機(jī)構(gòu)的信貸風(fēng)險問題日益突出,成為制約其發(fā)展的短板。本文運(yùn)用數(shù)據(jù)挖掘技術(shù),對金融機(jī)構(gòu)信用風(fēng)險評估進(jìn)行研究,通過建立決策樹、神經(jīng)網(wǎng)絡(luò)模型,從建模結(jié)果、預(yù)測精度等方面對信貸風(fēng)險進(jìn)行比較分析,為其提供決策依據(jù),從而提高風(fēng)險防范能力。
關(guān)鍵詞:數(shù)據(jù)挖掘 決策樹 神經(jīng)網(wǎng)絡(luò) 小貸公司
中圖分類號:TP39 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2014)01(c)-0032-02
隨著河北省農(nóng)戶、個體工商戶以及中小企業(yè)的迅猛發(fā)展,信貸需求和融資需求成為這些企業(yè)的發(fā)展和壯大所必須的金融服務(wù),于是小額貸款公司應(yīng)運(yùn)而生,在一定程度上解決了對這些“三農(nóng)”及中小企業(yè)的融資難題,也對河北省金融市場進(jìn)行了有益的補(bǔ)充。但是小額貸款公司在其業(yè)務(wù)發(fā)展和借貸過程中,由于其貸款融資業(yè)務(wù)的單一性,貸款客戶的違約信用風(fēng)險成為小額貸款公司目前需要面對的主要風(fēng)險。而小額貸款公司當(dāng)前由于對信用風(fēng)險缺乏科學(xué)合理有針對性的準(zhǔn)確評估,導(dǎo)致企業(yè)在運(yùn)營和發(fā)展中缺乏相應(yīng)的有效的風(fēng)險預(yù)警控制能力。本文通過旨在對小額貸款公司的信用風(fēng)險評估方法進(jìn)行研究,提出通過建立信用模型進(jìn)行風(fēng)險預(yù)警的機(jī)制,以點(diǎn)帶面,以期達(dá)到借鑒作用。
1 數(shù)據(jù)挖掘技術(shù)
1.1 決策樹方法
決策樹學(xué)習(xí)[1]是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí),是一種逼近離散函數(shù)值的算法,從一組無次序、無規(guī)則的事例中推理出決策樹表示形式的分類規(guī)則,然后使用決策對新數(shù)據(jù)進(jìn)行分析,本質(zhì)上決策樹是通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程。
C4.5算法是一種典型的決策樹算法,首先定義“分裂信息”,可以表示成:
(1)
然后,增益率被定義為:
(2)
1.2 神經(jīng)網(wǎng)絡(luò)方法
分層網(wǎng)絡(luò)[2]是一種經(jīng)典的神經(jīng)網(wǎng)絡(luò)算法,將一個神經(jīng)元網(wǎng)絡(luò)模型中的所有神經(jīng)元按功能分為若干層,一般有輸入層、中間層和輸入層,各層順序連接,第I層的輸入僅與第I-1層輸出相關(guān)聯(lián)。在神經(jīng)網(wǎng)絡(luò)中,學(xué)習(xí)過程就是訓(xùn)練過程,即將數(shù)據(jù)集輸入到神經(jīng)網(wǎng)絡(luò)的過程中,按照一定的方式去調(diào)整神經(jīng)元之間的連接權(quán)值,使得網(wǎng)絡(luò)能將數(shù)據(jù)集的內(nèi)涵以連接權(quán)值矩陣的方式存儲起來,從而使得在網(wǎng)絡(luò)接受輸入時,可以給出恰當(dāng)?shù)妮敵觥?/p>
2 信用模型建立與分析
通過對大量既存的客戶基本信息和相關(guān)資料的數(shù)據(jù)透視分析,分別建立決策樹模型和神經(jīng)網(wǎng)絡(luò)模型,并基于這兩個模型進(jìn)行評估和分析對比,以尋求一個最適用的模型。再根據(jù)該模型對客戶的信用風(fēng)險進(jìn)行分析與評分,從而得到了“好客戶、壞客戶”的最有效的區(qū)分辦法和途徑,以便為企業(yè)提供科學(xué)的輔助決策。
2.1 數(shù)據(jù)預(yù)處理[3]
本文實(shí)驗(yàn)所使用的數(shù)據(jù)是某銀行提供給的業(yè)務(wù)數(shù)據(jù),來源于信用業(yè)務(wù)系統(tǒng)。通過對數(shù)據(jù)的分析和處理,最后進(jìn)入建模的輸入變量為:Break強(qiáng)制??ㄓ涗洝ge年齡、Mar婚否、Sex性別、Bad_debt呆賬記錄、Card_num卡數(shù)、Per持卡人月平均收入、Spend持卡人月平均開銷、Card_spend信用卡月平均刷卡金額Rufuse拒往記錄、Reture退票記錄、Frequence刷卡頻率,目標(biāo)變量定義為Cus客戶類別,把樣本中的信用卡持有者分成兩類:類標(biāo)號為“1”的“好”客戶和類標(biāo)號為“2的差”客戶。在建立了最佳模型后,在申請后,如果模型判斷為“好”客戶,則批準(zhǔn),如果判斷為“差”客戶,則拒絕。
2.2 模型建立
(1)決策樹模型。
(2)神經(jīng)網(wǎng)絡(luò)模型。
這里利用平衡抽樣后分割的訓(xùn)練數(shù)據(jù)集進(jìn)行神經(jīng)網(wǎng)絡(luò)建模,采用Neural Net節(jié)點(diǎn)進(jìn)行建模分析。在構(gòu)建模型的過程中,采用快速建模的方式,設(shè)置預(yù)防過度訓(xùn)練參數(shù)以及取消隨機(jī)數(shù)種子,終止條件為默認(rèn)。網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如下:輸入層有14個神經(jīng)元,隱藏層有3個神經(jīng)元,輸出層有1個神經(jīng)元。另外,輸入變量對模型的相對重要性排序如下:Break、Refuse、Frequency、Return、Bad_debt、Spend、Per、Age。通過對測試數(shù)據(jù)集進(jìn)行測試,對模型進(jìn)行評估。
按照上述步驟構(gòu)建模型后,生成神經(jīng)網(wǎng)絡(luò)模型。神經(jīng)網(wǎng)絡(luò)是一種“黑箱”技術(shù),根據(jù)樣本不斷調(diào)整模型,提高預(yù)測準(zhǔn)確率,因而預(yù)測結(jié)果缺乏解釋力,而且不能觀察到中間的學(xué)習(xí)過程。此次所建模型的估計(jì)精確性達(dá)到71.429%。
3 結(jié)論
(1)在建模之前,進(jìn)行數(shù)據(jù)的預(yù)處理是很必要的。
(2)在對數(shù)據(jù)進(jìn)行探索性分析中發(fā)現(xiàn),它行強(qiáng)制停卡記錄(Break)、逾期情況屬性分析(Over)、呆賬記錄屬性分析(Bad_debt)、借款余額(Loan)及退票記錄(Return)這五個變量對預(yù)測一個客戶的“好”“壞”有顯著影響。
(3)通過使用Clementine對本文采用的客戶數(shù)據(jù)的建模分析,從建模結(jié)果、預(yù)測精度、運(yùn)行效率及理論這四個角度考慮,得出決策樹方法最優(yōu)。
參考文獻(xiàn)
[1] 張?jiān)茲?,龔?數(shù)據(jù)挖掘原理與技術(shù)[M].電子工業(yè)出版社,2004.
[2] (意)Paolo Giudici.實(shí)用數(shù)據(jù)挖掘[M].袁方,王煜,王麗娟,譯.電子工業(yè)出版社,2003.
[3] (美)林·C.托馬斯,戴維·B.埃德爾曼,喬納森·N.克魯克.信用評分及其應(yīng)用[M].王曉蕾,石慶焱,吳曉惠,譯.中國金融出版社,2005.endprint