李 靜,陳軍飛,孫湛清
(河海大學(xué) 商學(xué)院,江蘇 南京 211100)
?
制造業(yè)上市公司信用風(fēng)險評估研究
李靜,陳軍飛,孫湛清
(河海大學(xué) 商學(xué)院,江蘇 南京 211100)
摘要:構(gòu)建基于AdaBoost-SVM的上市公司信用風(fēng)險評估模型,利用遺傳算法(GA)尋優(yōu)優(yōu)化傳統(tǒng)的支持向量機(SVM),通過AdaBoost迭代獲得SVM弱分類器。利用該模型評價我國A股制造業(yè)上市公司的信用風(fēng)險,并將預(yù)測結(jié)果與其他模型的預(yù)測結(jié)果進行比較。結(jié)果表明,將AdaBoost與SVM有機結(jié)合,能夠取得更加準(zhǔn)確的評估結(jié)果,可為投資者決策提供參考依據(jù),以期保證資本市場的穩(wěn)定與可持續(xù)發(fā)展。
關(guān)鍵詞:上市公司;信用風(fēng)險評估;支持向量機;自適應(yīng)增強算法
目前,上市公司在我國國民經(jīng)濟中發(fā)揮重要作用,已成為經(jīng)濟運行中舉足輕重的群體。但是,上市公司財務(wù)報表作假、包裝上市等問題也逐漸暴露。由統(tǒng)計數(shù)據(jù)看,在全國13個行業(yè)中,違反規(guī)定的上市公司涉及了12個行業(yè),違規(guī)行為較多集中在制造業(yè)。由此看來,制造業(yè)上市公司信用風(fēng)險的研究必須盡快展開。
近幾年,隨著數(shù)據(jù)挖掘和機器學(xué)習(xí)等方法的迅速發(fā)展,基于非參數(shù)估計和人工智能的信用風(fēng)險評估模型成為了學(xué)術(shù)界研究的重點。ABDOU等[1]使用神經(jīng)網(wǎng)絡(luò)模型對埃及銀行進行信用風(fēng)險評估,合理分析了神經(jīng)網(wǎng)絡(luò)模型的技術(shù)方法,并與其他模型結(jié)果進行對比,證明了神經(jīng)網(wǎng)絡(luò)具有較好的分類效果。SUSTERSIC等[2]討論了BP神經(jīng)網(wǎng)絡(luò)在樣本數(shù)量有限的情況下構(gòu)建信用評估模型的可能性,并取得了不錯的效果。BELLOTTI等[3]在信用風(fēng)險評估中的使用了支持向量機,同時與其他分類模型進行對比分析,證明SVM的分類準(zhǔn)確率優(yōu)于神經(jīng)網(wǎng)絡(luò)模型。SAHIN等[4]利用神經(jīng)網(wǎng)絡(luò)模型和Logistic回歸模型進行信用卡違約方面的研究,證明ANN的預(yù)測能力優(yōu)于Logistic回歸。然而單一學(xué)習(xí)算法勢必有其自身的缺陷,對問題條件的要求也較為嚴(yán)苛。因此,在總結(jié)歸納已有信用風(fēng)險評估模型方法的基礎(chǔ)上,筆者根據(jù)我國的實際情況,并結(jié)合人工智能領(lǐng)域的AdaBoost算法與SVM算法,構(gòu)造了AdaBoost-SVM信用風(fēng)險評估模型,以期彌補目前研究中存在的不足。
1信用風(fēng)險評價指標(biāo)的建立
根據(jù)研究的需要,筆者在借鑒前人研究的基礎(chǔ)上,構(gòu)建了評價指標(biāo)體系。并從盈利能力、償債能力、營運能力等角度,初步選取財務(wù)類指標(biāo)[5]。此外,由于公司治理會對企業(yè)的管理和經(jīng)營帶來較大的影響,進而影響企業(yè)的信用風(fēng)險。因此,將公司治理類指標(biāo)作為評估信用風(fēng)險的關(guān)鍵性指標(biāo),具體如表1所示。
2AdaBoost-SVM評估模型
2.1AdaBoost-SVM算法簡介
信用風(fēng)險評估是一個高維度、非線性的復(fù)雜問題,筆者基于AdaBoost算法與SVM算法,構(gòu)建了AdaBoost-SVM上市公司信用風(fēng)險評估模型。AdaBoost算法對高維數(shù)據(jù)的分類誤差較大,對噪聲敏感,易出現(xiàn)“過學(xué)習(xí)”現(xiàn)象。而SVM算法正是將低維空間數(shù)據(jù)映射到高維特征空間進行分類的算法,基于統(tǒng)計學(xué)習(xí)理論[6],以結(jié)構(gòu)風(fēng)險最小化為準(zhǔn)則,能盡量克服“過學(xué)習(xí)”的發(fā)生,正好彌補了AdaBoost算法的不足。同時SVM算法受核函數(shù)與核參數(shù)的選取所造成的影響,在AdaBoost算法不斷加權(quán)迭代中被大大地降低。此外,采用AdaBoost算法,僅僅需要改變訓(xùn)練次數(shù)T,對其他參數(shù)不需要任何調(diào)整,且不會要求弱分類器的先驗知識。因此,兩個算法的結(jié)合在理論上非常適合于構(gòu)建上市公司信用風(fēng)險評估模型。
表1 初選評估指標(biāo)
2.2AdaBoost-SVM算法步驟
(1)數(shù)據(jù)擇取與SVM初始化。若訓(xùn)練樣本數(shù)據(jù)共有m個,初始化訓(xùn)練樣本對應(yīng)數(shù)據(jù)的權(quán)重D1(i)=1/m,按照樣本輸入輸出維數(shù)來確定SVM的核函數(shù)與核參數(shù),構(gòu)造初始SVM弱分類器。
(2)SVM弱分類器訓(xùn)練。訓(xùn)練第t個SVM弱分類器時,采用適宜的核參數(shù),從而得到每輪最佳的弱分類器h(t)和分類誤差εt。
(3)給SVM弱分類器賦予權(quán)重。按照SVM弱分類器h(t)的分類誤差εt賦予該分類器權(quán)重αt,權(quán)重計算公式為:
(1)
(4)調(diào)整測試數(shù)據(jù)的權(quán)重。對分類錯誤的樣本數(shù)據(jù),再次訓(xùn)練后對其權(quán)重進行調(diào)整,調(diào)整后的權(quán)重計算公式為:
(2)
其中,Zt為歸一化因子,其作用主要是在權(quán)重比例恒定的基礎(chǔ)上使權(quán)重分布之和等于1。
(5)獲得強SVM分類器。經(jīng)過T輪迭代產(chǎn)生T組SVM弱分類器f(ht(x),αt),由該T組弱分類器f(ht,αt)加權(quán)求和得到強分類器H(x):
(3)
2.3基于遺傳算法(GA)的SVM參數(shù)尋優(yōu)
由于信用風(fēng)險評估具有高維、非線性特征,在進行AdaBoost-SVM模型訓(xùn)練之前,需要利用對非線性復(fù)雜特征具有較高分析能力的算法進行參數(shù)尋優(yōu),以保證SVM的樣本內(nèi)學(xué)習(xí)能力和樣本外的推廣能力都盡可能較高,避免過學(xué)習(xí)與欠學(xué)習(xí)情況的發(fā)生。因此,筆者采用魯棒性較強、對非線性復(fù)雜問題具備較強分析能力的遺傳算法進行SVM參數(shù)尋優(yōu)。
2.4評估模型的迭代過程
在傳統(tǒng)AdaBoost算法的原理上,對其迭代機制進行改進。每輪迭代都用遺傳算法對SVM弱分類器進行一次核函數(shù)與核參數(shù)的尋優(yōu)操作,使得SVM弱分類器在每輪迭代之前都對重新分配權(quán)重之后的樣本擁有最佳的核函數(shù)與核參數(shù)。選擇4個核函數(shù),即徑向基核函數(shù)、多項式核函數(shù)、線性核函數(shù)及Sigmoid核函數(shù)作為SVM的核函數(shù),評估測試樣本。將SVM當(dāng)作弱分類器,初步訓(xùn)練之后,依據(jù)結(jié)果相應(yīng)地調(diào)整每個樣本對應(yīng)的權(quán)重,并根據(jù)當(dāng)輪SVM弱分類器的誤判率賦予其權(quán)重,再進行下一次分類評估,筆者將AdaBoost的迭代次數(shù)T設(shè)為10,預(yù)期最終迭代可得到一系列共10個SVM弱分類器。
3實證分析
3.1研究樣本與數(shù)據(jù)獲取
筆者初步選取了200家滬深兩市A股制造業(yè)上市公司作為研究樣本,其中50家公司在2011—2014年上半年因連續(xù)虧損而被異常處理,并將其作為高信用風(fēng)險公司的研究樣本,其他150家正常公司為低信用風(fēng)險公司樣本。數(shù)據(jù)來自于國泰安數(shù)據(jù)庫。
3.2評估指標(biāo)的篩選
3.2.1異常值診斷
筆者定義了兩類異常值,一類是離群值,是指與均值的距離超過3個標(biāo)準(zhǔn)差的數(shù)據(jù);另一類是極端值,是指與均值的距離超過5個標(biāo)準(zhǔn)差的數(shù)據(jù)。為了使評估的結(jié)果更加準(zhǔn)確,首先對樣本指標(biāo)進行歸一化處理,將其轉(zhuǎn)化成無量綱的形式,數(shù)據(jù)歸一化處理的公式為:
(4)
3.2.2數(shù)據(jù)降維處理
在利用核主成分分析(KPCA)對上市公司信用風(fēng)險指標(biāo)數(shù)據(jù)做特征提取之前,需要進行KMO和Bartlett檢驗,以確定選取的樣本數(shù)據(jù)之間的相關(guān)性是否適合用作KPCA檢驗。因為KMO值為0.627,對應(yīng)Sig.值接近0,所以選取的樣本數(shù)據(jù)通過了KMO和Barlett檢驗,適用于KPCA分析。
根據(jù)KPCA的原理,設(shè)置KPCA核函數(shù)為高斯徑向基核函數(shù),利用Matlab軟件中的Stprtool模式識別工具箱,對初選的31個信用風(fēng)險評估指標(biāo)進行KPCA分析,得到其貢獻率統(tǒng)計表。按照累積貢獻率高于90%來選擇關(guān)鍵的核主成分。KPCA核主成分方差累積貢獻率在第15個核主成分處剛好超過90%,則可以認為前15個核主成分指標(biāo)基本包含了絕大部分特征信息。
3.3計算過程及測試結(jié)果
在完成異常樣本處理及指標(biāo)篩選之后,首先將研究樣本按照6∶4的比例隨機分成訓(xùn)練樣本集和測試樣本集兩個部分,然后再進行SVM的參數(shù)尋優(yōu)。為了保持樣本內(nèi)外的一致性,在訓(xùn)練集和測試集中,ST公司樣本數(shù)和非ST公司樣本數(shù)仍舊維持1∶3的比例。
3.3.1初始SVM弱分類器的參數(shù)尋優(yōu)
對測試集樣本SVM模型進行核參數(shù)遺傳算法尋優(yōu),種群數(shù)量設(shè)定為20,最大進化代數(shù)為200,對常見的4類核函數(shù)進行參數(shù)尋優(yōu),初步得到4組最優(yōu)核參數(shù)c和g,其中線性核函數(shù)不需要專門設(shè)置參數(shù)g。最終結(jié)果為:最優(yōu)懲罰參數(shù)c=3.108,g=0.717,相對應(yīng)的是多項式核函數(shù)。
3.3.2SVM弱分類器的迭代構(gòu)建
完成SVM的參數(shù)優(yōu)選之后,實際已經(jīng)構(gòu)造了一個初始SVM弱分類器。根據(jù)改進的AdaBoost迭代機制,分別選取徑向基核函數(shù)、多項式核函數(shù)、線性核函數(shù)及Sigmoid核函數(shù)作為SVM的核函數(shù),在每一輪對各核函數(shù)進行遺傳算法參數(shù)尋優(yōu),選取性能最高的SVM弱分類器對測試樣本進行分類。根據(jù)訓(xùn)練樣本分類結(jié)果調(diào)整訓(xùn)練樣本權(quán)重,并同樣根據(jù)當(dāng)輪的SVM弱分類器的誤判率賦予其權(quán)重,再進行下一次分類預(yù)測。
經(jīng)過10次的迭代后,獲得10個SVM弱分類器,其相應(yīng)的核函數(shù)、核參數(shù)與性能如表2所示。
表2 弱分類器及其核函數(shù)、核參數(shù)與性能
3.3.3AdaBoost-SVM強分類器的分類結(jié)果
根據(jù)AdaBoost-SVM算法原理,對這10個SVM弱分類器加權(quán)求和,得到AdaBoost-SVM強分類器,該強分類器由4個多項式核函數(shù)SVM弱分類器和6個徑向基核函數(shù)SVM弱分類器構(gòu)成,集合了徑向基核函數(shù)局部學(xué)習(xí)能力強和多項式核函數(shù)全局泛化能力強的特點,是一個適用于大多數(shù)環(huán)境的分類器。使用該AdaBoost-SVM強分類器對測試樣本進行分類,并統(tǒng)計分類的誤差。
圖1所示為AdaBoost-SVM強分類器對信用風(fēng)險評估數(shù)據(jù)的測試結(jié)果,對于測試樣本集中的所有80家上市公司,AdaBoost-SVM強分類器判斷正確77家,正確率達到了96.25%;對60家非ST公司分類全部正確;對于20家ST公司,判斷正確17家,判斷錯誤3家,分類正確率為85.00%。對比4種不同核函數(shù)的SVM對測試樣本的分類結(jié)果,SVM模型在經(jīng)過AdaBoost算法的迭代之后,無論是對高信用風(fēng)險公司還是低信用風(fēng)險公司,其分類識別率都大幅提高。
圖1 AdaBoost-SVM強分類器的測試結(jié)果
由此得出,提前3年時間,即在T-3年的前提下,通過AdaBoost-SVM的信用風(fēng)險評估模型,幾乎100%評估出低信用風(fēng)險的公司,而對高信用風(fēng)險的公司,其識別評估能力也很強大。
4結(jié)論
上市公司是我國資本市場的基石,準(zhǔn)確有效的信用風(fēng)險評估不僅能夠及時預(yù)警潛在信用風(fēng)險,為投資者提供客觀準(zhǔn)確、低成本的信息,降低投資風(fēng)險;也是債務(wù)和商業(yè)票據(jù)償債風(fēng)險的良好指示器,有助于上市公司經(jīng)營者準(zhǔn)確地把握公司的信用和財務(wù)狀況,根據(jù)評估結(jié)果及時調(diào)整經(jīng)營戰(zhàn)略與決策;同時也對融資與資本運行產(chǎn)生重要的作用,可為資本運作的借貸雙方提供可靠的信息保障,降低違約事件的發(fā)生概率。
筆者在總結(jié)國內(nèi)外學(xué)者研究成果的基礎(chǔ)上,充分考慮影響上市公司信用風(fēng)險的諸多因素,結(jié)合人工智能算法中的自適應(yīng)增強算法(AdaBoost)與支持向量機算法(SVM),構(gòu)建基于AdaBoost-SVM的上市公司信用風(fēng)險評估模型,對我國A股制造業(yè)上市公司進行評估測試,結(jié)果表明該模型具有較強的識別能力,因此利用該模型對企業(yè)的信用風(fēng)險進行評估,可以為投資者決策提供參考依據(jù)。
參考文獻:
[1]ABDOU H, POINTON J, EL-MASRY A. Neural nets versus conventional techniques in credit scoring in Egyptian banking[J]. Expert Systems with Applications,2008,35(3):1275-1292.
[2]SUSTERSIC M, MRAMOR D, ZUPAN J. Consumer credit scoring models with limited data[J]. Expert Systems with Applications,2009,36(3):4736-4744.
[3]BELLOTTI T,CROOK J.Support vector machines for credit scoring and discovery of significant features[J]. Expert Systems with Applications,2009,36(2):3302-3308.
[4]SAHIN Y, DUMAN E. Detecting credit card fraud by ANN and logistic regression[C]∥2011 International Symposium on IEEE.[S.l]:[s.n.],2011:315-319.
[5]唐建榮,譚春暉.基于支持向量機的上市公司信用風(fēng)險評估研究[J].統(tǒng)計與決策,2010(10):65-67.
[6]胡海青,張瑯,張道宏.供應(yīng)鏈金融視角下的中小企業(yè)信用風(fēng)險評估研究:基于SVM與BP神經(jīng)網(wǎng)絡(luò)的比較研究[J].管理評論,2012(11):70-80.
LI Jing:Postgraduate; School of Business, Hohai University, Nanjing 211100, China.
文章編號:2095-3852(2016)03-0289-04
文獻標(biāo)志碼:A
收稿日期:2016-01-28.
作者簡介:李靜(1990-),女,江蘇連云港人,河海大學(xué)商學(xué)院碩士研究生.
中圖分類號:F83.42
DOI:10.3963/j.issn.2095-3852.2016.03.005
Research on Credit Risk Assessment for Manufacturing Listed Companies
LIJing,CHENJunfei,SUNZhanqing
Abstract:This paper builds credit risk assessment model of listed companies based on AdaBoost-SVM.The traditional support vector machine was optimized by genetic algorithm.Then it will get weak classifier by AdaBoost. This paper analyzed the credit risk of China’s A-share manufacturing sector listed companies by the model.The comparison of predicting outcomes was conducted between AdaBoost-SVM and others.The results showed that AdaBoost-SVM model has the highest prediction accuracy.It could provide scientific advice to investors to make sure that the development of the capital market is steady and sustainable.
Key words:listed companies; credit risk assessment; support vector machines; AdaBoost