程建華, 徐恒宇
(安徽大學(xué) 經(jīng)濟學(xué)院,合肥 230601)
近20年來,我國債券市場規(guī)模呈爆發(fā)式增長,但由于國家經(jīng)濟的整體情況呈現(xiàn)周期性回落的趨勢,國家和市場經(jīng)濟結(jié)構(gòu)加速調(diào)整,市場金融去杠桿的呼聲日益增高,中國國內(nèi)債券市場局部風(fēng)險逐漸顯現(xiàn),債券違約率也水漲船高。2014年3月份,出現(xiàn)了我國信用債市場的首例違約公募債——“11超日債”,其出現(xiàn)打破了傳統(tǒng)的“剛性兌付”思維[1]。隨后爆發(fā)了一系列債券違約事件,直到2019年,我國市場債券違約的節(jié)奏才有所放緩,但是違約事件依然屢見不鮮。因此,建立債券違約預(yù)警模型對投資者加強風(fēng)險防范和我國債券市場與國民經(jīng)濟穩(wěn)定健康發(fā)展具有重要的現(xiàn)實意義。
為了能夠?qū)⒖赡馨l(fā)生違約的債券主體提前識別出來,需要建立相關(guān)的債券違約預(yù)警模型。從學(xué)術(shù)研究角度,債券違約模型本質(zhì)上是一個二分類問題,即在何種條件下債券可能發(fā)生違約和未違約。在二分類問題研究中,最常使用的是諸如神經(jīng)網(wǎng)絡(luò)、隨機森林、logistic回歸以及支持向量機等經(jīng)典可監(jiān)督分類模型,這些模型可對樣本中未加識別的債券進行違約預(yù)測判斷。在實際問題的研究中,非均衡樣本的問題大量存在。所謂非均衡樣本是不同分類中一種分類占比過大,另一種分類占比過小,如銀行信用檢測、機械精度檢測、醫(yī)療檢測、語音信號處理、風(fēng)險預(yù)警、信息檢索等[2]。由于企業(yè)發(fā)生債券違約的數(shù)量在發(fā)行的信用債中所占比例非常低,所以樣本非均衡化問題一直是債券違約研究的難點及重點。張永東[3]指出在分析不均衡樣本的情況下,直接進行分類會導(dǎo)致分類器過多地關(guān)注數(shù)據(jù)中的多數(shù)類別,而忽視少數(shù)類別,進而使得分類結(jié)果具有明顯的偏向多數(shù)類;Sun等[4]研究也表明通常分類器將重點放在多的數(shù)類別上,因為它在樣本中所占有的權(quán)重比例較高。為了降低損失函數(shù),分類器在整個數(shù)據(jù)集中識別多數(shù)類的樣本可以達到很高的準(zhǔn)確性,而對少數(shù)類樣本的分類識別正確率自然會降低。當(dāng)所研究的數(shù)據(jù)集高度不平衡時,算法的分類性能將受到重大影響。支持向量機(SVM)在非均衡樣本下的應(yīng)用研究主要包括改進算法和懲罰函數(shù)的權(quán)重以及平衡數(shù)據(jù)的正負(fù)類樣本。而對于數(shù)據(jù)集層面的非均衡樣本處理方法通常是人工平衡樣本,主要是運用欠采樣或者過采樣的方法對訓(xùn)練集樣本進行重構(gòu),從而降低樣本的非均衡程度,以此來提高SVM分類器的預(yù)測準(zhǔn)確率。
在經(jīng)濟領(lǐng)域,關(guān)于風(fēng)險預(yù)警研究方面普遍存在非均衡樣本問題,但國內(nèi)學(xué)者較少將計算機領(lǐng)域的樣本均衡化方法引入風(fēng)險預(yù)警領(lǐng)域。令人可喜的是,近些年來國內(nèi)學(xué)者開始重視風(fēng)險預(yù)警方面的研究。張永東將ADASYN與Logistic相結(jié)合,通過過采樣的方法改進Logistic的預(yù)測精度,在債券違約預(yù)警研究中,取得了良好效果;付君實運用不同的非均衡樣本處理方法對傳統(tǒng)的SVM模型進行改進,將Borderline-SMOTE-Easy-Ensemble-SVM模型引入極端金融風(fēng)險預(yù)測中,預(yù)測精度顯著提高。上述文獻研究表明:樣本均衡化方法較少應(yīng)用于經(jīng)濟領(lǐng)域,非均衡樣本問題也未在債券市場中引起重視。同樣,在債券預(yù)警領(lǐng)域研究中,指標(biāo)數(shù)量多且各個指標(biāo)存在較強的相關(guān)性,即存在數(shù)據(jù)冗余問題。劉依戀[5]指出分類器會因數(shù)據(jù)維數(shù)過多而造成效率下降與過度擬合。目前,鮮有文獻認(rèn)識到冗余問題對于預(yù)警模型分類性能具有同樣重要的作用。
基于以上研究,本文從數(shù)據(jù)層面入手,一方面引入樣本數(shù)據(jù)均衡化算法,使用ADASYN算法自適應(yīng)合成少數(shù)類樣本,使得SVM訓(xùn)練的數(shù)據(jù)主要由多數(shù)類樣本和均衡化的少數(shù)類樣本構(gòu)成;另一方面為進一步提高SVM預(yù)警模型的分類性能,將特征選擇中的mRMR算法引入債券違約預(yù)警領(lǐng)域中,除去冗余、噪音數(shù)據(jù),進而構(gòu)建ADmR-AdaBoostSVM模型,選擇預(yù)測效果最佳的參數(shù)。
樣本均衡化一直是數(shù)據(jù)挖掘研究中數(shù)據(jù)處理最為棘手的問題之一。面對數(shù)據(jù)不均衡的問題,SVM同樣存在誤判少數(shù)類別的分類,而在債券違約預(yù)警研究中,違約樣本應(yīng)作為重點關(guān)注的樣本,但對此不均衡樣本數(shù)據(jù)的分類,單純的SVM方法顯得勢單力薄。目前,針對不均衡數(shù)據(jù),利用SVM分類存在兩方面問題,一是算法問題,二是數(shù)據(jù)本身問題。算法方面的問題是指直接構(gòu)建模型處理分類問題,如使用更高的權(quán)重?fù)p失用于少數(shù)類上,從而使得模型對于少數(shù)類別更為敏感;而數(shù)據(jù)方面處理方法則是利用適當(dāng)?shù)姆椒ㄖ貥?gòu)樣本,使得數(shù)據(jù)的分布更加均衡,以提高分類器的性能。本文為提高SVM模型分類的準(zhǔn)確性與有效性,對數(shù)據(jù)與模型兩方面所存在的問題開展研究。針對數(shù)據(jù)不均衡問題,柳培忠等[6]研究發(fā)現(xiàn)ADASYN 算法可以根據(jù)樣本的分布情況來進行過采樣,從而能夠有效提高少類樣本在邊界區(qū)域的比例,能夠緩解邊界區(qū)域分布不平衡的問題,提高分類器的敏感度。下面是ADASYN算法的詳細(xì)情況。
ADASYN方法屬于自適應(yīng)的合成采樣算法,該算法主要思想是通過數(shù)據(jù)自身的分布情況來為少數(shù)類的樣本自動生成新樣本。
算法流程:
輸入假設(shè)訓(xùn)練集Dtr中具有m個樣本為{xi,yi},i=1,…,m,其中xi是n維空間中的一個樣本,yi∈Y={1,-1}是與xi相關(guān)聯(lián)類標(biāo)簽。定義ms和ml分別代表少數(shù)類和多數(shù)類樣本數(shù)目,即ms≤ml,ms+ml=m。
① 計算不平衡度d=ms/ml,d∈(0,1]。
② 計算合成樣本量d=(ms-ml)×β。
③ 使用k近鄰原則選擇少數(shù)類樣本的k個最近樣本,使用歐氏距離度量近鄰程度,記△為k個樣本中多數(shù)類樣本,記比例r為ri=Δi/K,i=1,…,ms,ri∈[0,1]。
⑥ 在每一個少數(shù)類樣本的周圍k個鄰居中選擇一個屬于少數(shù)類的樣本,然后由等式si=xi+(xzi-xi)×λ進行合成數(shù)目為止。
由于數(shù)據(jù)信息行業(yè)的迅速發(fā)展,數(shù)據(jù)量的獲取也變得容易,從而造成了數(shù)據(jù)維度的擴大。雖然在一定程度內(nèi),數(shù)據(jù)的分類準(zhǔn)確率會隨著維度的增長呈指數(shù)增長,但是在進行數(shù)據(jù)分析時,數(shù)據(jù)維度增加,解釋變量過多還還會產(chǎn)生負(fù)面影響,比如線性回歸模型多重共線性、過度擬合等問題。特別是當(dāng)數(shù)據(jù)的維度過高、指標(biāo)過多時,其中包含了過多內(nèi)部相關(guān)項、冗余項和隨機干擾項等,分類器會因數(shù)據(jù)維數(shù)過多而造成效率下降與過度擬合。高維數(shù)據(jù)的分類算法不僅使得模型精度下降,還會造成過擬合的風(fēng)險,并由此帶來“維數(shù)災(zāi)難”[7]。剔除最大相關(guān)項、降低數(shù)據(jù)維數(shù)、提高分類精度成為處理高維數(shù)據(jù)的主要方法之一。特征選擇是通過從多個指標(biāo)中選擇少數(shù)最具有代表性的指標(biāo),用選擇好的指標(biāo)進行建模,能夠使得與目標(biāo)指標(biāo)之間的信息量幾乎完全保留,而各指標(biāo)之間的信息量冗余較小。總的來說,特征選擇可以通過降低特征維數(shù),提升學(xué)習(xí)模型的訓(xùn)練速度從而達到比較好的訓(xùn)練效果[8]。特征提取和特征選擇是目前主要的降維方式。特征提取是通過將某些原始特征或指標(biāo)映射到更低維的空間,從而生成一些新的特性;而特征選擇目的是找出原特征指標(biāo)中最具有代表性的特征子集。特征選擇不僅大幅度降低了數(shù)據(jù)維度,提高了分類器學(xué)習(xí)效率,而且可以提高分類器對各特征信息的學(xué)習(xí)功能,有效緩解過擬合現(xiàn)象[9]。
由于我國債券違約指標(biāo)為公司的各個指標(biāo),所以數(shù)量較多且各個指標(biāo)之間存在較強相關(guān)關(guān)系,必須要考慮數(shù)據(jù)冗余問題,并且其中存在著非線性關(guān)系,因此引入基于交互信息的提取特征方法:最大相關(guān)最小冗余(mRMR)算法。mRMR的思想是利用交互信息量為參考指標(biāo)來選擇目標(biāo)特征,通過懲罰已選取的各指標(biāo)之間的冗余性使得選擇的指標(biāo)之間的相關(guān)性較小。
待選取的特征集S和目標(biāo)類c的交互信息量由各個已選取特征fi和用于分類的目標(biāo)類c之間的所有交互信息量的平均值來決定,由式(1)定義:
(1)
集合S中冗余信息定義用已選特征fi,fj之間的互信息值的平均值,如式(2)表示:
(2)
mRMR是結(jié)合上述兩種定義,最大化式(3):
(3)
mRMR算法是最大化待選特征指標(biāo)與目標(biāo)指標(biāo)之間的信息量,最小化待選特征指標(biāo)內(nèi)部的冗余信息,指標(biāo)的選擇數(shù)目需進行定義。
SVM對不均衡數(shù)據(jù)中的多數(shù)樣本非常敏感,此時分類器無法學(xué)習(xí)少數(shù)類樣本特征,對于SVM可以選擇多個核函數(shù),從而能夠提高該分類器的準(zhǔn)確性,因此選擇Adaboost以改進傳統(tǒng)的SVM模型。AdaboostSVM算法只需通過改變模型參數(shù)來拓展SVM分類器的精度范圍。下面將詳細(xì)描述Adaboost算法。
Adaboost算法是Yoav Freund和Robert Schapire在1997年提出的解決分類的一種算法[8]。它采用對訓(xùn)練樣本進行重新加權(quán)的方式產(chǎn)生不同的樣本分布,中心思想是增加(減少)被錯誤(正確)分類的樣本權(quán)重。開始時對于每一個樣本設(shè)置權(quán)重,一般選擇簡單的平均值,在上一次分錯的分類器樣本的權(quán)重增大,其余的相應(yīng)減少,對于更新權(quán)重后的樣本繼續(xù)重復(fù)上述步驟。對于每輪訓(xùn)練的結(jié)果,用總體樣本再次訓(xùn)練弱分類器,然后賦予新的樣本權(quán)值以及該弱分類器的權(quán)重,迭代至訓(xùn)練集完全正確或者實現(xiàn)決定的次數(shù)為止。
具體過程如下:給定樣本xi∈X,分類yi∈Y={0,1},初始化D1(i)=1/M。當(dāng)t=1,…,T時,有{(x1,y1),…,(xM,yM)}。
① 使用分布概率Dt訓(xùn)練基分類器ht:X→Y。
② 計算誤差:εt=Pri~Di(hi(xi)≠yi)。
③ 選擇權(quán)重更新參數(shù)αt。
(4)
由于國內(nèi)外經(jīng)濟金融形勢的變化,為了社會融資成本的考慮,需要債券市場的穩(wěn)定發(fā)展,一旦發(fā)生債券違約,不但給上市公司帶來重大損失,市場信用還將蒙受傷害,因此對債券違約進行預(yù)警和風(fēng)險評估有助于促進證券市場穩(wěn)定發(fā)展。本文在前人債券違約預(yù)警研究基礎(chǔ)上,利用AdaboostSVM算法進一步開展債券違約預(yù)警研究,旨在提高債券違約預(yù)測的準(zhǔn)確率。
AdaboostSVM算法只通過改變參數(shù)來拓展成員Adaboost分類器的多樣性?;谏鲜隹紤],本文提出了適用于不平衡數(shù)據(jù)的分類模型ADmR-AdaboostSVM模型。該模型首先用ADASYN方法進行對少數(shù)類過采樣,提高邊界區(qū)域的少類樣本比例,然后再利用mRMR進行特征選擇,解決高維數(shù)據(jù)對分類器帶來的“維數(shù)災(zāi)難”,最后借助新的訓(xùn)練集對參數(shù)進行訓(xùn)練,得到最終的決策模型。
設(shè)訓(xùn)練數(shù)據(jù)集Dtr中具有m個樣本為{xi,yi},i=1,2,…,m,給定xi∈X,其中i=1,2,…,16,yi∈Y={0,1},在進行ADASYN采樣之后,平衡度d為1;然后利用特征選擇mRMR的方法對向量X求各個指標(biāo)之間的最大相關(guān)和最小冗余,最后不斷地訓(xùn)練模型使得參數(shù)達到最優(yōu)。
建模步驟流程如圖1所示:
圖1 建模流程圖Fig. 1 Modeling flow chart
本文選取2018年上海交易所和深證交易所發(fā)行的信用債券(公司債與企業(yè)債)作為研究樣本,其中交易所發(fā)行的信用債共有468只,實質(zhì)違約的信用債有30只。
蔣書彬[10]、蔣恒和杜立輝[11]對債券違約都做過相應(yīng)研究,通過他們的研究發(fā)現(xiàn),債券違約具有一定的階段性以及過程性,具體表現(xiàn)為違約之前大多數(shù)企業(yè)會呈現(xiàn)財務(wù)危機過度、負(fù)債等問題。而過度負(fù)債是指企業(yè)付息能力不足、資產(chǎn)負(fù)債率過高和短期融資周轉(zhuǎn)過慢,能夠部分體現(xiàn)出企業(yè)經(jīng)營不善[12]。而過度的無法償還的債務(wù)使得發(fā)行人陷入困境,這會直接導(dǎo)致債務(wù)違約。過度負(fù)債、抗風(fēng)險能力弱等是財務(wù)出現(xiàn)困境的主要特征,是債券違約產(chǎn)生的主要因素。
企業(yè)的正常經(jīng)營多數(shù)情況下都需要負(fù)債,但債務(wù)需要通過公司對資產(chǎn)創(chuàng)造的收入、利潤、現(xiàn)金流等來進行償還,因此,企業(yè)的負(fù)債需要掌握好程度,如果企業(yè)的債務(wù)超過某個閾值,企業(yè)債券違約發(fā)生的概率將會增大。本文借鑒前人指標(biāo)研究,從企業(yè)的資本結(jié)構(gòu)、盈利能力、現(xiàn)金流量、償債能力4個方面入手,準(zhǔn)確地把握企業(yè)的財務(wù)危機,對信用債券違約進行預(yù)警研究?;谝陨?個方面,篩選如下的16個指標(biāo)進行后續(xù)分析,如表1所示。
表1 預(yù)警指標(biāo)體系Table 1 Early warning index system
在建模之前,需要對數(shù)據(jù)進行篩選與清洗,其中包括臟數(shù)據(jù)清洗、缺失數(shù)據(jù)彌補與異常值的判定。對于缺失數(shù)據(jù)采取刪除或者替補的方法進行處理。若對于某個樣本存在大量缺失的指標(biāo)無法提供有效信息,則刪除這類指標(biāo)。若存在個別財務(wù)指標(biāo)缺失,選擇與其他指標(biāo)相似度較高的指標(biāo),采取K近鄰的方法進行替補。
由于違約樣本數(shù)據(jù)量明顯少于非違約樣本數(shù)據(jù)量,因此在建模之前采用ADASYN算法將數(shù)據(jù)進行擴充。違約樣本為正向數(shù)據(jù),其中訓(xùn)練集有20個正向數(shù)據(jù)和292個負(fù)向數(shù)據(jù),本文使用ADASYN算法擴充了271個正向數(shù)據(jù),這樣數(shù)據(jù)之間基本達到均衡,從而適合SVM進行更方便的處理。
如圖2和圖3的二維圖形是將成本費用利潤率X8和股權(quán)比例X15兩個指標(biāo)進行可視化ADASYN操作的過程,其中x表示違約樣本,o表示非違約樣本。經(jīng)過過采樣后樣本數(shù)據(jù)達到均衡,而且從圖中可以看出:總體樣本中,違約樣本幾乎都在成本費用利用率左側(cè),這表明成本費用利用率越高越不容易違約,而股權(quán)比例表示未持有的股份比例,這說明未持有股份越高,越有可能導(dǎo)致違約風(fēng)險提高,與經(jīng)濟學(xué)的規(guī)律相吻合,而在ADASYN抽樣之后并沒有消除這種隱含的關(guān)系,過抽樣后數(shù)據(jù)的分布更明顯,更有利于機器的學(xué)習(xí)。
圖2 原始數(shù)據(jù)Fig. 2 Raw data
圖3 采樣后數(shù)據(jù)Fig. 3 Data after sampling
本文一共選取了16個指標(biāo),并將這些指標(biāo)分為4個大類,見表1,其中每個指標(biāo)都是描述和反映公司企業(yè)生產(chǎn)、經(jīng)營與管理等各個方面能力,不同指標(biāo)之間存在不可避免的相關(guān)性與信息的交互性,而多余的信息對于本文所使用的SVM模型可能會起到過擬合的負(fù)面影響,所以對擬選的指標(biāo)進行遴選是非常必要的。指標(biāo)遴選有主成分分析(PCA)法和廣義加性模型(GAM)方法等,而PCA只是對數(shù)據(jù)內(nèi)部進行線性重組,得出較少的能夠概括大部分信息的變量,并沒有考慮到解釋變量對目標(biāo)變量的影響;GAM方法則是利用非參數(shù)回歸的置信度來表示解釋變量對于目標(biāo)變量的影響,沒有考慮到各解釋變量之間的交互信息冗余,以上兩種方法都存在缺陷。實際上這16個特征之間存在著很強的相關(guān)性與非線性關(guān)系,為此,本文提出最大相關(guān)最小冗余方法用于減少冗余解釋變量,從而降低數(shù)據(jù)分析的維度。與此同時,為了解釋變量對目標(biāo)變量的信息貢獻度與解釋變量內(nèi)部交互信息冗余,本文綜合以上兩種方法的優(yōu)點,而且保留各個變量的數(shù)據(jù),使得對最后分類解釋更加直觀。
綜上所述,本文研究基于債券違約數(shù)據(jù),采用最大相關(guān)最小冗余算法(mRMR)進行特征的提取[13],將選擇出的最優(yōu)自己作為 SVM 模型的輸入。在使用mRMR方法后,選取4個指標(biāo):長期負(fù)債率(X3)、資本收益率(X7)、成本費用利潤率(X8)以及股權(quán)比例(X15)。其中長期負(fù)債率為資本結(jié)構(gòu)指標(biāo),它表示的是公司長期的負(fù)債狀況,長期負(fù)債率越高,表示企業(yè)債務(wù)的負(fù)擔(dān)越重,對企業(yè)的償債能力產(chǎn)生負(fù)向的影響;資本收益率越高表面企業(yè)的預(yù)計盈利能力越強,能夠帶給公司充足的現(xiàn)金流,對企業(yè)的債務(wù)償還與再融資幫助很大,對企業(yè)的債券償還有著正向的作用;成本費用利潤率是指企業(yè)一定期間的利潤總額與成本、費用總額的比率,該指標(biāo)衡量的是企業(yè)的全部勞動帶來多少利潤,能夠綜合反映出該企業(yè)的經(jīng)濟效應(yīng)水平,能夠代表企業(yè)的盈利質(zhì)量,也能有一部分對企業(yè)的償債有正向推動作用;股權(quán)比例和長期負(fù)債率都是表示企業(yè)的債務(wù)負(fù)擔(dān)量,都是負(fù)向的影響。用這4個指標(biāo)進行分類,理論上可以得到較好的結(jié)果,并在結(jié)果分析中得到驗證。
在評估不均衡樣本數(shù)據(jù)集的分類性能時,傳統(tǒng)的性能評估指標(biāo)已經(jīng)不合適。針對傳統(tǒng)性能評估存在的缺陷,采用二分類樣本集的混淆矩陣,混淆矩陣會對預(yù)測結(jié)果與實際結(jié)果進行分類、對比、匯總,將樣本劃分為真正類(TP)、真負(fù)類(FN)、假正類(FP)、假負(fù)類(TN),具體如表2說明。
表2 性能評估混淆矩陣Table 2 Performance evaluation confusion matrix
本文使用3種評估標(biāo)準(zhǔn)。
(1)總體精度(OA):
(2)正類預(yù)測值定義為查準(zhǔn)率,表示預(yù)測正確的樣本所占的比例:
(3)真實正類率或者叫查全率,表示正確正類占所有預(yù)測樣本的比例:
本文利用ADmR-AbaboostSVM算法對債券違約進行預(yù)警判斷。為了對所采用的分類算法做出評估,針對這一分類方法的性能在基于相同檢驗集的基礎(chǔ)上,將其與AdaboostSVM,mRMR-AdaboostSVM,AD-AdaboostSVM 3種算法進行比較,結(jié)果如表3所示。
表3 評估結(jié)果表Table 3 Evaluation result table
如表3所示,總體精度(OA)最高達到92%,是由于原始數(shù)據(jù)的正類數(shù)據(jù)(違約樣本)過少導(dǎo)致AdaboostSVM對于正類數(shù)據(jù)幾乎無敏感度,分類器無法學(xué)習(xí)違約樣本的特征,將所有的樣本全部預(yù)測為非違約樣本,雖然結(jié)果總體精度顯著,但沒有應(yīng)用價值。相對于之后的改進模型,雖然總體精度更低,但更容易找出違約樣本。在研究債券預(yù)警問題中,識別出違約債券才是關(guān)鍵。從表3中可以看出后兩種方法要優(yōu)于不經(jīng)過過采樣的數(shù)據(jù)集,而在mRMR提取信息之后的樣本中可以發(fā)現(xiàn)查準(zhǔn)率略有提高,說明mRMR方法應(yīng)用在債券預(yù)警上有更好效果。為了進一步評價模型精度,本文通過比較各個算法的ROC曲線以及得分值做出更客觀的評價(圖4—圖7)。
圖4 AdaboostSVM模型ROC曲線Fig. 4 ROC curve of AdaboostSVM model
圖5 AD-AdaboostSVM模型ROC曲線Fig. 5 ROC curve of AD-AdaboostSVM model
圖6 mR-AdaboostSVM模型ROC曲線Fig. 6 ROC curve of mR-AdaboostSVM model
圖7 ADmR-AdaboostSVM模型ROC曲線Fig. 7 ROC curve of ADmR-AdaboostSVM model
表4 算法效果比較Table 4 Comparison of algorithm effects
如圖4所示,在非違約債券數(shù)量占比非常大時,ROC曲線很接近右下方,識別出違約債券的概率非常小,進行樣本均衡化之后總體精度明顯提高(如表4所示)。從圖5和圖6可知,在研究債券違約問題上,高維數(shù)據(jù)雖然會影響分類器的準(zhǔn)確率,但遠不及數(shù)據(jù)不均衡化給分類器帶來誤判率的災(zāi)難。由圖7可知,在數(shù)據(jù)均衡化之后再進行特征選擇,ROC曲線的面積進一步擴大,由表4可知,ADmR-AbaboostSVM的判別準(zhǔn)確率在違約樣本數(shù)量較小時可以達到85%左右,說明該模型獲得了更好的分類性能。
本文選擇Adaboost下的SVM模型是為了更好地擬合訓(xùn)練數(shù)據(jù),單純的SVM容易受樣本量和缺失值的影響,而在Adaboost下可以很好地訓(xùn)練樣本,使模型得到更好地擬合和預(yù)測能力。
債券樣本中存在大量的不違約樣本與少量的違約樣本,如果直接運用常規(guī)的AdaboostSVM方法,則會使分類器對正常樣本“過度學(xué)習(xí)”,從而大大削弱分類器對違約的少數(shù)類樣本的擬合能力和預(yù)測精度。本文通過信用債預(yù)警指標(biāo)體系,從企業(yè)資本結(jié)構(gòu)、盈利能力、現(xiàn)金流量、償債能力4個維度刻畫和評價發(fā)債主體的財務(wù)特征,使用ADASYN進行人工合成新樣本,正負(fù)類配對比例為1∶1,改進了AdaboostSVM方法對違約樣本預(yù)測性能,用檢驗集對模型進行預(yù)測,得出模型AUC值為78%,效能相較于AdaboostSVM模型提高了14%,取得了較好的預(yù)測效果。
特征選擇是分類中的一個重要步驟,由于債券預(yù)警指標(biāo)之間存在大量的相關(guān)性和冗余,通過利用mRMR特征選擇的方法對變量進行特征選擇,最終預(yù)測效果為85%,債券違約的識別率進一步提高。相較于樣本均衡化,單純的特征選擇并未取得很好的效果,說明數(shù)據(jù)不均衡問題是影響債券預(yù)警模型精度的主要原因。
本文的不足之處在于債券公司的樣本過少,無法使用交叉驗證的方法來調(diào)整參數(shù)得到最優(yōu)值,而只能通過以往的經(jīng)驗來確定參數(shù)的大小;其次應(yīng)該更注重違約公司,對于很多無法分類為違約公司的確認(rèn)違約公司,有待做出進一步分析。