梁文婷 李強(qiáng)
(貴州財(cái)經(jīng)大學(xué)大數(shù)據(jù)應(yīng)用與經(jīng)濟(jì)學(xué)院,貴州 貴陽(yáng) 550025)
農(nóng)業(yè)是我國(guó)國(guó)民經(jīng)濟(jì)發(fā)展的基礎(chǔ),農(nóng)業(yè)類上市公司是我國(guó)農(nóng)業(yè)行業(yè)的領(lǐng)頭羊,代表我國(guó)社會(huì)的最高農(nóng)業(yè)生產(chǎn)水平,因此,農(nóng)業(yè)類公司的穩(wěn)健發(fā)展和風(fēng)險(xiǎn)管理水平對(duì)于我國(guó)經(jīng)濟(jì)的穩(wěn)定發(fā)展具有重要意義。我國(guó)農(nóng)業(yè)類上市公司因行業(yè)特征,可能會(huì)遭遇農(nóng)產(chǎn)品的市場(chǎng)價(jià)格波動(dòng)大、生產(chǎn)周期長(zhǎng)、易腐爛變質(zhì)和自然災(zāi)害導(dǎo)致農(nóng)產(chǎn)品減產(chǎn)等情況,由此產(chǎn)生風(fēng)險(xiǎn),且農(nóng)業(yè)類公司因抵押物少和季節(jié)性資金需求量大,難以得到充足的資金支持。因此,亟需分析農(nóng)業(yè)類上市公司的信用風(fēng)險(xiǎn)情況,為商業(yè)銀行發(fā)放農(nóng)業(yè)貸款提供參考。
目前,許多學(xué)者都進(jìn)行了關(guān)于農(nóng)業(yè)類上市公司信用風(fēng)險(xiǎn)評(píng)估的研究,其中使用最多的評(píng)估模型是KMV模型和Logistic模型。劉玎琳等用改進(jìn)的KMV模型測(cè)度我國(guó)14家農(nóng)業(yè)上市公司的信用風(fēng)險(xiǎn),研究發(fā)現(xiàn),農(nóng)業(yè)上市公司的資產(chǎn)價(jià)值都比股權(quán)價(jià)值高,說(shuō)明其發(fā)展前景良好;其資產(chǎn)價(jià)值波動(dòng)率整體處于下降趨勢(shì);其信用風(fēng)險(xiǎn)大多是先上升后下降和持續(xù)下降的趨勢(shì),信用狀況較差[1]。方煥等建立供應(yīng)鏈金融信用風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)體系,用主成分分析法和Logistic模型測(cè)度農(nóng)業(yè)類企業(yè)風(fēng)險(xiǎn),預(yù)測(cè)企業(yè)是否違約,研究發(fā)現(xiàn)該模型的整體預(yù)測(cè)準(zhǔn)確率為86.27%[2]。李延敏等對(duì)47家國(guó)家重點(diǎn)農(nóng)業(yè)產(chǎn)業(yè)化龍頭企業(yè)進(jìn)行KMV模型的測(cè)算,研究發(fā)現(xiàn),該模型可以很好地度量信用風(fēng)險(xiǎn),但這些企業(yè)參與農(nóng)村金融聯(lián)結(jié)的程度對(duì)違約風(fēng)險(xiǎn)的影響較小[3]。曾梓銘對(duì)58家上市農(nóng)業(yè)中小企業(yè)的財(cái)務(wù)數(shù)據(jù)進(jìn)行因子分析,分別構(gòu)建Logistic模型和支持向量機(jī)信用風(fēng)險(xiǎn)評(píng)估體系,進(jìn)行實(shí)證研究,發(fā)現(xiàn)SVM模型的準(zhǔn)確率為94.0%,而Logistic模型為88.8%,且SVM模型的第一類錯(cuò)誤率比Logistic模型低[4]。熊桃圓等利用主成分分析和Logistic模型測(cè)度農(nóng)業(yè)類上市公司的信用風(fēng)險(xiǎn),研究發(fā)現(xiàn)第一類和第二類錯(cuò)誤率分別為42.9%和1.2%[5]。任君等對(duì)45家農(nóng)業(yè)上市公司進(jìn)行因子分析,消除指標(biāo)的多重共線性,并用向后去除、逐步向后選擇方法建立Logistic模型,度量我國(guó)農(nóng)業(yè)類企業(yè)的信用風(fēng)險(xiǎn),研究發(fā)現(xiàn)該模型總體預(yù)測(cè)準(zhǔn)確率為77.18%[6]。
近幾年,許多學(xué)者將XGBoost模型運(yùn)用于金融領(lǐng)域。張培榮構(gòu)建XGBoost財(cái)務(wù)危機(jī)預(yù)警模型對(duì)制造業(yè)上市公司進(jìn)行實(shí)證研究,選出最重要的幾個(gè)財(cái)務(wù)指標(biāo),并與Logistic回歸模型作對(duì)比,發(fā)現(xiàn)XGBoost預(yù)警模型的預(yù)測(cè)效果更好[7]。陸健健等構(gòu)建基于XGBoost算法的金融客戶信用評(píng)估模型,實(shí)證研究發(fā)現(xiàn),相比隨機(jī)森林和GBDT,基于XGBoost的個(gè)人信用評(píng)估模型的準(zhǔn)確率最高[8]。王行等基于XGBoost的上市公司財(cái)務(wù)違約預(yù)測(cè)模型,預(yù)測(cè)制造業(yè)上市公司的財(cái)務(wù)違約情況,研究表明,相比邏輯回歸、支持向量機(jī)、決策樹(shù)和隨機(jī)森林,XGBoost模型具有較高的預(yù)測(cè)精度,總體準(zhǔn)確率為91.48%[9]。劉斌等用特征工程和SMOTE處理數(shù)據(jù),并基于XGBoost構(gòu)建貸款風(fēng)險(xiǎn)預(yù)測(cè)模型,研究表明,相比邏輯回歸和隨機(jī)森林,XGBoost模型的準(zhǔn)確率高達(dá)95%,預(yù)測(cè)效果最好[10]。
綜上所述,大多學(xué)者用KMV模型和Logistic模型評(píng)估農(nóng)業(yè)類上市公司的信用風(fēng)險(xiǎn),現(xiàn)有文獻(xiàn)雖然用XGBoost模型評(píng)估制造業(yè)上市公司、P2P網(wǎng)貸平臺(tái)和個(gè)人信用的風(fēng)險(xiǎn)情況,但未有學(xué)者用XGBoost模型評(píng)估農(nóng)業(yè)類上市公司的信用風(fēng)險(xiǎn)?;谏鲜鰞?nèi)容,本文選取農(nóng)業(yè)類上市公司作為研究對(duì)象,建立農(nóng)業(yè)類上市公司信用風(fēng)險(xiǎn)指標(biāo)體系,基于XGBoost算法構(gòu)建農(nóng)業(yè)類上市公司信用風(fēng)險(xiǎn)評(píng)估模型,探究XGBoost模型是否能有效評(píng)估農(nóng)業(yè)類上市公司信用風(fēng)險(xiǎn),并將實(shí)驗(yàn)結(jié)果與經(jīng)典機(jī)器學(xué)習(xí)模型(決策樹(shù)和隨機(jī)森林模型)作對(duì)比實(shí)驗(yàn),看其在準(zhǔn)確度等評(píng)價(jià)指標(biāo)上是否更優(yōu)越。
本文選取48家農(nóng)林牧漁上市公司作為研究對(duì)象,數(shù)據(jù)為各公司2020年年報(bào)中的財(cái)務(wù)數(shù)據(jù)。在48家農(nóng)業(yè)類上市公司中,有2家被標(biāo)記為ST,有4家被標(biāo)記為*ST,因此,本文將這6家公司作為高信用風(fēng)險(xiǎn)公司,此時(shí)將被解釋變量y記為1。與此同時(shí),將其他的42家公司作為低信用風(fēng)險(xiǎn)公司,此時(shí)將被解釋變量y記為0。
本文根據(jù)前人學(xué)者關(guān)于農(nóng)業(yè)類上市公司信用風(fēng)險(xiǎn)指標(biāo)體系,從5個(gè)大類中選取了19個(gè)指標(biāo),構(gòu)建新的農(nóng)業(yè)類上市公司信用風(fēng)險(xiǎn)指標(biāo)體系。從公司基本信息、償債能力、財(cái)務(wù)指標(biāo)、經(jīng)營(yíng)能力、盈利能力和成長(zhǎng)能力這5個(gè)方面來(lái)建立農(nóng)業(yè)類上市公司風(fēng)險(xiǎn)信用風(fēng)險(xiǎn)指標(biāo)體系。農(nóng)業(yè)類上市公司信用風(fēng)險(xiǎn)指標(biāo)體系建立如表1。
表1 農(nóng)業(yè)類公司信用風(fēng)險(xiǎn)指標(biāo)說(shuō)明
本文構(gòu)建的農(nóng)業(yè)類上市公司信用風(fēng)險(xiǎn)指標(biāo)均在建模前的數(shù)據(jù)預(yù)處理階段采用標(biāo)準(zhǔn)化處理,本文采用的標(biāo)準(zhǔn)化處理方法為min-max標(biāo)準(zhǔn)化,公式:
式中,x*是標(biāo)準(zhǔn)化后的變量值;x是實(shí)際變量值;min是最小值;max是最大值。
本文采用SMOTE算法來(lái)處理不平衡數(shù)據(jù)集。本文數(shù)據(jù)集共有48個(gè)樣本,分為2類:42個(gè)0類,6個(gè)1類。因該數(shù)據(jù)為不平衡數(shù)據(jù),且1類樣本過(guò)少,所以需要對(duì)合并樣本進(jìn)行過(guò)采樣,復(fù)制少數(shù)類樣本以增加少數(shù)類樣本占比。
3.2.1 混淆矩陣、準(zhǔn)確率、精準(zhǔn)率、召回率和f1_score
混淆矩陣是一個(gè)誤差矩陣,用圖表直觀的評(píng)估監(jiān)督學(xué)習(xí)算法的性能。本文以二分類混淆矩陣為基礎(chǔ),介紹各評(píng)價(jià)指標(biāo)。
表2 混淆矩陣
準(zhǔn)確率(accuarcy)是正確預(yù)測(cè)的樣本數(shù)占總樣本的比例。準(zhǔn)確率的公式:
精準(zhǔn)率(precision)是正確預(yù)測(cè)的正樣本占預(yù)測(cè)正樣本的比例。精準(zhǔn)率的公式:
召回率(recall)是正確預(yù)測(cè)的正樣本占總正樣本的比例。召回率的公式:
f1_score是精確率和召回率的調(diào)和平均數(shù)。f1_score的公式:
3.2.2 ROC曲線、AUC值
ROC曲線是用圖直觀的來(lái)評(píng)估模型好壞,ROC曲線是以真正率(TPR)為縱坐標(biāo),假正率(FPR)為橫坐標(biāo)的曲線。重點(diǎn)關(guān)注預(yù)測(cè)后的正樣本,并且從正負(fù)2個(gè)樣本集合角度分析。本文ROC曲線采用x軸為1-Specificity,y軸為Sensitivity的曲線。
AUC值是ROC曲線下的面積,是基于ROC衍生的非常好的可量化的評(píng)價(jià)標(biāo)準(zhǔn),ROC曲線是越陡峭越好,即AUC越大越好。通常情況下,AUC的取值范圍是[0.5,1],是一種評(píng)價(jià)分類模型好壞的指標(biāo)。
3.2.3 實(shí)證結(jié)果分析及對(duì)比
本文通過(guò)將數(shù)據(jù)分別進(jìn)行基于決策樹(shù)、隨機(jī)森林和XGBoost 3種農(nóng)業(yè)類上市公司信用風(fēng)險(xiǎn)評(píng)估模型的學(xué)習(xí)和預(yù)測(cè),此實(shí)驗(yàn)過(guò)程是由Python實(shí)現(xiàn)。從準(zhǔn)確率、精準(zhǔn)率、召回率、f1_score、ROC曲線和AUC值等評(píng)估指標(biāo)進(jìn)行各模型的分析對(duì)比。
通過(guò)決策樹(shù)、隨機(jī)森林和XGBoost 3種算法對(duì)農(nóng)業(yè)類上市公司信用風(fēng)險(xiǎn)的評(píng)估,得到表3的實(shí)驗(yàn)結(jié)果。從準(zhǔn)確率、精準(zhǔn)率、召回率和f1_score 4個(gè)指標(biāo)來(lái)看,XGBoost的各評(píng)價(jià)指標(biāo)都要優(yōu)于決策樹(shù)和隨機(jī)森林。但總體來(lái)說(shuō),3種算法的準(zhǔn)確率均在90%以上,說(shuō)明3種算法在評(píng)估農(nóng)業(yè)類上市公司信用風(fēng)險(xiǎn)上具有較高的可行性。其中,XGBoost的準(zhǔn)確率更是高達(dá)97.62%,是3種算法中最適宜評(píng)估農(nóng)業(yè)類上市公司信用風(fēng)險(xiǎn)的模型。表中XGBoost的召回率為100%,可能是因?yàn)閿?shù)據(jù)太少,且負(fù)樣本的數(shù)量太少,造成分類數(shù)據(jù)過(guò)擬合。
表3 3種算法的實(shí)驗(yàn)結(jié)果
由基于決策樹(shù)、隨機(jī)森林和XGBoost算法的農(nóng)業(yè)類上市公司信用風(fēng)險(xiǎn)評(píng)估模型得到的ROC曲線如圖1~3所示。其中ROC曲線圍成的面積,即AUC值分別為0.9632、0.9813和0.9983。XGBoost比決策樹(shù)和隨機(jī)森林的AUC值大,說(shuō)明XGBoost模型的分類效果最好。
本文通過(guò)建立農(nóng)業(yè)類上市公司信用風(fēng)險(xiǎn)指標(biāo)體系,選取2020年48家農(nóng)林牧漁上市公司的財(cái)務(wù)數(shù)據(jù)作為數(shù)據(jù)集,通過(guò)標(biāo)準(zhǔn)化和SMOTE過(guò)采樣處理,利用決策樹(shù)、隨機(jī)森林和XGBoost 3種機(jī)器學(xué)習(xí)算法構(gòu)建農(nóng)業(yè)類上市公司信用風(fēng)險(xiǎn)評(píng)估模型,通過(guò)實(shí)驗(yàn)分析比較得出,3種算法的準(zhǔn)確率均在90%以上,都能有效評(píng)估農(nóng)業(yè)類上市公司信用風(fēng)險(xiǎn)。其中基于XGBoost算法的農(nóng)業(yè)類上市公司信用風(fēng)險(xiǎn)評(píng)估模型的預(yù)測(cè)效果是最好的,準(zhǔn)確率高達(dá)97.62%。通過(guò)3種算法的ROC曲線可知,XGBoost模型的AUC值比決策樹(shù)和隨機(jī)森林的都要大,說(shuō)明XGBoost模型的分類效果最好。