• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    Benford與XGBoost模型融合的財務風險預警研究
    ——基于2000-2021年滬深A股上市公司數(shù)據(jù)分析

    2024-02-19 11:44:36劉亞麗
    財會研究 2024年1期
    關鍵詞:財務指標分類器預警

    王 沖 劉亞麗

    一、引言

    公司的經(jīng)營必然會與風險相伴,這讓公司的未來充滿了更多的不確定因素。如果公司沒有控制好自己的風險,就會導致公司陷入財務危機。一般而言,公司倒閉危機初期總會出現(xiàn)一些局部問題。在財務方面,它會呈現(xiàn)為單個和與之有關的指標的異常,這就是所謂的財務風險預警。一個有效的財務風險預警系統(tǒng),可以對企業(yè)運營管理進行預警,防止企業(yè)破產(chǎn)。企業(yè)的財務風險受多種因素的影響,而各種因素的作用最后又會通過財務指標反映到企業(yè)。所以,要對財務危機企業(yè)和正常企業(yè)在財務指標上存在的不同點進行分析,找到財務風險與財務指標之間的關系,構建出危機預警模型,這樣能夠使公司高管及時判斷、預防及管控財務危機。

    隨著信息化進程的加快,財務風險的預測已由傳統(tǒng)的統(tǒng)計學方法向更加智能、更加精確的人工智能方法發(fā)展。流行的基于機器學習(ML)的財務風險預警模型包括樸素貝葉斯(NB)、神經(jīng)網(wǎng)絡(NNS)、K-近鄰(KNN)、支持向量機(SVM)、決策樹(DT)等。集成學習算法是將多個弱分類器聚合為一個較強分類器,被認為是主流的基于ML 的模型(Pavlicko et al.,2021;Yan et al.,2020)。像梯度提升樹模型(GBDT)(Liu et al.,2022)這樣的增強集成方法被認為是財務風險預警的流行解決方案。

    然而現(xiàn)有研究較少考慮財務數(shù)據(jù)質(zhì)量的問題,最近幾年國家一直在加強對上市公司的監(jiān)督。但是財務舞弊仍然時有發(fā)生,迫切需要探索一種新的財務風險預警模式(錢蘋和羅玫,2015)。財務舞弊指的是一家公司為了虛報利潤,來美化價值表現(xiàn),利用各種手段,刻意修改自己的財務指標數(shù)據(jù),從而高估自己的資產(chǎn)或低估自己的負債(余思明等,2020)。會計造假會造成會計信息的扭曲,使會計信息質(zhì)量下降,從而對會計信息的風險預警能力產(chǎn)生很大的影響。在構建財務風險預警模型的時候,一定要對財務數(shù)據(jù)質(zhì)量問題所帶來的影響進行充分的考量,從而提升對財務風險預警模型進行預測的精度(楊貴軍等,2019)。

    本文考慮到財務舞弊等原因對財務數(shù)據(jù)質(zhì)量的影響,以我國A股上市公司2000-2021年的財務數(shù)據(jù)為研究樣本,根據(jù)Benford 律構造Benford 因子,構建基于集成方法XGBoost的財務風險預警模型,本文的研究成果將為企業(yè)在危機發(fā)生前預警、防范風險、提升企業(yè)經(jīng)營效率等提供參考。

    二、財務風險預警研究進展

    1930 年至今,針對企業(yè)財務風險預警的研究方法從開始的趨勢分析、判別分析,再到現(xiàn)在的人工智能技術,從傳統(tǒng)的計量模型再到機器學習模型和深度學習模型的應用,財務風險預警模型的研究日漸成熟,為企業(yè)財務風險預警研究奠定了基礎。

    對公司破產(chǎn)危機預警的研究,國外相對更早一些。1920 年起,針對財務比率的分析就已經(jīng)在企業(yè)財務狀況分析中占據(jù)重要地位,例如著名的杜邦分析法,通過幾個重要財務指標之間的分解和聯(lián)系,從而綜合分析企業(yè)的財務狀況。這是一種經(jīng)典的財務業(yè)績評價方法,一直被沿用至今。而學術界認可的最早的財務風險預警研究,即單變量分析,也是基于財務指標進行預測。單變量預警模型最早由Beaver(1966)所提出的,該模型是研究某個單一的財務指標的變化趨勢,從而對公司未來的危機進行預警。他的研究選取了158 家企業(yè)作為樣本量,并采用AB測試,即79家為危機企業(yè),再找79家行業(yè)和規(guī)模與之相匹配的正常企業(yè)進行對比分析,選取了30個財務指標進行研究,時間窗口為1954-1964 年期間。研究表明正常企業(yè)和陷入財務危機的企業(yè)財務指標之間存在較大差異,通過單變量的差異分析對財務風險預警有一定作用。然而該模型的問題也很明顯,僅通過單一變量去預測企業(yè)整體財務狀況是不準確的。單變量預警模型隨機性和抗干擾性較弱,容易受到外部因素的干擾而得出錯誤結論。于是,Ratios(1968)提出了基于Beaver單變量模型的改進模型多元變量模型,也就是著名的Z-Zscore 模型。該模型的核心是采用多元線性判別方法,用多個指標測試財務風險,然后通過賦權綜合計量得出一個計量值Z 值。通過判斷Z 值的大小來預測企業(yè)整體財務風險的可能性,該值越大發(fā)生危機的可能性越高,相反則越低。雖然該模型改進了單變量模型的不足之處,但實際應用中很難滿足該模型苛刻的統(tǒng)計假設前提。

    在國外學者提出將判別模型應用于財務風險預警研究并取得顯著效果后,國內(nèi)的學者通過借鑒國外的經(jīng)驗在該領域的研究也迅速發(fā)展起來。最早由吳世農(nóng)和黃世忠(1987)將判別模型應用與國內(nèi)企業(yè)財務風險預警,驗證了該模型在國內(nèi)企業(yè)同樣適用。后來的陳靜(1999)同樣借鑒了國外的研究方法,選取國內(nèi)ST 和非ST 配比公司各27 家做AB 測試對比實驗,并分別進行單變量和多變量判別模型預測,研究驗證了多元判別模型的預測準確性效果更好。隨后的張玲(2000)在陳靜的研究基礎上,以A 股上市公司為研究樣本進行實驗,結果進一步驗證了上述結論。周首華等(1996)在改進Z-score 模型基礎上提出F-score 模型,與Z 計分模型相比,F(xiàn)-score加入了現(xiàn)金流量自變量,充分考慮了在財務危機預警中現(xiàn)金流量比率這一有效變量。

    無論是單變量模型還是多元線性判別模型都存在其方法論的假設條件,如樣本需滿足高斯分布,且變量之間不存在多重共線性及配比樣本均方差矩陣相等。為了提高模型的適用性和有效性,Martin(1977)選擇了較低樣本分布要求并且適用性更廣的Logistic 回歸模型,與線性回歸模型相比,logistic 不要求樣本數(shù)據(jù)服從正態(tài)分布以及相關嚴苛的前提條件,打破了傳統(tǒng)線性判別方法難以實際應用的困境。Martin的研究表明,與傳統(tǒng)線性判別模型相比,Logistic模型的財務風險預測效果更好。Ohlson(1980)截取1970-1976 年間105 家危機企業(yè)和2058 家非危機企業(yè)為研究對象,發(fā)現(xiàn)非財務指標,如企業(yè)規(guī)模、資本結構等也能預測財務風險。吳世農(nóng)和盧賢義(2001)以國內(nèi)企業(yè)為樣本采用相同指標體系,進行多元判別模型和Logistic 模型預測財務風險對比實驗,驗證了logistic模型的預測精度更高。此后一些學者對Logistic回歸預警模型的參數(shù)估計方法進行研究,如Jabeur(2017)應用偏最小二乘法對于精模型進行求解,并考慮了缺失數(shù)據(jù)的處理。

    人工智能的發(fā)展加速了各個領域的研究發(fā)展,越來越多的學者傾向于將計算功能強大的人工智能技術引入財務風險預警研究。神經(jīng)網(wǎng)絡算法是人工智能技術的一個基礎算法,源于模擬人腦神經(jīng)的研究。相較于線性判別模型和logistic 這些傳統(tǒng)數(shù)量統(tǒng)計計量模型,神經(jīng)網(wǎng)絡對樣本要求較低,沒有統(tǒng)計假設前提,適用性更強而且預測準確性高。Dutta(1988)在研究債權等級分類時最早引入神經(jīng)網(wǎng)絡進行研究。Odom(1990)在對財務風險預警研究中,將線性判別模型和神經(jīng)網(wǎng)絡做對比,發(fā)現(xiàn)神經(jīng)網(wǎng)絡模型的預測效果更好。我國最早關于神經(jīng)網(wǎng)絡財務風險預警的研究是1995年黃小原發(fā)表的文章,但也僅是理論闡述。王玉冬等(2018)分別對比了FOA和PSO這兩種算法優(yōu)化后的BP模型的預測效果,研究發(fā)現(xiàn)后者的性能更優(yōu)。

    除神經(jīng)網(wǎng)絡外,作為機器學習中備受歡迎的支持向量機(SVM)算法也被應用于財務風險預警研究。它是一種以統(tǒng)計理論為基礎的ML 方法。該方法泛化能力強,在各種實際問題中表現(xiàn)優(yōu)秀。Li et al.(2014)將SVM、Logistic 和Z 模型進行對比實驗,結果顯示SVM 的預測準確性更高。劉玉敏等(2017)構造了PCA-PSO-SVM 財務風險預警模型,先用PCA降維,再用粒子群算法對SVM進行優(yōu)化,得到比單一SVM預測性能更好的優(yōu)化模型。

    隨著人工智能技術漸漸成熟,研究者開始傾向于融合多個模型的集成學習算法,集成學習方法是將多個弱分類器整合起來構造一個強分類器,通過整合多個學習器,可以得到比單一分類器明顯優(yōu)越的泛化性能,目前被認為是基于ML 的主流研究方法。West et al.(2005)為了使單一分類器盡可能有較大的差異,于是采用bagging 提升方法構造企業(yè)風險預警模型,并和神經(jīng)網(wǎng)絡模型對比,實驗證明了集成學習算法的優(yōu)越性。同年謝紀剛等(2005)也采用bagging 方法,以國內(nèi)上市企業(yè)為樣本構造了國內(nèi)企業(yè)財務危機預警模型。Choi et al.(2018)提出了一種基于集成分類器的承包商財務困境預測模型,將六個單分類器,如支持向量機(SVM)、人工神經(jīng)網(wǎng)絡(ANN)、邏輯回歸(LR)、決策樹(CART)、K 近鄰(KNN)和樸素貝葉斯(NB)分別和綜合這六個模型的集成分類器相比較,利用2007-2012 年韓國承包商的財務報表評估了模型的預測準確性,研究顯示集成分類模型的預測性能比單一分類器的效果好。Wang et al.(2018)發(fā)現(xiàn)在以往的研究中,文本信息,情緒信息等非財務信息預測信息和階層失衡問題往往被忽略,于是他們用CSMAR 數(shù)據(jù)庫中的上市公司為研究樣本,將情感和文本信息結合到集成隨機子空間方法(ISTRS)中進行財務風險預警。結果表明,該方法能夠顯著提高財務困境預測性能。Xu et al.(2021)將定性分類器(專家系統(tǒng)法,ES)和定量分類器(卷積神經(jīng)網(wǎng)絡,CNN)相結合,并且引入互聯(lián)網(wǎng)搜索指數(shù)作為財務困境預測的新變量,通過構建每個分類器的軟集表示,然后利用軟集上的最優(yōu)決策來識別企業(yè)的財務狀況,結果表明該模型的準確性和穩(wěn)定性方面有較好的表現(xiàn)。Liu et al.(2021)提出了一種用于信用評分的多粒度多層梯度增強決策樹(GBDT)。多層GBDT考慮了基于樹的模型的顯示學習過程和區(qū)分申請人好壞的表示學習能力的優(yōu)勢。在6個信用評分數(shù)據(jù)集上的實驗結果表明,分層結構可以有效的減少信用評分數(shù)據(jù)集的類內(nèi)距離,增加信用評分數(shù)據(jù)集的類間距離,從而進一步提高信用評分的性能。

    國內(nèi)外大量文獻均已證實了機器學習人工智能對公司財務風險預警的良好表現(xiàn),但少有關注財務數(shù)據(jù)質(zhì)量對集成學習模型預測準確性影響的研究?,F(xiàn)實中,為了避免持續(xù)虧損導致的“退市”,企業(yè)常常會產(chǎn)生“粉飾”的心理,隨著企業(yè)的經(jīng)營業(yè)績不斷惡化,企業(yè)對會計信息的控制也會不斷增強。所以,在上市公司存在著財務數(shù)據(jù)操縱的情況下,財務風險預警研究應該將企業(yè)的財務數(shù)據(jù)質(zhì)量作為重點,建立預警指標體系并建立預警模型時,應該將財務指標和數(shù)據(jù)質(zhì)量結合起來。Benford定律是一種基于財務數(shù)據(jù)開頭數(shù)字的分布規(guī)則,它可以用來檢驗財務指標數(shù)據(jù)的質(zhì)量。如果一組數(shù)據(jù)的頭位數(shù)字的觀察頻率與Benford 律不符合,則很大概率有人為操縱的嫌疑(Nigrini &Mittermaier,1997)。而Benford 定律可以有效地鑒別出各類財務信息的造假行為,并被廣泛地應用于會計理論與實踐中。趙瑩等(2007)利用Benford 定律,對危機和正常兩類公司的凈利潤特征第一個數(shù)值分布情況進行了檢驗,并得出了A股凈利潤的數(shù)值操作規(guī)則。羅琪(2020)也是用相同的方式,把Benford 因子加入到SVM中,最后得出的結論是,Benford因子可以幫助預測一家公司是否會出現(xiàn)財務危機,帶有Benford因子的組合模型的預測效果更好。楊貴軍等(2022)除了構造Benford 因子外,還根據(jù)Myer 指標構造了Myer 因子,帶入到BP 模型進行預測,研究表明:兩種因子都提高了BP 模型預測的精度。因此,本文用Benford 律來檢驗財務指標的有效性和真實性,構造Benford-XGBoost預警模型,一方面既發(fā)揮了XGBoost集成分類器的優(yōu)勢,又能保證用于預警的數(shù)據(jù)集的數(shù)據(jù)質(zhì)量,從而保證預警模型的有效性。

    三、Benford因子

    (一)Benford定律

    Benford 定律是指任何未經(jīng)過人工刻意設計的自然數(shù)據(jù),其第一個數(shù)字的排列分布具有一定的規(guī)律。即數(shù)字1 到9 的概率分布是單調(diào)遞減的,Hill(1995)給出了Benford定律的數(shù)學公式。記d=1,2,3,...,9,首位數(shù)字D為d的概率為:

    在一組數(shù)據(jù)中,統(tǒng)計每個樣本的第一順位數(shù)字出現(xiàn)頻率,若滿足上述公式,即表明數(shù)據(jù)的質(zhì)量好。判斷第一順位數(shù)字分布律是否滿足Benford律的一般方法為χ2擬合優(yōu)度檢驗,公式如下:

    公式(2)中N 為樣本量、fd為d 的觀測頻率、fB,d為Benford定律。若χ2值超過10%顯著的臨界值,則否定原假設,并且財務數(shù)據(jù)第一位數(shù)字的頻率被認為與Benford定律不一致。然而通過這種方法,只能總體評判出該組數(shù)據(jù)質(zhì)量的好壞,但并不能定位到某個具體樣本點。因此,本文參考楊貴軍等(2022)的研究,構造Benford因子帶入XGBoost模型。

    (二)數(shù)據(jù)質(zhì)量因子的構造方法

    假設X(ii=1,2,3,...n)為不符合Benford定律有質(zhì)量問題的變量數(shù)據(jù),記Xi第一位數(shù)字d的觀測頻率fd與Benford定律的理論頻率fB,d的差值為。

    依據(jù)Benford定律的顯著性檢驗原理,指標Xi(i=1,2,3,...n)的某個首位數(shù)字觀測頻率不同于理論頻率極有可能存在舞弊操作,并且這種操作往往會存在某種傾向,實際表現(xiàn)為首位數(shù)字的觀測頻率會遠大于理論頻率。因此,本文將首位數(shù)字中觀測頻率高于理論頻率的最大數(shù)字視為風險值。記差值最大且為正數(shù)的首位數(shù)字為ui,差值最小且為負數(shù)的首位數(shù)字為ni,有如下公式:

    考慮到差值的正負,有兩種指標Xi(i=1,2,3,...n)的Benford 質(zhì)量因子構造方式。記為Ci s和Cs,如公式(6)和(7)所示:

    公式(6)和(7)中,若觀測樣本點S的指標Xi,s的首位數(shù)字滿足ui,則取值1,否則取值0,Cs同理。

    (三)基于Benford定律的XGBoost模型

    在已收集的數(shù)據(jù)集E={(X1,Y1),(X2,Y2),...,(Xn,Yn)}(其中Xi=(Xi,1,Xi,2,...Xi,k)表示自變量,Yi表示分類變量,n 為樣本量,k 為指標個數(shù))的基礎上,利用Benford 定律理論對數(shù)據(jù)集E 進行數(shù)據(jù)質(zhì)量檢驗并構造Benford因子。根據(jù)公式(6)和(7)將構造好的Benford 因子與數(shù)據(jù)集E 整合,再帶入模型進行實驗。

    四、模型構建方法

    (一)模型構建流程

    本實驗選取XGBoost 算法進行財務風險預警建模。整個基于XGBoost 的A 股上市公司財務風險預警及其特征分析模型的構建流程如圖1所示,主要包括因子構造、模型訓練、超參數(shù)優(yōu)化、多模型對比以及模型解釋分析等核心模塊。

    圖1 財務風險預警及特征分析模型流程圖

    (二)XGBoost模型

    XGBoost 是一種新型的梯度增強算法,由于其高效的并行訓練和基于ML應用的顯著改進,在ML應用的比賽中很受歡迎。XGBoost是集成方法GBDT的變體,它結合了梯度增強優(yōu)化策略和DT分類器,即將多個DT組合成一個梯度提升框架,迭代優(yōu)化訓練目標。GBDT是由m個基學習器加成組合模型,若第m 次迭代訓練的樹模型為fm(xi),則GBDT的表達式為:

    其中,L(m)表示的是真實值yi與其預測值之間的差值。為了緩解過擬合問題,XGBoost 在損失函數(shù)中增加了正則化項∑kΩ(fm),結合上述兩個公式,可以得到如下的XGBoost損失函數(shù):

    然后對上述公式進行二階泰勒展開,去除常數(shù)項,公式推導如下:

    其中,gi、hi分別表示目標函數(shù)的一階導數(shù)和二階導數(shù):

    而正則化項Ω(fm)用來衡量樹的復雜度,分別由葉子結點數(shù)量和葉子結點權重兩部分組成。展開式中,T代表葉子結點的個數(shù)、w表示葉子結點的權重,為防止過擬合通過系數(shù)γ 和λ 進行控制。正則化項表達式如下:

    定義一棵樹fm(x)=wq(x),w∈RT,q:Rt→{1,2,...,T},包括兩部分:葉子結點的權重向量w 和葉子結點的映射關系q。將fm(x)和正則化項展開式帶入(13)式:

    五、中國A股上市公司財務風險預警分析

    (一)財務風險預警指標體系

    現(xiàn)有財務風險預警研究大都是用財務指標數(shù)據(jù),本文參考現(xiàn)有研究,分別從償債能力、盈利能力、發(fā)展能力、營運能力和現(xiàn)金流量這五個方面選取財務指標進行模型訓練,如表1所示。

    表1 財務風險預警指標

    (二)樣本選取與數(shù)據(jù)來源

    本文參考現(xiàn)有文獻,選取2000-2021 年A 股上市公司中標記為ST 的公司為研究對象,并選擇被標記為ST 的上一年的財務數(shù)據(jù)作為實驗數(shù)據(jù),然后在相同年份同一行業(yè)中按照資產(chǎn)規(guī)模相近原則匹配正常公司,即未被標記為ST 的上市公司。實驗數(shù)據(jù)剔除了金融業(yè)的上市企業(yè)。經(jīng)過缺失值處理后,各得到174家上市公司。將列為ST的上市公司標記為1,未列為ST的公司標記為0,并作為模型的預測變量。以上數(shù)據(jù)來源于CSMAR數(shù)據(jù)庫。

    (三)指標變量的篩選

    在進行Benford 因子構造前,先對財務指標特征進行差異性檢驗,通過差異性檢驗對指標進行初選,可以過濾掉一些對預警模型無效的指標。本文采用SPSS23.0 先對各項指標進行K-S 正太分布檢驗,若不滿足正太性,則采用非參數(shù)Wilcoxon檢驗。結果如表2所示:

    表2 ST公司與正常公司財務指標的差異性檢驗

    由表2 中的K-S 檢驗結果可以看出,p 值均顯著,表明拒絕原假設,14 個特征均不滿足正太分布。因此用非參數(shù)Wilcoxon 對上述14個特征進行差異性檢驗,從表2的p值可以看出,在本文選取的14 個財務指標中,除存貨周轉率(X6)和每股經(jīng)營活動產(chǎn)生的凈流量增長率(X13)的非參數(shù)檢驗不顯著外,其余12 個財務指標都可以顯著地區(qū)分ST公司和正常公司。因此刪掉存貨周轉率(X6)和每股經(jīng)營活動產(chǎn)生的凈流量增長率(X13),用剩余的12個指標構造Benford因子帶入模型。

    (四)構造Benford因子

    表3 是篩選出的12 個指標的觀測頻率和理論頻率的卡方擬合優(yōu)度檢驗結果,顯著性水平10%的檢驗臨界值是20.09。當χ2值大于20.09 時,則表明該指標存在質(zhì)量問題。

    表3 財務指標首位數(shù)字觀測頻率與卡方擬合優(yōu)度檢驗結果

    從表3 中的χ2檢驗的結果可以看到,利息保障倍數(shù)(X2)、凈資產(chǎn)收益率(X9)和營業(yè)利潤增長率(X12)的χ2都超過了臨界值,說明這三個指標的首位數(shù)字分布頻率不滿足Benford 定律,觀察指標X2、X9、X12 的首位數(shù)字,可以發(fā)現(xiàn)其與Benford 理論頻率正向差值最大的數(shù)字分別是1、7、1,根據(jù)公式(6)構造相應的因子并標記為B1、B2、B3。X2、X9和X12的首位數(shù)字中與Benford理論頻率負向差值最大的數(shù)字分別是5、3、2,根據(jù)公式(7)構造相應的Benford質(zhì)量因子,記為B4、B5、B6。將構造好的這6個因子以及上述12個財務指標帶入XGBoost模型進行訓練。

    (五)構建基于Benford定律的XGBoost模型

    將上述構造的因子和原來的12個財務指標全部帶入XGBoost模型。根據(jù)交叉驗證思想,將數(shù)據(jù)集劃分為訓練集和測試集,其中訓練集占80%、測試集占20%。通過訓練集建立基于Benford 定律XGBoost 的初始模型,用測試集的預測準確率判斷模型的優(yōu)劣。利用中國A 股上市公司財務數(shù)據(jù)建立的基于Benford定律XGBoost模型的預測準確率。結合學習曲線對加入Benford因子和未加因子的模型進行最優(yōu)參對比,圖2和圖3是加入Benford因子的XGBoost 財務風險預警模型和未加因子的預警模型,在不同n_estimators 參數(shù)下的交叉驗證準確率的學習曲線,可以看到加入Benford 因子和未加因子的模型在n_estimators參數(shù)200左右時,兩個模型的預測準確率都比較高。并且,由圖2 和圖3 可以看出,加入Benford 因子的模型在參數(shù)25-200 范圍內(nèi)的整體交叉驗證準確率均高于未加因子的模型。

    圖2 加入Benford因子的不同n_estimators下交叉驗證準確率

    圖3 未加因子的不同n_estimators下交叉驗證準確率

    為進一步說明加入Benford 因子的XGBoost 模型的預測效果,計算模型的準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值。其中準確率(Accuracy)作為最基本的一個評價指標,是指將實際非ST公司分類為正常公司或將實際ST公司分類為ST 的比例。精確率(Precision)是指實際ST 公司樣本中被分類為ST樣本的比例。召回率是指分類正確的ST公司樣本占整個數(shù)據(jù)集中所有實際ST公司個數(shù)的比例。分類矩陣見表4,計算公式如下:

    表4 分類結果混淆矩陣

    將加入Benford 因子和未加因子的XGBoost 模型的預測效果進行對比,實驗結果如表5 所示,可以看到,加入Benford 因子的XGBoost 模型的準確率、精確率、召回率和F1值都高于未加因子的XGBoost 模型。且加入Benford 因子的預測準確率比原有模型的預測準確率提升了3%。

    表5 加入Benford因子和未加因子的XGBoost模型的預測效果對比

    為使建模更具有說服力,將上述模型的建模過程分別重復100 次、200 次、500 次和1000 次,分別計算含有Benford 因子的XGBoost 財務風險預警模型和不含因子的XGBoost 模型的AUC、準確率、精確率、召回率、F1值,得到表6。可以看到不同迭代次數(shù)下,含因子的模型整體預測效果優(yōu)于不含因子模型的預測效果。

    表6 加入Benford因子和不加因子的XGBoost模型預測效果對比

    (六)與已有工作的實驗對比

    將XGBoost模型與已有的基于邏輯回歸(LR)、KNN、極端森林(DF)、決策樹(DT)以及GBDT 幾種模型進行對比實驗,結果見表7 和圖4。從表中可以看出,與其他模型相比,XGBoost 模型的預測性明顯優(yōu)于其他模型。

    表7 模型性能對比

    圖4 多模型性能對比

    (七)模型參數(shù)優(yōu)化

    通過上述實驗結果,我們可以得出結論:XGBoost 模型具有較好的預測性能。為了進一步提高XGBoost模型的預測性能,本文對模型進行了參數(shù)調(diào)優(yōu)。常用的超參數(shù)調(diào)參方法包括網(wǎng)格搜索、隨機搜索和貝葉斯優(yōu)化。其中,網(wǎng)格搜索是應用最廣泛的超參數(shù)搜索算法,相當于窮舉法且計算資源消耗較大。隨機搜索則是從指定的分布中采樣固定數(shù)量的參數(shù)設置,它一般比網(wǎng)格搜索要快一些,但結果不確定。貝葉斯調(diào)參是一種使用貝葉斯定理指導搜索以找到目標函數(shù)的最小值或最大值的方法,它會在進行一次迭代的時候,回顧之前的迭代結果,避免搜索那些結果太差的參數(shù)值,從而大大提高搜索效率。因此,本文選擇貝葉斯調(diào)參方法來優(yōu)化XGBoost 模型,進一步提高其預測性能。通過調(diào)參找到參數(shù)最優(yōu)值,其中l(wèi)earning_rate 的最優(yōu)值為0.3、max_depth 最優(yōu)值為7、n_estimators 最優(yōu)值為79,此時模型的預測效果達到最優(yōu),準確率達到92.86%,AUC值達到99.02%,相比未經(jīng)過調(diào)參的XGBoost模型的準確率提高了1.43%,AUC 值提高了1.1%。

    六、XGBoost模型指標貢獻度分析

    雖然XGBoost 算法的預測性能很好,但是和大多數(shù)機器學習方法一樣存在可解釋性差的問題,如同一個“黑盒子”無法衡量每個指標的貢獻。因此,本文通過引入SHAP 模型計算出每個財務風險影響因子的shap value 值,以增強模型的可解釋性。SHAP的全稱是SHapley Additive exPlanation,這是一種可以用來解釋較復雜的機器學習模型的后驗推理方法。通常情況下,機器學習模型都是一個黑箱,只要在前端輸入用于預警的指標,通過模型訓練后就可以直接得出預測結果。然而,對于模型內(nèi)部是怎樣進行預測的,以及每個輸入的特征在模型預測中發(fā)揮了多大的作用,我們并不清楚,尤其是一些較為成熟的集成學習模型,其解釋能力更低,而SHAP模型則能很好的解決這一難題。SHAP以合作博弈論理論為基礎,其關鍵在于對模型中的各個指標計算Shapley Value。SHAP將每個變量都當作“貢獻者”,而且還可以計算出單個樣本的預測值以及單個樣本中各個變量的貢獻值。

    設第n 個樣本為xn,樣本xn的 第m 個特征 為xnm,模型對該樣本的預測值為yn,整個模型的基線為ybase,則Shapley Value滿足下列公式:

    其中f(xnm)為xnm的SHAP 值,即為第n 個樣本中第m個指標對最終預測值yn的貢獻值,當f(xnm)>0,表示該指標有積極作用,可以提高預測值。若f(xnm)<0,則表示會降低預測值。

    (一)全局歸因分析

    圖5向我們展示了每個特征的Shap影響,每行代表一個特征,而每個點則代表一個樣本。通過觀察圖5,我們可以清晰地了解每個特征對模型預測結果的影響程度,進而在優(yōu)化模型的過程中有針對性地對特征進行調(diào)整。同時,圖6則展示了各特征Shap值絕對值的均值,以此反映了每個特征的重要性。根據(jù)表中的數(shù)據(jù),我們可以發(fā)現(xiàn)在XGBoost模型中,凈資產(chǎn)收益率(X9)、營業(yè)利潤率(X10)、資產(chǎn)報酬率(X8)、應收賬款周轉率(X5)以及經(jīng)營活動產(chǎn)生的現(xiàn)金流量凈額÷負債合計(X3)這五項特征,對于預測企業(yè)的財務風險預警模型具有重要的貢獻。這些特征反映了企業(yè)的盈利能力、營運能力以及償債能力,是影響企業(yè)財務風險的重要因素。此外,Benford 因子B2、B3、B4 在模型中也扮演了預測貢獻的角色。這些結果為我們提供了更深入的洞察和優(yōu)化模型的依據(jù),進一步幫助我們理解模型預測結果的形成過程,提高模型預測的準確性和穩(wěn)定性。

    圖6 XGBoost模型特征SHAP全局均值

    (二)局部歸因分析

    SHAP方法是一種具有局部精確性質(zhì)的特征重要性評估方法。它可以在單個樣本上取得每個指標對當前模型預測結果的影響,這對于理解模型的預測結果非常有幫助。以測試集中的山東東方海洋樣本為例,我們使用XGBoost模型對其當年的財務風險特征值進行預測,并使用SHAP圖進行可視化解釋。如圖7所示,山東東方海洋2018年的最終值為5.34。我們發(fā)現(xiàn)凈資產(chǎn)收益率(X9)、固定資產(chǎn)周轉率(X7)、資產(chǎn)報酬率(X8)、應收賬款周轉率(X5)、經(jīng)營活動產(chǎn)生的現(xiàn)金流量凈額÷負債合計(X3)和利息保障倍數(shù)(X2)等特征值均為負數(shù),并且表現(xiàn)為負數(shù)的特征值所占長度越長,預測結果為存在財務風險的概率越高。這些特征變量的影響可以通過SHAP圖直觀地展示出來,幫助我們更好地理解模型的預測結果。

    圖7 山東東方海洋2018年XGBoost模型SHAP圖

    七、結論

    鑒于上市公司財務數(shù)據(jù)質(zhì)量會對危機預警模型的預測效果產(chǎn)生偏差,本文根據(jù)Benford 定律構造了Benford 因子帶入XGBoost 模型,通過帶有Benford 因子的XGBoost 模型和未加Benford 因子的XGBoost 模型的預測精度、準確率等各項指標進行比較,實證檢驗結果表明,數(shù)據(jù)質(zhì)量會影響財務危機預警模型的預測效果,并且通過Benford 因子還可以定位到那個樣本點存在財務高風險。根據(jù)上述實驗結論,本文還將帶有Benford 因子的數(shù)據(jù)集用其他模型進行實驗,對比邏輯回歸(LR)、K-近鄰(KNN)、極端森林(DF)、決策樹(DT)、GBDT 幾種模型和XGBoost模型的預測效果,結果表明XGBoost 模型的預測性能最好?;跈C器學習模型的可解釋性較差,本文引入了SHAP 模型對XGBoost 模型的特征貢獻度進行分析,可以從全局進行歸因分析,也可以從具體樣本點進行歸因分析,通過計算SHAP 值對模型中財務風險的影響因素進行解釋分析,增強了模型的可解釋性。

    猜你喜歡
    財務指標分類器預警
    法國發(fā)布高溫預警 嚴陣以待備戰(zhàn)“史上最熱周”
    我國金融機構股價和主要財務指標的相關性分析
    BP-GA光照分類器在車道線識別中的應用
    電子測試(2018年1期)2018-04-18 11:52:35
    園林有害生物預警與可持續(xù)控制
    全國國有企業(yè)主要財務指標
    加權空-譜與最近鄰分類器相結合的高光譜圖像分類
    結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
    全國國有企業(yè)主要財務指標
    機載預警雷達對IFF 的干擾分析
    榮豐控股財務指標分析
    东阳市| 梧州市| 汝州市| 乡宁县| 兴城市| 洛川县| 剑川县| 涟源市| 新竹县| 泾源县| 肥东县| 理塘县| 偏关县| 从化市| 甘洛县| 延庆县| 南召县| 泌阳县| 民县| 金寨县| 崇左市| 岑巩县| 新和县| 杭锦旗| 南城县| 远安县| 盱眙县| 永安市| 化州市| 九江市| 寻乌县| 泰安市| 建宁县| 永康市| 深圳市| 鄯善县| 金沙县| 桂平市| 长子县| 白朗县| 揭东县|