高媛媛
摘 ?要:本文以財(cái)務(wù)舞弊識(shí)別為目標(biāo),應(yīng)用C5.0算法的決策樹(shù)模型對(duì)舞弊識(shí)別指標(biāo)進(jìn)行特征選擇,并在此基礎(chǔ)上構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,建立舞弊識(shí)別組合模型,并與BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果進(jìn)行了對(duì)比分析。研究表明,基于決策樹(shù)-神經(jīng)網(wǎng)絡(luò)組合模型的精確性和穩(wěn)定性更高,能更有效的識(shí)別財(cái)務(wù)舞弊。
關(guān)鍵詞:財(cái)務(wù)舞弊;數(shù)據(jù)挖掘;決策樹(shù);神經(jīng)網(wǎng)絡(luò)
0 ?引言
財(cái)務(wù)報(bào)表舞弊是我國(guó)資本市場(chǎng)當(dāng)前和未來(lái)一段時(shí)期內(nèi)面臨的最大挑戰(zhàn)之一。雖然對(duì)上市公司的信息監(jiān)管力度不斷加強(qiáng),但為了追求相關(guān)群體的利益最大化,上市公司依然有著強(qiáng)烈的財(cái)務(wù)舞弊的動(dòng)機(jī),并且傾向于采用更為隱蔽的手段,上市公司的財(cái)務(wù)舞弊行為必然會(huì)損害廣大投資者的利益,破壞資本市場(chǎng)的健康發(fā)展,這就要求監(jiān)管部門以及會(huì)計(jì)師事務(wù)所必須不斷加大對(duì)財(cái)務(wù)舞弊識(shí)別方法的探索,利用先進(jìn)的計(jì)量分析技術(shù)建立有效精準(zhǔn)的評(píng)估模型評(píng)估舞弊風(fēng)險(xiǎn)、識(shí)別舞弊行為。
關(guān)于財(cái)務(wù)舞弊識(shí)別國(guó)內(nèi)外做了大量研究,提出了很多識(shí)別方法及模型。例如單因素方差分析模型、Logistic 回歸分析、線性概率模型、多元判別分析方法、神經(jīng)網(wǎng)絡(luò)等等。其中神經(jīng)網(wǎng)絡(luò)是一種是"一種基于腦與神經(jīng)系統(tǒng)研究,所啟發(fā)的信息處理技術(shù)",具有自組織、自適應(yīng)以及較強(qiáng)的學(xué)習(xí)能力,由于其能迅速尋找優(yōu)化解,具有較強(qiáng)預(yù)測(cè)能力,因此得到較為廣泛的應(yīng)用。例如Fanning等人(1995)分別使用了 Logistic regression、通用的自適應(yīng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和自適應(yīng)邏輯網(wǎng)絡(luò)兩種方法設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)模型對(duì)公司虛假財(cái)務(wù)報(bào)告進(jìn)行識(shí)別,結(jié)果表明,神經(jīng)網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率高于Logistic regression的識(shí)別準(zhǔn)確率;Green and Choi (1997)采用人工神經(jīng)網(wǎng)絡(luò)技術(shù)構(gòu)造了建立在原始財(cái)務(wù)數(shù)據(jù)基礎(chǔ)上的財(cái)務(wù)報(bào)告舞弊判別模型;Lin、Hwang &Becker(2003)進(jìn)一步構(gòu)建了基于模糊神經(jīng)網(wǎng)絡(luò)的會(huì)計(jì)舞弊判定模型,實(shí)證結(jié)果表明它可以有效地減少審計(jì)師的偏見(jiàn)或彌補(bǔ)審計(jì)師的不足;我國(guó)的劉君、王理平(2006)采用徑向基概率神經(jīng)網(wǎng)絡(luò)為工具,經(jīng)過(guò)對(duì)樣本的訓(xùn)練和學(xué)習(xí),取得了較高的識(shí)別率。
然而神經(jīng)網(wǎng)絡(luò)的主要缺點(diǎn)是結(jié)構(gòu)不明,可能出現(xiàn)過(guò)度訓(xùn)練,從而導(dǎo)致預(yù)測(cè)穩(wěn)定性不佳,而且神經(jīng)網(wǎng)絡(luò)的黑箱操作性使其無(wú)法揭示模型的結(jié)構(gòu),缺乏解釋性。因此單一神經(jīng)網(wǎng)絡(luò)模型在實(shí)際操作時(shí)具有風(fēng)險(xiǎn),為了避免這一缺陷,本文擬首先利用決策樹(shù)進(jìn)行特征指標(biāo)選擇,以減少非核心指標(biāo)對(duì)舞弊識(shí)別預(yù)測(cè)結(jié)果的影響,然后建立決策樹(shù)-神經(jīng)網(wǎng)絡(luò)組合模型,將兩個(gè)單一模型相結(jié)合,以達(dá)到性能互補(bǔ)、增強(qiáng)模型的穩(wěn)定性和精確度的目的。
2 ?組合模型算法
(一)決策樹(shù)
決策樹(shù)使用屬性選擇度量進(jìn)行選擇,屬性選擇度量是一種選擇分裂準(zhǔn)則,即按照不同的屬性將總樣本構(gòu)造為不同的子集,每一子集內(nèi)部因變量的取值高度一致,其目標(biāo)是讓各個(gè)分裂子集盡可能地"純",相應(yīng)的變異/雜質(zhì)盡量落在不同子集區(qū)間。所有決策樹(shù)模型的算法都遵循這一原則,差異只在于對(duì)變異/雜質(zhì)的定義不同。某個(gè)節(jié)點(diǎn)處按照某一特征屬性的不同劃分構(gòu)造不同的分支,決策樹(shù)算法中最具代表性的是Quinlan于1986年提出的ID3,在該算法中,引入了信息論中熵的概念,利用分割前后的熵來(lái)計(jì)算信息增益,作為判別能力的度量。但是ID3算法的主要缺陷是只能處理離散型描述屬性。此外,按照信息增益最大的原則,ID3算法首先判斷的屬性(靠近決策樹(shù)的根節(jié)點(diǎn))在某些情況下可能不會(huì)提供太多有價(jià)值的信息。隨后,Quinlan改進(jìn)了ID3,提出C4.5算法,該方法使用增益率(gain ratio)的信息增益擴(kuò)充,以克服ID3偏向于多值屬性的缺陷。C4.5不僅可以處理離散型描述屬性,還能處理連續(xù)性描述屬性。C5.0算法則是C4.5算法的修訂版,適用于處理大數(shù)據(jù)集,采用Boosting方式提高模型準(zhǔn)確率及計(jì)算效率。
(二)BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)的基本原理:BP神經(jīng)網(wǎng)絡(luò)一般是多層的,神經(jīng)網(wǎng)絡(luò)模型拓?fù)浣Y(jié)構(gòu)包括輸入層、隱含層和輸出層。隱含層可以為一層或多層,多層的網(wǎng)絡(luò)設(shè)計(jì),使BP網(wǎng)絡(luò)能夠從輸入層中挖掘更多的信息,完成更復(fù)雜的任務(wù)。對(duì)于輸入信號(hào),要先向前傳播到隱含層節(jié)點(diǎn),經(jīng)作用函數(shù)后,再把隱節(jié)點(diǎn)的輸出信號(hào)傳播到輸出節(jié)點(diǎn),最后給出輸出結(jié)果。BP網(wǎng)絡(luò)一般使用Sigmoid函數(shù)或線性函數(shù)作為傳遞函數(shù)。在BP神經(jīng)網(wǎng)絡(luò)中,數(shù)據(jù)從輸入層經(jīng)隱含層向后傳播,訓(xùn)練網(wǎng)絡(luò)權(quán)值時(shí),則沿著減少誤差的方向,從輸出層經(jīng)過(guò)中間各層逐層向前修正網(wǎng)絡(luò)的鏈接權(quán)值。隨著學(xué)習(xí)的不斷進(jìn)行,最終的誤差越來(lái)越小。
3 ?數(shù)據(jù)來(lái)源及研究設(shè)計(jì)
(一)數(shù)據(jù)來(lái)源與研究平臺(tái)
研究選取2003-2012年因提供虛假財(cái)務(wù)報(bào)告而被證監(jiān)會(huì)、上交所、深交所公開(kāi)處罰的制造業(yè)上市公司作為舞弊公司樣本,以與舞弊樣本相同行業(yè)、相同年度、相近規(guī)模為標(biāo)準(zhǔn)選取非舞弊公司作為配對(duì)樣本,提出了僅發(fā)行B股的公司,共得到1031個(gè)舞弊樣本以及960個(gè)非舞弊樣本,所用數(shù)據(jù)主要來(lái)源于CCER數(shù)據(jù)庫(kù)。本研究以SPSS Modeler 14.2為研究平臺(tái),建立組合模型。
(二)舞弊識(shí)別初選指標(biāo)
舞弊識(shí)別指標(biāo)通常作為舞弊識(shí)別的分類特征,因此甄選適當(dāng)?shù)淖R(shí)別指標(biāo)是構(gòu)建模型的前提。根據(jù)以往的研究經(jīng)驗(yàn),在識(shí)別財(cái)務(wù)舞弊方面財(cái)務(wù)指標(biāo)被普遍應(yīng)用。除此之外,公司外部監(jiān)督和內(nèi)部治理機(jī)制是會(huì)計(jì)信息的真實(shí)性的有力保障,因此本研究選取了涵蓋企業(yè)償債能力、營(yíng)運(yùn)能力、盈利能力、發(fā)展能力、風(fēng)險(xiǎn)水平、現(xiàn)金流量能力等方面的財(cái)務(wù)指標(biāo);同時(shí)也將選擇公司治理、股權(quán)結(jié)構(gòu)、審計(jì)意見(jiàn)等非財(cái)務(wù)信息指標(biāo)作為舞弊識(shí)別的初選指標(biāo)(見(jiàn)表1)
(三)模型設(shè)計(jì)
本文設(shè)計(jì)的研究模型為決策樹(shù)--神經(jīng)網(wǎng)絡(luò)兩階段組合模型,首先利用 C5.0算法構(gòu)建最優(yōu)決策樹(shù),從舞弊識(shí)別備選指標(biāo)中選擇對(duì)舞弊識(shí)別分類預(yù)測(cè)結(jié)果影響較大的指標(biāo)。隨后將甄選后的指標(biāo)作為神經(jīng)網(wǎng)絡(luò)輸入層的指標(biāo)構(gòu)建BP神經(jīng)網(wǎng)絡(luò)模型,最后利用測(cè)試集對(duì)模型的優(yōu)劣進(jìn)行評(píng)估。
(四)選擇特征屬性
對(duì)舞弊識(shí)別的特征屬性進(jìn)行選擇,首先要建立最優(yōu)決策樹(shù)。為了避免決策樹(shù)過(guò)度擬合需要調(diào)整決策樹(shù)的修剪程度;此外Boosting技術(shù)能夠提高弱分類模型的準(zhǔn)確性,因此需確定最佳 Boosting迭代次數(shù),經(jīng)過(guò)多次試驗(yàn)后,建立最優(yōu)決策樹(shù)的條件是:修建嚴(yán)重性為70;Boosting迭代次數(shù)為25次。將SPSS Modeler中的決策樹(shù)C5.0模型按照上述參數(shù)設(shè)置,此時(shí)構(gòu)建的決策樹(shù)為最優(yōu)決策樹(shù),基于C5.0算法信息熵增益率的分類原理可以得出,各屬性指標(biāo)對(duì)分類預(yù)測(cè)結(jié)果的影響大小排序如表2:
4 ?建模檢驗(yàn)與評(píng)估
(一)組合模型
選取最優(yōu)決策樹(shù)甄選出的11個(gè)特征指標(biāo)作為BP神經(jīng)網(wǎng)絡(luò)輸入層的屬性指標(biāo),按照7:3比例將樣本拆分為訓(xùn)練集和測(cè)試集。同時(shí)設(shè)置防過(guò)度擬合率為80%,在出現(xiàn)錯(cuò)誤時(shí)停止學(xué)習(xí),其他采用系統(tǒng)默認(rèn)。由于神經(jīng)網(wǎng)絡(luò)模型的穩(wěn)定性不佳,因此采取重復(fù)10次運(yùn)行模型得出分類預(yù)測(cè)的結(jié)果,組合模型分類結(jié)果如表3:
(二)組合模型與單一BP神經(jīng)網(wǎng)絡(luò)模型的對(duì)比分析
將未經(jīng)篩選的指標(biāo)作為單一BP神經(jīng)網(wǎng)絡(luò)輸入層的指標(biāo)屬性,其他設(shè)置均與組合模型一致,與組合模型的運(yùn)行結(jié)果對(duì)比分析,運(yùn)行結(jié)果如表4:
由表3與表4對(duì)比可見(jiàn),決策樹(shù)--神經(jīng)網(wǎng)絡(luò)組合模型的總體正確率遠(yuǎn)遠(yuǎn)高于單一神經(jīng)網(wǎng)絡(luò)模型。組合模型的測(cè)試集10次運(yùn)行的最高正確率為79.8%,高出單一神經(jīng)網(wǎng)絡(luò)模型測(cè)試集的最高精度13.1%,且組合模型整測(cè)試集體正確率方差為0.0012(表5),小于單一神經(jīng)網(wǎng)絡(luò)模型測(cè)試集正確率方差,說(shuō)明組合模型的穩(wěn)定性好于單一神經(jīng)網(wǎng)絡(luò)模型??梢?jiàn),基于信息熵增益率分類原理的最優(yōu)決策樹(shù)挑選指標(biāo)方法的有效性得到了很好的驗(yàn)證,該方法能合理的去處非重要屬性指標(biāo)的干擾,使真正有效的屬性指標(biāo)輸入神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)測(cè)分類,提高模型分類的準(zhǔn)確性和穩(wěn)定性。此外,由決策樹(shù)甄選出的指標(biāo)可知非主板上市公司更容易發(fā)生舞弊行為;代表資產(chǎn)質(zhì)量的自由現(xiàn)金流比、應(yīng)計(jì)總額資產(chǎn)指數(shù)、流動(dòng)比率;代表盈利質(zhì)量的財(cái)務(wù)費(fèi)用率、應(yīng)計(jì)利潤(rùn)率、收益質(zhì)量指標(biāo);以及代表內(nèi)、外部監(jiān)管力度的審計(jì)意見(jiàn)、董事會(huì)會(huì)議次數(shù)等指標(biāo)對(duì)區(qū)分舞弊與非舞弊有重要影響,較原來(lái)單一BP神經(jīng)網(wǎng)絡(luò)模型的"黑箱性",決策樹(shù)--神經(jīng)網(wǎng)絡(luò)組合更容易理解。
5 ?總結(jié)
為了有效的識(shí)別財(cái)務(wù)舞弊,本文應(yīng)用C5.0算法的決策樹(shù)模型,建立最優(yōu)決策樹(shù),將其選取出來(lái)的識(shí)別財(cái)務(wù)舞弊的特征屬性按重要性排序,將非主板上市、自由現(xiàn)金流比等指標(biāo)輸入神經(jīng)網(wǎng)絡(luò),得出預(yù)測(cè)結(jié)果。從組合模型與單一神經(jīng)網(wǎng)絡(luò)模型的對(duì)比分析來(lái)看,利用基于信息熵增益率分類原理的最優(yōu)決策樹(shù)模型提高了神經(jīng)網(wǎng)絡(luò)的可解釋性、穩(wěn)定性及精確度。
參考文獻(xiàn):
[1]薛薇,陳歡歌.Clementine數(shù)據(jù)挖掘方法及應(yīng)用[M].電子工業(yè)出版社,2010.
[2]汪士果,張俊民.基于數(shù)據(jù)挖掘的會(huì)計(jì)舞弊識(shí)別問(wèn)題研究綜述[M].中南財(cái)經(jīng)政法大學(xué)學(xué)報(bào),2011(1).
[3]劉建勇、湯浩.我國(guó)上市公司財(cái)務(wù)報(bào)告舞弊識(shí)別指標(biāo)體系研究-基于問(wèn)卷調(diào)查結(jié)果的實(shí)證分析[M].中國(guó)管理信息化,2008(1).
[4]劉君、王理平.基于概率神經(jīng)網(wǎng)絡(luò)的財(cái)務(wù)舞弊識(shí)別模型[M].哈爾濱商業(yè)大學(xué)學(xué)報(bào),2006(3).