劉澄 胡巧紅 孫瑩
[摘要] 會計(jì)信息失真現(xiàn)象將給投資者、政府、公司所有者等眾多會計(jì)信息使用者帶來很大的損失和麻煩。因此,科學(xué)地識別會計(jì)信息是否失真就很重要。本文選取2008年的159家上市公司的財(cái)務(wù)數(shù)據(jù)作為訓(xùn)練樣本建立分類回歸樹模型,并以該模型對2009年滬深上市公司的1 862家企業(yè)進(jìn)行了檢測,實(shí)證研究表明:分類回歸樹算法具有很高的會計(jì)信息失真識別能力。
[關(guān)鍵詞] 分類回歸樹;會計(jì)信息失真;審計(jì)意見
[中圖分類號] F234;F276.6 [文獻(xiàn)標(biāo)識碼] A [文章編號] 1673 - 0194(2013)06- 0002- 02
1 文獻(xiàn)綜述
目前會計(jì)信息失真識別研究較多集中在2個方面:多元統(tǒng)計(jì)分析方法發(fā)現(xiàn)會計(jì)信息失真企業(yè)的特征和利用特征指標(biāo)變量建立識別模型對企業(yè)會計(jì)信息失真的可能性進(jìn)行識別和預(yù)測。國內(nèi)外學(xué)者都基于這兩類方法通過建立多種模型對會計(jì)信息失真問題進(jìn)行了研究。
多元統(tǒng)計(jì)分析方法被用來作為會計(jì)信息失真的偵測方法已經(jīng)有較長的歷史,并且取得了較好的識別效果。而利用特征指標(biāo)變量來建立會計(jì)信息識別模型的國內(nèi)外研究在近年來得到了快速發(fā)展。Imran Kurt等[1]學(xué)者比較了分類回歸樹模型、logistic模型、神經(jīng)網(wǎng)絡(luò)在預(yù)測方面的作用,發(fā)現(xiàn)分類回歸樹算法具有很高的準(zhǔn)確率。Belinna Bai[2]證明分類回歸樹模型對財(cái)務(wù)欺詐具有較高的識別能力。國內(nèi)學(xué)者中,劉君[3]、張玲[4]等也都運(yùn)用特征變量建立會計(jì)信息分析模型。
本文就是運(yùn)用分類回歸樹算法來進(jìn)行會計(jì)信息的識別,首先選取2008年的159家滬深上市公司的財(cái)務(wù)數(shù)據(jù)作為訓(xùn)練樣本建立分類回歸樹模型,然后對2009年滬深上市公司的1 862家企業(yè)利用建立的分類回歸樹模型進(jìn)行檢測,進(jìn)一步證實(shí)利用分類回歸樹算法進(jìn)行會計(jì)信息失真識別的有效性和準(zhǔn)確性。
2 分類回歸樹的構(gòu)建步驟
分類回歸樹算法(CART)是一種有監(jiān)督學(xué)習(xí)算法,即用戶在使用CART進(jìn)行預(yù)測之前,必須首先提供一個學(xué)習(xí)樣本集對 CART 進(jìn)行構(gòu)建和評估,然后才能使用。根據(jù)給定的樣本集構(gòu)建分類回歸樹的步驟由以下3部分組成:
(1)使用L構(gòu)建樹Tmax,使得Tmax中每個葉節(jié)點(diǎn)要么很?。ü?jié)點(diǎn)內(nèi)部所包含的樣本個數(shù)小于給定的值Nmin),要么它是純節(jié)點(diǎn)(節(jié)點(diǎn)內(nèi)部樣本的Y同屬于一類);要么是只有唯一的屬性向量可以作為分支向量。本文在計(jì)算過程中采取最大雜度削減算法——基尼系數(shù)尋找最佳的分支向量。從根結(jié)點(diǎn)開始進(jìn)行分割,遞歸地對每個結(jié)點(diǎn)重復(fù)進(jìn)行分割:首先對每一個結(jié)點(diǎn)選擇每個屬性最優(yōu)的分割點(diǎn),若基尼系數(shù)最小,則Xi就是當(dāng)前屬性的最優(yōu)分割點(diǎn);接著在這些最優(yōu)的分割點(diǎn)中選取使上式最小的作為這個結(jié)點(diǎn)的最優(yōu)的分割規(guī)則;最后繼續(xù)對由該結(jié)點(diǎn)分割出來的兩個結(jié)點(diǎn)繼續(xù)進(jìn)行分割。分割過程一直持續(xù)下去,直到具備以下任一條件時停止:①每一個葉節(jié)點(diǎn)很小;②純節(jié)點(diǎn)(節(jié)點(diǎn)內(nèi)部樣本的Y 屬于同一個類別);③僅有唯一屬性向量作為分支選擇。
(2)使用修剪算法構(gòu)建一個有限的節(jié)點(diǎn)數(shù)目遞減的有序子樹序列。修剪是為了獲得誤分率低、大小合適、評估準(zhǔn)確率高的子樹。該過程應(yīng)用最小代價—復(fù)雜度算法,生成一系列Tmax的修剪子樹。修剪過程主要完成生成有序樹序列和確定葉節(jié)點(diǎn)的所屬類兩步驟工作。
(3)使用評估算法從第2步產(chǎn)生的子樹序列中選出一棵最優(yōu)樹,作為最終的決策樹。本文將使用2009年所有滬深上市公司年度報(bào)告中的財(cái)務(wù)數(shù)據(jù)進(jìn)行對所建分類回歸樹的識別和評估。
3 基于分類回歸樹的會計(jì)信息識別實(shí)證研究
3.1 樣本選擇
將上市公司年度審計(jì)報(bào)告中被出具標(biāo)準(zhǔn)無保留審計(jì)意見的公司劃分為會計(jì)信息真實(shí)的企業(yè)樣本,將年度審計(jì)報(bào)告中被出具非標(biāo)準(zhǔn)無保留審計(jì)意見的公司劃分為會計(jì)信息失真的企業(yè)樣本。本文的樣本數(shù)據(jù)主要來自CCER中國經(jīng)濟(jì)金融數(shù)據(jù)庫和RESSET金融研究數(shù)據(jù)庫。
訓(xùn)練樣本的選擇中,會計(jì)信息失真的企業(yè)樣本為滬深證券交易所2008年年報(bào)被出具非標(biāo)準(zhǔn)無保留意見的53家上市公司,其中上交所31家,深交所22家,具體審計(jì)意見包括保留意見、拒絕表示意見和保留意見帶解釋性說明。此外,訓(xùn)練樣本中會計(jì)信息真實(shí)的企業(yè)樣本為2008年滬深證券交易所中年報(bào)審計(jì)意見為標(biāo)準(zhǔn)無保留意見的106家上市公司,其中上交所62家,深交所44家。
測試樣本的選擇中,將用2009年滬深證券交易所的1 862家上市公司作為測試樣本,對所建立的分類回歸樹模型進(jìn)行評估和檢驗(yàn),其中136家上市公司在年報(bào)中被出具了非標(biāo)準(zhǔn)無保留意見,即會計(jì)信息失真。
3.2 財(cái)務(wù)指標(biāo)初選與處理
本文選擇反映企業(yè)經(jīng)營狀況的財(cái)務(wù)指標(biāo)來判定會計(jì)信息的失真。初步選取了一些常用的典型的可以反映這幾個方面的財(cái)務(wù)指標(biāo),初步選取的規(guī)則是在反映企業(yè)償債能力、盈利能力、成長能力、營運(yùn)能力及其他各個方面的財(cái)務(wù)指標(biāo)均選取一些,并且排除可直觀判斷具有相關(guān)重復(fù)性的指標(biāo)。 初選財(cái)務(wù)指標(biāo)及其描述見表1。
如表1所示,初步選取了19個財(cái)務(wù)指標(biāo),其中X1~X5是反映企業(yè)償債能力的財(cái)務(wù)指標(biāo),X6~X10是反映企業(yè)盈利能力的財(cái)務(wù)指標(biāo),X11~X16是反映企業(yè)成長能力的財(cái)務(wù)指標(biāo),X17~X19是反映企業(yè)營運(yùn)能力的財(cái)務(wù)指標(biāo)。
3.3 財(cái)務(wù)指標(biāo)進(jìn)一步篩選
本文采用SPSS軟件進(jìn)行建模,變量個數(shù)太多不利于最優(yōu)回歸樹的生成,因此為了采用少量的變量個數(shù)得到最合理和科學(xué)的回歸樹模型,在建模之前需要對之前得到的財(cái)務(wù)指標(biāo)進(jìn)一步處理和篩選,剔除重復(fù)性和相關(guān)性較大的指標(biāo)。本文采用相關(guān)性檢驗(yàn),對上述財(cái)務(wù)指標(biāo)進(jìn)行進(jìn)一步處理,具體處理采用Pearson系數(shù)來反映和發(fā)現(xiàn)各個財(cái)務(wù)指標(biāo)之間的相關(guān)性。利用SPSS軟件求Pearson相關(guān)系數(shù)得到結(jié)果。根據(jù)相關(guān)系數(shù)計(jì)算結(jié)果,X2與X3的相關(guān)系數(shù)為0.905,X6與X7的相關(guān)系數(shù)為-0.967,X10與X8的相關(guān)系數(shù)為0.921,其絕對值均顯著大于0.8,說明這三組的每兩個財(cái)務(wù)指標(biāo)存在非常顯著的信息重疊和相關(guān)現(xiàn)象,因此在該步相關(guān)性檢驗(yàn)中可以剔除X3、X6、X8三個財(cái)務(wù)指標(biāo)。
3.4 最優(yōu)分類回歸樹的生成
經(jīng)過財(cái)務(wù)指標(biāo)的初步篩選和進(jìn)一步篩選,本文最終確定以X1、X2、X4、X5、X7、X9、X10、X11、X12、X13、X14、X15、X16、X17、X18、X1916個財(cái)務(wù)指標(biāo)建立模型。該建模過程采用SPSS直接生成最優(yōu)分類回歸樹,即分類回歸樹的生長、修剪過程直接由軟件完成。通過SPSS軟件的數(shù)據(jù)導(dǎo)入—分析—分類—決策樹等相關(guān)操作,得出最優(yōu)分類回歸樹。
在分類回歸樹中,得到以X7(銷售期間費(fèi)用率)、X2(流動比率)、X9(資本收益率)、X11(每股收益增長率)4個財(cái)務(wù)指標(biāo)為拆分變量的具有5個節(jié)點(diǎn)的最優(yōu)分類回歸樹。當(dāng)X7>38.603 5時,將其歸類為會計(jì)信息失真企業(yè);當(dāng)X7≤38.603 5∩X2≤0.382 3時,將其歸類為會計(jì)信息失真企業(yè);當(dāng)X7≤38.603 5∩X2>0.382 3∩X9>1.597 4時,將其歸類為會計(jì)信息真實(shí)企業(yè);當(dāng)X7≤38.603 5∩X2>0.382 3∩X9<1.597 4∩X11<-628時,將其歸類為會計(jì)信息真實(shí)企業(yè);當(dāng)X7≤38.603 5∩X2>0.382 3∩X9<1.597 4∩X11>-628時,將其歸類為會計(jì)信息失真企業(yè)。
3.5 分類回歸樹的檢驗(yàn)
3.5.1 利用訓(xùn)練樣本評估最優(yōu)分類回歸樹
利用SPSS軟件生成最優(yōu)分類回歸樹的時候可以直接得出該分類回歸樹對訓(xùn)練樣本(159個樣本)的識別準(zhǔn)確率。樣本中,會計(jì)信息真實(shí)企業(yè)和會計(jì)信息失真企業(yè)的識別準(zhǔn)確率分別達(dá)到了90.6%和90.6%,可以看出該分類回歸樹對樣本企業(yè)會計(jì)信息真實(shí)和失真具有很高的識別能力。
3.5.2 利用測試樣本評估最優(yōu)分類回歸樹
測試樣本為2009年滬深證券交易所的1 862家上市企業(yè),其中137家在年報(bào)中被出具非標(biāo)準(zhǔn)無保留意見,1 725家在年報(bào)中被出具標(biāo)準(zhǔn)無保留意見。為了評估本文所得出的最優(yōu)分類回歸樹對會計(jì)信息失真的識別準(zhǔn)確度,本文根據(jù)這1 862家上市企業(yè)的X7(銷售期間費(fèi)用率)、X2(流動比率)、X9(資本收益率)、X11(每股收益增長率)得出的最優(yōu)分類回歸樹來判斷這1 862家企業(yè)會計(jì)信息是否真實(shí):當(dāng)X7>38.603 5時,將其歸類為會計(jì)信息失真企業(yè);當(dāng)X7≤38.603 5∩X2≤0.382 3時,將其歸類為會計(jì)信息失真企業(yè);當(dāng)X7≤38.603 5∩X2>0.382 3∩X9>1.597 4時,將其歸類為會計(jì)信息真實(shí)企業(yè);當(dāng)X7≤38.603 5∩X2>0.382 3∩X9<1.597 4∩X11<-628時,將其歸類為會計(jì)信息真實(shí)企業(yè);當(dāng)X7≤38.603 5∩X2>0.382 3∩X9<1.597 4∩X11>-628時,將其歸類為會計(jì)信息失真企業(yè)。此步驟主要使用SPSS采用上述規(guī)則進(jìn)行數(shù)據(jù)篩選,經(jīng)測試樣本評估,得到測試樣本會計(jì)信息失真和會計(jì)信息真實(shí)的識別準(zhǔn)確率分別為88.32%和88.98%,可以看出分類回歸樹算法對會計(jì)信息是否失真具有很高的識別能力。
4 結(jié) 論
本文運(yùn)用2008-2009年度我國上市公司財(cái)務(wù)數(shù)據(jù),建立并檢驗(yàn)了分類回歸樹模型在上市公司會計(jì)信息失真識別中的有效性。實(shí)證研究表明:①分類回歸樹算法對會計(jì)信息失真具有很高的識別能力,其識別準(zhǔn)確率很高;②銷售期間費(fèi)用率、流動比率、資本收益率和每股收益增長率4個財(cái)務(wù)指標(biāo)對會計(jì)信息失真具有很高的識別能力,因此可以將這4個財(cái)務(wù)指標(biāo)作為判別標(biāo)準(zhǔn),可以非常準(zhǔn)確地判斷會計(jì)信息是否失真。③分類回歸樹模型是非參數(shù)非線性方法,使用簡單方便,研究結(jié)果容易理解。本文研究的分類回歸樹模型為審計(jì)機(jī)構(gòu)、監(jiān)管機(jī)構(gòu)和廣大投資者提供了一種識別會計(jì)信息失真狀況的方便實(shí)用的方法。
主要參考文獻(xiàn)
[1]Imran Kurt, Mevlut Ture ,Turhan Kurum. Comparing Performances of Logistic Regression, Classification and Regression Tree, and Neural Networks for Predicting Coronary Artery Disease [J]. Expert Systems with Applications, 2008(34):366-374.
[2]Belinna Bai, Jerome Yen, Xiaoguang Yang. False Financial Statements: Characteristics of Chinas Listed Companies and CART Detecting Approach[J]. International Journal of Information Technology and Decision Making, 2008 (7):339-359.
[3]劉君,王理平. 基于概率神經(jīng)網(wǎng)絡(luò)的財(cái)務(wù)舞弊識別模型[J]. 哈爾濱商業(yè)大學(xué)學(xué)報(bào):社會科學(xué)版,2006(3):102-105.
[4]張玲,陳收,張昕.基于多元判別分析和神經(jīng)網(wǎng)絡(luò)技術(shù)的公司財(cái)務(wù)困境預(yù)警[J].系統(tǒng)工程,2005,23(11):49-56.