(副教授)
上市公司違規(guī)的信息披露擾亂了證券市場(chǎng)的良序,加大了市場(chǎng)風(fēng)險(xiǎn)。自1993年以來,共有1532家上市公司存在3702次信息違規(guī)披露問題并受到處罰,極大地?fù)p害了投資者、債權(quán)人的利益以及他們對(duì)證券市場(chǎng)的信心。上市公司信息披露違規(guī)對(duì)注冊(cè)會(huì)計(jì)師審計(jì)影響巨大,審計(jì)可在一定程度上揭露舞弊,但由于審計(jì)的固有限制,即使注冊(cè)會(huì)計(jì)師按照審計(jì)準(zhǔn)則的規(guī)定恰當(dāng)?shù)赜?jì)劃和執(zhí)行了審計(jì)工作,也不可避免地存在財(cái)務(wù)報(bào)表中的某些重大錯(cuò)報(bào)未被發(fā)現(xiàn)的風(fēng)險(xiǎn)。那么審計(jì)應(yīng)如何有效地識(shí)別舞弊影響因素,揭示舞弊風(fēng)險(xiǎn)并加強(qiáng)監(jiān)管呢?
本文基于國(guó)家治理視角識(shí)別舞弊,利用機(jī)器學(xué)習(xí)建模揭示傾向性、苗頭性問題,以更好地識(shí)別上市公司舞弊信號(hào),為監(jiān)管部門制定有針對(duì)性的舞弊治理策略提供理論支持,使審計(jì)更好地發(fā)揮“免疫系統(tǒng)”職能。本研究的獨(dú)特之處在于:①?gòu)膰?guó)家治理的廣義審計(jì)視角定義舞弊內(nèi)涵,除了財(cái)務(wù)指標(biāo),還考慮了公司治理、持續(xù)經(jīng)營(yíng)類指標(biāo);②跳出經(jīng)典統(tǒng)計(jì)的舞弊尋因與抽樣方法,基于大樣本、多變量的大數(shù)據(jù)視角,減少了分析模型對(duì)樣本及前提假設(shè)的約束;③研究了抽樣方法對(duì)模型評(píng)價(jià)結(jié)果的影響;④采用自助匯聚抽樣的機(jī)器學(xué)習(xí)算法優(yōu)化決策樹模型,提高了預(yù)測(cè)準(zhǔn)確度。
即使各國(guó)政府都出臺(tái)了諸多法規(guī)來規(guī)范上市公司的行為,但舞弊事件仍層出不窮。國(guó)內(nèi)外學(xué)者致力于舞弊影響因素、信號(hào)識(shí)別研究,從分析企業(yè)財(cái)務(wù)報(bào)表之間的內(nèi)在邏輯沖突來發(fā)現(xiàn)違規(guī)行為,轉(zhuǎn)向利用數(shù)據(jù)挖掘技術(shù)來識(shí)別違規(guī)行為。劉懿(2007)將上市公司違規(guī)與審計(jì)意見結(jié)合建模,發(fā)現(xiàn)違規(guī)是影響審計(jì)質(zhì)量的顯著因素。陳關(guān)亭(2007)建立了Logistic模型,發(fā)現(xiàn)舞弊壓力主要來源于避免被ST處理、退市;股權(quán)集中度較高、獨(dú)立董事比例較低、董事會(huì)會(huì)議次數(shù)較少、董事會(huì)成員持股量較少、董事長(zhǎng)兼任總經(jīng)理、監(jiān)事會(huì)無效、變更主審會(huì)計(jì)師事務(wù)所則為財(cái)務(wù)報(bào)告舞弊提供了機(jī)會(huì),內(nèi)部控制對(duì)舞弊也有一定影響。吳革、葉陳剛(2008)對(duì)違規(guī)披露分類后,排除了業(yè)務(wù)舞弊、表外關(guān)聯(lián)交易、延遲披露等違規(guī)類別,選擇被證監(jiān)會(huì)處罰的公司作為舞弊樣本,從財(cái)務(wù)報(bào)表和公司治理方面建立Logistic回歸模型,發(fā)現(xiàn)股權(quán)集中度、每股凈資產(chǎn)差異率、非主營(yíng)業(yè)務(wù)利潤(rùn)率、存貨占流動(dòng)資產(chǎn)的比重等因素會(huì)對(duì)舞弊行為產(chǎn)生影響。余玉苗、呂凡(2010)從發(fā)生財(cái)務(wù)違規(guī)公司的前一年與違規(guī)當(dāng)年的財(cái)務(wù)指標(biāo)的動(dòng)態(tài)增量信息視角入手,建立Logistic識(shí)別模型,發(fā)現(xiàn)固定資產(chǎn)增長(zhǎng)率、每股收益等會(huì)對(duì)財(cái)務(wù)違規(guī)產(chǎn)生重要影響。洪文洲等(2014)通過建立舞弊Logistic回歸模型,發(fā)現(xiàn)折舊率變高、股權(quán)比較分散的上市公司更有可能發(fā)生財(cái)務(wù)違規(guī)行為。顧寧生和馮勤超(2009)、張秋三等(2014)運(yùn)用神經(jīng)網(wǎng)絡(luò)建立了上市公司財(cái)務(wù)違規(guī)識(shí)別模型并驗(yàn)證了模型的有效性。高媛媛(2014)應(yīng)用決策樹模型對(duì)違規(guī)識(shí)別指標(biāo)進(jìn)行特征選擇,并在此基礎(chǔ)上構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,發(fā)現(xiàn)決策樹—神經(jīng)網(wǎng)絡(luò)組合模型在識(shí)別違規(guī)方面的精確性和穩(wěn)定性更好。
Glen L.Graya、Roger S.Debrecenyb(2014)建立了基于模式識(shí)別的分類數(shù)據(jù)挖掘模型,對(duì)文本及郵件數(shù)據(jù)進(jìn)行舞弊分析。Amer Alhazaimeh等(2014)使用動(dòng)態(tài)面板系統(tǒng)GMM估計(jì)模型,對(duì)約旦上市公司的公司治理與董事會(huì)結(jié)構(gòu)進(jìn)行研究,發(fā)現(xiàn)董事會(huì)活動(dòng)、外國(guó)所有權(quán)、非執(zhí)行董事和股東對(duì)自愿性信息披露有顯著影響。Norazida Mohamed、Moorison Handley-Schachelor(2014)發(fā)現(xiàn),管理的完整性、完善的內(nèi)部系統(tǒng)可以降低財(cái)務(wù)舞弊發(fā)生的概率。Ismajli H.等(2017)采用調(diào)查問卷方式,得出了內(nèi)部審計(jì)可以作為發(fā)現(xiàn)財(cái)務(wù)報(bào)告中舞弊和錯(cuò)誤檢測(cè)的起點(diǎn)的結(jié)論。
綜合來看,學(xué)者們對(duì)舞弊特征進(jìn)行研究的樣本大多低于200個(gè),視角多集中于財(cái)務(wù)指標(biāo)、股權(quán)集中度、股東規(guī)模、審計(jì)意見類型等,最常用的方法為L(zhǎng)ogistic回歸方法。
我國(guó)2010年修訂的《中國(guó)注冊(cè)會(huì)計(jì)師審計(jì)準(zhǔn)則第1141號(hào)——財(cái)務(wù)報(bào)表審計(jì)中與舞弊相關(guān)的責(zé)任》第四條認(rèn)定:舞弊是一個(gè)寬泛的法律概念,但注冊(cè)會(huì)計(jì)師關(guān)注的是導(dǎo)致財(cái)務(wù)報(bào)表發(fā)生重大錯(cuò)報(bào)的舞弊,與財(cái)務(wù)報(bào)表審計(jì)相關(guān)的故意錯(cuò)報(bào)包括編制虛假財(cái)務(wù)報(bào)告導(dǎo)致的錯(cuò)報(bào)和侵占資產(chǎn)導(dǎo)致的錯(cuò)報(bào)。
上市公司信息違規(guī)披露形式包括虛構(gòu)利潤(rùn)、虛列資產(chǎn)、虛假記載(誤導(dǎo)性陳述)、推遲披露、重大遺漏、披露不實(shí)(其他)、欺詐上市、出資違規(guī)、擅自改變資金用途、占用公司資產(chǎn)、內(nèi)幕交易、違規(guī)買賣股票、操縱股價(jià)、違規(guī)擔(dān)保、一般會(huì)計(jì)處理不當(dāng)及其他等16類。從注冊(cè)會(huì)計(jì)師審計(jì)視角來看,推遲披露、內(nèi)幕交易、違規(guī)買賣股票、操縱股價(jià)等違規(guī)行為并不一定與財(cái)務(wù)報(bào)表審計(jì)相關(guān);但基于國(guó)家治理,從審計(jì)作為防范整個(gè)經(jīng)濟(jì)運(yùn)行安全的“免疫系統(tǒng)”職能來看,該類違規(guī)是主觀故意的行為,其危害遠(yuǎn)高于會(huì)計(jì)報(bào)表舞弊,政府審計(jì)更有必要、有責(zé)任、有義務(wù)通過歷史數(shù)據(jù)研究發(fā)現(xiàn)違規(guī)的苗頭性問題,以揭示內(nèi)幕交易、違規(guī)買賣股票、操縱股價(jià)等舞弊行為。因此,對(duì)于上市公司的違規(guī)行為,本研究均界定為舞弊范疇。
目前被廣泛認(rèn)可的經(jīng)典舞弊三角理論認(rèn)為,壓力、機(jī)會(huì)、借口是舞弊行為發(fā)生的三大因素。舞弊者基于盈利、債務(wù)、股利分配、現(xiàn)金流等壓力的異常需要是舞弊行為產(chǎn)生的根源。組織缺乏完善的內(nèi)部控制制度、信息不對(duì)稱、違規(guī)成本低、制度不健全、管理者無知無能等為舞弊行為的實(shí)施提供了途徑。
1.完善內(nèi)部控制評(píng)價(jià)報(bào)告體系可抑制舞弊。完善內(nèi)部控制評(píng)價(jià)與披露制度是防范舞弊的一項(xiàng)重要措施。2008~2010年,財(cái)政部、證監(jiān)會(huì)、審計(jì)署、銀監(jiān)會(huì)、保監(jiān)會(huì)五部委先后聯(lián)合頒布了《企業(yè)內(nèi)部控制基本規(guī)范》及18項(xiàng)配套指引,在境內(nèi)外同時(shí)上市的公司需于2011年起執(zhí)行,這標(biāo)志著我國(guó)企業(yè)內(nèi)部控制規(guī)范體系基本建成。2014年證監(jiān)會(huì)、財(cái)政部頒布了《公開發(fā)行證券的公司信息披露編報(bào)規(guī)則第21號(hào)——年度內(nèi)部控制評(píng)價(jià)報(bào)告的一般規(guī)定》,進(jìn)一步規(guī)范了上市公司內(nèi)部控制評(píng)價(jià)報(bào)告編制規(guī)則。上市公司內(nèi)控制度評(píng)價(jià)報(bào)告和內(nèi)控審計(jì)報(bào)告披露機(jī)制要求上市公司披露內(nèi)控是否存在缺陷、內(nèi)控是否有效、內(nèi)控審計(jì)意見等關(guān)鍵因素,這些因素也逐步顯示出了其不可替代的作用。
上市公司內(nèi)部控制通過兩種作用機(jī)制實(shí)現(xiàn)其對(duì)舞弊的抑制:第一,內(nèi)部控制實(shí)現(xiàn)了組織內(nèi)部的權(quán)力制衡,減少了舞弊機(jī)會(huì)、錯(cuò)報(bào)和欺詐;第二,有效的內(nèi)部控制可以抑制企業(yè)會(huì)計(jì)政策和會(huì)計(jì)估計(jì)的濫用,提升了員工的道德認(rèn)知水平,削弱了舞弊動(dòng)機(jī)。但是,仍有相當(dāng)數(shù)量的違規(guī)上市公司的內(nèi)部控制存在問題。經(jīng)統(tǒng)計(jì)分析,1993~2015年A股上市公司年報(bào)數(shù)據(jù)中,共有1485家上市公司累計(jì)4502個(gè)年度存在13165類違規(guī)行為。其中:有532家公司內(nèi)部控制存在缺陷,28家公司內(nèi)部控制無效;106家公司被出具了非標(biāo)準(zhǔn)內(nèi)部控制審計(jì)意見。因此,提出假設(shè):
H1:完善的內(nèi)部控制可抑制舞弊。
2.財(cái)務(wù)報(bào)告審計(jì)意見及審計(jì)收費(fèi)對(duì)舞弊有揭示作用。財(cái)政部2010年修訂的《中國(guó)注冊(cè)會(huì)計(jì)師審計(jì)準(zhǔn)則第1141號(hào)——財(cái)務(wù)報(bào)表審計(jì)中與舞弊相關(guān)的責(zé)任》第六條明確規(guī)定:注冊(cè)會(huì)計(jì)師在按照審計(jì)準(zhǔn)則的規(guī)定執(zhí)行審計(jì)工作時(shí),有責(zé)任對(duì)財(cái)務(wù)報(bào)表整體是否不存在由舞弊或錯(cuò)誤導(dǎo)致的重大錯(cuò)報(bào)獲取合理保證。經(jīng)統(tǒng)計(jì)分析,在過去23年間,注冊(cè)會(huì)計(jì)師勤勉地履行了審計(jì)監(jiān)督職能,約有85%的公司被出具了標(biāo)準(zhǔn)審計(jì)意見。但這并不意味著這些公司不存在舞弊,由于審計(jì)的固有限制,即使注冊(cè)會(huì)計(jì)師按照審計(jì)準(zhǔn)則的規(guī)定恰當(dāng)?shù)赜?jì)劃和執(zhí)行了審計(jì)工作,也不可避免地存在財(cái)務(wù)報(bào)表中的某些重大錯(cuò)報(bào)未被發(fā)現(xiàn)的風(fēng)險(xiǎn)。共有562家被出具無保留審計(jì)意見的公司存在1826類違規(guī)行為且遭到處罰,其中不乏重大遺漏、虛假記載(誤導(dǎo)性陳述)、披露不實(shí)(其他)、占用公司資產(chǎn)、虛構(gòu)利潤(rùn)、違規(guī)擔(dān)保、欺詐上市、虛列資產(chǎn)等審計(jì)應(yīng)該揭示的舞弊行為。由于舞弊可能涉及行為者的精心策劃、虛假隱瞞、串通合謀,在舞弊導(dǎo)致錯(cuò)報(bào)的情況下,固有限制的潛在影響尤其重大。
證監(jiān)會(huì)[2016]126號(hào)文件《上市公司股權(quán)激勵(lì)管理辦法》要求最近一年財(cái)務(wù)報(bào)表被審計(jì)師出具無法表示意見和否定意見的公司不得實(shí)行股權(quán)激勵(lì)。因此,財(cái)務(wù)報(bào)表審計(jì)意見類型一方面成為公司舞弊的壓力指標(biāo),另一方面是審計(jì)揭示上市公司舞弊的有力手段。審計(jì)人員應(yīng)提高對(duì)舞弊的識(shí)別能力,降低固有風(fēng)險(xiǎn)對(duì)舞弊識(shí)別的影響。
另外,異常的審計(jì)收費(fèi)可能暗示著舞弊發(fā)生的機(jī)會(huì)或?qū)ξ璞捉沂镜哪芰Σ蛔?。其中:過低的審計(jì)收費(fèi)可能暗示著會(huì)計(jì)師事務(wù)所規(guī)模不足、低價(jià)競(jìng)爭(zhēng)導(dǎo)致注冊(cè)會(huì)計(jì)師不夠勤勉;過高的審計(jì)收費(fèi)可能暗示著注冊(cè)會(huì)計(jì)師或會(huì)計(jì)師事務(wù)所合謀、對(duì)舞弊風(fēng)險(xiǎn)的估計(jì)不足、舞弊識(shí)別能力欠缺等。因此,提出假設(shè):
H2:財(cái)務(wù)報(bào)告審計(jì)意見及審計(jì)收費(fèi)對(duì)舞弊有揭示作用。
3.提高治理層監(jiān)管能力是預(yù)防舞弊的有效手段。董事會(huì)人數(shù)、監(jiān)事會(huì)人數(shù)反映了公司的決策效率和對(duì)管理層的監(jiān)管作用。過少的人數(shù)可能會(huì)導(dǎo)致高管權(quán)力凌駕于內(nèi)部控制之上;過多的人數(shù)可能會(huì)降低監(jiān)管效率。董事會(huì)及監(jiān)事會(huì)的履職頻率從一定程度上反映了治理層的執(zhí)行力。恰當(dāng)?shù)墓蓹?quán)集中度有利于公司股東利益產(chǎn)生趨同效應(yīng);過高的集中度可能使中小股東的利益被侵占,在一定程度上為大股東實(shí)施舞弊行為提供了途徑。因此,提出假設(shè):
H3:恰當(dāng)?shù)闹卫韺右?guī)模、履職頻率及股權(quán)集中度可預(yù)防舞弊。
4.盈利及持續(xù)發(fā)展壓力催生舞弊動(dòng)機(jī)。我國(guó)對(duì)上市公司業(yè)績(jī)的評(píng)價(jià)高度依賴財(cái)務(wù)數(shù)據(jù),證監(jiān)會(huì)2015[119]、2015[122]、2016[127]號(hào)文件等對(duì)首次執(zhí)行上市、重大資產(chǎn)并購(gòu)重組及配股、增發(fā)等規(guī)定了相應(yīng)的業(yè)績(jī)要求,若公司在持續(xù)經(jīng)營(yíng)中達(dá)不到盈利或業(yè)績(jī)要求,則會(huì)面臨ST處理或退市等處罰。因此,當(dāng)上市公司可能面臨盈利及可持續(xù)經(jīng)營(yíng)壓力時(shí),可能發(fā)生舞弊行為。
H4:盈利能力、可持續(xù)發(fā)展能力類指標(biāo)能反映舞弊壓力。
本文在參考國(guó)內(nèi)研究上市公司違規(guī)征兆相關(guān)文獻(xiàn)的基礎(chǔ)上,將上市公司舞弊設(shè)為因變量。自變量基于舞弊三角理論,考慮影響舞弊的壓力、機(jī)會(huì)、借口等因素指標(biāo),從公司治理、財(cái)務(wù)指標(biāo)、持續(xù)經(jīng)營(yíng)三個(gè)維度十四個(gè)方面選擇了33個(gè)特征指標(biāo),如表1所示。
1.預(yù)測(cè)變量。上市公司舞弊為預(yù)測(cè)變量,包括非舞弊(0)、舞弊(1)兩種狀態(tài)。
2.公司治理類變量。公司治理類變量包括環(huán)境特征、上一年度的內(nèi)部控制及審計(jì)意見、治理層規(guī)模、履職頻率、股權(quán)集中度等10個(gè)變量。
3.財(cái)務(wù)指標(biāo)類變量。選擇盈利能力、償債能力、經(jīng)營(yíng)能力、發(fā)展能力等四類13個(gè)常用財(cái)務(wù)指標(biāo),并將其納入模型進(jìn)行分析。發(fā)展能力和盈利能力會(huì)受到國(guó)家政策、經(jīng)濟(jì)環(huán)境、行業(yè)發(fā)展趨勢(shì)及公司經(jīng)營(yíng)狀況的影響,既是評(píng)價(jià)管理者業(yè)績(jī)的重要指標(biāo),又是反映公司內(nèi)部壓力的代表性指標(biāo)。
4.持續(xù)經(jīng)營(yíng)能力類變量。持續(xù)經(jīng)營(yíng)能力是影響上市公司發(fā)展前景的關(guān)鍵因素,選擇四類10個(gè)指標(biāo)納入模型進(jìn)行分析。其中:風(fēng)險(xiǎn)水平和股利分配是來自債權(quán)人和股東的外部壓力指標(biāo);發(fā)展水平和現(xiàn)金流是影響公司持續(xù)經(jīng)營(yíng)能力、評(píng)價(jià)管理者業(yè)績(jī)的重要因素。
本研究選取GSMAR財(cái)經(jīng)數(shù)據(jù)庫(kù)中1993~2015年A股上市公司年報(bào)相關(guān)的多庫(kù)數(shù)據(jù),初步選擇A股年報(bào)數(shù)據(jù)30000余條記錄,采用SQL Server 2012數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)預(yù)處理:①瀏覽數(shù)據(jù)。對(duì)特征指標(biāo)變量進(jìn)行描述性統(tǒng)計(jì)分析,觀察分布情況。②缺失值處理。對(duì)來自15個(gè)不同數(shù)據(jù)庫(kù)的幾十萬條數(shù)據(jù)進(jìn)行清理、轉(zhuǎn)換,導(dǎo)入SQL Server 2012數(shù)據(jù)庫(kù)進(jìn)行處理,刪除缺失值樣本。③重新標(biāo)記,將分類變量用數(shù)字0、1進(jìn)行重新編碼,將審計(jì)更為關(guān)注的類別定義為1。如正常公司定義為0,違規(guī)公司定義為1;標(biāo)準(zhǔn)審計(jì)意見定義為0,非標(biāo)準(zhǔn)審計(jì)意見定義為1。④分離屬性。將原數(shù)據(jù)庫(kù)中某一屬性的多種水平分離處理為多個(gè)樣本。⑤多表關(guān)聯(lián),構(gòu)造舞弊特征指標(biāo)數(shù)據(jù)集。將舞弊數(shù)據(jù)表與公司治理、財(cái)務(wù)指標(biāo)、持續(xù)經(jīng)營(yíng)能力三大類指標(biāo)一一匹配后形成樣本數(shù)據(jù)。
表1 特征指標(biāo)及含義
舞弊數(shù)據(jù)樣本來源于1993年1月1日~2015年12月31日因違規(guī)而受到上交所、深交所、證監(jiān)會(huì)、財(cái)政部等處罰的3702條上市公司數(shù)據(jù)。非舞弊樣本選自數(shù)據(jù)庫(kù)中正常公司A股年報(bào)數(shù)據(jù)。經(jīng)數(shù)據(jù)預(yù)處理后共形成4461個(gè)正常與舞弊的樣本數(shù)據(jù),其中舞弊樣本714個(gè)。
信賴過度風(fēng)險(xiǎn)經(jīng)常會(huì)導(dǎo)致嚴(yán)重的審計(jì)后果,因而審計(jì)人員更為關(guān)注對(duì)舞弊公司的正確分類。研究表明,對(duì)于一些基分類器而言,均衡的數(shù)據(jù)集可以更有效地提高全局的分類性能。由于舞弊數(shù)據(jù)(714個(gè))僅占有效樣本總數(shù)(4461個(gè))的16%,相對(duì)于非舞弊數(shù)據(jù)(3747個(gè))過于稀少,因此本研究分別采取1∶1配對(duì)樣本及1∶2、1∶3、1∶4三種過度抽樣比例進(jìn)行研究,選擇70%的數(shù)據(jù)作為訓(xùn)練樣本,另外30%為測(cè)試樣本,樣本規(guī)模如表2所示。
表2 抽樣比例與樣本量
1.舞弊公司分析。在選定的原始樣本中,對(duì)舞弊公司的數(shù)據(jù)進(jìn)行分析,其中2012年違規(guī)交數(shù)最多(見表3)。計(jì)算機(jī)、通信和其他電子設(shè)備制造業(yè),化學(xué)原料及化學(xué)制品制造業(yè),電氣機(jī)械及器材制造業(yè)這三個(gè)行業(yè)的違規(guī)次數(shù)最多(見表4)。由于存在同公司、同年度多類違規(guī)的情況,在714家上市公司違規(guī)樣本中共有1862類違規(guī)行為,違規(guī)次數(shù)最多的前三類為其他、重大遺漏和推遲披露。
表3 舞弊公司分年度統(tǒng)計(jì)數(shù)據(jù)
表4 舞弊行業(yè)及類別統(tǒng)計(jì)
2.配對(duì)樣本t檢驗(yàn)和Wilcoxon秩和檢驗(yàn)。為了檢驗(yàn)舞弊與非舞弊公司在不同變量間有無顯著差異,對(duì)分類變量采用卡方檢驗(yàn),對(duì)連續(xù)變量采用配對(duì)樣本t檢驗(yàn)與Wilcoxon秩和檢驗(yàn),檢驗(yàn)結(jié)果見表5。由表5可知:20個(gè)指標(biāo)在舞弊公司與非舞弊公司間有顯著差異。
根據(jù)歷史數(shù)據(jù)對(duì)舞弊進(jìn)行建模分類,基于四種樣本規(guī)模,采用R語(yǔ)言建立決策樹模型,采用C5.0算法,用信息增益確定分枝規(guī)則。
1.決策樹C5.0算法。決策樹方法是以一組特征變量為基礎(chǔ)來預(yù)測(cè)二分類因變量的機(jī)器學(xué)習(xí)方法,以樹形結(jié)構(gòu)建模,將某一屬性作為決策結(jié)點(diǎn)并進(jìn)行分杈,從根節(jié)點(diǎn)開始至葉節(jié)點(diǎn)終止。C5.0算法由計(jì)算機(jī)科學(xué)家J.Ross Quinlan開發(fā),是最知名的決策樹算法之一,目前已成為生成決策樹的行業(yè)標(biāo)準(zhǔn)。具體算法如下:
(1)選擇最佳分割點(diǎn)。決策樹算法依據(jù)一系列特征變量,尋找用來劃分二分類因變量的關(guān)鍵特征,即確定哪一個(gè)最佳分割變量可使分類最純。最佳分割點(diǎn)能夠?qū)崿F(xiàn)樣本的最佳分組,以使每個(gè)組僅由一個(gè)類別支配。C5.0算法使用熵值來計(jì)算由每一個(gè)可能特征的分割所引起的同質(zhì)性變化(信息增益)度量的分類純度,如式(1)所示。
熵表示分類值是如何混雜在一起的。在熵的公式中:S代表給定的分割;常數(shù)C代表分類水平(本預(yù)測(cè)變量的水平為2);pi代表落入某一分類中的特征值的比例。對(duì)于特征F,信息增益是分割前的數(shù)據(jù)分區(qū)(S1)的熵值與由分割產(chǎn)生的數(shù)據(jù)分區(qū)(S2)的熵值差,如式(2)所示。
表5 配對(duì)樣本檢驗(yàn)結(jié)果
決策樹經(jīng)歷一次分割后,數(shù)據(jù)被分到多個(gè)分區(qū)中,計(jì)算由分割產(chǎn)生的熵值時(shí)需要考慮所有分區(qū)熵值的總和,如式(3)所示。
因此,從一個(gè)分割得到的總熵是根據(jù)落入每一分類的比例wi加權(quán)的n個(gè)分類的熵值的總和。信息增益越高,根據(jù)某一特征分類后創(chuàng)建的分組越均衡。除了信息增益分割標(biāo)準(zhǔn),其他常用的評(píng)估決策樹的最佳分割點(diǎn)的標(biāo)準(zhǔn)還包括“基尼系數(shù)(Gini index)”、卡方統(tǒng)計(jì)量(Chi-Squared statistic)和增益比(Gain ratio)等。
(2)修剪決策樹。決策樹在無限分割中易使決策過于具體,產(chǎn)生過度擬合問題,修剪決策樹可以更好地預(yù)測(cè)未知數(shù)據(jù),這是有效提高決策樹預(yù)測(cè)能力的環(huán)節(jié)。通常使用預(yù)剪枝法或后剪枝法抑制樹的過度生長(zhǎng)。C5.0算法采用自動(dòng)修剪技術(shù),先生成一個(gè)過度擬合訓(xùn)練數(shù)據(jù)的大樹,通過事后修剪法,修剪掉對(duì)分類誤差影響不大的節(jié)點(diǎn)和分枝,利用子樹提升和子樹替換的方法完成修剪。決策樹C5.0算法易于調(diào)整訓(xùn)練方案,適用于大多數(shù)問題,學(xué)習(xí)過程高度自動(dòng)化,更易于理解和部署,因而具有更強(qiáng)的適用性。
2.模型評(píng)價(jià)標(biāo)準(zhǔn)。模型采用精確率、召回率、F1分?jǐn)?shù)、KAPPA值及ROC曲線(Receiver Operating Characteristic Curve,受試者工作特征曲線,簡(jiǎn)稱“ROC曲線”)進(jìn)行評(píng)價(jià)。評(píng)價(jià)標(biāo)準(zhǔn)的計(jì)算依賴于表達(dá)預(yù)測(cè)值與真實(shí)值間關(guān)系的混淆矩陣(見表6),其中:T表示舞弊;F表示非舞弊;TN表示對(duì)非舞弊公司的正確預(yù)測(cè)(真陰性);FP表示實(shí)際為非舞弊公司,但被預(yù)測(cè)為舞弊公司(假陽(yáng)性);FN表示實(shí)際為舞弊公司,但被預(yù)測(cè)為非舞弊公司(假陰性);TP表示對(duì)舞弊公司的正確預(yù)測(cè)(真陽(yáng)性)。
表6 評(píng)價(jià)標(biāo)準(zhǔn)混淆矩陣
精確率是指所有預(yù)測(cè)為舞弊的公司中真正舞弊公司的比例,用來評(píng)價(jià)分類模型的質(zhì)量,計(jì)算方法為真陽(yáng)性的數(shù)目除以真陽(yáng)性和假陽(yáng)性的總數(shù),見式(4)。召回率是實(shí)際舞弊公司中預(yù)測(cè)準(zhǔn)確的比例,見式(5),用來評(píng)價(jià)分類模型的完整性,是對(duì)舞弊公司正確分類的比例,是審計(jì)所關(guān)注的犯第二類錯(cuò)誤即誤受風(fēng)險(xiǎn)被正確揭示的概率。F1分?jǐn)?shù)是用來衡量模型精確度的一種指標(biāo),是模型精確率和召回率的一種加權(quán)平均,計(jì)算方法見式(6),介于0~1之間。
KAPPA統(tǒng)計(jì)量代表了預(yù)測(cè)值和真實(shí)值之間的一致性,一般0.2~0.4代表一致性尚可,0.4~0.6表示中等的一致性,1表示完全一致。ROC曲線又被稱為感受性曲線(Sensitivity Curve),是以召回率為縱坐標(biāo),(1-特異度)為橫坐標(biāo),在單位面積為1的正方形內(nèi)繪制的曲線。ROC曲線下的面積(AUC)代表預(yù)測(cè)效果,曲線越凸向左上角的頂點(diǎn),AUC面積越大,則模型預(yù)測(cè)效果越好。
3.實(shí)證結(jié)果分析。抽樣模式對(duì)模型預(yù)測(cè)精度有較大影響。與1∶1配對(duì)抽樣相比,過度抽樣模式有效提高了模型預(yù)測(cè)的召回率,降低了舞弊識(shí)別的誤受風(fēng)險(xiǎn)。在1∶3過度抽樣模式下,決策樹C5.0算法對(duì)舞弊預(yù)測(cè)的召回率最高,比1∶1配對(duì)抽樣提高了32.82%(見表7)。但KAPPA值與1∶1抽樣模式相比有顯著降低,說明過度抽樣模式在提高舞弊公司識(shí)別的召回率的同時(shí)會(huì)導(dǎo)致對(duì)非舞弊公司的誤判風(fēng)險(xiǎn)增大。
表7 不同抽樣模式下的模型比較
與因變量舞弊關(guān)聯(lián)性由強(qiáng)至弱的前十個(gè)變量依次為內(nèi)控是否有效、息稅前利潤(rùn)、董事會(huì)會(huì)議次數(shù)、內(nèi)控意見、董事會(huì)人數(shù)、監(jiān)事會(huì)人數(shù)、股利分配率、每股企業(yè)自由現(xiàn)金流量、總資產(chǎn)凈利潤(rùn)率、審計(jì)收費(fèi),如表8所示。
表8 舞弊的重要影響因素綜合排序(前十)
采用信息增益剪枝的C5.0決策樹模型建立了58條決策規(guī)則,可由模型或決策樹圖得出。比如:約有11%的內(nèi)控?zé)o效的企業(yè)被揭示出舞弊;約有35%的內(nèi)控?zé)o效、息稅前利潤(rùn)小于682715900元且董事會(huì)會(huì)議次數(shù)小于9.5次的企業(yè)被揭示出舞弊;約有26%的內(nèi)控?zé)o效、息稅前利潤(rùn)小于682715900元、董事會(huì)會(huì)議次數(shù)高于9.5次、董事會(huì)人數(shù)小于7.5人、應(yīng)收賬款收入比高于76%且利息保障倍數(shù)低于-17的企業(yè)被揭示出舞弊;約有9%的內(nèi)控有效、息稅前利潤(rùn)高于682715900元、可持續(xù)增長(zhǎng)率不高于1.12%且董事會(huì)人數(shù)小于15人的企業(yè)被揭示出舞弊;約有1%的內(nèi)控有效、息稅前利潤(rùn)小于682715900元且可持續(xù)增長(zhǎng)率低于1.12%的企業(yè)被揭示出舞弊等。
過度抽樣預(yù)測(cè)雖然有效提高了對(duì)舞弊分類預(yù)測(cè)的召回率,但審計(jì)需要獲取更多證據(jù)來排除對(duì)非舞弊公司的舞弊誤報(bào),極大地影響了審計(jì)效率。配對(duì)抽樣模式通過隨機(jī)抽取訓(xùn)練樣本與測(cè)試樣本的方法,不能全面地代表總體分布情況。而利用機(jī)器學(xué)習(xí)算法,可有效優(yōu)化抽樣及預(yù)測(cè)效果。
1.Bagging優(yōu)化算法。為了提高分類模型的預(yù)測(cè)準(zhǔn)確率,通常將多個(gè)分類方法聚集在一起進(jìn)行集成學(xué)習(xí),首先由訓(xùn)練數(shù)據(jù)構(gòu)建一組基分類器,然后通過對(duì)每個(gè)基分類器的預(yù)測(cè)進(jìn)行投票來分類。自助匯聚法(簡(jiǎn)稱“Bagging算法”)是得到廣泛認(rèn)可的最好的集成學(xué)習(xí)方法之一。Bagging算法對(duì)原始訓(xùn)練數(shù)據(jù)使用自助抽樣的方法,根據(jù)均勻概率分布從數(shù)據(jù)中重復(fù)抽樣,產(chǎn)生多個(gè)訓(xùn)練數(shù)據(jù)集,使每個(gè)訓(xùn)練數(shù)據(jù)集訓(xùn)練一個(gè)基分類器,多個(gè)數(shù)據(jù)集各自使用單一的機(jī)器學(xué)習(xí)算法產(chǎn)生多個(gè)模型,然后采用投票的方式來組合預(yù)測(cè)值。
Bagging算法是一種相對(duì)簡(jiǎn)單的集成學(xué)習(xí)器,與相對(duì)不穩(wěn)定的學(xué)習(xí)器結(jié)合使用可得到很好的效果。決策樹算法是一種不穩(wěn)定的分類器,會(huì)隨著數(shù)據(jù)抽樣的不同而產(chǎn)生較大的差別。因此決策樹算法與Bagging算法組合使用,可確保即使自助抽樣數(shù)據(jù)集之間的差異很微小,集成學(xué)習(xí)器的投票結(jié)果也具有多樣性。
Bagging算法在抽樣中由于采用重復(fù)抽樣,每個(gè)樣本被選中的概率相同,因此Bagging并不側(cè)重于訓(xùn)練數(shù)據(jù)集中的任何特定實(shí)例,其性能依賴于基分類器的穩(wěn)定性,如果基分類器不穩(wěn)定,Bagging算法會(huì)通過降低基分類器的方差,縮小泛化誤差,有效提高基分類器的準(zhǔn)確率。
2.Bagging算法優(yōu)化結(jié)果。對(duì)決策樹C5.0模型使用Bagging集成學(xué)習(xí)算法進(jìn)行優(yōu)化。采用R語(yǔ)言中ipred包,選取25個(gè)決策樹進(jìn)行投票,訓(xùn)練結(jié)果表明對(duì)訓(xùn)練數(shù)據(jù)的擬合效果非常好,預(yù)測(cè)準(zhǔn)確度為99.23%,召回率為99.86%,KAPPA值為0.985,如表9所示。與C5.0算法比較的ROC曲線如下圖所示,Bagging算法優(yōu)化后曲線下面積為0.999。
表9 Bagging集成學(xué)習(xí)算法優(yōu)化后模型驗(yàn)證與評(píng)估
C5.0算法與Bagging優(yōu)化后的ROC曲線比較圖
為了驗(yàn)證模型未來性能方面的表現(xiàn),采用十折交叉驗(yàn)證法建立Bagging樹,并進(jìn)行了樣本外數(shù)據(jù)測(cè)試。十折交叉驗(yàn)證的平均準(zhǔn)確度與KAPPA值均高于優(yōu)化前模型的預(yù)測(cè)效果。樣本外數(shù)據(jù)測(cè)試選擇同期樣本外數(shù)據(jù)334條,其中舞弊樣本53條,正常公司樣本281條。選用Bagging算法優(yōu)化后的決策樹模型預(yù)測(cè)正確的樣本有311個(gè),其中:對(duì)舞弊公司預(yù)測(cè)正確的有41個(gè),對(duì)非舞弊公司預(yù)測(cè)正確的有270個(gè);預(yù)測(cè)總體準(zhǔn)確率為93.11%,比優(yōu)化前提高了35.87%;召回率為78.85%,比優(yōu)化前提高了21.1%;KAPPA值為0.74,比優(yōu)化前提高了0.595(見表9)。這說明優(yōu)化后的算法對(duì)樣本外數(shù)據(jù)依然有較好的預(yù)測(cè)效果,該模型對(duì)未來數(shù)據(jù)預(yù)測(cè)有較好的穩(wěn)健性。
為了揭示上市公司舞弊情況,選取了我國(guó)上市公司1993~2015年度舞弊與正常的4461例數(shù)據(jù)為樣本,選取公司治理、財(cái)務(wù)指標(biāo)、持續(xù)經(jīng)營(yíng)等三維十四類33個(gè)變量對(duì)舞弊情況進(jìn)行解釋,采用四種抽樣方法構(gòu)建了決策樹C5.0預(yù)警模型,并結(jié)合Bagging機(jī)器學(xué)習(xí)算法對(duì)決策樹模型進(jìn)行了優(yōu)化。為驗(yàn)證模型的穩(wěn)定性,采用十折交叉驗(yàn)證并對(duì)334例樣本進(jìn)行了樣本外測(cè)試,結(jié)論如下:
1.內(nèi)部控制評(píng)價(jià)報(bào)告體系對(duì)舞弊揭示效果顯著。H1得到驗(yàn)證。影響舞弊最重要的十個(gè)因素依次為:內(nèi)控是否有效、息稅前利潤(rùn)、董事會(huì)會(huì)議次數(shù)、內(nèi)控意見、董事會(huì)人數(shù)、監(jiān)事會(huì)人數(shù)、股利分配率、每股企業(yè)自由現(xiàn)金流量、總資產(chǎn)凈利潤(rùn)率、審計(jì)收費(fèi)。其中內(nèi)控是否有效、內(nèi)控意見類型分別位列第一與第四,說明內(nèi)控評(píng)價(jià)報(bào)告與審計(jì)披露制度對(duì)揭示舞弊有顯著效果。完善的內(nèi)部控制有助于抑制舞弊,內(nèi)控薄弱的上市公司更易產(chǎn)生舞弊機(jī)會(huì)。
2.財(cái)務(wù)報(bào)告審計(jì)意見及審計(jì)收費(fèi)對(duì)舞弊揭示作用顯著。H2部分得到驗(yàn)證。在影響舞弊最重要的十個(gè)因素中,審計(jì)收費(fèi)被證明是影響舞弊的十大關(guān)鍵因素之一,異常的審計(jì)收費(fèi)可能暗示著存在審計(jì)師合謀或外部監(jiān)督不力的情況。上一年度財(cái)務(wù)報(bào)告審計(jì)意見對(duì)當(dāng)年舞弊揭示作用不顯著,可能是因?yàn)槿艄旧弦荒甓缺怀鼍叻菢?biāo)準(zhǔn)審計(jì)意見,則會(huì)對(duì)下一年度財(cái)務(wù)報(bào)告披露產(chǎn)生負(fù)面的影響,從而企業(yè)會(huì)進(jìn)行整改,使得其與舞弊無顯著關(guān)系。上一年度若被出具標(biāo)準(zhǔn)審計(jì)意見,則無顯著證據(jù)表明與本年度是否舞弊有直接的因果關(guān)系。
3.恰當(dāng)?shù)闹卫韺右?guī)模、履職頻率及股權(quán)集中度可預(yù)防舞弊。H3部分得到驗(yàn)證。公司治理類變量對(duì)舞弊預(yù)測(cè)的影響比財(cái)務(wù)類、可持續(xù)發(fā)展類指標(biāo)更為重要。在影響舞弊的前十大因素中,除了內(nèi)部控制和審計(jì)收費(fèi),還有董事會(huì)會(huì)議次數(shù)、董事會(huì)人數(shù)、監(jiān)事會(huì)人數(shù)為公司治理類指標(biāo),說明董事會(huì)的無效監(jiān)管為舞弊提供了機(jī)會(huì)和借口。
4.盈利能力、可持續(xù)發(fā)展能力類指標(biāo)能反映舞弊壓力。H4部分得到驗(yàn)證。代表盈利能力的息稅前利潤(rùn)、總資產(chǎn)凈利潤(rùn)率指標(biāo)對(duì)舞弊有顯著影響。代表可持續(xù)經(jīng)營(yíng)能力的股利分配率、每股企業(yè)自由現(xiàn)金流量指標(biāo)催生了財(cái)務(wù)靈活性壓力,對(duì)舞弊有顯著影響。
5.抽樣模式會(huì)影響模型預(yù)測(cè)的準(zhǔn)確率和召回率?;跈C(jī)器學(xué)習(xí)的Bagging算法優(yōu)化決策樹模型,對(duì)舞弊識(shí)別的召回率提升了42.11%。樣本外數(shù)據(jù)測(cè)試顯示出模型預(yù)測(cè)力與穩(wěn)定性良好。
舞弊風(fēng)險(xiǎn)預(yù)測(cè)可有效提高審計(jì)疑點(diǎn)發(fā)現(xiàn)能力,未來應(yīng)基于歷史數(shù)據(jù),考慮不同舞弊類型下的審計(jì)策略,進(jìn)行多模型組合建模,以探索出更有效的審計(jì)策略響應(yīng)機(jī)制。
劉懿.上市公司違規(guī)與審計(jì)意見特征的實(shí)證研究[D].成都:西南財(cái)經(jīng)大學(xué),2007.
陳關(guān)亭.我國(guó)上市公司財(cái)務(wù)報(bào)告舞弊因素的實(shí)證分析[J].審計(jì)研究,2007(5).
吳革,葉陳剛.財(cái)務(wù)報(bào)告舞弊的特征指標(biāo)研究:來自A股上市公司的經(jīng)驗(yàn)數(shù)據(jù)[J].審計(jì)研究,2008(6).
余玉苗,呂凡.財(cái)務(wù)違規(guī)風(fēng)險(xiǎn)的識(shí)別——基于財(cái)務(wù)指標(biāo)增量信息的研究視角[J].經(jīng)濟(jì)評(píng)論,2010(4).
洪文洲,王旭霞,馮海旗.基于Logistic回歸模型的上市公司財(cái)務(wù)報(bào)告違規(guī)識(shí)別研究[J].中國(guó)管理科學(xué),2014(S1).
顧寧生,馮勤超.基于LVQ神經(jīng)網(wǎng)絡(luò)的財(cái)務(wù)違規(guī)識(shí)別模型實(shí)證研究[J].價(jià)值工程,2009(10).
張秋三,張磊,張寧,蔡玖琳.基于數(shù)據(jù)挖掘的上市公司財(cái)務(wù)違規(guī)識(shí)別研究[J].科技和產(chǎn)業(yè),2014(11).
Brett Lantz著.李洪成,許金煒,李艦譯.機(jī)器學(xué)習(xí)與R語(yǔ)言[M].北京:機(jī)械工業(yè)出版社,2015.
高媛媛.基于數(shù)據(jù)挖掘的財(cái)務(wù)違規(guī)識(shí)別研究——決策樹—神經(jīng)網(wǎng)絡(luò)組合模型的構(gòu)建[J].科技經(jīng)濟(jì)市場(chǎng),2014(11).