常遠(yuǎn) 康娜娜
現(xiàn)行的風(fēng)險導(dǎo)向?qū)徲?jì)模式下,審計(jì)人員以合理的職業(yè)懷疑為基礎(chǔ),充分考慮被審計(jì)單位的經(jīng)濟(jì)環(huán)境、治理結(jié)構(gòu)、管理層誠信狀況等因素,對審計(jì)風(fēng)險進(jìn)行系統(tǒng)而充分的識別與評估,制定并執(zhí)行與風(fēng)險相適應(yīng)的審計(jì)計(jì)劃,實(shí)施審計(jì)程序,搜集審計(jì)證據(jù)。然而,隨著信息化的普及與深入,審計(jì)人員常常需要面對大量的數(shù)據(jù),按照傳統(tǒng)審計(jì)抽樣的要求,需要從總體中選取大量樣本,相當(dāng)耗費(fèi)精力,也未必一定獲得有價值的審計(jì)疑點(diǎn)。有鑒于此,本文試圖為尋找提高審計(jì)疑點(diǎn)發(fā)現(xiàn)效率的方法進(jìn)行一些嘗試。
數(shù)據(jù)挖掘是從大量的、模糊的、有噪聲的、隨機(jī)的數(shù)據(jù)集中發(fā)現(xiàn)人們事先未知的、隱含的、規(guī)律性的、但又有潛在價值的、能為人們所知悉理解的知識和信息的過程(Michelline K,2004)。本文將在對分類與聚類方法進(jìn)行對比的基礎(chǔ)上,著重關(guān)注與審計(jì)工作契合程度更高、不需訓(xùn)練集構(gòu)建模型的聚類方法,嘗試使用K-means聚類的方法測試A企業(yè)實(shí)際案例數(shù)據(jù),探究該方法能否起到輔助發(fā)現(xiàn)審計(jì)疑點(diǎn)、提高效率的作用。
直觀上看,審計(jì)工作中查找審計(jì)疑點(diǎn)的過程類似數(shù)據(jù)挖掘中的離群點(diǎn)檢測范疇。數(shù)據(jù)挖掘概念上的“離群點(diǎn)”指顯著不同于其他對象,可能由不同的機(jī)制所產(chǎn)生的數(shù)據(jù)對象(Michelline K,2012)。離群點(diǎn)檢測方法可以基于分類,也可以基于聚類。目前,就財(cái)務(wù)范圍而言,關(guān)于幾種主要分類方法的應(yīng)用均有一些成果。如貝葉斯網(wǎng)絡(luò)方法,王翠霞(2006)、朱慧明(2011)、熊濤(2013)、趙文平(2015)等使用A股市場的歷史公開數(shù)據(jù)進(jìn)行試驗(yàn),分別確定了該方法可以在不苛求樣本分布形式的條件下,較為科學(xué)地得出財(cái)務(wù)、信用等風(fēng)險預(yù)警結(jié)果,且結(jié)果具有較高的準(zhǔn)確性。周達(dá)培(2014)構(gòu)建了應(yīng)收賬款風(fēng)險預(yù)測的貝葉斯網(wǎng)絡(luò)模型,選取案例公司實(shí)際應(yīng)收賬款樣本數(shù)據(jù)進(jìn)行訓(xùn)練與驗(yàn)證,說明了該模型的確可以為決策提供參考依據(jù)。張強(qiáng)(2014)在明確我國商業(yè)銀行聲譽(yù)風(fēng)險分布特征和風(fēng)險損失情況的基礎(chǔ)上,構(gòu)建了我國商業(yè)銀行聲譽(yù)風(fēng)險評價指標(biāo)體系,并據(jù)此利用貝葉斯網(wǎng)絡(luò)模型分析了我國四大國有銀行的聲譽(yù)風(fēng)險權(quán)重情況,給出了對其聲譽(yù)風(fēng)險影響顯著的因素。又如支持向量機(jī)方法,Jae 和yang(2006)應(yīng)用支持向量機(jī)的方法研究銀行破產(chǎn)預(yù)警問題,經(jīng)與其他模型的預(yù)測結(jié)果比較,證實(shí)了該方法的有效性。賀穎(2010)構(gòu)建了偏最小二乘法-支持向量機(jī)舞弊識別模型,以A股市場公開信息為基礎(chǔ)進(jìn)行試驗(yàn),確認(rèn)該模型效果較好。隋學(xué)深(2014)構(gòu)建了基于支持向量機(jī)的銀行貸款風(fēng)險等級分類真實(shí)性審計(jì)二分類預(yù)測模型,經(jīng)商業(yè)銀行實(shí)際生產(chǎn)數(shù)據(jù)驗(yàn)證后確認(rèn)模型正確率令人滿意。
關(guān)于將聚類方法用于審計(jì)工作中,學(xué)者們同樣進(jìn)行了一些探索和嘗試。孫薇(2007)選取八個維度衡量審計(jì)人員面臨的審計(jì)風(fēng)險,在虛擬案例中模擬專家打分為這些維度賦值,用模糊聚類的方法將被審計(jì)單位劃為幾類,據(jù)此評估承接審計(jì)業(yè)務(wù)面臨的風(fēng)險。袁冬明(2013)使用多家信托企業(yè)的多項(xiàng)財(cái)務(wù)指標(biāo),驗(yàn)證了聚類方法劃分出的三類與業(yè)內(nèi)對各信托企業(yè)的認(rèn)識基本一致。郭紅建(2015)將商業(yè)銀行的大量數(shù)據(jù)去噪后,用K-means聚類方法得到10家商業(yè)銀行信用風(fēng)險狀態(tài)及對應(yīng)的監(jiān)管指標(biāo)等級劃分,并經(jīng)專家驗(yàn)證劃分合理,提出K-means聚類算法可以提高審計(jì)分析質(zhì)量。楊蘊(yùn)毅(2015)基于“單次聚類結(jié)果中,可疑程度較低的疑點(diǎn)通常會被可疑程度更高的疑點(diǎn)所掩蓋,”提出采用迭代聚類的方法,將明顯的小簇(即疑點(diǎn))篩除后,重復(fù)聚類,獲取更多信息,并使用上市公司的財(cái)務(wù)報告數(shù)據(jù)進(jìn)行測試,將發(fā)現(xiàn)的可疑值與證監(jiān)會等機(jī)構(gòu)的查處信息比對,驗(yàn)證了方法的可行性。劉?。?010)以某救災(zāi)資金審計(jì)項(xiàng)目為載體,設(shè)計(jì)并編寫了基于密度聚類(DBSCAN)的孤立點(diǎn)發(fā)現(xiàn)程序,發(fā)現(xiàn)了一些孤立點(diǎn),為審計(jì)人員提供了審計(jì)疑點(diǎn)。譚艷娜(2011)提出將基于密度聚類(DBSCAN)的核心對象判定融合到局部異常因子(LOF)算法中,重新定義了核心對象,將聚類算法和離群點(diǎn)算法有機(jī)結(jié)合起來,可以在快速聚類的同時檢測離群點(diǎn),再以社保審計(jì)數(shù)據(jù)為基礎(chǔ)進(jìn)行測試,的確在事先沒有具備審計(jì)政策法規(guī)知識以先驗(yàn)知識的情況下,發(fā)現(xiàn)了若干社保數(shù)據(jù)中異于普通數(shù)據(jù)對象的數(shù)據(jù)疑點(diǎn),驗(yàn)證了算法的有效性。
綜合以上文獻(xiàn),在廣義財(cái)務(wù)范圍內(nèi),分類方法的應(yīng)用已取得了許多成果,但其特點(diǎn)決定了難以在審計(jì)工作中應(yīng)用。一方面建立模型的過程首先就需要相當(dāng)數(shù)量的已經(jīng)完成分類的數(shù)據(jù)作為訓(xùn)練集,而作為外部審計(jì),對被審計(jì)單位數(shù)據(jù)了解有限,難以取得適當(dāng)?shù)挠?xùn)練集,即使能夠取得,能否采信其分類結(jié)果亦存疑問。另一方面,即便取得了適當(dāng)?shù)挠?xùn)練集,且經(jīng)審計(jì)人員確認(rèn)訓(xùn)練集本身不存在重大錯報,建立模型的過程也對審計(jì)人員要求甚高,推廣方面有不少困難。
關(guān)于聚類算法的研究同樣取得了不少有意義的成果,該方法是一種無指導(dǎo)的學(xué)習(xí),不需要事先建立訓(xùn)練集訓(xùn)練模型,可以為審計(jì)實(shí)踐提供指導(dǎo)。但是,上述成果中,所采用技術(shù)手段相當(dāng)復(fù)雜,設(shè)計(jì)了全新的算法,對使用者的計(jì)算機(jī)水平和統(tǒng)計(jì)基礎(chǔ)有較高要求,且多是研究企業(yè)特點(diǎn),超限超載、貸款風(fēng)險等問題,與一般社會審計(jì)實(shí)務(wù)中查找單一企業(yè)內(nèi)審計(jì)疑點(diǎn)的要求存在一定的差距。因此,本文嘗試從財(cái)務(wù)數(shù)據(jù)的角度,基于A公司實(shí)際數(shù)據(jù),驗(yàn)證聚類方法在審計(jì)工作中的效果。同時選擇開源、免費(fèi)的工具,盡可能簡單靈活的方法,方便真正應(yīng)用、推廣到實(shí)際審計(jì)工作中去。圖1給出了在審計(jì)工作中使用聚類算法的大致步驟。
1.案例背景
對A制造業(yè)企業(yè)進(jìn)行年度審計(jì)的過程中,審計(jì)人員對該企業(yè)資產(chǎn)負(fù)債表日前后的銷售業(yè)務(wù)進(jìn)行截止測試,檢查過程中發(fā)現(xiàn)12月29日的一些銷售業(yè)務(wù)沒有相應(yīng)的購貨合同,且提貨單顯示有4000余箱產(chǎn)品在當(dāng)天全部由購貨方提貨運(yùn)走。根據(jù)貨物的尺寸估計(jì),一天內(nèi)提走如此大量貨物需要大量貨車,與審計(jì)期間觀察到的被審計(jì)單位內(nèi)貨車出入頻率及數(shù)量不符,經(jīng)追查確認(rèn),被審計(jì)單位為完成銷售指標(biāo),將該批產(chǎn)品另租倉庫保管,虛構(gòu)銷售。
圖3 將預(yù)處理后的數(shù)據(jù)聚為5類作散點(diǎn)圖
傳統(tǒng)方法下,審計(jì)人員根據(jù)工作經(jīng)驗(yàn),先驗(yàn)地了解資產(chǎn)負(fù)債表日前后,被審計(jì)單位將銷售收入計(jì)入不正確的會計(jì)期間以調(diào)整各年收入與利潤,甚至直接虛構(gòu)收入的風(fēng)險較高,需要進(jìn)行針對性測試,因此得以發(fā)現(xiàn)該審計(jì)疑點(diǎn)。而對很多其他業(yè)務(wù),由于對被審計(jì)單位的了解程度相對較低,又缺乏一般的規(guī)律性經(jīng)驗(yàn),按照傳統(tǒng)審計(jì)抽樣的要求,需要從總體中選取大量樣本,相當(dāng)耗費(fèi)精力,也未必能夠獲得有價值的審計(jì)疑點(diǎn)。本文試圖使用K-means聚類的方法,驗(yàn)證該方法是否也能找到審計(jì)人員根據(jù)經(jīng)驗(yàn)找出的審計(jì)疑點(diǎn),并探索是否還能發(fā)現(xiàn)其他審計(jì)疑點(diǎn)。
2.數(shù)據(jù)預(yù)處理
考察從被審計(jì)單位會計(jì)信息系統(tǒng)中獲取的銷售業(yè)務(wù)的賬務(wù)記錄,其中較有價值的字段包括入賬日期、憑證號、發(fā)票號、銷售網(wǎng)點(diǎn)代碼、商品代碼、數(shù)量、金額等??紤]到K-means聚類算法僅能處理數(shù)值型變量,無法將銷售網(wǎng)點(diǎn)代碼、商品代碼、入賬日期等信息作為分類變量進(jìn)行處理,首先嘗試對所有數(shù)據(jù)進(jìn)行聚類,結(jié)果如圖2。
從圖2中可以看出,該結(jié)果僅是對交易的規(guī)模作了劃分(有負(fù)數(shù)是因?yàn)榇嬖阡N售退回),未發(fā)現(xiàn)有意義的結(jié)果。且當(dāng)數(shù)據(jù)量大到一定程度時,直接對該結(jié)果進(jìn)行作圖操作對運(yùn)行程序的計(jì)算機(jī)硬件也有更高的要求,一般個人電腦中無法進(jìn)行可視化表達(dá),且運(yùn)行較慢,影響效率,有必要對數(shù)據(jù)進(jìn)行進(jìn)一步處理。
考慮到該被審計(jì)單位有多個銷售網(wǎng)點(diǎn),銷售多種商品,使用R語言的dplyr包下的summarise函數(shù),將入賬日期、銷售網(wǎng)點(diǎn)代碼、商品代碼作為分類變量,對數(shù)量和金額兩個字段進(jìn)行分類匯總。如此,將記錄數(shù)大幅縮減至5200余條,以便進(jìn)行下一步處理。
3.k-means聚類驗(yàn)證
由于該數(shù)據(jù)挖掘方法幾乎不基于任何先驗(yàn)知識,該過程中筆者嘗試將預(yù)處理后的數(shù)據(jù)聚為3、4、5、6、7類,分別觀察其結(jié)果。借助plot函數(shù)可以將聚類結(jié)果以散點(diǎn)圖的形式展示出來,方便審計(jì)人員更為直觀地把握所得各類的分布情況與整體數(shù)據(jù)規(guī)律。筆者發(fā)現(xiàn),聚為5類時的結(jié)果較為合理,故取此結(jié)果進(jìn)行進(jìn)一步分析。
圖3顯示了將經(jīng)過預(yù)處理的數(shù)據(jù)聚為5類,再作出散點(diǎn)圖的結(jié)果。圖中散點(diǎn)的位置表現(xiàn)了同一日期自同一銷售網(wǎng)點(diǎn)售出的同一種類商品的數(shù)量與金額合計(jì)。散點(diǎn)的形狀圓形、十字、三角形、菱形、叉號代表聚類計(jì)算的結(jié)果,每種形狀代表一類。從該圖中可以看出,絕大多數(shù)散點(diǎn)屬于其中兩類,標(biāo)記為了十字與三角形,散點(diǎn)最密集的區(qū)域集中在數(shù)量0-1000附近,該區(qū)域散點(diǎn)較明顯地連成幾條主要的、有固定斜率的線,說明該企業(yè)銷售數(shù)種商品,且同種商品單價穩(wěn)定,與實(shí)際情況相吻合。注意到該圖右上角,叉號表示的散點(diǎn)自成一類,經(jīng)進(jìn)一步查看,該點(diǎn)對應(yīng)的入賬日期為12月29日,銷售網(wǎng)點(diǎn)代碼為11220,商品代碼為03,確認(rèn)該單獨(dú)成類的點(diǎn)反映的即是案例中審計(jì)人員發(fā)現(xiàn)的虛假銷售記錄。
此外,圖中左下角還有一圓形的點(diǎn),也是單獨(dú)被歸為一類,顯示某一天某一銷售網(wǎng)點(diǎn)發(fā)生了同一商品銷售退回1000余箱,與其他銷售退回業(yè)務(wù)有顯著差異。查看相應(yīng)信息,發(fā)現(xiàn)該業(yè)務(wù)記錄于2月28日,所退回商品代碼也是03。該異常點(diǎn)是否說明該被審計(jì)單位在上一年度也曾采取虛構(gòu)銷售,期后又做銷售退回處理,沖銷相應(yīng)應(yīng)收賬款與營業(yè)收入,若能在審計(jì)過程中發(fā)現(xiàn),也應(yīng)當(dāng)作為審計(jì)疑點(diǎn)予以關(guān)注。
另外,圖中標(biāo)記為菱形的一類,表現(xiàn)為金額顯著較大,數(shù)量也相對較大,經(jīng)查詢這一類元素的對應(yīng)信息,發(fā)現(xiàn)這五條記錄中,兩條產(chǎn)生于12月25日,一條產(chǎn)生于12月29日,也都是年底的大額銷售,同樣應(yīng)當(dāng)予以一定關(guān)注。
本文在總結(jié)現(xiàn)有文獻(xiàn)的基礎(chǔ)上,基于A公司的實(shí)際數(shù)據(jù),選擇較為簡單的K-means聚類方法,驗(yàn)證了聚類方法在審計(jì)工作中輔助查找審計(jì)疑點(diǎn)的效果。本文發(fā)現(xiàn),K-means聚類方法的確可以發(fā)現(xiàn)傳統(tǒng)審計(jì)方法查找出的審計(jì)疑點(diǎn)。在本案例中,甚至發(fā)現(xiàn)了傳統(tǒng)方式下未曾關(guān)注到的疑點(diǎn),表明該方法能夠幫助審計(jì)人員迅速發(fā)現(xiàn)審計(jì)疑點(diǎn),從而有針對性地實(shí)施審計(jì)程序,提高審計(jì)效率。
值得注意的是,本文為考慮推廣的可行性和對審計(jì)人員的計(jì)算機(jī)水平要求,選擇了盡可能簡單的算法,使用了開源、免費(fèi)、相對靈活的工具軟件,但K-means聚類算法本身效率存在一定優(yōu)化空間,如何在算法效率與對操作人員的要求中取得平衡,是個值得深入研究的問題。
作者單位:上海國家會計(jì)學(xué)院
主要參考文獻(xiàn)
1.劉巍.基于聚類的孤立點(diǎn)發(fā)現(xiàn)技術(shù)研究及其在審計(jì)中的應(yīng)用.中國海洋大學(xué).2010
2.郭紅建,陳一飛.采用K-means聚類算法提高審計(jì)分析質(zhì)量.中國管理信息化,2015(1)
3.楊蘊(yùn)毅,孫中和,盧靖.基于迭代式聚類的審計(jì)疑點(diǎn)發(fā)現(xiàn)——以上市公司財(cái)報數(shù)據(jù)為例.審計(jì)研究.2015(4)
4.袁冬明.聚類分析和主因素分析法在審計(jì)中的應(yīng)用.中國內(nèi)部審計(jì).2013(4)
5.譚艷娜.2011.面向?qū)徲?jì)領(lǐng)域的聚類離群點(diǎn)檢測研究.哈爾濱工程大學(xué).2011
6.韓家煒, 范明,Michelline K,裴健.數(shù)據(jù)挖掘概念與技術(shù)(第3版).孟小峰.譯..機(jī)械工業(yè)出版社.2012
7.周達(dá)培.基于貝葉斯網(wǎng)絡(luò)的應(yīng)收賬款風(fēng)險預(yù)測研究.電子科技大學(xué).2014
8.張強(qiáng),胡敏.基于貝葉斯網(wǎng)絡(luò)的我國商業(yè)銀行聲譽(yù)風(fēng)險度量研究.財(cái)經(jīng)理論與實(shí)踐.2014(2)
9.Jae H.M.,Yang-Chan. Bankruptcy prediction using support vector machine with optimal choice of kernel function Parameters .Expert Systems with Applications,2006,28:603-614
10.隋學(xué)深,喬鵬,丁保利.基于支持向量機(jī)的貸款風(fēng)險等級分類真實(shí)性審計(jì)研究.審計(jì)研究.2014(3)