程平 陳珊
大數(shù)據(jù)時(shí)代基于DBSCAN聚類方法的審計(jì)抽樣
程平陳珊
高度信息化的大數(shù)據(jù)時(shí)代,導(dǎo)致企業(yè)的生產(chǎn)經(jīng)營產(chǎn)生大量、分散、復(fù)雜的會計(jì)數(shù)據(jù),在審計(jì)全覆蓋無法實(shí)現(xiàn)的情況下,審計(jì)抽樣的質(zhì)量至關(guān)重要。針對現(xiàn)有審計(jì)抽樣問題,本文提出了在已有的審計(jì)領(lǐng)域知識庫的基礎(chǔ)上,建立審計(jì)樣本與審計(jì)目標(biāo)的關(guān)聯(lián)規(guī)則,并利用DBSCAN聚類算法對審計(jì)抽樣關(guān)聯(lián)規(guī)則進(jìn)行聚類,接著對聚類結(jié)果進(jìn)行新穎度評價(jià),篩選出高價(jià)值聚類結(jié)果存入審計(jì)領(lǐng)域知識庫,實(shí)現(xiàn)審計(jì)領(lǐng)域知識的積累和再利用。最后,運(yùn)用審計(jì)實(shí)例對實(shí)驗(yàn)進(jìn)行分析。
大數(shù)據(jù)審計(jì)抽樣聚類關(guān)聯(lián)規(guī)則
21世紀(jì)是一個(gè)高度信息化的大數(shù)據(jù)時(shí)代,信息經(jīng)濟(jì)和知識經(jīng)濟(jì)占據(jù)了主導(dǎo)地位。企業(yè)為了提高管理水平,信息化應(yīng)用越來越深入已經(jīng)成為企業(yè)管理與業(yè)務(wù)運(yùn)行的神經(jīng)系統(tǒng)。云會計(jì)(程平,2011)等AIS系統(tǒng)雖然能夠幫助企業(yè)獲取與其經(jīng)營活動相關(guān)的各種結(jié)構(gòu)化、半結(jié)構(gòu)化和非機(jī)構(gòu)化的數(shù)據(jù),但是如此大規(guī)模、大數(shù)量、大范圍的數(shù)據(jù)信息,給大數(shù)據(jù)時(shí)代下的審計(jì)抽樣帶來了不小的挑戰(zhàn)。如何在此環(huán)境下實(shí)現(xiàn)審計(jì)目標(biāo)、提高審計(jì)抽樣的質(zhì)量本文就此展開探討。
2015年,國務(wù)院印發(fā)《關(guān)于加強(qiáng)審計(jì)工作的意見》,第19條明確提出:探索在審計(jì)實(shí)踐中運(yùn)用大數(shù)據(jù)技術(shù)的途徑,加大數(shù)據(jù)綜合利用力度,提高運(yùn)用信息化技術(shù)查核問題、評價(jià)判斷、宏觀分析的能力。隨著大數(shù)據(jù)時(shí)代的來臨,許多被審計(jì)單位的數(shù)據(jù)越來越呈現(xiàn)出海量化的趨勢,不少單位已建立起TB甚至PB級的數(shù)據(jù)庫。云會計(jì)AIS軟件功能和規(guī)模的不斷壯大,以及基于云計(jì)算的軟件開發(fā)環(huán)境和大數(shù)據(jù)環(huán)境發(fā)生的深刻變化,使得企業(yè)的財(cái)務(wù)數(shù)據(jù)不僅數(shù)量愈加龐大,復(fù)雜程度也呈現(xiàn)前所未有的高度。其實(shí),大數(shù)據(jù)審計(jì)的最終目標(biāo)是實(shí)現(xiàn)數(shù)據(jù)全覆蓋,但是就目前的技術(shù)水平以及審計(jì)數(shù)據(jù)的復(fù)雜程度來看,短時(shí)間內(nèi)難以實(shí)現(xiàn)。審計(jì)抽樣作為計(jì)算機(jī)審計(jì)的一個(gè)至關(guān)重要的模塊,在國內(nèi)剛剛起步。
近幾年來,針對大數(shù)據(jù)時(shí)代的審計(jì)做了不少研究。秦榮生(2014)分析了大數(shù)據(jù)、云計(jì)算技術(shù)對審計(jì)的影響,并且針對相關(guān)問題給出了應(yīng)用的建議。顧洪菲(2015)根據(jù)大數(shù)據(jù)的特點(diǎn),從數(shù)據(jù)量、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)處理方式三個(gè)方面分析大數(shù)據(jù)環(huán)境下進(jìn)行審計(jì)數(shù)據(jù)分析所需的技術(shù)要求,從分析學(xué)和使用者的角度闡述了大數(shù)據(jù)環(huán)境下進(jìn)行審計(jì)的數(shù)據(jù)分析方法和分析結(jié)果的顯示需求。陳新華(2010)對時(shí)間抽樣法這種非概率抽樣方法進(jìn)行了介紹,具體分析了樣本選擇和樣本量兩個(gè)基本內(nèi)容。王海霞(2014)分析了聚類技術(shù)及其對電子政務(wù)審計(jì)的意義,結(jié)合電子政務(wù)抽樣審計(jì)中對多維數(shù)據(jù)進(jìn)行分層的需要,提出將基于主次屬性劃分的聚類方法用于分層算法之中,以適應(yīng)多維數(shù)據(jù)分層抽樣的需要。
縱觀現(xiàn)有研究發(fā)現(xiàn),面對當(dāng)今企業(yè)面臨的數(shù)量龐大、種類繁多的數(shù)據(jù),要通過審計(jì)抽樣方法實(shí)現(xiàn)審計(jì)目標(biāo),最優(yōu)的方案莫過于利用數(shù)據(jù)挖掘技術(shù)?;诟怕屎蛿?shù)理統(tǒng)計(jì)理論的審計(jì)抽樣在計(jì)算機(jī)軟件的輔助下,則可以在保證科學(xué)性的前提下,有效地提高審計(jì)效率并降低審計(jì)成本。然而,現(xiàn)有的研究雖然也有這方面的考量,卻忽視了領(lǐng)域知識和審計(jì)樣本與審計(jì)目標(biāo)間的關(guān)聯(lián)規(guī)則對審計(jì)抽樣結(jié)果的影響?;诖耍疚闹饕芯吭讷@取審計(jì)領(lǐng)域知識之后,針對審計(jì)目標(biāo)對審計(jì)業(yè)務(wù)進(jìn)行聚類、抽樣算法的研究,并帶入實(shí)際業(yè)務(wù)數(shù)據(jù)進(jìn)行應(yīng)用研究和檢驗(yàn)其可行性。
(一)基于聚類算法的審計(jì)抽樣流程
基于領(lǐng)域知識的審計(jì)樣本聚類過程是對挖掘出的審計(jì)樣本與審計(jì)目標(biāo)間的關(guān)聯(lián)規(guī)則進(jìn)行聚類分析,而后對聚類后的審計(jì)關(guān)聯(lián)規(guī)則進(jìn)行審計(jì)抽樣并且利用審計(jì)結(jié)果進(jìn)行新穎度分析篩選出審計(jì)規(guī)則中高價(jià)值、高可信的規(guī)則,其過程如圖1所示。
基于領(lǐng)域知識的審計(jì)樣本聚類過程,是在建立基于云會計(jì)AIS審計(jì)領(lǐng)域知識庫的基礎(chǔ)上,建立審計(jì)樣本與審計(jì)目標(biāo)之間的關(guān)聯(lián)規(guī)則,并最終形成基于云會計(jì)AIS審計(jì)知識關(guān)聯(lián)規(guī)則庫。然后,采用基于密度的聚類算法DBSCAN對審計(jì)規(guī)則進(jìn)行聚類。針對聚類之后的結(jié)果,又有如下兩個(gè)方面的處理:一是完成對聚類后的結(jié)果進(jìn)行隨機(jī)抽樣,完成審計(jì)抽樣的流程;二是對聚類后的結(jié)果進(jìn)行新穎度的評價(jià),根據(jù)實(shí)際應(yīng)用情況設(shè)計(jì)閾值選取有價(jià)值的規(guī)則存儲于審計(jì)領(lǐng)域知識庫中,用以引導(dǎo)下次的審計(jì)規(guī)則挖掘過程,這就使得新的審計(jì)規(guī)則能夠?qū)崿F(xiàn)審計(jì)領(lǐng)域知識的積累和再利用。
(二)基于DBSCAN的審計(jì)關(guān)聯(lián)規(guī)則聚類算法
總體上,規(guī)則聚類對聚類算法并沒有特殊的要求?,F(xiàn)有的大部分聚類算法,如K-means,BIRCH,CHAMELEON,OPTICS等算法均可實(shí)現(xiàn)規(guī)則的聚類。在傳統(tǒng)的聚類算法中,沒有一種聚類算法可以保證應(yīng)用于各類樣本空間分析中并保證較好的性能,每一種算法都有自己的特點(diǎn)和應(yīng)用范圍,只有根據(jù)具體實(shí)際應(yīng)用去選擇合適的聚類算法。鑒于存在于網(wǎng)絡(luò)虛擬環(huán)境審計(jì)數(shù)據(jù)數(shù)量巨大、復(fù)雜,本文選擇基于密度的聚類算法DBSCAN(Density-Based Spatial Clustering of Applications with Noise)用于基于云會計(jì)AIS審計(jì)抽樣聚類。
DBSCAN算法由Ester等人最早提出。它是利用類的高密度連通性,快速發(fā)現(xiàn)任意形狀的簇。其基本思想是:對于簇中的每個(gè)數(shù)據(jù)點(diǎn),在給定的半徑(用Eps表示)的鄰域(neighbor-hood)內(nèi)包含的數(shù)據(jù)點(diǎn)數(shù)目必須不小于某一給定值(用minPts表示)。如圖2為基于DBSCAN聚類方法的關(guān)聯(lián)規(guī)則聚類過程圖。
基于DBSCAN聚類方法的審計(jì)關(guān)聯(lián)規(guī)則聚類過程是:首先輸入審計(jì)關(guān)聯(lián)規(guī)則庫,半徑e和閾值MinPts,檢查審計(jì)規(guī)則R是否為小于閾值MinPts的核心規(guī)則。如果審計(jì)規(guī)則R是核心規(guī)則,那么就開始創(chuàng)建初始的類S,S中包含審計(jì)規(guī)則R及其R直接密度可達(dá)的所有審計(jì)規(guī)則,也就是包含審計(jì)規(guī)則R及其e-領(lǐng)域內(nèi)的所有審計(jì)規(guī)則。然后,判定該領(lǐng)域中的每一條審計(jì)規(guī)則是否為核心規(guī)則。如果都是核心規(guī)則,那么將其e-領(lǐng)域內(nèi)尚未包含在類中的所有審計(jì)規(guī)則追加到S中,并繼續(xù)判定這些新加進(jìn)到類S中的審計(jì)規(guī)則是否為核心規(guī)則。如果是核心規(guī)則,則繼續(xù)進(jìn)行以上的追加過程,直到?jīng)]有新的審計(jì)規(guī)則可以追加到S中。
為了實(shí)現(xiàn)對每次審計(jì)抽樣過程中新挖掘的審計(jì)規(guī)則的積累與利用,需要對審計(jì)關(guān)聯(lián)規(guī)則進(jìn)行新穎性的評價(jià)。
關(guān)聯(lián)規(guī)則的新穎性是針對與原有的知識而言,這些知識包括兩部分:一部分是以往得到的準(zhǔn)確性很高的關(guān)聯(lián)規(guī)則,與這些知識相悖的關(guān)聯(lián)規(guī)則可能說明以下幾種情況:一是形成這條關(guān)聯(lián)規(guī)則的數(shù)據(jù)有問題,這條規(guī)則是錯(cuò)誤的;二是這條規(guī)則是對原有規(guī)則的一個(gè)修正,可以與原有的知識結(jié)合形成一條具有更多約束的新的規(guī)則;三是否定了原有的規(guī)則,說明使原有知識成立的前提條件已經(jīng)不存在了,以后的證據(jù)已不足以支持原有規(guī)則的成立,從而相悖的新發(fā)現(xiàn)的規(guī)則取代了它。也就是對這種發(fā)現(xiàn)的規(guī)則是不同的情況進(jìn)行不同的處理。另一部分是與用戶的期望相悖,這樣有利于幫助用戶找到影響期望情況出現(xiàn)的因素,從而可以采取一定的措施阻止這些因素的出現(xiàn)。衡量主要是從形式上,即分別與關(guān)聯(lián)規(guī)則的前件和后件的相悖程度來衡量。可用與原有知識相悖的項(xiàng)數(shù)來衡量。
由此,新穎性程度分別表現(xiàn)在發(fā)現(xiàn)的規(guī)則與基礎(chǔ)知識庫(主要存放專家輸入的領(lǐng)域知識和用戶已知的一些規(guī)則)中的規(guī)則的各項(xiàng)差異程度上,分別表現(xiàn)在前件各項(xiàng)的差異和后件各項(xiàng)的差異上(分別從語言變量和同一語言變量的不同語言值的角度)。此外前件和后件也分別看待。
設(shè)審計(jì)知識庫里的審計(jì)規(guī)則組成的集合為R,審計(jì)知識庫中的規(guī)則集合為A。A中的審計(jì)規(guī)則個(gè)數(shù)為|A|,R中的審計(jì)規(guī)則數(shù)為|R|。
設(shè)Wi為R中的審計(jì)規(guī)則Ri與A的新穎度,W(i,j)是規(guī)則Ri與原始審計(jì)知識庫中的規(guī)則Aj之間的新穎度即差別程度。W(i,j)包含兩部分,前件的新穎度L(i,j)和后件的新穎度Z(i,j)。
1.計(jì)算L(i,j)
設(shè)原始審計(jì)知識庫中的審計(jì)規(guī)則Aj中所有前件的語言變量組成的集合為J。并且R中審計(jì)規(guī)則Rj的所有前件的所屬的語言變量組成的集合為I。
對I中的任一項(xiàng)Ik,記V(i,j)k為這一項(xiàng)與審計(jì)規(guī)則Rj的差異程度,則有
negk為I中的第k項(xiàng)的語言值與J中同一語言變量對應(yīng)的語言值之間的差異程度。前面加1是為了避免當(dāng)所有項(xiàng)都在J中出現(xiàn)并且對應(yīng)語言均值相同時(shí),會出現(xiàn)0的情況。
這樣前件的新穎度等于:
2.計(jì)算Z(i,j)
經(jīng)過規(guī)則簡約后,原始審計(jì)知識庫中所有規(guī)則后件的項(xiàng)數(shù)均為1,同時(shí)通過數(shù)據(jù)挖掘算法得到的規(guī)則后件的項(xiàng)數(shù)也為1。所以新發(fā)現(xiàn)的審計(jì)規(guī)則Ri與審計(jì)知識庫中的任一條規(guī)則Aj在后件上只有下面兩種可能關(guān)系:
一是兩條規(guī)則的后件屬于同一個(gè)語言變量,這時(shí)首先計(jì)算兩者的語言值對應(yīng)的矛盾度,則Z(i,j)=1+neg;加1的目的是為了避免當(dāng)后件是同一個(gè)語言變量的相同語言值時(shí)出現(xiàn)0的現(xiàn)象。
二是兩條規(guī)則的后件不屬于同一個(gè)語言變量,這時(shí)令度量后件差異的數(shù)值記為2,即Z(i,j)=2。
3.計(jì)算W(i,j)
4.計(jì)算Wi
通過以上模型的篩選,衡量了新規(guī)則與審計(jì)領(lǐng)域知識庫中的規(guī)則的各項(xiàng)差異程度,根據(jù)實(shí)際應(yīng)用情況設(shè)計(jì)閾值選取有價(jià)值的規(guī)則存儲于審計(jì)領(lǐng)域知識庫中,用以引導(dǎo)下次的審計(jì)規(guī)則挖掘過程,這就使得新的審計(jì)規(guī)則能夠?qū)崿F(xiàn)審計(jì)領(lǐng)域知識的積累和再利用。
下面選取某在美國上市生產(chǎn)太陽能多晶硅片為主營業(yè)務(wù)的集團(tuán)企業(yè)合同審計(jì)項(xiàng)目為例。合同審計(jì)是指內(nèi)部審計(jì)機(jī)構(gòu)和人員對合同的簽訂、履行、變更、終止過程及合同管理進(jìn)行獨(dú)立客觀的監(jiān)督和評價(jià)活動。該集團(tuán)企業(yè)的不同的部門、業(yè)務(wù)類型、合同金額和授權(quán)級別都是會影響該合同是否有效的重要因素,表1為截取的部分合同審批權(quán)限。
如表2所示,為通過本體論的方法獲取的初始審計(jì)領(lǐng)域規(guī)則知識庫,并結(jié)合該集團(tuán)公司的合同審計(jì)制度建立的部分審計(jì)規(guī)則。其中,M代表金額,P代表管理職位,D代表部門,B代表業(yè)務(wù)類型,R代表風(fēng)險(xiǎn)程度,C代表控制點(diǎn)。在建立規(guī)則的基礎(chǔ)上,運(yùn)用DBSCAN聚類的方法,對本審計(jì)規(guī)則庫進(jìn)行聚類。但是值得注意的是,從表中可以看出,規(guī)則后件為No的審計(jì)規(guī)則,在實(shí)驗(yàn)中應(yīng)該不參加聚類,因?yàn)槿绻Y選出的審計(jì)樣本屬于此種規(guī)則,那么說明這項(xiàng)業(yè)務(wù)就有問題。在審計(jì)過程中,如果遇到有問題的樣本,必須全部抽取出來詳細(xì)清查,所以就不參與后面的聚類。這樣不僅提高了審計(jì)的質(zhì)量,也可以減輕后期參與聚類的審計(jì)規(guī)則的數(shù)量。根據(jù)對規(guī)則的聚類,R3和 R16聚為一類C1,R4、R11和R15聚為一類C2,R9和R19聚為一類C3,R5和R18聚為一類C4。
針對本次合同審計(jì)的具體內(nèi)容,通過決策樹4.5挖掘算法,得到了如表3所示的新審計(jì)規(guī)則。由于已對審計(jì)領(lǐng)域知識庫和新規(guī)則集分別聚類并對應(yīng),因而在計(jì)算新規(guī)則新穎性時(shí)不必將新規(guī)則與領(lǐng)域知識庫中的規(guī)則逐條比較。而只要比較同一類中的領(lǐng)域知識,對于成熟的大規(guī)模領(lǐng)域知識庫來說,聚類后的規(guī)則比較將大大提高算法效率。
表1 審批權(quán)限表
表2 初始審計(jì)領(lǐng)域知識
如表4所示為新審計(jì)關(guān)聯(lián)規(guī)則的新穎度評價(jià),每一大類中的新規(guī)則都計(jì)算出了規(guī)則新穎度,而如何確定選取規(guī)則新穎度的閾值則需要依據(jù)實(shí)際情況而定。在本例中,可以看出新穎度小于0.5的規(guī)則與原審計(jì)領(lǐng)域知識重復(fù)性較大或者說是原審計(jì)領(lǐng)域知識的子集,應(yīng)當(dāng)予以刪除,而將剩余的有價(jià)值規(guī)則按大類存入領(lǐng)域知識庫中。
表3 新審計(jì)關(guān)聯(lián)規(guī)則集
表4 新審計(jì)關(guān)聯(lián)規(guī)則新穎度
本例中,在利用本體論建立企業(yè)的原始審計(jì)領(lǐng)域知識庫的基礎(chǔ)上,通過DBSCAN聚類的方法,將原始審計(jì)領(lǐng)域知識規(guī)則分為C1、C2、C3、C4這4類。接著,利用決策樹4.5挖掘算法,針對當(dāng)前審計(jì)要求,挖掘出了新的審計(jì)規(guī)則,并依照原始的分類進(jìn)行聚類。在得到以上聚類之后,對屬于本項(xiàng)規(guī)則的合同項(xiàng)進(jìn)行隨機(jī)抽樣,完成審計(jì)抽樣的流程。同時(shí),對新挖掘出的審計(jì)規(guī)則進(jìn)行新穎度的評價(jià),將新穎度高的審計(jì)規(guī)則存入到審計(jì)領(lǐng)域知識庫。
通過本次實(shí)例可以看出,基于領(lǐng)域知識和聚類的審計(jì)抽樣對大數(shù)據(jù)時(shí)代下基于云會計(jì)的審計(jì)業(yè)務(wù)意義重大。通過計(jì)算機(jī)軟件的輔助, 基于領(lǐng)域知識和聚類的審計(jì)抽樣可以在保證科學(xué)性的前提下,不僅可以有效地提高審計(jì)質(zhì)量與審計(jì)效率,同時(shí)還可以降低審計(jì)成本。
本文在獲得審計(jì)領(lǐng)域知識的基礎(chǔ)上,建立審計(jì)樣本與審計(jì)目標(biāo)之間的關(guān)聯(lián)規(guī)則,并形成審計(jì)知識關(guān)聯(lián)規(guī)則庫。然后,采用DBSCAN聚類的方法,對審計(jì)關(guān)聯(lián)規(guī)則庫進(jìn)行聚類,在利用挖掘算法挖掘針對本次審計(jì)項(xiàng)目的新審計(jì)規(guī)則,對比原始審計(jì)知識庫,篩選出新穎度較高的儲存于審計(jì)知識庫,以便以后審計(jì)項(xiàng)目的實(shí)施再利用。最后,以某在美國上市的生產(chǎn)太陽能多晶硅片企業(yè)的合同審計(jì)項(xiàng)目為例,驗(yàn)證了大數(shù)據(jù)時(shí)代基于領(lǐng)域知識和聚類的云會計(jì)AIS審計(jì)抽樣的有效性。
作者單位:重慶理工大學(xué)
主要參考文獻(xiàn)
1.程平,何雪峰.“云會計(jì)” 在中小企業(yè)會計(jì)信息化中的應(yīng)用.重慶理工大學(xué)學(xué)報(bào)(社會科學(xué)版).2011(1)
2.秦榮生.大數(shù)據(jù)、云計(jì)算技術(shù)對審計(jì)的影響研究.審計(jì)研究.2015(06)
3.顧菲洪.大數(shù)據(jù)環(huán)境下審計(jì)數(shù)據(jù)分析技術(shù)方法初探.中國管理信息化.2015(03)
4.陳新華,胡桂華.一種非概率審計(jì)抽樣方法:時(shí)間抽樣法.財(cái)會月刊.2010(7)
5.王海霞,多維數(shù)據(jù)聚類技術(shù)在電子政務(wù)審計(jì)分層抽樣中的應(yīng)用研究.商業(yè)會計(jì).2014(01)
6.夏鋒,基于聚類方法的審計(jì)分層抽樣算法研究.計(jì)算機(jī)應(yīng)用與軟件.2008(01)
國家自然科學(xué)基金青年項(xiàng)目(批準(zhǔn)號:71201179);教育部人文社會科學(xué)基金青年項(xiàng)目(批準(zhǔn)號:12YJC630025);重慶市教委科學(xué)技術(shù)研究項(xiàng)目資助(批準(zhǔn)號:KJ1400905);重慶理工大學(xué)財(cái)會研究與開發(fā)中心科研創(chuàng)新重大項(xiàng)目(批準(zhǔn)號:14ARC101);重慶理工大學(xué)研究生創(chuàng)新基金項(xiàng)目(批準(zhǔn)號:YCX2015105)