趙瀏洋
摘 要:針對(duì)由于初始變量數(shù)據(jù)過(guò)多,導(dǎo)致金融審計(jì)數(shù)據(jù)挖掘精度不足的問(wèn)題,進(jìn)行基于數(shù)據(jù)挖掘的金融審計(jì)數(shù)據(jù)分析研究。本文首先從被審計(jì)的金融機(jī)構(gòu)信息系統(tǒng)中提取所需數(shù)據(jù),并對(duì)其進(jìn)行預(yù)處理,包括缺失值處理、重復(fù)數(shù)據(jù)處理、噪聲數(shù)據(jù)處理、數(shù)據(jù)變換等,其次利用主成分分析方法解決初始變量數(shù)據(jù)過(guò)多問(wèn)題,降低數(shù)據(jù)維度,最后選取聚類(lèi)算法作為挖掘方法,實(shí)現(xiàn)金融審計(jì)異常數(shù)據(jù)分析。結(jié)果表明:與神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)、最近鄰算法相比,本方法精度更高,以期為后續(xù)研究提供參考。
關(guān)鍵詞:數(shù)據(jù)挖掘;金融審計(jì)數(shù)據(jù);聚類(lèi)算法;數(shù)據(jù)維度
中圖分類(lèi)號(hào):F239.65 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-0298(2020)10(b)-055-03
審計(jì)機(jī)關(guān)是推動(dòng)完善公共治理的重要力量,它可以通過(guò)提供以證據(jù)為基礎(chǔ)的解決系統(tǒng)性問(wèn)題的意見(jiàn)及建議,促進(jìn)、完善政策和方案,發(fā)揮審計(jì)的監(jiān)督、洞察和前瞻功能,推動(dòng)改善公共治理[1]。近年來(lái),審計(jì)機(jī)關(guān)通過(guò)開(kāi)展金融審計(jì)工作,有效地發(fā)揮了監(jiān)督、洞察與前瞻功能,在促進(jìn)防范和化解金融風(fēng)險(xiǎn),提高金融服務(wù)實(shí)體經(jīng)濟(jì)質(zhì)量和效益,完善金融監(jiān)管體制,推動(dòng)金融體制改革和金融領(lǐng)域反腐倡廉等方面發(fā)揮了重要作用。然而,在審計(jì)機(jī)構(gòu)進(jìn)行金融審計(jì)時(shí),面臨海量的數(shù)據(jù),僅僅依靠傳統(tǒng)的數(shù)據(jù)檢索機(jī)制和方法是遠(yuǎn)遠(yuǎn)不夠的,存在審計(jì)效率低下等問(wèn)題。
在上述背景下,數(shù)據(jù)挖掘技術(shù)應(yīng)用成為審計(jì)領(lǐng)域研究的重點(diǎn)課題。利用數(shù)據(jù)挖掘技術(shù)尋找數(shù)據(jù)間潛在的關(guān)聯(lián),關(guān)鍵在于挖掘算法的選擇上。常用的挖掘算法有很多,如Desaietal利用神經(jīng)網(wǎng)絡(luò)分類(lèi)挖掘算法對(duì)3000個(gè)觀察數(shù)據(jù)進(jìn)行分析;孫北伐、張高煜、徐倩蓉等在《大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘在審計(jì)中的分析與應(yīng)用》中介紹決策樹(shù)算法和隨機(jī)森林算法的數(shù)據(jù)分析過(guò)程。此外,數(shù)據(jù)挖掘還包括聚類(lèi)算法、神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)、最近鄰算法等[2]。本文在已有研究經(jīng)驗(yàn)的基礎(chǔ)上,以聚類(lèi)算法為基礎(chǔ),進(jìn)行數(shù)據(jù)挖掘研究。研究過(guò)程如下:首先進(jìn)行金融審計(jì)數(shù)據(jù)采集并進(jìn)行預(yù)處理,提高數(shù)據(jù)質(zhì)量,然后選取聚類(lèi)算法作為挖掘算法,設(shè)置挖掘條件,進(jìn)行模式匹配,找尋可疑數(shù)據(jù)。通過(guò)這些可疑數(shù)據(jù),審計(jì)機(jī)構(gòu)可以以此為依據(jù)進(jìn)行追蹤,探尋企業(yè)違法犯罪行為,為金融領(lǐng)域反腐倡廉工作提供依據(jù)。
1 基于數(shù)據(jù)挖掘的金融審計(jì)數(shù)據(jù)分析方法
隨著計(jì)算機(jī)網(wǎng)絡(luò)以及信息技術(shù)的不斷發(fā)展,各行各業(yè)對(duì)信息系統(tǒng)的依賴程度越來(lái)越深,其中金融審計(jì)就是其中一個(gè)。金融審計(jì)就是在海量數(shù)據(jù)中尋找異常數(shù)據(jù),從而發(fā)現(xiàn)問(wèn)題,得出各種金融機(jī)構(gòu)的經(jīng)營(yíng)狀況,以便避免出現(xiàn)金融風(fēng)險(xiǎn),揭露隱藏的違法違規(guī)行為,推進(jìn)反腐倡廉工作?,F(xiàn)代金融審計(jì)人員面對(duì)的不再是簡(jiǎn)單的紙質(zhì)賬目,而是存儲(chǔ)在計(jì)算機(jī)系統(tǒng)數(shù)據(jù)庫(kù)中的種類(lèi)繁多的電子數(shù)據(jù),要想通過(guò)人工完成數(shù)據(jù)分析是不現(xiàn)實(shí)的,因此本文通過(guò)數(shù)據(jù)挖掘技術(shù)進(jìn)行金融審計(jì)數(shù)據(jù)分析。
1.1 金融審計(jì)數(shù)據(jù)采集
金融審計(jì)數(shù)據(jù)采集進(jìn)行數(shù)據(jù)挖掘的第一步,也是后續(xù)進(jìn)行數(shù)據(jù)分析的基礎(chǔ)和前提。金融審計(jì)數(shù)據(jù)采集是指審計(jì)人員在利用計(jì)算機(jī)審計(jì)時(shí),需要根據(jù)審計(jì)要求從被審計(jì)的金融機(jī)構(gòu)信息系統(tǒng)中提取數(shù)據(jù)文件的過(guò)程[3]。目前,采集方式主要有三種,即直接讀取數(shù)據(jù)的方式、數(shù)據(jù)庫(kù)連接性的方式以及數(shù)據(jù)傳輸?shù)姆绞?,三種方式特點(diǎn)比較如表1所示。
1.2 金融審計(jì)數(shù)據(jù)預(yù)處理
從各個(gè)金融機(jī)構(gòu)系統(tǒng)數(shù)據(jù)采集得到的數(shù)據(jù)受到人為因素、系統(tǒng)因素等的影響,數(shù)據(jù)質(zhì)量并不高,若直接用于后續(xù)數(shù)據(jù)挖掘,將會(huì)導(dǎo)致數(shù)據(jù)分析準(zhǔn)確性降低。為此,需要對(duì)采集到的數(shù)據(jù)進(jìn)行預(yù)處理,具體包括缺失值處理、重復(fù)數(shù)據(jù)處理、噪聲數(shù)據(jù)處理、數(shù)據(jù)變換等[4]。
1.2.1 缺失值處理
采集得到的原始數(shù)據(jù)極有可能存在缺失值,但是缺失值并不意味數(shù)據(jù)有錯(cuò)誤。缺失值在整個(gè)數(shù)據(jù)集若是一個(gè)關(guān)鍵值,就需要進(jìn)行填補(bǔ)。缺失值填補(bǔ)的方法有很多,如人工填寫(xiě)、平均值填充、最鄰近方法填充、期望值最大化方法填充、貝葉斯Boostrap方法填充、回歸法填充等。
1.2.2 重復(fù)數(shù)據(jù)處理
在采集到的原始金融審計(jì)數(shù)據(jù)中還存在一些重復(fù)記錄的數(shù)據(jù),這些數(shù)據(jù)也被稱為冗余數(shù)據(jù)。冗余數(shù)據(jù)的存在會(huì)增加后續(xù)數(shù)據(jù)挖掘和分析的計(jì)算量,降低數(shù)據(jù)分析效率。對(duì)于重復(fù)數(shù)據(jù)的處理,需要進(jìn)行記錄排序,即根據(jù)關(guān)鍵字、詞等進(jìn)行排序,然后識(shí)別重復(fù)記錄,將重復(fù)的數(shù)據(jù)進(jìn)行合并。對(duì)于重復(fù)記錄識(shí)別,可以通過(guò)簡(jiǎn)單的模糊匹配或各個(gè)角度的相似度計(jì)算來(lái)完成。
1.2.3 噪聲數(shù)據(jù)處理
由于各種原因?qū)е聦傩灾挡徽_或不一致的數(shù)據(jù)被稱為噪聲數(shù)據(jù)。對(duì)于噪聲數(shù)據(jù),處理方法主要有三種:分箱、回歸以及聚類(lèi),如表2所示。
1.2.4 數(shù)據(jù)變換
采集到的原始金融審計(jì)數(shù)據(jù)可能來(lái)自被審計(jì)金融機(jī)構(gòu)的不同類(lèi)型的數(shù)據(jù)庫(kù),而不同類(lèi)型的數(shù)據(jù)庫(kù)的數(shù)據(jù)是不同的,無(wú)法進(jìn)行比較分析,因此需要將不同形式的金融審計(jì)數(shù)據(jù)轉(zhuǎn)換成適合的審計(jì)分析軟件處理所需要的形式,將數(shù)據(jù)規(guī)范成相對(duì)統(tǒng)計(jì)的形式,去除量綱,即數(shù)據(jù)規(guī)范化。數(shù)據(jù)規(guī)范化方法主要有以下三種。
(1)Min-Max標(biāo)準(zhǔn)化(Min-Max normalization)
Min-Max標(biāo)準(zhǔn)化,也稱為最小-最大規(guī)范化,基本原理是對(duì)原始金融審計(jì)數(shù)據(jù)進(jìn)行線性變換,使變換后的結(jié)果落到[0,1]區(qū)間內(nèi)。Min-Max標(biāo)準(zhǔn)化表達(dá)式如下:
1.3 金融審計(jì)數(shù)據(jù)降維
以往利用數(shù)據(jù)挖掘算法進(jìn)行直接金融審計(jì)數(shù)據(jù)分析時(shí),往往存在計(jì)算量大、分析不準(zhǔn)確的問(wèn)題,而導(dǎo)致這一現(xiàn)象的主要原因是后續(xù)輸入到數(shù)據(jù)挖掘算法中初始變量數(shù)據(jù)過(guò)多。對(duì)于上述問(wèn)題,將數(shù)據(jù)降維十分必要。
數(shù)據(jù)降維是指在保證原始數(shù)據(jù)損失量最小的前提下,優(yōu)化數(shù)據(jù)組成,降低數(shù)據(jù)維度,減少數(shù)據(jù)規(guī)模。
對(duì)于數(shù)據(jù)降維問(wèn)題,解決方法有很多,大致分為線性映射和非線性映射方法兩大類(lèi)。在本文中選擇主成分分析方法進(jìn)行金融審計(jì)數(shù)據(jù)降維。具體過(guò)程如下:
步驟1:假設(shè)待分析原始金融審計(jì)數(shù)據(jù)的形式是一個(gè)X包含n個(gè)樣本的樣本集。
步驟2:對(duì)樣本集中的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,處理方法見(jiàn)1.2.4中數(shù)據(jù)變換處理方法,最后得到的標(biāo)準(zhǔn)化矩陣Z。
步驟3: 計(jì)算標(biāo)準(zhǔn)化矩陣Z的相關(guān)系數(shù)矩陣R。
步驟4:用雅克比方法解矩陣R的特征方程,得特征根和特征向量(主成分)。
步驟5:計(jì)算主成分累計(jì)貢獻(xiàn)率,一般選擇超過(guò)85%貢獻(xiàn)率的主成分作為重要主成分。
步驟6:重要主成分即為降維后數(shù)據(jù)。
1.4 金融審計(jì)數(shù)據(jù)挖掘分析
數(shù)據(jù)挖掘的概念是在20世紀(jì)80年代提出的,其定義是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中找尋價(jià)值信息和知識(shí)的過(guò)程,因此數(shù)據(jù)挖掘也被稱為“知識(shí)發(fā)現(xiàn)”,一般分為以下幾個(gè)過(guò)程,如圖1所示。
從圖1中可以看出,前文已經(jīng)介紹了數(shù)據(jù)挖掘的準(zhǔn)備環(huán)節(jié),現(xiàn)進(jìn)行數(shù)據(jù)挖掘分析。在數(shù)據(jù)挖掘中,關(guān)鍵在于算法的選擇上。數(shù)據(jù)挖掘算法有很多,如聚類(lèi)算法、神經(jīng)網(wǎng)絡(luò)算法、決策樹(shù)算法、遺傳算法等。選擇聚類(lèi)算法進(jìn)行數(shù)據(jù)挖掘,其理由是該算法具有可伸縮性,圖形數(shù)據(jù)集的劃分效果良好,并且十分高效。聚類(lèi)算法是指按照某種數(shù)據(jù)特征進(jìn)行分類(lèi),同一類(lèi)的數(shù)據(jù)具有相同的特征,從而從中分辨出不同特征的數(shù)據(jù),即異常數(shù)據(jù)。具體過(guò)程大致分為以下五個(gè)步驟。
步驟1:從金融審計(jì)數(shù)據(jù)中隨機(jī)選定K個(gè)樣本數(shù)據(jù)點(diǎn)作為初始聚類(lèi)中心;
步驟2:計(jì)算這K個(gè)初始聚類(lèi)中心到其他樣本數(shù)據(jù)點(diǎn)的距離,包括閔可夫斯基距離、歐式距離、曼哈頓距離等;
步驟3:根據(jù)距離計(jì)算結(jié)果對(duì)每一個(gè)樣本數(shù)據(jù)點(diǎn)進(jìn)行分類(lèi);
步驟4:重新計(jì)算每個(gè)類(lèi)的類(lèi)中心;
步驟5:判斷得到的新聚類(lèi)中心是否與原來(lái)的初始聚類(lèi)中心相同。若相同,聚類(lèi)結(jié)束,輸出聚類(lèi)結(jié)果;否則回到步驟2,重新進(jìn)行聚類(lèi),直到目標(biāo)函數(shù)收斂。
2 實(shí)驗(yàn)分析
本文為測(cè)試基于數(shù)據(jù)挖掘的金融審計(jì)數(shù)據(jù)分析方法的性能,以神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)、最近鄰算法等數(shù)據(jù)挖掘方法作為對(duì)比項(xiàng),進(jìn)行實(shí)驗(yàn)分析。
2.1 實(shí)驗(yàn)數(shù)據(jù)
保險(xiǎn)公司是我國(guó)重要的金融機(jī)構(gòu)之一,關(guān)系國(guó)計(jì)民生,關(guān)系社會(huì)生活中的每一分子,因此本文就選取某保險(xiǎn)公司業(yè)務(wù)及管理費(fèi)的核算數(shù)據(jù)作為仿真實(shí)驗(yàn)數(shù)據(jù)。利用本文章節(jié)1.1數(shù)據(jù)采集方法,從該公司財(cái)務(wù)系統(tǒng)中獲取2008年與業(yè)務(wù)及管理費(fèi)相關(guān)的全部憑證明細(xì)。
據(jù)統(tǒng)計(jì),獲取的某保險(xiǎn)公司2008年與業(yè)務(wù)及管理費(fèi)相關(guān)的全部憑證明細(xì)數(shù)據(jù)共計(jì)1268825條,全部為正常數(shù)據(jù),因此本實(shí)驗(yàn)通過(guò)手動(dòng)篡改其中1562條數(shù)據(jù),作為異常數(shù)據(jù),用于后續(xù)數(shù)據(jù)挖掘。
2.2 數(shù)據(jù)挖掘工具
本文數(shù)據(jù)預(yù)處理、降維以及挖掘分析都通過(guò)SPSS公司開(kāi)發(fā)的Clementine12.0數(shù)據(jù)挖掘軟件來(lái)實(shí)現(xiàn)。通過(guò)Clementine12.0,可以將數(shù)據(jù)放到軟件上進(jìn)行分析,從而利用內(nèi)置的強(qiáng)大算法以及圖形功能預(yù)測(cè)未來(lái)數(shù)據(jù)的走勢(shì),提前定制公司項(xiàng)目計(jì)劃,定制未來(lái)開(kāi)發(fā)的具體流程,并且可以將分析結(jié)果建立模型或流程圖,方便整個(gè)數(shù)據(jù)挖掘過(guò)程將數(shù)據(jù)部署到企業(yè)開(kāi)發(fā)計(jì)劃上,從而完善企業(yè)后期決策計(jì)劃。
2.3 數(shù)據(jù)挖掘評(píng)價(jià)指標(biāo)
數(shù)據(jù)挖掘目標(biāo)是從正常數(shù)據(jù)中找出異常數(shù)據(jù),因此數(shù)據(jù)有兩類(lèi),即為正例(positive)和負(fù)例(negtive),構(gòu)建混淆矩陣如表3所示。
根據(jù)混淆矩陣,計(jì)算數(shù)據(jù)挖掘精度,公式如下:
2.4 結(jié)果分析
利用Clementine12.0數(shù)據(jù)挖掘軟件進(jìn)行數(shù)據(jù)挖掘,并統(tǒng)計(jì)挖掘結(jié)果,如表4所示。
從表4中可以看出,利用本文方法進(jìn)行數(shù)據(jù)挖掘后,從1268825條正常數(shù)據(jù)中找尋1562條異常數(shù)據(jù)的精度達(dá)到96.38%,高于神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)、最近鄰算法三種挖掘方法,證明了本研究的有效性。
3 結(jié)語(yǔ)
綜上所述,面對(duì)海量的金融審計(jì)數(shù)據(jù),如何有效地從中挖掘出有價(jià)值的潛在信息對(duì)于審計(jì)部門(mén)來(lái)說(shuō)至關(guān)重要,為此本文基于數(shù)據(jù)挖掘進(jìn)行金融審計(jì)數(shù)據(jù)分析研究,并取得了一定的成果,但是由于個(gè)人能力有限,還存在不足之處,如在進(jìn)行仿真研究時(shí),樣本數(shù)量并不符合數(shù)據(jù)挖掘?qū)Υ罅繑?shù)據(jù)的要求,且財(cái)務(wù)指標(biāo)不夠全面,因此得出的結(jié)果可能與實(shí)際結(jié)果存在一定的誤差,因此有待進(jìn)一步的探討和研究。
參考文獻(xiàn)
[1] 趙圣偉,吳雨橫.基于金融審計(jì)大數(shù)據(jù)的證券市場(chǎng)異常交易模型探討[J].審計(jì)研究,2018,205(05).
[2] 朱蕊,田晨,高岑.基于數(shù)據(jù)挖掘的熨法干預(yù)肩周炎藥物使用規(guī)律研究[J].時(shí)珍國(guó)醫(yī)國(guó)藥,2018,29(09).
[3] 陳偉,勾東升,徐發(fā)亮.基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法研究[J].中國(guó)注冊(cè)會(huì)計(jì)師,2018,234(11).
[4] 鐘若武,王惠平.基于數(shù)據(jù)挖掘的高校云計(jì)算管理系統(tǒng)中特定數(shù)據(jù)查詢技術(shù)[J].現(xiàn)代電子技術(shù),2018,41(02).