• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于數(shù)據(jù)挖掘的金融審計(jì)數(shù)據(jù)分析研究

      2020-02-08 08:46:01趙瀏洋
      中國(guó)商論 2020年20期
      關(guān)鍵詞:聚類(lèi)算法數(shù)據(jù)挖掘

      趙瀏洋

      摘 要:針對(duì)由于初始變量數(shù)據(jù)過(guò)多,導(dǎo)致金融審計(jì)數(shù)據(jù)挖掘精度不足的問(wèn)題,進(jìn)行基于數(shù)據(jù)挖掘的金融審計(jì)數(shù)據(jù)分析研究。本文首先從被審計(jì)的金融機(jī)構(gòu)信息系統(tǒng)中提取所需數(shù)據(jù),并對(duì)其進(jìn)行預(yù)處理,包括缺失值處理、重復(fù)數(shù)據(jù)處理、噪聲數(shù)據(jù)處理、數(shù)據(jù)變換等,其次利用主成分分析方法解決初始變量數(shù)據(jù)過(guò)多問(wèn)題,降低數(shù)據(jù)維度,最后選取聚類(lèi)算法作為挖掘方法,實(shí)現(xiàn)金融審計(jì)異常數(shù)據(jù)分析。結(jié)果表明:與神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)、最近鄰算法相比,本方法精度更高,以期為后續(xù)研究提供參考。

      關(guān)鍵詞:數(shù)據(jù)挖掘;金融審計(jì)數(shù)據(jù);聚類(lèi)算法;數(shù)據(jù)維度

      中圖分類(lèi)號(hào):F239.65 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-0298(2020)10(b)-055-03

      審計(jì)機(jī)關(guān)是推動(dòng)完善公共治理的重要力量,它可以通過(guò)提供以證據(jù)為基礎(chǔ)的解決系統(tǒng)性問(wèn)題的意見(jiàn)及建議,促進(jìn)、完善政策和方案,發(fā)揮審計(jì)的監(jiān)督、洞察和前瞻功能,推動(dòng)改善公共治理[1]。近年來(lái),審計(jì)機(jī)關(guān)通過(guò)開(kāi)展金融審計(jì)工作,有效地發(fā)揮了監(jiān)督、洞察與前瞻功能,在促進(jìn)防范和化解金融風(fēng)險(xiǎn),提高金融服務(wù)實(shí)體經(jīng)濟(jì)質(zhì)量和效益,完善金融監(jiān)管體制,推動(dòng)金融體制改革和金融領(lǐng)域反腐倡廉等方面發(fā)揮了重要作用。然而,在審計(jì)機(jī)構(gòu)進(jìn)行金融審計(jì)時(shí),面臨海量的數(shù)據(jù),僅僅依靠傳統(tǒng)的數(shù)據(jù)檢索機(jī)制和方法是遠(yuǎn)遠(yuǎn)不夠的,存在審計(jì)效率低下等問(wèn)題。

      在上述背景下,數(shù)據(jù)挖掘技術(shù)應(yīng)用成為審計(jì)領(lǐng)域研究的重點(diǎn)課題。利用數(shù)據(jù)挖掘技術(shù)尋找數(shù)據(jù)間潛在的關(guān)聯(lián),關(guān)鍵在于挖掘算法的選擇上。常用的挖掘算法有很多,如Desaietal利用神經(jīng)網(wǎng)絡(luò)分類(lèi)挖掘算法對(duì)3000個(gè)觀察數(shù)據(jù)進(jìn)行分析;孫北伐、張高煜、徐倩蓉等在《大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘在審計(jì)中的分析與應(yīng)用》中介紹決策樹(shù)算法和隨機(jī)森林算法的數(shù)據(jù)分析過(guò)程。此外,數(shù)據(jù)挖掘還包括聚類(lèi)算法、神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)、最近鄰算法等[2]。本文在已有研究經(jīng)驗(yàn)的基礎(chǔ)上,以聚類(lèi)算法為基礎(chǔ),進(jìn)行數(shù)據(jù)挖掘研究。研究過(guò)程如下:首先進(jìn)行金融審計(jì)數(shù)據(jù)采集并進(jìn)行預(yù)處理,提高數(shù)據(jù)質(zhì)量,然后選取聚類(lèi)算法作為挖掘算法,設(shè)置挖掘條件,進(jìn)行模式匹配,找尋可疑數(shù)據(jù)。通過(guò)這些可疑數(shù)據(jù),審計(jì)機(jī)構(gòu)可以以此為依據(jù)進(jìn)行追蹤,探尋企業(yè)違法犯罪行為,為金融領(lǐng)域反腐倡廉工作提供依據(jù)。

      1 基于數(shù)據(jù)挖掘的金融審計(jì)數(shù)據(jù)分析方法

      隨著計(jì)算機(jī)網(wǎng)絡(luò)以及信息技術(shù)的不斷發(fā)展,各行各業(yè)對(duì)信息系統(tǒng)的依賴程度越來(lái)越深,其中金融審計(jì)就是其中一個(gè)。金融審計(jì)就是在海量數(shù)據(jù)中尋找異常數(shù)據(jù),從而發(fā)現(xiàn)問(wèn)題,得出各種金融機(jī)構(gòu)的經(jīng)營(yíng)狀況,以便避免出現(xiàn)金融風(fēng)險(xiǎn),揭露隱藏的違法違規(guī)行為,推進(jìn)反腐倡廉工作?,F(xiàn)代金融審計(jì)人員面對(duì)的不再是簡(jiǎn)單的紙質(zhì)賬目,而是存儲(chǔ)在計(jì)算機(jī)系統(tǒng)數(shù)據(jù)庫(kù)中的種類(lèi)繁多的電子數(shù)據(jù),要想通過(guò)人工完成數(shù)據(jù)分析是不現(xiàn)實(shí)的,因此本文通過(guò)數(shù)據(jù)挖掘技術(shù)進(jìn)行金融審計(jì)數(shù)據(jù)分析。

      1.1 金融審計(jì)數(shù)據(jù)采集

      金融審計(jì)數(shù)據(jù)采集進(jìn)行數(shù)據(jù)挖掘的第一步,也是后續(xù)進(jìn)行數(shù)據(jù)分析的基礎(chǔ)和前提。金融審計(jì)數(shù)據(jù)采集是指審計(jì)人員在利用計(jì)算機(jī)審計(jì)時(shí),需要根據(jù)審計(jì)要求從被審計(jì)的金融機(jī)構(gòu)信息系統(tǒng)中提取數(shù)據(jù)文件的過(guò)程[3]。目前,采集方式主要有三種,即直接讀取數(shù)據(jù)的方式、數(shù)據(jù)庫(kù)連接性的方式以及數(shù)據(jù)傳輸?shù)姆绞?,三種方式特點(diǎn)比較如表1所示。

      1.2 金融審計(jì)數(shù)據(jù)預(yù)處理

      從各個(gè)金融機(jī)構(gòu)系統(tǒng)數(shù)據(jù)采集得到的數(shù)據(jù)受到人為因素、系統(tǒng)因素等的影響,數(shù)據(jù)質(zhì)量并不高,若直接用于后續(xù)數(shù)據(jù)挖掘,將會(huì)導(dǎo)致數(shù)據(jù)分析準(zhǔn)確性降低。為此,需要對(duì)采集到的數(shù)據(jù)進(jìn)行預(yù)處理,具體包括缺失值處理、重復(fù)數(shù)據(jù)處理、噪聲數(shù)據(jù)處理、數(shù)據(jù)變換等[4]。

      1.2.1 缺失值處理

      采集得到的原始數(shù)據(jù)極有可能存在缺失值,但是缺失值并不意味數(shù)據(jù)有錯(cuò)誤。缺失值在整個(gè)數(shù)據(jù)集若是一個(gè)關(guān)鍵值,就需要進(jìn)行填補(bǔ)。缺失值填補(bǔ)的方法有很多,如人工填寫(xiě)、平均值填充、最鄰近方法填充、期望值最大化方法填充、貝葉斯Boostrap方法填充、回歸法填充等。

      1.2.2 重復(fù)數(shù)據(jù)處理

      在采集到的原始金融審計(jì)數(shù)據(jù)中還存在一些重復(fù)記錄的數(shù)據(jù),這些數(shù)據(jù)也被稱為冗余數(shù)據(jù)。冗余數(shù)據(jù)的存在會(huì)增加后續(xù)數(shù)據(jù)挖掘和分析的計(jì)算量,降低數(shù)據(jù)分析效率。對(duì)于重復(fù)數(shù)據(jù)的處理,需要進(jìn)行記錄排序,即根據(jù)關(guān)鍵字、詞等進(jìn)行排序,然后識(shí)別重復(fù)記錄,將重復(fù)的數(shù)據(jù)進(jìn)行合并。對(duì)于重復(fù)記錄識(shí)別,可以通過(guò)簡(jiǎn)單的模糊匹配或各個(gè)角度的相似度計(jì)算來(lái)完成。

      1.2.3 噪聲數(shù)據(jù)處理

      由于各種原因?qū)е聦傩灾挡徽_或不一致的數(shù)據(jù)被稱為噪聲數(shù)據(jù)。對(duì)于噪聲數(shù)據(jù),處理方法主要有三種:分箱、回歸以及聚類(lèi),如表2所示。

      1.2.4 數(shù)據(jù)變換

      采集到的原始金融審計(jì)數(shù)據(jù)可能來(lái)自被審計(jì)金融機(jī)構(gòu)的不同類(lèi)型的數(shù)據(jù)庫(kù),而不同類(lèi)型的數(shù)據(jù)庫(kù)的數(shù)據(jù)是不同的,無(wú)法進(jìn)行比較分析,因此需要將不同形式的金融審計(jì)數(shù)據(jù)轉(zhuǎn)換成適合的審計(jì)分析軟件處理所需要的形式,將數(shù)據(jù)規(guī)范成相對(duì)統(tǒng)計(jì)的形式,去除量綱,即數(shù)據(jù)規(guī)范化。數(shù)據(jù)規(guī)范化方法主要有以下三種。

      (1)Min-Max標(biāo)準(zhǔn)化(Min-Max normalization)

      Min-Max標(biāo)準(zhǔn)化,也稱為最小-最大規(guī)范化,基本原理是對(duì)原始金融審計(jì)數(shù)據(jù)進(jìn)行線性變換,使變換后的結(jié)果落到[0,1]區(qū)間內(nèi)。Min-Max標(biāo)準(zhǔn)化表達(dá)式如下:

      1.3 金融審計(jì)數(shù)據(jù)降維

      以往利用數(shù)據(jù)挖掘算法進(jìn)行直接金融審計(jì)數(shù)據(jù)分析時(shí),往往存在計(jì)算量大、分析不準(zhǔn)確的問(wèn)題,而導(dǎo)致這一現(xiàn)象的主要原因是后續(xù)輸入到數(shù)據(jù)挖掘算法中初始變量數(shù)據(jù)過(guò)多。對(duì)于上述問(wèn)題,將數(shù)據(jù)降維十分必要。

      數(shù)據(jù)降維是指在保證原始數(shù)據(jù)損失量最小的前提下,優(yōu)化數(shù)據(jù)組成,降低數(shù)據(jù)維度,減少數(shù)據(jù)規(guī)模。

      對(duì)于數(shù)據(jù)降維問(wèn)題,解決方法有很多,大致分為線性映射和非線性映射方法兩大類(lèi)。在本文中選擇主成分分析方法進(jìn)行金融審計(jì)數(shù)據(jù)降維。具體過(guò)程如下:

      步驟1:假設(shè)待分析原始金融審計(jì)數(shù)據(jù)的形式是一個(gè)X包含n個(gè)樣本的樣本集。

      步驟2:對(duì)樣本集中的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,處理方法見(jiàn)1.2.4中數(shù)據(jù)變換處理方法,最后得到的標(biāo)準(zhǔn)化矩陣Z。

      步驟3: 計(jì)算標(biāo)準(zhǔn)化矩陣Z的相關(guān)系數(shù)矩陣R。

      步驟4:用雅克比方法解矩陣R的特征方程,得特征根和特征向量(主成分)。

      步驟5:計(jì)算主成分累計(jì)貢獻(xiàn)率,一般選擇超過(guò)85%貢獻(xiàn)率的主成分作為重要主成分。

      步驟6:重要主成分即為降維后數(shù)據(jù)。

      1.4 金融審計(jì)數(shù)據(jù)挖掘分析

      數(shù)據(jù)挖掘的概念是在20世紀(jì)80年代提出的,其定義是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中找尋價(jià)值信息和知識(shí)的過(guò)程,因此數(shù)據(jù)挖掘也被稱為“知識(shí)發(fā)現(xiàn)”,一般分為以下幾個(gè)過(guò)程,如圖1所示。

      從圖1中可以看出,前文已經(jīng)介紹了數(shù)據(jù)挖掘的準(zhǔn)備環(huán)節(jié),現(xiàn)進(jìn)行數(shù)據(jù)挖掘分析。在數(shù)據(jù)挖掘中,關(guān)鍵在于算法的選擇上。數(shù)據(jù)挖掘算法有很多,如聚類(lèi)算法、神經(jīng)網(wǎng)絡(luò)算法、決策樹(shù)算法、遺傳算法等。選擇聚類(lèi)算法進(jìn)行數(shù)據(jù)挖掘,其理由是該算法具有可伸縮性,圖形數(shù)據(jù)集的劃分效果良好,并且十分高效。聚類(lèi)算法是指按照某種數(shù)據(jù)特征進(jìn)行分類(lèi),同一類(lèi)的數(shù)據(jù)具有相同的特征,從而從中分辨出不同特征的數(shù)據(jù),即異常數(shù)據(jù)。具體過(guò)程大致分為以下五個(gè)步驟。

      步驟1:從金融審計(jì)數(shù)據(jù)中隨機(jī)選定K個(gè)樣本數(shù)據(jù)點(diǎn)作為初始聚類(lèi)中心;

      步驟2:計(jì)算這K個(gè)初始聚類(lèi)中心到其他樣本數(shù)據(jù)點(diǎn)的距離,包括閔可夫斯基距離、歐式距離、曼哈頓距離等;

      步驟3:根據(jù)距離計(jì)算結(jié)果對(duì)每一個(gè)樣本數(shù)據(jù)點(diǎn)進(jìn)行分類(lèi);

      步驟4:重新計(jì)算每個(gè)類(lèi)的類(lèi)中心;

      步驟5:判斷得到的新聚類(lèi)中心是否與原來(lái)的初始聚類(lèi)中心相同。若相同,聚類(lèi)結(jié)束,輸出聚類(lèi)結(jié)果;否則回到步驟2,重新進(jìn)行聚類(lèi),直到目標(biāo)函數(shù)收斂。

      2 實(shí)驗(yàn)分析

      本文為測(cè)試基于數(shù)據(jù)挖掘的金融審計(jì)數(shù)據(jù)分析方法的性能,以神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)、最近鄰算法等數(shù)據(jù)挖掘方法作為對(duì)比項(xiàng),進(jìn)行實(shí)驗(yàn)分析。

      2.1 實(shí)驗(yàn)數(shù)據(jù)

      保險(xiǎn)公司是我國(guó)重要的金融機(jī)構(gòu)之一,關(guān)系國(guó)計(jì)民生,關(guān)系社會(huì)生活中的每一分子,因此本文就選取某保險(xiǎn)公司業(yè)務(wù)及管理費(fèi)的核算數(shù)據(jù)作為仿真實(shí)驗(yàn)數(shù)據(jù)。利用本文章節(jié)1.1數(shù)據(jù)采集方法,從該公司財(cái)務(wù)系統(tǒng)中獲取2008年與業(yè)務(wù)及管理費(fèi)相關(guān)的全部憑證明細(xì)。

      據(jù)統(tǒng)計(jì),獲取的某保險(xiǎn)公司2008年與業(yè)務(wù)及管理費(fèi)相關(guān)的全部憑證明細(xì)數(shù)據(jù)共計(jì)1268825條,全部為正常數(shù)據(jù),因此本實(shí)驗(yàn)通過(guò)手動(dòng)篡改其中1562條數(shù)據(jù),作為異常數(shù)據(jù),用于后續(xù)數(shù)據(jù)挖掘。

      2.2 數(shù)據(jù)挖掘工具

      本文數(shù)據(jù)預(yù)處理、降維以及挖掘分析都通過(guò)SPSS公司開(kāi)發(fā)的Clementine12.0數(shù)據(jù)挖掘軟件來(lái)實(shí)現(xiàn)。通過(guò)Clementine12.0,可以將數(shù)據(jù)放到軟件上進(jìn)行分析,從而利用內(nèi)置的強(qiáng)大算法以及圖形功能預(yù)測(cè)未來(lái)數(shù)據(jù)的走勢(shì),提前定制公司項(xiàng)目計(jì)劃,定制未來(lái)開(kāi)發(fā)的具體流程,并且可以將分析結(jié)果建立模型或流程圖,方便整個(gè)數(shù)據(jù)挖掘過(guò)程將數(shù)據(jù)部署到企業(yè)開(kāi)發(fā)計(jì)劃上,從而完善企業(yè)后期決策計(jì)劃。

      2.3 數(shù)據(jù)挖掘評(píng)價(jià)指標(biāo)

      數(shù)據(jù)挖掘目標(biāo)是從正常數(shù)據(jù)中找出異常數(shù)據(jù),因此數(shù)據(jù)有兩類(lèi),即為正例(positive)和負(fù)例(negtive),構(gòu)建混淆矩陣如表3所示。

      根據(jù)混淆矩陣,計(jì)算數(shù)據(jù)挖掘精度,公式如下:

      2.4 結(jié)果分析

      利用Clementine12.0數(shù)據(jù)挖掘軟件進(jìn)行數(shù)據(jù)挖掘,并統(tǒng)計(jì)挖掘結(jié)果,如表4所示。

      從表4中可以看出,利用本文方法進(jìn)行數(shù)據(jù)挖掘后,從1268825條正常數(shù)據(jù)中找尋1562條異常數(shù)據(jù)的精度達(dá)到96.38%,高于神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)、最近鄰算法三種挖掘方法,證明了本研究的有效性。

      3 結(jié)語(yǔ)

      綜上所述,面對(duì)海量的金融審計(jì)數(shù)據(jù),如何有效地從中挖掘出有價(jià)值的潛在信息對(duì)于審計(jì)部門(mén)來(lái)說(shuō)至關(guān)重要,為此本文基于數(shù)據(jù)挖掘進(jìn)行金融審計(jì)數(shù)據(jù)分析研究,并取得了一定的成果,但是由于個(gè)人能力有限,還存在不足之處,如在進(jìn)行仿真研究時(shí),樣本數(shù)量并不符合數(shù)據(jù)挖掘?qū)Υ罅繑?shù)據(jù)的要求,且財(cái)務(wù)指標(biāo)不夠全面,因此得出的結(jié)果可能與實(shí)際結(jié)果存在一定的誤差,因此有待進(jìn)一步的探討和研究。

      參考文獻(xiàn)

      [1] 趙圣偉,吳雨橫.基于金融審計(jì)大數(shù)據(jù)的證券市場(chǎng)異常交易模型探討[J].審計(jì)研究,2018,205(05).

      [2] 朱蕊,田晨,高岑.基于數(shù)據(jù)挖掘的熨法干預(yù)肩周炎藥物使用規(guī)律研究[J].時(shí)珍國(guó)醫(yī)國(guó)藥,2018,29(09).

      [3] 陳偉,勾東升,徐發(fā)亮.基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法研究[J].中國(guó)注冊(cè)會(huì)計(jì)師,2018,234(11).

      [4] 鐘若武,王惠平.基于數(shù)據(jù)挖掘的高校云計(jì)算管理系統(tǒng)中特定數(shù)據(jù)查詢技術(shù)[J].現(xiàn)代電子技術(shù),2018,41(02).

      猜你喜歡
      聚類(lèi)算法數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      數(shù)據(jù)挖掘算法性能優(yōu)化的研究與應(yīng)用
      K—Means聚類(lèi)算法在MapReduce框架下的實(shí)現(xiàn)
      基于K?均值與AGNES聚類(lèi)算法的校園網(wǎng)行為分析系統(tǒng)研究
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
      基于改進(jìn)的K_means算法在圖像分割中的應(yīng)用
      大規(guī)模風(fēng)電場(chǎng)集中接入對(duì)電力系統(tǒng)小干擾穩(wěn)定的影響分析
      科技視界(2016年8期)2016-04-05 18:39:39
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于暫態(tài)特征聚類(lèi)的家用負(fù)荷識(shí)別
      盘山县| 滁州市| 金塔县| 兴文县| 广河县| 黎城县| 衢州市| 监利县| 河南省| 宣恩县| 郁南县| 黄梅县| 芦山县| 措美县| 祥云县| 华坪县| 临洮县| 融水| 汉中市| 施甸县| 益阳市| 读书| 敦煌市| 莆田市| 兴安盟| 山阳县| 蕲春县| 房产| 孟津县| 左云县| 平舆县| 陆良县| 诏安县| 门源| 乃东县| 闻喜县| 达拉特旗| 长治县| 望奎县| 丹巴县| 新宾|