顧洪菲
(南京審計學(xué)院審計與會計學(xué)院,南京211815)
大數(shù)據(jù)環(huán)境下審計數(shù)據(jù)分析技術(shù)方法初探
顧洪菲
(南京審計學(xué)院審計與會計學(xué)院,南京211815)
大數(shù)據(jù)是目前信息技術(shù)領(lǐng)域研究和應(yīng)用的熱點問題。盡管國內(nèi)外對大數(shù)據(jù)和審計數(shù)據(jù)分析已有了一定研究,但尚缺少關(guān)于大數(shù)據(jù)環(huán)境下審計數(shù)據(jù)分析方面的研究。本文針對大數(shù)據(jù)的特點以及審計數(shù)據(jù)分析實務(wù)的現(xiàn)狀,首先闡述了大數(shù)據(jù)對審計的影響,然后根據(jù)大數(shù)據(jù)的特點,從數(shù)據(jù)量、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)處理方式三個方面分析大數(shù)據(jù)環(huán)境下進(jìn)行審計數(shù)據(jù)分析所需的技術(shù)要求,接著從分析學(xué)和使用者的角度闡述了大數(shù)據(jù)環(huán)境下進(jìn)行審計的數(shù)據(jù)分析方法和分析結(jié)果的顯示需求,最后提出了我國在大數(shù)據(jù)環(huán)境中如何推進(jìn)審計信息化的發(fā)展,為今后在大數(shù)據(jù)環(huán)境下實施審計提供了參考。
大數(shù)據(jù);審計;數(shù)據(jù)分析
審計是保障國家經(jīng)濟(jì)社會健康運行的“免疫系統(tǒng)”,在數(shù)據(jù)信息爆炸的今天,大數(shù)據(jù)的浪潮促使著審計思維模式的變革。面對已經(jīng)到來的大數(shù)據(jù)時代和由此帶來的數(shù)據(jù)量、數(shù)據(jù)類型、數(shù)據(jù)處理方式的轉(zhuǎn)變,意味著在大數(shù)據(jù)環(huán)境下進(jìn)行審計數(shù)據(jù)分析將面臨更大的技術(shù)挑戰(zhàn)。2012年3月22日,奧巴馬宣布美國政府五大部門投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃(Big Data Research and Development Initiative)”,以提高美國的科研、教育與國家安全能力。從國家角度來看,大數(shù)據(jù)已成為一種戰(zhàn)略資源[1]。審計署2013年6月6日發(fā)布的《審計署關(guān)于印發(fā)特派辦審計數(shù)據(jù)綜合利用指南——計算機(jī)審計實務(wù)公告第47號的通知》中,對審計數(shù)據(jù)歸集和處理、審計數(shù)據(jù)管理和共享、審計數(shù)據(jù)分析技術(shù)和方法等做出了詳細(xì)的規(guī)定。大數(shù)據(jù)的出現(xiàn)為今后開展多元異構(gòu)、跨領(lǐng)域關(guān)聯(lián)的海量審計數(shù)據(jù)分析提供了可能。因此,研究大數(shù)據(jù)環(huán)境下的審計數(shù)據(jù)分析技術(shù)方法具有重要意義。
1.1 大數(shù)據(jù)的概念和特點
大數(shù)據(jù)作為一個新興概念,至今尚未有統(tǒng)一的定義。維基百科中對于大數(shù)據(jù)的定義是:由巨型數(shù)據(jù)集組成,這些數(shù)據(jù)集大小常超出人類在可接受時間下的收集、使用、管理和處理能力。IDC在對大數(shù)據(jù)作出的定義為:大數(shù)據(jù)一般會涉及2種或2種以上數(shù)據(jù)形式。它要收集超過100TB的數(shù)據(jù),并且是高速、實時數(shù)據(jù)流;或者是從小數(shù)據(jù)開始,但數(shù)據(jù)每年會增長60%以上。研究機(jī)構(gòu)Gartner給出了這樣的定義:大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的信息資產(chǎn)。雖然這3個定義的表述不盡相同,但卻直觀地將“大數(shù)據(jù)”與傳統(tǒng)數(shù)據(jù)定義區(qū)分開,而且強(qiáng)調(diào)了大數(shù)據(jù)其實不僅僅是“海量數(shù)據(jù)”,還在于其數(shù)據(jù)類型的復(fù)雜性。一般來說,大數(shù)據(jù)有四大特征:數(shù)據(jù)規(guī)模大(Volume),數(shù)據(jù)種類多(Variety),數(shù)據(jù)要求處理速度快(Velocity),數(shù)據(jù)價值密度低(Value),即所謂的“4V”特性。
1.2 審計數(shù)據(jù)分析方法概述
審計人員如何將原生態(tài)的數(shù)據(jù)信息轉(zhuǎn)換成審計證據(jù),這直接影響著審計目標(biāo)的實現(xiàn),而這關(guān)鍵之處就是審計人員是否能對被審單位的審計數(shù)據(jù)進(jìn)行有效分析。因此,審計的核心方法應(yīng)該是數(shù)據(jù)分析方法[2]。
傳統(tǒng)環(huán)境下,審計人員可以通過檢查、觀察、詢問、函證、重新計算、重新執(zhí)行、分析程序等分析方法來收集審計證據(jù)。在信息時代,計算機(jī)輔助審計技術(shù)逐漸成為分析審計數(shù)據(jù)的重要手段,但這主要是針對結(jié)構(gòu)化數(shù)據(jù)的審計分析。
1.3 大數(shù)據(jù)的發(fā)展對審計數(shù)據(jù)分析工作的影響
1.3.1 對開展審計數(shù)據(jù)分析工作提供了機(jī)遇和挑戰(zhàn)
大數(shù)據(jù)是下一個社會階段的金礦和石油[3]。這對于審計人員既是挑戰(zhàn)又是機(jī)遇。作為審計的核心方法——數(shù)據(jù)分析,能否有效地從各種超大規(guī)模的數(shù)據(jù)集中提取、挖掘有價值的信息,這將直接關(guān)乎審計效率。
1.3.2 全數(shù)據(jù)模式可以增加審計數(shù)據(jù)分析工作的精準(zhǔn)性
在傳統(tǒng)審計工作中,由于數(shù)據(jù)的繁雜,一般采用數(shù)據(jù)抽樣分析。而大數(shù)據(jù)“樣本=總體”的全數(shù)據(jù)模式是要分析與審計對象相關(guān)的所有數(shù)據(jù),使得審計工作可以建立整體到局部的審計思維模式[4]。在全數(shù)據(jù)模式下開展審計數(shù)據(jù)分析,一方面規(guī)避了抽樣風(fēng)險和從局部推算整體的局限性,從而使得審計數(shù)據(jù)分析工作結(jié)果更加精準(zhǔn);另一方面與傳統(tǒng)相比,數(shù)據(jù)不需要進(jìn)行預(yù)處理,這使其保持了數(shù)據(jù)的原始特征,從而使得開展數(shù)據(jù)分析工作能夠具有更全面、更接近真實的洞察力。
1.3.3 大數(shù)據(jù)的流處理特征將提高審計數(shù)據(jù)分析效率
隨著數(shù)據(jù)量從TB向PB甚至向ZB級轉(zhuǎn)變,傳統(tǒng)的批量處理方式被流處理方式取代。審計人員通過利用軟件和模型更快地捕捉到價值信息,實現(xiàn)實時分析,這將使審計人員能夠更及時地發(fā)現(xiàn)問題,有效提高審計工作效率。
1.4 大數(shù)據(jù)環(huán)境下審計的研究不多
對于大數(shù)據(jù)領(lǐng)域,國內(nèi)學(xué)者也進(jìn)行了相關(guān)研究。如李國杰[5]介紹了大數(shù)據(jù)的應(yīng)用現(xiàn)狀,同時也對大數(shù)據(jù)發(fā)展中遇到的問題和挑戰(zhàn)提出了戰(zhàn)略建議。文獻(xiàn)[6-8]主要介紹了大數(shù)據(jù)的分析和查詢技術(shù),闡述了大數(shù)據(jù)處理的基本框架,并對當(dāng)前的主流實現(xiàn)平臺進(jìn)行了分析歸納。
2013年審計署對全國社會保障資金進(jìn)行了統(tǒng)一審計,審計資金范圍包括社會保險基金、社會救助資金和社會福利資金三部分,總共12類18項資金,這是審計署對大數(shù)據(jù)的首次嘗試。對于海量的社保數(shù)據(jù),審計署首次提出要對社保資金從橫向、縱向、多角度、全方位進(jìn)行趨勢分析。我國審計領(lǐng)域?qū)τ诖髷?shù)據(jù)的研究才剛剛起步,有很多關(guān)鍵問題有待研究。
2.1 從數(shù)據(jù)量來看,大數(shù)據(jù)環(huán)境下開展審計數(shù)據(jù)分析需要建立云計算平臺
隨著大數(shù)據(jù)時代的到來,人們的第一觀念就是數(shù)據(jù)量的“大”。傳統(tǒng)的數(shù)據(jù)分析平臺已不再能承載海量數(shù)據(jù)的分析工作,我們?nèi)绾螐拇髷?shù)據(jù)中挖掘出“黃金”呢?時下熱門的云計算技術(shù)給大數(shù)據(jù)分析帶來了福音。在審計中運用云計算技術(shù),可以免去審計人員在審計現(xiàn)場搭建審計數(shù)據(jù)分析環(huán)境的任務(wù),并且可以通過“聚集供應(yīng)”模式對所有審計軟件、相關(guān)數(shù)據(jù)進(jìn)行整合、集成,從而打破審計數(shù)據(jù)分析的空間約束,有效克服系統(tǒng)、數(shù)據(jù)類型和軟件間的不兼容,真正實現(xiàn)審計技術(shù)的信息化和網(wǎng)絡(luò)化[9]。由云計算衍生而出的云存儲技術(shù),可以為審計人員提供以互聯(lián)網(wǎng)為基礎(chǔ)的在線存儲服務(wù)。審計人員可以通過購買獲得“專用”且容量“無限大”的存儲空間和企業(yè)級的服務(wù)質(zhì)量,在審計現(xiàn)場隨時通過網(wǎng)絡(luò)訪問自己的數(shù)據(jù),避免了傳統(tǒng)審計工作地點固定的弊端。云計算技術(shù)的成熟發(fā)展,為在大數(shù)據(jù)環(huán)境下開展審計數(shù)據(jù)分析工作提供了便利。
2.2 從數(shù)據(jù)結(jié)構(gòu)來看,在大數(shù)據(jù)環(huán)境中開展審計數(shù)據(jù)分析需要NoSQL技術(shù)
審計的數(shù)據(jù)對象從傳統(tǒng)數(shù)據(jù)向大數(shù)據(jù)進(jìn)行轉(zhuǎn)變,多元異構(gòu)、跨領(lǐng)域的大數(shù)據(jù)使得審計人員面對的數(shù)據(jù)分析范圍發(fā)生了擴(kuò)增,從原先局限的被審計單位的內(nèi)部數(shù)據(jù)信息擴(kuò)展到與其相關(guān)的所有外部數(shù)據(jù),如來自互聯(lián)網(wǎng)運營商、電信運營商、銀行、交通樞紐等機(jī)構(gòu)的數(shù)據(jù)。因此,數(shù)據(jù)類型也從結(jié)構(gòu)化擴(kuò)增到半結(jié)構(gòu)化甚至非結(jié)構(gòu)化的形態(tài)(圖1)。顯然傳統(tǒng)的審計數(shù)據(jù)分析方法已經(jīng)不能滿足現(xiàn)代審計的要求,如何更好地從大數(shù)據(jù)中快捷有效地發(fā)掘出價值信息,則是當(dāng)務(wù)之急。
圖1 數(shù)據(jù)類型變化
在審計實務(wù)中,一般企事業(yè)單位都是將數(shù)據(jù)存儲在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫系統(tǒng),與之相配套的結(jié)構(gòu)化查詢語言就是關(guān)系型數(shù)據(jù)庫語言即SQL。我們對于審計數(shù)據(jù)的分析,主要基于SQL。那么NoSQL技術(shù)簡單來說,就是不僅僅基于SQL。在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫系統(tǒng)中,我們需要先進(jìn)行邏輯數(shù)據(jù)庫設(shè)置,對每個存儲變量進(jìn)行字符長度、類型設(shè)置,它的數(shù)據(jù)模式是靜態(tài)的。而在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)模式是動態(tài)變化的,傳統(tǒng)的數(shù)據(jù)庫技術(shù)無法解決。同時,對于數(shù)據(jù)類型的擴(kuò)增,像文檔、報表、圖片、音頻、視頻等數(shù)據(jù)類型是無法存儲在關(guān)系型數(shù)據(jù)庫當(dāng)中的,而這些都將會成為我們的審計數(shù)據(jù),SQL不能完全滿足審計工作的需求。而這一問題,已在新社會媒體中提出,F(xiàn)acebook、Twitter,包括國內(nèi)的人人、微博,都產(chǎn)生了對大數(shù)據(jù)和NoSQL的需求。Google公司作為全球最大的信息檢索公司,已廣泛使用NoSQL數(shù)據(jù)庫系統(tǒng),這為在大數(shù)據(jù)環(huán)境下開展審計數(shù)據(jù)分析工作提供了借鑒。
2.3 從數(shù)據(jù)處理來看,在大數(shù)據(jù)環(huán)境中審計需要建立分布式處理系統(tǒng)
在大數(shù)據(jù)時代,數(shù)據(jù)的時效性增強(qiáng)。如何更加高效地對審計數(shù)據(jù)進(jìn)行分析,最快地獲取最有價值的審計證據(jù),提高審計效率,這是大數(shù)據(jù)給審計人員帶來的最大挑戰(zhàn)。大數(shù)據(jù)的處理模式有流處理和批處理兩種。實時的分析數(shù)據(jù)一般是采用流處理技術(shù),也可將流處理技術(shù)和批處理技術(shù)相結(jié)合。流處理,顧名思義即源源不斷地將原生態(tài)數(shù)據(jù)形成數(shù)據(jù)流。當(dāng)新的數(shù)據(jù)到來即立即處理并返回所需的結(jié)果,而批處理采用先存儲再處理。將大數(shù)據(jù)的實時處理運用到審計中,實現(xiàn)了審計的實時監(jiān)測,減小了舞弊發(fā)生的可能性,同時也提高了審計效率。
隨著大數(shù)據(jù)技術(shù)的發(fā)展,如果要求實時處理大數(shù)據(jù),必然要求采用分布式的方式[10]。目前比較有代表性的開源流處理系統(tǒng)主要有:Twitter的Storm、Yahoo的S4以及Linkedin的Kafka等,這也為在大數(shù)據(jù)環(huán)境下開展審計數(shù)據(jù)分析提供了可能。
2.4 從數(shù)據(jù)分析學(xué)來看,在大數(shù)據(jù)環(huán)境下實施審計需要機(jī)器學(xué)習(xí)進(jìn)行數(shù)據(jù)分析
大數(shù)據(jù)分析技術(shù)具體是什么呢?迄今為止,還沒有權(quán)威人士給出明確的答案,但機(jī)器學(xué)習(xí)是目前人們公認(rèn)的一大重點技術(shù)問題。機(jī)器學(xué)習(xí)是從不確定的細(xì)節(jié)當(dāng)中找到我們目前不知道的東西。機(jī)器學(xué)習(xí)常用的領(lǐng)域有:語音識別、字符識別(OCR)、文本分類等,這正適用于大數(shù)據(jù)環(huán)境下新的數(shù)據(jù)類型。在大數(shù)據(jù)環(huán)境下,開展審計數(shù)據(jù)分析正可以利用機(jī)器學(xué)習(xí),來解決聚類問題、分類問題、挖掘頻繁項集。對于新出現(xiàn)的文本審計數(shù)據(jù)類型,機(jī)器學(xué)習(xí)可以通過聚類應(yīng)用將它按特征分組;通過分類問題糾正被錯誤歸屬的審計數(shù)據(jù)信息;頻繁項集挖掘則可以用來審計數(shù)據(jù)中的頻繁共現(xiàn)特征,說明它們之間有某種關(guān)聯(lián),如天氣指數(shù)與車載運輸?shù)恼幢汝P(guān)系。尤其是在國家審計中,審計人員可以對其工作領(lǐng)域多年的審計數(shù)據(jù)進(jìn)行聚類分析、頻繁項集挖掘等,總結(jié)群體行為的特點,為宏觀政策的制定提供依據(jù)或者揭露不易察覺的舞弊,保障國家經(jīng)濟(jì)社會健康運行。
2.5 從數(shù)據(jù)使用者來看,在大數(shù)據(jù)環(huán)境中實施審計需要數(shù)據(jù)可視化
對于傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),可以采用數(shù)值、表、各種統(tǒng)計圖形顯示等形式來表示數(shù)據(jù),而大數(shù)據(jù)處理的非結(jié)構(gòu)化數(shù)據(jù),種類繁多,關(guān)系復(fù)雜,傳統(tǒng)的顯示方法通常難以表現(xiàn),大量的數(shù)據(jù)表、繁亂的關(guān)系圖加大了審計人員對數(shù)據(jù)信息讀取的難度,甚至可能誤導(dǎo)審計人員。數(shù)據(jù)可視化是利用計算機(jī)圖形學(xué)、圖像處理的可視計算技術(shù)以及Office辦公軟件,將數(shù)據(jù)或數(shù)據(jù)分析結(jié)果轉(zhuǎn)換成圖形、圖像、表格、文件等形式,用三維形體來表示復(fù)雜的信息,并可進(jìn)行交互處理。相較于傳統(tǒng)的數(shù)據(jù)分析,三維形體是對審計對象的各個側(cè)面進(jìn)行更多的數(shù)據(jù)描述,可以實現(xiàn)從整體視角對審計對象進(jìn)行較為全面立體式多角度、多維度數(shù)據(jù)分析,這樣信息的記錄更加全面,使審計人員可更加直觀地讀出數(shù)據(jù)表述的問題,彌補現(xiàn)有科學(xué)分析方法的不足。
本文根據(jù)大數(shù)據(jù)的發(fā)展和應(yīng)用現(xiàn)狀,針對在我國開展審計數(shù)據(jù)分析的特點與需求,探討了在大數(shù)據(jù)環(huán)境下所需審計數(shù)據(jù)分析的技術(shù)要求。目前在審計中,對于大數(shù)據(jù)的研究仍處于一個非常初步的階段,我們還有很多問題需要解決,我們應(yīng)在審計中加大對大數(shù)據(jù)技術(shù)的研發(fā)投入,研制出我國可以自主控制的大數(shù)據(jù)審計產(chǎn)品,提高審計人員的綜合素質(zhì),加強(qiáng)審計技術(shù)應(yīng)用領(lǐng)域的相關(guān)法律法規(guī)建設(shè)。希望在未來能夠利用成熟的大數(shù)據(jù)技術(shù)推進(jìn)審計信息化的發(fā)展。
[1]懷進(jìn)鵬.大數(shù)據(jù)是國家戰(zhàn)略資源[J].中國經(jīng)濟(jì)和信息化,2013(4).
[2]石愛中,孫儉.初釋數(shù)據(jù)式審計模式[J].審計研究,2005(4).
[3]涂子沛.大數(shù)據(jù)[M].第5版.桂林:廣西師范大學(xué)出版社,2012.
[4]審計署審計科研所.審計研究報告[R].2013.
[5]李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2012(6).
[6]孟小峰,慈祥.大數(shù)據(jù)管理概念技術(shù)與挑戰(zhàn)[J].計算機(jī)研究與發(fā)展,2013(50).
[7]覃雄派,王會舉,杜小勇,等.大數(shù)據(jù)分析——RDBMS與MapReduce的競爭與共生[J].軟件學(xué)報,2012,23(1).
[8]王珊.王會舉,覃雄派,等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計算機(jī)學(xué)報,2012,34(10).
[9]岳利敏.云計算在審計中的應(yīng)用[J].群文天地,2013(1).
[10]王秀磊,大數(shù)據(jù)關(guān)鍵技術(shù)[J].中興通訊技術(shù),2013(8).
10.3969/j.issn.1673-0194.2015.03.025
F239.45;F232
A
1673-0194(2015)03-0045-04
2014-12-22