朱宇龍 劉森 袁陽春 張君 陳灝生
摘 要:隨著信息技術(shù)的發(fā)展,企業(yè)業(yè)務系統(tǒng)日益完善,積累了大量的企業(yè)數(shù)據(jù)資產(chǎn),而機器學習等新興技術(shù)的出現(xiàn),為處理海量數(shù)據(jù)帶來了可能性,也為非現(xiàn)場審計提供了技術(shù)基礎。應用機器學習技術(shù)創(chuàng)建相應的非現(xiàn)場審計模型,能夠有效地提高審計工作的效率,擴寬審計覆蓋面,并為加強審計監(jiān)督提供了新途徑。本文介紹了應用樸素貝葉斯和K-means聚類兩種機器學習算法構(gòu)建的非現(xiàn)場審計模型的原理及實踐經(jīng)驗。
關(guān)鍵詞:機器學習;非現(xiàn)場審計;樸素貝葉斯;K-means
應用機器學習相關(guān)算法構(gòu)建審計模型輔助非現(xiàn)場審計,是近年來大數(shù)據(jù)審計工作的發(fā)展趨勢。在企業(yè)數(shù)據(jù)平臺的基礎之上,審計業(yè)務人員和數(shù)據(jù)分析人員緊密協(xié)作,運用統(tǒng)計分析、數(shù)據(jù)挖掘等工具,開展以業(yè)務數(shù)據(jù)為基礎的非現(xiàn)場審計模型的構(gòu)建工作,從而更加有效的完成審計目標。
一、應用機器學習技術(shù)在數(shù)據(jù)中臺的基礎之上構(gòu)建審計業(yè)務中臺
(一)審計業(yè)務中臺
大數(shù)據(jù)時代,企業(yè)的發(fā)展伴隨著企業(yè)業(yè)務的多元化,各大企業(yè)也都致力于企業(yè)的數(shù)字化轉(zhuǎn)型。企業(yè)數(shù)據(jù)中臺是為了解決業(yè)務數(shù)據(jù)孤島問題,統(tǒng)一數(shù)據(jù)治理和數(shù)據(jù)資產(chǎn)管理,以達到技術(shù)降本、應用提效、業(yè)務賦能的目標;企業(yè)數(shù)據(jù)中臺是企業(yè)的數(shù)據(jù)樞紐,是橫向跨專業(yè)、縱向跨層級的各類企業(yè)數(shù)據(jù)資源匯聚中心、數(shù)據(jù)資產(chǎn)轉(zhuǎn)化中心、數(shù)據(jù)價值發(fā)掘中心,是企業(yè)數(shù)字化轉(zhuǎn)型的重要支撐。審計業(yè)務中臺是以大數(shù)據(jù)分析、人工智能等作為技術(shù)支撐,在企業(yè)數(shù)據(jù)中臺的基礎上,直接面向?qū)徲媽ο髽?gòu)建審計模型,識別評估企業(yè)風險,輔助審計人員梳理審計線索,圈定審計重點,實現(xiàn)從“大海撈針”式的隨機抽樣審計到依托審計模型的“精準撒網(wǎng)”式審計的轉(zhuǎn)變,拓展審計的寬度、高度、深度,提升審計效率和質(zhì)量。
(二)非現(xiàn)場審計
非現(xiàn)場審計是為一個或多個審計對象提供綜合審計數(shù)據(jù)分析建模服務。通??梢悦嫦蛉虻臉I(yè)務對象,具有一定大數(shù)據(jù)特征,是一個典型的數(shù)據(jù)應用和數(shù)據(jù)價值發(fā)現(xiàn)場景。若采用傳統(tǒng)現(xiàn)場審計作業(yè)方式同時對多個審計對象開展審計業(yè)務,不僅對人員的需求量大,而且審計項目實施過程中辨別風險、分析問題的工作量也很大,甚至在審計工作成果匯總階段,會存在不同對象審計定性不一致的風險,若采用基于機器學習的非現(xiàn)場審計,則可通過結(jié)合歷史審計經(jīng)驗,構(gòu)建審計數(shù)學模型,在全量數(shù)據(jù)的基礎之上,統(tǒng)一運行,并根據(jù)模型結(jié)果識別審計問題,能夠顯著提高審計覆蓋面和審計效率。當前非現(xiàn)場審計模型的構(gòu)建主要依托于資深審計業(yè)務人員的審計策略,并基于國家法律法規(guī)和企業(yè)規(guī)章制度識別審計規(guī)則,運用機器學習算法構(gòu)建數(shù)學模型,達到識別數(shù)據(jù)異常點的目標,為審計工作提供線索,審計人員再通過線索查找不合規(guī)的異常情況。
二、非現(xiàn)場審計工作的開展方式
機器學習在非現(xiàn)場審計工作中的應用主要分為分為五個步驟:審計需求分析、審計模型設計、審計數(shù)據(jù)準備、審計模型開發(fā)、審計應用。從技術(shù)架構(gòu)上看,非現(xiàn)場審計依托企業(yè)數(shù)據(jù)中臺,運用統(tǒng)計分析、數(shù)據(jù)挖掘、機器學習、自助可視化等工具構(gòu)建審計業(yè)務中臺,推進非現(xiàn)場審計工作。
技術(shù)架構(gòu)圖如下圖所示:
(一)審計需求分析
為了發(fā)揮出高質(zhì)量數(shù)據(jù)的審計價值,必須充分考慮實際審計項目的應用需求,才能有效地為審計現(xiàn)場提供有力的支撐。在進行需求梳理過程中,主要由各單位審計部門通過研討會、現(xiàn)場摸底調(diào)查和電話訪談等方式對審計應用現(xiàn)狀開展需求調(diào)研工作,主要調(diào)研目前各業(yè)務數(shù)據(jù)歸集情況、數(shù)據(jù)分析應用情況、數(shù)據(jù)范圍、應用范圍、功能需求范圍等。
(二)審計模型設計
根據(jù)審計工作流程和研究的業(yè)務領(lǐng)域,將模型設計工作分為五部分:算法初選、數(shù)據(jù)樣例設計、訓練方案、評價體系、應用界面設計。算法初選主要根據(jù)需求分析結(jié)果初步進行算法選取,基本明確建模范圍;根據(jù)需求分析結(jié)果進行樣例設計,作為數(shù)據(jù)樣例和實際應用數(shù)據(jù)的采集準備依據(jù);訓練方案是指在系統(tǒng)提供數(shù)據(jù)樣例的基礎上,應用機器學習進行數(shù)據(jù)處理和算法分析;評價體系是對機器學習訓練成果進行多維度的評價方案,選取最合適的機器學習算法公式;應用界面是審計模型的成果展示界面,應用界面設計側(cè)重于面向?qū)徲嫎I(yè)務人員的人機交互行為習慣,提供簡單明了的數(shù)據(jù)圖標展示和模型結(jié)果數(shù)據(jù)導出功能。
(三)審計數(shù)據(jù)準備
數(shù)據(jù)準備工作指從原始業(yè)務數(shù)據(jù)到形成最終數(shù)據(jù)集的所有操作,主要包含數(shù)據(jù)的收集、清洗和轉(zhuǎn)換工作。在審計需求分析和審計模型設計的基礎之上,明確數(shù)據(jù)準備范圍,然后進行數(shù)據(jù)清洗和轉(zhuǎn)換操作,在數(shù)據(jù)準備階段通常要處理的數(shù)據(jù)問題有:數(shù)據(jù)的不唯一性、格式上不統(tǒng)一、非法值、特征依賴、缺失值、錯誤拼寫等。數(shù)據(jù)準備任務可能要進行多次、沒有規(guī)定的固定順序,整體花費時間占整體建模工作50%到80%的時間。
(四)審計數(shù)據(jù)建模
審計模型開發(fā)包含模型訓練、模型質(zhì)量評估和模型部署三個子環(huán)節(jié),模型訓練通常依托存量數(shù)據(jù),進行算法的選擇和參數(shù)的調(diào)優(yōu);模型質(zhì)量評估是針對算法的執(zhí)行結(jié)果和實際情況進行比對,得到模型的準確度等評估指標,只有通過質(zhì)量評估且執(zhí)行效率高的模型,才具有模型部署應用的價值。模型部署是指將模型部署到正式環(huán)境,進行常態(tài)化的運營,按需或定時輸出模型結(jié)果。
(五)審計應用
非現(xiàn)場審計模型可以應用在兩種場景下:場景一,業(yè)務驅(qū)動的審計項目實施場景,審計部門結(jié)合開展的審計項目,將成熟的模型直接應用到審計現(xiàn)場,輔助縮小審計范圍,提高審計效率。場景二,數(shù)據(jù)驅(qū)動的常態(tài)化的日常監(jiān)控場景,隨著審計模型構(gòu)建的越來越完善,模型的精準度也逐步提高,不僅擴寬了數(shù)字化審計的覆蓋面,也大幅度提高了審計的質(zhì)量和效率,即可在審計模型的基礎之上開展常態(tài)化的審計監(jiān)控工作,進一步提高審計部門快速識別企業(yè)風險的能力。
三、實證研究
(一)基于樸素貝葉斯算法下的資產(chǎn)異常識別
企業(yè)的資產(chǎn)管理業(yè)務系統(tǒng)包含大量資產(chǎn)數(shù)據(jù),包括資產(chǎn)類別、使用保管人、資產(chǎn)變動、資產(chǎn)狀態(tài)、資產(chǎn)折舊值等。依據(jù)資產(chǎn)部門的日常運維工作和歷史審計經(jīng)驗可識別出四類資產(chǎn)異常:資產(chǎn)歸類異常、資產(chǎn)管理異常、資產(chǎn)數(shù)據(jù)完整性異常和資產(chǎn)數(shù)據(jù)準確性異常。本實例運用樸素貝葉斯算法,通過數(shù)據(jù)收集、特征值提取、分區(qū)訓練和質(zhì)量評估等步驟,準確識別資產(chǎn)異常情況,輔助資產(chǎn)域的審計工作。
1.數(shù)據(jù)收集及特征值屬性選取
取某待審計公司建筑業(yè)務資產(chǎn)數(shù)據(jù)作為樣本量,總計12萬左右,有覆蓋性和普遍性,現(xiàn)分為以下四大類資產(chǎn)異常,特征值與選取標準詳見下表:
資產(chǎn)異常特征描述特征值選取資產(chǎn)歸類異常資產(chǎn)描述與類別不匹配資產(chǎn)編碼、資產(chǎn)類別、資產(chǎn)狀態(tài)、數(shù)量、計量單位
資產(chǎn)管理異常管理要求未執(zhí)行資產(chǎn)類別、使用保管人、數(shù)量、資產(chǎn)變動方式資產(chǎn)數(shù)據(jù)完整性異常關(guān)鍵資產(chǎn)屬性數(shù)據(jù)為空資產(chǎn)描述、數(shù)量、計量單位、資產(chǎn)原值、累計折舊、使用年限資產(chǎn)數(shù)據(jù)準確性異常資產(chǎn)數(shù)據(jù)不準確資產(chǎn)類別、資產(chǎn)原值、賬面凈值、累積折舊額
經(jīng)過綜合分析確定11個特征值并分為兩類:①離散型變量,即不以數(shù)據(jù)體現(xiàn),需要文字描述部分,包括資產(chǎn)類別、資產(chǎn)描述、資產(chǎn)變動方式、資產(chǎn)狀態(tài)、計量單位、使用保管人等;②連續(xù)型變量:可從以數(shù)字區(qū)間取值且有連續(xù)性,包括數(shù)量、使用年限、資產(chǎn)原值、賬面凈值、累計折舊額。
2.數(shù)據(jù)清洗
通過設置公式篩選將無意義、不成立的等式進行剔除,因為此類數(shù)據(jù)可直接反映資產(chǎn)數(shù)據(jù)異常,可直接作為異常結(jié)果處理,例如資產(chǎn)原值≤0、累計折舊<0、賬面凈值<0、資產(chǎn)原值—累計折舊額—賬面凈值<0等無財務意義的數(shù)據(jù),清洗后留存數(shù)據(jù)量為82891個樣本。
3.數(shù)據(jù)替代
由于機器學習模型無法分析語義,因此在離散型變量必須采用可識別的數(shù)據(jù)替代這些文本描述類型,例如資產(chǎn)狀態(tài)如果分為①待報廢②報廢③在運④退運⑤未投運⑥庫存?zhèn)溆芒攥F(xiàn)場留用,即可以實現(xiàn)數(shù)字代換。這種分類只能體現(xiàn)靜態(tài)狀態(tài),不能分析其成因,但可以反映其異常并引起注意,具有分析價值。
4.區(qū)分訓練集與測試集
數(shù)據(jù)分為58023個訓練集(70%樣本量)和24867個測試集(30%樣本量)(測試集計99470條數(shù)據(jù)),進行訓練模型和評價模型的反復演算。
實驗數(shù)據(jù):
利用貝葉斯分類器進行訓練,根據(jù)條件概率p(yi|x)的大小判斷待分類項:
5.模型質(zhì)量評估
利用樸素貝葉斯算法進行建模與預測分析,預測結(jié)果如下:
識別率=(13282+42008/13282+5570+5453+42008)×100%=83.3773167%
通過計算發(fā)現(xiàn),準確率與樣本數(shù)量有關(guān),樣本數(shù)量越多,準確率越高,此外樣本的選取特征還可以進一步擴大其關(guān)聯(lián)關(guān)系,并對連續(xù)型變量作進一步采樣區(qū)分特征屬性,可以略微提高樸素貝葉斯模型的準確率。
(二)運用K-means聚類算法識別企業(yè)財務報銷費用異常
企業(yè)的財務報銷數(shù)據(jù)量巨大,通常有差旅費、住宿費、會議費等,形式多種多樣,且非常零碎,在審計工作中,財務審計占比非常高,如果采用人工的方式核查,抽樣率較低,且效果不佳,本實例運用K-means算法進行報銷費用的聚類分析,并識別各類別群體的特征,重點分析離群數(shù)據(jù),輔助發(fā)現(xiàn)報銷費用的異常情況,分析過程如下:
1.數(shù)據(jù)抽取
選擇分析觀察窗口,抽取觀察窗口內(nèi)的全部人員報銷明細,對于后續(xù)新增的人員報銷信息,以后續(xù)新增的新的時間點作為結(jié)束時間,采用上述同樣的方法進行抽取,形成增量數(shù)據(jù)。
從報銷系統(tǒng)數(shù)據(jù)庫中抽取n個人員的分析觀察窗口下的全部報銷數(shù)據(jù),共計r條記錄,其中包括acc_no、register_from、real_name、報銷日期、報銷次數(shù)、異常時間存在報銷次數(shù)、觀察期內(nèi)報銷總金額、觀察期內(nèi)報銷總筆數(shù)、報銷金額、報銷筆數(shù)、異常時間報銷金額、異常時間報銷筆數(shù)等屬性。
2.數(shù)據(jù)探索分析
對數(shù)據(jù)進行缺失值及異常值分析,分析數(shù)據(jù)的規(guī)律及異常值,查找各屬性的空值個數(shù)、最小值、最大值,根據(jù)箱型圖觀察報銷金額的異常情況。
原始數(shù)據(jù)中數(shù)據(jù)屬性太多,選擇與指標相關(guān)的屬性,刪除與其不相關(guān)、弱相關(guān)或冗余的屬性,例如:acc_no、register_from、real_name等屬性。
3.數(shù)據(jù)變換
需要通過原始數(shù)據(jù)來進行屬性構(gòu)造,具體的計算方式如下:
(1)無報銷天數(shù)占比=無報銷天數(shù)/觀察期天數(shù);
(2)異常報銷天數(shù)占報銷天數(shù)比=異常時間存在報銷天數(shù)/觀察期天數(shù);
(3)異常時間段報銷金額占比=異常時間報銷金額/觀察期內(nèi)報銷總金額;
(4)異常時間段報銷筆數(shù)占比=異常時間報銷筆數(shù)/觀察期內(nèi)報銷總筆數(shù);
(5)單筆為100倍數(shù)占比=報銷金額單筆額度為100的倍數(shù)的筆數(shù)/觀察期內(nèi)報銷總筆數(shù);
(6)單筆金額額度異常的占比=單筆金額在該用戶的報銷金額范圍中是異常的筆數(shù)/觀察期內(nèi)報銷總筆數(shù)。
6個指標的數(shù)據(jù)提取后,對每個指標數(shù)據(jù)的分布情況進行分析,并對數(shù)據(jù)進行標準化處理。
4.模型構(gòu)建
模型主要有兩部分組成,第一部分根據(jù)人員報銷數(shù)據(jù)的6個指標數(shù)據(jù),對人員進行聚類分群。第二部分結(jié)合業(yè)務對每個人員群進行特征分析,分析其報銷特點,并對人員群進行排名。
5.聚類特征分析
利用K-means聚類算法進行建模與預測分析,預測結(jié)果如下:
采用k-means對人員報銷數(shù)據(jù)進行分群,可通過如下手肘法來確定K的取值,在K=4時,出現(xiàn)肘點,因此K=4,分成4類。
分群1特點:該類人員無報銷天數(shù)占比在95%以上占比較大,異常時間段報銷情況基本不存在,且報銷金額也較少,異常單筆金額筆數(shù)也較少,可以認為該類人員為不活躍人員。
分群2特點:該類人員無報銷天數(shù)占比在75%以上,且報銷金額占比在50%左右,而單筆報銷金額存在異常的筆數(shù)占比在3%~8%,存在異常金額報銷情況。
分群3特點:該類人員無報銷天數(shù)占比在75%以上,且報銷金額占比在50%左右,而單筆報銷金額存在異常的筆數(shù)占比低于10%占多數(shù),存在異常金額報銷情況。將該人員分為報銷比重較大人員。
分群4特點:該類人員無報銷天數(shù)占比在25%以下及60%以上占比較大,且有90%以上的報銷天數(shù)都存在異常時間段報銷;在異常時間段的報銷金額占比為50%,異常時間段的報銷筆數(shù)占比在40%占比較大,而單筆報銷金額存在異常的筆數(shù)占比低于15%占多數(shù),存在異常金額報銷情況。將該人員作為重點觀察人員。
四、機器學習在非現(xiàn)場審計中的前景展望
(一)機器學習方法用于提升數(shù)字化審計能力前景
從上文的機器學習模型建立情況來看,證明在非現(xiàn)場審計領(lǐng)域中,使用機器學習方法構(gòu)建審計模型,能夠解決非現(xiàn)場審計工作的三個主要問題:①人工查證;②規(guī)則查證;③審計疑點識別;而且機器學習方法所建立的數(shù)學模型在此類數(shù)據(jù)工作方面能夠?qū)崿F(xiàn)經(jīng)驗留存,具有較強的推廣性。
應用機器學習方法建立數(shù)學模型技術(shù),能夠促進被審查對象提供清晰、有效的審計原始數(shù)據(jù),更為直接地體現(xiàn)審計工作中隱藏的財務風險,有效地避免被審計對象數(shù)據(jù)作假,規(guī)范審計過程。除此以外,基于數(shù)字化審計得出的審計結(jié)果有樣本性與研究價值,對同類數(shù)據(jù)的后續(xù)參考借鑒意義較客觀。
(二)機器學習方法在審計工作中應用現(xiàn)存問題
目前機器學習方法建立數(shù)學模型技術(shù)遇到的最大問題就是如何解釋其中的邏輯和推理的客觀性問題,因為只有基礎分類屬于人工決策的內(nèi)容,常常被認為是黑盒模型,向非專業(yè)的工作人員或決策者們解釋起來很困難,他們很難理解模型是怎樣工作并做出決定的,因此在模型設計的邏輯判斷標準上要本著國家會計制度的基礎原則,增加非現(xiàn)場審計機器學習模型的可信度,絕不能因為第三方的客觀要求而背離審計基本原則,使模型喪失基本計算性能和準確性。
五、結(jié)語
機器學習技術(shù)為非現(xiàn)場審計模型應用實踐帶來了機會,復雜且難以人為識別的模型算法可以通過機器學習技術(shù)進行訓練,從而擴大非現(xiàn)場審計模型的容量。在審計實踐中,機器學習技術(shù)是需要在深入業(yè)務需求分析的基礎上結(jié)合多種算法和分析工具進行綜合的應用。基于機器學習的非現(xiàn)場審計模型的應用,顯著降低了現(xiàn)場審計人員的投入、提高審計效率、擴大了審計對象范圍,有效推動了審計方式的進步。
參考文獻:
[1]呂勁松,等.基于數(shù)據(jù)挖掘的商業(yè)銀行對公信貸資產(chǎn)質(zhì)量審計研究[J].金融研究,2016,(07).
[2]王會金,陳偉.非現(xiàn)場審計的實現(xiàn)方法研究[J].審計與經(jīng)濟研究,2005,(05).
[3]易仁萍,王昊,朱玉全.基于數(shù)據(jù)挖掘的審計模型框架[J].中國審計,2003,(03).