摘要:隨著企業(yè)財務(wù)數(shù)據(jù)復(fù)雜性和審計風(fēng)險評估需求的增加,文章構(gòu)建了基于隨機森林的分類模型,利用中國上市公司2013-2023年間的財務(wù)數(shù)據(jù),使用孤立森林算法檢測財務(wù)數(shù)據(jù)中的異常值,并通過K-means聚類分析對異常點進(jìn)行風(fēng)險分類,并通過交叉驗證和混淆矩陣評估了模型的準(zhǔn)確性和穩(wěn)健性。實驗結(jié)果表明,基于機器學(xué)習(xí)的方法能夠顯著提高審計風(fēng)險識別的效率和準(zhǔn)確性,為審計師提供更有力的決策支持工具。
關(guān)鍵詞:機器學(xué)習(xí);審計風(fēng)險評估;財務(wù)異常檢測;隨機森林
一、引言
在當(dāng)今全球化和信息化快速發(fā)展的背景下,企業(yè)的經(jīng)營環(huán)境變得日益復(fù)雜,審計師在進(jìn)行財務(wù)報表審計時面臨的風(fēng)險也在不斷增加。審計風(fēng)險評估作為審計過程的關(guān)鍵環(huán)節(jié),直接關(guān)系到審計質(zhì)量和審計師對企業(yè)財務(wù)狀況的判斷能力。傳統(tǒng)的審計風(fēng)險評估方法,如財務(wù)比率分析和專家經(jīng)驗判斷,往往依賴于審計師的專業(yè)知識和經(jīng)驗,但對數(shù)據(jù)規(guī)模較大、結(jié)構(gòu)復(fù)雜的現(xiàn)代企業(yè)來說,效率問題逐漸凸顯。近年來,人工智能技術(shù)在各個領(lǐng)域的應(yīng)用不斷深入,其在處理非結(jié)構(gòu)化數(shù)據(jù)、識別復(fù)雜模式和發(fā)現(xiàn)異常方面的優(yōu)勢,使其在審計風(fēng)險評估中展現(xiàn)了廣闊的應(yīng)用前景。通過機器學(xué)習(xí)算法,可以分析大規(guī)模的企業(yè)財務(wù)數(shù)據(jù)集,自動識別其中隱藏的風(fēng)險特征,并輔助審計師做出更為準(zhǔn)確的判斷。這種新的方法論突破了傳統(tǒng)審計技術(shù)的局限,為提高審計風(fēng)險評估的效率和準(zhǔn)確性提供了新的路徑。
二、文獻(xiàn)綜述
(一)傳統(tǒng)審計風(fēng)險評估方法的局限性
審計風(fēng)險評估在財務(wù)審計過程中占據(jù)核心地位,其目的是通過系統(tǒng)的分析方法識別和評估財務(wù)報表中潛在的重大錯報風(fēng)險。傳統(tǒng)的審計風(fēng)險評估方法主要依賴于審計師的經(jīng)驗判斷和財務(wù)比率分析,這些方法在審計實踐中發(fā)揮了重要作用,能夠有效識別企業(yè)的財務(wù)風(fēng)險。然而,這些方法存在顯著的局限性。傳統(tǒng)方法缺乏對數(shù)據(jù)之間復(fù)雜非線性關(guān)系的處理能力,而且主觀性較強,依賴于審計師的經(jīng)驗和判斷,難以應(yīng)對復(fù)雜多變的市場環(huán)境和大規(guī)模企業(yè)數(shù)據(jù)的分析需求。隨著企業(yè)業(yè)務(wù)的多元化和全球化,單純依靠傳統(tǒng)的比率分析方法已無法全面反映企業(yè)的真實風(fēng)險狀況和財務(wù)健康水平。因此,有必要引入新的方法來提升審計風(fēng)險評估的科學(xué)性和準(zhǔn)確性。
(二)機器學(xué)習(xí)技術(shù)在審計風(fēng)險評估中的應(yīng)用進(jìn)展
隨著大數(shù)據(jù)和人工智能技術(shù)的發(fā)展,機器學(xué)習(xí)算法在審計風(fēng)險評估中的應(yīng)用逐漸受到重視。這些算法能夠有效處理大規(guī)模、高維度的企業(yè)財務(wù)數(shù)據(jù),識別復(fù)雜的非線性模式,并自動檢測潛在的異常點。近年來,學(xué)者逐漸嘗試采用人工智能技術(shù),如隨機森林、孤立森林、支持向量機和深度神經(jīng)網(wǎng)絡(luò),以改進(jìn)審計風(fēng)險評估的效果。隨機森林在財務(wù)數(shù)據(jù)的異常檢測和特征重要性分析中表現(xiàn)出優(yōu)異的效果,尤其是在處理高維數(shù)據(jù)和復(fù)雜非線性關(guān)系方面。而孤立森林作為一種無監(jiān)督學(xué)習(xí)算法,專門用于異常檢測,已經(jīng)被廣泛應(yīng)用于財務(wù)欺詐檢測的識別中?;谏疃壬窠?jīng)網(wǎng)絡(luò)的模型能夠捕捉復(fù)雜的非線性關(guān)系,并在多維特征空間中識別風(fēng)險模式,其應(yīng)用在金融和審計領(lǐng)域得到了驗證。
三、研究數(shù)據(jù)與研究方法
(一)數(shù)據(jù)來源與描述
本研究的數(shù)據(jù)來源于中國A股上市公司2013-2023年間的財務(wù)報表和相關(guān)披露信息。這些數(shù)據(jù)涵蓋了多個行業(yè)和公司類型,為研究提供了豐富的審計風(fēng)險評估信息。具體數(shù)據(jù)來源于SCMAR數(shù)據(jù)庫和公司年報披露的公開財務(wù)數(shù)據(jù),包括利潤表、現(xiàn)金流量表、資產(chǎn)負(fù)債表及關(guān)鍵財務(wù)比率,如流動比率、資產(chǎn)負(fù)債率、凈資產(chǎn)收益率(ROE)、總資產(chǎn)收益率(ROA)等。
本研究數(shù)據(jù)涵蓋我國A股上市公司從2013-2023年的財務(wù)報表數(shù)據(jù),共42550條,確保了數(shù)據(jù)的連續(xù)性和完整性。數(shù)據(jù)包含財務(wù)報表的主要財務(wù)指標(biāo)及各項財務(wù)分析的比率,如表1所示。
這些數(shù)據(jù)為本研究提供了廣泛的分析基礎(chǔ),有助于更深入地理解企業(yè)的財務(wù)健康狀況及其潛在的審計風(fēng)險。
(二)研究方法
本研究采用實驗研究法,主要步驟包括數(shù)據(jù)預(yù)處理、特征選擇、模型構(gòu)建與評估。研究數(shù)據(jù)預(yù)處理是確保機器學(xué)習(xí)模型訓(xùn)練和分析結(jié)果準(zhǔn)確性的重要步驟,特征選擇是為了簡化模型,提取對企業(yè)審計風(fēng)險評估最具代表性的特征,從而提供模型的效率及模型的魯棒性。模型構(gòu)建與評估包括數(shù)據(jù)集劃分、模型訓(xùn)練及評估及優(yōu)化三個部分。
1. 數(shù)據(jù)預(yù)處理
對收集的數(shù)據(jù)進(jìn)行了清洗,目的是去除噪聲數(shù)據(jù)并處理缺失值和異常值,從而提升數(shù)據(jù)的質(zhì)量和模型的穩(wěn)定性。由于財務(wù)數(shù)據(jù)對于審計風(fēng)險的評估至關(guān)重要,因此存在缺失值的數(shù)據(jù),直接選擇了刪除,以避免模型偏差。對于異常值,使用了四分位距的方法檢測異常,但是沒有做進(jìn)一步的處理,因為財務(wù)數(shù)據(jù)的異常,通常預(yù)示著可能存在審計風(fēng)險,因此對于異常值做了保留處理。經(jīng)過數(shù)據(jù)清洗,總體數(shù)據(jù)集保留了40164條數(shù)據(jù),來開展進(jìn)一步實驗。
2. 數(shù)據(jù)標(biāo)準(zhǔn)化
在數(shù)據(jù)集中,包括的數(shù)據(jù)量綱有非常大的差異,如三大報表中的數(shù)據(jù),金額可以達(dá)到百億級別,而財務(wù)比例數(shù)據(jù)為0到1的分布,在機器學(xué)習(xí)模型中,特征的量綱不一致可能會導(dǎo)致模型的訓(xùn)練結(jié)果偏差,因此對數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化處理。采用Z-score表轉(zhuǎn)化方法,將每個特征值轉(zhuǎn)化為均值為0、標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)分布,標(biāo)準(zhǔn)化公式為:
X′=■
其中,X′是標(biāo)準(zhǔn)化后的特征值,X為原值特征值,μ為特征的均值,σ為特征的標(biāo)準(zhǔn)差。
3. 特征選擇
在特征選擇過程中,采用PCA(Principal Component Analysis)主成分分析對特征進(jìn)行選擇。PCA在處理具有高維特征的財務(wù)數(shù)據(jù)時,對其進(jìn)行特征選擇非常有效的方法。選擇了能解釋90%方差的主成分進(jìn)行計算。
通過表2可知,PCA計算結(jié)果保留了13個主成分,解釋了數(shù)據(jù)的91.14%的方差。這意味著通過13個主成分,幾乎保留了原始數(shù)據(jù)的全部信息。這是一個較好的降維結(jié)果,說明降維后仍然能夠捕捉數(shù)據(jù)中的關(guān)鍵信息。根據(jù)PCA計算結(jié)果最終保留了貢獻(xiàn)排名前十主要特征,分別為:銷售費用率,總資產(chǎn)周轉(zhuǎn)率、營業(yè)成本、非流動負(fù)債、財務(wù)費用率、總負(fù)債、管理費用率、流動資產(chǎn)、營業(yè)利潤及凈資產(chǎn)收益率。
4. 模型構(gòu)建與評估
(1)模型的構(gòu)建。
基于前述特征選擇的結(jié)果,對進(jìn)行模型構(gòu)建的數(shù)據(jù)集進(jìn)行整理和修改。本研究構(gòu)建了一個基于隨機森林(Random Forest)的分類模型,以對公司財務(wù)風(fēng)險進(jìn)行評估。模型構(gòu)建過程包括數(shù)據(jù)集劃分、模型訓(xùn)練與優(yōu)化及模型評估三個階段。
為確保模型的有效性與魯棒性,數(shù)據(jù)集被隨機劃分為訓(xùn)練集(70%)和測試集(30%)。在模型訓(xùn)練過程中,采用交叉驗證技術(shù)對模型性能進(jìn)行調(diào)優(yōu),防止過擬合。使用基于PCA選擇的10個最重要的特征作為模型輸入,利用孤立森林進(jìn)行了異常檢測,并針對異常數(shù)據(jù)進(jìn)行了K-means聚類,隨后構(gòu)建了100棵決策樹的隨機森林分類模型對公司的審計風(fēng)險等級進(jìn)行預(yù)測。隨機森林通過多數(shù)投票法(Majority Voting)對公司風(fēng)險等級進(jìn)行預(yù)測:
其中,y^是最終的分類結(jié)果,Ti是第i棵決策樹,X1至X10是輸入特征。
(2)模型評估。
模型評估使用了分類報告(Classification Report)和混淆矩陣(Confusion Matrix)來分析模型在測試集上的表現(xiàn)。結(jié)果顯示,針對高風(fēng)險和中風(fēng)險類別的預(yù)測準(zhǔn)確率(Precision)、召回率(Recall)和F1分?jǐn)?shù)均表現(xiàn)優(yōu)異,而低風(fēng)險類別由于數(shù)據(jù)不平衡問題,表現(xiàn)相對較差。
四、實驗結(jié)果與分析
本研究詳細(xì)展示了基于中國A股上市公司2013-2023年財務(wù)數(shù)據(jù)的審計風(fēng)險評估實驗結(jié)果。實驗主要包括異常檢測、K-means聚類、風(fēng)險評估模型的構(gòu)建與性能評估三個階段。各階段的結(jié)果分析如下。
(一)異常檢測
異常檢測是審計風(fēng)險評估的關(guān)鍵步驟之一。本研究使用孤立森林(Isolation Forest)算法對財務(wù)數(shù)據(jù)中的異常點進(jìn)行了檢測。孤立森林是一種基于無監(jiān)督學(xué)習(xí)的異常檢測方法,通過隨機選擇特征和分裂值來構(gòu)建決策樹,從而隔離數(shù)據(jù)點。通常情況下,異常點更容易被隔離,其路徑長度較短。
在本實驗中,采用默認(rèn)的污染率(contamination rate)10%,即假設(shè)檢測結(jié)果顯示,在所有公司的財務(wù)數(shù)據(jù)中,有約10%的數(shù)據(jù)點被標(biāo)記為異常,總共4017條數(shù)據(jù)被檢測為異常,檢測結(jié)果如圖1所示。
(二)數(shù)據(jù)的風(fēng)險分類
為了進(jìn)一步分析檢測到的異常點,本研究使用了K-means聚類算法對數(shù)據(jù)進(jìn)行分類。采用肘部法確定最佳聚類值為3,選擇了k=3的聚類數(shù)。將異常點分為風(fēng)險1、風(fēng)險2和風(fēng)險3。通過進(jìn)一步的分析發(fā)現(xiàn),風(fēng)險1異常點主要集中在高負(fù)債率、低流動比率等特征上,這些特征顯著影響企業(yè)的財務(wù)穩(wěn)定性和償債能力。風(fēng)險2異常點集中在費用異常高企且資產(chǎn)利用效率極低,存在嚴(yán)重財務(wù)危機和持續(xù)虧損的風(fēng)險。風(fēng)險3異常點特征為盈利和股東回報接近于零,缺乏增長潛力。
(三)風(fēng)險評估模型構(gòu)建與性能評估
基于上述異常檢測和數(shù)據(jù)分類的結(jié)果,本研究進(jìn)一步構(gòu)建了一個基于隨機森林(Random Forest)的分類模型,對公司審計風(fēng)險進(jìn)行評估。
1. 模型構(gòu)建與訓(xùn)練
在模型構(gòu)建階段,將數(shù)據(jù)集隨機劃分為訓(xùn)練集(70%)和測試集(30%)。使用前10個最重要的特征作為自變量輸入模型。目標(biāo)變量是由K-means數(shù)據(jù)分類通過python構(gòu)建100棵決策樹的隨機森林分類模型,通過多數(shù)投票法對公司審計風(fēng)險等級進(jìn)行預(yù)測。
2. 模型性能評估
本次實驗過程中,模型性能評估使用分類報告(Classification Report)、混淆矩陣(Confusion Matrix)及5折交叉驗證(Cross-Validation)來分析模型在測試集上的表現(xiàn)。
(1)分類報告結(jié)果。模型的分類報告結(jié)果顯示如表3所示,模型在預(yù)測高審計風(fēng)險時,準(zhǔn)確率為0.95,召回率為0.98,F(xiàn)1分?jǐn)?shù)為0.96,這個結(jié)果表明模型對高風(fēng)險數(shù)據(jù)的識別非常好,并且在這類風(fēng)險識別的精確率和召回率之間取得了良好的平衡。中風(fēng)險類別的模型性能稍遜于高風(fēng)險類別,但仍然非常好,具有高精確率和召回率。模型能夠較為準(zhǔn)確地分類大多數(shù)中風(fēng)險樣本,但偶爾會把其他類別的樣本誤分類為中風(fēng)險。低風(fēng)險類別的精確率和召回率都較低,表明模型在這方面的識別能力不如在高風(fēng)險和中風(fēng)險類別中。誤分類率較高,可能需要進(jìn)一步優(yōu)化,減少將低風(fēng)險樣本誤分類為其他類別的情況。
(2)混淆矩陣結(jié)果。模型的混淆矩陣結(jié)果如表4所示,在高風(fēng)險類別上的表現(xiàn)很好,603 個樣本中的大多數(shù)被正確分類為高風(fēng)險,僅有少數(shù)樣本被錯誤地分類為中風(fēng)險或低風(fēng)險,總共 20 個樣本,誤分類的比例相對較小。中風(fēng)險類別總體表現(xiàn)良好,298個樣本被正確分類,但有20個中風(fēng)險樣本被誤分類為高風(fēng)險或低風(fēng)險。低風(fēng)險類別上有10個樣本被錯誤分類高風(fēng)險和中等風(fēng)險,217個樣本被正確預(yù)測。
綜上,假陽性錯誤主要集中在將中風(fēng)險樣本誤判為高風(fēng)險(14 個),這一點需要關(guān)注,因為過高的假陽性可能導(dǎo)致對實際中風(fēng)險的過度處理。假陰性錯誤主要集中在高風(fēng)險和中風(fēng)險類別,都有20個樣本分類錯誤。
(3)5折交叉驗證結(jié)果。通過5折交叉驗證,來進(jìn)一步檢驗?zāi)P偷姆€(wěn)健性,結(jié)果顯示,模型的平均準(zhǔn)確率達(dá)到了95.86%,表明模型具有良好的穩(wěn)健性和泛化能力。
(四)實驗結(jié)果的意義與審計應(yīng)用
實驗結(jié)果表明,基于機器學(xué)習(xí)的異常檢測與風(fēng)險評估方法能夠顯著提高審計師在大數(shù)據(jù)環(huán)境下的風(fēng)險識別效率和精準(zhǔn)度。通過結(jié)合孤立森林、隨機森林和K-means聚類算法,進(jìn)行模型的構(gòu)建,能夠幫助審計師更有效地鎖定公司財務(wù)數(shù)據(jù)中的異常和高風(fēng)險領(lǐng)域,為審計決策提供科學(xué)依據(jù)。此外,模型結(jié)果為審計實踐中的風(fēng)險導(dǎo)向?qū)徲嫴呗蕴峁┝诵碌墓ぞ吆鸵暯?,有助于?yōu)化審計程序,提高審計質(zhì)量和效率。
五、結(jié)論與建議
(一)研究結(jié)論
本研究基于2013-2023年中國A股上市公司的財務(wù)數(shù)據(jù),采用孤立森林、隨機森林和K-means聚類等多種機器學(xué)習(xí)方法,構(gòu)建了一個審計風(fēng)險評估框架模型。通過數(shù)據(jù)預(yù)處理、特征選擇、異常檢測和分類分析,研究有效實現(xiàn)了對企業(yè)審計風(fēng)險的識別與分類。研究結(jié)果顯示,孤立森林算法能夠準(zhǔn)確檢測財務(wù)數(shù)據(jù)中的異常點,尤其是在企業(yè)高負(fù)債、低流動性等特征上,這些異常點表明企業(yè)可能存在較高的財務(wù)風(fēng)險。構(gòu)建的隨機森林分類模型在高風(fēng)險和中風(fēng)險類別上表現(xiàn)出優(yōu)異的風(fēng)險評估效果,其準(zhǔn)確率和F1分?jǐn)?shù)均超過了90%。通過5折交叉驗證了模型的穩(wěn)健性,平均準(zhǔn)確率達(dá)到95.86%,顯示出模型在不同數(shù)據(jù)集上的較強泛化能力,適用于不同類型企業(yè)的審計風(fēng)險評估任務(wù)。
本研究在方法上,研究創(chuàng)新性地結(jié)合了孤立森林、隨機森林和K-means聚類等多種機器學(xué)習(xí)算法,構(gòu)建了系統(tǒng)的審計風(fēng)險評估框架,有效提升了風(fēng)險檢測和分類的準(zhǔn)確性與效率。這一創(chuàng)新為風(fēng)險導(dǎo)向?qū)徲嫴呗蕴峁┝诵碌募夹g(shù)支持。研究利用中國A股上市公司十年財務(wù)數(shù)據(jù)進(jìn)行實證分析,驗證了機器學(xué)習(xí)方法在審計風(fēng)險評估中的有效性,為模型的實際應(yīng)用提供了堅實的基礎(chǔ)。
(二)未來研究建議
盡管本研究在審計風(fēng)險評估中取得了一定的進(jìn)展,仍有一些值得進(jìn)一步探索的領(lǐng)域。研究發(fā)現(xiàn)數(shù)據(jù)不平衡問題對低風(fēng)險類別的預(yù)測效果產(chǎn)生了影響,未來可以引入生成對抗網(wǎng)絡(luò)(GAN)等數(shù)據(jù)增強技術(shù),以改善數(shù)據(jù)不平衡,提升模型的預(yù)測精度。另外,本次研究主要聚焦在企業(yè)的財務(wù)數(shù)據(jù)上,未來研究可結(jié)合更多的非財務(wù)數(shù)據(jù),如市場環(huán)境、公司治理和行業(yè)動態(tài)等,構(gòu)建更全面的風(fēng)險評估模型,以提高審計風(fēng)險評估的準(zhǔn)確性與可靠性。當(dāng)前機器學(xué)習(xí)模型雖在預(yù)測性能上表現(xiàn)優(yōu)異,但其“黑箱”性質(zhì)限制了在審計實踐中的廣泛應(yīng)用。未來研究應(yīng)探索如何提升模型的可解釋性,使審計師能夠更直觀地理解模型的決策依據(jù),增強其應(yīng)用可信度。最后,現(xiàn)有研究基于中國A股上市公司,未來可以將該風(fēng)險評估框架應(yīng)用于不同國家和地區(qū)的上市公司,驗證其適應(yīng)性與普遍性,為全球?qū)徲媽嵺`提供更多參考。
參考文獻(xiàn):
[1]吳勇,陸藝,朱衛(wèi)東,等.深度學(xué)習(xí)模型應(yīng)用:面向?qū)徲嫎I(yè)務(wù)全流程的整合性框架[J].財會月刊,2023,44(01):9.
[2]劉聰粉,張庚珠.基于SAE-BP神經(jīng)網(wǎng)絡(luò)的審計風(fēng)險識別研究——以計算機、通信和其他電子設(shè)備制造業(yè)行業(yè)為例[J].經(jīng)濟(jì)問題, 2024(06):123-129.
[3]文峰.基于貝葉斯原理的審計風(fēng)險估計[J].中國注冊會計師,2024(05):40-47+5.
[4]袁濤,黃寰.基于機器學(xué)習(xí)算法的上市企業(yè)內(nèi)部控制缺陷預(yù)測研究[J].財會月刊,2024,45(07):30-35.
[5]陳青松,梁敏杰,陳鳳儀,等.基于大數(shù)據(jù)機器學(xué)習(xí)的主動式審計方法與應(yīng)用研究[J].中國總會計師,2024(03):53-55.
*本文系陜西會計學(xué)會2023-2024年度立項課題“人工智能技術(shù)在審計風(fēng)險評估與異常檢測中的應(yīng)用”(項目編號:skx202356)的階段性成果。
(作者單位:羅少康,西安歐亞學(xué)院、馬來西亞博特拉大學(xué);曾蕾婷、王舒,西安歐亞學(xué)院)