【摘要】在大數(shù)據(jù)背景下,財務(wù)數(shù)據(jù)展現(xiàn)出多源異構(gòu)性。文章構(gòu)建了基于多源異構(gòu)數(shù)據(jù)融合的財務(wù)舞弊識別模型,通過整合不同類型數(shù)據(jù),增強數(shù)據(jù)間的互補性和關(guān)聯(lián)性,以識別財務(wù)舞弊。文章的模型構(gòu)建涵蓋數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、模型訓(xùn)練、模型預(yù)警等階段,確保了模型識別的有效性。數(shù)據(jù)預(yù)處理階段通過數(shù)據(jù)清洗和特征工程提高數(shù)據(jù)質(zhì)量,在模型訓(xùn)練時利用數(shù)據(jù)挖掘和集成融合算法提升模型預(yù)測精度和穩(wěn)定性,從而提高財務(wù)舞弊識別的準確性,為企業(yè)有效應(yīng)對舞弊風(fēng)險提供有力支持。
【關(guān)鍵詞】多源異構(gòu);數(shù)據(jù)融合;財務(wù)舞弊
【中圖分類號】F275
★ 基金項目:重慶工商職業(yè)學(xué)院校級科研項目“基于多源異構(gòu)數(shù)據(jù)融合的上市公司財務(wù)舞弊特征識別及預(yù)警研究”(項目編號:NDQN2023-01)。
一、引言
中國的資本市場始終處于不斷變革和快速發(fā)展的狀態(tài),位于市場經(jīng)濟體制改革的前沿。成熟的資本市場能夠為企業(yè)提供一個公平、高效的融資環(huán)境。會計應(yīng)當(dāng)真實客觀地反映企業(yè)的財務(wù)狀況、經(jīng)營成果以及現(xiàn)金流量,然而管理層的舞弊行為破壞了這一基本職能。財務(wù)報告質(zhì)量直接影響會計信息使用者的經(jīng)濟決策,如不能及時發(fā)現(xiàn)管理層的舞弊行為,將會給投資者帶來巨大的經(jīng)濟損失。傳統(tǒng)的財務(wù)舞弊識別方法存在明顯的局限,這些方法通常僅依賴企業(yè)發(fā)布的財報數(shù)據(jù),而這些數(shù)據(jù)可能本身已經(jīng)受到管理層操縱。財務(wù)舞弊手段多樣且極其隱蔽,單一的識別技術(shù)也往往難以全面識別所有的舞弊手段。
近年來,基于機器學(xué)習(xí)、數(shù)據(jù)挖掘等技術(shù)逐步應(yīng)用于舞弊識別領(lǐng)域,現(xiàn)有研究多以結(jié)構(gòu)化數(shù)據(jù)作為研究基礎(chǔ),對半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)涉及較少。大數(shù)據(jù)時代下,產(chǎn)生了大量的來自不同數(shù)據(jù)源的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)顯現(xiàn)出多源異構(gòu)特征。事實上,財務(wù)報告中的文本(如管理層討論與分析[ 1 ])、企業(yè)新聞與公告、媒體評論乃至圖像視頻等半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)對于識別財務(wù)舞弊同樣具有重要價值。因此,如何合理利用多源異構(gòu)數(shù)據(jù)監(jiān)測管理層的舞弊行為,是當(dāng)前財務(wù)舞弊識別領(lǐng)域面臨的重要挑戰(zhàn)。本文構(gòu)建了一種基于多源異構(gòu)數(shù)據(jù)融合的財務(wù)舞弊識別模型,旨在克服傳統(tǒng)識別方法的局限性,并充分發(fā)掘多源異構(gòu)數(shù)據(jù)在揭露財務(wù)舞弊方面的潛力,對于檢測和打擊財務(wù)舞弊行為具有重要意義。
二、大數(shù)據(jù)背景下財務(wù)數(shù)據(jù)的多源異構(gòu)特征
在大數(shù)據(jù)背景下,數(shù)據(jù)的特征通常被概括為“4V”模型,即數(shù)據(jù)量大(Volume)、結(jié)構(gòu)多樣(Variety)、高速增長(Velocity)和低價值密度(Value)的特征,多源異質(zhì)化的海量數(shù)據(jù)打破了以往會計信息來源單一、估量計算不準確的情況[2]。在大數(shù)據(jù)背景下,財務(wù)數(shù)據(jù)展現(xiàn)出顯著的多源異構(gòu)性,具有以下特征。
大規(guī)模性:在信息技術(shù)快速革新的背景下,形成了龐大的財務(wù)數(shù)據(jù)集,需要用到大數(shù)據(jù)技術(shù)進行處理分析,從而揭示財務(wù)數(shù)據(jù)背后深層次的內(nèi)在邏輯。
多源性:財務(wù)數(shù)據(jù)不僅包括傳統(tǒng)的會計記錄和財務(wù)報表,還涵蓋了業(yè)務(wù)數(shù)據(jù)、內(nèi)部決議、市場交易、社交媒體、新聞報道等不同源的多維度內(nèi)外部信息。
異構(gòu)性:財務(wù)數(shù)據(jù)的格式和類型多種多樣,包括結(jié)構(gòu)化數(shù)據(jù),如財務(wù)指標(biāo)、交易記錄,以及半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)如文本、圖像和聲音等。這就要用不同的技術(shù)和方法對不同類型的數(shù)據(jù)進行存儲、處理和分析。
復(fù)雜性和關(guān)聯(lián)性:財務(wù)數(shù)據(jù)之間存在復(fù)雜的內(nèi)在聯(lián)系,大數(shù)據(jù)時代的海量信息,表面上看是分散的、質(zhì)量參差不齊的、不同源的,但在邏輯上卻是統(tǒng)一的,這就需要對這些信息進行深度分析、實時分析[3]。利用關(guān)聯(lián)規(guī)則分析、機器學(xué)習(xí)、數(shù)據(jù)挖掘等方法,幫助識別這些模式和聯(lián)系,提取有價值的信息。
三、數(shù)據(jù)融合
數(shù)據(jù)融合是多學(xué)科交叉的研究領(lǐng)域,在文獻中與信息融合、信息集成、數(shù)據(jù)聚合等術(shù)語通常可以交互使用[ 4 ]。數(shù)據(jù)融合是指通過特定的方法對不同類型信息來源或關(guān)系數(shù)據(jù)進行綜合分析, 最終可以利用所有信息共同揭示研究對象的特征,以獲取更全面、客觀的計量結(jié)果[ 5 ]。運用數(shù)據(jù)融合技術(shù)對財務(wù)數(shù)據(jù)進行綜合分析,從而挖掘出更全面、客觀的信息,揭示財務(wù)關(guān)聯(lián)模式,檢測預(yù)警風(fēng)險,增強財務(wù)決策支持。
四、基于多源異構(gòu)數(shù)據(jù)融合的財務(wù)舞弊識別模型構(gòu)建
多源異構(gòu)數(shù)據(jù)融模型通過整合不同來源與類型的數(shù)據(jù),增強了數(shù)據(jù)之間的互補性與關(guān)聯(lián)性,揭示潛在舞弊模式。研究要求對多源異構(gòu)數(shù)據(jù)進行有效的融合和分析。這一綜合性構(gòu)建模型的過程不僅在于解決數(shù)據(jù)的復(fù)雜性,更在于整合不同數(shù)據(jù)源構(gòu)建高效可靠的識別反饋機制?;诖耍疚膹臄?shù)據(jù)采集、數(shù)據(jù)預(yù)處理、模型訓(xùn)練、模型預(yù)警四個階段,構(gòu)建了基于多源異構(gòu)數(shù)據(jù)融合的財務(wù)舞弊識別模型。結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)在多源異構(gòu)數(shù)據(jù)的背景下都具有不可替代的作用,有助于揭示潛在的舞弊行為。通過綜合運用多源異構(gòu)數(shù)據(jù),可以更全面地揭示潛在的舞弊行為。
(一)數(shù)據(jù)采集
在構(gòu)建基于多源異構(gòu)數(shù)據(jù)融合的財務(wù)舞弊識別模型中,數(shù)據(jù)采集通過收集不同結(jié)構(gòu)數(shù)據(jù)形成數(shù)據(jù)集。本文從結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化三類數(shù)據(jù)進行討論。
1.結(jié)構(gòu)化數(shù)據(jù)的采集
結(jié)構(gòu)化數(shù)據(jù)通常以數(shù)據(jù)庫形式儲存,如Excel表格或SQL數(shù)據(jù)庫。這類數(shù)據(jù)高度組織,易于檢索和分析。結(jié)構(gòu)化數(shù)據(jù)的采集本研究主要關(guān)注以下方面:
財務(wù)報表數(shù)據(jù)在傳統(tǒng)舞弊識別研究中占主要地位,這些報表提供了企業(yè)財務(wù)狀況、經(jīng)營成果和現(xiàn)金流量的詳細信息。管理層可能通過操縱這些報表,隱藏真實的財務(wù)狀況誤導(dǎo)報表使用者。在傳統(tǒng)的舞弊識別研究當(dāng)中通過對財務(wù)報表數(shù)據(jù)的深入分析,可以尋找出與行業(yè)標(biāo)準、歷史數(shù)據(jù)或同行業(yè)其他公司相比異常的財務(wù)指標(biāo),以識別財務(wù)舞弊。
交易記錄在財務(wù)舞弊識別中也有著重要的應(yīng)用。交易記錄提供了企業(yè)資金流動的詳細信息,有助于發(fā)現(xiàn)異常交易行為和潛在的舞弊跡象。通過分析交易記錄,監(jiān)測企業(yè)的資金流動,以發(fā)現(xiàn)異常資金活動。
預(yù)測數(shù)據(jù)可以幫助企業(yè)提前了解未來的財務(wù)狀況和經(jīng)營成果,從而識別潛在的舞弊風(fēng)險。在舞弊識別的應(yīng)用中,預(yù)測數(shù)據(jù)提供了一個基準,用于評估公司的實際表現(xiàn)與預(yù)期之間的偏差。但預(yù)測數(shù)據(jù)也存在一定的不確定性,需要結(jié)合其他數(shù)據(jù)進行綜合分析,以提高舞弊識別的準確性和可靠性。
2.半結(jié)構(gòu)化數(shù)據(jù)的采集
半結(jié)構(gòu)化數(shù)據(jù)介于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間,其數(shù)據(jù)不符合嚴格數(shù)據(jù)庫結(jié)構(gòu)。例如財務(wù)報告中的文字信息、公告、經(jīng)濟決策、合同等信息。僅依靠報告中的報表數(shù)據(jù)對舞弊進行分析存在局限性,財務(wù)報告中的文字信息,也包含了對企業(yè)財務(wù)狀況、經(jīng)營成果和現(xiàn)金流量的詳細信息。當(dāng)管理層發(fā)生舞弊行為時,這些文字信息中可能包含含糊不清或者誤導(dǎo)性陳述,特別是文字中表現(xiàn)出過于樂觀或悲觀的態(tài)度,可能是管理層試圖掩蓋某些問題來誤導(dǎo)投資者。
例如通過企業(yè)發(fā)布的公告、決策信息,可以了解管理層經(jīng)營策略和風(fēng)險偏好,結(jié)合企業(yè)的投融資決策,評估決策的合理性。還可以分析財務(wù)決策與實際業(yè)績之間的關(guān)聯(lián)性,從而識別潛在的舞弊風(fēng)險。合同信息揭示了公司與合作伙伴的關(guān)系和業(yè)務(wù)往來,當(dāng)合同中存在顯失公平的條款或出現(xiàn)合同頻繁變更、未按時履約等跡象,可能反映出管理層的財務(wù)舞弊行為。
3.非結(jié)構(gòu)化數(shù)據(jù)的采集
社會新聞報道、網(wǎng)絡(luò)評論、市場信息等非結(jié)構(gòu)化信息,對舞弊的識別也有重要意義。例如,企業(yè)異常積極的公關(guān)可能暗示著公司試圖掩蓋某些負面信息。
企業(yè)的發(fā)布會、公開會議所產(chǎn)生的視頻和音頻資料能夠捕捉到公司高管的言行舉止,通過分析語音中的細微變化,可以反映管理層對公眾所表達的態(tài)度。
市場信息則為財務(wù)舞弊識別提供了基本宏觀環(huán)境信息。如果公司在行業(yè)整體下滑的情況下仍保持出色業(yè)績,或者與市場趨勢存在顯著差異,則需要關(guān)注業(yè)績的合理性。
(二)數(shù)據(jù)預(yù)處理
1.數(shù)據(jù)清理
財務(wù)數(shù)據(jù)雖顯現(xiàn)出多源異構(gòu)特征,但對數(shù)據(jù)的處理卻有高度準確性和一致性的需求,以避免產(chǎn)生誤導(dǎo)信息。因此,數(shù)據(jù)清洗就需要運用到多種方法來處理這些不同類型的數(shù)據(jù)。此外,數(shù)據(jù)的時間序列特征能夠?qū)ζ髽I(yè)財務(wù)狀況的趨勢分析和預(yù)測提供支持,然而不同源的數(shù)據(jù)在表達方式上不一致,因此需要對數(shù)據(jù)進行標(biāo)準化處理。數(shù)據(jù)清洗過程中還需要正確地識別異常值,這些異常值可能是由輸入錯誤、管理層舞弊或其他事件所引起。
2.特征工程
特征工程不僅能夠提高模型的性能,還能夠幫助研究者發(fā)現(xiàn)數(shù)據(jù)中所隱藏的關(guān)聯(lián)模式,可以有效地從多源異構(gòu)財務(wù)數(shù)據(jù)中提取出有助于舞弊識別的信息,從而提高舞弊識別的準確性和效率。多源異構(gòu)特征下的財務(wù)數(shù)據(jù)存在多種形式的數(shù)據(jù)類型,特征工程需要針對不同類型的數(shù)據(jù)進行處理和轉(zhuǎn)換,以便提取出有效的特征。由于財務(wù)數(shù)據(jù)的維度高數(shù)據(jù)量大,可能會導(dǎo)致模型的過擬合和計算效率低下。特征工程需要進行適當(dāng)?shù)慕稻S處理,如主成分分析(PCA)、線性判別(LDA)等,以減少特征的維度并保留關(guān)鍵信息。同時,對特征進行歸一化處理,將特征的尺度統(tǒng)一到相同的范圍內(nèi),可以提高模型的訓(xùn)練效率和穩(wěn)定性。對于半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù)的特征工程需要結(jié)合具體的應(yīng)用場景和數(shù)據(jù)特點進行定制化處理。對于社交媒體上的言論,需要提取相關(guān)話題、情感傾向等特征;對于視頻中的管理層行為,需要提取相關(guān)動作、表情和場景等特征。此外,對半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的特征工程還需要考慮數(shù)據(jù)的可解釋性以及泛化能力等。
(三)模型訓(xùn)練
在財務(wù)舞弊識別研究中,模型訓(xùn)練是至關(guān)重要的一環(huán)。在多源異構(gòu)數(shù)據(jù)的基礎(chǔ)上,通過數(shù)據(jù)挖掘和集成融合算法,獲取財務(wù)舞弊特征識別的關(guān)鍵指標(biāo),通過對不同數(shù)據(jù)源的分類識別結(jié)果,進而獲得更精準的分類決策。該過程涉及到單一模型的構(gòu)建、集成模型構(gòu)建、模型的優(yōu)化以及驗證等步驟。
1.單一模型構(gòu)建
單一模型構(gòu)建是模型訓(xùn)練的基礎(chǔ),每個單一模型都是一個獨立的分類器,對財務(wù)舞弊行為進行初步識別。這些模型通過各自的算法和機制,能夠捕獲樣本中不同角度的信息,從而對舞弊行為做出判斷??梢試L試采用多種機器學(xué)習(xí)算法來構(gòu)建單一模型,例如支持向量機、決策數(shù)、神經(jīng)網(wǎng)絡(luò)等。還可以引入像決策樹這類解釋性更強的模型算法,以便更好地解釋模型是如何根據(jù)財務(wù)特征識別財務(wù)舞弊的。
2.集成模型構(gòu)建
為了提高模型的預(yù)測精度和穩(wěn)定性,可以進一步采用集成的方法,將多個單一模型進行組合,形成集成模型。集成模型包括Bagging和Boosting兩種常見的集成策略。集成模型通過組合多個單一模型,可以減小單一模型可能存在的過擬合或欠擬合問題,提高整個模型的穩(wěn)定性和泛化能力,以提高模型在預(yù)測數(shù)據(jù)上的表現(xiàn)。不同的單一模型可能擅長處理不同類型的數(shù)據(jù)或捕獲不同的特征。集成模型,可以綜合利用它們的優(yōu)點,提高整體識別性能。
3.模型優(yōu)化
模型優(yōu)化旨在通過調(diào)整模型參數(shù)、改進模型結(jié)構(gòu)從而提高模型的預(yù)測精度。在財務(wù)舞弊識別中,通常舞弊案例的數(shù)量遠少于非舞弊案例。這種數(shù)據(jù)不平衡性可能導(dǎo)致模型的識別結(jié)果偏向于非舞弊案例。在模型優(yōu)化中采用適當(dāng)?shù)恼{(diào)整損失函數(shù)或引入SMOTE算法,可以應(yīng)對數(shù)據(jù)的不平衡性。同時在多源異構(gòu)數(shù)據(jù)特征下,財務(wù)指標(biāo)的維度很高,容易出現(xiàn)過擬合現(xiàn)象,即模型在訓(xùn)練集數(shù)據(jù)上表現(xiàn)良好但在測試集數(shù)據(jù)上表現(xiàn)不佳的情況。通過調(diào)整模型復(fù)雜度、使用交叉驗證等,以提高模型在預(yù)測集上的泛化能力。
(四)模型預(yù)警
模型會通過對多種關(guān)鍵指標(biāo)的實時監(jiān)測和深入分析,及時發(fā)現(xiàn)并警示潛在的舞弊行為,就需要用到指標(biāo)對異常行為進行預(yù)警。歷史數(shù)據(jù)在模型預(yù)警中發(fā)揮著“參照系”的作用。模型會通過對企業(yè)歷史財務(wù)數(shù)據(jù)的深入挖掘和分析,建立起一個基準線,當(dāng)模型發(fā)現(xiàn)當(dāng)前數(shù)據(jù)出現(xiàn)顯著偏離時,就會發(fā)出預(yù)警信號。模型預(yù)警的輸出不僅包括關(guān)鍵指標(biāo)的異常信息,還會根據(jù)這些信息的綜合評估結(jié)果,運用定性與定量的方式確定預(yù)警層級,每個層次都對應(yīng)著不同的應(yīng)對措施和緊急程度。這種預(yù)警等級的劃分,有助于企業(yè)根據(jù)風(fēng)險的影響程度和緊急程度,制定應(yīng)對策略,從而更有效地防控舞弊風(fēng)險。
五、結(jié)論與展望
本文探究了多源異構(gòu)數(shù)據(jù)在揭露財務(wù)舞弊方面的應(yīng)用,通過整合結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù),挖掘了各類數(shù)據(jù)在揭露潛在舞弊行為中的獨特價值。不僅能從財務(wù)指標(biāo)這一基礎(chǔ)層面進行審視,更能結(jié)合管理層行為、經(jīng)營情況、市場動態(tài)等多源信息。此外,本文在模型構(gòu)建時采用了數(shù)據(jù)挖掘、機器學(xué)習(xí)、集成算法等技術(shù),構(gòu)建了單一識別模型、集成識別模型。通過集成不同的單一模型,可以綜合各個單一模型的優(yōu)點,提高整體識別性能。
展望未來,期待大數(shù)據(jù)與人工智能技術(shù)的持續(xù)發(fā)展能進一步推動該領(lǐng)域的發(fā)展。特別是,通過更深入地運用自然語言處理、圖像識別、視頻處理等尖端技術(shù),我們可以從海量的非結(jié)構(gòu)化數(shù)據(jù)中提煉出更多有價值的信息。同時,跨學(xué)科的合作與交流也將推動該領(lǐng)域發(fā)展,有望構(gòu)建出一個更加全面、科學(xué)的舞弊識別體系。
但也要注意多源異構(gòu)數(shù)據(jù)在舞弊識別研究中存在的風(fēng)險。多源異構(gòu)數(shù)據(jù)可能來源不同,數(shù)據(jù)質(zhì)量也參差不齊,特別是非結(jié)構(gòu)化數(shù)據(jù)的可靠性和完整性可能難以保證。同時,多源異構(gòu)數(shù)據(jù)可能會涉及到個人隱私和商業(yè)秘密,要避免不當(dāng)?shù)臄?shù)據(jù)處理或者數(shù)據(jù)外泄,防止可能導(dǎo)致的法律風(fēng)險和信譽損失。
主要參考文獻:
[1]趙納暉,張?zhí)煅?基于MDA文本和深度學(xué)習(xí)模型的財務(wù)報告舞弊識別[J].會計之友,2022(08):140-149.
[2]程平,趙子曉.大數(shù)據(jù)對企業(yè)財務(wù)決策的影響探析[J].財務(wù)與會計,2014(10):49-50.
[3]王民,佘曉燕.大數(shù)據(jù)時代“會計工廠”的構(gòu)建[J].會計之友,2015(03):96-99.
[4]陳科文,張祖平,龍軍.多源信息融合關(guān)鍵問題、研究進展與新動向[J].計算機科學(xué),2013,40(08):6-13.
[5]許海云,董坤,隗玲等.科學(xué)計量中多源數(shù)據(jù)融合方法研究述評[J].情報學(xué)報,2018,37(03):318-328.
責(zé)編:夢超