趙貞
[摘 要]常規(guī)的電力企業(yè)財務(wù)信息異常數(shù)據(jù)挖掘方法以集群挖掘與分段挖掘為主,同一類別的異常數(shù)據(jù)挖掘效率較低,影響財務(wù)數(shù)據(jù)整合效果。因此,本文設(shè)計了基于關(guān)聯(lián)規(guī)則算法的電力企業(yè)財務(wù)信息異常數(shù)據(jù)智能挖掘方法。此方法標注電力企業(yè)財務(wù)信息數(shù)據(jù)挖掘異常點,建立電力企業(yè)財務(wù)信息數(shù)據(jù)集,逐步探查數(shù)據(jù)集中的異常數(shù)據(jù),并將異常數(shù)據(jù)匯總到一個數(shù)據(jù)單元中,形成財務(wù)信息數(shù)據(jù)異常點。本文基于關(guān)聯(lián)規(guī)則算法挖掘電力財務(wù)異常頻繁項集,在電力財務(wù)數(shù)據(jù)異常點中,挖掘出存在價值的信息,確保異常數(shù)據(jù)挖掘的準確性。采用對比實驗,驗證了該方法的數(shù)據(jù)挖掘準確性更高,能夠應(yīng)用于電力企業(yè)財務(wù)管理工作中。
[關(guān)鍵詞]關(guān)聯(lián)規(guī)則算法;電力企業(yè);財務(wù)信息;異常數(shù)據(jù);智能挖掘方法
doi:10.3969/j.issn.1673-0194.2024.05.024
[中圖分類號]F275 [文獻標識碼]A [文章編號]1673-0194(2024)05-0079-03
0? ? ?引 言
電力企業(yè)存在多種交易數(shù)據(jù),匯總在財務(wù)部進行數(shù)據(jù)整合,有效地避免了電力企業(yè)的財務(wù)損失。在電力企業(yè)財務(wù)信息的海量數(shù)據(jù)中,存在著賬戶異常、財務(wù)報表異常、稅務(wù)異常等多種異常數(shù)據(jù),影響電力企業(yè)財務(wù)數(shù)據(jù)的整合。針對此類問題,研究人員設(shè)計了多種異常數(shù)據(jù)挖掘方法。其中,基于改進關(guān)聯(lián)聚類算法的電力企業(yè)財務(wù)信息異常數(shù)據(jù)智能挖掘方法,與基于改進DPC算法的電力企業(yè)財務(wù)信息異常數(shù)據(jù)智能挖掘方法的應(yīng)用較為廣泛。
基于改進關(guān)聯(lián)聚類算法的電力企業(yè)財務(wù)信息異常數(shù)據(jù)智能挖掘方法,主要是利用關(guān)聯(lián)規(guī)則提供異常數(shù)據(jù)挖掘環(huán)境,并利用自適應(yīng)策略挖掘電力企業(yè)異常數(shù)據(jù)相關(guān)規(guī)則,以K-means算法檢測異常數(shù)據(jù)挖掘的準確性,從而確保數(shù)據(jù)挖掘效果[1]?;诟倪MDPC算法的電力企業(yè)財務(wù)信息異常數(shù)據(jù)智能挖掘方法,主要是利用密度峰值聚類算法,識別電力異常數(shù)據(jù),并提取出異常數(shù)據(jù)的有效表征,降低運算復(fù)雜度,從而滿足異常數(shù)據(jù)挖掘需求[2]。以上兩種方法均存在不同程度的弊端,導(dǎo)致數(shù)據(jù)挖掘的準確性降低。因此,本文利用關(guān)聯(lián)規(guī)則算法,設(shè)計了電力企業(yè)財務(wù)信息異常數(shù)據(jù)智能挖掘方法。
1? ? ?電力財務(wù)信息異常數(shù)據(jù)關(guān)聯(lián)規(guī)則智能挖掘方法
設(shè)計
1.1? ?標注電力企業(yè)財務(wù)信息數(shù)據(jù)挖掘異常點
在挖掘異常數(shù)據(jù)之前,標注出數(shù)據(jù)異常點,避免異常數(shù)據(jù)挖掘錯漏問題[3]。異常點的實際值與期望值差別較大,可通過數(shù)據(jù)約束、層約束、異常約束等方面,使異常點的數(shù)據(jù)實體化,從而提高財務(wù)信息異常數(shù)據(jù)挖掘效率[4]。異常點獲取代碼如圖1所示。
如圖1所示,在異常點提取的過程中,建立數(shù)據(jù)集Ii,并將異常點標注為cui,實體化的異常點為cum,cui能夠通過cum計算出來,公式如下:
(1)
式(1)中,t(cui)為異常點可視化數(shù)據(jù);size(cum)為cum的數(shù)量;size(P)為一個數(shù)據(jù)單元能夠容納的異常數(shù)據(jù)數(shù)量;ts為異常點標注代價。本文建立了電力企業(yè)財務(wù)信息數(shù)據(jù)集,逐步探查數(shù)據(jù)集中的異常數(shù)據(jù),并將異常數(shù)據(jù)匯總到一個數(shù)據(jù)單元中,形成財務(wù)信息數(shù)據(jù)異常數(shù)據(jù)單元。
1.2? ?基于關(guān)聯(lián)規(guī)則算法挖掘電力財務(wù)異常頻繁項集
本文利用關(guān)聯(lián)規(guī)則算法,獲取電力財務(wù)異常頻繁項集,在電力財務(wù)數(shù)據(jù)異常點中,挖掘出存在價值的信息,確保異常數(shù)據(jù)挖掘的準確性[5]。對于異常數(shù)據(jù)集合Ii而言,I1的支持度表示為:
(2)
(3)
式(2)、式(3)中,Z(I1)為電力企業(yè)財務(wù)信息數(shù)據(jù)I1的支持度,表示I1同時包含財務(wù)信息正常數(shù)據(jù)與異常數(shù)據(jù)的比例;Ti為電力企業(yè)財務(wù)信息數(shù)據(jù)庫的第i條異常數(shù)據(jù)記錄;D為電力企業(yè)財務(wù)信息數(shù)據(jù)庫;Z(Ii)為第i個非空子集Ii的支持度;Min_Sup為最小支持度閾值。當滿足式(3)條件時,稱Ii為頻繁項集。給定電力企業(yè)財務(wù)信息數(shù)據(jù)全局項集Ii與D,對于兩個異常數(shù)據(jù)X、Y,計算出X、Y的置信度,公式如下:
(4)
式(4)中,C(X→Y)為異常數(shù)據(jù)X相對于Y的置信度,表示數(shù)據(jù)X中同時包含數(shù)據(jù)Y的比例;Z(X∪Y)為異常數(shù)據(jù)Y占X的比例;Z(X)為數(shù)據(jù)X的挖掘支持度。其中,XIi? 1,Y? Ii,
(5)
式(5)中,L(X,Y)為數(shù)據(jù)X、Y的提升度,包含兩個異常數(shù)據(jù)X、Y的相關(guān)性,能夠判斷異常數(shù)據(jù)智能挖掘效果;Z(Y)為數(shù)據(jù)Y的挖掘支持度。當L(X,Y)>1時,兩個異常數(shù)據(jù)X、Y的正相關(guān)性較高,表明數(shù)據(jù)X、Y同時被挖掘的可能性較高,異常數(shù)據(jù)智能挖掘效率更高[6]。當L(X,Y)<1時,兩個異常數(shù)據(jù)X、Y的負相關(guān)性較高,表明數(shù)據(jù)X、Y同時被挖掘的可能性較低,影響異常數(shù)據(jù)挖掘效率[7]。當L(X,Y)=1時,兩個異常數(shù)據(jù)X、Y不相關(guān),數(shù)據(jù)X、Y為相互獨立的狀態(tài),難以快速挖掘出同一類別的異常數(shù)據(jù),影響異常數(shù)據(jù)挖掘效率。根據(jù)L(X,Y)的值,判斷電力企業(yè)財務(wù)信息異常數(shù)據(jù)智能挖掘效果,從而實現(xiàn)異常數(shù)據(jù)快速挖掘。
2? ? ?實 驗
為了驗證本文設(shè)計的方法是否滿足電力企業(yè)財務(wù)信息異常數(shù)據(jù)智能挖掘需求,本文對上述方法進行了實驗分析。最終的實驗結(jié)果則以文獻[1]基于改進關(guān)聯(lián)聚類算法的挖掘方法、文獻[2]基于改進DPC算法的挖掘方法,以及本文設(shè)計的基于關(guān)聯(lián)規(guī)則算法的挖掘方法進行對比的形式呈現(xiàn)。具體的實驗準備過程以及最終的實驗結(jié)果如下。
2.1? ?實驗過程
本次實驗以某電力企業(yè)的真實數(shù)據(jù)為主,確保實驗數(shù)據(jù)的真實有效性。電力企業(yè)的建設(shè)運營電網(wǎng)為核心業(yè)務(wù),下屬14家供電企業(yè),8家業(yè)務(wù)支撐機構(gòu),企業(yè)本部下設(shè)24個部門,服務(wù)各類用電客戶近千萬戶。電力企業(yè)的財務(wù)信息數(shù)據(jù)較多,需挖掘出異常數(shù)據(jù),保留正常數(shù)據(jù),確保財務(wù)信息的整合效果。因此,本文采用關(guān)聯(lián)規(guī)則算法,挖掘出異常數(shù)據(jù),實驗流程如圖2所示。
如圖2所示,在確定異常點數(shù)據(jù)特征之后,計算出異常數(shù)據(jù)的支持度、置信度、提升度,使輸出的異常數(shù)據(jù)更加準確,滿足本次實驗需求。
2.2? ?實驗結(jié)果
在上述實驗條件下,本文隨機選取出多種電力企業(yè)財務(wù)信息異常數(shù)據(jù)類別,并分析挖掘出來異常數(shù)據(jù)的支持度、置信度、提升度進行分析。將三者作為本次實驗的判斷指標,并將文獻[1]基于改進關(guān)聯(lián)聚類算法的電力企業(yè)財務(wù)信息異常數(shù)據(jù)智能挖掘方法的性能指標、文獻[2]基于改進DPC算法的電力企業(yè)財務(wù)信息異常數(shù)據(jù)智能挖掘方法的性能指標,以及本文設(shè)計的基于關(guān)聯(lián)規(guī)則算法的電力企業(yè)財務(wù)信息異常數(shù)據(jù)智能挖掘方法的性能指標進行對比。實驗結(jié)果如表1所示。
如表1所示,電力企業(yè)財務(wù)信息異常數(shù)據(jù)被挖掘出來之后,該數(shù)據(jù)的支持度在0~1的范圍內(nèi)變化,支持度越高,表示該數(shù)據(jù)在異常數(shù)據(jù)集中出現(xiàn)的頻率越高,數(shù)據(jù)挖掘的準確性隨之增加。被挖掘的數(shù)據(jù)置信度同樣在0~1的范圍內(nèi)變化,置信度越高,表示異常數(shù)據(jù)出現(xiàn)的概率較高,異常數(shù)據(jù)挖掘的準確性也隨之提升。在其他條件均一致的情況下,使用文獻[1]基于改進關(guān)聯(lián)聚類算法的電力企業(yè)財務(wù)信息異常數(shù)據(jù)智能挖掘方法之后,電力財務(wù)異常數(shù)據(jù)挖掘的支持度與置信度在0.72~0.87的范圍內(nèi)變化,提升度在0.92~1.25的范圍內(nèi)變化。由此可見,該方法的支持度與置信度相對較低,存在提升度≤1的情況,異常數(shù)據(jù)挖掘的效率較低,影響電力企業(yè)財務(wù)信息整合效果。
使用文獻[2]基于改進DPC算法的電力企業(yè)財務(wù)信息異常數(shù)據(jù)智能挖掘方法之后,在投資異常的企業(yè)財務(wù)信息類別中,異常數(shù)據(jù)挖掘的提升度=1;在關(guān)聯(lián)交易異常的信息類別中,異常數(shù)據(jù)挖掘的提升度<1。由此可見,使用該方法之后,電力企業(yè)財務(wù)信息異常數(shù)據(jù)挖掘仍存在數(shù)據(jù)關(guān)聯(lián)性弱的問題,同一類別的異常數(shù)據(jù)挖掘困難,需對其進一步優(yōu)化。而使用本文設(shè)計的基于關(guān)聯(lián)規(guī)則算法的電力企業(yè)財務(wù)信息異常數(shù)據(jù)智能挖掘方法之后,電力財務(wù)異常數(shù)據(jù)挖掘的支持度與置信度在0.98~1.00的范圍內(nèi)變化,提升度均
>1,并未出現(xiàn)提升度≤1的情況。由此可見,使用本文設(shè)計的方法之后,能夠有效地挖掘同一類別的異常數(shù)據(jù),提升了財務(wù)信息異常數(shù)據(jù)挖掘效率,為電力企業(yè)財務(wù)信息整合提供保障。
3? ? ?結(jié)束語
近些年來,電力企業(yè)的信息化程度不斷提升,財務(wù)信息管理也成為企業(yè)運營中的重要環(huán)節(jié)。電力企業(yè)的財務(wù)數(shù)據(jù)較多,能否在海量的數(shù)據(jù)中找出異常數(shù)據(jù),對于電力企業(yè)的發(fā)展至關(guān)重要。因此,本文結(jié)合關(guān)聯(lián)規(guī)則算法,設(shè)計了電力企業(yè)財務(wù)信息異常數(shù)據(jù)智能挖掘方法。從異常點標注、頻繁項集挖掘等方面,快速找出財務(wù)信息異常數(shù)據(jù)的特征,提升了電力企業(yè)財務(wù)信息數(shù)據(jù)的整合效率。
主要參考文獻
[1]周燕,肖莉.基于改進關(guān)聯(lián)聚類算法的網(wǎng)絡(luò)異常數(shù)據(jù)挖
掘[J].計算機工程與設(shè)計,2023,44(1):108-115.
[2]李智宇.基于改進的DPC算法的ZDJ9轉(zhuǎn)轍機異常數(shù)據(jù)挖掘[J].鐵路通信信號工程技術(shù),2022,19(5):1-6.
[3]常富紅,李麒,狄亞平,等.基于云計算的智能電網(wǎng)信息異常數(shù)據(jù)挖掘方法[J].信息與電腦,2022,34(24):177-179,202.
[4]國網(wǎng)無錫供電公司課題組.以大數(shù)據(jù)為基礎(chǔ)的風險導(dǎo)向內(nèi)部審計研究:以電力企業(yè)為例[J].中國內(nèi)部審計,2022(12):51-52.
[5]戴禮燦,代翔,崔瑩,等.基于深度集成學(xué)習的社交網(wǎng)絡(luò)異常數(shù)據(jù)挖掘算法[J].吉林大學(xué)學(xué)報(工學(xué)版),2022,52
(11):2712-2717.
[6]楊若松,張筱悅,陸興發(fā).基于數(shù)據(jù)自動流動的電力企業(yè)物資業(yè)務(wù)全流程數(shù)字化管理系統(tǒng)研究[J].東北電力大學(xué)學(xué)報,2021,41(6):100-104.
[7]潘建宏,左石,李群英,等.大數(shù)據(jù)時代電力企業(yè)績效管理的總體思路及保障措施探討[J].企業(yè)改革與管理,2022
(23):95-97.