摘要:高校財務數據來源廣泛且數量龐大,影響了財務數據的利用效率。針對這一問題,文章提出了基于文本過濾技術的多來源高校財務數據智能聚合方法,先爬取并預處理多來源高校財務文本數據,利用樸素貝葉斯分類器,結合類別閾值設計文本過濾技術,過濾多來源高校財務數據中的不良文本;然后通過Jaro-Winkler相似度匹配算法將過濾后文本聚合在一起,實現多來源高校財務數據智能聚合。實驗結果表明,應用該方法后,多來源高校財務數據智能聚合結果的歸一化互信息高達0.918,聚合效果優(yōu)越。
關鍵詞:文本過濾技術;多來源數據;高校財務數據;數據聚合;智能聚合方法
中圖分類號:TP391.1
文獻標志碼:A
0 引言
隨著信息技術的迅猛發(fā)展和高校管理模式的不斷創(chuàng)新,高校財務數據的來源日益多元化,包括財務報表、審計報告、在線支付記錄、科研經費管理系統(tǒng)等多個方面。這些多來源的財務數據對聚合方法提出了更高的要求。
多來源高校財務數據的智能聚合旨在通過自動化、智能化的技術手段,將來自不同系統(tǒng)、不同格式、不同來源的財務數據進行整合,形成一個統(tǒng)一、規(guī)范、易于分析的數據集。這樣不僅可以提高數據整合的效率和準確性,降低人工處理的成本,還可以為高校管理層提供更加全面、深入的財務數據分析報告,幫助高校做出更加科學、合理的決策。因此,研究多來源高校財務數據的智能聚合方法,對于提高高校財務管理效率、優(yōu)化資源配置、促進高??沙掷m(xù)發(fā)展具有重要意義。
目前,越來越多的學者針對數據聚合方法展開相關研究,并取得了一系列成果。韓潔平等[1]根據多源數據的空間語義網絡節(jié)點發(fā)現方法,實現了數據聚合識別,具有良好的聚合效果,但是數據語義標注復雜性較高,導致該方法的聚合效率在實際應用中受到一定限制;劉輝等[2]針對車聯(lián)網中隱私數據聚合問題,設計了一種基于加密算法的數據聚合方案,但是車聯(lián)網中數據進行密鑰交換時往往需要額外的通信,導致該聚合方法的實際通信開銷較大;顧天陽等[3]針對大規(guī)模多源異構醫(yī)療健康數據的安全共享,設計了一種基于聯(lián)邦學習機制的深度聚合方法,但是該方法存在隱私被泄露的風險,實際應用效果不佳。
基于上述分析,本文提出了一種基于文本過濾技術的多來源高校財務數據智能聚合方法。
1 爬取并預處理多來源高校財務文本數據
本文以高校財務文本數據為對象,深入研究多來源數據的智能聚合。先引入基于哈希表的去重算法,也就是在爬取到新的文本數據后,通過哈希函數將數據轉換為哈希值[4],表達式如下所示。
Z(x)=fMD5(x)(1)
式中,Z(x)為高校財務數據x的哈希值;fMD5為MD5哈希函數。通過上述爬取與預處理,得到了高質量的多來源高校財務文本數據,為后續(xù)智能聚合提供數據基礎。
2 過濾多來源高校財務數據的不良文本
構建一個樸素貝葉斯分類器進行多來源高校財務數據分類,這是一種基于貝葉斯定理與特征條件獨立假設的文本分類方法,其關鍵在于計算待分類文本數據歸類到各類別的概率[5],計算公式如下所示。
式中,G(Bn|x)為給定高校財務文本數據x屬于類別Bn的概率,其值越大表明數據x屬于類別Bn的可能性越大;G(x|Bn)為在類別Bn下,高校財務文本數據x出現的概率;G(Bn)為類別Bn出現的概率;G(x)為高校財務文本數據x出現的概率。假設不良文本類別閾值為γ,如果式(2)所求高校財務文本數據x的所屬概率G(Bn|x)≥γ,那么該類別屬于正例類別,予以保留;如果G(Bn|x)lt;γ,那么該類別屬于反例類別,也就是不良文本,則進行剔除。因此,本文通過樸素貝葉斯分類器結合類別閾值,即可有效過濾掉原始多來源高校財務數據中的不良文本。
3 多來源高校財務文本數據智能聚合
在根據文中上述內容完成多來源高校財務數據不良文本的過濾后,即可對剩余正常文本進行聚合?;诙鄟碓锤咝X攧瘴谋緮祿奶厥庑?,本文采用Jaro-Winkler相似度算法進行不同來源高校財務文本數據的匹配。該算法是一種基于字符串比較的相似度度量方法,結合了Jaro算法和Winkler算法的優(yōu)點,提高了相似度計算的準確性。首先需要利用Jaro算法計算每對文本之間的Jaro Distance相似度[6],表達式如下所示。
式中,D1為2個不同來源的高校財務文本數據之間的Jaro Distance相似度;M為高校財務文本數據中待匹配字符的個數;|L1|、|L2|分別為2個不同來源的高校財務文本數據中待匹配的字符串的長度;F0/2為待匹配的字符串中發(fā)生換位操作的字符數目;F0為2個待匹配的字符串在相同位置上進行換位操作的次數。在Jaro Distance的基礎上,本文采用Winkler算法進行修正,得到Jaro-Winkler相似度值,表達式如下所示。
D2=D1+(ak(1-D1))(4)
式中,D2為2個不同來源的高校財務文本數據之間的Jaro-Winkler相似度;a為2個待匹配字符串的前綴長度;k為常量,一般設置為0.1。綜上所述,本文基于Jaro-Winkler相似度匹配算法,有效實現了不良文本過濾后的多來源高校財務數據的智能聚合。
4 仿真實驗
4.1 實驗環(huán)境與數據
前文詳細介紹了基于文本過濾技術的多來源高校財務數據智能聚合方法的理論內容,本節(jié)將引入基于深度學習的多來源高校財務數據智能聚合方法和基于機器學習的多來源高校財務數據智能聚合方法,展開仿真對比實驗,根據實驗結果探究設計方法的性能。
遵循常規(guī)的實驗環(huán)境設置,結合多來源高校財務數據智能聚合的實際需求,本次仿真實驗中關鍵實驗環(huán)境配置為Ubuntu 16.04 LTS的操作系統(tǒng)、Intel Xeon E5-2650的CPU、Tesla P100-Pcie-8GB的顯卡、MySQL數據庫。
根據現有數據聚合研究,本文在6個公開的高校財務數據集上進行實驗組方法與對照組方法的性能測試,各個數據集的分布情況如表1所示。
4.2 仿真結果分析
本次仿真對比實驗的目的在于證明本文所設計基于文本過濾技術的多來源高校財務數據智能聚合方法的聚合性能,所以在得到3種方法下的數據聚合結果后,本文遵循前人研究成果,采用歸一化互信息(NMI)作為評估指標,取值范圍為[0, 1],值越大表示2個隨機變量之間的相關性越高,其計算公式如下所示。
NMI=H(x,y)/(S(x)+S(y))1/2(5)
式中,H(x,y)為多來源高校財務數據智能聚合實際結果x和預期結果y之間的互信息;S(x)、S(y)分別為實際結果x和預期結果y的熵。
計算并統(tǒng)計應用不同方法后,6個數據集的智能聚合結果的歸一化互信息指標,結果如圖1所示。
實驗組和對照組方法在高校財務數據集的NMI指標均超過0.70,證明了它們在多來源數據聚合上的有效性。本文設計方法在智能聚合效果上表現更優(yōu)越,平均NMI值為0.918,較對照組方法提升顯著。因此,基于文本過濾技術的多來源高校財務數據智能聚合方法是可行且可靠的。
5 結語
本文提出了一種基于文本過濾技術的多來源高校財務數據智能聚合方法,通過對多來源財務文本數據的爬取、預處理、不良文本過濾以及相似度匹配聚合,有效提高了高校財務數據整合的效率和準確性。
盡管本文研究取得了一定成果,但仍有諸多方面值得進一步探索和完善。在未來的研究階段,將繼續(xù)優(yōu)化文本過濾算法,提高數據清洗的準確性和效率;將探索更多元的數據源和更復雜的數據類型,以適
應高校財務數據管理的實際需求。此外,還將進一步關注新技術的發(fā)展,如深度學習在自然語言處理領域的應用,以期將最新的技術成果應用于高校財務數據智能聚合的研究。
參考文獻
[1]韓潔平,趙丹,楊曉龍,等.基于語義的制造企業(yè)多價值鏈協(xié)同數據空間數字資源聚合識別方法研究[J].中國管理科學,2023(11):332-340.
[2]劉輝,張磊,李晶.基于車聯(lián)網的隱私保護數據聚合研究綜述[J].計算機應用研究,2022(12):3546-3554.
[3]顧天陽,趙旺,曹林.跨組織醫(yī)療健康大數據聚合與案例知識推理方法研究[J].情報科學,2022(3):40-44.
[4]葉鵬,張雪英,張春菊.基于微博文本的災害事件信息時空過程聚合方法[J].測繪學報,2023(3):490-500.
[5]王沛,楊頻,程芃森,等.基于外部知識篩選的主題文本生成技術研究[J].四川大學學報(自然科學版),2024(1):75-83.
[6]李嘉琦,鐘紫凡,付陽輝,等.基于開源文本數據的目標跟蹤方法[J].火力與指揮控制,2023(10):93-101.
(編輯 沈 強)
Intelligent aggregation method of multi-source university financial data based on text filtering technology
HE Xiunan1, XUE Yaqin1, CHEN Xiaohong2*
(1.Department of Finance, Nantong University, Nantong 226000, China;
2.School of Information Science and Technology, Nantong University, Nantong 226000, China)
Abstract:The extensive and massive sources of financial data in universities have affected the efficiency of financial data utilization. In response to this issue, this study proposes an intelligent aggregation method for financial data from multiple sources of universities based on text filtering technology. Firstly, crawl and preprocess financial text data from multiple sources of universities, use naive Bayesian classifiers, and design text filtering techniques combined with category thresholds to filter out bad texts in financial data from multiple sources of universities. Then, the filtered text is aggregated together using the Jaro Winkler similarity matching algorithm to achieve intelligent aggregation of multi-source university financial data. The experimental results show that after applying this method, the normalized mutual information of the intelligent aggregation results of financial data from multiple sources of universities is as high as 0.918, and the aggregation effect is superior.
Key words:text filtering technology; multi-source data; university financial data; data aggregation; intelligent aggregation method