摘" 要: 金融數據具備非線性、高維度的特點,同時對安全性有較高的要求。文中結合區(qū)塊鏈技術和模糊聚類算法,提出一種面向區(qū)域互聯網金融的異常數據分析模型,該模型由異常數據分析算法和隱私保護算法組成。異常數據分析算法針對模糊均值聚類算法處理高維非線性數據能力弱的缺點,使用深度信念網絡進行改進,進而提升模型的數據處理能力。隱私保護使用差分隱私保護算法,在不利用背景知識的前提下完成數據的保護,同時保證了數據的可用性。在實驗測試中,將所提模糊聚類算法與常用的主流K?Means算法、DPC算法進行了對比,結果表明:所提算法的性能在所有對比算法中最優(yōu);與此同時,加入隱私保護算法后對聚類結果的影響保持在0.021以內,充分證明了該算法性能的優(yōu)越性。
關鍵詞: 模糊聚類算法; 區(qū)塊鏈技術; 異常數據識別; 深度信念網絡; 差分隱私保護算法; 區(qū)域數據分析
中圖分類號: TN919.5?34; TP391" " " " " " " " "文獻標識碼: A" " " " " " " " " " " 文章編號: 1004?373X(2025)06?0052?05
Research on regional big data analysis technology based on blockchain
and fuzzy clustering algorithm
HE Ying
(Chengyi College, Jimei University, Xiamen 361000, China)
Abstract: Financial data has the characteristics of nonlinearity and high dimensionality, while also requiring high security. By combining with blockchain technology and fuzzy clustering algorithm, an anomaly data analysis model for regional internet finance is proposed. This model is composed of anomaly data analysis algorithm and privacy protection algorithm. In allusion to the weakness of the fuzzy mean clustering algorithm in processing high?dimensional nonlinear data, the anomaly data analysis algorithm can use the deep belief networks to improve the data processing capabilities of the model. In the privacy protection, the differential privacy protection algorithm can be used to protect data without utilizing background knowledge, while ensuring data availability. In the experimental testing, the proposed fuzzy clustering algorithm was compared with commonly used mainstream K?Means and DPC algorithms. The results show that the performance of the proposed algorithm is the best among all comparison algorithms. At the same time, the impact of incorporating privacy protection algorithm on clustering results can remain within 0.021, fully demonstrating the superiority of the performance of this algorithm.
Keywords: fuzzy clustering algorithm; blockchain technology; nonlinear data identification; deep belief network; differential privacy protection algorithm; regional data analysis
0" 引" 言
隨著金融數據形態(tài)的不斷演進,傳統的金融運營模式也發(fā)生了變化,以互聯網金融服務新模式為主體的用戶量急劇增加?;ヂ摼W金融與傳統金融服務存在著巨大差異,在對區(qū)域互聯網金融數據的監(jiān)管方面,我國仍處于初級發(fā)展階段,存在一定的信用風險問題。因此,對金融數據進行風險識別并保護數據的隱私安全成為了重要的研究方向。
區(qū)域互聯網金融數據的特點是高維度與非線性[1?2],其對數據進行風險識別是通過聚類模型找到數據群中的異常點并進行相對應的處理,同時在數據處理過程中還需要保證數據的隱私性,避免數據泄露現象的發(fā)生。傳統聚類算法只能對線性低維數據進行訓練與分析,而無法適應當前的數據特點。因此,本文結合區(qū)域互聯網金融數據的特性,對傳統模糊聚類算法進行改進,以提升異常數據識別的準確率,并將改進的模糊聚類算法與區(qū)塊鏈技術相結合,保證了數據以及模型的可靠性、安全性、隱私性。
1" 區(qū)域大數據分析技術
1.1" 異常數據識別算法
模糊聚類算法[3?5]是一種對數據集進行較為寬泛的聚類處理算法,與傳統聚類算法不同,其允許每個數據點以一定的概率分配到不同的數據類別中,而不是被強制地分配到唯一的類別中。因此,模糊聚類算法具有更強的靈活性,對模糊性質的數據分析也更加精確和有效。常見的模糊聚類算法有模糊C均值聚類算法(Fuzzy C?Means, FCM)[6],該算法基于模糊邏輯進行數據聚類。FCM屬于無監(jiān)督算法,其核心邏輯是通過隸屬矩陣和聚類中心的持續(xù)更新,達成目標函數的目的后才結束計算。
假定數據集L={l1,l2,…,ln},其中l(wèi)n為K維向量。聚類后的數據有k類,通過隸屬度uij的更新可以調整數據對象和類別之間的關系,如下所示:
式中d為數據間的歐氏距離。
當式(3)和式(4)的運算結果同時滿足迭代次數時,算法結束。FCM算法的具體執(zhí)行流程如圖1所示。
FCM算法的應用較為廣泛,同時也能夠高效地完成聚類任務,但也有不足之處,例如其只能對數據進行簡單預處理,當數據規(guī)模增加時,結構也就會變得復雜,此時該算法無法滿足實際應用需求。因此,需要對FCM算法進行改進以提高性能。
深度信念網絡(Deep Belief Network, DBN)[7?9]是一種基于受限玻耳茲曼機(Restricted Boltzmann Machine, RBM)的神經網絡模型,其由多個RBM串聯而成。RBM網絡[10]是一個二分結構,由可見層和隱藏層組成,且各個神經元之間通過層與層進行連接。DBN結構如圖2所示。
DBN可以通過級聯多個RBM模型實現對輸入樣本數據逐層進行特征提取,若其中包含有一個隱藏層h,則其聯合分布可表示為:
式中[Phkhk+1]是可見層的條件概率分布。
DBN模型的結構如圖3所示。將DBN模型與FCM算法進行結合,算法預訓練階段由DBN模型完成,以此提取網絡的深層次特征,同時輸出初始聚類中心和網絡權值參數;之后使用交叉迭代對聚類進行后續(xù)優(yōu)化?;贒BN的FCM算法程序執(zhí)行流程如圖4所示。
1.2" 基于差分隱私的區(qū)塊鏈數據保護算法
差分隱私算法[11?14]是指向數據中添加指定分布的噪聲來進行數據干擾,進而完成數據加密。同時,差分隱私與背景知識無關,該算法能夠在統計學領域增加噪聲進而保護數據隱私。
式中:α為均勻分布在(0,1)中的隨機數;λ為拉普拉斯算子;[μ]為擾動的最大幅值。
差分隱私保護算法的模型結構如圖5所示。該模型主要是將區(qū)域金融數據存放在數據庫中,并加入差分噪聲以形成新的發(fā)布數據庫;之后和數據分析者進行交互,完成整個數據的分析過程。
1.3" 本文算法模型
本文算法模型的總體結構如圖6所示。由圖可以看出,需要先將算法部署在區(qū)塊鏈架構中,客戶端上位機擁有數據上傳和數據訪問的權限,公共數據庫在智能合約模塊中使用差分隱私鏈碼函數進行加密,并使用改進的模糊聚類算法對異常數據進行判斷;接著,判斷結果會輸出到客戶端模塊中供使用者查看,同時將噪聲和身份驗證等數據保存在私有賬本中,以確保數據的隱私性。
2" 實驗與分析
2.1" 實驗環(huán)境配置信息
為了驗證本文解決方案的可行性,實驗搭建了區(qū)域大數據的處理分析區(qū)塊鏈環(huán)境,具體如表1所示。
此外,還搭建了模糊聚類算法環(huán)境,使用公開數據集對金融數據集進行模擬,并在UCI數據集中提取多組低、高維度數據。數據集的具體信息如表2所示。
2.2" 算法測試
首先測試聚類算法性能。在性能測試中,使用歸一化互信息(Normalized Mutual Information, NMI)[15]以及調整蘭德系數(Adjusted Rand Index, ARI)[16]對聚類算法的效果進行評價。同時選擇K?Means算法、DPC(Density Peaks Clustering)算法與FCM算法進行對比,每個數據集運行20次,取平均值作為最終結果。算法性能的實驗結果對比如表3和表4所示。
由表3、表4可以看出,不同維度的數據集對算法聚類的準確性影響較大。數據集1~3的維度較低,4種算法的NMI與ARI指標均維持在0.9以上;數據集4~6的維度較高,所有算法的NMI、ARI指標均有所下降,但本文算法性能仍為最優(yōu),達到了0.85以上。這充分說明算法使用DBN進行改進是行之有效的,可以大幅提升聚類性能。與FCM相比,所提算法具有較強的魯棒性,能夠適用于多種不同類型的數據。
不同的差分隱私預算對實驗結果也有較大影響,隱私預算過小會導致數據可用性降低,過大則會使數據隱私保護能力減弱。因此,對加入差分隱私前后的數據可用性進行NMI實驗測試,結果如表5所示。
從表5中可以看出,加入隱私算法后對聚類結果的NMI影響均在0.021以內,說明數據的可用性能夠得到保證。
3" 結" 語
本文結合區(qū)域互聯網金融數據的特性,對傳統模糊聚類算法進行改進,并將其和區(qū)塊鏈數據隱私保護算法結合,設計了一種面向區(qū)域互聯網金融的異常數據分析模型。文中先在模糊聚類算法中加入DBN,使模型擁有處理非線性高維數據的能力,同時基于金融數據對隱私的高要求,使用隱私保護算法進行數據保護,并將其部署在區(qū)塊鏈模型中。經實驗證明,所提模型的聚類性能在所有對比算法中為最優(yōu),同時加入的隱私保護算法對聚類結果影響較小,表明算法的改進是有效、可行的,并且還能確保數據的安全性和可用性。
參考文獻
[1] 朱家成.基于特征融合的互聯網金融領域命名實體識別算法研究[D].西安:西安電子科技大學,2022.
[2] 朱曉帆.基于泰爾指數的互聯網金融差異化區(qū)域供給協調性研究[J].內蒙古財經大學學報,2021,19(1):85?88.
[3] 王雨,徐景龍,王佳佳,等.基于數據庫與模糊聚類算法的市場化線上售電系統設計[J].微型電腦應用,2023,39(7):85?88.
[4] 周紅綱,郭莉,時鵬飛.一種空間信息自適應的魯棒模糊聚類算法[J].青島大學學報(工程技術版),2023,38(1):1?15.
[5] 張利,路顏萍,侯晴,等.K近鄰空間密度分布的模糊聚類算法[J].遼寧大學學報(自然科學版),2023,50(4):289?301.
[6] 陳幸,陳盛華,陳國華,等.基于改進模糊均值聚類算法的遙感圖像分割技術[J].沈陽工業(yè)大學學報,2023,45(6):716?720.
[7] 高寶琪,馬捍超,畢艷冰,等.深度信念網絡下的高壓電纜局部放電信號捕捉[J].哈爾濱理工大學學報,2023,28(2):92?98.
[8] 毛智超,吳黎兵,馬亞軍,等.基于DBN與帶注意力機制GRU的CAN總線入侵檢測模型[J].武漢大學學報(理學版),2023,69(5):598?608.
[9] 呂艷娜,茍光磊,張里博,等.深度置信網絡的代價敏感多粒度三支決策模型研究[J].計算機應用研究,2023,40(3):833?838.
[10] 張健,丁世飛,丁玲,等.基于實值RBM的深度生成網絡研究[J].軟件學報,2021,32(12):3802?3813.
[11] 馬煜,荀亞玲.基于差分隱私的高效用項目集挖掘算法[J].太原科技大學學報,2023,44(6):491?497.
[12] 徐茹枝,戴理朋,夏迪婭,等.基于聯邦學習的中心化差分隱私保護算法研究[J].信息網絡安全,2024,24(1):69?79.
[13] 王輝,陳宇,申自浩,等.結合對比監(jiān)督和排序樹的軌跡數據差分隱私保護方案[J].計算機工程與科學,2023,45(10):1797?1805.
[14] 金亦喬,章永祺,王博,等.面向差分隱私保護的自適應譜聚類優(yōu)化新算法[J].計算機應用與軟件,2023,40(9):261?266.
[15] 琚麗君,田豐華,曾朝平.NMI特征優(yōu)化邊界敏感的LSC遙感影像分割算法[J].遙感信息,2023,38(5):149?156.
[16] 孫嘉睿,杜明晶.模糊邊界剝離聚類[J].山東大學學報(理學版),2024,59(3):27?36.
作者簡介:何" 穎(1985—),女,福建惠安人,碩士研究生,講師,研究方向為信息技術與現代金融數據分析。
收稿日期:2024?04?11" " " " " "修回日期:2024?05?17
基金項目:福建省社科青年基金項目(FJ2016C142)