魯江
(西安醫(yī)學(xué)院,陜西西安 710021)
網(wǎng)絡(luò)敏感數(shù)據(jù)流具有不確定性、差異性和無(wú)序性的特點(diǎn)。為了提高網(wǎng)絡(luò)敏感數(shù)據(jù)流挖掘效率,有必要設(shè)計(jì)網(wǎng)絡(luò)敏感數(shù)據(jù)流動(dòng)態(tài)挖掘方法。在國(guó)外所研究的數(shù)據(jù)挖掘方法中,大多集中在敏感數(shù)據(jù)靜態(tài)挖掘方面,這種挖掘方法所挖掘到的數(shù)據(jù)量較少,而隨著網(wǎng)絡(luò)數(shù)據(jù)分析要求的不斷提高,必須深入研究敏感數(shù)據(jù)動(dòng)態(tài)挖掘方法。文凱等人提出了基于BTA算法的挖掘方法,在數(shù)據(jù)高效壓縮進(jìn)位表中采用區(qū)域覆蓋方法,實(shí)時(shí)更新數(shù)據(jù)挖掘窗口,通過(guò)頻繁k-項(xiàng)集產(chǎn)生候選項(xiàng)集,由此挖掘網(wǎng)絡(luò)敏感數(shù)據(jù)[1];康耀龍等人提出了基于譜聚類的挖掘方法,利用屬性閾值量化方式,通過(guò)構(gòu)建親和矩陣計(jì)算樣本與目標(biāo)之間距離,獲取特征向量,結(jié)合特征向量提取網(wǎng)絡(luò)敏感數(shù)據(jù)特征。通過(guò)長(zhǎng)距離特征挖掘方式實(shí)現(xiàn)網(wǎng)絡(luò)敏感數(shù)據(jù)流的高效挖掘[2]。然而使用上述兩種方法只能處理靜態(tài)數(shù)據(jù)流,對(duì)于動(dòng)態(tài)數(shù)據(jù)流挖掘的效果不佳,因此提出基于模糊聚類的網(wǎng)絡(luò)敏感數(shù)據(jù)流動(dòng)態(tài)挖掘方法。
聚類是數(shù)據(jù)挖掘中非常關(guān)鍵環(huán)節(jié),它將一個(gè)群體按相似原則分成幾個(gè)類,其目標(biāo)是盡量減少同類間距,從而提高了數(shù)據(jù)挖掘準(zhǔn)確性[3]。模糊聚類是統(tǒng)計(jì)中的一種多變量分析方法,它可以量化地判斷各樣本間的關(guān)系,利用數(shù)學(xué)方法對(duì)樣本進(jìn)行客觀聚類[4]。
網(wǎng)絡(luò)敏感數(shù)據(jù)流中的每個(gè)論域集都會(huì)對(duì)數(shù)據(jù)模糊聚類效果產(chǎn)生影響[5]。當(dāng)一個(gè)關(guān)鍵論域集的值較大時(shí),則表明該數(shù)據(jù)流動(dòng)異常;當(dāng)它們是一個(gè)孤立點(diǎn)時(shí),則表示該數(shù)據(jù)流不容易被挖掘[6]。將論域集元素分類,并構(gòu)建模糊矩陣,具體如下:
式中,α表示論域參數(shù);d表示馬氏距離;xij表示第i行j列論域;m表示論域內(nèi)模糊子集個(gè)數(shù);n表示子集序號(hào)。
為了衡量?jī)蓚€(gè)樣本間的相似性,將馬氏距離作為衡量標(biāo)準(zhǔn),其計(jì)算公式如下:
式中,T表示計(jì)算周期;yij表示與xij不同的第i行j列的樣本論域;S表示樣本分布協(xié)方差矩陣。馬氏距離越短,兩個(gè)樣本之間的相似度就越高[7]。充分考慮網(wǎng)絡(luò)敏感數(shù)據(jù)流往往涉及復(fù)雜、異常和敏感的性質(zhì),因此需通過(guò)模糊聚類精確地查找出各個(gè)類別特征[8]。
為了提高模糊聚類速度,引入一種速度收斂閾值,表示為:
式中,ε表示敏感數(shù)據(jù)占總數(shù)據(jù)量的比例;dmin、dmax分別表示馬氏距離最小值和最大值。如果該公式計(jì)算結(jié)果偏大,則會(huì)把所有分類都?xì)w入一個(gè)類別[9-10]。以各個(gè)樣本為初始聚類中心,分別計(jì)算收斂閾值,將兩個(gè)樣本之間的分類量小于收斂閾值的樣本合并,從而得到新的聚類中心,由此完成網(wǎng)絡(luò)敏感數(shù)據(jù)流模糊聚類[11]。
根據(jù)網(wǎng)絡(luò)敏感數(shù)據(jù)流模糊聚類結(jié)果,獲取新的聚類中心,并對(duì)數(shù)據(jù)動(dòng)態(tài)挖掘結(jié)果進(jìn)行分類,通過(guò)分析最大散度解決挖掘過(guò)程中的隨機(jī)性和非線性問(wèn)題[12],從而保證數(shù)據(jù)挖掘質(zhì)量與效率。敏感數(shù)據(jù)流動(dòng)態(tài)挖掘過(guò)程如下:
步驟一:網(wǎng)絡(luò)敏感數(shù)據(jù)流動(dòng)態(tài)分類
由于模糊關(guān)系沒(méi)有傳遞性,因而不能將其歸類為模糊等值,必須將其轉(zhuǎn)化為模糊等值矩陣,具體表示為:
式中,隨著ε比例增加,模糊等值矩陣數(shù)據(jù)流類別越來(lái)越多[13]。對(duì)于不同等價(jià)關(guān)系,能夠獲取精準(zhǔn)分類結(jié)果。動(dòng)態(tài)聚類過(guò)程如圖1 所示。
圖1 動(dòng)態(tài)聚類過(guò)程
結(jié)合圖1 動(dòng)態(tài)聚類過(guò)程,實(shí)時(shí)調(diào)整模糊等值矩陣,由此得到網(wǎng)絡(luò)敏感數(shù)據(jù)流分類結(jié)果。當(dāng)數(shù)據(jù)屬于同一類別時(shí),表示數(shù)據(jù)之間的相似性很高,可以合并處理,從而簡(jiǎn)化網(wǎng)絡(luò)敏感數(shù)據(jù)流[14]。根據(jù)模糊聚類原理,將各類型信息和兩個(gè)子類的隸屬度進(jìn)行聚類,將滿足隸屬度之差大于0、小于0和等于0的樣本分別存入不同的集合。對(duì)于樣本論域xij,如果存在:
式中,nij表示類間散度;γ表示設(shè)定閾值。式(5)的計(jì)算結(jié)果越大,說(shuō)明兩個(gè)樣本重復(fù)數(shù)量也就越多。從初始訓(xùn)練節(jié)點(diǎn)開(kāi)始,生成各個(gè)節(jié)點(diǎn)模糊聚類結(jié)果,在各個(gè)模糊分類中直接選取隸屬度低于1 的樣本[15],以此保證數(shù)據(jù)的分類效果。
步驟二:最大散度迭代處理
在獲取網(wǎng)絡(luò)敏感數(shù)據(jù)流分類結(jié)果后,利用遺傳迭代算法對(duì)敏感數(shù)據(jù)流進(jìn)行迭代處理,得到最優(yōu)離散性迭代值,利用最優(yōu)離散性動(dòng)態(tài)地挖掘敏感特征,從而得到敏感數(shù)據(jù)流動(dòng)態(tài)挖掘結(jié)果,該方法能夠有效克服傳統(tǒng)挖掘方法無(wú)法實(shí)現(xiàn)動(dòng)態(tài)數(shù)據(jù)挖掘的弊端[16]。采用模糊遺傳算法對(duì)網(wǎng)絡(luò)敏感信息進(jìn)行最大散度迭代處理,則xij、yij兩個(gè)樣本論域基元結(jié)構(gòu)可表示為:
由此得到網(wǎng)絡(luò)敏感數(shù)據(jù)流特征,完成最大散度迭代處理。
步驟三:數(shù)據(jù)流動(dòng)態(tài)挖掘
根據(jù)最大散度迭代處理結(jié)果,對(duì)可挖掘特征點(diǎn)進(jìn)行聚類以及均勻分配,分配路徑如圖2 所示。
圖2 分配路徑
將挖掘到的特征點(diǎn)分配至聚類o中,可表示為:
式中,u表示可挖掘特征點(diǎn);z表示聚類中心。聚類中心更新公式如下:
式中,k表示挖掘到的特征點(diǎn)數(shù)量。
步驟四:動(dòng)態(tài)挖掘誤差擬合
在網(wǎng)絡(luò)敏感數(shù)據(jù)流動(dòng)態(tài)挖掘過(guò)程中,兩個(gè)論域子集中存在不對(duì)稱關(guān)系,對(duì)于兩個(gè)論域之間形成的差值序列,可表示為:
式中,ra(xij) 表示論域xij的第a個(gè)節(jié)點(diǎn);rb(yij)表示論域yij的第b個(gè)節(jié)點(diǎn)。根據(jù)該計(jì)算結(jié)果,計(jì)算差值序列的擬合誤差,公式為:
式中,r0表示初始差值序列;m表示擬合次數(shù)。
通過(guò)上述步驟能夠完成對(duì)可挖掘特征的模糊聚類處理,結(jié)合擬合誤差實(shí)現(xiàn)網(wǎng)絡(luò)敏感數(shù)據(jù)流動(dòng)態(tài)挖掘。
在IBM 工控異構(gòu)網(wǎng)絡(luò)機(jī)上展開(kāi)相關(guān)的實(shí)驗(yàn),使用數(shù)據(jù)采集裝置通過(guò)配置方式解析不同通訊報(bào)文,使用統(tǒng)一命令驅(qū)動(dòng)采集裝置,捕獲不同頻度的數(shù)據(jù)。數(shù)據(jù)采集裝置結(jié)構(gòu)如圖3 所示。
圖3 數(shù)據(jù)采集裝置結(jié)構(gòu)
由圖3 可知,利用傳感器采集相關(guān)數(shù)據(jù),能夠?qū)崿F(xiàn)對(duì)于多個(gè)維度的敏感數(shù)據(jù)的收集。通過(guò)對(duì)傳感器的遙控,可以實(shí)現(xiàn)對(duì)傳感器的遠(yuǎn)程管理,并可以對(duì)所收集到的數(shù)據(jù)進(jìn)行實(shí)時(shí)查詢。
實(shí)驗(yàn)數(shù)據(jù)來(lái)自自動(dòng)化工作流系統(tǒng)數(shù)據(jù)庫(kù),在數(shù)據(jù)庫(kù)中隨機(jī)采集250 個(gè)真實(shí)網(wǎng)絡(luò)數(shù)據(jù)集。網(wǎng)絡(luò)閉環(huán)工作過(guò)程中存儲(chǔ)的數(shù)據(jù)均為網(wǎng)絡(luò)敏感數(shù)據(jù)流,統(tǒng)計(jì)2020 年12 個(gè)月的數(shù)據(jù)量,每隔5 min 更新一次,由此得到的敏感數(shù)據(jù)流結(jié)構(gòu)如圖4 所示。
圖4 網(wǎng)絡(luò)敏感數(shù)據(jù)流結(jié)構(gòu)
由圖4 可知,網(wǎng)絡(luò)敏感數(shù)據(jù)流主要包括局域網(wǎng)計(jì)算機(jī)終端數(shù)據(jù)、移動(dòng)設(shè)備上網(wǎng)行為數(shù)據(jù)和共享文件權(quán)限管理數(shù)據(jù),數(shù)據(jù)流較多且復(fù)雜性較高。
設(shè)置兩種實(shí)驗(yàn)條件,一種是數(shù)據(jù)相似性較高,另一種是數(shù)據(jù)差異性較大。在這兩種條件下,分別對(duì)比文獻(xiàn)[1]方法和文獻(xiàn)[2]方法以及所提方法挖掘到的數(shù)據(jù)量,對(duì)比結(jié)果如圖5 所示。
圖5 不同方法的挖掘數(shù)據(jù)量對(duì)比分析
分析圖5(a)可知,文獻(xiàn)[1]方法的最大挖掘量為45 000 個(gè),最小挖掘量為15 000 個(gè),并沒(méi)有挖掘到全部的數(shù)據(jù);文獻(xiàn)[2]方法的最大挖掘量為40 000 個(gè),最小挖掘量為15 000 個(gè),也沒(méi)有挖掘到全部的數(shù)據(jù);所提方法的最大挖掘量為60 000 個(gè),最小挖掘量為30 000 個(gè),能夠挖掘到全部的數(shù)據(jù)。
由圖5(b)可知,文獻(xiàn)[1]方法、文獻(xiàn)[2]方法的最大挖掘量分別為27 000 個(gè)和20 000 個(gè),最小挖掘量均為10 000 個(gè),這兩種方法均沒(méi)有挖掘到全部數(shù)據(jù);所提方法的最大挖掘量為70 000 個(gè),最小挖掘量為20 000 個(gè),能夠挖掘出全部數(shù)據(jù)。
網(wǎng)絡(luò)敏感數(shù)據(jù)流論域子集較多,使用傳統(tǒng)挖掘方法受到數(shù)據(jù)相似性和差異性影響,導(dǎo)致無(wú)法挖掘到全部數(shù)據(jù),因此提出基于模糊聚類的網(wǎng)絡(luò)敏感數(shù)據(jù)流動(dòng)態(tài)挖掘方法,以期解決該問(wèn)題,并通過(guò)實(shí)驗(yàn)證明了該方法的正確性。該方法能有效挖掘出網(wǎng)絡(luò)敏感數(shù)據(jù)流,促使網(wǎng)絡(luò)更加高效運(yùn)行,通過(guò)最大類間散度確定最優(yōu)迭代計(jì)算次數(shù),由此提升數(shù)據(jù)流挖掘效率與質(zhì)量,為數(shù)據(jù)深入分析與研究奠定基礎(chǔ)。