熊菊霞,吳盡昭
(1.中國科學(xué)院成都計(jì)算機(jī)應(yīng)用研究所,四川 成都 610041;2.中國科學(xué)院大學(xué),北京 100049;3.廣西民族大學(xué)廣西混雜計(jì)算與集成電路設(shè)計(jì)分析重點(diǎn)實(shí)驗(yàn)室,廣西 南寧 530006)
在異構(gòu)復(fù)雜信息網(wǎng)絡(luò)中,網(wǎng)絡(luò)基元結(jié)構(gòu)具有差異性,通常包含大量的敏感數(shù)據(jù)流,從數(shù)據(jù)流中提取有用特征是十分重要的工作[1]。但是,由于異構(gòu)網(wǎng)絡(luò)中不同結(jié)構(gòu)的網(wǎng)絡(luò)數(shù)據(jù)存在較強(qiáng)的動態(tài)變化,如何對異構(gòu)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)流進(jìn)行有效的動態(tài)挖掘,成為現(xiàn)在數(shù)據(jù)挖掘領(lǐng)域中重要的問題[2]。
專家學(xué)者們提出一些關(guān)于網(wǎng)絡(luò)敏感數(shù)據(jù)流的挖掘方法。茹蓓等人[3]提出一種減少候選項(xiàng)集的數(shù)據(jù)流挖掘算法,通過數(shù)據(jù)掃描窗口建立全局樹,基于全局樹生成數(shù)據(jù)候選模式,從候選模式中選取出高效用的挖掘模式,完成數(shù)據(jù)挖掘。劉華成等人[4]提出一種動態(tài)調(diào)度的延遲敏感流網(wǎng)絡(luò)挖掘算法,采用能量最小化組合方程來節(jié)約挖掘時間,采用分解定界算法來提升分類器處理速度。趙小強(qiáng)等人[5]提出一種基于改進(jìn)模糊支持向量機(jī)FSVM(Fuzzy Support Vector Machine)的數(shù)據(jù)挖掘分類算法,預(yù)選出有效的候選支持向量,并對其進(jìn)行增強(qiáng)處理,在此基礎(chǔ)上設(shè)計(jì)隸屬度函數(shù)完成挖掘。劉洋等人[6]對大數(shù)據(jù)挖掘算法進(jìn)行分析,根據(jù)模型向量的改變量優(yōu)化數(shù)據(jù)迭代過程,在不同階段選擇不同的迭代和數(shù)據(jù)處理方式,以提高挖掘性能。
國外眾多學(xué)者也對此進(jìn)行了研究,并取得了較多突出的成果,Malik等人[7]指出,隨著數(shù)據(jù)規(guī)模的不斷擴(kuò)大,利用現(xiàn)有的方法進(jìn)行數(shù)據(jù)挖掘時,內(nèi)存往往容易成為瓶頸問題,因此很多科研人員從多個角度對數(shù)據(jù)挖掘方法進(jìn)行了改進(jìn)。比如,美國學(xué)者Freitas等人[8]針對大規(guī)模的數(shù)據(jù)進(jìn)行分析,先對原始數(shù)據(jù)集進(jìn)行簡單排序,其次分析網(wǎng)絡(luò)內(nèi)存的實(shí)現(xiàn)機(jī)制,在時間局部性方面進(jìn)行重點(diǎn)分析,以滿足大規(guī)模數(shù)據(jù)挖掘需求。Belorkar等人[9]利用敏感網(wǎng)絡(luò)對異構(gòu)基因表達(dá)數(shù)據(jù)進(jìn)行了分析,主要研究數(shù)據(jù)的異質(zhì)性,通過敏感網(wǎng)絡(luò)抑制了單區(qū)域數(shù)據(jù)集的選取功能,結(jié)合異質(zhì)性特征挖掘得到表達(dá)數(shù)據(jù)。但是,在異構(gòu)復(fù)雜信息網(wǎng)絡(luò)中,相關(guān)數(shù)據(jù)流挖掘方法無法在復(fù)雜網(wǎng)絡(luò)下找到準(zhǔn)確的挖掘特征,難以適應(yīng)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)流特征的高動態(tài)變化,降低了挖掘精度。
針對上述問題,本文提出基于最大類間散度的網(wǎng)絡(luò)敏感數(shù)據(jù)流動態(tài)挖掘方法。實(shí)驗(yàn)結(jié)果表明,該方法在復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)流挖掘方面具有較高的實(shí)用性。
由于異構(gòu)復(fù)雜信息網(wǎng)絡(luò)承載著不同的協(xié)議和網(wǎng)絡(luò)信道,網(wǎng)絡(luò)基元結(jié)構(gòu)之間差異性較大,導(dǎo)致提取網(wǎng)絡(luò)中的敏感數(shù)據(jù)流特征困難。由此,以異構(gòu)復(fù)雜信息網(wǎng)絡(luò)中的敏感數(shù)據(jù)差異最大化間隔作為分類基礎(chǔ),將差異化網(wǎng)絡(luò)基元結(jié)構(gòu)進(jìn)行區(qū)別劃分,得到網(wǎng)絡(luò)敏感數(shù)據(jù)流特征的最大類間散度,為全面高精度動態(tài)挖掘敏感數(shù)據(jù)提供基礎(chǔ)。
假設(shè)異構(gòu)復(fù)雜信息網(wǎng)絡(luò)數(shù)據(jù)庫中的待挖掘矩陣為X={x1,x2,…,xi},i代表網(wǎng)絡(luò)數(shù)據(jù)庫中數(shù)據(jù)的序數(shù),獲取第i時刻異構(gòu)復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)庫中敏感數(shù)據(jù)矩陣xi={xi1,xi2,…,xim},對應(yīng)的網(wǎng)絡(luò)數(shù)據(jù)流類型用向量yi表示,利用式(1)給出異構(gòu)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)流整體矩陣:
Y=f(x1,x2,…,xn)=(y1,y2,…,yn)
(1)
向量yi是網(wǎng)絡(luò)數(shù)據(jù)流類型,對提取出的網(wǎng)絡(luò)敏感數(shù)據(jù)流特征降維處理。將敏感數(shù)據(jù)差異最大化間隔作為分類目標(biāo),找出1組最佳分類向量,對其進(jìn)行映射變換,使變換后得到的網(wǎng)絡(luò)敏感數(shù)據(jù)流特征具有最大類間散度,并獲取最大類間散度特征值[10]。過程如下所示:
在上述給出的異構(gòu)復(fù)雜信息網(wǎng)絡(luò)數(shù)據(jù)庫矩陣X={x1,x2,…,xn}中,為維持復(fù)雜網(wǎng)絡(luò)內(nèi)原始數(shù)據(jù)的分布結(jié)構(gòu)形狀,利用最大間隔準(zhǔn)則約束找出一個線性映射:
(Sb-Sw)X=λiwi
(2)
得到最佳識別向量為:
(3)
其中,Sb和Sw分別代表網(wǎng)絡(luò)敏感數(shù)據(jù)流特征降維后,特征空間中的類間散度和類內(nèi)散度,作為差異化網(wǎng)絡(luò)基元結(jié)構(gòu)的劃分基礎(chǔ)。λi表示線性映射系數(shù),T為轉(zhuǎn)置符號,wi表示最大間隔向量[11,12]。將其投影變換到低維特征空間Y中,使其具有最大類間散度:
Y=WTX
(4)
投影變換處理后,得到異構(gòu)復(fù)雜信息網(wǎng)絡(luò)的敏感數(shù)據(jù)向量:
(5)
在2.1節(jié)獲取了異構(gòu)復(fù)雜信息網(wǎng)絡(luò)的敏感數(shù)據(jù)最大類間散度后,對其進(jìn)行遺傳迭代,確定最優(yōu)散度迭代函數(shù),依據(jù)該函數(shù)動態(tài)挖掘敏感數(shù)據(jù)特征[13,14],并對挖掘得到的敏感數(shù)據(jù)特征進(jìn)行篩選,得出動態(tài)可挖掘特征,克服傳統(tǒng)方法不容易形成可挖掘特征,進(jìn)而需要多次挖掘的不足,為數(shù)據(jù)的動態(tài)挖掘奠定基礎(chǔ)。
傳統(tǒng)的遺傳算法并沒有考慮個體或者組織的演變特征,只能夠通過編碼表現(xiàn)個體或者組織的一一對應(yīng)關(guān)系,模糊遺傳算法能夠打破這一規(guī)則,在[0,1]中為個體或者組織取值。模糊遺傳算法的這一特性使得其能夠很好地解決迭代中的隨機(jī)和非線性問題,解決更多的復(fù)雜問題。因此,本文使用模糊遺傳算法進(jìn)行網(wǎng)絡(luò)敏感數(shù)據(jù)最大類間散度迭代,量化異構(gòu)網(wǎng)絡(luò)基元結(jié)構(gòu)之間的差異性。lnfo(B)和lnfoA(B)分別表示不同的異構(gòu)網(wǎng)絡(luò)基元結(jié)構(gòu),Gain(A)表示2者之間的差異,如下:
(6)
(7)
其中,B是異構(gòu)網(wǎng)絡(luò)基本元素構(gòu)成的向量,A是異構(gòu)網(wǎng)絡(luò)差異值向量,v是B中元素個數(shù)。Wopt是異構(gòu)復(fù)雜信息網(wǎng)絡(luò)的敏感數(shù)據(jù)向量。Pi是概率值。
Gain(A)=lnfo(B)-lnfoA(B)
(8)
得到:
Pri(t)=Gain(A)-Pi*hi(t)+nPi(t)
(9)
其中,hi(t)代表Pi在異構(gòu)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)的變異參數(shù),nPi(t)代表數(shù)據(jù)流特征響應(yīng)值,由此可以求出異構(gòu)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)流特征響應(yīng)函數(shù):
Sri(t)=S(t)×hi(t)+nsi(t)
(10)
其中,S(t)代表異構(gòu)復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)庫的信道響函數(shù),挖掘得到敏感數(shù)據(jù)特征為:
ri(t)=Sri(t)×Pri(-t)=
S(t)×P(-t)*hi(t)+nli(t)
(11)
以式(11)為基礎(chǔ),對敏感數(shù)據(jù)挖掘特征形成概率進(jìn)行計(jì)算,公式如下:
(12)
其中,aij是特征系數(shù),βj是敏感特征系數(shù),bij是特征數(shù)據(jù)向量,Pj(t)是概率值。
得到優(yōu)選的敏感數(shù)據(jù)動態(tài)可挖掘特征為:
R(Xi)=bij(Pj(t))X
(13)
其中,X是數(shù)據(jù)庫中的待挖掘矩陣。
以上述得到的敏感數(shù)據(jù)動態(tài)可挖掘特征為基礎(chǔ),對可挖掘特征進(jìn)行半監(jiān)督聚類分析,進(jìn)而完成網(wǎng)絡(luò)敏感數(shù)據(jù)流挖掘。
聚類分析是數(shù)據(jù)挖掘中的重要步驟,聚類是按照相似性原理,把1組個體劃分為若干類別的過程,聚類的目的是使同一類別的個體之間距離最小化,不同類別個體之間的距離最大化,從而提高數(shù)據(jù)挖掘精度。采用半監(jiān)督聚類方法可以有效地改善初始聚類中心敏感、聚類質(zhì)量不高的問題[15,16]。半監(jiān)督聚類方法是結(jié)合分類和K-means算法思想的一種新的聚類方法,是利用半監(jiān)督學(xué)習(xí)方法對聚類過程中類中心選取的過程。
假設(shè)主存中的數(shù)據(jù)特征點(diǎn)q是Q={d1,d2,…,dn,labels}中的元素,Q是一個數(shù)據(jù)特征矩陣,labels為可挖掘數(shù)據(jù)標(biāo)記的向量。利用labels初始化聚類中心Z,表示為:
(14)
其中,I為可挖掘數(shù)標(biāo)記個數(shù)。
聚類過程中,若缺少某類標(biāo)記,則由聚類中心自動產(chǎn)生,不斷重復(fù)上述初始化過程,直到出現(xiàn)重復(fù)聚類為止[17,18]。
對可挖掘特征點(diǎn)進(jìn)行聚類分配,將每一個可挖掘特征點(diǎn)di、labels分配至聚類L中,表示為:
L=argmin |di-Z|
(15)
在式(15)基礎(chǔ)上,重新計(jì)算初始化聚類中心Z:
(16)
其中,di是挖掘特征點(diǎn)向量。
由此則可以完成對可挖掘特征的聚類分析,挖掘得到數(shù)據(jù)隱藏信息模式,并對其進(jìn)行評價,若是合理,則進(jìn)行知識表示,將上述合理的信息模式進(jìn)行展示,從而實(shí)現(xiàn)異構(gòu)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)的動態(tài)挖掘[19,20]。
具體數(shù)據(jù)挖掘流程如圖1所示。
Figure 1 Flow chart for dynamic mining of sensitive data in heterogeneous complex information networks圖1 異構(gòu)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)動態(tài)挖掘流程圖
為了驗(yàn)證本文所提的基于模糊遺傳的網(wǎng)絡(luò)敏感數(shù)據(jù)流動態(tài)挖掘方法的綜合性能,實(shí)驗(yàn)采用的平臺為IBM的工控異構(gòu)網(wǎng)絡(luò)機(jī),主頻為2.3 GHz CPU,內(nèi)存為24 GB。
實(shí)驗(yàn)數(shù)據(jù)來源于亞馬遜自動化工作流系統(tǒng)AWS(Automated Workflow System)數(shù)據(jù)庫,網(wǎng)址為https://aws.amazon.com/cn/datasets/。在實(shí)驗(yàn)中隨機(jī)采集500個真實(shí)復(fù)雜信息網(wǎng)絡(luò)數(shù)據(jù)集。采集器如圖2所示。
Figure 2 Data acquisition unit圖2 數(shù)據(jù)采集器
實(shí)驗(yàn)數(shù)據(jù)采集過程如圖3所示。
Figure 3 Flow chart of experimental data acquisition圖3 實(shí)驗(yàn)數(shù)據(jù)采集流程圖
在上述實(shí)驗(yàn)環(huán)境和數(shù)據(jù)設(shè)置條件下,選取以下指標(biāo)對本文方法進(jìn)行驗(yàn)證:
(1)可挖掘特征形成概率:數(shù)據(jù)可挖掘特征的獲取是實(shí)現(xiàn)數(shù)據(jù)挖掘的關(guān)鍵步驟,以式(12)的計(jì)算步驟為依據(jù),對本文方法與文獻(xiàn)[7,8]方法的可挖掘特征形成概率進(jìn)行計(jì)算和對比。
(2)挖掘耗時:對本文方法與文獻(xiàn)[7,8]方法的挖掘耗時進(jìn)行對比,驗(yàn)證本文方法的時效性。
(3)labels標(biāo)記質(zhì)量:在獲取數(shù)據(jù)的可挖掘特征后,本文方法首先對可挖掘特征進(jìn)行了聚類分析,以此為基礎(chǔ)完成數(shù)據(jù)挖掘,提高挖掘精度。聚類分析中,labels標(biāo)記質(zhì)量的好壞會直接影響數(shù)據(jù)聚類質(zhì)量,進(jìn)而影響挖掘精度。
(4)挖掘精度:精度是驗(yàn)證方法性能的重要指標(biāo),本實(shí)驗(yàn)選取這一指標(biāo)進(jìn)行分析。
(5)敏感數(shù)據(jù)挖掘內(nèi)存占用率:對比不同方法的挖掘內(nèi)存占用率,進(jìn)一步體現(xiàn)本文方法優(yōu)勢。
對本文方法與文獻(xiàn)[7,8]方法的可挖掘特征形成概率進(jìn)行計(jì)算,結(jié)果如表1所示。
Table 1 Comparison of mineable feature formation probability表1 可挖掘特征形成概率對比
分析表1可以看出,本文采用最大類間散度方法,將敏感數(shù)據(jù)的差異最大化間隔作為分類基礎(chǔ)進(jìn)行分析,并在遺傳迭代狀態(tài)確定最優(yōu)散度迭代函數(shù),完成可挖掘特征優(yōu)選,由此得到的可挖掘特征形成概率整體高于90%,最高可達(dá)98%,可順利形成可挖掘特征。而文獻(xiàn)[7,8]方法的可挖掘特征形成概率在80%以下,遠(yuǎn)低于本文方法的,無法形成數(shù)據(jù)的可挖掘特征。
鑒于表1分析的結(jié)果,可知本文方法能夠順利形成數(shù)據(jù)的可挖掘特征,進(jìn)而能夠降低數(shù)據(jù)挖掘次數(shù),有利于節(jié)約數(shù)據(jù)挖掘時間。為進(jìn)一步驗(yàn)證這一結(jié)果,對本文方法與文獻(xiàn)[7,8]方法進(jìn)行對比,結(jié)果如圖4所示。分析圖4可以看出,本文方法的挖掘耗時明顯低于文獻(xiàn)[7,8]方法的,以后可進(jìn)一步驗(yàn)證本文采用最大類間散度方法獲取數(shù)據(jù)的可挖掘特征的有效性,表明本文方法具有一定的可行性。
Figure 4 Time-consuming comparison of different mining methods圖4 不同方法挖掘耗時對比
對本文方法的labels標(biāo)記質(zhì)量的分析結(jié)果如圖5所示。根據(jù)圖5可知,在不同的labels標(biāo)記處,本文估計(jì)值與實(shí)際值之間的差異均較小,不超過6.0,且隨著標(biāo)記點(diǎn)的增加,估計(jì)值與實(shí)際值之間的差異呈現(xiàn)下降趨勢,表明本文方法具有較好的聚類效果。
Figure 5 Difference between estimated and true values圖5 估計(jì)值和真實(shí)值之間的差異
為充分驗(yàn)證本文方法的優(yōu)勢,選取挖掘精度和敏感數(shù)據(jù)挖掘內(nèi)存占用率為指標(biāo)進(jìn)行對比分析,結(jié)果如表2和圖6所示。
根據(jù)表2可知,本文方法的數(shù)據(jù)挖掘精度在90%左右,文獻(xiàn)[7]方法的數(shù)據(jù)挖掘精度最高為69%,文獻(xiàn)[8]方法的最高值為76%,表明本文方法能夠準(zhǔn)確地完成異構(gòu)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)流動態(tài)挖掘,同時也進(jìn)一步驗(yàn)證了可挖掘特征的聚類質(zhì)量較高。
Table 2 Comparison of mining accuracy of different methods表2 不同方法挖掘精度對比
圖6為不同方法的敏感數(shù)據(jù)挖掘內(nèi)存占用率對比圖。從圖6中的情況來看,本文方法所占用的內(nèi)存容量較少,而其他2種方法所占用的內(nèi)容容量較多,主要是因?yàn)楸疚哪軌蝽樌@取可挖掘數(shù)據(jù)特征,避免了多次數(shù)據(jù)挖掘,從而降低了內(nèi)存占用率。這表明在對敏感數(shù)據(jù)流進(jìn)行挖掘的性能上,本文方法具有更大的優(yōu)勢。
Figure 6 Comparison of memory usage of different methods圖6 不同方法內(nèi)存占用率對比
復(fù)雜信息網(wǎng)絡(luò)中存在大量的敏感數(shù)據(jù)流,對其進(jìn)行有效挖掘,能夠促使網(wǎng)絡(luò)更加高效地運(yùn)行。針對現(xiàn)有方法存在數(shù)據(jù)挖掘精度低、挖掘時間長、占用內(nèi)存大等問題,本文提出了一種新的網(wǎng)絡(luò)敏感數(shù)據(jù)流動態(tài)挖掘方法。采用最大類間散度確定最優(yōu)散度迭代函數(shù),對迭代函數(shù)最優(yōu)值進(jìn)行計(jì)算,獲取可挖掘的動態(tài)特征。以此為依據(jù),對可挖掘特征進(jìn)行聚類分析,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)挖掘。
將本文方法與文獻(xiàn)[7,8]方法進(jìn)行對比,結(jié)果表明:
(1)數(shù)據(jù)的可挖掘特征獲取概率較高,進(jìn)而降低了數(shù)據(jù)挖掘次數(shù),節(jié)約了數(shù)據(jù)挖掘時間,并降低了內(nèi)存占用率;
(2)聚類分析中,labels標(biāo)記估計(jì)值與實(shí)際值之間的差異較小,說明對可挖掘特征的聚類質(zhì)量良好,進(jìn)而提高了數(shù)據(jù)挖掘精度。
綜上可知,本文所提方法的數(shù)據(jù)挖掘性能較好,為數(shù)據(jù)的深入研究奠定了基礎(chǔ),具有一定的參考價值。