• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      異構(gòu)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)流動態(tài)挖掘*

      2020-05-04 07:05:20熊菊霞吳盡昭
      關(guān)鍵詞:敏感數(shù)據(jù)散度數(shù)據(jù)流

      熊菊霞,吳盡昭

      (1.中國科學(xué)院成都計(jì)算機(jī)應(yīng)用研究所,四川 成都 610041;2.中國科學(xué)院大學(xué),北京 100049;3.廣西民族大學(xué)廣西混雜計(jì)算與集成電路設(shè)計(jì)分析重點(diǎn)實(shí)驗(yàn)室,廣西 南寧 530006)

      1 引言

      在異構(gòu)復(fù)雜信息網(wǎng)絡(luò)中,網(wǎng)絡(luò)基元結(jié)構(gòu)具有差異性,通常包含大量的敏感數(shù)據(jù)流,從數(shù)據(jù)流中提取有用特征是十分重要的工作[1]。但是,由于異構(gòu)網(wǎng)絡(luò)中不同結(jié)構(gòu)的網(wǎng)絡(luò)數(shù)據(jù)存在較強(qiáng)的動態(tài)變化,如何對異構(gòu)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)流進(jìn)行有效的動態(tài)挖掘,成為現(xiàn)在數(shù)據(jù)挖掘領(lǐng)域中重要的問題[2]。

      專家學(xué)者們提出一些關(guān)于網(wǎng)絡(luò)敏感數(shù)據(jù)流的挖掘方法。茹蓓等人[3]提出一種減少候選項(xiàng)集的數(shù)據(jù)流挖掘算法,通過數(shù)據(jù)掃描窗口建立全局樹,基于全局樹生成數(shù)據(jù)候選模式,從候選模式中選取出高效用的挖掘模式,完成數(shù)據(jù)挖掘。劉華成等人[4]提出一種動態(tài)調(diào)度的延遲敏感流網(wǎng)絡(luò)挖掘算法,采用能量最小化組合方程來節(jié)約挖掘時間,采用分解定界算法來提升分類器處理速度。趙小強(qiáng)等人[5]提出一種基于改進(jìn)模糊支持向量機(jī)FSVM(Fuzzy Support Vector Machine)的數(shù)據(jù)挖掘分類算法,預(yù)選出有效的候選支持向量,并對其進(jìn)行增強(qiáng)處理,在此基礎(chǔ)上設(shè)計(jì)隸屬度函數(shù)完成挖掘。劉洋等人[6]對大數(shù)據(jù)挖掘算法進(jìn)行分析,根據(jù)模型向量的改變量優(yōu)化數(shù)據(jù)迭代過程,在不同階段選擇不同的迭代和數(shù)據(jù)處理方式,以提高挖掘性能。

      國外眾多學(xué)者也對此進(jìn)行了研究,并取得了較多突出的成果,Malik等人[7]指出,隨著數(shù)據(jù)規(guī)模的不斷擴(kuò)大,利用現(xiàn)有的方法進(jìn)行數(shù)據(jù)挖掘時,內(nèi)存往往容易成為瓶頸問題,因此很多科研人員從多個角度對數(shù)據(jù)挖掘方法進(jìn)行了改進(jìn)。比如,美國學(xué)者Freitas等人[8]針對大規(guī)模的數(shù)據(jù)進(jìn)行分析,先對原始數(shù)據(jù)集進(jìn)行簡單排序,其次分析網(wǎng)絡(luò)內(nèi)存的實(shí)現(xiàn)機(jī)制,在時間局部性方面進(jìn)行重點(diǎn)分析,以滿足大規(guī)模數(shù)據(jù)挖掘需求。Belorkar等人[9]利用敏感網(wǎng)絡(luò)對異構(gòu)基因表達(dá)數(shù)據(jù)進(jìn)行了分析,主要研究數(shù)據(jù)的異質(zhì)性,通過敏感網(wǎng)絡(luò)抑制了單區(qū)域數(shù)據(jù)集的選取功能,結(jié)合異質(zhì)性特征挖掘得到表達(dá)數(shù)據(jù)。但是,在異構(gòu)復(fù)雜信息網(wǎng)絡(luò)中,相關(guān)數(shù)據(jù)流挖掘方法無法在復(fù)雜網(wǎng)絡(luò)下找到準(zhǔn)確的挖掘特征,難以適應(yīng)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)流特征的高動態(tài)變化,降低了挖掘精度。

      針對上述問題,本文提出基于最大類間散度的網(wǎng)絡(luò)敏感數(shù)據(jù)流動態(tài)挖掘方法。實(shí)驗(yàn)結(jié)果表明,該方法在復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)流挖掘方面具有較高的實(shí)用性。

      2 敏感數(shù)據(jù)流可挖掘特征獲取

      2.1 最大類間散度計(jì)算

      由于異構(gòu)復(fù)雜信息網(wǎng)絡(luò)承載著不同的協(xié)議和網(wǎng)絡(luò)信道,網(wǎng)絡(luò)基元結(jié)構(gòu)之間差異性較大,導(dǎo)致提取網(wǎng)絡(luò)中的敏感數(shù)據(jù)流特征困難。由此,以異構(gòu)復(fù)雜信息網(wǎng)絡(luò)中的敏感數(shù)據(jù)差異最大化間隔作為分類基礎(chǔ),將差異化網(wǎng)絡(luò)基元結(jié)構(gòu)進(jìn)行區(qū)別劃分,得到網(wǎng)絡(luò)敏感數(shù)據(jù)流特征的最大類間散度,為全面高精度動態(tài)挖掘敏感數(shù)據(jù)提供基礎(chǔ)。

      假設(shè)異構(gòu)復(fù)雜信息網(wǎng)絡(luò)數(shù)據(jù)庫中的待挖掘矩陣為X={x1,x2,…,xi},i代表網(wǎng)絡(luò)數(shù)據(jù)庫中數(shù)據(jù)的序數(shù),獲取第i時刻異構(gòu)復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)庫中敏感數(shù)據(jù)矩陣xi={xi1,xi2,…,xim},對應(yīng)的網(wǎng)絡(luò)數(shù)據(jù)流類型用向量yi表示,利用式(1)給出異構(gòu)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)流整體矩陣:

      Y=f(x1,x2,…,xn)=(y1,y2,…,yn)

      (1)

      向量yi是網(wǎng)絡(luò)數(shù)據(jù)流類型,對提取出的網(wǎng)絡(luò)敏感數(shù)據(jù)流特征降維處理。將敏感數(shù)據(jù)差異最大化間隔作為分類目標(biāo),找出1組最佳分類向量,對其進(jìn)行映射變換,使變換后得到的網(wǎng)絡(luò)敏感數(shù)據(jù)流特征具有最大類間散度,并獲取最大類間散度特征值[10]。過程如下所示:

      在上述給出的異構(gòu)復(fù)雜信息網(wǎng)絡(luò)數(shù)據(jù)庫矩陣X={x1,x2,…,xn}中,為維持復(fù)雜網(wǎng)絡(luò)內(nèi)原始數(shù)據(jù)的分布結(jié)構(gòu)形狀,利用最大間隔準(zhǔn)則約束找出一個線性映射:

      (Sb-Sw)X=λiwi

      (2)

      得到最佳識別向量為:

      (3)

      其中,Sb和Sw分別代表網(wǎng)絡(luò)敏感數(shù)據(jù)流特征降維后,特征空間中的類間散度和類內(nèi)散度,作為差異化網(wǎng)絡(luò)基元結(jié)構(gòu)的劃分基礎(chǔ)。λi表示線性映射系數(shù),T為轉(zhuǎn)置符號,wi表示最大間隔向量[11,12]。將其投影變換到低維特征空間Y中,使其具有最大類間散度:

      Y=WTX

      (4)

      投影變換處理后,得到異構(gòu)復(fù)雜信息網(wǎng)絡(luò)的敏感數(shù)據(jù)向量:

      (5)

      2.2 最優(yōu)散度迭代

      在2.1節(jié)獲取了異構(gòu)復(fù)雜信息網(wǎng)絡(luò)的敏感數(shù)據(jù)最大類間散度后,對其進(jìn)行遺傳迭代,確定最優(yōu)散度迭代函數(shù),依據(jù)該函數(shù)動態(tài)挖掘敏感數(shù)據(jù)特征[13,14],并對挖掘得到的敏感數(shù)據(jù)特征進(jìn)行篩選,得出動態(tài)可挖掘特征,克服傳統(tǒng)方法不容易形成可挖掘特征,進(jìn)而需要多次挖掘的不足,為數(shù)據(jù)的動態(tài)挖掘奠定基礎(chǔ)。

      傳統(tǒng)的遺傳算法并沒有考慮個體或者組織的演變特征,只能夠通過編碼表現(xiàn)個體或者組織的一一對應(yīng)關(guān)系,模糊遺傳算法能夠打破這一規(guī)則,在[0,1]中為個體或者組織取值。模糊遺傳算法的這一特性使得其能夠很好地解決迭代中的隨機(jī)和非線性問題,解決更多的復(fù)雜問題。因此,本文使用模糊遺傳算法進(jìn)行網(wǎng)絡(luò)敏感數(shù)據(jù)最大類間散度迭代,量化異構(gòu)網(wǎng)絡(luò)基元結(jié)構(gòu)之間的差異性。lnfo(B)和lnfoA(B)分別表示不同的異構(gòu)網(wǎng)絡(luò)基元結(jié)構(gòu),Gain(A)表示2者之間的差異,如下:

      (6)

      (7)

      其中,B是異構(gòu)網(wǎng)絡(luò)基本元素構(gòu)成的向量,A是異構(gòu)網(wǎng)絡(luò)差異值向量,v是B中元素個數(shù)。Wopt是異構(gòu)復(fù)雜信息網(wǎng)絡(luò)的敏感數(shù)據(jù)向量。Pi是概率值。

      Gain(A)=lnfo(B)-lnfoA(B)

      (8)

      得到:

      Pri(t)=Gain(A)-Pi*hi(t)+nPi(t)

      (9)

      其中,hi(t)代表Pi在異構(gòu)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)的變異參數(shù),nPi(t)代表數(shù)據(jù)流特征響應(yīng)值,由此可以求出異構(gòu)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)流特征響應(yīng)函數(shù):

      Sri(t)=S(t)×hi(t)+nsi(t)

      (10)

      其中,S(t)代表異構(gòu)復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)庫的信道響函數(shù),挖掘得到敏感數(shù)據(jù)特征為:

      ri(t)=Sri(t)×Pri(-t)=

      S(t)×P(-t)*hi(t)+nli(t)

      (11)

      以式(11)為基礎(chǔ),對敏感數(shù)據(jù)挖掘特征形成概率進(jìn)行計(jì)算,公式如下:

      (12)

      其中,aij是特征系數(shù),βj是敏感特征系數(shù),bij是特征數(shù)據(jù)向量,Pj(t)是概率值。

      得到優(yōu)選的敏感數(shù)據(jù)動態(tài)可挖掘特征為:

      R(Xi)=bij(Pj(t))X

      (13)

      其中,X是數(shù)據(jù)庫中的待挖掘矩陣。

      3 網(wǎng)絡(luò)敏感數(shù)據(jù)流挖掘

      以上述得到的敏感數(shù)據(jù)動態(tài)可挖掘特征為基礎(chǔ),對可挖掘特征進(jìn)行半監(jiān)督聚類分析,進(jìn)而完成網(wǎng)絡(luò)敏感數(shù)據(jù)流挖掘。

      聚類分析是數(shù)據(jù)挖掘中的重要步驟,聚類是按照相似性原理,把1組個體劃分為若干類別的過程,聚類的目的是使同一類別的個體之間距離最小化,不同類別個體之間的距離最大化,從而提高數(shù)據(jù)挖掘精度。采用半監(jiān)督聚類方法可以有效地改善初始聚類中心敏感、聚類質(zhì)量不高的問題[15,16]。半監(jiān)督聚類方法是結(jié)合分類和K-means算法思想的一種新的聚類方法,是利用半監(jiān)督學(xué)習(xí)方法對聚類過程中類中心選取的過程。

      假設(shè)主存中的數(shù)據(jù)特征點(diǎn)q是Q={d1,d2,…,dn,labels}中的元素,Q是一個數(shù)據(jù)特征矩陣,labels為可挖掘數(shù)據(jù)標(biāo)記的向量。利用labels初始化聚類中心Z,表示為:

      (14)

      其中,I為可挖掘數(shù)標(biāo)記個數(shù)。

      聚類過程中,若缺少某類標(biāo)記,則由聚類中心自動產(chǎn)生,不斷重復(fù)上述初始化過程,直到出現(xiàn)重復(fù)聚類為止[17,18]。

      對可挖掘特征點(diǎn)進(jìn)行聚類分配,將每一個可挖掘特征點(diǎn)di、labels分配至聚類L中,表示為:

      L=argmin |di-Z|

      (15)

      在式(15)基礎(chǔ)上,重新計(jì)算初始化聚類中心Z:

      (16)

      其中,di是挖掘特征點(diǎn)向量。

      由此則可以完成對可挖掘特征的聚類分析,挖掘得到數(shù)據(jù)隱藏信息模式,并對其進(jìn)行評價,若是合理,則進(jìn)行知識表示,將上述合理的信息模式進(jìn)行展示,從而實(shí)現(xiàn)異構(gòu)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)的動態(tài)挖掘[19,20]。

      具體數(shù)據(jù)挖掘流程如圖1所示。

      Figure 1 Flow chart for dynamic mining of sensitive data in heterogeneous complex information networks圖1 異構(gòu)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)動態(tài)挖掘流程圖

      4 實(shí)驗(yàn)結(jié)果與分析

      為了驗(yàn)證本文所提的基于模糊遺傳的網(wǎng)絡(luò)敏感數(shù)據(jù)流動態(tài)挖掘方法的綜合性能,實(shí)驗(yàn)采用的平臺為IBM的工控異構(gòu)網(wǎng)絡(luò)機(jī),主頻為2.3 GHz CPU,內(nèi)存為24 GB。

      實(shí)驗(yàn)數(shù)據(jù)來源于亞馬遜自動化工作流系統(tǒng)AWS(Automated Workflow System)數(shù)據(jù)庫,網(wǎng)址為https://aws.amazon.com/cn/datasets/。在實(shí)驗(yàn)中隨機(jī)采集500個真實(shí)復(fù)雜信息網(wǎng)絡(luò)數(shù)據(jù)集。采集器如圖2所示。

      Figure 2 Data acquisition unit圖2 數(shù)據(jù)采集器

      實(shí)驗(yàn)數(shù)據(jù)采集過程如圖3所示。

      Figure 3 Flow chart of experimental data acquisition圖3 實(shí)驗(yàn)數(shù)據(jù)采集流程圖

      在上述實(shí)驗(yàn)環(huán)境和數(shù)據(jù)設(shè)置條件下,選取以下指標(biāo)對本文方法進(jìn)行驗(yàn)證:

      (1)可挖掘特征形成概率:數(shù)據(jù)可挖掘特征的獲取是實(shí)現(xiàn)數(shù)據(jù)挖掘的關(guān)鍵步驟,以式(12)的計(jì)算步驟為依據(jù),對本文方法與文獻(xiàn)[7,8]方法的可挖掘特征形成概率進(jìn)行計(jì)算和對比。

      (2)挖掘耗時:對本文方法與文獻(xiàn)[7,8]方法的挖掘耗時進(jìn)行對比,驗(yàn)證本文方法的時效性。

      (3)labels標(biāo)記質(zhì)量:在獲取數(shù)據(jù)的可挖掘特征后,本文方法首先對可挖掘特征進(jìn)行了聚類分析,以此為基礎(chǔ)完成數(shù)據(jù)挖掘,提高挖掘精度。聚類分析中,labels標(biāo)記質(zhì)量的好壞會直接影響數(shù)據(jù)聚類質(zhì)量,進(jìn)而影響挖掘精度。

      (4)挖掘精度:精度是驗(yàn)證方法性能的重要指標(biāo),本實(shí)驗(yàn)選取這一指標(biāo)進(jìn)行分析。

      (5)敏感數(shù)據(jù)挖掘內(nèi)存占用率:對比不同方法的挖掘內(nèi)存占用率,進(jìn)一步體現(xiàn)本文方法優(yōu)勢。

      對本文方法與文獻(xiàn)[7,8]方法的可挖掘特征形成概率進(jìn)行計(jì)算,結(jié)果如表1所示。

      Table 1 Comparison of mineable feature formation probability表1 可挖掘特征形成概率對比

      分析表1可以看出,本文采用最大類間散度方法,將敏感數(shù)據(jù)的差異最大化間隔作為分類基礎(chǔ)進(jìn)行分析,并在遺傳迭代狀態(tài)確定最優(yōu)散度迭代函數(shù),完成可挖掘特征優(yōu)選,由此得到的可挖掘特征形成概率整體高于90%,最高可達(dá)98%,可順利形成可挖掘特征。而文獻(xiàn)[7,8]方法的可挖掘特征形成概率在80%以下,遠(yuǎn)低于本文方法的,無法形成數(shù)據(jù)的可挖掘特征。

      鑒于表1分析的結(jié)果,可知本文方法能夠順利形成數(shù)據(jù)的可挖掘特征,進(jìn)而能夠降低數(shù)據(jù)挖掘次數(shù),有利于節(jié)約數(shù)據(jù)挖掘時間。為進(jìn)一步驗(yàn)證這一結(jié)果,對本文方法與文獻(xiàn)[7,8]方法進(jìn)行對比,結(jié)果如圖4所示。分析圖4可以看出,本文方法的挖掘耗時明顯低于文獻(xiàn)[7,8]方法的,以后可進(jìn)一步驗(yàn)證本文采用最大類間散度方法獲取數(shù)據(jù)的可挖掘特征的有效性,表明本文方法具有一定的可行性。

      Figure 4 Time-consuming comparison of different mining methods圖4 不同方法挖掘耗時對比

      對本文方法的labels標(biāo)記質(zhì)量的分析結(jié)果如圖5所示。根據(jù)圖5可知,在不同的labels標(biāo)記處,本文估計(jì)值與實(shí)際值之間的差異均較小,不超過6.0,且隨著標(biāo)記點(diǎn)的增加,估計(jì)值與實(shí)際值之間的差異呈現(xiàn)下降趨勢,表明本文方法具有較好的聚類效果。

      Figure 5 Difference between estimated and true values圖5 估計(jì)值和真實(shí)值之間的差異

      為充分驗(yàn)證本文方法的優(yōu)勢,選取挖掘精度和敏感數(shù)據(jù)挖掘內(nèi)存占用率為指標(biāo)進(jìn)行對比分析,結(jié)果如表2和圖6所示。

      根據(jù)表2可知,本文方法的數(shù)據(jù)挖掘精度在90%左右,文獻(xiàn)[7]方法的數(shù)據(jù)挖掘精度最高為69%,文獻(xiàn)[8]方法的最高值為76%,表明本文方法能夠準(zhǔn)確地完成異構(gòu)復(fù)雜信息網(wǎng)絡(luò)敏感數(shù)據(jù)流動態(tài)挖掘,同時也進(jìn)一步驗(yàn)證了可挖掘特征的聚類質(zhì)量較高。

      Table 2 Comparison of mining accuracy of different methods表2 不同方法挖掘精度對比

      圖6為不同方法的敏感數(shù)據(jù)挖掘內(nèi)存占用率對比圖。從圖6中的情況來看,本文方法所占用的內(nèi)存容量較少,而其他2種方法所占用的內(nèi)容容量較多,主要是因?yàn)楸疚哪軌蝽樌@取可挖掘數(shù)據(jù)特征,避免了多次數(shù)據(jù)挖掘,從而降低了內(nèi)存占用率。這表明在對敏感數(shù)據(jù)流進(jìn)行挖掘的性能上,本文方法具有更大的優(yōu)勢。

      Figure 6 Comparison of memory usage of different methods圖6 不同方法內(nèi)存占用率對比

      5 結(jié)束語

      復(fù)雜信息網(wǎng)絡(luò)中存在大量的敏感數(shù)據(jù)流,對其進(jìn)行有效挖掘,能夠促使網(wǎng)絡(luò)更加高效地運(yùn)行。針對現(xiàn)有方法存在數(shù)據(jù)挖掘精度低、挖掘時間長、占用內(nèi)存大等問題,本文提出了一種新的網(wǎng)絡(luò)敏感數(shù)據(jù)流動態(tài)挖掘方法。采用最大類間散度確定最優(yōu)散度迭代函數(shù),對迭代函數(shù)最優(yōu)值進(jìn)行計(jì)算,獲取可挖掘的動態(tài)特征。以此為依據(jù),對可挖掘特征進(jìn)行聚類分析,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)挖掘。

      將本文方法與文獻(xiàn)[7,8]方法進(jìn)行對比,結(jié)果表明:

      (1)數(shù)據(jù)的可挖掘特征獲取概率較高,進(jìn)而降低了數(shù)據(jù)挖掘次數(shù),節(jié)約了數(shù)據(jù)挖掘時間,并降低了內(nèi)存占用率;

      (2)聚類分析中,labels標(biāo)記估計(jì)值與實(shí)際值之間的差異較小,說明對可挖掘特征的聚類質(zhì)量良好,進(jìn)而提高了數(shù)據(jù)挖掘精度。

      綜上可知,本文所提方法的數(shù)據(jù)挖掘性能較好,為數(shù)據(jù)的深入研究奠定了基礎(chǔ),具有一定的參考價值。

      猜你喜歡
      敏感數(shù)據(jù)散度數(shù)據(jù)流
      干擾條件下可檢索數(shù)字版權(quán)管理環(huán)境敏感數(shù)據(jù)的加密方法
      帶勢加權(quán)散度形式的Grushin型退化橢圓算子的Dirichlet特征值的上下界
      實(shí)現(xiàn)虛擬機(jī)敏感數(shù)據(jù)識別
      汽車維修數(shù)據(jù)流基礎(chǔ)(下)
      具有部分BMO系數(shù)的非散度型拋物方程的Lorentz估計(jì)
      基于透明加密的水下通信網(wǎng)絡(luò)敏感數(shù)據(jù)防泄露方法
      基于4A平臺的數(shù)據(jù)安全管控體系的設(shè)計(jì)與實(shí)現(xiàn)
      H型群上一類散度形算子的特征值估計(jì)
      一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機(jī)制
      H?rmander 向量場上散度型拋物方程弱解的Orlicz估計(jì)
      轮台县| 额敏县| 新化县| 南岸区| 德保县| 滁州市| 安泽县| 南投县| 吉林省| 华蓥市| 通许县| 天长市| 友谊县| 富裕县| 荔波县| 申扎县| 彭山县| 镇宁| 历史| 霍州市| 林芝县| 唐海县| 清苑县| 丽水市| 红安县| 新丰县| 河西区| 江山市| 台中县| 绥滨县| 九江市| 开封市| 金门县| 德江县| 天台县| 汤阴县| 平罗县| 文山县| 石景山区| 宾川县| 柘荣县|