程顯生,楊 珍,王 俊
(內(nèi)蒙古農(nóng)業(yè)大學(xué)計(jì)算機(jī)技術(shù)與信息學(xué)院,內(nèi)蒙古 呼和浩特 010000)
采用云計(jì)算技術(shù)進(jìn)行網(wǎng)絡(luò)傳輸控制,能提高網(wǎng)絡(luò)輸出的帶寬和容量。然而在云計(jì)算網(wǎng)絡(luò)中,由于網(wǎng)絡(luò)節(jié)點(diǎn)的隨機(jī)分布性和自組網(wǎng)性,會(huì)導(dǎo)致云計(jì)算網(wǎng)絡(luò)容易受到入侵威脅,需要結(jié)合云計(jì)算網(wǎng)絡(luò)的入侵檢測(cè)和入侵?jǐn)?shù)據(jù)的關(guān)聯(lián)規(guī)則分析,對(duì)云計(jì)算網(wǎng)絡(luò)進(jìn)行入侵檢測(cè)[1]。挖掘云計(jì)算網(wǎng)絡(luò)的入侵跳頻數(shù)據(jù)特征量,從而實(shí)現(xiàn)網(wǎng)絡(luò)的云安全管理和信息存儲(chǔ),提高云計(jì)算網(wǎng)絡(luò)的安全性。研究云計(jì)算網(wǎng)絡(luò)的入侵跳頻數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘方法,在確保云計(jì)算網(wǎng)絡(luò)的安全方面具有重要意義[2]。
文獻(xiàn)[3]中提出基于差分隱私的多源數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘方法,采用拉普拉斯機(jī)制和指數(shù)機(jī)制保護(hù)用戶數(shù)據(jù),并運(yùn)用差分隱私方法進(jìn)行關(guān)聯(lián)規(guī)則挖掘。實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的精確性能夠控制在可接受的范圍內(nèi),但是當(dāng)網(wǎng)絡(luò)中干擾信噪比較大時(shí),其挖掘效果不佳。文獻(xiàn)[4]中提出基于粗糙加權(quán)平均單依賴估計(jì)的入侵檢測(cè)算法。該方法使用加權(quán)平均單依賴估計(jì)方法對(duì)網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)進(jìn)行分類,完成對(duì)網(wǎng)絡(luò)數(shù)據(jù)的入侵檢測(cè),但該方法的抗干擾性較差,并且挖掘準(zhǔn)確性不高。除上述方法外,還有相關(guān)研究者提出了基于人工蜂群優(yōu)化的密度聚類異常入侵檢測(cè)算法。在初始化蜜源階段采用不同的編碼方法分別對(duì)入侵跳頻數(shù)據(jù)和特征值進(jìn)行編碼,在鄰域搜索階段利用兩種搜索策略分別對(duì)其進(jìn)行搜索,并在新的適應(yīng)值函數(shù)中加入誤報(bào)率影響因子。但該方法進(jìn)行云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘的準(zhǔn)確率較低,入侵檢測(cè)效果不好。
針對(duì)上述問題,本文提出基于主成分分析與Apriori算法的云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘方法。該方法運(yùn)用Apriori算法檢索入侵跳頻數(shù)據(jù)庫(kù)中的頻繁項(xiàng)集,并結(jié)合主成分分析算法對(duì)頻繁項(xiàng)集中的最小信任度進(jìn)行構(gòu)建,從而降低了不同信噪比對(duì)關(guān)聯(lián)規(guī)則挖掘的影響。同時(shí),該方法通過計(jì)算最小信任度的判決統(tǒng)計(jì)量,為關(guān)聯(lián)規(guī)則的挖掘提供判決依據(jù),從而保障了挖掘結(jié)果的精確性。仿真結(jié)果展示了所提方法在提高云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘能力方面的優(yōu)越性能。
為了實(shí)現(xiàn)云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘,采用分組統(tǒng)計(jì)監(jiān)測(cè)方法構(gòu)建云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的統(tǒng)計(jì)特征監(jiān)測(cè)模型,提取云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的統(tǒng)計(jì)特征量[5,6]。采用一個(gè)無向圖模型G=(V,E)表示入侵跳頻數(shù)據(jù)監(jiān)測(cè)的傳感組網(wǎng)結(jié)構(gòu)模型,在傳輸鏈路模型中,v為云計(jì)算網(wǎng)絡(luò)的根節(jié)點(diǎn),在輸出鏈路層進(jìn)行云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的在線監(jiān)測(cè),對(duì)任一節(jié)點(diǎn)滿足v∈V。三維空間散射簇中,監(jiān)測(cè)節(jié)點(diǎn)的Sink鏈路集為e,散射簇網(wǎng)絡(luò)拓?fù)溥吔Y(jié)構(gòu)滿足e∈E。假設(shè)接收端天線和發(fā)送端天線的傳輸鏈路數(shù)據(jù)集為X={x1,x2,…,xn},構(gòu)建云計(jì)算網(wǎng)絡(luò)入侵環(huán)境下的入侵監(jiān)測(cè)統(tǒng)計(jì)分析模型,用有向圖模型G(A)、G(B)描述。對(duì)于入侵下的統(tǒng)計(jì)特征點(diǎn)用A、B描述,構(gòu)建云計(jì)算入侵跳頻數(shù)據(jù)的統(tǒng)計(jì)特征監(jiān)測(cè)模型,其表達(dá)式為
(1)
(2)
其中,x1(k)和x2(k)分別是X1(k),X2(k)前N/2+1項(xiàng)組成的入侵跳頻數(shù)據(jù)。
根據(jù)上述分析,得到入侵跳頻數(shù)據(jù)的統(tǒng)計(jì)特征監(jiān)測(cè)模型如圖1所示。
圖1 入侵跳頻數(shù)據(jù)的統(tǒng)計(jì)特征監(jiān)測(cè)模型
根據(jù)入侵跳頻數(shù)據(jù)的統(tǒng)計(jì)特征監(jiān)測(cè)模型可知,入侵跳頻數(shù)據(jù)的不同特征通常具有不同的取值區(qū)間范圍,各個(gè)區(qū)間范圍的數(shù)值差異較大,因此提取云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的統(tǒng)計(jì)特征量之前,需要根據(jù)統(tǒng)計(jì)特征監(jiān)測(cè)模型對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理[7]
(3)
將其進(jìn)行轉(zhuǎn)換得到
x(t)=As(t)+n(t)×X1(k)X2(k)
(4)
其中
(5)
(6)
依據(jù)大數(shù)據(jù)采樣離散特征值,采用子載波調(diào)制方法描述入侵節(jié)點(diǎn)分布特性,得到網(wǎng)絡(luò)入侵調(diào)頻數(shù)據(jù)的主成分特征信息
(7)
其中,C4S表示云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)在匯聚鏈路層中的信息強(qiáng)度
C4S=diag[c4s1,c4s2,…,c4sL]
(8)
設(shè)a(t)≥|s(t)|表示入侵?jǐn)?shù)據(jù)在節(jié)點(diǎn)si處的能量譜密度,入侵跳頻數(shù)據(jù)的最大包絡(luò)幅值為|s(t)|,選取入侵?jǐn)?shù)據(jù)的一階統(tǒng)計(jì)量為a(t)的曲線,構(gòu)造如下的4P×4P矩陣表示提取的云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的統(tǒng)計(jì)特征量
(9)
(10)
結(jié)合特征提取結(jié)果進(jìn)行信息融合處理,能夠提高入侵跳頻數(shù)據(jù)的統(tǒng)計(jì)特征分析能力[9]。
在上述提取云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)統(tǒng)計(jì)特征量的基礎(chǔ)上,進(jìn)行數(shù)據(jù)挖掘設(shè)計(jì),結(jié)合Apriori算法構(gòu)建云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的大數(shù)據(jù)分布模型[10]。Apriori算法的實(shí)現(xiàn)原理為先檢索出入侵跳頻數(shù)據(jù)庫(kù)中的所有頻繁項(xiàng)集,然后根據(jù)頻繁項(xiàng)集構(gòu)造出的最小信任度實(shí)現(xiàn)入侵跳頻數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘。
云計(jì)算網(wǎng)絡(luò)中的關(guān)聯(lián)規(guī)則挖掘轉(zhuǎn)發(fā)控制協(xié)議,用如下形式表示
(11)
其中,γth表示轉(zhuǎn)發(fā)流優(yōu)先級(jí),Pr表示可靠概率要求,G表示擁塞度信息,hi表示收發(fā)速率比。
(12)
其中,ai∈{0,1},0≤k<2s。
假設(shè),a1,a2∈V,b1,b2∈V′,對(duì)于云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)分布的Sink節(jié)點(diǎn)EHs(j)和EHt(k),采用Apriori算法構(gòu)建網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的大數(shù)據(jù)分布模型[12],其表達(dá)式為
(13)
W(p)=Tl1GTp2-Cp+αT
(14)
其中,W(p)表示云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)頻繁項(xiàng)集p的二次函數(shù),GT表示入侵跳頻數(shù)據(jù)生成速率,α表示入侵跳頻數(shù)據(jù)的到達(dá)率。
μ(n)=
(15)
設(shè)置云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘的成功概率,給出各變量集合的轉(zhuǎn)發(fā)控制協(xié)議,根據(jù)改進(jìn)的主成分分析算法進(jìn)行自適應(yīng)迭代,直到滿足收斂準(zhǔn)則,根據(jù)覆蓋范圍實(shí)現(xiàn)云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)關(guān)聯(lián)規(guī)則的挖掘。
為了驗(yàn)證所提方法在實(shí)現(xiàn)云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘中的應(yīng)用性能,進(jìn)行仿真。將基于差分隱私的多源數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘方法(方法1)、基于粗糙加權(quán)平均單依賴估計(jì)的入侵檢測(cè)算法(方法2)、基于人工蜂群優(yōu)化的密度聚類異常入侵檢測(cè)算法(方法3)作為對(duì)比方法,進(jìn)行對(duì)比驗(yàn)證。
在本實(shí)驗(yàn)中所使用的數(shù)據(jù)均來自于KDD CUP-99數(shù)據(jù)集。該數(shù)據(jù)集主要用于入侵檢測(cè)評(píng)估,其中包括由各種不同用戶類型、不同網(wǎng)絡(luò)和攻擊手段生成的真實(shí)數(shù)據(jù)集。該數(shù)據(jù)集具有約500萬條數(shù)據(jù),數(shù)據(jù)異常類型主要被分為4大類,共計(jì)22種攻擊行為。本文選取的網(wǎng)絡(luò)入侵類型為DoS、Probe和ipsweep三種入侵方式,入侵跳頻數(shù)據(jù)采集的基頻頻率為20KHz,入侵?jǐn)?shù)據(jù)的調(diào)制頻率在[240Hz-1200Hz]之間發(fā)生變化,實(shí)驗(yàn)設(shè)計(jì)采用Matlab軟件進(jìn)行。
采用分組統(tǒng)計(jì)監(jiān)測(cè)方法構(gòu)建云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的統(tǒng)計(jì)特征量,得到原始的網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)時(shí)域分布如圖2所示。
圖2 云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)時(shí)域分布
以圖2中的數(shù)據(jù)為輸入,提取云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的關(guān)聯(lián)規(guī)則特征量,采用主成分分析與Apriori算法對(duì)云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的挖掘過程進(jìn)行自適應(yīng)尋優(yōu),得到關(guān)聯(lián)規(guī)則挖掘結(jié)果如圖3所示。
圖3 入侵?jǐn)?shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘結(jié)果
分析圖3得知,采用所提方法進(jìn)行云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘時(shí),能夠有效在入侵跳頻數(shù)據(jù)時(shí)域分布中挖掘出關(guān)聯(lián)規(guī)則項(xiàng)。這是由于該方法通過統(tǒng)計(jì)特征監(jiān)測(cè)模型提取了統(tǒng)計(jì)特征量,有利于入侵跳頻數(shù)據(jù)關(guān)聯(lián)規(guī)則的挖掘。
由于在挖掘過程中會(huì)受到外在條件的干擾,因此,在干擾信噪比不同的條件下進(jìn)行網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘,測(cè)試基于差分隱私的多源數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘方法、基于粗糙加權(quán)平均單依賴估計(jì)的入侵檢測(cè)算法、基于人工蜂群優(yōu)化的密度聚類異常入侵檢測(cè)算法與所提方法的抗干擾系數(shù),測(cè)試結(jié)果如圖4所示。
圖4 不同方法抗干擾系數(shù)對(duì)比
分析圖4可知,在干擾信噪比不同的條件下,雖然方法1的抗干擾系數(shù)最高值最高,但是所提方法的抗干擾系數(shù)整體上優(yōu)于現(xiàn)有方法,其抗干擾系數(shù)始終保持在0.8以上,說明所提方法能夠抵御干擾因素的影響,實(shí)現(xiàn)入侵跳頻數(shù)據(jù)關(guān)聯(lián)規(guī)則的有效挖掘。這是由于該方法能夠通過Apriori算法檢索出入侵跳頻數(shù)據(jù)庫(kù)中的頻繁項(xiàng)集,在此基礎(chǔ)上采用主成分分析算法對(duì)頻繁項(xiàng)集中的最小信任度進(jìn)行構(gòu)建,為實(shí)現(xiàn)關(guān)聯(lián)規(guī)則挖掘提供了有力保障。
為了驗(yàn)證所提方法的全面性,測(cè)試不同方法進(jìn)行云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘的準(zhǔn)確率,得到對(duì)比結(jié)果如圖5所示。
圖5 關(guān)聯(lián)規(guī)則挖掘準(zhǔn)確率對(duì)比
分析圖5得知,隨著輸入信噪比的增大,不同方法的入侵跳頻數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘的準(zhǔn)確率呈現(xiàn)出不斷變化的趨勢(shì),其中,所提方法的挖掘準(zhǔn)確率高于現(xiàn)有方法,其挖掘結(jié)果準(zhǔn)確率最高值約為87%,說明采用所提方法進(jìn)行云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘的準(zhǔn)確率較高,入侵檢測(cè)效果較好。這是由于該方法在關(guān)聯(lián)規(guī)則挖掘過程中能夠有效獲取入侵跳頻數(shù)據(jù)庫(kù)中的所有頻繁項(xiàng)集及其最小信任度,并得到了最小信任度的判決統(tǒng)計(jì)量,為關(guān)聯(lián)規(guī)則的挖掘提供判決依據(jù),從而提升了關(guān)聯(lián)規(guī)則挖掘結(jié)果的準(zhǔn)確率。
在云計(jì)算網(wǎng)絡(luò)中,由于網(wǎng)絡(luò)節(jié)點(diǎn)的隨機(jī)分布性和自組網(wǎng)性,導(dǎo)致云計(jì)算網(wǎng)絡(luò)容易受到入侵,需要對(duì)云計(jì)算網(wǎng)絡(luò)進(jìn)行入侵檢測(cè),提出基于主成分分析與Apriori算法的云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘方法。下面對(duì)研究成果進(jìn)行分析:
1)通過無向圖模型表示入侵跳頻數(shù)據(jù)監(jiān)測(cè)的傳感組網(wǎng)結(jié)構(gòu)模型,構(gòu)建特征統(tǒng)計(jì)模型,結(jié)合兩個(gè)模型實(shí)現(xiàn)特征量的提取。
2)根據(jù)特征量提取結(jié)果,建立非線性特征序列分布集,并將主成分分析算法和Apriori算法應(yīng)用于關(guān)聯(lián)規(guī)則挖掘中,實(shí)現(xiàn)關(guān)聯(lián)規(guī)則的準(zhǔn)確挖掘。
3)根據(jù)實(shí)驗(yàn)結(jié)果得出,所提方法挖掘結(jié)果準(zhǔn)確率最高值為87%,并且抗干擾系數(shù)能夠維持在0.8以上。表明運(yùn)用所提方法進(jìn)行云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘的抗干擾性能較好、準(zhǔn)確率較高,適用于云計(jì)算網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘工作。
雖然所提方法有效改善了現(xiàn)有方法存在的抗干擾性能不佳和挖掘結(jié)果準(zhǔn)確率不高的問題,但是在目前數(shù)據(jù)庫(kù)更新速度較快的背景下,要想實(shí)現(xiàn)入侵跳頻數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘,必須考慮時(shí)效性,進(jìn)一步提升該方法的應(yīng)用性能。