摘" 要: 未知訪問源以匿名方式進行攻擊或入侵是一種具有匿名性和變化性特點的攻擊手段,其多樣化和復(fù)雜性使得準(zhǔn)確識別攻擊者的來源變得困難,增加了預(yù)警的難度。為此,提出一種移動網(wǎng)絡(luò)未知訪問源安全性遠(yuǎn)程預(yù)警方法。構(gòu)建平均功率譜密度函數(shù),結(jié)合不同特征構(gòu)建訪問行為特征向量,利用半監(jiān)督支持向量機識別訪問行為,利用二階時域分布檢測方法得到特征重組后的信號;其次,引入隨機森林算法檢測惡意訪問行為,計算具體惡意訪問行為風(fēng)險發(fā)生概率,依據(jù)風(fēng)險等級實現(xiàn)未知訪問源安全性遠(yuǎn)程預(yù)警。實驗結(jié)果表明,所提方法的整體漏警率最高僅為2%,誤警率均在1%以下,且內(nèi)存開銷接近內(nèi)存閾值。
關(guān)鍵詞: 移動網(wǎng)絡(luò); 未知訪問源; 安全威脅識別; 遠(yuǎn)程預(yù)警; 訪問行為檢測; 半監(jiān)督支持向量機
中圖分類號: TN926+.1?34; TP277" " " " " " " " " "文獻標(biāo)識碼: A" " " " " " " " " 文章編號: 1004?373X(2024)12?0069?05
Simulation of remote security warning for unknown access sources in mobile networks
SHEN Yuexin, YIN Xiaoyu, ZHANG Min, XU Jingxuan
(School of Computer Science and Engineering, Northeastern University, Shenyang 110167, China)
Abstract: Anonymous attacks or intrusions from unknown access sources are a type of attack method with characteristics of anonymity and variability. Its diversity and complexity make it difficult to accurately identify the source of the attacker, increasing the difficulty of early warning. To this end, a remote security warning for unknown access sources in mobile networks is proposed. An average power spectral density function is constructed, the access behavior feature vectors is constructed by combinign with different features, semi?supervised support vector machine is used to identify access behavior, and the second?order time?domain distribution detection method is used to obtain the signal after feature recombination. The random forest algorithm is introduced to detect malicious access behavior, calculate the probability of specific malicious access behavior risks, and implement remote security warning for unknown access sources based on risk levels. The experimental results show that the overall 1 alarm rate of the proposed method is only 2%, with 1 alarm rates below 1%, and memory overhead close to the memory threshold.
Keywords: mobile network; unknown access source; security threat identification; remote warning; access behavior detection; semi?supervised support vector machine
0" 引" 言
未知訪問源是一種常見的攻擊手段,攻擊者通過匿名方式進行攻擊,使得網(wǎng)絡(luò)安全防護變得更加困難[1]。由于移動網(wǎng)絡(luò)承載了大量的重要信息,如個人隱私、商業(yè)機密等,面對未知訪問源的攻擊,這些重要信息的安全性會受到威脅。因此,為了保證移動網(wǎng)絡(luò)的安全性,維護用戶的利益,未知訪問源安全性遠(yuǎn)程預(yù)警方法成為研究熱點。高兵等人采用輕量級梯度提升機作為移動網(wǎng)絡(luò)未知訪問源安全性檢測模型,通過麻雀搜索算法改進粒子群優(yōu)化算法,獲取輕量級梯度提升機最優(yōu)參數(shù),實現(xiàn)網(wǎng)絡(luò)入侵檢測[2]。吳啟睿等人采用卷積神經(jīng)網(wǎng)絡(luò)降維移動網(wǎng)絡(luò)未知訪問源數(shù)據(jù),提取數(shù)據(jù)特征并構(gòu)造多粒度特征空間,通過三支決策理論實時判定未知訪問源行為,輸出網(wǎng)絡(luò)入侵檢測結(jié)果[3]。由于上述方法沒有考慮移動網(wǎng)絡(luò)的特殊性以及存在的未知威脅,導(dǎo)致漏警率和誤警率較高,內(nèi)存開銷過低。為此,本文提出一種移動網(wǎng)絡(luò)未知訪問源安全性遠(yuǎn)程預(yù)警方法。
1" 未知訪問源安全威脅識別
移動網(wǎng)絡(luò)涉及大量的個人信息和敏感數(shù)據(jù),如銀行賬戶、密碼等。如果未知訪問源存在安全威脅,會竊取這些私密信息,導(dǎo)致系統(tǒng)不穩(wěn)定,影響正常的通信和數(shù)據(jù)傳輸[4]。因此,采用未知訪問源訪問網(wǎng)絡(luò)資源地址(Uniform Resource Identifier, URI)的日志作為分析單位,通過時間序列處理方法向量化處理訪問日志,使用聚類算法標(biāo)記訓(xùn)練樣本[5?6],從而實現(xiàn)未知訪問源安全威脅行為識別。
設(shè)某未知訪問源[B]在某時間段內(nèi)對移動網(wǎng)絡(luò)中域名[R]訪問總次數(shù)為[D],記作時間序列[xt,m,s,l],其中,[t]表示訪問時間,[m]表示未知訪問源[B]對域名[R]的訪問頻率,[s]表示該未知訪問源訪問的URL參數(shù)字符串,[l]表示經(jīng)由深度包檢測獲取到的應(yīng)用類別。采用[si]和[sj]表示第[i]次和第[j]次訪問的參數(shù)字符串,構(gòu)建[si]和[sj]的關(guān)系矩陣[7],獲取[si]和[sj]的相似度,記作[ψ]。
平均功率譜密度函數(shù)可以識別未知訪問源訪問行為中的周期性模式,表明存在潛在的安全威脅或異常行為。將未知訪問源的域名訪問序列[xt,m,s,l]在時間段2T時間內(nèi)截斷信號的傅里葉變換[8?9]表示為[XTω],[ω]表示頻率,由此得到[xt,m,s,l]的平均功率譜密度函數(shù)如下:
[Pxω=limT→∞12TXTω2] (1)
利用平均功率譜密度函數(shù)分析未知訪問源的訪問行為中參數(shù)特征,從而識別潛在的安全威脅。移動網(wǎng)絡(luò)未知訪問源安全威脅訪問行為的各項特征如下。
1) URI參數(shù)信息熵
當(dāng)未知訪問源對移動網(wǎng)絡(luò)造成安全威脅時,URI中一般包含較多參數(shù),本文采用信息熵評價URI參數(shù)有序化程度[10],以了解參數(shù)在不同頻率上的重要性,從而發(fā)現(xiàn)潛在的安全威脅。結(jié)合[ψ]和最長公共子串[ζsi,sj]獲取[si]和[sj]之間相似性度量與信息熵:
[simsi,sj=ζsi,sjψ?PxωHURL=simsi,sj?lgPc] (2)
式中[Pc]表示第[c]個URI參數(shù)出現(xiàn)的概率。
2) 時間窗口內(nèi)域名訪問相似性
由高頻特征角度分析安全訪問的訪問頻率較為規(guī)律,而存在安全威脅的訪問雖然頻發(fā)但周期性不明顯[11]。為此,根據(jù)URI參數(shù)信息熵計算結(jié)果,采用時間窗口分析一段時間內(nèi)未知訪問源訪問某域名的行為軌跡,若在同一時間窗口內(nèi)多個不同域名的訪問行為存在一定的相似性,表明存在異常行為。未知訪問源在時間窗口內(nèi)的域名訪問相似性公式如下:
[D=i=1Edti,ti+1E-i?HURL] (3)
式中:[dti,ti+1]為時間[ti]至[ti+1]內(nèi)訪問次數(shù)的歐幾里得距離。
3) 網(wǎng)站標(biāo)簽類別
為了防止誤攔截部分高頻信任流量,利用時間窗口分析計算后的域名訪問相似性,細(xì)化網(wǎng)站類別標(biāo)簽,若某流量無法被成功識別,則將其劃分至應(yīng)用類別中。用[vi]表示第[i]次訪問的應(yīng)用類別,則網(wǎng)站標(biāo)簽類別[Cweb]公式如下所示:
[Cweb=i=1EviDE]" "(4)
4) 異常時間訪問發(fā)生頻率
若某未知訪問源在異常時段內(nèi)頻繁訪問移動網(wǎng)絡(luò)中某網(wǎng)站,則認(rèn)為該未知訪問源存在較高的安全威脅嫌疑,即訪問通常具有時間特征。因此,根據(jù)網(wǎng)站標(biāo)簽類別特征,檢測未知訪問源的訪問中是否存在安全威脅,異常時間訪問發(fā)生頻率表示為[Ptime]。
將以上各項訪問行為特征結(jié)合起來,檢測與正常行為模式明顯不符的訪問行為。一旦發(fā)現(xiàn)異常,即表明存在潛在安全威脅。利用以上特征構(gòu)建樣本[?=HURL,D,Cweb,Ptime],通過高斯混合層次聚類算法劃分樣本為安全訪問和造成安全威脅的訪問。由于移動網(wǎng)絡(luò)數(shù)據(jù)量的爆炸式增長,未標(biāo)記數(shù)據(jù)量也隨之增加,因此選取半監(jiān)督支持向量機(Four?Class Support Vector Machine, S4VM)模型實現(xiàn)移動網(wǎng)絡(luò)未知訪問源識別[12],以避免樣本空間過小、標(biāo)記數(shù)據(jù)代價過高的情況。
設(shè)存在未標(biāo)記樣本集[Gu],其中包含[n]個樣本,[fm]表示利用高斯混合層次聚類劃分的S4VM第[m]個分界線,[ym]表示第[m]個類別,則未知訪問源安全威脅識別的表達式為:
[hfm,ym=minυ2?+C1?γξi+C2?γξi] (5)
式中:[γ?]表示衡量分界線差異化程度的懲罰函數(shù);[υ]表示超平面垂直向量;[?]表示超平面偏置;[C1]和[C2]表示S4VM影響因子;[ξi]和[ξi]表示高斯混合層次聚類平衡約束條件。
2" 未知訪問源安全性遠(yuǎn)程預(yù)警
根據(jù)以上獲取的未知訪問源安全威脅識別結(jié)果,對存在安全威脅的未知訪問源安全性進一步檢測并預(yù)警。采用隨機森林算法作為移動網(wǎng)絡(luò)未知訪問源惡意訪問行為檢測模型[13],將潛在惡意訪問信號輸出波束結(jié)構(gòu)特征分量表示為[ft],移動網(wǎng)絡(luò)未知訪問源潛在惡意訪問信號零均值、統(tǒng)計隨機分布和非高斯序列分別可以表示為[s0t]、[sLt]和[sHt],利用二階時域分布檢測方法獲取惡意訪問信號的高階矩分量并構(gòu)建對應(yīng)的差分融合序列,得到特征重組后的信號輸出[Ct]:
[Ct=fts0thfm,ymsHt-sCt]" (6)
根據(jù)信號輸出,獲取未知訪問源潛在惡意訪問特征分布式融合的隨機離散分布序列[zt]:
[zt=Ctδftρ-yt]" " " " " " " "(7)
式中:[δ]表示頻點信息;[ρ]表示潛在惡意訪問信號的互功率譜密度;[yt]表示殘留噪聲項。
由于未知訪問源潛在惡意訪問信號為帶有時頻耦合特征的線性隨機離散序列[14],因此,引入特征辨識度參數(shù)分析法分解潛在惡意訪問信號特征,獲取時頻特征點[rt]?;跁r頻特征點,通過隨機森林算法量化惡意訪問特征分布[Lγ],公式為:
[Lγ=ztb0vi?lgχ?op]" " " " " " "(8)
式中:[χ]表示量化后特征;[b0]表示特征檢測關(guān)聯(lián)系數(shù);[op]表示通道[p]檢測到的特征分量。
根據(jù)惡意訪問特征分布量化結(jié)果,得到未知訪問源潛在惡意訪問信號譜特征[LOUT]輸出:
[LOUT=Wilg1-bijLγ]" " " " "(9)
式中:[Wi]表示調(diào)制信號擾動量;[bij]表示惡意訪問檢測的多指標(biāo)融合參數(shù)。
基于獲取到的惡意訪問信號譜特征量,通過聚類分析即可實現(xiàn)移動網(wǎng)絡(luò)未知訪問源具體惡意訪問行為檢測。根據(jù)惡意訪問行為造成的安全威脅,為網(wǎng)絡(luò)定義五種風(fēng)險等級,記作[F1]、[F2]、[F3]、[F4]、[F5],分別表示最高風(fēng)險、高風(fēng)險、中等風(fēng)險、低風(fēng)險和最低風(fēng)險,同時分析惡意訪問行為的安全威脅特征。假設(shè)在移動網(wǎng)絡(luò)中共有[n]條鏈路,采用安全威脅因素描述其特征,對其進行無量綱處理[15],用[?]表示處理后風(fēng)險評價指標(biāo)特征值。利用未知訪問源潛在惡意訪問信號譜特征,獲取惡意訪問行為評價指標(biāo)特征矩陣[Zl]:
[Zl=zl11zl12…zl1mzl21zl22…zl2m????zln1zln2…zlnm=zlsu] (10)
式中:[zlsu]為鏈路[s]的指標(biāo)[u]在惡意行為[l]下的特征值。
假設(shè)依據(jù)[m]項安全威脅因素和5個等級識別已知指標(biāo)標(biāo)準(zhǔn)的特征值,可得到指標(biāo)標(biāo)準(zhǔn)矩陣[ψl]:
[ψl=?l11?l12…?l1m?l21?l22…?l2m?????l51?l52…?l5m=?lhj]" " " (11)
式中:[?lhj]為惡意行為[l]下風(fēng)險評價指標(biāo)的[h]級標(biāo)準(zhǔn)值。
由于不同移動網(wǎng)絡(luò)鏈路的安全威脅因素存在一定差別,因此根據(jù)惡意訪問行為評價指標(biāo)特征矩陣與指標(biāo)標(biāo)準(zhǔn)矩陣,為不同安全威脅因素賦予不同權(quán)重,依據(jù)不同安全威脅類型,得到評價指標(biāo)特征矩陣的相對隸屬度矩陣:
[S=i=1E?izlsu?lhjLOUT]" " " " " (12)
式中[?i]表示安全威脅因素權(quán)重向量。
在計算移動網(wǎng)絡(luò)未知訪問源惡意訪問行為安全性過程中,構(gòu)建鏈路評判集[U=u1,u2,…,un],其中,[ui]表示存在于鏈路[i]中的安全威脅。各項安全威脅因素權(quán)重向量為[A=α1,α2,…,αn],基于[U],為各項安全威脅因素賦予相應(yīng)權(quán)重,記作權(quán)重向量[B=β1, β2,…, βn],由此得到惡意訪問下的風(fēng)險發(fā)生概率[P]:
[P=αnβn?lhjSLOUT]" "(13)
依據(jù)上式計算風(fēng)險發(fā)生概率,構(gòu)建風(fēng)險發(fā)生概率與風(fēng)險等級之間的對應(yīng)關(guān)系,如下所示。
1) 最高風(fēng)險[F1]:[P∈(0.8,1.0]];
2) 高風(fēng)險[F2]:[P∈(0.6,0.8]];
3) 中等風(fēng)險[F3]:[P∈(0.4,0.6]];
4) 低風(fēng)險[F4]:[P∈(0.2,0.4]];
5) 最低風(fēng)險[F5]:[P∈(0,0.2]]。
綜上,依據(jù)移動網(wǎng)絡(luò)實際運行狀態(tài)設(shè)置報警閾值,實現(xiàn)移動網(wǎng)絡(luò)未知訪問源安全性遠(yuǎn)程預(yù)警。
3" 實驗與結(jié)果
為了驗證移動網(wǎng)絡(luò)未知訪問源安全性遠(yuǎn)程預(yù)警方法整體的有效性,將NS?3平臺作為實驗的軟件環(huán)境。實驗選取CRAWDAD數(shù)據(jù)集,該數(shù)據(jù)集包含多種類型的移動網(wǎng)絡(luò)數(shù)據(jù),可以在仿真中模擬多種場景和情況。將文獻[2]方法和文獻[3]方法作為對比方法,主要在漏警率、誤警率和內(nèi)存開銷方面評估遠(yuǎn)程預(yù)警方法的性能。
1) 漏警率
漏警率是指未發(fā)出預(yù)警的未知訪問源訪問行為中存在安全威脅行為的訪問總數(shù)在總訪問數(shù)中所占比例。漏警率越低,則表示對應(yīng)方法的性能越優(yōu)異。不同方法漏警率檢測結(jié)果如圖1所示。
由圖1可以看出,與文獻[2]方法和文獻[3]方法相比,所提方法整體漏警率較低,最高僅為2%,說明該方法能夠成功預(yù)警到更多的移動網(wǎng)絡(luò)未知訪問源安全問題。
這是因為所提方法以URL為分析單位,采用安全威脅訪問行為特征作為特征樣本,能夠有效識別未知訪問源造成的未知安全威脅,從而降低漏報率,提高安全性。
2) 誤警率
誤警率是指實際未知訪問源為安全訪問時,錯誤檢測出安全威脅訪問行為并預(yù)警的比例。誤警率越低,則表示對應(yīng)方法的性能越優(yōu)異。不同方法誤警率檢測結(jié)果如圖2所示。由圖2可以看出,在相同狀態(tài)下,所提方法整體誤警率均在1%以下,明顯低于文獻[2]方法和文獻[3]方法,即所提方法能夠提供更準(zhǔn)確的預(yù)警結(jié)果。綜上,所提方法對未知訪問源安全狀態(tài)進行識別,檢測訪問行為是否為惡意訪問行為,并預(yù)警存在安全問題行為,能夠有效降低誤警率。
3) 內(nèi)存開銷
考慮安全性和性能之間的權(quán)衡,將內(nèi)存閾值范圍設(shè)定為70%~90%,該范圍內(nèi)的閾值可以在一定程度上保持較高的安全性,同時盡量避免性能下降和不必要的虛警。在內(nèi)存閾值范圍內(nèi),較大的內(nèi)存開銷能夠為遠(yuǎn)程預(yù)警方法提供更多的存儲空間和資源,從而提升方法的性能和反應(yīng)速度。三種方法在不同內(nèi)存閾值下的內(nèi)存開銷檢測結(jié)果如表1所示。
由表1可以看出:所提方法、文獻[2]方法和文獻[3]方法內(nèi)存開銷均未超過內(nèi)存閾值;但在相同情況下,所提方法內(nèi)存開銷更接近內(nèi)存閾值,對內(nèi)存的利用更充分,說明其在處理大量數(shù)據(jù)和復(fù)雜運算時,能夠達到更高的運行效率,更適合用于實際大規(guī)模移動網(wǎng)絡(luò)未知訪問源安全性遠(yuǎn)程實時預(yù)警。
4" 結(jié)" 語
在移動網(wǎng)絡(luò)廣泛應(yīng)用的大環(huán)境下,確保網(wǎng)絡(luò)安全是至關(guān)重要的問題。因此,本文提出一種移動網(wǎng)絡(luò)未知訪問源安全性遠(yuǎn)程預(yù)警方法?;谝苿泳W(wǎng)絡(luò)未知訪問源訪問域名URL,提取特征構(gòu)造訪問行為特征向量,從而識別未知訪問源;通過隨機森林算法計算行為風(fēng)險發(fā)生概率,設(shè)定風(fēng)險發(fā)生概率等級,完成移動網(wǎng)絡(luò)未知訪問源安全性遠(yuǎn)程預(yù)警。實驗結(jié)果表明,所提方法能夠有效地降低漏警率和誤警率,并在合理范圍內(nèi)提升內(nèi)存開銷,可為保證移動網(wǎng)絡(luò)運行安全奠定基礎(chǔ)。
參考文獻
[1] 錢志鴻,肖琳,王雪.面向未來移動網(wǎng)絡(luò)密集連接的關(guān)鍵技術(shù)綜述[J].通信學(xué)報,2021,42(4):22?43.
[2] 高兵,鄭雅,秦靜,等.基于麻雀搜索算法和改進粒子群優(yōu)化算法的網(wǎng)絡(luò)入侵檢測算法[J].計算機應(yīng)用,2022,42(4):1201?1206.
[3] 吳啟睿,黃樹成.結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和三支決策的入侵檢測算法[J].計算機工程與應(yīng)用,2022,58(13):119?127.
[4] 強梓林,劉建國,劉云峰,等.基于時域?頻域哈希編碼的電網(wǎng)圖像檢索方法[J].計算機工程與科學(xué),2022,44(10):1877?1884.
[5] 余海燕,陳京京,邱航,等.嵌套刪失數(shù)據(jù)期望最大化的高斯混合聚類算法[J].自動化學(xué)報,2021,47(6):1302?1314.
[6] 金秋,林馥,裴斐.基于層次聚類的敏感信息安全過濾模型研究[J].計算機仿真,2023,40(10):296?299.
[7] 崔競松,薛慧,王蘭蘭,等.LEDA:一種基于Levenshtein距離的DNA序列拼接算法[J].武漢大學(xué)學(xué)報(理學(xué)版),2022,68(3):271?278.
[8] 張佩,游曉明,劉升.融合動態(tài)層次聚類和鄰域區(qū)間重組的蟻群算法[J].計算機應(yīng)用研究,2023,40(6):1666?1673.
[9] 張少東,楊興耀,于炯,等.基于對比學(xué)習(xí)和傅里葉變換的序列推薦算法[J].電子科技大學(xué)學(xué)報,2023,52(4):610?619.
[10] 魏鈺軒,陳瑩.基于自適應(yīng)層信息熵的卷積神經(jīng)網(wǎng)絡(luò)壓縮[J].電子學(xué)報,2022,50(10):2398?2408.
[11] 張大海,武傳健,和敬涵,等.利用測量波阻抗歐幾里得距離的柔性直流輸電線路后備保護方案[J].電網(wǎng)技術(shù),2021,45(10):3895?3906.
[12] 王周春,崔文楠,張濤.基于支持向量機的長波紅外目標(biāo)分類識別算法[J].紅外技術(shù),2021,43(2):153?161.
[13] 陳香松,陶建峰,劉成良.基于隨機卷積核與孤立森林柱塞泵異常檢測方法[J].液壓與氣動,2023,47(2):26?33.
[14] 帥爽,張志,張?zhí)?,?特征優(yōu)化結(jié)合隨機森林算法的干旱區(qū)植被高光譜遙感分類方法[J].農(nóng)業(yè)工程學(xué)報,2023,39(9):287?293.
[15] 冷雪敏,許傲然,谷彩連,等.基于無量綱化處理的直接試驗回路兩參數(shù)TRV計算方法研究[J].南京理工大學(xué)學(xué)報, 2023,47(2):271?276.