錢景輝 成 偉 李榮雨
(南京工業(yè)大學電子與信息工程學院,江蘇 南京 211816)
基于改進自組織特征映射的網絡入侵檢測
錢景輝 成 偉 李榮雨
(南京工業(yè)大學電子與信息工程學院,江蘇 南京 211816)
針對如何提高網絡入侵檢測率并進行正確分類的問題,提出了一種改進的自組織特征映射(SOM)網絡算法。該算法通過對競爭機制的自適應調整來減少過度學習,并采用灰關系分析的動態(tài)權值機制降低鄰域神經元中雜質的影響。KDDCUP99數(shù)據(jù)集的試驗結果表明該方法具有更高的準確率。
自組織特征映射 神經網絡 自適應競爭機制 灰關系 入侵檢測
隨著信息技術的發(fā)展,網絡安全問題越來越受到人們的關注。傳統(tǒng)的網絡安全防范主要是使用控制技術和防火墻來抵御網絡入侵。盡管這些被動的防御技術在內網和外網之間提供了一定的安全保障,但它們無法有效解決內部用戶濫用權力、自身存在的設計缺陷等問題。入侵檢測作為一種主動防御技術,它根據(jù)網絡或者計算機系統(tǒng)中所采集的特征信息的分析,判斷是否存在非法行為,不僅可以應付外來的入侵,也可以檢測出內部的攻擊行為。
目前,常見的入侵檢測方式有專家系統(tǒng)、統(tǒng)計分析、神經網絡和計算機免疫學這四種方法。本文的入侵檢測采用的是有監(jiān)督的自組織特征映射(self-organizing map,SOM)神經網絡,對傳統(tǒng)“勝者全得”的競爭機制進行了自適應調整,防止由于某一類樣本過多導致的過度學習現(xiàn)象[1]。同時,采用灰關系系數(shù)來動態(tài)更新權值的方法[2],進一步去除鄰域中的雜質,提高網絡的精確度。
1.1 SOM網絡基本結構
自組織特征映射網絡[3-4]是芬蘭赫爾辛基大學教授Teuvo Kohoen提出的一種通過自組織特征映射調整權值,從而收斂于一種表示形態(tài)的自組織競爭神經網絡,又稱為Kohoen網絡。該網絡結構通常為包含輸入層和競爭層兩層的前饋神經網絡,在有監(jiān)督的學習中,還會額外包含一個輸出層。其中輸入層的神經元個數(shù)與輸入樣本的維數(shù)N一致,競爭層則包含有M個神經元,這些神經元往往位于二維矩陣或者六邊形網格中[5-6]。有監(jiān)督的SOM網絡拓撲結構如圖1所示。
圖1 有監(jiān)督的SOM網絡拓撲結構
競爭層中的每個神經元都與輸入層的神經元相連,連接權值的維數(shù)都與輸入層神經元數(shù)量相同,即權值wi=(wi1,wi2,…,win) (i=1,2,3,…,m)。初始化的連接權值往往是根據(jù)權值范圍隨機賦予的。當進行學習時,首先需要計算輸入向量X=(x1,x2,…,xN)與競爭層神經元之i間的歐氏距離di,它可以表示為:
(1)
SOM網絡采用“勝者全得”的競爭機制,即根據(jù)與輸入向量歐式距離最小的神經元來調整權值。該神經元被稱為獲勝神經元c,它可以表示為:
(2)
獲勝神經元和周圍的鄰域神經元的權值更新公式如下所示:
(3)
式中:t為學習的迭代次數(shù);hc,i為鄰域函數(shù),用來獲得獲勝神經周圍的節(jié)點。
本文采用的鄰域函數(shù)是高斯函數(shù),表示為:
(4)
式中:||ri-rc||為網格中節(jié)點c和節(jié)點i的距離;α為學習率;σ為對應鄰域函數(shù)的半徑。
a和σ這兩個參數(shù)隨著時間而減少,一般采用以下公式:
(5)
(6)
從式(4)可以看出,作為選擇鄰域節(jié)點的鄰域函數(shù)hc,i是一個遞減函數(shù),它隨著迭代次數(shù)的增加而不斷降低鄰域范圍。事實上,傳統(tǒng)SOM網絡在每個訓練周期中,學習率和鄰域半徑都是相同的,它取決于迭代的次數(shù),而不是訓練的誤差。這樣的機制使得樣本集中占比例較大的主成分樣本在訓練過程中不斷被訓練,而占比例較小的次成分樣本由于學習率和鄰域半徑與前者一樣,訓練次數(shù)遠低于前者,從而沒有得到充分的訓練。再加上勝者全得的機制,使得競爭層中更多的神經元學習主成分樣本的特征。這樣的學習通常會存在冗余,并導致算法的惡化,甚至產生過擬合的現(xiàn)象。對此不少學者進行了探討,他們希望通過對SOM的參數(shù)的調整來降低這種情況帶來的弊端。
常用的改進方法是通過增加神經元的數(shù)量使從非主成分樣本中獲取特征的質量得到提高。但是,這樣的方法也會減少有效的特征,因而獲得更多冗余的特征。同時更多的迭代也會進一步惡化SOM的性能。除此以外,一些學者認為固定的網格劃分難以正確地表達輸出空間的分界面,提出更新權值的同時還應該更新輸出空間坐標的觀點,例如DSOM網絡和AC網絡。這種方法無疑給SOM網絡增加了大量的計算量,當發(fā)生待更新的權值位于兩個聚類中間時,學習就會變得很不穩(wěn)定。
針對主成分過度學習、次成分學習不足的情況,Chen L P等人[1]提出了一種改進的競爭機制,針對每個神經元的特征,采用不同的學習率和權值更新方法,從而減少主成分的學習,加強次成分的學習。本文根據(jù)這一思想,在SOM網絡中加入了自適應競爭機制和動態(tài)權值更新機制,對傳統(tǒng)的SOM進行了改進。
1.2 自適應競爭機制
(7)
(8)
從式(7)~式(8)可以看出,通過競爭獲勝的神經元的學習率和鄰域半徑在同一個訓練周期中是不同的,這個取決于它與學習樣本間的距離。當輸入向量與權值接近時,σc(t)≈σ(t)(1+ε)-1,αc(t)≈α(t)(1+ε)-1,此時Xj的學習就變弱了;反之,如果輸入向量與權值相差很大,那么σc(t)≈σ(t),αc(t)≈α(t),此時Xj的學習就會正常。這樣使得整個競爭過程不同于過去的“勝者全得”原則,而是根據(jù)自身的情況,自適應地獲得不同的資源。在某種情況下,次成分的一個周期的學習將會超過主成分多個周期的學習量,從而得到更多的學習。
相比較傳統(tǒng)SOM網絡而言,次成分被給予了更多的機會與主成分競爭,使得它們可以被更好地分類。主成分經過多次訓練之后,學習被進一步弱化,避免了過度學習造成的冗余。ε為弱化學習參數(shù),通過對它的調整,可以有效控制弱化學習的程度。本文選取了一個擁有13組二維數(shù)據(jù)的樣本集,每個樣本表示成(xi,yi)的形式,采用傳統(tǒng)SOM網絡和改進SOM網絡進行學習,競爭行為效果對比圖如圖2所示。
圖2(a)表示訓練樣本分布圖,從圖中可以看出,第七個訓練樣本點與其他點之間存在一個較大的距離。圖2(b)表示傳統(tǒng)神經網絡訓練效果圖,顯示了這些點通過傳統(tǒng)SOM訓練的一個可能的分布情況。在圖2(b)中,中間的點是最接近第七個訓練樣本的點,但是由于主成分的過度學習,使得它得不到充分訓練。圖2(c)顯示了一個改進SOM網絡的訓練中間過程,對于本算法,當訓練第七點的向量時,因為存在較大的訓練誤差,學習將會正常,而其他點的學習就會降低。圖2(d)顯示了一個改進SOM網絡的訓練結果,從圖2(d)可以看出,最大距離或者訓練誤差都小于傳統(tǒng)的SOM。
圖2 傳統(tǒng)SOM與改進SOM訓練效果對比圖
1.3 基于灰關系分析的動態(tài)權值
在SOM網絡學習過程中,通過競爭獲勝的節(jié)點來調整鄰域節(jié)點的權值,以加強聚類效果。鄰域節(jié)點的選擇,一般是根據(jù)獲勝節(jié)點周圍六邊形區(qū)域或者高斯函數(shù)獲得,而權值更新的依據(jù)僅僅是學習率和輸入模式。這些方法將輸入的向量與待更新的單個神經元孤立看待,忽略了與其他共同參與競爭的神經元的關系。這種關系可以使用部分關系明確、部分關系不明確的灰關系來表示。
灰色系統(tǒng)理論是一種以灰色朦朧集論為基礎、灰色關聯(lián)為依托的理論體系[7]。其中灰關系分析可以通過定量的描述系統(tǒng)之間的因素,發(fā)現(xiàn)它們之間的關聯(lián)性。將輸入的向量X作為參考模式,權值Wi(i=1,2,…,n)作為比較模式,則它們之間的灰關系系數(shù)可以表示為:
(9)
其中,λ(0<λ<1)為判別系數(shù),并且有:
(10)
(11)
Δij=||xj-wij||
(12)
灰關系系數(shù)ξij表示的是輸入向量和權值在不同維數(shù)上的關聯(lián)度。當Δij→Δmin時,ξij→1,說明此時的Wij相比較于其他神經元的權值而言,與Xj的關聯(lián)度較強;反之,則說明關聯(lián)度較弱。通過這種關聯(lián)度,可以區(qū)分出鄰域中與本次輸入關系較小的神經元。在傳統(tǒng)SOM中,鄰域中的各個神經元僅根據(jù)與輸入向量的歐式距離來更新權值,而沒有考慮各個神經元之間的關聯(lián)度。所以,在進行權值更新時引入灰關系系數(shù)ξij,根據(jù)與其他競爭神經元的關系,對權值進行動態(tài)修改,公式如下所示:
Δwij=α(t)×F(ξij)×[xj-wij(t)]
(13)
根據(jù)上式可以看出,輸入向量與權值關聯(lián)度小的神經元的更新權值將被降低,從而減少了成員中那些雜質的影響,提高了網絡的聚類效果。
本文選用的試驗樣本是KDDCUP99數(shù)據(jù)集,它來自于美國林肯實驗室進行的一項入侵檢測評估項目。一條樣本數(shù)據(jù)代表一次網絡連接,表示成某個時間段內的TCP數(shù)據(jù)包序列的形式。該序列一共有41個特征值,分為3大類:TCP基本特征(如連續(xù)持續(xù)時間、協(xié)議類型等)、內容特征(如訪問控制文件次數(shù)、文件創(chuàng)建次數(shù)等)、流量特征(如單位時間內與相同主機連接數(shù)、連接中SYN錯誤數(shù)量等)[8-9]。同時,對訪問數(shù)據(jù)依次進行標記,判斷是否屬于網絡入侵行為。
樣本中入侵行為的數(shù)據(jù)一共有4大類[10],分別是:拒絕服務攻擊(denial of service,DOS),指的是用戶使用非法的手段占用了大量共享資源的行為;遠程主機未授權訪問(remote to user,R2U),指的是沒有賬號的用戶通過攻擊主機安全缺陷,獲得當?shù)卦L問權限的行為;本地未授權用戶特權訪問 (user to root,U2R),指的是本地用戶利用系統(tǒng)漏洞獲得高級權限的行為;端口監(jiān)視或掃描(probing),指的是對服務器或者網絡進行掃描以獲取安全漏洞的行為。同時,這4大類又可以細分為24小類。本文選取的學習樣本中正常訪問數(shù)據(jù)占37.5%,probing和DOS攻擊各占25%,U2R占10%,R2U占2.5%,并使用Matlab作為仿真平臺,具體試驗流程框圖如圖3所示。
圖3 試驗流程框圖
在定義階段,首先需要對數(shù)據(jù)進行預處理。由于存在大量的特征值,每個特征值的度量也不同,這種差異會對檢測結果造成影響,所以需要進行歸一化處理,公式如下:
(14)
式中:xnew為歸一后的數(shù)據(jù);x為其原始值;Xmax、Xmin為該類數(shù)據(jù)中的最大值和最小值。
然后再將網絡進行初始化,輸入層為41個神經元,競爭層為42個神經元,輸出層為5個神經元,同時對這些神經元的連接權值采用隨機數(shù)進行賦值。在競爭階段,分別計算各個神經元權值與輸入的距離,競爭出獲勝神經元,然后進入學習階段獲取自適應的學習率和鄰域半徑,同時計算各個鄰域神經元與輸入的灰度關系系數(shù),動態(tài)調整獲勝神經元和鄰域神經元的權值。當訓練結束時,形成最終的SOM網絡,再將測試數(shù)據(jù)輸入,就可以得到分類結果。
為了評估試驗結果,使用分類率、檢測率和誤報率作為評估的標準。正確分類率指的是正確分5類數(shù)量在總體樣本中的比例,檢測率是指發(fā)現(xiàn)的攻擊總數(shù)在攻擊樣本總數(shù)中的比例,誤報率是指誤判的正確樣本總數(shù)在樣本總數(shù)中的比例。同時為了驗證試驗的有效性,將改進SOM網絡與傳統(tǒng)SOM網絡進行比較,試驗結果如表1所示。
表1 實驗結果對比表
通過試驗對比可以發(fā)現(xiàn),改進SOM網絡在分類率和檢測率方面都要優(yōu)于傳統(tǒng)的SOM網絡,盡管誤報率有所提升,但還屬于可以接受的范圍。
在SOM神經網絡中,改變傳統(tǒng)單個周期內固定學習率和鄰域半徑的方法,引入自適應的機制,可以有效減少主成分的冗余學習。同時,使用灰關系來分析輸入模式與權值的關聯(lián)度,進行動態(tài)權值的調整,從而有利于去除雜質和提高聚類的性能。在今后的工作中,將使用非固定的神經元數(shù)量,并引入非對稱鄰域的機制來進行進一步的研究。
[1] Chen L P,Liu Y G,Huang Z X,et a1.An improved SOM algorithm and its application to color feature extraction[J].Neural Computer & Application,2014,24(7-8):1759-1770.
[2] Hsu W Y.Embedded grey relation theory in hopfield neural network:application to motor imagery EEG recognition[J].Clinical EEG and Neuroscience,2013,44(4):257-264.
[3] Kohonen T.Self-organizing maps[M].3rd edition.New York:Springer-Verlag Berlin and Heidelberg GmbH & Co.K,2001.
[4] Jagric T,Zunko M.Neural network world:optimized spiral spherical SOM[J].Neural Network World,2013,23(5):422-426.
[5] 楊雅輝,黃海珍,沈晴霓,等.基于增量式GHSOM神經網絡模型的入侵檢測研究[J].計算機學報,2014,37(5):1216-1224.
[6] 任軍號,吉沛琦,耿躍.SOM神經網絡改進及在遙感圖像分類中的應用[J].計算機應用研究,2011,28(3):1170-1172,1182.
[7] 潘志松,陳松燦,張道強.一般化的灰SOM模型及其性能評估[J].計算機學報,2004,27(4):530-534.
[8] 王潔.基于神經網絡的入侵檢測系統(tǒng)的設計與實現(xiàn)[J].計算機應用與軟件,2013,30(5):320-322.
[9] 陳穎悅.一種基于聚類算法的網絡入侵檢測應用[J].廈門理工學院學報,2014,22(1):70-74.
[10]徐國棟.基于數(shù)據(jù)挖掘算法的入侵檢測研究[D].武漢:武漢科技大學,2013.
Network Intrusion Detection Based on the Improved SOM Algorithm
For enhancing network intrusion detection rate and implementing correct classification, the improved self-organizing map (SOM) algorithm is proposed. With this algorithm, excessive learning is decreased through adaptive adjustment of competitive mechanism, and the influence of impurities in neighborhood neurons is reduced by dynamic weights mechanism of grey relation analysis. The result of test based on KDDCUP99 data set shows that this method features higher accuracy.
Self-organizing map (SOM) Neural network Adaptive competitive mechanism Grey relation Intrusion detection
江蘇省高校自然科學基金資助項目(編號:12KJB510007)。
錢景輝(1978-),男,2003年畢業(yè)于新加坡國立大學計算機科學與技術專業(yè),獲碩士學位,講師;主要從事計算機控制與智能算法等方面的研究。
TP393
A
10.16086/j.cnki.issn1000-0380.201510017
修改稿收到日期:2014-11-02。