易 燦,彭 婷
(湖南大眾傳媒職業(yè)技術學院,湖南 長沙 410100)
目前,用戶對網(wǎng)絡運維提出更高要求,主要體現(xiàn)在網(wǎng)絡流量識別、預測、流量異常的監(jiān)控等方面。流量識別算法和網(wǎng)絡流量模型在網(wǎng)絡設計、服務質量、網(wǎng)絡管理及監(jiān)視中起著重要作用。任何情況下的應用程序與管理員都需要實時監(jiān)視網(wǎng)絡運行狀況,以保證網(wǎng)絡服務質量與網(wǎng)絡安全,從而通過使用網(wǎng)絡流量應用程序層分類技術來防止網(wǎng)絡攻擊影響管網(wǎng)。
網(wǎng)絡流量分類技術的關鍵性作用在于對網(wǎng)絡流量的細粒度進行深入分析,能夠承載各個通路網(wǎng)絡應用所產生的流量,并以此展開網(wǎng)絡流量中的網(wǎng)絡協(xié)議模型,能夠準確分析網(wǎng)絡用戶行為,評估網(wǎng)絡安全水平,并以此為依據(jù)展開流量控制,是實現(xiàn)三網(wǎng)融合的有效手段。
首先,通過檢測端口數(shù)據(jù)來對網(wǎng)絡流量展開分類,這一方法的實效性已經開始逐步減少。結合端口檢測技術下的網(wǎng)絡流量識別技術與相關管理部門提出的規(guī)則,整合出更加完整的通信機制,才能對當前網(wǎng)絡流量進行有效識別與分類,即通過端口與應用協(xié)議之間的映射機制來實現(xiàn)高校的流量分類。
其次,當基于端口映射技術的網(wǎng)絡流量分類起著重要作用時,大規(guī)模網(wǎng)絡流量分類技術的骨干也起著關鍵作用。
再次,考慮到應用層協(xié)議已經全面覆蓋了網(wǎng)絡流量信息中的數(shù)據(jù)?;诖?,從理論層面出發(fā),DPI技術在網(wǎng)絡協(xié)議的識別中具有更高應用價值。DPI技術能夠更加深入挖掘特定協(xié)議,網(wǎng)絡數(shù)據(jù)包中經常會出現(xiàn)穩(wěn)定的字符串的獨特特征,這些字符又存在大多數(shù)帶有網(wǎng)絡通信協(xié)議簽名中。
最后,基于網(wǎng)絡流量統(tǒng)計特征的識別方法具有創(chuàng)新意義,且已成為當前流量識別與分類的主要手段之一。此類方法的作用機制是將與網(wǎng)絡協(xié)議不一致的統(tǒng)計特征進行收集,并通過分類算法,對網(wǎng)絡流量分類情況仿真模擬訓練,以此達成網(wǎng)絡流量精準分類的目的[1]。
自相似性能受定向性行為特征的影響,用戶定期訪問具有穩(wěn)定的隨機訪問過程和時間順序,并且不同用戶訪問內容具有很強的自相關性,網(wǎng)絡流量的運算特征與相似性數(shù)學特性相符合。
首先,滿足網(wǎng)絡流量是平穩(wěn)的隨機過程X=(x(t),t≥0),類似參數(shù)H滿足X(ct)=cH=X(t),t≥0,c>0,0<H<1。
其次,網(wǎng)絡流量運行情況受其自身影響較多,不穩(wěn)定的網(wǎng)絡流量狀態(tài)是正常的。若處于抽象不確定性構造情況下,隨機過程X的平均值為常數(shù)A,A=E{X(t)},而網(wǎng)絡訪問自相關函數(shù)符合R(θ)=E{X*(t)X(T+θ)}。
最后,堆疊X以生成一個時間序列,該時間序列表示為X(m)={Xk(m),k≥θ},并且該時間序列能夠表示出每單位時間所到達的數(shù)量。
對網(wǎng)絡力量進行檢測時,盡管各個對象之間存在較大的時間間隔,但其依舊具備較強的長相關特性。用戶可以結合自身需求對平臺進行訪問,時間間隔通常為數(shù)月、一年或更長時間。以數(shù)學形式表達,將選取時間函數(shù)用X代表,t和t+k時的值分別為X(t)和X(t+k),則長相關函數(shù)表示為:
μ代表平均值,σ代表方差。得出全部相關總和這表明k網(wǎng)絡流量中存在長相關性[2]。
針對屬性的選擇,首先需要結合網(wǎng)絡流量數(shù)據(jù),整合生成相對應的數(shù)據(jù)子集,之后對全部子集展開評估與篩選。通過對比分析,查找出最符合要求的子集,并以此判斷子集的實際優(yōu)越性。如果選擇的子集為最佳,則停止準則,開始驗證;如果選擇的子集沒有達到最佳值,則將原有子集進行替換,并重新進行子集評估。
網(wǎng)絡平臺中關于流量屬性的選擇,可以通過包裝模型的流動特征進行針對性選擇,而包裝模型需要分類器進行評估函數(shù)屬性進行區(qū)分。這一模型識別準確性較高,但是每次搜索都需要選擇一個屬性子集進行交叉,存在識別速度慢、靈活性差的缺點?;诖耍瑢eliefF算法添加至包裝模型的計算過程中,并對各個屬性展開權重分類,之后結合權重,將屬性按照順序進行排列[3]。當相鄰k個樣本時,特征權重值是T,循環(huán)過程為m次,更新后的權重公式表示為:
機器學習用于描述網(wǎng)絡流量樣本集,表示為Y={Y1,Y2,…,Yn},輸出類型集表示為X={X1,X2,…,Xn},以F:X→Y表示網(wǎng)絡流量分析流程。數(shù)據(jù)源涵蓋整體數(shù)據(jù)記錄,在屬性選擇算法的基礎上,分類整理數(shù)據(jù)包資源,通過機器學習識別方法,完成特征的統(tǒng)計,之后創(chuàng)建特征列表,完成數(shù)據(jù)評估與檢測。
K-means聚類算法能夠將數(shù)據(jù)樣本之間的相關性展開聚類,并通過聚類明確未知樣本。但是,由于K-means聚類算法不具備直接用于判斷網(wǎng)絡流量的功能,所以,需要將監(jiān)督學習方法與非監(jiān)督學習方法引入K-means聚類算法中。
數(shù)據(jù)集表示為:Sm={(S1,l1),L,(Sm,l2)}∪(Sm+1,Sm+2,L,Sm+n)。
其中,(Sm,lz)是已知類型的數(shù)據(jù)樣本;L={l1,l2,…,lz}代表流量應用程序具體類型;m和n代表樣本數(shù);z代表應用程序類型的數(shù)量。在K-means算法的基礎上,初始中心點選擇已知類型標簽數(shù)據(jù)的樣本。使用捕獲工具進行專業(yè)認證以捕獲平臺網(wǎng)絡流量數(shù)據(jù),并結合源地址、源端口、目的地址、目的端口以及傳輸協(xié)議屬性將流量數(shù)據(jù)進一步歸納整理,以便于將過濾后的數(shù)據(jù)進行抽樣檢查[4]。
平臺訪問實時數(shù)據(jù)包括瀏覽頁面、上載、下載、交互、網(wǎng)絡安全、數(shù)據(jù)庫訪問等所產生的流量。劃分流量類型并收集相關流量編號,如表1所示。
表1 流量類型及其個數(shù)與占比
選擇IP數(shù)據(jù)包的容量與TCP窗口大小的負載容量,并將兩個數(shù)據(jù)包的到達時間進行標記,以此作為流量分類特征。之后利用IO構建Map/Reduce并進行相關實驗環(huán)境界面映射中輸入數(shù)據(jù),通過在Reduce端選擇屬性,進行度量,設置流量識別模型,運行時將進行并行計算,合并完成后將數(shù)據(jù)分為幾個數(shù)據(jù)塊計算。
通過仿真實驗得出,創(chuàng)建出的新型模型能夠實現(xiàn)對數(shù)據(jù)流量的精準分類,并能快速完成標記流量的識別與分類,通過聚類算法準確計算出未知標簽流,從識別速度出發(fā),通過將樣本數(shù)量從100 M增加到600 M的實驗。實驗結果表明:在樣本數(shù)量逐步遞增的情況下,設計模型的識別效率基本保持穩(wěn)定狀態(tài)。
綜上,本文從3個方面研究了職業(yè)認證平臺的網(wǎng)絡流量監(jiān)控和識別算法。首先,選擇平臺的網(wǎng)絡流量屬性以降低二元性,并采用ReliefF算法和打包模型進行度量;其次,結合K-means聚類算法,采用機器學習中的監(jiān)督學習方法和非監(jiān)督學習方法,建立交通監(jiān)控模型;最后,選擇專業(yè)的認證平臺來捕獲實時數(shù)據(jù)包。實驗證明該模型識別流量準確有效。