• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    流量的集成學(xué)習(xí)與重采樣均衡分類方法

    2020-03-19 10:45:58顧兆軍趙春迪周景賢
    計算機工程與應(yīng)用 2020年6期
    關(guān)鍵詞:網(wǎng)絡(luò)流量準(zhǔn)確率流量

    顧兆軍,吳 優(yōu),2,趙春迪,3,周景賢

    1.中國民航大學(xué) 信息安全測評中心,天津300300

    2.中國民航大學(xué) 中歐航空工程師學(xué)院,天津300300

    3.中國民航大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,天津300300

    1 引言

    網(wǎng)絡(luò)流量分類是網(wǎng)絡(luò)監(jiān)管的基礎(chǔ)工作,隨著網(wǎng)絡(luò)環(huán)境的不斷擴張發(fā)展,網(wǎng)絡(luò)信息監(jiān)管、服務(wù)質(zhì)量控制以及異常檢測等工作都需要基于流量分類來提高效率、降低成本。傳統(tǒng)的流量分類方法基于深度包檢測(Deep Packet Inspection,DPI),通過人工提取數(shù)據(jù)包中的特征序列并形成特征庫,而隨著流量種類和數(shù)量的增加,特征庫的維護成本不斷提高,同時這種方法無法應(yīng)對未知和加密流量[1],因此,基于機器學(xué)習(xí)的流量分類方法開始受到關(guān)注。機器學(xué)習(xí)是一類分類回歸算法的總稱,其核心思想是通過現(xiàn)有數(shù)據(jù)形成一個模型,從而實現(xiàn)后續(xù)數(shù)據(jù)識別。機器學(xué)習(xí)算法已經(jīng)在多個領(lǐng)域得到了應(yīng)用,并取得了卓越的成果[2]。

    圖1 RES-LGBM流量分類過程

    基于機器學(xué)習(xí)的網(wǎng)絡(luò)流量分類研究起步于2005年,Moore 等人[3]完成了網(wǎng)絡(luò)流量的收集處理,從流量數(shù)據(jù)包中提取出了248 種用于訓(xùn)練的數(shù)據(jù)特征,并使用改進核函數(shù)的樸素貝葉斯算法(NBKE)對流量進行了分類,這一系列工作為此后的很多流量分類研究提供了參考。之后的研究中更多著眼于解決流量分類中特定的的問題,如算法提速[4]、新型協(xié)議的識別[5],以及分類機制的改進[6]等,還包含了流量數(shù)據(jù)的不平衡問題。

    數(shù)據(jù)不平衡即樣本中不同類別的數(shù)量差距較大,該問題于各類應(yīng)用場景中普遍存在,是機器學(xué)習(xí)領(lǐng)域的十大問題之一[7]。由于某類樣本占比較大,在訓(xùn)練過程中算法會更偏重該類的分類效果,進而導(dǎo)致模型產(chǎn)生偏向性,即對多數(shù)類的分類效果較好,但對少數(shù)類效果較差。在網(wǎng)絡(luò)流量數(shù)據(jù)中,正常樣本較多,異常和惡意樣本較少,數(shù)據(jù)不平衡的問題十分突出,故需針對該問題進行優(yōu)化,以提高少數(shù)類樣本識別率。

    目前在機器學(xué)習(xí)領(lǐng)域中主要使用特征選擇的方法,基于代價敏感的方法以及重抽樣的方法來處理樣本不均衡問題[8]。Zhong 等人[9]于2009 年將重采樣同決策樹和神經(jīng)網(wǎng)絡(luò)結(jié)合,對P2P流量進行了分類,研究結(jié)果證明了重采樣方法在網(wǎng)絡(luò)流量分類問題中的有效性。Liu等人[10]則于2012 年利用BFS 特征選擇方法結(jié)合各種機器學(xué)習(xí)算法進行了流量分類,其中決策樹算法和BFS結(jié)合(BFS+DT)可以取得良好的分類效果,之后還于2014年[11]對三種數(shù)據(jù)不平衡的修正方法進行了對比,并以此說明了重采樣相對于另外兩種方法的優(yōu)勢。Dong 等人[12]于2016 年研究了基于多層概率神經(jīng)網(wǎng)絡(luò)(MPNN)的流量分類,取得了較好的效果。孫興斌等人[13]于2017年使用基于不確定性的混合型特征選擇(FSMID)方法,在一定程度上消除了數(shù)據(jù)不均衡帶來的影響。王勇等人[14]在2018年基于卷積神經(jīng)網(wǎng)絡(luò)算法(MMN-CNN),提出了一種無需進行特征提取的流量分類方法。上述研究由于機器學(xué)習(xí)算法本身存在一定缺陷,無法取得理想的分類效果,特別是對于少數(shù)類的分類效果較差。針對該問題,本文提出結(jié)合重采樣的梯度增強樹算法RESLGBM(Resampling in Light Gradient Boosting Ma‐chine),利用二者的優(yōu)勢互補,實現(xiàn)了更加精確的流量分類。

    2 基于集成機器學(xué)習(xí)的流量分類方法

    集成學(xué)習(xí)算法的原理是將多個弱分類器進行結(jié)合,即使每個分類器的準(zhǔn)確率不高,也能形成一個效果較強的分類器。集成學(xué)習(xí)算法的決策結(jié)果由多個分類器共同形成,因此能夠有效避免傳統(tǒng)算法存在的過擬合問題,該決策機制也有效地削弱了噪聲的影響[15]。

    采用RES-LGBM 對網(wǎng)絡(luò)流量進行分類的核心是對數(shù)據(jù)進行預(yù)處理,并采用重采樣算法修正數(shù)據(jù)的不平衡性,再利用LightGBM 算法對處理后的數(shù)據(jù)進行訓(xùn)練,實現(xiàn)更準(zhǔn)確的流量分類,其過程如圖1 所示。為進行本次實驗研究,需要使用從真實網(wǎng)絡(luò)環(huán)境中采集,并且已標(biāo)注類別的不均衡流量樣本。

    2.1 機器學(xué)習(xí)在流量分類中的應(yīng)用

    機器學(xué)習(xí)方法通常使用樣本的特征向量作為輸入,并以樣本類別作為輸出,而在流量分類中,可用數(shù)據(jù)均為流量數(shù)據(jù)包,該數(shù)據(jù)無法直接作為算法的輸入,因此需對其進行一定的加工處理。流量分類問題中最有價值的信息為幾乎包含于IP數(shù)據(jù)包的報頭中,其格式如圖2所示。根據(jù)傳輸協(xié)議的工作方式,可以確定源IP 地址、目的IP 地址、源端口號、目的端口號以及傳輸層協(xié)議均相同的數(shù)據(jù)包屬于同一個流,通過將同一個流中的數(shù)據(jù)包頭信息進行提取、整合和計算,便能得到一系列數(shù)據(jù)特征,作為機器學(xué)習(xí)算法的輸入。使用這類特征的優(yōu)點在于,在數(shù)據(jù)處理過程中只涉及數(shù)據(jù)包頭,沒有利用數(shù)據(jù)包本身的內(nèi)容,從而避免了侵犯用戶隱私。

    圖2 IP報頭格式

    本文使用的數(shù)據(jù)格式如圖3,每條數(shù)據(jù)代表一個網(wǎng)絡(luò)流,共有248種特征。

    2.2 LightGBM算法

    圖3 處理后數(shù)據(jù)格式

    LightGBM(LGBM)屬于梯度增強樹算法[16],是集成學(xué)習(xí)算法的一種,該算法主要優(yōu)化了運行速度,同時幾乎沒有降低算法準(zhǔn)確率。梯度增強樹算法集成了多個回歸樹,回歸樹由決策樹算法衍生而來,其節(jié)點的分裂方式和決策樹相同,但對每個葉子節(jié)點賦予了分值。LightGBM 的決策機制如圖4 所示,每棵樹的生成過程中都隨機使用部分樣本和部分?jǐn)?shù)據(jù)特征進行訓(xùn)練以確保樹的多樣性。通過將集合中多個回歸樹的分值相加,即可得到最終的分類結(jié)果[17]。由于需要對多個子樹進行訓(xùn)練,梯度增強樹算法的運行速度低于傳統(tǒng)的決策樹,而LGBM 則通過一系列優(yōu)化手段,使其運行速度到了很大提升,但當(dāng)數(shù)據(jù)樣本出現(xiàn)類間不平衡時,仍會導(dǎo)致其產(chǎn)生分類偏差,需要針對該問題進行優(yōu)化。

    圖4 LightGBM分類原理

    2.3 重抽樣算法

    重抽樣就是利用數(shù)據(jù)之間的相關(guān)性,通過生成或刪除樣本的方式來改變樣本比例,可分為過采樣、欠采樣以及將二者相結(jié)合的方法。欠采樣方法是根據(jù)某種規(guī)則,剔除部分多數(shù)類樣本,該方法的優(yōu)點是可以在修正數(shù)據(jù)分布比例的同時降低運算量。缺陷在于使用欠采樣可能丟失部分重要信息。與其相對的過采樣方法是指根據(jù)原有樣本生成數(shù)據(jù)來增加少數(shù)類樣本的比例。使用重采樣的方法能夠使得少數(shù)類的比例增加,從而保證該類樣本在多數(shù)子樹的生成過程中得到足夠的訓(xùn)練。雖然一些研究者認(rèn)為這種方法會改變樣本的分布,但樹算法的理論基礎(chǔ)是直接對分類可能性進行建模,而無需對樣本分布進行假設(shè),故樣本分布的改變并不影響LG‐BM的分類效果。本實驗中使用的重采樣算法有ROS(隨機過采樣)、RUS(隨機欠采樣)以及SMOTE-Tomek 算法。

    (1)SMOTE算法

    SMOTE 算法[18]利用了樣本空間中同類樣本距離相近的特點,以現(xiàn)有數(shù)據(jù)為參考,使用插值的方式生成數(shù)據(jù)。

    假設(shè)需要將某類樣本的數(shù)量提升為原來的N 倍,對其中的每個樣本,假設(shè)其向量為x,SMOTE 算法尋找與x 距離最近n 個的同類樣本并隨機選擇一個樣本xk,k ∈{1,2,…,n},并生成一個隨機數(shù)ξ,合成新樣本:

    x′=x+ξ·(xn-x)

    重復(fù)N-1次,即可使樣本量達到目標(biāo)數(shù)量。SMOTE算法多用于解決樣本量不足的問題,當(dāng)生成的數(shù)據(jù)能夠擬合真實分布時,將取得良好的效果。

    (2)Tomek-Link

    Tomek-Link 描述了一種樣本間關(guān)系[19],其定義如下。

    定義1假設(shè)樣本空間為X,樣本間距離為d,對于任意的xi,xj∈X,若不屬于同一類別,且對于任意的xk∈X,都有d(xi,xk)>d(xi,xj)且d(xj,xk)>d(xi,xj),則稱(xi,xj)為一個Tomek-link對。

    可以認(rèn)為一個Tomek-link 對中的兩個樣本中存在噪聲,會對模型的訓(xùn)練過程產(chǎn)生干擾,可以選擇剔除其中的多數(shù)類樣本。相對于單獨使用Tomek-link 欠采樣,將SMOTE 與Tomek-link 結(jié)合,可以在刪除更少樣本的條件下達成樣本量平衡,降低信息損失。

    LGBM 在與重抽樣結(jié)合時分類效果能夠得到顯著的提升。如圖5 所示,LGBM 算法中為了保證子樹的多樣性,在每個子樹的訓(xùn)練過程中會隨機抽取樣本。當(dāng)數(shù)據(jù)存在類間不平衡時,直接進行訓(xùn)練時,由于少數(shù)類樣本在每次的訓(xùn)練中被抽取的概率較低,會使得大部分子樹無法對少數(shù)類樣本進行有效學(xué)習(xí),使得子樹的結(jié)構(gòu)單一,缺乏對少數(shù)類的準(zhǔn)確分類能力。而使用重抽樣算法后,不同類樣本會以相當(dāng)?shù)母怕时怀槿〉?,子樹可以生成更多分支,有效提高分類效果?/p>

    圖5 重抽樣對LGBM的改進作用

    3 實驗結(jié)果分析

    本文中實驗利用Python編程實現(xiàn),實驗程序運行平臺為DELL臺式機,系統(tǒng)為Ubuntu 64 bit,CPU為2.9 GHz Intel Core i5,內(nèi)存為8 Gb 1 867 MHz DDR3。實驗比較了LGBM與其他算法各自的特點,后確定了模型參數(shù)和最優(yōu)特征集合,將最終分類結(jié)果與現(xiàn)有流量分類方法進行對比討論。

    3.1 網(wǎng)絡(luò)流量數(shù)據(jù)集

    本文使用的是于2005 年由劍橋大學(xué)的Moore 等人采集的流量數(shù)據(jù)[19],該數(shù)據(jù)分為兩部分。第一部分為1 000 個用戶在24 小時內(nèi)的流量數(shù)據(jù),對每條TCP 雙向流進行特征提取,最終得到377 526個數(shù)據(jù)樣本,該部分樣本的分布信息如表1 所示。第二部分是一年后以同樣方法再次采集的少量數(shù)據(jù),可用于檢驗算法的健壯性。樣本共分為12 類,每個樣本擁有249 個屬性[20],最后一項屬性為樣本的類別。該數(shù)據(jù)為多項研究工作提供了支持,并且由真實環(huán)境采集,數(shù)據(jù)樣本間存在較大數(shù)量差,符合本實驗要求。

    表1 Moore數(shù)據(jù)集樣本比例

    為了得到更可靠的分類效果,在訓(xùn)練模型時將數(shù)據(jù)集分為訓(xùn)練集、測試集和驗證集三部分,訓(xùn)練集用于訓(xùn)練模型,而驗證集則用于優(yōu)化算法的參數(shù)和尋找最優(yōu)特征集合,測試集則用于最終測試算法的分類效果。之后根據(jù)此前的研究成果,確定了30 個候選特征用于初期實驗。

    3.2 評價指標(biāo)

    對于分類效果的評價需要統(tǒng)一的標(biāo)準(zhǔn),機器學(xué)習(xí)中常用的評價指標(biāo)有準(zhǔn)確率、召回率以及精度。通過混淆矩陣,可以計算這些指標(biāo),混淆矩陣的形式如圖6 所示,四個灰色部分表示了樣本數(shù)量。

    圖6 混淆矩陣

    (1)準(zhǔn)確率

    準(zhǔn)確率即被正確分類的樣本比例,是一種較為直觀的評價指標(biāo),但在數(shù)據(jù)不均衡的場景中不能僅依賴準(zhǔn)確率進行評價。準(zhǔn)確率的計算公式如下:

    (2)召回率

    對某類樣本來說,召回率就是其中被分類器識別出的樣本比例,反映了算法對該類數(shù)據(jù)的敏感程度,其計算公式如下:

    (3)精度

    精度又可以成為可信度,表示分類結(jié)果為某一類的樣本中,被正確分類的樣本比例,精度越高表示被誤分為此類的樣本越少,其計算方式如下:

    對于召回率和精度,可以通過計算幾何平均數(shù)來評價算法在數(shù)據(jù)集整體上的分類效果。

    3.3 與傳統(tǒng)算法對比

    本文進行了不同類算法的初步對比,首先利用第一部分?jǐn)?shù)據(jù)進行模型訓(xùn)練和測試,對第二部分?jǐn)?shù)據(jù)則不進行訓(xùn)練,直接應(yīng)用得到的模型進行測試以檢測算法對于樣本變動的健壯性。為了確保對比結(jié)果的客觀性,沒有進行過多的算法參數(shù)調(diào)整,各算法中數(shù)據(jù)特征也全部使用預(yù)選出的30 個特征,對比的指標(biāo)為算法的分類準(zhǔn)確率,對比結(jié)果如圖7所示,另外本文對樣本量為20萬、30萬和50萬的情況下算法訓(xùn)練時間進行了對比,如圖8所示,因各算法運行時間差距較大,圖中縱坐標(biāo)為對數(shù)時間。

    圖7 各類算法準(zhǔn)確率對比

    圖8 各類算法運行時間對比

    可以看出,LGBM 在各類算法中擁有較高的準(zhǔn)確率,即使數(shù)據(jù)發(fā)生變化,仍能保持較好的分類效果,擁有良好的健壯性。同時,其運行時間關(guān)于樣本量的變化較小,當(dāng)數(shù)據(jù)量較大時速度將領(lǐng)先其他算法。以上對比結(jié)果表明,在網(wǎng)絡(luò)流量的分類中,LGBM 算法能發(fā)揮更好的效果。

    生命起源于海洋,海洋生物中的一些即使是微量的物質(zhì),也可能是陸生動物生長、發(fā)育和繁殖所必須的營養(yǎng)物質(zhì)或生理活性物質(zhì)。無論我們是否了解或定量分析出這些物質(zhì)的種類、化學(xué)結(jié)構(gòu)和含量,它們都是客觀存在的。這或許就是魚粉相比于陸生動物蛋白質(zhì)原料和植物性蛋白質(zhì)原料,可以成為飼料中重要的動物蛋白質(zhì)原料所具備的優(yōu)勢,魚粉的替代物質(zhì)研究和魚粉的不可替代性機理研究一直就是動物營養(yǎng)與飼料領(lǐng)域研究的熱點[1]。

    在實驗的過程中,由于數(shù)據(jù)的類間不平衡,導(dǎo)致算法對少數(shù)類的分類效果較差,針對這一點,本文進行了特征集合的優(yōu)化、算法參數(shù)的調(diào)整以及數(shù)據(jù)不平衡性的修正,以達到最佳分類效果。

    3.4 重采樣算法的對比

    本文針對梯度增強樹算法進行了特征集合的優(yōu)化,由于LGBM中的子分類器為回歸樹算法,其節(jié)點分裂方式與決策樹相近,故本文在特征優(yōu)化中使用決策樹代替LGBM 以加快優(yōu)化過程。使用的特征優(yōu)化算法為加N去R 算法,該算法是一種帶回溯性質(zhì)的搜索算法,其過程如下。

    選擇一個特征構(gòu)成初始的特征集合,其余特征構(gòu)成備選集合,在每次迭代中都會向特征集合中隨機加入N個特征,再選擇R個特征移出,直至分類效果達到最優(yōu),最終得到的特征集合如表2所示。

    表2 數(shù)據(jù)特征集合

    參數(shù)優(yōu)化過程中,在大范圍對每個參數(shù)進行搜索,再根據(jù)搜索結(jié)果,在最佳參數(shù)附近進行網(wǎng)格搜索,并進行交叉驗證,最終取得一組最優(yōu)參數(shù),本實驗中參數(shù)對算法各項指標(biāo)的影響在0.1%以內(nèi)。

    確定算法和數(shù)據(jù)特征后,本文使用不同的算法對數(shù)據(jù)進行重采樣,并對比了各類別數(shù)據(jù)的分類精度、召回率,以及其集合平均值。本實驗使用的算法包含RUS(Random Under Sampling)、ROS(Random Over Sam‐pling)以及結(jié)合過采樣與欠采樣的SMOTE-Tomek 算法,對比結(jié)果如表3、表4所示。

    根據(jù)以上結(jié)果可以看出,三種重采樣方法對于對分類效果均有所提升。雖然對WWW 類樣本的分類效果提升較小,但ROS和SMOTE-Tomek算法使LGBM 算法對于少數(shù)類的分類效果均得到了明顯改善,特別是P2P、ATTACK、MULTIMEDIA 以及INTERACTIVE 類,召回率和精度均提升了10%以上,整體準(zhǔn)確率也因此從95%提高到了99.8%。這兩種算法都提高了少數(shù)類樣本的比例,使其得到了充分學(xué)習(xí),故將過采樣與LGBM結(jié)合可以取得良好的效果。而相對地,應(yīng)用RUS 則無法帶來較明顯的提升,因為欠采樣算法僅降低了多數(shù)類樣本的比例,無法解決少數(shù)類數(shù)據(jù)不充足的問題。

    表3 重采樣后精度對比

    表4 重采樣后召回率對比

    最后,本文對比了RES-LGBM 與其他算法的分類效果。根據(jù)圖9 的結(jié)果顯示,其他算法雖然都有較高的整體準(zhǔn)確率,但精度和召回率較低,大多低于90%,相對地,RES-LGBM 則達到了90%以上,也因此使得整體準(zhǔn)確率更高。并且RES-LGBM 算法的計算時間也處于合理范圍內(nèi),綜合這兩方面,RES-LGBM 在流量分類中可以取得更好的效果。

    圖9 各改進算法與RES-LGBM分類效果對比

    4 結(jié)束語

    本文介紹了各類網(wǎng)絡(luò)流量分類方法以及數(shù)據(jù)不均衡問題的解決方法,并針對流量數(shù)據(jù)不平衡的問題,在相關(guān)研究基礎(chǔ)上提出了RES-LGBM 的方法,之后對流量數(shù)據(jù)特征進行優(yōu)化,并實現(xiàn)了流量分類。通過對各類機器學(xué)習(xí)算法進行對比,驗證了在網(wǎng)絡(luò)流量分類中,集成機器學(xué)習(xí)算法相較于傳統(tǒng)算法的優(yōu)勢,提出利用LGBM算法和重采樣算法互補的特點,避免過擬合并降低數(shù)據(jù)不均衡的影響,提高了流量分類效果。但該方法仍存在一定不足,之后將從以下三個方面進行進一步研究:(1)進行多個機器學(xué)習(xí)算法相結(jié)合的流量分類,研究不同算法之間的互補性;(2)將機器學(xué)習(xí)進一步用于網(wǎng)絡(luò)安全領(lǐng)域,通過流量分類來進行惡意行為的檢測研究;(3)應(yīng)用分布式計算平臺,提高算法的運行速度,提升分類效率。

    猜你喜歡
    網(wǎng)絡(luò)流量準(zhǔn)確率流量
    基于多元高斯分布的網(wǎng)絡(luò)流量異常識別方法
    冰墩墩背后的流量密碼
    玩具世界(2022年2期)2022-06-15 07:35:36
    張曉明:流量決定勝負(fù)!三大流量高地裂變無限可能!
    乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
    健康之家(2021年19期)2021-05-23 11:17:39
    不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
    基于神經(jīng)網(wǎng)絡(luò)的P2P流量識別方法
    2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
    尋找書業(yè)新流量
    出版人(2020年4期)2020-11-14 08:34:26
    高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
    AVB網(wǎng)絡(luò)流量整形幀模型端到端延遲計算
    汤原县| 兴业县| 开阳县| 甘南县| 天柱县| 玉环县| 朝阳县| 磐石市| 平远县| 兴城市| 东海县| 德州市| 竹北市| 正宁县| 连南| 化德县| 双城市| 伊春市| 江都市| 宿松县| 松溪县| 弋阳县| 湖州市| 黑龙江省| 苏尼特右旗| 静乐县| 屯留县| 永清县| 织金县| 汝州市| 阳新县| 汉川市| 龙泉市| 乌审旗| 米脂县| 广元市| 江都市| 应城市| 马龙县| 大悟县| 佛冈县|