• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于半監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)應(yīng)用流識別研究

      2020-04-29 11:02:08余翔湛郝科委
      關(guān)鍵詞:網(wǎng)絡(luò)應(yīng)用數(shù)據(jù)流報(bào)文

      趙 洋, 余翔湛, 郝科委

      (哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 哈爾濱 150001)

      0 引 言

      目前,隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展和網(wǎng)絡(luò)設(shè)施的不斷升級進(jìn)步,越來越多的網(wǎng)絡(luò)應(yīng)用已經(jīng)進(jìn)入人們?nèi)粘I钪衼?。人們對互?lián)網(wǎng)技術(shù)的認(rèn)可度提升以及網(wǎng)絡(luò)的應(yīng)用范圍也日趨寬廣,使得人們的生活越來越依賴來自這些網(wǎng)絡(luò)應(yīng)用所提供的服務(wù)。網(wǎng)絡(luò)應(yīng)用在各領(lǐng)域的普及推廣不但為人們的日常生活帶來便利,同時(shí)更極大提高了社會的工作效率。目前,寬帶計(jì)入能力的提升、不斷更新的通信方式、“三網(wǎng)融合”工程的加速開展、“百兆鄉(xiāng)村”政策的出臺、物聯(lián)網(wǎng)技術(shù)的應(yīng)用與發(fā)展以及“互聯(lián)網(wǎng)+”重大工程的實(shí)施,綜上的論述都切實(shí)表明中國正處在、并將會長期處在全民網(wǎng)絡(luò)時(shí)代。但隨著網(wǎng)絡(luò)應(yīng)用的強(qiáng)勁拓展態(tài)勢,網(wǎng)絡(luò)流量及網(wǎng)絡(luò)規(guī)模迅速增大,產(chǎn)生的海量數(shù)據(jù)使得對網(wǎng)絡(luò)應(yīng)用流量的安全管理工作愈發(fā)艱難。同時(shí),由于互聯(lián)網(wǎng)的虛擬性、開放性和交互性,使得網(wǎng)絡(luò)應(yīng)用質(zhì)量參差不齊,良莠混雜,甚至還有某些不良網(wǎng)絡(luò)應(yīng)用利用現(xiàn)在先進(jìn)的技術(shù),假借正常端口或者協(xié)議來傳播。而且,悄然伺機(jī)而動(dòng)的病毒、木馬也會伴隨著新的網(wǎng)絡(luò)應(yīng)用,威脅著用戶的隱私數(shù)據(jù)安全,給人們帶來巨大的損失。因此,隨著國內(nèi)計(jì)算機(jī)技術(shù)的廣泛應(yīng)用與飛速發(fā)展,網(wǎng)絡(luò)安全已躍升至國家安全戰(zhàn)略地位,“沒有網(wǎng)絡(luò)安全就沒有國家安全”的理念已日益深入人心。作為網(wǎng)絡(luò)安全的重要環(huán)節(jié),網(wǎng)絡(luò)應(yīng)用識別技術(shù)的研究尤為重要。

      1 研究現(xiàn)狀

      目前識別方法主要分為機(jī)器學(xué)習(xí)識別和非機(jī)器學(xué)習(xí)模型兩種。其中,非機(jī)器包括基于端口的報(bào)文識別檢測技術(shù)和基于負(fù)載的識別檢測技術(shù),隨著網(wǎng)絡(luò)應(yīng)用技術(shù)成果的相繼問世,這些傳統(tǒng)的方法已經(jīng)難以適應(yīng)不斷變化的協(xié)議規(guī)則,因而逐漸為機(jī)器學(xué)習(xí)方法所取代。

      相對于非機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)方法更加依賴于數(shù)據(jù)包和數(shù)據(jù)流特征而不是簡單的特殊字段識別和匹配。影響機(jī)器學(xué)習(xí)方法主要取決于2個(gè)方面:特征提取方法和分類算法選擇。其中,特征選擇可以定制在2個(gè)層面上:數(shù)據(jù)包和數(shù)據(jù)流。數(shù)據(jù)包特征是通過對數(shù)據(jù)流一定范圍內(nèi)數(shù)據(jù)包的特征,諸如:最長包長、最短包長、平均包長、包長中位數(shù)方差等信息進(jìn)行統(tǒng)計(jì),最終整合得到結(jié)論。數(shù)據(jù)流特征則是包括:客戶端端口、服務(wù)器端端口、數(shù)據(jù)流平均包長、數(shù)據(jù)流空包數(shù)、數(shù)據(jù)包傳輸平均時(shí)間間隔等特征,對應(yīng)用流或是應(yīng)用進(jìn)行識別。一個(gè)好的識別模型,一般都會根據(jù)所識別的內(nèi)容特性,選用兩者中的適當(dāng)內(nèi)容進(jìn)行分類訓(xùn)練識別。這里,對目前主流的研究方法可闡釋論述如下。

      (1)基于端口的網(wǎng)絡(luò)應(yīng)用識別。這是人們最早用來識別網(wǎng)絡(luò)數(shù)據(jù)流路的方法。在早期的簡單網(wǎng)絡(luò)中,網(wǎng)絡(luò)應(yīng)用種類少且大都使用特殊的端口號,所以只需要觀察并識別傳輸層報(bào)文頭中的端口號,就可以辨識出相應(yīng)的網(wǎng)絡(luò)應(yīng)用。這種識別方法不僅高效,而且所耗費(fèi)的資源也是所有方法最低。起初,大部分網(wǎng)絡(luò)都會選擇特定端口號,而且不同種類的應(yīng)用一般都配有不同的傳輸端口?;诙丝谔柕膽?yīng)用識別技術(shù)便可以根據(jù)人工統(tǒng)計(jì),選擇特定的報(bào)文傳輸端口來確定目前應(yīng)用類型。

      (2)基于載荷的應(yīng)用流識別方法。這是基于端口識別方法的傳承和進(jìn)化。相對于基于端口的識別方法,基于載荷的識別方法選擇了應(yīng)用層數(shù)據(jù)中的特殊字段,通過對大量的應(yīng)用層協(xié)議的分析和統(tǒng)計(jì),找出屬于每一個(gè)應(yīng)用層協(xié)議的特征碼,再通過新來的數(shù)據(jù)流與特征碼的整合匹配,得出識別效果??紤]到每種協(xié)議都具有其特定的規(guī)則和使用方式,所以一個(gè)好的特征碼提取算法和特征碼匹配算法往往會取得非常好的識別準(zhǔn)確率和效率。

      (3)決策樹。是在已知標(biāo)簽數(shù)據(jù)分析基礎(chǔ)上,通過構(gòu)建決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,判斷可行性的一種決策方法。在眾多數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)研究中,決策樹歸納法是應(yīng)用最廣的方法之一。決策樹中的每個(gè)節(jié)點(diǎn)代表在一個(gè)識別過程中的測試或是識別,若其含有分支則表示當(dāng)前節(jié)點(diǎn)的識別結(jié)果,每個(gè)葉節(jié)點(diǎn)代表其最后的類型。

      (4)基于神經(jīng)網(wǎng)絡(luò)方法。分析可知,數(shù)據(jù)量較少的時(shí)候,決策樹的準(zhǔn)確率、效率都優(yōu)于神經(jīng)網(wǎng)絡(luò)。但隨著訓(xùn)練數(shù)據(jù)的不斷增加,學(xué)習(xí)強(qiáng)度的不斷上升,神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確性能將更加出色。特別是隨著新應(yīng)用的漸次出現(xiàn),一些直觀的屬性已經(jīng)難以完全區(qū)分應(yīng)用類型,特征的選取也越發(fā)困難,那么基于神經(jīng)網(wǎng)絡(luò)的識別方法在應(yīng)用識別方面就尤為突顯其強(qiáng)大適用性了。

      根據(jù)準(zhǔn)確性、復(fù)雜性、拓展性以及加密流量識別能力,本文對上述4種方法進(jìn)行了對比分析,得到的結(jié)果見表1。

      表1 網(wǎng)絡(luò)應(yīng)用識別的方法對比

      2 數(shù)據(jù)聚類標(biāo)識法

      2.1 輸入數(shù)據(jù)流特征選擇

      伴隨著人工智能的發(fā)展,機(jī)器學(xué)習(xí)的方法已經(jīng)成為各領(lǐng)域解決問題的重要方法?;跊Q策樹、行為特征的方法都使得應(yīng)用流識別的準(zhǔn)確率大大提升。傳統(tǒng)的基于機(jī)器學(xué)習(xí)的應(yīng)用流識別方法一般是基于以往訓(xùn)練經(jīng)驗(yàn),選擇最具有代表性的數(shù)據(jù)包或數(shù)據(jù)流的具體特征集,通過對特征集合向量化作為訓(xùn)練模型和測試部分的輸入。而后,即是不斷調(diào)整決策樹構(gòu)造或者隱藏層的權(quán)值,使訓(xùn)練集識別準(zhǔn)確率達(dá)到最優(yōu)。但是目前的研究現(xiàn)狀是,網(wǎng)絡(luò)應(yīng)用及網(wǎng)絡(luò)協(xié)議的數(shù)量已經(jīng)越來越多,有限數(shù)量的顯示特征已經(jīng)不能完全地作為當(dāng)前網(wǎng)絡(luò)流量的代表集合,自動(dòng)去尋找代表特征集合就非常重要。而且現(xiàn)實(shí)場景中對網(wǎng)絡(luò)數(shù)據(jù)流的標(biāo)識工程量較大、難度高,所以應(yīng)用與訓(xùn)練的標(biāo)識數(shù)據(jù)相對于海量的未標(biāo)識數(shù)據(jù)少之又少,基于監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)分類器很難直接從少量的標(biāo)識數(shù)據(jù)流中學(xué)得準(zhǔn)確識別信息。因此融合了監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)優(yōu)勢的半監(jiān)督學(xué)習(xí)方法隨即提出了通過在無監(jiān)督學(xué)習(xí)提供大量標(biāo)識數(shù)據(jù)的基礎(chǔ)上,再使用監(jiān)督學(xué)習(xí)建立分類器的方法。

      2.1.1 基于五元組的數(shù)據(jù)流拼接

      本文訓(xùn)練數(shù)據(jù)來自由抓包軟件從網(wǎng)卡抓取的離線pcap文件,測試數(shù)據(jù)則是實(shí)時(shí)從網(wǎng)卡抓取的pcap文件。由于實(shí)際網(wǎng)絡(luò)中會含有多進(jìn)程通信,應(yīng)用流自然不會單獨(dú)出現(xiàn)在實(shí)際網(wǎng)絡(luò)中,為了更好地識別網(wǎng)絡(luò)應(yīng)用流種類,就需要將網(wǎng)絡(luò)應(yīng)用流拼接起來。

      在實(shí)際的網(wǎng)絡(luò)應(yīng)用流分析中,研究發(fā)現(xiàn)多數(shù)情況下,在一個(gè)較短的時(shí)間內(nèi)同樣的2個(gè)ip使用相同端口一般只通信一次。這使得可以通過對五元組的組合計(jì)算,將同一個(gè)短期的pcap中所有應(yīng)用流單獨(dú)拼接出來,并按順序存成對應(yīng)數(shù)據(jù)。在本研究課題中,每個(gè)數(shù)據(jù)流的區(qū)別特征值key的計(jì)算公式為:

      key=str(ip.src)+str(ip.dst)+str(port.src)+

      str(port.dst).

      (1)

      在一個(gè)pcap中,每讀入一個(gè)數(shù)據(jù)包,將計(jì)算其key值,根據(jù)key值將相同的數(shù)據(jù)包拼接在一起。數(shù)據(jù)流的拼接過程詳見圖1。

      圖1 pcap數(shù)據(jù)流拼接

      2.1.2 數(shù)據(jù)特征選擇

      根據(jù)數(shù)據(jù)流拼接的結(jié)果,研究獲得了單個(gè)數(shù)據(jù)流信息。但是在實(shí)際網(wǎng)絡(luò)中,將很難保證每個(gè)抓取的數(shù)據(jù)流都不存在缺失、重傳、或是截取不完整等問題,同時(shí)很多基于流的特征并不能作為最好的選擇去代替這個(gè)應(yīng)用流,而基于數(shù)據(jù)包的特征也不能去代替整個(gè)應(yīng)用流。

      在解決數(shù)據(jù)流代表性問題上,本文使用了數(shù)據(jù)流原文作為訓(xùn)練的輸入。通過觀察發(fā)現(xiàn),數(shù)據(jù)流原文是一串十六進(jìn)制的數(shù)字,而2個(gè)十六進(jìn)制的數(shù)字則最終組成了0~255的數(shù)字,并且恰好對應(yīng)了灰度圖像中的灰度值范圍,使用深度學(xué)習(xí)的研究思路也隨即廣受關(guān)注。而且,由于每個(gè)流的長度不同,數(shù)據(jù)包個(gè)數(shù)、甚至每個(gè)數(shù)據(jù)包大小也不同,就需要選取每個(gè)數(shù)據(jù)流的相同數(shù)量、長度的報(bào)文作為特征向量。

      首先將每種應(yīng)用報(bào)文按照一字節(jié)8位為一維特征,將每種應(yīng)用的應(yīng)用流拼接成圖像,通過對不同類型的數(shù)據(jù)流圖像進(jìn)行對比,如圖2所示,發(fā)現(xiàn)相同的應(yīng)用類型,如圖2(a)與(b)均為QQ消息數(shù)據(jù)流,具有相似的圖像;而不同的應(yīng)用類型的數(shù)據(jù)流原報(bào)文圖像則如2(c)所示,與前2個(gè)QQ圖像存在較大的差異,所以使用原報(bào)文方法是可行的。而后,根據(jù)文獻(xiàn)[1-4]識別研究過程的原理解析,研究分別選擇包長、數(shù)據(jù)包應(yīng)用層協(xié)議類型、數(shù)據(jù)包數(shù)據(jù)段長度等顯性特征來繪制出圖像;并對TCP頭設(shè)置push位包數(shù)、從客戶端到服務(wù)器方向,以初始端口發(fā)送tcp負(fù)載大小和從服務(wù)器到客戶端平均負(fù)載大小等基于數(shù)據(jù)流的特征進(jìn)行統(tǒng)計(jì)分析。圖3隨即展示了QQ聊天與其他udp應(yīng)用前50數(shù)據(jù)包長度統(tǒng)計(jì)對比。其中,藍(lán)色和綠色的線條代表QQ聊天,橙色代表其它的udp應(yīng)用。顯而易見,在前50數(shù)據(jù)包長度對比上,相似的應(yīng)用同樣具有相似的性質(zhì)。與此同時(shí),研究還針對其它特征都進(jìn)行了比對,效果大致相似。

      圖2 QQ聊天與其它udp應(yīng)用的特征圖片對比

      圖3 QQ聊天與其它 udp應(yīng)用前50數(shù)據(jù)包長度統(tǒng)計(jì)

      Fig. 3 Top 50 packet length statistics for QQ chat and other udp applications

      為此,可推得如下研究結(jié)論:每個(gè)流前50~100報(bào)文由于其包含應(yīng)用流建立連接和控制報(bào)文的交換信息,而且也會帶有少量的其它通信信息,故而選擇前50個(gè)數(shù)據(jù)包能夠有效地代表數(shù)據(jù)流。而在每個(gè)數(shù)據(jù)包中,使用相同的傳輸層協(xié)議往往具有相似的傳輸層結(jié)構(gòu),不能很好地代表報(bào)文特征。研究中為區(qū)分應(yīng)用流,則選擇使用了應(yīng)用層報(bào)文。通過統(tǒng)計(jì)分析,選擇前50字節(jié)作為每個(gè)數(shù)據(jù)包的代表特征值。這樣一來,每個(gè)數(shù)據(jù)流就可以使用50*50=2 500維數(shù)據(jù)作為輸入向量訓(xùn)練模型。

      2.2 基于自編碼的數(shù)據(jù)降維

      在聚類的開始階段,通過分析觀察報(bào)文的原文則會發(fā)現(xiàn),有很多的報(bào)文原文中數(shù)值為0,且數(shù)據(jù)段相對較短的報(bào)文內(nèi)容向量,本文也對其進(jìn)行了補(bǔ)0處理,這里為了使距離度量相似性的設(shè)定不會失效,將首先使用數(shù)據(jù)降維的方法對輸入的矩陣向量做出降維處理。

      與傳統(tǒng)識別方法提取數(shù)據(jù)流、數(shù)據(jù)包特征識別方法不同,基于數(shù)據(jù)包原文的識別方法在每個(gè)維度上取值范圍、代表含義都是相同的。這使得在維度下降方面,基于報(bào)文原文的方法可以使用相對優(yōu)質(zhì)的特征下降法而不僅局限于特征選擇。通過試驗(yàn)對比分析,研究選擇使用自編碼器降維方式。對此,文中將給出研究論述如下。

      2.2.1 自編碼器模型

      AutoEncoder是一個(gè)將數(shù)據(jù)的高維特征進(jìn)行壓縮降維編碼,再經(jīng)過相反解碼過程的一種學(xué)習(xí)方法。學(xué)習(xí)過程中通過解碼得到的最終結(jié)果與原數(shù)據(jù)進(jìn)行比較,再根據(jù)修正權(quán)重偏置參數(shù)降低損失函數(shù),不斷提高對原數(shù)據(jù)的復(fù)原能力。學(xué)習(xí)結(jié)束后,前半段的編碼過程得到結(jié)果即可代表原數(shù)據(jù)的低維“特征值”。通過學(xué)習(xí)得到的自編碼器模型可以實(shí)現(xiàn)將高維數(shù)據(jù)壓縮至所期望的維度,原理與PCA相似。本課題使用的自編碼器結(jié)構(gòu)則如圖4所示。輸入是由每個(gè)數(shù)據(jù)流前50數(shù)據(jù)包,每個(gè)數(shù)據(jù)包使用前50字節(jié),共2 500維向量組成。中間通過對隱藏層的訓(xùn)練,選擇最優(yōu)的隱藏層權(quán)值,使得還原結(jié)果更加準(zhǔn)確,也就是說使得輸出層的低維向量更具有代表性。

      圖4 自編碼器實(shí)現(xiàn)結(jié)構(gòu)

      2.2.2 自編碼維度選擇

      選擇不同的維度對原始數(shù)據(jù)進(jìn)行表達(dá)會產(chǎn)生不同的表達(dá)效果。為了使自編碼器能夠?qū)υ紨?shù)據(jù)的表達(dá)性更強(qiáng),研究分別將輸出層數(shù)設(shè)置為10~600,并將2萬多組的網(wǎng)絡(luò)數(shù)據(jù)流分為20組,對每組均采用了編碼/解碼操作,通過求取20組平均前后數(shù)據(jù)方差值,描繪后的展現(xiàn)即如圖5所示。由結(jié)果顯示可知,選取200維作為最終聚類維數(shù)不但降維效果很好,而且還原度也相對較高。

      2.3 基于k-means的數(shù)據(jù)聚類標(biāo)識法

      在降維后,數(shù)據(jù)變?yōu)?00維特征的矩陣集。為了能夠獲得充足的標(biāo)識數(shù)據(jù)作為構(gòu)造分類器的訓(xùn)練數(shù)據(jù),半監(jiān)督分類方法選擇使用無監(jiān)督聚類結(jié)合少量標(biāo)簽數(shù)據(jù)對大量的未標(biāo)識數(shù)據(jù)進(jìn)行標(biāo)識操作。在聚類方法選擇上,根據(jù)目前半監(jiān)督分類和聚類應(yīng)用于數(shù)據(jù)流識別的現(xiàn)狀,研究選擇聚類效果較好的k-means算法進(jìn)行聚類標(biāo)識。使用k-means聚類標(biāo)識數(shù)據(jù)的研發(fā)過程詳述如下。

      圖5 壓縮維度選擇與還原效果關(guān)系圖

      2.3.1 k-means算法k值選擇

      k值作為k-means算法的核心關(guān)鍵點(diǎn)之一,其選擇策略對于最終聚類效果有著至關(guān)重要的影響。與傳統(tǒng)的k-means以中心點(diǎn)收斂為終止條件不同,由于聚類的數(shù)據(jù)流存在新類別,使得中心點(diǎn)應(yīng)當(dāng)具備一定的數(shù)量調(diào)整能力?;诖?,本文使用了循環(huán)聚類的方法,將每次的聚類結(jié)果作為下一次聚類方法選擇的判定條件。以一定的距離作為閾值,閾值之外的點(diǎn)作為本輪未標(biāo)注點(diǎn),如果未標(biāo)注點(diǎn)達(dá)到一定數(shù)量,則啟用k+1作為下輪k-means的k值,重新選擇中心聚類,直至k值不變并收斂。如果中心點(diǎn)收斂且未標(biāo)識數(shù)據(jù)沒有達(dá)到閾值,聚類結(jié)束。

      2.3.2 k-means算法距離選擇

      傳統(tǒng)k-means算法一般以歐式距離為衡量類別間相似的標(biāo)準(zhǔn),但對于數(shù)據(jù)包原文來說,雖然每一位的取值范圍相同,但每一維度所代表含義的差異可能使傳統(tǒng)歐氏距離的區(qū)分效果大打折扣。本文選擇加權(quán)的歐氏距離作為各點(diǎn)之間的距離度量方法,可以避免維度特征之間的差異。

      加權(quán)的歐氏距離也可以解讀為標(biāo)準(zhǔn)化歐氏距離,是針對歐氏距離的一種改進(jìn),在計(jì)算距離前將對每一個(gè)維度進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化使得期望為0,方差為1。先求出帶標(biāo)識數(shù)據(jù)在第n維度上的標(biāo)準(zhǔn)差sn,對于2個(gè)向量a(x1,x2...,xk)和向量b(y1,y2,...,yk)之間的加權(quán)距離公式可以表示為:

      (2)

      2.3.3 k-means算法實(shí)現(xiàn)描述

      算法基于加權(quán)歐氏距離的k-means算法

      輸入:帶標(biāo)簽和未帶標(biāo)簽的2組數(shù)據(jù)集

      輸出:識別之后帶標(biāo)簽數(shù)據(jù)集及標(biāo)簽集

      Step1通過對有標(biāo)識數(shù)據(jù)的統(tǒng)計(jì),得出現(xiàn)有標(biāo)識類別數(shù)作為k初始值。

      Step2將帶標(biāo)識數(shù)據(jù)按照標(biāo)簽分別存入不同的集合中。

      Step3計(jì)算所有數(shù)據(jù)在各個(gè)維度上的標(biāo)準(zhǔn)差。

      Step4分別計(jì)算各個(gè)集合標(biāo)簽集中向量在各維度上的均值,組成各個(gè)集合的初始k個(gè)中心點(diǎn)。

      Step5分別計(jì)算各個(gè)集合中距離中心點(diǎn)最遠(yuǎn)的距離作為本輪閾值d。

      Step6帶標(biāo)記的向量不動(dòng),分別計(jì)算不帶標(biāo)記向量到各個(gè)中心加權(quán)距離,如果該點(diǎn)所有中心點(diǎn)最小距離大于d,則將該數(shù)據(jù)暫時(shí)放入unknow隊(duì)列。如果最小距離小于d,則將其歸入距離最近的集合中。

      Step7將所有新集合向量各個(gè)維度取均值作為新的中心點(diǎn),若中心點(diǎn)與上輪不同,重復(fù)Step 6。

      Step8如果中心點(diǎn)相同,統(tǒng)計(jì)unknow數(shù)量,若大于本次聚類標(biāo)簽數(shù)最少的類別數(shù),則將k+1,取unknow數(shù)組中位數(shù)下標(biāo)的向量作為新的聚類中心,重新進(jìn)入Step 6。

      Step9若小于最少類別數(shù),則將unknow數(shù)據(jù)拋棄。對當(dāng)前每個(gè)集合中的數(shù)據(jù)進(jìn)行分組標(biāo)記。對于新分出來的集合采用人工標(biāo)記法,隨機(jī)抽取一定數(shù)量的應(yīng)用流進(jìn)行人工識別,對標(biāo)識結(jié)果進(jìn)行比對。若最多類型數(shù)量超過90%,使用該類型標(biāo)識這個(gè)集合,否則舍棄。

      3 實(shí)驗(yàn)結(jié)果與分析

      通過對32 000組標(biāo)記數(shù)據(jù)流進(jìn)行模擬,并選擇分組聚類標(biāo)識法測試,其中包括coco數(shù)據(jù)流8 378條,zello數(shù)據(jù)流7 693條,skype數(shù)據(jù)流7 752條,ftp站點(diǎn)數(shù)據(jù)流3 653條,隨機(jī)應(yīng)用流4 524條。選擇4種有標(biāo)記數(shù)據(jù)流各1 000條作為已標(biāo)識數(shù)據(jù)集。其余的28 000條以4 000為一組作為未標(biāo)識應(yīng)用集。使用已知標(biāo)識的數(shù)據(jù)集分別與每組未知標(biāo)識數(shù)據(jù)進(jìn)行聚類標(biāo)記,通過與原標(biāo)記進(jìn)行對比識別,得識別運(yùn)行結(jié)果詳見表2。

      表2 聚類結(jié)果統(tǒng)計(jì)

      接下來在表2基礎(chǔ)上,處理得出識別準(zhǔn)確率的仿真運(yùn)行結(jié)果,如圖6所示。

      圖6 聚類準(zhǔn)確率的運(yùn)算結(jié)果

      圖6給出的聚類后根據(jù)識別效果對每組識別準(zhǔn)確率進(jìn)行統(tǒng)計(jì)顯示,每組標(biāo)識數(shù)據(jù)識別錯(cuò)誤率均不超過5%,因距離過遠(yuǎn)而丟棄的數(shù)據(jù)都不足1%,而標(biāo)識為其它的數(shù)據(jù)與已知的未標(biāo)注數(shù)據(jù)在總量上彼此相近。結(jié)合在一起,可以判定總體數(shù)據(jù)的聚類標(biāo)識準(zhǔn)確度達(dá)到95%以上,該效果可以用來對未標(biāo)識數(shù)據(jù)進(jìn)行有效的標(biāo)注。

      4 結(jié)束語

      針對不斷出現(xiàn)的新應(yīng)用流的識別,傳統(tǒng)的非機(jī)器學(xué)習(xí)方法無法對新類型應(yīng)用進(jìn)行識別,只能夠重新建立模型;而傳統(tǒng)的基于特征的機(jī)器學(xué)習(xí)方法也很容易出現(xiàn)識別錯(cuò)誤和特征選擇不具典型性的問題。基于數(shù)據(jù)報(bào)文的應(yīng)用流識別使得識別過程可以從應(yīng)用流本身挖掘特征而非僅依賴于選擇的特定特征,極大地增強(qiáng)了模型的自身學(xué)習(xí)能力和對新應(yīng)用類型識別和學(xué)習(xí)的適應(yīng)性。在分類識別之前,大量的有標(biāo)識應(yīng)用流是必要的,通過半監(jiān)督學(xué)習(xí)的方式可以采用少量的標(biāo)識數(shù)據(jù)對大量的未標(biāo)識數(shù)據(jù)進(jìn)行準(zhǔn)確的標(biāo)記,從而為準(zhǔn)確的監(jiān)督學(xué)習(xí)模型分類器的建立提供堅(jiān)實(shí)的基礎(chǔ)。

      猜你喜歡
      網(wǎng)絡(luò)應(yīng)用數(shù)據(jù)流報(bào)文
      基于J1939 協(xié)議多包報(bào)文的時(shí)序研究及應(yīng)用
      汽車電器(2022年9期)2022-11-07 02:16:24
      CTCS-2級報(bào)文數(shù)據(jù)管理需求分析和實(shí)現(xiàn)
      汽車維修數(shù)據(jù)流基礎(chǔ)(下)
      淺析反駁類報(bào)文要點(diǎn)
      中國外匯(2019年11期)2019-08-27 02:06:30
      交通領(lǐng)域中面向D2D的5G通信網(wǎng)絡(luò)應(yīng)用探析
      基于數(shù)字電子技術(shù)的通信網(wǎng)絡(luò)應(yīng)用研究
      電子測試(2018年23期)2018-12-29 11:12:20
      一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機(jī)制
      大氣環(huán)境質(zhì)量評價(jià)工作中基于MATLAB的BP神經(jīng)網(wǎng)絡(luò)應(yīng)用探究
      電子制作(2016年11期)2016-11-07 08:43:38
      ATS與列車通信報(bào)文分析
      基于數(shù)據(jù)流聚類的多目標(biāo)跟蹤算法
      彭山县| 绥德县| 将乐县| 五指山市| 屏东市| 隆尧县| 潞城市| 桑植县| 丽水市| 南宁市| 平陆县| 祁连县| 迁西县| 黄浦区| 溧阳市| 平远县| 新闻| 屏边| 丹凤县| 岑巩县| 玉溪市| 渝中区| 宜宾市| 无锡市| 鄂托克旗| 台湾省| 博罗县| 泗洪县| 沧州市| 景宁| 马关县| 治县。| 江门市| 汝南县| 黑水县| 亳州市| 丹凤县| 花莲市| 宣化县| 五华县| 五指山市|