王 芳
(北京科技大學(xué)天津?qū)W院 信息工程學(xué)院,天津 301830)
近年來,互聯(lián)網(wǎng)技術(shù)的興起與普及極大地提升了人們生產(chǎn)與生活的便利程度,網(wǎng)絡(luò)用戶數(shù)量呈現(xiàn)飛速增長(zhǎng)的狀態(tài)。根據(jù)國(guó)內(nèi)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)數(shù)據(jù)顯示,截至2022年底,中國(guó)互聯(lián)網(wǎng)普及率達(dá)到了72.5%。由此可見,互聯(lián)網(wǎng)已經(jīng)成為人們生產(chǎn)與生活過程中必不可少的一部分[1]。從大眾角度出發(fā),互聯(lián)網(wǎng)可以改善生活方式,例如VR看房、共享經(jīng)濟(jì)等;從企業(yè)角度出發(fā),互聯(lián)網(wǎng)的逐步滲入可以改變企業(yè)的辦公模式與服務(wù)方式,促進(jìn)企業(yè)改革與發(fā)展;從國(guó)家角度出發(fā),互聯(lián)網(wǎng)能夠推動(dòng)國(guó)家信息技術(shù)的發(fā)展,改革貿(mào)易模式,促進(jìn)“地球村”的建設(shè)。在當(dāng)今這個(gè)大數(shù)據(jù)時(shí)代背景下,網(wǎng)絡(luò)傳輸數(shù)據(jù)中包含著大量的用戶隱私信息、企業(yè)核心數(shù)據(jù)、國(guó)家核心機(jī)密等,但是大部分用戶并沒有強(qiáng)烈的隱私數(shù)據(jù)保護(hù)意識(shí),導(dǎo)致網(wǎng)絡(luò)傳輸數(shù)據(jù)過程中經(jīng)常出現(xiàn)惡意攻擊現(xiàn)象;再加之網(wǎng)絡(luò)環(huán)境、噪聲等多種因素的影響,致使網(wǎng)絡(luò)傳輸數(shù)據(jù)中存在很多異常數(shù)據(jù),不但影響網(wǎng)絡(luò)數(shù)據(jù)的傳輸質(zhì)量,也為需求數(shù)據(jù)查詢帶來了較大的難度,制約著網(wǎng)絡(luò)數(shù)據(jù)的應(yīng)用與持續(xù)發(fā)展[2]。
網(wǎng)絡(luò)用戶的急劇增加和網(wǎng)絡(luò)應(yīng)用范圍的擴(kuò)大,使得網(wǎng)絡(luò)傳輸數(shù)據(jù)體量呈現(xiàn)指數(shù)級(jí)別暴增趨勢(shì),常規(guī)異常數(shù)據(jù)識(shí)別方法識(shí)別性能較差,影響網(wǎng)絡(luò)用戶的應(yīng)用體驗(yàn),已經(jīng)無法適應(yīng)海量數(shù)據(jù)異常識(shí)別需求,故本文提出一種基于深度學(xué)習(xí)的網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識(shí)別方法研究。該方法在LSTM神經(jīng)網(wǎng)絡(luò)模型的應(yīng)用下,大幅度提升了評(píng)價(jià)指標(biāo)——F1值,能夠更加精確地識(shí)別異常數(shù)據(jù),為網(wǎng)絡(luò)傳輸數(shù)據(jù)的應(yīng)用與處理提供更有效的方法支撐。
在互聯(lián)網(wǎng)正常運(yùn)行過程中,網(wǎng)絡(luò)傳輸數(shù)據(jù)種類、量綱存在著較大的差異性,若是直接對(duì)其進(jìn)行異常識(shí)別,會(huì)產(chǎn)生較大的運(yùn)算量,從而降低異常識(shí)別的效率。因此,在數(shù)據(jù)異常識(shí)別之前,需要對(duì)網(wǎng)絡(luò)傳輸數(shù)據(jù)進(jìn)行一定的預(yù)處理[3]。
此研究應(yīng)用歸一化方法將網(wǎng)絡(luò)傳輸數(shù)據(jù)控制在0~1之間,表達(dá)式為:
式中:Y表示的是歸一化處理后的網(wǎng)絡(luò)傳輸數(shù)據(jù),取值范圍為[0,1];X表示的是歸一化處理前的網(wǎng)絡(luò)傳輸數(shù)據(jù),取值范圍不確定,量綱也不同;Xmin與Xmax分別表示的是原始網(wǎng)絡(luò)傳輸數(shù)據(jù)中的最小值與最大值。
由于網(wǎng)絡(luò)傳輸數(shù)據(jù)體量較大,再加之后續(xù)構(gòu)建模型需要訓(xùn)練集合與測(cè)試集合,故在此節(jié)應(yīng)用高斯混合模型對(duì)網(wǎng)絡(luò)傳輸數(shù)據(jù)集合進(jìn)行分割處理,表達(dá)式為:
式中:P(y)表示的是網(wǎng)絡(luò)傳輸數(shù)據(jù)集合的高斯密度函數(shù);n表示的是數(shù)據(jù)集合分割數(shù)量,依據(jù)異常數(shù)據(jù)識(shí)別需求,設(shè)置n取值為2;βi表示的是混合參數(shù),取值范圍為[0,1];δi(y,μi,Σi)表示的是協(xié)方差為Σi、均值為μi的高斯分布;δi(y)表示的是δi(y,μi,Σi)的概率分布函數(shù);d表示的是時(shí)間滑動(dòng)窗口。
通過式(2)可知,要想精準(zhǔn)地分割網(wǎng)絡(luò)傳輸數(shù)據(jù)集合,首要任務(wù)就是計(jì)算βi,表達(dá)式為:
式中φold表示的是混合參數(shù)更新因子,依據(jù)每個(gè)數(shù)據(jù)特征而變化[4]。
將式(3)計(jì)算結(jié)果代入式(2)即可實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)傳輸數(shù)據(jù)集合的有效分割,具體如圖1所示。
圖1 網(wǎng)絡(luò)傳輸數(shù)據(jù)集合分割示例圖
如圖1所示,高斯混合模型可以有效地將網(wǎng)絡(luò)傳輸數(shù)據(jù)集合分割為2個(gè)集合,分別為訓(xùn)練集合(深色圓圈)與測(cè)試集合(淺色圓圈),記為集合Y1與Y2,為后續(xù)網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識(shí)別的實(shí)現(xiàn)奠定堅(jiān)實(shí)的基礎(chǔ)[5]。
以預(yù)處理完成后的網(wǎng)絡(luò)傳輸數(shù)據(jù)集合為基礎(chǔ),引入深度學(xué)習(xí)技術(shù)——LSTM,構(gòu)建網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識(shí)別模型,為研究目標(biāo)實(shí)現(xiàn)提供支撐[6]。
基于LSTM的網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識(shí)別模型具體如圖2所示。
如圖2所示,由于網(wǎng)絡(luò)傳輸數(shù)據(jù)在時(shí)間維度上存在著前后關(guān)系,具備時(shí)間序列特征,再加之?dāng)?shù)據(jù)傳輸是一個(gè)較為復(fù)雜的過程,還會(huì)受到多種因素的直接或間接影響,致使異常數(shù)據(jù)是否存在具有一定的不確定性,而LSTM對(duì)時(shí)間序列數(shù)據(jù)處理具備較好的收斂性,故以此為基礎(chǔ)構(gòu)建網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識(shí)別模型[7]。
圖2 網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識(shí)別模型示意圖
構(gòu)建模型中,隱藏層將Dense全連接層與LSTM層進(jìn)行有效的結(jié)合。其中,LSTM層主要承擔(dān)輸入數(shù)據(jù)處理與分析的任務(wù),能夠?qū)?shù)據(jù)進(jìn)行選擇性的保存與摒棄,對(duì)構(gòu)建模型性能提升具有一定的作用[8]。Dense全連接層主要是對(duì)LSTM層輸出數(shù)據(jù)進(jìn)行轉(zhuǎn)換處理,方便異常數(shù)據(jù)識(shí)別。Dense全連接層需要添加激活函數(shù)才能體現(xiàn)構(gòu)建模型層次之間的非線性關(guān)系[9]。根據(jù)網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識(shí)別需求,選取Sigmoid函數(shù)作為Dense全連接層激活函數(shù),表達(dá)式為:
式中λ(y)表示的是Sigmoid函數(shù),即激活函數(shù)。
依據(jù)已有研究成果可知,Dense全連接層與LSTM層的數(shù)量并不是越多越好,過多或過少均會(huì)影響模型性能的發(fā)揮,具體層數(shù)需要通過模型訓(xùn)練確定。
由于上述構(gòu)建模型中LSTM神經(jīng)網(wǎng)絡(luò)包含長(zhǎng)期與短期記憶單元狀態(tài),對(duì)輸入數(shù)據(jù)形式具有一定的要求,因此,需要對(duì)網(wǎng)絡(luò)傳輸數(shù)據(jù)進(jìn)行重塑,使其滿足構(gòu)建模型輸入需求,最大限度地提升異常數(shù)據(jù)的識(shí)別精度[10]。
設(shè)定網(wǎng)絡(luò)傳輸數(shù)據(jù)為Y={y1,y2,…,y m},LSTM神經(jīng)網(wǎng)絡(luò)長(zhǎng)期與短期記憶單元關(guān)聯(lián)長(zhǎng)度分別為L(zhǎng)C與LD,則重塑后的輸入數(shù)據(jù)表達(dá)式為:
式中:y i與z i表示的是重塑前、后的第i個(gè)網(wǎng)絡(luò)傳輸數(shù)據(jù);αC與αD表示的是長(zhǎng)期與短期記憶單元背景下的重塑因子,其取值范圍為[0,5],具體取值大小需要根據(jù)數(shù)據(jù)實(shí)際情況而定。
利用式(5)將全部網(wǎng)絡(luò)傳輸數(shù)據(jù)進(jìn)行重塑處理,獲得構(gòu)建模型的輸入數(shù)據(jù)集合S={S1,S2,…,S m},為網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識(shí)別的實(shí)現(xiàn)做準(zhǔn)備。
應(yīng)用梯度下降法制定構(gòu)建模型訓(xùn)練程序,確定異常數(shù)據(jù)判別規(guī)則,將測(cè)試集合輸入至訓(xùn)練好的識(shí)別模型中,其輸出結(jié)果即為異常數(shù)據(jù)識(shí)別結(jié)果[11]。
基于梯度下降法的網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識(shí)別模型訓(xùn)練過程如下所示:
1)初始化識(shí)別模型相關(guān)參數(shù),設(shè)置初始步長(zhǎng)為0.001,初始衰減速率為0.9。
2)在訓(xùn)練集合Y1中隨機(jī)采集q個(gè)樣本數(shù)據(jù),記為{y1,y2,…,y q},其對(duì)應(yīng)模型輸出目標(biāo)為R j。
3)計(jì)算梯度數(shù)值g,更新有偏一階矩估計(jì)H與有偏二階矩估計(jì)K。
4)修正一階矩與二階矩偏差,獲得新的估計(jì)數(shù)值,記為與。
5)計(jì)算更新參數(shù),表達(dá)式為:
式中:Δψ表示的是更新參數(shù);ε表示的是誤差項(xiàng)。
6)重復(fù)進(jìn)行步驟2)~步驟5),直至滿足最大迭代次數(shù)為止,輸出最終識(shí)別模型相關(guān)參數(shù)。
異常數(shù)據(jù)判別參量計(jì)算公式為:
式中:Γ表示的是異常數(shù)據(jù)判別參量[12];y(t)與(t)分別表示的是模型擬合值與實(shí)際值。
以式(7)計(jì)算結(jié)果為依據(jù),制定異常數(shù)據(jù)判別規(guī)則:當(dāng)Γ大于或等于0.43時(shí),認(rèn)定網(wǎng)絡(luò)傳輸數(shù)據(jù)為異常數(shù)據(jù);當(dāng)Γ小于0.43時(shí),認(rèn)定網(wǎng)絡(luò)傳輸數(shù)據(jù)為正常數(shù)據(jù)[13]。將上述訓(xùn)練獲得的相關(guān)參數(shù)值與異常數(shù)據(jù)判別規(guī)則代入至網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識(shí)別模型中,即可完成識(shí)別模型的訓(xùn)練與完善。將測(cè)試集合作為識(shí)別模型輸入,模型輸出就是異常數(shù)據(jù)識(shí)別結(jié)果,從而實(shí)現(xiàn)了網(wǎng)絡(luò)傳輸數(shù)據(jù)異常的精準(zhǔn)識(shí)別,為網(wǎng)絡(luò)傳輸數(shù)據(jù)的安全提供更有效的保障,為需求數(shù)據(jù)查詢提供一定的便利。
選取基于局部離群因子的數(shù)據(jù)異常識(shí)別方法及其在古建結(jié)構(gòu)監(jiān)測(cè)中的應(yīng)用[14]與改進(jìn)云模型在大壩安全監(jiān)測(cè)數(shù)據(jù)異常識(shí)別中的應(yīng)用[15]作為對(duì)比方法1與方法2,設(shè)計(jì)網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識(shí)別對(duì)比實(shí)驗(yàn),驗(yàn)證所提方法的應(yīng)用效果。
網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識(shí)別性能很難被直觀反映出來,故選取適當(dāng)?shù)姆椒☉?yīng)用性能評(píng)價(jià)指標(biāo),主要包括精度、召回率與F1值,計(jì)算公式為:
式中:F表示的是精度;N1表示的是正常數(shù)據(jù)被判定為正常數(shù)據(jù)類別的樣本數(shù)量;N2表示的是異常數(shù)據(jù)被判定為正常數(shù)據(jù)類別的樣本數(shù)量;G表示的是召回率;N3表示的是異常數(shù)據(jù)被判定為異常數(shù)據(jù)類別的樣本數(shù)量;F1表示的是綜合度量精度與召回率后的數(shù)值。
常規(guī)情況下,單一評(píng)價(jià)指標(biāo)具有一定的片面性,不具備可信度,再加之精度與召回率兩者之間存在著一定的對(duì)立關(guān)系,無法直接衡量異常數(shù)據(jù)識(shí)別性能,因此,設(shè)計(jì)F1值對(duì)精度與召回率進(jìn)行綜合的衡量,更加精準(zhǔn)地體現(xiàn)提出方法的應(yīng)用效果。
以上述訓(xùn)練好的LSTM神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ),進(jìn)行網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識(shí)別對(duì)比實(shí)驗(yàn),完整地記錄實(shí)驗(yàn)數(shù)據(jù),應(yīng)用式(8)計(jì)算網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識(shí)別的精度與召回率,具體如表1與表2所示。
表1 網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識(shí)別精度 %
以表1與表2所示數(shù)據(jù)為依據(jù),通過式(8)計(jì)算評(píng)價(jià)指標(biāo)F1值,具體如圖3所示。
表2 網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識(shí)別召回率 %
如圖3所示,隨著時(shí)間的推移,網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識(shí)別性能評(píng)價(jià)指標(biāo)——F1值呈現(xiàn)波動(dòng)狀態(tài),無規(guī)律可循,這主要是因?yàn)閿?shù)據(jù)異常識(shí)別過程中的影響因素過多,并且很多因素不可控、不可預(yù)測(cè)。
圖3 評(píng)價(jià)指標(biāo)F1值示意圖
其中,提出方法應(yīng)用后,第3 h時(shí),F(xiàn)1值達(dá)到最小值83.70%,第8 h時(shí),F(xiàn)1值達(dá)到最大值94.50%;對(duì)比方法1應(yīng)用后,第3 h時(shí),F(xiàn)1值達(dá)到最小值45.55%,第10 h時(shí),F(xiàn)1值達(dá)到最大值58.40%;對(duì)比方法2應(yīng)用后,第8 h時(shí),F(xiàn)1值達(dá)到最小值45.59%,第10 h時(shí),F(xiàn)1值達(dá)到最大值60.40%。
通過上述數(shù)據(jù)對(duì)比可知,提出方法應(yīng)用后獲得的評(píng)價(jià)指標(biāo)——F1值最小值均高于對(duì)比方法1與方法2的F1值最大值,表明提出方法異常數(shù)據(jù)識(shí)別性能更好。
網(wǎng)絡(luò)普及程度的不斷提升,使其內(nèi)部傳輸數(shù)據(jù)體量也在逐步增加,而設(shè)備更新、惡意攻擊種類多變、傳輸性能等因素的影響,使得異常數(shù)據(jù)的占比越來越大,對(duì)于需求數(shù)據(jù)的查詢和隱私數(shù)據(jù)的安全造成極大的不利影響,故本文提出一種基于深度學(xué)習(xí)的網(wǎng)絡(luò)傳輸數(shù)據(jù)異常識(shí)別方法。該方法在LSTM神經(jīng)網(wǎng)絡(luò)模型的應(yīng)用下,大幅度提升了評(píng)價(jià)指標(biāo)——F1值,能夠更加精確地識(shí)別異常數(shù)據(jù),為網(wǎng)絡(luò)傳輸數(shù)據(jù)的應(yīng)用與處理提供更有效的方法支撐。