• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于大數(shù)據(jù)的電力信息網(wǎng)絡(luò)流量異常檢測機(jī)制

      2017-04-13 06:42:39姜紅紅張濤趙新建錢欣趙天成高莉莎
      電信科學(xué) 2017年3期
      關(guān)鍵詞:網(wǎng)絡(luò)流量數(shù)據(jù)量流量

      姜紅紅,張濤,趙新建,錢欣,趙天成,高莉莎

      (1.國網(wǎng)江蘇省電力公司南京供電公司,江蘇 南京 210019;2.北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,北京100876)

      電力信息化專欄

      基于大數(shù)據(jù)的電力信息網(wǎng)絡(luò)流量異常檢測機(jī)制

      姜紅紅1,張濤2,趙新建1,錢欣1,趙天成1,高莉莎1

      (1.國網(wǎng)江蘇省電力公司南京供電公司,江蘇 南京 210019;2.北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,北京100876)

      隨著智能電網(wǎng)建設(shè)的加強(qiáng),電力信息網(wǎng)絡(luò)及其承載的業(yè)務(wù)系統(tǒng)得到迅猛發(fā)展,網(wǎng)絡(luò)業(yè)務(wù)流量的檢測和預(yù)警具有重要的安全意義。針對目前電力信息網(wǎng)絡(luò)缺乏處理流量異常問題的有效技術(shù)手段,提出了一種基于大數(shù)據(jù)的電力信息網(wǎng)絡(luò)流量異常檢測機(jī)制,并通過對改進(jìn)的局部異常因子(M-LOF)和支持向量域數(shù)據(jù)描述(SVDD)兩種常用異常檢測算法的對比分析,總結(jié)出適合電力信息網(wǎng)絡(luò)的流量異常檢測方法。

      電力信息網(wǎng)絡(luò);流量異常檢測;局部異常因子;支持向量域數(shù)據(jù)描述

      1 引言

      隨著電力信息網(wǎng)絡(luò)規(guī)模不斷擴(kuò)大、復(fù)雜性不斷增加,基于信息網(wǎng)絡(luò)的各類應(yīng)用業(yè)務(wù)也越來越廣泛,產(chǎn)生的數(shù)據(jù)量龐大,這就導(dǎo)致網(wǎng)絡(luò)出現(xiàn)異常的可能性大大增加[1-3]。而且在信息網(wǎng)絡(luò)中,很難找到發(fā)生問題的根源,未被診斷的網(wǎng)絡(luò)異常會進(jìn)一步傳播并影響網(wǎng)絡(luò)的正常信息傳輸。因此,如何對網(wǎng)絡(luò)流量進(jìn)行實(shí)時的監(jiān)測和評估,并及時發(fā)現(xiàn)網(wǎng)絡(luò)的異常,對提高網(wǎng)絡(luò)的穩(wěn)定性和安全性具有重要意義[4]。

      目前,網(wǎng)絡(luò)異常診斷比較常規(guī)的做法是根據(jù)網(wǎng)絡(luò)運(yùn)行質(zhì)量監(jiān)測和評估的指標(biāo)來觀察網(wǎng)絡(luò)的規(guī)律,并進(jìn)一步發(fā)現(xiàn)和排除異常。但是目前國內(nèi)針對電力信息網(wǎng)絡(luò)的流量分析手段處理能力弱、顆粒度大,這些問題造成了電力信息網(wǎng)絡(luò)的數(shù)據(jù)盲視和流量數(shù)據(jù)信息黑洞,同時在流量飽和或網(wǎng)絡(luò)擁塞等情況發(fā)生時,無法進(jìn)一步對異常源進(jìn)行深層次排查分析[5]。另外,網(wǎng)絡(luò)管理中心需要處理網(wǎng)絡(luò)中各種各樣的故障信息,這些大多需要?dú)v史經(jīng)驗(yàn)來指導(dǎo),然而龐大的數(shù)據(jù)量不可能都由人工完成。因此,目前電力信息網(wǎng)急需一種流量問題的預(yù)警機(jī)制,能夠在第一時間發(fā)現(xiàn)異常,并讓管理中心快速地通過流量管理手段解決問題[6-8]。在智能電網(wǎng)運(yùn)行過程中,為了及時、全面、準(zhǔn)確地了解網(wǎng)絡(luò)的實(shí)時狀況,智能電網(wǎng)系統(tǒng)中安裝了很多流量探針、傳感器等采集設(shè)備。系統(tǒng)會實(shí)時監(jiān)聽和采集到海量的數(shù)據(jù)信息并上傳,電力大數(shù)據(jù)信息集合由此產(chǎn)生。截至2015年,國家電網(wǎng)已完成招標(biāo)智能電表4.3億臺,實(shí)現(xiàn)用電信息采集用戶4.5億戶,其采集系統(tǒng)將產(chǎn)生以PB級計(jì)的數(shù)據(jù)。電力系統(tǒng)運(yùn)行過程中產(chǎn)生的數(shù)據(jù)具備大數(shù)據(jù)典型的“4V”特征,即規(guī)模性(volume)、多樣性(variety)、高速性(velocity)和價值性(value)。智能電網(wǎng)中的這些大數(shù)據(jù)蘊(yùn)藏著很多有價值的信息,但這些數(shù)據(jù)價值密度不高,并不能直接運(yùn)用于網(wǎng)絡(luò)的快速判穩(wěn),需要從實(shí)際的系統(tǒng)特性出發(fā),研究數(shù)據(jù)內(nèi)部的規(guī)律,使用在線的數(shù)據(jù)挖掘手段來檢測網(wǎng)絡(luò)的異常。

      現(xiàn)有基于大數(shù)據(jù)的網(wǎng)絡(luò)流量異常檢測方法通常使用基于知識的檢測方法,如基于事例的推理、模糊邏輯、粗糙集方法、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)以及信息融合故障檢測方法等[9]來構(gòu)建?;跈C(jī)器學(xué)習(xí)的方法[10,11]是現(xiàn)在異常檢測技術(shù)的主流,常用的異常檢測方法中主要是處理分類問題,一類(目標(biāo))樣本充分采樣,另一類(異常)進(jìn)行欠采樣,一般都從已知的正常類數(shù)據(jù)中進(jìn)行學(xué)習(xí),建立正常的學(xué)習(xí)模型用以進(jìn)行數(shù)據(jù)分類。而在電力數(shù)據(jù)網(wǎng)中,首先在網(wǎng)絡(luò)中采集一些樣本并進(jìn)行異常標(biāo)注,然后利用這些樣本來訓(xùn)練模型并將模型運(yùn)用于實(shí)際網(wǎng)絡(luò)的異常檢測中,這是一種有監(jiān)督的學(xué)習(xí)方法。但是,實(shí)際網(wǎng)絡(luò)的情況十分復(fù)雜,數(shù)據(jù)量也遠(yuǎn)遠(yuǎn)超過人工所能標(biāo)注的范圍,因此很難精確指出哪些流量為異常流量。

      相對于上述有監(jiān)督的學(xué)習(xí)方法,無監(jiān)督的學(xué)習(xí)方法可以省去數(shù)據(jù)標(biāo)注的過程,從海量數(shù)據(jù)集中學(xué)習(xí)正常的模式,成為目前網(wǎng)絡(luò)流量異常檢測的重要方法。提出一種基于大數(shù)據(jù)的電力信息網(wǎng)絡(luò)流量異常檢測機(jī)制,從實(shí)際應(yīng)用出發(fā),重點(diǎn)進(jìn)行海量在線數(shù)據(jù)的特征量選擇、樣本預(yù)處理并引入兩種不同的數(shù)據(jù)挖掘方法來處理電力網(wǎng)流量異常問題:基于密度的局部異常因子(local outlier factor,LOF)學(xué)習(xí)方法和基于距離的支持向量域數(shù)據(jù)描述(support vector domain description,SVDD)學(xué)習(xí)方法,這兩種方法都是無監(jiān)督學(xué)習(xí)方法。

      2 流量異常檢測機(jī)制

      基于數(shù)據(jù)挖掘方法的網(wǎng)絡(luò)流量異常檢測機(jī)制如圖 1所示。首先從網(wǎng)絡(luò)中進(jìn)行樣本數(shù)據(jù)的采集,并保存到數(shù)據(jù)庫中。然后對數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)篩選、數(shù)據(jù)降維和數(shù)據(jù)標(biāo)準(zhǔn)化,之后輸入數(shù)據(jù)挖掘算法模型中,通過使用合適的機(jī)器學(xué)習(xí)算法給出異常檢測結(jié)果。

      圖1 基于數(shù)據(jù)挖掘方法的網(wǎng)絡(luò)流量異常檢測機(jī)制

      2.1 樣本數(shù)據(jù)采集

      在電力信息網(wǎng)中,數(shù)據(jù)主要來自智能電表、相量測量單元(power managementunit,PMU)以及各種傳感器設(shè)備的采集信息,這些數(shù)據(jù)的數(shù)據(jù)分組很小,但數(shù)據(jù)規(guī)模大、結(jié)構(gòu)復(fù)雜、傳輸速度快。為了準(zhǔn)確實(shí)時地獲取這些信息,通過部署在網(wǎng)絡(luò)節(jié)點(diǎn)(交換機(jī)或者路由器)上的流量采集設(shè)備采集樣本數(shù)據(jù),采集到的數(shù)據(jù)分組包括分組頭各個字段的信息,具體字段信息見表1。

      2.2 數(shù)據(jù)預(yù)處理

      數(shù)據(jù)預(yù)處理是進(jìn)行數(shù)據(jù)挖掘前很重要的一步,不僅需要將數(shù)據(jù)轉(zhuǎn)換成模型要求的向量格式,還需要清除數(shù)據(jù)源中的臟數(shù)據(jù)、重復(fù)數(shù)據(jù)等[12]。通過特征選取、數(shù)據(jù)篩選、降維和標(biāo)準(zhǔn)化完成數(shù)據(jù)的預(yù)處理工作。

      表1 原始流量數(shù)據(jù)分組字段

      2.2.1 特征選取

      電力信息網(wǎng)絡(luò)流量數(shù)據(jù)的維數(shù)較大,為了直觀顯示數(shù)據(jù)的分布,使用平行坐標(biāo)的方法來觀察數(shù)據(jù),可以剔除無關(guān)維度。平行坐標(biāo)是一種通用的可視化方法,用于對高維幾何和多元數(shù)據(jù)的可視化,圖2中每一個縱軸都是數(shù)據(jù)的一個維度。

      從圖2中可以直觀地看到數(shù)據(jù)的整體分布情況。由于電力信息網(wǎng)中的流量分布特點(diǎn)與業(yè)務(wù)種類和時間有關(guān),所以對每時刻每端口發(fā)送的數(shù)據(jù)分組進(jìn)行統(tǒng)計(jì),特征選取維度見表2。

      表2 特征選取維度

      實(shí)驗(yàn)過程中,特征提取的單位時間粒度取值為10 min,這樣能包含足夠的信息判斷流量異常。如果時間粒度過小,則會造成檢測算法的誤報率上升,產(chǎn)生虛警。

      2.2.2 數(shù)據(jù)篩選與降維

      多維尺度分析(multi-dimensional scaling,MDS)是一種常用的數(shù)據(jù)分析方法,MDS可以利用成對樣本間的相似性來構(gòu)建合適的低維度空間,并且能保證樣本在低維度空間的距離相似性和高維度的一致性[13]。具體描述如下。

      首先,對于要降維的t維數(shù)據(jù),構(gòu)建一個 t×t的相異度矩陣ΔX,MDS期望尋找m維的t個向量ψ1,…,ψ1∈RN組成的矩陣Δψ,使得向量間的距離與ΔX中向量距離相似。在經(jīng)典的多維尺度分析中,該距離指的是歐氏距離。歐式距離可以被任意旋轉(zhuǎn)和變換,且這些變換不會改變樣本間的距離。

      圖2 網(wǎng)絡(luò)流量數(shù)據(jù)平行坐標(biāo)

      所以多維尺度分析相當(dāng)于一個優(yōu)化問題:

      實(shí)際數(shù)據(jù)采集中,由于操作人員的記錄錯誤或者采集設(shè)備的誤差等原因,會出現(xiàn)個別樣本點(diǎn)與其他點(diǎn)偏差很大的情況,這類點(diǎn)被稱為離群點(diǎn)或者野值。從圖2中很容易找到這些點(diǎn),并予以剔除。

      2.2.3 數(shù)據(jù)標(biāo)準(zhǔn)化

      由于向量空間上各個維度的單位不一致,如輸入分組數(shù)、輸出分組數(shù)與輸入字節(jié)數(shù)、輸出字節(jié)數(shù)的單位不一致,需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,本文使用離差標(biāo)準(zhǔn)化的方法:

      通過式(3),讓各個維度的數(shù)據(jù)都轉(zhuǎn)換為[0,1]區(qū)間上的值。

      2.3 基于大數(shù)據(jù)的異常檢測算法

      基于機(jī)器學(xué)習(xí)的分類方法被廣泛應(yīng)用于異常檢測領(lǐng)域,引入兩種不同類型的機(jī)器學(xué)習(xí)方法。

      2.3.1 改進(jìn)的局部異常因子檢測算法

      在無監(jiān)督異常檢測方法中,由于僅有一類樣本可供學(xué)習(xí),因此最簡單也最直接的方式就是通過參數(shù)化方法或非參數(shù)化方法來估計(jì)訓(xùn)練樣本的密度模型并設(shè)置密度閾值,小于該閾值的即被認(rèn)為異常。

      參數(shù)化方法的原理是假定樣本數(shù)據(jù)符合某項(xiàng)分布,如多元高斯模型,以測試樣本與均值的距離來判定其是否為異常。該方法比較簡單,但是存在維度災(zāi)難問題,即時間成本與樣本數(shù)成指數(shù)關(guān)系,當(dāng)樣本數(shù)過高時,時間成本將十分巨大。而由于電力信息網(wǎng)的高可靠性要求,對業(yè)務(wù)流量異常檢測的時效性要求較高,因此參數(shù)化方法不適于電力信息網(wǎng)的流量異常檢測。

      選用的局部異常檢測算法是一種非參數(shù)化的無監(jiān)督異常檢測算法,其設(shè)計(jì)原理是根據(jù)樣本點(diǎn)與其局部鄰域樣本點(diǎn)分隔程度的局部異常度來進(jìn)行異常檢測。

      由于網(wǎng)絡(luò)節(jié)點(diǎn)的故障異常是具有局部性的,提出了一種改進(jìn)的LOF算法——M-LOF(mean localoutlier factor),該方法在LOF算法的k距離和k近鄰的基礎(chǔ)上,提出了m距離和m近鄰的概念,并基于m距離和m近鄰對異常點(diǎn)進(jìn)行檢測,具體算法描述如下。

      定義1對象p的k距離dk(p),表示對象p與距離它第k近的鄰居的距離,表示如下。

      至少有k個對象,滿足:

      最多有k-1個對象,滿足:

      定義2對象p的k近鄰Ndk(p)(p),表示由所有與p之間距離小于dk(p)的對象組成的集合。

      定義3對象p的m距離,為了降低傳統(tǒng)的LOF算法的k取值敏感性,M-LOF算法提出m距離的概念,即將對象p到k近鄰的距離求平均,得到p的m距離:

      其中,ε是用來提高準(zhǔn)確度的常量。

      定義4對象p的m近鄰,針對m距離,可以得到對象 p的m近鄰:Nm_dk(p)(p),表示所有與 p之間距離小于 m距離的對象組成的集合。

      定義6對象p的局部密度,計(jì)算式如下:

      定義7對象p的局部異常因子,計(jì)算式如下:

      M-LOF算法流程如下。

      輸入數(shù)據(jù)流p={pj}j=1,2,…,N

      For j=1,2…N:do

      Find dk(pj)and m_dk(pj)

      Find Ndk(p)(p)and Nm_dk(p)(p)

      Calculate reack_distm(pj,pi)

      Calculate lrdm(pj)

      Calculate LOFm(pj)

      End For

      2.3.2支持向量域描述算法

      支持向量機(jī)(support vector machine,SVM)是一種主流的兩類分類方法,其通過尋求一個超平面將兩類樣本以最大間隔分開。但在流量異常檢測領(lǐng)域,由于一般僅有一類樣本,故原有SVM不再適用。

      SVDD被用來處理線性分類的問題,核函數(shù)可以將高維空間的內(nèi)積運(yùn)算轉(zhuǎn)化為低維輸入空間的核函數(shù)計(jì)算,從而巧妙地解決了在高維特征空間中計(jì)算的 “維數(shù)災(zāi)難”等問題。常用的核函數(shù)有:線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基核函數(shù)、sigmoid核函數(shù)和復(fù)合核函數(shù)等[14]。本文選用線性核函數(shù) (linear)、徑向基核函數(shù) (radial basis function,RBF)和sigmoid核函數(shù)(sigmoid)3種進(jìn)行比較,分析不同核函數(shù)處理流量異常問題的優(yōu)劣。

      是以六天邪魔乘勢來侵,八部瘟曹恣橫流毒,唯修善之人形,同劫界命不墮於兇虋亡矣。(《太上說玄天大聖真武本傳神呪妙經(jīng)註》卷五,《中華道藏》30/568)

      3 實(shí)驗(yàn)結(jié)果與對比分析

      3.1 實(shí)驗(yàn)結(jié)果

      通過流量探測工具獲取某電力公司信息網(wǎng)2016年3月內(nèi)的連續(xù)流量數(shù)據(jù)分組,并在實(shí)驗(yàn)平臺中進(jìn)行處理和分析。實(shí)驗(yàn)平臺基于MATLAB開發(fā),在實(shí)驗(yàn)平臺中實(shí)現(xiàn)了M-LOF算法,并使用LibSVM工具包進(jìn)行二次開發(fā)完成SVDD。經(jīng)過預(yù)處理后的數(shù)據(jù)作為實(shí)驗(yàn)平臺的輸入,通過不同算法的處理來對算法表現(xiàn)進(jìn)行評估。

      3.1.1 M-LOF算法結(jié)果

      傳統(tǒng)的LOF算法對算法中鄰居k的取值比較敏感,當(dāng)數(shù)據(jù)量很大時,如果k取值過小,會將很多比較集中的異常點(diǎn)判斷為正常點(diǎn),如果k取值過大,又會使正常點(diǎn)受影響被判斷為異常點(diǎn)。而提出的M-LOF算法雖然也會受k值影響,但對k值的敏感性比LOF降低很多,因?yàn)槿绲?.3.1節(jié)的描述,M-LOF算法計(jì)算的m距離是對k近鄰的k距離的平均,所以M-LOF算法更加關(guān)注于局部性。k=10和k=100時10 000連續(xù)流量分組檢測結(jié)果如圖3和圖4所示。

      圖3 10 000個連續(xù)流量分組檢測結(jié)果

      M-LOF算法的異常判決方法是根據(jù)M-LOF值是否大于某個異常門限值來進(jìn)行判決的。觀察k=10和k=30兩種不同情況下,M-LOF的計(jì)算結(jié)果。在k=10的實(shí)驗(yàn)中,由于異常因子值的均值在2.5左右,95%的數(shù)據(jù)都小于2.5,可以將異常的閾值設(shè)置為2.5,即所有大于 2.5的點(diǎn)都判為異常。實(shí)際使用中,閾值的設(shè)置是通過經(jīng)驗(yàn)數(shù)據(jù)來調(diào)整的,為了提高算法召回率可以將門限提高。同樣方法,在k=30的實(shí)驗(yàn)中,將異常的閾值設(shè)置為5。通過比較發(fā)現(xiàn),在k=30的實(shí)驗(yàn)中,90%的數(shù)據(jù)都在門限值以下,精度要比k=10的實(shí)驗(yàn)低5%。這表明當(dāng)k值較大時,會使小部分正常點(diǎn)被誤判為異常點(diǎn)。所以,在本實(shí)驗(yàn)中,選用k=10的M-LOF算法作為實(shí)驗(yàn)?zāi)P汀?/p>

      作為比較分析,為了測試本算法在不同數(shù)據(jù)集時的準(zhǔn)確度,通過設(shè)置數(shù)據(jù)集的大小,從1 000,2 000,…,9 000,10 000條數(shù)據(jù)量,對M-LOF算法和LOF算法的運(yùn)行情況進(jìn)行了分析比較,結(jié)果如圖4所示。

      圖4 兩種算法準(zhǔn)確率對比

      從圖4可以看出,數(shù)據(jù)集較小時,兩種方法的準(zhǔn)確率都比較低,這是因?yàn)閿?shù)據(jù)量不夠,各個數(shù)據(jù)間的距離仍然比較稀疏,基于密度的算法不能從稀疏的數(shù)據(jù)集中很好地區(qū)分異常點(diǎn)和正常點(diǎn)。當(dāng)數(shù)據(jù)集大于2 000時,雖然隨著數(shù)據(jù)集個數(shù)的增加,兩種算法的效率都會下降,但是M-LOF算法的檢測精度明顯高于傳統(tǒng)的LOF算法,更適合在數(shù)據(jù)量大的網(wǎng)絡(luò)流量數(shù)據(jù)集中作為異常檢測的算法模型。

      3.1.2 SVDD算法結(jié)果

      3種方法處理10 000條數(shù)據(jù)集的表現(xiàn)見表4。準(zhǔn)確率(accuracy)反映了分類系統(tǒng)對整個樣本的判定能力,能將正樣本判定為正,負(fù)樣本判定為負(fù);召回率(recall)反映了被正確判定的正例占總正例的比重。

      對于異常問題的檢測,LibSVM對非監(jiān)督分類器的結(jié)果評價主要考慮兩個方面,一個是采用半徑盡可能小的超球面覆蓋盡可能多的正常數(shù)據(jù)點(diǎn)(準(zhǔn)確率),另一個是對異常的區(qū)分能力。

      圖5 3種核函數(shù)得到的SVC結(jié)果

      表4 3種方法結(jié)果比較

      對比以上3種核函數(shù)的結(jié)果,可以發(fā)現(xiàn)RBF核函數(shù)的分類效果明顯高于其他兩個核函數(shù),準(zhǔn)確率達(dá)到了90%,另外從圖5(b)可以看出,RBF給出了一個近似圓形的分界線,因?yàn)楸敬卧囼?yàn)所處理的流量異常問題是非線性的,RBF核函數(shù)可以通過非線性變換將非線性的輸入數(shù)據(jù)轉(zhuǎn)化為線性的輸出數(shù)據(jù),從而給出正確的分類。因此,利用RBF作為核函數(shù)在處理網(wǎng)絡(luò)流量數(shù)據(jù)異常時具有很好的分類效果。

      3.2 對比分析

      對比M-LOF和SVDD兩種無監(jiān)督異常檢測方法,對于處理5 000條和10 000條數(shù)據(jù)的結(jié)果見表5和表6。

      表5 處理5 000條數(shù)據(jù)兩種不同方法精度對比

      表6 處理10 000條數(shù)據(jù)兩種不同方法精度對比

      從表5可以看出,在數(shù)據(jù)量為5 000條時,提出的M-LOF算法具有較高的準(zhǔn)確率,遠(yuǎn)高于SVDD算法的準(zhǔn)確率。這是因?yàn)镸-LOF是針對局域距離來計(jì)算異常點(diǎn)的,在數(shù)據(jù)量不大時,可以很好地利用數(shù)據(jù)局部相似性的特點(diǎn)。但當(dāng)數(shù)據(jù)量達(dá)到10 000條時,由于數(shù)據(jù)流時間跨度增加,數(shù)據(jù)的局部相似性減少,因此M-LOF算法的精度會有所下降,而SVDD會有一定上升,這是因?yàn)镾VDD算法可以持續(xù)學(xué)習(xí),不斷更新調(diào)整分類器參數(shù)來滿足數(shù)據(jù)的分布狀態(tài),但缺陷是這種重復(fù)的學(xué)習(xí)過程在一定程度上會增加算法的復(fù)雜度。

      綜上分析,M-LOF算法在對短時間跨度內(nèi)的較小數(shù)據(jù)量進(jìn)行異常檢測時,檢測準(zhǔn)確率較高且復(fù)雜度低,適于對時間跨度小的較小數(shù)據(jù)量進(jìn)行檢測。同時針對時間跨度大的大數(shù)據(jù)量進(jìn)行檢測時,也可以利用M-LOF算法的局部特性,采用多時間窗口來處理數(shù)據(jù),充分利用異常的時間相關(guān)性,以提高檢測準(zhǔn)確率。

      相比較M-LOF算法,SVDD算法具有一種持續(xù)學(xué)習(xí)的能力,但數(shù)據(jù)量越大,時間復(fù)雜度越高,適用于對實(shí)時性要求較低的時間跨度大的大數(shù)據(jù)量進(jìn)行異常檢測。

      4 結(jié)束語

      隨著智能電網(wǎng)的不斷革新發(fā)展,電力信息網(wǎng)絡(luò)規(guī)模不斷擴(kuò)大,網(wǎng)絡(luò)中出現(xiàn)故障的可能性也不斷增加。針對電力信息網(wǎng)流量異常檢測領(lǐng)域處理手段較少等問題,提出了一種基于大數(shù)據(jù)方法的異常檢測機(jī)制,分別采用兩種不同的無監(jiān)督機(jī)器學(xué)習(xí)方法對現(xiàn)網(wǎng)中的流量數(shù)據(jù)做了挖掘分析,一種是經(jīng)過改進(jìn)后的M-LOF算法,另一種是以RBF為核函數(shù)的SVDD算法,經(jīng)比較分析,兩種算法各自適于不同的數(shù)據(jù)量和不同的應(yīng)用環(huán)境。

      綜上所述,給出了基于大數(shù)據(jù)方法的流量異常檢測機(jī)制,詳細(xì)給出了兩類算法流程。通過大量的真實(shí)電力信息網(wǎng)流量數(shù)據(jù)驗(yàn)證了上述方法具有較高的準(zhǔn)確率和較低的誤報率,能快速地對網(wǎng)絡(luò)中的流量異常發(fā)出提前預(yù)警,從而進(jìn)一步提高網(wǎng)絡(luò)質(zhì)量,增加電力信息網(wǎng)絡(luò)的穩(wěn)定性。

      [1]孟小峰,慈祥.大數(shù)據(jù)管理概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-169. MENG X F,CI X.Big data management:concepts,techniques, challenges[J].Journal of Computer Research and Development, 2013,50(1):146-169.

      [2]張東霞,苗新,劉麗平,等.智能電網(wǎng)大數(shù)據(jù)技術(shù)發(fā)展研究[J].中國電機(jī)工程學(xué)報,2015,35(1):2-12. ZHANG D X,MIAO X,LIU L P,et al.Research on development strategy for smart grid big data[J].Proceedings of the CSEE,2015,35(1):2-12.

      [3]宋亞奇,周國亮,朱永利.智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn)[J].電網(wǎng)技術(shù),2013,37(4):927-935. SONG Y Q,ZHOU G L,ZHU Y L.Present status and challenges of big data processing in smart grid[J].PowerSystem Technology,2013,37(4):927-935.

      [4]孫宏斌,胡江溢,劉映尚,等.調(diào)度控制中心功能的發(fā)展——電網(wǎng)實(shí)時安全預(yù)警系統(tǒng)[J].電力系統(tǒng)自動化,2004,28(15):1-6. SUN H B,HU J Y,LIU Y S,et al.Development of the power dispatching control center-real time power security early warning system[J].Automation of Electric Power Systems,2004,28(15): 1-6.

      [5]嚴(yán)劍峰,于之虹,田芳,等.電力系統(tǒng)在線動態(tài)安全評估和預(yù)警系統(tǒng)[J].中國電機(jī)工程學(xué)報,2008,28(34):87-93.YAN J F,YU Z H,TIAN F,et al.Dynamic security assessment and early warning system of power system[J].Proceedings of the CSEE,2008,28(34):87-93.

      [6]湯涌,王英濤,田芳,等.大電網(wǎng)安全分析,預(yù)警及控制系統(tǒng)的研發(fā)[J].電網(wǎng)技術(shù),2012,36(7):1-11. TANG Y,WANG Y T,TIAN F,et al.Research and development of stability analysis,early-warning andcontrol system for huge power grids[J].Power System Technology,2012,36(7):1-11.

      [7] 蔡斌,吳素農(nóng),王詩明,等.電網(wǎng)在線安全穩(wěn)定分析和預(yù)警系統(tǒng)[J].電網(wǎng)技術(shù),2007,31(2):36-41. CAI B,WU S N,WANG S M,et al.Power grid on-line security and stability analysis and forewarning system[J].Power System Technology,2007,31(2):36-41.

      [8] 荊銘,邱夕兆,延峰,等.電力調(diào)度數(shù)據(jù)網(wǎng)安全技術(shù)及其應(yīng)用[J].電網(wǎng)技術(shù),2008,32(26):173-176. JIN M,QIU X Z,YAN F,et al.Security technology of electric power dispatching data network and its application[J].Power System Technology,2008,32(26):173-176.

      [9] 許濤,賀仁睦,王鵬,等.基于統(tǒng)計(jì)學(xué)習(xí)理論的電力系統(tǒng)暫態(tài)穩(wěn)定評估[J].中國電機(jī)工程學(xué)報,2003,23(11):51-55. XU T,HE R M,WANG P,et al.Power system transient stability assessment based on statistical learning theory[J]. Proceedings of the CSEE,2003,23(11):51-55.

      [10]黃天恩,孫宏斌,郭慶來,等.基于電網(wǎng)運(yùn)行大數(shù)據(jù)的在線分布式安全特征選擇[J].電力系統(tǒng)自動化,2016,40(4):32-40. HUANG T E,SUN H B,GUO Q L,et al.Online distributed security feature selection based on big data in power system operation[J].Automation of Electric Power Systems,2016,40(4): 32-40.

      [11]穆瑞輝,付歡.淺析數(shù)據(jù)挖掘概念與技術(shù) [M].北京:機(jī)械工業(yè)出版社,2008. MU R H,FU H.Analyze the concept of data mining and technology[M].Beijing:China Machine Press,2008.

      [12]鄭黎明,鄒鵬,賈焰.網(wǎng)絡(luò)流量異常檢測中分類器的提取與訓(xùn)練方法研究[J].計(jì)算機(jī)學(xué)報,2012,35(4):719-729. ZHENG L M,ZOU P,JIA Y.How to extract and train the classifier in traffic anomaly detection system[J].Chinese Journal of Computers,2012,35(4):719-729.

      [13]曲朝陽,陳帥,楊帆,等.基于云計(jì)算技術(shù)的電力大數(shù)據(jù)預(yù)處理屬性約簡方法[J].電力系統(tǒng)自動化,2014,38(8):67-71.QU Z Y,CHEN S,YANG F,et al.An attribute reducing method for electric power big data preprocessing based on cloud computing technology[J].Automation of Electric Power Systems, 2014,38(8):67-71.

      [14]奉國和.SVM分類核函數(shù)及參數(shù)選擇比較[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(3):123-124. FENG G H. Parameter optimizing for support vector machinesclassification[J].Computer Engineering and Applications, 2011,47(3):123-124.

      A big data based flow anom aly detection mechanism of electric power inform ation network

      JIANG Honghong1,ZHANG Tao2,ZHAO Xinjian1,QIAN Xin1,ZHAO Tiancheng1,GAO Lisha1
      1.Jiangsu Nanjing Power Supply Company,Nanjing 210019,China
      2.National Key Lab of Networking and Switching Technology, Beijing University of Posts and Telecommunications,Beijing 100876,China

      With the construction of smart grid,the electric power information network and its business system get rapid development.The early flow anomaly detection and warning are significant to the safety of network.Due to the lack of efficient measuring means to handle the flow abnormal problems,a flow anomaly detection mechanism based on big data for the electric power information network was proposed.Through the comparative analysis of two common anomaly detection algorithms,the improved local outlier factor algorithm (M-LOF)and the support vector data description (SVDD)algorithm,the suitable flow anomaly detection method for electric power information network was summarized.

      electric power information network,flow anomaly detection,local outlier factor,support vector data description

      TM744

      :A

      10.11959/j.issn.1000-0801.2017031

      姜紅紅(1984-),女,博士,國網(wǎng)江蘇省電力公司南京供電公司信息工程師,主要研究方向?yàn)橹悄茈娋W(wǎng)、網(wǎng)絡(luò)服務(wù)質(zhì)量管理、電力信息化。

      張濤(1992-),男,北京郵電大學(xué)網(wǎng)絡(luò)與交換技術(shù)國家重點(diǎn)實(shí)驗(yàn)室網(wǎng)絡(luò)管理研究中心碩士生,主要研究方向?yàn)橹悄茈娋W(wǎng)、自組織網(wǎng)絡(luò)和無線網(wǎng)絡(luò)管理技術(shù)。

      趙新建(1988-),男,國網(wǎng)江蘇省電力公司南京供電公司信息工程師,主要研究方向?yàn)橹悄茈娋W(wǎng)、電力信息化。

      錢欣(1989-),女,國網(wǎng)江蘇省電力公司南京供電公司信息工程師,主要研究方向?yàn)橹悄茈娋W(wǎng)、電力信息化。

      趙天成(1990-),男,國網(wǎng)江蘇省電力公司南京供電公司信息工程師,主要研究方向?yàn)橹悄茈娋W(wǎng)、電力信息化。

      高麗莎(1982-),女,國網(wǎng)江蘇省電力公司南京供電公司信息工程師,主要研究方向?yàn)橹悄茈娋W(wǎng)、電力信息化。

      2016-09-20;

      2017-01-18

      猜你喜歡
      網(wǎng)絡(luò)流量數(shù)據(jù)量流量
      基于多元高斯分布的網(wǎng)絡(luò)流量異常識別方法
      冰墩墩背后的流量密碼
      玩具世界(2022年2期)2022-06-15 07:35:36
      張曉明:流量決定勝負(fù)!三大流量高地裂變無限可能!
      基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
      基于神經(jīng)網(wǎng)絡(luò)的P2P流量識別方法
      計(jì)算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
      尋找書業(yè)新流量
      出版人(2020年4期)2020-11-14 08:34:26
      高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
      寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究
      電子制作(2019年13期)2020-01-14 03:15:18
      AVB網(wǎng)絡(luò)流量整形幀模型端到端延遲計(jì)算
      和田市| 安康市| 登封市| 紫阳县| 贵定县| 饶平县| 牡丹江市| 临澧县| 台中市| 克拉玛依市| 山东| 登封市| 湛江市| 花垣县| 荣昌县| 华容县| 长治市| 乌鲁木齐市| 绿春县| 南阳市| 溆浦县| 樟树市| 绵阳市| 焦作市| 阿合奇县| 怀安县| 汉源县| 台州市| 昭觉县| 小金县| 浮山县| 图们市| 开化县| 邮箱| 南昌市| 肃南| 庆元县| 三明市| 炎陵县| 景宁| 咸丰县|