劉 璐
(北京科東電力控制系統(tǒng)有限責(zé)任公司,北京 100192)
電力通信數(shù)據(jù)技術(shù)被廣泛應(yīng)用于智能電網(wǎng)的設(shè)計(jì)中[1]。為了創(chuàng)造安全、高效的電力通信網(wǎng)絡(luò)運(yùn)營(yíng)環(huán)境,通信數(shù)據(jù)流量的異常監(jiān)測(cè)技術(shù)已成為電力工作人員的研究重點(diǎn)[2]。姜丹等[3]首先采用大數(shù)據(jù)分析技術(shù)得到電力通信數(shù)據(jù)流量的最大似然值;然后構(gòu)建數(shù)據(jù)流量異常監(jiān)測(cè)模型,并通過(guò)子序列聚類(lèi)處理最大似然值得到異常流量的特征;最后將特征輸入到異常監(jiān)測(cè)模型中,從而完成電力通信數(shù)據(jù)流量的異常監(jiān)測(cè)。周伯陽(yáng)等[4]首先構(gòu)建基于多尺度低秩序的電力數(shù)據(jù)異常監(jiān)測(cè)模型;然后對(duì)電力通信數(shù)據(jù)流量作歸一化處理,并采用改進(jìn)的遞歸特征選擇法得到流量的聚類(lèi)結(jié)果;最后將聚類(lèi)結(jié)果輸入到監(jiān)測(cè)模型中進(jìn)行分類(lèi),從而完成電力通信數(shù)據(jù)流量的異常監(jiān)測(cè)。孫瀅濤等[5]首先根據(jù)趨勢(shì)性、動(dòng)態(tài)性和變換性,分別提取電力通信數(shù)據(jù)流量的特征;然后對(duì)特征作降噪處理;最后采用支持向量數(shù)據(jù)構(gòu)造一類(lèi)分類(lèi)器模型,并將特征輸入到模型中,從而完成電力通信數(shù)據(jù)流量的異常監(jiān)測(cè)。數(shù)據(jù)流量的異常監(jiān)測(cè)是電力通信網(wǎng)絡(luò)使用過(guò)程中不可缺少的環(huán)節(jié)。但該環(huán)節(jié)受不同信道流量冗余性、異常數(shù)據(jù)類(lèi)型等問(wèn)題的干擾,導(dǎo)致監(jiān)測(cè)過(guò)程耗時(shí)長(zhǎng)且誤差大。
為了進(jìn)一步優(yōu)化電力通信數(shù)據(jù)流量異常監(jiān)測(cè)過(guò)程,本文設(shè)計(jì)電力通信數(shù)據(jù)流量異常的并行檢測(cè)方法。本文在對(duì)電力通信數(shù)據(jù)流量降維的基礎(chǔ)上:采用并行分解傳感算法,對(duì)多信道數(shù)據(jù)流量進(jìn)行并行分解;采用并行檢測(cè)算法,實(shí)現(xiàn)了電力通信數(shù)據(jù)流量異常監(jiān)測(cè)。試驗(yàn)結(jié)果表明,本文方法具有較好的監(jiān)測(cè)效果,有助于保證電力通信網(wǎng)絡(luò)運(yùn)營(yíng)環(huán)境的通信質(zhì)量。
為了保證電力通信數(shù)據(jù)流量具有良好的并行分解效果,本文采用自適應(yīng)鄰域法對(duì)數(shù)據(jù)流量作降維處理。具體步驟如下。
①通過(guò)自適應(yīng)鄰域法選取所有電力通信數(shù)據(jù)流量樣本點(diǎn)的e個(gè)近鄰點(diǎn),計(jì)算任意兩個(gè)樣本點(diǎn)間的歐式距離[6]。
(1)
式中:a、b均為電力通信數(shù)據(jù)流量的樣本點(diǎn);D為數(shù)據(jù)流量樣本點(diǎn)之間的歐氏距離;M為樣本點(diǎn)的總數(shù)量,個(gè)。
②對(duì)歐氏距離作優(yōu)化處理[7],并結(jié)合限制條件計(jì)算出數(shù)據(jù)流量的局部重建權(quán)值矩陣,將電力通信數(shù)據(jù)流量的降維過(guò)程轉(zhuǎn)換為尋找最優(yōu)解問(wèn)題。
(2)
式中:V為局部協(xié)方差矩陣;W為重建權(quán)值矩陣;U為限制條件;α為優(yōu)化系數(shù)。
③引入拉格朗日乘子[8],解決式(2)中的限制條件。
(3)
式中:β為算法迭代次數(shù),次;K為引入的拉格朗日乘子。
④通過(guò)尋找最優(yōu)解問(wèn)題,將高維度的電力通信數(shù)據(jù)流量映射到低維度空間,以完成數(shù)據(jù)流量的降維處理。這不僅使降維后的數(shù)據(jù)流量保留了原始的內(nèi)部特征,還為后續(xù)的并行分解處理創(chuàng)造出更具體的可分性。
(4)
式中:minα(b)為最優(yōu)求解結(jié)果;L為單位矩陣;s.t.bU為在bU=L的條件下進(jìn)行尋優(yōu);bU為電力通信數(shù)據(jù)流量樣本點(diǎn)b在限制條件U下的降維處理過(guò)程中的特征參數(shù)。
針對(duì)降維后的電力通信數(shù)據(jù)流量,本文在變換矩陣的基礎(chǔ)上[9]采用并行分解傳感算法實(shí)現(xiàn)多信道數(shù)據(jù)流量的并行分解,從而有效地降低數(shù)據(jù)流量的冗余性。具體步驟如下。
①設(shè)降維后的電力通信數(shù)據(jù)流量維度為B、其對(duì)應(yīng)的列向量為J、在變換矩陣的作用下系數(shù)向量的維度為P。則在維度為B×P的變換矩陣C下,數(shù)據(jù)流量為:
(5)
式中:Z為電力通信數(shù)據(jù)流量在變換矩陣中的系數(shù)向量。
③在電力通信數(shù)據(jù)流量滿足稀疏表達(dá)后,引入傳感矩陣T,將數(shù)據(jù)流量通過(guò)傳感矩陣進(jìn)行投影[10]。
φ=TJ=TCZ
(6)
式中:φ為解壓后的電力通信數(shù)據(jù)流量,GB。
④獨(dú)特的數(shù)據(jù)流量分解由若干棵隨機(jī)二叉樹(shù)構(gòu)成。
隨機(jī)二叉樹(shù)劃分過(guò)程如圖1所示。
圖1 隨機(jī)二叉樹(shù)劃分過(guò)程
通過(guò)隨機(jī)抽樣一致算法[11]從電力通信數(shù)據(jù)流量集合中選取m個(gè)樣本點(diǎn)構(gòu)成子集I,并從其中隨機(jī)抽選一個(gè)屬性A與分離值z(mì)。
I=[I1,I2,…,Im],A,z∈Im
(7)
屬性A從電力通信數(shù)據(jù)流量樣本四類(lèi)屬性中隨機(jī)選取。第一類(lèi)屬性為基本特征,主要包括連續(xù)時(shí)間、協(xié)議類(lèi)型和傳輸字節(jié)數(shù)等。第二類(lèi)屬性為內(nèi)容特征。第三類(lèi)屬性為基于時(shí)間的網(wǎng)絡(luò)流量統(tǒng)計(jì)特征。第四類(lèi)屬性為基于主機(jī)的網(wǎng)絡(luò)流量統(tǒng)計(jì)特征。
⑤考慮到基本特征屬性可以更好地判斷電力通信數(shù)據(jù)流量是否存在異常,本文將式(7)中隨機(jī)選取的屬性A定義為基本特征屬性。在隨機(jī)二叉樹(shù)中,根據(jù)基本特征屬性值和分離值對(duì)所有電力通信數(shù)據(jù)流量樣本點(diǎn)實(shí)行并行劃分。若Im(A) ⑥在隨機(jī)二叉樹(shù)的每次劃分過(guò)程中,本文采用隨機(jī)生成的超平面構(gòu)造一個(gè)分離超平面,以保證分解的高效運(yùn)行。 (8) 式中:u為隨機(jī)系數(shù);Ai為第i個(gè)屬性值;d為分離超平面;ε為屬性之間的標(biāo)準(zhǔn)差;r為屬性指標(biāo)。 本文針對(duì)并行分解后的電力通信數(shù)據(jù)流量,設(shè)計(jì)并行檢測(cè)算法,以完成數(shù)據(jù)流量的異常監(jiān)測(cè)。 電力通信數(shù)據(jù)流量異常的并行檢測(cè)流程如圖2所示。 圖2 電力通信數(shù)據(jù)流量異常的并行檢測(cè)流程圖 并行檢測(cè)步驟如下。 ①確定電力通信數(shù)據(jù)流量的并行劃分粒度。假設(shè)在并行檢測(cè)過(guò)程中單個(gè)數(shù)據(jù)流量的檢測(cè)時(shí)間相同,則總耗時(shí)由并行任務(wù)的解壓耗時(shí)與衍生耗時(shí)構(gòu)成。 (9) 式中:t為并行檢測(cè)過(guò)程的總耗時(shí),s;E為并行分解的數(shù)據(jù)流量總數(shù),GB;x為衍生耗時(shí),s;G為單個(gè)并行檢測(cè)的消耗時(shí)間,s;N為檢測(cè)任務(wù)總量,個(gè);R為并行分解數(shù)據(jù)流量的體積;Q為劃分粒度,維。 ②在并行檢測(cè)過(guò)程中,引入常量δ以表示Q與t之間的關(guān)聯(lián),即可得到Q與t的關(guān)系。 (10) 式中:S為并行檢測(cè)算法的復(fù)雜度,%。 ③將經(jīng)過(guò)劃分的電力通信數(shù)據(jù)流量傳輸?shù)椒植际接?jì)算框架中,同時(shí)成立節(jié)點(diǎn)協(xié)作傳輸策略,對(duì)所有劃分塊作檢測(cè)處理。 ④當(dāng)分布式計(jì)算框架中所有節(jié)點(diǎn)完成檢測(cè)任務(wù)時(shí),將結(jié)果匯總至框架的主節(jié)點(diǎn)中,從而完成電力通信數(shù)據(jù)流量的并行檢測(cè)輸出[12]。 (11) 式中:O為電力通信數(shù)據(jù)流量的并行檢測(cè)輸出。 本文將并行檢測(cè)處理后的電力通信數(shù)據(jù)流量輸入到孤立森林模型,通過(guò)尋找出與大部分?jǐn)?shù)據(jù)流量不同的樣本點(diǎn),并將這些樣本點(diǎn)視為異常點(diǎn),從而完成數(shù)據(jù)流量的異常監(jiān)測(cè)。 ⑤根據(jù)隨機(jī)二叉樹(shù)葉子節(jié)點(diǎn)到根節(jié)點(diǎn)的路徑長(zhǎng)度來(lái)尋找電力通信數(shù)據(jù)流量中的異常值。路徑的數(shù)量由隨機(jī)二叉樹(shù)的根節(jié)點(diǎn)與葉子節(jié)點(diǎn)經(jīng)過(guò)的邊的數(shù)量決定。 (12) 式中:φ為歐拉常數(shù),φ≈0.577 2;g為路徑的數(shù)量,條;L′為路徑長(zhǎng)度。 ⑥路徑長(zhǎng)度可以反映數(shù)據(jù)流量樣本點(diǎn)的異常離群狀況。a的異常得分k為: (13) 式中:H為樣本點(diǎn)在隨機(jī)森林模型中的離群度。 ⑦當(dāng)k值趨近于0.5時(shí),表明電力通信數(shù)據(jù)流量樣本中不存在異?,F(xiàn)象;當(dāng)k值趨近于1時(shí),表明此時(shí)對(duì)應(yīng)的樣本點(diǎn)是一個(gè)異常值。 為了驗(yàn)證電力通信數(shù)據(jù)流量異常的并行檢測(cè)方法的整體有效性,本文需要進(jìn)行以下測(cè)試。 測(cè)試使用四組不同的電力數(shù)據(jù)流量樣本集作為試驗(yàn)數(shù)據(jù)。這四組數(shù)據(jù)均來(lái)自遼寧省某電力公司2020年的分布式控制系統(tǒng)(distributed control system,DCS)運(yùn)營(yíng)數(shù)據(jù)。其編號(hào)分別為數(shù)據(jù)流量集1~4。試驗(yàn)以均方誤差、時(shí)間消耗、召回率作為評(píng)價(jià)指標(biāo),采用所提方法、文獻(xiàn)[3]方法和文獻(xiàn)[4]方法完成對(duì)比測(cè)試。 通過(guò)所提方法對(duì)電力通信數(shù)據(jù)并行分解,并比較分解后的數(shù)據(jù)與原始數(shù)據(jù)的區(qū)別,判斷重構(gòu)信號(hào)是否可以客觀地反映原始電力網(wǎng)絡(luò)異常數(shù)據(jù)信號(hào)的特征。異常數(shù)據(jù)并行分解試驗(yàn)結(jié)果如圖3所示。 圖3 異常數(shù)據(jù)并行分解試驗(yàn)結(jié)果 由圖3可知,所提方法重構(gòu)后的異常數(shù)據(jù)基本上還原了原始數(shù)據(jù)原貌,只是在細(xì)節(jié)上的數(shù)據(jù)有所損失。由圖3(b) 、圖3(c)可知,在并行分解過(guò)程中,所提方法較為完整地保存了平緩區(qū)和突變區(qū)的信號(hào),說(shuō)明所提方法可以有效分解異常數(shù)據(jù)。 ①均方誤差。 均方誤差描述方法監(jiān)測(cè)結(jié)果與真實(shí)結(jié)果之間的差距。其值越大,表明方法的擬合能力越弱、監(jiān)測(cè)結(jié)果偏差越大;其值越小,表明方法的擬合能力越強(qiáng)、監(jiān)測(cè)結(jié)果偏差越小。 (14) 式中:MSE為均方誤差;n為電力通信數(shù)據(jù)流量的數(shù)量;Xj為第j個(gè)輸入樣本;F(Yj)為各方法的監(jiān)測(cè)結(jié)果。 不同方法的均方誤差測(cè)試結(jié)果如表1所示。 表1 不同方法的均方誤差測(cè)試結(jié)果 由表1可知,針對(duì)電力通信數(shù)據(jù)流量的監(jiān)測(cè),無(wú)論在哪組數(shù)據(jù)流量集中,所提方法的均方誤差均小于文獻(xiàn)[3]方法與文獻(xiàn)[4]方法。這表明所提方法的擬合效果更好、監(jiān)測(cè)結(jié)果更精準(zhǔn)。 ②時(shí)間消耗。 時(shí)間消耗指各方法在電力通信數(shù)據(jù)流量異常監(jiān)測(cè)過(guò)程中所消耗的時(shí)間。時(shí)間消耗越大,說(shuō)明方法的監(jiān)測(cè)性能越低;時(shí)間消耗越小,說(shuō)明方法的監(jiān)測(cè)性能越高。在數(shù)據(jù)監(jiān)測(cè)中,拉格朗日乘子用于處理帶有時(shí)間約束的電力通信數(shù)據(jù)流量異常監(jiān)測(cè)問(wèn)題。如果將拉格朗日乘子看作一個(gè)懲罰項(xiàng),則拉格朗日乘子越高,對(duì)違反時(shí)間約束的數(shù)據(jù)的懲罰越嚴(yán)厲,因此監(jiān)測(cè)時(shí)間越長(zhǎng)。 不同方法的時(shí)間消耗測(cè)試結(jié)果如表2所示。由表2可知,針對(duì)電力通信數(shù)據(jù)流量的異常監(jiān)測(cè),所提方法的時(shí)間消耗在45 s附近波動(dòng),而文獻(xiàn)[3]方法與文獻(xiàn)[4]方法的時(shí)間消耗分別在75 s和56 s附近波動(dòng)。不同拉格朗日乘子下,所提方法的時(shí)間消耗均小于文獻(xiàn)[3]方法與文獻(xiàn)[4]方法。這說(shuō)明所提方法的監(jiān)測(cè)性能高于文獻(xiàn)[3]方法與文獻(xiàn)[4]方法。 表2 不同方法的時(shí)間消耗測(cè)試結(jié)果 所提方法在對(duì)電力通信數(shù)據(jù)流量的異常監(jiān)測(cè)過(guò)程中,采用自適應(yīng)鄰域選擇法對(duì)數(shù)據(jù)流量作了降維處理,并采用并行分解傳感算法實(shí)現(xiàn)數(shù)據(jù)流量的并行分解。預(yù)處理后的數(shù)據(jù)流量便于傳輸與存儲(chǔ),進(jìn)一步降低了時(shí)間消耗。 ③召回率。 召回率用來(lái)衡量各方法監(jiān)測(cè)出異常數(shù)據(jù)流量的能力。召回率越高,表明方法的異常監(jiān)測(cè)能力越強(qiáng);召回率越低,表明方法的異常監(jiān)測(cè)能力越弱。 (15) 式中:R為召回率,%;K′為被監(jiān)測(cè)錯(cuò)誤的數(shù)據(jù)流量數(shù)量;T′為正確監(jiān)測(cè)的數(shù)據(jù)流量數(shù)量。 不同方法的召回率測(cè)試結(jié)果如表3所示。 表3 不同方法的召回率測(cè)試結(jié)果 由表3可知,針對(duì)電力通信數(shù)據(jù)流量的異常監(jiān)測(cè),無(wú)論在哪組測(cè)試樣本集中,所提方法的召回率均高于89%。其相較于文獻(xiàn)[3]方法、文獻(xiàn)[4]方法的召回率更高。這是由于所提方法采用并行檢測(cè)方法處理數(shù)據(jù)流量,并將預(yù)處理后的電力通信數(shù)據(jù)流量輸入到構(gòu)建的孤立森林異常監(jiān)測(cè)模型,提高了數(shù)據(jù)流量異常監(jiān)測(cè)能力。 電力通信數(shù)據(jù)流量監(jiān)測(cè)過(guò)程中,受數(shù)據(jù)冗余的影響,產(chǎn)生了均方誤差大、時(shí)間消耗長(zhǎng)、召回率高等問(wèn)題。為此,本文提出電力通信數(shù)據(jù)流量異常的并行檢測(cè)方法。該方法首先采用自適應(yīng)鄰域算法對(duì)電力通信數(shù)據(jù)流量作降維處理,并采用并行分解傳感算法實(shí)現(xiàn)數(shù)據(jù)流量的并行分解;其次采用并行檢測(cè)方法處理數(shù)據(jù)流量;最后將預(yù)處理后的電力通信數(shù)據(jù)流量輸入孤立森林異常監(jiān)測(cè)模型中,從而完成電力通信數(shù)據(jù)流量的異常監(jiān)測(cè)。試驗(yàn)結(jié)果表明,該方法不僅降低了電力通信數(shù)據(jù)流量監(jiān)測(cè)過(guò)程中的均方誤差和時(shí)間消耗,也在一定程度上提高了召回率。2 數(shù)據(jù)流量的并行檢測(cè)
3 試驗(yàn)與分析
3.1 試驗(yàn)設(shè)置
3.2 并行分解試驗(yàn)
3.3 異常數(shù)據(jù)檢測(cè)試驗(yàn)結(jié)果分析
4 結(jié)論