劉 灝,朱世佳,畢天姝
(新能源電力系統(tǒng)國家重點實驗室(華北電力大學),北京市 102206)
同步相量測量單元(synchrophasor measurement unit,PMU)因其同步性、快速性和準確性,已成為實現(xiàn)狀態(tài)感知的重要裝置[1]。此外,PMU 可以為決策控制、振蕩檢測和狀態(tài)估計[2-4]等應用提供數(shù)據(jù)。截至2018 年,中國已安裝投運了約3 000 臺PMU,覆蓋全部220 kV 及以上電壓等級變電站、發(fā)電廠和大部分并網可再生能源發(fā)電機組[5]。2017 年底,北美也安裝了約2 500 臺PMU[6]。
然而,受通信擁塞、干擾和網絡攻擊等諸多因素的影響,PMU 存在不同程度的數(shù)據(jù)質量問題[7]。北美約10%~17%的PMU 數(shù)據(jù)存在質量問題[8],這一比例在中國高達20%~30%。PMU 數(shù)據(jù)質量問題嚴重制約其在電網監(jiān)測、保護與控制等應用中的運行效果。尤其是連續(xù)壞數(shù)據(jù)與擾動數(shù)據(jù)高度相似,可能會導致控制中心做出錯誤的決策,甚至威脅系統(tǒng)安全。因此,準確檢測PMU 連續(xù)壞數(shù)據(jù)至關重要。
目前檢測PMU 壞數(shù)據(jù)的方法主要有模型驅動和數(shù)據(jù)驅動兩大類。文獻[9]給出了一種結合卡爾曼濾波和平滑算法的時間序列預測模型來檢測壞數(shù)據(jù)。文獻[10]提出了一種基于無跡卡爾曼濾波器并結合狀態(tài)估計的方法,實時檢測壞數(shù)據(jù)。文獻[11]提出了一種魯棒的廣義估計量,根據(jù)測量的時間相關性和統(tǒng)計一致性來檢測壞數(shù)據(jù)?;谀P偷姆椒ǘ夹枰到y(tǒng)拓撲和線路參數(shù)的先驗知識,因此,若系統(tǒng)拓撲參數(shù)未知或存在偏差,2 種方法的效果都會受到影響。
數(shù)據(jù)驅動的方法近年來受到廣泛關注。文獻[12]以神經網絡的加權輸出殘差作為聚類特征,再采用距離代價函數(shù)的K 均值算法來檢測壞數(shù)據(jù)。文獻[13]對誤差序列進行聚類,并利用間隙統(tǒng)計算法確定最佳聚類個數(shù),從而對壞數(shù)據(jù)進行識別。文獻[14]提出了一種集成學習算法來檢測壞數(shù)據(jù)。這些方法僅適用于靜態(tài)數(shù)據(jù)中的異常檢測。
文獻[15]構造了雙層長短期記憶網絡,通過分解重構誤差檢測壞數(shù)據(jù)。文獻[16]提出了一種基于主成分分析的方法來檢測壞數(shù)據(jù),利用低維主成分對擾動敏感、高維主成分對壞數(shù)據(jù)敏感的特征來區(qū)分擾動數(shù)據(jù)。文獻[17]基于四點斜率特征構造決策樹區(qū)分擾動數(shù)據(jù)和壞數(shù)據(jù)。但是這些方法均是有監(jiān)督的,存在離線訓練的負擔。
文獻[18]提出了一種基于時空相似性的方法在線檢測壞數(shù)據(jù)。文獻[19]構造了Hankel 矩陣,通過隨機置換數(shù)據(jù)矩陣的列,并對置換前后Hankel 矩陣的秩進行比較來區(qū)分壞數(shù)據(jù)和擾動數(shù)據(jù),其本質是利用置換后數(shù)據(jù)時間相關性丟失這一性質進行區(qū)分。上述方法對擾動過程中攻擊注入的動態(tài)相關性強的連續(xù)壞數(shù)據(jù)可能不適用。
因此,本文提出了一種無監(jiān)督的基于動態(tài)時間規(guī)整(dynamic time warping,DTW)和局部離群因子(local outlier factor,LOF)的檢測方法。該方法能在區(qū)分擾動數(shù)據(jù)的同時,有效檢測歷史數(shù)據(jù)攻擊這類更隱蔽攻擊以及存在次同步振蕩的連續(xù)壞數(shù)據(jù)。
本文主要研究因通信擁塞、干擾或網絡攻擊等導致的PMU 連續(xù)壞數(shù)據(jù)。在正?;驍_動條件下,所有良好的PMU 數(shù)據(jù)本質上為同一電網不同物理位置的PMU 量測序列。因此,相近位置獲得的良好PMU 數(shù)據(jù)往往具有相似的動態(tài)行為,因為代表了相同的底層物理系統(tǒng)動態(tài)。然而,壞數(shù)據(jù)被認為是由其他數(shù)據(jù)源生成,因此具有不同的動態(tài)特性[20]。以PMU 幅值數(shù)據(jù)為例,現(xiàn)場實測擾動數(shù)據(jù)、連續(xù)壞數(shù)據(jù)和正常數(shù)據(jù)之間的對比如圖1 所示。
圖1 實測擾動數(shù)據(jù)、連續(xù)壞數(shù)據(jù)以及正常數(shù)據(jù)比較Fig.1 Comparison of measured disturbance data,continous bad data,and normal data
圖1 中PMU1、PMU2、…、PMUn分別為鄰近的第1 臺PMU、第2 臺PMU、…、第n臺PMU。由圖1可以看到,在出現(xiàn)擾動時,雖然數(shù)據(jù)表現(xiàn)出時序異常,但在擾動過程中多臺PMU 數(shù)據(jù)表現(xiàn)出相同的波動趨勢。而出現(xiàn)壞數(shù)據(jù)時,個別PMU 數(shù)據(jù)不僅時序異常,而且在空間上也和其他PMU 數(shù)據(jù)不同。
基于上述分析可知,在正常和擾動運行條件下,PMU 壞數(shù)據(jù)與其相鄰PMU 良好的數(shù)據(jù)具有弱時空相關性,因此可以視為時空異常值;PMU 連續(xù)壞數(shù)據(jù)在同一時間窗內具有弱空間相似性,而擾動數(shù)據(jù)具有強空間相似性。因此,根據(jù)這一特性可在線識別連續(xù)壞數(shù)據(jù),并保證擾動數(shù)據(jù)不被誤判。
值得注意的是,弱時空相關性的特征也適用于協(xié)同網絡攻擊。假設攻擊者只有有限的資源,只能在短時間內攻擊一小部分PMU。與系統(tǒng)物理擾動可能會影響在本地區(qū)域內獲得的大量PMU 數(shù)據(jù)不同,資源有限的攻擊者只能操作有限數(shù)量的PMU。因此,部分協(xié)同攻擊下的PMU 數(shù)據(jù)也與其相鄰的無攻擊數(shù)據(jù)保持微弱的時空相關性。
擾動數(shù)據(jù)表現(xiàn)出強的空間相似性,而連續(xù)壞數(shù)據(jù)表現(xiàn)出弱的空間相似性。DTW 的優(yōu)勢是在2 個時間序列長度不一致時(例如1 臺PMU 出現(xiàn)數(shù)據(jù)丟失),仍能很好評估相似性。采用相關系數(shù)法計算協(xié)方差時需要2 個PMU 序列長度一致,且相關系數(shù)接近1 的程度受PMU 數(shù)據(jù)量的影響。因此,本文利用DTW 距離來衡量2 臺PMU 的空間相似性。
DTW 算法采用動態(tài)規(guī)劃的思想,通過調整PMU 序列中不同時刻對應元素之間的關系,找到一條最優(yōu)彎曲路徑,使路徑的距離最小,從而評估PMU 序列之間的關系[21]。DTW 路徑示意圖如圖2所示。給定2 臺PMU 數(shù)據(jù)X={x1,x2,…,xn}和Y={y1,y2,…,ym},X和Y可以同為電壓幅值或頻率。本文以幅值為例,構造了距離矩陣Dn×m,其元素D(i,j)為:
式中:xi和yj分別為第i個測量點和第j個測量點的相量幅值;n和m分別為第1 臺和第2 臺PMU 數(shù)據(jù)的測量點數(shù)。
式(1)表示2 臺PMU 數(shù)據(jù)點xi和yj的歐幾里德距離。矩陣D中每組相鄰元素(圖2 中S1和S2)的集合稱為彎曲路徑,需要滿足邊界性、連續(xù)性和單調性的約束[22]。滿足上述約束條件的彎曲路徑有多條。彎曲路徑可以表示為P={p1,p2,…,ps,…,pk},其中k是路徑中元素的總數(shù),元素ps是路徑上點s的坐標,即ps=(i,j),其中i和j分別為不同PMU 的測量點。
圖2 DTW 路徑示意圖Fig.2 Schematic diagram of DTW path
DTW 的目的是找到一條最優(yōu)的彎曲路徑,使PMU 數(shù)據(jù)X和Y的彎曲總代價最小,即找到一條最短路徑(如圖2 中藍色實心方塊所示的路徑):
式中:DTW(X,Y)為被用來計算PMU 數(shù)據(jù)X和Y距離的函數(shù)。
DTW 距離越小,表示2 臺PMU 數(shù)據(jù)間的空間相似度越高。利用式(2)可以評估任意1 臺PMU 數(shù)據(jù)與所研究系統(tǒng)中其他PMU 數(shù)據(jù)在一段時間窗內的空間相似性,以此作為區(qū)分擾動數(shù)據(jù)和連續(xù)壞數(shù)據(jù)的特征。
使用上面的過程能夠提取出可區(qū)分連續(xù)壞數(shù)據(jù)和擾動數(shù)據(jù)的空間特征。在一段時間窗內空間相似性強的數(shù)據(jù)將被視為正常(擾動)數(shù)據(jù),空間相似性弱的PMU 數(shù)據(jù)被確認為在當前窗口存在壞數(shù)據(jù)的PMU。如何根據(jù)所研究系統(tǒng)中任意2 臺PMU 計算得到空間相似性矩陣,并得到每臺PMU 的異常情況就成為難點。本章擬通過計算任意2 臺PMU 空間相似性的比值作為2 臺PMU 的距離,進一步基于密度得到每臺PMU 的異常分數(shù)(LOF 值)。
LOF 法是基于密度的方法,它旨在發(fā)現(xiàn)數(shù)據(jù)集中異常模式。異常與否,取決于樣本點與周圍鄰居的密度比。在本文所研究的問題中,LOF 法中的樣本點即空間內每臺PMU,通過計算每臺PMU 和它相鄰PMU 的密度比值來判斷任意1 臺PMU 在空間上的異常程度。
圖3 中,每個點表示空間中不同位置的PMU。C1和C2代表正常PMU 簇;O1和O2代表離群的異常PMU。由圖3 可知,如果1 臺PMU 的密度比較小,而它周圍臨近PMU 的密度比較高,那么它越離群(例如圖中的O1),從而成功選出空間相似度弱的PMU。
圖3 LOF 示意圖Fig.3 Schematic diagram of LOF
在LOF 法中,通過給每臺PMU 都分配1 個依賴于鄰域密度的LOF 值,可以判斷該臺PMU 是否為空間異常。對圖3 中任意2 臺PMU 的距離定義如下:
式中:N為所研究系統(tǒng)中PMU 的臺數(shù);Li為第i臺PMU 數(shù)據(jù)。
式(3)將基于DTW 算法求得的任意1 臺PMU與其他PMU 的平均距離作為其空間特征,2 臺PMU 的空間相似性的比值作為LOF 法里任意2 臺PMU 的距離,從而便于挑選出空間相似性弱的點(離群點)。
在式(3)的基礎上,可計算每臺PMU 的LOF值,見附錄A。LOF 值超過閾值被認為是壞數(shù)據(jù),由此實現(xiàn)正?;驍_動數(shù)據(jù)和連續(xù)壞數(shù)據(jù)的劃分。
在一個平穩(wěn)的擾動數(shù)據(jù)集,LOF 值為2 可能就是一段壞數(shù)據(jù),而在一個強烈波動的數(shù)據(jù)集里,LOF 值為5 可能仍然是一個正常值,所以簡單地采用一個常數(shù)作為閾值明顯不合理。本文提出了一種基于箱線圖的閾值確定法,根據(jù)PMU 數(shù)據(jù)集的整體波動情況靈活設定閾值。
箱線圖是一種用作顯示一組數(shù)據(jù)分散情況的統(tǒng)計圖,是利用數(shù)據(jù)中的5 個統(tǒng)計量(最小值、上四分位數(shù)、中位數(shù)、下四分位數(shù)、最大值)來描述數(shù)據(jù)的一種方法。箱線圖示意圖如圖4 所示。圖4 中,上四分位數(shù)、下四分位數(shù)指的是一組LOF 值按從小到大順序排列后,處于25%、75%位置的數(shù)值。由于本文中LOF 值越大表明該臺PMU 空間相似性越弱,在當前窗口越有可能存在壞數(shù)據(jù),因此設定閾值如下:
圖4 箱線圖示意圖Fig.4 Schematic diagram of box-plot
式中:η為閾值;Q3和Q1分別為1 組LOF 值里的上四分位數(shù)和下四分位數(shù);IQR=Q3-Q1,為上四分位數(shù)和下四分位數(shù)的差值。
箱線圖提供了識別異常LOF 值的一個標準:異常值被定義為大于Q3+3IQR的值。這與經典的3σ準則不同,3σ 準則是以數(shù)據(jù)服從正態(tài)分布為前提,但實際數(shù)據(jù)往往并不嚴格服從正態(tài)分布。而且均值和標準差的耐抗性極小,異常值本身會對它們產生較大影響。顯然,非正態(tài)分布數(shù)據(jù)中判斷異常值,其有效性是有限的。箱線圖依靠實際數(shù)據(jù),不需要事先假定數(shù)據(jù)服從特定的分布形式,它只是真實直觀地表現(xiàn)數(shù)據(jù)形狀的本來面貌;另一方面,箱線圖判斷異常值的標準以四分位數(shù)為基礎,四分位數(shù)具有一定的耐抗性,所以異常值不會對這個標準產生影響,箱線圖識別異常值的結果比較客觀。
值得一提的是,箱線圖中內限是Q3±1.5IQR,外限是Q3±3IQR,超過內限是有可能異常的LOF 值,超過外限是絕對異常LOF 值。本文選擇超過外限是因為實際上不同位置PMU 數(shù)據(jù)的空間相似性可能不嚴格很強,因此外限作為閾值能適度避免誤判。
所提算法的流程如圖5 所示。首先,利用前一段干凈數(shù)據(jù)時間窗的平均值進行標準化處理,消除各PMU 自身的影響;然后,采用不同PMU 數(shù)據(jù)的DTW 距離作為特征量進行空間相似性分析;最后,基于LOF 法和箱線圖對連續(xù)壞數(shù)據(jù)進行檢測。由于三相短路過程中不同母線相量幅值下降深度差異較大,有可能引起誤判,因此,為了避免對三相短路擾動的誤判,整體流程中在LOF 值與設定閾值比較后又增加了判據(jù):是否超過半數(shù)PMU,其當前窗口數(shù)據(jù)的最大相鄰差值Kt( =(zt-zt-1)/zt)大于0.2,其中zt和zt-1分別為時刻t和時刻t-1 的數(shù)據(jù)。
圖5 連續(xù)壞數(shù)據(jù)檢測算法流程圖Fig.5 Flow chart of detection algorithm for continuous bad data
對本文所提方法進行了驗證,并且將結果與文獻[18]中時空相似性的方法進行了比較。
采用IEEE 10 機39 節(jié)點系統(tǒng)對不同擾動條件下的仿真信號進行了測試。窗長為40 個數(shù)據(jù)點(0.4 s)。在三相斷線后設置一段偏差為0.09%的斜坡類型的連續(xù)壞數(shù)據(jù),本文方法和文獻[18]中的方法均能檢測,見附錄B。
切機后注入偏差為0.15%的歷史擾動壞數(shù)據(jù),這是目前更難檢測到的一種攻擊方式,如圖6所示。
圖6 歷史擾動壞數(shù)據(jù)Fig.6 Historical disturbance bad data
利用所提方法和文獻[18]中的時空相似性的方法對圖6 中壞數(shù)據(jù)進行檢測,檢測結果如圖7 所示。由圖7 可知,所提方法能檢測到PMU1 中歷史擾動壞數(shù)據(jù),但是時空相似性的方法無法有效檢測。原因是文獻[18]中時空相似性方法基于不同母線標準化后的方差計算LOF 值,而基于標準化方差的方法僅表示數(shù)據(jù)時間上前后波動幅度的變化,有些明顯是壞數(shù)據(jù)但波動幅度前后變化不明顯的壞數(shù)據(jù)無法有效檢測。
圖7 歷史擾動壞數(shù)據(jù)的檢測結果Fig.7 Detection results of historical disturbance bad data
為驗證所提方法的有效性,與文獻[18]中方法進行了在不同壞數(shù)據(jù)偏差下的對比實驗,每種偏差下設置了5 種不同壞數(shù)據(jù)類型,共20 組檢測結果,準確率如表1 所示。
表1 兩種方法準確率對比Table 1 Comparison of accuracy between two methods
由表1 可知,所提方法對偏差為0.2%及以上的壞數(shù)據(jù)有較高準確率,而文獻[18]中方法對于偏差0.2%的壞數(shù)據(jù)檢測效果變差,原因是太小偏差的連續(xù)壞數(shù)據(jù)和其他母線正常的擾動數(shù)據(jù)標準差相差不大。因此,所提方法在檢測范圍和整體準確率上相較于文獻[18]中方法有一定優(yōu)勢。
為測試所提方法在輸入信號中含有噪聲時的有效性,采用IEEE 10 機39 節(jié)點系統(tǒng)在切負荷后的仿真數(shù)據(jù)加60 dB 高斯白噪聲對所提方法和文獻[18]方法進行了驗證(因為輸電網噪聲一般在60 dB[23])。在含噪聲下設置了4 組不同偏差的斜坡攻擊壞數(shù)據(jù),所提方法和文獻[18]中方法的檢測結果如表2所示。
表2 兩種方法的檢測結果對比Table 2 Comparison of detection results between two methods
由表2 可知,所提方法對信號中含噪聲壞數(shù)據(jù)的識別效果要優(yōu)于文獻[18]中的方法,但對于有噪聲和存在偏差0.15%的壞數(shù)據(jù),所提方法也僅能識別少數(shù),存在漏判的問題,60 dB 噪聲造成的數(shù)據(jù)偏差最大達0.3%,會影響壞數(shù)據(jù)辨識結果。噪聲的存在確實會使小偏差的壞數(shù)據(jù)淹沒在噪聲里而難以檢測。
利用中國西部地區(qū)實測數(shù)據(jù)來驗證所提方法的有效性。加入偏差為0.5%的尖峰壞數(shù)據(jù)(如圖8 所示)和偏差為0.2%攻擊注入的連續(xù)壞數(shù)據(jù)(如圖9所示),利用LOF 值和箱線圖法設定的閾值比較后的檢測結果分別如圖10 和圖11 所示。
圖8 帶尖峰的實測數(shù)據(jù)Fig.8 Measured data with spikes
圖9 存在攻擊注入的實測連續(xù)壞數(shù)據(jù)Fig.9 Measured continuous bad data with attack injection
圖10 顯示,當尖峰數(shù)據(jù)的偏差小于0.6%時,文獻[18]中的時空相似性方法無法對其進行有效檢測。所提方法可有效檢測實測數(shù)據(jù)中偏差為0.5%的連續(xù)尖峰壞數(shù)據(jù)。原因可能是文獻[18]中的方法基于方差的特征不明顯。
圖10 實測尖峰數(shù)據(jù)的檢測結果Fig.10 Detection results of measured spike data
圖11 表明,當攻擊注入歷史擾動數(shù)據(jù)作為壞數(shù)據(jù)時,時空相似性方法無法檢測,原因是次同步振蕩數(shù)據(jù)本身存在一定方差,注入的PMU 數(shù)據(jù)和沒有注入的PMU 數(shù)據(jù)方差相差不大,因此基于方差做差或者方差做比來定義2 臺PMU 的距離檢測不到壞數(shù)據(jù)。而所提方法基于數(shù)據(jù)波動趨勢建立相似性的比值作為2 臺PMU 的距離,可以檢測到空間波動趨勢不一致的攻擊數(shù)據(jù)。由此可見,文獻[18]中的時空相似性方法仍有一定的局限性,而本文所提方法可滿足系統(tǒng)不同類型連續(xù)壞數(shù)據(jù)的檢測要求。
圖11 實測連續(xù)壞數(shù)據(jù)的檢測結果Fig.11 Detection results of measured continuous bad data
本文提出了一種數(shù)據(jù)驅動的在線PMU 連續(xù)壞數(shù)據(jù)檢測算法。它沒有離線訓練的負擔,且能避免對擾動數(shù)據(jù)的誤判,并可以提高PMU 數(shù)據(jù)的質量,為PMU 在電力系統(tǒng)中的各類應用提供數(shù)據(jù)基礎。得到主要結論如下。
1)提出了一種基于DTW 的衡量PMU 數(shù)據(jù)空間相似性方法。通過計算不同PMU 數(shù)據(jù)的DTW距離,提取了區(qū)分擾動數(shù)據(jù)和連續(xù)壞數(shù)據(jù)的空間特征。
2)利用LOF 法對連續(xù)壞數(shù)據(jù)進行檢測。它能夠在線檢測出擾動過程中的連續(xù)壞數(shù)據(jù),而現(xiàn)有方法則不易檢測。
3)提出了基于箱線圖的閾值確定方法,與其他方法相比,解決了單一固定閾值對不同波動情況的PMU 數(shù)據(jù)集設置不合理的問題。
4)仿真和現(xiàn)場數(shù)據(jù)測試證明了所提方法對連續(xù)壞數(shù)據(jù)的識別和檢測是有效的,可以為電力系統(tǒng)提供高質量的PMU 數(shù)據(jù)。
本文未考慮大量PMU 在同一時間段存在攻擊注入連續(xù)壞數(shù)據(jù)的情況。下一步將對更多PMU 遭受同一類型攻擊引起的連續(xù)壞數(shù)據(jù)進行深入研究。
附錄見本刊網絡版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網絡全文。