仝瑞寧,李鵬,郎恂,沈鑫,曹敏
(1.云南大學信息學院,昆明市 650504;2.云南電網有限責任公司電力科學研究院,昆明市 650217)
隨著泛在電力物聯(lián)網和堅強智能電網的深入推進,需求側能效管理[1]和智能配用電技術[2-3]越來越受到關注。非侵入式用電負荷監(jiān)測技術相比于侵入式負荷監(jiān)測技術而言,無需繁瑣的硬件安裝,只需要采集電力供給入口處的電壓電流,通過負荷辨識模型便能得到用電負荷的類別狀態(tài)和電能消耗[4]。其可以為引導用戶節(jié)約用電提供依據,同時有助于電網進行需求側能效管理和細粒度用電信息感知。結合分時電價、激勵響應等政策可以實現(xiàn)電網削峰填谷和優(yōu)化運營的目的,是如今智能電網領域的研究熱點[5]。
近年來,國內外學者對非侵入式負荷辨識方法進行了廣泛的研究。文獻[6]采用動態(tài)時間規(guī)整算法來度量變長暫態(tài)功率波形樣本與模板時間序列的相似性,并采用最近鄰分類策略實現(xiàn)了負荷辨識。文獻[7]將功率和15次奇偶電流諧波進行組合,作為雙向長短期記憶(bidirectional long short-term memory,Bi-LSTM)網絡的輸入進行負荷辨識。文獻[8]采用Fisher判別分類器,結合功率、諧波特征等多維特征實現(xiàn)了負荷識別,對運行機理不同的負荷分類效果較好。文獻[9]通過誤判風險控制將k近鄰與核Fisher判別相結合用于家庭負荷識別。文獻[10]采用支持向量機(support vector machine,SVM)結合有功功率和無功功率進行負荷識別。文獻[11]利用彈性反向傳播神經網絡(resilient back propagation,RPROP)算法,基于前16次諧波特征訓練多層神經網絡,實現(xiàn)了疊加態(tài)負荷分解。文獻[12]結合功率、諧波等多種特征,使用廣義回歸神經網絡(generalized regression neural network,GRNN)對常見家用負荷進行識別。
綜上所述,傳統(tǒng)負荷辨識模型往往采用功率、電流諧波等穩(wěn)態(tài)特征相結合的方法對功率相近的復雜負荷進行識別,但是多維特征之間往往具有高相關性且存在可分性較差的無效特征,容易導致模型出現(xiàn)特征冗余度高、辨識準確率低、計算開銷大等問題。針對上述問題,本文提出一種基于Fisher主元分析(Fisher principal component analysis,F(xiàn)PCA)和核極限學習機(kernel extreme learning machine,KELM)的非侵入式電力負荷辨識模型。首先采取Fisher得分和主成分分析相融合的FPCA算法來降低特征冗余度,然后結合遺傳算法優(yōu)化的核極限學習機分類器實現(xiàn)負荷辨識。算例仿真結果表明,所提模型可有效地對用電設備工作狀態(tài)進行快速辨識。
相比于暫態(tài)特征,負荷穩(wěn)態(tài)特征數據采集的硬件成本較低且抗外界干擾能力強,因此使用穩(wěn)態(tài)特征建模有利于模型的實際推廣[13]。部分運行機理相似的電器,無功功率和有功功率均比較相近,單純通過功率特征難以有效區(qū)分不同設備狀態(tài)??紤]到諧波特征具有高維性、豐富性、差異性,因此增加電流諧波特征可以進一步區(qū)分功率相近的設備狀態(tài)[14]。電流諧波含有率是典型的頻域特征,第h次電流諧波含有率定義為第h次電流諧波分量的均方根值與基波分量的均方根值之比,用百分數表示。雖然增加電流諧波特征可提高負荷辨識精度,但也帶來了特征冗余度高的弊端,因此有必要對穩(wěn)態(tài)電流諧波含有率的特性進行分析,從而克服因增加穩(wěn)態(tài)電流諧波特征所帶來的特征冗余度高的弊端。部分電器的前25次電流諧波含有率如圖1所示。
圖1 部分電器前25次的電流諧波含有率
由圖1可以看出,偶次電流諧波含有率幾乎為0,無法作為有效的頻域特征。奇次電流諧波含有率具有相對豐富的負荷信息,但仍然存在特征維數高且可分性不明確等問題。
Fisher得分可以對特征的可分離性進行打分,其得分越高表明特征可分性越好。通過剔除可分性較差的特征,可選擇出對提高模型分類效果更有效的特征[15]。
根據可分性好的特征滿足數據類內變化小,類間變化大的特點,F(xiàn)isher得分的評分函數可定義為:
(1)
式中:c表示類別個數;ni表示第i類樣本的個數;ui和σi分別表示第i類樣本中特征f的均值和標準差;u表示全部樣本中特征f的均值。
基于Fisher主元分析的具體步驟如下:
步驟1:設原始數據有n組數據,每組數據包含k個特征變量X1,X2,…,Xk,則可以得到原始數據矩陣為:
(2)
式中:xnk表示第n組數據中第k個特征代表的樣本。
步驟2:根據每個特征的Fisher得分,從原始k個特征中選取得分高的前p個特征,得到如式(3)所示的數據矩陣:
(3)
式中:xnp表示第n組數據中第p個特征代表的樣本,其中p一般取k/2。
為了進一步降低特征之間存在的相關性,對特征選擇后的數據進行主成分分析[16]。
步驟3:將特征選擇后的數據矩陣XP進行標準化處理:
(4)
步驟4:建立標準化后的變量相關系數矩陣R。
(5)
步驟6:計算各主成分的方差貢獻率βi和累積方差貢獻率β(i),可表示為:
(6)
(7)
累積方差貢獻率超過85%時,所對應的前m個主成分便包含了p個變量所能提供的絕大部分信息,同時可有效地消除原始特征之間的相關性。
核極限學習機用核函數代替了原始極限學習機中的隱含層特征映射過程。其采取同時最小化訓練誤差和輸出權重范數的訓練方法[17],如式(8)所示:
(8)
式中:β為隱含層節(jié)點和輸出層節(jié)點之間的權重向量;h(xi)為隱含層的映射向量;yi為目標輸出。從標準優(yōu)化理論的觀點看,則上述目標可重新改寫為:
(9)
式中:ξi為訓練誤差;C為懲罰系數;N為訓練樣本數。
基于KKT理論,極限學習機的訓練等價于解決如下的對偶優(yōu)化問題:
(10)
式中:αi是拉格朗日算子。
求解上述優(yōu)化問題,可得:
(11)
αi=Cξi,i=1,…,N
(12)
h(xi)β-yi+ξi=0 ,i=1,…,N
(13)
式中:α=[α1,…,αN]T;H=[h(x1),…,h(xN)]。
將式(11)和式(12)代入到式(13)中,上述公式可等價寫為:
(14)
根據式(14)和式(11)可得:
(15)
則極限學習機輸出函數可以表示為:
(16)
根據Mercer條件,定義核函數矩陣:
(17)
(18)
將式(17)和式(18)代入式(16)中,則核極限學習機的輸出函數可表示為:
(19)
本文建模的基本思路是利用Fisher主元分析降低特征冗余度,然后建立遺傳算法優(yōu)化的核極限學習機分類器進行負荷辨識?;贔isher主元分析和核極限學習機的非侵入式電力負荷辨識建模流程如圖2所示。建模主要分為以下5個部分:
圖2 基于Fisher主元分析和KELM的非侵入式電力負荷辨識建模流程
1)數據預處理;
2)獲取電力負荷穩(wěn)態(tài)特征;
3)Fisher主元分析降低特征冗余度;
4)遺傳算法優(yōu)化模型參數;
5)建立基于FPCA-GA-KELM的學習網絡。
為了降低異常數據對分類性能的干擾,因此本文對數據集進行以下數據預處理:
1)剔除異常值。用電負荷正常運行時應滿足以下基本條件:運行功率不超過額定功率且運行電壓在220 V標準電壓附近波動,根據此條件可以剔除數據中的異常值。
2)插補缺失值。為了降低數據傳輸和存儲的成本,數據集自動過濾掉了功率波動小于一定閾值的負荷數據,因此可認為在數據缺失的時段內,回路中的負荷數據未發(fā)生變化,用缺失前最后一次記錄的數據來填充。
通過智能電表中的采集模塊獲得家庭供電終端的總電流和端電壓,利用文獻[18]中所述的基于滑動窗的事件探測方法提取總時間序列數據中穩(wěn)態(tài)負荷信息。計算得到電流有效值、電壓有效值、有功功率、無功功率、功率因數等時域特征和3、5、7、9、11、13、15、17、19、21、23、25次電流諧波含有率等頻域特征,共17種穩(wěn)態(tài)特征作為原始輸入變量。
為了達到減少模型輸入變量個數以及降低特征變量相關性的目的,采用Fisher主元分析對原始特征變量進行處理,將最終提取的主成分作為本文模型的輸入,進行模型訓練和測試。具體算法步驟如下所示:
步驟1:首先為每組訓練數據貼上類標簽,通過Fisher評分函數計算每個特征的類別可分性得分。
步驟2:將原始k個特征按照Fisher得分從高到低進行排列,從中選取得分高的前k/2個有效特征,剔除得分較低的無效特征。
步驟3:將得分高的前k/2個有效特征進行數據標準化處理,然后進行主成分分析。選取累積方差貢獻率超過85%的前m個特征向量作為新的坐標軸,將原始數據映射到新坐標軸上得到前m個主成分。
步驟4:考慮到標準化處理后出現(xiàn)的負數和多位小數對模型計算的影響,對主成分進行鏡像平移縮放,即對其取絕對值并放大Z倍,Z取100。
步驟5:將最終提取的主成分作為模型的輸入,進行訓練和測試。
核極限學習機參數中的懲罰系數C對模型的復雜性和穩(wěn)定性起到了至關重要的作用,核函數寬度δ則表征樣本數據映射到高維特征空間分布的復雜程度。為提高模型的分類準確率,本文采用遺傳算法[19-20]對C和δ進行參數尋優(yōu)。遺傳算法優(yōu)化過程的相關參數設置如表1所示。
表1 遺傳算法優(yōu)化參數
選取能反映模型性能的總體分類準確率的倒數作為適應度函數f(t),如下所示:
(20)
(21)
本文使用Fisher主元分析和遺傳優(yōu)化核極限學習機網絡來建立非侵入式負荷辨識模型的具體步驟如下:
步驟1:對智能電表采集計算得到的原始17種負荷穩(wěn)態(tài)特征數據進行Fisher主元分析,將最終提取的主成分作為模型的輸入。
步驟2:選擇合適的核函數來搭建核極限學習機網絡。本文選用RBF函數作為核函數,其表達式如下所示:
(22)
步驟3:遺傳算法對模型參數進行尋優(yōu)。為了避免人為選擇參數的隨意性并提高模型的辨識準確率,本文采用遺傳算法對懲罰系數C和核函數寬度δ進行最優(yōu)參數選擇。
步驟4:確定最終的負荷辨識網絡。本文建立基于FPCA-GA-KELM的網絡結構如圖3所示。
圖3 基于FPCA-GA-KELM的網絡結構
本文從負荷數據集TIPDM[21]中提取出9種用電設備共29類工作狀態(tài)來驗證所提模型的有效性。其中包含了開/關型、有限多狀態(tài)和連續(xù)變狀態(tài)等多種電器類型,種類豐富,具有代表性。采用以下指標對模型性能進行評價。
1)分類準確率。
(23)
2)計算耗時T。
T=ttrain+ttest
(24)
式中:ttrain為模型訓練的計算時間;ttest為模型測試的計算時間。
將電流有效值、功率、功率因數以及電流諧波含有率等17種原始輸入變量的Fisher得分從高到低進行排序。所得17種穩(wěn)態(tài)特征的Fisher得分(F-score)如表2所示。
由表2可知,F(xiàn)isher得分較低的特征可分性較差,為防止模型過擬合和減小計算開銷,本文選取Fisher得分較高的電流有效值、有功功率、無功功率、功率因數以及3、5、7、9次電流諧波含有率等8個特征變量作為有效特征。為了進一步消除有效特征之間的高相關性,對其進行主成分分析。計算得到8個變量的協(xié)方差矩陣特征值如表3所示。
表2 17種穩(wěn)態(tài)特征的Fisher得分
由表3可知,前3個主成分的方差累積貢獻率已經超過85%,達到了98%以上。因此Fisher主元分析后,得到的前3個主成分就代表了原始變量中的大部分信息,并作為本文模型最終輸入。直接對原始17種穩(wěn)態(tài)特征變量進行主成分分析,即單一PCA方法得到的前5個主成分方差累積貢獻率超過85%,具體數據不再贅述。
表3 8個變量的協(xié)方差矩陣特征值
為了驗證本文所提Fisher主元分析降低特征冗余度的有效性,分別選用原始17種穩(wěn)態(tài)特征、單一PCA計算得到的前5個主成分、單一Fisher特征選擇得到的8個特征變量以及本文所提FPCA算法計算得到的前3個主成分作為遺傳算法優(yōu)化核極限學習機網絡的模型輸入,進而對各負荷狀態(tài)進行識別。本文實驗按照4:1的比例分配訓練樣本與測試樣本,并在單臺CPU為2.7 GHz,運行內存為3 GB的個人計算機上完成,運用 MATLAB2016b 軟件進行仿真。不同特征下測試樣本中每一類標簽的分類準確率如表4所示,其中總體準確率表示所有測試樣本中被正確分類的樣本數占測試樣本總數的百分比。
由表4可以看出,采用原始17種穩(wěn)態(tài)特征作為模型輸入時,因為多維特征之間存在高相關性且夾雜著可分性較差的無效特征,其負荷辨識總體準確率僅有87.5%,效果較差。單一主成分分析沒有剔除原始特征中可分性較差的無效特征而單一Fisher特征選擇沒有消除特征之間的高相關性。分別采取單一的2種方法,雖然模型分類準確率有所提升,但仍然不夠理想。仿真結果證明,本文所提Fisher主元分析融合算法,充分結合Fisher特征選擇和PCA的優(yōu)點,并彌補了各自方法中的不足,即同時剔除了可分性較差的特征和消除了特征之間的高相關性,總體辨識準確率在多次調試后能夠達到98.5%,模型性能得到大幅提升。
表4 不同特征下測試樣本分類準確率
為了進一步驗證本文模型在非侵入式電力負荷辨識方面的可行性和有效性,分別選取文獻[11]中RPROP負荷辨識模型、文獻[12]中GRNN負荷辨識模型以及文獻[10]中SVM負荷辨識模型,與本文模型進行對比。本文模型的參數由遺傳算法優(yōu)化得到,懲罰系數C=63.263 9,核函數寬度δ=7.268 6。3種對比模型選取原始17種穩(wěn)態(tài)特征作為模型輸入。4種辨識模型測試分類準確率如表5所示。隨著負荷標簽的增多,訓練樣本的數量也會大幅上升,辨識模型在處理大樣本數據時的運行效率也是衡量模型性能優(yōu)劣的重要指標。4種辨識模型隨樣本數量的增加,計算消耗時間的變化曲線如圖4所示。
表5 4種不同的辨識模型測試分類準確率
圖4 模型計算消耗時間隨樣本個數增加變化曲線
由表5和圖4可以看出,RPROP模型由于網絡結構參數需要進行迭代求解,其計算消耗時間較長,且辨識準確率較差。GRNN模型和SVM模型雖然相較于RPROP模型,其辨識準確率和計算效率均有所提高,但仍然存在辨識準確率不足和計算開銷大的問題。特別是SVM模型在處理大樣本、多分類時,其計算消耗時間會大幅增長,不適合用來辨識種類日益增多的用電負荷。綜合來看,本文模型對于9種家庭常見電器及其29種工作狀態(tài)辨識準確率高達98.5%。同時由于其在計算速度上的優(yōu)越性,對硬件計算開銷的要求比較低。運用本文所提模型能更好地滿足實際應用中負荷識別的要求,從而能以更低的成本進行技術推廣。
本文基于負荷穩(wěn)態(tài)特征,運用Fisher主元分析和遺傳算法優(yōu)化核極限學習機網絡,對用電負荷進行了有效識別。經負荷數據驗證,結論如下:
1)利用Fisher特征選擇和主成分分析相融合的Fisher主元分析算法,有效降低了特征冗余度,進而提升了模型辨識效果。
2)基于遺傳算法的參數優(yōu)化可以避免參數陷入局部最優(yōu)值,同時克服了人為設定的隨意性,對保證模型辨識準確率和穩(wěn)定性具有重要的意義。
3)基于核極限學習機網絡的分類模型,辨識準確率較高,特別是在模型計算速度上體現(xiàn)出明顯的優(yōu)越性,具備良好的工程應用價值。
4)由于負荷數據中通常存在噪聲和誤差,因此,提高模型的魯棒性和自適應性是今后研究的一個方向。