安琪, 王占彬, 安國慶,*, 李爭,, 陳賀, 李崢, 王耀強
(1. 河北科技大學電氣工程學院, 石家莊 050018; 2. 河北省智能配用電裝備產(chǎn)業(yè)技術研究院(石家莊科林電氣股份有限公司), 石家莊 050222)
近年來,隨著智能用電技術、智能電網(wǎng)、電力需求側管理方案的興起[1-2],同時為了給用戶提供更加綠色可靠的電能、減少電能浪費和損耗,提出非侵入式負荷監(jiān)測(non-intrusive load monitoring,NILM)[3]。NILM系統(tǒng)是通過監(jiān)測用戶進線端的電氣信息變化來對用戶內(nèi)部的用電情況進行分析。一方面,NILM系統(tǒng)能夠幫助用戶進行家庭能耗判斷,減少資源浪費。從管理的角度考慮[4],可以幫助電力供給側制訂用能計劃。傳統(tǒng)的用電負荷識別在每個用電設備上加裝負荷識別模塊的做法使得經(jīng)濟成本較高,管理不便,安裝和維護都有較大的局限性[5-6],與傳統(tǒng)方法相比,NILM更具研究價值,實用性較強。
文獻[7]基于電壓-電流(V-I)軌跡特征進行特征提取,并為灰色V-I軌跡賦值生成了彩色V-I圖像,最后采用深度學習算法對彩色V-I軌跡圖像進行負荷識別。文獻[8]使用了基于主成分分析-反向傳播(principal components analysis-back propagation,PCA-BP)神經(jīng)網(wǎng)絡的多特征融合的策略對負荷的V-I軌跡、電流特征、諧波特征和功率特征進行了特征融合,最后使用Softmax分類算法完成負荷辨識任務。文獻[9]基于快速傅里葉變換提取了低次諧波的幅值和相位作為特征,使用了裝袋決策樹(bagging decision tree, BDT)算法進行了負荷識別。文獻[10]使用了有功和無功功率的同時還加入了15次的奇偶次諧波作為負荷識別的特征,采用雙向長短記憶網(wǎng)絡作為分類器完成負荷識別。文獻[11]采用有功功率、基波功率因數(shù)和電壓電流三次諧波含量差作為負荷識別特征,通過聚類算法完成對負荷的識別。文獻[12]通過提取負荷的電壓、電流、有功和無功分層譜軌跡特征圖來達到對負荷進行監(jiān)測的目的。文獻[13]在電流波形、功率和諧波特征的基礎上添加了新的諧波特征值作為負荷識別特征,采用了遺傳算法實現(xiàn)了負荷分解和識別。文獻[14]在考慮負荷的電氣特征基礎上加入非電氣特征作為負荷識別的輸入,使用隨機森林算法實現(xiàn)了負荷識別。文獻[15]在負荷投切的暫態(tài)過程中提取了有功增量和無功增量以及諧波等特征作為廣義回歸神經(jīng)網(wǎng)絡輸入實現(xiàn)了負荷識別。
上述對負荷進行特征提取主要考慮負荷的電壓、電流、有功、無功及相關信息,當使用這些特征作為負荷識別模型的輸入時,存在冗余和可分性較差的特征,使得負荷識別模型的識別性能下降,計算量增加。為解決提取特征中存在冗余特征和可分性較差的問題,現(xiàn)提出一種基于隨機森林特征重要性度量的方法對特征進行重要性排序,結合極限學習機篩選出識別最佳的特征子集。同時為了提升模型識別準確率,使用遺傳算法優(yōu)化的極限學習機參數(shù),以實現(xiàn)負荷識別。
不同負荷穩(wěn)態(tài)運行時電流信號的時域特性和頻域特性各異,通過對電流信號的時域波形和頻譜進行分析,可以得到不同負荷電流信號特征。選擇的負荷特征為:時域特征P1~P16,計算公式如表1所示;頻域特征P17~P29,計算公式如表2所示。其中,N和K分別表示時域樣本點數(shù)和頻率點數(shù);x(n)表示時域信號序列;f(k)表示x(n)的頻譜;fk是第k條譜線的頻率值[16]。
表1 電流時域特征計算公式Table 1 Calculation formula of current time domain characteristics
表2 電流頻域特征計算公式Table 2 Calculation formula of current frequency domain characteristics
表1、表2中,P1,P5~P6和P10~P16是對時間序列分布情況的體現(xiàn);P2~P4和P7~P9是對幅值和時域能量大小的體現(xiàn);P17是對頻域能量大小的體現(xiàn);P21,P24~P25是對主頻信息的體現(xiàn);P18~P20,P22~P23和P26~P29是對頻譜的分散或集中程度的體現(xiàn)[17]。
隨機森林(random forest,RF)算法是一種基于決策樹的集成算法。隨機森林的抽樣方法使得大約1/3的樣本沒有被選中,這部分樣本稱為袋外數(shù)據(jù)[18]。
對輸入特征進行重要性評價是隨機森林算法的一個重要功能,通過對不參與決策樹訓練的袋外數(shù)據(jù)進行擾動,計算其分類準確率差值來得到特征重要性[19]。具體步驟如下。
步驟1隨機森林進行Bootstrap抽樣,通過抽取K個樣本數(shù)據(jù)集,生成K棵決策樹,各棵決策樹獨立生成。
步驟2令k=1,訓練決策樹Tk,訓練輸入為第k個數(shù)據(jù)集,計算第k個袋外數(shù)據(jù)集的準確率Lk。
步驟4對所有樣本數(shù)據(jù)集k=2,3,…,K重復步驟2、步驟3。
步驟5計算特征重新排列后的分類準確率誤差,公式為
(1)
步驟6由式(1)可以得到特征f對袋外數(shù)據(jù)準確率的影響程度,公式為
(2)
ef的方差為
(3)
步驟7由式(2)、式(3)計算特征f重要性,公式為
(4)
步驟8通過式(4)得到全部特征的fVI。
為選擇出最優(yōu)特征子集,對排序后的特征集每次刪除一個特征生成特征子集,計算特征子集的準確率,最后選擇準確率最高的作為最優(yōu)特征集。
極限學習機(extreme learning machine,ELM)是一種隨機生成權值和偏置參數(shù)的單隱層前饋神經(jīng)網(wǎng)絡學習模型,具有較強的泛化能力和快速的計算能力[20]。
設N個訓練樣本和輸出標簽表示為(xi,ti),i=1,2,…,N,其中xi=[xi1,xi2,…,xin]T∈Rn,ti=[ti1,ti2,…,tim]T∈Rm,n和m分別為輸入和輸出層節(jié)點數(shù)。ELM的網(wǎng)絡模型為
(5)
式(5)中:ωi=[ωi1,ωi2,…,ωin]T,為隱含層與輸入層的權值;βi=[βi1,βi2,…,βin]T,為隱含層與輸出層的權值;L為隱含層節(jié)點數(shù);bi為隱含層的偏置。
激活函數(shù)g(x)為
(6)
要使ELM模型的輸出誤差最小逼近N個訓練樣本,需滿足的條件為
(7)
即存在ωi、βi和bi使得
(8)
式(8)矩陣簡化為
Hβ=T
(9)
式(9)中:H為隱含層節(jié)點的輸出矩陣;β為隱含層與輸出層的權值矩陣;T為期望輸出矩陣。
盡管各個高校財務部門想盡種種辦法,但因每天財務部門所能處理的總體業(yè)務量有限,只能在排隊時間和人數(shù)總量上稍微有所限制。財務預約報銷 “排隊時間長、手續(xù)繁瑣、下班時仍有師生不愿離去”導致報賬人員辦理報銷業(yè)務時和財務人員的矛盾沖突頻發(fā),探究其根本原因:
H(ω1,ω2,…,ωL,b1,b2,…,bL,x1,x2,…,xL)
(10)
(11)
(12)
式(12)等價于最小化損失函數(shù),即
(13)
在極限學習機中,ωi和bi是隨機給定的參數(shù),訓練過程等價于求解式(14),即
(14)
式(14)中:H+為矩陣H的Moore-Penrose廣義逆矩陣。
ELM的輸入層到隱含層的權值ωi和隱含層的偏置bi均為隨機得到,當隨機值出現(xiàn)零時節(jié)點失效,會影響ELM泛化性能[21]。為減小影響,采用遺傳算法(genetic algorithm,GA)優(yōu)化ELM的ωi和bi的步驟如下。
步驟1對ωi和bi進行編碼,得到初始種群,染色體個體長度取決于參數(shù)個數(shù)。
步驟3根據(jù)適應度值對染色體進行選擇、交叉、變異,得到最優(yōu)的ωi和bi參數(shù),采用該參數(shù)建立ELM網(wǎng)絡模型。
使用準確率和混淆矩陣評價識別結果。準確率計算公式為
(15)
式(15)中:Nture為識別正確的樣本數(shù)量;Ntotal測試樣本總數(shù)量。
非侵入式負荷識別流程如圖1所示。
圖1 基于RF-GA-ELM的非侵入式負荷識別流程Fig.1 Non-intrusive load identification process based on RF-GA-ELM
首先,采集家用電器高頻穩(wěn)態(tài)電流作為原始信號,對原始信號進行時頻分析,提取16維時域特征和13維頻域特征作為負荷特征;其次,對29維時頻特征進行結合后向序列選擇的隨機森林特征優(yōu)選[22],剔除冗余和可分性較差特征,得到最優(yōu)特征子集;最后,使用遺傳算法對ELM模型進行參數(shù)優(yōu)化,建立RF-GA-ELM非侵入式負荷識別模型。
實驗采集了11個家用電器共16種負荷狀態(tài)的穩(wěn)態(tài)電流數(shù)據(jù)來驗證所提模型的可行性和有效性。
使用采樣頻率為6.4 kHz的智能電表進行數(shù)據(jù)采集,負荷包括空調(diào)制冷(L1)、空調(diào)制熱(L2)、微波爐(L3)、熱水器(L4)、熱水壺(L5)、電熱爐(L6)、冰箱(L7)、電磁爐(L8)、電吹風(L9)、電飯煲(L10)、洗衣機(L11)、油煙機(L12)、電磁爐+熱水壺(L13)、空調(diào)制熱+微波爐(L14)、空調(diào)制冷+熱水壺(L15)、空調(diào)制熱+熱水壺(L16)。每種負荷狀態(tài)得到300個穩(wěn)態(tài)電流樣本,對電流樣本進行時頻分析,提取29個時頻特征作為樣本特征。最后,將數(shù)據(jù)集中的訓練樣本與測試樣本比例劃分設置為2∶1。
將提取時頻特征后的數(shù)據(jù)樣本作為隨機森林輸入,使用隨機森林進行10次特征重要性計算并取fVI平均值,得到的29個穩(wěn)態(tài)電流時頻特征重要性fVI排序如圖2所示。
圖2 29個穩(wěn)態(tài)電流特征重要性排序Fig.2 Ranking of the importance of 29 steady-state current features
為比較特征對于ELM識別準確率的影響,每次從特征集合中去掉一個fVI值最小的特征,并計算該特征子集下的測試樣本在ELM的識別準確率,最后從特征集合中選擇識別準確率最高的特征子集。
特征子集的識別準確率變化曲線如圖3所示,計算時間隨特征個數(shù)變化曲線如圖4所示。
由圖3、圖4可知,當選擇全部29維特征作為ELM的輸入,由于多維特征之間存在可分性較差的冗余特征,識別準確率僅為76.58%,且計算耗時較長。隨著特征數(shù)量減少,計算時間呈下降趨勢。在特征集合序列后向選擇的第15次特征選擇中,得到了15維的最優(yōu)特征子集,相對更小的特征子集,使用最優(yōu)特征子集在計算耗時未顯著增加的情況下ELM識別效果達到最優(yōu),識別準確率達到91.92%。
為進一步驗證隨機森林特征優(yōu)選的有效性,使用16維時域特征、13維頻域特征、29維時頻特征和15維隨機特征進行對比實驗,對比實驗結果如表3所示。
圖3 識別準確率隨特征個數(shù)變化曲線Fig.3 Variation curve of recognition accuracy with the number of features
圖4 計算時間隨特征個數(shù)變化曲線Fig.4 Variation curve of calculation time with characteristic number
表3 不同特征集識別準確率比較Table 3 Comparison of recognition accuracy of different feature sets
由對比實驗可知,在單獨使用時域、頻域特征作為輸入時,負荷識別準確率較低。不使用特征優(yōu)選的特征集識別準確率同樣較低??梢娛褂秒S機森林算法進行特征優(yōu)選能夠有效地選取特征中的重要特征,顯著提升模型的識別準確率。
為進一步提升ELM模型的識別性能,采用GA對ELM的權值和偏置參數(shù)優(yōu)化。GA個體編碼使用二進制編碼。GA進化曲線如圖5所示。
圖5 GA進化曲線Fig.5 Evolution curve of GA
由進化曲線可知,GA迭代55次后收斂,得到最優(yōu)權值和偏置。將優(yōu)化后權值和偏置作為ELM模型參數(shù),并將經(jīng)過特征選擇的15維特征子集作為RF-GA-ELM模型輸入進行負荷識別。
使用RF-GA-ELM模型對家用電器的16類負荷狀態(tài)進行識別,識別的混淆矩陣如圖6所示,可以看出,所提模型在洗衣機L11、油煙機L12上出現(xiàn)少量誤分類情況,這是由于兩種負荷的電流時頻特征相似程度高導致了模型誤分類。計算可得所提模型整體識別準確率高達98.94%。
為進一步驗證所提模型的負荷識別性能,GA-ELM與RF-GA-ELM進行對比。模型輸入為原始29維時頻特征。GA-ELM的識別混淆矩陣如圖7所示。
圖6 RF-GA-ELM識別混淆矩陣Fig.6 RF-GA-ELM recognition confusion matrix
圖7 GA-ELM識別混淆矩陣Fig.7 GA-ELM recognition confusion matrix
由混淆矩陣圖7可知,未進行特征選擇的GA-ELM由于存在可分性較差的特征對多種負荷產(chǎn)生了誤分類,整體識別準確率為92.25%。
綜上分析,加入特征選擇的RF-GA-ELM較不進行特征選擇的GA-ELM識別準確率提升了6.69%??梢娂尤胩卣鬟x擇對GA-ELM識別準確率有較大的提升。同時所提模型單次識別時間0.008 3 s,具有較低的計算成本使得本模型更適合進行負荷識別的實際應用。
針對現(xiàn)有負荷識別模型特征冗余度高、可分性較差的問題,提出一種基于RF-GA-ELM的負荷識別模型,提高負荷識別準確率。首先利用結合后向序列選擇的隨機森林算法對29個電流信號時頻特征進行優(yōu)選,減少特征冗余度,然后利用RF-GA-ELM模型對11個家用電器共16種負荷狀態(tài)進行識別。對比實驗證明,采用RF-GA-ELM模型識別準確率可達98.94%,較傳統(tǒng)模型準確率提高了6.69%,同時識別時間僅為0.008 3 s。上述結果表明:隨機森林特征優(yōu)選可有效減少冗余和可分性較差的特征,提升模型的負荷識別效果;遺傳算法對極限學習機的權值和偏置的參數(shù)尋優(yōu)可以避免參數(shù)隨機生成帶來的不穩(wěn)定性,對提升模型的識別準確率有重要意義。