程志友, 程安然, 李 悅, 姜 帥
(1. 教育部電能質量工程研究中心, 安徽大學, 安徽 合肥 230601; 2. 安徽大學互聯(lián)網學院, 安徽 合肥 230039)
非侵入式負荷監(jiān)測(Non-Intrusive Load Monitoring, NILM)技術為居民提供負荷內部各用電設備的耗能信息,通過耗能信息、電能質量、分時電價、電能計量等綜合信息,電力用戶可以采取有效措施來減少耗能,同時非侵入式電表可以很容易地集成到現(xiàn)有建筑中,而不會給電力消費者造成不便,近年來已成為國內外學者的研究熱點[1]。NILM技術依賴于信號處理和機器學習方法,通過單個智能電表、電流電壓傳感器等點源監(jiān)測的聚合功率數(shù)據(jù)來推斷在建筑中運行的終端設備,估計獨立負荷的功耗并進行負荷狀態(tài)的有效識別[2]。
NILM的識別精度取決于負荷特征的差異性,因此特征提取對NILM至關重要。特征提取可以看作是從原始電壓信號和電流信號中獲取重要信息的信號處理過程,相關學者提出了多種方法獲得需要改進的特征來提高NILM性能。Hart首先提出使用功率的變化作為負荷特征,精度可達到80%,但對于功耗相近的設備,識別精度則大大降低[3]。高采樣頻率提供如諧波、V-I軌跡等高頻特征,劉恒勇等人通過提取用電器穩(wěn)態(tài)電流信號,經過傅里葉變換提取諧波分量作為負荷特征,并將該負荷特征作為循環(huán)神經網絡(Recurrent Neural Network, RNN)模型的輸入,實驗表明所提取的特征值能將用電器成功識別[4]。然而該負荷特征提取需要較高的采樣頻率和較大的數(shù)據(jù)存儲容量,增加了硬件設備的成本。凌家源等人通過應用卷積神經網絡(Convolutional Neural Networks, CNN)模型進行負荷識別,利用CNN可以自動提取特征的特點,使用特征豐富的高頻電流數(shù)據(jù)作為輸入,取得了較好的識別效果[5]。文獻[6-10]表明,將V-I軌跡轉化為圖像表示,并將其作為機器學習分類器的輸入,可以提高分類性能。然而文獻中提出的方法均使用單標簽學習,忽略了多個設備可以同時運行的事實,以及設備使用之間的依賴關系。實際應用場景中,家用電器種類繁多且多種負荷同時運行的情況比較常見,因此多標簽學習是傳統(tǒng)NILM方法的一種可行的替代方法[11-15]。文獻[14]中對低采樣功率測量的多標簽分類和多標簽元分類框架進行了廣泛的調查。文獻[16]提出利用各用電設備的穩(wěn)態(tài)電流諧波特性,建立用電設備特征標簽,然后采用彈性后向反饋(Resilient back PROPagation, RPROP)神經網絡,訓練多種設備組合,進行多標簽負荷辨識。文獻[17]提出改進雞群算法作為負荷識別算法,以家用電器穩(wěn)態(tài)電流基波和諧波作為負荷特征參數(shù)進行多標簽識別。但文獻[16,17]均需人為選取特征進行識別,且選取特征參數(shù)有限。
針對以上多標簽負荷識別方法依賴于特征量的選取,本文提出了一種基于集合經驗模態(tài)分解(Ensemble Empirical Mode Decomposition, EEMD)結合CNN模型的負荷識別方法,首先從檢測到事件的聚合測量數(shù)據(jù)中提取單周期穩(wěn)態(tài)電流特征,隨后應用EEMD將該電流特征分解為兩種目標模態(tài)分量,接著應用歐氏距離相似度函數(shù)將分解后的模態(tài)轉化為二維矩陣表示,通過CNN多標簽分類器自動提取矩陣的有效特征。最后在PLAID(即插即用設備標識)數(shù)據(jù)集上對所提出的方法進行了實驗驗證,結果表明,基于EEMD與CNN模型的負荷識別準確率較高,能夠有效地實現(xiàn)多標簽負荷識別[18]。
由于提取到的電流信號具有非平穩(wěn)和非周期性,傳統(tǒng)的傅里葉變換不能描述信號某一頻率的出現(xiàn)時刻,因此有學者提出了多種時頻分析方法,如短時傅里葉變換和小波變換等,但其基本思想都是根據(jù)傅里葉分析理論,對非線性非平穩(wěn)信號的分析能力不足,受限于Heisenberg不確定原理。經驗模態(tài)分解(Empirical Mode Decomposition, EMD)是由Huang等人于1998年提出的一種新型自適應信號時頻處理方法,適用于非線性非平穩(wěn)信號的分析處理[19]。然而EMD的分解過程中易發(fā)生模態(tài)混疊問題,模態(tài)混疊問題使得特征提取、模型訓練、模式識別變得困難,本征模態(tài)函數(shù)(Intrinsic Mode Function, IMF)失去了單一特征尺度的特征。為解決模態(tài)混疊問題,Huang等人在2009年提出通過加噪聲輔助分析的集合經驗模態(tài)分解理論,其本質是對信號進行平穩(wěn)化處理,不需要人為選擇基函數(shù)和分解層數(shù),利用其分解結果可以準確有效地把握原數(shù)據(jù)的特征信息,不僅能有效抑制經驗模態(tài)分解中出現(xiàn)的模態(tài)混疊現(xiàn)象,得到更有意義的IMF分量,而且能將原一維觀測信號分解成多維,為實現(xiàn)信號的盲源分離創(chuàng)造條件[20]。
EEMD算法步驟如下:
步驟1:在采集到的目標信號x(t)中添加均值為零、標準差為常數(shù)的隨機白噪聲gi(t),得到含噪信號為:
xi(t)=x(t)+gi(t)
(1)
式中,gi(t)為第i次加入高斯白噪聲的信號,加入的高斯白噪聲大小會直接影響信號EEMD分解效果,一般取gi(t)的標準差為采集信號標準差的0.1~0.4。
步驟2:對xi(t)分別進行EMD處理,得到的IMF分量記為dij(t)和余項ri(t)。
步驟3:重復步驟1和步驟2,N次后,利用不相關隨機序列統(tǒng)計均值為0的原理,將步驟2對應的IMF分量進行總體平均運算,從而消除多次加入高斯白噪聲對真實IMF分量的影響,最后得到EEMD分解后的IMF分量。
(2)
式中,dj(t)為目標信號x(t)進行EEMD處理后得到的第j個IMF分量。當N越大,對應的白噪聲IMF分量的和將趨于0,此時EEMD分解的結果為:
(3)
式中,r(t)為最終的殘余分量,代表信號的平均趨勢。通過EEMD理論可以把任意一個目標信號x(t)分解為若干個IMF分量dj(t)和一個殘余分量r(t),本文中噪聲信號標準差取0.3,N取300。
(4)
本文研究對象為家用電器負荷,其狀態(tài)改變對系統(tǒng)沖擊很小,因此設備狀態(tài)切換30周期后可認定處于穩(wěn)定狀態(tài)[21]。圖1為根據(jù)標簽數(shù)據(jù)得到的風扇與吸塵器在不同時刻開啟同時運行以及最后分別關閉的實例樣本。
圖1 不同事件的聚合電流信號Fig.1 Aggregate current signals of different events
為獲得家用電器穩(wěn)態(tài)運行數(shù)據(jù),對選取的設備根據(jù)事件標簽中的時間戳,在短時間窗口測量到的高頻聚合電壓和電流數(shù)據(jù)中找到事件發(fā)生的時間點,從樣本標簽中最后一臺設備開啟后30周期開始測量Nc個完整穩(wěn)態(tài)周期電壓和電流數(shù)據(jù)(這些周期均在電壓過零點處對齊),其中數(shù)據(jù)集采樣頻率fs=30 kHz,電表采集頻率f=60 Hz,一個周期內的采樣點數(shù)T=fs/f=500,接著將這些周期內相應索引點的值累加取平均,從而獲取到一個周期內的穩(wěn)態(tài)電流特征。計算公式如下:
(5)
(6)
圖2為不同設備穩(wěn)態(tài)運行對應的電流特征。
圖2 不同穩(wěn)態(tài)電流特征Fig.2 Different steady-state current features
對提取到的電流特征進行EEMD,由于分解后的模態(tài)數(shù)量不一致,大部分樣本的電流波形在分解到第5個模態(tài)后無法進行分解,且前3種模態(tài)頻率過高,含有用信息量較少,為了盡可能在保留原始波形特征的條件下捕捉到其高頻細節(jié),實驗目標選取包含工頻的第4、第5模態(tài)分量(對應圖3的i(t)m1,i(t)m2)。通過對空調、緊湊型熒光燈、咖啡機等12種類型設備的電流信號進行EEMD處理并歸一化,得到如圖3所示的結果。
圖3 歸一化電流及其相應的第4、第5模態(tài)電流Fig.3 Normalized current and its corresponding fourth and fifth mode currents
從圖3可以觀察到,即使對于緊湊型熒光燈和筆記本充電器等非周期負載電流設備,其電流特征對應的第4模態(tài)分量也接近純正弦波,通過EEMD后的兩種模態(tài)電流特征的結合使得每種類型設備通常表現(xiàn)出一致又獨特的特點,為后續(xù)進行多標簽負荷識別的實驗提供條件。
圖4 ω取不同值時的識別性能和訓練時間Fig.4 Recognition performance and training time with ω taking different values
為進一步提高不同類型設備對應模態(tài)電流特征的唯一性,將歐式距離相似度函數(shù)du,v=‖i(t)u-i(t)v‖2應用于EEMD后的模態(tài)分量,該函數(shù)通常用來測量兩個數(shù)據(jù)點間的相似性或相關性,且歐式距離相似性函數(shù)被廣泛用作機器學習算法的預處理步驟[22],距離相似度矩陣Dω,ω表示歐幾里得空間中一組ω點的間距。
(7)
圖5為緊湊型熒光燈和筆記本充電器同時運行時提取到的電流特征以及該電流特征經EEMD后的兩種目標模態(tài)。
圖5 緊湊型熒光燈與筆記本充電器運行時的電流及EEMD后的兩種模態(tài)電流Fig.5 Compact fluorescent lamp and notebook charger operating current and two modes of current after EEMD
圖6展示了圖5中的電流特征通過歐式距離相似度函數(shù)轉化成的2維矩陣圖像表示,其中H,ω為維度,通過圖6可以觀察到,兩種模態(tài)電流對應的距離矩陣比原始電流對應的距離矩陣所含信息量更豐富,有利于后續(xù)CNN模型的學習。
圖6 圖5電流對應的距離矩陣Fig.6 Distance matrix of current showing in figure 5
圖7 CNN多標簽分類器結構Fig.7 Structure of CNN multi-label classifier
為學習該模型參數(shù),使用標準反向傳播來優(yōu)化預測的Softmax分布和基于每個輸入特征的多標簽目標之間的交叉熵,聯(lián)合交叉熵損失隱式地捕捉了標簽之間的關系:
(8)
實驗采用了多標簽分層10折交叉驗證方法,這種評價方法提供了多標簽的分層隨機折疊,保存了標簽在每次折疊中的百分比,同時通過多次劃分樣本中訓練集和測試集的大小來訓練該多標簽分類器,每運行一次,取總樣本的p份進行100次迭代訓練,并在該樣本剩下的1-p份中進行測試,其中p∈[0.1,0.9]。本文所提方法流程框圖如圖8所示。
圖8 方法流程框圖Fig.8 Flow diagram of method
本文利用來自美國加州55個家庭中12種不同類型的設備負載電流與電壓測試值的PLAID數(shù)據(jù)集進行實驗驗證,數(shù)據(jù)集主要包含了兩部分內容,第一部分是高頻采集的電壓及電流數(shù)據(jù),采樣頻率為30 kHz,第二部分標記了電器種類,電器切換時刻以及采樣時長等標簽數(shù)據(jù),共1 478個實例樣本,其中單一負荷樣本采樣時長在4~6 s,含多個負荷開啟樣本采樣時長在10~20 s。首先選取該數(shù)據(jù)集中含1~3個設備狀態(tài)轉換的電流和標簽樣本,隨后根據(jù)3.1節(jié)所述特征提取方法,得到最終用于訓練及測試的1 154個樣本,其中每個樣本的采樣時長為(1/60)×20 s=(1/3)s。
通過圖9可以看出,電烙鐵的樣本最多,冰箱除霜機的樣本最少,其余10種負荷的樣本居中;圖10可以觀察到,單一設備的樣本占總樣本比例最大,達到674例,含多個設備運行的樣本數(shù)量較少,分別只有413例和67例。
圖9 設備類型分布Fig.9 Distribution of device type
圖10 設備數(shù)量分布Fig.10 Distribution of device’s number
實驗采用基于標簽和基于實例的度量標準來定量評估分類性能,即基于實例的F1度量(F1-eb)和宏觀-平均的F1度量(F1-marco)。
F1-eb用來度量正確預測標簽與真實和預測標簽總和的比例:
(9)
F1-marco源自F1-score,度量所有標簽上基于每類標簽的F1-score平均值,該指標被廣泛應用于多分類任務中,定義如下:
(10)
式中,F(xiàn)Pi為第i類負荷被分類為運行狀態(tài)而實際為關閉狀態(tài)的數(shù)量。
為驗證本文所提方法在單一負荷識別上具有較好的識別效果,實驗首先針對單一負荷的樣本進行設備識別,同時提取了另外4種用于負荷識別的特征進行對比分析,依次是V-I二進制圖像(如文獻[8]所述,首先獲取一個穩(wěn)態(tài)周期下的電壓、電流波形,構建T×T維矩陣并將生成的圖片劃分到ω維度的網格柵欄,將含有像素的網格柵欄指定為1,反之指定為0,最終得到ω×ω維包含0與1的2維矩陣)、單周期穩(wěn)態(tài)電流波形、電流經EEMD后的目標模態(tài)分量(以下簡稱EEMD電流)、電流對應的歐式距離矩陣(以下簡稱距離矩陣)。表1為本文所提方法與上述4種特征結合CNN模型進行單一負荷識別的F1-eb度量結果。
表1 各負荷的F1-eb度量Tab.1 F1-eb measurement of each load
從表1可以看出,針對大多數(shù)類型設備,將提取到的電流通過EEMD后再輸入到CNN模型中進行單一負荷識別,都不同程度地提高了負荷識別率,可以看出EEMD在特征預處理環(huán)節(jié)的重要性,而顯而易見的是,本文所提特征在此基礎上更進一步提高了單一負荷的識別率,在咖啡機和冰箱除霜機上的F1-eb度量均為1;除緊湊型熒光燈、空調、筆記本充電器、吸塵器4種家電負荷外,本文所提方法在識別其余9種負荷上的F1-eb值最高,均優(yōu)于其他4種方法。
同時,表2還對比分析了上述5種特征在進行單一負荷識別上的F1-marco值。
表2 基于5種特征提取方法的F1-marco度量Tab.2 F1-marco metrics based on five kinds of feature extraction method
從表2中可以看出,V-I二進制圖像結合CNN模型識別的F1-marco度量只有0.826,本文所提方法的F1-marco度量達到0.951,值得注意的是,距離矩陣特征進行單一負荷識別的F1-marco值達到0.938,僅次于本文方法,由此可見距離矩陣特征較電流特征更有助于CNN模型進行單一負荷識別的學習。
本文主要探究的是所提方法識別多臺設備的性能,因此針對圖10中的樣本分布進行多標簽負荷識別,得到的實驗結果見表3。
表3 識別多個設備的準確率Tab.3 Accuracy of identifying multiple devices
可以看出,基于V-I二進制圖像特征的負荷識別方法在識別單一負荷時的準確率最低,為90.5%,而本文所提方法的準確率高達98.5%;采用電流特征進行識別多個設備的準確率最低,僅為34.6%和6%,基于EEMD電流特征的識別準確率為53.8%、23.9%,有較大幅度提升,由此可見,EEMD在多標簽負荷識別率方面,具有良好的改善作用,而本文所提方法的準確率分別為78.9%、40.3%,較電流特征提高了4.3%和3.4%,均優(yōu)于其余4種負荷特征,有力地驗證了本文所提方法在多標簽負荷識別上具有良好的識別效果。
表4進一步對比了本文方法與近幾年的NILM相關文獻所提方法進行負荷識別所獲得的F1-marco度量,盡管有些方法所用數(shù)據(jù)集和模型學習特點不盡相同,但與表4中各項實驗條件相同的第2種方法所獲得的F1-marco得分對比,本文所提方法的F1-marco值較之提高了1.1%。
表4 不同方法性能對比Tab.4 F1-marco metrics based on different methods
本文提出了一種基于EEMD與CNN模型的多標簽負荷識別方法,實現(xiàn)了對用戶負荷有效的非侵入式監(jiān)測,首先從高頻電壓和電流聚合測量數(shù)據(jù)中提取單周期穩(wěn)態(tài)電流信號,隨后應用EEMD理論,該方法將電流特征分解為多個模態(tài)分量,從中選取2種目標模態(tài)分量,隨后應用歐氏距離相似度函數(shù)將分解后的電流信號轉換為2維矩陣表示,作為CNN多標簽分類器的輸入。通過PLAID聚合數(shù)據(jù)集的實驗結果表明,本文所提出的方法能較準確地從聚合測量數(shù)據(jù)中識別多臺設備,具有較高的家電負荷識別準確率。