延 菲,張瑞祥,孫耀杰,3,陶余會(huì),黃國(guó)平,孫偉濤
(1.復(fù)旦大學(xué) 信息科學(xué)與工程學(xué)院,上海 200433; 2.復(fù)旦大學(xué) 六次產(chǎn)業(yè)研究院,上海 200433;3.上海綜合能源系統(tǒng)人工智能工程技術(shù)研究中心,上海 200433; 4.上海復(fù)旦復(fù)華科技股份有限公司,上海 200433; 5.中節(jié)能太陽(yáng)能科技(鎮(zhèn)江)有限公司,江蘇 鎮(zhèn)江 212132; 6.上海交通大學(xué) 電子信息與電氣工程學(xué)院,上海 200240)
隨著智能電網(wǎng)的發(fā)展和人工智能技術(shù)在家庭中的應(yīng)用,分析用戶用電模式,深入挖掘節(jié)能潛力,減少用電費(fèi)用的同時(shí)實(shí)現(xiàn)削峰填谷,促進(jìn)區(qū)域電網(wǎng)的安全穩(wěn)定運(yùn)行已成為趨勢(shì).為了獲取用戶的用電模式,負(fù)荷監(jiān)測(cè)是一個(gè)重要前提,負(fù)荷監(jiān)測(cè)包括侵入式負(fù)荷監(jiān)測(cè)(Intrusive Load Monitoring, ILM)和非侵入式負(fù)荷監(jiān)測(cè)(Non-Intrusive Load Monitoring, NILM)兩類(lèi),ILM通過(guò)為用戶內(nèi)部每個(gè)用電設(shè)備安裝傳感裝置,分別測(cè)量其實(shí)時(shí)功耗信息來(lái)實(shí)現(xiàn),優(yōu)點(diǎn)是計(jì)量的精確度高,但是要對(duì)現(xiàn)有用電器進(jìn)行改造,實(shí)施和維護(hù)成本高、用戶接受度低.NILM通過(guò)在用戶進(jìn)戶線總開(kāi)關(guān)處安裝測(cè)量裝置,采集用戶端電壓和總電流,然后利用數(shù)據(jù)分析技術(shù)得到每一個(gè)用電器的電能消耗信息.與ILM相比,NILM具有實(shí)施和維護(hù)成本低的優(yōu)點(diǎn),更適合于在居民用戶側(cè)大規(guī)模推廣.
NILM系統(tǒng)的性能主要取決于負(fù)荷特征和識(shí)別算法的選取,國(guó)內(nèi)外學(xué)者在這兩方面做了大量的研究工作.負(fù)荷特征包括有功、無(wú)功功率[1]、電流諧波幅值[2]、V-I軌跡[3]等穩(wěn)態(tài)特征,瞬態(tài)能量[4]、瞬態(tài)功率等暫態(tài)特征及用電模式[5]、使用顏色標(biāo)注的V-I軌跡[3,6]等非傳統(tǒng)特征.負(fù)荷識(shí)別求解方法大致分為基于優(yōu)化的方法如整數(shù)規(guī)劃[7]和基于機(jī)器學(xué)習(xí)的方法如人工神經(jīng)網(wǎng)絡(luò)[6]、支持向量機(jī)[8]、Adaboost[9]、隱馬爾可夫模型[10]等兩類(lèi)[11].上述特征和識(shí)別算法的結(jié)合在特定的場(chǎng)景下均能夠?qū)崿F(xiàn)滿足要求的負(fù)荷識(shí)別精度,但是現(xiàn)有的大多數(shù)研究以提升負(fù)荷識(shí)別算法的準(zhǔn)確率為目的,算法的復(fù)雜度不斷升高,卻忽略了實(shí)際應(yīng)用中家庭場(chǎng)景對(duì)于低成本的要求.以高精度的神經(jīng)網(wǎng)絡(luò)為例,Liu等[6]利用預(yù)先訓(xùn)練好的AlexNet深度學(xué)習(xí)模型,將其全連接層替換為一個(gè)新的全連接層,然后對(duì)新網(wǎng)絡(luò)進(jìn)行訓(xùn)練,遷移學(xué)習(xí)方法雖然避免了從零開(kāi)始訓(xùn)練分類(lèi)模型,但遷移網(wǎng)絡(luò)的訓(xùn)練也是一項(xiàng)計(jì)算密集型任務(wù),單個(gè)樣本完成一次訓(xùn)練需要7.16億次浮點(diǎn)運(yùn)算,這一過(guò)程通常在集中式或基于云的服務(wù)器上完成.
本文面向家庭非侵入式負(fù)荷監(jiān)測(cè)場(chǎng)景,選擇無(wú)需訓(xùn)練過(guò)程的kNN算法作為負(fù)荷識(shí)別模型,首先采用加權(quán)方法增加了少數(shù)類(lèi)樣本在分類(lèi)判決時(shí)的表決權(quán),提高與多數(shù)類(lèi)具有相似V-I軌跡形狀的少數(shù)類(lèi)的識(shí)別準(zhǔn)確率.然后針對(duì)V-I軌跡缺失了數(shù)值特征,導(dǎo)致前級(jí)電路拓?fù)浣Y(jié)構(gòu)相似的不同類(lèi)別的用電設(shè)備無(wú)法區(qū)分的問(wèn)題,提出了基于V-I軌跡和幅值特征綜合相似度的負(fù)荷類(lèi)別判決方法.最后利用公開(kāi)數(shù)據(jù)集和實(shí)驗(yàn)室測(cè)量數(shù)據(jù)驗(yàn)證了算法的有效性.
用電設(shè)備V-I軌跡的形狀與其前級(jí)電路的拓?fù)浣Y(jié)構(gòu)相關(guān),根據(jù)這一特征即可劃分出用電器的功能范圍,降低了對(duì)數(shù)據(jù)庫(kù)完備性的要求,因此本文首先選擇V-I軌跡作為負(fù)荷特征,軌跡特征的提取方法是通過(guò)映射[6,12]將原始V-I軌跡轉(zhuǎn)化為二值V-I軌跡,過(guò)程如下:
1) 采集用電設(shè)備穩(wěn)定運(yùn)行時(shí)一個(gè)周期的高頻電壓u和電流i的波形數(shù)據(jù),以u(píng)為橫坐標(biāo),i為縱坐標(biāo),繪制原始V-I軌跡.
2) 將電壓-電流2維平面劃分成2N×2N的網(wǎng)格,每個(gè)網(wǎng)格的長(zhǎng)度(電壓跨度)和高度(電流跨度)計(jì)算如下:
(1)
3) 初始化一個(gè)維度為2N×2N的2維矩陣B,每個(gè)元素都賦值為1,顯示為白色.對(duì)原始V-I軌跡中的數(shù)據(jù)點(diǎn)(uj,ij)(j=1,2,…,J),它在矩陣B中占據(jù)位置的索引為(xj,yj),如果0 (2) 圖1為11種用電設(shè)備的典型二值V-I軌跡. 圖1 常見(jiàn)用電設(shè)備的典型二值V-I軌跡Fig.1 Typical binary V-I trajectory of common electrical devices 由以上二值軌跡的提取方法可知,映射過(guò)程相當(dāng)于對(duì)電壓和電流數(shù)據(jù)進(jìn)行了歸一化處理,軌跡僅包含反映電壓與電流相位差、負(fù)荷非線性度和高次諧波特性等信息的形狀特征,不包含與功率水平相關(guān)的特征.當(dāng)2種用電設(shè)備的V-I軌跡相似時(shí),容易發(fā)生誤判,因此本文通過(guò)增加幅值特征這一維度來(lái)提升用電設(shè)備的可分辨性. 幅值特征包括用電設(shè)備穩(wěn)態(tài)運(yùn)行時(shí)的基波有功、無(wú)功功率、基波電流幅值和3、5、7次諧波電流幅值.對(duì)電壓和電流進(jìn)行快速傅里葉變換即可得基波和各次諧波的幅值與相位,功率的計(jì)算公式如下: (3) 其中:a1和b1分別為基波電壓和電流的幅值;φ1為兩者之間的的相位差. kNN算法通過(guò)比較待測(cè)樣本與大量訓(xùn)練樣本的相似度來(lái)為待測(cè)樣本分類(lèi),其核心思想是挑選出與待測(cè)樣本最相近的K個(gè)樣本,若待測(cè)樣本與這K個(gè)訓(xùn)練樣本中某一類(lèi)的總相似度最大,則將待測(cè)樣本劃分為這一類(lèi)別.具體過(guò)程如下: 1) 對(duì)于待測(cè)樣本a,計(jì)算a與所有訓(xùn)練樣本的相似度并倒序排列,取前K個(gè)作為a的K最近鄰; 2) 分別計(jì)算a與K個(gè)最近鄰中各類(lèi)別的相似度之和,a的類(lèi)別為與其總相似度最大的類(lèi),如: 樣本a與類(lèi)別Ci的總相似度為 (4) 式中:Tj表示待測(cè)樣本a的第j個(gè)K最近鄰,若Tj屬于類(lèi)別Ci,則a與Ci的總相似度增加,最終a的類(lèi)別為: C(a)=argCimax(Sim(a,Ci)). (5) kNN算法的缺點(diǎn)在于當(dāng)數(shù)據(jù)集存在不平衡問(wèn)題時(shí),樣本數(shù)量較多的多數(shù)類(lèi)訓(xùn)練樣本容易被選為K最近鄰,對(duì)少數(shù)類(lèi)的判決造成干擾.針對(duì)這一問(wèn)題,kNN算法有兩類(lèi)解決方案: 一是用欠采樣或過(guò)采樣方法[13],通過(guò)刪除多數(shù)類(lèi)樣本或合成少數(shù)類(lèi)樣本,使兩類(lèi)型樣本數(shù)量接近,從而消除數(shù)據(jù)集不平衡問(wèn)題;二是對(duì)算法進(jìn)行改進(jìn),為訓(xùn)練樣本分配不同的權(quán)重[14-15],增加少數(shù)類(lèi)樣本在分類(lèi)判決時(shí)的表決權(quán).為了不刪除有用數(shù)據(jù)或引入冗余數(shù)據(jù),本文采用第二類(lèi)解決方案,對(duì)式(4)進(jìn)行改進(jìn): (6) 其中:weight(Tj)為訓(xùn)練樣本Tj的權(quán)重,為T(mén)j分配權(quán)重時(shí),應(yīng)遵循少數(shù)類(lèi)樣本權(quán)重大、多數(shù)類(lèi)樣本權(quán)重小的原則,分配方法如下: weight(Tj)=1/size(CTj). (7) 其中size(CTj)表示Tj所屬類(lèi)別包含的訓(xùn)練樣本數(shù)目. 在明確了基于權(quán)重的相似度計(jì)算方法后,下一步是利用判別規(guī)則對(duì)待測(cè)樣本的所屬類(lèi)別進(jìn)行判決,由于本文提取了二值V-I軌跡和幅值兩種負(fù)荷特征,因此引入綜合相似度這一概念,通過(guò)將兩種負(fù)荷特征相結(jié)合,根據(jù)綜合相似度確定待測(cè)樣本的類(lèi)別,過(guò)程如下: 1) 計(jì)算待測(cè)樣本與所有訓(xùn)練樣本的V-I軌跡相似度和幅值相似度,分別記為Sim1和Sim2: Sim1=1/(1+dist1), (8) 其中:dist1和dist2分別為2個(gè)樣本間V-I軌跡的距離和幅值的距離,均為歐氏距離. 2) 按照Sim1的大小降序排列,取前K個(gè)Sim1最大的訓(xùn)練樣本作為當(dāng)前測(cè)試樣本的K最近鄰; 3) 計(jì)算當(dāng)前測(cè)試樣本與所有K最近鄰的綜合相似度: Sim(a,Tj)=Sim1(a,Tj)×weight(Tj)+Sim2(a,Tj). (9) 4) 統(tǒng)計(jì)待測(cè)樣本與K個(gè)最近鄰中各類(lèi)的總綜合相似度,取總綜合相似度最大的類(lèi)作為預(yù)測(cè)結(jié)果. 使用宏平均F1值作為評(píng)價(jià)指標(biāo)來(lái)評(píng)估本文方法的有效性,計(jì)算方法[16]如下: (10) (11) (12) 式中:Pi和Ri分別為第i個(gè)類(lèi)別的精確率和召回率;TPi、FPi、FNi分別為第i個(gè)類(lèi)別的真正例(True Posivive)、假正例(False Positive)及假反例(False Negative)的數(shù)目;n為類(lèi)別數(shù)目. 參考經(jīng)典手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集MNIST,本文V-I軌跡的分辨率為28×28,即映射過(guò)程中,N設(shè)置為14.在劃分訓(xùn)練集與測(cè)試集時(shí),每類(lèi)用電設(shè)備訓(xùn)練樣本與測(cè)試樣本的比例均為7∶3,總數(shù)分別為764和330. 算法1僅考慮軌跡特征的標(biāo)準(zhǔn)kNN;算法2僅考慮軌跡特征的加權(quán)kNN;算法3考慮軌跡特征和幅值特征的標(biāo)準(zhǔn)kNN;算法4考慮軌跡特征和幅值特征的加權(quán)kNN.圖2為不同K值下4種算法的Macro_F1變化趨勢(shì). 圖2 不同K值下4種算法的Macro_F1Fig.2 Macro_F1 of 4 algorithms under different K values 圖3以K=15為例繪制混淆矩陣,分析4種算法對(duì)各類(lèi)用電設(shè)備的分類(lèi)性能,橫軸為用電設(shè)備的實(shí)際類(lèi)別,縱軸為分類(lèi)器預(yù)測(cè)結(jié)果,矩陣中的每個(gè)元素代表橫軸用電設(shè)備被預(yù)測(cè)為縱軸用電設(shè)備的數(shù)目.對(duì)比圖3(a)與(b),可知加權(quán)后的kNN算法提升了少數(shù)類(lèi)熱水器和洗衣機(jī)的準(zhǔn)確率.但相應(yīng)地,由于多數(shù)類(lèi)在kNN分類(lèi)判決時(shí)的決策權(quán)被削弱,吹風(fēng)機(jī)和風(fēng)扇預(yù)測(cè)錯(cuò)誤的數(shù)目都有不同程度的增加,因此算法2在Macro_F1上的表現(xiàn)有所降低.算法3的Macro_F1高于算法1和算法2,但由混淆矩陣知,在少數(shù)類(lèi)識(shí)別的性能上與算法1有同樣的缺陷.本文提出的算法4可以兼顧多數(shù)類(lèi)和少數(shù)類(lèi),Macro_F1在4種算法中最優(yōu),且隨著K值的增大,Macro_F1沒(méi)有顯著下降,表現(xiàn)出了較好的穩(wěn)定性. 圖3 4種算法的混淆矩陣(K=15)Fig.3 Confusion matrix of four kinds of algorithms (K=15) 在實(shí)驗(yàn)室環(huán)境下采集了微波爐、空調(diào)、筆記本電腦和吹風(fēng)機(jī)4類(lèi)用電設(shè)備的70組穩(wěn)態(tài)電壓和電流數(shù)據(jù),實(shí)驗(yàn)接線方法如圖4所示,采樣頻率為3.125 kHz.利用實(shí)驗(yàn)室數(shù)據(jù)驗(yàn)證算法時(shí),所有樣本都作為測(cè)試樣本,數(shù)據(jù)集中對(duì)應(yīng)類(lèi)別的樣本為訓(xùn)練樣本.由于本文采用了映射方法,二值V-I軌跡中黑色像素的個(gè)數(shù)小于等于一周期內(nèi)的采樣點(diǎn)數(shù),在3.125 kHz的采樣頻率獲得的數(shù)據(jù)映射到二值矩陣中時(shí),代表V-I軌跡的黑色像素點(diǎn)明顯離散,沒(méi)有形成一個(gè)完整的軌跡,因此為保證同類(lèi)用電器在相同分辨率下V-I軌跡一致,在測(cè)試算法前首先利用線性插值和3次多項(xiàng)式插值分別將電壓和電流數(shù)據(jù)插值至30 kHz.表1為K=15時(shí)實(shí)驗(yàn)室數(shù)據(jù)的測(cè)試結(jié)果. 圖4 實(shí)驗(yàn)測(cè)量裝置及接線方法Fig.4 Experimental measurement device and wiring method 表1 實(shí)驗(yàn)室數(shù)據(jù)測(cè)試結(jié)果 由式(11)、(12)計(jì)算可得4類(lèi)用電設(shè)備的Macro_F1為82.64%,與在數(shù)據(jù)集上測(cè)試所得的結(jié)果相比有所下降,原因如下: 1) PLAID不是完備的數(shù)據(jù)集,在實(shí)驗(yàn)室采集的樣本中,出現(xiàn)了具有不同負(fù)荷特征的用電設(shè)備; 2) PLAID和實(shí)驗(yàn)室樣本的采樣頻率及測(cè)量裝置不同,干擾了特征的提?。?/p> 3) PLAID數(shù)據(jù)集采集環(huán)境為美國(guó)家庭,標(biāo)準(zhǔn)電壓是110 V,而實(shí)驗(yàn)室測(cè)量數(shù)據(jù)時(shí)電壓為220 V,因此對(duì)于兩種環(huán)境中功率水平相近的同一類(lèi)型用電器而言,PLAID中用電器的電流約為本文采集電流的兩倍,因此上述實(shí)驗(yàn)在計(jì)算幅值相似度Sim2時(shí)僅考慮基波有功和無(wú)功功率,未計(jì)及電流幅值. 針對(duì)家庭中非侵入式負(fù)荷監(jiān)測(cè)系統(tǒng)的低成本要求,本文提出一種基于改進(jìn)kNN算法的負(fù)荷識(shí)別方法: 1) 在數(shù)據(jù)集不平衡的情況下,通過(guò)增加權(quán)重的方式,提高了與多數(shù)類(lèi)具有相似V-I軌跡形狀的少數(shù)類(lèi)樣本的識(shí)別準(zhǔn)確率. 2) 考慮用電設(shè)備的幅值特征,提出基于綜合相似度的類(lèi)別判決方法,提高了前端電路拓?fù)湎嗤β实燃?jí)不同的兩類(lèi)用電設(shè)備的識(shí)別準(zhǔn)確率. 3) 將在數(shù)據(jù)集上得到的負(fù)荷識(shí)別模型直接應(yīng)用于實(shí)驗(yàn)室測(cè)量數(shù)據(jù),得到了82.64%的Macro_F1,說(shuō)明V-I軌跡和幅值的特征組合具有較好的魯棒性,且kNN算法具有一定的泛化能力.2 基于改進(jìn)kNN算法的非侵入式負(fù)荷識(shí)別方法
2.1 kNN算法的缺陷及其改進(jìn)
2.2 基于綜合相似度的類(lèi)別判決方法
Sim2=1/(1+dist2).3 評(píng)價(jià)指標(biāo)
4 利用數(shù)據(jù)集測(cè)試負(fù)荷識(shí)別算法
5 利用實(shí)驗(yàn)室數(shù)據(jù)驗(yàn)證負(fù)荷識(shí)別算法
6 結(jié) 論
復(fù)旦學(xué)報(bào)(自然科學(xué)版)2021年2期