延 菲,張瑞祥,孫耀杰,3,康 巍,張 健,孫 潔,李琦芬
(1. 復(fù)旦大學(xué) 信息科學(xué)與工程學(xué)院,上海 200433; 2. 復(fù)旦大學(xué) 六次產(chǎn)業(yè)研究院,上海 200433; 3. 上海綜合能源 系統(tǒng)人工智能工程技術(shù)研究中心,上海 200433; 4. 中國質(zhì)量認證中心 新能源風(fēng)電部,北京 100070;5. 上海明華電力科技有限公司,上海 200090; 6. 陜西省能源局,陜西 西安 710006;7. 上海電力大學(xué) 能源與機械工程學(xué)院,上海 200090)
非侵入式負荷監(jiān)測通過數(shù)據(jù)分析技術(shù)將用戶總能耗分解到每一個用電設(shè)備,從而獲得設(shè)備級的用電詳情.詳細的能耗清單不僅可以引導(dǎo)用戶改善用電習(xí)慣,減少用電費用,還有助于電力公司分析用戶負荷的組成[1],對于需求側(cè)精細化管理和實施需求響應(yīng)具有重要意義.
目前對于負荷識別的研究主要集中于提升識別精度,但是促進非侵入式負荷監(jiān)測技術(shù)在居民用戶側(cè)的推廣除需提升精度外,負荷識別算法的實現(xiàn)成本和實時性也是需要考慮的因素.本文以改進k最近鄰(k-Nearest Neighbor, kNN)算法為負荷識別模型,研究了輸入側(cè)數(shù)據(jù)與負荷識別效果間的關(guān)系.首先通過實驗尋找能夠獲得最佳識別精度的負荷特征組合,然后研究了數(shù)據(jù)采樣頻率及V-I軌跡分辨率對識別效果的影響,找出識別結(jié)果不再發(fā)生顯著變化的頻率和分辨率的臨界點,有助于降低降低硬件成本、提升負荷識別算法的實時性.
1) 形狀特征
電壓-電流(V-I)軌跡是指取用電設(shè)備穩(wěn)定運行過程中一個周期的電壓和電流數(shù)據(jù),以電壓為橫坐標(biāo),電流為縱坐標(biāo)繪制而成的軌跡.根據(jù)前端電路拓撲結(jié)構(gòu)的不同,用電設(shè)備可分為7個類別[2],每個類別內(nèi)用電設(shè)備的V-I軌跡具有相似的形狀[3],因此根據(jù)這一特征,可基本完成用電設(shè)備大類的劃分,然后再利用其他特征在7個類別內(nèi)部進行二次分類.軌跡可用不對稱性、循環(huán)方向、面積、平均線曲率、自交叉、中段坡度、左段和右段面積等特征來描述[4],通過數(shù)學(xué)計算可量化以上特征[5],但是數(shù)學(xué)量化方法在提取特征時需要多次遍歷數(shù)據(jù)點,運算量大且容易受噪聲和異常值的影響,因此本文采用計算復(fù)雜度低且魯棒性更好的映射方法[3]將原始V-I軌跡轉(zhuǎn)化為指定維度的二值矩陣,把軌跡經(jīng)過的位置設(shè)置為黑色,標(biāo)記為0,其他位置設(shè)置為白色,標(biāo)記為1.
雖然二值V-I軌跡是一種可高效區(qū)分用電設(shè)備大類的特征[6],但是由于在電流中,有功電流的比例大于無功電流,導(dǎo)致V-I軌跡的形狀取決于有功電流[7].為了增加更多細節(jié)信息,電壓-無功電流(V-If)軌跡[8]開始應(yīng)用于負荷識別.根據(jù)Fryze的功率理論[9],電流波形可分解為有功電流和無功電流,即:
i(t)=ia(t)+if(t).
(1)
其中:ia(t)為有功電流,定義為負荷電流在電壓方向上的正交投影,有功功率為交流電路中一個周期(T)內(nèi)瞬時功率的平均值,分別為
(2)
(3)
式中:Pactive為有功功率;Vrms為電壓u(t)的有效值,rms指均方根;i(t)為電流,無功電流為
(4)
2) 幅值特征
幅值特征包括基波有功功率P,基波無功功率Q,基波電流幅值和3、5、7次諧波電流幅值.
采用加權(quán)改進型kNN算法[10]作為負荷識別模型,由于采用單一特征和組合特征時,計算相似度的方法有所不同,以下對兩種情形下的負荷識別的流程做簡要敘述.
1.2.1 單一特征的負荷識別方法
當(dāng)選取的負荷特征為單一特征(以功率、電流作為特征或以軌跡形狀作為特征)時,負荷識別的過程如下:
1) 對于待測樣本a,計算a與所有訓(xùn)練樣本的相似度,取相似度最大的K個訓(xùn)練樣本作為a的K最近鄰;
2) 分別計算a與K個最近鄰中各類別的相似度之和,與a的總相似度最大的類被認定為樣本a的類別,如樣本a與類別C的總相似度
(5)
式中:Tj表示待測樣本a的第j個K最近鄰,若Tj屬于類別C,則a與C的總相似度增加;weight(Tj)為訓(xùn)練樣本Tj的權(quán)重,且
weight(Tj)=1/size(CTj).
(6)
式中:size(CTj)表示Tj所屬類別包含的訓(xùn)練樣本的數(shù)目.
1.2.2 組合特征的負荷識別方法
當(dāng)選取的負荷特征為組合特征(形狀特征與幅值特征的組合)時,負荷識別的過程如下:
1) 計算待測樣本a與所有訓(xùn)練樣本的形狀相似度和幅值特征相似度,分別記為Sim1和Sim2;
2) 取Sim1最大的K個訓(xùn)練樣本作為當(dāng)前測試樣本的K最近鄰;
3) 計算當(dāng)前測試樣本與K最近鄰Tj(j=1,2,…,K)的軌跡特征和幅值特征的綜合相似度
Sim(a,Tj)=Sim1(a,Tj)×weight(Tj)+Sim2(a,Tj);
(7)
4) 計算待測樣本與K個最近鄰中各類的總綜合相似度,取總綜合相似度最大的類作為預(yù)測結(jié)果.
利用PLAID數(shù)據(jù)集[11]進行實驗研究.PLAID數(shù)據(jù)集包含56個家庭11類常用電器的電流和電壓數(shù)據(jù),共有235個設(shè)備的1 094組數(shù)據(jù),采樣頻率為30 kHz.按照4∶1劃分訓(xùn)練集和測試集,進行5次測試,評價指標(biāo)取5次測試結(jié)果的平均值.
使用macro_F1作為負荷識別效果的評價指標(biāo),計算公式[12]如下:
(8)
(9)
式中:n為分類問題中類別的數(shù)目;Pm和Rm分別為類別m的精確率(Precision)和召回率(Recall).
本節(jié)實驗將特征提取環(huán)節(jié)獲得的形狀特征和幅值特征組合為6組負荷特征,分別以這6組特征為輸入,以改進kNN算法為負荷識別模型,對PLAID數(shù)據(jù)集中的11類用電設(shè)備進行分類.6組特征的詳情如下:
① 基波有功-無功(PQ)特征;② 幅值特征;③V-I軌跡;④V-If軌跡;⑤V-I軌跡與幅值特征的組合;⑥V-If軌跡與幅值特征的組合.其中兩種軌跡的分辨率均為28×28,即映射過程中設(shè)置N=14.以上6組特征中: ①~④為單一特征,識別流程如1.2.1節(jié)所述;⑤~⑥為組合特征,識別流程如1.2.2節(jié)所述.圖1為加權(quán)kNN算法對6組負荷特征的識別效果,其中兩種軌跡與幅值特征的組合識別效果最好,macro_F1隨K值增大沒有出現(xiàn)明顯下降,較為穩(wěn)定.由于無功電流的提取需要對有功電流進行計算,因此本文實驗中,最佳負荷特征為V-I軌跡和幅值特征的組合.
圖1 不同特征組合下負荷識別算法的macro_F1值Fig.1 macro_F1 of load identification algorithm under different feature combinations
上文通過實驗篩選出唯一性較強的負荷特征為V-I軌跡與幅值特征的組合,當(dāng)3≤K≤24時,macro_F1>93%.為進一步優(yōu)化負荷識別算法,在保持高macro_F1的前提下降低硬件成本、提升負荷識別的實時性,下面探究數(shù)據(jù)采集頻率和V-I軌跡分辨率對負荷識別算法的影響.
將原始的30 kHz的數(shù)據(jù)通過重采樣降至24.0、18.0、12.0、6.0、4.8、2.4和1.2 kHz,然后提取V-I軌跡特征和幅值特征,執(zhí)行1.2.2節(jié)所述的負荷識別方法,圖2(見第814頁)為實驗結(jié)果.采樣頻率為1.2 kHz時,macro_F1位于最下方,最高宏平均F1值不足80%,原因在于采樣率為1.2 kHz時,一個周期僅有20個采樣點,二值V-I軌跡出現(xiàn)明顯的離散現(xiàn)象,采樣頻率大于等于6.0 kHz后,二值V-I軌跡連續(xù),macro_F1隨著采樣頻率的增加不再方法顯著變化.
圖2 不同采樣頻率下負荷識別算法的macro_F1值Fig.2 macro_F1 of load identification algorithm at different sampling frequency
kNN算法的時間復(fù)雜度為:
O(T×D).
(10)
式中:T為訓(xùn)練樣本數(shù)目;D為樣本特征的維度,包括二值V-I軌跡的維度和幅值特征的維度,其中二值V-I軌跡的維度為2N×2N(當(dāng)N=14時,軌跡維度為28×28=784),而幅值特征的維度僅為6維,相較于分辨率,幅值特征可忽略不計,因此減少負荷識別階段時間復(fù)雜度的方法主要考慮降低V-I軌跡的分辨率,圖3為不同分辨率下負荷識別算法的macro_F1值.
由圖3(a)可知,各分辨率下macro_F1隨著K值的增大都較為穩(wěn)定,圖3(b)觀察了K=15剖面macro_F1的變化趨勢,當(dāng)N=12時macro_F1=94.15%,且隨著N值的增大不再發(fā)生明顯變化.
對不同N值下單樣本的識別時間進行統(tǒng)計,結(jié)果如表1所示.當(dāng)N=12時,識別一個樣本用時16.00 ms,相較于N=14時,識別節(jié)省了18%的時間.
表1 不同N值下單樣本的識別時間Tab.1 Identification time of single sample with different N values
數(shù)據(jù)采集頻率、負荷特征的唯一性和維度是影響硬件成本、識別精度和實時性的重要因素,本文采用改進kNN算法為負荷識別模型,以負荷特征、采樣頻率和V-I軌跡分辨率為自變量,通過實驗研究了三者對負荷識別效果的影響,得出以下結(jié)論:
1) 軌跡特征與幅值特征的組合相較于單一特征唯一性較強,且隨著K值增大,macro_F1保持在93%附近,識別效果穩(wěn)定;
2) 采樣頻率和分辨率臨界點分別為:f采樣=6.0 kHz和N=12,在這一臨界點之上進行的基于kNN算法的負荷識別方法可以獲得較好的結(jié)果.