王守相,劉天宇
(天津大學(xué)智能電網(wǎng)教育部重點(diǎn)實(shí)驗(yàn)室,天津 300072)
計(jì)及用電模式的居民負(fù)荷梯度提升樹(shù)分類(lèi)識(shí)別方法
王守相,劉天宇
(天津大學(xué)智能電網(wǎng)教育部重點(diǎn)實(shí)驗(yàn)室,天津 300072)
居民負(fù)荷分類(lèi)與識(shí)別是負(fù)荷監(jiān)測(cè)與需求側(cè)管理的研究基礎(chǔ)。為了實(shí)現(xiàn)居民負(fù)荷用電模式的提取和識(shí)別,本文對(duì)負(fù)荷公共數(shù)據(jù)集運(yùn)用主成分分析降維并聚類(lèi),提出了一種計(jì)及典型用電模式的梯度提升樹(shù)負(fù)荷分類(lèi)識(shí)別方法。首先對(duì)負(fù)荷公共數(shù)據(jù)集重采樣并獲得各類(lèi)負(fù)荷能耗特征樣本,歸一化后通過(guò)主成分分析法降維得到特征的主成分。再通過(guò)改進(jìn)K均值聚類(lèi)法獲得各類(lèi)負(fù)荷的典型用電模式,訓(xùn)練梯度提升樹(shù)并進(jìn)行超參數(shù)優(yōu)化,對(duì)測(cè)試集負(fù)荷類(lèi)型進(jìn)行識(shí)別。在公共數(shù)據(jù)集與實(shí)測(cè)數(shù)據(jù)上測(cè)試發(fā)現(xiàn),該方法對(duì)于居民負(fù)荷分類(lèi)識(shí)別有良好效果,能夠?qū)崿F(xiàn)對(duì)負(fù)荷的分類(lèi)識(shí)別。
公共數(shù)據(jù)集;負(fù)荷用電模式;改進(jìn)K均值聚類(lèi);梯度提升樹(shù)
Abstract:Classification and identification for residential load are the basis of load monitoring and demand-side manage?ment.In order to realize the extraction and identification of the load power consumption modes for residents,a gradient boosting decision tree method for load classification and identification,which takes typical power consumption modes into account,is proposed in this paper by using principal component analysis(PCA)to deduce and aggregate the com?mon dataset of load.Firstly,the load data are resampled and the characteristic samples of various types of load energy consumption data are obtained,which are further normalized and reduced by PCA to acquire the principal components.Secondly,by means of improvedK-means clustering method,typical power consumption modes are obtained.More?over,gradient boosting decision tree is trained with super-parameter optimization,and the test set is used to identify dif?ferent types of loads.Through the tests on the common dataset and measured data,it is found that the proposed method has good effect on load classification and identification.
Key words:public dataset;power consumption mode;improvedK-means clustering;gradient boosting decision tree
對(duì)負(fù)荷分類(lèi)與能耗監(jiān)測(cè)是進(jìn)行需求響應(yīng)與節(jié)能降耗的基礎(chǔ)。非侵入式負(fù)荷監(jiān)測(cè)于1980年由Hart[1]提出,相比于侵入式負(fù)荷監(jiān)測(cè)存在硬件成本高、布線復(fù)雜、維護(hù)困難等缺陷,該方法利用在負(fù)荷入口處采集有功功率及無(wú)功功率等負(fù)荷特征對(duì)電氣設(shè)備進(jìn)行辨識(shí),實(shí)現(xiàn)建筑的負(fù)荷監(jiān)測(cè)。1996年Norford等[2]首次將非侵入式負(fù)荷監(jiān)測(cè)用于商業(yè)辦公建筑,通過(guò)匹配負(fù)荷的啟動(dòng)功率特征進(jìn)行識(shí)別,主要識(shí)別負(fù)荷為供水泵、鼓風(fēng)機(jī)、制冷設(shè)備等。
近年來(lái),國(guó)內(nèi)外研究者更關(guān)注家庭用戶(hù)的負(fù)荷監(jiān)測(cè)方法,而居民負(fù)荷的電氣特性和參數(shù)是進(jìn)行負(fù)荷監(jiān)測(cè)的基礎(chǔ),居民用戶(hù)側(cè)的負(fù)荷能耗多數(shù)來(lái)自于居民電器的消耗。文獻(xiàn)[3]應(yīng)用了配電系統(tǒng)中的高級(jí)計(jì)量基礎(chǔ)設(shè)施實(shí)現(xiàn)負(fù)載監(jiān)控,在智能電表級(jí)別完成分布式計(jì)算的負(fù)荷分解。文獻(xiàn)[4]提出了居民負(fù)荷的分解特征(即有功、無(wú)功、諧波含量、沖擊有無(wú)、相數(shù)),運(yùn)用聚類(lèi)的方法給出了常見(jiàn)居民負(fù)荷各特征的變化范圍,并對(duì)負(fù)荷起停事件進(jìn)行了分類(lèi)。文獻(xiàn)[5]給出了在用于目前智能電表限制下的非侵入性負(fù)荷監(jiān)測(cè)住宅樓宇電器識(shí)別領(lǐng)域應(yīng)用時(shí)間多標(biāo)簽分類(lèi)方法的新穎嘗試。文獻(xiàn)[6]提出了一種基于半監(jiān)督機(jī)器學(xué)習(xí)和小波分析的新型非侵入式負(fù)荷監(jiān)測(cè)方法,設(shè)計(jì)新的小波后采用兩個(gè)機(jī)器學(xué)習(xí)分類(lèi)器共同訓(xùn)練,從而自動(dòng)化學(xué)習(xí)負(fù)載模式。文獻(xiàn)[7]運(yùn)用改進(jìn)的電流波形作為負(fù)荷功率簽名,使用功率理論將電流波形分解為活動(dòng)電流和非活動(dòng)電流,可以實(shí)現(xiàn)更好的負(fù)載分解。文獻(xiàn)[8]綜述了智能電表中使用的負(fù)荷分解技術(shù),將家庭負(fù)荷的特征分為暫態(tài)和穩(wěn)態(tài)。
居民電器的負(fù)荷特性不僅表現(xiàn)在其電氣特性,也與用戶(hù)使用習(xí)慣有關(guān)。文獻(xiàn)[9]在基于無(wú)監(jiān)督學(xué)習(xí)的異常用電模式檢測(cè)模型當(dāng)中,對(duì)用戶(hù)的用電曲線經(jīng)過(guò)聚類(lèi)分析形成時(shí)間序列,將多個(gè)用戶(hù)用電模式的用能信息通過(guò)主成分分析PCA(principal com?ponent analysis)降維,計(jì)算用電模式的離群度尋找異常。文獻(xiàn)[10]首先通過(guò)對(duì)負(fù)荷曲線進(jìn)行聚類(lèi)分析得到每類(lèi)用戶(hù)的特征曲線,然后進(jìn)行異常用電模式分解。文獻(xiàn)[11]將非侵入式電力負(fù)荷監(jiān)測(cè)問(wèn)題轉(zhuǎn)化為隱馬爾可夫模型的解碼問(wèn)題,應(yīng)用改進(jìn)Viterbi算法求解用電設(shè)備個(gè)數(shù)或狀態(tài)數(shù)較多情況下的用電設(shè)備狀態(tài)。
通過(guò)負(fù)荷能耗信息,可以分析居民負(fù)荷的運(yùn)行情況與典型用電模式,從而進(jìn)行分類(lèi)識(shí)別[12]。本文基于公共數(shù)據(jù)集包含的負(fù)荷運(yùn)行數(shù)據(jù)與部分實(shí)測(cè)數(shù)據(jù),經(jīng)過(guò)重采樣統(tǒng)一數(shù)據(jù)頻率,經(jīng)主成分分析降低數(shù)據(jù)維度,再運(yùn)用改進(jìn)K均值聚類(lèi)獲取代表用戶(hù)典型使用習(xí)慣的負(fù)荷用電模式,進(jìn)一步研究使用梯度提升樹(shù)超參數(shù)優(yōu)化實(shí)現(xiàn)不同負(fù)荷用能信息的分類(lèi)識(shí)別。最后,本文通過(guò)測(cè)試集數(shù)據(jù)驗(yàn)證了基于負(fù)荷用電模式和梯度提升樹(shù)超參數(shù)優(yōu)化的居民負(fù)荷分類(lèi)識(shí)別的可行性。
國(guó)外的研究人員已經(jīng)開(kāi)始公開(kāi)發(fā)布電力負(fù)荷數(shù)據(jù)集,通過(guò)這些公共數(shù)據(jù)集可以進(jìn)行用電負(fù)荷特征的提取。根據(jù)收集的11項(xiàng),共計(jì)超過(guò)40 GB的公共負(fù)荷數(shù)據(jù)集包括能源分解參考數(shù)據(jù)集REDD(reference energy disaggregation dataset)[13]、建筑能源分解全標(biāo)記數(shù)據(jù)集BLUED(building level fully la?beled dataset for electricity disaggregation)[14]等。REDD包含了6個(gè)美國(guó)家庭的真實(shí)家庭負(fù)荷以及每個(gè)負(fù)荷獨(dú)立回路的監(jiān)測(cè)數(shù)據(jù),監(jiān)測(cè)的周期在幾周到幾個(gè)月之間。采樣的周期分為高頻和低頻兩類(lèi),高頻采樣頻率為kHz,低頻采樣周期為3~4 s,具體監(jiān)測(cè)指標(biāo)包括線路的電壓和兩相電源的電流。高頻率(kHz)電流和電壓數(shù)據(jù)均可用于電源電路,而低頻功率測(cè)量(3~4 s的間隔)可用于具體電器負(fù)荷電路。
依據(jù)包含多種用電設(shè)備的負(fù)荷公共數(shù)據(jù)集,通過(guò)負(fù)荷分類(lèi)與電能信息96點(diǎn)重采樣,獲得單一類(lèi)型負(fù)荷多日能耗信息數(shù)據(jù),形成多類(lèi)型負(fù)荷能耗特征樣本。對(duì)各類(lèi)負(fù)荷尋找輪廓系數(shù)最大的聚類(lèi)情況,從而確定各負(fù)荷用電模式特征,形成負(fù)荷用電模式特征空間。由于負(fù)荷用電模式特征之間和多類(lèi)型負(fù)荷能耗特征數(shù)據(jù)之間存在一定關(guān)聯(lián),使用PCA對(duì)特征數(shù)據(jù)進(jìn)行降維,篩選保留方差貢獻(xiàn)率居前的主成分。依據(jù)降維后的負(fù)荷用電模式特征,結(jié)合超參數(shù)優(yōu)化后的梯度提升樹(shù)將測(cè)試集負(fù)荷進(jìn)行分類(lèi),實(shí)現(xiàn)對(duì)測(cè)試負(fù)荷的識(shí)別與分類(lèi)。
負(fù)荷暫態(tài)特征與穩(wěn)態(tài)特征直接體現(xiàn)了負(fù)荷本身電氣特性,但僅就照明類(lèi)負(fù)荷中LED光源來(lái)看,由于其發(fā)光原理存在技術(shù)性差異,暫穩(wěn)態(tài)特征中包含的電氣特性差異使其難以歸為一類(lèi)負(fù)荷。而負(fù)荷日能耗信息,即負(fù)荷實(shí)際使用中日能耗特性,由用戶(hù)使用時(shí)間、使用時(shí)長(zhǎng)、使用模式?jīng)Q定,是伴隨季節(jié)、氣溫、光照、節(jié)假日、用戶(hù)使用習(xí)慣等有規(guī)律變化的時(shí)間序列信息。通過(guò)對(duì)各負(fù)荷日能耗特征進(jìn)行聚類(lèi)分析,便可得到每類(lèi)負(fù)荷的典型日用電曲線,即負(fù)荷典型用電模式。
公共數(shù)據(jù)集數(shù)據(jù)中具有負(fù)荷類(lèi)別標(biāo)簽,根據(jù)已有類(lèi)別標(biāo)簽負(fù)荷的多日能耗信息,建立模型學(xué)習(xí)用負(fù)荷典型用電模式,就可實(shí)現(xiàn)對(duì)未知負(fù)荷樣本的分類(lèi)識(shí)別。
經(jīng)過(guò)重采樣的能耗信息數(shù)據(jù)仍然維度較高,因此需要通過(guò)PCA實(shí)現(xiàn)降維,尋找低維樣本數(shù)據(jù),使其所含特征方差貢獻(xiàn)率接近原始信息。由于同一類(lèi)型負(fù)荷存在耗能水平差異,因此首先定義能耗特征空間X為
對(duì)X進(jìn)行歸一化處理后得
式中:X為能耗特征空間;Xmin、Xmax分別為由能耗特征空間中最小值、最大值填充的與X維度相同的矩陣;Xscaled為歸一化處理后的能耗特征空間;Xstd為能耗特征空間歸一化的輔助量;xmin、xmax分別為能耗特征空間一列中的最小值和最大值;xij為第i個(gè)負(fù)荷的第j項(xiàng)指標(biāo)數(shù)值;n為負(fù)荷樣本數(shù)量;e為指標(biāo)維度。
wi為歸一化后的第i個(gè)樣本的平均值,其計(jì)算公式為
式中,xscaled,it為歸一化后的能耗特征空間第i行的第t個(gè)樣本。
計(jì)算歸一化能耗特征空間的離散度矩陣Q為
式中:Q為離散度矩陣;Xscaled,t為歸一化后的能耗特征空間第t行樣本;W為由wi構(gòu)成的歸一化后樣本平均值向量。
由式(5)可計(jì)算得到其e個(gè)特征值λ1≤λ2≤…≤λe。特征值的累積方差貢獻(xiàn)率為
式中:T為累積方差貢獻(xiàn)率;λt為主成分t對(duì)應(yīng)的特征值;a為累積貢獻(xiàn)率超過(guò)90%時(shí)的能耗指標(biāo)數(shù)量。
選擇累積貢獻(xiàn)率超過(guò)90%的能耗指標(biāo)為主成分,除去無(wú)關(guān)成分,從而實(shí)現(xiàn)對(duì)能耗特征空間的降維。K均值聚類(lèi)算法流程是首先隨機(jī)確定c個(gè)樣本作為各簇的聚類(lèi)中心(u1,u2,…,uc),使用歐式距離測(cè)定相似度后決定其他樣本的簇標(biāo)簽yi,再使用樣本均值更新聚類(lèi)中心,最后以誤差平方和作為聚類(lèi)收斂準(zhǔn)則。計(jì)算方法為
式中:xi為第i個(gè)樣本;yi為xi對(duì)應(yīng)的簇標(biāo)簽;μy為簇y的聚類(lèi)中心;ny為簇y中的樣本數(shù);c為簇的數(shù)量。
對(duì)歸一化后的數(shù)據(jù)進(jìn)行改進(jìn)K均值聚類(lèi)的流程是首先對(duì)K均值聚類(lèi)算法進(jìn)行超參數(shù)優(yōu)化,使K值從2至樣本數(shù)變化分別進(jìn)行K均值聚類(lèi);然后針對(duì)各K值下的聚類(lèi)結(jié)果,計(jì)算輪廓系數(shù),選擇輪廓系數(shù)最大的聚類(lèi)結(jié)果。聚類(lèi)輪廓系數(shù)[15]計(jì)算公式為
其中
式中:si為聚類(lèi)i中輪廓系數(shù);di,j為樣本i、j之間的距離;nc為聚類(lèi)c中樣本數(shù);Cc為聚類(lèi)c的集合;np為聚類(lèi)p中樣本數(shù);Cp為聚類(lèi)p的集合;若樣本i聚為c類(lèi),ai為樣本i和同屬c類(lèi)的其他所有樣本之間的平均距離;bi為樣本i和非c類(lèi)的各個(gè)類(lèi)中所有樣本的平均距離的最小值。
輪廓系數(shù)從類(lèi)內(nèi)距離與類(lèi)間距離反映了聚類(lèi)結(jié)果的內(nèi)聚程度與各類(lèi)之間的分散情況,可以體現(xiàn)聚類(lèi)的合理程度。依據(jù)輪廓系數(shù),選定最恰當(dāng)?shù)腒值,并保留改進(jìn)K均值聚類(lèi)的結(jié)果,以此作為該類(lèi)型負(fù)荷的K類(lèi)用電模式特征。
PCA法實(shí)現(xiàn)了對(duì)能耗特征的降維,從而篩選出方差貢獻(xiàn)率最高的有效特征。對(duì)降維后的能耗信息數(shù)據(jù),再利用改進(jìn)K均值聚類(lèi)處理,依據(jù)輪廓系數(shù)最大的篩選原則,可以得到每類(lèi)負(fù)荷的典型用電模式特征。用各類(lèi)負(fù)荷的用電模式特征訓(xùn)練梯度回歸樹(shù),同時(shí)對(duì)Boosting框架和弱學(xué)習(xí)器(決策樹(shù))的參數(shù)進(jìn)行超參數(shù)優(yōu)化,得到的梯度回歸樹(shù)能對(duì)不同負(fù)荷能耗數(shù)據(jù)實(shí)現(xiàn)有效識(shí)別。
梯度提升樹(shù)GBDT(gradient boosting decision tree)[16],又稱(chēng)為 MART(multiple additive regression tree),是包含Boosting迭代過(guò)程的決策樹(shù)算法。該算法由多棵決策樹(shù)共同參與決策,每棵樹(shù)學(xué)習(xí)之前所有樹(shù)的殘差(結(jié)論和與真實(shí)值的偏差量),所有樹(shù)的結(jié)論累加成為最終答案。該算法在被提出之初就和支持向量機(jī)SVM(support vector machine)算法一起被認(rèn)為是泛化能力較強(qiáng)的算法,適用于各類(lèi)分類(lèi)問(wèn)題。
對(duì)于用電模式特征訓(xùn)練集{(xi,yi)}n,其中i=1,2,…,n,xi為第i個(gè)用電模式特征,yi為第i個(gè)負(fù)荷類(lèi)型,損失函數(shù)L[y,F(xiàn)(x)],F(xiàn)(x)為模型得到的識(shí)別類(lèi)型,決策樹(shù)數(shù)量(或迭代次數(shù))為M。記第m次更新模型記為Fm(x),第0次迭代初始化梯度提升樹(shù)模型F0(x)為定值,即
式中:x為用電模式特征;γ為本次迭代初始化的負(fù)荷類(lèi)型。
針對(duì)第m次迭代,即第m顆決策樹(shù)hm-1(x)的模型識(shí)別結(jié)果F(x)取上一顆決策樹(shù)的輸出Fm-1(x),然后計(jì)算殘差rim,計(jì)算公式為
由式(15)得到新訓(xùn)練集{(xi,ri)}n,其中i=1,2,…,n,訓(xùn)練第m+1決策樹(shù)hm(x),本次迭代初始化的負(fù)荷類(lèi)型γm的計(jì)算式為
由hm(x)和本次迭代初始化的負(fù)荷類(lèi)型γm得到第m次更新模型為
經(jīng)過(guò)最大迭代次數(shù)M次更新模型,得到模型最終分類(lèi)類(lèi)型FM(x)。
梯度提升樹(shù)在實(shí)際處理類(lèi)型量解決多元分類(lèi)問(wèn)題時(shí),類(lèi)型判別的輸出不是連續(xù)的數(shù)值量,而是離散的類(lèi)型量,因此無(wú)法直接從輸出類(lèi)別去擬合類(lèi)別輸出的誤差。在選擇不同的損失函數(shù)的情況下,對(duì)于誤差的計(jì)算方式截然不同。對(duì)于分類(lèi)問(wèn)題,損失函數(shù)一般有對(duì)數(shù)似然損失函數(shù)和指數(shù)損失函數(shù)兩種,在指數(shù)損失函數(shù)的情況下梯度提升算法與Adaboost算法相同,僅討論對(duì)數(shù)似然損失函數(shù)下通過(guò)類(lèi)別的預(yù)測(cè)概率值和真實(shí)概率值的差來(lái)擬合損失的情況。對(duì)數(shù)似然損失函數(shù)計(jì)算公式為
式中:G為輸入樣本類(lèi);若輸入樣本類(lèi)別為g,則yg=1;pg(x)為第g類(lèi)型的概率,其表達(dá)式為
式中,F(xiàn)g(x)為判別結(jié)果落在g類(lèi)中的模型輸出值。
根據(jù)式(18)和式(19),可以計(jì)算出第m次迭代過(guò)程的第i個(gè)樣本對(duì)應(yīng)類(lèi)別l的負(fù)梯度誤差為
針對(duì)梯度提升樹(shù)模型進(jìn)行超參數(shù)優(yōu)化,從Boosting框架的參數(shù)空間和決策樹(shù)的參數(shù)空間中尋找最適合該負(fù)荷識(shí)別問(wèn)題的參數(shù)組合。Boosting框架的參數(shù)有決策樹(shù)數(shù)量M、學(xué)習(xí)步長(zhǎng)γm、子采樣率和損失函數(shù)L[y,F(xiàn)(x)]。決策樹(shù)參數(shù)包括最大特征數(shù)、最大深度、劃分最小樣本數(shù)、葉節(jié)點(diǎn)最小樣本數(shù)、最大葉節(jié)點(diǎn)數(shù)等。訓(xùn)練梯度提升樹(shù)模型時(shí)采用并行化網(wǎng)格搜索,針對(duì)參數(shù)空間進(jìn)行尋優(yōu)。
基于梯度提升樹(shù)超參數(shù)優(yōu)化的負(fù)荷識(shí)別算法流程如圖1所示。
圖1 負(fù)荷識(shí)別算法流程Fig.1 Flow chart of load identification algorithm
本文采用REDD低頻數(shù)據(jù)集數(shù)據(jù),應(yīng)用Python編程語(yǔ)言Pandas開(kāi)源庫(kù),實(shí)現(xiàn)時(shí)間序列數(shù)據(jù)清洗與重采樣,將各類(lèi)負(fù)荷用能原始數(shù)據(jù)轉(zhuǎn)換為日用電96點(diǎn)信息。后續(xù)數(shù)據(jù)分析過(guò)程采用Python開(kāi)源庫(kù)Sklearn,并行化參數(shù)網(wǎng)格搜索的系統(tǒng)平臺(tái)為OSX系統(tǒng),CPU為1.6GHz i5-6500U,4G1600MHz DDR3內(nèi)存,256G SSD硬盤(pán)。同時(shí)采用某2 500 m2建筑面積的商用建筑分項(xiàng)計(jì)量用能信息,對(duì)本文算法進(jìn)行了實(shí)例驗(yàn)證。
公共負(fù)荷數(shù)據(jù)集樣本為6戶(hù)居民住宅內(nèi)的11種負(fù)荷(空調(diào)、洗碗機(jī)、垃圾處理器、電熱器、電烤箱、排風(fēng)扇、照明燈、微波爐、冰箱、電爐、洗衣機(jī)),采用均值重采樣,應(yīng)用前向填充方法填補(bǔ)缺失數(shù)據(jù),共計(jì)1 369個(gè)負(fù)荷日能耗樣本。
實(shí)測(cè)商業(yè)建筑數(shù)據(jù)集樣本為總建筑面積約為2 500 m2的商用辦公建筑內(nèi)4種負(fù)荷(空調(diào)、照明、電梯、其他負(fù)荷),監(jiān)測(cè)模塊采樣頻率5 kHz。
本文采用REDD與商用建筑負(fù)荷相結(jié)合的多類(lèi)型負(fù)荷能耗特征,降維后運(yùn)用改進(jìn)K均值聚類(lèi)法提取各負(fù)荷典型用電模式。首先對(duì)REDD公共數(shù)據(jù)集數(shù)據(jù)重采樣,將其轉(zhuǎn)化為1/900 Hz采樣頻率的日用電功率96點(diǎn)信息。對(duì)日用電功率96點(diǎn)信息經(jīng)PCA保留有效成分Z1,Z2,…,Z6,分析結(jié)果如表1所示,對(duì)各類(lèi)負(fù)荷分別提取典型用電模式特征。保留各負(fù)荷聚類(lèi)時(shí)輪廓系數(shù)最大的聚類(lèi)中心,作為對(duì)應(yīng)各負(fù)荷類(lèi)型的典型用電模式特征,形成用電模式特征訓(xùn)練集。
表1 PCA結(jié)果Tab.1 Results of PCA
本文選取11種負(fù)荷(類(lèi)型同前)提取典型用電模式特征。根據(jù)未經(jīng)降維處理的典型用電模式96點(diǎn)曲線,可以總結(jié)出這11類(lèi)負(fù)荷的典型用電特點(diǎn)如下。
(1)洗碗機(jī)、電熱器、排風(fēng)扇、冰箱、電爐和洗衣機(jī)存在兩種典型工作模式,全天內(nèi)處在低功耗狀態(tài)(關(guān)停)或運(yùn)行狀態(tài)。洗碗機(jī)、冰箱、電爐在運(yùn)行狀態(tài)存在明顯周期性,反映了設(shè)備間斷運(yùn)行的特點(diǎn)。電熱器在早晚氣溫較低期間功耗上升,午后氣溫回升時(shí)功耗下降。洗衣機(jī)在中午達(dá)到功率峰值。排風(fēng)扇運(yùn)行時(shí)功耗波動(dòng)較小。
(2)垃圾處理器、電烤箱、微波爐的工作狀態(tài)較多,能耗峰值均集中在早中晚三餐期間,符合三者作為廚房電器的運(yùn)行規(guī)律。電烤箱啟動(dòng)時(shí)間在三者中較早,符合烤制食物準(zhǔn)備時(shí)間更長(zhǎng)的特點(diǎn)。
(3)空調(diào)存在最多種類(lèi)的典型用電模式,除低功耗關(guān)閉狀態(tài)外,還包括周期性運(yùn)行、僅夜晚運(yùn)行和早中晚分時(shí)段運(yùn)行。周期性運(yùn)行模式與空調(diào)全天處在自動(dòng)調(diào)溫狀態(tài)相符合,僅夜晚運(yùn)行模式符合居民下班后使用空調(diào)的習(xí)慣,而早中晚分時(shí)段運(yùn)行模式應(yīng)當(dāng)與當(dāng)?shù)貧鉁刈兓嬖诿黠@關(guān)聯(lián)??照{(diào)負(fù)荷的典型用電模式有8種,如圖2所示。
(4)照明負(fù)荷的用電模式除關(guān)閉狀態(tài)外,還包含全天使用、早晚較低功耗使用和早晚正常使用3種用電模式。全天使用符合陰雨天氣條件下居民用戶(hù)的照明負(fù)荷使用模式,產(chǎn)生最高能耗。正常氣象條件下,根據(jù)居民家中人員的數(shù)量不同,存在早晚較低功耗使用和早晚正常使用兩種用電模式。照明負(fù)荷的典型用電模式有4種,如圖3所示。
圖2 空調(diào)負(fù)荷典型用電模式Fig.2 Typical power consumption mode of air conditioner
圖3 照明負(fù)荷典型用電模式Fig.3 Typical power consumption mode of lighting
采用交叉驗(yàn)證(K-fold)方法劃分測(cè)試集和訓(xùn)練集,使得每次使用的測(cè)試集互斥,保證了數(shù)據(jù)集當(dāng)中每一樣本都經(jīng)過(guò)模型驗(yàn)證。運(yùn)用Python開(kāi)源庫(kù)Sklearn當(dāng)中的train_test_split函數(shù),每次取1/10的樣本做為測(cè)試集,保證所有數(shù)據(jù)都有被訓(xùn)練和被驗(yàn)證的機(jī)會(huì),使得辨識(shí)結(jié)果更真實(shí)可信。
在簡(jiǎn)化的情況下介紹梯度提升方法的訓(xùn)練學(xué)習(xí)與對(duì)測(cè)試集負(fù)荷的分類(lèi)判別過(guò)程,僅考慮冰箱負(fù)荷與洗碗機(jī)負(fù)荷的兩種典型用電模式,保留典型用電模式的前4個(gè)主成分(記為Z1、Z2、Z3、Z4),類(lèi)型量簡(jiǎn)記為數(shù)值量采用回歸樹(shù)方法來(lái)判別。已知冰箱負(fù)荷典型用電模式A(記類(lèi)型為數(shù)值1)的主成分為(-1.05,0.146,0.149,-0.318);典型用電模式B(記類(lèi)型為數(shù)值2)的主成分為(3.51,-0.511,0.094,-0.192);洗碗機(jī)負(fù)荷典型用電模式C(記類(lèi)型為數(shù)值3)的主成分為(1.37,-0.081,0.179,-0.295);典型用電模式D(記類(lèi)型為數(shù)值4)的主成分為(-1.52,0.165,0.103,-0.319)。
為便于直觀理解計(jì)算,梯度提升樹(shù)模型訓(xùn)練學(xué)習(xí)過(guò)程中的殘差計(jì)算方式以求解實(shí)際值與預(yù)測(cè)值的差值來(lái)計(jì)算,而式(15)使用的為損失函數(shù)的負(fù)梯度。限定葉子節(jié)點(diǎn)數(shù)量為2,決策樹(shù)數(shù)量為2,梯度提升回歸樹(shù)模型學(xué)習(xí)過(guò)程如圖4所示。
圖4 梯度提升回歸樹(shù)學(xué)習(xí)過(guò)程Fig.4 Learning process of gradient boosting regression tree
由于迭代次數(shù)太少,信息數(shù)量不足,殘差沒(méi)有達(dá)到接近0的狀態(tài),分類(lèi)得到的類(lèi)型需要計(jì)算殘差影響,完成訓(xùn)練學(xué)習(xí)后,訓(xùn)練完成的一組樹(shù)模型將根據(jù)以下幾組規(guī)則進(jìn)行判斷。
規(guī)則1 如果主成分Z1大于0,且主成分Z3大于0.12,則類(lèi)型數(shù)值為2.5+(-0.5)+1,判斷為典型用電模式C。
規(guī)則2 如果主成分Z1大于0,且主成分Z3小于0.12,則類(lèi)型數(shù)值為2.5+0.5+1,判斷為典型用電模式D。
規(guī)則3 如果主成分Z1小于0,且主成分Z3大于0.12,則類(lèi)型數(shù)值為2.5+(-0.5)-1,判斷為典型用電模式A。
規(guī)則4 如果主成分Z1小于0,且主成分Z3小于0.12,則類(lèi)型數(shù)值為2.5+0.5-1,判斷為典型用電模式B。
此時(shí)存在測(cè)試集冰箱負(fù)荷主成分為(-1,0.2,0.3,-0.5),則按照規(guī)則3,可以判斷其類(lèi)型數(shù)值為1,為典型用電模式A。
采用交叉驗(yàn)證(K-fold)方法劃分測(cè)試集和訓(xùn)練集,運(yùn)用 Python開(kāi)源庫(kù) Sklearn當(dāng)中的 train_ test_split函數(shù),每次取部分樣本做為測(cè)試集,保證所有數(shù)據(jù)都有被訓(xùn)練和被驗(yàn)證的機(jī)會(huì),使得辨識(shí)結(jié)果更真實(shí)可信。利用Sklearn下的進(jìn)行GridSearchCV函數(shù)進(jìn)行超參數(shù)優(yōu)化,學(xué)習(xí)速率以0.01為步長(zhǎng)從0.01~0.20變化,最大特征數(shù)包括對(duì)數(shù)和平方,殘差計(jì)算方式包括Friedman_mse、均方誤差MSE(mean square error)、絕對(duì)均值誤差MAE(mean absolute er? ror)。優(yōu)化結(jié)果為學(xué)習(xí)速率0.08,最大特征數(shù)取平方,殘差計(jì)算方式friedman_mse。采用最優(yōu)參數(shù)的情況下,為了顯示誤差變化情況,應(yīng)用最小平方誤差損失函數(shù)的梯度提升回歸樹(shù)算法,算法在REDD訓(xùn)練與測(cè)試過(guò)程中的誤差變化情況如圖5所示。
圖5 訓(xùn)練集與測(cè)試集誤差Fig.5 Errors in training set and test set
測(cè)試集負(fù)荷的識(shí)別報(bào)告如表2所示。精確率是分解正確的數(shù)量占分解正確與誤分解為此類(lèi)型的和的比率,召回率是分解正確的數(shù)量占分解正確與誤分解為其他類(lèi)型的和的比率,F(xiàn)1值是精確率與召回率的調(diào)和平均數(shù),支持樣本數(shù)是測(cè)試集中對(duì)該類(lèi)負(fù)荷進(jìn)行判別測(cè)試的樣本(從測(cè)試集產(chǎn)生的未知的典型用電模式)數(shù)量。
表2 識(shí)別報(bào)告Tab.2 Identification report
典型用電模式的6個(gè)主成分在梯度提升樹(shù)分類(lèi)識(shí)別中的相對(duì)重要性如圖6所示。
圖6 變量相對(duì)重要性Fig.6 Relative importance graph of variables
隨機(jī)森林模型是基于決策樹(shù)的集成學(xué)習(xí)模型當(dāng)中作為對(duì)比的基線系統(tǒng),極端提升森林是利用信息熵或基尼不純性挑選最佳節(jié)點(diǎn)特征來(lái)構(gòu)建各決策樹(shù)分裂節(jié)點(diǎn)的變種隨機(jī)森林模型。本文采用這兩種集成模型進(jìn)行超參數(shù)優(yōu)化與梯度提升樹(shù)模型進(jìn)行對(duì)比,最佳參數(shù)為平方作為最大特征數(shù),信息熵作為節(jié)點(diǎn)分裂依據(jù),梯度提升樹(shù)算法比兩類(lèi)集成模型準(zhǔn)確率高20%左右。
本文依據(jù)非侵入負(fù)荷監(jiān)測(cè)公共數(shù)據(jù)集中居民負(fù)荷用電數(shù)據(jù),提出計(jì)及用電模式的居民負(fù)荷梯度提升樹(shù)分類(lèi)識(shí)別方法。首先消除能耗信息中無(wú)關(guān)成分,保留能耗信息主成分實(shí)現(xiàn)對(duì)原始樣本的降維。再通過(guò)改進(jìn)K均值聚類(lèi)獲得各類(lèi)負(fù)荷典型用電特征,用來(lái)訓(xùn)練梯度提升樹(shù)實(shí)現(xiàn)對(duì)測(cè)試集的有效辨識(shí)。經(jīng)算例驗(yàn)證,對(duì)比其他基線系統(tǒng)計(jì)及用電模式的居民負(fù)荷梯度提升樹(shù)分類(lèi)識(shí)別方法對(duì)于多種類(lèi)型的居民負(fù)荷分類(lèi)識(shí)別效果顯著,可以依據(jù)居民用能信息判別未知負(fù)荷的類(lèi)型。
算法中依據(jù)負(fù)荷日用能信息得到的典型用電模式,可以考慮結(jié)合當(dāng)?shù)氐乩須庀筇卣骱陀脩?hù)社會(huì)屬性,對(duì)工業(yè)用戶(hù)各組分負(fù)荷未來(lái)的用電模式進(jìn)行預(yù)測(cè),從而實(shí)現(xiàn)對(duì)工業(yè)用戶(hù)未來(lái)用能信息與節(jié)能優(yōu)化潛力的精準(zhǔn)預(yù)測(cè)。另外基于C++編程語(yǔ)言的梯度提升樹(shù)XGBoost軟件包可以自動(dòng)利用CPU并行化運(yùn)算,對(duì)于本文算法計(jì)算速度與精度的提高,有待于進(jìn)行進(jìn)一步的研究實(shí)驗(yàn)。
[1]Hart G W.Nonintrusive appliance load monitoring[J].Pro?ceedings of the IEEE,1992,80(12):1870-1891.
[2]Norford L K,Leeb S B.Non-intrusive electrical load moni?toring in commercial buildings based on steady-state and transient load-detection algorithms[J].Energy and Build?ings,1996,24(1):51-64.
[3]Ahmadi H,Marti J R.Load decomposition at smart meters level using eigenloads approach[J].IEEE Trans on Power Systems,2015,30(6):3425-3436.
[4]Dong Ming,Meira P C M,Xu Wilsun,et al.Non-intrusive signature extraction for major residential loads[J].IEEE Trans on Smart Grid,2013,4(3):1421-1430.
[5]Basu K,Debusschere V,Bacha S,et al.Nonintrusive load monitoring:A temporal multilabel classification approach [J].IEEE Trans on Industrial Informatics,2015,11(1):262-270.
[6]Gillis Jessie M,Morsi Walid G.Non-intrusive load moni? toring using semi-supervised machine learning and wave?let design[J].IEEE Trans on Smart Grid,2016,article in press.
[7]Huang T D,Wang Wensheng,Lian Kuolung.A new power signature for nonintrusive appliance load monitoring[J].IEEE Trans on Smart Grid,2015,6(4):1994-1995.
[8]李坦,楊洪耕,高云(Li Tan,Yang Honggeng,Gao Yun).智能電表家用負(fù)荷識(shí)別技術(shù)綜述(Overview of explora?tion on household load identification of intelligent meter?ing)[J].供用電(Distribution&Utilization),2011,28(6):39-42.
[9]莊池杰,張斌,胡軍,等(Zhuang Chijie,Zhang Bin,Hun Jun,et al).基于無(wú)監(jiān)督學(xué)習(xí)的電力用戶(hù)異常用電模式檢測(cè)(Anomaly detection for power consumption patterns based on unsupervised learning)[J].中國(guó)電機(jī)工程學(xué)報(bào)(Proceedings of the CSEE),2016,36(2):379-387.
[10]Nizar A H,Dong Z Y,Wang Y.Power utility nontechnical loss analysis with extreme learning machine method[J].IEEE Trans on Power Systems,2008,23(3):946-955.
[11]陳鴻川,劉博,欒文鵬,等(Chen Hongchuan,Liu Bo,Luan Wenpeng,et al).用于非侵入式電力負(fù)荷監(jiān)測(cè)的改進(jìn)Viterbi算法(Modified viterbi algorithm for nonintrusive load monitoring)[J].電力系統(tǒng)及其自動(dòng)化學(xué)報(bào)(Proceed?ings of the CSU-EPSA),2017,29(2):84-88.
[12]祁兵,程媛,武昕(Qi Bing,Cheng Yuan,Wu Xin).基于Fisher有監(jiān)督判別的非侵入式居民負(fù)荷辨識(shí)方法(Nonintrusive household appliance load identification method based on fisher supervised discriminant)[J].電網(wǎng)技術(shù)(Power System Technology),2016,40(8):2484-2491.
[13]Kolter J Z,Johnson M J.REDD:A public data set for en?ergy disaggregation research[C]//Workshop on Data Min?ing Applications in Sustainability(SIGKDD).San Diego,USA,2011:59-62.
[14]Filip A.Blued:A fully labeled public dataset for eventbased non-intrusive load monitoring research[C]//2nd Workshop on Data Mining Applications in Sustainability(SustKDD).2012.
[15]張靖,段富(Zhang Jing,Duan Fu).優(yōu)化初始聚類(lèi)中心的改進(jìn)k-means算法(Improvedk-means algorithm with me?liorated initial centers)[J].計(jì)算機(jī)工程與設(shè)計(jì)(Comput?er Engineering and Design),2013,34(5):1691-1694,1699.
[16]Ma Xiaolei,Ding Chuan,Luan Sen,et al.Prioritizing influ?ential factors for freeway incident clearance time predic?tion using the gradient boosting decision trees method[J].IEEE Trans on Intelligent Transportation Systems,2017,99:1-8.
Gradient Boosting Decision Tree Method for Residential Load Classification Considering Typical Power Consumption Modes
WANG Shouxiang,LIU Tianyu
(Key Laboratory of Smart Grid of Ministry of Education,Tianjin University,Tianjin 300072,China)
TM713
A
1003-8930(2017)09-0027-07
10.3969/j.issn.1003-8930.2017.09.005
2017-05-27;
2017-07-07
天津市應(yīng)用基礎(chǔ)與前沿技術(shù)研究計(jì)劃資助項(xiàng)目(14JCYBJC21100)
王守相(1973—),男,博士,教授,博士生導(dǎo)師,研究方向?yàn)榉植际桨l(fā)電、微電網(wǎng)與智能配電系統(tǒng)。Email:sxwang@tju.edu.cn
劉天宇(1991—),男,碩士研究生,研究方向?yàn)樨?fù)荷監(jiān)測(cè)識(shí)別。Email:lty5063081@163.com