邵 琪 ,包永強(qiáng) ,姜家輝 ,張旭旭
(1.南京工程學(xué)院 電力工程學(xué)院,江蘇 南京 211167;2.南京工程學(xué)院 信息與通信工程學(xué)院,江蘇 南京 211167)
非侵入式負(fù)荷監(jiān)測法(Non-Intrusive Load Monitoring,NILM)為實現(xiàn)智能電網(wǎng)和用戶之間的互動提供了數(shù)據(jù)支持,該方法在接戶線入口處安裝傳感器,采集總負(fù)荷的電壓、電流等電氣量數(shù)據(jù)進(jìn)行分析,細(xì)化系統(tǒng)數(shù)據(jù),從而辨識家用電器的類別及運(yùn)行狀態(tài)[1]。相比于侵入式負(fù)荷監(jiān)測法(Intrusive Load Monitoring,ILM),NILM 具有成本低、用戶接受度高、后期維護(hù)方便等優(yōu)勢,但是該方法對于負(fù)荷分解算法的要求較高。特征提取和負(fù)荷識別作為NILM 中兩大關(guān)鍵技術(shù)[2],為NILM 的發(fā)展提供了強(qiáng)有力的技術(shù)支持。特征選擇作為處理已提取特征的重要手段,是目前研究的熱點之一。
特征選擇是在原始高維特征中遵循某個評價準(zhǔn)則為后續(xù)任務(wù)選擇一個最佳特征子集,該理論基于少量具有代表性的特征,不僅可以加速模型的學(xué)習(xí)過程,而且可以提高模型的泛化能力。特征選擇在圖像處理、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等領(lǐng)域應(yīng)用廣泛[3],在處理包含了大量特征的高維數(shù)據(jù)時,這些特征不可避免地包含了噪聲、不相關(guān)特征以及冗余特征[4]。在這種情況下,有必要提取出信息量最豐富、最有價值的信息。KIRA K 和RENDEL L A 提出了Relief 算法,該算法簡單運(yùn)行效率高,但僅適用于二分類問題的特征選擇[5]。在此基礎(chǔ)上,KONONENKO I提出了ReliefF 算法,解決了原Relief 算法無法對多類別數(shù)據(jù)進(jìn)行特征選擇的問題,且對于不完整和帶噪數(shù)據(jù)處理效果較好,但無法刪除冗余特征[6]。YUL和LIUH使用快速相關(guān)濾波器算法(Fast Correlation-Based Filter,F(xiàn)CBF)算法來減少高維數(shù)據(jù)中的特征,歸一化信息增益利用對稱不確定性來度量特征冗余度,算法可快速消除冗余特征但對稱不確定測量精度不高且無法量化特征之間與類別的依賴關(guān)系[7]。文獻(xiàn)[8]中Peng Hanchuan 等人提出了最大相關(guān)-最小冗余(mRMR)算法,采用互信息作為衡量特征和類別以及特征與特征之間冗余度的準(zhǔn)則,但同樣未考慮特征之間與類別的相關(guān)性。QU G 等人提出了決策相關(guān)分析(Decision Dependency Correlation,DDC)算法,指出所選特征與決策變量密切相關(guān)[9]。
在現(xiàn)有研究基礎(chǔ)之上,針對特征選擇方法存在的問題展開研究,本文提出了一種基于ReliefF-DDC 特征選擇算法。首先通過計算特征權(quán)重并按降序排列,選取權(quán)重較大的特征去除無關(guān)特征;其次計算各特征與決策變量之間的交互信息,利用決策相關(guān)分析刪除冗余特征得到最終特征子集;最后將其作為孿生支持向量機(jī)(TWSVM)的輸入向量進(jìn)行識別。實驗以非侵入式用電負(fù)荷為研究對象,將本文方法與ReliefF、DCC 單項算法以及現(xiàn)有研究文獻(xiàn)[10]和文獻(xiàn)[11]所提算法進(jìn)行識別效果比對,結(jié)果表明,本文所提出的特征選擇方法可有效提高負(fù)荷識別精度。
ReliefF 算法是一種基于特征權(quán)重的高效過濾式特征選擇算法,該算法根據(jù)特征屬性對于各類樣本的區(qū)分能力來估計特征權(quán)值衡量特征重要性[12]。設(shè)待處理的訓(xùn)練集為D,樣本X={x1,x2,…,xd},xd是表示第d 維特征。在訓(xùn)練集D 中隨機(jī)選取一樣本R,在與R 同類的樣本中尋找k 個最近鄰樣本Hj(j=1,2,…,k);在與R 不同類的樣本中尋找k 個最近鄰樣本Mj。若樣本R 與最近鄰樣本H 在該特征上的距離小于樣本R 與不同類最近鄰樣本M 的距離,此時該特征在同類和不同類最近鄰樣本上區(qū)分性較好,特征權(quán)重增大;相反,則表明該特征在區(qū)分同類和不同類最近鄰樣本效果不佳,權(quán)重則降低。其實現(xiàn)如下:
式中,P(C)表示類C 在數(shù)據(jù)集中的先驗概率分布,Mj(C)表示第C 類第j 個最近鄰樣本。其中diff(d,A,B)表示樣本A 和樣本B 在第d 個特征值上的區(qū)分度,m 表示循環(huán)次數(shù)。
當(dāng)特征d 的值離散:
當(dāng)特征d 的值連續(xù):
ReliefF 算法通過計算特征與各類別之間的相關(guān)性來確定“重要特征”,排除無關(guān)特征,但其計算過程中忽略了冗余特征,模型中特征之間相似度越高,會導(dǎo)致模型訓(xùn)練時間越長,造成空間浪費,同時泛化能力降低[13],造成分類精度下降。
考慮到特征之間的相關(guān)性與冗余程度對決策變量的依賴程度[14],DDC 算法基于特征之間與決策變量之間的交互信息,通過使用一個簡單的SFS 計算方法獲得特征的排序列表,再根據(jù)特征之間與決策變量的相關(guān)性分析去除冗余特征。
隨機(jī)變量X 的熵H(X)表示該隨機(jī)變量的不確定性測度。互信息是指隨機(jī)變量X 與隨機(jī)變量Y 的共享信息量,其定義如下:
由式(4)可知,互信息還可看成是兩個隨機(jī)變量的熵的交集,使用此屬性可以描述特征的相關(guān)性和冗余性。設(shè)f 和s 分別為兩個特征,C 為類別,考慮到所選特征必須與類別有最大相關(guān)性,而與其他特征相關(guān)性需最小,因此引入了相關(guān)測度來量化特征f 和s 與類C 之間的冗余程度,表示如下:
再者,利用I(C;f)與QC(f,s)共同構(gòu)成特征子集評價準(zhǔn)則,定義如下:
式(6)評價準(zhǔn)則直觀指定一個子集S,其中與決策相關(guān)的各個特征的相互信息I(C;f)作為對該特征子集的獎勵,而特征之間的決策相關(guān)QC(f,s)作為懲罰,該評價值e(S)越大,表明決策時該所選特征子集越優(yōu)。
ReliefF 算法依據(jù)特征權(quán)重來衡量屬性“重要性”,通過計算樣本與最近鄰?fù)悩颖竞彤愵悩颖驹诟鱾€特征上的距離獲取權(quán)重值[15]。ReliefF 算法效率高、魯棒性好,而且能有效處理帶噪數(shù)據(jù),降低噪聲對于特征選擇的影響[16]。由于只考慮特征與類別之間的關(guān)系,ReliefF 算法只能有效去除無關(guān)特征,但無法刪除冗余特征。針對在不確定性度量精度不高的情況下,所選特征可能提供錯誤或者不完整信息的問題,DDC 算法通過引入新測度準(zhǔn)確量化特征之間的依賴關(guān)系或者相關(guān)性,提高了剔除冗余特征的準(zhǔn)確性,但其去除無關(guān)特征時的能力不如ReliefF 算法。
基于以上分析,本文結(jié)合了兩個特征選擇算法優(yōu)點,提出了一種基于ReliefF-DDC 特征選擇算法實現(xiàn)特征選擇分階段處理。算法具體結(jié)構(gòu)如圖1 所示。
圖1 ReliefF-DDC 特征選擇算法結(jié)構(gòu)
為了進(jìn)一步闡述本文算法,給出去無關(guān)特征層和去冗余特征層的具體步驟如下:
(1)去無關(guān)特征層:利用ReliefF 算法計算各特征權(quán)重,按降序排列后去除無關(guān)特征,得到子集F。
(2)去冗余特征層:將特征子集評估度量e(S)與指定閾值δ 的比較作為判斷條件。對于每次遍歷,選擇同時滿足兩個條件的fj將其放入最優(yōu)子集中:
①與類別的相關(guān)性大于集合F 中其他特征;
②與已選特征子集中所有特征的相關(guān)性最小。
ReliefF-DDC 特征選擇算法的輸入為原始特征數(shù)據(jù)集D,輸出為最佳特征子集Fbest。算法執(zhí)行步驟如圖2所示。
圖2 ReliefF-DDC 特征選擇算法流程圖
(1)輸入提取的原始特征數(shù)據(jù)集D,確定迭代次數(shù)m、特征權(quán)重閾值τ、最近鄰樣本個數(shù)k、評價準(zhǔn)則閾值δ;
(2)將所有特征權(quán)重置0,F(xiàn) 為空集;
(3)令i 從1 循環(huán)至m,
①在訓(xùn)練集D 中隨機(jī)選取一樣本R,在與R 同類的樣本中尋找k 個最近鄰樣本Hj(j=1,2,…,k),與R 不同類的樣本中尋找k 個最近鄰樣本Mj;
②按照式(1)和式(3)更新d 維特征的權(quán)重:
(4)輸出W(d)中大于閾值τ 時對應(yīng)的特征向量,按降序排列添加至集合F,F(xiàn)={f1,f2,…,fn},n<d;
(5)置S 為空集;
(6)當(dāng)e(S)<δ 時,
①若fi滿足以下兩條件:
(a)I(C;fj)>I(C;fi) ?i≠j,fi∈F
(b)QC(fj,s)≤QC(fi,s) ?i≠j,fi∈F,s∈S
則令F←F-{fj},S←S+{fj}
②若F≠φ,跳轉(zhuǎn)至步驟(6);
(7)得到最佳特征子集S,結(jié)束。
本文搭建了一套數(shù)據(jù)采集系統(tǒng),包括分壓模塊、隔離電路模塊以及VK701H 數(shù)據(jù)采集卡等,如圖3 所示。實驗?zāi)M家用電器的運(yùn)行環(huán)境,利用該數(shù)據(jù)采集系統(tǒng)采集了若干個典型用電設(shè)備穩(wěn)定運(yùn)行時的電流數(shù)據(jù)各60組,在MATLAB2016a 平臺上進(jìn)行實驗。
圖3 數(shù)據(jù)采集系統(tǒng)結(jié)構(gòu)圖
實驗針對性地采集了8 種家用電器的穩(wěn)態(tài)電流數(shù)據(jù)用于負(fù)荷識別,采樣頻率為10 kHz,負(fù)荷類型與具體參數(shù)如表1 所示。
表1 負(fù)荷類型與具體參數(shù)
為了證明本文所提出的方法在負(fù)荷特征選擇上的有效性,對比實驗設(shè)置ReliefF、DCC 單項算法。為了進(jìn)一步表明本文方法優(yōu)越性,另外設(shè)置現(xiàn)有研究文獻(xiàn)[10]中提出的Re-FCBF 算法和文獻(xiàn)[11]中利用MRMD 結(jié)合ReliefF 算法兩種方法作為對比,利用上述算法分別對特征數(shù)據(jù)進(jìn)行選擇。實驗過程中將采集的數(shù)據(jù)210 組作為訓(xùn)練樣本,其余150 組作為測試樣本,采用TWSVM 進(jìn)行負(fù)荷識別,通過對比分析各特征選擇方法的識別準(zhǔn)確率來判斷其算法性能。
本文對采集的各用電負(fù)荷的穩(wěn)態(tài)電流數(shù)據(jù)進(jìn)行分析,提取其相關(guān)時頻域特征,包括電流諧波總畸變率、3次諧波幅值、5 次諧波幅值、7 次諧波幅值以及其倒譜低頻部分系數(shù)特征,共105 維。
按第2 節(jié)所述算法流程,首先利用ReliefF 算法對提取的原特征數(shù)據(jù)進(jìn)行處理,設(shè)定迭代次數(shù)m=20,最近鄰樣本個數(shù)k=10,特征權(quán)重閾值τ=0.02,此時得到降序排列后38 維特征子集,如表2 所示。
表2 特征權(quán)重及對應(yīng)維數(shù)
其次利用DDC 算法去除冗余特征,置評價準(zhǔn)則閾值δ=0.9,計算得到最終24 維特征子集:
最后將經(jīng)各算法處理后得到的不同特征子集分別作為孿生支持向量機(jī)的輸入特征向量進(jìn)行負(fù)荷識別。各算法用時結(jié)果如表3 所示,所得用電負(fù)荷在不同算法下的識別率如圖4 所示。
表3 各算法運(yùn)行時間
從表3 及圖4 可以看出,對于大功率負(fù)荷,文獻(xiàn)[10]與文獻(xiàn)[11]特征降維效果與DDC 算法相差不大。整體而言,本文提出的方法相較于其他4 種算法,負(fù)荷整體識別率明顯提高,分別為10.34%、7.5%、3.93%以及4.1%,同時模型運(yùn)行時間較其他算法相對減少了8.6 s、5.8 s、4.0 s 和4.2 s,表現(xiàn)出了較好的魯棒性。
圖4 用電負(fù)荷在各算法下的識別率
本文以非侵入式負(fù)荷監(jiān)測為研究背景,針對數(shù)據(jù)特征選擇優(yōu)劣影響負(fù)荷識別準(zhǔn)確率高低的問題,提出了一種基于ReliefF-DDC 特征選擇算法。算法上層對各用電負(fù)荷進(jìn)行特征提取,利用RefiefF 算法計算所選樣本在各特征上到最近鄰?fù)悩颖竞筒煌悩颖镜木嚯x得到各特征權(quán)重,按降序排列后依照設(shè)定的權(quán)重閾值去除無關(guān)特征;算法下層利用DDC 算法通過計算互信息來分析特征之間與類別的依賴程度,將特征子集評價度量與設(shè)定閾值之間比較作為判斷準(zhǔn)則,從而刪除冗余特征;最后利用孿生支持向量機(jī)識別分類觀察識別率。實驗結(jié)果表明,本文提出的方法有效提高了負(fù)荷識別率,且縮短了運(yùn)行時間。