盧瑞瑞,于海陽(yáng),楊震,賴英旭,楊石松,周明
(北京工業(yè)大學(xué) 信息學(xué)部,北京 100124)
近年來(lái),大數(shù)據(jù)技術(shù)給人們的生活帶來(lái)了很多便利,而智能電網(wǎng)被看作是大數(shù)據(jù)技術(shù)的應(yīng)用之一,吸引了很多學(xué)者利用用戶數(shù)據(jù)挖掘數(shù)據(jù)中潛在價(jià)值方面的研究。
能源問(wèn)題是當(dāng)今社會(huì)面臨的最大挑戰(zhàn)之一。在美國(guó),建筑消耗的能源占總能耗的40%,其中73%是電力消耗[1]。研究表明,有效的能源管理可以減少建筑物的10% ~15%電力消耗[2],用戶對(duì)家用電器用電量的掌握有助于調(diào)節(jié)用電行為,實(shí)現(xiàn)能源優(yōu)化調(diào)度。而能源分解可以獲得用戶的詳細(xì)用電信息,讓用戶對(duì)自己的用電狀態(tài)更加了解,在一定程度上也可以誘導(dǎo)用戶用電行為達(dá)到節(jié)能的目的。另外,能源分解后的數(shù)據(jù)可以反映詳細(xì)的能源使用情況,給用戶提供改進(jìn)的依據(jù)。詳細(xì)的能源分解可以實(shí)現(xiàn)對(duì)家庭用戶電力消費(fèi)行為分析,實(shí)現(xiàn)配電的雙向交互、信息交換、信息處理等環(huán)節(jié)的智能控制,提高供電側(cè)的可靠性和安全性,從而實(shí)現(xiàn)用戶方和供電方的利益最大化。
由于智能電網(wǎng)是直接面向用戶的,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、類型繁多,如何深入分析用戶的用電行為,挖掘出用戶用電行為潛在價(jià)值,成為該領(lǐng)域的研究重點(diǎn)和難點(diǎn)。20世紀(jì)80年代,麻省理工學(xué)院提出了非侵入式負(fù)載監(jiān)測(cè)(NILM)[3]方法,該方法首次從智能電表端采集用戶的聚合用電信號(hào)并從中推斷出每個(gè)電器的用電信號(hào)。隨后,研究人員在這些方法的基礎(chǔ)上尋找更有效的電信號(hào)特征,如穩(wěn)態(tài)功率的諧波、電流消耗和瞬態(tài)噪聲[4-7],這些方法都稱為基于事件的方法,其依賴于通過(guò)捕獲特征來(lái)識(shí)別設(shè)備[8];另外一種方法不依賴于事件檢測(cè)分類設(shè)備,而是綜合考慮所有的樣本建立預(yù)測(cè)模型,是基于非事件的方法。2010年,Kolter等[9]使用稀疏編碼算法來(lái)學(xué)習(xí)每個(gè)設(shè)備在一周內(nèi)的功耗模型,再結(jié)合這些學(xué)習(xí)模型,僅使用其聚合信號(hào)來(lái)預(yù)測(cè)以前未知家庭中不同設(shè)備的功耗。Kim[10]和Parson[11]等 使 用 因 子 馬 爾 可夫模型(FHMM)將用戶的聚合用電信號(hào)分解成單個(gè)電器的用電信號(hào),并且隱藏設(shè)備的狀態(tài)。2012年,Kolter和Jaakkola[12]在FHMM框架的基礎(chǔ)上,提出了基于凸規(guī)劃的近似算法。隨著深度學(xué)習(xí)的發(fā)展,一些研究人員提出使用深度神經(jīng)網(wǎng)絡(luò)的方法通過(guò)分類來(lái)識(shí)別設(shè)備從而進(jìn)行能源分解[13-15]。除了這些單通道源分離工作外,研究人員還致力于利用其他信息來(lái)進(jìn)行能量分解。2016年,Batra等[16]提出了單個(gè)設(shè)備的功耗可以通過(guò)具有相似特征家庭的數(shù)據(jù)估計(jì)得出。然而,所有這些技術(shù)大部分都需要高分辨率的數(shù)據(jù),而大多數(shù)智能儀表的采樣率都達(dá)不到這個(gè)要求。另外,這些方法需要復(fù)雜且耗時(shí)的分解過(guò)程,難以在普通家庭中快速投入使用。
2005年,李培強(qiáng)等[17]基于模糊聚類原理提出了模糊C均值算法和模糊等價(jià)關(guān)系2種算法對(duì)變電站的綜合負(fù)荷進(jìn)行分類的方法。2009年,王璨和馮勤超[18]提出從當(dāng)前的市場(chǎng)價(jià)值、潛在市場(chǎng)價(jià)值和區(qū)域貢獻(xiàn)價(jià)值等角度來(lái)對(duì)用戶的用電行為進(jìn)行聚類研究。這2種聚類角度都過(guò)于宏觀,未考慮到用戶的用電負(fù)荷特征,不能實(shí)現(xiàn)用戶電力負(fù)荷的精細(xì)化管理。2010年,李欣然等[19]提出使用模糊C均值算法對(duì)用戶的日用電負(fù)荷曲線進(jìn)行分析來(lái)對(duì)用戶所屬的行業(yè)進(jìn)行分類。2018年,Zhong等[20]提出使用K-Means算法對(duì)用戶添加標(biāo)簽,實(shí)現(xiàn)用戶畫(huà)像為電力公司了解用戶的電力消耗習(xí)慣、了解用戶需求、提高服務(wù)質(zhì)量提供數(shù)據(jù)支撐。2019年,Nordahl等[21]提出使用K-Medoide方法來(lái)分析和理解家庭的用電量數(shù)據(jù),通過(guò)提取的知識(shí)為每個(gè)特定家庭創(chuàng)建正常用電行為模型用于異常行為檢測(cè)。
綜上分析,在眾多的能源分解方法中,稀疏編碼方法相對(duì)簡(jiǎn)單有效,根據(jù)相似用戶預(yù)測(cè)能耗的方法有一定的合理性但是不完全據(jù)此預(yù)測(cè),而智能電網(wǎng)用戶用電行為分析方法仍過(guò)于粗糙,需要進(jìn)一步精細(xì)化分析。如何提高能源分解的準(zhǔn)確性,并合理利用分解結(jié)果對(duì)用戶的用電行為進(jìn)行分析是一個(gè)有趣且充滿挑戰(zhàn)的問(wèn)題。
本文針對(duì)現(xiàn)有能源分解系統(tǒng)分解準(zhǔn)確率不高、難以應(yīng)用到普通用戶、用戶用電行為聚類分析特征欠缺等問(wèn)題,首先,提出基于稀疏約束的能源分解方法,在不丟失信號(hào)特征的前提下更簡(jiǎn)單地獲取信號(hào)中蘊(yùn)含的主要信息,同時(shí)也方便對(duì)信號(hào)做進(jìn)一步的加工處理。其次,提出基于同質(zhì)性約束的能源分解方法,在能源分解的過(guò)程中把用戶之間同質(zhì)性考慮進(jìn)去,來(lái)提高分解系統(tǒng)的準(zhǔn)確性。最后,通過(guò)對(duì)基于用電模式的用戶行為聚類分析,完成智能電網(wǎng)用戶的分類,并分析每類用戶的用電特點(diǎn)。
本文的整體結(jié)構(gòu)可以表述為如圖1所示的四元結(jié)構(gòu)圖,普通用戶家庭、智能電網(wǎng)、數(shù)據(jù)分解系統(tǒng)和聚類分析系統(tǒng)是整個(gè)結(jié)構(gòu)的4個(gè)組成部分。普通用戶家庭從智能電網(wǎng)獲取電能,從數(shù)據(jù)分解系統(tǒng)獲取一段時(shí)間內(nèi)的用電反饋。智能電網(wǎng)給用戶提供電能,并采集用戶的用電數(shù)據(jù)反饋給數(shù)據(jù)分解系統(tǒng)和聚類分析系統(tǒng)。數(shù)據(jù)分解系統(tǒng)將總用電數(shù)據(jù)分解成單類用電器的用電數(shù)據(jù)反饋給用戶,或者提供給聚類分析系統(tǒng)分析用戶的用電行為。聚類分析系統(tǒng)通過(guò)數(shù)據(jù)分解系統(tǒng)提供用戶的詳細(xì)用電數(shù)據(jù)對(duì)用戶用電行為進(jìn)行聚類分析應(yīng)用于網(wǎng)絡(luò)規(guī)劃、需求響應(yīng)和信息推薦等。
圖1 系統(tǒng)四元結(jié)構(gòu)Fig.1 System quaternion structure
系統(tǒng)首先從智能電網(wǎng)采集數(shù)據(jù)集,對(duì)數(shù)據(jù)集進(jìn)行篩選和預(yù)處理,選擇用電數(shù)據(jù)多的用戶,統(tǒng)一數(shù)據(jù)格式,把數(shù)據(jù)處理成結(jié)構(gòu)化的矩陣數(shù)據(jù)為使用做準(zhǔn)備;其次能源分解模塊把用戶單類電器用電數(shù)據(jù)作為訓(xùn)練集訓(xùn)練模型,用戶總的用電數(shù)據(jù)作為測(cè)試集,把用戶總的用電數(shù)據(jù)分解成單類用電器的用電數(shù)據(jù)輸出;然后評(píng)測(cè)能源分解模塊的性能,能源分解模塊分解出來(lái)的單類用電器的用電數(shù)據(jù)也可以提供給其他第三方應(yīng)用;最后使用能源分解前的總用電數(shù)據(jù)和能源分解后的單類電器用電數(shù)據(jù)對(duì)用戶進(jìn)行聚類,并對(duì)比分析其聚類結(jié)果。
1.2.1 數(shù)據(jù)預(yù)處理模塊
本文采用Pecanstreet數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集中包含69個(gè)電器,每個(gè)用戶的單類用電器是每小時(shí)采集一次用電量,如果采集500個(gè)家庭一個(gè)月的用電量可達(dá)到2億多條數(shù)據(jù)。數(shù)據(jù)規(guī)模龐大,用戶用電器類別不一致,并且包含很多無(wú)效的數(shù)據(jù)。因此,本文對(duì)原始數(shù)據(jù)集進(jìn)行預(yù)處理。首先,篩選可用的數(shù)據(jù),選擇部分用電器和用戶的用電數(shù)據(jù)進(jìn)行研究;其次,處理缺失數(shù)據(jù),對(duì)鄰近時(shí)間段的數(shù)據(jù)求均值進(jìn)行插入來(lái)完善數(shù)據(jù)集;再次,處理異常數(shù)據(jù),把長(zhǎng)時(shí)超出電器負(fù)荷的值作為異常數(shù)據(jù),用鄰近時(shí)間段的數(shù)據(jù)來(lái)替代;最后,把數(shù)據(jù)轉(zhuǎn)換成本文需要的數(shù)據(jù)格式為實(shí)驗(yàn)做準(zhǔn)備。其中,數(shù)據(jù)篩選部分選取數(shù)據(jù)的準(zhǔn)則為:對(duì)于電器類別,選擇大部分家庭中都有的用電器作為主要研究對(duì)象,不常見(jiàn)或者只存在部分家庭中的用電器的用電數(shù)據(jù)對(duì)其求和作為雜類;對(duì)于用戶,選擇用電數(shù)據(jù)較多的用戶,丟棄連續(xù)多天不用電或用電異常的用戶。最終得到5類電器(空調(diào)、電爐、洗衣機(jī)、冰箱和其他電器)的總和,264個(gè)用戶2周內(nèi)的用電數(shù)據(jù)用于本文的實(shí)驗(yàn)。
1.2.2 能源分解模塊
本文的能源分解模塊把用戶的總用電數(shù)據(jù)分解成單類用電器的用電數(shù)據(jù)。非負(fù)矩陣分解(nonnegative matrix factorization,NMF)是處理盲源分離問(wèn)題的一種有效方法,其可以通過(guò)一些線性組合來(lái)近似混合信號(hào)。2010年,Kolter等[9]提出判別式稀疏編碼的能源分解方法,認(rèn)為用電數(shù)據(jù)存在稀疏性,在用非負(fù)矩陣進(jìn)行能源分解時(shí),優(yōu)化目標(biāo)中加入了L1正則化項(xiàng)來(lái)進(jìn)行稀疏約束。本文基于稀疏非負(fù)矩陣分解這個(gè)研究方向來(lái)改進(jìn)原有的算法,提升能源分解的準(zhǔn)確率。首先,收集數(shù)據(jù)并對(duì)數(shù)據(jù)預(yù)處理,把數(shù)據(jù)稀疏表示,生成稀疏約束正則項(xiàng)L1;其次,計(jì)算不同家庭特征和用電量之間的相關(guān)性進(jìn)行相關(guān)性分析,建立同質(zhì)性正則項(xiàng)L2;然后,基于非負(fù)矩陣分解算法、同質(zhì)性約束和稀疏約束建立模型;最后,繼續(xù)優(yōu)化模型并進(jìn)行模型求解。
1.2.3 聚類分析模塊
本文的聚類分析模塊利用能源分解模塊得到的分解結(jié)果對(duì)用戶的用電行為進(jìn)行聚類分析。首先,總結(jié)了傳統(tǒng)的智能電網(wǎng)用戶聚類方法,然后,選擇基于K-Means聚類算法的智能電網(wǎng)用戶聚類方法對(duì)其改進(jìn)應(yīng)用于本文提出的方法。
2.1.1 基于非負(fù)矩陣分解的能源分解模型
NMF是由Lee和Seung[22]于1999年在Nature上提出的一種矩陣分解方法[23],該方法分解后的所有分量都是非負(fù)的,并且可以實(shí)現(xiàn)降維的目的。具體地,NMF方法主要解決如下問(wèn)題:給定非負(fù)矩陣X,找到非負(fù)矩陣B和A使得X≈BA,目標(biāo)函數(shù)可以建模為
式中:X為待分解矩陣;B為特征矩陣,每一列是一個(gè)基向量即特征,矩陣A是代表特征重要程度的權(quán)重矩陣,即A的行表示每個(gè)基向量的貢獻(xiàn)大小。優(yōu)化式(1),找到最優(yōu)的B和A使得式(1)最小。式(1)在求解時(shí),如果只考慮B或者A一個(gè)變量時(shí)是凸函數(shù),但是同時(shí)考慮2個(gè)變量時(shí)就是非凸問(wèn)題,對(duì)于非凸函數(shù)想要找到全局最優(yōu)解是不切實(shí)際的。Lee和Seung[22]提出使用乘性迭代法進(jìn)行求解,對(duì)2個(gè)變量交替迭代尋找最優(yōu),迭代如下:
對(duì)于NMF方法進(jìn)行優(yōu)化求解時(shí),是一個(gè)非凸優(yōu)化問(wèn)題,最終得到的是一個(gè)局部最優(yōu)解,也就是說(shuō)基本NMF方法的最優(yōu)解不唯一。因此,在實(shí)際應(yīng)用中,研究者通常會(huì)加入一些數(shù)據(jù)的先驗(yàn)知識(shí),縮小解的范圍并且使求解結(jié)果更加合理。而這些先驗(yàn)知識(shí)則是通過(guò)給NMF添加正則項(xiàng)約束的方法加入,添加正則化后的NMF方法模型如式(4)所示:
式中:函數(shù)Ω1和函數(shù)Ω2表示正則化項(xiàng),對(duì)矩陣B和矩陣A進(jìn)行約束;α和β為正則項(xiàng)系數(shù),來(lái)控制該正則項(xiàng)約束的強(qiáng)弱。正則化的NMF方法因其加入了先驗(yàn)知識(shí),使矩陣分解的結(jié)果具有了一定的實(shí)際意義,更具有可解釋性,因此越來(lái)越受到關(guān)注。本文提出的能源分解方法即建立在正則化的NMF方法基礎(chǔ)之上。
式中:L為損失函數(shù)用來(lái)描述真實(shí)值與預(yù)測(cè)值之間的誤差;Ω為正則項(xiàng)。正則項(xiàng)可以把先驗(yàn)知識(shí)加入到模型的學(xué)習(xí)中去,讓學(xué)習(xí)到的模型具有指定的特性,讓經(jīng)驗(yàn)風(fēng)險(xiǎn)和模型復(fù)雜度同時(shí)最小。正則化還可以縮小解的范圍,加快模型的求解速度,常見(jiàn)的正則項(xiàng)有L2范數(shù)、L1范數(shù)、L0范數(shù)等。其中L2范數(shù)可以防止模型過(guò)擬合,L1范數(shù)和L0范數(shù)正則項(xiàng)對(duì)參數(shù)懲罰可使參數(shù)稀疏。
L0范數(shù)、L1范數(shù)和L2范數(shù)的定義如下:
范數(shù)表示的是某個(gè)向量空間或者矩陣中每個(gè)向量的長(zhǎng)度或者大小。因此,范數(shù)正則項(xiàng)可以理解為對(duì)模型參數(shù)解空間添加限制,L2范數(shù)把參數(shù)的解限制在一個(gè)圓形的球體內(nèi),L1范數(shù)把參數(shù)的解限制在錐形體內(nèi),L0范數(shù)則把參數(shù)的解限制在坐標(biāo)軸上。L2范數(shù)正則項(xiàng)使模型的解取圓內(nèi)的參數(shù),縮小解的范圍以防止模型過(guò)擬合,提升模型的泛化能力。而L1范數(shù)與L2范數(shù)不同之處在于L1范數(shù)把解約束在錐形體內(nèi),等直線最先和解空間相交的地方總是在錐角即坐標(biāo)軸上,而坐標(biāo)軸上的點(diǎn)其他維坐標(biāo)是零。因此,L1范數(shù)正則項(xiàng)使解中出現(xiàn)零更多,從而達(dá)到稀疏約束的目的。
近年來(lái),對(duì)L1正則化性能的研究已經(jīng)取得了很大的突破,然而,在實(shí)際應(yīng)用中L1正則化產(chǎn)生的性能往往小于L0正則化,但是對(duì)L0正則化的求解又是一個(gè)NP難問(wèn)題。本文通過(guò)對(duì)范數(shù)正則項(xiàng)的分析提出L1/2范數(shù)正則項(xiàng)來(lái)解決L1范數(shù)稀疏約束效果不好,L0范數(shù)不易求解的問(wèn)題?;贚1/2范數(shù)稀疏約束的非負(fù)矩陣分解能源分解目標(biāo)函數(shù)定義為
式中:Xi為第i類用電器的用電數(shù)據(jù)矩陣,i=1,2,3,4,5分別為空調(diào)、洗衣機(jī)、電爐、冰箱和其他電器的總和;Bi為特征矩陣;Ai為特征重要程度的權(quán)重矩陣;β、γ為L(zhǎng)1/2范數(shù)正則項(xiàng)的系數(shù),用來(lái)控制正則項(xiàng)的強(qiáng)弱。對(duì)于L1/2正則項(xiàng)定義如下:
式(10)和式(11)可以通過(guò)如下所示的乘性迭代來(lái)求解:
式中:符號(hào)“.*”和“./”表示矩陣的點(diǎn)乘和點(diǎn)除。如果矩陣A或者矩陣B中的元素為0,可以在0元素上加上一個(gè)很小的數(shù)進(jìn)行平滑,避免分母為0。
2.1.3 用戶用電模式同質(zhì)性建模
在社交領(lǐng)域中,同質(zhì)性表示不同用戶之間的相似性[25]。本文利用家庭用電模式之間的相似性進(jìn)行建模。
1)用戶用電模式的相似性
利用相似的家庭相似耗能預(yù)測(cè),可能得到錯(cuò)誤的結(jié)論。因此,本文只考慮把相似性作為基礎(chǔ)模型分解能源時(shí)的一個(gè)影響因素,來(lái)提高能源分解的準(zhǔn)確率。
受此啟發(fā),本文通過(guò)對(duì)不同的數(shù)據(jù)集進(jìn)行研究分析發(fā)現(xiàn),總用電量和單類用電器能耗之間也存在著相似性。用電量較高且用電量比較相似的用戶在對(duì)空調(diào)等大功率電器使用上具有一定程度的相似性。用電量較低且用電量比較相似的用戶在對(duì)照明設(shè)備等小功率電器的使用上有著一定的相似性。同樣,家庭住宅面積相似的用戶在空調(diào)設(shè)備的用電上存在著相似性。
2)同質(zhì)性模型
總用電量相似的家庭在空調(diào)等大功率電器的用電量更相似,家庭住宅面積相似的家庭在空調(diào)、照明設(shè)備等用電器的用電量更相似。本文利用這一先驗(yàn)知識(shí),構(gòu)建同質(zhì)性系數(shù),通過(guò)添加與同質(zhì)性系數(shù)有關(guān)的正則項(xiàng),來(lái)提高模型的分解性能。
首先,本文定義用戶i和用戶j之間的同質(zhì)性系數(shù)為ε(i,j)并且滿足:
①ε(i,j)∈[0,1]。
②ε(i,j)=ε(j,i)。
③同質(zhì)性系數(shù)的值越大,用戶之間的相似度就越大,即用戶在某一用電器使用量上越相似。
用戶在某一用電器用電量的相似性在本文提出的能源分解模型中,可以表示為非負(fù)矩陣分解后權(quán)重矩陣的相似,因?yàn)樵谔卣骶仃嚧_定后權(quán)重矩陣決定用戶的用電量。因此,在提到用戶的用電量相似和權(quán)重矩陣相似時(shí)表達(dá)的意思相同。
對(duì)于整個(gè)模型可以添加正則項(xiàng)式(14)來(lái)約束權(quán)重矩陣,從而提高模型的性能。
式中:W(:,i)和W(:,j)分別為矩陣W 的第i列和第j列,表示用戶i和用戶j對(duì)于某類特定設(shè)備的權(quán)重向量。對(duì)于2個(gè)不同的用戶,某個(gè)電器的用電量越相似,在潛在空間中wi和wj的距離也會(huì)越近,同時(shí)調(diào)節(jié)它們之間的相似度的同質(zhì)性系數(shù)的值也會(huì)越大。
對(duì)某一用戶wi,其在潛在空間中的同質(zhì)性正則項(xiàng)可以表示為
式中:同質(zhì)性系數(shù)ε(i,j)控制著用戶wi和其他用戶之間的關(guān)系。對(duì)式(15)進(jìn)行推導(dǎo),可以得到正則項(xiàng)Tr(WLWT),推導(dǎo)過(guò)程如下:
同質(zhì)性系數(shù)ε(i,j)表示相似度,常用的計(jì)算相似度的方法有歐氏距離、曼哈度距離、閔可夫斯基距離、余弦距離等。本文使用余弦距離相似度公式來(lái)表示用戶i和用戶j之間的同質(zhì)性系數(shù),對(duì)于第k類用電器,用戶i和用戶j之間相似性ε(i,j)定義如下:
式中:Ui為用戶i對(duì)第k類用電器的用電量向量。
2.1.4 基于用戶用電模式相似性建模
由于同質(zhì)性不能完全代表一個(gè)相似家庭的用電數(shù)據(jù),本文只考慮把這一性質(zhì)作為約束項(xiàng)加入基于非負(fù)矩陣分解的能源分解模型來(lái)改進(jìn)基礎(chǔ)模型,提高模型的性能。從數(shù)據(jù)出發(fā),本文只考慮加入總用電量同質(zhì)性和面積同質(zhì)性??傆秒娏肯嗨频募彝ピ趩晤愑秒娖魃洗嬖谥嗨菩裕娣e相似的家庭在空調(diào)的用電量上更相似。首先,計(jì)算總用電量同質(zhì)性系數(shù)矩陣,對(duì)每類電器單獨(dú)計(jì)算一個(gè)用戶同質(zhì)性系數(shù)矩陣。對(duì)于智能電網(wǎng)用戶間的同質(zhì)性系數(shù)通過(guò)用戶的用電數(shù)據(jù)計(jì)算,訓(xùn)練數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù)采用不同的計(jì)算方法。對(duì)于訓(xùn)練數(shù)據(jù)集,因?yàn)橛脩舻膯晤愑秒姅?shù)據(jù)是已知的,很容易通過(guò)余弦相似度公式得到同質(zhì)性系數(shù)矩陣。而對(duì)于測(cè)試數(shù)據(jù)集,單類電器的用電量是未知的,此時(shí)采用近似計(jì)算方法來(lái)計(jì)算待預(yù)測(cè)家庭中每類電器的同質(zhì)性系數(shù),在訓(xùn)練數(shù)據(jù)集中找到總用電量最接近的3個(gè)用戶,取這3個(gè)用戶對(duì)應(yīng)電器同質(zhì)性系數(shù)的均值來(lái)計(jì)算。然后,計(jì)算面積同質(zhì)性系數(shù)矩陣。對(duì)于面積同質(zhì)性系數(shù),采用相同的計(jì)算方法。最后,針對(duì)不同類型的電器,本文通過(guò)一個(gè)系數(shù)矩陣來(lái)控制同質(zhì)性正則項(xiàng)的強(qiáng)弱。最終生成基于同質(zhì)性約束的非負(fù)矩陣分解能源分解模型如下:
2.1.5 能源分解方法建模
在本節(jié)中,將提出本文最終的能源分解方法,再進(jìn)一步優(yōu)化,并給出求解過(guò)程。
1)基于L1/2范數(shù)稀疏約束和同質(zhì)性約束的能源分解方法,建立的能源分解訓(xùn)練模型如下:
對(duì)于訓(xùn)練數(shù)據(jù)集,使用目標(biāo)函數(shù)式(19)求解得到每類電器最優(yōu)的特征矩陣Bi。對(duì)于測(cè)試集,用式(20)為每類電器找到最優(yōu)的權(quán)重矩陣Ai,最終用式(21)預(yù)測(cè)每類電器的用電量。
2)模型優(yōu)化與求解。如果訓(xùn)練過(guò)程和分解的過(guò)程能夠同步進(jìn)行,那么在求解過(guò)程中這2個(gè)結(jié)果會(huì)相互影響,對(duì)預(yù)測(cè)結(jié)果會(huì)有正向促進(jìn)作用。因此,本文繼續(xù)改進(jìn)模型得到最終能源分解模型如下:
在上述內(nèi)容中,已經(jīng)得到了本文提出的最終的能源分解模型,如式(22)所示,但是該公式無(wú)法直接給出W、B、A的解,本文將采用乘性迭代法交替更新W、B、A來(lái)找到其最優(yōu)解,具體過(guò)程本文不再贅述,迭代規(guī)則如下:
2.2.1 基于改進(jìn)K-Means聚類算法的用戶聚類模型
選擇K-Means聚類算法來(lái)輔助驗(yàn)證本文提出的觀點(diǎn)。首先,介紹傳統(tǒng)的基于用電行為的KMeans聚類算法。
假設(shè)數(shù)據(jù)集I={x1,x2,…,xn}∈RT,xn是T維的向量,表示用戶n在T段時(shí)間內(nèi)的總用電量,具體算法描述如下:
步驟1 隨機(jī)初始化k個(gè)聚類中心u1,u2,…,uk∈RT。
步驟2 針對(duì)每個(gè)樣本點(diǎn),計(jì)算其與每一個(gè)類中心的距離,離哪個(gè)類中心近就劃分到哪個(gè)類中,這樣完成一次聚類。
步驟3 用類均值更新聚類中心。
步驟4 判斷新計(jì)算出的類中心和原來(lái)的類中心之間的距離是否小于設(shè)定的閾值(表示重新計(jì)算的類中心位置變化不大,趨于穩(wěn)定),如果小于閾值,算法終止,否則返回步驟2。K-Means聚類算法中通常選擇歐氏距離來(lái)計(jì)算點(diǎn)到類中心的距離,對(duì)于樣本點(diǎn)到類中心的距離計(jì)算如下:
式中:xit為用戶i在t時(shí)刻的用電量;ujt為聚類中心j在t時(shí)刻的數(shù)據(jù)。
為了避免總用電特征對(duì)用戶聚類結(jié)果不夠準(zhǔn)確及不能反映用戶的詳細(xì)用電行為的問(wèn)題。本文提出用能源分解后的單類用電器的用電特征來(lái)代替總用電特征,計(jì)算用戶間的距離提升聚類效果,改進(jìn)傳統(tǒng)的K-Means聚類算法。
具體地,對(duì)于一個(gè)用戶i,傳統(tǒng)的方法是用一個(gè)向量來(lái)表示,該向量中的值是用戶的總用電特征,現(xiàn)在我們用一個(gè)矩陣來(lái)表示用戶i,矩陣中每一列是一個(gè)單獨(dú)用電器的用電向量,K列就有K個(gè)用電器。在計(jì)算距離之前用Z-Score消除不同類電器量級(jí)不同帶來(lái)的影響,改進(jìn)后的算法的距離計(jì)算為
式中:Xi為用戶i的特征矩陣;Uj為聚類中心j的特征矩陣;Xikt為用戶i用電器k在t時(shí)刻的用電量;Ujkt為聚類中心j對(duì)于用電器K在t時(shí)刻的類中心數(shù)據(jù)。
2.2.2 初始聚類中心和K值的選擇
K-Means聚類算法的第一步也是最重要的一步,即選擇聚類數(shù)目K值和選擇初始聚類中心。K值決定聚類結(jié)果的數(shù)目,K值不同聚類結(jié)果也不同,聚類結(jié)果對(duì)K值的依賴性在一定程度上影響著聚類分析。而聚類中心的選擇影響聚類結(jié)果的穩(wěn)定性,并且容易使算法陷入局部最優(yōu)解。基本的初始聚類中心的選擇是隨機(jī)的,會(huì)使目標(biāo)結(jié)果偏離最優(yōu)結(jié)果,從而陷入局部最優(yōu)解。因此,合適的K值和初始聚類中心對(duì)于智能電網(wǎng)用戶的聚類結(jié)果至關(guān)重要。
本文采用最大距離法選擇初始類中心。選取的初始類中心對(duì)象之間的距離應(yīng)該盡可能離得遠(yuǎn)。首先,隨機(jī)選取一個(gè)樣本作為第一個(gè)類中心,然后,選擇與第一個(gè)類中心最遠(yuǎn)的樣本作為第二個(gè)類中心,接著用同樣的方法選擇其他的類中心。
本文選擇聚類有效性指標(biāo)來(lái)計(jì)算合適的聚類數(shù)目。常用的評(píng)測(cè)指標(biāo)有手肘法、輪廓系數(shù)(silhouette coefficient,SC)、戴維斯-布爾丁指數(shù)(Davies-Bouldin index,DBI)、卡林斯基-哈拉巴斯指數(shù)(Calinski-Harabaz index,CHI,也被稱為方差比標(biāo)準(zhǔn))及權(quán)變矩陣。本文選擇手肘法、DBI這2種內(nèi)部有效性指標(biāo)來(lái)選擇最優(yōu)的K值。這2種指標(biāo)的計(jì)算方式如下:
1)手肘法。手肘法的核心指標(biāo)是誤差平方和(sum of the squared errors,SSE)計(jì)算如下:
式中:Ci為第i個(gè)簇;mi為Ci的簇質(zhì)心;p為Ci中的樣本點(diǎn);SSE為所有樣本的聚類誤差,代表著聚類效果的好壞。
手肘法的核心思想是:隨著聚類數(shù)目K值的增多,每個(gè)簇的聚合程度也會(huì)逐漸增加,而SSE則會(huì)逐漸減?。徊⑶耶?dāng)K值在小于最優(yōu)聚類數(shù)目范圍內(nèi)增加時(shí),SSE的下降幅度會(huì)比較大,當(dāng)K值增加到最優(yōu)聚類數(shù)目時(shí),SSE的下降幅度則會(huì)驟減,然后隨著K值的繼續(xù)增大SSE會(huì)慢慢趨于平緩。SSE和K值的變化關(guān)系類似于手肘的形狀,并且在肘部取得最優(yōu)的K值,因此稱為手肘法。
2)DBI。DBI有效性指標(biāo)定義如下:
3.1.1 不同方法對(duì)比實(shí)驗(yàn)結(jié)果分析
對(duì)基本的非負(fù)矩陣分解的能源分解方法(NMF)、L1范數(shù)約束的稀疏編碼方法(NMF+L1)、基于L1/2正則項(xiàng)約束的能源分解方法(NMF+L1/2)、本文方法4種方法做實(shí)驗(yàn)。使用同一數(shù)據(jù)集,在參數(shù)最優(yōu)的情況下經(jīng)過(guò)多次重復(fù)實(shí)驗(yàn),性能取均值的結(jié)果如表1和圖2所示。
圖2 真實(shí)結(jié)果和分解結(jié)果對(duì)比Fig.2 Comparison of real results and decomposition results
從表1中可以看出,在基本的非負(fù)矩陣分解模型上加入約束項(xiàng)之后,算法的性能都有很大的提升,并且模型的訓(xùn)練時(shí)間沒(méi)有太大的波動(dòng)。加入L1范數(shù)稀疏約束的模型相比于L1/2范數(shù)的稀疏約束的模型在訓(xùn)練集上效果要好,但是在測(cè)試集上沒(méi)有L1/2范數(shù)的稀疏約束效果好,總體上L1/2范數(shù)的稀疏約束效果更好。本文所提出的方法,在NMF的基礎(chǔ)上加入L1/2范數(shù)稀疏約束項(xiàng)、同質(zhì)性約束項(xiàng)和一致性約束項(xiàng),模型的性能在訓(xùn)練集和測(cè)試集上都取得了相對(duì)較好的結(jié)果。
表1 實(shí)驗(yàn)結(jié)果Table 1 Experimental results
如圖2所示,對(duì)于能源分解后空調(diào)的用電量3種對(duì)比方法都能很好的擬合,但是洗衣機(jī)、電爐、冰箱這3類電器本文提出的方法擬合效果更好。
3.1.2 同質(zhì)性對(duì)實(shí)驗(yàn)結(jié)果的影響
1)總用電量同質(zhì)性
總用電量同質(zhì)性對(duì)實(shí)驗(yàn)結(jié)果的影響如圖3所示,其中x軸為小功率電器參數(shù)El,y軸為大功率電器參數(shù)Eh,z軸表示分解準(zhǔn)確率(Acc)。分解準(zhǔn)確率隨著參數(shù)Eh和El的變化呈現(xiàn)明顯的規(guī)律性。參數(shù)Eh變化時(shí)對(duì)分解準(zhǔn)確率影響較大,當(dāng)參數(shù)的取值大于0.01分解性能急劇下降,當(dāng)參數(shù)小于0.01時(shí)分解準(zhǔn)確率相對(duì)穩(wěn)定且較高,在0.001附近取得最優(yōu)值。而分解準(zhǔn)確率在參數(shù)El的影響下并沒(méi)有呈現(xiàn)這種規(guī)律,參數(shù)El對(duì)分解準(zhǔn)確率影響相對(duì)較小,隨著El的增大模型的性能先增大后減小,在0.1附近取得最優(yōu)值。
圖3 不同參數(shù)對(duì)比Fig.3 Contrast diagram of different parameters
2)面積同質(zhì)性
面積同質(zhì)性對(duì)實(shí)驗(yàn)結(jié)果的影響如表2所示??梢钥闯?,空調(diào)的同質(zhì)性參數(shù)Ef取不同值時(shí),模型的分解性能呈規(guī)律性變化,參數(shù)小于0.1時(shí)模型的性能相對(duì)較好,在0.001附近取得最優(yōu)。
表2 參數(shù)E f對(duì)比結(jié)果Table 2 Par ameter E f contrast results
為了清晰地顯示面積對(duì)空調(diào)分解性能的影響,隨機(jī)選取一個(gè)用戶分別畫(huà)出空調(diào)2周內(nèi)和1天內(nèi)真實(shí)電量和預(yù)測(cè)電量之間的變化趨勢(shì),如圖4所示,2條線變化趨勢(shì)相同并且基本重合,預(yù)測(cè)值接近真實(shí)值。
圖4 2周內(nèi)和1天內(nèi)真實(shí)電量和預(yù)測(cè)電量分布Fig.4 Predicted distribution of real power consumption in two week and predicted distribution of real power consumption in one day
3.2.1 最優(yōu)聚類數(shù)目K的選擇實(shí)驗(yàn)
1)傳統(tǒng)的K-Means聚類算法K值確定
基于傳統(tǒng)的K-Means聚類算法使用的是用戶總用電特征進(jìn)行聚類分析,即進(jìn)行能源分解之前智能電表直接采集到的總用電特征數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),采用歐氏距離計(jì)算用戶之間的距離。聚類數(shù)目K?。?,10],DBI和SSE這2種有效性指標(biāo)在不同聚類數(shù)目K下的結(jié)果分別如圖5和圖6所示,圖中橫軸表示聚類數(shù)目K,縱軸表示有效性指標(biāo)。
從圖5中可以,看出當(dāng)K=4時(shí)到達(dá)SSE的變化曲線的肘部,因此在SSE有效性指標(biāo)下最佳聚類數(shù)目為4。從圖6中可以看出,DBI最小值為3,這表示在DBI指標(biāo)下最佳聚類數(shù)目為3。但是,值得注意的是當(dāng)K取4時(shí)DBI的值還非常大,而K=3或K=4時(shí)SSE差別并不大,因此本文選擇K=3為傳統(tǒng)的K-Means聚類算法的最佳聚類數(shù)目。
圖5 傳統(tǒng)的K-Means聚類算法有效性指標(biāo)SSE評(píng)測(cè)結(jié)果Fig.5 Traditional K-Means clustering algorithn evaluation results of effectiveness index of traditional clustering SSE
圖6 傳統(tǒng)的K-Means聚類算法有效性指標(biāo)DBI評(píng)測(cè)結(jié)果Fig.6 Traditional K-Means clustering alorithm evaluation results of effectiveness index of traditional clustering DBI
2)改進(jìn)的K-Means聚類算法K值確定
本文提出的聚類算法使用的是用戶單類用電器的用電特征進(jìn)行聚類分析的,即能源分解之后得到的數(shù)據(jù),同樣采用歐氏距離計(jì)算用戶之間的距離,使用SSE和DBI這2種有效性指標(biāo)選擇最優(yōu)的聚類數(shù)目K。隨著K值的變化,SSE和DBI的變化曲線如圖7和圖8所示,圖中橫軸表示聚類數(shù)目K,縱軸表示有效性指標(biāo)。
從圖7中可以看出,當(dāng)K=4時(shí)SSE曲線到達(dá)肘部,在SSE有效性指標(biāo)下最佳聚類數(shù)目K為4。
圖7 改進(jìn)的K-Means聚類算法有效性指標(biāo)SSE評(píng)測(cè)結(jié)果Fig.7 Improved K-Means clustering algorithm evaluation result of effectiveness index of improved clustering SSE
從圖8中可以看出,DBI在K=2時(shí)取得最小值,即最佳聚類數(shù)目K為2,但是在K=2時(shí)SSE還非常大,這不具有合理性。因此,本文退而求其次選擇第二小DBI值處的聚類數(shù)目K,即K=4。綜合分析,改進(jìn)的K-Means聚類算法最佳聚類數(shù)目K應(yīng)為4。
圖8 改進(jìn)的K-Means聚類算法有效性指標(biāo)DBI評(píng)測(cè)結(jié)果Fig.8 Improved K-Means clustering algorithm evaluation result of effectiveness index of improved clustering DBI
3.2.2 不同方法對(duì)比實(shí)驗(yàn)
1)傳統(tǒng)K-Means聚類算法實(shí)驗(yàn)分析
當(dāng)K=3時(shí),傳統(tǒng)的K-Means聚類算法的聚類結(jié)果如圖9所示,紅綠藍(lán)3條線分別代表3個(gè)類的類中心。圖中:cluster0_139表示類0,clusterl_91表示類1,cluster2_34表示類2。從圖中可以看出,藍(lán)線代表的類中心變化幅度比較小,幾乎趨于平穩(wěn),紅線和綠線變化趨勢(shì)相同,都是在5:00之后用電量慢慢上升,19:00用電量開(kāi)始下降,但是變化幅度不同,綠線代表的用戶變化幅度比較大,用電量比較多。對(duì)總用電數(shù)據(jù)聚類能反映用戶的總體用電趨勢(shì),而每個(gè)分電器的用電特點(diǎn)無(wú)從得知,用電峰值也不突出,這在一定程度上會(huì)影響聚類結(jié)果的準(zhǔn)確性。
圖9 總用電量用戶聚類結(jié)果Fig.9 Clustering results for users with total electricity consumption
2)改進(jìn)的K-Means聚類算法實(shí)驗(yàn)分析
當(dāng)K=4時(shí),對(duì)用戶的單獨(dú)電器進(jìn)行聚類算法的聚類結(jié)果如圖10所示,圖中每一行表示一類用戶,從上到下依次為第1類、第2類、第3類、第4類用戶。圖10(a)~(d)分別代表4種用電器(空調(diào)、洗衣機(jī)、電爐、冰箱)的日用電特點(diǎn)。從圖中可以看出,空調(diào)和電爐的用電趨勢(shì)比較相似;洗衣機(jī)的日用電量,每個(gè)家庭使用時(shí)段不同,呈現(xiàn)出不同的特點(diǎn);冰箱的日用電量,也可以通過(guò)電量分析,大致了解到每類用戶冰箱的使用情況。實(shí)驗(yàn)中的4類用戶中,后面3類用電都很平穩(wěn),第1類變化波動(dòng)比較大并且相對(duì)用電量比較高,可能第1類用戶更注重家庭飲食品質(zhì),冰箱存放食物更多。第1類和第4類用戶洗衣機(jī)日用電量波動(dòng)比較大,在上午和下午出現(xiàn)2次波峰,第2、3類用戶無(wú)明顯波動(dòng),這一天可能沒(méi)有使用洗衣機(jī)。從圖中也可以看出,第3類用戶的4種用電器電量基本上沒(méi)有浮動(dòng),都處于關(guān)閉狀態(tài),可以認(rèn)為這類用戶在這一天沒(méi)有使用電器。
圖10 單類用電器用戶聚類結(jié)果Fig.10 Clustering result for users with single-type electrical appliances
3)對(duì)比分析
從2種對(duì)比方法的實(shí)驗(yàn)結(jié)果中可以看到,本文提出的聚類方法更能準(zhǔn)確分析用戶的行為,識(shí)別每類用戶中單獨(dú)電器的用電特點(diǎn)。針對(duì)每類用戶的單類用電器的用電特點(diǎn)做出更有數(shù)據(jù)支撐、更合理的電網(wǎng)規(guī)劃、需求響應(yīng)和信息推薦等決策。由于數(shù)據(jù)集的局限本文只分析了4類電器,如果能夠獲得更多單類電器的用電數(shù)據(jù),聚類結(jié)果將會(huì)有更大的應(yīng)用價(jià)值。
隨著智能電網(wǎng)和大數(shù)據(jù)技術(shù)的快速發(fā)展,大量用戶的用電數(shù)據(jù)被記錄和存儲(chǔ),如何合理、有效地利用這些數(shù)據(jù)挖掘出數(shù)據(jù)中潛在的價(jià)值越來(lái)越受到關(guān)注。能源分解和用戶用電行為分析作為智能電網(wǎng)應(yīng)用之一,能夠用于節(jié)約能源、故障檢測(cè)、電網(wǎng)規(guī)劃、需求響應(yīng)和信息推薦等。因此,對(duì)用戶的電能分解并對(duì)其用電行為進(jìn)行聚類分析具有重要價(jià)值,而如何提高能源分解的準(zhǔn)確率和用戶用電行為聚類效果變得極為重要?;诖?,本文提出了一種基于能源分解的用戶用電行為模式分析方法。采用非負(fù)矩陣分解的能源分解方法(NMF)結(jié)合L1/2范數(shù)的稀疏約束、同質(zhì)性約束項(xiàng)及一致性約束項(xiàng)方法訓(xùn)練數(shù)據(jù),得到的模型在訓(xùn)練集和測(cè)試集上都具有很好的效果,克服了傳統(tǒng)采用NMF+L1方法得到的模型在測(cè)試集上效果不好的問(wèn)題及克服了采用NMF+L1/2方法精度不高的問(wèn)題。本文在傳統(tǒng)方法NMF+L1/2上加入同質(zhì)性約束項(xiàng)及一致性約束項(xiàng)訓(xùn)練的模型,一定程度上提高了模型在訓(xùn)練集和測(cè)試集上的性能。