徐 虎,劉新潤(rùn),周 宣,薛 雷,蘇永新
(1.威勝集團(tuán)有限公司,湖南 長(zhǎng)沙 410013;2. 湘潭大學(xué) 自動(dòng)化與電子信息學(xué)院,湖南 湘潭 411105)
家庭電力消耗占社會(huì)總能耗的30%以上,隨著智能電網(wǎng)的發(fā)展和節(jié)能減排政策的推行,家庭負(fù)荷參與電力市場(chǎng)和需求響應(yīng)備受關(guān)注[1].通過(guò)家庭負(fù)荷短期預(yù)測(cè) ( HLSTF)獲取未來(lái)幾分鐘到幾小時(shí)的單個(gè)家庭的用電負(fù)荷,是家庭參與電力市場(chǎng)和需求響應(yīng)的重要信息基礎(chǔ).準(zhǔn)確的家庭負(fù)荷預(yù)測(cè),能使用戶更好地了解自己的能源使用情況,從而減少電能浪費(fèi),提高能源使用效率.同時(shí),HLSTF對(duì)電力系統(tǒng)經(jīng)濟(jì)調(diào)度、電力系統(tǒng)安全維護(hù)和控制等方面具有重要價(jià)值[2].家庭負(fù)荷是電網(wǎng)供需平衡中需求側(cè)的重要成分,家庭負(fù)荷短期預(yù)測(cè)能幫助電力系統(tǒng)提升電網(wǎng)應(yīng)對(duì)風(fēng)險(xiǎn)的能力、降低電能生成成本及減少環(huán)境污染.
家庭負(fù)荷具有如下特性:1)受多種因素影響,具有多源不確定性.家庭電力消耗受氣象、居民心理、節(jié)假日等因素的影響[3],負(fù)荷的特征與規(guī)律復(fù)雜.單個(gè)家庭負(fù)荷缺乏空間上的統(tǒng)計(jì)和平滑作用,功率曲線不平滑、不平穩(wěn),不確定性強(qiáng).2)大小功率分布不均衡,功率落差大.家庭中電燈、電視、傳感器等中小功率電器運(yùn)行時(shí)間長(zhǎng),而熱水器、廚具、洗衣機(jī)、烘烤機(jī)等高功率設(shè)備運(yùn)行時(shí)間短.
上述特點(diǎn)決定了HLSTF具有較高的難度,已有的預(yù)測(cè)方法主要是統(tǒng)計(jì)方法和人工智能方法[4].統(tǒng)計(jì)方法主要包括貝葉斯模型[5]、線性回歸[6]、自回歸綜合移動(dòng)平均[7]等.這類方法使用數(shù)學(xué)分析和統(tǒng)計(jì)工具來(lái)找出負(fù)荷的規(guī)律.面對(duì)復(fù)雜規(guī)律和多源不確定性,負(fù)荷規(guī)律的挖掘、表達(dá)、定參都面臨著挑戰(zhàn),統(tǒng)計(jì)方法在HLSTF方面精度受限.
早期的人工智能方法包括前饋神經(jīng)網(wǎng)絡(luò)(FFNN)[8]、BP神經(jīng)網(wǎng)絡(luò)[9]及支持向量機(jī)回歸 (SVR)[10]等方法,其預(yù)測(cè)精確性,顯著優(yōu)于統(tǒng)計(jì)方法.但由于經(jīng)典神經(jīng)網(wǎng)絡(luò)的層數(shù)有限、支持向量回歸強(qiáng)調(diào)用少量的參數(shù)表達(dá)數(shù)據(jù)規(guī)律,這些方法在抽取和描述復(fù)雜特征、規(guī)律方面存在原理性制約,制約了HLSTF精度.
近年來(lái),深度學(xué)習(xí)飛速發(fā)展,主流網(wǎng)絡(luò)包括遞歸神經(jīng)網(wǎng)絡(luò)(RNN)[11]和卷積神經(jīng)網(wǎng)絡(luò)(CNN)[12].HLSTF可視為時(shí)間序列預(yù)測(cè)問(wèn)題,RNN類網(wǎng)絡(luò)在HLSTF中最常用,RNN[11]、長(zhǎng)短期記憶 ( LSTM)[13]網(wǎng)絡(luò)、門(mén)控循環(huán)單元網(wǎng)絡(luò)[14]等已廣泛用于HLSTF.一些研究者注意到,家庭負(fù)荷受多種因素影響,但RNN側(cè)重于時(shí)序間的規(guī)律,在提取多種因素的組合特征方面并不擅長(zhǎng),而CNN的最大優(yōu)勢(shì)在于特征提取,于是提出了CNN與RNN組合的方法[15].但這類方法普遍將CNN和RNN割裂開(kāi),將CNN某些層的輸出作為RNN的輸入[15],特征缺乏指向性,導(dǎo)致預(yù)測(cè)結(jié)果可能受偽特征、無(wú)關(guān)特征的影響,從而影響預(yù)測(cè)精度.全連接網(wǎng)絡(luò)具有很強(qiáng)的可塑性,能實(shí)現(xiàn)時(shí)序預(yù)測(cè)、特征融合等方面的功能,CNN與全連接網(wǎng)絡(luò)能實(shí)現(xiàn)一體化學(xué)習(xí),有望實(shí)現(xiàn)高質(zhì)量的預(yù)測(cè).如Binkowski等[16]用CNN與全連接網(wǎng)絡(luò)組合對(duì)電力和金融進(jìn)行預(yù)測(cè),Koprinska等[17]應(yīng)用CNN和全連接網(wǎng)絡(luò)組合預(yù)測(cè)第二天的電力負(fù)荷和光伏太陽(yáng)能,均取得優(yōu)秀的預(yù)測(cè)成果.但家庭負(fù)荷影響因素眾多,用單一CNN整體實(shí)現(xiàn)HLSTF,要求CNN具有較大規(guī)模,超參數(shù)的優(yōu)化較為困難.集成學(xué)習(xí)利用不同的基礎(chǔ)學(xué)習(xí)器處理不同難度、不同特性的問(wèn)題,然后對(duì)其進(jìn)行有機(jī)組合,形成強(qiáng)學(xué)習(xí)器,能獲得優(yōu)異的效果,尤其是其中的Boosting方法效果得到了普遍驗(yàn)證[18].家庭負(fù)荷的多源不確定性,可視為不同難度、不同特性的不確定問(wèn)題的組合,與集成學(xué)習(xí)在模式上匹配,有望借助集成學(xué)習(xí)實(shí)現(xiàn)高精度預(yù)測(cè).因此,本文將研究CNN與全連接網(wǎng)絡(luò)構(gòu)成多個(gè)學(xué)習(xí)器,通過(guò)Boosting集成,形成HLSTF模型.
CNN十分擅長(zhǎng)處理圖像,Imani[12]通過(guò)構(gòu)建負(fù)荷圖、負(fù)荷溫度關(guān)系圖,基于CNN實(shí)現(xiàn)家庭負(fù)荷關(guān)系的提取與表征,提升了HLSTF精度.但家庭與溫度、濕度、風(fēng)速等氣象因素、是否節(jié)假日等有關(guān),這些因素應(yīng)與負(fù)荷組織成合適的形式,便于CNN從中提取規(guī)律與特征.
由于家庭負(fù)荷大小功率分布不均衡,且功率落差大.傳統(tǒng)的負(fù)荷預(yù)測(cè)方案通常對(duì)家庭負(fù)荷進(jìn)行均勻量化,造成中低功率段編碼分辨率不足,高功率段占用的碼元使用率不高,全局綜合量化誤差較大;高功率數(shù)據(jù)量少且其大小遠(yuǎn)離平均值,成為“異?!睌?shù)據(jù),這兩方面均嚴(yán)重影響HLSTF精度.非均勻量化是解決這一問(wèn)題的重要思路,Shepero等[19]將原始負(fù)荷數(shù)據(jù)轉(zhuǎn)化為其自然對(duì)數(shù)后對(duì)家庭負(fù)荷進(jìn)行概率預(yù)測(cè),取得了較好的效果.但自然對(duì)數(shù)會(huì)將較低功率映射為極大的數(shù)值,不適用于機(jī)器學(xué)習(xí).μ律非均勻量化能綜合優(yōu)化數(shù)據(jù)均勻性與數(shù)據(jù)范圍,已被大量用于通信、信號(hào)處理領(lǐng)域[20].用μ律非均勻量化來(lái)改善HLSTF精度值得深入研究.
綜上,為提高HLSTF精度,本文提出了一種基于CNN集成學(xué)習(xí)和非均勻量化的家庭負(fù)荷短期預(yù)測(cè)方法.本文貢獻(xiàn)總結(jié)如下:第一,對(duì)家庭負(fù)荷數(shù)據(jù)進(jìn)行μ律非均勻量化,緩解大小功率分布不平衡、功率落差大的問(wèn)題;第二,將負(fù)荷數(shù)據(jù)、氣象數(shù)據(jù)和節(jié)假日信息重塑為特征關(guān)系灰度圖,便于CNN處理;第三,基于Boosting集成學(xué)習(xí)方法,集成多個(gè)CNN,適配家庭負(fù)荷的多源不確定性,實(shí)現(xiàn)高精度的HLSTF.該方法能為供電系統(tǒng)的用電管理部門(mén)和電力營(yíng)銷(xiāo)部門(mén)提供服務(wù),制定更為靈活、動(dòng)態(tài)的節(jié)能計(jì)劃和營(yíng)銷(xiāo)策略,提高能源利用率,減少電力資源浪費(fèi).此外,還可以改善需求響應(yīng),并輔助家庭能源管理系統(tǒng).
本文以CNN集成學(xué)習(xí)為核心,設(shè)計(jì)HLSTF框架如圖1所示.各模塊的功能及其關(guān)聯(lián)如下:
圖1 家庭負(fù)荷短期預(yù)測(cè)框架Fig.1 Household load short-term forecasting framework
1)數(shù)據(jù)處理模塊
該模塊的核心功能是通過(guò)相關(guān)性分析找出對(duì)負(fù)荷影響較大的因素,之后對(duì)家庭負(fù)荷非均勻量化,并將HLSTF相關(guān)的數(shù)據(jù)轉(zhuǎn)化為與CNN機(jī)制匹配的圖像,為高精度預(yù)測(cè)提供信息基礎(chǔ).
現(xiàn)代家庭一般具有數(shù)字化儀表,通過(guò)對(duì)信號(hào)的均勻量化,得到各種原始數(shù)據(jù).如“引言”所述,家庭負(fù)荷具有大小功率分布不均衡且功率落差大的特點(diǎn),將嚴(yán)重影響HLSTF精度.因此要對(duì)原始數(shù)據(jù)進(jìn)行二次量化,其目的在于根據(jù)原始數(shù)據(jù)的分布,對(duì)數(shù)據(jù)分布密集區(qū),增加其分辨率,而數(shù)據(jù)分布稀疏區(qū),降低其分辨率,并降低高低功率映射的數(shù)值落差,適配后續(xù)CNN學(xué)習(xí)的需要.
CNN處理圖像的基本原理可視為,卷積核在待處理的張量上進(jìn)行小步長(zhǎng)、多步數(shù)的移動(dòng),每移動(dòng)一次便計(jì)算卷積核與它所覆蓋的張量之間的卷積值,通過(guò)監(jiān)督學(xué)習(xí)機(jī)制,調(diào)整卷積核,實(shí)現(xiàn)指定的處理目標(biāo).不難看出,待處理圖像自身的質(zhì)量、規(guī)律,對(duì)CNN達(dá)成任務(wù)的質(zhì)量、難度、計(jì)算量均有重要影響.家庭負(fù)荷與風(fēng)速、溫度、濕度、節(jié)假日等要素均有個(gè)體關(guān)系,同時(shí)又存在群體關(guān)系,因此,需要將功率數(shù)據(jù)與這些數(shù)據(jù)進(jìn)行交織,然后再灰度圖化,使CNN卷積核每次移動(dòng)都能提取到與負(fù)荷相關(guān)的特征或規(guī)律,以提升預(yù)測(cè)精度、降低預(yù)測(cè)的計(jì)算量.
2)集成學(xué)習(xí)模塊
該模塊的核心功能是對(duì)二次量化后的負(fù)荷進(jìn)行預(yù)測(cè).其基本方案是基于Boosting的CNN集成學(xué)習(xí).
該模塊采用的基本原理是,首先基于CNN構(gòu)建復(fù)雜程度低的基礎(chǔ)學(xué)習(xí)器,各基礎(chǔ)學(xué)習(xí)器通過(guò)Boosting方法協(xié)同,每個(gè)后置的基礎(chǔ)學(xué)習(xí)器重點(diǎn)學(xué)習(xí)其前置學(xué)習(xí)器未能有效處理的樣本,然后再將多個(gè)學(xué)習(xí)器的處理結(jié)果進(jìn)行有機(jī)組合,形成預(yù)測(cè)結(jié)果.由于家庭負(fù)荷受多種不確定源及其耦合關(guān)系的影響,每種不確定源規(guī)律的提取、表達(dá)難度不同,這種集成學(xué)習(xí)的方式,本質(zhì)上是前置學(xué)習(xí)器發(fā)現(xiàn)更簡(jiǎn)單的規(guī)律,而后置學(xué)習(xí)器和前置學(xué)習(xí)器一道發(fā)現(xiàn)更復(fù)雜的規(guī)律,用于HLSTF時(shí),有望有效避免過(guò)擬合,為實(shí)現(xiàn)高精度預(yù)測(cè)提供學(xué)習(xí)模型基礎(chǔ).
3)預(yù)測(cè)結(jié)果整定模塊
該模塊的核心功能是將“集成學(xué)習(xí)”模塊輸出的灰度化等效負(fù)荷預(yù)測(cè)值,經(jīng)過(guò)去灰度,反μ律變換轉(zhuǎn)換為常規(guī)數(shù)據(jù).
在影響家庭負(fù)荷的各類特征變量中,氣象因素和節(jié)假日因素影響力最大[5].節(jié)假日信息可以被簡(jiǎn)單標(biāo)記為工作日和非工作日,因此,無(wú)須進(jìn)行分析和簡(jiǎn)化.然而,氣象因素的種類較多,如溫度、濕度、風(fēng)速、露點(diǎn)和降雨量等.其中有的信息與負(fù)荷相關(guān)性強(qiáng),而有的相關(guān)性弱.為了避免相關(guān)度較弱的信息對(duì)預(yù)測(cè)模型的影響,必須對(duì)其進(jìn)行相關(guān)性分析,選出相關(guān)度較高的幾類關(guān)鍵因素作為模型的輸入變量.
本文采用互信息(Im)計(jì)算氣象因素和家庭負(fù)荷之間的相關(guān)程度.Im的定義如下:
(1)
式中:I(X;Y)是氣象因素X和家庭負(fù)荷Y之間的互信息值;p(x,y)是氣象因素X和家庭負(fù)荷Y的聯(lián)合概率密度函數(shù);p(x)和p(y)分別是氣象因素X和家庭負(fù)荷Y的邊緣概率密度函數(shù).
從UMASS數(shù)據(jù)集[21]中選取的實(shí)際家庭負(fù)荷數(shù)據(jù)和氣象數(shù)據(jù)進(jìn)行計(jì)算和分析,結(jié)果展示在表1中.
表1 家庭負(fù)荷與各類氣象變量的Im
通過(guò)數(shù)據(jù)分析,除了前面選定的是否節(jié)假日信息和歷史負(fù)荷信息外,本文另選取的氣象變量為:溫度、濕度和風(fēng)速.此外,露點(diǎn)等變量相關(guān)性較弱,在本文中暫不考慮.
2.2.1 負(fù)荷數(shù)據(jù)的統(tǒng)計(jì)特性
從UMASS數(shù)據(jù)集[21]和REFIT數(shù)據(jù)集中收集到的204個(gè)家庭12個(gè)月的負(fù)荷數(shù)據(jù),這些數(shù)據(jù)來(lái)自各個(gè)不同地區(qū)的單個(gè)家庭,對(duì)其進(jìn)行統(tǒng)計(jì)分析,如圖2所示.對(duì)功率Y出現(xiàn)的頻次進(jìn)行擬合,發(fā)現(xiàn)家庭負(fù)荷呈現(xiàn)近似于對(duì)數(shù)正態(tài)分布[22],即:
圖2 家庭小時(shí)級(jí)負(fù)荷概率分布Fig.2 Household hourly load probability distribution
lnY:N(μ,δ2),
(2)
式中,N(μ,δ2)表示均值為μ、方差為δ2的正態(tài)分布.
通過(guò)觀察家庭負(fù)荷分布發(fā)現(xiàn),原始負(fù)荷的均值嚴(yán)重偏左,右側(cè)有較長(zhǎng)的拖尾.CNN等神經(jīng)網(wǎng)絡(luò)擬合數(shù)據(jù)的本質(zhì)是挖掘出其統(tǒng)計(jì)規(guī)律,協(xié)調(diào)擬合的均值、方差.這樣的偏態(tài)分布,將增加神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)難度.與此同時(shí),這種偏態(tài)分布,將造成數(shù)據(jù)歸一化時(shí)分辨率不合理、數(shù)據(jù)樣本嚴(yán)重不均衡等問(wèn)題.
2.2.2 基于非均勻量化的負(fù)荷數(shù)據(jù)分布重構(gòu)
(3)
式中,μ為壓縮系數(shù).研究表明,μ取255綜合量化誤差較小且便于編碼[20].
基于式(3)將原始負(fù)荷映射為正態(tài)分布的等效負(fù)荷,后續(xù)預(yù)測(cè)相關(guān)的處理中,用等效負(fù)荷取代原始負(fù)荷.
等效負(fù)荷、溫度、濕度、風(fēng)速數(shù)據(jù)均勻量化轉(zhuǎn)化為256灰階數(shù)據(jù).其轉(zhuǎn)換公式為:
(4)
式中:v代表待轉(zhuǎn)換數(shù)據(jù)的原始值;vmin、vmax分別是待轉(zhuǎn)換數(shù)據(jù)的最小值 、最大值;vcode是轉(zhuǎn)換后的灰度值.
“是否節(jié)假日”信息也轉(zhuǎn)化為灰階表示,處于工作日,對(duì)應(yīng)灰階為0,處于節(jié)假日轉(zhuǎn)為灰階128.
由于家庭負(fù)荷受歷史負(fù)荷、溫度、濕度、風(fēng)速、節(jié)假日等影響,挖掘未來(lái)負(fù)荷與這些要素的關(guān)系是HLSTF的本質(zhì)任務(wù).考慮到數(shù)據(jù)的時(shí)間序列特性,預(yù)測(cè)系統(tǒng)設(shè)計(jì)為基于時(shí)段[t-23,t]的各要素?cái)?shù)據(jù),預(yù)測(cè)t+1時(shí)段的家庭負(fù)荷,其中,t代表時(shí)段t,時(shí)間步長(zhǎng)為1 h.為保證后續(xù)CNN學(xué)習(xí)中,卷積核每一步移動(dòng)都能包含負(fù)荷信息,都能抽取到負(fù)荷與它的影響要素之間的關(guān)系,將負(fù)荷和它的影響要素交織,形成圖3,其中負(fù)荷已用等效負(fù)荷置換.
圖3 負(fù)荷及其影響因素交織圖Fig.3 Interlace diagram of load and influencing factors
圖3為7×24的二維平面.顯然,當(dāng)卷積核的橫向覆蓋不低于2、豎直覆蓋范圍不低于2時(shí),CNN的第一個(gè)卷積層就能方便地提取如下關(guān)系:1)負(fù)荷自身時(shí)序關(guān)系;2)負(fù)荷分別與溫度、濕度、風(fēng)速、節(jié)假日的關(guān)系.后續(xù)卷積層的卷積核只要規(guī)模大于2×2,都能有效提取負(fù)荷與溫度、濕度、風(fēng)速、節(jié)假日的關(guān)系,這種數(shù)據(jù)組織方式能為CNN學(xué)習(xí)帶來(lái)高效性和靈活性.
設(shè)計(jì)基礎(chǔ)學(xué)習(xí)器CNN的結(jié)構(gòu)如圖4所示.基礎(chǔ)學(xué)習(xí)器輸入圖3所示的數(shù)據(jù)時(shí),給出第25時(shí)段的家庭等效負(fù)荷預(yù)測(cè)值.
輸入層負(fù)責(zé)接收數(shù)據(jù),本文中CNN模型的輸入是尺寸為7×24包含5種特征的24 h相關(guān)值的二維灰度圖.
本文為了避免提取到的重要特征被丟棄,在設(shè)計(jì)的結(jié)構(gòu)中沒(méi)有使用池化層.在設(shè)計(jì)卷積核尺寸大小時(shí),考慮到應(yīng)用更多的卷積核能得到更多的特征映射,但隨著卷積核數(shù)量的增加,CNN的可學(xué)習(xí)參數(shù)也隨之增加,可能會(huì)導(dǎo)致過(guò)擬合問(wèn)題.最終通過(guò)實(shí)驗(yàn)優(yōu)選,CNN層的參數(shù)設(shè)置為:
第1個(gè)卷積層:卷積核大小為2×5,卷積步長(zhǎng)為1×3,通道數(shù)為32;該層用于提取負(fù)荷及其影響因素之間的顯性特征,采用32個(gè)通道共提取出32種特征.
第2個(gè)卷積層:卷積核大小為2×5,卷積步長(zhǎng)為1×3,通道數(shù)為64;該層用于提取負(fù)荷及其影響因素之間的隱性特征,采用64個(gè)通道共提取出64種特征.
其中,兩個(gè)CNN層共同的設(shè)置為:為了防止邊緣信息計(jì)算程度不夠,提取不充分,padding設(shè)置“same”邊緣填充像素.激活層用于提供非線性,以便從輸入數(shù)據(jù)學(xué)習(xí)非線性關(guān)系,激活函數(shù)選用ReLU.
輸入數(shù)據(jù)通過(guò)兩層CNN的特征提取后,將數(shù)據(jù)展平為一維數(shù)據(jù),由于數(shù)據(jù)尺寸較大,先經(jīng)過(guò)一層神經(jīng)元個(gè)數(shù)為128的全連接層,激活層采用ReLU.此外,為了防止模型的過(guò)擬合,使用了系數(shù)為0.3的dropout層.最后經(jīng)過(guò)一層神經(jīng)元個(gè)數(shù)為1的全連接層用于輸出提前一步的等效負(fù)荷預(yù)測(cè)值.
對(duì)于單個(gè)CNN的訓(xùn)練,根據(jù)標(biāo)準(zhǔn)的梯度反向傳播算法來(lái)實(shí)現(xiàn)CNN參數(shù)的更新.其損失函數(shù)定義如下:
(5)
考慮到家庭負(fù)荷關(guān)聯(lián)因素多,不確定性強(qiáng),規(guī)律復(fù)雜,采用Boosting算法中的Adaboost集成學(xué)習(xí)方法,來(lái)協(xié)調(diào)多個(gè)CNN,提高預(yù)測(cè)的準(zhǔn)確性和魯棒性.在本文實(shí)驗(yàn)中,基礎(chǔ)學(xué)習(xí)器設(shè)置為3個(gè),基礎(chǔ)學(xué)習(xí)器的訓(xùn)練輪數(shù)設(shè)置為100輪,學(xué)習(xí)率取0.000 1.該集成策略的核心有2個(gè):①根據(jù)各個(gè)樣本在各基礎(chǔ)學(xué)習(xí)器處理后得到的相對(duì)誤差來(lái)調(diào)整各樣本的權(quán)值,相對(duì)誤差越大的樣本,后續(xù)權(quán)值越高;②根據(jù)各個(gè)基礎(chǔ)學(xué)習(xí)器對(duì)各樣本的誤差,定量調(diào)節(jié)其在最后結(jié)果中的重要程度.
基于訓(xùn)練好的強(qiáng)學(xué)習(xí)器,得到等效負(fù)荷預(yù)測(cè)結(jié)果,應(yīng)對(duì)其進(jìn)行去灰度,反μ律變換,得到常規(guī)負(fù)荷預(yù)測(cè)數(shù)據(jù):
(6)
(7)
來(lái)自多個(gè)不同地區(qū)的不同用電模式的家庭負(fù)荷數(shù)據(jù)集用于驗(yàn)證本文所提方法的有效性和可靠性[21],下面將詳細(xì)展示與分析其中兩個(gè)有著明顯差異的家庭的預(yù)測(cè)結(jié)果,分別記為家庭A和家庭B.其中,家庭A位于美國(guó)東部,屬于亞熱帶濕潤(rùn)氣候[21].家庭B位于英國(guó),屬于溫帶海洋性氣候.利用家庭A[21]、家庭B的公開(kāi)數(shù)據(jù)集進(jìn)行相關(guān)實(shí)驗(yàn).將一整年的家庭負(fù)荷數(shù)據(jù)集進(jìn)行重復(fù)交叉試驗(yàn),共計(jì)8 760個(gè)小時(shí)家庭負(fù)荷數(shù)據(jù),20次重復(fù)試驗(yàn).將家庭A 2014年6月1日至6月8日的負(fù)荷數(shù)據(jù)用作測(cè)試集展示預(yù)測(cè)結(jié)果,家庭B 2014年12月1日至12月8日的負(fù)荷數(shù)據(jù)用作測(cè)試集展示預(yù)測(cè)結(jié)果.
實(shí)驗(yàn)中,為了利用多個(gè)時(shí)間步長(zhǎng)的時(shí)間序列信息,使用了滑動(dòng)窗口方法.選擇前24 h的歷史數(shù)據(jù)作為輸入,預(yù)測(cè)后1 h的負(fù)荷數(shù)據(jù).以1 h為步長(zhǎng),依次完成家庭負(fù)荷預(yù)測(cè).
本研究選取平均絕對(duì)百分比誤差(MAPE)、均方誤差(MSE)、均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)作為評(píng)價(jià)指標(biāo).
為了驗(yàn)證本文所提模型的有效性,針對(duì)A、B家庭均設(shè)計(jì)了以下幾個(gè)實(shí)驗(yàn)算例.為了進(jìn)行公平比較,所有算例都采用相同的訓(xùn)練集和測(cè)試集.
算例1:采用本文所提方案,即包括本文第1節(jié)到第3節(jié)所設(shè)計(jì)的內(nèi)容.以下稱為“本文方案”.
算例2:學(xué)習(xí)模型及其參數(shù)設(shè)置與本文方案相同,但輸入數(shù)據(jù)不通過(guò)二次量化和數(shù)據(jù)交織與圖形化處理,而是最大-最小歸一化后按時(shí)序輸入模型.以下稱為“無(wú)二次量化與數(shù)據(jù)交織”方案.
算例3:學(xué)習(xí)模型及其參數(shù)設(shè)置與本文方案相同,但負(fù)荷數(shù)據(jù)不采用本文所提的二次量化方法,而對(duì)原始負(fù)荷歸一化處理后,再進(jìn)行數(shù)據(jù)交織與圖形化處理.以下稱為“無(wú)二次量化”方案.
算例4:CNN結(jié)構(gòu)及其超參數(shù)設(shè)置與本文方案相同,但采用單個(gè)CNN進(jìn)行預(yù)測(cè),不使用集成策略.以下稱為“無(wú)集成策略”方案.
算例5:采用SVR模型預(yù)測(cè)[10].核函數(shù)選用徑向基,核系數(shù)和懲罰參數(shù)設(shè)置與文獻(xiàn)[10]一致.
算例6:采用FFNN[8]預(yù)測(cè).FFNN結(jié)構(gòu)采用文獻(xiàn)[8]方案,采用4層神經(jīng)網(wǎng)絡(luò),每層神經(jīng)元個(gè)數(shù)分別為8、1 500、800和1,輸入為每日時(shí)間、每周時(shí)間、每月時(shí)間、假日信息和溫度,激活函數(shù)為sigmoid,使用“Adam”優(yōu)化器,學(xué)習(xí)率為0.000 5,訓(xùn)練輪數(shù)為200.
算例7:采用LSTM模型預(yù)測(cè)[13].本算例LSTM網(wǎng)絡(luò)結(jié)構(gòu)為3層,神經(jīng)元個(gè)數(shù)都為25,后面接兩層全連接網(wǎng)絡(luò),神經(jīng)元個(gè)數(shù)分別為25和1,使用“Adam”優(yōu)化器,學(xué)習(xí)率為0.000 5,訓(xùn)練輪數(shù)為400.
測(cè)試中,硬件環(huán)境為:1080Ti 雙顯卡、32GB 內(nèi)存、i7-8700CPU的計(jì)算機(jī),軟件環(huán)境為:Tensorflow1.14.0、Keras2.3.1.
家庭A和家庭B分別使用算例1與算例2~算例7的預(yù)測(cè)誤差及精度對(duì)比如表2和表3所示.
表2 家庭A不同算例的預(yù)測(cè)誤差及精度對(duì)比
表3 家庭B不同算例的預(yù)測(cè)誤差及精度對(duì)比
從表2和表3中可以看出:
1)本文方案的預(yù)測(cè)誤差最小,家庭A的MAPE、MSE、RMSE和MAE分別低至0.326 3、0.414 5、0.643 8和0.343 9,家庭B的對(duì)應(yīng)指標(biāo)分別低至0.2654、0.0343、0.1853、0.1289.與算例2~算例7所給出的6個(gè)算例相比,家庭A的MAPE降低了6.8%~57.8%、MSE降低了21.8%~41.1%、RMSE降低了11.5%~23.3%、MAE降低了14.6%~39.2%,家庭B的對(duì)應(yīng)指標(biāo)分別降低了4.0%~50.0%、14.5%~72.5%、7.5%~47.5%、8.0%~47.9%,說(shuō)明本文提出的二次量化方法、數(shù)據(jù)交織與圖形化方法、CNN、集成學(xué)習(xí)算法等綜合作用時(shí),預(yù)測(cè)精度優(yōu)于LSTM、SVR、FFNN、單個(gè)CNN等方法.此外,在20次重復(fù)實(shí)驗(yàn)的情況下,本文方法仍獲得了最優(yōu)預(yù)測(cè)結(jié)果,證明了本文方法的穩(wěn)定性和可靠性.
2)在算例2~算例7中,無(wú)二次量化方案和無(wú)集成策略方案的預(yù)測(cè)誤差較其他算例小.無(wú)二次量化方案和無(wú)集成策略方案均采用了本文涉及的CNN,兩者誤差較小,說(shuō)明本文CNN設(shè)計(jì)的合理性,其預(yù)測(cè)效果已能超過(guò)LSTM.
3)無(wú)二次量化與數(shù)據(jù)交織方案、SVR和FFNN的預(yù)測(cè)誤差較大.無(wú)二次量化與數(shù)據(jù)交織方案誤差大,而無(wú)二次量化方案、無(wú)集成策略方案誤差小,綜合說(shuō)明設(shè)計(jì)的方法不適合數(shù)據(jù)不圖形化的方案,究其原因是,不能充分發(fā)揮CNN在圖像處理方面的優(yōu)勢(shì).
家庭A和家庭B使用本文方案的算例1預(yù)測(cè)曲線分別如圖5和圖6所示,家庭A和家庭B使用算例2~算例7的預(yù)測(cè)曲線分別如圖7和圖8所示.對(duì)比圖5、圖6、圖7和圖8可以看出,本文方案的預(yù)測(cè)結(jié)果能最緊密地跟隨實(shí)際數(shù)據(jù)的變化趨勢(shì).
圖5 家庭A中算例1的預(yù)測(cè)曲線Fig.5 The prediction curve of example 1 in home A
圖6 家庭B中算例1的預(yù)測(cè)曲線Fig.6 The prediction curve of example 1 in home B
圖7 家庭A中算例2~算例7的預(yù)測(cè)曲線Fig.7 The prediction curve of example 2-example 7 in home A
圖8 家庭B中算例2~算例7的預(yù)測(cè)曲線Fig.8 the prediction curve of example 2~example 7 in home B
將本文方案與無(wú)二次量化方案進(jìn)行比較,從圖7、圖8中可以看出,無(wú)二次量化方案在低功率區(qū)域的預(yù)測(cè)結(jié)果存在明顯的偏差,在高功率區(qū)域也無(wú)法進(jìn)行準(zhǔn)確的跟蹤.這是因?yàn)榧彝ヘ?fù)荷分布不均衡,功率落差大,而無(wú)二次量化方案缺少二次量化過(guò)程對(duì)負(fù)荷數(shù)據(jù)的調(diào)節(jié),導(dǎo)致中小功率部分分辨率不足、高功率部分分辨率冗余,從而使模型學(xué)習(xí)不足,小功率和高功率預(yù)測(cè)準(zhǔn)確率較低,預(yù)測(cè)精度受限.
將無(wú)二次量化與數(shù)據(jù)交織方案和無(wú)二次量化方案進(jìn)行對(duì)比,從圖7、圖8中可以看出,無(wú)二次量化與數(shù)據(jù)交織方案在小功率區(qū)域的預(yù)測(cè)結(jié)果更差,高功率區(qū)域同樣無(wú)法進(jìn)行準(zhǔn)確的跟蹤,這是因?yàn)闊o(wú)二次量化方案比無(wú)二次量化與數(shù)據(jù)交織方案多了數(shù)據(jù)交織與圖形化過(guò)程.從表2和表3中得出,“無(wú)二次量化”方案與“無(wú)二次量化+數(shù)據(jù)交織”方案相比,家庭A預(yù)測(cè)結(jié)果的MAPE、MSE、RMSE和MAE分別降低了14.1%、16.8%、8.8%,11.2%,家庭B的對(duì)應(yīng)指標(biāo)分別下降了28.7%、29.0%、15.7%和22.2%,證明了將HLSTF預(yù)測(cè)問(wèn)題轉(zhuǎn)化為圖像處理問(wèn)題是有效的,通過(guò)數(shù)據(jù)交織與圖形化可以充分利用CNN在圖像處理方面的突出優(yōu)勢(shì).同時(shí),這種二維灰度圖包含負(fù)荷及其影響因素之間豐富的非線性關(guān)系,為高精度預(yù)測(cè)提供信息基礎(chǔ).此外,將本文方案與無(wú)二次量化與數(shù)據(jù)交織方案進(jìn)行對(duì)比,再次驗(yàn)證了本文所提出的數(shù)據(jù)處理過(guò)程的必要性,非均勻量化能很好地處理家庭負(fù)荷分布不均衡的問(wèn)題,將輸入數(shù)據(jù)進(jìn)行數(shù)據(jù)交織與圖形化便于CNN高效處理,同時(shí)更加充分地挖掘輸入特征之間的非線性關(guān)系.
將本文方案與無(wú)集成策略方案進(jìn)行比較,從圖7、圖8中可以看出,無(wú)集成策略方案在小功率區(qū)域跟蹤得比較好,在高功率區(qū)域有跟不上或者超出真實(shí)值的情況,這是因?yàn)闊o(wú)集成策略方案沒(méi)有采用集成策略,只使用單一的CNN模型進(jìn)行預(yù)測(cè),由于家庭負(fù)荷受多種不確定源影響表現(xiàn)出復(fù)雜特性,單個(gè)模型難以學(xué)習(xí)到所有特性,導(dǎo)致模型在小功率和大功率之間難以取得平衡,往往只能兼顧一個(gè)方面.而本文方案采用集成策略,以CNN為基礎(chǔ)學(xué)習(xí)器,多個(gè)學(xué)習(xí)器協(xié)同工作,將學(xué)習(xí)到不同特性的CNN集成起來(lái)形成強(qiáng)學(xué)習(xí)器,能有效實(shí)現(xiàn)高精度預(yù)測(cè).本文方案具體使用3個(gè)CNN模型進(jìn)行集成,第2個(gè)CNN可以對(duì)第1個(gè)CNN學(xué)習(xí)不到的區(qū)域進(jìn)行加權(quán)再學(xué)習(xí),第3個(gè)CNN又可以對(duì)第2個(gè)CNN學(xué)習(xí)較差的區(qū)域進(jìn)行加權(quán)再學(xué)習(xí),通過(guò)3個(gè)CNN的接連學(xué)習(xí)后,最終得到的集成預(yù)測(cè)器即可對(duì)家庭負(fù)荷進(jìn)行準(zhǔn)確預(yù)測(cè).
將本文方案與SVR、FFNN和LSTM進(jìn)行比較,SVR在小功率區(qū)域預(yù)測(cè)結(jié)果最差,導(dǎo)致MAPE值最大.這是因?yàn)?,雖然SVR擅長(zhǎng)用少量的參數(shù)表達(dá)數(shù)據(jù)規(guī)律,避免過(guò)擬合問(wèn)題,但是,面對(duì)特征復(fù)雜的家庭負(fù)荷領(lǐng)域,該特點(diǎn)使其在表達(dá)復(fù)雜特性方面差于神經(jīng)網(wǎng)絡(luò)模型.FFNN在小功率區(qū)域的預(yù)測(cè)結(jié)果較好于SVR,但是在高功率區(qū)域跟不上實(shí)際負(fù)荷趨勢(shì).這是因?yàn)镕FNN可調(diào)參數(shù)多于SVR,在表達(dá)非線性關(guān)系上優(yōu)于SVR.但FFNN在功能上不如深度神經(jīng)網(wǎng)絡(luò)具有針對(duì)性,面對(duì)復(fù)雜的輸入數(shù)據(jù)既不能提取時(shí)間特性,也不能提取組合特性,致使模型難以學(xué)習(xí)復(fù)雜輸入數(shù)據(jù)的規(guī)律,在面對(duì)分布不均衡的家庭負(fù)荷時(shí),預(yù)測(cè)結(jié)果差于LSTM.相較于SVR和FFNN,LSTM的預(yù)測(cè)結(jié)果最好,特別是在小功率區(qū)域能較為準(zhǔn)確地跟蹤真實(shí)負(fù)荷趨勢(shì).這是因?yàn)長(zhǎng)STM具有記憶功能,能夠處理時(shí)間序列中隱含的長(zhǎng)期依賴關(guān)系,應(yīng)用在具有時(shí)序特征的負(fù)荷預(yù)測(cè)中有著明顯的優(yōu)勢(shì).但預(yù)測(cè)結(jié)果還是差于本文方案和無(wú)集成策略方案.將LSTM與無(wú)集成策略方案進(jìn)行對(duì)比,從表2和表3中得出,無(wú)集成策略方案相比“LSTM”方法,家庭A預(yù)測(cè)結(jié)果的MAPE、MSE、RMSE和MAE分別降低了9.8%、6.8%、3.4%和3.7%,家庭B對(duì)應(yīng)指標(biāo)分別下降了5.5%、53.6%、31.9%和15.4%,驗(yàn)證了LSTM在提取負(fù)荷及其影響因素的組合特征方面不如CNN,難以挖掘其中隱含的非線性關(guān)系,而CNN利用其在圖像處理上的優(yōu)勢(shì),將負(fù)荷及其影響因素轉(zhuǎn)化為具有數(shù)據(jù)交織的二維灰度圖,使模型能獲得更高的預(yù)測(cè)精度.此外,SVR、FFNN和LSTM都是對(duì)家庭負(fù)荷進(jìn)行均勻量化,由于短期家庭負(fù)荷服從對(duì)數(shù)正態(tài)分布,致使模型的輸入是偏心的分布,這增大了機(jī)器學(xué)習(xí)的難度,制約學(xué)習(xí)模型的預(yù)測(cè)性能.
將無(wú)集成策略方案與SVR、FFNN和LSTM進(jìn)行比較,從圖7和圖8中可以看出,無(wú)論是小功率區(qū)域還是大功率區(qū)域,無(wú)集成策略方案的預(yù)測(cè)結(jié)果均優(yōu)于SVR、FFNN和LSTM.驗(yàn)證了將輸入數(shù)據(jù)重塑為特征關(guān)系灰度圖,搭配CNN強(qiáng)大的特征提取能力作為預(yù)測(cè)模型的方案是可行的,所提出模型的預(yù)測(cè)性能優(yōu)于SVR、FFNN和LSTM模型,說(shuō)明了CNN在時(shí)序預(yù)測(cè)問(wèn)題上的巨大潛力.
電力系統(tǒng)的穩(wěn)定運(yùn)行和經(jīng)濟(jì)調(diào)度都離不開(kāi)電力負(fù)荷預(yù)測(cè),高精度的家庭負(fù)荷短期預(yù)測(cè)不僅為公共部門(mén)制定靈活的電價(jià)制度提供便利,還為用戶自身參與需求響應(yīng)提供重要信息基礎(chǔ).為實(shí)現(xiàn)高精度HLSTF,提出了一種基于CNN集成與非均勻量化的家庭負(fù)荷短期預(yù)測(cè)模型.首先,將HLSTF負(fù)荷數(shù)據(jù)進(jìn)行μ律非均勻量化,再將負(fù)荷與它的影響因素進(jìn)行交織,構(gòu)成灰度圖.然后,以CNN為基礎(chǔ)學(xué)習(xí)器,基于Adaboost集成學(xué)習(xí)實(shí)現(xiàn)提前一步的等效負(fù)荷預(yù)測(cè).繼而,將預(yù)測(cè)的負(fù)荷等效表達(dá)轉(zhuǎn)換為常規(guī)表達(dá).最后,基于某家庭一年實(shí)測(cè)數(shù)據(jù),進(jìn)行實(shí)測(cè)與分析.有以下結(jié)論:
1)負(fù)荷非均勻量化處理能有效解決家庭大小功率分布不均衡的問(wèn)題,提高模型預(yù)測(cè)精度.
2)將與負(fù)荷具有內(nèi)在聯(lián)系的數(shù)據(jù)進(jìn)行交織,轉(zhuǎn)換為二維灰度圖,能充分發(fā)揮CNN的圖像處理優(yōu)勢(shì),獲得高精度預(yù)測(cè).
3)CNN可以學(xué)習(xí)不同尺度上數(shù)據(jù)點(diǎn)之間的非線性關(guān)系,集成策略能解決單一模型無(wú)法兼顧低功率和高功率預(yù)測(cè)的問(wèn)題,提高模型的準(zhǔn)確性和魯棒性.
本文提出的家庭負(fù)荷超短期精準(zhǔn)預(yù)測(cè)方法可用于家庭能源管理、家庭參與電力市場(chǎng)交易、為能源管理和優(yōu)化提供預(yù)測(cè)信息等場(chǎng)合,助力電力系統(tǒng)安全穩(wěn)定經(jīng)濟(jì)運(yùn)行以及家庭和社會(huì)節(jié)能減排.
本文方法能應(yīng)對(duì)預(yù)測(cè)對(duì)象的多源不確定性和幅值分布不均衡,可推廣應(yīng)用到車(chē)流量預(yù)測(cè)、網(wǎng)絡(luò)流量預(yù)測(cè)、風(fēng)速預(yù)測(cè)等場(chǎng)合.下一步將探索將本文中的CNN改成循環(huán)神經(jīng)網(wǎng)絡(luò),進(jìn)一步拓展其應(yīng)用領(lǐng)域.