林 濤,趙 伊,馮嘉冀
(河北工業(yè)大學人工智能與數(shù)據(jù)科學學院,天津300000)
人口增長和經(jīng)濟發(fā)展促使能源使用量大幅度增加,供電公司在滿足用戶日常需求的同時,為保證電量供給正常,還會提升20%的發(fā)電量用來滿足可能發(fā)生的5%潛在高峰用電,用電供需不平衡造成了剩余電力的浪費,勢必會對電力資源和生態(tài)環(huán)境造成影響。因此針對短期用電,可以通過準確預測用戶的用電需求,從而做到精準供電,減少資源浪費。
現(xiàn)如今深度學習模型因具有更高的預測精度從而被廣泛應用于最近的電力預測當中。文獻[2]將循環(huán)神經(jīng)網(wǎng)絡模型(Recurrent Neural Network,RNN)運用到電負荷預測上,盡管在預測效果上有所提升,但對時序數(shù)據(jù)之間關聯(lián)性的研究仍有欠缺。文獻[3]使用的時間卷積網(wǎng)絡捕獲長期時序依賴關系的的能力勝過其它深度學習模型,被證明更適用于時序數(shù)據(jù)預測。單一類型的神經(jīng)網(wǎng)絡一般只擅長挖掘數(shù)據(jù)的某一類特征,而對于電力數(shù)據(jù)而言,影響耗電的因素不止是功率、電流、電壓等,也與季節(jié)、天氣、地理等特征有關,因此預測模型要具有挖掘數(shù)據(jù)多方面特征的能力。文獻[5]提出一種基于LSTM和時間序列分析法相結合的組合算法用于短期風速的預測,實驗證明LSTM在捕捉數(shù)據(jù)隨機性和非線性特性表現(xiàn)良好。文獻[6]提出了一種基于經(jīng)驗模態(tài)分解(Empirical Mode Decomposition,EMD)和LSTM相結合的負荷預測模型,將時間序列信號分解為數(shù)個本征模函數(shù)(Intrinsic Mode Function,IMF)分量和趨勢分量,分別進行預測,結果表明相比于單一模型預測精度得到很大提升,但分解過程中產(chǎn)生了不可避免的誤差問題。文獻[7]使用聚類(Clustering Analysis,CA)、主成分分析(Principal Component Analysis,PCA),小波分解和重構技術獲得合理的模型輸入,用多層感知神經(jīng)網(wǎng)絡(Multi-layer perceptron neural networks,MLP neural networks)和支持向量回歸(Support Vector Regression,SVR)建立預測模型,探究了不同模型輸入選擇方法對熱負荷預測模型的影響,結果證明,經(jīng)過小波分解和重構技術來優(yōu)化輸入數(shù)據(jù)在模型預測中取得最優(yōu)效果。
通過對以往預測模型的研究,本文提出了一種基于特征分解的組合預測模型,首先全方位分析了影響電負荷變化因素,引入“影響因子”,使用WD技術將原始電力數(shù)據(jù)分解為多頻段子序列,通過計算相關度系數(shù)篩選出相關度較高的子序列,計算殘差并保留相關度系數(shù);然后針對不同頻段數(shù)據(jù)特點,分別使用帶循環(huán)滑窗策略的TCN模型和LSTM模型進行預測;最后對預測結果按照相關度分權求和。實驗使用住宅用電數(shù)據(jù),從用戶側角度出發(fā)分析數(shù)據(jù)特征,實驗結果證明了本文提出的基于特征分解的組合模型在短期預測中具有較高的準確性與泛化能力。
一般用電數(shù)據(jù)變化都具有趨勢性,但存在某時用電急劇增加的情況,因此高峰時刻用電是必須考慮的因素;由于季節(jié)不同、地理位置的不同也會對用電量產(chǎn)生不同的影響;采集器故障、供電故障、正常檢修等特殊情況也需要考慮其中;針對特殊用電情況發(fā)生,還需要考慮到事件的隨機性。通過綜合分析實際用電情況,影響電負荷變化的特征可以歸納為:趨勢因子、高峰因子、季節(jié)因子、地理因子、故障因子、隨機因子。
本文采用的小波分解方法是一種非平穩(wěn)信號分析和處理的方法,將原始信號分解為高頻信號和低頻信號兩部分。高頻信號在短時間內(nèi)變化劇烈,從波形上看表現(xiàn)為波長尖銳劇烈的變化;低頻信號在短時間內(nèi)變化平緩,從波形上表現(xiàn)為平滑的大波長變化。因此使用小波分解方法分解電力數(shù)據(jù),分解后的信號適合用于表征影響電負荷變化的影響因子。
分解采用Symlets5小波基函數(shù),過程如下:
1)初始信號被分解為高頻信號和低頻信號。
2)高頻信號繼續(xù)分解產(chǎn)生兩個信號:一個是新的低頻信號,另一個是高頻信號。
3)進一步分解高頻信號,直到獲得一系列噪聲干擾信號為止。如下方法
-1=′·+′·
(1)
其中,為低頻信號,為高頻信號?!錇楦咄V波器,′為低通濾波器。是在分辨率為2下的高頻分量部分,是在分辨率為2下的低頻分量部分。根據(jù)之前的分析,將電力數(shù)據(jù)中的有用功率分解得到時間序列分為 6 個子序列,過程如圖1。
圖1 小波分解過程
其中,高峰因子用高頻信號表示,原因是高峰因子反應短時內(nèi)用電的極端變化,從波形上看通常就是小波長尖變化;其余影響因子分別用低頻信號表示,分別為:趨勢因子、季節(jié)因子、地理因子、故障因子、隨機因子;
本文采用的時間卷積網(wǎng)絡是一種能夠處理時間序列數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡。為了實現(xiàn)長期有效的歷史大小,膨脹因果卷積可以通過選擇更大的濾波器尺寸來增加TCN的接受域。但是當歷史時間較長時,TCN會出現(xiàn)較大的誤差積累,導致預測精度下降的問題。
針對上述TCN算法存在的問題,提出一種基于循環(huán)滑窗策略的TCN預測模型,通過不斷調(diào)整濾波器尺寸,循環(huán)迭代預測,保證每次預測的精度,步驟如下:
1)設置濾波器初始尺寸m,預測長度為n=1;
2)設置TCN模型參數(shù),將長度為l的訓練集使用TCN模型迭代訓練,根據(jù)損失函數(shù)MSE最小化,使用隨機梯度下降法找到最優(yōu)參數(shù),如果迭代次數(shù)滿足預設迭代參數(shù),則得到最終TCN模型;
3)使用得到的TCN模型,對t+1時刻電負荷進行預測,保留預測值到pre[],并將預測值輸入訓練集末端,同時n+1;
4)當濾波器長度m>預測長度n,停止循環(huán),預測結果為此時pre[]的值。否則將訓練集向右滑動一個窗口,長度不變,重復(2-3)過程。
上述方法能保證每次預測結果的誤差較小,同時預測精度較高。
本文提出一種基于特征分解的短期電負荷組合預測模型(WD-CSTCN-LSTM)。通過WD方法將從單一數(shù)據(jù)中分解出多種特征和特征殘差,針對不同特征使用不同的預測方法,流程圖如圖2。
圖2 流程圖
算法步驟如下:
1)數(shù)據(jù)預處理。對于原始電力數(shù)據(jù)預處理,包括對于缺失值差補,這里采用的是均值差補;,再使用高斯濾波去噪。
2)特征分解。分析影響用電數(shù)據(jù)的特征,對于用電使用WD方法分解為高頻序列A和低頻序列D,對于各序列采用相關度分析,去除無關特征或相關度低的特征,篩選能夠表征影響因子的子序列,并保留相關度作為權值,將原始數(shù)據(jù)減去保留序列生成殘差序列,將所有的子序列歸一化處理。
3)組合模型。預測模型可以在小波分解處理的多個頻帶內(nèi)建立,針對(2)得到的序列,根據(jù)數(shù)據(jù)變化特點,對高頻序列和殘差序列采用LSTM模型,對于低頻序列采用CSTCN模型,將各頻段和殘差預測結果按照權值求和,得到最終的預測值。
該組合預測方法,能夠最大程度的保證各頻段子序列的預測精度,殘差序列彌補了影響因子選擇時未入選的序列帶來的誤差問題,按權求和保證了各影響因子影響能力的準確。從整體提升了預測精度,降低了誤差。
實驗采用的數(shù)據(jù)集來自于巴黎一所住宅收集得包含2006年12月至2010年11月用電數(shù)據(jù)(本數(shù)據(jù)集由UCI機器學習庫提供),每一分鐘采集一條記錄。
本實驗隨機選取一天用電數(shù)據(jù),記錄共1440條,作為短期電負荷預測的數(shù)據(jù)集,其中1205條記錄作為訓練數(shù)據(jù)集,235條記錄用于測試數(shù)據(jù)集。訓練結束后,又在工作日、休息日、第一季度、第二季度、第三季度、第四季度中各隨機選取一天的記錄采取相同訓練集與測試集劃分方式進行實驗,測試模型的泛化能力。
本文使用的評價指標為均方根誤差(Root Mean Square Error,RMSE)、平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)、絕對平均誤差(Mean Absolute Error,MAE)、決定系數(shù)(R-square,R2),如下方法
(2)
(3)
(4)
(5)
原始數(shù)據(jù)在剛獲得時存在很多噪音,這主要由于采集方式和工作環(huán)境引起的。在數(shù)據(jù)進行實驗前要對原始數(shù)據(jù)進行預處理,噪聲處理使用高斯濾波方法,高斯濾波使用的高斯函數(shù)如下方法,濾波后降低了數(shù)據(jù)噪聲并提高數(shù)據(jù)質量。
(6)
3.4.1 特征分解實驗
以一組日用電數(shù)據(jù)集為例測試模型性能,首先對分鐘平均有功功率進行小波分解,得到10個子序列,分解結果如圖3所示。
圖3 小波分解后的子序列
考慮影響電力消耗的因素眾多,使用皮爾遜(Person correlation coefficient)相關系數(shù),來衡量特征值與預測值的相關度,皮爾遜相關系數(shù)計算如下方法
(7)
結果范圍為-1到1之間,負值為負相關,正值為正相關,絕對值越接近1,相關度越高,相關度系數(shù)r與相關性的關系見表1。
表1 相關度系數(shù)與相關度
表2是經(jīng)過相關度篩選后的特征頻段及其相關度系數(shù),篩選的原則是去除不存在線性相關的頻段,最終保留低頻信號1~5和高頻信號5,并計算殘差序列。
表2 相關度系數(shù)
3.4.2 單一預測模型實驗
將CSTCN與TCN,LSTM.ANN,GRU模型使用相同數(shù)據(jù)集進行實驗,對比效果如圖4
圖4 單一模型對比圖
通過圖4和表3可以看出TCN模型善于捕捉時序數(shù)據(jù)整體變化趨勢,擬合度較好,而CSTCN在預測精度上表現(xiàn)出較好的性能;LSTM在捕捉峰值上更為準確。根據(jù)各頻段信號變化特點,得到以下結論:CSTCN適合預測低頻信號,LSTM適合預測高頻信號和殘差序列。
表3 單一模型預測結果
3.4.3 組合模型及其對比實驗
經(jīng)過特征分解后的子序列和殘差序列分別使用CSTCN和LSTM模型得到的預測結果與真實值對比如圖5所示。
圖5 預測結果對比圖
使用3.2小節(jié)提出的評價指標進行分析,從分析結果可以看出:四項指標均得到了不同程度的提高。結果證明了組合多種預測模型能有效提高預測精度,降低誤差。子序列預測結果與最終結果的評價指標結果見表4。
表4 評價指標結果
實驗又對比了EMD分解方法和VMD下的預測模型,從表5和圖6可以看出,三種方法擬合度均表現(xiàn)良好,而使用WD分解方法的模型在預測精度上明顯高于其它方法,同時引入殘差序列也能使誤差降到最低。
表5 評價指標結果
圖6 不同分解方法對比圖
4.3.4 不同典型日實驗
僅根據(jù)某一天的數(shù)據(jù)不能證明模型的泛化能力,由于季度不同以及工作日和休息日的差別,電負荷會有較大變化,因此本文分別對工作日、休息日、第一季度、第二季度、第三季度和第四季度中隨機選取的某一天進行相同實驗,預測結果見表6所示??梢钥闯觯鎸Σ煌暮碾娏?、高峰時段、用電趨勢以及季節(jié)影響等因素影響下,本文提出的WD-CSTCN-LSTM模型的MAPE能穩(wěn)定在3.86%以內(nèi),且小于對比算法中其它預測模型,從而證明了模型具有較高的泛化能力。
表6 評價指標結果
本文立足于短期用戶側耗電預測領域,針對電力數(shù)據(jù)特征挖掘不全面的問題,提出了基于特征分解的短期電負荷組合預測模型。該模型深入挖掘了影響電負荷變化的特征后,通過小波分解手段使特征多樣化,引入影響因子,如高峰因子、季節(jié)因子、地理因子等用來捕捉少量劇烈變化和季節(jié)以及地理環(huán)境造成的影響,將分解得到的特征經(jīng)過相關度分析篩選,得到的子序列和生成的殘差序列分別利用CSTCN和LSTM模型進行預測,預測結果按相關度系數(shù)分權求和最終得到組合預測值。實驗結果表明了結合實際用電數(shù)據(jù)情況和電負荷預測影響因素的分析,針對不同影響因素使用不同的預測模型的方法能夠有效提高預測精度,降低誤差,更適用于短期電力預測的結論,同時對工作日、休息日、四個季度分別進行相同實驗,實驗結果證明了模型的泛化能力。然而,模型中使用的卷積網(wǎng)絡在訓練過程中花費時間較長,增加了訓練時間,這一問題將應該是下一步的需要考慮的重點。