張振中 郭傅傲 劉大明 唐 飛
1(天水電氣傳動研究所集團(tuán)有限公司 甘肅 天水 741020) 2(大型電氣傳動系統(tǒng)與裝備技術(shù)國家重點(diǎn)實(shí)驗(yàn)室 甘肅 天水 741020) 3(上海電力大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 上海 200093)
負(fù)荷預(yù)測是智能電網(wǎng)發(fā)展過程中的一項(xiàng)重要任務(wù)[1]。準(zhǔn)確的負(fù)荷預(yù)測對于電力系統(tǒng)調(diào)度和安全、可靠、經(jīng)濟(jì)的系統(tǒng)運(yùn)行至關(guān)重要?,F(xiàn)如今隨著可再生能源并入電網(wǎng)、電動汽車的日益普及和配電網(wǎng)負(fù)荷需求的時變性,不可避免地增加了電力系統(tǒng)的復(fù)雜性、不確定性和非平穩(wěn)性。
在短期負(fù)荷預(yù)測中,原始數(shù)據(jù)集選擇和預(yù)測模型構(gòu)建是近些年研究的兩個重點(diǎn)領(lǐng)域。原始數(shù)據(jù)集特征提取方面,文獻(xiàn)[2-3]采用Person相關(guān)系數(shù)分析對電力負(fù)荷進(jìn)行特征選擇。但由于電力系統(tǒng)相關(guān)數(shù)據(jù)是多維非線性的,采用線性相關(guān)的Pearson系數(shù)分析并不合適。歷史負(fù)荷序列具有非平穩(wěn)的特點(diǎn),文獻(xiàn)[4]利用小波分解將歷史負(fù)荷分解為一系列平穩(wěn)子序列進(jìn)行預(yù)測,最后由重構(gòu)得到最終預(yù)測。結(jié)果表明,非平穩(wěn)的負(fù)荷經(jīng)小波分解后將會得到更準(zhǔn)確的預(yù)測結(jié)果。
在預(yù)測模型構(gòu)建方面,機(jī)器學(xué)習(xí)模型由于對非線性序列具有良好的預(yù)測能力,從而被廣泛應(yīng)用于電力系統(tǒng)負(fù)荷預(yù)測中,代表模型主要有支持向量回歸(SVR)、多層感知機(jī)(MLP)、深度學(xué)習(xí)和集成預(yù)測。由于單一模型在預(yù)測方面的泛化能力和預(yù)測精度不足,文獻(xiàn)[5-6]采用多模型融合進(jìn)行預(yù)測,提高了預(yù)測精度。
為提高負(fù)荷預(yù)測精度,本文提出一種基于最大互信息系數(shù)(MIC)與小波分解的多模型集成短期負(fù)荷預(yù)測新方法。首先采用MIC對多源特征進(jìn)行選擇,生成最佳特征集;然后經(jīng)小波變換將提取出的非平穩(wěn)負(fù)荷序列進(jìn)行頻域分解,生成平穩(wěn)高通和低通分量信號;運(yùn)用多模型預(yù)測算法對各分量信號進(jìn)行訓(xùn)練,由重構(gòu)得出各個模型的子預(yù)測結(jié)果;最后通過二次學(xué)習(xí)生成的決策模型集成并生成最終預(yù)測結(jié)果。對IESO官網(wǎng)公開的加拿大渥太華市真實(shí)電網(wǎng)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析,并與其他預(yù)測模型做對比,實(shí)驗(yàn)結(jié)果表明本文集成預(yù)測方法具有更高預(yù)測精度。
最大互信息系數(shù)(MIC)是2011年由Reshef等[8]提出的,它是在互信息(MI)的基礎(chǔ)上發(fā)展而來的?;バ畔⒖煽醋饕粋€隨機(jī)變量由于已知另一個隨機(jī)變量而減少的不確定度,主要用來衡量線性或非線性變量之間的關(guān)聯(lián)程度。設(shè)x、y為隨機(jī)變量,則互信息定義為:
(1)
式中:I(x;y)為變量x、y的互信息;p(x,y)為聯(lián)合概率密度函數(shù);p(x)和p(y)為邊緣密度函數(shù)。兩個變量之間互信息越大,則相關(guān)性越強(qiáng)。相較于互信息而言,MIC在MI基礎(chǔ)上克服了互信息對連續(xù)變量計(jì)算不便的缺點(diǎn),具有更高的準(zhǔn)確度。當(dāng)擁有足夠的統(tǒng)計(jì)樣本時MIC可以捕獲廣泛的關(guān)系,更能體現(xiàn)屬性特征之間的關(guān)聯(lián)程度[8]。
MIC計(jì)算主要分為以下三步:
2) 對所求最大互信息值除以log(min(m,n))歸一化處理,將其轉(zhuǎn)化到(0,1)區(qū)間;
3) 構(gòu)建多種不同網(wǎng)格尺度m×n,依次代入式(1)和式(2)求得最大歸一化互信息值作為最終MIC值。MIC的整體求值公式為:
(2)
式中:m×n
D=[Wi,M1i,M2i,…,D1i,D2i,…,li]
(3)
式中:W為負(fù)荷所屬日類型,定義W=1為工作日,W=0為周末或假日;M1i、M2i、…表示經(jīng)MIC特征選擇后的氣象特征變量;D1i、D2i、…表示經(jīng)特征選擇后的日期類型特征變量;li表示歷史負(fù)荷變量;下標(biāo)i為對應(yīng)負(fù)荷時刻的氣象和日期類型變量,i=1,2,…,n,n為負(fù)荷值個數(shù)。
小波變換(Wavelet Transform,WT)是一種新的變換分析方法,它繼承和發(fā)展了短時傅里葉變換局部化的思想,同時又克服了窗口大小不隨頻率變化等缺點(diǎn),在信號處理、去噪等方面表現(xiàn)出強(qiáng)大的優(yōu)越性[9]。本文利用小波變換將非平穩(wěn)負(fù)荷相關(guān)數(shù)據(jù)分解成一組具有不同頻率的本構(gòu)分量。每個本構(gòu)分量都由一個預(yù)測模型來預(yù)測。與原始發(fā)電序列相比,本構(gòu)分量的方差穩(wěn)定、平穩(wěn)性好[4],因此可以更準(zhǔn)確地進(jìn)行預(yù)測。
小波變換可分為連續(xù)小波變換(CWT)和離散小波變換(DWT)兩類。CWT可定義為:
(4)
(5)
式中:x(t)表示原始輸入;ψa,b(t)表示母波信號,a、b分別為尺度因子和平移參數(shù);*表示共軛復(fù)參數(shù)。DWT可通過對母波信號的離散化平移和縮放得到:
(6)
式中:a=2m,b=n2m;T為離散點(diǎn)個數(shù)。負(fù)荷序列通過離散小波變換進(jìn)行分解。將預(yù)處理后的負(fù)荷序列信號進(jìn)行兩級小波分解,分為一低頻兩高頻信號。負(fù)荷序列兩級分解的一個實(shí)例如下:
l(t)=A1(t)+D1(t)=A2(t)+D2(t)+D1(t)
(7)
負(fù)荷序列首先分為低頻A1和高頻D1信號。然后,低頻A1被進(jìn)一步分解成兩個分量:A2和D2。低頻近似分量A2反映了總體趨勢,呈現(xiàn)負(fù)荷光滑形式。D1和D2描述了負(fù)荷中的高頻分量。
利用母小波coif4對文中負(fù)荷時間序列分解,生成低頻近似分量和高頻細(xì)節(jié)分量,共3個子數(shù)據(jù)集。
在預(yù)測模型構(gòu)建方面,為克服了單模型擬合過度和泛化能力有限的問題,在經(jīng)特征選擇和小波分解的數(shù)據(jù)集基礎(chǔ)上,采用不同的機(jī)器學(xué)習(xí)算法構(gòu)建出異構(gòu)集成預(yù)測模型,利用多算法的互補(bǔ)優(yōu)勢來解決單一算法精度低和應(yīng)用有限的問題[10]。
在負(fù)荷預(yù)測中,LSSVR是支持向量回歸的一種擴(kuò)展,其將SVR算法的不等式約束轉(zhuǎn)換為等式約束,大大方便了Lagrange乘子α的求解,降低了計(jì)算復(fù)雜度,且由于待選參數(shù)少、求解速度快的優(yōu)勢,被廣泛地應(yīng)用于電力系統(tǒng)負(fù)荷預(yù)測中。LSTM是普通循環(huán)神經(jīng)網(wǎng)絡(luò)RNN衍變出的一種變種模型,能夠建立先前信息與當(dāng)前環(huán)境之間的時間相關(guān)性,克服了普通RNN在訓(xùn)練反傳過程中出現(xiàn)的梯度消失等問題,因其中含有記憶單元,非常適用于處理和預(yù)測長時間序列問題。XGBoost是一種對異常值具有較強(qiáng)魯棒性的樹型算法,并在工程實(shí)現(xiàn)上做了大量優(yōu)化,是目前具有良好分類和預(yù)測的機(jī)器學(xué)習(xí)方法之一,且用于模型訓(xùn)練的設(shè)置參數(shù)較少,該方法能有效克服過擬合問題,預(yù)測性能優(yōu)于漸近梯度回歸樹和隨機(jī)森林。
因此,本文首選LSSVR、LSTM和XGBoost三種異構(gòu)預(yù)測模型來分別訓(xùn)練經(jīng)MIC特征選擇和小波分解后的數(shù)據(jù)集,最后通過小波重構(gòu)得到對應(yīng)的預(yù)測結(jié)果。其中:原始數(shù)據(jù)的前90%作為訓(xùn)練集,后10%作為測試集。訓(xùn)練集中每前一個星期數(shù)據(jù)(包括負(fù)荷、天氣、日期類型數(shù)據(jù))作為訓(xùn)練輸入,訓(xùn)練輸出為當(dāng)天的負(fù)荷數(shù)據(jù)。
多模型融合預(yù)測的集成方法主要有四類:簡單平均法、加權(quán)平均法、線性模型訓(xùn)練集成和非線性學(xué)習(xí)模型訓(xùn)練集成等。簡單平均法和加權(quán)平均法只是將多模型的預(yù)測輸出作為變量,然后采取簡單措施得出一個最終結(jié)果,但是忽略了原始數(shù)據(jù)集特征,所得最終輸出效果不佳。而二次學(xué)習(xí)則是在原始特征和上一階段預(yù)測輸出的基礎(chǔ)上訓(xùn)練一個新的學(xué)習(xí)模型,通過參數(shù)調(diào)整得到集成決策模型。然后將多模型的預(yù)測結(jié)果作為決策模型的輸入并由決策模型訓(xùn)練學(xué)習(xí)得到最終預(yù)測結(jié)果。
學(xué)習(xí)模型主要包括線性模型和非線性學(xué)習(xí)模型。由于時序電力負(fù)荷呈非線性,線性模型在處理非線性數(shù)據(jù)時預(yù)測精度較低,魯棒性差。而非線性模型卻可以很好地對電力負(fù)荷數(shù)據(jù)進(jìn)行處理。
二次學(xué)習(xí)決策模型訓(xùn)練方法:
1) 原始訓(xùn)練集(包括原始負(fù)荷及相關(guān)影響因素特征)和各個預(yù)測模型的輸出結(jié)果組成新的訓(xùn)練集。利用經(jīng)訓(xùn)練后的多模型對預(yù)測前K小時負(fù)荷進(jìn)行預(yù)測,將預(yù)測負(fù)荷(LSS1,LSS2,…,LSSk),(LST1,LST2,…,LSTk),(XGB1,XGB2,…,XGBk)作為新特征加入到原始訓(xùn)練集中,得到新的訓(xùn)練特征集:
DS=[Wi,M1i,M2i,…,D1i,D2i,…,li,
LSS1,LSS2,…,LSSk,LST1,LST2,…,LSTk
XGB1,XGB2,…,XGBk]
2) 將步驟1)所得的新訓(xùn)練集分別輸入至非線性預(yù)測模型(LSSVR、LSTM、XGBoost)進(jìn)行再次訓(xùn)練學(xué)習(xí),通過以損失函數(shù)最小為目標(biāo)進(jìn)行參數(shù)調(diào)整,最后找出訓(xùn)練良好、預(yù)測精度高的模型作為決策模型。如圖1所示。
圖1 二次學(xué)習(xí)生成決策模型的訓(xùn)練過程
設(shè)計(jì)的預(yù)測方法總體流程如圖2所示,可分為四個階段。
圖2 預(yù)測方法總體流程
1) MIC特征選擇及處理:對原始數(shù)據(jù)集利用MIC特征選擇技術(shù)選出與歷史負(fù)荷相關(guān)性較大的因素,并生成輸入特征序列。
2) 小波變換:在上一步基礎(chǔ)上,利用小波變換將非平穩(wěn)負(fù)荷序列進(jìn)行兩級小波分解,轉(zhuǎn)換為較為平穩(wěn)的負(fù)荷相關(guān)序列,更有利于負(fù)荷預(yù)測。
3) 異構(gòu)多模型集成預(yù)測:利用較強(qiáng)泛化能力和預(yù)測精度的LSSVR、LSTM、XGBoost三種機(jī)器學(xué)習(xí)模型對小波分解后的平穩(wěn)信號訓(xùn)練學(xué)習(xí),由模型重構(gòu)得到每種模型的預(yù)測輸出。
4) 二次學(xué)習(xí):將三種不同預(yù)測模型輸出的結(jié)果同原始特征集組成新的訓(xùn)練集,輸入到預(yù)測性能優(yōu)越的模型進(jìn)行再次訓(xùn)練學(xué)習(xí),經(jīng)調(diào)參后得到訓(xùn)練良好的決策模型。最后由決策模型得到最終預(yù)測結(jié)果。
實(shí)驗(yàn)選用加拿大渥太華市2016年到2018年三年真實(shí)電網(wǎng)數(shù)據(jù)(一天24數(shù)據(jù)點(diǎn))、氣象因素(溫度、風(fēng)速、濕度)、日期類型(年、月、日)為例。原始負(fù)荷數(shù)據(jù)集如圖3所示。
圖3 原始負(fù)荷數(shù)據(jù)集
由圖3可知,負(fù)荷數(shù)據(jù)集中存在個別異常值,為簡單處理,可直接將其剔除。然后由最大互信息系數(shù)對日負(fù)荷相關(guān)影響因素進(jìn)行特征選擇,如表1所示。
表1 MIC特征選擇
樣本數(shù)據(jù)量越大,達(dá)到顯著性相關(guān)的系數(shù)就會越小。本文最終選取了溫度特征變量同相應(yīng)的歷史負(fù)荷一同作為預(yù)測模型的輸入,輸入特征集D為:
D=[Wi,temp1,temp2,…,tempi,l1,l2,…,li]
式中:W為待預(yù)測負(fù)荷所屬日類型;tempi表示溫度特征變量,li表示歷史負(fù)荷變量;i=1,2,…,n,n為輸入負(fù)荷值個數(shù)。
數(shù)據(jù)集經(jīng)預(yù)處理后,利用兩級小波分解將歷史負(fù)荷變量變換為平穩(wěn)序列,分解后序列如圖4所示。
(a) A2
(b) D2
(c) D1圖4 負(fù)荷序列小波分解
此預(yù)測方法運(yùn)行在個人PC(配置為CoreI7處理器、8 GB RAM和DDR3存儲)的Python 3.6環(huán)境下。經(jīng)訓(xùn)練學(xué)習(xí)后三類模型主要參數(shù)選擇如表2所示。
表2 各模型參數(shù)選擇
將平均絕對百分比誤差(MAPE)、均方根誤差(RMSE)和平均絕對誤差(MAE)作為誤差評估指標(biāo),其公式分別如下:
(8)
(9)
(10)
經(jīng)上述MIC特征選取和DWT小波分解后的負(fù)荷子序列及對應(yīng)特征作為預(yù)測模型輸入。其中,三個子序列分別由同種預(yù)測模型進(jìn)行訓(xùn)練學(xué)習(xí),最后由小波重構(gòu)得出預(yù)測結(jié)果。本文采用了近幾年在負(fù)荷預(yù)測領(lǐng)域表現(xiàn)良好的多種機(jī)器學(xué)習(xí)模型(LSSVR、LSTM、XGBoost)進(jìn)行預(yù)測。一個月的預(yù)測結(jié)果如圖5所示。
圖5 單一預(yù)測模型對比
月負(fù)荷預(yù)測評估結(jié)果如表3所示??梢钥闯?,XGBoost、LSTM和LSSVR的MAPE分別為1.28%、1.33%、1.47%,上述單一模型均具有較好負(fù)荷預(yù)測能力。
表3 月負(fù)荷預(yù)測評估結(jié)果
為進(jìn)一步提升預(yù)測模型的整體預(yù)測精度和泛化能力,采用了XGBoost、LSTM和LSSVR進(jìn)行多模型融合預(yù)測,融合階段由二次學(xué)習(xí)得到的非線性決策模型進(jìn)行集成融合,決策模型的選擇則是根據(jù)上述實(shí)驗(yàn)得出。XGBoost相較于LSTM、LSSVR具有更高的預(yù)測精度,且XGBoost是由多個同構(gòu)決策樹集成所得,泛化能力強(qiáng),所以本文選擇XGBoost作為決策模型。
為了驗(yàn)證所提的基于最大互信息系數(shù)和小波分解的XGBoost負(fù)荷預(yù)測模型的有效性,本文將所提模型預(yù)測結(jié)果與上述單一模型中表現(xiàn)最好的XGBoost進(jìn)行比較,預(yù)測未來三天的負(fù)荷值(2018年12月29日—2018年12月31日),所得結(jié)果如圖6所示。
圖6 單一與集成預(yù)測模型對比
經(jīng)進(jìn)一步分析對比可得出,本文方法集成方法(MIC+DWT+Ensemble)的預(yù)測值和真實(shí)值的偏差明顯小于預(yù)測效果最好的單一模型MIC+DWT+XGBoost的預(yù)測結(jié)果,它們的MAPE分別為0.91%、1.24%,如表4所示。
表4 負(fù)荷預(yù)測評估結(jié)果
實(shí)驗(yàn)結(jié)果表明,經(jīng)多模型融合的集成預(yù)測模型預(yù)測效果高于預(yù)測性能良好的單一預(yù)測模型。通過MIC特征選擇與DWT小波分解為平穩(wěn)負(fù)荷序列后,由預(yù)測性能較好的模型對每個近似和細(xì)節(jié)平穩(wěn)分量進(jìn)行預(yù)測,然后由重構(gòu)得出三種不同預(yù)測結(jié)果,這些預(yù)測結(jié)果在同一小時內(nèi)是不同的,最后通過非線性二次學(xué)習(xí)將上述預(yù)測結(jié)果融合作為最終輸出,可進(jìn)一步提高負(fù)荷預(yù)測精度。
時序電力負(fù)荷具有非平穩(wěn)特性且受多種外在因素影響。單一預(yù)測模型在復(fù)雜電力系統(tǒng)中存在預(yù)測性能和泛化能力低的缺陷,較難滿足電力調(diào)度的要求。本文提出了一種基于最大互信息系數(shù)與小波分解的多模型集成短期負(fù)荷預(yù)測模型,并通過真實(shí)電網(wǎng)數(shù)據(jù)進(jìn)行了驗(yàn)證。得出以下結(jié)論:1) 影響負(fù)荷的因素眾多,利用適用于非線性數(shù)據(jù)的最大互信息系數(shù)選出與負(fù)荷相關(guān)性較大的影響因素,并將所選因素與歷史負(fù)荷一同作為預(yù)測模型輸入,可提高預(yù)測精度。2) 在預(yù)測模型方面,通過小波分解將非平穩(wěn)的負(fù)荷序列轉(zhuǎn)換成一組相對平穩(wěn)的本構(gòu)分量,更適用于負(fù)荷預(yù)測。3) 由預(yù)測性能良好的單一模型融合后生成的集成模型,可有效避免過擬合和梯度消失問題,進(jìn)一步提升負(fù)荷預(yù)測精度和泛化能力,在實(shí)際應(yīng)用中更具有價值。