王帥黨,程 鵬
(華北水利水電大學數(shù)學與統(tǒng)計學院,鄭州 450046)
受眾多因素的影響,提高短期風功率預測的準確性難度較大,如果選取的輸入特征過多,會導致預測模型出現(xiàn)過擬合現(xiàn)象,從而增加計算的復雜程度,降低模型性能。但選取的輸入特征過少,又會導致預測模型因挖掘信息不充分而精度下降。
近年來,利用機器學習算法構建風電功率預測模型屢見不鮮,如:在風電功率預測中使用時間序列法,采用自回歸滑動平均(ARMA)模型對其進行優(yōu)化[1-2];采用粒子群優(yōu)化算法開展短期風電輸出功率預測[3];結合電場的風速及功率數(shù)據(jù),運用支持向量機構建機器學習模型[4-5];有人提出基于能量差優(yōu)化變分模態(tài)分解及布谷鳥優(yōu)化組合神經(jīng)網(wǎng)絡的短期風功率預測模型[6];建立集合經(jīng)驗模態(tài)分解(EEMD)與雙向長短期記憶(BiLSTM)相結合的風功率并行組合預測模型[7]。我國學者的研究集中于風電功率的超短期預測上,大多采用時間序列法[8-10]、神經(jīng)網(wǎng)絡法[6]、支持向量機[4]等構建風電功率預測模型。
基于以上分析,運用主成分分析(PCA)算法對維數(shù)較高、沒有線性可循的數(shù)據(jù)進行處理,利用灰狼優(yōu)化算法(GWO)對雙向長短期記憶(BiLSTM)模型進行參數(shù)尋優(yōu),即提出PCA-GWO-BiLSTM模型(下稱PG-BiLSTM模型),得到一種預測地區(qū)短期風功率的并行機器學習方法。經(jīng)驗證對比,該模型擁有較好的預測能力、魯棒性及有效性。
主成分分析法(Principal Component Analysis,PCA)是一種使用廣泛的數(shù)據(jù)降維算法。主要思想是將n維特征映射到k維上,這k維是全新的正交特征,也被稱為主成分,是在原有n維特征的基礎上重新構造出來的k維特征。
PCA的基本原理如下:令R1是從原始數(shù)據(jù)中取出的首個線性組合組成的主成分,可得關系式:
R1=a11Q1+a12Q2+…+a1pQp
(1)
其中,aij(i,j=1,2…)為R1的系數(shù),Qi(i=1,2…)為原始數(shù)據(jù)中其他線性組合。由上式可知,當Var(R1)越大,R1中含有的原始數(shù)據(jù)信息越多。
由R1作為該組原始數(shù)據(jù)下的第一主成分,從后面所有的線性組合Q1,Q1,…,Qp里Qi(i=1,2…)中選出方差最大的作為第二主成分R2。為了保證數(shù)據(jù)分析的可靠性,Cov(R1,R2)=0,在原本線性組合Q1,Q1,…,Qp中除去R1的數(shù)據(jù)信息后,剩下的線性組合中方差極大值的組可以成為其次主成分,由此可得R1,R1,…,Rp為原始數(shù)據(jù)變量集中的第1個、第2個、……第p個主成分,關系式如下:
(2)
灰狼優(yōu)化算法(Grey Wolf Optimizer,GWO)是一種群智能優(yōu)化算法,簡單易實現(xiàn),搜索性能較好,近年來被廣泛研究。
集體狩獵是灰狼的一種社會行為,社會等級在集體狩獵過程中發(fā)揮著重要的作用?;依侨阂话惴譃?個等級,即α,β,δ,ω(權利從大到小)。
捕食過程在α的帶領下完成,主要包括3個步驟:①跟蹤和接近獵物。②騷擾、追捕及包圍獵物,直到其停止移動。③攻擊獵物。
灰狼與獵物間的距離公式與位置更新公式:
(3)
系數(shù)向量:
【子棱生氣地扯下胸前的大紅綢,一屁股坐在椅子上,心煩意亂地拿起茶幾上的書,卻看不下去,索性把腳翹在扶手上,身子后仰,將書蓋在臉上。
A=2a·r1-a
(4)
C=2·r2
(5)
其中,t為迭代次數(shù),D是個體與獵間的距離向量,‘·’ 不是點積,是乘法,Xp是獵物位置向量,X為灰狼位置向量,a是收斂因子(隨迭代次數(shù)從2線性減小到0),r1和r2是隨機向量,模取[0,1]之間的隨機數(shù)。
當灰狼識別出獵物的位置后,在α、β、δ的帶領下指導狼群包圍獵物?;依莻€體跟蹤獵物位置的數(shù)學模型描述如下:
(6)
其中,Dα,Dβ、Dδ分別表示α、β及δ與其他個體間的距離。Xα、Xβ、Xδ分別代表α、β及δ當前的位置。C1、C2、C3是隨機向量,X是當前灰狼的位置。
(7)
(8)
式(7)分別定義了狼群中ω個體朝向α、β及δ前進的步長與方向,式 (8) 定義了ω的最終位置。
在迭代過程中,a的值從2線性下降到0,對應的A值在區(qū)間[-a,a]內(nèi)變化。C是[0,2]之間的隨機向量,表示狼所在的位置對獵物影響的隨機權重。
雙向長短期記憶是傳統(tǒng)長短期記憶(LSTM)的擴展,在輸入序列的所有時間步長可用問題中,BiLSTM在輸入序列上訓練兩個LSTM。雙向循環(huán)神經(jīng)網(wǎng)絡在隱藏層中的信息傳遞有兩種方式,即正向傳遞與反向傳遞相結合。在t時刻,正向傳遞的RNN單元與反向傳遞的RNN單元在BRNN的基礎上修改隱藏層神經(jīng)單元為LSTM單元,即得到BiLSTM,故前向 LSTM與后向LSTM組合得到BiLSTM模型結構。BiLSTM 結合了BRNN與LSTM的優(yōu)勢,具有長期記憶能力,能夠同時存儲過去與未來的數(shù)據(jù)特征,保持輸入特征之間的依賴關系。
將原始數(shù)據(jù)進行預處理后,利用主成分分析算法對輸入變量進行降維處置,利用灰狼優(yōu)化算法對雙向長短期時間記憶模型進行參數(shù)尋優(yōu),將得到處理后的數(shù)據(jù)與最優(yōu)超參數(shù)帶入到預測模型中,即得到PG-BiLSTM模型,具體步驟如下:
利用灰狼算法優(yōu)化BiLSTM模型,對于每個灰狼個體,使用適應度函數(shù)評估其在訓練數(shù)據(jù)上的性能,灰狼位置更新達到最大迭代次數(shù)或適應度值收斂,選擇具有最佳適應度值的灰狼個體作為最優(yōu)解。
測試和應用。使用得到的最優(yōu)解(最佳超參數(shù)配置的雙向LSTM模型)在測試數(shù)據(jù)上進行驗證,并應用于實際場景中的序列數(shù)據(jù)分析任務,算法流程如圖1。
圖1 算法流程
圖2 各模型收斂曲線對比圖
使用絕百分比誤差MAE(預測值與觀測值之間絕對誤差的平均值)、均方誤差MSE(真實值與預測值的誤差的平方和的均值)及均方根誤差RMSE(預測值與觀測值之間殘差的樣本標準差)作為預測評估指標[式(9~11)],誤差指標值越小預測越準確,模型性能越高。R2[式(12)]表示回歸直線對觀測數(shù)據(jù)的擬合程度,在[0,1]范圍內(nèi)越接近1,說明擬合程度越好,反之就說明越差。
(9)
(10)
(11)
(12)
選取某地區(qū)風電場的風功率數(shù)據(jù)作為數(shù)據(jù)組,數(shù)據(jù)選取時段為2015年2月1日00:00時至2 月28日23:50時及3月1日00:00時至3月31日23:50時,風功率采集間隔為10 min。以二月份為例,共4031行樣本數(shù)據(jù),其中前3225行為訓練數(shù)據(jù)集,后806行為測試數(shù)據(jù)集,時間步為10,即用前22 d的風功率訓練模型對后6 d的風功率數(shù)據(jù)進行超短期預測擬合。
在實驗仿真過程中分別建立LSTM、BiLSTM及GWO-BiLSTM 3種模型。
通過訓練集的損失收斂曲線與測試集的損失收斂曲線對比線可以看出,3種模型都有著不錯的預測能力,在模型損失方面,LSTM模型的損失高于BiLSTM模型、GWO-BiLSTM模型,GWO-BiLSTM模型的損失收斂速度更快。
LSTM、BiLSTM及GWO-BiLSTM仿真結果與相對誤差如圖3所示。
圖3 LSTM/BiLSTM/GWO-BiLSTM預測對比
預測結束后,將預測相對誤差分布進行提取。提取另外4種誤差系數(shù),繪制表格對比分析,見表1。
由表1數(shù)據(jù)可知,GWO-BiLSTM構建的模型相比傳統(tǒng)時間記憶網(wǎng)絡構建的模型平均絕對誤差(MAE)、均方誤差(MSE)及均方根誤差(RMSE)都低于其他模型,決定系數(shù)(R2)高于其他模型。
表2是PG-BiLSTM模型在進化代數(shù)、尋值步數(shù)及迭代次數(shù)一致的情況下,灰狼種群規(guī)模在4、10、20、30時不同評價指標下預測的詳細誤差數(shù)據(jù)及模型擬合優(yōu)度R2的值,可以看到不同灰狼種群的數(shù)量尋優(yōu)出的不同參數(shù)對預測模型的損失所產(chǎn)生的影響呈現(xiàn)負相關,即在一定范圍內(nèi)種群數(shù)量越大,模型損失越低,預測越準確。
進化代數(shù):灰狼優(yōu)化算法尋找最優(yōu)值的代數(shù)。尋值次數(shù):狼群縮小包圍圈所需要的步數(shù)。迭代次數(shù):預測模型進行預測的代數(shù)。
灰狼優(yōu)化算法的進化代數(shù)即尋優(yōu)代數(shù)在本實驗中控制為10次。圖4是表2的對照實驗中灰狼算法尋優(yōu)的收斂曲線,可見種群數(shù)量對收斂的速度并無太大影響,但其收斂精度有所提升。
圖4 各種群GWO尋優(yōu)收斂曲線
在本組實驗仿真過程中未結合PCA的GWO-BiLSTM模型與結合PCA的GWO-BiLSTM模型進行對比。
通過圖2訓練集的損失收斂曲線與測試集的損失收斂曲線的對比線可以看出,兩種模型都有著不錯的預測能力。在模型損失方面,GWO-BiLSTM模型的損失高于PG-BiLSTM模型,PG-BiLSTM模型的損失收斂速度也更快。仿真結果與相對誤差分布如圖5所示。
圖5 GWO-BiLSTM/PG-BiLSTM預測對比
預測結束后,將預測相對誤差分布圖進行提取。提取另外4種誤差系數(shù),繪制表格對比分析,見表3。
表3 GWO-BiLSTM/PG-BiLSTM各迭代次數(shù)結果
由表3數(shù)據(jù)可知兩種優(yōu)化模型在不同迭代次數(shù)下的評價指標對照,兩種模型在誤差指標上均呈現(xiàn)良好的收斂趨勢,迭代在30次或更少的迭代次數(shù)時,GWO-BiLSTM模型的擬合優(yōu)度更高;迭代50次及以上時,PG-BiLSTM模型預測的平均絕對誤差(MAE)、均方誤差(MSE)及均方根誤差(RMSE)都低于未使用PCA模型的模型,擬合優(yōu)度更高;迭代在70次時,擬合優(yōu)度指標R2已經(jīng)達到了0.99以上。
為提高超短期風功率預測的準確性,提出一種基于灰狼優(yōu)化算法及主成分分析改進雙向長短期記憶的地區(qū)短期風功率預測模型,對模型的性能及準確率進行了驗證,得出結論如下:
GWO-BiLSTM模型預測精度要顯著高于LSTM模型與BiLSTM模型,經(jīng)灰狼優(yōu)化算法優(yōu)化的雙向長短期記憶神經(jīng)網(wǎng)絡模型具有更好的預測精度及模型擬合優(yōu)度,可為風電功率預測提供新的研究途徑。
PG-BiLSTM模型的預測精度在GWO-BiLSTM模型的基礎上再度提升,在面對風力這種完全沒有線性可循的數(shù)據(jù)及數(shù)據(jù)維數(shù)較高的情況下,此模型具有最好的預測精度,能夠有效解決維度災難問題,為其他領域數(shù)據(jù)使用時遇到維度災難問題提供了有效的解決思路。
在研究預測問題的基礎上對灰狼算法進行了初步的研究及應用,可以看到,灰狼算法及早進行了收斂,但模型的相關系數(shù)R2的數(shù)值也并非次次理想,故改進灰狼算法使其貼合預測模型以達到更好的精度將是一個很好的研究方向。