周 文,孟 良,楊正富,劉志恒,劉志賓
(1.國網(wǎng)河北省電力有限公司電力科學研究院,河北石家莊 050000;2.國網(wǎng)雄安思級數(shù)字科技有限公司,河北雄安 071700;3.河北大學電子信息工程學院,河北保定 071002;4.保定市風力發(fā)電數(shù)字化智能運維重點實驗室,河北保定 071002;5.北華航天工業(yè)學院,河北廊坊 065000)
光伏能源系統(tǒng)具有很高的能源生產(chǎn)率潛力,是應用最廣泛且可取的可再生能源技術(shù)之一。準確的光伏發(fā)電出力預測對于保障高比例光伏接入后系統(tǒng)的安全穩(wěn)定與經(jīng)濟運行具有重要意義[1]。
電池狀況、太陽電池類型、模塊電路、入射角、天氣狀況和其他參數(shù)的因素都會影響所產(chǎn)生的電能。文獻[2]根據(jù)天氣分類(晴天、陰天和雨天),提前選擇每天合適的架構(gòu)和訓練參數(shù)。通過建立一種精確的神經(jīng)網(wǎng)絡(luò),估算大型并網(wǎng)光伏電站的光伏電池功率。文獻[3]中采用小波變換對不良光伏發(fā)電的數(shù)據(jù)過濾,結(jié)合神經(jīng)網(wǎng)絡(luò)實現(xiàn)提前一小時功率預測,解決了輸入時間序列中出現(xiàn)尖峰和混沌變化不準確問題。文獻[4]提出一種基于線空間重構(gòu)和譜特征提取的分布式光伏系統(tǒng)變負荷工況發(fā)電功率預測方法。為預測不同太陽輻射強度下光伏發(fā)電系統(tǒng)的發(fā)電量,文獻[5]構(gòu)建了以光輻射強度和溫度為變量的發(fā)電輸出功率模型。文獻[6]提出了基于實際BP 網(wǎng)絡(luò)拓撲結(jié)構(gòu)的分層優(yōu)化方法,以減小光伏出力的預測誤差。文獻[7]中,混合神經(jīng)模糊用于預測風力發(fā)電機的電力輸出,為了提高預測準確性,以不同季節(jié)將數(shù)據(jù)分為四個子集。文獻[8]提出一種基于粒子群優(yōu)化與邊界估值理論的預測模型,用于光伏出力區(qū)間預測。通過利用粒子群算法對邊界估值理論的輸出權(quán)值進行優(yōu)化。文獻[9]建立任意溫度和光強下光伏發(fā)電預測模型,驗證了多晶硅的預測難度大于單晶與非晶硅電池。可見,前人研究的主要工作集中在光伏出力預測方面,沒有系統(tǒng)地比較不同方法的性能,以及不同預測時間范圍對結(jié)果的影響。
本文基于變化的預測時間范圍,對比不同時間序列的預測模型,分析統(tǒng)計(持久)方法和基于人工智能的方法對PV 輸出功率的效率。統(tǒng)計模型屬于持久性模型類別,包括自回歸移動平均值(autoregressive moving average,ARMA)、自回歸綜合移動平均值(autoregressive integrated moving average,ARIMA)和季節(jié)性自回歸綜合移動平均值(seasonal autoregressive integrated moving average,SARIMA)。
分析了六種不同類型的NN 模型:雙向長期短期記憶(bidirectional long short term memory,BI-LSTM),長期短期記憶(long short term memory,LSTM),模糊c 均值聚類,層遞歸(layer recurrent,LRNN),多層感知器(multi-layer perceptron,MLP)和前饋NN。此外,本文的主要新穎之處可以歸納為:提出了一種新的深度學習BI-LSTM 算法,作為大型光伏電站的準確功率預測模型;評估并比較不同NN 和統(tǒng)計方法的性能,以進行大型光伏系統(tǒng)的時間序列預測;研究了預測模型可靠運行的時間范圍。
基于中國南部的并網(wǎng)光伏電站數(shù)據(jù)進行分析[3],該系統(tǒng)的最大容量為20 MW,記錄2019 年1 月13 日到2019 年10 月29 日的日期范圍內(nèi)的太陽能輸出功率。光伏設(shè)備的功率輸出在晚上8 點至次日早上6 點之間始終為0,下午7 點至晚上8 點之間的輸出功率很低,接近為0。因此,只考慮上午6 點到晚上7 點之間的功率。每15 min 記錄一次功率數(shù)據(jù),并將其轉(zhuǎn)換為每小時平均值,實現(xiàn)信號平滑,易于算法學習。以小時平均為基礎(chǔ)的時間序列對光伏發(fā)電的預測比對未來15 min 光伏發(fā)電的預測更為準確。進而將數(shù)據(jù)標準化,并使用窗口大小為14 h(最大連續(xù)日光時間范圍)的Hampel 濾波器除去異常值和缺失值。
1.2.1 建立人工神經(jīng)網(wǎng)絡(luò)模型
基于trainbr 和trainlm 兩個功能訓練NN,trainbr(貝葉斯正則化)使平方誤差和權(quán)重的組合最小化,trainlm 使用Levenberg-Marquardt 優(yōu)化來調(diào)整偏差和權(quán)重。NN 的每個隱藏層中的層數(shù)和神經(jīng)元數(shù)均未遵循固定的理論指導原則,根據(jù)均方誤差(mean squared error,MSE)經(jīng)驗選擇層和神經(jīng)元的數(shù)量作為性能指標。用LRNN 代表Layer recurrent,表1 列出了用于互相驗證模式的網(wǎng)絡(luò)配置。LSTM 和BI-LSTM 由Adam 求解器訓練,最大期數(shù)設(shè)置為100。為驗證有效性,使用相關(guān)系數(shù)R和均方根誤差RMSE指導預測性能。
表1 NN 的層數(shù)和神經(jīng)元數(shù)
1.2.2 搭建統(tǒng)計模型
建立ARMA,ARIMA 和SARIMA 三種統(tǒng)計模型?;贏kaike’s 的信息準則(Akaike’s information criterion,AIC)優(yōu)化模型中的參數(shù)。AIC 可實現(xiàn)對模型相似性的評估。貝葉斯信息準則(Bayesian information criterion,BIC)是模型選擇的類似準則。預測模型的AIC 和BIC 表示為:
式中:p為自回歸階數(shù);q為移動平均階數(shù);rss為殘差方差(和平方);T為觀測值。通過設(shè)置參數(shù)的不同組合,得到最小的AIC 或BIC 值。自相關(guān)函數(shù)(auto correlation function,ACF)和部分自相關(guān)函數(shù)(partial autocorrelation function,PACF)的圖也有助于參數(shù)選取。
交叉驗證是一種將數(shù)據(jù)分為多個訓練和測試子集,重新采樣的過程。通過查看所有測試子集的預測準確性度量來獲得預測器的總體性能,基于窗口滑動交叉驗證方法對預測性能進行評估。在小數(shù)據(jù)樣本的情況下,時間序列交叉驗證是預測模型中的關(guān)鍵驗證步驟。交叉驗證過程中,訓練、驗證和測試集的大小是固定的:其中用于訓練的樣本容量為2 730 個(75%),用于驗證的樣本容量為364 個(10%)和用于測試的樣本容量為546 個(15%)。測試了2 184 個不同樣本,分四次試驗進行(546×4),記錄每次交叉驗證嘗試的性能指標,用于估算總體預測準確性。
為了預測光伏電站的發(fā)電量,采用8 時間延遲作為NNs輸入層中的變量,分別為t-i,i={1,2,4,6,8,10,12,14},如圖1 所示。將該模型的預測結(jié)果與由4 時延的模型預測的結(jié)果進行對比,應用于提前1 h 的功率預測。用于訓練和測試的8 延遲模型的輸入矩陣和相應的輸出矩陣如式(3)所示。
圖1 前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)用于預測PV 功率輸出
用LM 和BR 分別代表TRAINLM 和TRAINBR,表2 和表3 中的仿真結(jié)果表明(提前1 h),第一個模型更可靠地跟蹤非線性和PV 功率。根據(jù)測試集的相關(guān)系數(shù)R降序在表中對算法進行排序。對比了統(tǒng)計算法的平均計算時間,平均計算時間是一次驗證所需的訓練、測試和結(jié)果生成所需的時間。
表2 不同NN 的預測數(shù)據(jù)(模型1,8 個時延)
表3 不同NN 的預測數(shù)據(jù)(模型2,4 個時延)
相關(guān)系數(shù)R和RMSE定義如下:
式中:N為樣本數(shù);P為預測值;O為觀測值;m為平均值;s為標準偏差。通過將每次驗證的結(jié)果分為兩列來計算總體RMSE和總體R:一列用于觀察,一列用于預測,或使用式(6)計算總體RMSE。下標1,2…,5 代表驗證次數(shù),MSE為均方誤差。
由表2 可知,BI-LSTM 表現(xiàn)出最高的相關(guān)系數(shù)R和最低的均方根誤差RMSE,可見模型1 中的BI-LSTM 為最準確的預測算法,用于系統(tǒng)的光伏功率預測。雙向LSTM 的學習速度比單向LSTM 快,另一方面,由具備兩個訓練功能對多層感知器(MLP)進行訓練的平均計算時間為1~2 s,體現(xiàn)出速度優(yōu)勢。模型1 中的不同NN,相關(guān)系數(shù)R范圍為93.4%~98%,RMSE范圍為0.791~1.25。
圖2 為基于BI-LSTM 算法對8 時延(模型1)的不同天數(shù)(晴天、陰天和雨天)的光伏功率預測,可見觀測結(jié)果與預測結(jié)果吻合良好。試驗4 的驗證結(jié)果如圖3 所示,可以看出,誤差主要集中在0~1 之間。
圖2 BI-LSTM預測結(jié)果與實際發(fā)電量對比圖
圖3 第4次PV 功率預測的BI-LSTM結(jié)果
光伏功率輸出的預測值小于觀測值,誤差通常為正。546 個樣本中的220 個樣本中,誤差幾乎為0??梢缘贸鼋Y(jié)論,BI-LSTM 顯示出強大的潛力,可以在提前1 h 的短期內(nèi)有效地預測PV 輸出。
為了評估中期預測的不同NN 的性能,提前2~3 h 進行PV 預測,并將結(jié)果匯總在表4 和表5 中(8 個時延)。
表4 不同NN 的預測數(shù)據(jù)(提前2 h)
表5 不同NN 的預測數(shù)據(jù)(提前3 h)
可見BI-LSTM 的結(jié)果最準確,前饋NN 與Trainbr 的最低相關(guān)系數(shù)R從93.2%變?yōu)?8.5%(請參見表2 和表4)。對于超過2 h 的時間范圍,相關(guān)系數(shù)R低于90%。因此,在不進行額外的太陽輻照度測量或天氣狀況的情況下,不建議將神經(jīng)網(wǎng)絡(luò)用于光伏系統(tǒng)功率輸出的時間序列預測。與提前1 h 的預測相比,提前2~3 h 預測的平均計算時間長將近1 s。
樣本自相關(guān)和局部自相關(guān)函數(shù)產(chǎn)生的功率和一次差分輸出如圖4 和圖5 所示。
圖4 (a)ACF和(b)PACF的功率輸出
圖5 (a)ACF和(b)PACF的第一個差分功率輸出
由樣本自相關(guān)圖可見,數(shù)據(jù)具有季節(jié)性模式,SARIMA 模型的季節(jié)性指數(shù)的值設(shè)置為14,按每天14 h 記錄數(shù)據(jù),1 次/h。通過優(yōu)化模型參數(shù),采用具有最低AIC 值的模型實現(xiàn)預測。如圖5所示,ACF在第二次延遲之后衰減,而PACF在第三次延遲之后衰減。因此,理論上我們應該使用SARIMA 模型的AR(2)。如圖5(b)所示,SARIMA 模型的移動平均線的階數(shù)為1。AIC值用于選擇最合適的模型,ARIMA 和SARIMA 模型的集成度通常等于1。
基于Phillips-Perron檢驗來獲得功率輸出一階導數(shù)的h值,發(fā)現(xiàn)h的值為1 時能實現(xiàn)第一次差分使數(shù)據(jù)穩(wěn)定[12]。因此,本研究中SARIMA 和ARIMA 模型的集成度設(shè)置為1。還對SARIMA 和ARIMA 進行了一次集成度大于1 的預測,這些模型需要大量的計算時間(表6)。SARIMA 模型的殘差分布數(shù)組圖如圖6所示,殘差具有線性趨勢(p為AR順序,q為MA順序)。
圖6 SARIMA模型的殘差分布數(shù)組圖
表6 基于ARMA,ARIMA 和SARIMA 的 光伏發(fā)電預測結(jié)果(提前1 h)
這些模型的測試結(jié)果見表6 和表7,基于測試集根據(jù)相關(guān)系數(shù)R降序?qū)ζ潋炞C。SARIMA 模型在提前1 和2 h 的預測中獲得了最高的相關(guān)系數(shù)R和最低的均方根誤差RMSE。
表7 基于ARMA,ARIMA 和SARIMA 模型 光伏發(fā)電預測結(jié)果(提前2~3 h)
可見,識別時間序列模式并考慮季節(jié)性會提高預測結(jié)果的準確率。注意,PV 功率輸出的預測值使用SARIMA 通常要高于真實值,而BI-LSTM 模型的預測值通常低于真實值。結(jié)論是,分析的統(tǒng)計模型需要更長的計算時間,與NN 相比準確性較低。相比于SARIM 模型,人工神經(jīng)網(wǎng)絡(luò)能更好地學習更復雜的時間序列數(shù)據(jù)。因此,NN 優(yōu)于分析的光伏發(fā)電時間序列預測統(tǒng)計模型。表6 中給出了提前1 h 預測的平均計算時間。而相比提前1 h 的預測,提前2 和3 h 的預測需要大約多1~2 s 才能完成。
為了避免擬合不佳或過度擬合,必須去除異常值,尤其是在異常軌跡或訓練數(shù)據(jù)非常混亂的情況下。對于離群值檢測,使用Hampel 濾波器去除極值。表8 為針對不同的預測范圍,去除異常值對BI-LSTM 算法測試結(jié)果的相關(guān)系數(shù)R和RMSE的影響,表明提高了R值和降低了RMSE值??梢娙コ惓V悼梢愿纳祁A測結(jié)果。下標1 和2 分別指的是除去異常值之前和之后。圖7 和圖8 為基于SARIMA 模型預測的PV功率及其誤差直方圖和回歸圖(提前了1h)。
表8 刪除異常值對BI-LSTM 準確性的影響
圖7 基于SARIMA 模型的PV功率預測結(jié)果
圖8 基于SARIMA 模型的PV 功率預測誤差直方圖和回歸圖
太陽能發(fā)電量預測可有效整合大型光伏電站與公共電網(wǎng)。本文基于變化的時間預測范圍,分析大型光伏電站發(fā)電量,評估了不同神經(jīng)網(wǎng)絡(luò)和簡單統(tǒng)計模型(如ARMA,ARIMA和SARIMA)的性能。對比研究表明,基于時間序列對光伏發(fā)電量進行預測時,神經(jīng)網(wǎng)絡(luò)比實施的統(tǒng)計模型更準確,并且所需的計算時間更少。NN 和統(tǒng)計模型可用于提前1 h 有效預測光伏電站的發(fā)電量,而無需訪問太陽輻照度測量值或任何天氣參數(shù)。驗證了基于時間序列的大型光伏電站短期預測方法的可靠性。