何健偉, 曹渝昆
(1.廣東電網(wǎng)有限責(zé)任公司 江門市供電局, 廣東 江門 529000; 2.上海電力大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院, 上海 200090)
從2010年起,我國的風(fēng)機(jī)裝機(jī)容量,無論是總裝機(jī)容量還是新增裝機(jī)容量,都已躍升為世界第一[1]。但隨著裝機(jī)容量的日漸增大,部分地區(qū)的棄風(fēng)現(xiàn)象開始變得嚴(yán)重起來。2017第一季度的棄風(fēng)現(xiàn)象雖有減緩,但仍不容樂觀。一般來說,風(fēng)電功率預(yù)測可劃分為超短期、短期和中長期3個時間尺度。超短期的預(yù)測是指超前0~3 h的預(yù)測,時間分辨率不小于15 min,用于風(fēng)電實時的調(diào)度;短期預(yù)測是預(yù)測未來1~3日的數(shù)據(jù),時間分辨率為0.5~1 h;而中長期的預(yù)測,時間分辨率多為24 h,超前72 h以上預(yù)測發(fā)電量。超短期和短期的風(fēng)電出力預(yù)測能夠為風(fēng)電并網(wǎng)和實時調(diào)度提供技術(shù)性的參考指標(biāo);而中長期的風(fēng)電預(yù)測,能夠協(xié)助風(fēng)電的資源評測,方便風(fēng)電場的機(jī)組檢修安排,從宏觀上也能減少棄風(fēng),提高風(fēng)電場的發(fā)電量和容量系數(shù),為風(fēng)電的長期發(fā)展以及電網(wǎng)的建設(shè)調(diào)度提供輔助支撐。
目前,根據(jù)預(yù)測原理,風(fēng)電發(fā)電量預(yù)測模型主要分為統(tǒng)計模型和物理模型兩類[2]。前者可以細(xì)分為時序外推法和人工智能法。時序外推法一般使用發(fā)電量的歷史數(shù)據(jù)對未來值進(jìn)行預(yù)測,一般使用自回歸積分滑動平均(Auto Regressive Integrated Moving Average,ARIMA)模型和卡爾曼濾波法[3];而人工智能法多采用神經(jīng)網(wǎng)絡(luò)[4]和支持向量機(jī)(Support Vector Machine,SVM)[5],利用數(shù)值天氣預(yù)報(Numerical Weather Prediction,NWP)的歷史數(shù)據(jù)和未來的預(yù)測數(shù)據(jù),尋找歷史輸入與輸出的對應(yīng)關(guān)系。
單一的輸入數(shù)據(jù)和方法難以滿足精度要求日漸嚴(yán)苛的風(fēng)電預(yù)測[6],因此不少研究者提出了組合的預(yù)測方式。文獻(xiàn)[7]結(jié)合物理模型和統(tǒng)計模型,提出了混合預(yù)測的方法。文獻(xiàn)[8]提出了多氣象變量模型的組合預(yù)測方法,利用多個氣象的變量歷史和未來預(yù)測數(shù)據(jù),但NWP的預(yù)測數(shù)據(jù)往往與風(fēng)電場的實測數(shù)據(jù)存在一定的偏差,不加處理會造成不必要的誤差。另外,文獻(xiàn)[9]指出,歷史和當(dāng)前的氣象狀態(tài)決定了未來的大氣運動趨勢,所以必須結(jié)合歷史氣象數(shù)據(jù)對未來數(shù)值進(jìn)行預(yù)測。目前的風(fēng)電功率預(yù)測研究大多集中于短期或超短期的預(yù)測方面,在中長期的預(yù)測方面相對偏少。
此外,雖然研究者們對風(fēng)電預(yù)測的方法提出了不少改進(jìn)之處,但涉及的算法也僅限于BP神經(jīng)網(wǎng)絡(luò)和SVM等淺層的學(xué)習(xí)方法。這些學(xué)習(xí)方法對輸入的處理能力有限[10],在處理較為復(fù)雜的分類和回歸任務(wù)時,泛化能力不佳。目前,深度學(xué)習(xí)已經(jīng)在圖像識別[11]、視頻分類、自然語言處理[12]等應(yīng)用上取得了十分喜人的效果,而在電力自動化領(lǐng)域的應(yīng)用研究仍然處于起步階段,在風(fēng)電功率預(yù)測領(lǐng)域的應(yīng)用更少。近年來,隨著計算機(jī)計算能力的大幅度提高以及深度學(xué)習(xí)算法的飛速發(fā)展,將為風(fēng)電預(yù)測的方案開辟出一條新的道路[13]。常用的深度學(xué)習(xí)模型有卷積神經(jīng)網(wǎng)絡(luò)、深度置信網(wǎng)絡(luò)、堆棧自動編碼器、長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)等,其中,LSTM專門用于處理時間序列性的數(shù)據(jù),能夠?qū)W習(xí)到輸入序列的元素之間的關(guān)系。
本文將深度學(xué)習(xí)算法應(yīng)用于風(fēng)電功率預(yù)測,提出了一個基于LSTM和隨機(jī)森林(Random Forest,RF)的中長期風(fēng)電預(yù)測的模型。通過風(fēng)電場的實測數(shù)據(jù)對該方法進(jìn)行誤差評估和分析,對比BP神經(jīng)網(wǎng)絡(luò)及SVM和ARIMA模型,基于LSTM和RF的組合風(fēng)力預(yù)測模型從多個評價指標(biāo)上均顯示出較好的精度,能夠很好地滿足國家對風(fēng)電預(yù)測要求的標(biāo)準(zhǔn),能夠為電網(wǎng)調(diào)度提供輔助支撐。
本文所提方法具體步驟如下。
步驟1 整理原始數(shù)據(jù),獲得每一天風(fēng)電場所對應(yīng)的總發(fā)電量、平均風(fēng)速、平均溫度,以及天氣預(yù)報的平均風(fēng)速和平均溫度等數(shù)據(jù)。
步驟2 對原始數(shù)據(jù)進(jìn)行預(yù)處理,使其滿足LSTM模型所對應(yīng)的輸入需求。
步驟3 按照任務(wù)的需求,采用不同的歸一化方法去歸一化原始數(shù)據(jù)。
步驟4 訓(xùn)練LSTM模型,并輸出訓(xùn)練集的迭代曲線,優(yōu)化LSTM的參數(shù)。
步驟5 輸入測試集,輸出預(yù)測結(jié)果,并按照不同的評價標(biāo)準(zhǔn),對比不同的預(yù)測模型,對輸出結(jié)果進(jìn)行分析。
步驟6 采用RF算法對NWP數(shù)據(jù)進(jìn)行修正,并將修正后的氣候特征和LSTM首次預(yù)測的值輸入到新的RF模型中,進(jìn)行二次預(yù)測。
步驟7 輸出測試結(jié)果并進(jìn)行誤差分析。
步驟8 得出結(jié)論。
其總體框架如圖1所示。
圖1 方法框架示意
一般的時間序列回歸分析預(yù)測使用的是自回歸模型(Auto Regression Model,AR模型)、滑動平均模型(Moving Average Model,MA模型)或者是ARIMA模型,其中ARIMA模型的應(yīng)用較為廣泛。一個確定的ARIMA(p,d,q)模型需要確定3個系數(shù),其中:p為自回歸項,d為時間序列成為平穩(wěn)時所作的差分次數(shù),q為移動平均項數(shù)。確定這3個系數(shù)一般要對時間序列數(shù)據(jù)進(jìn)行平穩(wěn)性的判斷,非平穩(wěn)性序列一般要對其進(jìn)行差分處理,平穩(wěn)化后一般會根據(jù)Box-Jenkins的模型識別方法[14],對序列的自相關(guān)和偏自相關(guān)函數(shù)進(jìn)行判斷,根據(jù)其截尾性和拖尾性判斷序列所屬的類型。模型類型確定后,根據(jù)對應(yīng)的準(zhǔn)則函數(shù),對所選模型的階數(shù)進(jìn)行確定。因此,使用時序外推法利用ARIMA模型對風(fēng)電場的歷史數(shù)據(jù)進(jìn)行建模,需要對原始數(shù)據(jù)進(jìn)行相對復(fù)雜的預(yù)處理,而且模型的選擇需要對序列的自相關(guān)函數(shù)的圖像和偏相關(guān)函數(shù)的圖像進(jìn)行觀察,會存在一定的主觀因素,且精度不高。使用歷史發(fā)電數(shù)據(jù)的基于BP神經(jīng)網(wǎng)絡(luò)和SVM的人工智能預(yù)測方法,需要固定一個“觀察窗口”,即使用t時刻的前k步作為輸入,去預(yù)測t時刻的輸出。此外,當(dāng)前的輸入僅與觀察窗口輸入的數(shù)據(jù)相關(guān),與觀察窗口外的歷史數(shù)據(jù)無關(guān),就會把影響輸出的某些歷史數(shù)據(jù)忽略掉,從而影響預(yù)測結(jié)果。此外,需要對k值的選擇進(jìn)行反復(fù)的測試才能達(dá)到較好的效果。另外,使用NWP數(shù)值人工智能預(yù)測方法,通過NWP的歷史數(shù)據(jù)建立氣象數(shù)據(jù)和風(fēng)電輸出之間的映射,受訓(xùn)練樣本集影響較大,魯棒性較差。
LSTM網(wǎng)絡(luò)模型屬于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)的一種,是一個循環(huán)的網(wǎng)絡(luò)結(jié)構(gòu),具有保留歷史信息的能力。一般的RNN,權(quán)重矩陣W的最終梯度是各個時刻的梯度之和,即
(1)
與t時刻相距比較遠(yuǎn)的時刻點,往往會引起梯度消失或者梯度爆炸[15]。這就是傳統(tǒng)的RNN在訓(xùn)練中無法解決長距離依賴的原因。LSTM網(wǎng)絡(luò)增加的單元狀態(tài)Ct能夠保存長期的單元信息,即能夠保留與當(dāng)前狀態(tài)距離較遠(yuǎn)的歷史狀態(tài)信息,并根據(jù)網(wǎng)絡(luò)的評價函數(shù)決定保留信息的多少,從而解決了長距離依賴問題。
LSTM網(wǎng)絡(luò)通過一個“門”的結(jié)構(gòu)來對記憶單元(下稱“單元”)的狀態(tài)量,進(jìn)行信息的增加和刪減操作。單個時間點的LSTM基本結(jié)構(gòu)如圖2所示。
圖2 LSTM結(jié)構(gòu)
一般的LSTM網(wǎng)絡(luò)有3種門結(jié)構(gòu),分別是遺忘門、輸入門和輸出門。
遺忘門的作用是決策出一個遺忘系數(shù)ft(介于0和1之間的數(shù)或者向量)來決定要遺忘單元中的哪些信息。具體的運算公式為
ft=σ(Wf·[ht-1,xt]+bf)
(2)
式中:σ——sigmoid激活函數(shù);
Wf——遺忘矩陣;
ht-1——前一時間點的輸出;
xt——當(dāng)前輸入;
bf——遺忘門的常量向量。
it=σ(Wi·[ht-1,xt]+bi)
(3)
(4)
(5)
式中:Wi——輸入矩陣;
bi——輸入門的常量向量;
WC——候選狀態(tài)量矩陣;
bC——候選狀態(tài)量的常量向量。
最后的輸出門取決于Ct,用tanh層把單元狀態(tài)映射到-1到1之間,并與sigmoid門輸出的值相乘得出最終的輸出。
ot=σ(Wo[ht-1,xt]+bo)
(6)
ht=ot×tanh(Ct)
(7)
式中:ot——t時刻的輸出系數(shù);
Wo——輸出矩陣;
bo——輸出門的常量向量;
ht——t時刻的輸出。
隨機(jī)森林是集成學(xué)習(xí)中的一種基于Bagging算法的改良算法。集成學(xué)習(xí)通過建立多個基學(xué)習(xí)器去完成學(xué)習(xí)的任務(wù),本質(zhì)上是通過組合多個弱的學(xué)習(xí)器,形成一個強(qiáng)的學(xué)習(xí)器,來完成學(xué)習(xí)任務(wù),多用于分類和回歸的任務(wù)中。標(biāo)準(zhǔn)的Bagging算法只是通過從原始樣本中進(jìn)行n次的Bootstrap重采樣,通過樣本的差異實現(xiàn)單個基學(xué)習(xí)器的“多樣性”。與標(biāo)準(zhǔn)的Bagging算法不同的是,RF加入了來自屬性的擾動,即從原始的T個屬性中選取t個屬性(t 使用隨機(jī)森林作為第二次預(yù)測的學(xué)習(xí)器,能夠減少學(xué)習(xí)模型參數(shù)的調(diào)節(jié),而且訓(xùn)練速度也較快,便于最后作輸入特征的修正和擬合。 本文提出的組合模型可分為兩個部分,并從兩個方面(歷史發(fā)電量數(shù)據(jù)和NWP數(shù)據(jù))綜合對傳統(tǒng)的風(fēng)電預(yù)測方法進(jìn)行改進(jìn)。組合模型如圖3所示。 圖3 組合模型示意 圖3中,第一部分利用風(fēng)電場的歷史日發(fā)電量數(shù)據(jù),使用LSTM模型對歷史數(shù)據(jù)與預(yù)測日發(fā)電量數(shù)據(jù)進(jìn)行訓(xùn)練和學(xué)習(xí),對未來7日的日發(fā)電量進(jìn)行預(yù)測,輸出首次的預(yù)測值。第二部分就是利用經(jīng)過RF修正后的NWP數(shù)據(jù)和LSTM模型的預(yù)測值,一并輸入到另一個新的RF模型中,輸出新的發(fā)電量預(yù)測值。該方法能夠充分利用發(fā)電量的歷史數(shù)據(jù)和NWP數(shù)據(jù),為更高的預(yù)測精度提供可能性。 本文以我國某風(fēng)電場(總裝機(jī)容量1.5×105kW)從2014年1月1日—2016年12月31日的實測數(shù)據(jù)作為模型訓(xùn)練和測試的樣本。具體的數(shù)據(jù)如表1所示。 表1 風(fēng)電場實測數(shù)據(jù)部分樣例 由于神經(jīng)網(wǎng)絡(luò)中存在激活函數(shù),所以一般在數(shù)據(jù)的預(yù)處理上都需要對輸入數(shù)據(jù)進(jìn)行歸一化或標(biāo)準(zhǔn)化處理,本質(zhì)上是對數(shù)據(jù)的一種尺度變換。一般神經(jīng)網(wǎng)絡(luò)的激活函數(shù)是sigmoid函數(shù),但sigmoid函數(shù)存在兩個缺陷:一是函數(shù)的兩個尾部陷入飽和,容易導(dǎo)致梯度彌散問題;二是函數(shù)不以零為中心。因此,本文采用比sigmoid函數(shù)性質(zhì)要好的tanh函數(shù),因為tanh以零為中心,能夠更快地進(jìn)行收斂,而且tanh活躍的區(qū)間在[-1,1],故本文利用式(8)將原始數(shù)據(jù)放縮到[-1,1]之間。 (8) 式中:yi——放縮后的第i個數(shù)據(jù)值; xi——第i個原始數(shù)據(jù); xmax,xmin——原始數(shù)據(jù)中的最大值和最小值。 此外,歸一化后,作為神經(jīng)網(wǎng)絡(luò)的輸入,還需要對歸一化的序列數(shù)據(jù)進(jìn)行轉(zhuǎn)換,以滿足LSTM的輸入要求。以LSTM的輸入為例,數(shù)據(jù)集的輸入實際上是一個張量,如樣本數(shù)、時間步、輸入維度等。輸入維度根據(jù)考慮的內(nèi)外因素的個數(shù)確定,如只考慮歷史數(shù)據(jù),則輸入維度為1,如同時考慮歷史數(shù)據(jù)和平均風(fēng)速的話,則輸入維度為2,以此類推。假設(shè)原始序列中一共有a+b個數(shù)據(jù)點,輸入的時間步為a步,那么經(jīng)過轉(zhuǎn)換后的數(shù)據(jù)共有b條數(shù)據(jù),如圖4所示。 圖4 原始序列數(shù)據(jù)轉(zhuǎn)換示意 對于回歸預(yù)測問題,一般會結(jié)合幾種不同的評價指標(biāo),綜合評價所建立模型的優(yōu)劣。常用的模型評價標(biāo)準(zhǔn)有MAE(Mean Absolute Error)、RMSE(Root Mean Squared Error)、MAPE(Mean absolute Percentage Error)等。具體計算公式為 (9) (10) (11) 式中:N——預(yù)測的時序長度; MAE與RMSE類似,都是衡量預(yù)測值和實際值之間的絕對誤差,對于兩個不同容量的風(fēng)電場(假設(shè)風(fēng)電場1的容量是風(fēng)電場2的10倍),同樣的MAE值和RMSE值,風(fēng)電場2的發(fā)電量預(yù)測值誤差就要比風(fēng)電場1大很多,以此來評價模型的優(yōu)劣是不妥當(dāng)?shù)?。MAPE是衡量預(yù)測值和實際值之間的相對誤差,但是,當(dāng)實際值pi較小時,MAPE值會非常大,對評價模型的優(yōu)劣也是不利的。因此綜合考慮,縱向誤差指標(biāo)選擇NMAE(Normalized Mean Absolute Error)。NMAE修復(fù)了MAPE的不足,而橫向誤差指標(biāo)[17]選擇相關(guān)性系數(shù)CC(Correlation Coeficient),可以最直接描述預(yù)測值與實際值之間的相關(guān)程度,CC>0.8表示兩個變量具有很強(qiáng)的相關(guān)性。NMAE和CC的計算公式為 (12) (13) 式中:pinstalled——標(biāo)準(zhǔn)化的尺度值,常設(shè)為樣本中的最大值和最小值的差; 除了縱橫的兩個評價指標(biāo)外,在后面的章節(jié)還會加入對誤差值分布的評價方法。 另外,根據(jù)國家能源局發(fā)布的《風(fēng)電場功率預(yù)測管理暫行辦法的通知》給出的預(yù)測預(yù)報要求,準(zhǔn)確率r1為 (14) 式中:PMk——k時刻實際的功率; PPk——k時刻預(yù)測的功率; Cap——風(fēng)電場開機(jī)的容量。 合格率r2為 (15) 式中:Bk——是否合格的標(biāo)志,1為合格,0為不合格。 其中, (16) 訓(xùn)練樣本選取了2014年1月到2016年6月的數(shù)據(jù)。使用預(yù)測日前14日的數(shù)據(jù)作為輸入向量,預(yù)測方法采用單點滑動窗口預(yù)測方法,即先用前14日的數(shù)據(jù)預(yù)測第15日的發(fā)電量,然后輸入向量的窗口向后滑動1日,把預(yù)測出來的第15日的發(fā)電量加入輸入向量,把最先的1日的發(fā)電量數(shù)據(jù)從輸入向量中刪除,預(yù)測第16日,如此類推,一共預(yù)測7日。 本文采用的LSTM模型是3層的LSTM層加上1層的神經(jīng)網(wǎng)絡(luò)全連接層。LSTM層的激活函數(shù)為tanh函數(shù),全連接層采用的liner函數(shù),采用Adam算法進(jìn)行網(wǎng)絡(luò)的訓(xùn)練,各層的神經(jīng)元個數(shù)分別是14,30,8,1。批訓(xùn)練樣本個數(shù)為75,模型的訓(xùn)練迭代次數(shù)為400。圖5為模型的迭代與誤差示意。 圖5 模型訓(xùn)練迭代與誤差示意 選取2016年7月3日到8月17日(下稱“時間段1”)和2016年9月21日到2016年11月5日(下稱“時間段2”)兩個時間段的發(fā)電量數(shù)據(jù)作為模型的測試集。兩個時間段發(fā)電量的分布指標(biāo)如表2所示。 表2 測試樣本的發(fā)電量分布指標(biāo) 單位:104 kWh 這兩個時段的發(fā)電量的大小所覆蓋的范圍都比較廣,而且時間段1和時間段2的發(fā)電量的分布也存在較大的不同,時間段1的發(fā)電量均值比時間段2大,但極差和標(biāo)準(zhǔn)差均比時間段2小,而時間段2中既有日發(fā)電量大于3.0×106kWh的樣本,也有因為天氣原因?qū)е掳l(fā)電量連續(xù)在3.0×106kWh以下的樣本。因為這兩個時間段的發(fā)電量各有特點,所以測試的結(jié)果更能夠體現(xiàn)出模型的泛化能力。 將時間段1和時間段2對應(yīng)的數(shù)據(jù)輸入已經(jīng)訓(xùn)練好的LSTM神經(jīng)網(wǎng)絡(luò)中,輸出從第1日預(yù)測到第7日預(yù)測的結(jié)果,并根據(jù)式(12)和式(13)計算NMAE和CC值,具體數(shù)據(jù)如表3所示。 表3 LSTM中不同日數(shù)的預(yù)測結(jié)果 由表3可以看出,LSTM神經(jīng)網(wǎng)絡(luò)在時間段1上的預(yù)測精度比時間段2的高,而且時間段1從第1日到第4日的預(yù)測值與實際值的CC值都大于0.8,顯示出很強(qiáng)的相關(guān)性;但對比第5日到第7日的預(yù)測,雖然LSTM神經(jīng)網(wǎng)絡(luò)在時間段1上的精度依然比時間段2高,但時間段2中隨著時間的推移,精度的下降幅度小于時間段1,也體現(xiàn)出LSTM網(wǎng)絡(luò)結(jié)構(gòu)中記憶門和遺忘門在處理較長歷史依賴方面的優(yōu)勢。 由于篇幅原因,本文只給出預(yù)測第6日和第7日的實際值和預(yù)測值的折線圖,如圖6和圖7所示。 圖6 第6日兩個時間段的預(yù)測值和實際值對比 由圖6和圖7可以看出,對于第6日和第7日的預(yù)測,LSTM的預(yù)測值和實際值的大小以及變化趨勢也是比較吻合的,尤其是時間段1中前半部分的預(yù)測結(jié)果。 圖7 第7日兩個時間段的預(yù)測值和實際值對比 圖8為第6日和第7日兩個時間段預(yù)測值的誤差值。 圖8 第6日和第7日兩個時間段預(yù)測值的誤差值 結(jié)合圖6~圖8可以看出,在相鄰日期出現(xiàn)較大發(fā)電量偏差的部分日期中,誤差值較其他時段大。經(jīng)過查閱對應(yīng)點的氣候數(shù)據(jù),發(fā)現(xiàn)誤差較大的原因很可能是由于氣候因素的影響導(dǎo)致誤差的增大。 另外,可以通過描述誤差分布的盒狀圖來比較LSTM與BP神經(jīng)網(wǎng)絡(luò)、SVM和ARIMA(1,2,5)模型的預(yù)測精度。由于篇幅問題,本文只給出第4日到第7日的誤差分布盒狀圖,如圖9所示。由圖9可知,雖然LSTM也會出現(xiàn)誤差較大的幾個異常點,但無論從誤差的各四分位數(shù)的大小或誤差分布范圍去考慮模型的預(yù)測精度,LSTM在只根據(jù)歷史數(shù)據(jù)建模后的精度都高于其他3個模型。 圖9 第4~7日各模型的誤差分布盒狀圖 針對圖8中出現(xiàn)的部分時間點誤差值過大的情況,加入對應(yīng)日期的氣候數(shù)據(jù)。由于監(jiān)測點與風(fēng)電場現(xiàn)場的地理位置有一定距離,故需要對輸入的氣候數(shù)據(jù)進(jìn)行修正。本文使用隨機(jī)森林回歸樹模型(樹的個數(shù)為150)對包括當(dāng)前預(yù)測日的未來7日的平均風(fēng)速和平均氣溫作修正,并將修正后的數(shù)據(jù)經(jīng)式(8)歸一化處理后輸入到新建立的隨機(jī)森林回歸樹模型中,并輸出結(jié)果。對于時間段1和時間段2(以第6日和第7日的預(yù)測為例),修正后的誤差曲線如圖10所示。 圖10 第6日和第7日兩時間段修正后的誤差曲線 對比圖8可知,加入氣候特征的新模型,其預(yù)測誤差分布更為平均。不同模型縱橫指標(biāo)對比如表4所示。由表4可知,隨著預(yù)測天數(shù)的增加,LSTM和RF組合模型的縱橫指標(biāo)全面領(lǐng)先單LSTM和SVM模型,而且隨著預(yù)測時間的增加,組合模型精度下降的幅度都比單LSTM模型和SVM模型要小,由此可見組合模型在預(yù)測結(jié)果上的優(yōu)越性。 另外,準(zhǔn)確率衡量的是模型的總體平均水平,而合格率衡量的是預(yù)測值與實際值偏差是否過大。從表4可以看出,組合模型的準(zhǔn)確率和合格率依然比單LSTM和SVM模型高,而且在預(yù)測前3日的合格率達(dá)到100%,即沒有出現(xiàn)誤差絕對值大于開機(jī)容量25%的情況;而以SVM為代表的淺層模型,在合格率方面,雖然在前2日的精度與單LSTM模型和LSTM與RF的組合模型相距不大,但在后幾日的合格率精度上,差距與其他兩個模型逐漸拉大,體現(xiàn)了LSTM的深層結(jié)構(gòu)在預(yù)測時間延長時所展現(xiàn)出的優(yōu)勢。 采用滑動窗口單點預(yù)測的方法,利用LSTM網(wǎng)絡(luò)對風(fēng)電場單日的發(fā)電量歷史數(shù)據(jù)進(jìn)行風(fēng)電場的中長期出力預(yù)測。憑借LSTM網(wǎng)絡(luò)結(jié)構(gòu)中的記憶門和遺忘門的作用,解決了對較長期歷史數(shù)據(jù)的記憶和使用問題,對比BP神經(jīng)網(wǎng)絡(luò)及SVM和ARIMA(1,2,5)模型,在預(yù)測未來7日發(fā)電量的任務(wù)上,LSTM模型的預(yù)測誤差值分布較其他3個模型集中,各四分位數(shù)也均小于其他3個模型。 表4 不同模型縱橫指標(biāo)的對比 在加入修正后的氣候特征后,模型的預(yù)測精度進(jìn)一步提高,在單一歷史數(shù)據(jù)輸入情況下的某些異常點預(yù)測誤差過大的情況也得以緩解,精度有所提升。 準(zhǔn)確的中長期風(fēng)電功率預(yù)測能夠輔助風(fēng)電場制訂檢修維護(hù)計劃,減少因停運檢修造成的發(fā)電量損失。目前國內(nèi)中長期的風(fēng)電功率預(yù)測研究并不多,關(guān)于風(fēng)電功率預(yù)測的模型基本上是一些淺層模型,難以學(xué)習(xí)到較為復(fù)雜的問題。本文提出了一種通過LSTM和RF組合模型來對未來7日的風(fēng)電場發(fā)電量進(jìn)行預(yù)測,采用了風(fēng)電場的歷史發(fā)電量數(shù)據(jù)對LSTM模型進(jìn)行訓(xùn)練學(xué)習(xí),再利用RF對NWP預(yù)測日的平均風(fēng)速和平均氣溫進(jìn)行修正并再次預(yù)測。實驗結(jié)果表明,對比BP神經(jīng)網(wǎng)絡(luò)、SVM和ARIMA模型,本文所提方法的預(yù)測結(jié)果更為準(zhǔn)確,預(yù)測值和實際值的誤差分布更為集中,對應(yīng)的NMAE和CC值也更準(zhǔn)確,而且提前7日的預(yù)測精度也滿足國家的相關(guān)標(biāo)準(zhǔn),能夠在天氣突變的情況下,減小預(yù)測誤差。本文提出的方法,能夠為全面考慮影響風(fēng)電場發(fā)電量的一些非直接影響因素,如機(jī)組的故障時間及可運行的機(jī)組臺數(shù)等的研究提供相關(guān)參考。2.4 LSTM和RF的組合模型
3 算例分析
3.1 數(shù)據(jù)集說明
3.2 數(shù)據(jù)預(yù)處理
3.3 模型的評價指標(biāo)
3.4 網(wǎng)絡(luò)的構(gòu)建與訓(xùn)練
3.5 測試集的選取
3.6 單LSTM的預(yù)測結(jié)果及對比分析
3.7 LSTM和RF組合模型的預(yù)測結(jié)果
3.8 實驗結(jié)果分析
4 結(jié) 語