1.中國科學院計算機網(wǎng)絡信息中心,北京 100190
2.中國科學院大學,北京 100049
3.國網(wǎng)河北省電力有限公司,河北 石家莊 050021
近年來,我國光伏發(fā)電產(chǎn)業(yè)得到了極大的重視并取得了快速的發(fā)展,無論是太陽能電池的產(chǎn)量還是光伏發(fā)電系統(tǒng)的裝機容量都在不斷地增加[1-2]。隨著分布式光伏發(fā)電系統(tǒng)迅猛發(fā)展,其并網(wǎng)會給系統(tǒng)的運行帶來許多負面影響[3-4]。分布式光伏的出力特性具有典型的概率分布特點,也是光伏電站優(yōu)化規(guī)劃設計、出力預測和優(yōu)化調(diào)度管理的重要基礎數(shù)據(jù)。因受到光照、季節(jié)等氣候環(huán)境條件和地理、時間等客觀運行條件影響,分布式光伏具有間歇性和隨機性的特點。因此對其進行準確地建模和特性分析是一個多影響因素的數(shù)學難題。而只有在準確預測光電出力情況下,才可以使系統(tǒng)獲得更高的可靠性,減少其對電力系統(tǒng)的影響,提高電力系統(tǒng)運行的安全性和穩(wěn)定性,充分發(fā)揮其經(jīng)濟性和環(huán)境友好性[5]。
目前,光伏發(fā)電系統(tǒng)出力預測按預測時長可分為三類[6]:①長期預測 (時間尺度>月);②中期預測(時間尺度 l~7 天);③短期/超短期預測(時間尺度<24 小時)。其中,中長期出力預測是通過利用歷史氣象數(shù)據(jù)和歷史輸出功率數(shù)據(jù)的統(tǒng)計分析進行預測,時間尺度大,預測相對容易。而短期和超短期預測受太陽輻射和天氣等因素的影響具有波動性和間歇性的特點,難以預測。
隨著人工智能的發(fā)展,人工神經(jīng)網(wǎng)絡和機器學習的方法在光伏出力預測方面有比較多的應用[7],但都是使用比較簡單的網(wǎng)絡,如 BP 神經(jīng)網(wǎng)絡[8-12],SVM[13-14]等,只能提取特征的淺層結(jié)構(gòu),這些學習方法的泛化性受到了很大局限,而深度學習算法中明確突出了模型中特征學習的重要性,通過逐層的特征變換自動學習樣本中抽象特征,將樣本在原空間的特征表示變換為一個更抽象的特征空間,從而獲得更優(yōu)秀的預測效果,提高同一模型在處理不同場景下光伏預測問題的泛化性。另一方面,深度學習算法強調(diào)了模型特征結(jié)構(gòu)的深度通常有5 層、10 層甚至上百層的隱層節(jié)點,使得模型中蘊含了更豐富的信息,可以更廣泛地將光伏出力影響因素考慮在內(nèi)。
循環(huán)神經(jīng)網(wǎng)絡 (Recurrent Neural Network,RNN)是一種優(yōu)秀的深度學習方法,適用于時序數(shù)據(jù)。為了探索光伏發(fā)電功率序列的本質(zhì)特征,本文提出了基于長期短期記憶 (Long Short-Term Memory,LSTM)的短期光伏發(fā)電功率預測模型。本文首先利用Pearson系數(shù)找出影響光伏發(fā)電的相關(guān)因素并進行特征提取,然后通過分析光伏發(fā)電日常曲線,發(fā)現(xiàn)在不同天氣類型下光伏發(fā)電的日常功率曲線呈現(xiàn)出不同的趨勢。因此建立不同天氣類型的LSTM預測模型,并與未分類的LSTM 模型和LR 模型進行比較,驗證模型的優(yōu)勢。
本文選取了華北電力大學的屋頂光伏發(fā)電站(N38°52′32.75″,E115°29′56.14″) 2016年11月6日到2017年10月28日的光伏功率數(shù)據(jù)以及氣象數(shù)據(jù)。該數(shù)據(jù)集每15分鐘一個數(shù)據(jù),一天 96個數(shù)據(jù),共34272個數(shù)據(jù)。將光伏發(fā)電功率數(shù)據(jù) (部分) 展示如下圖1。
如圖1所示,一個波形代表一天的數(shù)據(jù) (96個點),由波形的趨勢,可知光伏發(fā)電功率存在周期性和強烈波動性,并且數(shù)據(jù)中存在大量的零數(shù)據(jù)。零數(shù)據(jù)是因為光伏發(fā)電需要光能,而夜間沒有太陽所以夜間光伏發(fā)電功率為零。將功率數(shù)據(jù)根據(jù)天氣類型進行聚類后,展示如圖2。
圖1 光伏發(fā)電功率數(shù)據(jù)圖Fig.1 Pv power data graph
圖2 不同天氣下的光伏發(fā)電功率數(shù)據(jù)圖Fig.2 Pv power data under different weather conditions
由圖2 可知不同天氣下光伏發(fā)電功率具有不同特征。晴天時光伏發(fā)電功率的波形光滑,具有比較好的周期性,而且總發(fā)電量大 (總發(fā)電量由波形與橫坐標形成的面積大小估計);多云與陰天的光伏發(fā)電功率的波形類似,但是整體上陰天的波形較多云天氣陡峭,波形與橫坐標形成的面積較?。挥晏?、霧霾、雪下的波形與橫坐標形成的面積都小,但是雪天的光伏發(fā)電功率大部分時間幾乎為零,而雨天的波動性較霧霾天氣強烈。由此可以發(fā)現(xiàn)光伏發(fā)電功率的波動性與天氣類型有關(guān)。
根據(jù)相關(guān)文獻[15-16]可知太陽輻射量、太陽能電池組的傾斜角度、太陽能電池組件轉(zhuǎn)化效率、系統(tǒng)損失、組合損失、灰塵遮擋、溫度特性、線路、變壓器損失、逆變器效率、陰影、積雪遮擋、太陽高度角、地理緯度、大氣透明度、海拔高度,日照時數(shù)、天氣情況、氣溫、云等都在影響光伏出力。結(jié)合文獻資料、實際情況和數(shù)據(jù)收集情況,本文選取輻照量、環(huán)境濕度、環(huán)境溫度、降水量、風速、風向、最高溫度、最低溫度、太陽方位角、太陽高度角、積日、太陽時作為研究因素,并計算這些因素與光伏發(fā)電功率之間相關(guān)性。相關(guān)性計算采用Pearson 相關(guān)系數(shù)公式,公式如下:
其中X,Y表示兩組變量,cov(X,Y)表示兩組變量的協(xié)方差,σX,σY分別表示X,Y變量的標準差。
為了編程的方便須將上式轉(zhuǎn)換成以下數(shù)學形式:
其中n為樣本量,xi,yi分別為兩個變量的觀測值,,分別為兩個變量的均值。r表示樣本的相關(guān)系數(shù),描述了兩個變量間線性相關(guān)強弱的程度。r的取值在 -1與+1 之間,若 r>0,表明兩個變量是正相關(guān),即一個變量的值越大,另一個變量的值也會越大;若 r<0,表明兩個變量是負相關(guān),即一個變量的值越大另一個變量的值反而會越小。r的絕對值越大表明相關(guān)性越強,若 r=0,表明兩個變量間不是線性關(guān)系。
計算結(jié)果如表1和圖3所示。
由表1和圖3 可知,輻照量、太陽高度角、環(huán)境溫度、風速、最高溫度、最低溫度、風向與光伏發(fā)電功率呈正相關(guān);太陽方位角、降水量、積日、太陽時環(huán)境濕度與光伏發(fā)電功率呈負相關(guān);其中輻照量、太陽高度角、環(huán)境溫度、風速、最高溫度、環(huán)境濕度與光伏發(fā)電功率具有較強的相關(guān)性,特別是輻照量、太陽高度角與光伏發(fā)電功率相關(guān)系數(shù)值大于 0.7,具有強相關(guān)性。
由光伏發(fā)電功率數(shù)據(jù)的特性可知在不同天氣下光伏發(fā)電功率具有不同特征。因此構(gòu)建兩個數(shù)據(jù)集。一個是包括所有數(shù)據(jù)的數(shù)據(jù)集,另一個是按照不同天氣類型劃分的數(shù)據(jù)集。
數(shù)據(jù)集構(gòu)建按照“特征+標簽”進行構(gòu)建。根據(jù)影響光伏發(fā)電的因素與光伏功率相關(guān)性分析結(jié)果,將相關(guān)系數(shù)絕對值大于 0.1的因素輻照量、太陽高度角、環(huán)境溫度、風速、最高溫度、環(huán)境濕度作為特征,因為光伏發(fā)電功率在夜間時為零,所以增加isDaytime 特征,isDaytime 特征數(shù)值為0 或 1,0表示該時刻為夜間,1表示該時刻為白天。所以特征向量為輻照量、太陽高度角、環(huán)境溫度、風速、最高溫度、環(huán)境濕度、isDaytime;標簽為光伏發(fā)電功率。按照圖4所示進行數(shù)據(jù)集構(gòu)建。
表1 各因素與光伏發(fā)電功率的Pearson 相關(guān)系數(shù)Table1 The Pearson correlation coefficient of each factor and photovoltaic power generation
循環(huán)神經(jīng)網(wǎng)絡 (Recurrent Neural Network,RNN)是一種節(jié)點定向連接成環(huán)的人工神經(jīng)網(wǎng)絡,即以序列數(shù)據(jù)為輸入,在序列的演進方向進行遞歸且所有循環(huán)單元按鏈式連接的遞歸神經(jīng)網(wǎng)絡 (Recursive Neural Network)[17]。循環(huán)神經(jīng)網(wǎng)絡的研究始于二十世紀八十至九十年代,在二十一世紀初發(fā)展為重要的深度學習(deep learning) 算法[18]。循環(huán)神經(jīng)網(wǎng)絡具有記憶性、參數(shù)共享等特性,因此可以利用它內(nèi)部的記憶來處理任意時序的輸入序列,對序列的非線性特征進行高效率學習。從理論上來講 RNN 可以保留住長距離記憶,但在實踐中,原始的RNN 模型存在梯度消失和梯度爆炸現(xiàn)象,使模型無法實現(xiàn)長期記憶。
長短期記憶網(wǎng)絡 (LSTM)是一種特殊的RNN,最早由 Hochreiter和Schmidhuber[19]于 1997年提出,通過引入門控制的概念,將短期記憶與長期記憶想結(jié)合,并且在一定程度上解決了 RNN 存在的梯度消失的問題[20]。如圖5所示,LSTM 網(wǎng)絡單元具有輸入門(input gates),遺忘門 (forget gates)和輸出門 (output gates) 三種控制門結(jié)構(gòu),用來保持和更新細胞狀態(tài),其中輸入門用于存儲信息遺忘門在細胞狀態(tài)中用于忘記信息,輸出門用于輸出信息。
圖3 各因素與光伏發(fā)電功率的Pearson 相關(guān)系數(shù)Fig.3 The Pearson correlation coefficient of each factor and photovoltaic power generation
圖4 數(shù)據(jù)集構(gòu)建示意圖Fig.4 Data set construction schematic diagram
圖5 LSTM 結(jié)構(gòu)[21]Fig.5 LSTM structure[21]
目前,光伏出力預測一般使用比較簡單的網(wǎng)絡,并且在分鐘級上進行預測有一定的難度。光伏出力預測是一個回歸問題,而長短時記憶 (LSTM) 在時間序列上具有良好的處理效果,所以本文選擇 LSTM為模型。其具體預測框架如圖6所示。
本文的數(shù)據(jù)主要包括歷史的發(fā)電數(shù)據(jù) (功率)、氣象數(shù)據(jù) (輻照量、環(huán)境濕度、環(huán)境溫度、降水量、風速、風向、最高溫度、最低溫度)、太陽方位角、太陽高度角、積日、太陽時。首先需要對數(shù)據(jù)進行預處理。預處理過程包括兩個部分:(1) 對數(shù)據(jù)進行下采樣或者上采樣處理以使所有數(shù)據(jù)的時間分辨率為15分鐘;(2) 對數(shù)據(jù)進行歸一化處理。然后使用Pearson相關(guān)系數(shù)計算氣象因素、太陽方位角、太陽高度角、積日、太陽時等影響光伏發(fā)電的因素與光伏功率相關(guān)性,選擇相關(guān)線性系數(shù)值的絕對值大于 0.1的因素和isDaytime 特征作為特征向量。由于光伏發(fā)電受天氣類型的影響很大,所以對全數(shù)據(jù)集和不同天氣類型的數(shù)據(jù)集研究都很有必要,因此構(gòu)建全數(shù)據(jù)集和不同天氣類型的數(shù)據(jù)集并訓練出各自的LSTM 模型,通過比較選擇預測結(jié)果好模型作為最后預測的結(jié)果。
模型評價指標用于評估功率預測模型的性能和預測精度,并使得各預測模型在不同光伏電站中的預測效果能夠進行比較。目前存在多種模型評價指標,每種評估指標用來描述特定的誤差分布規(guī)律,具有一定針對性,因而沒有統(tǒng)一的最優(yōu)誤差評估標準。在光伏發(fā)電短期預測中常用的評價標準有:平均絕對誤差(MAE)、平均誤差百分比 (MAPE)、均方誤差 MSE、均方根誤差 (RMSE)和擬合優(yōu)度R2。本文使用均方誤差 MSE、均方根誤差 (RMSE)和擬合優(yōu)度R2作為誤差評估指標,其數(shù)學表達式如下:
其中,N為測試集樣本個數(shù);ti為功率預測值;Ti為實際值;為Ti的平均值。MSE和RMSE 描述了預測值與期望值間的離散程度。擬合優(yōu)度R2表示可根據(jù)自變量的變異來解釋因變量的變異部分即擬合優(yōu)度越大,自變量對因變量的解釋程度越高,擬合結(jié)果越好。
為了驗證 LSTM 預測的性能,將 LSTM 模型與線性回歸模型 (linear regression model,LR) 進行比較。在實驗中,LR 使用2個隱藏層網(wǎng)絡結(jié)構(gòu),在 LSTM網(wǎng)絡中,設置了 96個隱藏單元,每個隱藏單元接收一個時間點的特征輸入。具體模型示意圖如圖7。
從圖8和表2 可以看出 LSTM 圖預測結(jié)果優(yōu)于LR 模型,但是LSTM 模型對于波動劇烈處預測效果不理想。根據(jù)之前對數(shù)據(jù)觀察可知不同天氣下,光伏發(fā)電功率的波形具有各自的特征。因此對不同天氣下的數(shù)據(jù)進行不同的訓練,得到最優(yōu)的模型。具體對比圖如圖9。
圖6 LSTM 模型預測框架圖Fig.6 LSTM model prediction frame diagram
圖7 模型示意圖(a.LR 模型,b.LSTM 模型)Fig.7 Schematic diagram of the model (a.LR model,b.LSTM model)
表2 LR 模型與LSTM 模型性能比較Table2 Performance comparison between LR model and LSTM model
圖8 LR 模型與LSTM 模型的預測結(jié)果與實際數(shù)據(jù)對比圖Fig.8 Comparison diagram of prediction results and actual data of LR model and LSTM model
表3 不同天氣下不同模型的性能比較Table3 Performance comparison of different models in different weather conditions
圖9 顯示了 LR 模型,LSTM 模型以及具體天氣模型的在晴天、多云、陰天、雨天、霧霾、雪天下的性能。藍色曲線代表實際光伏功率曲線,紅色曲線代表LSTM 模型的預測曲線。綠色曲線是LR 模型的預測曲線,黃色曲線的是具體天氣模型的預測曲線,即在晴天的對比圖中,黃色曲線代表晴天的LSTM 模型的預測結(jié)果。從圖9 可以看出,在晴天、多云、陰天、雪天上具體的天氣類型的LSTM模型的預測結(jié)果明顯優(yōu)于 LSTM 模型和LR 模型,并具有比較高的精度。在雨天、霧霾天氣三個模型的精確都有所下降。如表3所示對不同天氣不同模型的模型評價指標 R2、MSE、RMSE的數(shù)值進行比較,可以發(fā)現(xiàn)具體的天氣類型的LSTM 模型性能優(yōu)于 LSTM 模型和LR 模型,特別在晴天、多云、陰天、雪天。這與預測對比圖相符合。由此可見,對按不同天氣類型進行訓練模型可以提高預測的準確性。
圖9 不同天氣類型的不同模型的對比圖Fig.9 Comparison of different models for different weather types
光伏發(fā)電是一項復雜的技術(shù),它具有隨機性、波動性和不確定性等特點。對光伏發(fā)電功率進行預測,能夠幫助提高電力系統(tǒng)運行的安全性和穩(wěn)定性。本文基于光伏發(fā)電功率的實測數(shù)據(jù),通過分析氣象和太陽高度角等因素對伏系統(tǒng)發(fā)電功率的影響,給出特征向量,提出基于LSTM 模型的光伏預測方法。通過與LR 模型對比可以發(fā)現(xiàn) LSTM 模型具有更好的性能,對不同季節(jié)的天氣類型進行分類再預測能進一步提高模型的準確度。