馬曉玲,張祥飛,龐清樂,謝青松
(1.山東工商學院,山東 煙臺 264000;2.青島理工大學,山東 青島 266400)
能源行業(yè)對工業(yè)互聯(lián)網需求迫切,需要工業(yè)互聯(lián)網提升原有業(yè)務系統(tǒng)數(shù)據處理和分析能力,實現(xiàn)智能化升級。工業(yè)互聯(lián)網能夠為能源行業(yè)智能化升級提供關鍵技術支撐,基于數(shù)據驅動的設備預測性維護、工廠能耗優(yōu)化、企業(yè)智能化管理、產業(yè)鏈協(xié)同管理、安全環(huán)保生產等典型工業(yè)互聯(lián)網應用場景在火電、風電、核電、石化、光伏等行業(yè)不斷落地。與此同時,傳統(tǒng)能源的使用帶來的污染問題和儲存量迅速減少也引起全球的重視,隨著清潔能源的相關技術的發(fā)展,發(fā)展清潔能源成為各國的共識[1-2]?!笆濉逼陂g,我國光伏產業(yè)迅猛發(fā)展,但光伏發(fā)電受外界因素影響明顯,一日之內發(fā)電量差異較大,這就導致光伏發(fā)電接入電力系統(tǒng)存在不穩(wěn)定性,不加以解決將會威脅工業(yè)設備的安全運行[3],而準確可靠的光伏預測結果是解決這一問題的重要手段之一[4]。
光伏發(fā)電受溫度、輻射量、降水量等眾多因素影響,現(xiàn)有的傳統(tǒng)預測方法準確度不高,在要求精度高的產業(yè)無法形成有效參考價值。與傳統(tǒng)方法不同,近幾年更多的研究人員傾向于先處理樣本數(shù)據再預測的方法。廣義天氣類型法[5]是最為常見的傳統(tǒng)處理樣本數(shù)據方法。進行天氣類型劃分時,利用K均值算法(K-means)[6]可以快速分類,但是參數(shù)值難以確定。模糊C均值聚類算法不僅可以優(yōu)化目標函數(shù),還可以更方便的設置參數(shù),實現(xiàn)按需分類[7]。目前絕大部分研究主要依賴于對光伏場站天氣特征信息的收集[8-9],對時間因素幾乎全部忽略。而在電網調度領域每一時刻的發(fā)電量越具體,越有利于調度部門作出決策。因此,本文利用模糊C均值聚類算法對數(shù)據按時間段進行聚類。
目前常見的預測模型有時間序列法[10]、支持向量機法[11-13]和神經網絡法[14]等。其中Elman神經網絡計算準確度高、全局穩(wěn)定性好,但是學習耗時長[15-17];BP神經網絡不僅學習耗時短,而且簡單易操作。為了提高預測準確度,本文全面考慮光伏發(fā)電量的影響因素,利用模糊聚類(FCM)按照關鍵特征對樣本聚類,最后建立相同特征時段的光伏發(fā)電預測模型。算例部分使用澳大利亞艾利斯斯普林太陽能知識產權中心第5號光伏電站的數(shù)據做預測,并分別與傳統(tǒng)的按天氣類型分類的預測結果進行對比。由結果分析得出,本文所提出的預測模型(FCM-BP)每一時刻的準確度更高,這也驗證了本文所提出模型的有效性。
模糊C均值聚類算法在根據特征分類領域應用已經很成熟,其根據數(shù)據點和聚類中心的距離,得到每個樣本點對所有類中心的隸屬度,隸屬度越大表明數(shù)據點到聚類中心的距離越近。FCM關鍵在于尋找最小目標函數(shù):
式中:m范圍是大于1的實數(shù);uij表示隸屬度,即目標函數(shù)J中Xi的隸屬度;Xi是n維測量數(shù)據的第i個數(shù)據;Ci是n維的聚類中心;dij=|Xi-Cj|是第i個數(shù)據聚類中心與第j個數(shù)據點之間的歐幾里得距離。
模糊分類是通過對上述目標函數(shù)進行有限次的迭代找到的,與此同時,通過式(2)不斷更新成員關系隸屬度uij和集群中心Ci:
(1)初始化隸屬度矩陣U,隨機選擇[0,1]范圍數(shù)。
(2)根據式(2)計算聚類中心Ci(i=1, 2, ..., c)。
(3)求解最小目標函數(shù)J。根據公式:
計算目標函數(shù)值,當最小值的改變量小于某個閾值時,則停止運算。
(4)根據公式:
計算更新的隸屬度矩陣,返回第(2)步。
BP神經網絡是目前應用最廣泛的多層前饋網絡之一,一個三層的BP神經網絡即可以實現(xiàn)任意精度、近似任意連續(xù)函數(shù)。BP神經網絡的結構主要包括輸入層、隱含層和輸出層共3層。設神經網絡輸入層數(shù)為m,隱含層數(shù)為l,輸出層數(shù)為n。當一個網絡的輸入為Xi=(xi,1, xi,2, ..., xi,m),輸出為Yi=(yi,1, yi,2, ..., yi,n),其中,i為樣本類別,網絡中激勵函數(shù)設置f(x)=sgn(x),則隱含層輸出為:
輸出層輸出為:
式中:hi,l表示第i個樣本的第l個神經元的隱含層輸出;f(·)為神經網絡隱含層的激勵函數(shù);為輸入數(shù)據樣本中第i個樣本第l個神經元的輸入層與隱含層之間的權值;為輸出數(shù)據樣本第i個樣本第n個神經元隱含層與輸出層之間的權值;為第i個樣本第l個神經元隱含層閾值,為第i個樣本第n個神經元的輸出層閾值。將輸入樣本數(shù)據從輸入層傳入,在神經網絡中由隱含層傳向輸出層,如果實際值和期望輸出值不存在差異,則二者的誤差逐層向輸入層反向傳遞,逐層修正各神經元連接的權值和閾值。
在衡量模型預測的性能時,通常采取下面幾個誤差指標來衡量:
(1)平均絕對誤差率(MAPE)。MAPE 不僅考慮預測值與真實值的誤差,同時它主要是顯現(xiàn)出誤差與真實值的比率。
(2)平均絕對誤差(MAE)。MAE是一種基礎性的考察誤差的指標。
(3)平均平方根誤差 (RMSE)。RMSE 對異常點比較敏感[18]。
(4)平均方差(MSE)。MSE會通過平方放大偏差較大的誤差,主要用來評估出模型穩(wěn)定性。假定預測值為x={x1, x2, ..., xn},真實值為y={y1, y2, ..., yn},4種指標的計算方式為:
式中:yi為功率實際值;xi為功率預測值;n為數(shù)據數(shù)量。
本文使用模糊聚類將樣本劃分后與BP神經網絡相結合建立預測模型。在此,采用模糊C均值聚類對訓練樣本以及預測日的氣象數(shù)據進行分類,將數(shù)據分為高、中、低三類時間段的數(shù)據,即中午時間段對應發(fā)電高峰期,上午時間段對應上午發(fā)電量逐漸增高的階段,下午時間段對應下午發(fā)電量逐漸下降的階段,低發(fā)電量對應傍晚的低發(fā)電量階段;分別將每一類型的天氣特征數(shù)據和時間作為BP神經網絡的輸入進行訓練,得到3個模型。
模糊C均值聚類BP神經網絡預測模型的詳細步驟如下:
(1)考慮時間因素,將時間特征和天氣特征同時采用模糊C均值對樣本進行分類并分析。
(2)歸一化樣本數(shù)據,包括每一類天氣數(shù)據和時間數(shù)據,神經網絡的輸入值在(0,1)區(qū)間運行比較順利。
(3)調整神經網絡參數(shù),將歸一化后的樣本數(shù)據,即天氣數(shù)據以及每一個樣本對應的時間數(shù)據作為輸入;調整訓練參數(shù),包含學習速率、訓練次數(shù)和最小誤差等,對于輸出的結果可以根據誤差結果調整神經元個數(shù)以達到最優(yōu)值。
(4)將輸出的結果預測值與真實值進行對比,找出誤差大的數(shù)據進行分析。
按照時間段類型,分別對早晚時段、上午下午時段以及中午時段進行預測。數(shù)據選取艾利斯斯普林斯太陽能知識產權中心第5號光伏發(fā)電站2019年1月1日—2020年1月1日的數(shù)據,該數(shù)據包含每一時刻的溫度、風速、總輻射等8組數(shù)據,即每天288個采樣點。
4.1.1 數(shù)據異常值處理
手動去掉夜間數(shù)據,選擇每天上午6點到晚上7點的數(shù)據,即每天樣本數(shù)據為165個數(shù)據。選取80%的數(shù)據為訓練樣本,選取20%的數(shù)據為預測樣本。
4.1.2 模糊C均值聚類
將關鍵特征作為聚類的輸入,設定聚類參數(shù)。相似日、預測日聚類結果見表3所列。
表3 相似日、預測日聚類結果
4.2.1 數(shù)據歸一化
為增加BP網絡模型預測的準確性,在將數(shù)據應用于BP網絡進行訓練之前,必須對輸入變量和輸出變量的的所有樣本數(shù)據進行歸一化處理。本文所有數(shù)據歸一化后取值為0到1之間,其公式為:
式中:yi為最初數(shù)據;ymax,ymin分別為該數(shù)據的最大值和最小值;Zi為得到的結果。
4.2.2 模型評價指標
本文采用平均絕對誤差(MAE)、平均方差(MSE)和平均絕對誤差率(MAPE)三種指標對結果進行評估,其計算公式如式(5)、式(6)、式(8)所示。
由上述分析可知,不同的時間段下發(fā)電規(guī)律差異明顯。對不同的時間段分別進行模型的訓練,然后與不分類時的預測結果作對比。晴天各時間段預測結果對比見表4所列,雨天各時間段預測結果對比見表5所列。
表4和表5分別為是9月8號和9月17號的功率預測結果。表4、表5中對模型A進行評價,即表示FCM-BP分時段預測模型;對模型B進行評價,即表示傳統(tǒng)按天氣分類預測模型。
表4 晴天各時間段預測結果對比
表5 雨天各時間段預測結果對比
由表4可知:晴好天氣時,模型A的MAPE均值為6.61%,模型B的為19.20%;模型A的MSE均值為0.010 kW,模型B的為0.020 kW;模型A的MAE均值為0.04 kW,模型B的MAE均值為0.072 kW。晴天在6:00—7:00這個時間段誤差較大,這可能是預測日的前一天空氣水汽較多影響較大。本文所提方法與傳統(tǒng)方法相比,本文所提模型A的預測結果較為準確。
由表5可知:降水天氣時,模型A的MAPE均值為16.36%,模型B的為20.89%;模型A的MSE均值為0.040 kW,模型B的為0.043 kW;模型A的MAE均值為0.14 kW,模型B的MAE的均值為0.145 kW。雨天在6:00—7:00和17:01—19:00 這兩個時間段誤差較大,這可能是儀器受空氣中水汽等影響導致數(shù)據差異較大。但本文提出的模型的總體預測結果比傳統(tǒng)按天氣分類預測準確率更高,表明本文提出的模型適應性高,預測精度更好。
本文在傳統(tǒng)按天氣分類預測的基礎上,考慮時間對光伏發(fā)電功率的影響,提出基于模糊C均值聚類算法-BP神經網絡的分時段短期光伏發(fā)電功率預測模型。對仿真結果的分析得到以下結論:
(1)本文模型具有較好的應用性。預測模型,添加時間變量,氣象相關變量不再是唯一依賴的因素,有效提高了發(fā)電量預測的準確度。
(2)本文模型對早上濕度較大的時刻預測存在局限性,對晴天預測精度有明顯提高,雨天在早上和傍晚階段受影響較大,但依然比傳統(tǒng)預測精度要高。下一步的研究方向是改善雨天預測的穩(wěn)定程度。