張穎超, 成金杰, 鄧 華, 宗 陽, 章 璇
(1.南京信息工程大學 自動化學院,江蘇 南京 210044; 2.南京信息工程大學 氣象災害預報預警與評估協(xié)同創(chuàng)新中心,江蘇 南京 210044)
風電機組的有功出力受自然風影響,具有較高的間歇性和波動性。當大規(guī)模風電并網(wǎng)運行時,傳統(tǒng)電力系統(tǒng)的平衡能力受到破壞,給電力部門的調(diào)控策略帶來極大的挑戰(zhàn)[1]。要想在提高風力發(fā)電在電力系統(tǒng)中比重的同時,確保電力系統(tǒng)安全穩(wěn)定運行,使用較高精度的短期風電功率預測技術是有效措施之一。
目前,短期風電功率預測技術主要分為物理方法和統(tǒng)計方法[2]。物理方法通過對風電場的地理位置進行物理建模,將高精度的數(shù)值天氣預報(numerical weather prediction,NWP)結果和風電場的地理信息轉換為風機輪轂高度處的風速、風向等信息,再結合功率曲線推算出風機的有功出力[3];統(tǒng)計方法需要準確的風電場歷史觀測數(shù)據(jù)去訓練模型,由于組合預測方法和先進的參數(shù)尋優(yōu)算法能明顯提高其預測精度,使得統(tǒng)計方法成為目前較為常用的短期風電功率預測方法[4]。
然而,統(tǒng)計方法的訓練樣本多數(shù)為風電場全年的歷史觀測數(shù)據(jù),一方面,過多的訓練樣本存在冗余信息,會導致過擬合現(xiàn)象;另一方面,這種整體性地選擇訓練樣本難以適應復雜多樣的天氣狀況,預測精度也往往達不到理想效果。近年來,一些學者借鑒電力負荷預測中“相似日”的原理選取訓練樣本,并取得了不錯的預測效果。文獻[5-7]選取風速、風向、溫度、氣壓和相對濕度等氣象信息的均值或最值構成天氣模式向量,通過關聯(lián)系數(shù)和夾角余弦等作為相似性判據(jù),對歷史日進行搜索,構成訓練樣本集。文獻[8-11]采用聚類方式,根據(jù)相似的天氣模式向量將訓練樣本歸類,建立自適應天氣變化的預測模型。以上結果表明,與沒有對樣本進行篩選和分類的其他模型相比,其預測精度得到明顯提高。
由于天氣狀況比較復雜,實踐中很難將其定性為特定的類別,即使在相似的天氣狀況下,風速變化曲線也會相差較大。而風速作為影響風機出力的主要因素,由于風機槳葉的慣性作用,風速的波動對風電機組的有功出力會有較大影響[12-13]。因此,在選擇相似日時應充分考慮風速變化趨勢的相似性?;诖?,通過離散Fréchet距離作為風速、風向、溫度、氣壓、相對濕度等時間序列的相似性判據(jù)來匹配相似日。此外,這些氣象要素之間存在復雜的非線性關系,使用核熵成分分析(kernel entropy component analysis, KECA)在高維特征空間提取非線性主元作為支持向量機(SVM)的輸入。實驗結果表明,該方法能夠較好地從歷史數(shù)據(jù)中選取相似日和非線性主元,且預測精度較高。
以云南某風電場為例,實驗數(shù)據(jù)為13臺型號相同的風機運行數(shù)據(jù)和測風塔采集的氣象數(shù)據(jù),采樣時段為2016年7月至8月,采樣間隔為15 min,風機信息如表1所示。
表1 風機基本信息Table 1 Basic information of wind turbines
Fréchet距離是法國數(shù)學家Fréchet基于空間路徑相似度的方法提出的,能夠度量兩曲線間整體走勢的相似情況,其定義[14]如下:
定義設f,g:[0,1]→R2是給定兩條連續(xù)曲線,α,β:[0,1]→[0,1]為連續(xù)非減的實函數(shù),且滿足α(0)=β(0)=0,α(1)=β(1)=1,則兩曲線間的Fréchet距離為:
(1)
可見,F(xiàn)réchet距離的實質是尋找一對實函數(shù)α(t)、β(t)最小化曲線f與g之間連通的最大距離。為解決實際問題,Eiter和Mannila在此基礎上,通過離散化和求極限的思想提出了離散Fréchet距離的概念。
設給定兩條離散有序序列P=
L={(ua1,vb1),(ua2,vb2),…,(uak,vbk)},
其中,a1=b1=1,ak=p,bk=q且對于i=1,…,k,滿足ai+1=ai或ai+1=ai+1,bi+1=bi或bi+1=bi+1,即序列點對L同時服從P、Q中各序列點的對應次序關系。
定義‖L‖為序列點對L中最長連接的長度,表示如下:
(2)
則兩曲線間的離散Fréchet距離的定義[15]為:
d(P,Q)=min{‖L‖}。
(3)
d(P,Q)可根據(jù)以下公式遞歸求解:
d(P,Q)=
(4)
式中:dE(up,vq)是兩點up和vq間的歐式距離。
核熵成分分析(kernel entropy component analysis, KECA)是數(shù)據(jù)轉換與維度變換的一種新方法。該方法以二次Renyi熵值作為信息量的度量,在高維特征空間提取非線性主元,能夠很好地表征原始特征數(shù)據(jù)關于熵的內(nèi)在結構[16]。
設某一概率系統(tǒng)中,有概率密度函數(shù)為p(x)的數(shù)據(jù)集X=[x1,x2,…,xN],xi∈RD,X對應的二次Renyi熵表示如下:
(5)
(6)
式中:kσ(x,xi)為核函數(shù);σ為寬度參數(shù)。
根據(jù)高斯函數(shù)卷積定理,化簡可得
(7)
式中:K為N×N核矩陣;I為各元素均為N×1的矩陣。將K特征值分解為:K=EDET,其中D為特征值λ1,λ2,…,λN構成的對角矩陣,E為對應的特征向量e1,e2,…,eN構成的特征矩陣,則式(7)可表示為:
(8)
(9)
式中:Dd為對特征值λ1,λ2,…,λN降序排列后選取的前d個特征值所構成的對角矩陣;Ed則是由相應的特征向量構成。
對于一個新的測試樣本xnew在特征空間上的投影可表示為:
(10)
由上述可知,核相關矩陣的維數(shù)等于訓練樣本的個數(shù)。因此,KECA方法最多能夠從高維特征空間提取N個非線性主元作為訓練模型的輸入。
支持向量機(support vector machine, SVM)是建立在VC維理論(Vapnik-Chervonenkis dimen-sion)和結構風險最小化準則的基礎上的,相較神經(jīng)網(wǎng)絡等學習方法而言具有嚴格的理論基礎[17]。此外,SVM能夠很好地解決小樣本、非線性和高維度等問題。在案例中,使用了著名的開源軟件包LibSVM[18],選取的SVM核函數(shù)為徑向基函數(shù)。
影響風機出力的主要因素有風速、風向、溫度、氣壓、相對濕度等5個氣象要素,以這些氣象要素的采樣點序列匹配相似日,具體步驟如下。
(1)假設有N個歷史日,首先分別將N個歷史日和預測日各氣象要素的采樣點序列表示成{(i,ci)}i=1,…,k形式,其中i是按采樣時間順序排列的序列號,ci是采集數(shù)據(jù)的瞬時值,每隔15 min采樣一次,則k=96。
(2)分別將風速、風向、溫度、氣壓、相對濕度的采樣點序列按式(11)歸一化處理:
(11)
根據(jù)式(4)分別計算各歷史日與預測日對應氣象要素采樣點序列的離散Fréchet距離di,j,獲得的距離矩陣D如下:
D=[di,j],
(12)
式中:i=1,…,5為第i個氣象要素;j=1,…,N為第j個歷史日。
(3)根據(jù)距離矩陣D計算各歷史日與預測日的整體相似度,為表征影響風機出力的關鍵因素在相似日判定中的主導作用,采用連乘的方式定義整體相似度公式,整體相似度公式如下:
(13)
(4)選取N個歷史日中相似度最高的m日作為預測日的相似日樣本。
風機發(fā)電功率與各影響因素之間存在著復雜的非線性關系。KECA方法通過核函數(shù)把輸入的數(shù)據(jù)映射到高維特征空間,進行非線性主元的提取,最大化保留了原始數(shù)據(jù)中的信息熵。
數(shù)據(jù)集X=[x1,x2,…,xm×96]為選取出來的m個相似日數(shù)據(jù),xi表示為同時刻風速、風向、溫度、氣壓、相對濕度構成的向量,則基于KECA方法的特征提取的具體步驟分為以下3步。
(1)選取徑向基函數(shù)作為式(6)的核函數(shù),并構造相應的核相關矩陣K,徑向基函數(shù)表示為:
(14)
(2)對核矩陣K進行特征值分解,并根據(jù)式(8)對二次Renyi熵的估計,將核矩陣的特征值和相應的特征向量按估計值大小降序排列。
(3)確定非線性主元個數(shù)d,即將數(shù)據(jù)映射到由降序排列后的前d個特征值和特征向量所張成特征子空間中。根據(jù)式(9)求取產(chǎn)生的非線性映射。
結合相似日的外推效果,KECA方法能夠表征數(shù)據(jù)關于熵的內(nèi)在結構及SVM處理小樣本、高維度的優(yōu)點,提出了基于相似日和特征提取的SVM短期風電功率預測模型,如圖1所示。
圖1 預測流程圖Figure 1 Forecasting flow chart
將m個相似日的風速、風向、溫度、氣壓、相對濕度及相應時刻的功率作為初始樣本集,通過KECA方法對這5個氣象要素的初始樣本進行分析,提取出的非線性主元作為SVM模型的輸入,輸出為對應時刻的實際功率值,完成SVM預測模型的訓練。預測時,需要根據(jù)式(10)將預測日的氣象數(shù)據(jù)即風速、風向、溫度、壓力、相對濕度映射到KECA產(chǎn)生的特征子空間中,并將其作為預測時的輸入。
以8月27日為預測日,其余為歷史日,利用所提出的匹配相似日的方法,可找出歷史日中與預測日相似度最高的前m天。為確定m值,將m取值為1~15,分別使用相似日-KECA-SVM方法對預測日的功率進行預測。實驗中,通過網(wǎng)格法求取徑向基核函數(shù)的參數(shù)和非線性主元的個數(shù)。圖2為預測結果的相對均方根誤差(rRMSE)對比圖。從圖2可以看出,較少的相似日數(shù)量,無法代表樣本空間的特征;當相似日選取較多時,存在冗余信息,不僅降低模型的預測性能,而且需要過多的訓練時間。當m=7時,模型預測的效果相對較好,對應的徑向基參數(shù)σ為4.5,非線性主元d為25。因此相似日為7 d,表2為這7個相似日與預測日的整體相似度計算結果。
圖2 不同數(shù)量的相似日預測誤差對比Figure 2 Comparison of prediction errors for different quantities of similar days
表2 整體相似度計算結果Table 2 Calculation results of similarity degree
圖3為用離散Fréchet距離作為相似性判據(jù)提取出的相似日的風速曲線。圖中每個采樣點為每15 min采樣一次。為了能清楚直觀地比較,圖中給出了較為相似的一條風速曲線。可以看出,提取出的相似日的風速曲線不僅在幅值上與預測日的風速曲線比較接近,而且整體的變化趨勢上也大致相同。說明整體相似度的定義能夠很好地表征風速的主導作用,而離散Fréchet距離作為曲線相似性的判據(jù),能夠充分考慮到風速整體走勢的相似情況。選取相似日后,相似日和預測日的風速有了相似的變化趨勢,天氣狀況也較為接近。
圖3 相似日的風速曲線Figure 3 Wind speed curve on similar days
為了驗證相似日匹配和核熵成分分析方法的合理性和有效性,將以下3種預測方法進行對比。
方法1:SVM預測方法,即直接使用原始樣本訓練SVM模型,由于原始樣本數(shù)據(jù)量大,模型的訓練需要花費大量的時間。
方法2:相似日-SVM預測方法,即采用上述的相似日匹配的方法,從原始樣本中提取相似日,將相似日的風速、風向、溫度、氣壓、相對濕度和對應時刻的實際功率作為SVM的訓練樣本。
方法3:相似日-KECA-SVM預測方法,即在方法2的基礎上將7個相似日的風速、風向、溫度、氣壓、相對濕度及對應時刻的實際功率作為初始樣本,并采用KECA方法提取相似日各氣象要素的非線性主元,最后將d個主元作為SVM的輸入節(jié)點和實際功率作為輸出,完成SVM模型的訓練。
上述3種方法的預測結果如圖4所示。圖中每個采樣點為每15 min采樣一次。結合圖3可以看出,使用原始樣本做預測時,單純的SVM預測結果較差,大多數(shù)的預測值與實際值相比明顯偏低。相似日-SVM預測方法過濾了原始樣本中的冗余信息,使得相似日和預測日的氣象信息較為接近,而且風速變化的整體趨勢也較為吻合。預測的結果表明,在風速變化較大的時間段預測值更加接近實際觀測值。相似日-KECA-SVM預測方法不僅在風速變化較大的時間段的預測精度得到提高,而且在風速變化幅度較小的時間段(即采樣點為70~90)預測精度也有一定的提高。
圖4 各方法風電功率預測值對比Figure 4 Comparison of predicted values of different methods
圖5為3種方法預測的絕對誤差,圖中每個采樣點為每15 min采樣一次。從中可以看出單純地使用支持向量機作預測,其絕對誤差的波動范圍較大,出現(xiàn)較大誤差的次數(shù)較多。經(jīng)過相似日方法處理后,誤差波動范圍變小,尤其在風速波動較大的時間段,出現(xiàn)較大誤差的次數(shù)也較少。而經(jīng)過相似日匹配和核熵成分分析后,預測效果最好。
圖5 各種方法預測的絕對誤差Figure 5 Prediction absolute error of various methods
分別采用相對平均絕對誤差(rMAE)、相對均方根誤差(rRMSE)和均方根誤差(RMSE)作為評價各方法預測效果的指標,各誤差計算結果如表3所示。
表3 各方法預測誤差比較Table 3 Comparison of prediction errors
從表3可以看出,經(jīng)過相似日的匹配和核熵成分分析后,各個誤差指標都有不同程度的降低。相比于使用全部樣本,相似日-KECA-SVM預測效果更好,說明所提出的相似日匹配方法和核熵成分分析方法能夠有效提高建模數(shù)據(jù)的相似性,從而降低誤差。
結合相似日原理和核熵成分分析方法對中國云南某風電場的采集數(shù)據(jù)進行預處理,主要優(yōu)點如下:
(1)風速是影響風機出力的關鍵因素,其變化趨勢在相似日判定中至關重要,通過離散Fréchet距離判別曲線相似性的方法來匹配相似日,有效兼顧了風速的變化趨勢。相似日的選取增強了數(shù)據(jù)的相關性,提高了模型的預測精度。
(2)風機出力和各影響因素之間存在著復雜的非線性關系,經(jīng)過核熵成分分析后在高維特征空間能更好地呈現(xiàn)數(shù)據(jù)集的特點,有利于預測精度的提高。
(3)針對風力發(fā)電的周期性不太明顯、相似日出現(xiàn)的頻率較低的情況,結合SVM具有支持小樣本建模和較強的非線性學習等特點,建立的短期風電功率預測模型具有較好的泛化能力。