林強,劉林鵬,邱劍洪,呂懿,李思凡,葉漢芳
(1. 海南電網(wǎng)有限責任公司電網(wǎng)規(guī)劃設計研究中心,海南 海口 570203;2. 廣州市奔流電力科技有限公司,廣東 廣州 510700)
負荷中長期預測作為電網(wǎng)規(guī)劃建設的基礎,一方面,它可以為網(wǎng)架規(guī)劃、選址定容提供依據(jù),另一方面,它為電網(wǎng)現(xiàn)狀分析、飽和負荷預測提供了技術支持[1-2];因此,準確的負荷中長期預測對于高水平的電網(wǎng)規(guī)劃至關重要。
目前,負荷中長期預測的方法可分為時間序列法、多元回歸法和組合預測法。其中,時間序列法通過分析負荷隨時間的變化規(guī)律預測未來的負荷發(fā)展情況。文獻[3]使用指數(shù)平滑法計算未來的負荷時間序列,并采用等維信息數(shù)據(jù)處理的方法加強結果的可靠性;文獻[4]采用加法自回歸積分滑動平均模型提取負荷序列內(nèi)部因素,并結合長短期記憶(long short term memory,LSTM)網(wǎng)絡協(xié)同進行多時序負荷預測,進一步提高了預測精度。這類方法不需要相關因素數(shù)據(jù),計算相對簡單,但是在數(shù)據(jù)量充足的情況下,這類方法難以充分利用數(shù)據(jù)提高預測精度。因此,許多研究通過多元回歸法建立相關因素與負荷的映射關系來提高數(shù)據(jù)利用率和預測精度。為構建預測模型,文獻[5]提出一種基于Fisher信息的特征選擇方法和氣象因素方法,通過支持向量回歸法構建預測模型;文獻[6]基于卷積神經(jīng)網(wǎng)絡和門控循環(huán)單元的混合神經(jīng)網(wǎng)絡,提出一種多變量L2-Boosting回歸的負荷預測模型;文獻[7]基于Spark平臺將數(shù)據(jù)集合分解成多個子數(shù)據(jù)集,利用并行計算技術加速模型的訓練過程。然而,電力負荷變化規(guī)律日益復雜,難以依靠上述文獻中的單個模型描述,為此,許多研究利用組合預測法來描述負荷的不同變化趨勢??紤]到單個模型的局限性,文獻[8]利用Stacking集成學習結合多個機器學習算法構建負荷預測模型;文獻[9]使用誤差倒數(shù)法將LSTM與極端梯度提升(extreme gradient boosting, XGBoost)組合起來對負荷進行預測。盡管組合預測法將多個模型的特性融合在一起,提升了預測結果的可靠性,但是它們沒有充分利用中長期負荷的發(fā)展規(guī)律,即中長期電力負荷的發(fā)展通常同時具有確定性和不確定性。確定性指的是負荷通常具有較為穩(wěn)定的增長規(guī)律,文獻[10]利用負荷的這一特點,構建了負荷預測的Logistic模型;但是,僅利用確定性的特征構建負荷模型,無法描述由于各類影響因素的隨機性導致的不確定性變化規(guī)律。為此,文獻[11]基于隨機變化率對負荷模型包含的多維變量進行不確定性建模,得到了負荷的概率預測模型;然而,單獨考慮負荷的概率預測模型難以分析負荷發(fā)展過程中的釋放特點,這將對提高電網(wǎng)的規(guī)劃水平產(chǎn)生不利影響。
為充分結合中長期負荷變化的確定性和不確定性特征,提高中長期負荷預測的合理性和預測精度,本文分別對負荷的確定性部分和不確定性部分進行建模,并結合兩部分模型的輸出量對中長期負荷進行預測。最后,通過算例驗證所提模型的準確性。
考慮到單一預測模型表征能力相對較差的缺陷,許多已有的研究將多個單一的模型通過一定方式進行組合來構建負荷預測模型,也就是組合預測[12-14];然而,在選取組合預測使用的各模型時,通常沒有考慮到負荷本身的發(fā)展規(guī)律。為充分利用負荷發(fā)展的確定性和不確定性特征,本文通過構建負荷的基本模型和誤差補償模型對負荷進行預測。
中長期負荷增長通常呈現(xiàn)如下規(guī)律:在負荷發(fā)展初期,負荷增長較慢;隨著經(jīng)濟的快速發(fā)展,負荷出現(xiàn)快速增長的趨勢;但是受土地面積、環(huán)境資源、規(guī)劃定位等因素的制約,一個地區(qū)或城市的負荷不會無限制地增長,而是呈現(xiàn)出飽和增長態(tài)勢,即總體呈現(xiàn)S形??梢岳肔ogistic曲線對這樣的變化曲線進行擬合,并且稱這部分通過Logistic曲線擬合得到的負荷模型為基本負荷;然而,由于負荷會受到許多不確定的溫度、濕度和降水量等因素的影響,基本負荷模型與實際負荷存在一定誤差。為減小這一誤差,本文將這部分誤差視作各種不確定因素影響下的隨機過程,通過高斯過程回歸(Gaussian process regression, GPR)將它構建為一個概率模型,利用該模型對基本模型進行誤差修正。
本文所提的基本模型與誤差補償模型的關系為:
Lt=Ls,t+Lf,t.
(1)
式中:Lt為實際負荷;Ls,t為基本負荷;Lf,t為誤差補償;t為負荷數(shù)據(jù)對應的時間。
預測誤差受到眾多因素的影響,若將這些因素全部作為模型的輸入量,不可避免將導致高維數(shù)據(jù) “維數(shù)災”問題,因此如何有效地對輸入量降維,提取出有效的特征量至關重要。主成分分析[15](principal component analysis, PCA) 法是常用的一種降維方法,其主要思路是將原始高維空間中的樣本投影到一個低維特征空間中,并在低維空間得到最能反映樣本本質(zhì)的樣本特征。
主成分分析的主要步驟如下:
a)原始數(shù)據(jù)去中心化。設影響誤差的因素構成的數(shù)據(jù)矩陣為X=(xij)m×n,m為樣本個數(shù),n為影響因素的個數(shù)。對原始數(shù)據(jù)去中心化,得到去中心化數(shù)據(jù)矩陣X′=(x′ij)m×n,其中
(2)
b)構造去中心化后數(shù)據(jù)的協(xié)方差矩陣V,
(3)
c)求V的特征值及特征向量。由特征方程|V-λE|=0可得V的n個特征值λj(j=1,2,…,n),且λ1>λ2>…>λn≥0,相應的特征向量Wj=(W1j,W2j,…,Wnj),稱為主成分系數(shù),主成分
Yj=X′jWj,
(4)
式中X′j為X′的第j行。
定義前p個主成分的累計方差貢獻率
(5)
通常當ρ≥80%時認為前p個特征值對應的主成分可以替代原有的特征量,實現(xiàn)特征提取[16]。
在上述預測模型框架下,本文首先利用Logistic回歸[17]對年最大負荷的歷史數(shù)據(jù)進行擬合,得到負荷基本模型。原始Logistic回歸的表達式為
(6)
式中:b為增長參數(shù),且b>0;K為飽和負荷值。對式(6)變形得
(7)
對式(7)兩側積分得
(8)
式中C1和C2為待定積分常數(shù)。對式(8)簡化后可得基本模型的Logistic表達式
(9)
式中a=C1-C2。
通過梯度下降法[18]求解以下優(yōu)化問題來確定模型參數(shù)a、b、K:
(10)
s.t.a>0,b>0,K>0.
(11)
然后可得到基本模型,接著通過Lf,t=Lt-Ls,t計算得出誤差的歷史數(shù)據(jù)。
負荷中長期預測可用的樣本數(shù)據(jù)量通常較少,并且含有一定噪聲。GPR適用于處理小樣本、隨機性強的回歸問題[19],本文將其用于建立負荷中長期預測的誤差補償模型。
令Xt表示X的第t行,假設{f(X1),f(X2),…,f(Xm)}是一個高斯過程,那么{f(X1),f(X2),…,f(Xm)}的聯(lián)合分布服從高斯分布,設m(Xt),t∈{1,2,…,m}為該聯(lián)合高斯分布的均值函數(shù),K(X)為其協(xié)方差矩陣,
(12)
式中k(Xi,Xj)為協(xié)方差函數(shù)??紤]到在負荷預測問題中相差越小的輸入量之間相關性越強,選擇高斯核函數(shù)作為該模型的協(xié)方差函數(shù):
(13)
式中α、β為待定參數(shù)。建立補償誤差的GPR模型
Lf,t=f(Xt)+ε,
(14)
式中:ε是樣本的噪聲,它服從高斯分布ε~N(0,δ2),δ為待定參數(shù)。由上述假設可知Lf=(Lf,1,Lf,2,…,Lf,m)也是一個高斯過程,且Lf服從均值為m(Xt),t∈{1,2,…,m},協(xié)方差為K(X)+δ2Im的聯(lián)合高斯分布,其中Im為m×m階單位矩陣。根據(jù)貝葉斯定理,可以構建Lf的零均值先驗分布:
Lf~N(0,K(X)+δ2Im).
(15)
令測試集的輸入量為Xtest=(Xv+1,Xv+2,…,Xm)T,測試集的輸出量為Lf,test=Lf,v+1,(Lf,v+2,…,Lf,m)T,訓練集輸入量為Xtrain=(X1,X2,…,Xv)T,訓練集輸出量為Lf,train=(Lf,1,Lf,2,…,Lf,v)T,其中v為訓練集樣本個數(shù)。假定Lf,test與Lf,train服從聯(lián)合高斯分布,利用貝葉斯后驗概率公式,可得誤差補償?shù)腉PR模型為:
(16)
(17)
covLf,t=k(Xt,Xt)-K(Xt,Xtrain)×
(K(Xtrain)+δ2Iv)-1K(Xt,Xtrain)T.
(18)
式(16)—(18)中:K(Xt,Xtrain)=(k(Xt,X1),
k(Xt,X2),…,k(Xt,Xv));Iv為v×v階單位矩陣。
利用上述GPR模型即可在給定訓練集求出待預測樣本的概率分布。為使得所得GPR模型與樣本分布誤差最小,采用極大似然估計法[20]對待定參數(shù)進行估計,似然函數(shù)
P(Lf,t|Xtrain)=P(Lf,t|Xtrain,α,β,δ)=
N(Lf,t|0,K(Xtrain|α,β)+δ2Iv).
(19)
通過求解以下極值問題得到參數(shù)α、β、δ:
(20)
[K(Xtrain|α,β)+δ2Iv]-1Lf,train-
(21)
基于誤差補償?shù)呢摵芍虚L期預測步驟如下。首先,通過訓練集樣本建立負荷的Logistic基本模型;隨后,利用基本模型與訓練集的負荷誤差作為誤差補償模型的訓練集;接著,使用GPR建立誤差補償模型;最后通過將這2個模型的輸出值相加得到負荷的預測值。
為了驗證所提基于誤差補償?shù)呢摵芍虚L期預測模型的有效性和準確性,本文選取了海口市2012—2019年某企業(yè)用戶年最大負荷及其對應的影響因素作為樣本數(shù)據(jù)。
本文選取的影響因素有:企業(yè)年產(chǎn)值、員工數(shù)量、平均高溫、平均低溫、極端高溫、極端低溫,共6個因素。將2012—2018年的歷史負荷數(shù)據(jù)作為訓練集,將2019年歷史負荷數(shù)據(jù)作為測試集,具體數(shù)據(jù)見表1。
首先,通過Logistic回歸構建負荷基本模型,設定當3個參數(shù)的更新量組成的向量的歐幾里得范數(shù)d小于10-6時停止迭代,即滿足:
(22)
Δa=aj+1-aj,Δb=bj+1-bj,ΔK=Kj+1-Kj.
(23)
式中j為迭代次數(shù)。
圖1所示為使用Logistic回歸建立基本模型的迭代過程,算法在第178次迭代時收斂,得到圖2中的負荷基本模型。從圖2中可以看出,使用基本模型預測負荷,其變化趨勢與實際負荷保持一致。但是,由于有許多不確定性因素會影響負荷的變化,單純地使用基本模型進行預測,會產(chǎn)生較大誤差,因此需要引入誤差補償模型以減小誤差。
圖1 Logistic回歸迭代過程Fig.1 Number of Logistic regression iterations
圖2 基于Logistic回歸的基本模型Fig.2 The basic model based on Logistic regression
表1 ??谑心秤脩裟曜畲筘摵杉捌溆绊懸蛩貥颖緮?shù)據(jù)Tab.1 Sample data of a user’s annual maximum load and its influencing factors in Haikou
在對補償誤差建模之前,需要對模型的輸入量,即6個影響因素進行特征提取。首先利用主成分分析計算表1中影響因素的6組主成分系數(shù)矩陣,得到的矩陣
中每列都對應1個主成分,列向量即主成分系數(shù)。再根據(jù)式(5)計算前p個主成分的累計方差貢獻率ρ,得到第1個主成分的累計方差貢獻率高達99.97%,因此本文選取第1個主成分替代原始的6個影響因素,將原始的6維輸入量降至1維,且信息丟失率僅為0.03%。根據(jù)式(4)計算第1主成分的值,根據(jù)式(1)計算誤差大小,得到表2中的訓練集。
表2 第1主成分與誤差訓練集Tab.2 The training set of first principal component and error
根據(jù)表2中的訓練集,利用基于高斯核的GPR方法構建誤差補償模型(如圖3所示)。從圖3中可以看出,在各影響因素不確定的情況下,根據(jù)訓練集,有95%的概率數(shù)據(jù)誤差落入圖3的置信區(qū)間中,并且從圖中可以看出,預測點的橫坐標離訓練集樣本越遠,置信區(qū)間的范圍越大,這是因為預測點距離歷史數(shù)據(jù)點越遠,高斯核函數(shù)的值也會隨之增大,對應的GPR模型方差也會變大。
將本文所提模型與Logistic回歸模型、GPR模型、線性回歸模型、支持向量機模型和神經(jīng)網(wǎng)絡模型進行對比分析。Logistic回歸模型由表1中的訓練集得到;線性回歸模型、支持向量機模型、神經(jīng)網(wǎng)絡模型和GPR模型由表2的訓練集得到,其中,支持向量機的核函數(shù)采用高斯核;神經(jīng)網(wǎng)絡層數(shù)為1,神經(jīng)元數(shù)量為10,激活函數(shù)采用線性整流
圖3 基于GPR的誤差補償模型Fig.3 Error compensation model based on GPR
函數(shù)。分別利用訓練集與測試集的數(shù)據(jù)對各模型的擬合能力和泛化能力進行測試,訓練集下的擬合能力通過式(24)所描述的根均方差指標RMSE評估,測試集下的泛化能力通過絕對誤差進行評估[21-23],評估結果見表3。
(24)
表3 預測誤差對比Tab.3 Prediction error comparison
從表3中的結果可以看出,Logistic模型在訓練集與測試集下的精度均比較低(其RMSE與絕對誤差分別達到117.01 kW和74.22 kW),GPR模型在訓練集下的精度比較高,但在測試集下的精度比較低(絕對誤差達到91.97 kW);因此,不適合單獨應用Logistic模型或GPR進行負荷中長期預測。線性回歸模型、支持向量機模型和神經(jīng)網(wǎng)絡模型由于沒有考慮到中長期負荷的發(fā)展特性,它們的預測精度都較低。相對而言,本文提出的基于誤差補償?shù)念A測模型可同時考慮中長期負荷的S形發(fā)展規(guī)律和不確定因素的影響,其精度明顯高于其他模型,其在訓練集下的RMSE僅為0.09 kW,在測試集下的絕對誤差僅1.80 kW,這說明所提模型具有較高的精度。此外,本文還能根據(jù)基本模型的Logistic曲線預測負荷發(fā)展至飽和的時間,這對電網(wǎng)的規(guī)劃具有指導意義。
本文提出一種基于誤差補償?shù)呢摵芍虚L期預測模型。在基于多模型預測和主成分分析技術的框架下,所提模型充分考慮了負荷的自然發(fā)展規(guī)律與不確定性因素對預測誤差的影響,提高了負荷中長期預測的準確性,并且降低了模型輸入量的維數(shù),避免了維數(shù)災。以??谑心池摵蓴?shù)據(jù)為例進行仿真分析,結果表明本文方法所得結果比Logistic預測結果和GPR預測結果誤差更小。