摘 要:為準(zhǔn)確預(yù)測(cè)光伏出力的概率分布,提出一種基于自注意力機(jī)制特征提取的光伏功率組合概率預(yù)測(cè)方法,可以彌補(bǔ)傳統(tǒng)線性組合預(yù)測(cè)方法在信息利用率及靈活性等方面的缺陷。首先構(gòu)建兼具同質(zhì)模型與異質(zhì)模型的概率預(yù)測(cè)模型池,之后通過基于自注意力機(jī)制的特征提取模塊對(duì)基模型預(yù)測(cè)結(jié)果進(jìn)行自適應(yīng)特征提取,最后將外部特征與所提取基模型特征一并輸入殘差全連接網(wǎng)絡(luò)中,以預(yù)測(cè)分位數(shù)增量的形式實(shí)現(xiàn)單調(diào)分位數(shù)預(yù)測(cè)?;诠_光伏數(shù)據(jù)集進(jìn)行算例分析,相關(guān)算例結(jié)果表明,相較于個(gè)體模型及傳統(tǒng)線性組合方法,所提方法在概率預(yù)測(cè)方面具有更好的綜合表現(xiàn)。
關(guān)鍵詞:光伏功率;概率預(yù)測(cè);自注意力;組合預(yù)測(cè);殘差連接;分位數(shù)預(yù)測(cè)
中圖分類號(hào):TM615 " " " " " " " " " " " " " " "文獻(xiàn)標(biāo)志碼:A
0 引 言
光伏發(fā)電的迅速發(fā)展,給電力系統(tǒng)規(guī)劃及運(yùn)行帶來(lái)諸多挑戰(zhàn)。受復(fù)雜氣象特征及光伏機(jī)組自身狀況的影響,光伏發(fā)電功率呈現(xiàn)出間歇性、隨機(jī)性、波動(dòng)性等特點(diǎn),對(duì)電力系統(tǒng)安全穩(wěn)定運(yùn)行造成不利影響[1-2]。開發(fā)先進(jìn)的光伏功率預(yù)測(cè)方法、提高功率預(yù)測(cè)水平,可提高光伏利用效率、降低光伏出力不確定性對(duì)電力系統(tǒng)運(yùn)行的不利影響。根據(jù)預(yù)測(cè)結(jié)果的不同表現(xiàn)形式,功率預(yù)測(cè)分為確定性預(yù)測(cè)與概率預(yù)測(cè)兩類。確定性預(yù)測(cè)旨在提供預(yù)測(cè)對(duì)象的期望值。常見的確定性預(yù)測(cè)方法包括差分整合自回歸滑動(dòng)平均[3]等時(shí)間序列方法以及XGBoost[4]、長(zhǎng)短期記憶網(wǎng)絡(luò)[5]等機(jī)器學(xué)習(xí)方法。相較于僅提供期望值預(yù)測(cè)結(jié)果的確定性預(yù)測(cè)方法,概率預(yù)測(cè)方法將預(yù)測(cè)對(duì)象視為隨機(jī)變量,預(yù)測(cè)結(jié)果一般為較完整的概率分布信息。按概率分布的不同表現(xiàn)形式,概率預(yù)測(cè)可分為概率密度預(yù)測(cè)[6]、分位數(shù)預(yù)測(cè)[7]、區(qū)間預(yù)測(cè)[8]等。概率預(yù)測(cè)能提供電力系統(tǒng)決策所需的不確定性信息,從而為電力系統(tǒng)規(guī)劃與運(yùn)行提供更全面的參考依據(jù)。
為準(zhǔn)確預(yù)測(cè)光伏出力的概率分布,需選定合適的預(yù)測(cè)模型,目前主流的技術(shù)路線包括參數(shù)型概率預(yù)測(cè)與非參數(shù)型概率預(yù)測(cè),其中參數(shù)型概率預(yù)測(cè)采用特定形狀的先驗(yàn)概率分布假設(shè),通過機(jī)器學(xué)習(xí)等方法預(yù)測(cè)概率分布參數(shù)。正態(tài)分布[9]是參數(shù)型概率預(yù)測(cè)中常見的先驗(yàn)假設(shè)。考慮到光伏概率分布的厚尾特征,文獻(xiàn)[10]提出采用廣義拉普拉斯分布的先驗(yàn)假設(shè)。與參數(shù)型概率預(yù)測(cè)不同,非參數(shù)型概率預(yù)測(cè)方法無(wú)需對(duì)預(yù)測(cè)對(duì)象的概率分布作先驗(yàn)假設(shè),常見方法包括核密度估計(jì)[6]、分位數(shù)回歸[11-12]等。文獻(xiàn)[13]對(duì)相似時(shí)刻進(jìn)行了聚類,進(jìn)而結(jié)合分位數(shù)回歸與核密度估計(jì)方法得到光伏概率密度預(yù)測(cè)值;文獻(xiàn)[14]利用樣條函數(shù)擬合新能源功率的分位數(shù)函數(shù),進(jìn)而實(shí)現(xiàn)非參數(shù)型分位數(shù)預(yù)測(cè)。
然而,由于真實(shí)數(shù)據(jù)的復(fù)雜性和多變性,單一模型往往難以準(zhǔn)確預(yù)測(cè)真實(shí)概率分布,因此組合概率預(yù)測(cè)方法受到研究者的廣泛關(guān)注[15]。組合概率預(yù)測(cè)的基本思想是將不同模型的概率預(yù)測(cè)結(jié)果加以組合,以減少選擇不恰當(dāng)?shù)膯我荒P蛶?lái)的風(fēng)險(xiǎn)??傮w而言,組合概率預(yù)測(cè)可概括為兩個(gè)問題:一是如何選擇合適的模型構(gòu)成組合概率預(yù)測(cè)的模型池;二是如何選擇合適的組合策略。對(duì)于模型池的構(gòu)建問題,基模型可選擇為質(zhì)模型或異質(zhì)模型,前者是指基于相同算法但采用不同超參數(shù)或選擇不同輸入特征的預(yù)測(cè)模型,后者則指基于不同算法原理的預(yù)測(cè)模型[16]。對(duì)于組合策略問題,最常見的組合方法為線性加權(quán)組合,其中等權(quán)重方法被認(rèn)為是一種具有較強(qiáng)穩(wěn)定性及魯棒性的方法。此外,許多文獻(xiàn)通過優(yōu)化方法確定基模型權(quán)重。文獻(xiàn)[17]通過優(yōu)化連續(xù)分級(jí)概率評(píng)分(continuous ranked probability score, CPRS)得到各基模型的最優(yōu)權(quán)重;文獻(xiàn)[18]則通過優(yōu)化組合預(yù)測(cè)的分位數(shù)損失函數(shù)將各基模型的分位數(shù)預(yù)測(cè)結(jié)果線性組合。
盡管通過優(yōu)化方法將基模型結(jié)果線性加權(quán)的方式表現(xiàn)出優(yōu)于單一模型的效果,但仍存在不足。首先,基模型預(yù)測(cè)結(jié)果往往呈現(xiàn)出對(duì)外部特征的強(qiáng)依賴性,而現(xiàn)有的優(yōu)化組合方法僅根據(jù)基模型的歷史預(yù)測(cè)結(jié)果及對(duì)應(yīng)時(shí)刻真實(shí)值求解最優(yōu)權(quán)重,并未考慮基模型預(yù)測(cè)結(jié)果及組合方式與外部特征之間的關(guān)聯(lián)性;其次,線性組合本身存在局限,相較于非線性組合方法缺乏靈活性。盡管文獻(xiàn)[19]構(gòu)建了基于深度學(xué)習(xí)的組合預(yù)測(cè)模型,實(shí)現(xiàn)了非線性組合概率預(yù)測(cè),但在組合預(yù)測(cè)模型中仍未能充分利用外部特征,且未考慮基模型預(yù)測(cè)結(jié)果間的相互關(guān)系對(duì)組合預(yù)測(cè)的影響。
為解決上述問題,本文提出一種基于自注意力機(jī)制特征提取的光伏功率組合概率預(yù)測(cè)模型(self-attention-based combining probabilistic prediction, SA-CPP)。首先,通過網(wǎng)格搜索超參數(shù)尋優(yōu)構(gòu)建兼具同質(zhì)模型與異質(zhì)模型的模型池。其次,提出一種基于自注意力機(jī)制的特征提取模塊,該模塊可在考慮不同基模型預(yù)測(cè)結(jié)果相關(guān)性的基礎(chǔ)上進(jìn)行自適應(yīng)的特征提取,隨后將降維后的特征輸入到上層網(wǎng)絡(luò)中。再次,提出一種用于分位數(shù)增量預(yù)測(cè)的殘差全連接網(wǎng)絡(luò),針對(duì)外部特征及降維后的基模型特征進(jìn)行訓(xùn)練,實(shí)現(xiàn)單調(diào)分位數(shù)預(yù)測(cè)。最后,基于公開數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)與全面的性能測(cè)試,通過消融實(shí)驗(yàn)驗(yàn)證特征提取模塊的有效性,與基模型及其他組合方法對(duì)比,驗(yàn)證本文所提出組合概率預(yù)測(cè)方法的有效性。
1 組合概率預(yù)測(cè)基本原理
1.1 組合概率預(yù)測(cè)流程
在機(jī)器學(xué)習(xí)領(lǐng)域,數(shù)據(jù)集往往被劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集3個(gè)部分。不同于單一預(yù)測(cè)模型,組合預(yù)測(cè)需同時(shí)考慮基模型及組合模型訓(xùn)練與驗(yàn)證所需數(shù)據(jù),因此需對(duì)數(shù)據(jù)集進(jìn)行合理分配。在本文中,數(shù)據(jù)集被劃分為基模型訓(xùn)練集、基模型驗(yàn)證集、組合模型訓(xùn)練集、組合模型驗(yàn)證集及測(cè)試集5個(gè)部分。組合概率預(yù)測(cè)整體流程分為3步:首先,根據(jù)集合基模型驗(yàn)證集上的超參數(shù)尋優(yōu)結(jié)果選取合適的基模型及其超參數(shù),于基模型訓(xùn)練集訓(xùn)練并生成基模型預(yù)測(cè)結(jié)果;然后,同時(shí)考慮基模型預(yù)測(cè)結(jié)果及外部特征,于組合模型驗(yàn)證集、組合模型訓(xùn)練集對(duì)組合模型進(jìn)行超參數(shù)尋優(yōu)及訓(xùn)練,繼而生成測(cè)試集的組合模型預(yù)測(cè)結(jié)果;最后,對(duì)各模型在測(cè)試集的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比與分析。
1.2 連續(xù)分級(jí)概率評(píng)分
光伏功率概率預(yù)測(cè)模型需選定合適的損失函數(shù)以指導(dǎo)模型的訓(xùn)練過程,該損失函數(shù)應(yīng)有效反映預(yù)測(cè)概率分布與真實(shí)分布之間的接近程度。概率預(yù)測(cè)評(píng)價(jià)指標(biāo)通??煞譃榍逦戎笜?biāo)、可靠性指標(biāo)以及綜合評(píng)價(jià)指標(biāo)。CPRS是概率預(yù)測(cè)領(lǐng)域應(yīng)用最廣泛的綜合評(píng)價(jià)指標(biāo)之一,可評(píng)估預(yù)測(cè)分布在整個(gè)定義域的全局表現(xiàn),因此被本文選定作為光伏功率組合概率預(yù)測(cè)的損失函數(shù),其定義式為:
[S(FY,y)=-∞+∞[FY(z)-Iylt;z]2dz] (1)
式中:[FY(z)]——預(yù)測(cè)對(duì)象[Y]的累積分布函數(shù)(cumulative distribution function, CDF);[y]——預(yù)測(cè)對(duì)象觀測(cè)值;[Iylt;z]——示性函數(shù),當(dāng)滿足條件[ylt;z]時(shí)取值為1,反之為0。
此外,CRPS可由分位數(shù)損失函數(shù)在區(qū)間[0,1]的積分等價(jià)表示[14]。分位數(shù)損失函數(shù)及CRPS等價(jià)形式分別為:
[Lα(QY(α),y)=(α-Iylt;QY(α))(y-QY(α))] (2)
[S(QY,y)=012Lα(QY(α),y)dα] (3)
式中:[QY(α)]——預(yù)測(cè)對(duì)象的分位數(shù)函數(shù)(quantile function, QF)。
若預(yù)測(cè)結(jié)果的形式為離散分位數(shù)向量,則可對(duì)式(3)進(jìn)行離散化處理,作為CRPS的近似表達(dá)式,即:
[S(QY,y)=i=1Np2Lα(QY(αi),y)Δ] (4)
式中:[Δ]——相鄰分位點(diǎn)間距,且設(shè)各間距相等;[Np]——離散分位點(diǎn)總數(shù),定義[Α]為分位點(diǎn)集合,[Α={α1,α2,…,αNp}]。
1.3 基于分位數(shù)增量集合的單調(diào)分位數(shù)預(yù)測(cè)
由于傳統(tǒng)的分位數(shù)回歸通常對(duì)各分位點(diǎn)獨(dú)立訓(xùn)練模型,這種處理方式一方面易產(chǎn)生分位數(shù)交叉現(xiàn)象,另一方面訓(xùn)練多個(gè)模型需耗費(fèi)大量時(shí)間。為避免上述問題,得到單調(diào)的分位數(shù)預(yù)測(cè)結(jié)果,本文通過預(yù)測(cè)分位數(shù)增量集合以間接預(yù)測(cè)分位數(shù)向量。在待預(yù)測(cè)離散分位點(diǎn)集合為[Α]的前提下,設(shè)對(duì)應(yīng)分位數(shù)增量集合為[Ω={σ0,σ1,…,σNq}]。分位數(shù)增量[σi(i=0,1,…,Nq)]滿足非負(fù)且和為1約束(即式(5)~式(6)),此時(shí)待預(yù)測(cè)分位數(shù)[QY(αi)]可由式(7)表示。
[σigt;0,?i] (5)
[i=0Nqσi=1] (6)
[QY(αi)=l=0i-1σl,?i] (7)
通過在網(wǎng)絡(luò)的最后一層應(yīng)用softmax激活函數(shù),可得滿足式(5)~式(6)的分位數(shù)增量集合,進(jìn)而根據(jù)式(7)計(jì)算得到待預(yù)測(cè)分位數(shù)。結(jié)合式(4)可得CRPS近似式與分位數(shù)增量間的關(guān)系(如式(8)所示),以用于網(wǎng)絡(luò)訓(xùn)練。
[S(Ω,y)=N(N+1)Δ2y2-Δi=0Nq-1(Nq-i)σi +Δi=1NqIylt;qil=0i-1σl-y] (8)
2 光伏功率組合概率預(yù)測(cè)模型池
為產(chǎn)生精度較高且多樣化的基模型預(yù)測(cè)結(jié)果,本文基模型池同時(shí)考慮異質(zhì)模型及同質(zhì)模型。首先選取4種基于不同原理的光伏概率預(yù)測(cè)模型,包括兩種參數(shù)型預(yù)測(cè)方法及兩種非參數(shù)型預(yù)測(cè)方法,其中兩種參數(shù)型概率預(yù)測(cè)模型在同一長(zhǎng)短期記憶網(wǎng)絡(luò)(long short term memory, LSTM)預(yù)測(cè)框架下采用不同的分布假設(shè),即雙側(cè)冪律(two-sided power, TSP)分布與截?cái)嗾龖B(tài)(truncted normal, TN)分布。在非參數(shù)型方法的選擇方面,由于分位數(shù)回歸梯度提升(quantile regression gradient boosting, QRGB)及分位數(shù)回歸神經(jīng)網(wǎng)絡(luò)(quantile regression neural network, QRNN)是兩種應(yīng)用廣泛且表現(xiàn)優(yōu)異的非參數(shù)型概率預(yù)測(cè)方法[11,17],因而將QRGB與QRNN加入光伏功率組合概率預(yù)測(cè)模型池中。之后通過在基模型驗(yàn)證集上網(wǎng)格搜索的方式進(jìn)行超參數(shù)尋優(yōu),每種模型選取4組最優(yōu)超參數(shù)并生成整個(gè)數(shù)據(jù)集上的預(yù)測(cè)結(jié)果,最終總計(jì)得到16組基模型分位數(shù)預(yù)測(cè)結(jié)果。
2.1 參數(shù)型概率預(yù)測(cè)
考慮到光伏功率具有時(shí)序相關(guān)性的特征,本文選LSTM作為參數(shù)型概率預(yù)測(cè)的基本網(wǎng)絡(luò)結(jié)構(gòu),以氣象特征、歷史出力、時(shí)序編碼作為網(wǎng)絡(luò)的輸入,以預(yù)設(shè)概率分布的參數(shù)作為網(wǎng)絡(luò)輸出,面向CRPS損失函數(shù)訓(xùn)練網(wǎng)絡(luò)。LSTM單元的基本組成包括遺忘門、輸入門和輸出門。隱藏層狀態(tài)[Ht]及細(xì)胞狀態(tài)[Ct]在相鄰LSTM單元間傳遞,[Ht]經(jīng)全連接層映射得到預(yù)設(shè)概率分布的參數(shù)。LSTM的結(jié)構(gòu)如圖1所示。
2.1.1 雙側(cè)冪律分布
TSP分布將自變量限制在[0, 1]范圍內(nèi),與標(biāo)幺制下光伏功率范圍相符。TSP分布概率密度函數(shù)如式(9)所示,具有2個(gè)分布參數(shù)[(θ1,TSP,θ2,TSP)],取值范圍分別為[θ1,TSPgt;1]及[0≤θ2,TSP≤1]。
[fTSP(x;θTSP)=θ1,TSP(xθ2,TSP)θ1,TSP-1, "0≤xlt;θ2,TSPθ1,TSP(1-x1-θ2,TSP)θ1,TSP-1, "θ2,TSP≤x≤1 ] (9)
對(duì)TSP分布概率密度函數(shù)[fTSP]積分可得累積分布函數(shù)[FTSP]為:
[FTSP(x;θTSP)=xθ1,TSPθn-12,TSP, 0≤xlt;θ2,TSP1-(1-x)θ1,TSP(1-θ2,TSP)θ1,TSP-1,θ2,TSP≤x≤1 ] (10)
由于TSP分布的累積分布函數(shù)為關(guān)于自變量的冪指數(shù)形式,便于通過積分運(yùn)算推導(dǎo)CRPS的解析表達(dá)式,因此選擇以CRPS解析式作為網(wǎng)絡(luò)訓(xùn)練的損失函數(shù):
[S(FTSP,y)=θ2,TSP-y+θ32,TSP+(1-θ2,TSP)32θ1,TSP+1 +2Iylt;θ2,TSPθ1,TSP+1yθ1,TSP+1θn-12,TSP-θ22,TSP+2Iy≥θ2,TSPθ1,TSP+1(1-y)θ1,TSP+1(1-θ2,TSP)θ1,TSP-1-(1-θ2,TSP)2] (11)
2.1.2 截?cái)嗾龖B(tài)分布
TN分布是正態(tài)分布的推廣形式,本身具有4個(gè)參數(shù)([μ],[σ],[ε_(tái)],[ε]),其中[[ε],[ε]]為截?cái)嗾龖B(tài)分布的自變量取值范圍。相較于正態(tài)分布,TN分布可限制自變量的取值范圍,使分布更符合實(shí)際情況,其概率密度函數(shù)表現(xiàn)為分段函數(shù)形式如式(12)所示。當(dāng)[ε_(tái)=-∞]且[ε=+∞]時(shí),TN分布等價(jià)于正態(tài)分布。在本文中,對(duì)應(yīng)于標(biāo)幺化光伏功率的取值范圍,取[ε_(tái)=0]且[ε=1]。
[fTN(x;μ,σ,ε_(tái),ε)=0, "x≤ε_(tái)?(x;μ,σ2)?(ε;μ,σ2)-?(ε_(tái);μ,σ2), "ε_(tái)lt;x≤ε 0, "xgt;ε ] (12)
式中:[?(x;μ,σ2)]——正態(tài)分布的概率密度函數(shù),其均值為[μ],方差為[σ2]。
對(duì)概率密度函數(shù)[fTN]積分可得TN分布的累積分布函數(shù),對(duì)累積分布函數(shù)求逆函數(shù)可得TN分布的分位數(shù)函數(shù)[QTN]:
[QTN(x;μ,σ,ε_(tái),ε)=Φ-1(Φ(ε_(tái);μ,σ2)+ " " " x[Φ(ε;μ,σ2)-Φ(ε_(tái);μ,σ2)];μ,σ2)] (13)
式中:[Φ(x;μ,σ2)]——正態(tài)分布累積分布函數(shù)。
由于[FTN]難以進(jìn)行積分運(yùn)算,因此設(shè)置離散分位點(diǎn),以依式(4)求得的近似CRPS作為損失函數(shù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練。
2.2 非參數(shù)型概率預(yù)測(cè)
2.2.1 分位數(shù)回歸梯度提升
QRGB是一種基于決策樹的集成預(yù)測(cè)算法,通過迭代方式使新的決策樹擬合模型輸出值與目標(biāo)值間的殘差,最終求和得到整體預(yù)測(cè)結(jié)果。第[nGB]次迭代后模型輸出可表示為:
[f(nGB)GB(Xt)=f(nGB-1)GB(Xt)+λGBmGB=1MGBγ(nGB)mGBIXt∈R(nGB)mGB] (14)
[γ(nGB)mGB=argminγLα(f(nGB-1)GB(Xt)+γ,y)] (15)
式中:[λGB]——QRGB模型的學(xué)習(xí)率;[R(nGB)mGB]——第[nGB]次迭代中決策樹第[mGB]個(gè)葉子節(jié)點(diǎn)所對(duì)應(yīng)的特征區(qū)域;[γ(nGB)mGB]——對(duì)應(yīng)區(qū)域的最優(yōu)估計(jì)量,可通過最小化分位數(shù)損失求解。
由于QRGB模型需要對(duì)每個(gè)分位數(shù)分別訓(xùn)練,因此常出現(xiàn)分位數(shù)交叉現(xiàn)象,本文采用簡(jiǎn)單重排方法,即按大小關(guān)系對(duì)預(yù)測(cè)分位數(shù)集合重新排序,以獲取單調(diào)的分位數(shù)預(yù)測(cè)結(jié)果[18]。
2.2.2 分位數(shù)回歸神經(jīng)網(wǎng)絡(luò)
QRNN是一種利用神經(jīng)網(wǎng)絡(luò)進(jìn)行分位數(shù)回歸的方法,基本結(jié)構(gòu)包括輸入層、隱藏層及輸出層。網(wǎng)絡(luò)輸出[yα(Xt)]與輸入特征[Xt]間的非線性映射關(guān)系可表示為:
[yα(Xt)=fQRNN(Xt;θQRNN)] (16)
式中:[α]——目標(biāo)分位數(shù);[θQRNN]——QRNN的網(wǎng)絡(luò)參數(shù)。
選取分位數(shù)損失作為網(wǎng)絡(luò)損失函數(shù),通過優(yōu)化器在訓(xùn)練集上對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,可求得優(yōu)化后的網(wǎng)絡(luò)參數(shù),從而實(shí)現(xiàn)分位數(shù)預(yù)測(cè)。
[θ*QRNN=argminθQRNN{(τ-Iylt;yα(Xt))(y-yα(Xt))}] (17)
為避免出現(xiàn)分位數(shù)交叉現(xiàn)象,本文采用預(yù)測(cè)分位數(shù)增量集合的方式間接預(yù)測(cè)目標(biāo)分位數(shù),如式(5)~式(7)所示。
3 基于自注意力特征提取的組合概率預(yù)測(cè)模型
3.1 基于自注意力機(jī)制的特征提取模塊
在組合預(yù)測(cè)中,組合方式不僅與單個(gè)基模型表現(xiàn)有關(guān),還與不同基模型預(yù)測(cè)結(jié)果間的相關(guān)性有關(guān)[20]。為充分考慮不同基模型預(yù)測(cè)結(jié)果之間的相關(guān)性,本文在組合概率預(yù)測(cè)模型中設(shè)計(jì)基于自注意力(self-attention, SA)機(jī)制的特征提取模塊。設(shè)基模型m預(yù)測(cè)得到的分位數(shù)向量為[βm(m=1,2,...,Nm)],可構(gòu)建基模型預(yù)測(cè)結(jié)果矩陣[QB=[β1, β2,..., βNm]]。另設(shè)線性變換矩陣[WQ]、[WK]、[WV],分別與基模型預(yù)測(cè)結(jié)果矩陣[QB]相乘得到對(duì)應(yīng)的Query、Key、Value矩陣(Query、Key、Value矩陣各列與各基模型一一對(duì)應(yīng)),如式(18)~式(20)所示。
[QSA=WQQB] (18)
[KSA=WKQB] (19)
[VSA=WVQB] (20)
[ASA=(KSA)TQSA] (21)
[QB=VSAASA=[β1,β2,…,βNm]] (22)
繼而將Key矩陣的轉(zhuǎn)置與Query矩陣相乘可得到注意力得分矩陣[ASA],如式(21)所示。對(duì)[ASA]中每列作softmax變換即可得到歸一化后的注意力得分矩陣[ASA]。自注意力機(jī)制的輸出矩陣[QB]可通過Value矩陣與[ASA]相乘得到,如式(22)所示。輸出矩陣[QB]中列分量[βm]即為基模型分位數(shù)向量[βm]在考慮與其他基模型分位數(shù)向量間相關(guān)性的情況下得到的輸出向量。以[β2]為例,計(jì)算過程如圖2所示。
通過全連接網(wǎng)絡(luò)(fully-connected network, FCN)對(duì)[βm(m=1,2,…,Nm)]進(jìn)行特征提取與降維,即可得到對(duì)應(yīng)的特征向量,進(jìn)而連接到上級(jí)網(wǎng)絡(luò),與其他外部特征一并參與組合概率預(yù)測(cè)模型訓(xùn)練。
3.2 組合概率預(yù)測(cè)模型
基于自注意力機(jī)制的特征提取模塊與基于全連接層的上級(jí)網(wǎng)絡(luò)共同構(gòu)成本文所提出的組合概率預(yù)測(cè)模型。為避免網(wǎng)絡(luò)層數(shù)過深帶來(lái)的梯度消失問題,本文在上層網(wǎng)絡(luò)中引入殘差連接機(jī)制?;谧宰⒁饬C(jī)制特征提取的組合概率預(yù)測(cè)模型如圖3所示。首先,以經(jīng)數(shù)據(jù)預(yù)處理得到的氣象特征、時(shí)序編碼及歷史特征作為基模型輸入,得到基模型的預(yù)測(cè)結(jié)果;之后,將基模型預(yù)測(cè)結(jié)果作為特征提取模塊的輸入,并將特征提取模塊的輸出與氣象特征、時(shí)序編碼及歷史特征一并輸入至上層網(wǎng)絡(luò)。上層網(wǎng)絡(luò)的輸出為1.3節(jié)提出的分位數(shù)增量集合,結(jié)合式(8)可得分位數(shù)預(yù)測(cè)結(jié)果的CRPS損失,進(jìn)而可通過優(yōu)化器對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)化。
4 算例分析
4.1 數(shù)據(jù)集及實(shí)驗(yàn)平臺(tái)
4.1.1 數(shù)據(jù)集及實(shí)驗(yàn)平臺(tái)
本文算例分析選用2014年全球能源預(yù)測(cè)競(jìng)賽光伏預(yù)測(cè)任務(wù)公開數(shù)據(jù)集。該數(shù)據(jù)集涵蓋了某光伏場(chǎng)站2012年4月1日—2014年6月30日的實(shí)際出力數(shù)據(jù)及12種氣象預(yù)報(bào)數(shù)據(jù),時(shí)間分辨率為1 h,其中氣象預(yù)報(bào)數(shù)據(jù)包括累計(jì)降水量、累計(jì)太陽(yáng)輻射等累計(jì)特征量以及風(fēng)速、云量等實(shí)時(shí)特征量。本文基于Python 3.8及Pytorch 1.12.0實(shí)現(xiàn)模型網(wǎng)絡(luò)構(gòu)建、參數(shù)學(xué)習(xí)及相關(guān)數(shù)據(jù)處理過程。
4.1.2 數(shù)據(jù)預(yù)處理
光伏出力與時(shí)間具有強(qiáng)相關(guān)性,由于夜晚時(shí)光伏機(jī)組出力為0,因此本文僅針對(duì)每日08:00—19:00共12個(gè)樣本點(diǎn)進(jìn)行實(shí)驗(yàn)與評(píng)價(jià)。由于光伏數(shù)據(jù)呈周期性特點(diǎn),因此除氣象特征外,本文向特征集合中加入歷史特征及時(shí)序編碼特征,其中歷史特征即為前一天對(duì)應(yīng)時(shí)刻實(shí)際出力。對(duì)周期[TPV]中階段[tPV]的樣本而言,其時(shí)序編碼特征如式(23)、式(24)所示。由于光伏出力具有年周期與日周期兩類周期,因此[TPV]可選擇為365或12,[tPV]對(duì)應(yīng)取為一年中的日序號(hào)及一天中的小時(shí)序號(hào)。
[xtPV,ENC=sin2tPVTPVπ] (23)
[ytPV,ENC=cos2tPVTPVπ] (24)
為消除特征間單位和尺度差異的影響,提高預(yù)測(cè)準(zhǔn)確性,本文首先將相鄰時(shí)刻的累計(jì)特征量做差形成新特征,即對(duì)應(yīng)時(shí)刻近似實(shí)時(shí)特征量,進(jìn)而對(duì)全體樣本特征做正態(tài)標(biāo)準(zhǔn)化處理。對(duì)特征[X]進(jìn)行標(biāo)準(zhǔn)化處理:
[Xstd=X-μXσX] (25)
式中:[μX]——所有樣本特征[X]的均值;[σX]——特征[X]的方差。
4.2 評(píng)價(jià)指標(biāo)
光伏功率概率預(yù)測(cè)的質(zhì)量可從可靠性、清晰度及CRPS3方面進(jìn)行評(píng)估??煽啃院饬款A(yù)測(cè)分布與實(shí)際觀測(cè)值之間的一致性,本文選取預(yù)測(cè)區(qū)間覆蓋率誤差(prediction interval coverage error, PICE)作為可靠性評(píng)價(jià)指標(biāo),定義為:
[E=1Aα∈Aα-α] (26)
[α=1Ni=1NIyilt;QY(α)] (27)
式中:[A]——選定用于可靠性評(píng)估的標(biāo)稱概率集合,[A={0.05,0.10,…,0.95}];[α]——實(shí)際出力低于[α]分位數(shù)的觀測(cè)樣本占總體樣本的比例;[N]——樣本數(shù)量。
清晰度衡量預(yù)測(cè)分布的集中程度,本文選取標(biāo)準(zhǔn)化預(yù)測(cè)區(qū)間寬度(normalized prediction interval width, NPIW)作為清晰度評(píng)價(jià)指標(biāo),它描述了多個(gè)置信水平預(yù)測(cè)區(qū)間的標(biāo)準(zhǔn)化平均寬度,本文選用的置信水平集合為[A={0.1,0.2,…,0.9}],此時(shí)NPIW可由式(28)得到。
[W=1NAi=1Nα∈AQYi1+α2-QYi1-α2α] (28)
4.3 基于自注意力機(jī)制的特征提取模塊性能檢驗(yàn)
為檢驗(yàn)本文所提出的基于自注意力機(jī)制特征提取模塊的性能,本節(jié)設(shè)置無(wú)特征提取模塊的對(duì)照模型進(jìn)行消融實(shí)驗(yàn),即組合概率預(yù)測(cè)模型(combining probabilistic prediction, CPP)。在CPP中,所有基模型預(yù)測(cè)結(jié)果被簡(jiǎn)單重構(gòu)為一個(gè)行向量,并與外部特征一并輸入到上層網(wǎng)絡(luò)中,其他結(jié)構(gòu)與SA-CPP保持一致。CPP與SA-CPP的超參數(shù)尋優(yōu)結(jié)果如表1所示,訓(xùn)練輪次設(shè)定為200。
圖4、圖5分別展示了CPP與SA-CPP預(yù)測(cè)結(jié)果在不同置信水平下中心預(yù)測(cè)區(qū)間平均寬度以及不同標(biāo)稱概率下的真實(shí)覆蓋比例。若預(yù)測(cè)分布與實(shí)際觀測(cè)值分布一致,則觀測(cè)樣本覆蓋比例應(yīng)與標(biāo)稱概率相等,即呈現(xiàn)出圖4中理想值對(duì)應(yīng)直線形式。從圖4可看出,SA-CPP的中心預(yù)測(cè)區(qū)間平均寬度在不同置信水平下與CPP雖互有勝負(fù),但隨著置信水平的變化表現(xiàn)更加平穩(wěn)。從圖5可看出,在本文選取的總計(jì)19個(gè)標(biāo)稱概率點(diǎn)中,SA-CPP在其中17個(gè)標(biāo)稱概率點(diǎn)下比CPP更接近理想值直線,占標(biāo)稱概率點(diǎn)總數(shù)的89.47%??傮w而言,SA-CPP更加貼近理想值直線,其預(yù)測(cè)分布與實(shí)際觀測(cè)值之間的一致性更高,可靠性也更高。
表2統(tǒng)計(jì)了CPP與SA-CPP預(yù)測(cè)結(jié)果在可靠性、清晰度及CRP這3個(gè)方面的得分情況,其中可靠性、清晰度分別通過PICE及NPIW兩項(xiàng)指標(biāo)體現(xiàn),而CRPS則根據(jù)式(4)求得。從表2可看出,具備自注意力特征提取模塊的SA-CPP相較于CPP在清晰度及CRPS指標(biāo)方面分別有6.69%、2.72%的改善,在可靠性方面的提升尤為顯著,PICE指標(biāo)改善程度高達(dá)55.53%。綜上,基于自注意力的特征提取模塊有助于組合預(yù)測(cè)模型更好地集成基模型預(yù)測(cè)結(jié)果特征,以達(dá)到更佳的概率預(yù)測(cè)性能。
4.4 SA-CPP整體性能測(cè)試分析
本文選取的概率預(yù)測(cè)對(duì)照模型包括TSP-LSTM、TN-LSTM、QRGB、QRNN這4種基模型及簡(jiǎn)單平均(equal-weighted combination, EC)、最優(yōu)組合(optimal combination, OC)兩種組合模型。EC與OC均為線性組合方式,EC將16組基模型預(yù)測(cè)結(jié)果等權(quán)重相加得到組合預(yù)測(cè)結(jié)果,OC則是將基模型權(quán)重視作決策變量,以分位數(shù)損失之和為優(yōu)化目標(biāo),于組合模型訓(xùn)練集及驗(yàn)證集優(yōu)化求解,繼而將各基模型測(cè)試集預(yù)測(cè)結(jié)果按最優(yōu)權(quán)重加權(quán)求和得到組合預(yù)測(cè)結(jié)果[18]。
圖6、圖7分別展示了各類模型在不同置信水平下的中心區(qū)間平均寬度及不同標(biāo)稱概率下的真實(shí)覆蓋比例。整體來(lái)看,TN-LSTM中心預(yù)測(cè)區(qū)間平均寬度最低,但觀測(cè)樣本覆蓋比例偏離理想值較遠(yuǎn);QRGB的觀測(cè)樣本覆蓋比例與理想值較為接近,但卻有最高的中心預(yù)測(cè)區(qū)間平均寬度。EC與OC組合方法表現(xiàn)出較低的中心預(yù)測(cè)區(qū)間平均寬度,但在觀測(cè)樣本覆蓋比例方面相對(duì)于理想值仍有較大偏離程度??傮w而言,本文提出的SA-CPP在保持較低預(yù)測(cè)區(qū)間平均寬度的同時(shí),在觀測(cè)樣本覆蓋比例方面比所有對(duì)照模型都更接近理想值,意味著SA-CPP的預(yù)測(cè)分布更接近樣本真實(shí)分布。
表3記錄了各類模型在測(cè)試集上的預(yù)測(cè)性能表現(xiàn)。本文提出的SA-CPP模型在可靠性指標(biāo)PICE與綜合指標(biāo)CRPS方面均取得了最佳表現(xiàn),其中PICE相較于表現(xiàn)最佳的對(duì)照模型(QRGB)改善了63.20%,CRPS相較于表現(xiàn)最佳的對(duì)照模型(OC)改善了4.60%。盡管SA-CPP在清晰度指標(biāo)NPIW方面弱于TN-LSTM,但綜合PICE來(lái)看,TN-LSTM的預(yù)測(cè)分布與真實(shí)分布差距較大,說(shuō)明TN-LSTM的分位數(shù)預(yù)測(cè)過度集中,預(yù)測(cè)結(jié)果缺乏可靠性。綜上,本文提出的SA-CPP模型可提供可靠、高質(zhì)量的概率預(yù)測(cè)結(jié)果。
為直觀展示本文所提出的SA-CPP模型的概率預(yù)測(cè)效果,圖8展示了光伏電站在2014年4月1—7日的觀測(cè)數(shù)據(jù)及SA-CPP的10%、30%、50%、70%、90%中心區(qū)間預(yù)測(cè)結(jié)果,并同時(shí)給出對(duì)照模型中綜合表現(xiàn)最優(yōu)的OC模型相關(guān)結(jié)果作為對(duì)比。兩種模型均可為決策者提供光伏功率出力的不確定性信息,當(dāng)觀測(cè)數(shù)據(jù)波動(dòng)劇烈時(shí)(如第1、3~6日),預(yù)測(cè)區(qū)間相對(duì)寬松;而觀測(cè)數(shù)據(jù)趨勢(shì)較為平穩(wěn)時(shí)(如第2、7日),預(yù)測(cè)區(qū)間相對(duì)狹窄。經(jīng)統(tǒng)計(jì),84個(gè)采樣點(diǎn)中共有77個(gè)采樣點(diǎn)(占比為91.7%)落在SA-CPP模型90%預(yù)測(cè)區(qū)間內(nèi),說(shuō)明SA-CPP較為準(zhǔn)確刻畫了出力不確定性;而落在OC模型90%預(yù)測(cè)區(qū)間內(nèi)的采樣點(diǎn)數(shù)量則為84(占比為100%),說(shuō)明與SA-CPP相比,OC模型的預(yù)測(cè)結(jié)果過于保守,可靠性表現(xiàn)不佳。
5 結(jié) 論
本文提出基于自注意力特征提取的光伏功率概率預(yù)測(cè)方法,結(jié)合基模型預(yù)測(cè)結(jié)果實(shí)現(xiàn)組合預(yù)測(cè),輸出單調(diào)分位數(shù)預(yù)測(cè)結(jié)果。相關(guān)算例結(jié)果表明,基于自注意力機(jī)制的特征提取模塊有助于組合模型集成基模型預(yù)測(cè)結(jié)果特征。相較于CPP模型,本文提出的SA-CPP模型在PICE、NPIW、CRPS這3個(gè)維度的指標(biāo)上分別有55.53%、6.69%及2.72%的改善。相較于各類基模型以及線性組合模型,SA-CPP在PICE及CRPS指標(biāo)方面表現(xiàn)最優(yōu),說(shuō)明本文提出的SA-CPP模型能提供更加可靠、高質(zhì)量的概率預(yù)測(cè)結(jié)果。
[參考文獻(xiàn)]
[1] 張雪松, 李鵬, 周亦堯, 等. 基于貝葉斯概率的光伏出力組合預(yù)測(cè)方法[J]. 太陽(yáng)能學(xué)報(bào), 2021, 42(10): 80-86.
ZHANG X S, LI P, ZHOU Y Y, et al. Photovoltaic output combination forecasting method based on Bayesian probability[J]. Acta energiae solaris sinica, 2021, 42(10): 80-86.
[2] 杜曉東, 趙建利, 劉科研, 等. 基于數(shù)字孿生的光伏高比例配電網(wǎng)過載風(fēng)險(xiǎn)預(yù)警方法[J]. 電力系統(tǒng)保護(hù)與控制, 2022, 50(9): 136-144.
DU X D, ZHAO J L, LIU K Y, et al. Digital twin early warning method study for overload risk of distribution network with a high proportion of photovoltaic access[J]. Power system protection and control, 2022, 50(9): 136-144.
[3] 張立棟, 李繼影, 吳穎, 等. 不同時(shí)間分辨率的風(fēng)功率時(shí)間序列ARIMA模型預(yù)測(cè)[J]. 中國(guó)電力, 2016, 49(6): 176-180.
ZHANG L D, LI J Y, WU Y, et al. ARIMA model forecast for wind power time series with different temporal resolutions[J]. Electric power, 2016, 49(6): 176-180.
[4] 王獻(xiàn)志, 曾四鳴, 周雪青, 等. 基于XGBoost聯(lián)合模型的光伏發(fā)電功率預(yù)測(cè)[J]. 太陽(yáng)能學(xué)報(bào), 2022, 43(4): 236-242.
WANG X Z, ZENG S M, ZHOU X Q, et al. Power forecast of photovoltaic generation based on XGBoost combined model[J]. Acta energiae solaris sinica, 2022, 43(4): 236-242.
[5] 譚海旺, 楊啟亮, 邢建春, 等. 基于XGBoost-LSTM組合模型的光伏發(fā)電功率預(yù)測(cè)[J]. 太陽(yáng)能學(xué)報(bào), 2022, 43(8): 75-81.
TAN H W, YANG Q L, XING J C, et al. Photovoltaic power prediction based on combined XGBoost-LSTM model[J]. Acta energiae solaris sinica, 2022, 43(8): 75-81.
[6] 楊楠, 周崢, 陳道君, 等. 基于非參數(shù)核密度估計(jì)的風(fēng)功率波動(dòng)性概率密度建模方法[J]. 太陽(yáng)能學(xué)報(bào), 2019, 48(7): 2028-2035.
YANG N, ZHOU Z, CHEN D J, et al. Research of modeling method based on non-parametric kernel density estimation of probability of wind power fluctuations[J]. Acta energiae solaris sinica, 2019, 48(7): 2028-2035.
[7] ZHANG W J, QUAN H, GANDHI O, et al. Improving probabilistic load forecasting using quantile regression NN with skip connections[J]. IEEE transactions on smart grid, 2020, 11(6): 5442-5450.
[8] CHAI S J, XU Z, WONG W K. Optimal granule-based PIs construction " for " solar " irradiance " forecast[J]. " IEEE transactions on power systems, 2016, 31(4): 3332-3333.
[9] XIE J R, HONG T, LAING T, et al. On normality assumption in residual simulation for probabilistic load forecasting[J]. IEEE transactions on smart grid, 2017, 8(3): 1046-1053.
[10] LIN F, ZHANG Y, WANG K, et al. Parametric probabilistic forecasting of solar power with fat-tailed distributions " and " deep " neural " networks[J]. " IEEE transactions on sustainable energy, 2022, 13(4): 2133-2147.
[11] 賈德香, 呂干云, 林芬, 等. 基于SAPSO-BP和分位數(shù)回歸的光伏功率區(qū)間預(yù)測(cè)[J]. 電力系統(tǒng)保護(hù)與控制, 2021, 49(10): 20-26.
JIA D X, LYU G Y, LIN F, et al. Photovoltaic power interval prediction based on SAPSO-BP and quantile regression[J]. Power system protection and control, 2021, 49(10): 20-26.
[12] RUAS M, STREET A, FERNANDES C. A multi-quantile regression time series model with interquantile lipschitz regularization for wind power probabilistic forecasting[J]. Electric power systems research, 2022, 209: 107973.
[13] 程澤, 劉沖, 劉力. 基于相似時(shí)刻的光伏出力概率分布估計(jì)方法[J]. 電網(wǎng)技術(shù), 2017, 41(2): 448-454.
CHENG Z, LIU C, LIU L. A method of probabilistic distribution estimation of PV generation based on similar time of day[J]. Power system technology, 2017, 41(2): 448-454.
[14] WANG K, ZHANG Y, LIN F, et al. Nonparametric probabilistic forecasting for wind power generation using quadratic spline quantile function and autoregressive recurrent " neural " network[J]. " IEEE " transactions " on sustainable energy, 2022, 13(4): 1930-1943.
[15] WANG X Q, HYNDMAN R J, LI F, et al. Forecast combinations: an over 50-year review[J]. International journal of forecasting, 2023, 39(4): 1518-1547.
[16] 游文霞, 申坤, 楊楠, 等. 基于Bagging異質(zhì)集成學(xué)習(xí)的竊電檢測(cè)[J]. 電力系統(tǒng)自動(dòng)化, 2021, 45(2): 105-113.
YOU W X, SHEN K, YANG N, et al. Electricity theft detection based on Bagging heterogeneous ensemble learning[J]. Automation of electric power systems, 2021, 45(2): 105-113.
[17] LI T Y, WANG Y, ZHANG N. Combining probability density forecasts for power electrical loads[J]. IEEE transactions on smart grid, 2020, 11(2): 1679-1690.
[18] WANG Y, ZHANG N, TAN Y S, et al. Combining probabilistic load forecasts[J]. IEEE transactions on smart grid, 2019, 10(4): 3664-3674.
[19] LU C B, LIANG J H, JIANG W Q, et al. High-resolution probabilistic load forecasting: a learning ensemble approach[J]. Journal of the Franklin Institute, 2023, 360(6): 4272-4296.
[20] LICHTENDAHL K C, WINKLER R L. Why do some combinations perform better than others?[J]. International journal of forecasting, 2020, 36(1): 142-149.
COMBINING PROBABILISTIC PREDICTION OF PV POWER "BASED ON SELF-ATTENTION FEATURE EXTRACTION MECHANISM
Wang Jiale,Zhang Yao,Lin Fan,Zhou Yidan,Sun Qianhao
(Shaanxi Key Laboratory of Smart Grid, School of Electrical Engineering, Xi’an Jiaotong University, Xi’an 710049, China)
Abstract:To accurately predict the probability distribution of photovoltaic output, this paper proposes a novel approach for probabilistic forecasting of photovoltaic power based on self-attention feature extraction mechanism. This method addresses the limitations of traditional linear combining prediction methods in terms of information utilization and flexibility. Firstly, a model pool is constructed which includes both homogeneous models and heterogeneous models. Subsequently, a feature extraction module based on self-attention mechanism is employed to adaptively extract features from the predictions of the base models. Lastly, the extracted features from the base models and the external features are input into a residual fully-connected network to achieve monotonic quantile prediction through quantile increment prediction. Experimental analysis using publicly available photovoltaic datasets demonstrates that the proposed method outperforms individual models and traditional linear combination methods in terms of overall performance.
Keywords:photovoltaic power; probabilistic prediction; self-attention; combination prediction; residual connection; quantile prediction