摘 要:針對短期風(fēng)電功率預(yù)測特征提取尺度單一問題,設(shè)計(jì)一種基于多尺度特征提取的Transformer短期風(fēng)電功率預(yù)測模型(MTPNet)。首先,在Transformer構(gòu)架的基礎(chǔ)上,利用維數(shù)不變嵌入,設(shè)計(jì)多尺度特征提取網(wǎng)絡(luò)挖掘風(fēng)電功率序列本身時序特征,保證了特征提取時維數(shù)不被破壞;其次,利用融合自注意力機(jī)制的長短期記憶網(wǎng)絡(luò)挖掘氣象條件與功率之間的全局依賴關(guān)系;最后,融合風(fēng)電功率序列本身時序特征和氣象條件依賴關(guān)系,實(shí)現(xiàn)短期風(fēng)電功率預(yù)測。實(shí)例仿真結(jié)果表明,MTPNet模型預(yù)測精度得到提升;消融實(shí)驗(yàn)證明了模型各模塊的可靠性和有效性,具有一定的實(shí)用價(jià)值。
關(guān)鍵詞:風(fēng)電功率預(yù)測;Transformer;注意力機(jī)制;特征提??;長短期記憶網(wǎng)絡(luò);維數(shù)不變嵌入層
中圖分類號:TM614" " " " " " " " " " " " " " " " 文獻(xiàn)標(biāo)志碼:A
0 引 言
當(dāng)代社會正面臨著不斷增長的能源需求和日益嚴(yán)重的氣候變化挑戰(zhàn),可再生能源逐漸成為滿足能源需求和減少碳排放的重要途徑。在眾多可再生能源中,風(fēng)能因其廣泛分布、清潔環(huán)保的特點(diǎn)而備受關(guān)注。近年來,中國風(fēng)電發(fā)展迅速,實(shí)現(xiàn)了風(fēng)電由“跟跑”向“領(lǐng)跑”的巨大跨越。然而,風(fēng)能的可變性和不確定性也為電力系統(tǒng)的穩(wěn)定運(yùn)行和能源市場交易帶來一定挑戰(zhàn)[1]。
短期風(fēng)電功率預(yù)測作為風(fēng)電大規(guī)模并網(wǎng)的重要環(huán)節(jié),日益受到學(xué)術(shù)界和工業(yè)界的重視。功率短期預(yù)測的主要目標(biāo)是通過綜合考慮氣象數(shù)據(jù)、歷史功率數(shù)據(jù)以及其他相關(guān)信息,精確預(yù)測未來短時間范圍內(nèi)(通常為幾小時到一天)風(fēng)電場的發(fā)電功率。通過準(zhǔn)確預(yù)測風(fēng)電功率,可為電力系統(tǒng)調(diào)度提供參考,從而確保電網(wǎng)的穩(wěn)定性和可靠性。
目前,常見的預(yù)測方法大體上可分為物理方法和統(tǒng)計(jì)方法兩類。隨著各種人工智能技術(shù)的發(fā)展,諸如長短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)[2]、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)[3]等的機(jī)器學(xué)習(xí)預(yù)測模型發(fā)展迅速。但是,傳統(tǒng)單一深度學(xué)習(xí)模型對隨機(jī)性和波動性強(qiáng)風(fēng)電功率數(shù)據(jù)預(yù)測時仍有較大誤差,為減小誤差,許多研究提出組合模型預(yù)測思想[4]。組合模型預(yù)測通常將單一模型與特征提取、聚類、誤差修正等方法結(jié)合,以減小風(fēng)電隨機(jī)波動影響,降低預(yù)測的復(fù)雜度,進(jìn)而提高預(yù)測精度。文獻(xiàn)[5]提出數(shù)據(jù)-物理混合驅(qū)動的預(yù)測方法,將殘差網(wǎng)絡(luò)與雙向門控循環(huán)單元融合,通過多項(xiàng)式-線性回歸模型和風(fēng)電場風(fēng)速-功率曲線,提升預(yù)測精度;文獻(xiàn)[6]采用高斯混合分布算法量化預(yù)測誤差的時序規(guī)律,構(gòu)建基于隱馬爾可夫模型的風(fēng)速預(yù)測誤差修正方法,提升了風(fēng)速預(yù)測精度;文獻(xiàn)[7]利用K均值聚類算法將不同風(fēng)電場的集群劃分成趨勢相近的子集群,再利用雙向長短時記憶神經(jīng)網(wǎng)絡(luò)對各子集群進(jìn)行風(fēng)電功率預(yù)測。
近年來,機(jī)器學(xué)習(xí)模型,特別是Transforms模型[8-10],極大地推動了對風(fēng)電功率時序預(yù)測問題的研究,涌現(xiàn)很多基于Transformer模型的預(yù)測方法。文獻(xiàn)[11]利用貝葉斯優(yōu)化調(diào)參進(jìn)行氣象因素多時間尺度下的統(tǒng)計(jì)特征、組合特征和類別特征進(jìn)行特征組合選擇,得到最終的風(fēng)電功率預(yù)測結(jié)果;文獻(xiàn)[12]利用時間序列Transformer和自注意力網(wǎng)絡(luò)進(jìn)行時間依賴特征提取,提高了模型預(yù)測能力;文獻(xiàn)[13]利用平穩(wěn)化模塊優(yōu)化因果注意力機(jī)制挖掘風(fēng)電數(shù)據(jù)時序依賴,提升數(shù)據(jù)本身的可預(yù)測性。
上述特征提取方法僅局限在單一尺度,即在預(yù)定一個步長下提取時間依賴特征或?qū)⒃夹蛄蟹譃槎鄠€子序列后提取子序列之間的依賴特征。本文致力于在多尺度下挖掘風(fēng)電功率時間依賴性和氣象數(shù)據(jù)時序相關(guān)性,提出基于多尺度特征提取的Transformer預(yù)測網(wǎng)絡(luò),其優(yōu)勢在于其多層編碼-解碼器組結(jié)構(gòu),每層輸入均為原始序列,并考慮各層之間的依賴關(guān)系,避免了單一尺度的預(yù)設(shè)步長和序列劃分的局限,充分提取數(shù)據(jù)特征用于預(yù)測任務(wù),提升預(yù)測精度,過程如下:
首先,基于Transformer網(wǎng)絡(luò)構(gòu)架,引入維數(shù)不變嵌入技術(shù),保證在多尺度上對風(fēng)電時間序列的時間依賴性提取時不破壞數(shù)據(jù)維度,挖掘正確特征;
其次,利用LSTM處理多變量時間序列的優(yōu)勢,融合自注意力機(jī)制,對氣象因素與風(fēng)電功率時序相關(guān)性進(jìn)行特征建模;挖掘二者的時序相關(guān)特征;
最后,將兩組特征融合,進(jìn)行短期風(fēng)電功率預(yù)測。通過風(fēng)電場實(shí)測數(shù)據(jù)測試,驗(yàn)證了該模型的可靠性和優(yōu)越性。
1 相關(guān)理論
1.1 Transformer模型
Transformer模型最初是為處理自然語言而開發(fā)的,并很快在計(jì)算機(jī)視覺和時序預(yù)測方面取得了巨大成功。作為一種基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型,Transformer模型能對序列中的每個元素進(jìn)行全局建模,并在各元素之間建立聯(lián)系[14-15]。與循環(huán)神經(jīng)網(wǎng)絡(luò)模型相比,該模型具有更好的并行性能和更短的訓(xùn)練時間。
Transformer模型主體如圖1所示,主要包含了多層編碼器和解碼器,每一層都由多個注意力機(jī)制模塊和前饋神經(jīng)網(wǎng)絡(luò)模塊組成。編碼器用于將輸入序列編碼成一個高維特征向量,解碼器則用于將該向量解碼成目標(biāo)序列。在Transformer模型中,通常采用殘差連接和歸一化等方法來加速模型收斂和提高模型性能。
Transformer模型改變了傳統(tǒng)CNN網(wǎng)絡(luò)模式,整個網(wǎng)絡(luò)由注意力機(jī)制組成,注意力機(jī)制核心為:
[Attention(Q,K,V)=softmaxQKTdkV] (1)
風(fēng)電功率的隨機(jī)性和波動性是影響預(yù)測精度的主要因素,本文利用Transfomers模型在全局范圍建模的優(yōu)越性,對短期風(fēng)電功率時間序列和氣象條件進(jìn)行特征建模,提取功率序列本身時間依賴性特征以及與多變量氣象條件之間的相關(guān)性特征,將提取的特征用于短期風(fēng)電功率預(yù)測。首先,對采集的功率和氣象條件數(shù)據(jù)進(jìn)行時間和位置編碼,作為模型輸入,然后經(jīng)Transfomers模型的多頭注意力機(jī)制,尋找風(fēng)電功率的相關(guān)特征信息。Attention機(jī)制[Q]矩陣將特征信息作為輸入向量,即功率序列本身時間依賴特征、氣象數(shù)據(jù)中各變量與功率序列的相關(guān)性特征等。[K]矩陣將功率輸出數(shù)據(jù)中的某些特征作為鍵向量,[Q]和[K]一起計(jì)算得到注意力向量,最后經(jīng)過Softmax進(jìn)行權(quán)重歸一化后輸出,得到預(yù)測結(jié)果。
1.2 LSTM模型
LSTM是一種深度學(xué)習(xí)模型,可用于處理與時間序列相關(guān)的預(yù)測任務(wù)[16-17]。它是一種循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的變種,旨在解決RNN存在的梯度消失和梯度爆炸等問題。LSTM的主要特點(diǎn)是其能在處理長序列數(shù)據(jù)時更好地捕捉和記憶長期依賴關(guān)系,而不喪失短期記憶能力。這使得LSTM在許多序列建模任務(wù)中表現(xiàn)出色,包括自然語言處理、語音識別、機(jī)器翻譯、時間序列預(yù)測等。
LSTM的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,內(nèi)部結(jié)構(gòu)包括以下組成部分:
1)記憶單元:記憶單元是LSTM的核心部分,用于存儲和維護(hù)網(wǎng)絡(luò)學(xué)到的信息,有助于處理長期依賴關(guān)系。
2)輸入門:輸入門控制著新輸入數(shù)據(jù)何時進(jìn)入記憶單元。其包括一個sigmoid激活函數(shù)(圖2中的[σ]),用于控制輸入的權(quán)重,以及一個tanh激活函數(shù),用于產(chǎn)生新的候選值。這兩部分的輸出通過逐元素相乘,決定了新信息的流入。
3)遺忘門:遺忘門決定哪些信息應(yīng)該從記憶單元中刪除或遺忘。類似于輸入門,其包括一個sigmoid激活函數(shù),用于確定要遺忘的信息。遺忘門的輸出與記憶單元相乘,以執(zhí)行遺忘操作。
4)輸出門:輸出門決定什么信息將傳遞到下一個時間步或作為網(wǎng)絡(luò)的最終輸出。其包括一個sigmoid激活函數(shù),用于確定要輸出的信息的權(quán)重,以及一個tanh激活函數(shù),用于生成記憶單元的輸出。
LSTM循環(huán)單元包括細(xì)胞狀態(tài)[Ct]和隱藏狀態(tài)[ht],細(xì)胞狀態(tài)是記憶單元的當(dāng)前狀態(tài),其在每個時間步都會更新。細(xì)胞狀態(tài)更新受到輸入門、遺忘門和候選值的共同影響。隱藏狀態(tài)是LSTM網(wǎng)絡(luò)的輸出,它可傳遞到下一個時間步或用于最終的任務(wù),是基于細(xì)胞狀態(tài)和輸出門的計(jì)算得出。
這些組成部分共同構(gòu)成LSTM的內(nèi)部結(jié)構(gòu),通過門控機(jī)制和記憶單元,LSTM網(wǎng)絡(luò)能有效地處理長序列數(shù)據(jù)并捕捉長期依賴關(guān)系。使得它在時間序列特征提取和其他序列建模任務(wù)中廣泛應(yīng)用。
本文利用LSTM網(wǎng)絡(luò)處理長序列數(shù)據(jù)的能力捕獲氣象數(shù)據(jù)和功率數(shù)據(jù)之間的多變量相關(guān)性,首先,將風(fēng)速、風(fēng)向、溫度、氣壓等氣象條件因素和功率序列輸入LSTM網(wǎng)絡(luò),通過記憶門、遺忘門、循環(huán)門機(jī)制,控制細(xì)胞狀態(tài)中多維氣象因素與風(fēng)電功率的舍棄量、細(xì)胞狀態(tài)添加量和細(xì)胞狀態(tài)輸出量,從而在大量的多變量數(shù)據(jù)中提取到有價(jià)值的時間特征量作為隱藏狀態(tài)向量。輸出隱藏狀態(tài)向量與原輸入經(jīng)過融合層結(jié)合,通過融合層將LSTM學(xué)習(xí)到的不同特征進(jìn)行融合,得到更全面、更準(zhǔn)確的特征表示,從而得到預(yù)測任務(wù)在的氣象與風(fēng)電功率之間的相關(guān)性特征輸入。
2 多尺度特征提取的Transforms預(yù)測模型
傳統(tǒng)的Transforms預(yù)測網(wǎng)絡(luò)已在進(jìn)行時序預(yù)測任務(wù)時展現(xiàn)出十分強(qiáng)大的能力,但對于時序特征提取方面依然存在不足,導(dǎo)致預(yù)測精度不高。對此,本文基于傳統(tǒng)Transformer網(wǎng)絡(luò),提出一種基于多尺度特征提取的Transformer預(yù)測網(wǎng)絡(luò)(multi-scale transforms prediction network,MTPNet),該模型主要針對在多尺度下挖掘風(fēng)電功率本身時序特征和氣象數(shù)據(jù)與功率之間的時序相關(guān)性,提升預(yù)測精度,網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
MTPNet主要由特征提取和預(yù)測兩大模塊組成。提取優(yōu)質(zhì)的數(shù)據(jù)特征是提高短期風(fēng)電功率預(yù)測精度的重要手段,MTPNet網(wǎng)絡(luò)的特征提取模塊分為風(fēng)電功率時間序列本身時間依賴性特征提取和氣象數(shù)據(jù)與風(fēng)電功率的時序相關(guān)性特征提取。風(fēng)電功率本身時間依賴性特征提取由K層Transformer編碼器-解碼器組實(shí)現(xiàn),將在2.1節(jié)詳細(xì)介紹;氣象數(shù)據(jù)與功率的時序相關(guān)性特征提取主要由融合自注意力機(jī)制的LSTM網(wǎng)絡(luò)實(shí)現(xiàn),將在2.2節(jié)詳細(xì)介紹。
2.1 多尺度特征提取
為解決單一尺度上提取時間依賴特征的局限性,提出一個多尺度特征提取網(wǎng)絡(luò),其主要目標(biāo)是在不同的無約束尺度(從細(xì)分辨率到粗分辨率)上提取風(fēng)電功率本身時間依賴性。如圖4所示,網(wǎng)絡(luò)主體結(jié)構(gòu)由K層Transforms模型組成,每一層有一對編碼器-解碼器組,每層輸入均為風(fēng)電功率時間序列,經(jīng)過編碼器-解碼器組提取特征后,由連接層將每層提取的時間依賴性特征連接成一組特征向量,最后經(jīng)一個卷積層將特征向量輸出,用于功率預(yù)測。
編碼器和解碼器采用對稱結(jié)構(gòu),如圖5所示。編碼器采用自下而上的模式,解碼器采用自上而下的模式。在這種模式下,編碼器可逐步從細(xì)尺度到粗尺度學(xué)習(xí)時間序列潛在特征,而解碼器則可在粗尺度下生成細(xì)尺度特征。
為避免傳統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)下的嵌入破壞數(shù)據(jù)維度,空間嵌入混亂空間信息,而時間嵌入限制時間尺度,本文引入了維數(shù)不變嵌入層(dimension invariant embedding),主要作用是在提取序列空間和時間特征時保持空間維度和時間維度的完整性。利用1層CNN將數(shù)據(jù)映射到高維特征空間中,過程如下:
1)Conv過程
[Xemb=ConvXi] (2)
式中:[Xemb]——嵌入層的特征映射;Conv——卷積過程,主要目的是提取序列短期的時間依賴性;[Xi]——?dú)v史風(fēng)電數(shù)據(jù),MW。
2)Patch過程
生成尺度為[p]的Patch輸入:
[Xemb=PatchXemb,x0,p] (3)
式中:[x0]——補(bǔ)償系數(shù),[x0=0];[p]——尺度因子。
如果時間序列的長度不能被尺度[p]整除,則以[x0=0]補(bǔ)充。Patch過程將時間序列劃分為大小為[p]的不重疊的序列,避免了提取空間信息時的混亂。
以第[k]層編碼器為例,DI嵌入輸入[Xdik]為:
[Xdik=DI(Xen,ω)] (4)
式中:[Xen]——輸入的風(fēng)電功率時間序列;[ω]——補(bǔ)充的補(bǔ)丁大小。
然后,連接層和卷積層將嵌入的輸入與第k-1層編碼器的輸出連接并融合為:
[Xkemb=Xdik, k=1ConvConcat(Xdik+Yk-1enc), kgt;1] (5)
式中:Conv——內(nèi)核大小為1×1的一層CNN,用于融合并將連接嵌入的特征;Concat——特征維度的連接過程;[Yk-1enc]——第[k-1]層編碼器的輸出。
由于Transformer架構(gòu)的固有性質(zhì)是順序無關(guān)的,為提取輸入的時間依賴性特征,需合并位置信息,因此在輸入嵌入中增加一個學(xué)習(xí)位置信息嵌入[Wkpos],則最終編碼器的輸入為:
[Xkemb=Xkemb+Wkpos] (6)
最后利用傳統(tǒng)的縮放點(diǎn)積注意機(jī)制,得到第[k]層編碼器的輸出:
[Q,K,V=Linear(Xkemb)] (7)
[Yken=Attention(Q,K,V)+Xdik] (8)
解碼器與式(4)~式(6)所示的編碼器工作流程類似,解碼器的輸入經(jīng)過DI嵌入和連接層和卷積層進(jìn)行尺度間連接,以獲得解碼器的補(bǔ)丁嵌入,然后在輸入嵌入中加入一個可學(xué)習(xí)的位置嵌入[Wkpos],最后得到解碼器輸出。需注意的是,解碼器的尺度間連接遵循自上而下的順序,因此解碼器的輸出特征的過程是從粗尺度向細(xì)尺度,那么式(5)更改為:
[Xkemb=Xdik, k=1ConvConcat(Xdik+Yk+1de), kgt;1] (9)
解碼器輸出的縮放點(diǎn)積注意機(jī)制過程為:
[Q,K,V=Linear(Xkemb,Yken)] (10)
[Ykde=Attention(Q,K,V)+Xdik] (11)
2.2 氣象數(shù)據(jù)特征提取網(wǎng)絡(luò)
風(fēng)電功率預(yù)測是與風(fēng)速、風(fēng)向、溫度、氣壓等氣象條件因素有關(guān)的多變量時序預(yù)測問題,利用LSTM提取氣象因素多變量時序特征是一種可靠的方法[18]。但在處理過程中,由于多門結(jié)構(gòu)計(jì)算復(fù)雜,會導(dǎo)致模型訓(xùn)練時間增加、過擬合嚴(yán)重以及部分信息遺忘丟失。Transformer的自注意力機(jī)制(self-attention,SA)[19]可同時考慮時間序列的所有位置,提升模型計(jì)算速度,捕獲氣象數(shù)據(jù)的全局特征信息。本文將SA與LSTM結(jié)合,提出LSTM-SA結(jié)構(gòu),如圖6所示。利用LSTM對輸入建模,保留原本的時序特征,Transformer自注意力機(jī)制提取所有位置的多變量時序特征,輸出特征序列。
在SA前端插入LSTM模塊,LSTM通過內(nèi)部的記憶單元和門控機(jī)制,有助于捕捉時間序列中的長期依賴關(guān)系和非線性特征。首先,輸入數(shù)據(jù)經(jīng)過單層的LSTM的處理。門單元來控制如何在其細(xì)胞狀態(tài)中保留、丟棄或輸出多維氣象因素?cái)?shù)據(jù),以提取有價(jià)值的時間特征,并將其表示為隱狀態(tài)向量。隨后,將LSTM層的輸出隱狀態(tài)向量與原始輸入數(shù)據(jù)進(jìn)行融合,以綜合不同特征。將綜合后的特征傳遞到自注意力層。在自注意力層中,模型能聚焦于與當(dāng)前預(yù)測任務(wù)相關(guān)的關(guān)鍵特征,減少對與任務(wù)無關(guān)的環(huán)境因素特征的關(guān)注,從而提高了模型的性能和效率。過程如式(12)~式(14)所示。
[Xτl,Hτl=LSTM(Xτ, g(Hτ-1l))] (12)
[Xτl=c(Xτl, Xτ)] (13)
[Xτ=SA(Xτl)] (14)
式中:[Xτl]——LSTM特征建模后的輸出;[Hτl]——記憶單元輸出;[Xτ]——?dú)庀蠖嘧兞繒r序數(shù)據(jù);[Xτl]——綜合后的特征輸出;[Xτ]——SA輸出的重要特征。
式(12)表示LSTM對輸入特征的建模過程,式(13)的c過程代表對LSTM層的輸出隱狀態(tài)向量與原始輸入數(shù)據(jù)的融合過程,式(14)為SA對重要特征的提取過程。
3 實(shí)例仿真
3.1 實(shí)驗(yàn)數(shù)據(jù)及評價(jià)標(biāo)準(zhǔn)
本文實(shí)例數(shù)據(jù)取自中國某風(fēng)電場的歷史風(fēng)電功率和當(dāng)?shù)氐臍庀髷?shù)據(jù)。數(shù)據(jù)集包含風(fēng)電場2021年整年的風(fēng)電功率和氣象數(shù)據(jù),采樣時間間隔為15 min,共35040組數(shù)據(jù),按9∶1劃分為訓(xùn)練集和測試集,訓(xùn)練集用于模型訓(xùn)練,測試集用于模型預(yù)測能力的評估。
本文實(shí)驗(yàn)選用平均絕對誤差(mean absolute error, MAE)、均方根誤差(root mean square error, RMSE)和R2作為模型預(yù)測精度的評價(jià)標(biāo)準(zhǔn),其中MAE為誤差絕對值的均值,反映預(yù)測誤差大小,值越小越好;RMSE也稱標(biāo)準(zhǔn)誤差,反映預(yù)測值與觀測值的偏離程度,值越小越好;R2的值域?yàn)椋踇-1,1]],反映模型的預(yù)測能力,值越接近1,誤差越小,預(yù)測能力越高。計(jì)算公式分別為:
[RMAE=1ni=1nyi-yi] (15)
[RRMSE=1ni=1nyi-yi2] (16)
[R2=1-i=1nyi-yi2i=1ny-yi2] (17)
式中:[yi]——第[i]個樣本點(diǎn)的預(yù)測值,MW;[yi]——第[i]個樣本點(diǎn)的觀測值,MW;[y]——第[n]個樣本點(diǎn)的預(yù)測值的均值,MW。
3.2 模型參數(shù)設(shè)置
MTPNet模型主要參數(shù):多尺度特征提取網(wǎng)絡(luò)編碼器輸入維度[den_in]和輸出維度[den_out]、解碼器輸入維度[dde_in]和輸出維度[dde_out]、DI嵌入Patch過程的補(bǔ)丁大小[psize]、編碼器-解碼器組數(shù)量K;氣象特征提取LSTM-SA網(wǎng)絡(luò)編碼器輸入維度[dxτ]和輸出維度[dxτ]、Transformer網(wǎng)絡(luò)的初始學(xué)習(xí)率l和SA頭數(shù)。本文的實(shí)驗(yàn)參數(shù)設(shè)置已經(jīng)過大量實(shí)驗(yàn)驗(yàn)證,最優(yōu)的參數(shù)設(shè)置見表1。
3.3 預(yù)測對比實(shí)驗(yàn)
為驗(yàn)證MTPNet模型的預(yù)測能力的優(yōu)越性,選擇常用經(jīng)典預(yù)測模型LSTM、BiGRU-attention和傳統(tǒng)Transformer模型進(jìn)行預(yù)測對比實(shí)驗(yàn),各模型預(yù)測步長為20、40和60步,同時考慮到季節(jié)影響,隨機(jī)對春季和夏季某一天進(jìn)行短期風(fēng)電功率預(yù)測實(shí)驗(yàn)。春季和夏季60步預(yù)測結(jié)果如圖7和圖8所示,其他步長預(yù)測結(jié)果見附錄圖A1~圖A4。從圖7中的預(yù)測曲線可看到,相對而言,MTPNet模型的預(yù)測曲線與觀測值曲線的擬合程度更好,總體上各點(diǎn)預(yù)測值更接近觀測值,預(yù)測能力更好。值得一提的是,對比春季和夏季的預(yù)測曲線,盡管季節(jié)導(dǎo)致風(fēng)電波動性變化,MTPNet模型依然有穩(wěn)定的預(yù)測能力。
為更直觀展示各對比模型的預(yù)測能力,表2和附錄圖A5給出了不同季節(jié)和步長下,各模型的誤差評價(jià)結(jié)果。以60步的預(yù)測誤差為例,MTPNet模型的MAE誤差為0.7120 MW,RMSE誤差為0.8820 MW。相比于LSTM模型,MAE和RMSE誤差分別減小0.3085和0.4292 MW;相比于BiGRU-attention模型,MAE和RMSE誤差分別減小0.2973和0.4153 MW;相比于Transformer模型,MAE和RMSE誤差分別減小0.2901和0.2468 MW。以上預(yù)測誤差結(jié)果表明,相比對比的模型而言,預(yù)測步長相同的前提下,本文提出的MTPNet模型的預(yù)測精度更高。應(yīng)注意到,相比于對比模型,MTPNet模型的[R]2為0.9960,其值更接近于1,表明MTPNet模型的預(yù)測能力更好。由表2還可得出,隨著預(yù)測步長的增加,4種模型的MAE和RMSE誤差均有不同程度的增大,相比之下MTPNet模型兩個誤差的增值較小,表明MTPNet模型可適應(yīng)不同步長下的預(yù)測任務(wù),表現(xiàn)出的預(yù)測能力也更好。附錄表A1所示的夏季預(yù)測評價(jià)結(jié)果具有上述相同的結(jié)論。
3.4 消融實(shí)驗(yàn)
為例驗(yàn)證MTPNet模型各模塊的有效性,本文對各模塊進(jìn)行移除,進(jìn)行3組消融實(shí)驗(yàn)。以春季數(shù)據(jù)集為例,預(yù)測步長為40步。
3.4.1 特征提取消融實(shí)驗(yàn)
為驗(yàn)證特征提取模塊的有效性和重要性,移除特征提取模塊進(jìn)行一組消融實(shí)驗(yàn),對比結(jié)果如圖9所示,誤差評價(jià)如表3所示。其中MTPNet代表本文預(yù)測模型,MTPNet*代表移除多尺度特征提取網(wǎng)絡(luò)模塊的預(yù)測模型,MTPNet**代表移除氣象特征提取網(wǎng)絡(luò)模塊的預(yù)測模型。
由圖9的預(yù)測曲線可知,3種對比模型預(yù)測趨勢基本相同,但MTPNet模型的預(yù)測曲線與觀測值的擬合程度更高。誤差評價(jià)結(jié)果顯示:3種模型預(yù)測誤差中,MTPNet模型誤差最小,MTPNet*次之,MTPNet**誤差最大。因此,若只提取風(fēng)電功率本身短期時序特征或只提取氣象特征用于短期風(fēng)電功率預(yù)測,會導(dǎo)致精度降低。相反,若同時考慮風(fēng)電功率本身短期時序特征和氣象特征,由于用于預(yù)測的特征更豐富,預(yù)測精度也有所提高。特征提取消融實(shí)驗(yàn)驗(yàn)證了多尺度特征提取模塊和氣象特征提取模塊的有效性和重要性。
3.4.2 DI嵌入消融實(shí)驗(yàn)
為驗(yàn)證多尺度特征提取模塊中DI嵌入的有效性,實(shí)驗(yàn)在其他條件不變的前提下,將DI嵌入替換為傳統(tǒng)嵌入,進(jìn)行一組對比實(shí)驗(yàn)。對比結(jié)果如圖10所示,誤差評價(jià)如表4所示。其中的MTPNet代表由DI嵌入的模型,MTPNet1代表移除DI嵌入的模型。
由表4可知,移除DI嵌入后的模型預(yù)測MAE誤差增大0.4206 MW,RMSE誤差增大0.499 MW。這是因?yàn)橐瞥鼶I嵌入后,時序特征提取過程中嵌入層破壞數(shù)據(jù)維度,導(dǎo)致了空間信息混亂,同時限制了時間尺度。DI嵌入消融實(shí)驗(yàn)驗(yàn)證了DI嵌入的有效性。
3.4.3 SA消融實(shí)驗(yàn)
為驗(yàn)證氣象特征提取模塊中自注意力機(jī)制(SA)的有效性,實(shí)驗(yàn)在其他條件不變的前提下,移除SA,進(jìn)行一組對比實(shí)驗(yàn)。對比結(jié)果如圖11所示,誤差評價(jià)如表5所示。其中的MTPNet代表有SA的模型,MTPNet2代表移除SA的模型。
由表5可知,MTPNet模型由于在氣象特征網(wǎng)絡(luò)中加入了SA,預(yù)測MAE誤差減小0.4776 MW,RMSE誤差減小0.5545 MW。這是因?yàn)镾A模塊捕獲全局氣象數(shù)據(jù)關(guān)鍵特征,減少對無關(guān)的環(huán)境因素特征的關(guān)注,進(jìn)而提升了預(yù)測精度。
4 結(jié) 論
為提高短期風(fēng)電功率預(yù)測精度,本文針對現(xiàn)有模型特征提取尺度單一的問題,提出基于多變量特征提取的Transformer預(yù)測模型。通過風(fēng)電場實(shí)測數(shù)據(jù)設(shè)計(jì)驗(yàn)證實(shí)驗(yàn),結(jié)果表明MTPNet網(wǎng)絡(luò)在不同季節(jié)的短期風(fēng)電功率預(yù)測能力更優(yōu)越,預(yù)測步長為60步時春季和夏季的MAE分別為0.5411和0.1678 MW,RMSE分別為0.7317和0.1989 MW,精度符合短期預(yù)測的要求,實(shí)驗(yàn)表明:
1)本文設(shè)計(jì)的MTPNet網(wǎng)絡(luò)能有效提取風(fēng)電功率本身時序特征和挖掘氣象條件與功率之間的依賴關(guān)系,豐富數(shù)據(jù)特征,提高預(yù)測的準(zhǔn)確性。
2)針對風(fēng)電功率時序特征提取,本文設(shè)計(jì)的多尺度特征提取網(wǎng)絡(luò)能充分挖掘功率本身的時序特征,而利用維數(shù)不變嵌入(DI嵌入),保證了數(shù)據(jù)維度不被破壞,提高了模型預(yù)測能力。
3)利用LSTM-SA網(wǎng)絡(luò)能捕獲氣象條件與風(fēng)電功率之間的全局信息,自注意力機(jī)制層能有效融合提取的信息,提升預(yù)測準(zhǔn)確性。
[參考文獻(xiàn)]
[1] 趙鐵成, 謝麗蓉, 葉家豪. 基于誤差修正的NNA-ILSTM短期風(fēng)電功率預(yù)測[J]. 智慧電力, 2022, 50(1): 29-36.
ZHAO T C, XIE L R, YE J H. NNA-ILSTM short term wind power prediction based on error correction[J]. Smart power, 2022, 50(1): 29-36.
[2] 史加榮, 趙丹夢, 王琳華, 等. 基于RR-VMD-LSTM的短期風(fēng)電功率預(yù)測[J]. 電力系統(tǒng)保護(hù)與控制, 2021, 49(21): 63-70.
SHI J R, ZHAO D M, WANG L H, et al. Short-term wind power prediction based on RR-VMD-LSTM[J]. Power system protection and control, 2021, 49(21): 63-70.
[3] 張浩田, 溫蜜, 李晉國, 等. 數(shù)據(jù)驅(qū)動的時間注意力卷積風(fēng)電功率預(yù)測模型[J]. 太陽能學(xué)報(bào), 2022, 43(10): 167-176.
ZHANG H T, WEN M, LI J G, et al. Data driven time attention convolution wind power prediction model[J]. Acta energiae solaris sinica, 2022, 43(10): 167-176.
[4] 楊國清, 劉世林, 王德意, 等. 基于Attention-GRU風(fēng)速修正和Stacking的短期風(fēng)電功率預(yù)測[J]. 太陽能學(xué)報(bào), 2022, 43(12): 273-281.
YANG G Q, LIU S L, WANG D Y, et al. Short-term wind power forecasting based on Attention-GRU wind speed correction and stacking[J]. Acta energiae solaris sinica, 2022, 43(12): 273-281.
[5] 楊茂, 王達(dá), 王小海, 等. 基于數(shù)據(jù)物理混合驅(qū)動的超短期風(fēng)電功率預(yù)測模型[J]. 高電壓技術(shù), 2024, 50(11): 5132-5141.
YANG M, WANG D, WANG X H, et al. Ultra-short term wind power prediction method based on data physics hybrid driven model[J]. High voltage engineering, 2024, 50(11): 5132-5141.
[6] 翟保豫, 張龍, 徐志, 等. 基于WRF模式和風(fēng)速誤差修正的中期風(fēng)電功率預(yù)測方法[J]. 智慧電力, 2023, 51(7): 31-38.
ZHAI B Y, ZHANG L, XU Z, et al. Mid-term wind power forecasting based on WRF mode and wind speed error correction[J]. Smart power, 2023, 51(7): 31-38.
[7] 楊子民, 彭小圣, 郎建勛, 等. 基于集群動態(tài)劃分與BLSTM深度學(xué)習(xí)的風(fēng)電集群短期功率預(yù)測[J]. 高電壓技術(shù), 2021, 47(4): 1195-1203.
YANG Z M, PENG X S, LANG J X, et al. Short-term wind power prediction based on dynamic cluster division and BLSTM deep learning method[J]. High voltage engineering, 2021, 47(4): 1195-1203.
[8] KOOHFAR S, WOLDEMARIAM W, KUMAR A. Prediction of electric vehicles charging demand: a transformer-based deep learning approach[J]. Sustainability, 2023, 15(3): 2105.
[9] ZHOU H Y, ZHANG S H, PENG J Q, et al. Informer: beyond efficient transformer for long sequence time-series forecasting[J]. Proceedings of the AAAI conference on artificial intelligence, 2021, 35(12): 11106-11115.
[10] WU H X, XU J H, WANG J M, et al. Autoformer: decomposition transformers with auto-correlation for long-term series forecasting[J/OL]. 2021: arXiv:2106.13008. https://arxiv.org/abs/2106.13008.
[11] 楊京渝, 羅隆福, 陽同光, 等. 基于氣象特征挖掘和改進(jìn)深度學(xué)習(xí)模型的風(fēng)電功率短期預(yù)測[J]. 電力自動化設(shè)備, 2023, 43(3): 110-116.
YANG J Y, LUO L F, YANG T G, et al. Wind power short-term forecasting based on meteorological feature exploring and improved deep learning model[J]. Electric power automation equipment, 2023, 43(3): 110-116.
[12] 駱釗, 吳諭侯, 朱家祥, 等. 基于多尺度時間序列塊自編碼Transformer神經(jīng)網(wǎng)絡(luò)模型的風(fēng)電超短期功率預(yù)測[J]. 電網(wǎng)技術(shù), 2023, 47(9): 3527-3537.
LUO Z, WU Y H, ZHU J X, et al. Wind power forecasting based on multi-scale time series block auto-encoder transformer" "neural" "network" "model[J]." "Power" "system technology, 2023, 47(9): 3527-3537.
[13] 李練兵, 高國強(qiáng), 吳偉強(qiáng), 等. 考慮特征重組與改進(jìn)Transformer的風(fēng)電功率短期日前預(yù)測方法[J]. 電網(wǎng)技術(shù), 2024, 48(4): 1466-1480.
LI L B, GAO G Q, WU W Q, et al. Short-term day-ahead wind power prediction considering feature recombination and improved transformer[J]. Power system technology, 2024, 48(4): 1466-1480.
[14] WEN Q S, ZHOU T, ZHANG C L, et al. Transformers in time series: a survey[J/OL]. 2022: 2202.07125.https://arxiv.org/abs/2202.07125v5.
[15] ZHANG Y F, WU R, DASCALU S M, et al. Multi-scale transformer pyramid networks for multivariate time series forecasting[J/OL]. 2023: 2308.11946.https://arxiv.org/abs/2308.11946v1
[16] 張淑清, 楊振寧, 姜安琦, 等. 基于EN-SKPCA降維和FPA優(yōu)化LSTMNN的短期風(fēng)電功率預(yù)測[J]. 太陽能學(xué)報(bào), 2022, 43(6): 204-211.
ZHANG S Q, YANG Z N, JIANG A Q, et al. Short term wind power prediction based on EN-SKPCA dimensionality reduction and FPA optimizing LSTMNN[J]. Acta energiae solaris sinica, 2022, 43(6): 204-211.
[17] ZHANG Y Z, XIONG R, HE H W, et al. Long short-term memory recurrent neural network for remaining useful life prediction of lithium-ion batteries[J]. IEEE transactions on vehicular technology, 2018, 67(7): 5695-5705.
[18] 董俊, 劉瑞, 束洪春, 等. 基于BIRCH聚類的L-Transformer分布式光伏短期發(fā)電功率預(yù)測[J]. 高電壓技術(shù), 2024, 50(9): 3883-3893.
DONG J, LIU R, SHU H C, et al. Short-term distributed photovoltaic power generation prediction based on BIRCH clustering" " " and" " " L-Transformer[J]." " " High" " " voltage engineering, 2024, 50(9): 3883-3893.
[19] PAN S W, YANG B, WANG S K, et al. Oil well production prediction based on CNN-LSTM model with self-attention mechanism[J]. Energy, 2023, 284: 128701.
SHORT-TERM WIND POWER PREDICTION USING TRANSFORMER WITH MULTI-SCALE FEATURE EXTRACTION
Xu Wu,F(xiàn)an Xinhao,Shen Zhifang,Liu Yang
(School of Electrical Information Engineering, Yunnan Minzu University, Kunming 650500, China)
Abstract:Upon addressing the issue of single-scale feature extraction for short-term wind power forecasting, a Transformer-based model known as “MTPNet” (multi-scale transformer power network) is developed. Firstly, based on the Transformer architecture, dimension-invariant embeddings is employed to design a multi-scale feature extraction network to mine the temporal characteristics within the wind power sequence, to ensure that the feature dimensions remain unchanged during feature extraction. Secondly, long short-term memory (LSTM) network with a fusion self-attention mechanism is used to capture the global dependencies between meteorological conditions and power output. Finally, the temporal characteristics of the wind power sequence and the dependencies on meteorological conditions are integrated to achieve short-term wind power prediction. Simulation results demonstrate that the prediction accuracy of MTPNet model is improved. Further ablation experiments confirm the reliability and effectiveness of each module in the model, highlighting its practical value.
Keywords:wind power forecast; Transformer; attention mechanism; feature extraction; long short-term memory network; dimension invariant embedding
附錄A