摘要:文章提出了一種基于LSTM與XGBoost的混合模型用于風(fēng)力發(fā)電功率預(yù)測(cè)。主要研究了LSTM模型與XGBoost模型的融合方法,通過LSTM捕捉序列數(shù)據(jù)的長(zhǎng)期依賴關(guān)系,再利用XGBoost進(jìn)行非線性擬合以提升預(yù)測(cè)精度。實(shí)驗(yàn)采用國家電網(wǎng)新能源發(fā)電預(yù)測(cè)大賽提供的公開數(shù)據(jù)集,使用平均絕對(duì)誤差和決定系數(shù)等指標(biāo)對(duì)模型性能進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果表明,文章所提出的混合模型相比標(biāo)準(zhǔn)LSTM模型在預(yù)測(cè)精度和擬合能力上均表現(xiàn)出顯著的優(yōu)勢(shì)。
關(guān)鍵詞:長(zhǎng)短期記憶;極端梯度提升;風(fēng)力發(fā)電;功率預(yù)測(cè)
中圖分類號(hào):TM7 "文獻(xiàn)標(biāo)志碼:A
0 引言
風(fēng)力發(fā)電作為一種清潔能源,在全球能源轉(zhuǎn)型過程中扮演著至關(guān)重要的角色[1]。然而,風(fēng)力發(fā)電的不確定性給電網(wǎng)的穩(wěn)定運(yùn)行帶來了挑戰(zhàn),因此,預(yù)測(cè)風(fēng)力發(fā)電功率具有重要的現(xiàn)實(shí)意義[2-3]。近年來,隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,長(zhǎng)短期記憶網(wǎng)絡(luò)(Long and short-term memory, LSTM)作為一種擅長(zhǎng)處理時(shí)間序列數(shù)據(jù)的模型已經(jīng)得到廣泛應(yīng)用[4-5]。然而,單一模型在面對(duì)復(fù)雜多變的風(fēng)力發(fā)電數(shù)據(jù)時(shí),常常難以同時(shí)平衡模型的精度與泛化能力。為此,XGBoost模型憑借其強(qiáng)大的特征處理和集成學(xué)習(xí)能力,逐漸被引入各種數(shù)據(jù)預(yù)測(cè)領(lǐng)域[6-7]。
目前,LSTM模型和XGBoost模型分別展現(xiàn)了各自的優(yōu)勢(shì)。LSTM模型在捕捉時(shí)間序列數(shù)據(jù)的長(zhǎng)短期依賴性方面具有出色的表現(xiàn);XGBoost模型則在處理非線性關(guān)系和防止過擬合方面具備顯著優(yōu)勢(shì)。然而,單一使用其中任何一種模型都難以在預(yù)測(cè)精度和計(jì)算復(fù)雜度之間取得平衡,因此如何有效融合LSTM和XGBoost 2種模型來構(gòu)建一種混合模型,以提高風(fēng)力發(fā)電功率預(yù)測(cè)的準(zhǔn)確性和穩(wěn)定性,成為一個(gè)亟待解決的問題。
本文在分析LSTM模型與XGBoost模型各自特點(diǎn)的基礎(chǔ)上,提出了一種融合兩者優(yōu)勢(shì)的混合模型,探討了其在風(fēng)力發(fā)電功率預(yù)測(cè)中的應(yīng)用。本文針對(duì)LSTM與XGBoost的融合方法進(jìn)行了詳細(xì)設(shè)計(jì),基于該混合模型研究了一種改進(jìn)的功率預(yù)測(cè)方法。在試驗(yàn)階段,利用公開數(shù)據(jù)集對(duì)所提方法進(jìn)行了測(cè)試。本文研究期望為風(fēng)力發(fā)電功率預(yù)測(cè)提供一種新的思路和方法,以進(jìn)一步推動(dòng)該領(lǐng)域的發(fā)展。
1 基于LSTM與XGBoost的混合模型
1.1 混合模型的基本結(jié)構(gòu)
本文提出的混合模型的基本結(jié)構(gòu)如圖1所示,該混合模型通過LSTM層對(duì)輸入的風(fēng)速、溫度等時(shí)間序列數(shù)據(jù)進(jìn)行處理來提取其中的長(zhǎng)短期依賴關(guān)系。由于LSTM在處理時(shí)間序列數(shù)據(jù)時(shí)能夠有效捕捉數(shù)據(jù)的動(dòng)態(tài)變化,這一階段所提取的特征能夠很好地表征風(fēng)力發(fā)電過程中的潛在模式。這些提取的深層特征被輸入XGBoost模型進(jìn)行非線性擬合。在該階段,XGBoost利用其決策樹集成算法進(jìn)一步對(duì)LSTM輸出的特征進(jìn)行優(yōu)化,捕捉其中的非線性關(guān)系[8]。
通過LSTM與XGBoost的聯(lián)合建模,該混合模型能夠在風(fēng)力發(fā)電功率預(yù)測(cè)中實(shí)現(xiàn)更為準(zhǔn)確和穩(wěn)定的預(yù)測(cè)結(jié)果,為電網(wǎng)調(diào)度和能源管理提供有力支持。
混合模型結(jié)合應(yīng)用了LSTM與XGBoost,在風(fēng)力發(fā)電功率預(yù)測(cè)中具有以下優(yōu)勢(shì)。
(1)捕捉長(zhǎng)期依賴性。LSTM擅長(zhǎng)處理序列數(shù)據(jù),能夠有效捕捉風(fēng)速、溫度等時(shí)間序列中的長(zhǎng)期依賴性和動(dòng)態(tài)變化。
(2)非線性擬合能力強(qiáng)。通過結(jié)合LSTM提取的時(shí)間序列特征,XGBoost能夠進(jìn)一步進(jìn)行精細(xì)的非線性擬合,從而提高整體模型的預(yù)測(cè)精度。
(3)靈活性與可擴(kuò)展性。該混合模型具備較強(qiáng)的靈活性,既可以根據(jù)具體應(yīng)用場(chǎng)景調(diào)整LSTM和XGBoost的結(jié)構(gòu)及參數(shù),又可以結(jié)合其他模型進(jìn)一步擴(kuò)展,以提升對(duì)更復(fù)雜任務(wù)的適應(yīng)能力。
1.2 混合模型的數(shù)學(xué)原理
本文針對(duì)LSTM與XGBoost混合模型的數(shù)學(xué)原理進(jìn)行了深入研究。LSTM通過一系列的門控機(jī)制(如遺忘門、輸入門和輸出門)有效地捕捉時(shí)間序列數(shù)據(jù)中的長(zhǎng)期依賴性,形成一個(gè)適應(yīng)風(fēng)力發(fā)電數(shù)據(jù)的隱狀態(tài)序列。XGBoost模型利用LSTM生成的隱狀態(tài)序列作為輸入,進(jìn)行非線性特征的學(xué)習(xí)與擬合。XGBoost通過梯度提升算法(Gradient Boosting)逐步建立一系列回歸樹,每一棵樹都修正前一棵樹的殘差。通過逐步加權(quán)的方式,XGBoost能夠精準(zhǔn)地?cái)M合復(fù)雜的非線性關(guān)系,進(jìn)一步提升風(fēng)力發(fā)電功率預(yù)測(cè)的準(zhǔn)確性。
假設(shè)輸入的多維時(shí)間序列數(shù)據(jù)X={x1,x2,…,xT}。其中,xt∈ n表示在時(shí)間t時(shí)的輸入向量;n是輸入變量的維數(shù)(如風(fēng)速、溫度等)。
在LSTM模型中,每個(gè)時(shí)刻t的隱藏狀態(tài)ht可以通過一系列遞歸公式來計(jì)算得到的。
it=σ(Wixt+Uiht-1+bi)(1)
ft=σ(Wfxt+Ufht-1+bf)(2)
ot=σ(Woxt+Uoht-1+bo)(3)
ct=ft⊙ct-1+it⊙tanh(Wcxt+Ucht-1+bc)(4)
ht=ot⊙tanh(ct)(5)
其中,it、ft、ot分別表示輸入門、遺忘門和輸出門的激活向量;ct表示細(xì)胞狀態(tài);Wi、Wf、Wo、Wc和Ui、Uf、Uo、Uc分別為各門的權(quán)重矩陣;bi、bf、bo、bc為偏置項(xiàng);σ(·)為Sigmoid激活函數(shù);⊙表示逐元素相乘操作。
通過上述方法,LSTM能夠有效捕捉輸入序列X中的長(zhǎng)短期依賴關(guān)系,并生成最終的隱藏狀態(tài)序列{h1,h2,…,hT},該隱藏狀態(tài)序列hT是后續(xù)XGBoost模型輸入的特征向量。
后續(xù)階段使用XGBoost模型對(duì)從LSTM生成的特征向量hT進(jìn)行非線性擬合,預(yù)測(cè)風(fēng)力發(fā)電功率y^。假設(shè)在XGBoost模型中,使用了K個(gè)加權(quán)決策樹來進(jìn)行預(yù)測(cè)。每棵樹fk(hT)的輸出結(jié)果通過加權(quán)求和得到最終的預(yù)測(cè)值。
y^=∑Kk=1fk(hT)(6)
每棵樹fk對(duì)應(yīng)的結(jié)構(gòu)可以表示為決策樹結(jié)構(gòu)qk(hT)和葉子節(jié)點(diǎn)權(quán)重wk的組合。
fk(hT)=wk,qk(hT)(7)
其中,qk(hT)是樹的結(jié)構(gòu)函數(shù),可以將輸入特征向量hT映射到對(duì)應(yīng)的葉子節(jié)點(diǎn)索引。
該模型通過最小化預(yù)測(cè)誤差和正則化項(xiàng)構(gòu)成的損失函數(shù)來優(yōu)化決策樹的結(jié)構(gòu)和葉子節(jié)點(diǎn)的權(quán)重[9]。
(y^,y)=∑Ni=1(yi,y^i)+∑Kk=1Ω(fk)(8)
其中,(yi,y^i)為單樣本的損失函數(shù),常用的損失函數(shù)包括均方誤差等,Ω(fk)是正則化項(xiàng),用于控制模型的復(fù)雜度,防止過擬合。具體形式如下。
Ω(fk)=γTk+12λ∑Tkj=1w2k,j(9)
其中,γ和λ為正則化參數(shù),Tk為決策樹fk的葉子節(jié)點(diǎn)數(shù)目。
1.3 混合模型的功率預(yù)測(cè)方法研究
在實(shí)際應(yīng)用中,LSTM與XGBoost混合模型的整體工作流程如下。
(1)輸入多維時(shí)間序列數(shù)據(jù)X,LSTM層提取序列數(shù)據(jù)中的時(shí)序特征hT。
(2)將hT輸入XGBoost模型,利用加權(quán)決策樹的非線性擬合能力,最終輸出預(yù)測(cè)值y^。
(3)通過優(yōu)化損失函數(shù)(y^,y),調(diào)整LSTM模型參數(shù)和XGBoost決策樹結(jié)構(gòu)及其葉子節(jié)點(diǎn)權(quán)重,以最小化預(yù)測(cè)誤差,實(shí)現(xiàn)對(duì)風(fēng)力發(fā)電功率的精確預(yù)測(cè)。
2 仿真實(shí)驗(yàn)與分析
2.1 數(shù)據(jù)集與實(shí)驗(yàn)環(huán)境
本文使用了國家電網(wǎng)可再生能源發(fā)電預(yù)測(cè)大賽提供的公開數(shù)據(jù)集[10]。該數(shù)據(jù)集包含了中國6個(gè)風(fēng)電場(chǎng)和8個(gè)太陽能站在2019年—2020年的詳細(xì)運(yùn)行數(shù)據(jù)。數(shù)據(jù)樣本的采樣時(shí)間間隔為15 min,能夠較為精細(xì)地反映出風(fēng)電和光伏發(fā)電系統(tǒng)在不同時(shí)間尺度上的動(dòng)態(tài)變化特征。該數(shù)據(jù)集中的關(guān)鍵變量包括發(fā)電功率、溫度和風(fēng)速等,這些變量分別記錄了每15 min的風(fēng)電場(chǎng)和太陽能站的實(shí)際發(fā)電量(單位:MW)、現(xiàn)場(chǎng)的環(huán)境溫度(單位:℃)以及實(shí)時(shí)風(fēng)速(單位:m/s)。
在MATLAB平臺(tái)上構(gòu)建上述基于LSTM和XGBoost的混合模型進(jìn)行測(cè)試,實(shí)驗(yàn)環(huán)境配置如表1所示。
在如表1的實(shí)驗(yàn)配置中,處理器和顯卡為模型訓(xùn)練和測(cè)試提供了強(qiáng)大的計(jì)算能力,尤其是對(duì)于深度學(xué)習(xí)模型的加速計(jì)算;內(nèi)存和高速硬盤確保了數(shù)據(jù)處理和模型訓(xùn)練的高效性。MATLAB R2021b 作為軟件平臺(tái),不僅提供了豐富的工具箱來支持模型構(gòu)建與調(diào)試,還結(jié)合了XGBoost 1.5.0,使得在處理大規(guī)模數(shù)據(jù)集和復(fù)雜模型時(shí)具備更高的靈活性與效率。
2.2 實(shí)驗(yàn)方法設(shè)計(jì)
基于上述數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境,本文對(duì)LSTM與XGBoost混合模型進(jìn)行了測(cè)試,分為數(shù)據(jù)預(yù)處理、模型構(gòu)建、參數(shù)設(shè)置、模型訓(xùn)練與測(cè)試4個(gè)主要階段。
2.2.1 數(shù)據(jù)預(yù)處理
將數(shù)據(jù)集導(dǎo)入MATLAB環(huán)境并對(duì)數(shù)據(jù)中的缺失值和異常值進(jìn)行處理,接著將發(fā)電量(單位:MW)、溫度(單位:℃)和風(fēng)速(單位:m/s)等特征進(jìn)行歸一化處理,使數(shù)據(jù)范圍映射到 [0, 1] ,以提高模型訓(xùn)練的穩(wěn)定性和收斂速度并將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集占比80%,測(cè)試集占比20%。
2.2.2 模型構(gòu)建
在MATLAB中使用Deep Learning Toolbox構(gòu)建LSTM模型。LSTM層的隱藏單元數(shù)量設(shè)置為100,輸入層大小與輸入數(shù)據(jù)的特征維度一致,輸出層為全連接層,由用戶輸出預(yù)測(cè)的特征序列。在LSTM層提取的特征序列基礎(chǔ)上,構(gòu)建XGBoost模型進(jìn)行非線性擬合。在MATLAB中使用XGBoost 1.5.0版本,設(shè)置決策樹的最大深度max_depth為6、決策樹的數(shù)量n_estimators為100、學(xué)習(xí)率learning_rate為0.1、子樣本采樣比例subsample為0.8、構(gòu)建每棵樹時(shí)對(duì)特征采樣的比例colsample_bytree為0.8
2.2.3 模型訓(xùn)練
使用Adam優(yōu)化器訓(xùn)練LSTM模型,初始學(xué)習(xí)率設(shè)為0.001,批量大小設(shè)置為32,訓(xùn)練輪數(shù)設(shè)置為50輪,該過程使用均方誤差(Mean Squared Error, MSE)作為損失函數(shù)進(jìn)行模型優(yōu)化。
MSE=1N∑Ni=1(yi-y^i)2(10)
其中,N為樣本數(shù),yi為實(shí)際值,y^i為預(yù)測(cè)值。
在訓(xùn)練完成的LSTM模型基礎(chǔ)上,提取特征序列輸入XGBoost模型進(jìn)行訓(xùn)練。XGBoost模型通過逐步加權(quán)決策樹的方法來最小化損失函數(shù)并通過5折交叉驗(yàn)證來調(diào)整參數(shù)防止過擬合。
2.2.4 模型測(cè)試與評(píng)估
使用訓(xùn)練好的混合模型對(duì)測(cè)試集數(shù)據(jù)進(jìn)行預(yù)測(cè),輸出預(yù)測(cè)的發(fā)電功率。
2.3 結(jié)果分析
本文采用了平均絕對(duì)誤差(Mean Absolute Error, MAE)和決定系數(shù)(R2)等指標(biāo)對(duì)方法進(jìn)行評(píng)估并對(duì)比了本文方法與標(biāo)準(zhǔn)LSTM的預(yù)測(cè)結(jié)果,如表2所示。
從表1可以看出,LSTM與XGBoost混合模型在MAE方面顯著優(yōu)于標(biāo)準(zhǔn)LSTM模型。具體而言,混合模型的MAE為1.92 MW,顯著低于標(biāo)準(zhǔn)LSTM模型的2.56 MW。這表明混合模型在預(yù)測(cè)風(fēng)力發(fā)電功率時(shí)能夠更加準(zhǔn)確地貼近實(shí)際值,減少了預(yù)測(cè)誤差的幅度。
此外,混合模型的R2值達(dá)到了0.93,高于標(biāo)準(zhǔn)LSTM模型的0.89。R2作為評(píng)估模型擬合效果的指標(biāo),其值越接近1,模型的擬合能力越強(qiáng)。由此可以得出,LSTM與XGBoost混合模型能夠更好地捕捉風(fēng)力發(fā)電功率的波動(dòng)趨勢(shì)。
通過以上分析可以得出,基于LSTM與XGBoost的混合模型在風(fēng)力發(fā)電功率預(yù)測(cè)中展現(xiàn)了更優(yōu)異的性能。相較于單一的LSTM模型,混合模型不僅在預(yù)測(cè)精度上有所提升,而且在數(shù)據(jù)的擬合效果上也表現(xiàn)得更加優(yōu)異。這進(jìn)一步驗(yàn)證了將LSTM與XGBoost相結(jié)合的有效性,并為實(shí)際應(yīng)用提供了更可靠的技術(shù)支持。
3 結(jié)語
本文構(gòu)建了一種結(jié)合LSTM與XGBoost的混合模型,用于提升風(fēng)力發(fā)電功率預(yù)測(cè)的準(zhǔn)確性。研究表明,LSTM能夠有效提取風(fēng)速和溫度等時(shí)間序列數(shù)據(jù)中的長(zhǎng)期依賴特征,而XGBoost進(jìn)一步優(yōu)化了模型的非線性擬合能力。實(shí)驗(yàn)結(jié)果顯示,混合模型在多個(gè)評(píng)價(jià)指標(biāo)上均優(yōu)于傳統(tǒng)的LSTM模型,特別是在降低預(yù)測(cè)誤差和提高擬合效果方面具有明顯優(yōu)勢(shì)。這一研究不僅為風(fēng)力發(fā)電功率的精確預(yù)測(cè)提供了新的技術(shù)方案,也為復(fù)雜時(shí)間序列數(shù)據(jù)的建模與分析提供了有力的支持。未來的研究將進(jìn)一步探索其他模型的融合方法,以繼續(xù)提升風(fēng)力發(fā)電功率預(yù)測(cè)的準(zhǔn)確性和穩(wěn)定性。
參考文獻(xiàn)
[1]劉波,賀志佳,金昊.風(fēng)力發(fā)電現(xiàn)狀與發(fā)展趨勢(shì)[J].東北電力大學(xué)學(xué)報(bào),2016(2):7-13.
[2]楊秀媛,肖洋,陳樹勇.風(fēng)電場(chǎng)風(fēng)速和發(fā)電功率預(yù)測(cè)研究[J].中國電機(jī)工程學(xué)報(bào),2005(11):1-5.
[3]劉坤.基于隨機(jī)森林的風(fēng)力發(fā)電系統(tǒng)輸出功率預(yù)測(cè)方法[J].光源與照明,2022(7):165-167.
[4]楊麗,吳雨茜,王俊麗,等.循環(huán)神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)應(yīng)用,2018(增刊2):1-6,26.
[5]王鑫,吳際,劉超,等.基于LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)的故障時(shí)間序列預(yù)測(cè)[J].北京航空航天大學(xué)學(xué)報(bào),2018(4):772-784.
[6]李占山,劉兆賡.基于XGBoost的特征選擇算法[J].通信學(xué)報(bào),2019(10):101-108.
[7]王燕,郭元?jiǎng)P.改進(jìn)的XGBoost模型在股票預(yù)測(cè)中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2019(20):202-207.
[8]方匡南,吳見彬,朱建平,等.隨機(jī)森林方法研究綜述[J].統(tǒng)計(jì)與信息論壇,2011(3):32-38.
[9]張海,王堯,常象宇,等.L_(1/2)正則化[J].中國科學(xué):信息科學(xué),2010(3):412-422.
[10]CHEN Y,XU J.Solar and wind power data from the Chinese state grid renewable energy generation forecasting competition[J].Scientific Data,2022(1):577.
(編輯 沈 強(qiáng))
Application of LSTM and XGBoost hybrid model in wind power forecasting
CHEN Dawei 1, ZHANG Wei 1, MU" Long2
(1.Wuwei Xincheng New Energy Co., Ltd., Wuwei 737100, China;
2.Gulang Lvzhou Photovoltaic Power Generation Co., Ltd., Wuwei 737100, China)
Abstract:" The article proposes a hybrid model for wind power forecasting based on LSTM and XGBoost, and investigates the fusion method of LSTM and XGBoost models. The LSTM captures the long-term dependencies of sequential data, while XGBoost is utilized for nonlinear fitting to enhance prediction accuracy. The experiment utilizes the public dataset provided by the State Grid New Energy Power Generation Forecasting Competition, and evaluates the model performance using metrics such as mean absolute error and determination coefficient. The experimental results demonstrate that the proposed hybrid model exhibits significant advantages over the standard LSTM model in terms of prediction accuracy and fitting capability.
Key words: long and short-term memory; extreme gradient boosting; wind power generation; power prediction