摘 要:針對(duì)現(xiàn)有數(shù)值模式預(yù)報(bào)數(shù)據(jù)精確度有限的問(wèn)題,結(jié)合廣東海域多處實(shí)際測(cè)風(fēng)數(shù)據(jù),分別采用卷積長(zhǎng)短期記憶網(wǎng)絡(luò)、集成學(xué)習(xí)等多種機(jī)器學(xué)習(xí)框架建立誤差修正模型,并對(duì)各模型進(jìn)行適用性驗(yàn)證及分析。在此基礎(chǔ)上,提出更適用于風(fēng)向誤差計(jì)算的基于三角函數(shù)規(guī)律的代價(jià)函數(shù)。結(jié)果表明,所建立的AdaBoost及GBDT模型對(duì)風(fēng)速、風(fēng)向變量的修正均能取得優(yōu)異效果。
關(guān)鍵詞:海上風(fēng)電;數(shù)值模式;誤差修正;機(jī)器學(xué)習(xí);提升模型
中圖分類號(hào):TK81 " " " " " " " "文獻(xiàn)標(biāo)志碼:A
0 引 言
隨著社會(huì)經(jīng)濟(jì)和工業(yè)的飛速發(fā)展,電力需求迅速增長(zhǎng)。2022年6月初發(fā)布的《“十四五”可再生能源發(fā)展規(guī)劃》強(qiáng)調(diào),要大規(guī)模開(kāi)發(fā)可再生能源,優(yōu)化推進(jìn)風(fēng)電和光伏發(fā)電基地化開(kāi)發(fā),有序推進(jìn)海上風(fēng)電基地建設(shè)[1]。風(fēng)電場(chǎng)運(yùn)行出力情況與非平穩(wěn)隨機(jī)變化的風(fēng)速具有高相關(guān)性,導(dǎo)致其具有間歇性及波動(dòng)性等特征,給電網(wǎng)穩(wěn)定運(yùn)行帶來(lái)了巨大挑戰(zhàn)。因此,采用高精度的風(fēng)功率預(yù)測(cè)對(duì)風(fēng)電場(chǎng)發(fā)電量進(jìn)行準(zhǔn)確預(yù)估對(duì)于保障新型電力系統(tǒng)安全穩(wěn)定運(yùn)行、提高風(fēng)電消納具有重要意義。
數(shù)值天氣預(yù)報(bào)作為風(fēng)電功率預(yù)測(cè)中的主要輸入,其誤差是功率預(yù)測(cè)誤差的最主要來(lái)源[2]。目前,減少數(shù)值天氣預(yù)報(bào)誤差的方法主要包含模式改進(jìn)和模式誤差修正。模式改進(jìn)主要集中在優(yōu)化模式物理方案及動(dòng)力學(xué)參數(shù)[3]、改進(jìn)模式結(jié)構(gòu)[4]、數(shù)據(jù)預(yù)處理(去噪等)提高模式輸入數(shù)據(jù)精度[5]等方面。這類方法需要對(duì)實(shí)際物理過(guò)程有清晰的認(rèn)識(shí)和重現(xiàn)能力,由于大氣運(yùn)動(dòng)具有的混沌性、數(shù)值模式自升缺陷及數(shù)值模式初始場(chǎng)的不確定性等,使得模式改進(jìn)的效果往往較為有限,因此對(duì)模式誤差進(jìn)行修正具有重要意義[6]。
數(shù)值模式誤差修正的核心是確定一個(gè)能準(zhǔn)確反映實(shí)測(cè)數(shù)據(jù)與數(shù)值模式輸出數(shù)據(jù)之間的關(guān)系模型,并利用該模型將模式預(yù)報(bào)結(jié)果轉(zhuǎn)變?yōu)楦咏鼘?shí)測(cè)數(shù)據(jù)的修正結(jié)果。近年來(lái),針對(duì)數(shù)值天氣預(yù)報(bào)形成了多種修正技術(shù),如統(tǒng)計(jì)方法及機(jī)器學(xué)習(xí)等。統(tǒng)計(jì)學(xué)模型建立在統(tǒng)計(jì)方程的基礎(chǔ)上,應(yīng)用于數(shù)值天氣預(yù)報(bào)修正的方法主要包含完全預(yù)報(bào)法[7]、基于多元線性回歸的模式輸出統(tǒng)計(jì)方法[8]、卡爾曼濾波法[9]等。但由于其處理非線性數(shù)據(jù)的能力不足,統(tǒng)計(jì)學(xué)模型對(duì)于風(fēng)速、風(fēng)向等數(shù)據(jù)的擬合能力仍有限?;谌斯ぶ悄芗皺C(jī)器學(xué)習(xí)的修正方法成為近年研究的熱點(diǎn)之一。文獻(xiàn)[10]利用支持向量機(jī)實(shí)現(xiàn)了中期強(qiáng)降雨集成預(yù)報(bào);文獻(xiàn)[11]基于卷積神經(jīng)網(wǎng)絡(luò)融合大氣物理模式構(gòu)建了應(yīng)用于天氣預(yù)報(bào)的高分辨率模型。
本研究針對(duì)數(shù)值模式預(yù)報(bào)存在一定誤差的現(xiàn)狀,通過(guò)結(jié)合現(xiàn)場(chǎng)歷史實(shí)測(cè)觀測(cè)資料及模式輸出結(jié)果建立修正模型,圍繞廣東海域內(nèi)不同點(diǎn)位及不同高度層的風(fēng)速、風(fēng)向等主要參數(shù)開(kāi)展誤差修正模型及算法的研究。
1 數(shù)值模式誤差修正問(wèn)題描述
數(shù)值模式是目前天氣預(yù)報(bào)最主要的手段之一,它由模型(即大氣動(dòng)力系統(tǒng))和可計(jì)算建模模塊構(gòu)成,根據(jù)物理學(xué)原理(大氣動(dòng)力學(xué))建立描述天氣演變過(guò)程的方程組(數(shù)學(xué)模型),通過(guò)輸入觀測(cè)資料并用電子計(jì)算機(jī)進(jìn)行數(shù)值求解,從而實(shí)現(xiàn)未來(lái)天氣的預(yù)測(cè)。數(shù)值模式待修正變量(通常為風(fēng)速、風(fēng)向等)的時(shí)間序列可表示為[V=v(1),v(2),…,][v(t-1),v(t),v(t+1),…],對(duì)應(yīng)實(shí)測(cè)數(shù)據(jù)時(shí)間序列可表示為[Vr=vr(1),vr(2),…,] [vr(t-1),vr(t),vr(t+1),…],其中[v(t)]、[vr(t)]分別代表t時(shí)刻的數(shù)值模式待修正變量輸出值及現(xiàn)場(chǎng)對(duì)應(yīng)實(shí)測(cè)值。數(shù)值模式輸出的其他相關(guān)變量(氣溫、壓強(qiáng)、[u]風(fēng)分量、[v]風(fēng)分量、垂直風(fēng)分量、輻射、熱通量等)序列表示為:
[S=s1(1),s1(2),…, s1(t-1), s1(t), s1(t+1),…s2(1),s2(2),…, s2(t-1), s2(t), s2(t+1),…?sn(1), sn(2),…, sn(t-1),sn(t), sn(t+1),…] (1)
式中:[si(t)]——[t]時(shí)刻的第[i]個(gè)相關(guān)變量(總數(shù)為[n])的模式輸出值。
設(shè)采用現(xiàn)場(chǎng)實(shí)測(cè)數(shù)據(jù)修正數(shù)值模式輸出值的表達(dá)式為:
[vr(t)=fv(t), v(t-1),…, v(t-N+1)s1(t), s1(t-1),…, s1(t-N+1)?sn(t), sn(t-1),…, sn(t-N+1);θ] (2)
式中:[N]——數(shù)值模式序列選定時(shí)間長(zhǎng)度;[n]——數(shù)值模式誤差修正模型選定相關(guān)變量數(shù)量,[n≤n];[θ]——數(shù)值模式誤差修正模型參數(shù)集。
為衡量數(shù)值模式輸出值與現(xiàn)場(chǎng)實(shí)測(cè)值之間的擬合程度,定義代價(jià)函數(shù):
[lθ=1Dt=1Dvr(t)-vr(t)2] (3)
式中:[D]——樣本容量大??;[vr(t)]——第[t]個(gè)樣本對(duì)應(yīng)的數(shù)值模式輸出修正值。
為確定式(2)中所示的誤差修正模型,需尋找合適的參數(shù)集[θ]以最小化式(3)的代價(jià)函數(shù)。建模所采用的數(shù)值模式輸出數(shù)據(jù)均來(lái)自于中國(guó)廣東沿海區(qū)域,實(shí)際測(cè)風(fēng)數(shù)據(jù)來(lái)自該區(qū)域內(nèi)部海上3處位置各異的固定測(cè)風(fēng)塔。
2 數(shù)值模式誤差修正模型
除了待修正變量的歷史數(shù)據(jù)外,數(shù)值模式輸出的其他變量同樣與待修正變量當(dāng)前時(shí)刻的取值存在一定關(guān)系,尤其是氣溫、大氣壓力、輻射等。數(shù)值模式輸出變量類型匯總?cè)绫?中所示,總計(jì)80余個(gè)。為了從眾多相關(guān)變量數(shù)據(jù)中提取有效信息,并進(jìn)一步提升修正效果,修正模型需具備較強(qiáng)的特征提取及數(shù)據(jù)挖掘能力。
表1 數(shù)值模式輸出變量類型匯總
Table 1 Summary of numerical model output variable types
[模式輸出氣象要素 特征 100、90、80、70 m風(fēng)速、風(fēng)向 共9層 氣溫(℃);壓強(qiáng)(Pa);u風(fēng)分量(m/s);v風(fēng)分量(m/s);垂直風(fēng)分量(m/s);擾動(dòng)位勢(shì)(m2/s2);基本狀態(tài)壓力/Pa; 共1層 2 m位溫(K);2 m比濕(g/kg);地面熱通量/(W/m2);地表向下短波輻射(J);地表向下長(zhǎng)波輻射(J);外向長(zhǎng)波(W/m2);表面向上熱通量(W/m2);表面向上熱通量(W/m2);地表潛熱通量(W/m2);累積總積云降水(L/m2);累積總積云降水-網(wǎng)格/(L/m2) ]
本文選用卷積長(zhǎng)短期記憶網(wǎng)絡(luò)(convoultional long short-term memory network, C-LSTM)、梯度提升決策樹(shù)(gradientboosting decision tree, GBDT)、極端梯度提升決策樹(shù)(?extreme gradient boosting, XGBoost)等多種經(jīng)典機(jī)器學(xué)習(xí)算法框架,結(jié)合實(shí)際測(cè)風(fēng)資料構(gòu)建模擬結(jié)果修正模型,并分別針對(duì)風(fēng)速、風(fēng)向變量進(jìn)行模式修正。各類模型結(jié)構(gòu)及訓(xùn)練算法說(shuō)明如下。
2.1 卷積長(zhǎng)短期記憶網(wǎng)絡(luò)
卷積長(zhǎng)短期記憶網(wǎng)絡(luò)將卷積神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短期記憶(long short-term memory network, LSTM)網(wǎng)絡(luò)進(jìn)行有機(jī)融合,從而充分挖掘數(shù)值模式各類數(shù)據(jù)之間的統(tǒng)計(jì)關(guān)系。該網(wǎng)絡(luò)采用卷積操作實(shí)現(xiàn)對(duì)各輸入變量的特征選擇,并通過(guò)LSTM網(wǎng)絡(luò)進(jìn)行時(shí)間序列特征學(xué)習(xí),結(jié)構(gòu)示意見(jiàn)圖1。該網(wǎng)絡(luò)主要由輸入、卷積、池化、數(shù)據(jù)重組、LSTM、全連接、輸出等特定功能層構(gòu)成,其參數(shù)訓(xùn)練采用自適應(yīng)動(dòng)量隨機(jī)優(yōu)化算法,當(dāng)滿足精度要求或迭代次數(shù)要求時(shí),網(wǎng)絡(luò)訓(xùn)練完成。
2.2 K-近鄰模型
K近鄰(k-nearest neighbor,KNN)模型(如圖2所示)將各數(shù)量樣本看作特征空間內(nèi)的向量或坐標(biāo)點(diǎn),針對(duì)輸入樣本通過(guò)設(shè)定距離公式尋找與其距離最小即特征最相似的k個(gè)“近鄰”,并通過(guò)綜合這k個(gè)樣本提供的各類數(shù)據(jù)信息,實(shí)現(xiàn)對(duì)新樣本的預(yù)測(cè)或分類[12]。
[k]-近鄰模型的主要步驟為:
1)將各訓(xùn)練樣本實(shí)例化,表示成([x, f(x)])形式,其中[x]代表網(wǎng)絡(luò)輸入樣本,[f(x)]代表該樣本所對(duì)應(yīng)輸出值;
2)對(duì)于新輸入樣本,通過(guò)選定距離公式(歐氏距離、曼哈頓距離等)計(jì)算其與訓(xùn)練集中各樣本間的距離,并從中獲取距離其最近的[k]個(gè)樣本備用;
3)根據(jù)所獲取的[k]個(gè)近鄰樣本,確定新輸入樣本所對(duì)應(yīng)的輸出。預(yù)測(cè)問(wèn)題中,一般采用這[k]個(gè)近鄰樣本標(biāo)簽值的平均值(或加權(quán)平均等)確定預(yù)測(cè)結(jié)果。
2.3 提升(Boosting)模型
Boosting是一種經(jīng)典的集成學(xué)習(xí)方法,該方法通過(guò)迭代構(gòu)建多個(gè)弱學(xué)習(xí)器,并將所有弱學(xué)習(xí)器的結(jié)果進(jìn)行疊加從而形成強(qiáng)學(xué)習(xí)器。其中每一個(gè)弱學(xué)習(xí)器重點(diǎn)關(guān)注前一個(gè)弱學(xué)習(xí)器不足的地方進(jìn)行訓(xùn)練,強(qiáng)化對(duì)之前學(xué)習(xí)錯(cuò)誤樣本的學(xué)習(xí),最后通過(guò)加權(quán)投票得出最終預(yù)測(cè)結(jié)果。GBDT、XGBoost、Adaboost和LightGBM作為Boosting集成算法的經(jīng)典具體實(shí)例化模型,其模型簡(jiǎn)要說(shuō)明如下。
2.3.1 梯度提升決策樹(shù)(GBDT)
梯度提升決策樹(shù)(如圖3所示)是一種基于決策樹(shù)的集成算法,其核心思想是通過(guò)損失函數(shù)負(fù)梯度擬合上一輪弱學(xué)習(xí)器的殘差,通過(guò)多輪學(xué)習(xí)的累加使得輸出逐步逼近真實(shí)值,加速收斂至全局或局部最優(yōu)解[13]。其主要步驟如下:
1)確定初始化弱學(xué)習(xí)器:
[fo(x)=argminci=1mL(yi,c)] (4)
式中:[c]——弱學(xué)習(xí)器(決策樹(shù))參數(shù);[m]——輸入樣本數(shù)量;[L]——代價(jià)函數(shù)。
2)對(duì)于迭代次數(shù)[t=1, 2, …, T]:
①對(duì)于樣本i([i=1, 2, …, m])進(jìn)行負(fù)梯度計(jì)算:
[rti=-?L(yi, f(xi))?f(xi)f(x)=ft-1(x)] (5)
②利用[(xi,rti)(i=1, 2, …, m)],擬合一棵分類與回歸樹(shù)(chassification and regression tree,CART),得到第[t]個(gè)弱學(xué)習(xí)器,其對(duì)應(yīng)的的葉子節(jié)點(diǎn)區(qū)域?yàn)閇Rtj(j=1, 2, …, J],其中[J]為回歸樹(shù)[t]葉子節(jié)點(diǎn)的數(shù)量)。
③對(duì)葉子區(qū)域j [(j=1, 2, …, J)]最小化代價(jià)函數(shù):
[ctj=argmincxi∈RtjL(yi, ft-1(xi)+c)] (6)
④更新預(yù)測(cè)結(jié)果:
[ft(x)=ft-1(x)+j=1JctjI, "x∈Rtj] (7)
式中:[I(x)]——用于判斷集合中元素的指示函數(shù)。
3)得到GBDT模型為:
[f(x)=fT(x)=f0(x)+t=1Tj=1JctjI] (8)
2.3.2 極端梯度提升決策樹(shù)(XGBoost)
極端梯度提升決策樹(shù)于2016年被提出,其在GBDT算法的實(shí)現(xiàn)基礎(chǔ)上完成了相應(yīng)改進(jìn)。該模型在梯度提升的基礎(chǔ)上實(shí)現(xiàn)了代價(jià)函數(shù)計(jì)算方式優(yōu)化,采用泰勒展開(kāi)式對(duì)殘差作近似,同時(shí)在代價(jià)函數(shù)中引入樹(shù)復(fù)雜度作為正則項(xiàng),用于控制模型復(fù)雜程度與過(guò)擬合特征,提升了模型的泛化性能[14]。其目標(biāo)函數(shù)表達(dá)式為:
[J=i=1ml(yi,yi)+i=1tΩ(fi)] (9)
式中:[l()]——輸入樣本[i]的預(yù)測(cè)誤差;[Ω(fi)]——第[i]顆樹(shù)的復(fù)雜度,將樹(shù)復(fù)雜度加入代價(jià)函數(shù)有助于防止模型過(guò)擬合。
目標(biāo)函數(shù)在第t次迭代結(jié)束后的結(jié)果即為:
[Jt=i=1mlyi,yi(t-1)+ft(xi)+i=1tΩ(fi)=i=1mlyi,yi(t-1)+ft(xi)+Ω(ft)+C] (10)
式中:[ft(xi)]——第[t]顆樹(shù)模型的預(yù)測(cè)值;[C]——常數(shù)。
將式(10)中的函數(shù)進(jìn)行二階泰勒展開(kāi),得到式(11)中的最終目標(biāo)函數(shù):
[Jt≈i=1m[l(yi,yi(t-1))+gift(xi)+12hift(xi)2]+Ω(ft)+C] (11)
式中:[gi]——[l()]函數(shù)的一階導(dǎo)數(shù);[hi]——[l()]函數(shù)的二階導(dǎo)數(shù)。
2.3.3 自適應(yīng)提升決策樹(shù)(AdaBoost)
自應(yīng)提升決策樹(shù)由Yoav Freund等于1995年提出,同樣基于Boosting算法進(jìn)行集成。該算法對(duì)上一個(gè)弱學(xué)習(xí)器學(xué)習(xí)錯(cuò)的樣本賦予更高權(quán)值,同時(shí)降低了學(xué)習(xí)正確樣本的權(quán)值,經(jīng)加權(quán)處理后的全體樣本再用來(lái)對(duì)下一個(gè)弱學(xué)習(xí)器進(jìn)行訓(xùn)練[15]。主要步驟如下:
對(duì)于迭代次數(shù)[t(t=1, 2, …, T)]:
1)初始化(更新)第[t]個(gè)弱分類器訓(xùn)練數(shù)據(jù)的權(quán)重分布,初始狀態(tài)為均勻分布:
[L1=(w11,w12,…,w1m), " w1i=1/m] (12)
2)采用具有[Lt]分布的樣本數(shù)據(jù)訓(xùn)練第[t]個(gè)弱學(xué)習(xí)器,計(jì)算訓(xùn)練集各樣本真實(shí)值與弱學(xué)習(xí)器預(yù)測(cè)值間的相對(duì)誤差為:
[eti=yi-ht(xi)maxyi-ht(xi)] (13)
式中:[yi]——第[i]個(gè)訓(xùn)練樣本對(duì)應(yīng)的真實(shí)值;[ht(xi)]——第[t]顆樹(shù)模型第[i]個(gè)訓(xùn)練樣本的預(yù)測(cè)值。
3)計(jì)算第[t]個(gè)弱學(xué)習(xí)器在訓(xùn)練數(shù)據(jù)集上的預(yù)測(cè)誤差率:
[αt=i=1Mwtieti] (14)
4)根據(jù)預(yù)測(cè)誤差率計(jì)算權(quán)重系數(shù)[βt],通過(guò)[βt]更新第[t+1]個(gè)弱學(xué)習(xí)器的樣本分布:
[βt=αt1-αt] (15)
5)完成第[t+1]個(gè)弱學(xué)習(xí)器訓(xùn)練,并將訓(xùn)練后的[T]個(gè)弱學(xué)習(xí)器進(jìn)行線性組合形成強(qiáng)學(xué)習(xí)器,即最終的Adaboost模型。
2.3.4 輕量級(jí)梯度提升機(jī)(LightGBM)
GBDT算法在訓(xùn)練過(guò)程每一次迭代中,均需歷遍整個(gè)數(shù)據(jù)集多次,該策略難以滿足針對(duì)海量數(shù)據(jù)的訓(xùn)練要求。為了解決該問(wèn)題,微軟亞洲研究院于2017年提出LightGBM框架,該模型支持高效率的并行訓(xùn)練并具有更低的內(nèi)存消耗[16]。相比GBDT而言,LightGBM主要在3個(gè)方面做出改進(jìn):
1)基于直方圖的決策樹(shù):采用直方圖算法將連續(xù)數(shù)據(jù)轉(zhuǎn)化為離散數(shù)據(jù),較大程度地降低了訓(xùn)練時(shí)間;
2)帶深度限制的Leaf-wise生長(zhǎng)策略:該策略在決策樹(shù)每次分裂時(shí)均選擇分裂后信息增益最大的葉子節(jié)點(diǎn)進(jìn)行分裂,信息增益較小的葉子節(jié)點(diǎn)不再分列,對(duì)于決策樹(shù)生長(zhǎng)進(jìn)行一定限制;
3)單邊梯度采樣(Goss)算法:從減少樣本量的角度出發(fā),拋棄對(duì)于模型訓(xùn)練貢獻(xiàn)較?。刺荻戎递^?。┑臉颖?,并保留梯度值較大的樣本參與訓(xùn)練,令該部分?jǐn)?shù)據(jù)在模型訓(xùn)練過(guò)程中占據(jù)更大比重。
2.4 基于三角函數(shù)的代價(jià)函數(shù)設(shè)計(jì)
現(xiàn)有的天氣預(yù)報(bào)(the weather research and forecasting model, WRF)模式修正主要針對(duì)風(fēng)速變量,對(duì)于風(fēng)向變量的修正通常采用與風(fēng)速修正同樣的技術(shù)路線,并未做出明確區(qū)分。在風(fēng)速修正模型的訓(xùn)練過(guò)程中,通常采用簡(jiǎn)單高效的均方誤差函數(shù)作為代價(jià)函數(shù)。然而,由于風(fēng)向的取值規(guī)律與風(fēng)速不一致,其服從圓周分布,因此沿用均方誤差代價(jià)函數(shù)并不能準(zhǔn)確地評(píng)價(jià)風(fēng)向誤差值,誤差值計(jì)算偏離實(shí)際情況過(guò)多甚至?xí)?dǎo)致模型訓(xùn)練性能大大惡化。針對(duì)該問(wèn)題,本文根據(jù)風(fēng)向取值的獨(dú)有特性,提出適用于風(fēng)向數(shù)據(jù)的符合三角函數(shù)規(guī)律的誤差計(jì)算函數(shù),推導(dǎo)過(guò)程如下:
1)如圖4所示,風(fēng)向1及風(fēng)向2對(duì)應(yīng)角度分別為[θ1]及[θ2],將風(fēng)向在單位圓上進(jìn)行表示(見(jiàn)圖5),并將角度坐標(biāo)轉(zhuǎn)化為直角坐標(biāo):
[θ1→(x1,y1)=(sinθ1,cosθ1)] (16)
[θ2→(x2,y2)=(sinθ2,cosθ2)] (17)
2)將風(fēng)向1及風(fēng)向2之間誤差值定義為單位圓上兩個(gè)坐標(biāo)所確定的弦長(zhǎng)(即d),如圖5所示,其計(jì)算過(guò)程為:
[d=(sinθ1-sinθ2)2+(cosθ1-cosθ2)2=2sinθ1-θ22] (18)
3)由于[d]的值域?yàn)椋?, 2],為省略網(wǎng)絡(luò)訓(xùn)練過(guò)程中對(duì)風(fēng)向變量的數(shù)據(jù)歸一化過(guò)程,可對(duì)[d]進(jìn)行等比例縮放:
[Ewind_direction=0.5×d=sinθ1-θ22] (19)
由于式(19)能更好地?cái)M合風(fēng)向誤差分布情況,本文將其作為風(fēng)向修正模型訓(xùn)練過(guò)程中的代價(jià)函數(shù)。
3 仿真結(jié)果及分析
3.1 數(shù)據(jù)樣本選取
為充分驗(yàn)證所建數(shù)值模式誤差修正模型對(duì)于風(fēng)速、風(fēng)向修正的有效性及適用性,采用廣東近海海域3處不同位置固定測(cè)風(fēng)塔中的2處進(jìn)行模型訓(xùn)練及校驗(yàn),并用余下點(diǎn)位完成測(cè)試。數(shù)據(jù)集劃分如圖6所示。
3.2 模型相關(guān)參數(shù)設(shè)置
如表1所示,數(shù)值模式輸出的變量總計(jì)約80個(gè),為了在保證修正效果的前提下進(jìn)一步控制模型結(jié)構(gòu)的復(fù)雜程度,其中與風(fēng)速、風(fēng)向數(shù)據(jù)關(guān)聯(lián)性較弱或不相關(guān)的變量在建模時(shí)不作考慮,經(jīng)過(guò)刪減最終選取50個(gè)變量。為了將所建立的多種經(jīng)典機(jī)器學(xué)習(xí)算法框架進(jìn)行合理的仿真比較,對(duì)于所有的模型,輸入和輸出數(shù)量均選擇為50×48(其中48代表各變量時(shí)間序列所選定的時(shí)間長(zhǎng)度)和1,如圖7所示。
經(jīng)過(guò)多組獨(dú)立重復(fù)試驗(yàn),C-LSTM修正模型選用2個(gè)卷積層、2個(gè)池化層及2個(gè)LSTM層,各卷積層均設(shè)置為3×3卷積核,卷積核數(shù)量為32,卷積步長(zhǎng)為2;池化層窗口大小設(shè)置
為3×3,采用最大池化法,步長(zhǎng)分別為1、2;針對(duì)對(duì)池化后的三維特征向量,數(shù)據(jù)重組層實(shí)現(xiàn)降維壓縮,并將壓縮后形成的二維數(shù)據(jù)送至LSTM部分進(jìn)行計(jì)算,該部分選用2個(gè)LSTM層,各層神經(jīng)元數(shù)量分別設(shè)置為64及32個(gè);全連接層神經(jīng)元數(shù)量設(shè)置為16個(gè)。K近鄰模型中k的取值確定為200。GBDT模型中弱學(xué)習(xí)器最大數(shù)量設(shè)置為200,學(xué)習(xí)率為0.1,每顆子樹(shù)最大深度為7。XGBoost模型中弱學(xué)習(xí)器最大數(shù)量設(shè)置為400,學(xué)習(xí)率為0.2,每顆子樹(shù)最大深度為5。AdaBoost模型中弱學(xué)習(xí)器最大數(shù)量設(shè)置為200,學(xué)習(xí)率為0.3,每顆子樹(shù)最大深度為10。LightGBM模型學(xué)習(xí)率為0.06,每顆子樹(shù)最大深度為9,葉子節(jié)點(diǎn)數(shù)量為20。所有模型都采用相同的訓(xùn)練、測(cè)試及校驗(yàn)數(shù)據(jù),依托同一臺(tái)具有Intel Core i7 2.80 GHz CPU和16 GB內(nèi)存的PC,采用64位Windows 10操作系統(tǒng)下的PyCharm進(jìn)行仿真。
3.3 模型評(píng)估指標(biāo)
為了評(píng)估上述各類模型對(duì)于數(shù)值模式修正的性能,定義式(20)、式(20)中的兩種誤差指標(biāo),即均方根誤差(root mean square error,[erms])、平均絕對(duì)誤差(mean absolute error,[ema]):
[erms=1Di=1D(yi-yi)2] (20)
[ema=1Di=1Dyi-yi] (21)
式中:[y]——修正模型輸出值;[y]——實(shí)際值。
3.4 風(fēng)速修正結(jié)果及分析
風(fēng)速修正模型測(cè)試結(jié)果如圖8所示,為保證最佳展示效果,時(shí)間序列圖僅截取連續(xù)的2000個(gè)樣本數(shù)據(jù)進(jìn)行展示。相關(guān)模型誤差統(tǒng)計(jì)指標(biāo)如表2所示。
表2所示為采用雙點(diǎn)位數(shù)據(jù)進(jìn)行模型訓(xùn)練后的校驗(yàn)及測(cè)試效果。為衡量各修正模型性能,采用ERA5 (the European Centre for Medium-Range Weather Forecasts Reanalysis v5)再分析數(shù)據(jù)進(jìn)行對(duì)比驗(yàn)證,該數(shù)據(jù)是歐洲中期天氣預(yù)報(bào)中心在2017年發(fā)布的全球大氣數(shù)值預(yù)報(bào)再分析資料的第5代產(chǎn)品,將模型數(shù)據(jù)與來(lái)自世界各地的觀測(cè)數(shù)據(jù)結(jié)合起來(lái),形成一個(gè)全球完整的、一致的數(shù)據(jù)集,水平分辨率為0.25°×0.25°,時(shí)間分辨率為逐小時(shí),資料時(shí)段為1979年至今,本文僅使用2018—2019年的100 m高度場(chǎng)上的風(fēng)場(chǎng)數(shù)據(jù)。表2中“-”號(hào)表示精度低于ERA5數(shù)據(jù),“+”號(hào)表示精度高于ERA5數(shù)據(jù)。從上述仿真結(jié)果可知,在對(duì)網(wǎng)絡(luò)進(jìn)行校驗(yàn)及測(cè)試的過(guò)程中,所建的各類風(fēng)速修正模型均能保證一定的修正精度,其中AdaBoost及GBDT模型提升效果最為明顯,風(fēng)速日精度可提升0.4~0.6 m/s不等,日平均絕對(duì)誤差可提升至約1 m/s(具體提升效果視位置不同略有差異)。從與ERA5數(shù)據(jù)的對(duì)比結(jié)果可知,原始數(shù)值模式模擬精度大致上略低于ERA5數(shù)據(jù)精度,經(jīng)模型修正后風(fēng)速精度實(shí)現(xiàn)提升,并相比ERA5數(shù)據(jù)精確度有所提高。
3.5 風(fēng)向修正結(jié)果及分析
風(fēng)速修正模型初步測(cè)試結(jié)果如圖9所示,為保證最佳展示效果,時(shí)間序列圖僅截取連續(xù)的2000個(gè)樣本數(shù)據(jù)進(jìn)行展示。相關(guān)模型誤差統(tǒng)計(jì)指標(biāo)如表3所示。
表3所示為采用雙點(diǎn)位數(shù)據(jù)進(jìn)行模型訓(xùn)練后的校驗(yàn)及測(cè)試效果。為進(jìn)一步衡量各風(fēng)向修正模型的性能,采用ERA5再分析數(shù)據(jù)進(jìn)行對(duì)比驗(yàn)證,“-”號(hào)表示精度低于ERA5數(shù)據(jù),“+”號(hào)表示精度高于ERA5數(shù)據(jù)。從上述仿真結(jié)果可知,在對(duì)網(wǎng)絡(luò)進(jìn)行校驗(yàn)及測(cè)試的過(guò)程中,所建立的各類風(fēng)向修正模型均能保證一定的修正精度,其中AdaBoost及GBDT模型提升效果最為明顯,風(fēng)向精度可提升5°~10°不等,日平均絕對(duì)誤差可提升至約19°(具體提升效果視位置不同略有差異)。從與ERA5數(shù)據(jù)的對(duì)比結(jié)果可知,原始數(shù)值模式模擬精度與ERA5數(shù)據(jù)精度大致保持同一水平,經(jīng)模型修正后風(fēng)向精度實(shí)現(xiàn)提升,并與ERA5數(shù)據(jù)相比有所提高。
4 結(jié) 論
本文針對(duì)數(shù)值模式預(yù)報(bào)數(shù)據(jù)存在一定誤差的現(xiàn)狀,結(jié)合現(xiàn)場(chǎng)實(shí)際觀測(cè)數(shù)據(jù)建立起基于機(jī)器學(xué)習(xí)的誤差修正模型,對(duì)風(fēng)速、風(fēng)向等主要變量開(kāi)展修正研究,并進(jìn)一步針對(duì)風(fēng)向變量的獨(dú)有數(shù)據(jù)特征構(gòu)造了合適的誤差計(jì)算方法,得出以下主要結(jié)論:
1)在搭建的多類機(jī)器學(xué)習(xí)模型中,AdaBoost及GBDT模型對(duì)于風(fēng)速、風(fēng)向變量的修正均能取得優(yōu)異的效果,修正效果視位置不同有所差異,數(shù)據(jù)精度通??商嵘?0%~40%不等。
2)與常用的ERA5再分析數(shù)據(jù)相比,經(jīng)本文所提修正策略修正后的數(shù)值模式預(yù)報(bào)數(shù)據(jù)精度有所提高。
3)構(gòu)造的基于三角函數(shù)規(guī)律的誤差函數(shù)能準(zhǔn)確表征風(fēng)向的誤差,且采用該函數(shù)為代價(jià)函數(shù)的風(fēng)向修正模型能取得可靠的修正效果。
[參考文獻(xiàn)]
[1] 中華人民共和國(guó)國(guó)家發(fā)展和改革委員會(huì). “十四五”可再生能源發(fā)展規(guī)劃[EB/OL]. https://www.ndrc.gov.cn/xwdt/ tzgg/202206/P020220602315650388122.pdf.
National Development and Reform Commission. 14th Five-Year Plan for renewable energy development[EB/OL].https://www.ndrc.gov.cn/xwdt/tzgg/202206/P0202206023 15650388122.pdf.
[2] 錢(qián)政, 裴巖, 曹利宵, 等. 風(fēng)電功率預(yù)測(cè)方法綜述[J]. 高電壓技術(shù), 2016, 42(4): 1047-1060.
QIAN Z, PEI Y, CAO L X, et al. Review of wind power forecasting method[J]. High voltage engineering, 2016, 42(4): 1047-1060.
[3] CHENG W Y Y, LIU Y B, LIU Y W, et al. The impact of model physics on numerical wind forecasts[J]. Renewable energy, 2013, 55: 347-356.
[4] JIMéNEZ P A, DUDHIA J. Improving the representation of resolved and unresolved topographic effects on surface wind in the WRF model[J]. Journal of applied meteorology and climatology, 2012, 51(2): 300-316.
[5] XU Q Y, HE D W, ZHANG N, et al. A short-term wind power forecasting approach with adjustment of numerical weather prediction input by data mining[J]. IEEE transactions on sustainable energy, 2015, 6(4): 1283-1291.
[6] 曾曉青, 薛峰, 趙瑞霞, 等. 幾種格點(diǎn)化溫度滾動(dòng)訂正預(yù)報(bào)方案對(duì)比研究[J]. 氣象, 2019, 45(7): 1009-1018.
ZENG X Q, XUE F, ZHAO R X, et al. Comparison study on several grid temperature rolling correction forecasting schemes[J]. Meteorological monthly, 2019, 45(7): 1009-1018.
[7] KLEIN W H, LEWIS B M, ENGER I. Objective prediction of five-day mean temperatures during winter[J]. Journal of meteorology, 1959, 16(6): 672-682.
[8] GLAHN H R, LOWRY D A. The use of model output statistics(MOS) "in "objective "weather "forecasting[J]. Journal of applied meteorology, 1972, 11(8): 1203-1211.
[9] HOMLEID M. Diurnal corrections of short-term surface temperature forecasts using the Kalman filter[J]. Weather and forecasting, 1995, 10(4): 689-707.
[10] 黃威, 牛若蕓. 基于集合預(yù)報(bào)和支持向量機(jī)的中期強(qiáng)降雨集成預(yù)報(bào)試驗(yàn)[J]. 氣象, 2017, 43(9): 1110-1116.
HUANG W, NIU R Y. The medium-term multi-model integration forecast experimentation for heavy rain based on support vector machine[J]. Meteorological monthly, 2017, 43(9): 1110-1116.
[11] RODRIGUES E R, OLIVEIRA I, CUNHA R L F, et al. DeepDownscale: a deep Learning strategy for high-resolution weather forecast[J]. IEEE Computer Society, 2018: 415-422.
[12] COVER T, HART P. Nearest neighbor pattern classification[J]. IEEE transactions on information theory, 1967, 13(1): 21-27.
[13] 谷云東, 馬冬芬, 程紅超. 基于相似數(shù)據(jù)選取和改進(jìn)梯度提升決策樹(shù)的電力負(fù)荷預(yù)測(cè)[J]. 電力系統(tǒng)及其自動(dòng)化學(xué)報(bào), 2019, 31(5): 64-69.
GU Y D, MA D F, CHENG H C. Power load forecasting based on similar-data selection and improved gradient boosting decision tree[J]. Proceedings of the CSU-EPSA, 2019, 31(5): 64-69.
[14] 譚海旺, 楊啟亮, 邢建春, 等. 基于XGBoost-LSTM組合模型的光伏發(fā)電功率預(yù)測(cè)[J]. 太陽(yáng)能學(xué)報(bào), 2022, 43(8): 75-81.
TAN H W, YANG Q L, XING J C, et al. Photovoltaic power prediction based on combined XGBoost-LSTM model[J]. Acta energiae solaris sinica, 2022, 43(8): 75-81.
[15] 譚津, 鄧長(zhǎng)虹, 楊威, 等. 微電網(wǎng)光伏發(fā)電的Adaboost天氣聚類超短期預(yù)測(cè)方法[J]. 電力系統(tǒng)自動(dòng)化, 2017, 41(21): 33-39.
TAN J, DENG C H, YANG W, et al. Ultra-short-term photovoltaic power forecasting in microgrid based on Adaboost "clustering[J]. Automation "of "electric "power systems, 2017, 41(21): 33-39.
[16] 胡瀾也, 蔣文博, 李艷婷. 基于LightGBM的風(fēng)力發(fā)電機(jī)故障診斷[J]. 太陽(yáng)能學(xué)報(bào), 2021, 42(11): 255-259.
HU L Y, JIANG W B, LI Y T. Fault diagnosis for wind turbine based on LightGBM[J]. Acta energiae solaris sinica, 2021, 42(11): 255-259.
RESEARCH ON NUMERICAL MODEL ERROR-CORRECTION TECHNIQUES FOR OFFSHORE WIND POWER
Zhang Hao,Wen Renqiang,Yang Dinghua,Yi Kan,Du Mengjiao
(Institute of Science and Technology, China Three Gorges Corporation, Beijing 101100, China)
Abstract:In view of the limited accuracy of the existing numerical model prediction data, this paper combined with the actual wind measurement data of several places in the Guangdong sea area, respectively using convolutional long short-term memory network, integrated learning and other machine learning frameworks to establish error correction models, and to verify and analyze the applicability of each model. On this basis, a cost function based on trigonometric function law which is more suitable for wind direction error calculation is proposed. The results show that the AdaBoost and GBDT models can achieve excellent results in the correction of wind speed and wind direction variables.
Keywords:offshore wind power; numerical model; error correction; machine learning; boosting model