摘 要:針對中國西部地區(qū)輻射資源充沛但觀測資料匱乏的特點,提出一種基于輻照度觀測數(shù)據(jù)、遙感數(shù)據(jù)、 McClear和隨機森林算法的太陽輻照度超短期預(yù)測方法,并重點分析遙感數(shù)據(jù)對輻照度預(yù)測效果的影響。結(jié)果表明:添加遙感數(shù)據(jù)能夠優(yōu)化不同時間步長的輻照度預(yù)測效果,并能顯著降低平均絕對百分比誤差(MAPE)值高于40%的預(yù)測大誤差出現(xiàn)概率。同時,添加遙感數(shù)據(jù)對預(yù)測效果的提升隨時間步長呈線性增加關(guān)系,nRMSE的差值變化范圍從2.08%變?yōu)?3.81%;nMAE的差值從1.64%變化為14.52%;R2的差值隨時間步長的變化最為明顯,從-0.03變?yōu)?0.43。但值得注意的是,添加衛(wèi)星數(shù)據(jù)會顯著增加模型的建立和超參尋優(yōu)時間。
關(guān)鍵詞:太陽輻照度;預(yù)測;機器學(xué)習(xí);FY-4A;晴空模型
中圖分類號:P40 文獻標(biāo)志碼:A
0 引 言
在中國,超過75%的電力仍由煤炭供應(yīng),這意味著現(xiàn)在仍然向環(huán)境中排放著大量的NOx、CO2和SO2。太陽能是為實現(xiàn)到2030年中國化石能源使用率為20%這一目標(biāo)的重要戰(zhàn)略技術(shù)[1-3]。近年來,作為應(yīng)用光伏發(fā)電系統(tǒng)最重要的光伏組件和相關(guān)設(shè)備的成本均大幅下降,這為未來大規(guī)模應(yīng)用光伏發(fā)電并將太陽能作為世界最主要能源之一創(chuàng)造了條件[4-7]。
太陽輻照度預(yù)測能夠為光伏系統(tǒng)的順利運行提供技術(shù)支持。研究表明[1],根據(jù)數(shù)據(jù)類型和方法,太陽輻照度預(yù)測方法可簡單分為4種:1)數(shù)據(jù)驅(qū)動方法[8-9];2)基于全天空成像儀的方法[10-11];3)基于衛(wèi)星的方法[12-13];4)數(shù)值天氣預(yù)報(numerical weather prediction,NWP)[14]。數(shù)據(jù)驅(qū)動方法適用于所有預(yù)測時間步長,但通常適用于時間步長大于1 h的預(yù)測。雖然基于全天空成像儀和衛(wèi)星的方法通??衫眠B續(xù)圖像進行預(yù)測,但基于全天空成像儀的預(yù)測時間步長通常在1 h以內(nèi),而基于衛(wèi)星的預(yù)測時間步長可從0.5 h延長到6 h。衛(wèi)星數(shù)據(jù)或數(shù)值模式由于其網(wǎng)格大小和輸出時間的原因,在時間和空間分辨率上受到一定限制。同時,數(shù)據(jù)驅(qū)動預(yù)測方法需要來自一級(氣象)站的多數(shù)據(jù)輸入,有潛在的校準和數(shù)據(jù)質(zhì)量控制問題 [15]。因此,如何以低成本提供高精度空間和時間分辨率的太陽輻照度預(yù)報成為一個重要研究課題。對于輻照度預(yù)測,研究方法的選擇也至關(guān)重要。現(xiàn)有大多數(shù)方法不能解決噪聲環(huán)境中的復(fù)雜非線性關(guān)系[16]。因此,隨著人工智能的發(fā)展,越來越多的研究人員選擇將機器學(xué)習(xí)方法應(yīng)用于太陽輻照度預(yù)測。Deo等[16]開發(fā)了支持向量機小波耦合模型(WSVM),采用日照時數(shù)、溫度、風(fēng)速、蒸發(fā)量和降水量作為模型輸入?yún)?shù),該模型可輸出可靠的日預(yù)測數(shù)值;Yagli等[17]結(jié)合機器學(xué)習(xí)方法,通過一種稱為核條件密度估計的新技術(shù)糾正了偏差,結(jié)果表明,與使用地面數(shù)據(jù)生成的輻照度預(yù)測相比,使用偏差校正衛(wèi)星衍生數(shù)據(jù)生成的預(yù)報具有更高的精度。
上述研究證明了機器學(xué)習(xí)在輻照度預(yù)測中的可行性。然而,如何利用有限的觀測數(shù)據(jù)建立西北地區(qū)高時空分辨率的輻照度預(yù)測模型仍需進一步研究。因此,本研究基于FY-4A衛(wèi)星的高分辨率圖像信息,結(jié)合輻照度觀測、機器學(xué)習(xí)方法和晴空模型,構(gòu)建超短時(0~3 h)太陽輻照度預(yù)測模型。并分別利用敏感性實驗,測試在輸入數(shù)據(jù)中包含(或去除)遙感數(shù)據(jù)對不同時間步長輻照度預(yù)測效果的影響,并將二者的預(yù)測效果與持久性模型進行比較。最終通過相關(guān)指標(biāo),分析遙感數(shù)據(jù)在高精度太陽輻照度超短期預(yù)測中的作用。
1 數(shù)據(jù)和方法
1.1 觀測數(shù)據(jù)
地面太陽輻照度數(shù)據(jù)來自中國西北的3個氣象觀測站,即榆中、民勤和敦煌。西北地區(qū)植被類型簡單、人口稀少、氣候干旱,占中國總裝機容量和并網(wǎng)電力的60%。這些臺站提供了使用FS-S6太陽輻射傳感器測量的短波向下全球輻照度(W/m2)數(shù)據(jù)。儀器每兩年校準一次,符合ISO 9060:1990和WMO標(biāo)準的一流技術(shù)指標(biāo)。所使用數(shù)據(jù)集為2019年7月—2020年6月,時間分辨率為1 min。表1列出了3個觀測點的地理信息(包括經(jīng)度、緯度和海拔高度)、平均和最大總輻照度(GHI)以及數(shù)據(jù)量。
1.2 風(fēng)云四號衛(wèi)星數(shù)據(jù)(FY-4A)
2016年,中國的新一代靜止氣象衛(wèi)星風(fēng)云四號A成功發(fā)射,其采用SAST5000平臺和六角圓柱結(jié)構(gòu),具有地面面積大、質(zhì)心低的優(yōu)點。風(fēng)云四號A衛(wèi)星裝載了先進的觀測儀器,包括先進的干涉式大氣垂直探測器、空間環(huán)境監(jiān)測儀器、地球靜止軌道輻射成像儀和閃電成像儀。風(fēng)云衛(wèi)星數(shù)據(jù)已證明了其在中國區(qū)域進行輻照度預(yù)報的可行性[18]。
風(fēng)云四號A衛(wèi)星云圖數(shù)據(jù)來自國家氣象科學(xué)數(shù)據(jù)中心(http://satellite.nsmc.org.cn/),本研究使用的衛(wèi)星圖像的空間分辨率為2 km×2 km,并選擇7個通道(0.45~4.00 μm)。首先,刪除太陽高度角小于10°的衛(wèi)星圖像(由于光線較弱,觀測誤差較大)。其次,對圖像進行幾何定標(biāo)和輻射定標(biāo)。圖像的裁剪面積為32 km×32 km,反演區(qū)域的像素位于中間。最后,通過線性插值對缺失的圖像進行插值,獲得7個通道的10 min時間分辨率(與觀測數(shù)據(jù)的分辨率相匹配)的區(qū)域反照率平均值。
1.3 McClear數(shù)據(jù)
McClear是一種新的晴空模型,它可利用MACC數(shù)據(jù)源來估計地面接收的下行短波直接輻射和全球輻射。近年來,許多研究證明了McCle-ar的可靠性(包括在中國)[19-20]。其中,通過輸入經(jīng)度、緯度、海拔和輸出格式,可直接獲得1 min、15 min、1 h、日和月時間尺度的全球總輻射、直接輻射和散射輻射 (https://www.soda-pro.com/web-services/radiation/cams-mcclear)。本研究下載了2019年6月—2020年7月,榆中、民勤和敦煌時間分辨率為1 min的太陽總輻照度,作為機器學(xué)習(xí)輸入?yún)?shù)之一。
1.4 隨機森林(RF)
隨機森林(random forest,RF)方法是一種回歸樹(regression tree,RT),它是一種改進的套袋回歸樹模型。在20世紀90年代,Breiman[21]建議通過樹形結(jié)構(gòu)并對其預(yù)測值進行平均,以產(chǎn)生更穩(wěn)定的最終預(yù)測。由于隨機森林的適用范圍廣、精度高、難以過度擬合且能夠處理非線性數(shù)據(jù),因而其廣泛應(yīng)用于不同領(lǐng)域的預(yù)測和分類問題中。文獻[22]介紹了RF的詳細理論。
在機器學(xué)習(xí)過程中進行超參數(shù)尋優(yōu),能夠快速找到特定的超參數(shù)數(shù)值,進而實現(xiàn)模式在驗證數(shù)據(jù)集上的最優(yōu)表現(xiàn)。在本研究中,選擇網(wǎng)格搜索法來進行超參尋優(yōu)。對于RF,超參數(shù)優(yōu)化主要針對以下6個超參數(shù):決策樹的數(shù)量(n_估計器)、決策樹的最大深度(max_depth)、分離樣本的最小數(shù)量(min_samples_split)、分離特征的最大數(shù)目(max_features)、葉節(jié)點樣本的最小數(shù)目(mi-n_ssamples_leaf)和是否進行隨機抽樣(bootstrap)。
1.5 參考模型
為確保預(yù)測模型的可比性,引入楊大智[24]提出的參考模型。根據(jù)研究,單值氣候?qū)W和持久性是“數(shù)據(jù)聚合譜”的兩端。其中,持久性算法只利用最近的觀測值。通過計算滯后自相關(guān),楊大智[24]的方法可將經(jīng)典的氣候?qū)W和持久性方法最佳地結(jié)合起來(在最小二乘意義上)。參考模型的核心參數(shù)如式(1)~式(4)所示。
[RRMSEc=1ni=1n(μ-xi)2=σ] (1)
[α=cov(xi-h,xi)σ2=γ(h)] (2)
[RRMSEcp=1ni=1n[αxi-h+(1-α)μ-xi]2=α2σ2+σ2-2αcov(xi-h,xi)] (3)
[yi=αxi-h+(1-α)μ] (4)
式中:[xi-h]——滯后自相關(guān)(假設(shè)末端效應(yīng)可忽略不計);[μ]和[σ]——樣本均值和標(biāo)準差(假設(shè)[n]較大);[yi]——預(yù)測值。
1.6 評價方法
本研究選取4個統(tǒng)計指標(biāo),包括歸一化均方根誤差(nRMSE)、歸一化平均絕對誤差(nMAE)、歸一化均偏誤差(nMBE)和相關(guān)系數(shù)(R2)來評估模型的性能[24]。
首先,對數(shù)據(jù)進行預(yù)處理。數(shù)據(jù)被隨機分為訓(xùn)練數(shù)據(jù)集(70%)和測試數(shù)據(jù)集(30%)。接下來,將RF算法引入模型構(gòu)建,并引入隨機網(wǎng)格搜索方法來進行超參數(shù)尋優(yōu)。此外,根據(jù)相關(guān)指標(biāo)(nRMSE、nMAE、nMBE、Skillscore、MAPE和R2),進行預(yù)測效果評價。最后,分析得出遙感數(shù)據(jù)對不同時間步長輻射預(yù)測效果的影響,具體流程如圖1所示。
2 結(jié)果分析
為分析遙感數(shù)據(jù)添加與否對不同時間步長輻照度預(yù)測效果的影響,本研究中分別對添加遙感數(shù)據(jù)和不添加遙感數(shù)據(jù)的太陽輻照度超短期(10~180 min)預(yù)測效果進行比較,預(yù)測結(jié)果如圖2所示。云的移動和形成消散過程會影響地表輻射。遙感數(shù)據(jù)中的反照率信息能反映云的形成和消散過程。研究結(jié)果表明,在未添加風(fēng)云衛(wèi)星遙感數(shù)據(jù)時,機器學(xué)習(xí)方法和參考模型(CP)互有優(yōu)劣,但當(dāng)添加風(fēng)云衛(wèi)星遙感數(shù)據(jù)后,機器學(xué)習(xí)具備顯著優(yōu)勢。因此,遙感數(shù)據(jù)對輻照度預(yù)測效果的影響值得關(guān)注。
總體來說,添加衛(wèi)星遙感數(shù)據(jù)后不同時間步長的輻照度預(yù)測效果都比參考模型和未添加衛(wèi)星遙感數(shù)據(jù)時好。同時結(jié)合表2可知,添加FY-4A衛(wèi)星遙感數(shù)據(jù)對輻照度預(yù)測效果的影響隨著時間步長逐漸增加。其中,nRMSE的差值(無遙感數(shù)據(jù)減去添加遙感數(shù)據(jù))變化范圍從10 min的2.08%變化為180 min的13.81%;nMAE的差值從10 min的1.64%變化為180 min的14.52%;[R2]的差值隨時間步長的變化最為明顯,從10 min的-0.03變化為180 min的-0.43;nMBE的變化與其他變量不同,呈現(xiàn)波動的變化趨勢,其變化范圍為[-0.43~]0.10個百分點。值得注意的是,從60 min時間步長開始,輻照度預(yù)測效果的差別逐漸增大。
為更準確、深入評價遙感數(shù)據(jù)對不同步長輻照度預(yù)測效果的影響,本研究參考文獻[2]方法,計算MAPE(平均絕對百分比誤差)數(shù)值,并統(tǒng)計MAPE數(shù)值大于40%在預(yù)測結(jié)果中出現(xiàn)的概率,直觀的評估預(yù)測模型的有效性,其計算式為:
[SMAPE=i=1nxi-yixi×100%n] (5)
式中:[n]——樣本數(shù)量;[xi]——實際值;[yi]——預(yù)測值。
結(jié)合圖2和圖3可知,在增加衛(wèi)星遙感數(shù)據(jù)后,不僅能夠提升總體的預(yù)測效果(參考nRMSE,nMAE和R2的數(shù)值),而且在不同時間步長的輻照度預(yù)測中能降低MAPE高于40%的大誤差出現(xiàn)概率。并且,遙感數(shù)據(jù)對大誤差出現(xiàn)概率的降低幅度與時間步長呈現(xiàn)線性增加關(guān)系。其中,3個站點10 min時間步長輻照度預(yù)測大誤差出現(xiàn)概率的降低幅度變化范圍為1.56%~1.95%,而180 min時間步長的大誤差出現(xiàn)概率的降低幅度迅速增加至12.59%~16.39%。同時,綜合圖4可知,在添加遙感數(shù)據(jù)后,不同觀測站點輻照度預(yù)測的總體效果
都得到明顯提升,具體表現(xiàn)為nMAE和nRMSE均下降7%左右,而R2提高約0.1。然而,值得注意的是,增加輸入變量(遙感數(shù)據(jù))會顯著增加RF算法進行模式構(gòu)建和超參尋優(yōu)的時間,進而影響預(yù)測結(jié)果的輸出時間。其中,在i7-10700 CPU@2.90 GHz、16 GB RAM的計算機上運行模式(10~180 min)的時間差值(未輸入遙感數(shù)據(jù)減去輸入遙感數(shù)據(jù))變化范圍為[-1958.14~-1245.72 s],運行時間的差值并未隨預(yù)測時間步長呈現(xiàn)線性變化。
3 結(jié) 論
本研究針對高分辨率太陽輻照度超短期預(yù)測中氣象數(shù)據(jù)獲取困難,預(yù)測精度偏低等特點,提出一種基于輻照度觀測、McClear,遙感數(shù)據(jù)和隨機森林算法的太陽輻照度超短期預(yù)測方法。該預(yù)測方法通過輸入輻照度觀測和遙感數(shù)據(jù),利用隨機森林和超參數(shù)尋優(yōu)構(gòu)建預(yù)測模型。結(jié)果表明在所有輻照度監(jiān)測站點,添加遙感數(shù)據(jù)的預(yù)測效果與未添加遙感數(shù)據(jù)相比,預(yù)測效果均得到顯著改善。其中,在180 min時間步長的預(yù)測中,3個站點添加遙感數(shù)據(jù)比未添加遙感數(shù)據(jù)的nRMSE平均下降13.81個百分點,nMAE平均下降14.51個百分點,R2則平均提高了43.46%。同時,添加遙感數(shù)據(jù)也能降低在輻照度預(yù)測中MAPE高于40%的大誤差出現(xiàn)概率,且降低幅度與時間步長呈現(xiàn)線性增加趨勢。同時,不同觀測站點的輻照度預(yù)測總體效果在添加遙感數(shù)據(jù)后均得到顯著提升。但值得注意的是,添加衛(wèi)星數(shù)據(jù)會顯著增加模型的建立和超參尋優(yōu)時間。因此,高性能計算機是實現(xiàn)利用衛(wèi)星遙感數(shù)據(jù)進行高精度輻照度預(yù)測的前提。本研究能夠利用有限的輻照度觀測提供可靠的太陽輻照度超短期預(yù)測結(jié)果,可為太陽能的利用和新能源發(fā)展提供新思路。
[參考文獻]
[1] YANG D E, KLEISSL J, GUEYMARD C A, et al. History and trends in solar irradiance and PV power forecasting: a preliminary assessment and review using text mining[J].Solar energy, 2018, 168: 60-101.
[2] JIA D Y,YANG L N, LV T, et al. Evaluation of machine learning models for predicting daily global and diffuse solar radiation under different weather/pollution conditions[J]. Renewable energy, 2022, 187: 896-906.
[3] 胡斯勒圖, 施建成, 李明, 等. 基于衛(wèi)星數(shù)據(jù)的地表下行短波輻射估算: 方法、 進展及問題[J]. 中國科學(xué): 地球科學(xué), 2020, 50(7): 887-902.
HU S L T, SHI J C,LI M, et al. A review of the estimation of downward surface shortwave radiation based on satellite data:methods, progress and problems[J]. Scientia sinica eerrae, 2020, 50(7): 887-902.
[4] 蔣俊霞, 高曉清. 光伏系統(tǒng)氣候效應(yīng)及影響機理研究進展[J]. 高原氣象, 2022, 41(4): 953-962.
JIANG J X, GAO X Q. Research progress on climate effect and" influence" mechanism" of" photovoltaic" systems[J]. Plateau meteorology, 2022, 41(4): 953-962.
[5] MANUEL á J, GABRIEL R J, ANTONIO O S, et al. Hybrid techniques to predict solar radiation using support vector machine and search optimization algorithms:a review[J]. Applied sciences, 2021, 11(3): 1044.
[6] ZHANG L, MA W, ZHANG D. Stacked sparse autoencoder in PolSAR data classification using local spatial" "information[J]." IEEE" geoscience" and" remote sensing letters, 2016, 13(9): 1359-1363.
[7] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science,2006, 313(5786): 504-507.
[8] YAGLI G M, YANG D E, SRINIVASAN D. Automatic hourly solar forecasting using machine learning models[J]. Renewable and sustainable energy reviews, 2019, 105: 487-498.
[9] MEGIA F A, KURTZ B, LEVIS A, et al. Cloud tomography applied to sky images: a virtual testbed[J].Solar energy, 2018, 176: 287-300.
[10] KUHN P, WILBERT S, PRAHL C, et al. Shadow camera system for the generation of solar irradiance maps[J]. Solar energy, 2017, 157: 157-170.
[11] ANDRé M, PEREZ R, SOUBDHAN T, et al. Preliminary assessment of two spatio-temporal forecasting technics for hourly" " satellite-derived" " irradiance" " in" " a" " "complex meteorological context[J]. Solar energy, 2019, 177: 703-712.
[12] HARTY T M, HOLMGREN W F, LORENZO A T, et al. Intra-hour cloud index forecasting with data assimilation[J]. Solar energy, 2019, 185: 270-282.
[13] WU E, CLEMESHA R E S, KLEISSL J. Coastal Stratocumulus cloud edge forecasts[J]. Solar energy, 2018, 164: 355-369.
[14] MARION B, SIMITH B. Photovoltaic system derived data for determining the solar resource and for modeling the performance of other photovoltaic systems[J]. Solar energy, 2017, 147: 349-357.
[15] KISI O, PARMAR K S. Application of least square support vector machine and multivariate adaptive regression spline models in long term prediction of river water pollution[J].Journal of hydrology, 2016, 534: 104-112.
[16] DEO R C,WEN X H, Q F I. A wavelet-coupled support vector machine model for forecasting global incident solar radiation using limited meteorological dataset[J]. Applied energy, 2016, 168: 568-593.
[17] YAGLI G M, YANG D Z, GANDHI O, et al. Can we justify producing univariate machine-learning forecasts with satellite-derived solar irradiance?[J]. Applied energy,2020, 259: 114122.
[18] HUANG C L,SHI H R, GAO L, et al. Fengyun-4 geostationary" nbsp;satellite-based" "solar" "energy" "nowcasting system and its application in North China[J]. Advances in atmospheric sciences, 2022, 39(8): 1316-1328.
[19] YANG D Z. Choice of clear-sky model in solar forecasting[J]. Journal of renewable and sustainable energy, 2020, 12(2): 026101.
[20] JIA D Y, HUA J J, WANG L W, et al. Estimations of global horizontal irradiance and direct normal irradiance by using fengyun-4A satellite data in Northern China[J].Remote sensing, 2021, 13(4): 790.
[21] BREIMAN L. Bagging predictors[J]. Machine learning,1996, 24(2): 123-140.
[22] FENG Y,GONG D Z, ZHANG Q W, et al. Evaluation of temperature-based machine learning and empirical models for" predicting" daily" global" solar" radiation[J]." Energy conversion and management, 2019, 198: 111780.
[23] YANG D Z. Making reference solar forecasts with climatology, persistence, and their optimal convex combination[J]. Solar energy, 2019, 193: 981-985.
[24] YANG D Z. A universal benchmarking method for probabilistic solar irradiance forecasting[J]. Solar energy,2019, 184: 410-416.
NOWCASTING PREDICTION OF SOLAR IRRADIANCE BASED ON
FY-4A AND MACHINE LEARNING
Jia Dongyu1,Li Kaiming1,Gao Xiaoqing2,Gao Yumeng3
(1. College of Urban Environment, Lanzhou City University, Lanzhou 730070, China;
2. Northwest Institute of Eco-Environment and Resources, CAS/Key Laboratory of Land Process and Climate Change in Cold and Arid Regions,
Chinese Academy of Sciences, Lanzhou 730000, China; 3. Unit 94754 of the People’s Liberation Army, Jiaxing 314000, China)
Abstract:In view of the characteristics of abundant radiation resources but lack of observation data in China, this study proposes a short-term solar irradiance forecasting method based on radiation observation data, remote sensing data, McClear, and random forest algorithm, and focuses on analyzing the impact of remote sensing data on radiation forecasting effectiveness. The results show that adding remote sensing data can optimize the forecasting effectiveness at different time horizons and significantly reduce the probability of large prediction errors with a mean absolute percentage error (MAPE) value exceeding 40%. Additionally, the improvement of the forecasting effectiveness with the addition of remote sensing data increases linearly with the time horizon. The difference range of normalized root mean square error (nRMSE) changes from 2.08% to 13.81%, the difference of normalized mean absolute error (nMAE) changes from 1.64% to 14.52%, the difference of R2 shows the most significant change with the time step, changing from -0.03 to -0.43. However, it is worth noting that adding satellite data will significantly increase the time required for model establishment and hyperparameter optimization.
Keywords:solar irradiance; forecasting; machine learning; FY-4A; clear sky model