陳偉鑫, 付松*, 郭德宇, 童湘源, 郭英杰, 曹興,馬新, 王市委, 倪彬彬,2
1 武漢大學(xué)電子信息學(xué)院空間物理系, 武漢 4300722 中國(guó)科學(xué)院比較行星學(xué)卓越創(chuàng)新中心, 合肥 230026
太陽風(fēng)是地球空間環(huán)境的重要能量和物質(zhì)來源(Baker, 2005; Schwenn, 2006),對(duì)地球空間天氣和地磁活動(dòng)變化起著重要的驅(qū)動(dòng)作用(Tsurutani et al., 2006).獲知連續(xù)準(zhǔn)確的太陽風(fēng)變化情況,構(gòu)建相應(yīng)的太陽風(fēng)參數(shù)數(shù)據(jù)集,既對(duì)研究地球空間環(huán)境和空間天氣存在重要意義(Hapgood, 2011),也是空間環(huán)境和空間天氣建模的重要問題.一方面,太陽風(fēng)與空間天氣事件存在著密切聯(lián)系(Dai et al., 2021),例如太陽風(fēng)的共轉(zhuǎn)相互作用區(qū)(Corotating Interaction Regions, CIRs)作用于地球磁層會(huì)導(dǎo)致磁暴(Smith and Wolfe, 1976; Tsurutani et al., 2006),并引起電離層擾動(dòng)(Kotov et al., 2019),進(jìn)而影響短波通訊等.另一方面,太陽風(fēng)參數(shù)可作為空間天氣模型的驅(qū)動(dòng)用于研究地球空間環(huán)境的演化機(jī)理(O′Brien et al., 2001; Chu et al., 2021),如McPherron等(2015)利用太陽風(fēng)參數(shù),通過線性預(yù)測(cè)濾波器對(duì)約四個(gè)太陽周期(1966—2014年)中的AL(Auroral Lower)指數(shù)實(shí)現(xiàn)了68.3%的平均有效預(yù)測(cè).由于早期觀測(cè)手段的局限、在軌衛(wèi)星壽命的限制以及極端空間天氣事件的影響,導(dǎo)致太陽風(fēng)參數(shù)的數(shù)據(jù)集并不連續(xù),因此需要對(duì)歷史數(shù)據(jù)進(jìn)行重構(gòu),補(bǔ)全數(shù)據(jù)集的缺少部分.同時(shí),由于太陽風(fēng)參數(shù)對(duì)地球空間環(huán)境演化和災(zāi)害性空間天氣的重要影響,使得對(duì)其進(jìn)行準(zhǔn)確快速的預(yù)測(cè)也變得至關(guān)重要.
對(duì)于研究太陽風(fēng)變化而言,太陽風(fēng)速度、動(dòng)壓、磁場(chǎng)等參數(shù)是用來描述太陽風(fēng)特性的關(guān)鍵參數(shù).以太陽風(fēng)速度為例,多年來科學(xué)家已經(jīng)開展深入廣泛的研究來對(duì)其進(jìn)行重構(gòu)和預(yù)測(cè)(Wang and Sheeley, 1990; Arge and Pizzo, 2000; Odstrcil, 2003; Owens and Riley, 2017; Kumar and Srivastava, 2022; Sun et al., 2021, 2022).在重構(gòu)太陽風(fēng)速度方面,Kondrashov等(2014)借助奇異譜分析(Singular Spectrum Analysis, SSA)方法重構(gòu)了1972—2013年的L1點(diǎn)處的太陽風(fēng)速度;針對(duì)1989年3月有數(shù)據(jù)記載以來的最強(qiáng)磁暴事件(Dstmin=-589 nT),Kataoka和Nakano(2021)基于回聲狀態(tài)網(wǎng)絡(luò)(Echo State Network, ESN)方法重構(gòu)了該事件中L1點(diǎn)處的太陽風(fēng)速度,其再現(xiàn)的峰值達(dá)到了~1600 km·s-1.目前針對(duì)太陽風(fēng)速度的預(yù)測(cè)建模方法則主要包括:(1)基于磁流體力學(xué)(Magnetohydrodynamic, MHD)的物理建模(Zhou and Feng, 2017; Shen et al., 2018; Guo et al., 2021);(2)基于統(tǒng)計(jì)的經(jīng)驗(yàn)或半經(jīng)驗(yàn)建模(Bussy-Virat and Ridley, 2014);(3)基于機(jī)器學(xué)習(xí)(包括神經(jīng)網(wǎng)絡(luò)建模)的經(jīng)驗(yàn)建模(Yang et al., 2018).Owens等(2008)針對(duì)1995—2002年太陽風(fēng)速度進(jìn)行預(yù)測(cè),構(gòu)建并對(duì)比了經(jīng)驗(yàn)?zāi)P?、物理模型、?jīng)驗(yàn)和物理混合模型,其中經(jīng)驗(yàn)?zāi)P托阅茏罴?Shen等(Shen et al., 2009, 2022; Yang and Shen, 2019)則采用物理模型、統(tǒng)計(jì)模型和機(jī)器學(xué)習(xí)多種模型結(jié)合,對(duì)太陽風(fēng)參量的相關(guān)特性和預(yù)測(cè)技術(shù)開展了深入研究,提出的HISS (Hybrid Intelligent Source Surface) 模型,能夠準(zhǔn)確預(yù)測(cè)出2007—2016年中68.2%的太陽風(fēng)速度高速增強(qiáng)(High Speed Enhancements, HSEs)事件(Yang et al., 2018).
雖然科學(xué)家對(duì)太陽風(fēng)速度重構(gòu)和預(yù)測(cè)的研究工作已經(jīng)取得了重要進(jìn)展,但該領(lǐng)域仍存在以下問題值得進(jìn)一步討論:一方面,我們參考OMNI網(wǎng)站數(shù)據(jù)的說明(https:∥omniweb.gsfc.nasa.gov/html/ow_data.html#pla_source),發(fā)現(xiàn)作為太陽風(fēng)數(shù)據(jù)主要來源的WIND衛(wèi)星(Ogilvie et al., 1995; Kasper et al., 2002)和ACE衛(wèi)星(Chiu et al., 1998; McComas et al., 1998),在軌工作時(shí)間分別超過27年和25年,盡管存在其他衛(wèi)星可以間歇性地提供太陽風(fēng)數(shù)據(jù)(Zhang A et al., 2022; Zhang D et al., 2022),但是目前國(guó)際上仍未有可替代WIND和ACE衛(wèi)星的用于專門探測(cè)日地L1點(diǎn)處太陽風(fēng)速度的衛(wèi)星計(jì)劃.因此,為了構(gòu)建的太陽風(fēng)速度重構(gòu)和預(yù)測(cè)模型在極端空間天氣中可以正常使用,并能利用模型將太陽風(fēng)觀測(cè)數(shù)據(jù)拓充到更久遠(yuǎn)的歷史時(shí)間,我們的輸入數(shù)據(jù)只使用了地面觀測(cè)數(shù)據(jù).另一方面,人類從1963年開始記錄L1點(diǎn)處的太陽風(fēng)速度數(shù)據(jù),但尚未有研究工作利用1963年至今的連續(xù)數(shù)據(jù)集對(duì)太陽風(fēng)速度進(jìn)行重構(gòu)和預(yù)測(cè).針對(duì)以上問題,我們利用1963—2018年期間共10萬組3 h分辨率的太陽風(fēng)速度構(gòu)建數(shù)據(jù)集,以地面觀測(cè)數(shù)據(jù)為模型輸入,采用數(shù)據(jù)隨機(jī)分塊,以及特征選取技術(shù)和交叉驗(yàn)證法,對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理.為了比較和驗(yàn)證模型的結(jié)果,我們使用機(jī)器學(xué)習(xí)方法中重要且常用的人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)和隨機(jī)森林(Random Forest, RF)兩種算法對(duì)太陽風(fēng)速度進(jìn)行重構(gòu)與提前3 h預(yù)測(cè).
本文結(jié)構(gòu)安排如下:在第1節(jié)中,我們介紹使用的機(jī)器學(xué)習(xí)模型、數(shù)據(jù)來源和數(shù)據(jù)集預(yù)處理方法;在第2節(jié)中,我們首先給出模型在測(cè)試集中重構(gòu)與預(yù)測(cè)太陽風(fēng)速度的結(jié)果,其次,對(duì)2015年最大的3個(gè)強(qiáng)磁暴事件中的太陽風(fēng)速度進(jìn)行重構(gòu)和預(yù)測(cè),最后,將測(cè)試集分為5類地磁活躍條件,對(duì)比分析模型的性能;在第3節(jié)中我們對(duì)機(jī)器學(xué)習(xí)建模的結(jié)果進(jìn)行分析總結(jié).
圖1 模型示意圖(a) 人工神經(jīng)網(wǎng)絡(luò); (b) 隨機(jī)森林.
隨機(jī)森林是另外一種常見且重要的機(jī)器學(xué)習(xí)算法,它能夠快速給出輸入數(shù)據(jù)在模型中的重要性等級(jí)(Breiman et al., 1984).在本文中,該算法除了被用于構(gòu)建模型與人工神經(jīng)網(wǎng)絡(luò)的模型做比較分析之外,還被作為特征選取技術(shù)對(duì)模型的輸入數(shù)據(jù)進(jìn)行篩選.隨機(jī)森林的基本單位是決策樹,通過集成學(xué)習(xí)的思想將多顆決策樹融合起來得到一個(gè)更加準(zhǔn)確和穩(wěn)定的結(jié)果,本文所構(gòu)建的隨機(jī)森林模型主要對(duì)算法中的決策樹數(shù)目和最大深度數(shù)進(jìn)行了篩選.算法結(jié)構(gòu)見圖1b.
本文選擇Kp(Kennziffer Planetarische)指數(shù)、Dst(Disturbance Storm Time)指數(shù)和AE(Auroral Electrojet)指數(shù)、太陽電磁輻射強(qiáng)度F10.7(10.7 cm solar radio flux)以及太陽黑子數(shù)R作為模型的輸入數(shù)據(jù),這些數(shù)據(jù)均由地面觀測(cè)得到,其中Kp指數(shù)是衡量地球磁場(chǎng)擾動(dòng)的最廣泛使用的指標(biāo)之一,由13個(gè)位于北緯44°至南緯60°之間的地磁觀測(cè)站所測(cè)量的K(Kennziffer)指數(shù)(Bartels, 1938, 1939)進(jìn)行三小時(shí)平均標(biāo)準(zhǔn)化得到(Bartels, 1949).Dst指數(shù)和AE指數(shù)是評(píng)估地磁活動(dòng)的重要指標(biāo),Dst指數(shù)由四個(gè)低緯度地磁觀測(cè)站所測(cè)量的磁場(chǎng)H分量進(jìn)行一小時(shí)平均得到(Sugiura, 1964),AE指數(shù)由極光帶中12個(gè)地磁觀測(cè)站測(cè)量的每小時(shí)電急流強(qiáng)度的最大正變化和最大負(fù)變化的絕對(duì)值進(jìn)行相加得到(Davis and Sugiura, 1966).F10.7和R是評(píng)估太陽活動(dòng)強(qiáng)度和周期的重要指標(biāo),F10.7由加拿大蓬蒂克頓的DRAO(Dominion Radio Astrophysical Observatory)觀測(cè)臺(tái)在當(dāng)?shù)刂形鐪y(cè)量以10.7 cm波長(zhǎng)為中心的100 MHz帶寬內(nèi)太陽射電發(fā)射強(qiáng)度所得到(Tapping, 2013),R由比利時(shí)SILSO(Sunspot Index and Long-term Solar Observations)中心通過測(cè)量太陽黑子群數(shù)量和單個(gè)黑子數(shù)量所得到(Friedli, 2016; Veronig et al., 2021).本文以L1點(diǎn)處的太陽風(fēng)速度數(shù)據(jù)作為實(shí)測(cè)值與模型的輸出值進(jìn)行比較分析.上述數(shù)據(jù)均來自于NASA的OMNIWeb(https:∥omniweb.gsfc.nasa.gov/ow.html)數(shù)據(jù)庫(King and Papitashvili, 2005).數(shù)據(jù)集時(shí)間范圍為1963年11月28日至2018年6月30日,分辨率為3 h.
我們首先以Kp、Dst、AE、F10.7和R作為模型輸入數(shù)據(jù)集.本文以Maggiolo等(2017)研究地磁指數(shù)與太陽風(fēng)相關(guān)性時(shí)所選擇的時(shí)間區(qū)間為依據(jù),若輸出為t天k時(shí)太陽風(fēng)速度,則輸入數(shù)據(jù)的時(shí)間范圍為[t-4天k時(shí),t+4天k時(shí)].為避免時(shí)間序列數(shù)據(jù)集發(fā)生數(shù)據(jù)泄露,我們以27天為一個(gè)數(shù)據(jù)塊將數(shù)據(jù)集進(jìn)行劃分(Guo et al., 2022; 郭英杰等, 2022),并按照70%、15%、15%將數(shù)據(jù)塊隨機(jī)劃分為訓(xùn)練集(Training set)、驗(yàn)證集(Validation set)和測(cè)試集1(Test set 1).將近10年來太陽活動(dòng)最劇烈、磁暴事件發(fā)生最多的2015年(全年共發(fā)生94場(chǎng)磁暴,且2012—2017年間最大的3個(gè)強(qiáng)磁暴事件均發(fā)生在2015年)單獨(dú)作為測(cè)試集2(Test set 2),以這3個(gè)強(qiáng)磁暴事件來驗(yàn)證模型在極端情況下的重構(gòu)和預(yù)測(cè)效果.為驗(yàn)證太陽27天自轉(zhuǎn)周期是否對(duì)重構(gòu)與預(yù)測(cè)模型產(chǎn)生影響,我們將太陽自轉(zhuǎn)周期也作為輸入數(shù)據(jù)之一,并以1963年12月2日(數(shù)據(jù)集中對(duì)太陽風(fēng)速度開始記錄的日期)作為27天周期的第1天,例如,某組輸入數(shù)據(jù)是在某個(gè)太陽自轉(zhuǎn)周期中的第12天測(cè)量記錄的,則在該組輸入數(shù)據(jù)中,所輸入的太陽自轉(zhuǎn)周期信息為12.在后文中我們使用Training set (T)、Validation set (T)、Test set 1(T)、Test set 2(T)、ANN(T)和RF(T)代指輸入數(shù)據(jù)中含有太陽自轉(zhuǎn)周期信息.
為避免模型過擬合并增強(qiáng)模型的泛化性,我們采用交叉驗(yàn)證方法(Schaffer, 1993; Shao, 1993)將訓(xùn)練集和驗(yàn)證集等比例劃分為10份,并將其中1份作為新的驗(yàn)證集,其余作為新的訓(xùn)練集(Guo et al., 2021).經(jīng)過以上處理,太陽風(fēng)速度在各數(shù)據(jù)集中的分布如表1所示.
表1 太陽風(fēng)速度在各數(shù)據(jù)集中的分布
我們采用均方根誤差(Root Mean Square Error, RMSE)和相關(guān)系數(shù)(Correlation Coefficient,CC)對(duì)模型性能進(jìn)行評(píng)估,公式如下:
(1)
(2)
以上兩式中Vswobs,i表示數(shù)據(jù)集中第i組太陽風(fēng)速度的觀測(cè)值,而Vswmod,i表示模型的第i組輸出值,Vswobs,mean和Vswmod,mean分別表示觀測(cè)值的均值和模型輸出值的均值.本文中CC也被作為特征選取技術(shù)用于輸入數(shù)據(jù)的篩選.
(3)
(4)
其中C1和C2分別為N1和N2的樣本量,Ok1,mean和Ok2,mean分別為Ok在N1和N2中的均值.再計(jì)算節(jié)點(diǎn)N上的方差σ2:
(5)
其中C為N的樣本量,Ok,mean為Ok在N中的均值.由于輸入特征I在N節(jié)點(diǎn)分裂為N1和N2,使得隨機(jī)森林模型減少的不純度(Impurity)為
(6)
輸入特征I使模型減少的不純度越多,即代表I對(duì)于模型越重要,針對(duì)輸入數(shù)據(jù)集合X中其余輸入特征,隨機(jī)森林重復(fù)上述步驟,即可計(jì)算出輸入數(shù)據(jù)集合X中的每一個(gè)輸入特征使模型減少的不純度,最終計(jì)算出每一個(gè)輸入特征在模型中的重要性等級(jí).
為對(duì)比特征選取前后模型性能的變化,本節(jié)先利用表1中的訓(xùn)練集,結(jié)合1.3節(jié)中所選的輸入數(shù)據(jù)時(shí)間范圍:[t-4天k時(shí),t+4天k時(shí)],對(duì)人工神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林模型進(jìn)行訓(xùn)練,并在驗(yàn)證集中,我們通過計(jì)算模型輸出值與太陽風(fēng)速度觀測(cè)值的均方根誤差和相關(guān)系數(shù),選擇均方根誤差較小和相關(guān)系數(shù)較高的模型作為本節(jié)使用的模型.圖2a所示,展示了重構(gòu)模型在驗(yàn)證集上的均方根誤差,其中ANN和ANN(T)模型隱藏層1節(jié)點(diǎn)數(shù)均為73,隱藏層2節(jié)點(diǎn)數(shù)均為18;RF和RF(T)模型的決策樹數(shù)目均為474,最大深度均為569.x軸表示通過交叉驗(yàn)證法得到的10個(gè)模型,y軸表示模型在各自驗(yàn)證集上的均方根誤差;圖2(b—e)展示了測(cè)試集1中太陽風(fēng)速度重構(gòu)的結(jié)果,其中x軸表示太陽風(fēng)速度觀測(cè)值,y軸表示重構(gòu)值.
圖2 模型的性能評(píng)估(a) 人工神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林在驗(yàn)證集上的均方根誤差; (b—e) 測(cè)試集1中太陽風(fēng)速度重構(gòu)的散點(diǎn)圖.
由圖2(b—e)可知,輸入數(shù)據(jù)不含太陽自轉(zhuǎn)周期時(shí)(含太陽自轉(zhuǎn)周期時(shí)),人工神經(jīng)網(wǎng)絡(luò)模型在測(cè)試集1上的相關(guān)系數(shù)CC=0.84(0.84),均方根誤差RMSE=58.04 km·s-1(57.85 km·s-1);當(dāng)模型為隨機(jī)森林時(shí),CC=0.82(0.82),RMSE=62.51 km·s-1(62.52 km·s-1).由上述結(jié)果可知,人工神經(jīng)網(wǎng)絡(luò)重構(gòu)模型在測(cè)試集1中有更好的性能,太陽自轉(zhuǎn)周期對(duì)模型性能無明顯影響.
為有效去除冗余的輸入,降低計(jì)算成本,本節(jié)利用1.5節(jié)中的特征選取技術(shù)對(duì)輸入數(shù)據(jù)進(jìn)行篩選.圖3a展示了輸入數(shù)據(jù)與太陽風(fēng)速度的相關(guān)系數(shù),x軸表示輸入數(shù)據(jù)相較于太陽風(fēng)速度的滯后天數(shù),y軸表示相關(guān)系數(shù);圖3b表示通過隨機(jī)森林算法計(jì)算的輸入數(shù)據(jù)重要性等級(jí),y軸表示輸入數(shù)據(jù)權(quán)重,圖中陰影部分表示輸入數(shù)據(jù)在10個(gè)模型中的重要性變化范圍,實(shí)線部分則表示重要性變化的均值.由圖3a可知,太陽風(fēng)速度和之前一段時(shí)間的Kp(藍(lán)實(shí)線)和AE指數(shù)(黑實(shí)線)具有比較強(qiáng)的線性相關(guān)性,這種現(xiàn)象已被Andonov等(2004)和Gholipour等(2004)發(fā)現(xiàn)并報(bào)道,我們猜測(cè)這一現(xiàn)象是由于太陽風(fēng)速度可能存在對(duì)地磁指數(shù)的記憶性效應(yīng)造成的.
圖3 輸入數(shù)據(jù)的種類和時(shí)間的選取(a) 輸入數(shù)據(jù)與太陽風(fēng)速度的相關(guān)系數(shù); (b) 輸入數(shù)據(jù)在模型中的重要性等級(jí).
在本文中CCKp、CCDst、CCAE分別表示Kp、Dst、AE指數(shù)與太陽風(fēng)速度的相關(guān)系數(shù),Im表示Kp、Dst、AE指數(shù)在隨機(jī)森林模型中所占重要性.重構(gòu)模型的輸入數(shù)據(jù)篩選標(biāo)準(zhǔn)如下:每個(gè)輸入特征與太陽風(fēng)速度相關(guān)系數(shù)絕對(duì)值均大于0.2,并且在隨機(jī)森林模型中的重要性之和大于75%.預(yù)測(cè)模型的輸入數(shù)據(jù)篩選標(biāo)準(zhǔn)如下:每個(gè)輸入特征與太陽風(fēng)速度相關(guān)系數(shù)絕對(duì)值均大于0.15,并且在隨機(jī)森林模型中的重要性之和大于65%.由圖3(a—b)可知,(1)重構(gòu)t天k時(shí)的太陽風(fēng)速度可選擇:[t-2天k時(shí),t+1天k時(shí)]的Kp、Dst和AE指數(shù),該區(qū)間內(nèi):CCKp>0.25、|CCDst|>0.21、CCAE>0.2且Im為~75.3%;(2)預(yù)測(cè)t天k時(shí)的太陽風(fēng)速度可選擇:[t-2天k時(shí),t天k-3時(shí)]的Kp、Dst和AE指數(shù),即對(duì)太陽風(fēng)速度進(jìn)行提前3小時(shí)的預(yù)測(cè),該區(qū)間內(nèi)CCKp>0.41、|CCDst|>0.21、CCAE>0.3且Im為~66.1%.
本節(jié)利用篩選之后的輸入數(shù)據(jù)重構(gòu)太陽風(fēng)速度,并與2.1節(jié)中模型在測(cè)試集1中進(jìn)行比較.如圖4,其中ANN和ANN(T)模型隱藏層1節(jié)點(diǎn)數(shù)均為27,隱藏層2節(jié)點(diǎn)數(shù)均為6;RF模型的決策樹數(shù)目為373,最大深度為521;RF(T)模型的決策樹數(shù)目為415,最大深度為572.由圖4可知,輸入數(shù)據(jù)不含/含太陽自轉(zhuǎn)周期,模型為人工神經(jīng)網(wǎng)絡(luò)時(shí),CC=0.84/0.84,RMSE=58.19 km·s-1/58.31 km·s-1;模型為隨機(jī)森林時(shí),CC=0.81/0.81,RMSE=63.15 km·s-1/63.3 km·s-1.圖4結(jié)果表明,經(jīng)過特征選取后,人工神經(jīng)網(wǎng)絡(luò)仍在測(cè)試集1中性能更佳,太陽自轉(zhuǎn)周期對(duì)模型性能無明顯影響.圖4與圖2比較表明,進(jìn)行特征選取后模型的性能基本無變化.
圖4 同圖2類似,但采用了特征選取技術(shù)
本文利用測(cè)試集2中的3個(gè)強(qiáng)磁暴事件評(píng)估磁暴期間模型性能,這3個(gè)強(qiáng)磁暴事件發(fā)生時(shí)間分別為:2015年第76—80天(Dstmin=-234 nT),2015年第173—176天(Dstmin=-208 nT),2015年第353—358天(Dstmin=-170 nT),根據(jù)3個(gè)事件發(fā)生時(shí)間依次將其命名為Storm 1、Storm 2和Storm 3.圖4的結(jié)果表明太陽自轉(zhuǎn)周期并不影響重構(gòu)模型的性能,因此3個(gè)事件中所采用的模型,其輸入數(shù)據(jù)不包含太陽自轉(zhuǎn)周期.由圖5可知,在Storm 1中,模型為人工神經(jīng)網(wǎng)絡(luò)時(shí),CC=0.78,RMSE=67.83 km·s-1;模型為隨機(jī)森林時(shí),CC=0.81,RMSE=63.16 km·s-1.在Storm 2中,模型為人工神經(jīng)網(wǎng)絡(luò)時(shí),CC=0.86,RMSE=77.95 km·s-1;模型為隨機(jī)森林時(shí),CC=0.89,RMSE=64.42 km·s-1.在Storm 3中,模型為人工神經(jīng)網(wǎng)絡(luò)時(shí),CC=0.83,RMSE=43.6 km·s-1;模型為隨機(jī)森林時(shí),CC=0.78,RMSE=48.52 km·s-1.圖5結(jié)果表明,隨機(jī)森林重構(gòu)模型在Storm 1和Storm 2中性能表現(xiàn)更佳,人工神經(jīng)網(wǎng)絡(luò)則在Storm 3中性能表現(xiàn)更佳.對(duì)比Storm 1、Storm 2和Storm 3,我們發(fā)現(xiàn)Storm 1和Storm 2中的高速太陽風(fēng)在短時(shí)間內(nèi)變化較為劇烈,而Storm 3中的高速太陽風(fēng)則變化較為平穩(wěn),因此我們猜測(cè)隨機(jī)森林對(duì)短時(shí)間內(nèi)速度變化特別劇烈的高速太陽風(fēng)重構(gòu)效果更好,而人工神經(jīng)網(wǎng)絡(luò)則更適合于速度變化較為平緩的太陽風(fēng),這體現(xiàn)出人工神經(jīng)網(wǎng)絡(luò)的局限性有時(shí)可以用隨機(jī)森林彌補(bǔ).而且我們發(fā)現(xiàn)在三場(chǎng)磁暴事件中,當(dāng)太陽風(fēng)速度大于600 km·s-1時(shí),隨機(jī)森林有時(shí)存在更好的表現(xiàn).為探究這一現(xiàn)象是否具有普遍性,我們從測(cè)試集1中,篩選出了太陽風(fēng)速度大于600 km·s-1的數(shù)據(jù)集,共計(jì)1604組,對(duì)于這1604組數(shù)據(jù), ANN、和RF模型的均方根誤差分別為:109 km·s-1和123.27 km·s-1.可以發(fā)現(xiàn)當(dāng)太陽風(fēng)速度大于600 km·s-1時(shí),整體上,人工神經(jīng)網(wǎng)絡(luò)仍然優(yōu)于隨機(jī)森林.
此外,如表1所示,訓(xùn)練集中~90%的太陽風(fēng)的速度在0~600 km·s-1區(qū)間,因此如圖5b所示,兩種模型對(duì)磁暴事件中太陽風(fēng)速度峰值的重構(gòu)效果欠佳.整體上,兩種模型能夠較好地模擬出磁暴時(shí)期太陽風(fēng)速度的變化趨勢(shì).
為更加全面比較在不同地磁活躍條件下人工神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林模型的性能,我們參考Loewe和Pr?lss(1997)利用Dst指數(shù)劃分磁暴類型的工作,將表1中的test set 1和test set 2共計(jì)19868組數(shù)據(jù),根據(jù)每組數(shù)據(jù)中的Dst指數(shù)變化區(qū)間:(-30 nT,+∞)、(-50 nT,-30 nT]、(-100 nT,-50 nT]、(-200 nT,-100 nT]、(-∞,-200 nT],將測(cè)試集1和測(cè)試集2劃分為I、II、III、IV、V,共5類地磁活躍條件,分別得到數(shù)據(jù)組:16433組、2227組、1052組、142組和14組,并重構(gòu)了不同地磁活躍條件下太陽風(fēng)速度,結(jié)果見表2.由表2可知,隨著地磁活躍條件從I變?yōu)閂,人工神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林重構(gòu)模型的性能均呈現(xiàn)下降趨勢(shì),這是由于我們所使用的訓(xùn)練集和驗(yàn)證集中的地磁活動(dòng)主要處于地磁活躍條件I(訓(xùn)練集和驗(yàn)證集共計(jì)92511組數(shù)據(jù),其中77962組數(shù)據(jù)屬于地磁活躍條件I),因此所構(gòu)建的模型在地磁活躍條件I中性能更佳,而在地磁活躍條件II—V中性能相對(duì)較差.此外,在5類地磁活躍條件下,人工神經(jīng)網(wǎng)絡(luò)重構(gòu)的太陽風(fēng)速度的結(jié)果均優(yōu)于隨機(jī)森林.需要注意的是,在數(shù)據(jù)集預(yù)處理時(shí),已將數(shù)據(jù)集隨機(jī)打散導(dǎo)致其時(shí)間不連續(xù),從而無法篩選其中完整連續(xù)的磁暴事件,因此將得到數(shù)據(jù)稱為5類地磁活躍條件而非磁暴事件.
表2 在5類不同地磁活躍條件下太陽風(fēng)速度的重構(gòu)
為了進(jìn)一步分析人工神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林模型對(duì)低速太陽風(fēng)和高速太陽風(fēng)或爆發(fā)性事件的重構(gòu)效果,我們參考了Liu等人(2016)的工作,將測(cè)試集1中低于400 km·s-1的太陽風(fēng)認(rèn)為是低速太陽風(fēng)(數(shù)據(jù)為7419組),其余的認(rèn)為是高速太陽風(fēng)或爆發(fā)性事件(9531組).并使用ANN和RF模型對(duì)其進(jìn)行檢驗(yàn),其中對(duì)于低速太陽風(fēng),ANN和RF模型的均方根誤差分別為42.39 km·s-1和47.92 km·s-1;對(duì)于高速太陽風(fēng)或爆發(fā)性事件,二者均方根誤差分別為68.06 km·s-1和72.9 km·s-1.這證明了兩種模型均可較好地重構(gòu)低速太陽風(fēng),但對(duì)特別高速的太陽風(fēng)速度仍然存在改進(jìn)的空間.
本節(jié)采用2.1節(jié)的方案對(duì)太陽風(fēng)速度提前3小時(shí)預(yù)測(cè),具體分析流程與2.2節(jié)一致.模型對(duì)測(cè)試集1的預(yù)測(cè)結(jié)果見圖6,其中ANN和ANN(T)模型隱藏層1節(jié)點(diǎn)數(shù)均為26,隱藏層2節(jié)點(diǎn)數(shù)均為6;RF模型的決策樹數(shù)目為271,最大深度均為306;RF(T)模型的決策樹數(shù)目為221,最大深度為283.由圖6可知,輸入數(shù)據(jù)不包含太陽自轉(zhuǎn)周期時(shí),人工神經(jīng)網(wǎng)絡(luò)的CC=0.82,RMSE=61.33 km·s-1,隨機(jī)森林的CC=0.8,RMSE=64.26 km·s-1.圖6結(jié)果表明,人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型性能更佳,而且太陽自轉(zhuǎn)周期對(duì)預(yù)測(cè)模型也無明顯影響.圖4和圖6結(jié)果比較表明,重構(gòu)模型的性能優(yōu)于預(yù)測(cè)模型,這是因?yàn)閷?duì)t天k時(shí)的太陽風(fēng)速度的預(yù)測(cè),輸入數(shù)據(jù)時(shí)間區(qū)間為[t-2天k時(shí),t天k-3時(shí)],重構(gòu)模型的則是[t-2天k時(shí),t+1天k時(shí)],重構(gòu)模型考慮到了太陽風(fēng)驅(qū)動(dòng)地磁活動(dòng)(Feynman,1982)這一因素,因此重構(gòu)模型比預(yù)測(cè)模型的性能更優(yōu).
圖6 同圖4類似,但為預(yù)測(cè)太陽風(fēng)速度
我們對(duì)3個(gè)強(qiáng)磁暴期間的太陽風(fēng)速度進(jìn)行預(yù)測(cè),如圖7所示,在Storm 1和Storm 2中,隨機(jī)森林預(yù)測(cè)模型的性能更佳,人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型則在Storm 3中的性能更佳.雖然二者對(duì)磁暴事件中太陽風(fēng)速度峰值預(yù)測(cè)效果欠佳,但整體上,二者均較好預(yù)測(cè)出了磁暴事件中太陽風(fēng)速度的變化趨勢(shì).
圖7 同圖5類似,但為預(yù)測(cè)太陽風(fēng)速度
我們同樣對(duì)5類地磁活躍條件下的太陽風(fēng)速度進(jìn)行預(yù)測(cè).如表3所示,與表2結(jié)論一致,隨著地磁活躍條件從I變?yōu)閂,兩種模型的性能逐漸下降,在5類地磁活躍條件下,人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的結(jié)果均優(yōu)于隨機(jī)森林模型的結(jié)果.值得注意的是,由于在測(cè)試集1和測(cè)試集2中滿足第V類地磁活躍條件的數(shù)據(jù)僅有14個(gè),過少的數(shù)據(jù)點(diǎn)使得第V類地磁活躍條件的CC和RMSE不具有較好的統(tǒng)計(jì)學(xué)意義,從而導(dǎo)致其CC較高,但RMSE卻很大.
表3 同表2類似,但為太陽風(fēng)速度預(yù)測(cè)
本文利用特征選取技術(shù)(相關(guān)系數(shù)分析法和隨機(jī)森林算法)對(duì)1963—2018年的地面觀測(cè)數(shù)據(jù)(Kp指數(shù)、Dst指數(shù)、AE指數(shù)、F10.7和太陽黑子數(shù))進(jìn)行篩選,確定了Kp指數(shù),Dst指數(shù)和AE指數(shù)作為輸入數(shù)據(jù),并分別使用人工神經(jīng)網(wǎng)絡(luò)算法和隨機(jī)森林算法構(gòu)建了L1點(diǎn)處的太陽風(fēng)速度重構(gòu)和提前3小時(shí)預(yù)測(cè)模型.為探究?jī)煞N算法所構(gòu)建的模型性能差異,我們將模型在測(cè)試集、磁暴事件集和以及五類地磁活躍條件下進(jìn)行了比較.此外,本文還對(duì)太陽自轉(zhuǎn)周期對(duì)模型性能的影響進(jìn)行了分析.
本文主要結(jié)論如下:
(1) 在測(cè)試集中,人工神經(jīng)網(wǎng)絡(luò)重構(gòu)和預(yù)測(cè)模型的性能均更佳,重構(gòu)(預(yù)測(cè))模型的RMSE為~58 km·s-1(~61 km·s-1),CC為~0.84(~0.82);
(2) 針對(duì)發(fā)生在2012—2017年間3個(gè)強(qiáng)磁暴事件中,兩種算法均能有效重構(gòu)和預(yù)測(cè)太陽風(fēng)速度整體上的變化趨勢(shì);
(3) 在5類不同地磁活躍條件下,人工神經(jīng)網(wǎng)絡(luò)的重構(gòu)和預(yù)測(cè)模型結(jié)果均優(yōu)于隨機(jī)森林;
(4) 依據(jù)所訓(xùn)練模型的表現(xiàn),太陽自轉(zhuǎn)周期對(duì)人工神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林模型均無明顯影響.
綜上所述,本文使用特征選取技術(shù)和機(jī)器學(xué)習(xí)算法構(gòu)建了太陽風(fēng)速度重構(gòu)與預(yù)測(cè)模型,通過對(duì)兩種算法所構(gòu)建的模型在測(cè)試集、磁暴事件和五類地磁活躍條件下進(jìn)行的比較,驗(yàn)證了模型的適用性,從而建立了具有良好性能的人工神經(jīng)網(wǎng)絡(luò)重構(gòu)和預(yù)測(cè)模型,本工作所訓(xùn)練得到的模型和的太陽風(fēng)參數(shù)結(jié)果將被應(yīng)用于其他以太陽風(fēng)參數(shù)作為驅(qū)動(dòng)的空間天氣建模工作中.