黃文喜 祝芙英 翟篤林 林 劍 卿 蕓 李新星 楊 劍
1 中國地震局地震研究所地震大地測量重點(diǎn)實(shí)驗(yàn)室,武漢市洪山側(cè)路40號,430071
電離層通常指高度在60 ~ 2 000 km的大氣層,是組成近地空間環(huán)境的關(guān)鍵要素之一。電離層總電子含量(TEC)是表征電離層形態(tài)結(jié)構(gòu)、延遲特性的關(guān)鍵參數(shù),電離層TEC的精確測定對于導(dǎo)航定位、地震前兆識別具有重要意義。當(dāng)前國內(nèi)外求取TEC的預(yù)測模型主要包含兩類:第1類是基于統(tǒng)計(jì)經(jīng)驗(yàn)的模型[1],該類模型因使用方便且計(jì)算簡單被廣泛應(yīng)用,但受電離層日夜變化、地域跨度等因素影響,預(yù)測效果并不理想[2];第2類是基于TEC 觀測數(shù)據(jù),通過人工智能或數(shù)據(jù)挖掘等方法建立的模型,常用的有神經(jīng)網(wǎng)絡(luò)模型、時(shí)序分析模型等[3-5]。
機(jī)器學(xué)習(xí)與時(shí)序分析雖已廣泛應(yīng)用于TEC預(yù)測領(lǐng)域并取得良好效果,但對兩者在不同外部環(huán)境下預(yù)測效果的對比分析較少。本文利用 IGS 中心提供的高精度TEC數(shù)據(jù),分別采用BP神經(jīng)網(wǎng)絡(luò)及ARMA時(shí)序模型對武漢地區(qū)不同季節(jié)、電離層平靜期和活躍期的TEC進(jìn)行預(yù)測,并對不同樣本長度對模型預(yù)測精度的影響進(jìn)行分析,對健全和完善TEC預(yù)測體系具有積極意義。
BP神經(jīng)網(wǎng)絡(luò)是模擬人腦神經(jīng)系統(tǒng)結(jié)構(gòu)特征而建立的函數(shù)模型,由大量神經(jīng)元廣泛互連形成,不同層神經(jīng)元間通過權(quán)重連接。該模型具有非線性建模、函數(shù)逼近等功能,能以任意精度逼近任意N維到M維的映射,被廣泛應(yīng)用于電離層TEC預(yù)測領(lǐng)域[6]。作為一種單向傳播的前向神經(jīng)網(wǎng)絡(luò),BP神經(jīng)網(wǎng)絡(luò)模型一般包括輸入層、隱含層(一個(gè)或多個(gè))和輸出層,并以誤差平方和作為目標(biāo)函數(shù),采用梯度下降算法交替處理,隨著“模式前向傳播”和“誤差反向傳播”,直至目標(biāo)函數(shù)取得最小值[7]。
任意連續(xù)函數(shù)均可僅用1層隱含層的BP神經(jīng)網(wǎng)絡(luò)進(jìn)行逼近[8],因此本文進(jìn)行TEC預(yù)測時(shí)選取只含1個(gè)隱含層的3層BP神經(jīng)網(wǎng)絡(luò)模型,以前7 d的電離層TEC值(共84個(gè)歷元)作為輸入,以后續(xù)3 d的電離層TEC值作為期望輸出。在研究過程中,輸入數(shù)據(jù)按照5∶1∶1隨機(jī)分為3組,分別用于訓(xùn)練并調(diào)試網(wǎng)絡(luò)、檢驗(yàn)網(wǎng)絡(luò)泛化能力及獨(dú)立測試網(wǎng)絡(luò)性能。綜合考慮具有不同隱含層神經(jīng)元個(gè)數(shù)的模型在驗(yàn)證集上的均方根誤差,將隱含層神經(jīng)元個(gè)數(shù)選定為25個(gè),采用sigmoid函數(shù)作為激活函數(shù)(式(1)),輸出層采用線性函數(shù),設(shè)定初始學(xué)習(xí)速率為0.000 2,正則化系數(shù)為0.1:
(1)
式中,z為輸入因數(shù)x與權(quán)重因數(shù)w的向量積。確立模型結(jié)構(gòu)后,利用BP網(wǎng)絡(luò)對訓(xùn)練樣本xm進(jìn)行訓(xùn)練,以獲取輸入/輸出參數(shù)間的權(quán)重系數(shù)w,并通過不斷調(diào)試使模型訓(xùn)練達(dá)到要求,進(jìn)而根據(jù)權(quán)重系數(shù)和預(yù)測時(shí)刻的輸入?yún)?shù)確定預(yù)測結(jié)果(圖1)。
圖1 BP神經(jīng)網(wǎng)絡(luò)預(yù)測流程Fig.1 Prediction flow chart of BP neural network
自回歸移動(dòng)平均方法(ARMA)是一種應(yīng)用廣泛且精確度較高的時(shí)序預(yù)測方法,對于時(shí)間序列{xt},若其零均值平穩(wěn)且滿足式(2)結(jié)構(gòu),則可稱其為自回歸移動(dòng)平均模型,記作ARMA(p,q):
(2)
式中,θq為模型系數(shù),{εt}為白噪聲序列。θq≠0可確保模型最高階數(shù)為q,其余限制條件可確保{εt}為零均值白噪聲。
在實(shí)際應(yīng)用中,TEC受緯度、季節(jié)、地方時(shí)及太陽和地球活動(dòng)等因素影響,呈現(xiàn)明顯的年、季、日周期變化和隨機(jī)波動(dòng),因此需要對TEC時(shí)序數(shù)據(jù)進(jìn)行平穩(wěn)化檢驗(yàn)及差分處理。鑒于部分時(shí)間序列經(jīng)多次差分均無法轉(zhuǎn)為平穩(wěn)序列或平穩(wěn)性不明顯,本文將TEC固定的周期性變化視為“周期效應(yīng)”,采用式(3)分析并最大限度地減弱TEC序列中的周期性變化:
(3)
對于包含n個(gè)周期,且每個(gè)周期含有m個(gè)時(shí)刻的目標(biāo)序列(長度為m×n),各周期內(nèi)各時(shí)刻的均值即為該時(shí)刻的長期平均值,可表示為:
(4)
(5)
各時(shí)刻周期指數(shù)Sk可表示為:
(6)
當(dāng)TEC序列滿足零均值和平穩(wěn)條件后,即可利用 ARMA 模型對其進(jìn)行分析和建模,主要流程見圖2。
圖2 ARMA模型預(yù)測流程Fig.2 Prediction flow chart of ARMA model
本文利用IGS發(fā)布的武漢地區(qū)經(jīng)緯度為115.0°E、30.5°N的TEC時(shí)間序列數(shù)據(jù),選取不同時(shí)段TEC序列,分別采用BP神經(jīng)網(wǎng)絡(luò)和ARMA模型進(jìn)行不同季節(jié)時(shí)段、不同電離層活躍程度、不同樣本長度對比預(yù)測,并將預(yù)測結(jié)果與 IGS TEC發(fā)布值進(jìn)行比對分析,通過定義相對精度P、日均相對精度Pave和均方差RMSE來評價(jià)預(yù)測效果[9-10]:
(7)
(8)
(9)
式中,Ipre為預(yù)測值,IIGS為 IGS 發(fā)布的TEC觀測值,N為當(dāng)天觀測的歷元數(shù)。
分別選取2017-03-20~30、06-20~30、10-20~30、12-20~30四個(gè)不同季節(jié)時(shí)段的數(shù)據(jù)作為TEC預(yù)測建模數(shù)據(jù),每個(gè)時(shí)段均以前7 d 的IGS TEC數(shù)據(jù)作為樣本序列預(yù)測后3 d的TEC值。兩種模型不同季節(jié)時(shí)段的TEC預(yù)測結(jié)果如圖3所示,圖4為模型預(yù)測值與IGS TEC值的殘差。
圖3 兩種模型4個(gè)時(shí)段的預(yù)測結(jié)果Fig.3 Predicted results in four periods of two models
圖4 兩種模型4個(gè)時(shí)段的預(yù)測殘差Fig.4 Residual of predicted values in four periods of two models
由圖3可以看出,BP神經(jīng)網(wǎng)絡(luò)和ARMA模型在不同季節(jié)時(shí)段均表現(xiàn)優(yōu)異,預(yù)測結(jié)果與IGS TEC發(fā)布值具有良好的一致性,初步印證兩種模型在TEC預(yù)測建模中的合理性。結(jié)合圖4發(fā)現(xiàn),兩種模型在春、夏時(shí)段殘差較小,預(yù)測效果優(yōu)于秋、冬時(shí)段。從單時(shí)段表現(xiàn)來看,兩種模型在春、夏時(shí)段的預(yù)測精度相當(dāng),但ARMA模型的預(yù)測殘差在秋季時(shí)段波動(dòng)較大,可能與9月初爆發(fā)的太陽耀斑對電離層的強(qiáng)擾動(dòng)作用有關(guān),而BP神經(jīng)網(wǎng)絡(luò)模型在冬季的預(yù)測效果最差。
為更加詳細(xì)地比較BP神經(jīng)網(wǎng)絡(luò)和ARMA模型的預(yù)測精度,分別統(tǒng)計(jì)兩種模型在不同季節(jié)時(shí)段的預(yù)測值殘差分布情況(表1,單位%)。
由表1可知,兩種模型在4個(gè)時(shí)段的預(yù)測殘差約85%在3 TECu以內(nèi),約1/3小于1 TECu,殘差大于3 TECu的部分約占10%。結(jié)合模型預(yù)測值的相對精度和均方根誤差(表2)可知,ARMA模型的總體預(yù)測精度略優(yōu)于BP神經(jīng)網(wǎng)絡(luò)。分時(shí)段來看,ARMA模型在春、冬時(shí)段的預(yù)測效果明顯優(yōu)于BP神經(jīng)網(wǎng)絡(luò),而BP神經(jīng)網(wǎng)絡(luò)在秋季時(shí)段的預(yù)測效果略優(yōu)于ARMA模型,兩者在夏季時(shí)段的預(yù)測效果相差較小。
表1 不同時(shí)段TEC預(yù)測殘差
表2 不同時(shí)段TEC預(yù)測值均方根誤差和相對精度統(tǒng)計(jì)
選取2017-07-06~15、09-06~15兩個(gè)時(shí)段的數(shù)據(jù)分別作為電離層平靜期與活躍期的TEC預(yù)測建模數(shù)據(jù),每個(gè)時(shí)段均以前7 d 的TEC數(shù)據(jù)作為樣本序列預(yù)測后3 d 的TEC值,兩種模型的建模方案與數(shù)據(jù)處理方法不變,預(yù)測結(jié)果如圖5 所示,圖6為模型預(yù)測值與原始值的殘差。
綜合圖5和圖6發(fā)現(xiàn),兩種模型在電離層平靜期和活躍期均能較好地反映TEC的變化特征。從整體效果來看,兩種模型在平靜期的預(yù)測效果優(yōu)于活躍期;從模型自身表現(xiàn)來看,兩種模型在活躍期的精度相當(dāng),預(yù)測殘差大部分在3 TECu以內(nèi),而BP神經(jīng)網(wǎng)絡(luò)模型在活躍期的擬合精度明顯優(yōu)于ARMA模型,說明ARMA模型對電離層活躍期的TEC不規(guī)則變化更加敏感,從而影響預(yù)測精度。統(tǒng)計(jì)BP神經(jīng)網(wǎng)絡(luò)和ARMA模型在平靜期和活躍期預(yù)測殘差,結(jié)果見表3(單位%)和表4(單位%)。
圖5 平靜期與活躍期兩種模型TEC預(yù)測結(jié)果Fig.5 Comparison of predicted results in ionospheric quiet and active period
圖6 平靜期與活躍期兩種模型預(yù)測結(jié)果殘差Fig.6 Residual of predicted values in ionospheric quiet and active period
表3 平靜期TEC預(yù)測殘差
由表3和表4分析發(fā)現(xiàn),在平靜期BP神經(jīng)網(wǎng)絡(luò)的預(yù)測殘差約31.1%在1 TECu 以內(nèi),約12.1%大于3 TECu;ARMA模型的預(yù)測殘差約31.8%小于1 TECu,殘差超過3 TECu的部分約占12.5%。由此可知,在平靜期ARMA模型的預(yù)測效果略優(yōu)于BP神經(jīng)網(wǎng)絡(luò)。在活躍期BP神經(jīng)網(wǎng)絡(luò)的預(yù)測殘差約26.9%小于1 TECu,殘差超過3 TECu的部分約占21.5%;ARMA模型中這兩項(xiàng)數(shù)據(jù)分別為25.0%和24.5%,表明在活躍期BP神經(jīng)網(wǎng)絡(luò)的預(yù)測效果明顯優(yōu)于ARMA模型。兩種模型的預(yù)測殘差低于3 TECu的部分均占70%以上,因此無論在平靜期或是活躍期,BP神經(jīng)網(wǎng)絡(luò)和ARMA模型都是較為理想的TEC預(yù)測方法。
表4 活躍期TEC預(yù)測殘差
分析兩種模型在不同時(shí)期的均方根誤差RMSE和相對精度Pave(表5)發(fā)現(xiàn),ARMA模型在平靜期整體Pave高于BP神經(jīng)網(wǎng)絡(luò),而Pave值在活躍期差異不明顯。從單日表現(xiàn)來看,BP神經(jīng)網(wǎng)絡(luò)在首日預(yù)測精度最佳,而ARMA模型預(yù)測精度則在預(yù)測第2天達(dá)到峰值,推測該現(xiàn)象可能與預(yù)測樣本長度有關(guān),即7 d樣本長度難以支撐預(yù)測精度的持續(xù)提升。
表5 平靜期和活躍期兩種模型的預(yù)測值均方根誤差和相對精度統(tǒng)計(jì)
選取2017-04-06~05-05電離層平靜期武漢地區(qū)經(jīng)緯度為115.0°E、30.5°N處的TEC時(shí)間序列數(shù)據(jù),分別基于BP神經(jīng)網(wǎng)絡(luò)和ARMA模型采用7 d樣本、14 d樣本、21 d樣本、28 d樣本4種模式預(yù)測后3 d的TEC值,探究兩種模型在不同樣本長度下的預(yù)測效果,結(jié)果見圖7和圖8,表6為不同預(yù)測模式的均方根誤差與相對精度統(tǒng)計(jì)。
圖7 不同模式下BP神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果Fig.7 Prediction results of BP neural network with different sample length
圖8 不同模式下ARMA模型預(yù)測結(jié)果Fig.8 Prediction results of ARMA model with different sample length
綜合圖7和表6可以看出,樣本長度對預(yù)測精度存在明顯影響。ARMA模型在7 d樣本處精度達(dá)到峰值,隨著樣本長度的增加,預(yù)測精度反而開始降低;BP神經(jīng)網(wǎng)絡(luò)模型在14 d樣本處精度最高,但其RMSE較21 d樣本明顯偏大。21 d樣本處3 d預(yù)測精度分別為92.2%、92.7%、92.6%,精度平穩(wěn)可靠且RMSE最小。由此推斷,BP神經(jīng)網(wǎng)絡(luò)模型在21 d樣本處預(yù)測效果最佳。
表6 不同模式下兩種模型均方根誤差與相對精度統(tǒng)計(jì)
因此可以推測,對于天數(shù)既定的TEC預(yù)測,當(dāng)樣本長度超過閾值后,兩種模型的預(yù)測精度都難以進(jìn)一步提升。同時(shí)也反映出對于3 d的TEC預(yù)測,ARMA模型在短樣本模式下效果較好,而BP神經(jīng)網(wǎng)絡(luò)在較長樣本模式預(yù)測中才能發(fā)揮明顯優(yōu)勢。
本文基于BP神經(jīng)網(wǎng)絡(luò)模型和 ARMA 模型,利用 IGS 中心發(fā)布的武漢地區(qū)電離層TEC樣本數(shù)據(jù)分別進(jìn)行不同季節(jié)時(shí)段、不同太陽活動(dòng)情況、不同樣本長度下的TEC 3 d預(yù)測實(shí)驗(yàn),并將預(yù)測結(jié)果與IGS 中心提供的實(shí)測數(shù)據(jù)進(jìn)行對比分析,得到如下結(jié)論:
1)7 d樣本模式下,兩種模型在4個(gè)季節(jié)時(shí)段中的預(yù)測精度都能較好地反映武漢地區(qū)TEC的變化特征。從各時(shí)段預(yù)測殘差可知,兩種模型在春、夏時(shí)段的預(yù)測效果優(yōu)于秋、冬時(shí)段;而從單時(shí)段表現(xiàn)來看,兩種模型在夏季時(shí)段的預(yù)測精度大致相同,ARMA模型在春、冬時(shí)段的預(yù)測效果優(yōu)于BP神經(jīng)網(wǎng)絡(luò)。
2)7 d樣本模式下,兩種模型在電離層平靜期的預(yù)測精度相當(dāng);而在電離層活躍期,由于BP神經(jīng)網(wǎng)絡(luò)具有良好的非線性預(yù)測與抗波動(dòng)干擾能力,其預(yù)測精度優(yōu)于ARMA模型。
3)ARMA模型在7 d樣本模式下的平均精度最高,而BP神經(jīng)網(wǎng)絡(luò)在21 d樣本模式下的預(yù)測效果最佳,即ARMA模型和BP神經(jīng)網(wǎng)絡(luò)的最佳樣本長度分別為7 d和21 d。 ARMA 模型的短樣本模式預(yù)報(bào)精度更高,BP神經(jīng)網(wǎng)絡(luò)在較長樣本模式預(yù)測中才能發(fā)揮較好的效果。