謝劭峰 曾 印 張繼洪 張亞博 熊 思
1 桂林理工大學測繪地理信息學院,桂林市雁山街319號,541006
2 湖北科技學院資源環(huán)境科學與工程學院,湖北省咸寧市咸寧大道88號,437100
隨著GNSS氣象學的發(fā)展,Tm作為計算大氣中水汽含量的關鍵因素受到廣泛關注。Ross等[1]研究全球53個無線電探空站23 a的探空資料發(fā)現,Tm與Ts(地表溫度)的相關性隨地理位置與季節(jié)的變化而變化,且Tm存在一些季節(jié)性變化特征。此后,諸多學者對Tm進行深入研究,Tm模型因其具有的普適性、廉價性和實時性等特點已成為最受關注的研究方向,其中構建高精度高時空分辨率的Tm模型更是研究熱點[2-6]。
在眾多通過無線電探空站數據基于氣象參數建立的本地化Tm模型中,其建模方法多為基于最小二乘的線性回歸,但Tm與Ts、es(水汽壓)等因素存在非線性關系,并且大多數模型沒有考慮周期性變化造成的誤差。神經網絡具有輸入-隱層-輸出的分層結構,而不是某種特定的非線性激活函數形式,因此擁有幾乎能夠擬合一切函數的能力[7],已被廣泛用于解決多輸入的非線性優(yōu)化問題[8]??紤]到神經網絡算法對非線性函數具有強大的擬合能力,本文將水汽壓(es)、地表溫度(Ts)、緯度(Lat)、高程(H)、年積日(doy)作為Tm模型因子,建立一種顧及水汽壓、測站高程、地面溫度、緯度及年內周期性變化特征的多層感知器(multi-layer perceptron, MLP)神經網絡構建中國西南地區(qū)的Tm模型,并對其精度進行驗證。
本文以中國西南地區(qū)為研究區(qū)域,該區(qū)域共有23個探空站,選取其中17個探空站數據建立模型,其余6個探空站數據用來進行精度驗證。數據來源于美國懷俄明州立大學網站(http:∥weather.uwyo.edu/upperair/sounding.html)免費下載的2015~2018年實測探空站數據,采樣間隔為12 h,其中包含氣壓、溫度、水汽壓、露點溫度等相關氣象數據,同時提供地表測站點的經度、緯度及高程信息,使用其中2015~2017年的實測數據作為建模數據,2018年的實測數據作為驗證數據。
1.2.1 數值積分法
水汽是對流層氣體中最活躍多變的部分,其變化與天氣和氣候的變化息息相關,而Tm是計算水汽含量的關鍵參數。目前精確求解Tm的方法是利用探空數據通過數值積分來實現,計算公式為:
(1)
式中,e為水汽壓(單位hPa),T為氣溫(單位K),h為高程(單位m)。
由式(1)可知,精確計算Tm需用到水汽壓和氣溫數據,再通過數值積分法進行求解。然而,探空站的氣象數據是分層數據,故在計算Tm時需將積分形式轉換為離散的表達式,步驟較為繁瑣。
1.2.2 Bevis公式
對于缺乏探空數據的地區(qū),可根據地面溫度Ts采用線性回歸方法計算Tm。比較著名的是Bevis等[2]利用美國13個無線電探空站2 a觀測資料建立的適合中緯度地區(qū)的Tm與Ts的線性回歸公式:
Tm=70.2+0.72×Ts
(2)
1.2.3 GPT3模型
GPT系列模型是目前世界上應用最廣、精度最高的對流層經驗改正模型,而GPT3模型[9]是GPT系列模型中最新且精度最好的模型,在全球范圍內都能提供較高精度的Tm等參數,使用時只需要輸入年積日和近似的測站坐標即可獲取測站點的Tm值:
(3)
式中,Tm0為各個格網點上Tm的平均值,A1、B1為年周期變化的參數,A2、B2為半年周期變化的參數,doy為年積日。
多層感知器(MLP)由單層感知器拓展而來,是一種前饋式監(jiān)督學習的神經網絡,包括輸入層、輸出層和至少1個隱藏層,且不同層之間是全連接的,上層的任意神經元與下層的所有神經元都有連接,神經元之間的連接賦予相關的權重,訓練學習算法在迭代過程中不斷調整這些權重,從而使得預測誤差最小化并給出預測精度。MLP具有非常好的非線性映射能力、高并行性、自適應性及高容錯性的特點[10],能解決大氣平均溫度與氣象因素及各影響因素之間復雜的非線性關系。
數據預處理采用Z-score標準化:
y=(x-μ)/σ
(4)
式中,μ為均值,σ為標準差。
MLP神經網絡隱藏層激活函數為雙曲正切函數:
(5)
損失函數為誤差平方和函數:
(6)
中國西南地區(qū)緯度覆蓋范圍大,自西向東跨越地勢第1級和第2級階梯,氣候復雜多變。研究表明,Tm與水汽壓[4]、高度[11]、地表溫度[2]及緯度[12]都具有一定相關性,且已知Tm具有明顯的周期性變化,該變化可直接在Tm模型中加以考慮[6]。然而Tm與Ts、es等氣象參數的函數表達式并非呈嚴格的線性形式,且以往構建的Tm模型未充分顧及非氣象參數(如緯度、高程和季節(jié)性因素等)對Tm的影響,故本文利用MLP神經網絡對非線性函數優(yōu)秀的擬合能力建立新的Tm模型(下文簡稱MLP模型)。
以年積日代表年周期性變化特征,將其作為季節(jié)性修正因子進行模型構建,因此將es、Ts、Lat、H、doy作為模型因子進行Tm建模。加權平均溫度與各氣象元素及非氣象因素的線性關系不夠明確,而MLP神經網絡對非線性映射關系具有強大的學習能力,因此采用MLP方法對西南地區(qū)17個探空站進行Tm建模。模型的構建步驟如下:
1)選取與Tm具有一定映射關系的Ts、es、Lat、H、doy作為協變量輸入到輸入層,Tm作為因變量,因各個協變量量綱不同(各協變量定義標準不同),將其進行Z-core標準化處理,以便于不同量綱的協變量能夠進行比較和加權。
2)將2015~2017年探空站氣象數據的70%作為訓練集,30%作為驗證集,反向優(yōu)化模型參數,利用2018年的探空站實測Tm評估所建模型的性能。
3)定義神經網絡模型結構,利用試湊法得到模型隱藏層的層數為1、節(jié)點數為4。隱藏層激活函數為雙曲正切函數,輸出層激活函數為恒等函數y=x,損失函數選用誤差平方和。
4)在模型訓練中,需設置模型訓練類型、優(yōu)化算法等。以上訓練參數都會在一定程度上影響模型的訓練準確率和訓練速度,屬于經驗參數,需要通過反復訓練模型來逐步確定。本文選取批次訓練,優(yōu)化算法選擇標度共軛梯度法。
5)模型建立完成后將2018年的協變量(即Ts、es、Lat、H、doy)輸入到神經網絡模型中,得到2018年MLP神經網絡Tm模型估計值。
為檢驗本文建立的神經網絡模型精度,以2018年中國西南地區(qū)23個探空站Tm數據為參考值,采用偏差(bias)和均方根誤差(RMSE)作為精度指標對預測結果進行精度評定。具體公式為:
(7)
(8)
以中國西南地區(qū)17個探空站2018年的探空資料為數據源,利用數值積分方法獲得的Tm為參考值,對新建Tm模型進行精度驗證,并與Bevis模型及GPT3模型進行比較,結果如表1所示。
表1 2018年3種模型RMSE與bias精度統(tǒng)計
由表1可知,GPT3模型在中國西南地區(qū)表現出明顯的負偏差,其年均值為-1.19 K,而Bevis模型及MLP模型表現為明顯的正偏差,其年均值分別為0.85 K和0.15 K。從偏差值可以得出,Bevis模型優(yōu)于GPT3模型,原因是Bevis模型使用了當地的地表溫度這個氣象參數進行Tm計算,而GPT3模型是利用全球多年的Tm進行擬合,精度略有不足;新建立的MLP模型比Bevis和GPT3模型表現出更小的偏差。同時,從RMSE誤差來看,Bevis模型和GPT3模型的年均RMSE相差不大,分別為3.35 K和3.50 K,Bevis模型精度要略優(yōu)于GPT3模型。MLP模型的精度最優(yōu),年均RMSE為1.99 K,其精度相比于Bevis模型提高了約1.36 K (40.6%),與GPT3模型相比提高了約1.51 K (43.1%),說明MLP模型在中國西南地區(qū)相比其他2個模型精度要高、穩(wěn)定性更好。
為更好地分析模型空間分布精度,以2018年探空站Tm數據為參考值,對各個探空站的年均bias和RMSE進行統(tǒng)計分析,從而檢驗不同模型在中國西南地區(qū)的適用性(圖1)。
由圖1可知,在那曲、拉薩、昌都、甘孜、西昌、貴陽、南寧等12個探空站,MLP模型相對于Bevis模型和GPT3模型有更好的適用性;在其他幾個探空站雖然精度差別不大,但也有所提高。通過直方圖可以明顯看出,精度得到很好改善的探空站,大多處在低緯度沿海地區(qū)和海拔較高地區(qū),這是由于Bevis模型和GPT3模型并未將緯度和海拔作為影響因素進行模型構建。由此說明,在將海拔和緯度2個因子作為模型構建因素后,新建立的MLP模型對Tm的計算精度有了很大改善。對整個研究區(qū)域的精度作進一步分析表明,對于年均bias而言,Bevis模型和GPT3模型均在高海拔地區(qū)表現出較大偏差,而MLP模型在西南地區(qū)bias整體分布在1 K左右,明顯比其他2個模型小且穩(wěn)定;對于RMSE而言,Bevis模型和GPT3模型的RMSE值總體表現出隨海拔和緯度的降低而減小的特點,MLP模型將緯度和海拔作為模型構建因子來進行Tm計算,在西南地區(qū)每個探空站RMSE基本都分布在2 K左右,而Bevis模型和GPT3模型的RMSE浮動較大,兩者的最大RMSE甚至達到了6.59 K和7.1 K,MLP模型精度最優(yōu),其精度比Bevis模型提高了40.6%,比GPT3模型提高了43.1%,且RMSE分布范圍均比Bevis模型和GPT3模型小,進一步表明MLP模型性能更穩(wěn)定,更適用于地形復雜、高低起伏大的中國西南地區(qū)。綜上分析及前人研究結果[13]表明,海拔和緯度對Tm模型精度有重要影響。
為了進一步探究季節(jié)變化、緯度、海拔等因素對3種模型Tm的影響,在西南地區(qū)綜合海拔、緯度分布因素均勻選取6個探空站,利用數值積分獲得的2018年Tm作為參考值,對MLP模型、Bevis模型及GPT3模型的Tm模型估計值的時間序列變化進行分析,結果如圖2(括號內表示各個測站的緯度、經度及高程)所示。
由圖2可見,Bevis模型和GPT3模型在高海拔地區(qū)(如拉薩站和甘孜站)有明顯的系統(tǒng)誤差,且2種模型隨著探空站海拔的降低,模型精度有所提高。Bevis模型在威寧、蒙自、沙坪壩、百色等測站有良好的吻合性,原因在于Bevis模型是利用美國平原地區(qū)的探空站數據所建立的適用于本土中低緯度地區(qū)的Tm模型,同樣也適用于中國部分中低緯度平原地區(qū)。而由MLP模型計算所得的Tm估計值與所有探空站一年四季實測的Tm值均有良好的吻合性,證明MLP模型在整個西南地區(qū)所有季節(jié)均具有穩(wěn)定性和通適性。另外,Tm值在一年中呈現出明顯的坡度變化,夏秋季高、春冬季低,且在春冬季分布較為離散;Tm值隨著緯度的降低,坡度變化幅度也隨之減小。
為進一步檢驗不同模型的季節(jié)性表現,以2018年數值積分法計算得到的昌都站(昌都位于西藏東部,處在西藏與四川、青海、云南交界的咽喉部位,為典型的高山峽谷區(qū),對于西南地區(qū)復雜的地形、氣候來說具有代表性)Tm數據為參考值,對2018年昌都站探空資料計算得到的3種模型Tm估計值進行日偏差檢驗,統(tǒng)計不同模型的bias和RMSE。統(tǒng)計結果如圖3所示。
從圖3(a)可以看出,新建立的MLP模型比Bevis模型和GPT3模型的精度高,Bevis模型及GPT3 模型分別表現出較大的正偏差和負偏差,說明這2個模型在西南地區(qū)具有顯著的系統(tǒng)誤差;另外,MLP模型受季節(jié)的影響要明顯小于GPT3模型和Bevis模型,全年表現較為平穩(wěn)。GPT3模型和Bevis模型受季節(jié)影響較大,有很明顯的坡度變化??梢钥闯?,Bevis模型在夏秋兩季日均bias分布集中,受季節(jié)影響較小,在春冬季節(jié)出現明顯的坡峰,日均bias分布離散,受季節(jié)影響比較大,這是由于Bevis模型未考慮季節(jié)變化因素對Tm的影響而產生誤差。在全年期間,雖然GPT3模型考慮了Tm的季節(jié)變化,但由于系統(tǒng)誤差影響,GPT3模型顯示出明顯的負偏差,并且在春季和夏季期間觀察到日均bias分布離散、偏差較大,在秋冬分布略為集中、偏差較小,原因可能與中國西南地區(qū)地形復雜、海拔高致使日夜溫差大有關。多天的精度檢驗結果顯示,MLP模型的精度要高于Bevis模型和GPT3模型,特別是在春冬季,3種模型的精度對比較為明顯,MLP模型要優(yōu)于Bevis模型和GPT3模型,顯示出較小的偏差,且沒有明顯的季節(jié)性變化,穩(wěn)定性良好。
由圖3(b)可以看出,3個模型均顯示出比較明顯的季節(jié)性變化,主要體現在春季和冬季RMSE值相對較大,而在夏季和秋季的RMSE值較小。這是因為所選取的探空站處于西藏高海拔地區(qū),每年10月至翌年4月,西藏高原上空為西風急流,地面為冷高壓控制,干旱多大風,氣候復雜,日夜溫差變化較大;而夏、秋兩季高原近地面層為熱低壓控制,熱低壓很少移動故而該時間段溫度變化較為穩(wěn)定,因此在夏季和秋季的Tm值變化較小,而在冬季和春季Tm變化較大。對于RMSE而言,MLP模型與其他模型的RMSE值相比變化更小、更穩(wěn)定、精度更高,在受到季節(jié)影響的條件下顯示出更好的適應性??傊?,與其他模型相比,顧及了年積日季節(jié)變化的MLP模型可明顯提高Tm的計算精度。
為研究本文所建立Tm模型的有效性和適用性,在用來建模的17個探空站之外,均勻選取研究區(qū)域外相鄰的玉樹站、漢中站和清遠站等6個站進行空間域上的外符合精度驗證,將這6個探空站2018年的探空資料為數據源分別代入3個模型,計算得到Tm模型估計值,并將利用數值積分方法所得6個探空站的Tm作為參考值,統(tǒng)計各站的年均bias和RMSE,結果如表2(單位K)所示。
由表2可知,對研究區(qū)域外相鄰的探空站進行模型精度驗證,MLP模型的精度依舊保持著良好的穩(wěn)定性和適用性。從年均偏差來看,MLP模型依舊在零周圍分布均勻且保持較小偏差,尤其是對位于高海拔地區(qū)的玉樹站和低緯度地區(qū)的清遠站,精度提升明顯。從年均RMSE來看,MLP模型對于GPT3模型和Bevis模型表現更穩(wěn)定,這是因為MLP模型的構建顧及了海拔、緯度和周期性變化等多種影響因素的緣故??偠灾?,本文所建立的MLP模型在研究區(qū)域外的空間域上同樣有良好的穩(wěn)定性和適用性,可以為中國西南地區(qū)GNSS反演PWV提供高精度的Tm值。
表2 2018年各個模型在中國西南地區(qū)研究區(qū)域外的RMSE與bias精度統(tǒng)計
本文利用多層感知器神經網絡回歸方法,選用中國西南地區(qū)2015~2017年17個探空站數據,建立了適用于中國西南地區(qū)的Tm模型(MLP模型),并以2018年探空站獲取的Tm作為參考值,計算得到西南地區(qū)年均bias和年均RMSE分別為0.15 K和1.99 K,MLP模型相比于Bevis模型的年均bias和年均RMSE分別降低40.6%和82.4%,相比于GPT3模型的年均bias和年均RMSE分別下降43.1%和87.4%,證明本文建立的MLP模型在中國西南地區(qū)的精度要優(yōu)于Bevis模型和GPT3模型,對西南地區(qū)有著更好的穩(wěn)定性和適用性,驗證了MLP神經網絡在大氣加權平均溫度建模方面的有效性和可靠性,可為進一步研究Tm提供參考。