武錦興, 張?zhí)K平??, 李江波, 卞航天, 孫 卓
(1. 中國海洋大學海洋與大氣學院, 山東 青島 266100;2. 河北省氣象臺, 河北 石家莊 050021; 3. 海門市亞森網絡有限公司, 江蘇 南通 226100)
大氣水平能見度(簡稱能見度)是反映大氣透明度的一個指標[1]。低能見度天氣對于陸運、航海、航空的順利進行都會造成嚴重的影響,甚至導致社會生產及軍事活動無法進行[2]。低能見度事件如霧霾、霧等的產生是由地理環(huán)境差異、物理化學作用等共同導致的。這些過程往往與大氣內部的運動、大氣與地面及海氣間的相互作用有關。由于這些過程都是瞬息萬變的,因此預報難度相對較大[3]。隨著改革開放及現代進程的加快,近年來中國出現了越來越多的霧霾天氣,針對低能見度天氣的預報被社會各界廣泛關注重視。由此,對于大氣能見度研究,特別是關于大氣低能見度的相關研究工作也陸續(xù)開展起來[4-6]。
河北省東部面向渤海,西部與太行山接壤,將北京和天津緊緊環(huán)繞,是一個集多種地理環(huán)境于一身的省份。近年來,河北省東部及中部地區(qū)低能見度事件頻發(fā)[7]。因此,研發(fā)一個針對河北省地區(qū)能見度預報方法是有必要的。
人工神經網絡可以通過內部神經元實現復雜的算法計算,作為統(tǒng)計模型的一種,人工神經網絡對于隨時間變化的過程有強大的學習能力[8]。20世紀80年代以來,神經網絡方法便被廣泛運用到氣象學中的各個領域[9-11]。李法然等[9]利用神經網絡方法,對浙江湖州地區(qū)的霧建立了計算模型并預報。李沛等[1]針對北京地區(qū)的能見度進行了研究,利用神經網絡算法建立了該地區(qū)的能見度模型。徐志鵬等[12]使用BP神經網絡對青島海岸附近站點建立了能見度預報模型。李昕蓓等[13]分析了影響福州地區(qū)能見度的氣象要素,并采用循環(huán)神經網絡,對福州單站建立了能見度短臨預報模型。由上可見,神經網絡預報方法在能見度預報方面是有一定進展和成效的。但前人研究均集中于相同地區(qū),而能見度具有很強的局地性,低能見度事件如霧的產生是物理、化學、輻射過程在不同空間和時間尺度上活動的結果,這些過程受到局部地形條件如不規(guī)則地形、海陸邊界、海面條件影響[3]。因此沿海與內陸地區(qū)影響能見度的主要氣象要素可能是不同的,挑選出各自適合的氣象要素作為神經網絡的特征值,從而得到適合各自的能見度計算模型是有必要的。
石家莊位于河北省中部,是河北省的政治、文化、人口的中心;秦皇島位于河北東北部,面朝渤海,是河北經濟強市。對兩站能見度建立計算模型對整個河北地區(qū)具有較好的地區(qū)代表意義及經濟價值。本文采用循環(huán)神經網絡方法,將石家莊站(114.39°E,38.01°N)和秦皇島站(119.51°E,39.85°N)(見圖1)作為河北省的內陸和沿海的代表站,對比分析兩站基本氣象要素與能見度的關系,進而建立單站能見度計算模型,并用多種評判方法檢驗模型效果,探究循環(huán)神經網絡在能見度預報上的可行性。
(紅色點代表秦皇島站,綠色點代表石家莊站。Red dot represents Qinhuangdao station; Green dot represents Shijiazhuang station.)
本文使用資料為河北省石家莊和秦皇島自動氣象站2017—2018年逐小時地面觀測資料,隨機挑選其中70%的資料用于建立能見度計算模型,剩余的資料用于檢驗。自動氣象站測量資料包括風速、降水量、溫度、相對濕度和逐分鐘能見度。
如圖2所示,一個典型的循環(huán)神經網絡(Recurrent Neural Network,RNN)是由一個輸入Xt,一個輸出ht以及神經網絡單元A所構成。與常見的BP神經網絡不同的是,循環(huán)神經網絡的神經網絡單元A不僅與輸入和輸出存在聯(lián)系,其自身內部也存在一個回路。將這個自身回路展開便可展示為等號右邊的形式。循環(huán)神經網絡中最初始的輸入值為X0,輸出值為h0,同時該時刻網絡神經元的狀態(tài)會保存在神經單元A中,當下一個時刻到來后,此時網絡神經元的狀態(tài)不僅僅會由于下一時刻的輸入X1產生變化,也會由此時刻的神經元狀態(tài)A所決定。以此類推,直到時間序列的末尾時刻?;谶@種結構,循環(huán)神經網絡可以理解并記憶隨時間變化的氣象要素,較BP神經網絡將各要素當做離散的數字,該方法在處理能見度數據時能夠提取其中更多的特征變化規(guī)律。
圖2 循環(huán)神經網絡結構圖Fig.2 Structure of RNN
參考中國氣象局制定的能見度等級劃分標準(即能見度小于1 km為低能見度,能見度大于10 km為高能見度),并考慮到神經網絡模型的計算能力及氣象局的實際業(yè)務運用,本文將能見度劃分為0~1 km,1~5 km,5~10 km三個級別,本研究主要關注1級別(0~1 km)和2級別(1~5 km)兩個級別能見度的征兆評分(Threat Score,TS)及樣本的準確率。
氣象中常用TS(Threat Score)評分判斷單項目標的預報準確性;ACC(Accuracy)評分判斷總體目標的預報準確性,ACC又稱為準確率。
(1)
(2)
式中:TP稱為命中,即實測為低能見度,預報為低能見度;FP稱為漏報,即實測為低能見度,預報為高能見度;FN稱為空報,即實測為高能見度,預報為低能見度。TN稱為正確否定,即實測為高能見度,預報為高能見度。
為找到與低能見度有關的基本氣象要素,本文分別統(tǒng)計了秦皇島站和石家莊站基本氣象要素在三個級別能見度區(qū)間內的頻率分布。頻率計算方法如下:
從圖3(a)可以發(fā)現,石家莊站相對濕度在1級能見度下的頻率呈多峰分布,秦皇島站相對濕度在各級能見度下的頻率均呈單峰分布,故相對濕度可能不適合作為兩站能見度計算因子。從圖3(b)中可知,石家莊站溫度在1級別能見度下的頻率呈單峰分布,而在2、3級別能見度下的頻率呈多峰分布,故溫度可能適合作為該站能見度計算因子。秦皇島站溫度在各級能見度下的頻率均呈多峰分布,故溫度可能不適合作為該站能見度計算因子。觀察圖3(c)可以發(fā)現,兩站都符合風速越大,低能見度出現概率越低的規(guī)律。但對于石家莊站而言,當風速為0 m/s時,1級能見度發(fā)生的概率最大,為0.55,且風速小于2 m/s時,1級能見度發(fā)生的概率很大,因此風速可能適合作為該站能見度計算因子。由圖3(d)可知,石家莊站3小時有效降溫在1級能見度下的頻率呈單峰分布,因此3小時有效降溫可能適合作為該站能見度計算因子。觀察圖3(e)及3(f)可知,石家莊站與秦皇島站溫度3小時變化在各級能見度下的頻率均呈單峰分布,故溫度3小時變化可能不適合作為兩站能見度計算因子。秦皇島站相對濕度3小時變化在各級能見度下的頻率均呈單峰分布,故相對濕度3小時變化可能不適合作為兩站能見度計算因子。
(黑線為1級能見度,紅線代表2級,藍線代表3級。The black line is visibility of 0~1 km; The red line is visibility of 1~5 km; The blue line is visibility of 5~10 km.)
為了定量的分析各氣象要素與分級后能見度的相關性,計算出了各級能見度與各氣象要素的相關系數。表1中展示部分特征較為明顯的要素。
表1 基本氣象要素與能見度的同期相關系數(2017年1月—2018年12月)Table 1 Correlation coefficient of basic meteorological element and visibility in the same period (January 2017—December 2018)
表中使用RH、TEMP、AH、V、EC分別代表相對濕度、溫度、絕對濕度、風速和有效降溫,其中1、2和3 h分別代表1、2、3 小時改變量。通過觀察表1可以發(fā)現,當能見度為1級時,石家莊站的相對濕度、溫度2、3小時改變量、絕對濕度改變量以及有效降溫與能見度的相關性較強,通過了顯著水平0.01的檢驗,且有效降溫與能見度的相關系數最大;秦皇島站相對濕度以及3、2、1小時有效降溫均通過了顯著性水平為0.01顯著性檢驗,風速通過了顯著性水平為0.05的顯著性檢驗,相對濕度與能見度的相關系數絕對值最大。這可能是由于內陸地區(qū)出現低能見度天氣主要以輻射霧為主,而沿海地區(qū)以平流霧居多。
當考慮所有樣本時,石家莊站的相對濕度、1小時有效降溫、風速通過了顯著性檢驗,且除了相對濕度和有效降溫以及風速外,其他要素相關系數絕對值均小于 0.1。秦皇島站各項要素中,風速、相對濕度以及1、2、3小時有效降溫通過了顯著水平0.01的檢驗,其中相對濕度、有效降溫的相關系數絕對值大于 0.3。兩站相對濕度的相關系數絕對值均大于 0.2,是較為理想的計算因子。
通過第2節(jié)的統(tǒng)計分析,排除與能見度相關性較小的相對濕度改變量,隨機挑選70%的樣本數據,選用不同氣象要素建立能見度計算模型。利用剩余30%數據對模型進行檢驗,檢驗結果如表2。
表2 檢驗樣本的能見度計算的單因子TS評分結果(2017年1月—2018年12月)Table 2 TS score results of visibility forecast from January 2017 to December 2018
觀察表2可以發(fā)現,對使用單一因子建立的兩站能見度模型進行檢驗,結果都是比較穩(wěn)定的。隨著計算因子不斷增多,檢驗結果就會變得復雜起來。選取相對濕度、有效降溫及溫度改變量這三項作為石家莊站能見度模型的計算因子時,該站1級別能見度的TS評分以及準確率是最高的。繼續(xù)增加因子反而會降低這1級別能見度的TS評分。觀察秦皇島站的結果可知,選取相對濕度、有效降溫這兩項作為秦皇島站能見度模型的計算因子時,該站1級別能見度的TS評分最高,達到了0.3,準確率達到了55%。繼續(xù)增加計算因子,反而會導致該站準確率降低。由此可見,挑選關鍵因子建立能見度模型是必要的。
接下來分別使用相對濕度,相對濕度和有效降溫,相對濕度、有效降溫和溫度改變量,作為神經網絡輸入因子,進而得到石家莊站三種能見度計算模型并檢驗(見圖4)。圖中橫坐標為實際級別,即對歷史觀測的能見度進行分級。縱坐標為預報級別,即對模型計算所得的能見度進行分級。圖中綠色方框內數字代表模型計算的能見度與歷史觀測的能見度級別相同的個數,下方百分數代表該樣本數占總樣本數的百分比。黃色方框內數字代表模型計算的能見度與歷史觀測的能見度級別不同的個數。淺藍色方塊中綠色及紅色百分數分別代表方塊所在級別正確樣本百分比和錯誤樣本百分比。深藍色方塊內的百分數代表準確率。
觀察圖4(a)可以發(fā)現,當選取相對濕度作為石家莊站能見度模型的計算因子時,1 級別能見度的空報率(即第一行中黃色方塊內的數值之和除以第一行中綠色方塊與黃色方塊中數值總和,也就是第一行淺藍色方塊中的紅色百分數)為59.6%,該模型會將屬于2級別能見度的34個樣本計算為1級別;漏報率(即第一列中黃色方塊內的數值之和除以第一列中綠色方塊與黃色方塊內的數值總和,即第一列淺藍色方塊中的紅色百分數)為28.1%;該模型算計1級別的TS評分為0.35。2 級別的空報率為47.7%,該模型將3級別樣本中很大一部分計算為了2級別樣本,漏報率為17.4%。相比于1級別,該模型計算得出的2級別漏報率及空報率明顯較低,準確率為56.5%;圖4(b)中,當選取相對濕度、有效降溫作為石家莊站能見度模型的計算因子時,相較于上一個計算模型,該模型對1級別能見度的空報率降低為50.9%,同時漏報率下降到12.5%,對于低能見度事件預報,提升效果是顯著的。2級別的空報率及漏報率略有增加,且仍將大量的3級別樣本計算為2級別事件;準確率下降為54.6%;圖4(c)當選取相對濕度、有效降溫、溫度改變量作為石家莊站能見度模型的計算因子時,該模型對1級別能見度的漏報率下降為6.2%,同時其空報率也下降為46.4%,相比上面兩個模型,三項計算因子得到的算法模型使得2級別空報率顯著下降,同時準確率顯著增大,達到了60.8%??偨Y發(fā)現,隨著計算因子的不斷增加,石家莊站能見度計算模型對于2級別能見度預報的傾向會減小,由此提升了模型的準確率。
圖4 石家莊站能見度計算結果檢驗Fig.4 Visibility forecast result verification at Shijiazhuang Station
觀察圖5(a)可以發(fā)現,當選取相對濕度作為秦皇島站能見度模型計算因子時,該模型對1級別能見度的空報率為66.7%,漏報率為36.2%,對1級別能見度的TS評分為0.28。對2 級別能見度的空報率為58.5%,漏報率為47.8%,將近大量3級別能見度樣本計算為2級別能見度;圖5(b)中,當選取相對濕度、有效降溫作為秦皇島站能見度模型計算因子時,該模型較僅適用相對濕度建立的能見度模型,對1級別能見度的空報率及漏報率有所降低,這反映出模型對于1級別事件計算能力提升了,同時模型對1級別能見度的TS評分達到了0.3。同時該模型對2級別能見度的空報率及漏報率顯著降低,同時準確率達到了56.5%;圖5(c)當選取相對濕度、有效降溫和溫度改變量作為秦皇島站能見度模型計算因子時,得到的能見度模型對于各級別能見度預報能力下降。由此可知,挑選關鍵因子建立的能見度模型,預報效果更佳。
圖5 秦皇島站能見度計算結果檢驗Fig.5 Visibility forecast result verification at Qinhuangdao Station
通過對石家莊站和秦皇島站兩個自動氣象站2017年1月—2018年12月逐小時觀測資料進行分析,分布挑選兩站能見度影響因子。隨機挑選70%的樣本數據,利用神經網絡方法建立能見度計算模型,并利用剩余30%數據進行檢驗,得到如下結論:
(1)大氣能見度與氣象要素的頻率分布特征在石家莊站和秦皇島站有明顯不同。當石家莊站溫度在20 ℃、相對濕度為90%;秦皇島站溫度在7 ℃,相對濕度為98%時,出現1級能見度概率最大。
(2)通過分析氣象要素和能見度的相關性可以發(fā)現,兩站均顯示相對濕度和有效降溫與能見度的相關性較強。1級能見度時,秦皇島站相對濕度與能見度的負相關系數最大,而石家莊站則是有效降溫和溫度改變量與能見度的相關性最好。這可能是由于內陸地區(qū)出現低能見度天氣主要以輻射霧為主,而沿海地區(qū)以平流霧居多。
(3)通過使用循環(huán)神經網絡來建立基本要素和能見度的計算模型發(fā)現,基于單一因子建立的計算模型TS評分較低,但隨著計算因子的不斷增多,計算的效果也不一定會變得更好。秦皇島站采用相對濕度和有效降溫作為計算因子時,1、2級別能見度的TS評分最高,準確率達56%。石家莊站采用相對濕度、有效降溫和溫度改變量作為計算因子時,1、2級別能見度的TS評分最高。
使用循環(huán)神經網絡方法建立的能見度模型,對于低能見度事件的空報率較高,可能與建模時低能見度樣本較少有關。今后工作將用更多自動氣象站資料,對不同地理環(huán)境的站點進行更細致分區(qū),篩選出適合各分區(qū)的能見度影響因子,最終利用業(yè)務預報模式中的要素,由點及面,得到河北省格點能見度預報。
致謝:本文所用的觀測數據由河北省氣象局提供,作者對此表示誠摯謝意。