金釗,邱康俊,張苗苗
(1 合肥市氣象局市公共氣象服務(wù)中心,安徽 合肥 230031;2 安徽省氣象信息中心運行監(jiān)控科,安徽 合肥 230031)
大氣能見度一般定義為視力正常的人在當時天氣條件下能夠從天空背景中看到和辨認黑色目標物的最大水平距離[1],它是表征大氣透明度的重要物理量。大氣能見度與人們的日常生活密切相關(guān),低的大氣能見度極易導致交通事故發(fā)生,造成人民群眾的生命和財產(chǎn)損失。因此大氣能見度的預(yù)測研究,對減少交通事故,保障人民群眾生命財產(chǎn)安全具有重要意義。
大氣能見度定量計算理論基礎(chǔ)源于1924 年Koschmieder 提出的視程理論[2],其核心是將能見度V與大氣消光系數(shù)σ 聯(lián)系起來。結(jié)合Bouguer-Lambert 定律,并取對比視感閾ε=0.02,得出大氣水平能見度公式為V=3.912/σ。由此可見,大氣消光系數(shù)σ 是影響大氣能見度的直接因子,σ 越大,大氣能見度越低,說明大氣越混濁,其消光效應(yīng)越強。在可見光和近紅外波段,粒子散射是大氣消光的主要因素[3],而基于Mie 散射理論的大氣消光效應(yīng)是復雜的非線性物理過程,因此直接計算大氣消光系數(shù)異常困難。研究表明低能見度的形成受多種條件綜合影響,主要包括氣象條件、地形條件及人類活動等[4?8]。各種自然條件下,時空差異和分布不均以及強烈人類活動對消光系數(shù)影響的不確定性,造成了大氣能見度變化的不確定性,利用一般的線性模型難以準確地預(yù)測大氣能見度變化。
隨著計算機技術(shù)的不斷更新進步,人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)得以快速發(fā)展。基于人工神經(jīng)網(wǎng)絡(luò)特性,人們在不用構(gòu)造復雜非線性模型的情況下,可以利用人工神經(jīng)網(wǎng)絡(luò)對復雜非線性系統(tǒng)進行模擬研究。Back propagation(BP)神經(jīng)網(wǎng)絡(luò)是一種按誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。蔡子穎等[9]利用BP 神經(jīng)網(wǎng)絡(luò)對CUACE 和BERMPS 模式能見度預(yù)報產(chǎn)品進行改進,試驗結(jié)果表明BP 神經(jīng)網(wǎng)絡(luò)能見度預(yù)報能夠消除天津地區(qū)能見度預(yù)報的平均偏差,與CUACE 和BERMPS 模式最優(yōu)結(jié)果比較,能夠使天津能見度預(yù)報與實況之間相關(guān)系數(shù)提高7%,相對誤差減少32%。包紅軍等[10]基于BP 神經(jīng)網(wǎng)絡(luò)算法對京珠高速公路能見度等級進行預(yù)測研究,建立了京珠高速公路低能見度(霧)神經(jīng)網(wǎng)絡(luò)預(yù)測模型,模型預(yù)測能見度整體檢驗合格率達到78.8%,且能見度達三級(0.501~1 km)時檢驗結(jié)果最好,合格率達到87%[2]。因此在不用直接計算大氣消光系數(shù)的情況下,可以利用人工神經(jīng)網(wǎng)絡(luò)對大氣能見度進行模擬研究。
大氣能見度是污染物和氣象參數(shù)綜合作用的結(jié)果,尤其是受風、溫度和相對濕度的影響。本文利用安徽省高速公路實時監(jiān)測系統(tǒng)提供的觀測資料,在假設(shè)該觀測站大氣污染物來源穩(wěn)定的條件下,應(yīng)用BP 神經(jīng)網(wǎng)絡(luò)對大氣能見度進行模擬研究,探索高速公路短時能見度的估算方法,為高速公路監(jiān)測預(yù)警提供進一步支撐。
研究數(shù)據(jù)來源于安徽省高速公路實時監(jiān)測系統(tǒng)分鐘觀測數(shù)據(jù),包括雨量、氣溫、平均風向、平均風速、瞬時風向、瞬時風速、極大風向、極大風速、相對濕度、能見度。山區(qū)較易形成低能見度天氣,對高速公路交通安全影響較大。
BP 神經(jīng)網(wǎng)絡(luò)是ANN 建模的基本網(wǎng)絡(luò),是神經(jīng)網(wǎng)絡(luò)中一種反向傳遞并能修正誤差的多層映射網(wǎng)絡(luò)。一般BP 神經(jīng)網(wǎng)絡(luò)包含三層結(jié)構(gòu):輸入層、隱含層和輸出層,層與層之間的神經(jīng)元采用全互連的模式,通過相應(yīng)的網(wǎng)絡(luò)權(quán)重系數(shù)相互聯(lián)系,每層內(nèi)的神經(jīng)元沒有連接。當參數(shù)適當時,此網(wǎng)絡(luò)能收斂到較小的均方差,尋找到最優(yōu)解。
利用平均偏差D、相對誤差δ、均方根誤差ERMS和相關(guān)系數(shù)R等統(tǒng)計指標對模擬效果予以檢驗分析,其計算公式分別為
式中:Co為觀測值,Cp為模式模擬值,表示所有數(shù)據(jù)的平均,σo、σp分別表示觀測值和模擬值的標準差。
氣象服務(wù)中,對高速公路能見度短時間的變化,特別是從高能見度轉(zhuǎn)變?yōu)榈湍芤姸鹊淖兓顬槊舾小R虼吮狙芯恐饕M大氣能見度特別是低能見度天氣過程的變化。為保證能見度數(shù)據(jù)的完整性和連續(xù)性,樣本數(shù)據(jù)的選擇在時間上要求連續(xù),值域范圍能夠包含1000 m 以下的低能見度數(shù)據(jù),且應(yīng)包含整個連續(xù)的低能見度演變過程。據(jù)統(tǒng)計,G 長嶺關(guān)站(115.50?N,31.30?E)年發(fā)生低能見度過程約150 余次,且該站2013年數(shù)據(jù)較為連續(xù),因此選擇該站2013 年分鐘觀測數(shù)據(jù)作為原始資料進行研究。對分鐘數(shù)據(jù)各要素進行界限值和內(nèi)部一致性檢查預(yù)處理后,再進行分析處理。G 長嶺關(guān)站2013 年各月大氣能見度與氣溫等觀測要素的相關(guān)系數(shù)如表1 所示。對表中的相關(guān)系數(shù)進行分析,選取氣溫、平均風速、瞬時風速、極大風速、相對濕度作為BP 神經(jīng)網(wǎng)絡(luò)輸入層,能見度為輸出層。
表1 各月各要素與大氣能見度的相關(guān)系數(shù)Table 1 Correlation coefficients between various elements and atmospheric visibility in each month
為試驗BP 神經(jīng)網(wǎng)絡(luò)的訓練效果,在樣本選擇時,順序樣本保留了各要素的時間連續(xù)性,而隨機樣本在剔除時間連續(xù)性同時,可以重點研究低能見度樣本的訓練效果。以順序樣本和隨機樣本分別進行試驗,檢驗?zāi)P洼敵雠c樣本的相對誤差和相關(guān)系數(shù)。
2.2.1 順序樣本試驗
以2013 年4 月1–30 日原始觀測能見度數(shù)據(jù)為訓練對象,步長為3 h,將數(shù)據(jù)輸入BP 神經(jīng)網(wǎng)絡(luò)進行滾動訓練。每一次訓練,選取前3 天的分鐘數(shù)據(jù)為一次訓練樣本,后3 h 分鐘數(shù)據(jù)為該次訓練的驗證樣本,若驗證樣本的模型輸出與實際樣本相關(guān)系數(shù)絕對值大于0.8,結(jié)束本次訓練;若相關(guān)系數(shù)絕對值小于0.8,則重新訓練本次樣本,訓練回數(shù)上限為10 回。即相同樣本在10 回訓練后相關(guān)系數(shù)絕對值還是小于0.8,則結(jié)束本次樣本訓練,以3 h 為步長向后滾動重新選取樣本進行訓練。
圖1 為2013 年4 月順序樣本試驗的相對誤差直方圖及累積百分比圖。橫坐標是試驗結(jié)果與實際觀測值的相對誤差;左邊縱坐標為頻次,即在該相對誤差的樣本數(shù);右邊縱坐標為對應(yīng)相對誤差的累積百分比。由圖可知,相對誤差在?20%~20%以間的占總試驗次數(shù)的68.6%。表2 為隨機樣本試驗相關(guān)系數(shù)(Correlation coefficient)出現(xiàn)頻率(Frequency)及對應(yīng)的累計百分比(Cumulative percentage)。由表可知,相關(guān)系數(shù)絕對值大于0.5 的占總試驗次數(shù)的38.24%。
表2 順序樣本試驗相關(guān)系數(shù)出現(xiàn)頻率及累積百分比Table 2 Occurrence frequency of correlation coefficient and cumulative percentage for sequence sample test
圖1 順序樣本試驗相對誤差直方圖及累積百分比Fig.1 Relative error histogram and cumulative percentage for sequential sample test
因此在應(yīng)用BP 神經(jīng)網(wǎng)絡(luò),通過濕度、溫度、平均風速、瞬時風速、極大風速作為BP 神經(jīng)網(wǎng)絡(luò)輸入層,輸出層為能見度進行試驗時,整體試驗數(shù)據(jù)偏差可以接受,但是模擬數(shù)據(jù)與樣本數(shù)據(jù)總體試驗相關(guān)性不理想,分析原因可能有兩點:一是整個網(wǎng)絡(luò)訓練樣本質(zhì)量不高,有錯誤數(shù)據(jù)對訓練產(chǎn)生影響;二是在能見度估算模擬時,神經(jīng)網(wǎng)絡(luò)訓練參數(shù)可能不合適,需要對輸入?yún)?shù)、訓練函數(shù)等模型參數(shù)進行調(diào)整。
2.2.2 隨機樣本試驗
同樣以2013 年4 月數(shù)據(jù)為例。隨機選取1440×3 組分鐘數(shù)據(jù)為訓練樣本,180 組分鐘數(shù)據(jù)為驗證樣本進行訓練,總計訓練20 次。當驗證樣本的模型輸出與實際樣本相關(guān)系數(shù)絕對值大于0.8 后結(jié)束本次訓練。每次網(wǎng)絡(luò)訓練中,若相關(guān)系數(shù)絕對值小于0.8,則重新訓練本次樣本,訓練回數(shù)上限為10 回,即相同樣本,當相關(guān)系數(shù)絕對值在10 回訓練后還是小于0.8,則結(jié)束本次樣本訓練,重新選取樣本進行訓練。
圖2 是2013 年4 月隨機樣本試驗的相對誤差直方圖及累積百分比圖。同樣橫坐標是試驗結(jié)果與實際觀測值的相對誤差;左邊縱坐標為頻次;右邊縱坐標為對應(yīng)相對誤差的累積百分比。由圖可知,相對誤差都在40%以上,誤差較大。表3 為隨機樣本試驗相關(guān)系數(shù)出現(xiàn)頻率及對應(yīng)累積百分比。由表可知,可見隨機樣本20 次試驗中,相關(guān)系數(shù)在0.6~0.8 之間,說明各次試驗中,BP 網(wǎng)絡(luò)模擬輸出與檢驗樣本的相關(guān)性較好,趨勢較為一致。
表3 隨機樣本試驗相關(guān)系數(shù)出現(xiàn)頻率及累積百分比Table 3 Occurrence frequency of correlation coefficient and cumulative percentage for random sample test
圖2 隨機樣本試驗相對誤差直方圖及累積百分比Fig.2 Relative error histogram and cumulative percentage for random sample test
2.2.3 低能見度隨機樣本試驗
2013 年全年能見度小于3000 m 的所有數(shù)據(jù)為總樣本,隨機選取1440×3 組分鐘數(shù)據(jù)為訓練樣本,180 組分鐘數(shù)據(jù)為驗證樣本進行訓練,總計訓練200 次。當驗證樣本的模型輸出與實際樣本相關(guān)系數(shù)絕對值大于0.8 后結(jié)束本次訓練。每次網(wǎng)絡(luò)訓練中,若相關(guān)系數(shù)絕對值小于0.8,則重新訓練本次樣本,訓練回數(shù)上限為10 回,即相同樣本,當相關(guān)系數(shù)絕對值在10 回訓練后還是小于0.8,則結(jié)束本次樣本訓練,重新選取樣本進行訓練。
圖3 為2013 年低能見度隨機樣本試驗的相對誤差直方圖及累積百分比,橫坐標是試驗結(jié)果與實際觀測值的相對誤差;左邊縱坐標為頻次,即在該相對誤差的樣本數(shù)占總樣本數(shù)的比;右邊縱坐標為對應(yīng)相對誤差的累積百分比。由圖可知,相對誤差在200%以上的占總試驗次數(shù)的94.5%。說明在低能見度隨機試驗中,模型輸出與樣本值的相對誤差增大。推測可能的原因為:1)與樣本本身數(shù)值較小有關(guān)。在差值相同的情況下,樣本值越小,相對誤差占比越大。因此在計算相對誤差時,平均偏差微小變化就會引起相對誤差較大的變化。2)環(huán)境因素影響,污染源的變化或局地污染過程。3)山地水汽較多,在氣象條件合適的情況下,存在霧的生消過程。
圖3 低能見度隨機樣本試驗相對誤差直方圖及累積百分比Fig.3 Relative error histogram and cumulative percentage for random low-visibility sample test
圖4 為隨機樣本試驗平均偏差及均方根誤差(RMSE)變化,橫坐標為試驗序數(shù),左邊縱坐標為均方根誤差,右邊縱坐標為平均偏差。由圖可知,200 次試驗驗證樣本的平均偏差(模型輸出與驗證樣本偏差的平均值)變化范圍在0~200 m 之間,絕對值最大為173.4 m,最小為0.59 m,平均為44.26 m,總體上模型輸出值與樣本值偏差不大,但其均方根誤差主要集中在700~850 m 之間,變化幅度不大,說明神經(jīng)網(wǎng)絡(luò)算法穩(wěn)定。
圖4 隨機樣本試驗平均偏差及均方根誤差變化圖Fig.4 Variation graph of average deviation and root mean square error for random sample test
表4 低能見度隨機樣本試驗相關(guān)系數(shù)出現(xiàn)頻率及累積百分比Table 4 Occurrence frequency of correlation coefficient and cumulative percentage for low-visibility random sample test
1)應(yīng)用BP 神經(jīng)網(wǎng)絡(luò),濕度、溫度、平均風速、瞬時風速、極大風速作為BP 神經(jīng)網(wǎng)絡(luò)輸入層,能見度作為輸出層進行順序樣本試驗,整體試驗數(shù)據(jù)偏差在可接受范圍內(nèi),相對誤差在20%以內(nèi)的占總試驗次數(shù)的68.6%,但是模擬數(shù)據(jù)與樣本數(shù)據(jù)總體試驗相關(guān)性不理想,需要進一步提高訓練樣本質(zhì)量,調(diào)整模型參數(shù)。
2)隨機樣本試驗結(jié)果的相對誤差均在40%以上,誤差較大。但隨機樣本20 次試驗中,相關(guān)系數(shù)均在0.6~0.8 之間,說明各次試驗中,BP 網(wǎng)絡(luò)模擬輸出與檢驗樣本的相關(guān)性較好,趨勢較為一致。
3)對低能見度隨機樣本進行試驗,可能由于樣本本身數(shù)值較小,在計算過程中,平均偏差微小變化即可引起相對誤差大的變化,導致低能見度隨機試驗?zāi)P洼敵鲋蹬c樣本值相對誤差增大,相對誤差在200%以上的占總試驗次數(shù)的94.5%。而模型輸出與樣本變差均方根誤差主要集中在700~850 m 之間,變化幅度不大,說明神經(jīng)網(wǎng)絡(luò)算法是穩(wěn)定的。
高速公路能見度變化受多種因素影響,導致大氣能見度變化具有不確定性,一般的線性模型難以準確預(yù)測。人工神經(jīng)網(wǎng)絡(luò)具有自適應(yīng)、自組織、自學習能力,適用于復雜多變的非線性系統(tǒng)。建立了高速公路能見度BP 神經(jīng)網(wǎng)絡(luò)預(yù)測模型,通過對安徽省G 長嶺關(guān)站2013 年分鐘能見度數(shù)據(jù)進行實驗,表明BP 神經(jīng)網(wǎng)絡(luò)預(yù)測高速公路能見度,具有一定的預(yù)測效果。