王彤彤,嚴(yán)華
(四川大學(xué)電子信息學(xué)院,成都 610065)
近年來(lái),伴隨著社會(huì)對(duì)空氣質(zhì)量的討論度持續(xù)升溫,政府對(duì)空氣治理問(wèn)題高度重視,出臺(tái)了一系列針對(duì)大氣污染防治工作的防治政策、措施和機(jī)制體系,我國(guó)大氣污染防治工作已經(jīng)取得了階段性勝利,進(jìn)入到從單一污染物防控向多污染物協(xié)同控制的轉(zhuǎn)折點(diǎn)[1]。根據(jù)《2019中國(guó)生態(tài)環(huán)境狀態(tài)公報(bào)》[2],2019年全國(guó)空氣質(zhì)量指數(shù)超標(biāo)天數(shù)比例為18%,其中首要污染物細(xì)顆粒污染物(PM2.5)和臭氧(O3)的天數(shù)分別占2019年總污染物天數(shù)的45%和41.7%。顯然,PM2.5和O3已經(jīng)成為我國(guó)最嚴(yán)重的空氣污染物。PM2.5成因復(fù)雜且含有大量有害污染物,地面臭氧則是一種光化學(xué)污染物,二者對(duì)人體的呼吸系統(tǒng)都有強(qiáng)烈的危害性,嚴(yán)重影響人體健康[3-6]。根據(jù)研究表明,二者不僅擁有共同來(lái)源,并且在大氣中相互影響,存在著復(fù)雜的關(guān)聯(lián)性[7]。PM2.5與O3的協(xié)同防護(hù)已經(jīng)成為改善我國(guó)空氣質(zhì)量和打贏藍(lán)天保衛(wèi)戰(zhàn)的關(guān)鍵[8-9]。因此,一個(gè)可以同時(shí)準(zhǔn)確預(yù)測(cè)細(xì)顆粒污染物和臭氧的空氣質(zhì)量預(yù)測(cè)模型,是當(dāng)前大氣污染治理工作的急迫需求。
隨著深度學(xué)習(xí)技術(shù)在各個(gè)領(lǐng)域的深入應(yīng)用,基于深度學(xué)習(xí)的數(shù)據(jù)預(yù)測(cè)模型可以模擬大氣污染物擴(kuò)散的非線(xiàn)性機(jī)制。作為循環(huán)神經(jīng)網(wǎng)絡(luò)的改進(jìn)模型,長(zhǎng)短期記憶網(wǎng)絡(luò)[10-11]等在空氣質(zhì)量預(yù)測(cè)上得到了廣泛的應(yīng)用。但大氣污染物數(shù)據(jù)是典型的非線(xiàn)性非平穩(wěn)的氣候時(shí)空序列數(shù)據(jù),預(yù)測(cè)其濃度也受到氣象和地理信息的影響[12-13]。單一模型無(wú)法同時(shí)兼顧空間依賴(lài)性、時(shí)間依賴(lài)性及鄰域知識(shí)三者對(duì)污染物濃度的影響。針對(duì)其空間和時(shí)間特征,Yanlin Qi等[14]提出了將挖掘空間依賴(lài)關(guān)系的圖神經(jīng)網(wǎng)絡(luò)與挖掘時(shí)間依賴(lài)關(guān)系的LSTM相結(jié)合的混合模型GCN-LSTM,并取得了較好的預(yù)測(cè)結(jié)果。但依然沒(méi)有考慮到先驗(yàn)知識(shí)的影響,且只針對(duì)單任務(wù)預(yù)測(cè)進(jìn)行建模,模型泛化能力不足,預(yù)測(cè)精度存在較大的提升空間。
針對(duì)上述問(wèn)題,本文提出了一種基于EMD的自增強(qiáng)多任務(wù)大氣污染物濃度預(yù)測(cè)模型。首先,利用encode-decode結(jié)構(gòu)實(shí)現(xiàn)多步預(yù)測(cè)效果。增強(qiáng)對(duì)前向和后向序列信息的利用。其次,通過(guò)經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)可以將非平穩(wěn)非線(xiàn)性的數(shù)據(jù)轉(zhuǎn)化為多個(gè)相對(duì)平穩(wěn)線(xiàn)性的數(shù)據(jù),起到了附加特征的作用,對(duì)挖掘時(shí)空數(shù)據(jù)隱藏的序列關(guān)系有極大的輔助作用。再次,通過(guò)綜合考慮氣象信息和地理信息等鄰域知識(shí)和空間依賴(lài)性,構(gòu)建一個(gè)有向圖,通過(guò)知識(shí)增強(qiáng)型的圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)城市間的污染物的遷移核擴(kuò)散機(jī)制,通過(guò)門(mén)控神經(jīng)單元學(xué)習(xí)污染物間的時(shí)間傳輸機(jī)制。實(shí)驗(yàn)驗(yàn)證了所提方法的有效性和優(yōu)越性。
現(xiàn)有的研究區(qū)域通常局限于一個(gè)城市或一個(gè)地區(qū)[14-17],其預(yù)測(cè)模型也未充分揭示其在大空間尺度中的空間關(guān)聯(lián)學(xué)習(xí)能力。為了解決這樣的問(wèn)題,我們構(gòu)建了覆蓋中國(guó)污染嚴(yán)重地區(qū)的大范圍區(qū)域(103°E—122°E和28°N—42°N),該區(qū)域覆蓋面積大,其中包含了長(zhǎng)三角、珠三角、成渝、長(zhǎng)中游等五大地區(qū)共184個(gè)城市。圖1為區(qū)域地理空間范圍及節(jié)點(diǎn)之間的潛在空間關(guān)系,城市之間若存在藍(lán)色連接線(xiàn)即表示兩城市間有可學(xué)習(xí)的空間依賴(lài)關(guān)系。從圖中可以看出污染物甚至可以使實(shí)現(xiàn)跨區(qū)域的遠(yuǎn)距離傳輸。
圖1 研究區(qū)域及空間相關(guān)性
1.2.1 問(wèn)題定義
為了準(zhǔn)確的預(yù)測(cè)大氣污染濃度問(wèn)題,我們需要定義一個(gè)有向圖。其中V為節(jié)點(diǎn)合集,本文中節(jié)點(diǎn)為城市,節(jié)點(diǎn)集合代表城市氣象屬性;E為邊的合集,代表城市間的潛在交互關(guān)系。t時(shí)刻下污染物濃度表示為,其中N為點(diǎn)數(shù)。為了提高模型的預(yù)測(cè)能力,將領(lǐng)域信息編碼進(jìn)有向圖中是必要的,不同的領(lǐng)域信息分別表示為圖中的節(jié)點(diǎn)屬性及邊屬性。設(shè)分別為t時(shí)刻下節(jié)點(diǎn)和邊的屬性矩陣,其中P,Q是對(duì)應(yīng)的屬性項(xiàng)。M= ||E是鏈接邊的數(shù)量。值得一提,在預(yù)測(cè)階段,我們將輸入已知未來(lái)氣象信息和作為鄰域信息同時(shí)輸入模型中。綜上,對(duì)于任意時(shí)間t,預(yù)測(cè)m步長(zhǎng)的污染物濃度可以表示為:
1.2.2 經(jīng)驗(yàn)?zāi)B(tài)分解
經(jīng)驗(yàn)?zāi)B(tài)分解(empirical mode decomposition,EMD)為一種經(jīng)典的處理信號(hào)方法[18],無(wú)需任何事先設(shè)定的基函數(shù)就能夠?qū)⒎瞧椒€(wěn)非線(xiàn)性的數(shù)據(jù)分解成若干個(gè)固有模態(tài)函數(shù)(intrinsic mode func?tion,IMF)和一個(gè)殘余分量,各個(gè)imf相互獨(dú)立且有較強(qiáng)的規(guī)律性,視為我們的自增強(qiáng)數(shù)據(jù)。本文中EMD模塊步驟如下:
(1)對(duì)污染物濃度數(shù)據(jù)的極大值與極小值繪制出上下包絡(luò)線(xiàn)。
(2)求出上下包絡(luò)線(xiàn)的均值,用x(t)減去它,即得到第一個(gè)imf序列分量imf1。
重復(fù)上述步驟,將剩余分量作為新的時(shí)間序列,直至當(dāng)最后剩余部分為單調(diào)序列或常序列時(shí),終止循環(huán),得到最終的固有模式函數(shù)和一個(gè)殘余分量F T={imf1,imf2,…,i mf l,rest}。EMD處理過(guò)程其表達(dá)式如下:
得到的固有模式函數(shù),我們稱(chēng)為附加特征序列,l為序列個(gè)數(shù),由數(shù)據(jù)自身特性決定。
1.2.3 圖神經(jīng)網(wǎng)絡(luò)GNN
圖神經(jīng)網(wǎng)絡(luò)(graph neural network)是指對(duì)圖數(shù)據(jù)搭建神經(jīng)網(wǎng)絡(luò)模型并進(jìn)行分析的方法[19]。圖神經(jīng)網(wǎng)絡(luò)可以捕獲圖的拓?fù)湫畔?,通過(guò)利用有向圖中的節(jié)點(diǎn)信息和邊信息捕捉污染物的水平傳輸規(guī)律,對(duì)提取有向圖數(shù)據(jù)中的大范圍空間依賴(lài)信息有很強(qiáng)的優(yōu)勢(shì)[20]。
根據(jù)1.2.1的定義,我們將鄰域信知識(shí)作為節(jié)點(diǎn)和邊的屬性來(lái)建立有向圖,其中節(jié)點(diǎn)屬性代表該節(jié)點(diǎn)的氣象特征,詳情見(jiàn)表1。研究表明,風(fēng)向及風(fēng)速對(duì)污染物水平傳播有決定性影響[21-22],因此總結(jié)了相關(guān)風(fēng)場(chǎng)信息作為邊屬性,詳見(jiàn)表2。
表1 節(jié)點(diǎn)屬性
表2 邊屬性
EMD-GNN-GRU模型流程如圖2所示:在編碼階段,將已知污染物濃度數(shù)據(jù)進(jìn)行EMD數(shù)據(jù)自增強(qiáng)處理,同時(shí)將污染物濃度數(shù)據(jù)及對(duì)應(yīng)的鄰域信息輸入到GNN網(wǎng)絡(luò)中學(xué)習(xí)鄰域信息對(duì)污染物的影響及污染物的空間傳輸機(jī)制。從圖神經(jīng)網(wǎng)絡(luò)傳輸出來(lái)的數(shù)據(jù)與EMD處理后的附加序列壓縮成固定維度的向量,一同穿入GRU網(wǎng)絡(luò)中學(xué)習(xí)底層空間依賴(lài)關(guān)系及時(shí)間依賴(lài)關(guān)系,其編碼長(zhǎng)度即為設(shè)定的時(shí)間窗長(zhǎng)度。編碼器后輸出為中間向量狀態(tài)Cr、Hr,并輸入到解碼器中,解碼器由GNN+GRU混合模型共同組成,經(jīng)過(guò)一個(gè)多層感知器后輸出,解碼過(guò)程即為多步預(yù)測(cè)過(guò)程。
圖2 EMD-GNN-GRU模型結(jié)構(gòu)
為了能夠準(zhǔn)確評(píng)價(jià)預(yù)測(cè)模型的精度,本文實(shí)驗(yàn)選取三組度量評(píng)估模型的性能:①訓(xùn)練和測(cè)試損失顯示模型的泛化能力。②平均絕對(duì)誤差(MAE)和均方根誤差(RMSE)檢驗(yàn)預(yù)測(cè)的絕對(duì)和相對(duì)精度。③常用的氣象度量來(lái)衡量污染閾值附近的性能,包括臨界成功指數(shù)(CSI)、檢測(cè)概率(POD)和空?qǐng)?bào)率(FAR)。
RMSE和MAE指標(biāo)的表達(dá)式如下:
其中real i為地面實(shí)況值,pred i為模型預(yù)測(cè)值,m為設(shè)定預(yù)測(cè)序列長(zhǎng)度。RMSE和MAE數(shù)值越小說(shuō)明預(yù)測(cè)值與實(shí)況值差別程度越小,表明預(yù)測(cè)效果越好。
CSI、POD和FAR指標(biāo)的表達(dá)式如下:
其中r eal示為地表實(shí)況值,false為誤報(bào)的污染值,miss為漏報(bào)的污染值。我們使用污染物的閾值將預(yù)測(cè)值和地面實(shí)況值二值化后生成0-1矩陣來(lái)判斷其是否已構(gòu)成污染?;谖覈?guó)環(huán)境空氣質(zhì)量標(biāo)準(zhǔn),PM2.5的閾值選擇為75μg/m3,臭氧O3的閾值選擇為160μg/m3。CSI、POD的數(shù)值越高,C S I的數(shù)值越低,表示預(yù)測(cè)數(shù)據(jù)在閾值附近的準(zhǔn)確度越高,模型性能越好。
為了確保檢測(cè)指標(biāo)的公平性和有效性,其評(píng)價(jià)指標(biāo)是每個(gè)模型重復(fù)3次實(shí)驗(yàn),在全部184個(gè)城市中提取所有預(yù)測(cè)步長(zhǎng)的平均值得到的。
實(shí)驗(yàn)部署在NVIDIA 2080 Ti上,模型使用Py?thon 3.6和Pytorch框架實(shí)現(xiàn)。實(shí)驗(yàn)開(kāi)始前的預(yù)設(shè)值階段,將有向圖中的節(jié)點(diǎn)和邊緣的特征重定義為均值為0,標(biāo)準(zhǔn)差為1。固定輸入時(shí)間窗N設(shè)置為8、16、24,預(yù)測(cè)步長(zhǎng)m也相應(yīng)設(shè)置為8、16、24,分別代表用已知前24 h、48 h和72 h的大氣污染濃度預(yù)測(cè)。
選取四川省成都市作為代表,將O3與PM2.5以一周、一個(gè)季度及一年為時(shí)間長(zhǎng)度,以EMD方法進(jìn)行數(shù)據(jù)自增加,imf從小到大代表了不同頻率下的數(shù)據(jù)特征。通過(guò)觀察圖3可以看出,無(wú)論是PM2.5還是O3數(shù)據(jù)都具有較大的波動(dòng)性和非線(xiàn)性,提取特征難度較大。但是通過(guò)數(shù)據(jù)分解后,圖3的第4列i mf2很清晰的反映出O3濃度以天數(shù)為周期的性質(zhì),而第2列i mf6則反映了PM2.5數(shù)據(jù)在一個(gè)季度內(nèi)的波動(dòng)趨勢(shì)。通過(guò)對(duì)第2列和第6列的數(shù)據(jù)觀察我們可以印證PM2.5與O3有相互抑制作用。值得一提的是,在O3一年數(shù)據(jù)中,兩個(gè)峰值間的突變峰谷信息也被imf8分解出來(lái),可見(jiàn)不管是數(shù)據(jù)的波動(dòng)趨向、周期還是突變等性質(zhì),通過(guò)EMD都能很好的表達(dá)出來(lái),由此,我們確認(rèn)通過(guò)EMD方式對(duì)數(shù)據(jù)進(jìn)行自增強(qiáng)處理能夠更好提取數(shù)據(jù)的隱藏信息進(jìn)而對(duì)模型預(yù)測(cè)起到輔助作用。
圖3 基于EMD的數(shù)據(jù)自增強(qiáng)可視化結(jié)果
為了測(cè)試復(fù)合模型的預(yù)測(cè)效果,本研究與常見(jiàn)的基于神經(jīng)網(wǎng)絡(luò)的氣象預(yù)測(cè)模型相對(duì)比,包括MLP、GRU、GC-LSTM,其整體表現(xiàn)如表3所示。實(shí)驗(yàn)結(jié)果表明,EMD-GNN-GRU模型不僅能夠同時(shí)獲取時(shí)間與空間的依賴(lài)關(guān)系。還兼顧擬合了鄰域信息,在所有評(píng)判維度上都獲得了最好的結(jié)果。在預(yù)測(cè)PM2.5未來(lái)72 h的基準(zhǔn)結(jié)果中,和GCN-LSTM模型相比,復(fù)合模型在測(cè)試集損失、均方根誤差RMSE、平均絕對(duì)誤差MAE和臨界成功指數(shù)CSI中分別提高了41.29%、21.33%、22.54%和26.71%。提出模型不僅提升了模型的學(xué)習(xí)泛化能力,并且在預(yù)測(cè)精度和臨界值取定的全方面有了顯著的提升。這是由于在預(yù)測(cè)階段,我們不僅對(duì)大氣污染數(shù)據(jù)進(jìn)行了EMD處理,增加了數(shù)據(jù)維度,分解污染物數(shù)據(jù)潛在信息并且充分利用了鄰域信息對(duì)數(shù)據(jù)預(yù)測(cè)的影響作用。這一結(jié)果顯示了復(fù)合模型在挖掘數(shù)據(jù)潛在信息,捕捉數(shù)據(jù)時(shí)空相關(guān)性及充分利用鄰域知識(shí)三個(gè)角度的全面優(yōu)勢(shì),表明了其可靠的預(yù)測(cè)能力。
表3 實(shí)驗(yàn)結(jié)果
本文利用經(jīng)驗(yàn)?zāi)B(tài)分解和時(shí)空?qǐng)D卷積模型解決對(duì)非線(xiàn)性大氣污染濃度預(yù)測(cè)問(wèn)題。首先針對(duì)預(yù)測(cè)數(shù)據(jù)非線(xiàn)性的特性,借助EMD對(duì)數(shù)據(jù)進(jìn)行自增強(qiáng)處理,有助于挖掘數(shù)據(jù)的隱藏邏輯。此外,為解決目前神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型未考慮到的鄰域信息對(duì)預(yù)測(cè)結(jié)果的影響,我們提出了GNN+GRU的時(shí)空?qǐng)D神經(jīng)網(wǎng)絡(luò)混合模型,做到了同時(shí)捕捉數(shù)據(jù)的時(shí)間依賴(lài)性、空間依賴(lài)性及鄰域信息三個(gè)維度信息,有效提升了模型的預(yù)測(cè)能力。為了驗(yàn)證模型的有效性,我們選擇PM2.5及O3作為預(yù)測(cè)對(duì)象,在真實(shí)數(shù)據(jù)集中進(jìn)行實(shí)驗(yàn),通過(guò)對(duì)比發(fā)現(xiàn)所提模型中獲得最好效果。