摘" 要: 提出了一種融合圖注意網(wǎng)絡(luò)(GAT)和帶注意力機(jī)制的時(shí)間卷積網(wǎng)絡(luò)(ATCN)的創(chuàng)新模型——GAT-ATCN,旨在提高空氣污染物濃度預(yù)測(cè)的精度和效率. 在通過GAT捕捉監(jiān)測(cè)站點(diǎn)間的復(fù)雜空間依賴關(guān)系,利用注意力機(jī)制,自適應(yīng)地加強(qiáng)重要節(jié)點(diǎn)之間的連接,從而提取空間特征. ATCN被用來處理時(shí)間序列數(shù)據(jù),通過學(xué)習(xí)時(shí)間維度上的長(zhǎng)期依賴關(guān)系,捕獲污染物濃度隨時(shí)間變化的動(dòng)態(tài)特性. 選取中國(guó)江浙滬地區(qū)7個(gè)城市2018—2020年的實(shí)際空氣質(zhì)量監(jiān)測(cè)和氣象數(shù)據(jù),構(gòu)建數(shù)據(jù)集并進(jìn)行實(shí)驗(yàn),驗(yàn)證了GAT-ATCN模型的有效性. 實(shí)驗(yàn)結(jié)果顯示:GAT-ATCN模型在多個(gè)評(píng)價(jià)指標(biāo)上均表現(xiàn)優(yōu)異,能夠更準(zhǔn)確地預(yù)測(cè)空氣污染物濃度.
關(guān)鍵詞: 空氣污染物濃度預(yù)測(cè); 圖注意網(wǎng)絡(luò)(GAT); 帶注意力機(jī)制的時(shí)間卷積網(wǎng)絡(luò)(ATCN); 深度學(xué)習(xí)
中圖分類號(hào): TP 301""" 文獻(xiàn)標(biāo)志碼: A""" 文章編號(hào): 1000-5137(2024)03-0315-07
Method for air pollutant concentration prediction based on graph attention network and temporal convolutional network
CHEN Weihong1, YANG Ru1*, WANG Hao2, ZHENG Zhonghua3
(1.College of Information, Mechanical and Electrical Engineering, Shanghai Normal University, Shanghai
200234,China; 2.Shanghai Newtouch Software Co., Ltd., Shanghai 200127, China;
3.Anhui Boryou Information Technology Co., Ltd., Hefei 230601, Anhui, China)
Abstract: An innovative model that integrated graph attention networks (GAT) and attention-based temporal convolutional networks (ATCN), named GAT-ATCN was proposed to improve the accuracy and efficiency of air pollutant concentration prediction. Firstly, the complex spatial dependencies between monitoring stations through GAT were captured, using an attention mechanism to adaptively strengthen the connections between important nodes, thereby extracting spatial features. Secondly, the ATCN part was used to process time series data, learning long-term dependencies in the time dimension to capture the dynamic characteristics of pollutant concentration changes over time. Finally, actual air quality monitoring data and meteorological data from seven cities in the Jiangsu-Zhejiang-Shanghai region of China from 2018 to 2020 were selected to build a dataset and conduct experiments, which verified the effectiveness of the GAT-ATCN model. Experimental results showed that the GAT-ATCN model performed excellently across multiple evaluation metrics and could predict air pollutant concentration more accurately.
Key words: air pollution concentration prediction; graph attention network (GAT); attention-based temporal convolutional network (ATCN); deep learning
0" 引言
近年來,隨著大數(shù)據(jù)技術(shù)的發(fā)展和空氣質(zhì)量監(jiān)測(cè)能力的提升,大量空氣污染物和氣象數(shù)據(jù)被實(shí)時(shí)采集,為空氣污染研究提供了新的機(jī)遇,同時(shí)也對(duì)數(shù)據(jù)處理和分析,尤其對(duì)空氣污染物大范圍傳播的分析提出了挑戰(zhàn). AL-JANABI[1]和ZHU等[2]應(yīng)用機(jī)器學(xué)習(xí)的方法來處理傳感器獲取到的大量數(shù)據(jù),并對(duì)空氣污染物的傳播擴(kuò)散過程進(jìn)行建模,這些方法并未從空間維度上進(jìn)行建模. 由于空氣污染物的傳播擴(kuò)散是一個(gè)動(dòng)態(tài)變化的過程,現(xiàn)有模型對(duì)于有效捕捉其內(nèi)在演變規(guī)律存在瓶頸,導(dǎo)致模型預(yù)測(cè)的精度以及效果不佳.
GOURAVJ等[3]將歷史的空氣污染物濃度變化視為一個(gè)時(shí)間序列,使用自回歸移動(dòng)平均(ARIMA)模型建模,并預(yù)測(cè)了印度新德里未來月度及季度的空氣質(zhì)量. LU等[4]采用Lasso回歸、隨機(jī)森林模型實(shí)現(xiàn)特征選擇,并使用了通用多尺度空氣質(zhì)量(CMAQ)模型對(duì)空氣污染物臭氧進(jìn)行逐小時(shí)預(yù)測(cè);針對(duì)于四川高原地區(qū)特性,應(yīng)用了長(zhǎng)短期記憶-循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM-RNN)模型進(jìn)行空氣污染物的預(yù)測(cè). NAGRECHA等[5]提出了卷積神經(jīng)網(wǎng)絡(luò)-長(zhǎng)短期記憶(CNN-LSTM)模型根據(jù)傳感器獲取到的數(shù)據(jù),預(yù)測(cè)PM2.5濃度. 祁柏林等[6]提出了圖卷積神經(jīng)-長(zhǎng)短期記憶(GCN-LSTM)模型,應(yīng)用于沈陽市渾南區(qū)14個(gè)小微型監(jiān)測(cè)站對(duì)空氣質(zhì)量數(shù)據(jù)的預(yù)測(cè),得到了較好的結(jié)果,并用實(shí)驗(yàn)結(jié)果證明了使用圖結(jié)構(gòu)來對(duì)空間特征進(jìn)行建模的有效性. TAN等[7]提出了一個(gè)基于圖注意網(wǎng)絡(luò)-長(zhǎng)短期記憶(GAT-LSTM)和圖注意網(wǎng)絡(luò)-時(shí)間卷積網(wǎng)絡(luò)(GAT-TCN)的混合模型,使用強(qiáng)化學(xué)習(xí)的方式實(shí)現(xiàn)對(duì)空氣污染物PM2.5濃度的預(yù)測(cè),效果超越了現(xiàn)有的25種基線模型. DUN等[8]結(jié)合空氣污染物的時(shí)空特征,提出了一個(gè)基于灰色關(guān)聯(lián)分析的動(dòng)態(tài)圖計(jì)算方法和多通道GAT[9]的動(dòng)態(tài)圖卷積-多通道時(shí)間卷積網(wǎng)絡(luò)(DGC-MTCN)的預(yù)測(cè)模型,并應(yīng)用在北京和撫順兩個(gè)真實(shí)數(shù)據(jù)集上,預(yù)測(cè)結(jié)果表現(xiàn)出更好的時(shí)間穩(wěn)定性以及泛化能力.
本文作者將GAT和帶注意力機(jī)制的時(shí)間卷積網(wǎng)絡(luò)(ATCN)相結(jié)合,構(gòu)建了GAT-ATCN模型,對(duì)空氣污染物濃度在時(shí)空層次上的傳播演變過程進(jìn)行建模,并預(yù)測(cè)了未來一段時(shí)間的空氣污染物濃度值.
1" 模型描述
1.1 空間圖構(gòu)建
將研究區(qū)域內(nèi)分布的監(jiān)測(cè)站點(diǎn)視為圖的節(jié)點(diǎn),根據(jù)監(jiān)測(cè)站點(diǎn)之間的距離來判定兩個(gè)節(jié)點(diǎn)之間是否存在連邊關(guān)系. 具體來說,A_ij代表的是節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的鄰邊關(guān)系,1代表兩者之間相連,0代表不相連,則
A_ij={(1,""" d(i,j) ≤D ,@0,""" d(i,j) gt;D,)┤"" (1)
其中,d(i,j)代表節(jié)點(diǎn)i和j之間的歐式距離;D為判定兩個(gè)節(jié)點(diǎn)之間是否存在連邊關(guān)系的閾值,本研究設(shè)定為300 km. 節(jié)點(diǎn)的特征矩陣是監(jiān)測(cè)站點(diǎn)所采集到的真實(shí)數(shù)據(jù),根據(jù)空間鄰邊關(guān)系和時(shí)間順序構(gòu)建時(shí)空?qǐng)D序列
X_t={x_t^1" ,x_t^2" ,…,x_t^N} ," (2)
X={X_1" ,X_2" ,…,X_C} ,X_i∈R^(C×N×F) ,""" (3)
其中,N代表研究區(qū)域內(nèi)監(jiān)測(cè)站點(diǎn)數(shù)量;C代表輸入的時(shí)間序列長(zhǎng)度;F代表每個(gè)站點(diǎn)的特征數(shù)量;x_t^i代表t時(shí)刻下監(jiān)測(cè)站點(diǎn)i的特征矩陣;X_t代表t時(shí)刻研究區(qū)域內(nèi)所有站點(diǎn)的特征矩陣.
1.2 GAT
GAT利用自注意力機(jī)制來聚集圖中關(guān)鍵節(jié)點(diǎn)的信息,節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的注意力相關(guān)性計(jì)算如下:
e_ij=a_tt (Wx_i" ,Wx_j) ,"" (4)
其中,e_ij代表節(jié)點(diǎn)i對(duì)節(jié)點(diǎn)j的重要性;a_tt (?)是一個(gè)單層前饋神經(jīng)網(wǎng)絡(luò);x_i代表節(jié)點(diǎn)i的特征向量;W為模型訓(xùn)練的參數(shù). 節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的注意力分?jǐn)?shù)計(jì)算如下:
α_ij=s_oftmax (e_ij)=(exp(e_ij))/(∑_(k∈Q_i)?〖exp(e_ik)〗) ," (5)
其中,Q_i代表所有與節(jié)點(diǎn)x_i存在連邊關(guān)系的節(jié)點(diǎn)集合,在此基礎(chǔ)上引入非線性激活函數(shù)LeakyRelu,最終的注意力分?jǐn)?shù)計(jì)算如下:
α_ij=(L_eakyRelu [a_tt (Wx_i" ,Wx_j)])/(∑_(k∈Q_i)?〖exp{L_eakyRelu [a_tt (Wx_i" ,Wx_j)]}〗) . (6)
本研究中,采用GAT的自注意力機(jī)制計(jì)算每個(gè)城市的空間關(guān)聯(lián)度分?jǐn)?shù)
x_i^'=σ(∑_(j∈Ν_i)?〖α_ij Wx_i 〗) ."""" (7)
通過組合多個(gè)自注意力頭,形成多頭注意力機(jī)制,
x_i^'=‖_(k=1)^K σ(∑_(j∈N_i)?α_ij^k" W^k x_j ) ,"""" (8)
其中,K為注意力頭的個(gè)數(shù).
鏈接部分計(jì)算如下:
x_i^concat=α(1/K ∑_(k=1)^K?∑_(j∈Q_i)?α_ij^k" Wx_j ) ." (9)
1.3 ATCN
TCN模型由一維全卷積網(wǎng)絡(luò)構(gòu)成,可以處理任意長(zhǎng)度的輸入序列,主要組成部分為因果卷積、膨脹卷積和殘差連接.在因果卷積中,對(duì)于一個(gè)一維的輸入x和卷積核f,第t個(gè)輸出y_t只依賴于x_t或之前的輸入值,
y_t=〖(x*f)〗_t=∑_(s=0)^k?f_s ?x_(t-s) ," (10)
其中,*代表卷積操作;f是卷積核,大小為k+1;f_s是時(shí)間向前回溯s步的卷積核權(quán)重. 因此,輸出y_t不會(huì)受任何未來輸入(x_(t+1)" ,x_(t+2)" ,…)的影響.
在保持參數(shù)數(shù)量不變的情況下,TCN采用膨脹卷積(圖1)增加感受野,膨脹卷積中的卷積核的元素之間會(huì)間隔一定數(shù)量的點(diǎn),這個(gè)間隔也被定義為膨脹系數(shù). 對(duì)于一個(gè)給定的膨脹系數(shù)d,不同于標(biāo)準(zhǔn)卷積操作,每個(gè)輸入為原輸入序列上跳過d-1個(gè)點(diǎn)的數(shù)據(jù),
F(s)=(x*_d f)(s)=∑_(i=0)^(k-1)?f(i)?x_(s-d?i) ," (11)
其中,F(xiàn)(s)代表在時(shí)間步的膨脹s卷積操作輸出;x∈R^n是膨脹卷積操作的輸入序列;*_d代表膨脹卷積操作;f:{0,1,…,k-1}是卷積濾波器;k是卷積濾波器的大;d是膨脹因子;x_(s-d?i)表示由當(dāng)前時(shí)間步s、膨脹因子d和卷積濾波器中的位置i確定的輸入位置.
TCN為了處理長(zhǎng)時(shí)間序列中梯度消失和梯度爆炸的問題,引入了殘差模塊緩解長(zhǎng)時(shí)間序列帶來的性能退化問題,
o=A_ctivation (x+F(x)) ,""" (12)
其中,o是輸出向量;F(x)表示殘差模塊中,膨脹卷積層對(duì)輸入x的處理結(jié)果;A_ctivation (?)是激活函數(shù). 跳躍連接確保了即使網(wǎng)絡(luò)層次很深,信息也能有效地傳播,不易丟失.
1.4 GAT-ATCN模型架構(gòu)
圖2為GAT-ATCN整體模型框架,模型輸入層的數(shù)據(jù)是研究區(qū)域內(nèi)所有站點(diǎn)監(jiān)測(cè)到的歷史數(shù)據(jù). 根據(jù)時(shí)間序列和站點(diǎn)之間的距離關(guān)系構(gòu)建時(shí)空?qǐng)D序列數(shù)據(jù),將數(shù)據(jù)輸入到空間特征提取層,使用GAT提取整個(gè)區(qū)域內(nèi)的空間特征,經(jīng)過展平操作之后形成空間特征向量,并按照時(shí)間進(jìn)行排序,將空間特征序列向量輸入到時(shí)間特征提取層,使用TCN進(jìn)行時(shí)空特征提取,得到一個(gè)包含整個(gè)序列的時(shí)空特征序列,將其輸入到注意力層,捕捉其中的關(guān)鍵信息,輸入到輸出層中,使用全連接網(wǎng)絡(luò)計(jì)算出模型的預(yù)測(cè)輸出值.
GAT-ATCN模型的偽代碼如圖3所示.
算法1:GAT-ATCN模型
輸入:
X={X_1,X_2,…,X_C},X_i∈R^(C×N×F)" # N個(gè)監(jiān)測(cè)站點(diǎn)的歷史數(shù)據(jù)集,每個(gè)X_i表示i時(shí)刻下整個(gè)區(qū)域的特征向量
G=(V,E)" # 時(shí)空?qǐng)D,V是監(jiān)測(cè)站點(diǎn)集合,E是基于距離的站點(diǎn)間連接
輸出:
Y={y_1,y_2,…,y_T} # 預(yù)測(cè)的目標(biāo)站點(diǎn)空氣污染物濃度
過程:
1:初始化空間特征序列S = []
2:for t = 1 to T do
3:G_t = 構(gòu)建子圖(X_t,G)"" # 根據(jù)當(dāng)前時(shí)間步t的數(shù)據(jù)構(gòu)建子圖
4:S_t=GAT(G_t)"" # 應(yīng)用GAT獲取t時(shí)刻的空間特征
5:end for
6:T_seq" = T_CN (S)"" # 將空間特征序列S通過TCN處理,得到時(shí)間特征序列Tseq
7:K = A_ttention (T_seq)""" # 應(yīng)用注意力機(jī)制,提取關(guān)鍵時(shí)空特征K
8:Y = F_CN (K)""" # 將關(guān)鍵特征通過全連接層轉(zhuǎn)換為預(yù)測(cè)值Y
9:returnY
2" 仿真實(shí)驗(yàn)
為了證明所提出方法的有效性,選取了江浙滬地區(qū)中7個(gè)城市的數(shù)據(jù)集,預(yù)測(cè)未來一段時(shí)間的空氣污染物濃度值,并與5種基準(zhǔn)模型(LSTM,TCN,CNN-LSTM,GCN-LSTM和GAT-LSTM)進(jìn)行對(duì)比,驗(yàn)證模型的有效性.
2.1 數(shù)據(jù)集與預(yù)處理
在7個(gè)城市總共47個(gè)站點(diǎn)所獲取的數(shù)據(jù)集上進(jìn)行模型的有效性驗(yàn)證,城市以及站點(diǎn)數(shù)量分別為:上海,9個(gè);杭州,11個(gè);紹興,3個(gè);南通,5個(gè);蘇州,7個(gè);無錫,8個(gè);嘉興,4個(gè).
數(shù)據(jù)集按照訓(xùn)練集80%,測(cè)試集20%的比例進(jìn)行劃分,學(xué)習(xí)率初始設(shè)置為0.000 1,最大訓(xùn)練輪次為100輪.GAT模塊的多頭注意力頭數(shù)為8,TCN模塊設(shè)置為3層隱含層,其中的神經(jīng)元個(gè)數(shù)分別為128,64和24.
2.2 評(píng)價(jià)指標(biāo)
使用均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)和決定系數(shù)(R^2)作為評(píng)價(jià)指標(biāo). 模型取帶L2正則化的均方誤差(MSE)作為損失函數(shù),訓(xùn)練過程中,MSE的值越小,說明模型的預(yù)測(cè)效果越好,
R_MSE=√(1/n ∑_(i=1)^n?〖(y_i-y ?_i )^2 〗)," (13)
M_AE=1/n ∑_(i=1)^n?|y_i-y ?_i | , (14)
其中,y_i是觀測(cè)值;y ?_i是預(yù)測(cè)值;n是觀測(cè)點(diǎn)的數(shù)量.
R^2=1-(∑_(i=1)^n?〖(y_i-y ?_i )^2 〗)/(∑_(i=1)^n?〖(y_i 〖-y ?)〗^2 〗) ,""""" (15)
其中,y ?是觀測(cè)值的平均值;R^2是模型預(yù)測(cè)值的變異數(shù)占總變異量的比例.
帶L2正則化的MSE計(jì)算如下:
L_oss=1/n ∑_(i=1)^n?〖(y_i-y ?_i )^2 〗+λ∑_(j=1)^p?w_j^2" ,""" (16)
其中,λ是正則化參數(shù),用于控制L2正則化項(xiàng)的影響程度;w_j是模型的第j個(gè)權(quán)重;p是權(quán)重的總數(shù).
2.3 對(duì)比實(shí)驗(yàn)
取2018—2020年的站點(diǎn)檢測(cè)數(shù)據(jù)作為模型的訓(xùn)練集,使用滑動(dòng)窗口的方法獲取樣本序列數(shù)據(jù),滑動(dòng)窗口設(shè)置為24 h,預(yù)測(cè)窗口設(shè)置為6 h,用前一天24 h的數(shù)據(jù)來預(yù)測(cè)目標(biāo)站點(diǎn)未來6 h的數(shù)據(jù),實(shí)驗(yàn)結(jié)果如表1所示.
由表1可知,所提出的GAT-ATCN模型的R_MSE,M_AE及R^2都優(yōu)于其他模型,說明了使用GAT和ATCN模型可以有效揭示空氣污染物傳播過程中,不同空氣污染物與相關(guān)的氣象數(shù)據(jù)的復(fù)雜關(guān)系,能更加有效地對(duì)區(qū)域內(nèi)各個(gè)監(jiān)測(cè)站點(diǎn)不同污染物數(shù)據(jù)的傳播、擴(kuò)散和演變過程進(jìn)行建模. 從表1的數(shù)據(jù)可以得出:1) 相較于單純只考慮時(shí)間建模的LSTM和TCN模型,綜合考慮時(shí)間和空間關(guān)系建模的CNN-LSTM,GCN-LSTM,GAT-LSTM和GAT-ATCN模型,預(yù)測(cè)效果更佳. 2) 對(duì)于將空間結(jié)構(gòu)構(gòu)建成圖結(jié)構(gòu)數(shù)據(jù)的GCN和GAT模型比直接采用矩陣編排方式的CNN模型預(yù)測(cè)效果更好. 3) 在時(shí)間特征提取維度上,僅對(duì)短期時(shí)間序列建模和預(yù)測(cè)結(jié)果可以看出,TCN模型比LSTM模型更有優(yōu)勢(shì),并且由于其自身地網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn),TCN模型計(jì)算迭代速度更快,而且可以更好地利用圖形處理器(GPU)的并行特性.
3" 結(jié)論
本文作者提出了GAT-ATCN空氣污染物濃度預(yù)測(cè)模型, 通過使用GAT對(duì)空間特征進(jìn)行特征提取,使用ATCN對(duì)GAT輸出的空間特征進(jìn)行時(shí)間特征提取,將獲取到的時(shí)空特征進(jìn)行聯(lián)合訓(xùn)練,最終獲得空氣污染物傳播、擴(kuò)散的復(fù)雜關(guān)系,為對(duì)大氣污染物傳播、擴(kuò)散方式的研究提供了一種新的視角. 本方法還存在一些不足的地方,例如由于空氣污染物并沒有固定的傳播路徑,在后續(xù)工作中可引入更多的影響因子,例如交通流量、地形地貌等數(shù)據(jù),考慮多模態(tài)融合的方式是未來可以改進(jìn)的方向.
參考文獻(xiàn):
[1]""" AL-JANABI S, MOHAMMAD M, AL-SULTAN A. A new method for prediction of air pollution based on intelligent computation [J]. Soft Computing, 2020,24(1):661-680.
[2]""" ZHU D X, CAI C J, YANG T B, et al. A machine learning approach for air quality prediction: model regularization and optimization [J]. Big Data and Cognitive Computing, 2018,2(1):5.
[3]""" GOURAVJ K R, REKHI J K, NAGRATH P, et al. Forecasting air quality of Delhi using ARIMA model [C] // Advances in Data Sciences, Security and Applications. Singapore:Springer, 2020:315-325.
[4]""" LU H, XIE M, LIU X, et al. Adjusting prediction of ozone concentration based on CMAQ model and machine learning methods in Sichuan-Chongqing region, China [J]. Atmospheric Pollution Research, 2021,12(6):101066.
[5]""" 祁柏林, 郭昆鵬, 楊彬, 等. 基于GCN-LSTM的空氣質(zhì)量預(yù)測(cè) [J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2021,30(3):208-213.
QI B L, GUO K P, YANG S, et al.Air quality prediction based on GCN-LSTM [J]. Computer Systems and Applications, 2021,30(3):208-213.
[6]""" NAGRECHA K, MUTHUKUMAR P, COCOM E,et al. Sensor-based air pollution prediction using deep CNN-LSTM [C]// International Conference on Computational Science and Computational Intelligence. Las Vegas: IEEE, 2020: 694-696.
[7]""" TAN J, LIU H, LI Y, et al. A new ensemble spatio-temporal PM2.5 prediction method based on graph attention recursive networks and reinforcement learning [J]. Chaos, Solitons amp; Fractals, 2022,162:112405.
[8]""" DUN A, YANG Y, LEI F. Dynamic graph convolution neural network based on spatial-temporal correlation for air quality prediction [J]. Ecological Informatics, 2022,70:101736.
[9]""" VELI?KOVI? P, CUCURULL G, CASANOVA A, et al. Graph attention networks [J/OL]. arXiv: 1710.10903, 2017[2023-10-01]. https://arxiv.org/abs/1710.10903.
(責(zé)任編輯:包震宇,郁慧)