李博錄,吳利,王曉英,黃建強(qiáng),曹騰飛
基于圖動態(tài)注意力網(wǎng)絡(luò)的多站點(diǎn)風(fēng)速預(yù)測
李博錄,吳利,王曉英*,黃建強(qiáng),曹騰飛
(青海大學(xué) 計算機(jī)技術(shù)與應(yīng)用系,西寧 810016)( ? 通信作者電子郵箱 wxy_cta@qhu.edu.cn)
時空序列預(yù)測任務(wù)在交通、氣象、智慧城市等領(lǐng)域有著廣泛應(yīng)用。站點(diǎn)風(fēng)速預(yù)測作為氣象預(yù)測中的主要任務(wù)之一,需要結(jié)合降水、氣溫等外部因素,學(xué)習(xí)不同數(shù)據(jù)的時空特征。氣象站點(diǎn)的不規(guī)則分布和風(fēng)本身的固有間歇性成為實(shí)現(xiàn)高精度風(fēng)速預(yù)測的挑戰(zhàn)。為考慮多站點(diǎn)空間分布對風(fēng)速的影響以獲得準(zhǔn)確可靠的預(yù)測結(jié)果,提出一種基于圖的動態(tài)轉(zhuǎn)換注意力網(wǎng)絡(luò)(Graph-DSAN)風(fēng)速預(yù)測模型。首先,利用不同站點(diǎn)之間的距離重新構(gòu)建它們的連接;其次,使用局部采樣的過程建模不同采樣大小的鄰接矩陣,實(shí)現(xiàn)圖卷積過程中鄰居節(jié)點(diǎn)信息的聚合與傳遞;接著,將時空位置編碼(STPE)處理后的圖卷積結(jié)果加入動態(tài)注意力編碼器(DAE)和轉(zhuǎn)換注意力解碼器(SAD)以實(shí)現(xiàn)動態(tài)注意力計算,從而提取時空相關(guān)性;最后,利用自回歸的方式形成多步預(yù)測。在紐約州15個站點(diǎn)的風(fēng)速預(yù)測實(shí)驗(yàn)中,將所設(shè)計模型與ConvLSTM、圖多注意力網(wǎng)絡(luò)(GMAN)、時空圖卷積網(wǎng)絡(luò)(STGCN)、動態(tài)轉(zhuǎn)換注意力網(wǎng)絡(luò)(DSAN)和時空動態(tài)網(wǎng)絡(luò)(STDN)進(jìn)行比較,Graph-DSAN的12 h預(yù)測均方根誤差(RMSE)分別降低了28.2%、6.9%、27.7%、14.4%和8.9%,驗(yàn)證了Graph-DSAN風(fēng)速預(yù)測的準(zhǔn)確性。
風(fēng)速預(yù)測;動態(tài)注意力網(wǎng)絡(luò);圖卷積;注意力機(jī)制
風(fēng)速預(yù)測是天氣預(yù)測重要組成之一,準(zhǔn)確的風(fēng)速預(yù)測對于經(jīng)濟(jì)、商業(yè)和管理非常重要,它會影響相關(guān)部門的決策過程和資源部署,不僅可以用于預(yù)測自然災(zāi)害,還可以為氣候變化分析提供指導(dǎo)[1]。由于受溫度、海拔、地形、氣壓等因素的影響,風(fēng)能具有波動性、隨機(jī)性和不穩(wěn)定性的特點(diǎn)[2],因此準(zhǔn)確的風(fēng)速預(yù)測面臨很多挑戰(zhàn)。
到目前為止,天氣預(yù)報通常依賴于數(shù)值天氣預(yù)報(Numerical Weather Prediction, NWP)模型求解復(fù)雜的數(shù)學(xué)方程,盡可能地模擬現(xiàn)實(shí)世界的大氣、流體和熱力學(xué)[3]。這種方法需要巨大的計算能力,即使使用當(dāng)前的技術(shù)設(shè)備和工具,也可能需要幾個小時才能完成處理[4]。機(jī)器學(xué)習(xí)模型的應(yīng)用為天氣預(yù)報任務(wù)提供了一種新思路。與NWP模型相比,機(jī)器學(xué)習(xí)模型能夠顯著減少處理時間,近年來已成功應(yīng)用于氣象領(lǐng)域的各個方面[5-8]。
當(dāng)前深度學(xué)習(xí)模型已經(jīng)被應(yīng)用在圖像和自然語言處理等許多領(lǐng)域。由于基于深度學(xué)習(xí)的模型在訓(xùn)練期間學(xué)習(xí)自己的特征參數(shù),因此使得最終的網(wǎng)絡(luò)模型在輸入和輸出之間能達(dá)到較高契合程度,已被用于預(yù)測氣候數(shù)據(jù)[9-10]。此外,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的深度學(xué)習(xí)方法也成功應(yīng)用于天氣預(yù)報問題[11-12];但是基于CNN的方法是在規(guī)則矩陣的前提下進(jìn)行卷積操作,而風(fēng)速站點(diǎn)分布呈不均勻狀態(tài),難以在保證空間信息關(guān)聯(lián)性不變的前提下進(jìn)行規(guī)則排列,所以一般的卷積網(wǎng)絡(luò)中無法捕獲氣象站之間的空間關(guān)系。
由于生活中很多數(shù)據(jù)都不具備規(guī)則的空間結(jié)構(gòu),如推薦系統(tǒng)、氣象站點(diǎn)和社交網(wǎng)絡(luò)等,它們都可以抽象為圖,對于這些不規(guī)則的數(shù)據(jù)對象則需要更為普適的卷積結(jié)構(gòu),而圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)可以將CNN推廣到圖上而不是規(guī)則網(wǎng)格上[13]。尤其是它能夠包含鄰接關(guān)系信息,例如通過圖的鄰接矩陣可以在GCN中完成類似CNN在規(guī)則網(wǎng)格上的卷積操作以實(shí)現(xiàn)信息的聚合和傳遞。在風(fēng)速預(yù)測中GCN也已經(jīng)得到了應(yīng)用和發(fā)展[14]。
本文將站點(diǎn)之間的距離作為構(gòu)建鄰接矩陣的標(biāo)準(zhǔn),以站點(diǎn)為圖的頂點(diǎn),站點(diǎn)之間的連接為圖的邊,將不規(guī)則站點(diǎn)分布轉(zhuǎn)化為圖結(jié)構(gòu),將不同時間步長的氣象站數(shù)據(jù)及其相應(yīng)的天氣變量(例如溫度、風(fēng)速、氣壓等)值視為時空圖數(shù)據(jù)。利用時空圖卷積網(wǎng)絡(luò)(Spatio-Temporal Graph Convolutional Network, STGCN)[15]和動態(tài)轉(zhuǎn)換注意力網(wǎng)絡(luò)(Dynamic Switch-Attention Network, DSAN)[16]架構(gòu)改進(jìn)并得到基于圖的動態(tài)轉(zhuǎn)換注意力網(wǎng)絡(luò)(Graph-based Dynamic Switch-Attention Network, Graph-DSAN)模型。該模型的輸入采用張量數(shù)據(jù),在構(gòu)建的圖連接中利用切比雪夫多項(xiàng)式近似的GCN提取局部空間信息,結(jié)合多空間注意力(Multi-Space Attention, MSA)機(jī)制建立不同節(jié)點(diǎn)之間的注意力分?jǐn)?shù)后進(jìn)行動態(tài)注意力計算和轉(zhuǎn)換,從而達(dá)到預(yù)測未來風(fēng)速的目的,并使用自回歸模型進(jìn)行多步預(yù)測,最后通過實(shí)驗(yàn)分析驗(yàn)證了本文模型的有效性和優(yōu)勢。
對于氣象預(yù)報任務(wù),卷積通常與長短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)一起使用。LSTM是一種特殊類型的遞歸神經(jīng)網(wǎng)絡(luò),與標(biāo)準(zhǔn)前饋神經(jīng)網(wǎng)絡(luò)不同,它包括反饋連接,為網(wǎng)絡(luò)提供先前信號的某種記憶,使它能夠從經(jīng)驗(yàn)中學(xué)習(xí)特征并且適合使用時間序列數(shù)據(jù)進(jìn)行預(yù)測[17]。利用這一點(diǎn),Shi等[18]首次將CNN與LSTM相結(jié)合以創(chuàng)建用于降水預(yù)測的ConvLSTM模型。Wang等[19]通過堆疊多個ConvLSTM的并添加額外的內(nèi)存狀態(tài)連接,實(shí)現(xiàn)了空間信息的有效流動,提出了PredRNN模型。與此同時,Trebing等[20]使用U-net架構(gòu)[21]在加入注意力機(jī)制和深度可分離卷積后完成降水預(yù)測任務(wù)。在風(fēng)速預(yù)測領(lǐng)域,廖雪超等[22]將注意力機(jī)制與LSTM相結(jié)合實(shí)現(xiàn)了短期風(fēng)電功率預(yù)測模型。雖然以上工作在CNN的基礎(chǔ)上進(jìn)行時空預(yù)測任務(wù),但是對于氣象背景下的各個數(shù)據(jù)采集站點(diǎn)來說并不適用,因?yàn)檎军c(diǎn)的不規(guī)則分布導(dǎo)致CNN在非歐氏空間進(jìn)行特征提取受到了阻礙。
基于GCN的方法可以處理非網(wǎng)格數(shù)據(jù),包括形成圖的氣象站之間的空間關(guān)系,并且可以有效地聚合鄰居節(jié)點(diǎn)的狀態(tài)。Wilson等[23]引入了加權(quán)圖卷積LSTM體系結(jié)構(gòu),將LSTM與單個可學(xué)習(xí)鄰接矩陣的圖卷積代替了矩陣乘法并預(yù)測了溫度和風(fēng)速值。Seo等[24]將來自編碼器的圖形的潛在表示與來自LSTM結(jié)構(gòu)的輸出相結(jié)合,并用其中的模型框架預(yù)測了溫度。祁柏林等[25]利用GCN提取網(wǎng)格化監(jiān)測站之間的空間特征,使用LSTM提取時間特征,最后給出了空氣質(zhì)量的預(yù)測結(jié)果。
圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)[26]最近在分析圖數(shù)據(jù)方面獲得了普及,它的變體,即圖卷積網(wǎng)絡(luò)(GCN)[27]通過使用圖數(shù)據(jù)在保持卷積架構(gòu)的同時,也在非歐氏空間提取信息的聚合與傳遞獲得了推廣。雖然GCN的大多數(shù)變體主要處理需要已知圖數(shù)據(jù)的頂點(diǎn)和邊信息的節(jié)點(diǎn)分類任務(wù),但在Gao等[28]工作中已經(jīng)存在具有可學(xué)習(xí)鄰接矩陣的GCN。由于Vaswani等[29]介紹的Transform架構(gòu),注意力機(jī)制也獲得了很多普及并已納入了GNN框架。圖注意力網(wǎng)絡(luò)(Graph Attention Network, GAT)[30]使用類似Transform模型中的自注意機(jī)制計算圖頂點(diǎn)之間的注意力系數(shù),并且它的很多變體已成功用于圖時空數(shù)據(jù)預(yù)測。即使GCN可以將卷積擴(kuò)展到非規(guī)則排列的圖形數(shù)據(jù)中,但是氣象因素具有一定的區(qū)域性和隨機(jī)性,所以在本文中,目標(biāo)節(jié)點(diǎn)的預(yù)測會更加注重它周圍較親密節(jié)點(diǎn)的影響,但是為了將較重要的較遠(yuǎn)節(jié)點(diǎn)也考慮在內(nèi),采用局部采樣的方式對目標(biāo)周圍的節(jié)點(diǎn)進(jìn)行采樣,并使用動態(tài)注意力提取節(jié)點(diǎn)和節(jié)點(diǎn)之間的空間相關(guān)性,從而使預(yù)測任務(wù)更加集中在目標(biāo)區(qū)域范圍內(nèi),減少誤差的傳播。
圖1 Graph-DSAN模型結(jié)構(gòu)
本文模型框架中,將不規(guī)則分布的氣象站點(diǎn)數(shù)據(jù)特征按照經(jīng)緯度和時間順序組成包含時空關(guān)系的數(shù)據(jù)流,然后用改進(jìn)的基于圖卷積的GCN完成空間特征的聚合,基于鄰接采樣算法的時空位置編碼來區(qū)分時空順序偏差,最后加入動態(tài)注意力編碼器和轉(zhuǎn)換注意力解碼器以完成最后的預(yù)測。
圖2(a)是10個節(jié)點(diǎn)的不規(guī)則分布。將該圖中的節(jié)點(diǎn)看作圖的頂點(diǎn),然后按照頂點(diǎn)之間的位置計算距離,將固定權(quán)重矩陣作為頂點(diǎn)之間的連接方式構(gòu)成圖2(b)所示的空間結(jié)構(gòu)。為了考慮節(jié)點(diǎn)聚合時也包含自身的特征,向每個節(jié)點(diǎn)加入自環(huán),因此具體的表示為:
其中:和是用于調(diào)整W的分布和稀疏度的超參數(shù);表示節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的距離。
然后按照時間將不同節(jié)點(diǎn)之間的特征作為數(shù)據(jù),組成由時間序列構(gòu)成的時空數(shù)據(jù)流如圖3所示。
圖3 時空數(shù)據(jù)流
其中:表示歷史時空網(wǎng)絡(luò)序列的長度;表示要預(yù)測的目標(biāo)時空網(wǎng)絡(luò)序列的長度。
圖卷積的特征提取結(jié)果要在MSA機(jī)制中同時和等效地參與時空信息的處理,所以模型無法學(xué)到不同空間和時間的順序關(guān)系,因此也就不知道它們的相對位置和時間偏差。為了解決這個問題,加入STPE作為指示位置和時間信息的特定偏差。
為了和輸入對應(yīng),在全圖中分別以每個頂點(diǎn)為中心進(jìn)行圖的采樣,具體采樣方法是按照帶權(quán)鄰接矩陣進(jìn)行的。
首先計算時間段內(nèi)采樣子圖的相對位置編碼(SPE),因?yàn)檫@樣能夠顯式地對輸入序列中任意兩個親密節(jié)點(diǎn)的位置關(guān)系進(jìn)行建模。使用不同頻率的正弦和余弦函數(shù)計算給定相對頂點(diǎn)坐標(biāo)的SPE:
其中:是在圖中頂點(diǎn)i的編碼維度序號為l的向量,d是每一個位置向量的維度,使用類似自然語言處理(Natural Language Processing, NLP)的相對位置編碼將最終結(jié)果表示為相對位置信息。在計算了所有維度之后,,在此編碼中給定不同,經(jīng)過編碼后的、和的SPE都是靜態(tài)的,可以再訓(xùn)練之前提前進(jìn)行計算以節(jié)約模型訓(xùn)練過程中的計算時間。
由于DSAN是經(jīng)典的時空預(yù)測模型,所以本節(jié)采用和DSAN模型相同的總體設(shè)計框架[16],具體結(jié)構(gòu)如圖5所示,動態(tài)注意編碼器(DAE)從全局輸入中提取相關(guān)的信息。由于MSA機(jī)制通過截斷時空進(jìn)行注意力計算,在不同的子空間中留下了分離的結(jié)果,然后通過轉(zhuǎn)換注意力解碼器(SAD)轉(zhuǎn)換DAE的輸出來轉(zhuǎn)移注意力,并進(jìn)一步跨子空間執(zhí)行MSA以計算最終輸出。
圖5 DAE和SAD的構(gòu)成及連接
在DAE和SAD中使用MSA分別進(jìn)行注意力計算,結(jié)構(gòu)如圖6所示。將Query、Key、Value作為MSA輸入,MSA通過縮放點(diǎn)積方式計算注意力加權(quán)輸出。在MSA中計算多頭注意力時,第個注意力頭執(zhí)行的關(guān)注機(jī)制可以表述為:
圖6 MSA的結(jié)構(gòu)
實(shí)驗(yàn)中選取自美國紐約州15個站點(diǎn)監(jiān)測數(shù)據(jù)(https://rda.ucar.edu/datasets/ds472.0/)[36],站點(diǎn)分布如圖7所示。其中包括KDSV、KITH、KFZY、KALB、KFOK、KELM、KPEO、KGTB、KGFL、KFRG、KELZ、KRME、KIAG、KMGJ和KISP共15個基站。數(shù)據(jù)集中包括2018年和2019年全年的數(shù)據(jù)。數(shù)據(jù)中包括風(fēng)向、風(fēng)速、溫度、露點(diǎn)、云量、氣壓和降水多個因素的采集數(shù)值,數(shù)據(jù)每隔1 h采集一次并以站點(diǎn)名稱和采集月份為文件名生成12個月份的數(shù)據(jù)集,每個站點(diǎn)有自己的經(jīng)緯度值以生成權(quán)重矩陣。實(shí)驗(yàn)中使用2018年的數(shù)據(jù)按照8∶2的比例劃分為訓(xùn)練集和驗(yàn)證集,并且將2019年的每個季度的第一個月作為最終的測試集來模擬真實(shí)情況的風(fēng)速預(yù)測。
站點(diǎn)數(shù)據(jù)包含缺失值,主要是傳感器采集數(shù)據(jù)時造成的。通過對數(shù)據(jù)的初步處理和分析,云量的氣象因素缺失數(shù)量較多,每個站點(diǎn)的缺失數(shù)據(jù)站總體數(shù)據(jù)的98%,所以實(shí)驗(yàn)過程中會刪除此類數(shù)據(jù)。對于風(fēng)向、風(fēng)速、露點(diǎn)和降水等氣象指標(biāo)缺失較少,通過線性插值的方式進(jìn)行數(shù)據(jù)填充。完成數(shù)據(jù)處理后,根據(jù)氣象站點(diǎn)位置提取不同站點(diǎn)的時序數(shù)據(jù)。采用滑動窗口的方式對所有數(shù)據(jù)進(jìn)行切片,滑動窗口的數(shù)據(jù)使用過去一周和未來12 h分別作為歷史輸入數(shù)據(jù)和未來預(yù)測數(shù)據(jù),每次滑步長度為1。這樣就對所有的實(shí)驗(yàn)數(shù)據(jù)完成了切片。最后使用線性函數(shù)對訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)進(jìn)行歸一化。
為了找到最優(yōu)預(yù)測結(jié)果的模型,本文對于GCN層數(shù)、FCN層數(shù)、動態(tài)注意力編碼器和轉(zhuǎn)換注意力解碼器的層數(shù)、注意力頭的數(shù)量進(jìn)行了不同參數(shù)下的驗(yàn)證。具體結(jié)果如表1所示,n_Decoder、n_Encoder、n_Layer分別表示編碼器、解碼器、GCN和FCN的模塊名稱,在1~6不同模塊層數(shù)下預(yù)測1 h的RMSE,其中GCN和FCN在變化時是一致的??梢钥吹?,四個部分在層數(shù)為3的時候得到預(yù)測的結(jié)果最優(yōu)。n_Head是在編碼器和解碼器中測試不同數(shù)量的注意力頭的模塊名稱,在不同注意力頭數(shù)下預(yù)測1 h的RMSE,可以看到在注意力頭數(shù)為8時,它預(yù)測的RMSE最優(yōu)。經(jīng)過調(diào)參,最終確定的模型參數(shù)設(shè)置如下:三層GCN并加入殘差連接進(jìn)行投影,經(jīng)過投影后的維度為64;動態(tài)注意力編碼器和轉(zhuǎn)換注意力解碼器的層數(shù)為3;FCN層數(shù)為3;注意力頭數(shù)為8;前饋神經(jīng)網(wǎng)絡(luò)的輸出維度為256;訓(xùn)練過程中采用了線性整流函數(shù)(Rectified Linear Unit, ReLU)作為激活函數(shù);Dropout率為0.1,使用Adma優(yōu)化器和均方誤差訓(xùn)練模型;訓(xùn)練輪次為70,批量大小為128,通過時間自動調(diào)整學(xué)習(xí)率。
表1 不同條件下的RMSE
選用均方根誤差(Root Mean Square Error, RMSE)和均絕對誤差(Mean Absolute Error, MAE)作為模型的評價指標(biāo),具體計算方式如下:
實(shí)驗(yàn)選用Xgboost、STDN(Spatial-Temporal Dynamic Network)[37]、STGCN、GMAN(Graph Multi-Attention Network)[38]、ConvLSTM和DSAN作為基準(zhǔn)來反映Graph-DSAN的預(yù)測準(zhǔn)確性。各模型均是在10次訓(xùn)練數(shù)據(jù)后取最優(yōu)模型的結(jié)果。
Graph-DSAN與對比模型在測試集合中預(yù)測時長為1 h、6 h和12 h時多個站點(diǎn)的平均RMSE和MAE比較如表2所示。由表2可知:Graph-DSAN模型預(yù)測1 h、6 h和12 h得到的RMSE和MAE均小于對比的基線模型ConvLSTM、STDN、GMAN、STGCN、Xgboost和DSAN;其中1 h預(yù)測的RMSE分別降低了28.9%、27.6%、29.3%、18.0%、9.5%和3.9%;6 h預(yù)測的RMSE分別降低了15.1%、12.7%、11.5%、13.14%、4.1%和10.6%;12 h預(yù)測的RMSE分別降低了28.2%、8.9%、6.9%、27.7%、2.7%和14.4%。DSAN是在規(guī)則網(wǎng)格下進(jìn)行的CNN卷積操作,可以看到它在無規(guī)則的氣象站點(diǎn)背景中,通過規(guī)則排列的方式進(jìn)行CNN卷積操作的結(jié)果比改進(jìn)后使用圖卷積操作的結(jié)果要差;在預(yù)測時長為1 h的基礎(chǔ)上,6 h和12 h的預(yù)測結(jié)果的RMSE在DSAN中增長了61.7%和94.5%。由此可見,GCN在不規(guī)則氣象站中對于空間特征提取相較于CNN具有更好的表現(xiàn)。
為了直觀地展示模型中加入不同模塊的有效性,進(jìn)行消融實(shí)驗(yàn),結(jié)果如表3所示。其中:相對Graph-DSAN,DSAN-NS表示沒有加入相對位置編碼的模型、DSAN-SS表示沒有加入采樣算法的模型、DSAN-NE表示沒有加入動態(tài)注意力計算的編碼器,DSAN-ND表示沒有加入轉(zhuǎn)換注意力計算的解碼器。
表2 不同模型多步風(fēng)速預(yù)測結(jié)果的比較
表3 不同模塊對模型的影響
從表3可以看到在1 h和12 h預(yù)測中,Graph-DSAN的預(yù)測性能最好,它的RMSE比DSAN-NS分別下降了6.1%和11.9%,這說明相對位置編碼對預(yù)測的準(zhǔn)確性有明顯幫助;比DSAN-SS分別下降了12.7%和18.1%,這說明未進(jìn)行采樣而固定輸入模型的鄰居數(shù)時,會使預(yù)測節(jié)點(diǎn)周圍比較重要的節(jié)點(diǎn)信息丟失,導(dǎo)致預(yù)測結(jié)果下降;比DSAN-NE分別下降了16.9%和13.1%,比DSAN-ND分別下降了13.3%和22.2%,因?yàn)樵谧⒁饬τ嬎氵^程中,DSAN-NE和DSAN-ND在全局或者局部注意力計算時直接進(jìn)行隱藏狀態(tài)的傳遞或者輸出,導(dǎo)致誤差的傳播,從而使預(yù)測準(zhǔn)確性降低。綜上可知,本文提出的改進(jìn)方法均是有效可行的。
為了更好地分析Graph-DSAN模型對不同站點(diǎn)的預(yù)測準(zhǔn)確性,將每個站點(diǎn)的1 h預(yù)測結(jié)果進(jìn)行可視化展示,并且計算預(yù)測值和真實(shí)值之間的RMSE。由于風(fēng)速數(shù)據(jù)在不同時間段的表現(xiàn)隨著天氣季節(jié)性地改變,所以分別對測試集中的數(shù)據(jù)按照季度分別應(yīng)用Graph-DSAN進(jìn)行預(yù)測和分析。
圖8所示是Graph-DSAN對2019年1、4、7、10月每個站點(diǎn)的1 h預(yù)測結(jié)果。這4個月在15個站點(diǎn)1 h預(yù)測平均RMSE分別是1.46、1.42、1.15和1.27;6 h預(yù)測平均RMSE分別是2.11、1.97、1.53和1.76;12 h預(yù)測平均RMSE分別是2.52、2.34、1.38和2.07??梢钥吹?,Graph-DSAN對7月和10月的預(yù)測結(jié)果比1月和4月更好,為了更有效地分析這種結(jié)果,在圖9中展示了這4個月的風(fēng)速。從圖9中可以看到,1月和4月的風(fēng)速數(shù)值整體上比7月和10月波動更頻繁。由于風(fēng)速具有間歇性,它在每個季度月份表現(xiàn)的穩(wěn)定性并不一致,風(fēng)速均值(mean)在數(shù)據(jù)分布上分別為4.18、3.96、2.51和3.2 m/s,標(biāo)準(zhǔn)差(std)在數(shù)據(jù)分布上分別是2.80,、2.73、1.83和2.52。從數(shù)值上可以看出1月和4月的風(fēng)速平均值比7月和10月份要低,并且風(fēng)速波動比7月和10月要高,因此7月和10月的預(yù)測效果相對更好。
為了更清楚地展示不同站點(diǎn)對比情況,將所有站點(diǎn)四個季度的數(shù)據(jù)的12 h預(yù)測結(jié)果取平均值,然后按照RMSE的大小在地圖上進(jìn)行標(biāo)注,如圖10所示,其中圓圈越大表示的預(yù)測準(zhǔn)確度越低??梢钥吹剑瑢τ诘貓D上較遠(yuǎn)或者孤立的節(jié)點(diǎn),如KALB和KIAG,它們的鄰居都比較遠(yuǎn),在構(gòu)建鄰接矩陣后圖卷積中采集的特征也會比較少,導(dǎo)致預(yù)測準(zhǔn)確度比其他站點(diǎn)低。
圖8 不同月份1 h預(yù)測結(jié)果及其RMSE
圖9 四個月份的風(fēng)速分布
圖10 各站點(diǎn)的預(yù)測準(zhǔn)確度比較
本文根據(jù)站點(diǎn)的不規(guī)則分布和風(fēng)速的間歇性,提出了一種基于圖動態(tài)注意力網(wǎng)絡(luò)的多站點(diǎn)風(fēng)速預(yù)測模型。該模型包括基于切比雪夫多項(xiàng)式近似的頻域圖卷積、時空位置編碼、動態(tài)注意力編碼器和轉(zhuǎn)換動態(tài)注意力解碼器四個部分:圖卷積部分能提取空間特征解決不規(guī)則站點(diǎn)分布;時空位置編碼器將時間和空間位置加入提供注意力計算;動態(tài)注意力編碼器和轉(zhuǎn)換動態(tài)注意力解碼器利用MSA機(jī)制進(jìn)行注意力的計算和轉(zhuǎn)換,將模型與ConvLSTM、Xgboost、STDN、GMAN和STGCN相比,12 h預(yù)測準(zhǔn)確性最高。風(fēng)速的固有間歇性使得風(fēng)速在每個月份的穩(wěn)定性都不一樣,這使得模型在穩(wěn)定性較好的數(shù)據(jù)中預(yù)測得更好一些;對于不同站點(diǎn)的數(shù)據(jù),預(yù)測準(zhǔn)確性也不同,由于站點(diǎn)之間的距離和鄰居節(jié)點(diǎn)的數(shù)量,對孤立較遠(yuǎn)的節(jié)點(diǎn)預(yù)測準(zhǔn)確性不是很好。
模型中對空間的注意力計算較多,然而風(fēng)速的特性可能對于短期的時間數(shù)據(jù)依賴程度較高,在后續(xù)的研究中會加入更多的短期時間序列的注意力機(jī)制,進(jìn)一步提升模型對于風(fēng)速預(yù)測的性能。
[1] 劉葦航,葉濤,史培軍,等. 氣候變化對糧食生產(chǎn)風(fēng)險的影響研究進(jìn)展[J]. 自然災(zāi)害學(xué)報, 2022, 31(4):1-11.(LIU W H, YE T, SHI P J, et al. Advances in the study of climate change impact on crop producing risk[J]. Journal of Natural Disasters, 2022, 31(4): 1-11.)
[2] 孟鑫禹,王睿涵,張喜平,等. 基于經(jīng)驗(yàn)?zāi)B(tài)分解與多分支神經(jīng)網(wǎng)絡(luò)的超短期風(fēng)功率預(yù)測[J]. 計算機(jī)應(yīng)用, 2021, 41(1): 237-242.(MENG X Y, WANG R H, ZHANG X P, et al. Ultra-short-term wind power prediction based on empirical mode decomposition and multi-branch neural network[J]. Journal of Computer Applications, 2021, 41(1): 237-242.)
[3] PIOTROWSKI P, BACZY?SKI D, KOPYT M, et al. Analysis of forecasted meteorological data (NWP) for efficient spatial forecasting of wind power generation[J]. Electric Power Systems Research, 2019, 175: No.105891.
[4] AGRAWAL S, BARRINGTON L, BROMBERG C, et al. Machine learning for precipitation nowcasting from radar images[EB/OL]. (2019-12-11) [2022-11-08].https://arxiv.org/pdf/1912.12132.pdf.
[5] 孫麗華,嚴(yán)軍峰,徐健鋒. 基于多機(jī)器學(xué)習(xí)競爭策略的短時雷電預(yù)報[J]. 計算機(jī)應(yīng)用, 2016, 36(9):2555-2559.(SUN L H, YAN J F, XU J F. Short-term lightning prediction based on multi-machine learning competitive strategy[J]. Journal of Computer Applications, 2016, 36(9): 2555-2559.)
[6] RAVURI S, LENC K, WILLSON M, et al. Skilful precipitation nowcasting using deep generative models of radar[J]. Nature, 2021, 597(7878): 672-677.
[7] 石峰,樓文高,張博. 基于灰狼群智能最優(yōu)化的神經(jīng)網(wǎng)絡(luò)PM2.5濃度預(yù)測[J]. 計算機(jī)應(yīng)用, 2017, 37(10):2854-2860.(SHI F, LOU W G, ZHANG B. Neural network model for PM2.5concentration prediction by grey wolf optimizer algorithm[J]. Journal of Computer Applications, 2017, 37(10): 2854-2860.)
[8] 王軍,費(fèi)凱,程勇. 基于改進(jìn)Adaboost-BP模型在降水中的預(yù)測[J]. 計算機(jī)應(yīng)用, 2017, 37(9):2689-2693.(WANG J, FEI K, CHENG Y. Prediction of rainfall based on improved Adaboost-BP model[J]. Journal of Computer Applications, 2017, 37(9): 2689-2693.)
[9] SCHER S. Toward data‐driven weather and climate forecasting: approximating a simple general circulation model with deep learning[J]. Geophysical Research Letters, 2018, 45(22): 12616-12622.
[10] SALMAN A G, KANIGORO B, HERYADI Y. Weather forecasting using deep learning techniques[C]// Proceedings of the 2015 International Conference on Advanced Computer Science and Information Systems. Piscataway: IEEE, 2015: 281-285.
[11] MEHRKANOON S. Deep shared representation learning for weather elements forecasting[J]. Knowledge-Based Systems, 2019, 179: 120-128.
[12] TREBING K, MEHRKANOON S. Wind speed prediction using multidimensional convolutional neural networks[C]// Proceedings of the 2020 IEEE Symposium Series on Computational Intelligence. Piscataway: IEEE, 2020: 713-720.
[13] ZHANG S, TONG H, XU J, et al. Graph convolutional networks: a comprehensive review[J]. Computational Social Networks, 2019, 6: No.11.
[14] STA?CZYK T, MEHRKANOON S. Deep graph convolutional networks for wind speed prediction[C/OL]// Proceedings of the 29th European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning [2022-11-08].https://www.esann.org/sites/default/files/proceedings/2021/ES2021-25.pdf.
[15] YU B, YIN H, ZHU Z. Spatio-temporal graph convolutional networks: a deep learning framework for traffic forecasting[C]// Proceedings of the 27th International Joint Conference on Artificial Intelligence. California: ijcai.org, 2018: 3634-3640.
[16] LIN H, BAI R, JIA W, et al. Preserving dynamic attention for long-term spatial-temporal prediction[C]// Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2020: 36-46.
[17] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[18] SHI X, CHEN Z, WANG H, et al. Convolutional LSTM network: a machine learning approach for precipitation nowcasting[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems — Volume 1. Cambridge: MIT Press, 2015: 802-810.
[19] WANG Y, LONG M, WANG J, et al. PredRNN: recurrent neural networks for predictive learning using spatiotemporal LSTMs[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 879-888.
[20] TREBING K, STA?CZYK T, MEHRKANOON S. SmaAt-UNet: precipitation nowcasting using a small attention-UNet architecture[J]. Pattern Recognition Letters, 2021, 145: 178-186.
[21] RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[C]// Proceedings of the 2015 International Conference on Medical Image Computing and Computer-Assisted Intervention, LNCS 9351. Cham: Springer, 2015: 234-241.
[22] 廖雪超,伍杰平,陳才圣. 結(jié)合注意力機(jī)制與LSTM的短期風(fēng)電功率預(yù)測模型[J]. 計算機(jī)工程, 2022, 48(9):286-297, 304.(LIAO X C, WU J P, CHEN C S. Short-term wind power prediction model combining attention mechanism and LSTM[J]. Computer Engineering, 2022, 48(9): 286-297, 304.)
[23] WILSON Y, TAN P N, LUO L. A low rank weighted graph convolutional approach to weather prediction[C]// Proceedings of the 2018 IEEE International Conference on Data Mining. Piscataway: IEEE, 2018: 627-636.
[24] SEO S, MOHEGH A, BAN-WEISS G. with recurrent neural networks for spatiotemporal forecasting[C]// Proceedings of the 7th International Workshop on Climate Informatics. Boulder, CO: National Center for Atmospheric Research in Boulder, 2017: 85-88.
[25] 祁柏林,郭昆鵬,楊彬,等. 基于GCN-LSTM的空氣質(zhì)量預(yù)測[J]. 計算機(jī)系統(tǒng)應(yīng)用, 2021, 30(3): 208-213.(QI B L, GUO K P, YANG B, et al. Air quality prediction based on GCN-LSTM[J]. Computer Systems and Applications, 2021, 30(3): 208-213.)
[26] XU K, HU W, LESKOVEC J, et al. How powerful are graph neural networks?[EB/OL]. (2019-02-22) [2022-11-11].https://arxiv.org/pdf/1810.00826.pdf.
[27] KIPF T N, WEWLLING M. Semi-supervised classification with graph convolutional networks[EB/OL]. (2017-02-22) [2022-11-11].https://arxiv.org/pdf/1609.02907.pdf.
[28] GAO H, WANG Z, JI S. Large-scale learnable graph convolutional networks[C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2018: 1416-1424.
[29] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[30] VELI?KOVI? P, CUCURULL G, CASANOVA A, et al. Graph attention networks[EB/OL]. (2018-02-04) [2021-11-12].https://arxiv.org/pdf/1710.10903.pdf.
[31] BRONSTEIN M M, BRUNA J, LeCUN Y, et al. Geometric deep learning: going beyond Euclidean data[J]. IEEE Signal Processing Magazine, 2017, 34(4): 18-42.
[32] ZHOU J, CUI G, HU S, et al. Graph neural networks: a review of methods and applications[J]. AI Open, 2020, 1: 57-81.
[33] NIEPERT M, AHMED M, KUTZKOV K. Learning convolutional neural networks for graphs[C]// Proceedings of the 33rd International Conference on Machine Learning. New York: JMLR.org, 2016: 2014-2023.
[34] BRUNA J, ZAREMBA W, SZLAM A, et al. Spectral networks and locally connected networks on graphs[EB/OL]. (2014-03-21) [2022-11-12].https://arxiv.org/pdf/1312.6203.pdf.
[35] DEFFERRARD M, BRESSON X, VANDERGHEYNST P. Convolutional neural networks on graphs with fast localized spectral filtering[C]// Proceedings of the 30th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2016: 3844-3852.
[36] Meteorological Development Laboratory/Office of Science and Technology/National Weather Service/NOAA/U.S. Department of Commerce. TDL U.S. and Canada surface hourly observations[DB/OL]. [2022-11-12].https://rda.ucar.edu/datasets/ds472.0/.
[37] YAO H, TANG X, WEI H, et al. Revisiting spatial-temporal similarity: a deep learning framework for traffic prediction[C]// AAAI’19/IAAI’19/EAAI’19: Proceedings of the 33rd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2019: 5668-5675.
[38] ZHENG C, FAN X, WANG C, et al. GMAN: a graph multi-attention network for traffic prediction[C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 1234-1241.
Multi-site wind speed prediction based on graph dynamic attention network
LI Bolu, WU Li, WANG Xiaoying*, HUANG Jianqiang, CAO Tengfei
(,,810016,)
The task of spatio-temporal sequence prediction has a wide range of applications in the fields such as transportation, meteorology and smart city. It is necessary to learn the spatio-temporal characteristics of different data with the combination of external factors such as precipitation and temperature when making station wind speed predictions, which is one of the main tasks in meteorological forecasting. The irregular distribution of meteorological stations and the inherent intermittency of the wind itself bring the challenge of achieving wind speed prediction with high accuracy. In order to consider the influence of multi-site spatial distribution on wind speed to obtain accurate and reliable prediction results, a Graph-based Dynamic Switch-Attention Network (Graph-DSAN) wind speed prediction model was proposed. Firstly, the distances between different sites were used to reconstruct the connection of them. Secondly, the process of local sampling was used to model adjacency matrices of different sampling sizes to achieve the aggregation and transmission of the information between neighbor nodes during the graph convolution process. Thirdly, the results of the graph convolution processed by Spatio-Temporal Position Encoding (STPE) were fed into the Dynamic Attention Encoder (DAE) and Switch-Attention Decoder (SAD) for dynamic attention computation to extract the spatio-temporal correlations. Finally, a multi-step prediction was formed by using autoregression. In experiments on wind speed prediction on 15 sites data in New York State, the designed model was compared with ConvLSTM, Graph Multi-Attention Network (GMAN), Spatio-Temporal Graph Convolutional Network (STGCN), Dynamic Switch-Attention Network (DSAN) and Spatial-Temporal Dynamic Network (STDN). The results show that the Root Mean Square Error (RMSE) of 12 h prediction of Graph-DSAN model is reduced by 28.2%, 6.9%, 27.7%, 14.4% and 8.9% respectively, verifying the accuracy of Graph-DSAN in wind speed prediction.
wind speed prediction; dynamic attention network; graph convolution; attention mechanism
1001-9081(2023)11-3616-09
10.11772/j.issn.1001-9081.2022111749
2022?11?24;
2023?03?10;
國家自然科學(xué)基金資助項(xiàng)目(62162053, 42265010); 清華大學(xué)—寧夏銀川水聯(lián)網(wǎng)數(shù)字治水聯(lián)合研究院橫向課題(SKL?IOW?2020TC2004?01); 青海省科技廳應(yīng)用基礎(chǔ)研究項(xiàng)目(2022?ZJ?701)。
李博錄(1997—),男,甘肅天水人,碩士研究生,主要研究方向:人工智能、時空氣象預(yù)測; 吳利(1992—),女,安徽銅陵人,助教,碩士,主要研究方向:人工智能、高性能計算; 王曉英(1982—),女,吉林大安人,教授,博士,主要研究方向:智能電網(wǎng)、高性能計算、計算機(jī)體系結(jié)構(gòu); 黃建強(qiáng)(1985—),男,陜西西安人,教授,博士,主要研究方向:高性能計算、大數(shù)據(jù)處理; 曹騰飛(1987—),男,湖北鐘祥人,副教授,博士,主要研究方向:智能網(wǎng)絡(luò)優(yōu)化、網(wǎng)絡(luò)攻防。
TP181
A
2023?03?17。
This work is partially supported by National Natural Science Foundation of China (62162053, 42265010), Project of Tsinghua-Ningxia Yinchuan Joint Institute of Internet of Waters on Digital Water Governance (SKL-IOW-2020TC2004-01), Application Basic Research Project of Science and Technology Department of Qinghai Province (2022-ZJ-701).
LI Bolu, born in 1997, M. S. candidate. His research interests include artificial intelligence, spatio-temporal meteorological prediction.
WU Li, born in 1992, M. S., teaching assistant. Her research interests include artificial intelligence, high performance computing.
WANG Xiaoying, born in 1982, Ph. D., professor. Her research interests include smart grid, high performance computing, computer architecture.
HUANG Jianqiang, born in 1985, Ph. D., professor. His research interests include high performance computing, big data processing.
CAO Tengfei, born in 1987, Ph. D., associate professor. His research interests include intelligent network optimization, network attack and defense.