張 波,陸云杰,秦東明,鄒國建
(1. 上海師范大學信息與機電工程學院,上海 200234;2. 同濟大學電子與信息工程學院,上海 201804;3. 上海智能教育大數(shù)據(jù)工程技術(shù)研究中心,上海 200234;4. 中科三清科技有限公司,北京 100089)
城市空氣污染問題日趨嚴重,已經(jīng)給人們的身體健康[1]以及日常生活造成了嚴重的影響[2],相關(guān)環(huán)境部門以及研究人員對空氣質(zhì)量問題的關(guān)注度越來越高[3].隨著信息技術(shù)的飛速發(fā)展,空氣污染預測問題也迎來了全新的研究思維. 利用大數(shù)據(jù)思維與深度學習技術(shù)的結(jié)合對空氣污染進行有效的數(shù)據(jù)分析,進而做出準確的預測是當前環(huán)境科學和計算機科學交叉學科研究的前沿熱點問題[4~6].
目前,城市空氣污染預測主要通過部署多個污染監(jiān)測站點進行數(shù)據(jù)監(jiān)測,然后采用綜合數(shù)據(jù)分析等方法開展. 一般來說,數(shù)據(jù)分析預測,如概率模型法、機器學習方法等,都在這類問題中有廣泛的應(yīng)用,這些研究方法各有特點,如樸素貝葉斯[7]、BP(Back-Propagation)神經(jīng)網(wǎng)絡(luò)[8]等都能在一定規(guī)模的數(shù)據(jù)集下取得比較好的預測效果. 但是這些方法還有一些不足,比如,模型結(jié)構(gòu)及獲取的特征較單一,其計算模式適應(yīng)特定城市條件而缺乏泛化能力;同時,由于站點分布地理位置不均,站點數(shù)據(jù)之間的地理空間關(guān)聯(lián)特征未獲得挖掘,無法充分提取多站點的污染物及氣象大數(shù)據(jù)之間的時序以及空間關(guān)聯(lián)性的問題,使得預測不夠精確. 因此傳統(tǒng)的預測方法仍存在各自的瓶頸有待突破[9~11].
近年來,深度學習方法在各個領(lǐng)域都獲得了突破,比如圖像識別[12]、自然語言處理[13]、生物工程[14]以及時空結(jié)構(gòu)的特征學習與分析[15]等領(lǐng)域,基于深度學習的城市空氣污染物濃度預測也獲得了相應(yīng)的關(guān)注. 通過對大量數(shù)據(jù)的有效訓練,深度學習可以很好地提取數(shù)據(jù)之間的時間與空間關(guān)聯(lián)性,這是傳統(tǒng)預測方法所不具備的.
卷積神經(jīng)網(wǎng)絡(luò)(Convolational Neural Network,CNN)[16,17]已經(jīng)在圖像領(lǐng)域取得了很大的成就,證明其在處理空間數(shù)據(jù)方面具有極其強大的功能. 因此,在處理分布不均勻站點間的污染物數(shù)據(jù)間的空間相關(guān)性時,CNN 能夠獲取多站點間的空間信息,然而僅僅使用CNN 獲取到的空間信息對于解決長時間的時序預測問題是不夠的. 長短期記憶網(wǎng)絡(luò)(Long Short-Term Memo?rg,LSTM)[18]在時間序列數(shù)據(jù)處理方面具有優(yōu)異的性能,而污染物數(shù)據(jù)也是以時間序列數(shù)據(jù)形式呈現(xiàn)的,所以大多數(shù)污染物預測問題使用LSTM 進行預測[19~36]. 但是單獨使用LSTM 預測時考慮到時序數(shù)據(jù)間的長時間依賴關(guān)系,且其結(jié)構(gòu)僅能進行單點的預測,例如根據(jù)輸入的歷史24 h數(shù)據(jù),單獨地預測未來25 h、26 h的數(shù)據(jù),不能根據(jù)上一時刻的預測輸出作為下一時刻的輸入,做到連續(xù)的預測. 秦東明等人[21]提出的自編碼網(wǎng)絡(luò)空氣污染預測模型正是基于LSTM 的,該模型的編碼解碼部分均由多層的LSTM 堆疊構(gòu)成,并且該模型可以解決LSTM 做長時間預測時的缺點,但是該文章僅根據(jù)單城市的綜合歷史污染物數(shù)據(jù)來預測未來單城市的污染物濃度,沒有運用在復雜的分布不均勻的多站點間的污染物濃度預測中. 現(xiàn)有的應(yīng)用在城市空氣污染預測的深度學習模型雖然能夠取得一定的預測效果,但是都面臨著以下幾個問題:
(1)站點地理分布不均,無法提取數(shù)據(jù)間深層次的空間以及時間關(guān)聯(lián)關(guān)系,從而難以實現(xiàn)特定地點預測水平的提升;
(2)不能同時融合時空特征,有效地連續(xù)預測未來一段時間內(nèi)的污染物情況;
(3)由于模型結(jié)構(gòu)以空間或時間為主,多維度數(shù)據(jù)的利用能力不足,提取數(shù)據(jù)內(nèi)部關(guān)聯(lián)特征能力單一,導致模型的泛化能力不足.
針對傳統(tǒng)機器學習方法的不足,本文提出了CAELearning(Learning net based on CNN and Auto-Encoder)模型. 此前的研究大多聚焦于以單城市內(nèi)的綜合污染物數(shù)據(jù)來進行單城市的污染物濃度預測[21,33,34],并未考慮城市內(nèi)多個分布不均勻站點之間的時空關(guān)系特征來進行聯(lián)合預測. 針對該問題,本文模型提取到城市內(nèi)多個分布不均勻站點之間的污染物濃度及氣象數(shù)據(jù)在空間及時間上的關(guān)聯(lián)性,實現(xiàn)了多站點間的聯(lián)合預測.CAE-Learning 從模型的串行角度考慮污染物和氣象數(shù)據(jù)時空特性的耦合關(guān)系. 本文在模型的構(gòu)建過程中,從多站點污染物濃度和氣象數(shù)據(jù)的特性角度出發(fā),選擇合適的網(wǎng)絡(luò)作為構(gòu)建CAE-Learning 模型的重要組成部分,充分考慮了多個城市污染數(shù)據(jù)的時空關(guān)聯(lián)特征,從數(shù)據(jù)和模型的角度出發(fā)進行預測. 從數(shù)據(jù)的角度,多個城市之間的數(shù)據(jù)在空間上存在著相互的關(guān)聯(lián)特性,因此在污染物濃度預測的過程中應(yīng)該充分考慮空間關(guān)聯(lián)特征[31];在時間維度上,污染物具有動態(tài)變化的過程[20],且目標任務(wù)是預測未來一段時間內(nèi)的污染物濃度;從模型的角度,CNN 在提取空間關(guān)聯(lián)數(shù)據(jù)特征上具有巨大的優(yōu)勢,因此使用CNN 作為模型的底層來提取空間關(guān)聯(lián)特征[37].LSTM 的端到端模型的優(yōu)勢在于能處理長時間序列預測任務(wù),因此使用基于LSTM 的端到端模型作為長時間污染物濃度序列預測的生成器,實現(xiàn)污染物濃度的精準預測[21]. 本文提出的新型CAELearning 污染物濃度預測模型,其使用串行的連接方式來提取多城市污染物濃度和氣象數(shù)據(jù)的時空關(guān)聯(lián)特征. 本文使用CAE-Learning 網(wǎng)絡(luò)結(jié)構(gòu)來做多城市污染物濃度和氣象數(shù)據(jù)的時空特征提取器,實現(xiàn)目標城市未來一段時間內(nèi)污染物濃度的精準預測.
根據(jù)數(shù)據(jù)的特性,構(gòu)建CNN和基于LSTM端到端模型的CAE-Learning. 首先,針對多站點的污染物濃度和氣象數(shù)據(jù)的空間特征,模型采用的是多維卷積CNN 作為空間關(guān)聯(lián)特征提取器. 多維卷積CNN 可以提取輸入數(shù)據(jù)的空間關(guān)聯(lián)特征[37],針對具有空間特性的環(huán)境污染數(shù)據(jù)進行更深度的提取,產(chǎn)生高維的語義特征信息.提取后的信息作為后續(xù)的端到端模型的輸入. 而基于LSTM 的端到端模型架構(gòu),其Encoder 以及Decoder 部分均由LSTM 組成. Encoder 部分結(jié)合了時間以及空間的特征,即每一個時間點,Encoder 部分的LSTM 均能提取到數(shù)據(jù)間的空間關(guān)聯(lián)特性,在整個輸入時間序列維度上來說,提取到的是時間和空間兩個方面的特征.De?coder 部分根據(jù)Encoder 部分的輸出和上一時刻的輸入迭代完成長時間污染物濃度序列預測任務(wù),即Decoder部分每一時刻的預測值均進行了相互的強關(guān)聯(lián)[38]. 該多站點聯(lián)合預測模型可以根據(jù)過去72 h 的多站點的污染物濃度以及氣象數(shù)據(jù)來預測未來24 h 的特定站點的污染物濃度,實現(xiàn)了對未來長時間內(nèi)的污染物濃度的連續(xù)精準性預測. 在測試集上的實驗結(jié)果表明,提出的CAE-Learning 模型在不同城市的預測上均可以獲得較高的精確度,模型具有較高的泛化性.
CAE-Learning 模型在處理空氣污染預測問題時具有如下貢獻:
(1)能有效地將單城市多站點間的污染物濃度和氣象數(shù)據(jù)進行結(jié)合,多維卷積的CNN 能夠聯(lián)合多站點間的污染物濃度和氣象數(shù)據(jù)特征做到深層的空間相關(guān)性提取,能夠從環(huán)境污染大數(shù)據(jù)的空間關(guān)聯(lián)特征角度去進一步提升預測模型的精確度,并且模型的卷積部分,采用了全卷積方法,去除了池化層帶來的大幅度特征損耗問題,充分地提取污染物與氣象數(shù)據(jù)的空間特征[39].
(2)引入了端到端的編碼預測模型,輕量化了基于LSTM 的自編碼模型的復雜度,能夠充分提取多站點間空氣污染物和氣象數(shù)據(jù)的時間關(guān)聯(lián)性,降低了模型的過擬合問題,避免了梯度消失和梯度爆炸問題,能夠從時序數(shù)據(jù)的角度進一步提升預測模型的精確度.
(3)本文使用的是新型預測模型,且綜合了時空域特征問題,解決傳統(tǒng)模型的特征提取深度不足以及特征關(guān)聯(lián)度不強等問題. 模型可以將預測的污染物濃度結(jié)果進行前后關(guān)聯(lián),對未來一段時間內(nèi)污染物濃度連續(xù)性預測的精確度有了很大的提升.
空氣污染濃度預測方法可以分為傳統(tǒng)的非深度學習方法和基于深度學習的方法.
非深度學習方法用于空氣污染濃度預測,包括基于經(jīng)驗?zāi)P汀⒒诟怕誓P?、基于傳統(tǒng)機器學習的預測.
(1)基于經(jīng)驗?zāi)P偷念A測,根據(jù)相關(guān)數(shù)據(jù)通過歸納參數(shù)和變量之間的關(guān)系得出相應(yīng)的數(shù)學關(guān)系式. 如經(jīng)驗統(tǒng)計方法[22]、回歸方程法[23]. 但是在進行環(huán)境空氣污染物濃度預報時,經(jīng)驗?zāi)P屯罅康匾霘v史觀測數(shù)據(jù),有很大的局限性,不符合實際情況.
(2)基于概率模型的預測,以概率統(tǒng)計規(guī)律為基礎(chǔ),結(jié)合統(tǒng)計學或數(shù)學的一些方法建模. 例如,用決策樹模型來預測大氣污染物[24];以高斯預測概率密度函數(shù)的形式產(chǎn)生概率預報[25];利用貝葉斯算法研究不同來源的污染物對其預測濃度的影響[26];用隱半馬爾可夫模型進行污染物濃度預測[27].
(3)基于傳統(tǒng)機器學習的預測,最早應(yīng)用于環(huán)境空氣污染預測領(lǐng)域的智能算法. 在傳統(tǒng)的機器學習預測中,BP神經(jīng)網(wǎng)絡(luò)經(jīng)常被用來做預測[28,29],該方法能夠在小規(guī)模的數(shù)據(jù)集上取得有效的預測結(jié)果,然而大規(guī)模的空氣污染濃度及氣象數(shù)據(jù)之間具有時間依賴以及空間相關(guān)性,而BP 神經(jīng)網(wǎng)絡(luò)無法挖掘數(shù)據(jù)間的這些深層次聯(lián)系. 比起深度學習,傳統(tǒng)機器學習不能挖掘數(shù)據(jù)中深層次的聯(lián)系而無法建立更精確的預測模型.
深度學習方法[30]能夠通過合適的訓練方法對樣本數(shù)據(jù)進行一系列的訓練,并反向調(diào)整網(wǎng)絡(luò)參數(shù),最后得到具有深層次的網(wǎng)絡(luò)結(jié)構(gòu)的機器學習過程. 由于傳統(tǒng)預測方法的不足,近年來學術(shù)界開始嘗試采用深度學習方法進行城市環(huán)境空氣污染預測的工作[31]. 而深度學習雖然是機器學習的一種,但是比起傳統(tǒng)機器學習方法,深度學習方法在預測時能夠充分地提取數(shù)據(jù)間的關(guān)聯(lián)特征,并在此基礎(chǔ)上建立更為精準的預測模型.目前國內(nèi)外研究者已經(jīng)使用深度學習方法開發(fā)出多種空氣質(zhì)量預測模型,如使用深度集成模型[32]進行空氣質(zhì)量的預測,使用擴散卷積神經(jīng)網(wǎng)絡(luò)[33]進行精確的空氣質(zhì)量預測,使用自編碼網(wǎng)絡(luò)[21]做空氣污染物濃度變化的預測,采用深度學習進行空氣質(zhì)量的插值、預測、特征分析[34],采用新型的時空長短期網(wǎng)絡(luò)[35]進行空氣污染預測.
(1)深度集成模型利用歷史空氣質(zhì)量及氣象數(shù)據(jù)以及不同的天氣模式劃分不同的區(qū)域,對每個區(qū)域采用深度LSTM 學習數(shù)據(jù)間的長短期依賴關(guān)系,再對每個區(qū)域得到的預測結(jié)果進行集成,得到最終的預測結(jié)果.
(2)擴散卷積神經(jīng)網(wǎng)絡(luò)在進行空氣質(zhì)量預測時,利用鄰域特征來表示空間相關(guān)性,并構(gòu)建一個圖,表示監(jiān)測站點之間的相似程度. 該模型根據(jù)過去數(shù)小時的空氣質(zhì)量、氣象數(shù)據(jù)及地理環(huán)境的圖像,來預測單城市的特定污染物的濃度變化.
(3)自編碼網(wǎng)絡(luò)預測空氣污染物濃度變化時,根據(jù)城市內(nèi)綜合的歷史空氣污染物濃度數(shù)據(jù),利用自編碼網(wǎng)絡(luò)的特性,使用編碼器對已知時間范圍內(nèi)的歷史污染物數(shù)據(jù)進行學習,輸出一段包含歷史數(shù)據(jù)特征的隱藏向量;進而使用解碼器利用這段隱藏向量預測未來短期時間的污染物濃度,達到對城市內(nèi)綜合污染物濃度變化預測的目的.
(4)利用深度學習方法解決了空氣質(zhì)量的插值、預測、特征分析這三個問題,并且在實現(xiàn)過程中,在深度學習網(wǎng)絡(luò)的不同層次中嵌入半監(jiān)督學習,來提高插值、預測的性能,最后實驗表明該模型可以在單城市的數(shù)據(jù)集里面解決上述問題.
(5)新型時空長短期網(wǎng)絡(luò)結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)及長短期記憶神經(jīng)網(wǎng)絡(luò),在使用該網(wǎng)絡(luò)對城市內(nèi)污染物濃度進行預測時,對污染物數(shù)據(jù)進行時空特征提取后,再加入氣象數(shù)據(jù)及氣溶膠數(shù)據(jù),幫助模型更好地預測空氣污染物的變化.
以上基于深度學習的研究方法大多著力于解決單城市內(nèi)的綜合污染物數(shù)據(jù)來進行單城市的污染物濃度預測[21,33,34],并沒有考慮到城市內(nèi)多個分布不均勻站點之間的空間及時間關(guān)聯(lián)性對城市內(nèi)單個站點的污染物濃度變化的影響,也并未做到對未來一段時間內(nèi)的空氣污染物濃度變化情況的連續(xù)性預測. 相比而言,本文提出的CAE-Learning模型,由CNN及基于LSTM 的自編碼網(wǎng)絡(luò)構(gòu)成,突出城市內(nèi)多個區(qū)域的空氣污染物及氣象數(shù)據(jù)聯(lián)合對特定位置預測的能力,其特點在于:實現(xiàn)了輕量化端到端的編碼預測模型[21];避免池化層的大幅度特征損耗問題,充分地提取空間關(guān)聯(lián)特征.
本文提出的CAE-Learning 預測模型融合了CNN 及基于多層LSTM 的自編碼網(wǎng)絡(luò),可以有效地對城市內(nèi)多站點數(shù)據(jù)間的時間、空間關(guān)聯(lián)特征都做到充分的提取.由于城市內(nèi)多個站點的污染物以及氣象數(shù)據(jù)在空間上具有空間關(guān)聯(lián)性,并且CNN 由于其模型結(jié)構(gòu),相比于其他深度學習、神經(jīng)網(wǎng)絡(luò)模型而言,其空間信息提取能力要更強,所以CNN 在提取空間關(guān)聯(lián)信息上具有很強的優(yōu)勢[35]. 而污染物濃度在時間維度上是具有前后動態(tài)性的,是隨著時間進行變化的過程. 同時LSTM 神經(jīng)網(wǎng)絡(luò)很適合于提取長時間序列的特征[39],相較于其他模型,該模型的時序信息提取能力更強、更好. 所以根據(jù)污染物濃度的特性以及LSTM 的特點,采用LSTM 作為時序信息提取器. 而為了得到未來24 h 的污染物濃度的預測值,采用了端到端的模型架構(gòu),并且Encoder 以及Decoder 部分均采取LSTM 網(wǎng)絡(luò),進行有效的時序信息的提取. 相較于在之前的時空污染物濃度預測任務(wù)中取得最好預測效果的串行耦合的CNN-LSTM[37]而言,本文在提取空間信息時也采用CNN,但是在后續(xù)的時序信息獲取時,為了能夠更精確地根據(jù)歷史多個小時多站點組成的污染物濃度數(shù)據(jù)來預測未來24 h 的特定污染物濃度預測值,采用了基于LSTM 的端到端預測模型,獲得了更好的預測效果. 本節(jié)先介紹時空預測問題的建模,再介紹CAE-Learning 模型的實現(xiàn)及訓練過程.
本文的多站點聯(lián)合預測問題主要是解決時空融合的時間序列預測問題,根據(jù)城市內(nèi)多站點間空氣污染物濃度及相關(guān)氣象數(shù)據(jù)來對特定目標站點的污染物濃度進行預測. 如圖1 所示,圖1 左側(cè)部分為多個相鄰站點及目標站點之間的聯(lián)合預測示意圖,其中每個站點的數(shù)據(jù)特征都由污染物濃度及氣象因子構(gòu)成. 由多個站點及其特征組成一個二維的矩陣,根據(jù)輸入的具有時空特性的二維矩陣得到輸出的一個一維向量,即所要得到的時間序列預測.
圖1 多站點的時空關(guān)系圖
具體時空預測問題建模的數(shù)據(jù)流表示為:給定多個站點S={s1,s2,…,st,…,sn},其中st為目標站點,其余站點為相鄰站點,n為站點總數(shù). 例如站點s1包含污染物濃度及氣象數(shù)據(jù)的時間序列數(shù)據(jù)Rs1={r1,r2,…,rt,…,rk},其中,rt為待預測的目標污染物PM2.5,w為每個站點包含的污染物濃度及氣象數(shù)據(jù)特征數(shù). 在當前多站點數(shù)據(jù)集下,數(shù)據(jù)的輸入格式、輸入時間間隔以及未來污染物濃度預測的時間序列的長度為:給定一個時間點t,將t之前的D小時內(nèi)的數(shù)據(jù)作為歷史輸入數(shù)據(jù),數(shù)據(jù)時間間隔為1 h,令T1={t-D,t-D+1,…,t}為t之前的D小時內(nèi)輸入到預測模型中的數(shù)據(jù)序列,用于預測之后M個小時T2={t+1,t+2,…,t+M}的目標污染物rt的濃度,預測數(shù)據(jù)的時間間隔也為1,且每個時間點的輸入數(shù)據(jù)為一個n×w的二維矩陣Ii. 圖2 表示由城市內(nèi)多站點間的時間序列數(shù)據(jù)組成的二維矩陣數(shù)據(jù)流,作為模型的輸入數(shù)據(jù)形式.
圖2 輸入模型的數(shù)據(jù)形式
輸入數(shù)據(jù)時間間隔為1,將t之前的D小時內(nèi)的數(shù)據(jù)表示為I={It-D,It-D+1,…,It},其中I的維度為D×(n×w),對于M小時后預測的目標污染物的濃度序列時間間隔也為1,t之后的預測序列數(shù)據(jù)表示為P={Pt+1,Pt+2,…,Pt+M},其中P的維度為(M×1),將CAELearning 模型表示為目標函數(shù)fCAE,可得數(shù)學模型表達式為
模型從空間和時間兩個維度出發(fā),設(shè)計了一種以CNN 作為底層以提取空間關(guān)聯(lián)特征,基于多層LSTM 的自編碼網(wǎng)絡(luò)作為中間層以提取時間序列特征,全連接層作為頂層以產(chǎn)生最終預測結(jié)果的三層架構(gòu)的預測模型CAE-Learning. CAE-Learning 的整體模型框架如圖3所示. 首先模型的輸入為時間序列D的城市內(nèi)多個站點的空氣污染物濃度數(shù)據(jù)和氣象數(shù)據(jù),然后數(shù)據(jù)進入具有卷積層和池化層的CNN 中進行空間關(guān)聯(lián)性特征提取,將提取過的特征數(shù)據(jù)輸入到自編碼網(wǎng)絡(luò)的編碼器中進行時間關(guān)聯(lián)特征提取,并最終將自編碼網(wǎng)絡(luò)的解碼器的每個時刻隱藏狀態(tài)送入到全連接層產(chǎn)生一個一維的預測結(jié)果,即需要的PM2.5的預測結(jié)果. 下面分別介紹CNN、自編碼網(wǎng)絡(luò)兩個模型的預訓練過程以及最終CAE-Learning的全局訓練過程.
圖3 CAE-Learning預測模型框架
(1)CNN的預訓練過程
在對CNN 訓練之前需要做的是對數(shù)據(jù)的預處理工作:首先對數(shù)據(jù)進行空值填充后再歸一化,然后將輸入污染物濃度數(shù)據(jù)和氣象數(shù)據(jù)轉(zhuǎn)化成CNN 可接收的具有時間序列的二維矩陣,然后再輸入到CNN 中進行空間特征的提取. 本階段的預訓練是用前一時刻的污染物濃度和氣象數(shù)據(jù)作為CNN 的輸入,再利用全連接層接收卷積神經(jīng)網(wǎng)絡(luò)的輸出并產(chǎn)生下一時刻的目標污染物濃度預測值. 令η為當前卷積神經(jīng)網(wǎng)絡(luò)模塊正在訓練的層數(shù),m代表最終提取到的特征圖,卷積層的上一層輸出的特征圖由該卷積層的卷積核k進行特征提取并學習,f為Relu 激活函數(shù),通過激活函數(shù)對卷積的結(jié)果進行非線性變換而得到輸出的特征圖,i,j均為特征圖下標,M為特征圖的通道數(shù),即
特征圖經(jīng)過CNN 中的卷積層卷積過后,得到N個特征圖作為池化層的輸入,本模型中的池化層通過平均池化方法對N個特征圖進行降維,將輸出N個縮小后的特征圖,過程如下:
其中,β和b分別作為輸出圖像的相乘性質(zhì)和加性偏置,down(?)表示下采樣函數(shù),down(?)即為平均池化方法,將這N個特征圖展開成N個一維向量,再經(jīng)過全連接層的解碼,最后得到輸出的污染物濃度值.
這一階段輸入的二維矩陣為t時刻之前D小時的多站點的污染物濃度和氣象數(shù)據(jù),以均方根誤差衡量預測的準確性. 預訓練過程中采用誤差反向傳播算法,將池化層作為考慮的因素并基于所有值更新卷積層的權(quán)重,優(yōu)化網(wǎng)絡(luò)預測性能,減少預測值和觀測值之間的誤差.
這一階段的訓練的主要作用就是將輸入的二維矩陣進行壓縮,同時深層次挖掘數(shù)據(jù)間的空間關(guān)聯(lián)特征.當網(wǎng)絡(luò)符合期望后,停止第一階段網(wǎng)絡(luò)的訓練,將本階段訓練好的CNN 權(quán)重參數(shù)遷移到本節(jié)提出的CAELearning模型當中,然后進入第二階段的訓練.
(2)自編碼網(wǎng)絡(luò)的預訓練過程
為了有效利用現(xiàn)有污染物濃度和氣象數(shù)據(jù)來提取數(shù)據(jù)間的時序特征,并能夠預測未來一段時間內(nèi)的污染物濃度,本文采用了一個基于多層LSTM 的自編碼網(wǎng)絡(luò),其解碼與編碼部分都由多層的LSTM 組成,LSTM 所具有的解決長時間依賴問題的能力和避免梯度消失問題的優(yōu)點,可以應(yīng)用這些優(yōu)點來解決時序預測問題. 自編碼網(wǎng)絡(luò)的編碼器部分用來提取輸入序列的時間關(guān)聯(lián)特征,解碼器部分則將每個時刻的隱藏狀態(tài)輸入到全連接層產(chǎn)生最終的預測結(jié)果.
如圖4 所示,自編碼網(wǎng)絡(luò)先由LSTM 構(gòu)成的編碼器部分來提取出城市空氣污染物濃度和氣象數(shù)據(jù)的時序特征,實現(xiàn)對歷史污染物的濃度和氣象數(shù)據(jù)的編碼,然后形成一個具有時序特征的隱藏向量C,隱藏向量作為解碼器端的輸入,進一步做時序預測.
圖4 自編碼網(wǎng)絡(luò)模型結(jié)構(gòu)圖
(a)編碼器部分的設(shè)計
假設(shè)給定輸入序列X=(x1,…,xt,…,xT),則隱藏向量C為
其中,xt為t時刻的輸入值;ht-1為上一個時刻長短期記憶網(wǎng)絡(luò)輸出的隱藏狀態(tài);f為LSTM 函數(shù);ht為t時刻的隱藏狀態(tài);ρ為隱藏狀態(tài)計算函數(shù),可由式(5)得出;向量C為LSTM中的最后時刻單元的輸出狀態(tài). 式(5)中,i,f,o分別表示LSTM 中的輸入門、遺忘門和輸出門;Ct表示神經(jīng)單元的狀態(tài)信息;x表示網(wǎng)絡(luò)輸入;W表示網(wǎng)絡(luò)參數(shù);b表示偏置量;h表示隱藏狀態(tài);σ表示sigmoid函數(shù),輸出0~1 的值,表示讓多少信息通過,1 表示讓所有信息都通過. 由式(4)得到的隱藏向量C會作為解碼器的輸入. 同樣由多層LSTM 組成的解碼器會將最后一層的LSTM 的隱藏狀態(tài)作為整個編碼器的最終輸出狀態(tài),此時編碼器的任務(wù)結(jié)束.
(b)解碼器部分的設(shè)計
解碼器主要功能是結(jié)合語境向量C和當前時刻的輸入數(shù)據(jù)預測下一時刻的污染物濃度.
解碼器的主要計算方法如下:
其中,f為LSTM 函數(shù),其函數(shù)的實現(xiàn)形式如式(5)所示;st是當前時刻t的隱藏狀態(tài);ht-1為上一時刻的輸出值;st-1為t-1 時刻的隱藏狀態(tài);C為編碼器輸出的語境向量;ht為t時刻輸出;pt為t時刻污染物濃度的預測輸出;W和b為模型參數(shù).
在自編碼網(wǎng)絡(luò)中,編碼器和解碼器使用同類型LSTM 結(jié)構(gòu),一個用來編碼輸入序列,另一個用來解碼輸出序列. 其中,編碼器和解碼器中的LSTM 層數(shù)是可以調(diào)節(jié)的.
(c)自編碼網(wǎng)絡(luò)的預訓練過程
(I)在自編碼網(wǎng)絡(luò)的訓練過程中,首先對編碼器的第一層LSTM 參數(shù)進行隨機初始化,利用自編碼網(wǎng)絡(luò)可以通過無監(jiān)督的預訓練過程學習到數(shù)據(jù)之間的關(guān)聯(lián)特征的優(yōu)點,進行參數(shù)調(diào)優(yōu). 自編碼網(wǎng)絡(luò)可以使得每層隱藏層的輸入與隱藏層的輸出最大概率的相同,從而減少輸入的數(shù)據(jù)信息在網(wǎng)絡(luò)層中傳播而產(chǎn)生的信息損耗,自編碼網(wǎng)絡(luò)中每個網(wǎng)絡(luò)隱藏層LSTM 的預訓練過程如式(7)所示,預訓練的目標是輸出數(shù)據(jù)特征x′等于輸入特征x. 在預訓練過程中,選擇L2 范數(shù)的平方來表示誤差函數(shù),用式(8)計算損失函數(shù)大小,并作為衡量無監(jiān)督訓練過程的信息損耗的指標. 計算如下:
其中,x是自編碼網(wǎng)絡(luò)的每個隱藏層LSTM 的輸入(即輸入數(shù)據(jù)單元某時刻的環(huán)境空氣污染物濃度和氣象數(shù)據(jù));X是隱藏層的輸出;Wa?Ru×v;ba?Rv;σa是隱藏層的激活函數(shù)sigmoid(u×v表示的是權(quán)重矩陣維度);x′是隱藏層的輸出,Ws?Ru×v,bs?Rv,σs是隱藏層的激活函數(shù)sigmoid. 這樣在訓練過程中,X就可以看作是x的一種特征表示,同時x′表示為隱藏層的輸出經(jīng)過解碼運算的結(jié)果,可最大程度逼近隱藏層的輸入特征x. 在式(8)中,R(W,b)是權(quán)值衰減的正則化項,由式(8)可知,α為正則化系數(shù),x′i和xi分別表示當前預訓練層的輸出和輸入,n表示輸入數(shù)據(jù)x的特征維度,loss(W,b)為損失函數(shù).
編碼層中的后續(xù)LSTM 層的輸入即為上一層LSTM層的輸出隱藏特征向量X,且都用(I)中相同的訓練方式進行預訓練.
(II)自編碼網(wǎng)絡(luò)的全局微調(diào)過程
全局參數(shù)優(yōu)化過程中,本節(jié)將已預訓練好的編碼器參數(shù)遷移到當前的自編碼網(wǎng)絡(luò)中進行參數(shù)微調(diào). 微調(diào)的過程可以解釋為,將歷史的污染物濃度和氣象數(shù)據(jù)輸入到編碼器中進行時序特征提取,自編碼網(wǎng)絡(luò)將編碼器的最終的隱藏狀態(tài)作為解碼器的輸入并產(chǎn)生污染物濃度預測值. 全局微調(diào)的過程中,使用式(11)計算的均方根誤差作為損失函數(shù)計算預測值與觀測值之間的誤差,通過隨機梯度下降算法更新全局權(quán)重,直至模型收斂.
(3)CAE-Learning的全局訓練過程
考慮到深層次的神經(jīng)網(wǎng)絡(luò)在訓練時容易產(chǎn)生過擬合問題,本文在CNN 中加入了dropout 方法來避免過擬合,并且在整個模型中使用隨機梯度下降法,通過誤差反向傳播的方式計算誤差函數(shù)來對網(wǎng)絡(luò)全部權(quán)重和偏置值的梯度進行更新,直至模型的性能符合期望,同時避免網(wǎng)絡(luò)對訓練數(shù)據(jù)的過度學習.
為解決深度網(wǎng)絡(luò)在訓練時易出現(xiàn)的過擬合問題,使用EN(Elastic Net)算法進行正則化約束,使目標函數(shù)在訓練的fine-tuning 階段達到最小,EN 的優(yōu)勢也在文獻[36]中被實驗證實,故選用式(10)作為目標函數(shù):
網(wǎng)絡(luò)的目標函數(shù)設(shè)置為均方根誤差和正則項之和. 式(10)等號右側(cè)的前半部分為均方根誤差,Oi是目標污染物的觀測值(觀察值),Pi是目標污染物的預測值,N為預測的時間段污染物濃度時間序列長度;后半部分中引入EN 算法進行正則化約束,λ為一個非負超參數(shù),?包含了整個訓練過程參數(shù),包括卷積層的權(quán)值矩陣、池化層的權(quán)值矩陣、自編碼網(wǎng)絡(luò)內(nèi)部神經(jīng)元之間傳遞信息的權(quán)值矩陣、全連接層的權(quán)值矩陣,ζ為控制L1,L2 懲罰大小使用的比例參數(shù),ζ?(0,1).
本文將單城市多個站點的污染物濃度和氣象數(shù)據(jù)作為實驗對象,環(huán)境空氣污染物PM2.5濃度為目標污染物. 本節(jié)實驗?zāi)繕顺鞘袨樯虾#溆? 個城市環(huán)境空氣質(zhì)量監(jiān)測站點,分別為十五廠、虹口、上師大、楊浦四漂、青浦淀山湖、靜安、浦東川沙、浦東新區(qū)和浦東張江,各個站點在地圖上的位置如圖5 所示. 圖5 展示了上海市各個空氣質(zhì)量監(jiān)測站點對特定目標站點(徐匯上海師范大學站)的多站點聯(lián)合預測示意圖.
圖5 上海市多站點聯(lián)合預測示意圖
數(shù)據(jù)的時間跨度從2014年5月13日到2018年3月24日,其中包括環(huán)境空氣污染物數(shù)據(jù)以及氣象數(shù)據(jù),監(jiān)測時間間隔為一個小時. 其中訓練數(shù)據(jù)有275 221 條,測試數(shù)據(jù)有17 830 條,數(shù)據(jù)特征包括:時間、PM2.5、AQI、PM10、SO2、NO2、O3、CO、氣溫、大氣壓、風向、風速、云量、氣象條件、相對濕度和累積降雨量. 通過利用計算空值或異常值前后非空數(shù)據(jù)的平均值來填充數(shù)據(jù)集中的空值和異常值的方法來完成對實驗數(shù)據(jù)集中空值和異常值的預處理工作,然后將數(shù)據(jù)歸一化到[0,1]之間并整理成模型可接收的標準化數(shù)據(jù)格式.
在每個站點的16 個特征屬性中,AQI、PM10、SO2、NO2、O3、CO 為相關(guān)污染物濃度特征數(shù)據(jù),氣溫、大氣壓、風向、風速、云量、氣象條件、相對濕度和累積降雨量為氣象特征數(shù)據(jù),PM2.5為目標污染物濃度,模型輸入數(shù)據(jù)是過去72 h 內(nèi)的上海市內(nèi)所有9 個監(jiān)測站點各個特征屬性值的小時平均值,輸出是特定一個站點(徐匯上海師范大學站)未來24 h 的PM2.5濃度的小時平均值序列. 在訓練及測試時,模型每次獲取訓練數(shù)據(jù)集的時間長度為96 h,每次移動時間窗口為1,直到訓練集或測試集中的數(shù)據(jù)讀取完,完成一次數(shù)據(jù)集的訓練或測試. 連續(xù)輸入72 h 的數(shù)據(jù)包含上海市內(nèi)所有監(jiān)測站點的污染物濃度和氣象數(shù)據(jù)的2 維矩陣,未來24 h 的污染物濃度觀測值在訓練階段用于調(diào)整模型參數(shù),在測試階段用于評估模型的預測性能.
選擇利用城市內(nèi)多個站點而不是一個站點的數(shù)據(jù)來預測目標站點的目標污染物濃度可提升預測目標站點污染物PM2.5濃度的精確度[20]. 實驗中,本文提出的預測模型和其他的對比模型均會在同一個測試集上進行10 次的預測實驗,其預測結(jié)果的均方根誤差的最終值為10 次實驗誤差的平均值,最大迭代次數(shù)為100 次. 關(guān)于數(shù)據(jù)集的其他詳細說明可見表1.
表1 數(shù)據(jù)集詳細參數(shù)
實驗采用均方根誤差(Root-Mean-Square Error,RMSE)、平均絕對誤差(Mean Absolute Error,MAE)和相關(guān)系數(shù)(Corr)作為衡量預測精確度,RMSE、MAE和Corr的計算式如下:
其中,Oi是目標污染物的觀測值(觀察值);Pi是目標污染物的預測值;N表示測試集的大??;Cov(O,P)為觀測值和預測值的協(xié)方差;Var[O]和Var[P]分別是觀測值和預測值的方差.RMSE 和MAE 的值越小,Corr 的值越大,證明預測的準確度越高.
以下分析本文提出的CAE-Learning 融合神經(jīng)網(wǎng)絡(luò)和對比模型在測試數(shù)據(jù)集上不同迭代次數(shù)下的擬合趨勢,以及為了對比CAE-Learning 性能,選用了3 種經(jīng)典模型(BP 神經(jīng)網(wǎng)絡(luò)、RNN 和LSTM)作對比. 同時為了驗證CNN和基于LSTM的自編碼網(wǎng)絡(luò)串行耦合的有效性,加入了CNN 單模型、CNN 與RNN 串行耦合的CNNRNN 模型、CNN 與LSTM 串行耦合的CNN-LSTM[37]模型,以及并行耦合的CNN+LSTM模型作為對比實驗. 每個模型在測試的過程中使用的數(shù)據(jù)集和CAE-Learning所用相同,且都選擇了相同迭代次數(shù)的擬合趨勢進行比較,分別是10 代、30 代、50 代、70 代、90 代和100 代,每個模型的訓練都是預測值向著真實值不斷趨近的過程.
本文在主要考慮空間特征的時候,使用CNN 作為空間關(guān)聯(lián)特征提取方法,得出的實驗結(jié)果是RMSE 為27.068,僅使用LSTM 作時間序列預測,主要考慮時間關(guān)聯(lián)特征時,實驗結(jié)果是RMSE 為9.668,綜合比較CNN、RNN、LSTM 以及CAE-Learning 模型,當綜合時空特征的時候,實驗效果要比僅考慮空間特征或時間特征的模型效果要好.
圖6 即為CAE-Learning 模型在根據(jù)過去72 h 的多站點污染物數(shù)據(jù)及氣象數(shù)據(jù)對未來24 h 內(nèi)的PM2.5的濃度作出的預測情況的擬合曲線. 從圖6 可以看出,CAE-Learning 模型可以達到很好的擬合效果,只在第10 代的時候誤差較大,但是接下來的擬合情況都有明顯提升,在整體預測趨勢以及精確度方面都達到了很好的預測效果,能夠使預測值無限接近于真實值,RMSE 平均值低至8.880(下文會有表格詳細描述).
圖6 CAE-Learning的多站點聯(lián)合預測結(jié)果
圖7 為CNN-LSTM 模型的擬合結(jié)果圖,從圖中可以看出,該模型在50 次迭代之前精確度比較低,50 代之后才慢慢有較好的擬合趨勢. 作為CAE-Learning 的對比實驗,在提取空間信息時采用相同的CNN 結(jié)構(gòu)的情況下,由于基于多層LSTM 組成的自編碼網(wǎng)絡(luò)能夠根據(jù)編碼器中提取到的上一時刻的信息,輸入到解碼器中作下一時刻的預測,其對時間序列的提取效果較單獨的LSTM 模型會有較大的提升. 從圖6、圖7 的實驗結(jié)果對比中也可以發(fā)現(xiàn),自編碼網(wǎng)絡(luò)在整體的預測趨勢及精確度上要優(yōu)于LSTM,且預測穩(wěn)定性較高.從而可以比較得出,基于LSTM 的自編碼網(wǎng)絡(luò)比傳統(tǒng)的LSTM 模型在較長時間內(nèi)的時序預測方面性能更好.
圖7 CNN-LSTM的多站點聯(lián)合預測結(jié)果
對比模型CNN-RNN 在相同的訓練數(shù)據(jù)集下,與CAE-Learning 模型以及CNN-LSTM 模型比較而言,擬合的效果稍顯遜色. 從表2 的評價指標來看,CNNRNN 的RMSE 值為15.710,CNN-LSTM 的RMSE 值為9.173,CAE-Learning 的RMSE 值為8.880,從中可以得出,在空間信息提取器均為CNN 的情況下,采用端到端模型作為后續(xù)的時序提取模型會取得更好的預測效果.
相較于CNN-LSTM 以及CNN-RNN 等串行耦合的預測模型而言,CNN+LSTM 模型采用了并行的模型融合方式對時空數(shù)據(jù)進行耦合,如圖8 所示. 即在訓練過程中,同時對CNN 以及LSTM 進行訓練,以并行的耦合方式同時獲取多站點數(shù)據(jù)之間的時間、空間特性,對CNN 以及LSTM 得到的預測結(jié)果進行綜合,得到兩個模型的并行的耦合結(jié)果的融合. 由于并行的CNN+LSTM 模型在時空信息提取的過程當中,CNN 與LSTM兩個模型會同時提取到數(shù)據(jù)集中的時間及空間信息,最終進行融合的時候,會一定程度上造成信息的冗余. 結(jié)合實驗結(jié)果來看,CNN+LSTM 模型的預測值與真實值之間的擬合程度隨著模型迭代次數(shù)的增加反而呈現(xiàn)降低的趨勢,最終的RMSE 值為22.902,與CAE-Learning 以及CNN-LSTM、CNN-RNN 等串行的時空信息提取模型相比較而言,預測的結(jié)果也相對較差.
CNN 單模型、LSTM 單模型、RNN 單模型以及BP 神經(jīng)網(wǎng)絡(luò)模型的實驗效果均與CAE-Learning 的預測結(jié)果存在一定的差距. 其中,CNN單模型能夠更好地獲取空間信息,體現(xiàn)在實驗數(shù)據(jù)上的是CNN 取得的相關(guān)性系數(shù)比較高;而LSTM 單模型能夠較好地獲取時序信息,迭代次數(shù)越多,可以得到更好的預測效果,但是由于其自身無法捕獲長時間數(shù)據(jù)依賴,最終預測效果不如本文提出CAE-Learning 模型;BP 神經(jīng)網(wǎng)絡(luò)的最終預測效果在3個網(wǎng)絡(luò)中最差.
為了更直觀地展示本文提出的CAE-Learning 模型的優(yōu)勢,每個模型訓練1 次收斂的時間(用訓練時間表示)以及在測試集上最終的RMSE、MAE 和相關(guān)系數(shù)Corr(計算方法參考式(11)、式(12)和式(13))在表2 中列出.
Corr 的值表示預測值和觀測值之間的關(guān)聯(lián)度,Corr的值越高,表示兩者關(guān)聯(lián)度越高,模型的性能越好. 當Corr 的值達到1 時,表示預測值和觀測值完全相關(guān). 實驗結(jié)果分析如下.
(1)將LSTM 與其他單模型進行對比,由于LSTM 在處理時間序列預測任務(wù)時,比RNN、CNN、BP 網(wǎng)絡(luò)具有更好的適用性,所以LSTM 在實驗結(jié)果上也要比其他模型好,從表2 中也可以獲得與模型機理一樣的實驗結(jié)果:LSTM 的RMSE 的值最小可達9.688,Corr 的值最大可達到0.958,優(yōu)于其他的單模型.
(2)將CNN 和其他的單模型進行對比,CNN 具有提取污染物與氣象數(shù)據(jù)的相關(guān)性的能力,雖然其在時序預測效果上與其他單模型有一定差距,但是其在預測污染物變化的趨勢上具有一定的優(yōu)勢. 從圖8以及表2中也可以發(fā)現(xiàn)這一特點,CNN 的相關(guān)系數(shù)最大可以達到0.980,這表明在考慮了污染物和氣象數(shù)據(jù)的空間相關(guān)性后,可以更準確模擬出污染物濃度的變化趨勢. 而CNN 的RMSE 及MAE 值均比其他單模型高,即比其他單模型在時序預測上效果要差.
圖8 CNN+LSTM并行的多站點聯(lián)合預測結(jié)果
表2 每個模型的RMSE、MAE、相關(guān)系數(shù)和訓練時間
(3)CAE-Learning 與CNN-LSTM、CNN-RNN 以及并行的CNN+LSTM 模型進行比較,由于CNN-LSTM 可以由CNN 提取污染物數(shù)據(jù)及氣象數(shù)據(jù)間的空間關(guān)聯(lián)性,再由LSTM 來提取時序關(guān)系,因此可以達到比其他單模型以及組合模型都要好的預測效果. 從表2及圖6、圖7可以看出,CNN-LSTM 的預測效果僅次于CAE-Learn?ing,其RMSE 最低可以達到9.173.CAE-Learning由于其結(jié)合了基于多層LSTM 的自編碼網(wǎng)絡(luò)和多維卷積CNN的優(yōu)勢進行污染物濃度預測任務(wù),能夠充分挖掘數(shù)據(jù)間的時空相關(guān)性,從表2及圖6可以看出,與其他模型相比較,該模型在PM2.5預測方面具有最好的預測效果及性能,RMSE 的值最小可以達到8.880,Corr 值最高可達到0.980.
為了驗證模型的可遷移性以及泛化性能,選取杭州、蘇州、重慶、北京作為驗證CAE-Learning 模型泛化性能的城市,做城市內(nèi)多站點污染物濃度的聯(lián)合預測,并與在上一節(jié)中預測效果僅次于CAE-Learning的CNNLSTM 進行比較,證明CAE-Learning 的泛化效果. 選取的城市的每個監(jiān)測站點的數(shù)據(jù)特征和時間跨度與上海市監(jiān)測站完全相同.
(1)杭州市實驗結(jié)果
實驗將杭州和睦小學作為目標站點,預測該站點的PM2.5濃度變化,其余的濱江、西溪、千島湖、下沙、臥龍橋、浙江農(nóng)大、朝暉五區(qū)、臨平鎮(zhèn)、城廂鎮(zhèn)、云棲,這10 個站點作為相關(guān)站點,做時空預測. 實驗結(jié)果如圖9、圖10及表3所示.
表3 模型在杭州市數(shù)據(jù)集下的RMSE、MAE、相關(guān)系數(shù)和訓練時間
圖9 CAE-Learning的多站點聯(lián)合預測結(jié)果
圖10 CNN-LSTM的多站點聯(lián)合預測結(jié)果
(2)蘇州市實驗結(jié)果
實驗將蘇州相城區(qū)作為目標站點,預測該站點的PM2.5濃度變化,其余的上方山、南門、彩香、軋鋼廠、吳中區(qū)、蘇州新區(qū)、蘇州工業(yè)園區(qū),這7 個站點作為相關(guān)站點,做時空預測. 實驗結(jié)果如圖11、圖12 和表4所示.
表4 模型在蘇州市數(shù)據(jù)集下的RMSE、MAE、相關(guān)系數(shù)和訓練時間
圖11 CAE-Learning的多站點聯(lián)合預測結(jié)果
圖12 CNN-LSTM的多站點聯(lián)合預測結(jié)果
(3)重慶市實驗結(jié)果
實驗將南坪作為目標站點,預測該站點的PM2.5濃度變化,其余的縉云山、高家花園、天生、兩路、虎溪、唐家沱、茶園、白市驛、解放碑、楊家坪、空港、新山村、禮嘉、蔡家、魚新街、南泉,這16 個站點作為相關(guān)站點,做時空預測. 實驗結(jié)果如圖13、圖14和表5所示.
表5 模型在重慶市數(shù)據(jù)集下的RMSE、MAE、相關(guān)系數(shù)和訓練時間
圖13 CAE-Learning的多站點聯(lián)合預測結(jié)果
圖14 CNN-LSTM的多站點聯(lián)合預測結(jié)果
(4)北京市實驗結(jié)果
實驗將順義新城作為目標站點,預測該站點的PM2.5濃度變化,其余的萬壽西宮、定陵、東四、天壇、農(nóng)展館、官園、海淀區(qū)萬柳、懷柔鎮(zhèn)、昌平鎮(zhèn)、奧體中心、古城,這11 個站點作為相關(guān)站點,做時空預測. 實驗結(jié)果如圖15、圖16和表6所示.
圖15 CAE-Learning的多站點聯(lián)合預測結(jié)果
圖16 CNN-LSTM的多站點聯(lián)合預測結(jié)果
表6 模型在北京市數(shù)據(jù)集下的RMSE、MAE、相關(guān)系數(shù)和訓練時間
通過CAE-Learning 及CNN-LSTM 兩個模型在杭州、蘇州、重慶、北京這4個城市的空氣污染濃度預測實驗上的對比可以發(fā)現(xiàn),本文提出的CAE-Learning 模型遷移到其他城市做多站點聯(lián)合預測時,還是可以充分發(fā)揮其模型的內(nèi)在優(yōu)勢的,能深度提取多站點間的時空關(guān)系,對長時間序列預測問題能夠做到有效的預測.在迭代到100代的時候,不同城市多站點間的實驗結(jié)果都表明:CAE-Learning 比CNN-LSTM 對真實值的擬合程度更高,預測效果更好. 從表3、表6中列出的評價指標RMSE、MAE 和相關(guān)系數(shù)Corr 的比較中也驗證了CAELearning的預測效果更好.
本文利用城市內(nèi)多站點的監(jiān)測數(shù)據(jù),提出了基于CNN 和自編碼網(wǎng)絡(luò)的時空融合模型(CAE-Learning)來聯(lián)合預測目標站點目標污染物濃度的方法.CNN 是模型的底部,用于提取空間特征,卷積和池化后獲得數(shù)據(jù)之間的相關(guān)性. 基于LSTM 的自編碼網(wǎng)絡(luò)是模型的頂部,用于提取輸入的時間序列特征.
CAE-Learning 模型對應(yīng)的預測任務(wù)是用單城市多個監(jiān)測站點的污染物濃度數(shù)據(jù)和氣象數(shù)據(jù)作為模型的初始特征輸入,來預測特定目標站點未來N小時內(nèi)的污染物濃度. 從基于真實數(shù)據(jù)的實驗證明,對于時空融合的時間序列預測問題,CAE-Learning和其他對比模型相比有很好的預測性能,在上海市的測試數(shù)據(jù)集上獲得了不錯的預測效果后,在杭州、蘇州、重慶、北京這4個城市也有著很好的表現(xiàn),具有較好的泛化能力. 與傳統(tǒng)模型相比,CAE-Learning不僅考慮了空間關(guān)聯(lián)性——城市內(nèi)多站點之間污染物濃度的相互影響,而且考慮了污染物濃度的時間關(guān)聯(lián)性——污染物濃度前后時間段內(nèi)的相互影響,從而使實驗的預測效果有了明顯的提升.
該模型相對于傳統(tǒng)機器學習方法和單一經(jīng)典網(wǎng)絡(luò)有較好的性能提升,已經(jīng)多次在國家級區(qū)域空氣污染監(jiān)測預報任務(wù)中作為實際輔助模型之一得到應(yīng)用,體現(xiàn)出較好的應(yīng)用效果和價值. 但由于數(shù)據(jù)方面的限制,該模型在不同地形、不同氣候帶、不同城市群特征、多模態(tài)數(shù)據(jù)等細化環(huán)境下的性能狀態(tài)仍有待檢驗. 因此,未來的研究工作將集中在多種類、多模態(tài)氣象及污染物數(shù)據(jù)間的維度分析、語義提取、關(guān)聯(lián)性分析及多個預測模型的融合方面,進一步提升最終預測的精確度.