尹文君,張大偉,嚴(yán)京海,張超,李云婷,芮曉光
(1.IBM中國(guó)研究院,北京 100193;2. 北京市環(huán)境保護(hù)監(jiān)測(cè)中心,大氣顆粒物監(jiān)測(cè)技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100048)
基于深度學(xué)習(xí)的大數(shù)據(jù)空氣污染預(yù)報(bào)
尹文君1,張大偉2*,嚴(yán)京海2,張超1,李云婷2,芮曉光1
(1.IBM中國(guó)研究院,北京 100193;2. 北京市環(huán)境保護(hù)監(jiān)測(cè)中心,大氣顆粒物監(jiān)測(cè)技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100048)
摘 要為了更好地反映環(huán)境污染變化趨勢(shì),為環(huán)境管理決策提供及時(shí)、全面的環(huán)境質(zhì)量信息,預(yù)防嚴(yán)重污染事件發(fā)生,開(kāi)展城市空氣質(zhì)量預(yù)報(bào)研究是十分必要的。本文針對(duì)環(huán)境大數(shù)據(jù)時(shí)代下的城市空氣質(zhì)量預(yù)報(bào),提出了一種基于深度學(xué)習(xí)的新方法。該方法通過(guò)模擬人類(lèi)大腦的神經(jīng)連接結(jié)構(gòu),將數(shù)據(jù)在原空間的特征表示轉(zhuǎn)換到具有語(yǔ)義特征的新特征空間,自動(dòng)地學(xué)習(xí)得到層次化的特征表示,從而提高預(yù)報(bào)性能。得益于這種方式,新方法與傳統(tǒng)方法相比,不僅可以利用空氣質(zhì)量監(jiān)測(cè)、氣象監(jiān)測(cè)及預(yù)報(bào)等環(huán)境大數(shù)據(jù),充分考慮污染物的時(shí)空變化、空間分布,得到語(yǔ)義性的污染物變化規(guī)律,還可以基于其他空氣污染預(yù)測(cè)方法的結(jié)果(如數(shù)值預(yù)報(bào)模式),自動(dòng)分析其適用范圍、優(yōu)勢(shì)劣勢(shì)。因此,新方法通過(guò)模擬人腦思考過(guò)程實(shí)現(xiàn)更充分的大數(shù)據(jù)集成,一定程度上克服了現(xiàn)有方法的缺陷,應(yīng)用上更加具有靈活性和可操作性。最后,通過(guò)實(shí)驗(yàn)證明新方法可以提高空氣污染預(yù)報(bào)性能。
關(guān)鍵詞空氣污染預(yù)報(bào);深度學(xué)習(xí);深度信念網(wǎng)絡(luò);大數(shù)據(jù)
隨著我國(guó)可持續(xù)發(fā)展理念認(rèn)知的不斷深入,在大力開(kāi)展經(jīng)濟(jì)建設(shè)的同時(shí),生態(tài)文明建設(shè)也日益加強(qiáng)。環(huán)境污染的防治成為國(guó)家發(fā)展建設(shè)中的一項(xiàng)重要工作,其中的大氣污染防治更是成為重中之重。
當(dāng)前,我國(guó)面臨非常嚴(yán)峻的大氣污染形勢(shì)。2015 年6月公布的由環(huán)保部組織編寫(xiě)的《2014中國(guó)環(huán)境狀況公報(bào)》披露,我國(guó)開(kāi)展空氣質(zhì)量新標(biāo)準(zhǔn)監(jiān)測(cè)的161個(gè)地級(jí)及以上城市中,空氣質(zhì)量達(dá)標(biāo)的城市僅有16個(gè)(約9.9%);首批開(kāi)展PM2.5監(jiān)測(cè)的74個(gè)城市中,不達(dá)標(biāo)的高達(dá)66個(gè)(約89.2%),PM2.5濃度的年均值(64μg/m3)更是超過(guò)了世界衛(wèi)生組織空氣質(zhì)量導(dǎo)則值的6倍。為了應(yīng)對(duì)當(dāng)前大氣污染形勢(shì),國(guó)家陸續(xù)出臺(tái)了一系列的政策法規(guī)。2013年9月,國(guó)務(wù)院發(fā)布《大氣污染防治行動(dòng)計(jì)劃》,明確了空氣質(zhì)量評(píng)價(jià)主要污染物的短期改善目標(biāo)。2015年8月,中華人民共和國(guó)第十二屆全國(guó)人民代表大會(huì)修訂通過(guò)了《中華人民共和國(guó)大氣污染防治法》,該法自2016年1月1日起施行。顯然,大氣污染防治已經(jīng)成為國(guó)家發(fā)展戰(zhàn)略中的一個(gè)重大課題。
在國(guó)務(wù)院部署的大氣污染防治十條措施①2013年6月14日,國(guó)務(wù)院總理李克強(qiáng)主持召開(kāi)國(guó)務(wù)院常務(wù)會(huì)議,部署大氣污染防治十條措施。中,除從根源上減少大氣污染物的排放等措施,政府對(duì)重污染天氣的應(yīng)急處理也被強(qiáng)調(diào)??諝馕廴绢A(yù)報(bào)對(duì)于政府應(yīng)急管理重污染天氣有著重要意義,不僅能警示公眾合理回避高污染天氣,還能為政府實(shí)施重污染企業(yè)限產(chǎn)限排、機(jī)動(dòng)車(chē)限行等恰當(dāng)?shù)臏p緩大氣污染應(yīng)急措施提供時(shí)間裕量。同時(shí),空氣污染預(yù)報(bào)也是實(shí)現(xiàn)科學(xué)決策、綜合管理環(huán)境以加強(qiáng)空氣污染防治的有效技術(shù)手段,是將相關(guān)環(huán)境監(jiān)測(cè)信息快速轉(zhuǎn)化為空氣污染防治決策依據(jù)的重要形式。正因如此,空氣污染預(yù)報(bào)受到國(guó)家的高度重視,根據(jù)《國(guó)務(wù)院關(guān)于印發(fā)大氣污染防治行動(dòng)計(jì)劃的通知》(國(guó)發(fā)〔2013〕37 號(hào))的要求,京津冀、長(zhǎng)三角、珠三角區(qū)域于2014年年底前完成區(qū)域、省、市級(jí)重污染天氣監(jiān)測(cè)預(yù)警系統(tǒng)建設(shè),其他?。▍^(qū)、市)、副省級(jí)市、省會(huì)城市于2015年年底完成??諝馕廴绢A(yù)報(bào)作為重污染天氣監(jiān)測(cè)預(yù)警系統(tǒng)中核心的功能,其預(yù)報(bào)準(zhǔn)確性對(duì)整個(gè)系統(tǒng)的作用有著重要的影響。空氣污染預(yù)報(bào)是一項(xiàng)復(fù)雜的系統(tǒng)工程,如何提高預(yù)報(bào)準(zhǔn)確性是當(dāng)今大氣污染防治領(lǐng)域研究的熱點(diǎn)與難題。
盡管空氣污染預(yù)報(bào)方法在近幾十年取得了長(zhǎng)遠(yuǎn)的發(fā)展[1],但仍存在不足。深度學(xué)習(xí)是近年來(lái)人工智能領(lǐng)域提出的一種新穎的機(jī)器學(xué)習(xí)方法。深度學(xué)習(xí)能通過(guò)訓(xùn)練大數(shù)據(jù),挖掘、捕捉大數(shù)據(jù)之間的深層聯(lián)系,提高分類(lèi)和預(yù)測(cè)準(zhǔn)確性,是一種有效的大數(shù)據(jù)處理方法。另外,深度學(xué)習(xí)模型的訓(xùn)練較快,且隨著訓(xùn)練樣本的增加,能呈現(xiàn)出比一般方法更優(yōu)地性能成長(zhǎng)性?;谏疃葘W(xué)習(xí)的空氣污染預(yù)報(bào)模型能較好地克服已有預(yù)報(bào)方法的不足,原因如下:①近年來(lái),隨著國(guó)家對(duì)環(huán)境監(jiān)測(cè)的重視和投入的增大,大量空氣污染物實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)得到長(zhǎng)期積累,包括空氣污染物濃度、氣象條件等。在環(huán)境大數(shù)據(jù)背景下,深度學(xué)習(xí)技術(shù)可以利用整合海量的、多來(lái)源的環(huán)保數(shù)據(jù),利用充足的觀測(cè)數(shù)據(jù)作為訓(xùn)練樣本,保證基于深度學(xué)習(xí)的空氣污染預(yù)報(bào)模型具有較高的準(zhǔn)確性。②深度學(xué)習(xí)模型能深度挖掘影響污染物濃度的各因子之間內(nèi)在的數(shù)據(jù)關(guān)系,建立起較為準(zhǔn)確的空氣污染物濃度與影響因子之間復(fù)雜機(jī)制模型的代理模型。深度挖掘提取高級(jí)的、語(yǔ)義的空氣質(zhì)量變化的模式和規(guī)律,有機(jī)融合多種模型及專(zhuān)家知識(shí),實(shí)現(xiàn)有效的空氣質(zhì)量分析。③深度學(xué)習(xí)模型具有較強(qiáng)的擴(kuò)展性,通過(guò)合理設(shè)置輸入因子的方式,能將其他方法集成到該模型中,能在一定程度上避免單一空氣污染預(yù)報(bào)模型的缺陷和不確定性,提高預(yù)報(bào)準(zhǔn)確度?;谏鲜鲈颍狙芯炕诃h(huán)境大數(shù)據(jù),提出一種有效的基于深度學(xué)習(xí)的大數(shù)據(jù)空氣污染預(yù)報(bào)模型。
空氣污染預(yù)報(bào)是根據(jù)過(guò)去空氣污染物排放情況以及次日的氣象條件、大氣擴(kuò)散狀況、地理地貌等因素,來(lái)預(yù)測(cè)次日該地區(qū)的空氣污染程度[1]。空氣污染預(yù)報(bào)方法可分為潛勢(shì)預(yù)報(bào)、數(shù)值預(yù)報(bào)和統(tǒng)計(jì)預(yù)報(bào)。
潛勢(shì)預(yù)報(bào)是基于天氣預(yù)報(bào)的“二次預(yù)報(bào)”,通過(guò)設(shè)定天氣形勢(shì)和氣象指標(biāo)臨界值作為預(yù)報(bào)依據(jù),預(yù)報(bào)可能影響空氣污染物擴(kuò)散和稀釋的特有的氣象條件[3]。由于潛勢(shì)預(yù)報(bào)不考慮污染源因素,又與天氣預(yù)報(bào)的準(zhǔn)確度相關(guān),一般預(yù)報(bào)準(zhǔn)確度不高。目前,潛勢(shì)預(yù)報(bào)通常不獨(dú)立使用,而是與其他方法配合使用。
數(shù)值預(yù)報(bào)是一種以空氣動(dòng)力學(xué)理論為基礎(chǔ),基于物理化學(xué)過(guò)程的確定性預(yù)報(bào)方法,利用數(shù)學(xué)方法建立大氣污染濃度在空氣中的稀釋擴(kuò)散的數(shù)值模型,通過(guò)計(jì)算機(jī)高速計(jì)算來(lái)預(yù)報(bào)大氣污染物濃度在空氣中的動(dòng)態(tài)變化[1]。國(guó)外空氣污染預(yù)報(bào)工作起步較早,目前國(guó)際上已經(jīng)開(kāi)發(fā)出多種數(shù)值預(yù)報(bào)的空氣質(zhì)量模型,如歐拉模型中的城市大氣質(zhì)量模型(urban airshed model, UAM)[4]、區(qū)域多尺度空氣質(zhì)量模型(community multiscale air quality, CMAQ)[5]。近二十年來(lái),國(guó)內(nèi)研究者也陸續(xù)開(kāi)發(fā)出一批數(shù)值預(yù)報(bào)模型。中國(guó)科學(xué)院的雷孝恩[6]建立了對(duì)流層高分辨率化學(xué)預(yù)報(bào)模型,該模型可預(yù)報(bào)對(duì)流層內(nèi)多種氣體污染物的時(shí)空分布及演變過(guò)程。中國(guó)氣象科學(xué)研究院的徐大海[7]建立了大氣平流擴(kuò)散的非靜穩(wěn)多箱模型,該模型可以預(yù)報(bào)空氣污染潛勢(shì)和污染指數(shù)。中國(guó)科學(xué)院大氣物理研究所的王自發(fā)[8]建立了嵌套網(wǎng)格空氣質(zhì)量預(yù)報(bào)系統(tǒng),該系統(tǒng)利用中尺度氣象數(shù)值模型得到未來(lái)天氣形勢(shì),同時(shí)考慮污染排放源情況,結(jié)合嵌套網(wǎng)格空氣質(zhì)量預(yù)報(bào)系統(tǒng),最終給出空氣質(zhì)量預(yù)報(bào)結(jié)果。中國(guó)氣象局沈陽(yáng)大氣環(huán)境研究所[9]在氣象中尺度數(shù)值預(yù)報(bào)模型MM5和ADMS城市模型大氣擴(kuò)散模型的基礎(chǔ)上,分析城市空氣污染數(shù)值預(yù)報(bào)要素,結(jié)合污染源排放清單,建立了城市空氣質(zhì)量預(yù)報(bào)系統(tǒng)。數(shù)值預(yù)報(bào)方法存在以下不足:①數(shù)值預(yù)報(bào)方法往往適合區(qū)域性的空氣污染預(yù)測(cè),而對(duì)于城市范圍的空氣污染預(yù)測(cè),由于復(fù)雜的地面流場(chǎng)和湍流結(jié)構(gòu),難以準(zhǔn)確估計(jì)城市邊界層大氣的物化過(guò)程,使得預(yù)測(cè)效果并不盡如人意;②數(shù)值預(yù)報(bào)需要十分翔實(shí)的污染源資料,由于實(shí)際中難以獲得,通常采用簡(jiǎn)單假設(shè)或者忽略的方式,導(dǎo)致數(shù)值預(yù)報(bào)準(zhǔn)確性受限;③數(shù)值預(yù)報(bào)方法計(jì)算復(fù)雜度高,預(yù)測(cè)計(jì)算耗時(shí)較長(zhǎng)(通常需要6~12h)[2],致使預(yù)報(bào)時(shí)效性不強(qiáng)。由于理論上的不足以及應(yīng)用條件的高要求,數(shù)值預(yù)報(bào)方法有待進(jìn)一步的完善。
統(tǒng)計(jì)預(yù)報(bào)不依賴于污染物的物理、化學(xué)與生態(tài)過(guò)程,通過(guò)分析空氣污染相關(guān)的輸入-輸出資料的統(tǒng)計(jì)規(guī)律,對(duì)未來(lái)趨勢(shì)進(jìn)行預(yù)測(cè)。統(tǒng)計(jì)預(yù)報(bào)由于具有快捷、簡(jiǎn)單的特點(diǎn),受到許多研究者的關(guān)注。經(jīng)典的統(tǒng)計(jì)預(yù)報(bào)方法包括時(shí)間序列分析[10]、多元回歸模型[11-12]、神經(jīng)網(wǎng)絡(luò)模型[13-16]等。統(tǒng)計(jì)預(yù)報(bào)方法存在以下不足:①時(shí)間序列分析法和多元回歸模型法由于對(duì)空氣污染變化做了較多的假設(shè),并簡(jiǎn)化了較多的影響因子,使得方法的預(yù)報(bào)準(zhǔn)確性不高。②人工神經(jīng)網(wǎng)絡(luò)模型由于大量可用的訓(xùn)練數(shù)據(jù)導(dǎo)致過(guò)擬合的現(xiàn)象,神經(jīng)網(wǎng)絡(luò)的泛化能力有待提高。此外,由于空氣污染涉及大量影響因子,合理確定網(wǎng)絡(luò)結(jié)構(gòu)的過(guò)程較為復(fù)雜,且復(fù)雜網(wǎng)絡(luò)的訓(xùn)練耗時(shí)較長(zhǎng)。③無(wú)法對(duì)多來(lái)源的數(shù)據(jù)(結(jié)構(gòu)化、非結(jié)構(gòu)化)進(jìn)行有效融合與分析,無(wú)法實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的有效全量分析。
深度學(xué)習(xí)[17]是指基于樣本數(shù)據(jù)通過(guò)一定的訓(xùn)練方法得到包含多個(gè)層級(jí)的深度網(wǎng)絡(luò)結(jié)構(gòu)的機(jī)器學(xué)習(xí)過(guò)程。深度學(xué)習(xí)模型分為前饋深度網(wǎng)絡(luò)、反饋深度網(wǎng)絡(luò)和雙向深度網(wǎng)絡(luò)。深度信念網(wǎng)絡(luò)是一種經(jīng)典的雙向深度網(wǎng)絡(luò),被廣泛應(yīng)用于圖像分類(lèi)、語(yǔ)音識(shí)別等領(lǐng)域[18],具有較強(qiáng)的分類(lèi)、預(yù)測(cè)能力。因此,本文基于深度信念網(wǎng)絡(luò)提出空氣污染預(yù)報(bào)模型。
2.1 深度信念網(wǎng)絡(luò)
深度信念網(wǎng)絡(luò)(deep belief network, DBN)是由多層限制玻爾茲曼機(jī)(restricted Boltzmann machine, RBM)網(wǎng)絡(luò)和一層反向傳播(back-propagation, BP)網(wǎng)絡(luò)組成的,如圖1所示。在深度信念網(wǎng)絡(luò)中,上一層RBM網(wǎng)絡(luò)經(jīng)過(guò)學(xué)習(xí)得到的特征輸出作為下一層的輸入,使每層能更好地抽象出上一層的特征,逐層提取數(shù)據(jù)特征。而頂層的BP網(wǎng)絡(luò)以RBM網(wǎng)絡(luò)提取的特征作為輸入,用于分類(lèi)或者預(yù)測(cè)。
圖1 深度信念網(wǎng)絡(luò)結(jié)構(gòu)
RBM由可視層V和隱層H構(gòu)成,如圖2所示。可視層用于輸入特征數(shù)據(jù),隱層用于特征檢測(cè)器??梢晫优c隱層層內(nèi)各節(jié)點(diǎn)彼此之間無(wú)連接,即每個(gè)節(jié)點(diǎn)取值相互獨(dú)立。隱層各節(jié)點(diǎn)只能隨機(jī)取值0或者1,同時(shí)全概率分布P(V, H)滿足玻爾茲曼分布,通過(guò)全概率分布可以確定條件分布p(h|v)和p(v|h)。當(dāng)輸入v時(shí),通過(guò)p(h|v)可以得到隱層h,而得到隱層h之后,通過(guò)p(v|h)又能得到可視層,通過(guò)調(diào)整參數(shù),使得從隱層得到的可視層v'與原來(lái)的可視層v一樣,即得到隱層為可視層的另外一種表達(dá)。因此,隱層可以作為可視層輸入數(shù)據(jù)的特征。
RBM在給定模型參數(shù)(θ)條件下的聯(lián)合分布為:
其中,i,j為節(jié)點(diǎn);Wij為可視層單元和隱層單元之間的連接權(quán)值;bi和aj為偏置量。
BP神經(jīng)網(wǎng)絡(luò)由輸入層、隱層和輸出層三層神經(jīng)元組成,其結(jié)構(gòu)如圖3所示。DBN中的BP網(wǎng)絡(luò)可以理解為有監(jiān)督學(xué)習(xí)的分類(lèi)器。
圖2 RBM結(jié)構(gòu)
圖3 BP網(wǎng)絡(luò)結(jié)構(gòu)
2.2 基于DBN的空氣污染預(yù)報(bào)模型
2.2.1 模型結(jié)構(gòu)
DBN結(jié)構(gòu)由第一層RBM可視層節(jié)點(diǎn)數(shù)量、輸出量個(gè)數(shù)、DBN網(wǎng)絡(luò)深度(RBM網(wǎng)絡(luò)層數(shù)),以及各層隱層節(jié)點(diǎn)數(shù)確定。
第一層RBM可視層節(jié)點(diǎn)數(shù)量由輸入樣本特征數(shù)量決定。本研究中,空氣污染預(yù)報(bào)考慮過(guò)去一天的空氣污染情況、過(guò)去一天和預(yù)報(bào)的污染物擴(kuò)散條件等一共輸入64個(gè)樣本特征。其中,過(guò)去一天的污染物情況,包括PM2.5、PM10、SO2、CO、NOx和O3六種監(jiān)測(cè)污染物濃度的平均值,以及空氣質(zhì)量指數(shù)(air quality index, AQI)平均值。污染物擴(kuò)散條件主要考慮空間上垂直各層的風(fēng)速、風(fēng)向、濕度、溫度和氣壓等。本文的空氣污染預(yù)報(bào)針對(duì)國(guó)家空氣環(huán)境監(jiān)測(cè)的六種空氣污染物PM2.5、PM10、SO2、CO、NOx和O3,每種污染物根據(jù)標(biāo)準(zhǔn)有各自的等級(jí)。
DBN網(wǎng)絡(luò)深度對(duì)模型性能影響較大。研究證明,若RBM層數(shù)增加,則DBN的建模能力增強(qiáng),更高層的隱層可能挖掘出更抽象的特征表示,提高網(wǎng)絡(luò)的預(yù)測(cè)性能[19];但過(guò)多的層數(shù),可能導(dǎo)致DBN的泛化能力降低,容易出現(xiàn)過(guò)擬合現(xiàn)象[20]。
DBN每個(gè)隱層節(jié)點(diǎn)數(shù)對(duì)模型的性能也有一定的影響[20],指出節(jié)點(diǎn)數(shù)過(guò)少,則模型挖掘數(shù)據(jù)信息性能不強(qiáng);節(jié)點(diǎn)數(shù)過(guò)多,則也容易出現(xiàn)過(guò)擬合現(xiàn)象。
2.2.2 模型訓(xùn)練
DBN模型的訓(xùn)練分為預(yù)訓(xùn)練和微調(diào)兩步。
第1步:分別單獨(dú)無(wú)監(jiān)督地訓(xùn)練每一層 RBM 網(wǎng)絡(luò),通過(guò)非監(jiān)督貪婪逐層方法預(yù)訓(xùn)練獲得生成模型的權(quán)值,確保特征向量映射到不同特征空間時(shí),都盡可能多地保留特征信息。RBM 的訓(xùn)練過(guò)程,實(shí)際上是通過(guò)確定權(quán)值求出一個(gè)最能產(chǎn)生訓(xùn)練樣本的概率分布。也就是說(shuō),求一個(gè)分布,使得在這個(gè)分布下訓(xùn)練樣本的概率最大。
第2步:DBN最后一層的BP網(wǎng)絡(luò),接收RBM的輸出特征向量作為輸入特征向量,有監(jiān)督地訓(xùn)練分類(lèi)器。每一層RBM網(wǎng)絡(luò)調(diào)整自身層內(nèi)的權(quán)值,確保該層特征向量映射達(dá)到最優(yōu),而整個(gè) DBN 的特征向量映射并沒(méi)達(dá)到最優(yōu),所以BP網(wǎng)絡(luò)將錯(cuò)誤信息自頂向下傳播至每一層RBM,微調(diào)整個(gè)DBN網(wǎng)絡(luò)。
本文采用2014年及2015年1~9月北京市空氣質(zhì)量數(shù)據(jù)作為試驗(yàn)數(shù)據(jù),其中,2014年及2015年1~7月的數(shù)據(jù)作為訓(xùn)練DBN預(yù)報(bào)模型的訓(xùn)練數(shù)據(jù),8月的數(shù)據(jù)作為可行性驗(yàn)證數(shù)據(jù),且以9月的數(shù)據(jù)作為預(yù)報(bào)測(cè)試數(shù)據(jù)。
本文分別采用相關(guān)系數(shù)(Corr)和平均絕對(duì)誤差(MAE)作為評(píng)價(jià)指標(biāo)。相關(guān)系數(shù)的計(jì)算公式如下:
其中,n為預(yù)測(cè)樣本點(diǎn)數(shù);Ri和Pi分別為測(cè)試樣本點(diǎn)空氣污染物的實(shí)際平均濃度和預(yù)測(cè)平均濃度;和R分別為Ri的均值和標(biāo)準(zhǔn)差;和P分別為Pi的均值和標(biāo)準(zhǔn)差。
平均絕對(duì)誤差的計(jì)算公式如下:
為了合理地設(shè)置DBN的網(wǎng)絡(luò)深度,我們研究DBN層數(shù){2,3,4}對(duì)模型預(yù)測(cè)性能的影響,設(shè)置每個(gè)隱層節(jié)點(diǎn)數(shù)為100。以平均絕對(duì)誤差MAE作為評(píng)價(jià)指標(biāo),研究結(jié)果如圖4所示。從圖4可知,DBN網(wǎng)絡(luò)深度對(duì)空氣污染預(yù)報(bào)準(zhǔn)確性的影響不大,總體上三層結(jié)構(gòu)模型的預(yù)報(bào)性能最優(yōu)。本研究中,DBN網(wǎng)絡(luò)深度對(duì)預(yù)報(bào)性能的影響不大,主要是由于大量的訓(xùn)練數(shù)據(jù),提供了充足的數(shù)據(jù)信息,使得較少的RBM層數(shù)也能對(duì)數(shù)據(jù)特征進(jìn)行深度挖掘。
圖4 DBN層數(shù)對(duì)預(yù)測(cè)性能的影響
基于上述研究結(jié)果,我們采用三層的DBN模型,進(jìn)一步研究隱層節(jié)點(diǎn)數(shù)對(duì)模型預(yù)測(cè)性能的影響,分別設(shè)置每層隱層節(jié)點(diǎn)數(shù)為50、100、200,同樣以MAE作為評(píng)價(jià)指標(biāo),研究結(jié)果如圖5所示。從圖5可知,當(dāng)隱層節(jié)點(diǎn)數(shù)取100時(shí),模型的整體預(yù)測(cè)性能最優(yōu)。因此,本研究最終將采用三層DBN模型,每個(gè)隱層節(jié)點(diǎn)數(shù)設(shè)為100。
圖5 DBN隱層節(jié)點(diǎn)數(shù)對(duì)預(yù)測(cè)性能的影響
為了驗(yàn)證所提方法的準(zhǔn)確性,將DBN預(yù)報(bào)模型與經(jīng)典的機(jī)器學(xué)習(xí)預(yù)測(cè)模型線性回歸(linear regression,LR)、神經(jīng)網(wǎng)絡(luò)(neural network,NN)、支持向量機(jī)(support vector machine,SVM)、隨機(jī)森林(random forest,RF)以及自回歸積分滑動(dòng)平均模型(autoregressive integrated moving average model,ARIMA)進(jìn)行比較,比較結(jié)果如表1和表2所示。
從表1和表2可知,基于DBN的預(yù)報(bào)模型的預(yù)測(cè)性能在相關(guān)系數(shù)和平均絕對(duì)誤差兩個(gè)評(píng)價(jià)指標(biāo)下都明顯優(yōu)于其他經(jīng)典預(yù)測(cè)模型。這表明,基于深度學(xué)習(xí)的預(yù)報(bào)模型相對(duì)其他經(jīng)典預(yù)報(bào)方法而言,能深度挖掘輸入樣本特征,提取影響污染物濃度的主要因素,降低樣本中噪聲的影響,從而具有較高的預(yù)報(bào)準(zhǔn)確度。
考慮到北京城市空氣質(zhì)量在采暖季和非采暖季特征差異較大,為進(jìn)一步驗(yàn)證基于深度學(xué)習(xí)預(yù)報(bào)模型在不同環(huán)境下的性能,本文以2014年數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),分別針對(duì)2015年1、2月(采暖季)和7月(非采暖季)的空氣質(zhì)量進(jìn)行預(yù)測(cè)測(cè)試,預(yù)報(bào)結(jié)果如表3至表6所示。在1、2月份由于光強(qiáng)較弱,O3濃度相對(duì)較低,波動(dòng)小,預(yù)測(cè)難度?。坏怯捎诓膳救济旱任廴九欧艔?qiáng)度大、逆溫等不利擴(kuò)散條件頻繁,空氣污染物濃度更高、波動(dòng)更大,除O3外,其他污染物預(yù)測(cè)難度變大。表3至表6顯示,即使在高污染情況下,DBN也依然保持了很好的預(yù)測(cè)性能,而其他傳統(tǒng)模型性能顯著下降。
表1 2015年9月空氣污染預(yù)測(cè)的相關(guān)系數(shù)
表2 2015年9月空氣污染預(yù)測(cè)的平均絕對(duì)誤差
表3 2015年1、2月空氣污染預(yù)測(cè)的相關(guān)系數(shù)
表4 2015年1、2月空氣污染預(yù)測(cè)的平均絕對(duì)誤差
表5 2015年7月空氣污染預(yù)測(cè)的相關(guān)系數(shù)
表6 2015年7月空氣污染預(yù)測(cè)的平均絕對(duì)誤差
本文針對(duì)環(huán)境大數(shù)據(jù),探討了大數(shù)據(jù)處理技術(shù)在環(huán)保領(lǐng)域的應(yīng)用,提出了一種基于深度學(xué)習(xí)的大數(shù)據(jù)空氣污染預(yù)報(bào)方法。該方法基于深度信念網(wǎng)絡(luò),建立過(guò)去一天的空氣污染物濃度、空氣污染物天氣擴(kuò)散條件、預(yù)測(cè)的次日天氣等輸入特征量與六大監(jiān)測(cè)空氣污染物濃度之間的統(tǒng)計(jì)模型。利用環(huán)境大數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,充分挖掘空氣質(zhì)量監(jiān)測(cè)大數(shù)據(jù)中的語(yǔ)義特征,實(shí)現(xiàn)基于環(huán)境大數(shù)據(jù)的空氣污染預(yù)報(bào)。通過(guò)與經(jīng)典的機(jī)器學(xué)習(xí)預(yù)測(cè)方法基于相關(guān)性和平均絕對(duì)誤差評(píng)價(jià)指標(biāo)的比較,驗(yàn)證了DBN模型在空氣污染預(yù)報(bào)的有效性。研究表明,基于深度學(xué)習(xí)的預(yù)報(bào)方法能較好地克服傳統(tǒng)空氣污染預(yù)報(bào)方法的缺點(diǎn),尤其在大數(shù)據(jù)背景下,能更好地挖掘空氣質(zhì)量監(jiān)測(cè)大數(shù)據(jù)的價(jià)值,提高環(huán)境大數(shù)據(jù)的應(yīng)用效果。
參考文獻(xiàn)
[1] 任萬(wàn)輝, 蘇樅樅, 趙宏德. 城市環(huán)境空氣污染預(yù)報(bào)研究進(jìn)展[J]. 環(huán)境保護(hù)科學(xué), 2010, 36(3): 9-11.
[2] 王勤耕, 夏思佳, 萬(wàn)祎雪, 等. 當(dāng)前城市空氣污染預(yù)報(bào)方法存在的問(wèn)題及新思路[J]. 環(huán)境科學(xué)與技術(shù), 2009, 32(3): 189-192.
[3] 張美根, 韓志偉, 雷孝恩. 城市空氣污染預(yù)報(bào)方法簡(jiǎn)述[J].氣候與環(huán)境研究, 2001, 6(1): 113-118.
[4] Scheffe R D, Morris R E. A review of the development and application of the Urban Airshed model[J]. Atmospheric Environment. Part B. Urban Atmosphere, 1993, 27(1): 23-39.
[5] Byun D W, Ching J K S. Science Algorithms of the EPA Models-3 Community Multiscale Air Quality (CMAQ) Modeling System[R]. EPA/600/R-99/030, Office of Research and Development, US Environmental Protection Agency, 1999.
[6] 雷孝恩, 韓志偉, 張美根, 等. 城市空氣污染數(shù)值預(yù)報(bào)模式系統(tǒng)[M]. 北京: 氣象出版社, 1998: 1-15.
[7] 徐大海, 朱蓉. 大氣平流擴(kuò)散的非靜穩(wěn)多箱模型與自潔能力預(yù)報(bào)[C]// 第五屆全國(guó)風(fēng)工程及工業(yè)空氣動(dòng)力學(xué)學(xué)術(shù)會(huì)議論文集. 張家界: 中國(guó)空氣動(dòng)力學(xué)會(huì), 1998.
[8] 王自發(fā), 謝付瑩, 王喜全, 等. 嵌套網(wǎng)格空氣質(zhì)量預(yù)報(bào)模式系統(tǒng)的發(fā)展與應(yīng)用[J]. 大氣科學(xué), 2006, 30 (5): 778-790. [9] 楊洪斌, 李英志, 鄒旭東, 等. 城市空氣污染數(shù)值預(yù)報(bào)的技術(shù)關(guān)鍵[J]. 環(huán)境保護(hù)與循環(huán)經(jīng)濟(jì), 2009, 29 (11): 42-45.
[10] Hsu K -J. Time series analysis of the interdependence among air pollutants[J]. Atmospheric Environment. Part B. Urban Atmosphere, 1992, 26 (4): 491-503.
[11] Cardelino C, Chang M, John J S, et al. Ozone predictions in Atlanta, Georgia: analysis of the 1999 ozone season[J]. Journal of the Air & Waste Management Association, 2001, 51 (8): 1227-1236.
[12] 周勢(shì)俊, 宋煜, 吳士杰. Kalman濾波法在城市空氣污染預(yù)報(bào)中的應(yīng)用[J]. 中國(guó)環(huán)境監(jiān)測(cè), 2000, 16(4): 50-52.
[13] Viotti P, Liuti G, di Genova P. Atmospheric urban pollution: applications of an artificial neural network (ANN) to the city of Perugia[J]. Ecological Modelling, 2002, 148 (1): 27-46.
[14] 周秀杰, 蘇小紅, 袁美英. 基于BP網(wǎng)絡(luò)的空氣污染指數(shù)預(yù)報(bào)研究[J]. 哈爾濱工業(yè)大學(xué)學(xué)報(bào), 2004, 36 (5): 582-585.
[15] 俞衛(wèi)忠, 陳建. BP人工神經(jīng)網(wǎng)絡(luò)模型在城市空氣污染預(yù)報(bào)中的應(yīng)用[J]. 污染防治技術(shù), 2013, 26 (3): 55-57.
[16] 王國(guó)勝, 郭聯(lián)金, 董曉清, 等. 深圳市區(qū)空氣污染的人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)[J]. 環(huán)境工程學(xué)報(bào), 2015, 9 (7): 3393-3399.
[17] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18 (7): 1527-1554.
[18] 呂啟, 竇勇, 牛新, 等. 基于DBN模型的遙感圖像分類(lèi)[J].計(jì)算機(jī)研究與發(fā)展, 2014, 51 (9): 1911-1918.
[19] Larochelle H, Bengio Y, Louradour J, et al. Exploring strategies for training deep neural networks[J]. Journal of Machine Learning Research, 2009, 10: 1-40.
[20] Le Roux N, Bengio Y. Representational power of restricted Boltzmann machines and deep belief networks[J]. Neural Computation, 2008, 20 (6): 1631-1649.
Deep Learning based Air Pollutant Forecasting with Big Data
Yin Wenjun1, Zhang Dawei2*, Yan Jinghai2, Zhang Chao1, Li Yunting2, Rui Xiaoguang1
(1.IBM Research - China, Beijing 100193; 2. Beijing Key Lab of Atmospheric Particle Matter Monitoring, Beijing Municipal Environmental Monitoring Center, Beijing 100048)
Abstract:It is necessary to do research about urban air quality forecasting to better refl ect the changing trend of the air pollution and provide prompt and complete environment quality information for environment management decision, as well as to avoid serious air pollution accident. For the urban air quality forecasting in the era of environmental big data, this paper proposes a novel method based on deep learning. Via simulating neural connecting structure of human brain, the deep learning method transforms the feature representation of data in the original space to a new feature space with semantic feature, and obtains hierarchical feature representation automatically to improve the performance of forecasting. Due to the merits of the deep learning, compared with traditional methods, the deep learning based model can not only utilize the environmental big data, including the air quality monitoring, weather monitoring and forecasting, and consider the spatiotemporal change and spatial distribution of air pollutant sufficiently to get the semantic change regulation of air pollutant, but also analyze the scope of its application, advantages and disadvantages based on results of other air quality forecasting methods (such as, numerical forecasting model). Therefore, the deep learning based method realizes the comprehensive integration of big data via simulating the thinking progress of human brain. The novel method is of fl exibility and feasibility for application, and overcomes the weak of the existing forecasting methods. Finally, the numerical test demonstrates that the novel method can improve the performance of air pollutant forecasting.
Keywords:air pollutant forecasting; deep learning; deep brief network; big data
中圖分類(lèi)號(hào):TP391
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1674-6252(2015)06-0046-07:
基金項(xiàng)目:環(huán)保公益性行業(yè)科研專(zhuān)項(xiàng)(201409005);國(guó)家科技支撐計(jì)劃課題(2014BAC23B03)。
作者簡(jiǎn)介:尹文君(1976—),男,博士,主要從事環(huán)境科學(xué)與認(rèn)知計(jì)算等研究。
*責(zé)任作者: 張大偉(1978—),男,高級(jí)工程師,博士,主要從事環(huán)境科學(xué)與工程研究。