程 蓉,錢雪忠
(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院 物聯(lián)網(wǎng)技術(shù)應(yīng)用教育部工程研究中心,江蘇 無錫 214122)
空氣質(zhì)量指數(shù)(air quality index,AQI)是用來定量描述空氣質(zhì)量的無量綱指數(shù),其大小代表空氣的污染程度。主要利用PM2.5、 PM10 、 SO2、 NO2、 CO 、 O3這6項(xiàng)污染物來評(píng)價(jià)空氣質(zhì)量。隨著我國經(jīng)濟(jì)的快速發(fā)展,大氣污染日益嚴(yán)重,霧霾天氣頻頻出現(xiàn),不僅嚴(yán)重威脅著人們的身體健康及地球的氣候系統(tǒng),還造成了我國經(jīng)濟(jì)利益的巨大損失。同時(shí),對(duì)于像南京玄武湖、夫子廟這樣的旅游景區(qū),人來車往,較差的空氣質(zhì)量也給人們的外出旅行帶來了極大困擾。人們?cè)絹碓疥P(guān)注空氣質(zhì)量,希望像天氣預(yù)報(bào)一樣可以提前知曉,以便安排他們的出行活動(dòng)計(jì)劃并提前做好保護(hù)措施。因此,研究局部空氣質(zhì)量的預(yù)測方法,對(duì)人們的健康出行以及國家經(jīng)濟(jì)發(fā)展意義重大。本文是利用南京市玄武湖地區(qū)的歷史天氣數(shù)據(jù)和空氣質(zhì)量數(shù)據(jù),對(duì)該地區(qū)下一日的空氣質(zhì)量進(jìn)行預(yù)測。
目前為止,已經(jīng)提出了許多預(yù)測空氣質(zhì)量的方法。Shamsoddini A等[1]將隨機(jī)森林特征選擇方法與多元線性回歸和多層感知器人工神經(jīng)網(wǎng)絡(luò)相結(jié)合,實(shí)現(xiàn)空氣中PM2.5、 SO2、 NO2、 CO含量的預(yù)測。不僅利用了前一天的空氣污染物的含量,還分析了交通和植被密度對(duì)污染物的影響,有效預(yù)測了空氣中染污物的濃度。Zhang C等[2]基于Spark集群,提出了隨機(jī)森林的空氣質(zhì)量預(yù)測模型,將PM2.5、 PM10、 SO2、 NO2、 CO、 O3作為影響因子,該模型在處理大數(shù)據(jù)集的時(shí)候能夠快速預(yù)測AQI,不僅縮短時(shí)間還具有可擴(kuò)展性,但是忽略了AQI的其它影響因素。Junshan W等[3]考慮到天氣模式和空氣質(zhì)量的時(shí)空依賴性,提出一種深度時(shí)空集合模型,它是由基于天氣模式的分區(qū)策略的集合方法,通過分析各站點(diǎn)間Granger因果關(guān)系并將空間數(shù)據(jù)生成為相對(duì)站點(diǎn)和相對(duì)區(qū)域來發(fā)現(xiàn)溫度的相關(guān)性,基于深度LSTM的時(shí)間預(yù)測器3個(gè)部分組成,并利用北京35個(gè)監(jiān)測站的數(shù)據(jù)評(píng)估模型,驗(yàn)證了該模型優(yōu)于傳統(tǒng)的回歸方法和機(jī)器學(xué)習(xí)。Lifeng W等[4]為了獲取未來空氣質(zhì)量的趨勢,利用分?jǐn)?shù)階累積的FGM(1,1)模型預(yù)測京津冀地區(qū)2017年-2020年P(guān)M2.5、PM10、SO2、NO2、8-h O3、24-h O3年平均濃度。實(shí)驗(yàn)結(jié)果表明,F(xiàn)GM(1,1)模型的預(yù)測性能明顯優(yōu)于傳統(tǒng)的GM(1,1)模型。Gu K等[5]考慮到氣象因子與空氣污染物濃度及幾小時(shí)后的空氣質(zhì)量指數(shù)之間的非線性關(guān)系,采用1小時(shí)中長期預(yù)測模型,遞歸地提出了一種啟發(fā)式的RAQP模型,并驗(yàn)證了該模型的有效性以及通用性,它不僅具有較高的預(yù)測性能,還可以推導(dǎo)出中間時(shí)刻的空氣質(zhì)量指數(shù)。
玄武湖地區(qū)的空氣質(zhì)量不僅受天氣影響,同時(shí)也受該地區(qū)的交通狀況以及人流量的影響。在車流量和人流量較大的情況下,車子排放的尾氣以及人為的污染對(duì)空氣質(zhì)量預(yù)測的影響也很大。所以,空氣質(zhì)量具有很強(qiáng)的非線性特性。針對(duì)空氣質(zhì)量非線性動(dòng)態(tài)變化的特點(diǎn),本文提出一種神經(jīng)隨機(jī)森林局部空氣質(zhì)量預(yù)測方法。
(1)
(2)
隨機(jī)森林是由M棵隨機(jī)的CART回歸樹組合而成的預(yù)測器。對(duì)于模型中的第m棵樹,查詢點(diǎn)x處的預(yù)測值用t(x;Θm,Dn) 表示,其中Θ1,…,ΘM是隨機(jī)變量,分布與一般隨機(jī)變量Θ相同。假設(shè)Θ1,…,ΘM,Θ與Dn相互獨(dú)立,模擬每棵樹結(jié)構(gòu)中引入的額外隨機(jī)變量Θ,用于:①在單棵樹生長之前對(duì)訓(xùn)練集進(jìn)行重新取樣;②通過隨機(jī)的CART標(biāo)準(zhǔn)選擇連續(xù)的分裂方向;③最后,將所有的樹木組合起來,形成森林。式子如下
(3)
(4)
式(2)和式(4)的本質(zhì)區(qū)別在于式(4)是在隨機(jī)選擇的坐標(biāo)子集Mtry上進(jìn)行估計(jì)的,而不是在整個(gè)范圍內(nèi) {1,…,d}。 參數(shù)mtry是為了減少計(jì)算負(fù)擔(dān),并在樹之間創(chuàng)建一些多樣性,與n無關(guān),通常將mtry設(shè)置為d/3。 此外,由于采用了無替換采樣,每棵樹都是在初始樣本中選取的an個(gè)示例的子集上構(gòu)建的,而不是在整個(gè)樣本Dn上。在CART中,當(dāng)每棵樹到達(dá)Kn終端節(jié)點(diǎn)時(shí),停止構(gòu)建單棵樹 (Kn∈{2,…,an},Kn是算法中的一個(gè)參數(shù)),這里每棵樹上的葉節(jié)點(diǎn)樹等于Kn。
一般的框架是非參數(shù)回歸估計(jì),向其中輸入一個(gè)隨機(jī)向量X∈[0,1]d, 然后通過估計(jì)回歸函數(shù)r(x)=Ε[Y|X∈x] 來預(yù)測平方可積隨機(jī)響應(yīng)Y∈R。 根據(jù)這一思路,假設(shè)有一個(gè)訓(xùn)練數(shù)據(jù)集Dn=((X1,Y1),…,(Xn,Yn))且n≥2, 獨(dú)立隨機(jī)變量的分布與獨(dú)立原型對(duì) (X,Y) 相同。Dn用于構(gòu)造函數(shù)r的估計(jì)值r(·;Dn)∶[0,1]d→R。 下文將r(x;Dn) 簡寫成rn(x)。
樹的結(jié)構(gòu)依賴于數(shù)據(jù),每棵樹的結(jié)構(gòu)都是不同的。對(duì)于一棵回歸樹tn, 它的結(jié)構(gòu)最終取決于數(shù)據(jù)Dn, 同時(shí),在每個(gè)K≥2個(gè)終端節(jié)點(diǎn)上取恒定值。Tanno R等[6]提出將樹結(jié)構(gòu)中根到葉的路徑由NN表示,形成自適應(yīng)神經(jīng)決策樹。在本文中,用同樣的思想將回歸樹與神經(jīng)網(wǎng)絡(luò)結(jié)合,但是限制了網(wǎng)絡(luò)的層次,將其構(gòu)建為具有特定連接權(quán)重的神經(jīng)回歸樹。因此,該估計(jì)可以被重新解釋為具有兩個(gè)隱含層和一個(gè)輸出層的三層神經(jīng)網(wǎng)絡(luò)估計(jì)。H={H1,…,HK-1} 為構(gòu)建tn所有超平面的集合,其中jk∈{1,…,d},αjk∈[0,1],hk(x)=x(jk)-αjk, 則HK的形式為HK={x∈[0,1]d∶hk(x)=0}。 為了到達(dá)查詢點(diǎn)x的葉節(jié)點(diǎn),x落在超平面HK的右邊用+1表示,左邊用-1表示。利用這種表示法,樹估計(jì)tn與下面描述的神經(jīng)網(wǎng)絡(luò)相同。
第一個(gè)隱藏層。第一個(gè)隱層的神經(jīng)元對(duì)應(yīng)于K-1感知機(jī)(每個(gè)內(nèi)部樹節(jié)點(diǎn)對(duì)應(yīng)一個(gè)),其激活的定義為
τ(hk(x))=τ(x(jk)-αjk)
(5)
其中,τ(u)=2Ιu≥0-1是閾值激活函數(shù),權(quán)重向量僅是特征jk的單個(gè)單熱矢量, -αjk偏差值。因此,對(duì)于樹中的每個(gè)分裂,第一層有一個(gè)神經(jīng)元,它的活動(dòng)編碼輸入x相對(duì)于相關(guān)分裂的相對(duì)位置??偟膩碚f,第一層輸出±1的向量 (τ(h1(x)),…,τ(hK-1(x))), 它描述了內(nèi)部的所有決策樹節(jié)點(diǎn)(包括x的樹路徑之外的節(jié)點(diǎn))。若x在超平面HK的一側(cè),則τ(hk(x)) 為+1,若在另一側(cè),則τ(hk(x)) 為-1。在這里強(qiáng)調(diào),該層的每個(gè)神經(jīng)元k有且只能連接一個(gè)輸入x(jk), 并且該連接具有權(quán)重1和偏移-αjk。 如圖1所示,給出了一個(gè)列子。由于第一層的這些特殊激活,第二層可以輕松地構(gòu)建x的終端單元。
圖1 回歸樹和相應(yīng)神經(jīng)元
(6)
(7)
(8)
由1.3小節(jié)可知,在神經(jīng)網(wǎng)絡(luò)的設(shè)置中,重新構(gòu)造森林的每棵隨機(jī)樹估計(jì)t(x;Θm,Dn), 1≤m≤M。 得到的M個(gè)網(wǎng)絡(luò)是不同的,因?yàn)樗鼈儗?duì)應(yīng)不同的隨機(jī)樹。由上文可知第m個(gè)網(wǎng)絡(luò)在第一個(gè)隱藏層中具有Kn-1個(gè)神經(jīng)元,而在第二個(gè)隱藏層中具有Kn個(gè)神經(jīng)元。同時(shí)。神經(jīng)元的連接方式和相關(guān)系數(shù)取決于Θm和Dn。 將第m棵樹估計(jì)t(x;Θm,Dn) 作為神經(jīng)網(wǎng)絡(luò)估計(jì)。在Θm和Dn條件下,該網(wǎng)絡(luò)神經(jīng)元的連接方式是固定的,三層的權(quán)重和偏移也是固定的。為了保持網(wǎng)絡(luò)結(jié)構(gòu)的完整,一旦神經(jīng)元之間的連接被樹到網(wǎng)絡(luò)的映射設(shè)計(jì)好了,就可以通過最小化樣本Dn上網(wǎng)絡(luò)的經(jīng)驗(yàn)均方誤差來學(xué)習(xí)更好的網(wǎng)絡(luò)參數(shù)。這種額外的訓(xùn)練可以潛在地改進(jìn)原始隨機(jī)森林的預(yù)測。
為了實(shí)現(xiàn)梯度反向傳播的訓(xùn)練,激活函數(shù)必須是可微的。因此,用雙曲正切激活函數(shù)來代替原始的中繼型激活函數(shù)τ(u)=2Iu≥0-1, 即
(9)
取值范圍為[-1,1]。在第一個(gè)隱藏層中,每個(gè)神經(jīng)元使用σ1(u)=σ(γ1u)。 在第二層神經(jīng)網(wǎng)絡(luò)中,每個(gè)神經(jīng)元使用σ2(u)=σ(γ2u)。 其中,γ1和γ2是決定雙曲正切激活函數(shù)對(duì)比度的正超參數(shù):γ1和γ2越大,從-1到1的轉(zhuǎn)換越快;當(dāng)γ1和γ2接近無窮大時(shí),連續(xù)函數(shù)σ1和σ2收斂到閾值函數(shù)。雙曲正切激活函數(shù)除了提供更好的泛化效果外,還有助于決策邊界的平滑和樹節(jié)點(diǎn)隸屬度的松弛。最后,它們?cè)试S在不連續(xù)階躍激活函數(shù)的平滑近似下進(jìn)行操作。這使得網(wǎng)絡(luò)損耗函數(shù)在各個(gè)參數(shù)上都是可微的,并且可以用反向傳播來訓(xùn)練網(wǎng)絡(luò)。
當(dāng)允許層之間完全連接時(shí),樹結(jié)構(gòu)的松弛可以更進(jìn)一步。在這種情況下,樹結(jié)構(gòu)僅用作相同大小的完全連接網(wǎng)絡(luò)的初始化。在此設(shè)置中,屬于樹結(jié)構(gòu)的所有權(quán)重都具有非零初始化值,而其它權(quán)重是以零開始。在訓(xùn)練過程中,所有的權(quán)重都可以被修改,以便在各個(gè)層之間建立任意的連接。與隨機(jī)初始化相比,初始樹型參數(shù)化提供了很強(qiáng)的誘導(dǎo)偏差,為網(wǎng)絡(luò)提供了有效的熱啟動(dòng)。隨機(jī)初始化包含有價(jià)值的信息,并在反向傳播訓(xùn)練之前就已經(jīng)模擬了CART決策樹的回歸函數(shù)。
綜上所述,可以將M個(gè)CART類型的樹轉(zhuǎn)換為M個(gè)樹類型的神經(jīng)網(wǎng)絡(luò)。接下來,將描述如何組建M個(gè)網(wǎng)絡(luò),將該方法稱為神經(jīng)隨機(jī)森林(下文簡稱為NRF)。
每棵樹型網(wǎng)絡(luò)的參數(shù)是由網(wǎng)絡(luò)相互獨(dú)立地進(jìn)行網(wǎng)絡(luò)擬合的,通過將樹型網(wǎng)絡(luò)進(jìn)行獨(dú)立的訓(xùn)練,然后得到一個(gè)由M個(gè)小神經(jīng)網(wǎng)絡(luò)組成的估計(jì)集合r(·;Θm,Dn), 其中1≤m≤M, 最后求平均形成估計(jì)
(10)
如圖2所示。下文,將r(x;Θ1,…,ΘM,Dn) 簡寫為rM,n(x),rM,n(x) 取決于Θ1,…,ΘM和樣本Dn。
圖2 獨(dú)立訓(xùn)練
下面將介紹在每個(gè)小網(wǎng)絡(luò)上實(shí)施的最小化程序,以及rM,n(x) 的統(tǒng)計(jì)特性??紤]到集合中的第m棵隨機(jī)樹,用g1=g1(Θm,Dn) 表示輸入向量x=(x(1),…,x(d)) 和第一個(gè)隱藏層的Kn-1神經(jīng)元之間連接的二分圖。同樣的,用g2=g2(Θm,Dn) 表示第一個(gè)隱藏層與第二個(gè)隱藏層的Kn神經(jīng)元之間連接的二分圖。
令M(g1) 為d×(Kn-1) 矩陣的集合W1=(aij), 如果(i,j)?g1則aij=0。 同樣的,令M(g2) 為 (Kn-1)×Kn矩陣的集合W2=(bij), 如果 (i,j)?g2則bij=0。 第一個(gè)隱藏層的參數(shù)由g1的權(quán)重M(g1) 的矩陣W1和大小為Kn-1 的偏移的列向量b1表示。類似的,第二個(gè)隱藏層的參數(shù)由g2的權(quán)重M(g2) 的矩陣W2和大小為Kn的偏移的列向量b2表示。最后,讓輸出權(quán)重和偏移量分別為Wout=(w1,…,wKn)Τ∈RKn(Τ表示轉(zhuǎn)置)和bout∈R。 因此,指定第m個(gè)網(wǎng)絡(luò)的參數(shù)由“向量”表示
λ=(W1,b1,W2,b2,Wout,bout)∈
M(g1)×RKn-1×M(g2)×RKn×RKn×R
(11)
這里,為了保持一致性,限制這些參數(shù)的變化范圍。對(duì)于給定的矩陣M, 符號(hào) |M| 表示M的元素的絕對(duì)值矩陣。假設(shè)存在一個(gè)正常數(shù)C1, 這樣
(12)
Λ(Θm,Dn)={λ=(W1,b1,W2,b2,Wout,bout)}
(13)
第m個(gè)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了這種形式的函數(shù)
(14)
其中,λ∈Λ(Θm,Dn), 并且σ1和σ2是按元素來應(yīng)用的。我們的目的是利用數(shù)據(jù)Dn來調(diào)整參數(shù)λ, 從而使所得到的網(wǎng)絡(luò)實(shí)現(xiàn)的函數(shù)可以很好地估計(jì)r。 使
F(Θm,Dn)={fλ∶λ∈Λ(Θm,Dn)}
(15)
其中,m∈{1,…,M}。 算法通過最小化經(jīng)驗(yàn)誤差來構(gòu)造回歸函數(shù)估計(jì)r(·;Θm,Dn)
(16)
在F(Θm,Dn) 中的函數(shù)f, 即f∈F(Θm,Dn) 有
Jn(r(·;Θm,Dn))≤Jn(f)
(17)
在這里,假設(shè)存在一個(gè)最小值,盡管它不一定是唯一的。在不存在最小值的情況下,可以使用誤差任意接近下限的函數(shù)來執(zhí)行相同的分析,但是為了簡單起見,本文堅(jiān)持存在的假設(shè)。通過重復(fù)這個(gè)最小化過程,對(duì)于每個(gè)m∈{1,…,M}, 可以得到隨機(jī)估計(jì)的集合r(·;Θ1,Dn),…,r(·;ΘM,Dn), 它們被合并求平均值形成了估計(jì)
(18)
估計(jì)rM,n只是隨機(jī)森林估計(jì)tM,n對(duì)神經(jīng)網(wǎng)絡(luò)框架的推廣,由于雙曲正切激活函數(shù)的存在,額外松弛到模糊樹節(jié)點(diǎn)隸屬度:樣本不僅每個(gè)分裂和一個(gè)最終葉子落入一個(gè)方向,而且同時(shí)分成幾個(gè)樹枝和葉子。
NRF模型是對(duì)原始隨機(jī)森林算法的優(yōu)化,為了驗(yàn)證NRF模型的性能,本文在UCI機(jī)器學(xué)習(xí)倉庫中選取4個(gè)標(biāo)準(zhǔn)回歸數(shù)據(jù)集,分別是汽車MPG數(shù)據(jù)集(auto_mpg)、社區(qū)犯罪數(shù)據(jù)集(communities crime)、森林火災(zāi)數(shù)據(jù)集(forest fires)以及波士頓房價(jià)數(shù)據(jù)集(Boston House Price)作為樣本數(shù)據(jù)集,并將樣本數(shù)據(jù)按照50∶25∶25的比例分為訓(xùn)練集、驗(yàn)證集和測試集,分別在NRF模型、RF模型和NN模型中運(yùn)行。這里,隨機(jī)森林采用樹木數(shù)量為25,最大深度為6的最優(yōu)參數(shù)組合。表1展示了不同數(shù)據(jù)集在NRF、RF和NN模型上運(yùn)行的均方根誤差(RMSE)。
表1 NRF、RF、NN在不同數(shù)據(jù)集上的RMSE
從表1可看出,NN模型在大部分?jǐn)?shù)據(jù)集中都沒有達(dá)到與NRF模型和RF模型一樣的預(yù)測效果。同時(shí),NRF模型在不同數(shù)據(jù)集中的RMSE都明顯小于RF模型的RMSE。由此可見,NRF模型的預(yù)測效果要優(yōu)于RF模型和NN模型,取得了不錯(cuò)的效果。接下來,本文將NRF方法應(yīng)用于實(shí)際問題,利用南京市玄武湖地區(qū)的歷史天氣和空氣質(zhì)量數(shù)據(jù),來預(yù)測該地區(qū)下一日的AQI指數(shù)。
本實(shí)驗(yàn)采用的數(shù)據(jù)是來自南京市玄武湖監(jiān)測站提供的空氣質(zhì)量歷史監(jiān)測數(shù)據(jù)。實(shí)驗(yàn)選取了2013年10月1日-2019年3月31日玄武湖地區(qū)的空氣質(zhì)量數(shù)據(jù)作為實(shí)驗(yàn)樣本數(shù)據(jù),共2008條,將樣本數(shù)據(jù)按50∶25∶25的比例分為訓(xùn)練集、驗(yàn)證集和測試集。
圖3和圖4分別展示了南京市玄武湖地區(qū)AQI指數(shù)日均值和月均值時(shí)序變化規(guī)律。從圖中可以看出,AQI指數(shù)日均值和月均值基本上服從正態(tài)分布規(guī)律,更好契合了該算法。從圖3可看出,AQI指數(shù)日均值隨著時(shí)間的推移出現(xiàn)峰谷型變化。從圖4可看出,AQI指數(shù)呈春冬高、夏秋低的特點(diǎn),12月和1月是AQI指數(shù)高發(fā)月,這也是把季節(jié)作為一項(xiàng)特征的原因。
如表2所示,選取氣象條件、大氣污染、人類污染和季節(jié)4個(gè)方面共33個(gè)相關(guān)特征因素。其中,溫度、氣壓、紫外線、濕度、降水量、大氣污染物濃度以及人流量車流量屬于數(shù)值型特征用“real”表示,其余均屬于非數(shù)值型。在處理非數(shù)值型特征時(shí),本文對(duì)其進(jìn)行量化:將非數(shù)值型特征轉(zhuǎn)化為離散的數(shù)值型特征,并放入“[]”,以此表示取值范圍。如“(Before_)weather”的取值為“[0,1,2,3,4,5]”,代表6種天氣狀況:晴、多云、陰、雨、雪、霧;“(Before_)Direction”的取值為“[0,1,2,3,4,5,6,7]”,代表8種風(fēng)向:東風(fēng)、東北風(fēng)、東南風(fēng)、南風(fēng)、西南風(fēng)、西風(fēng)、西北風(fēng)、北風(fēng);“(Before_)speed”的取值為“[0,1,2,3,4,5]”,代表6種風(fēng)力類型:1~2級(jí)、3~4級(jí)、4~5級(jí)、5~6級(jí)、6~7級(jí)、7~8級(jí);“Season”的取值為“[1,2,3,4]”,代表初、夏、秋、冬4個(gè)季節(jié)。
圖3 玄武湖地區(qū)AQI指數(shù)日均值時(shí)序規(guī)律
圖4 玄武湖地區(qū)AQI指數(shù)月均值時(shí)序規(guī)律
表2 特征因素的選取
為衡量預(yù)測模型的穩(wěn)定性和適應(yīng)性,本文選取了擬合度(R2)、均方根誤差(RMSE)這兩個(gè)指標(biāo)對(duì)模型進(jìn)行評(píng)價(jià)。公式如下
(19)
(20)
在構(gòu)造NRF模型時(shí),采用樹木數(shù)量為25,最大深度為6的最優(yōu)參數(shù)組合,NRF層之間采用的是完全連接,即初始化網(wǎng)絡(luò)權(quán)重,這樣就有較少的權(quán)重需要優(yōu)化,并且每層具有相同數(shù)量的神經(jīng)元。首先使用scikit-learn運(yùn)行隨機(jī)森林,在此基礎(chǔ)上,將所有分割方向和分割位置的集合用于構(gòu)建神經(jīng)網(wǎng)絡(luò)初始化參數(shù),然后再使用TensorFlow框架訓(xùn)練NRF模型。
在學(xué)習(xí)NRF和NN網(wǎng)絡(luò)模型時(shí),優(yōu)化目標(biāo)是最小化某些訓(xùn)練集上的均方誤差。在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中,是通過使用基于迭代梯度的優(yōu)化算法來實(shí)現(xiàn)的。該算法遍歷訓(xùn)練集,生成預(yù)測,然后將產(chǎn)生的誤差信號(hào)相對(duì)于所有單獨(dú)的網(wǎng)絡(luò)參數(shù)的梯度傳播回網(wǎng)絡(luò)。更新網(wǎng)絡(luò)參數(shù),可以減小該誤差,慢慢地模型學(xué)會(huì)了生成正確的預(yù)測。本實(shí)驗(yàn)中,batchsize大小默認(rèn)為32,隨機(jī)初始化權(quán)重分別默認(rèn)為β1=0.9,β2=0.999,ε=1e-08, 以及初始學(xué)習(xí)率默認(rèn)為0.001。在每次訓(xùn)練開始時(shí),都會(huì)對(duì)訓(xùn)練集進(jìn)行重新排序和分配,以避免過度擬合。
每棵神經(jīng)樹的神經(jīng)網(wǎng)絡(luò)都訓(xùn)練迭代100次。在訓(xùn)練過程中,每完成一次訓(xùn)練后都會(huì)監(jiān)測訓(xùn)練損失和驗(yàn)證損失,最后選擇的參數(shù)是在100次訓(xùn)練過程中給出最小驗(yàn)證誤差的參數(shù)。同時(shí),γ2使用較小的值比γ1使用較小的值 (γ2,γ1分別是第二和第一隱藏層中的激活函數(shù)的初始對(duì)比度參數(shù))更有用。這是因?yàn)橛幸粋€(gè)相對(duì)較小的對(duì)比度γ2, 激活函數(shù)從-1到+1的轉(zhuǎn)變更平滑,并且更強(qiáng)的梯度信號(hào)到達(dá)反向傳播訓(xùn)練中的第一隱藏層。因此,本實(shí)驗(yàn)使用γ1=100和γ2=1。
為了說明訓(xùn)練行為,將NRF模型與RF模型和NN模型的訓(xùn)練誤差和驗(yàn)證誤差進(jìn)行了對(duì)比,如圖5所示。
圖5 訓(xùn)練和驗(yàn)證誤差對(duì)比
從圖5中可以看出,NRF模型在訓(xùn)練期間的RMSE明顯低于驗(yàn)證期間的RMSE。同時(shí),NRF模型不管是訓(xùn)練RMSE還是驗(yàn)證RMSE都低于RF模型對(duì)應(yīng)的RMSE,說明了NRF具備較好的學(xué)習(xí)能力和泛化能力。將NRF與參數(shù)和層數(shù)完全相同的NN對(duì)比,很顯然,NRF模型在訓(xùn)練集和驗(yàn)證集上的RMSE均低于NN模型。由此可見,NRF模型優(yōu)于RF模型和NN模型。
利用測試集對(duì)訓(xùn)練好的模型進(jìn)行AQI指數(shù)的預(yù)測。圖6 給出了NRF模型的測試效果,預(yù)測值與實(shí)際測試值擬合較好。
圖6 測試效果
圖7展示了模型預(yù)測值和實(shí)際值的線性擬合結(jié)構(gòu),其中相關(guān)系數(shù)為0.952,擬合度R2達(dá)到了0.973。圖8是隨機(jī)森林(RF)、神經(jīng)網(wǎng)絡(luò)(NN)、支持向量機(jī)回歸(SVR)、線性回歸(LR)、LSTM神經(jīng)網(wǎng)絡(luò)(LSTM)模型與NRF模型的預(yù)測誤差對(duì)比圖,RF和LR的誤差在(-90,60)范圍內(nèi),NN和SVR的誤差在(-280,70)之間,LSTM的誤差在(-60,270)之間,NRF的誤差則在(-70,30)之間。相比較其它模型,NRF的預(yù)測誤差范圍最小,分布也比較均勻集中。具體性能指標(biāo)對(duì)比見表3。
圖7 AQI預(yù)測值與實(shí)際值相關(guān)性分析
圖8 不同模型的測試誤差
表3 不同模型的預(yù)測結(jié)果對(duì)比
通過表3比較發(fā)現(xiàn),NRF在模型精度方面明顯優(yōu)于其它方法。NRF模型的均方根誤差RMSE為7.512,相比較RF模型的13.310和NN模型的45.967,分別降低了5.798和38.455,同時(shí)NRF模型的擬合度R2也高于RF和NN,說明NRF不易過擬合,并且具備較好的學(xué)習(xí)能力和泛化能力。而NN模型存在計(jì)算量大、學(xué)習(xí)效率低,容易過擬合等問題。同時(shí),NRF模型的RMSE明顯高于SVR模型、LR模型和LSTM模型。在模型的運(yùn)行效率方面,NRF模型的訓(xùn)練時(shí)間高于RF模型,低于NN模型,那是因?yàn)镹RF模型需要對(duì)每棵神經(jīng)樹進(jìn)行單獨(dú)安裝,并單獨(dú)進(jìn)行訓(xùn)練,每次訓(xùn)練迭代100次,所以導(dǎo)致NRF模型訓(xùn)練時(shí)間高于RF模型。但是,NRF連接網(wǎng)絡(luò)使用的是森林結(jié)構(gòu),并且提供了智能初始化作為熱啟動(dòng),可以有效降低過度擬合,同時(shí)完全連接網(wǎng)絡(luò)優(yōu)化速度快,在GPU上進(jìn)行訓(xùn)練時(shí),使用密集矩陣乘法,將不存在的連接的條目強(qiáng)制為0,因此也大大減少了訓(xùn)練時(shí)間,故訓(xùn)練時(shí)間低于NN模型。同時(shí),NRF模型的擬合度明顯高于RF模型的擬合度,說明NRF模型對(duì)數(shù)據(jù)的擬合效果更好,可以更準(zhǔn)確預(yù)測該地區(qū)下一日空氣質(zhì)量。從整體來看,NRF模型的預(yù)測效果優(yōu)于RF模型。綜合比較預(yù)測結(jié)果,NRF模型在空氣質(zhì)量指數(shù)預(yù)測問題上的效果優(yōu)于RF、NN、SVR、LR、LSTM,具有較高的準(zhǔn)確率,能夠很好地解決復(fù)雜的非線性問題。
NRF模型結(jié)合了RF模型和NN模型的優(yōu)點(diǎn),結(jié)構(gòu)簡單易于理解、參數(shù)易于調(diào)節(jié)、模型實(shí)現(xiàn)簡單,且不需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理和交叉驗(yàn)證,模型的精度高,擬合效果也更好。所以,NRF在綜合性能上具有一定的優(yōu)勢。綜上所述,本文使用的方法具有可行性與有效性,能夠很好地滿足玄武湖地區(qū)下一日空氣質(zhì)量的預(yù)測任務(wù)。
基于優(yōu)化的隨機(jī)森林的局部空氣質(zhì)量預(yù)測模型,通過將隨機(jī)回歸樹重構(gòu)為具有兩個(gè)隱藏層和一個(gè)輸出層的神經(jīng)網(wǎng)絡(luò)回歸樹,然后再將這些神經(jīng)網(wǎng)絡(luò)回歸樹進(jìn)行獨(dú)立訓(xùn)練,最后合并求平均形成一個(gè)由M個(gè)小網(wǎng)絡(luò)構(gòu)成的神經(jīng)隨機(jī)森林。該神經(jīng)隨機(jī)森林結(jié)合了隨機(jī)森林與神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),具有較高的擬合度,并且性能穩(wěn)定,具有很好的泛化能力,可以很好地應(yīng)用在局部空氣質(zhì)量的預(yù)測上。NRF模型是對(duì)原始隨機(jī)森林RF的優(yōu)化,有效提高了預(yù)測精度。同時(shí),由于NRF模型的特定歸納偏差,不管在哪一個(gè)數(shù)據(jù)集上,都可以取得令人滿意的預(yù)測結(jié)果。因此,在實(shí)際應(yīng)用中,本文為城市環(huán)境空氣質(zhì)量評(píng)價(jià)提供了一種高效準(zhǔn)確的處理辦法。下一步的工作是改變每棵神經(jīng)網(wǎng)絡(luò)回歸樹的訓(xùn)練方式,將它們放在一起訓(xùn)練并研究該訓(xùn)練方法對(duì)整個(gè)模型的影響,從而提高模型的運(yùn)行效率。