李 敏, 程茂華, 潘 穎, 李 雄
(1.南寧師范大學(xué) 計算機與信息工程學(xué)院,廣西 南寧 530023;2.廣西科技師范學(xué)院,廣西 來賓 546199;3.廣西氣象臺,廣西 南寧 530022)
在目前的研究中,經(jīng)常使用數(shù)學(xué)領(lǐng)域中的統(tǒng)計學(xué)方法對濕度、大氣能見度與氣溶膠PM10進行研究,分析顯示PM10濃度增大以及顆粒物吸濕性增長可導(dǎo)致能見度數(shù)值降低[1]。但總體而言,當(dāng)下仍缺乏濕度、大氣能見度與氣溶膠PM10存在何種相關(guān)性的研究。
此外,氣象領(lǐng)域在處理氣象數(shù)據(jù)的問題上使用的多是投入耗費大的傳統(tǒng)方法。云計算的低成本運算快成為了出來當(dāng)前大數(shù)據(jù)的熱門途徑,但需要適當(dāng)?shù)奶幚眢w系結(jié)構(gòu)與密集任務(wù)的協(xié)調(diào)性。因此挑選合適的機器學(xué)習(xí)算法可以高效率地處理與分析大規(guī)模的數(shù)據(jù)。并行性以及運算效率是大數(shù)據(jù)計算需要攻克的難題。
本文基于中國氣象局氣象數(shù)據(jù)中心和南寧市環(huán)保局環(huán)境監(jiān)測站歷年氣象數(shù)據(jù)。設(shè)計云環(huán)境下DMLR(Distributed Multiple Linear Regression)模型用于能見度、濕度與氣溶膠PM10相關(guān)性的研究,實驗分析表明,濕度區(qū)間一致大氣氣溶膠PM10濃度越大能見度就越小,能見度區(qū)間一致大氣氣溶膠PM10濃度越低濕度越大。實驗結(jié)果還發(fā)現(xiàn)濕度介于40%-90%,能見度介于8km-19kmDMLR預(yù)測效果最好。
國內(nèi)外人員提出了各種分布式數(shù)據(jù)分析方法以解決傳統(tǒng)的數(shù)據(jù)挖掘計算及保存能力不夠的問題。宋欣、王翠榮[2]提出回歸模型的參數(shù)信息代替實際感知數(shù)據(jù)的線性回歸分析方法構(gòu)建感知數(shù)據(jù)模型,仿真實驗結(jié)果表明,文中提出的數(shù)據(jù)采集優(yōu)化策略能通過較小的通信量有效地實現(xiàn)事件監(jiān)測區(qū)域感知數(shù)據(jù)的預(yù)測,降低網(wǎng)絡(luò)的總能耗,延長網(wǎng)絡(luò)的生命周期。付倩嬈[3]提出一種在線樣本更新的多元線性回歸的霧霾預(yù)測方法,通過在線樣本更新的多元線性回歸建立了PM2.5含量預(yù)測模型,并將氣象要素作為霧霾的判斷標(biāo)準(zhǔn)。實驗結(jié)果證明提出的方法對一周以內(nèi)的PM2.5含量預(yù)測準(zhǔn)確率較高。戴李杰[4]等提出基于機器學(xué)習(xí)的PM2.5短期濃度動態(tài)預(yù)報模型,聯(lián)合應(yīng)用支持向量機(SVM)和粒子群優(yōu)化(PSO)算法建立滾動預(yù)報模型,對PM2.5未來24小時濃度進行預(yù)報,同時對未來一天的晝、夜均值及日均值濃度進行預(yù)報,并與徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RBFNN)、多元線性回歸法(MLR)、模式預(yù)報(WRF-Chem)作對比。實驗表明,所提出的SVM模型較其他方法提高了PM2.5未來1小時濃度預(yù)報精度;所提模型能對PM2.5未來24小時濃度進行較好的預(yù)報,能對未來一天的晝均值、夜均值及日均值進行有效預(yù)報,并且對未來12小時的逐時濃度及未來一天的夜均值濃度的預(yù)報準(zhǔn)確度較高。
國外已有針對空氣中PM10濃度問題的相關(guān)性研究。Song Liu等人[5]提出基于MODIS數(shù)據(jù)估算的能見度和相對濕度檢測霧霾及其強度。實驗表明在這兩個指數(shù)中,能見度在影響檢測精度方面比相對濕度起著更重要的作用。Nan Ma[6]等人提出一種新的基于PM2.5,能見度和相對濕度區(qū)分霧和霧霾的方法,基于霧霾與霧的物理性質(zhì)的差異,本研究提出了一種利用PM2.5,能見度和相對濕度的實時測量來區(qū)分霧霾和霧的新方法。在該方法中,可以基于粒子數(shù)量大小分布和氣溶膠吸濕性的局部歷史數(shù)據(jù)來建立標(biāo)準(zhǔn)。根據(jù)該標(biāo)準(zhǔn)可區(qū)分霧和霧霾。我國在1970年開始,也對空氣中的顆粒物進行大量的研究,董繼元等[7]對蘭州市大氣相對濕度與PM10濃度和大氣能見度進行相關(guān)性分析,利用蘭州2002—2012年的環(huán)境氣象資料,對相對濕度RH、PM10濃度與能見度之間的對應(yīng)關(guān)系進行統(tǒng)計分析,以揭示RH與PM10濃度和大氣能見度之間的直觀聯(lián)系,加深對灰霾形成過程的認識。該研究表明:PM10平均值與RH平均值表現(xiàn)為負相關(guān),相對濕度較高時大氣顆粒物含量較高。劉凡等[8]分析了成都市冬季相對濕度對顆粒物濃度和大氣能見度的影響,利用2015年12月的連續(xù)在線觀測數(shù)據(jù),探討RH對顆粒物濃度和大氣能見度的影響。結(jié)果表明,高顆粒物濃度和高RH協(xié)同作用導(dǎo)致低能見度事件。隨著RH增加,PM2.5∕PM10顯著增加,表明高RH會加重細顆粒物污染。隨著PM2.5濃度增加,能見度呈冪指數(shù)下降;在相同PM2.5濃度下,RH越高,能見度越低?;谏鲜鲅芯?,探討南寧區(qū)域的氣溶膠與能見度、濕度之間的相關(guān)性意義重大。但目前對氣溶膠PM10、能見度以及濕度的研究只是簡單、定性的統(tǒng)計分析,不能很好地反映他們之間的相關(guān)性。
建模的思想在處理大數(shù)據(jù)分析的研究中作用很大。線性回歸是其中較為經(jīng)典的建模形式,其表達形式為y=w′x+e,e為誤差服從均值為0的正態(tài)分布。線性回歸中只有一個回歸變量和一個依賴變量,稱為一元線性回歸[9]。線性回歸中有兩個以上的回歸變量,且回歸變量之間存在線性關(guān)性,則稱為多重線性回歸[9]。多重線性回歸方程:
y=β0+β1X1+β2X2+…+βj-1Xp-1+ε
(1)
上式子中y表示因變量;Xp是自變量,p=1,2,3,…,p-1;βj是y基于每個Xp單元變化的變化量,j=1,2,3,…,j-1;殘差ε。本文使用最小二乘逼近來擬合模型。式(2)是對樣本數(shù)據(jù)集(xi1,xi2,xi3,…,xi(p-1),yi)的回歸模型:
(2)
矩陣表示:
(3)
(4)
(5)
采取劃分模塊將輸入樣本在云平臺多個集群上運算以達到并行加速效果。并行化設(shè)計中各特征上的梯度元素進行累加:
(6)
(1)導(dǎo)入訓(xùn)練集、測試集并設(shè)置迭代輪數(shù)100以及更新步長A的值;
(2)將訓(xùn)練集分塊到B個計算節(jié)點;
(3)對每一個計算節(jié)點采樣計算損失值LB與梯度LB,并對分片目標(biāo)向量更新即LB;
(5)迭代運行步驟(3)、(4)至目標(biāo)值收斂;
(6)將測試數(shù)據(jù)集預(yù)測結(jié)果輸入到評估模型評估。
本文在云環(huán)境下面向PM10—能見度—濕度相關(guān)性的研究提出DMLR模型。DMLR線性回歸模型數(shù)據(jù)集訓(xùn)練實驗流程如圖1:讀取實驗數(shù)據(jù)集并對數(shù)據(jù)直方圖統(tǒng)計、全表統(tǒng)計和拆分操作;本文實驗將拆分參數(shù)設(shè)置為0.7,70%作訓(xùn)練集,30%作測試集。然后使用DMLR模型對輸入的訓(xùn)練集進行訓(xùn)練并結(jié)合測試集預(yù)測,最后使用評估模型來評估線性回歸模型的預(yù)測準(zhǔn)確程度以及氣溶膠PM10濃度的變化與濕度、大氣能見度的相關(guān)性。
圖1 DMLR模型實驗流程
實驗過程中使用廣西南寧環(huán)保局環(huán)境監(jiān)測站以及中國氣象局氣象數(shù)據(jù)中心歷年氣象數(shù)據(jù),氣溶膠PM10為1989—2017年數(shù)據(jù);能見度為1980—2017年數(shù)據(jù);濕度為1980—2017年數(shù)據(jù)。
實驗將濕度、能見度各劃分三個等級如表1所示:
表1 濕度、能見度等級劃分表
然后對這六個區(qū)間等級進行兩兩組合構(gòu)成共9個實驗數(shù)據(jù)源,其中數(shù)據(jù)源2的部分數(shù)據(jù)如表2所示。
按照圖1的DMLR模型實驗流程對以上數(shù)據(jù)表進行預(yù)測分析,表3為數(shù)據(jù)表2(濕度值<40%,8km<=能見度值<=19km組合)的DMLR模型的PM10預(yù)測結(jié)果,表4為回歸模型評估結(jié)果。
表2 數(shù)據(jù)源2部分數(shù)據(jù)
表4 數(shù)據(jù)源2評估結(jié)果
R表示多重相關(guān)系數(shù),R2表示判定系數(shù),RMSE表示均方根誤差,SSE表示誤差平方和;SSR表示回歸平方和,SST表示總平方和,yMean表示原始因變量均值,prediction Mean表示預(yù)測值的平均值。
根據(jù)上文的9種組合方式各數(shù)據(jù)源的實驗分析結(jié)果如表5所示:
表3 數(shù)據(jù)表2DMLR模型的PM10預(yù)測結(jié)果
表5 濕度、能見度等級劃分表
圖2 數(shù)據(jù)源2預(yù)測值與原值擬合圖
置信概率(confidence probability)是用來衡量統(tǒng)計推斷可靠程度的概率。其意義是指在進行統(tǒng)計推斷時.被估參數(shù)包含在某一范圍內(nèi)的概率;本文顯著性閾值設(shè)置為95%。實驗證明數(shù)據(jù)源2、數(shù)據(jù)源3、數(shù)據(jù)源7、數(shù)據(jù)源8、數(shù)據(jù)源9顯著性較強,置信率高;數(shù)據(jù)源1、4、6的實驗數(shù)據(jù)限制于滿足本文設(shè)置提取的實驗數(shù)據(jù)量太少,實驗結(jié)果顯著性較低,置信率低。下文給出了數(shù)據(jù)源2、7、8的實驗預(yù)測值與實驗數(shù)據(jù)原值的擬合圖及相對應(yīng)的DMLR模型輸出結(jié)果。
實驗結(jié)果表明濕度在40%-90%、能見度在8km-19km區(qū)間范圍內(nèi)預(yù)測效果最優(yōu),濕度小于40%、能見度在8km-19km區(qū)間范圍內(nèi)預(yù)測效果偏差。實驗得出結(jié)論以下結(jié)論:
表6 數(shù)據(jù)源2DMLR模型輸出結(jié)果
表7 數(shù)據(jù)源7DMLR模型輸出結(jié)果
表8 數(shù)據(jù)源8DMLR模型結(jié)果輸出
1.在同一濕度區(qū)間內(nèi),能見度與PM10呈負相關(guān),即能見度越小PM10濃度就越大。
2.在同一能見度區(qū)間內(nèi),濕度與PM10呈負相關(guān),即濕度值越大PM10濃度就越低。
圖3 數(shù)據(jù)源7預(yù)測值與原值擬合圖
圖4 數(shù)據(jù)源8預(yù)測值與原值擬合圖
另外實驗結(jié)果表明PM10濃度與能見度、濕度的相關(guān)系數(shù),能見度的相關(guān)系數(shù)更高。集合實驗結(jié)果分析三者之間的關(guān)系如圖5所示。
比較DMLR算法模型與傳統(tǒng)回歸模型實驗運行時間(圖6)。在數(shù)據(jù)表2、5、7、9中,DMLR算法模型運行時間明顯少于傳統(tǒng)回歸模型,其減少幅度為10%;而在表1、3、4、6、8中,DMLR算法模型和傳統(tǒng)回歸模型實驗運行時間相同??傮w而言,DMLR算法模型在時間性能方面要優(yōu)于傳統(tǒng)回歸模型。
圖5 PM10—能見度—濕度相關(guān)圖
圖6 DMLR模型與傳統(tǒng)回歸模型運行時間
本文提出一個基于云平臺的DMLR機器學(xué)習(xí)模型,分析以濕度值和能見度值作為自變量,PM10氣溶膠值作為因變量的相關(guān)性。實驗結(jié)果發(fā)現(xiàn)濕度介于40%-90%,能見度介于8km-19kmDMLR預(yù)測效果最好,DMLR算法模型在時間性能方面要優(yōu)于傳統(tǒng)回歸模型。此外,在云環(huán)境下對能見度、濕度與PM10的相關(guān)性提出DMLR模型,在可行性方面得到了驗證,具有一定的應(yīng)用意義。
我們的工作存在如下不足:在未來的研究中需要解決的問題,如實驗氣象因子(如風(fēng)速、降水等)需加強;區(qū)域不同是否對氣溶膠與能見度、濕度之間的相關(guān)性影響并未加入考量。