摘 要:為探究大氣環(huán)境PM2.5濃度預(yù)測方法的適用性與準(zhǔn)確性,本文基于大氣環(huán)境中PM2.5濃度與溫度、降雨量氣象要素的相關(guān)關(guān)系,建立線性回歸與BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型,對比分析兩種模型PM2.5濃度的預(yù)測效果。結(jié)果表明:在冬季時PM2.5濃度高于夏季,呈現(xiàn)出大氣環(huán)境中溫度越低、濃度水平越高的的趨勢,且當(dāng)日降雨量超過一定閾值時,有利于PM2.5濃度的稀釋。線性回歸與BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測結(jié)果存在差異性,線性回歸模型預(yù)測結(jié)果的相對誤差均低于30%,整體預(yù)測效果優(yōu)于神經(jīng)網(wǎng)絡(luò)模型,在樣本數(shù)據(jù)量較少時采用線性回歸預(yù)測模型,預(yù)測結(jié)果的可靠性和準(zhǔn)確性更優(yōu)。
關(guān)鍵詞:溫度;降雨量;PM2.5;線性回歸;神經(jīng)網(wǎng)絡(luò)
中圖分類號:X51 文獻(xiàn)標(biāo)識碼:A 文章編號:1673-9655(2025)01-00-05
0 引言
近年來,中國諸多城市霧霾事件頻發(fā),主要原因是汽車尾氣、建筑揚(yáng)塵、工業(yè)排放等污染物含有大量細(xì)顆粒物(PM2.5),受冷空氣、高濕度以及逆溫層影響,空氣中污染物易聚集、難以擴(kuò)散,加速了霧霾天氣的形成[1]。霧霾環(huán)境中PM2.5組成成分復(fù)雜,有毒、有害物質(zhì)吸入后會引起呼吸系統(tǒng)相關(guān)疾病,造成的危害案例越來越多,逐漸受到公眾的關(guān)心和重視[2]。
如何準(zhǔn)確、有效預(yù)測PM2.5濃度是當(dāng)前研究的熱點。國內(nèi)已有相關(guān)的研究案例,在氣象條件方面開展了溫度、濕度、風(fēng)速等因素對PM2.5濃度影響的相關(guān)研究[3-5]。研究成果表明在冬季低溫下PM2.5濃度更容易聚集,在夏季高溫下PM2.5更易于擴(kuò)散,此外在降雨和風(fēng)力增強(qiáng)條件下有利于PM2.5進(jìn)一步擴(kuò)散。在預(yù)測方法上,相關(guān)研究嘗試采用不同的方法去提升模型預(yù)測的準(zhǔn)確性與適用性,包括線性回歸分析、BP神經(jīng)網(wǎng)絡(luò)模型、決策樹回歸模型,隨機(jī)森林模型等。模型預(yù)測需要收集大量的監(jiān)測數(shù)據(jù),分析氣象條件與PM2.5濃度的關(guān)聯(lián)性,利用訓(xùn)練樣本與測試樣本對模型進(jìn)行訓(xùn)練與準(zhǔn)確性測試,測試完畢的模型進(jìn)一步用于預(yù)測。目前部分預(yù)測模型研究結(jié)果表明,PM2.5預(yù)測濃度與實際濃度誤差較小,具有一定的準(zhǔn)確性[6-8];但不同地區(qū)氣象條件、地理條件以及所受的人為影響均不同,影響PM2.5濃度的因素存在區(qū)域差異性。因此,本研究通過對合肥市溫度和降雨量數(shù)據(jù)統(tǒng)計分析,選用主要的影響指標(biāo)建立濃度預(yù)測模型,并對比研究線性回歸(最小二乘法)和神經(jīng)網(wǎng)絡(luò)模型預(yù)測結(jié)果的優(yōu)劣,進(jìn)一步提升PM2.5濃度預(yù)測的可靠性與準(zhǔn)確性。
1 資料與方法
1.1 資料獲取
根據(jù)安徽省生態(tài)環(huán)境廳以及氣象網(wǎng)站公開的統(tǒng)計資料,收集合肥市2021—2023年的逐月降雨量(mm)、溫度(℃)、PM2.5濃度數(shù)據(jù)以及2023年的逐日降雨量(mm)、溫度(℃)、PM2.5濃度數(shù)據(jù)。經(jīng)檢查少量監(jiān)測數(shù)據(jù)存在缺失情況,但不影響數(shù)據(jù)分析的整體過程。
1.2 研究內(nèi)容與方法
1.2.1 聚類分析
聚類分析是一種基于中心的聚類算法(K均值聚類),通過迭代將樣本分到K個類中,使得每個樣本與其所屬類的中心或均值的距離之和最小[9]。采用聚類分析將降雨量數(shù)據(jù)與PM2.5濃度由類似的數(shù)據(jù)對象組成的多個類別,分析不同級別降雨量對PM2.5濃度的影響,同時統(tǒng)計分析降雨量各聚類類別間溫度的差異性,研究不同溫度條件下PM2.5濃度的變化情況。
1.2.2 線性回歸最小二乘法
采用線性回歸最小二乘法,建立與驗證氣象條件與PM2.5濃度變量間相互依賴的定量關(guān)系并用于預(yù)測[10]。線性回歸通過最小二乘法求出其方程,計算出對于y=bx+a的直線。以最小二乘法為例,假設(shè)影響y的因素有x1,x2,...,xk,k個因素,按照如下的線性關(guān)系式:
對y與x1,x2,...,xk同時作n次獨立觀察得n組觀測值(xt1,xt2,...,xtk),t=1,2,...,n(n>k+1),它們滿足關(guān)系式:
轉(zhuǎn)化為矩陣形式,使用最小二乘法得到β的解:
式中,稱為的偽逆。
1.2.3 BP神經(jīng)網(wǎng)絡(luò)模型
BP神經(jīng)網(wǎng)絡(luò)模型屬于黑箱模型,嘗試建立按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋BP神經(jīng)網(wǎng)絡(luò)模型[11]。
模型需要準(zhǔn)備訓(xùn)練數(shù)據(jù)集與測試數(shù)據(jù)集,進(jìn)行迭代訓(xùn)練與測試,模型質(zhì)量通過指標(biāo)評價后,利用BP神經(jīng)網(wǎng)絡(luò)預(yù)測PM2.5濃度。模型采用最速下降法學(xué)習(xí)規(guī)則,第一階段是信號的前向傳播,從輸入層經(jīng)過隱含層,最后到達(dá)輸出層;第二階段是誤差的反向傳播,從輸出層到隱含層,最后到輸入層,依次調(diào)節(jié)隱含層到輸出層的權(quán)重和偏置,輸入層到隱含層的權(quán)重和偏置,通過反向傳播來不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,使網(wǎng)絡(luò)的誤差平方和最小。
BP神經(jīng)網(wǎng)絡(luò)模型隱含層的輸出量設(shè)為Fj,輸出層的輸m量設(shè)為Ok,系統(tǒng)的激勵函數(shù)設(shè)為G,學(xué)習(xí)速率設(shè)為β,則其三個層之間有如下數(shù)學(xué)關(guān)系:
系統(tǒng)期望的輸出量設(shè)為Tk,則系統(tǒng)的誤差E可由實際輸出值和期望目標(biāo)值的方差表示,具體關(guān)系表達(dá)式如下:
并令ek = Tk -Ok,利用梯度下降原理,則系統(tǒng)權(quán)值和偏置的更新公式如下:
2 結(jié)果與討論
2.1 溫度與降雨量對PM2.5濃度影響分析
根據(jù)2023年的逐日降雨量與PM2.5濃度數(shù)據(jù),采用聚類分析方法將由類似的數(shù)據(jù)對象組成的多個類,采用手肘法則確定聚類個數(shù)選擇,選取輪廓系數(shù)、DBI(Davies-bouldin)、CH(Calinski-Harbasz Score)指標(biāo)評價聚類可靠性,分類結(jié)果如表1所示。根據(jù)聚類分析結(jié)果,降雨量與PM2.5濃度數(shù)據(jù)共分為5個類別,顯著性P值為0.0001***,水平上呈現(xiàn)顯著性,說明在聚類分析劃分的類別之間存在顯著性差異;輪廓系數(shù)為0.496,DBI為0.633,CH為564.472,說明聚類分析結(jié)果可信。
具體分類結(jié)果如圖1所示。降雨量與PM2.5濃度聚類特征明顯,類別4與類別1、2、3、5以降雨量20 mm為界限具有明顯差異性。當(dāng)日降雨量超過20 mm時,PM2.5濃度均低于30 μg/m3,而日降雨量低于20 mm時,PM2.5濃度具有4個層級,說明在小雨或者無雨的狀態(tài)下,PM2.5濃度變化的主導(dǎo)因素非降雨;而受其他因素主導(dǎo),在日降雨量超過20 mm時,PM2.5濃度均低于30 μg/m3,則說明降雨量超過一定閾值時,即成為影響PM2.5濃度變化的主導(dǎo)因素。
為進(jìn)一步探究小雨或者無雨的狀態(tài)下PM2.5濃度變化的主要影響因素,按照聚類分析分類結(jié)果,分別統(tǒng)計各類別最低溫度、降雨量以及PM2.5濃度平均值,如表2所示。根據(jù)統(tǒng)計結(jié)果,類別1、3、5與2降雨量均值相近,最低溫度逐漸升高,PM2.5濃度有增加的趨勢,其中類別1最低溫度為3.44℃,PM2.5濃度為最高值58.54 μg/m3,類別2與類別4最低溫度為18℃左右,PM2.5濃度均維持較低水平,PM2.5濃度與最低溫度間存在較好的關(guān)聯(lián)性。結(jié)果說明,在日降雨量較少的情況,PM2.5濃度受最低溫度影響明顯,主要原因是受冷空氣與逆溫層的影響,空氣中PM2.5易聚集、難以擴(kuò)散,導(dǎo)致濃度水平過高,而降雨量較大時,雨水?dāng)y帶部分顆粒物沉降,同時增加了大氣環(huán)境濕度,有利于PM2.5濃度的稀釋;也說明了合肥市降雨量較大時溫度普遍較高,高溫天氣下水汽含量增加,易形成降雨,也符合區(qū)域夏季多雨高溫,冬季少雨低溫的特點,說明該區(qū)域降雨量與溫度對PM2.5濃度的影響具有一定的關(guān)聯(lián)性,因此,可選取溫度指標(biāo)作為影響PM2.5濃度變化的主導(dǎo)因素。
2.2 模型預(yù)測結(jié)果分析
2.2.1 線性回歸(最小二乘法)
由于大氣環(huán)境中PM2.5濃度變化受溫度影響,因此,采用對2021—2023年的逐月平均最低溫度與PM2.5濃度數(shù)據(jù)建立線性回歸分析,探究平均最低溫度與PM2.5濃度間的定量關(guān)系。將數(shù)據(jù)按照比例70%用于模型建立,30%用于模型驗證,結(jié)果如表3所示。結(jié)果表明,線性回歸預(yù)測模型效果良好,VIF值為1,解釋變量R2值為0.823;F檢驗的結(jié)果分析可以得到,顯著性P值為0.0001***,水平上呈現(xiàn)顯著性,拒絕回歸系數(shù)為0的原假設(shè),因此模型基本滿足要求。預(yù)測模型的公式如下:
式中:y—PM2.5濃度,μg/m3;x—月平均最低溫,℃。
2.2.2 神經(jīng)網(wǎng)絡(luò)預(yù)測模型
采用2021—2023年的逐月平均最低溫度與PM2.5濃度數(shù)據(jù)BP神經(jīng)網(wǎng)絡(luò)模型,探究平均最低溫度與PM2.5濃度間的定量關(guān)系,將數(shù)據(jù)按照比例70%用于模型訓(xùn)練,30%用于模型測試,通過訓(xùn)練集數(shù)據(jù)來建立BP神經(jīng)網(wǎng)絡(luò)回歸模型,測試數(shù)據(jù)用于測試BP神經(jīng)網(wǎng)絡(luò)回歸模型的適用性,根據(jù)模型評價指標(biāo)保障訓(xùn)練后模型的準(zhǔn)確性。BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型采用5折交叉驗證,設(shè)置激活函數(shù)為identity,求解器運用lbfgs方法,學(xué)習(xí)效率為0.1,隱藏第1層神經(jīng)元數(shù)量200,共迭代1000,最終模型訓(xùn)練與驗證結(jié)果如表4所示。根據(jù)模型評價指標(biāo),訓(xùn)練集與測試集的RMSE(均方根誤差)分別為5.524與9.056,MAE(平均絕對誤差)分別為4.278與6.861,R2均超過0.75,說明BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測效果良好,可用于PM2.5濃度的數(shù)值預(yù)測。
2.2.3 預(yù)測結(jié)果對比研究
為探究BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型與線性回歸預(yù)測模型的準(zhǔn)確性與可靠性,本次共采用36組數(shù)據(jù)監(jiān)測數(shù)據(jù)PM2.5濃度與最低溫度的監(jiān)測數(shù)據(jù)。其中25組數(shù)據(jù)用于模型訓(xùn)練,11組數(shù)據(jù)用于模型測試驗證,相對誤差與絕對誤差統(tǒng)計分析結(jié)果表5所示。根據(jù)11組測試驗證數(shù)據(jù)的分析結(jié)果,BP神經(jīng)網(wǎng)絡(luò)模型與線性回歸模型預(yù)測的絕對誤差平均值分別為為-19.02~13.59 μg/m3和-17.64~11.17 μg/m3,線性回歸模型預(yù)測結(jié)果的相對誤差均低于30%,整體優(yōu)于神經(jīng)網(wǎng)絡(luò)模型預(yù)測效果。
兩種模型的預(yù)測結(jié)果對比情況如圖2所示,在整體預(yù)測結(jié)果上線性回歸模型的預(yù)測效果要優(yōu)于BP神經(jīng)網(wǎng)絡(luò)模型;在單組數(shù)據(jù)預(yù)測上,第9組神經(jīng)網(wǎng)絡(luò)預(yù)測數(shù)據(jù)相對誤差達(dá)到61.77%,預(yù)測效果較差;第6組神經(jīng)網(wǎng)絡(luò)預(yù)測數(shù)據(jù)相對誤差僅為0.78%,預(yù)測效果較好,也說明BP神經(jīng)網(wǎng)絡(luò)預(yù)測的穩(wěn)定性相對于線性回歸預(yù)測模型較差,主要原因是由于模型訓(xùn)練時需要大量的監(jiān)測樣本數(shù)據(jù),訓(xùn)練樣本數(shù)據(jù)量越大,訓(xùn)練后的模型預(yù)測效果越可靠,由于本研究數(shù)據(jù)樣本未達(dá)到上千上萬級別,最終BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型的訓(xùn)練效果不佳,導(dǎo)致BP神經(jīng)網(wǎng)絡(luò)這種黑箱模型的預(yù)測效果略弱于線性回歸預(yù)測效果,同時線性回歸預(yù)測方法較神經(jīng)網(wǎng)絡(luò)預(yù)測模型更為簡便與實用。綜上所述,線性回歸模型與BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型對于PM2.5濃度預(yù)測均具有適用性,在樣本數(shù)據(jù)量較少時可采用線性回歸預(yù)測模型,預(yù)測結(jié)果可靠性和準(zhǔn)確性更佳。
3 結(jié)論
(1)降雨量的大小影響PM2.5濃度擴(kuò)散。根據(jù)聚類分析結(jié)果,由于各個地區(qū)差異性,當(dāng)日降雨量超過一定閾值時,雨水易攜帶部分顆粒物沉降,同時增加了大氣環(huán)境濕度,有利于PM2.5濃度的稀釋。
(2)大氣溫度對PM2.5濃度存在明顯的相關(guān)性。根據(jù)統(tǒng)計分析結(jié)果,通常冬季時PM2.5濃度高于夏季,大氣環(huán)境中溫度越低,PM2.5易聚集、難以擴(kuò)散,導(dǎo)致濃度水平過高。
(3)線性回歸模型與神經(jīng)網(wǎng)絡(luò)模型對于PM2.5濃度預(yù)測均具有適用性,線性回歸模型預(yù)測結(jié)果的相對誤差均低于30%,而神經(jīng)網(wǎng)絡(luò)模型預(yù)測結(jié)果波動性更大,在樣本數(shù)據(jù)量較少時可采用線性回歸預(yù)測模型,預(yù)測結(jié)果可靠性和準(zhǔn)確性更佳。
參考文獻(xiàn):
[1] 楊洪斌,鄒旭東,汪宏宇,等.大氣環(huán)境中PM2.5的研究進(jìn)展與展望[J].氣象與環(huán)境學(xué)報,2012,28(3):77-82.
[2] 張瑩,王式功,賈旭偉,等.氣溫與PM2.5協(xié)同作用對疾病急診就診人數(shù)的影響[J].中國環(huán)境科學(xué),2017,37(8):3175-3182.
[3] 肖宇,王茜,趙倩彪,等.降雨對長三角區(qū)域PM2.5濃度的影響[J].中國環(huán)境監(jiān)測,2020,36(2):109-115.
[4] 艾瑞瑞.氣象條件與環(huán)境污染對PM2.5濃度的影響[J].環(huán)境與發(fā)展,2018,30(12):57-59.
[5] 景寬,劉保獻(xiàn),王焱,等.溫濕度對PM2.5質(zhì)量濃度監(jiān)測的影響[J].中國環(huán)境監(jiān)測,2018,34(4):124-132.
[6] 馮樷,劉戈,黃勇,等.基于BP神經(jīng)網(wǎng)絡(luò)的天津市PM2.5濃度預(yù)測研究[J].環(huán)境科學(xué)與管理,2016,41(6):121-125.
[7] 趙正,禹小杰,熊育政,等.基于回歸分析以及決策樹算法的PM2.5預(yù)測模型[J].長江信息通信,2022,35(11):9-11.
[8] 盧鋆鏌,曾穗平,曾堅,等.基于隨機(jī)森林的高分辨率PM2.5濃度時空變化模擬——以中原城市群核心區(qū)為例[J].中國環(huán)境科學(xué),2023,43(7):3299-3311.
[9] 楊俊闖,趙超.K-Means聚類算法研究綜述[J].計算機(jī)工程與應(yīng)用,2019,55(23):7-14.
[10] 孫榮恒.應(yīng)用數(shù)理統(tǒng)計(第三版)[M].北京:科學(xué)出版社,2014.
[11] 周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.
收稿日期:2024-01-29
作者簡介:劉婷婷(1995- ),女,安徽合肥人,助理工程師,主要研究方向為大氣環(huán)境監(jiān)測與職業(yè)衛(wèi)生。
Abstract: In order to explore the applicability and accuracy of PM2.5 concentration prediction method in atmospheric environment, this paper established linear regression and BP neural network prediction models, and compared and analyzed the prediction effect of the two models on PM2.5concentration based on the correlation between PM2.5 concentration in atmospheric environment and meteorological factors such as temperature and rainfall .The results showed that the PM2.5 concentration in winter was higher than that in summer, indicating a trend that the lower the atmospheric temperature, the higher the concentration level. When the daily rainfall exceeds a certain threshold, it is conducive to the dilution of PM2.5 concentration. There were differences in the prediction results between linear regression and BP neural network model. The relative errors of linear regression model were both lower than 30%. The overall prediction effect was better than that of neural network model. When linear regression prediction model was used with a small amount of sample data, the reliability and accuracy of prediction results became better.