曹還君 李長(zhǎng)云
收稿日期:2023-11-08
DOI:10.19850/j.cnki.2096-4706.2024.04.030
摘? 要:為提高PM2.5濃度的預(yù)測(cè)精度,提出了一種結(jié)合麻雀搜索算法(SSA)和長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)的組合預(yù)測(cè)模型。以2023年5月至8月期間長(zhǎng)沙市PM2.5濃度數(shù)據(jù)為基礎(chǔ),構(gòu)建了SSA-LSTM模型并與其他模型進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,SSA-LSTM模型的預(yù)測(cè)結(jié)果在擬合優(yōu)度(R2)上相較于單一LSTM、PSO-LSTM和WOA-LSTM模型分別提升了45.93%、31.55%、19.12%,同樣在均方根誤差(RMSE)和平均絕對(duì)誤差(MAE)的結(jié)果上也表現(xiàn)更優(yōu),表明該模型在PM2.5濃度預(yù)測(cè)方面具有高準(zhǔn)確性和有效性,可為制定PM2.5相關(guān)預(yù)防措施提供一定的參考價(jià)值。
關(guān)鍵詞:麻雀搜索算法;長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò);空氣質(zhì)量;PM2.5濃度預(yù)測(cè)
中圖分類號(hào):TP18? ? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2024)04-0142-06
Research on Air Quality Prediction Based on SSA-LSTM Model
CAO Huanjun, LI Changyun
(College of Computer Science, Hunan University of Technology, Zhuzhou? 412007, China)
Abstract: To improve the accuracy of PM2.5 concentration prediction, a combined prediction model integrating Sparrow Search Algorithm (SSA) and Long Short-Term Memory (LSTM) neural networks is proposed. The SSA-LSTM model is developed based on PM2.5 concentration data from Changsha city, spanning from May to August in 2023, and is compared with other models. The results show that the SSA-LSTM model significantly outperformed the standalone LSTM, PSO-LSTM, and WOA-LSTM models in terms of fit quality (R2), registering improvements of 45.93%, 31.55%, and 19.12%, respectively. Similarly, it also shows superior performance in terms of Root Mean Square Error (RMSE) and Mean Absolute Error (MAE). These findings demonstrate the model has high accuracy and effectiveness in PM2.5 concentration prediction, providing a certain reference value for making the PM2.5-related preventive measures.
Keywords: SSA; LSTM; air quality; PM2.5 concentration prediction
0? 引? 言
進(jìn)入21世紀(jì)以來(lái),隨著人類社會(huì)經(jīng)濟(jì)的快速發(fā)展,能源消耗量的劇增導(dǎo)致了環(huán)境污染問(wèn)題的加劇,尤其是空氣污染問(wèn)題變得尤為嚴(yán)重。研究顯示,長(zhǎng)期暴露于高濃度污染物的環(huán)境中,不僅對(duì)人類健康構(gòu)成直接威脅,也會(huì)給企業(yè)生產(chǎn)帶來(lái)直接或間接的影響[1]??諝馕廴境潭鹊闹饕笜?biāo)是空氣中的污染物濃度,其中PM2.5是影響空氣質(zhì)量的關(guān)鍵指標(biāo)。由于體積小、重量輕,PM2.5能在空氣中長(zhǎng)時(shí)間滯留,并在吸入人體后對(duì)健康造成嚴(yán)重危害[2],因此研究建立一個(gè)高效且精確的PM2.5濃度預(yù)測(cè)模型,有助于人們制定并采取必要的預(yù)防措施,具有重要的現(xiàn)實(shí)意義。
在PM2.5濃度預(yù)測(cè)的研究領(lǐng)域,國(guó)內(nèi)外學(xué)者們已經(jīng)探索了多種方法以提升預(yù)測(cè)的精度和實(shí)用性。早期的研究,學(xué)者們主要基于傳統(tǒng)的統(tǒng)計(jì)學(xué)方法建立線性模型對(duì)PM2.5濃度進(jìn)行預(yù)測(cè),如多元線性回歸模型(MLP)[3]、差分整合移動(dòng)平均自回歸模型(ARIMA)[4,5]
等。但由于影響PM2.5濃度的因素過(guò)多且相互之間關(guān)聯(lián)性強(qiáng),使得PM2.5濃度的變化具有毛刺多、陡升陡降的特點(diǎn),導(dǎo)致傳統(tǒng)的線性模型在預(yù)測(cè)這類具有非線性特征的復(fù)雜時(shí)間序列數(shù)據(jù)方面,預(yù)測(cè)誤差較大,存在一定的局限性。近年來(lái),隨著人工智能技術(shù)的快速進(jìn)步,機(jī)器學(xué)習(xí)方法得到了廣泛應(yīng)用,包括應(yīng)用在了對(duì)PM2.5濃度預(yù)測(cè)的研究中,有效地克服了傳統(tǒng)統(tǒng)計(jì)模型在預(yù)測(cè)復(fù)雜非線性時(shí)間序列數(shù)據(jù)方面的不足,取得了顯著成果。其中隨機(jī)森林[6]、支持向量機(jī)[7]、神經(jīng)網(wǎng)絡(luò)[8]等機(jī)器學(xué)習(xí)算法能夠捕捉數(shù)據(jù)中的復(fù)雜模式和關(guān)系,已被證明在提高預(yù)測(cè)精度方面具有顯著優(yōu)勢(shì)。特別是,長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)[9](Long Short-Term Memory, LSTM)模型作為循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)的改進(jìn)版本,通過(guò)其獨(dú)特的門控機(jī)制解決了長(zhǎng)序列數(shù)據(jù)在訓(xùn)練過(guò)程中的梯度消失和梯度爆炸問(wèn)題,能夠有效地捕捉和利用長(zhǎng)期依賴關(guān)系,因而在處理非線性時(shí)間序列分析中發(fā)揮了重要作用。例如:潘永東等[10]利用LSTM模型對(duì)南京市的PM2.5濃度進(jìn)行預(yù)測(cè)和趨勢(shì)分析,取得了優(yōu)于SVR、XGBoost和MLR模型的預(yù)測(cè)結(jié)果;肖敏志等[11]的研究也表明,LSTM模型在PM2.5濃度預(yù)測(cè)上的精度超過(guò)了RNN模型。然而LSTM模型的預(yù)測(cè)準(zhǔn)確性高度依賴于其超參數(shù)的初始值設(shè)置,如迭代次數(shù)、學(xué)習(xí)率以及隱含層神經(jīng)元數(shù)量等,而人工設(shè)置這些超參數(shù)往往存在諸多挑戰(zhàn)[12],可能導(dǎo)致模型構(gòu)建困難和預(yù)測(cè)精度不足等問(wèn)題,從而影響最終預(yù)測(cè)結(jié)果。
為解決上述問(wèn)題并進(jìn)一步提升預(yù)測(cè)精度,本文提出麻雀搜索算法[13]長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Sparrow Search Algorithm-Long Short-Term Memory, SSA-LSTM)模型預(yù)測(cè)PM2.5濃度。研究基于長(zhǎng)沙市2023年5月到8月期間的空氣污染物濃度和氣象數(shù)據(jù),應(yīng)用SSA對(duì)LSTM模型的超參數(shù)進(jìn)行優(yōu)化,構(gòu)建了SSA-LSTM模型,并將其與單一LSTM預(yù)測(cè)模型、粒子群優(yōu)化算法(Particle Swarm Optimization, PSO)優(yōu)化的LSTM模型,以及鯨魚優(yōu)化算法(Whale Optimization Algorithm, WOA)優(yōu)化的LSTM模型的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比分析。
1? 基礎(chǔ)理論
1.1? 長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)
長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)[9](LSTM)是深度學(xué)習(xí)領(lǐng)域中一種重要的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)變體,于1997年由Hochreiter和Schmidhuber首次提出,解決了傳統(tǒng)RNN模型在長(zhǎng)序列訓(xùn)練過(guò)程中的梯度消失和梯度爆炸問(wèn)題,對(duì)于長(zhǎng)時(shí)間序列數(shù)據(jù)的預(yù)測(cè)具有非常好的表現(xiàn)能力,LSTM的記憶單元如圖1所示。
圖1? LSTM的記憶單元
長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)的核心在于其獨(dú)特的細(xì)胞狀態(tài)(Cell State),這一狀態(tài)構(gòu)成了網(wǎng)絡(luò)的記憶核心,相當(dāng)于一個(gè)內(nèi)存單元,專門設(shè)計(jì)用于存儲(chǔ)和傳遞時(shí)間序列信息。這一機(jī)制賦予了LSTM處理長(zhǎng)期時(shí)間依賴性的能力,從而在處理序列數(shù)據(jù)時(shí),能夠維持關(guān)鍵信息的長(zhǎng)期記憶。LSTM的記憶單元由三個(gè)主要的門控組件構(gòu)成:輸入門(it)、輸出門(ft)和遺忘門(ot)。在時(shí)刻t,記憶單元接收輸入向量xt,并更新其隱藏狀態(tài)ht。門控結(jié)構(gòu)的作用是調(diào)節(jié)信息流,其中輸入門負(fù)責(zé)調(diào)控新信息的接入,遺忘門控制信息的保留與丟棄,而輸出門則控制從記憶單元到輸出的信息流。這些門的活動(dòng)狀態(tài)是通過(guò)學(xué)習(xí)得到的,初始狀態(tài)分別設(shè)定為it、ft和ot,以便網(wǎng)絡(luò)能夠在訓(xùn)練過(guò)程中自適應(yīng)地調(diào)整信息流的動(dòng)態(tài)傳遞。
在LSTM中,存儲(chǔ)單元的狀態(tài)更新過(guò)程如下。
以下等式是輸入門的數(shù)學(xué)表達(dá)式,它決定了哪些信息必須轉(zhuǎn)移到單元中:
(1)
以下等式是遺忘門的數(shù)學(xué)表達(dá)式,它決定了要忽略哪些信息:
(2)
(3)
根據(jù)遺忘門和輸入門的狀態(tài),來(lái)更新單元狀態(tài)Ct,表達(dá)式為:
(4)
輸出門負(fù)責(zé)更新輸出,由以下等式給出,輸出門還負(fù)責(zé)更新前一個(gè)時(shí)間步的隱藏層。輸出門的最終輸出為:
(5)
(6)
式(1)~(6)中,σ表示Sigmoid函數(shù),會(huì)根據(jù)輸入產(chǎn)生[0,1]之間的向量; 表示的是候選細(xì)胞信息;Wf 、Wi、Wo、Wc表示的是LSTM細(xì)胞狀態(tài)更新過(guò)程中的權(quán)重系數(shù)矩陣;bf 、bi、bo、bc表示狀態(tài)更新過(guò)程中的偏置矩陣。
1.2? 麻雀搜索算法
麻雀搜索算法[13](Sparrow Search Algorithm, SSA)源自對(duì)麻雀群體在自然界中覓食及逃避天敵行為的深入觀察,是一種模擬生物群體智能行為的優(yōu)化算法。該算法精確地抽象了麻雀在其生態(tài)系統(tǒng)中的行為策略和社會(huì)結(jié)構(gòu),明確劃分為發(fā)現(xiàn)者、加入者以及警戒者三種角色。在此算法下,發(fā)現(xiàn)者承擔(dān)著探索資源并指引群體覓食方向的重任,而加入者則依賴發(fā)現(xiàn)者的引導(dǎo)以獲得資源,警戒者則在感知到威脅時(shí)向同伴發(fā)出警報(bào),并引導(dǎo)群體采取避險(xiǎn)措施。麻雀搜索算法具有求解精度高、收斂速度快、魯棒性好的特點(diǎn),在求解復(fù)雜優(yōu)化問(wèn)題時(shí)展現(xiàn)出了顯著優(yōu)勢(shì),尤其是在收斂速度和增強(qiáng)全局搜索能力方面表現(xiàn)出色,已成為解決各類優(yōu)化問(wèn)題的一種高效算法。
在麻雀搜索算法中,N只麻雀所組成的隨機(jī)初始化種群表示如下:
(7)
式(7)中,d表示待優(yōu)化問(wèn)題變量的維數(shù)。麻雀種群的適應(yīng)度表示如下:
(8)
式(8)中,f表示單只麻雀的適應(yīng)度值。發(fā)現(xiàn)者的位置更新公式:
(9)
式(9)中,t表示當(dāng)前的迭代索引且 ,其中itermax表示預(yù)定的最大迭代次數(shù);j為維度索引, 表示第t次迭代中第i只麻雀的第j維的位置信息;參數(shù)α表示一個(gè)定義在區(qū)間(0,1]上的隨機(jī)變量;ST和R2分別表示安全閾值和報(bào)警閾值;Q表示一個(gè)服從正態(tài)分布的隨機(jī)變量;L表示一個(gè)全由1構(gòu)成的1×d維矩陣。
當(dāng)R2<ST時(shí),表示此時(shí)具有安全的覓食環(huán)境,發(fā)現(xiàn)者可進(jìn)行大范圍的搜索;當(dāng)R2≥ST,表示當(dāng)前覓食環(huán)境出現(xiàn)危險(xiǎn)信息,整個(gè)麻雀種群需轉(zhuǎn)移到安全區(qū)域進(jìn)行搜索。加入者的位置更新公式:
(10)
式(10)中,Xp表示目前發(fā)現(xiàn)者所占據(jù)的最優(yōu)位置;Xworst則表示當(dāng)前全局最差的位置;A表示一個(gè)元素隨機(jī)為1或-1的1×d維矩陣,并且A+ = AT (AAT)-1。
當(dāng)i>n / 2時(shí),表明適應(yīng)度較低的第i個(gè)加入者因無(wú)法獲取食物而處于饑餓狀態(tài),需前往其他地方進(jìn)行覓食從而補(bǔ)充能量。預(yù)警者的位置更新公式:
(11)
式(11)中,Xbest表示當(dāng)前迭代中全體個(gè)體的最優(yōu)位置;參數(shù)β和α都表示步長(zhǎng)控制因子,其中β表示一個(gè)服從均值為0的且方差為1的正態(tài)分布的隨機(jī)變量,而α表示一個(gè)值位于[-1,1]的隨機(jī)變量;fg和fw分別表示當(dāng)前迭代中的全局最優(yōu)適應(yīng)度值和最差適應(yīng)度值;fi則表示當(dāng)前麻雀?jìng)€(gè)體的適應(yīng)度值;ε表示一個(gè)趨近于0的變量,用以確保分母不為0。
當(dāng)個(gè)體適應(yīng)度f(wàn)i大于全局適應(yīng)度f(wàn)g時(shí),這表明該麻雀處于潛在的危險(xiǎn)區(qū)域,易受到捕食者的攻擊;當(dāng)fi = fg時(shí),位于種群中間的麻雀感知到危險(xiǎn)的跡象,它們會(huì)傾向于靠近其他個(gè)體,以減少自身被捕食的可能性。
1.3? SSA-LSTM模型
LSTM模型的性能和預(yù)測(cè)準(zhǔn)確性在很大程度上受到其超參數(shù)配置的影響,這些超參數(shù)包括但不限于迭代次數(shù)、隱含層神經(jīng)元數(shù)量以及學(xué)習(xí)率等。傳統(tǒng)的超參數(shù)調(diào)整方法往往依賴于經(jīng)驗(yàn)和試錯(cuò),這種方法不僅耗時(shí)而且缺乏系統(tǒng)性,很難保證達(dá)到模型性能的最優(yōu)化。因此本文采用了智能優(yōu)化算法——麻雀搜索算法(SSA),對(duì)LSTM模型的超參數(shù)進(jìn)行系統(tǒng)地優(yōu)化。通過(guò)SSA算法的全局搜索能力,可以確保LSTM模型在多維超參數(shù)空間中有效地探索,并快速穩(wěn)定地收斂到全局最優(yōu)解,從而顯著提升模型的性能和預(yù)測(cè)精度。
此模型的優(yōu)化過(guò)程包含以下幾個(gè)步驟:
1)首先對(duì)缺失數(shù)據(jù)采用拉格朗日插值法對(duì)數(shù)據(jù)進(jìn)行填補(bǔ)。之后執(zhí)行歸一化處理,根據(jù)式(12),將所有數(shù)據(jù)縮放到[0,1]區(qū)間中以消除量綱影響。
(12)
式(12)中,X表示原始數(shù)據(jù);Xmin和Xmax分別表示原始數(shù)據(jù)中的最小值和最大值;Xnew表示歸一化處理之后的數(shù)據(jù)。完成這些步驟后,再將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集。
2)利用參數(shù)如最大迭代次數(shù)、麻雀種群規(guī)模、尋優(yōu)維度以及生產(chǎn)者比例來(lái)初始化麻雀種群。采用訓(xùn)練集上的均方誤差作為適應(yīng)度函數(shù),對(duì)LSTM網(wǎng)絡(luò)的關(guān)鍵超參數(shù)——迭代次數(shù)、隱含層神經(jīng)元數(shù)量和學(xué)習(xí)率進(jìn)行自動(dòng)優(yōu)化。
3)計(jì)算種群中每個(gè)麻雀?jìng)€(gè)體的適應(yīng)度,并按適應(yīng)度值進(jìn)行排序,以識(shí)別當(dāng)前具有最優(yōu)和最差適應(yīng)度的個(gè)體。
4)根據(jù)式(9)~(11)更新發(fā)現(xiàn)者、跟隨者和預(yù)警者的位置。在每次迭代中,保留適應(yīng)度最高的個(gè)體,并更新全局最優(yōu)適應(yīng)度值。
5)判斷是否滿足算法的終止條件,如果滿足,則保存算法所尋到的最優(yōu)參數(shù);如果不滿足,則返回步驟3)繼續(xù)迭代優(yōu)化過(guò)程。
6)使用優(yōu)化后的超參數(shù)重構(gòu)LSTM模型,并輸入測(cè)試集數(shù)據(jù)以獲得預(yù)測(cè)值。最后,對(duì)預(yù)測(cè)結(jié)果進(jìn)行反歸一化處理,以得到最終的預(yù)測(cè)結(jié)果。
構(gòu)建的系統(tǒng)模型整體結(jié)構(gòu)如圖2所示。
圖2? SSA-LSTM流程圖
2? 實(shí)驗(yàn)與結(jié)果分析
2.1? 實(shí)驗(yàn)平臺(tái)
本實(shí)驗(yàn)基于Python語(yǔ)言,使用JupyterLab進(jìn)行代碼編寫和結(jié)果展示。具體實(shí)驗(yàn)環(huán)境及相關(guān)版本號(hào)如表1所示。
表1? 實(shí)驗(yàn)環(huán)境配置
項(xiàng)目 版本
操作系統(tǒng) Ubuntu 22(x86)
CPU Intel(R)Xeon(R)CPU E3-1231 v3
GPU NVIDIA Quadra K1200
內(nèi)存 32 GB
Python 3.8.17
TensorFlow-GPU 2.3.0
Numpy 1.24.3
Matplotlib 3.7.1
2.2? 數(shù)據(jù)來(lái)源
本文采用的數(shù)據(jù)來(lái)自中國(guó)環(huán)境監(jiān)測(cè)總站(www.cnemc.cn),選取了2023 年5月1日0點(diǎn)到2023年8月25日23點(diǎn)的長(zhǎng)沙市空氣質(zhì)量小時(shí)數(shù)據(jù),包括PM2.5、PM10、SO2、NO2、O3等空氣污染物濃度和風(fēng)速、溫度、濕度等氣象數(shù)據(jù)共3 000條記錄,其中前80% 數(shù)據(jù)作為訓(xùn)練集,后20%數(shù)據(jù)作為測(cè)試集。空氣污染物濃度單位為μg/m3、溫度單位為℃、風(fēng)速單位為m/s、濕度單位為%RH。受篇幅限制,部分?jǐn)?shù)據(jù)如表2所示。
2.3? 評(píng)價(jià)指標(biāo)
為了全面評(píng)估預(yù)測(cè)模型的性能,本實(shí)驗(yàn)選用了均方根誤差(Root Mean Square Error, RMSE)、平均絕對(duì)誤差(Mean Absolute Error, MAE)和擬合優(yōu)度R2(Goodness of Fit)作為評(píng)價(jià)指標(biāo),計(jì)算公式如下:
(13)
(14)
R2 = 1 -? ? ? ? ? ? ? ? (15)
式中,Yi表示第i個(gè)時(shí)間點(diǎn)實(shí)際觀測(cè)到的PM2.5濃度值, 表示模型預(yù)測(cè)的PM2.5濃度值,N表示觀測(cè)序列的總長(zhǎng)度。理想情況下,RMSE和MAE的值越低,表明預(yù)測(cè)誤差越小;R2的值越接近1,則說(shuō)明模型的預(yù)測(cè)能力越強(qiáng),擬合度越高。
2.4? 結(jié)果分析
SSA會(huì)對(duì)LSTM網(wǎng)絡(luò)的超參數(shù)尋優(yōu),包括迭代次數(shù)、學(xué)習(xí)率、第1和第2隱含層的神經(jīng)元數(shù)量,并以訓(xùn)練集的均方差(RMSE)為適應(yīng)度函數(shù),適應(yīng)度函數(shù)值越大,表明模型訓(xùn)練結(jié)果越準(zhǔn)確。設(shè)置麻雀種群中個(gè)體數(shù)目為10,尋優(yōu)維度為4,最大迭代次數(shù)為10,發(fā)現(xiàn)者和警戒者在麻雀種群中所占比例分別為20%和10%,安全閾值ST為0.8。設(shè)置學(xué)習(xí)率的范圍為[0.001,0.01],迭代次數(shù)尋優(yōu)范圍為[10,100],第1和第2隱含層的神經(jīng)元數(shù)量范圍為[1,100]。
為了充分證實(shí)所提出的SSA-LSTM模型在預(yù)測(cè)精度和有效性方面的優(yōu)勢(shì),本文設(shè)計(jì)了以下對(duì)比實(shí)驗(yàn),涵蓋了單一LSTM模型、PSO-LSTM模型和WOA-LSTM模型。通過(guò)這些對(duì)比實(shí)驗(yàn),旨在展示SSA-LSTM模型在處理PM2.5濃度預(yù)測(cè)問(wèn)題時(shí)的性能表現(xiàn)。預(yù)測(cè)結(jié)果的對(duì)比展示在圖3中,其直觀反映了不同模型間的預(yù)測(cè)能力差異。
如圖3所示的實(shí)驗(yàn)結(jié)果顯示,SSA-LSTM模型在預(yù)測(cè)精度方面相對(duì)于單一LSTM模型具有顯著提升,并且與PSO-LSTM模型和WOA-LSTM模型相比,展現(xiàn)出更優(yōu)的擬合能力。這一結(jié)果凸顯了SSA-LSTM模型在整體預(yù)測(cè)性能上的優(yōu)越性。為了進(jìn)一步量化各模型的預(yù)測(cè)效果,本文采用了式(13)~(15)定義的評(píng)價(jià)指標(biāo)RMSE、MAE和R2進(jìn)行計(jì)算,并將結(jié)果匯總至表3。
表3? 實(shí)驗(yàn)結(jié)果
預(yù)測(cè)模型 評(píng)價(jià)指標(biāo)
RMSE MAE R2
LSTM 2.407 6 1.938 4 0.874 8
WOA-LSTM 2.139 2 1.634 4 0.901 1
PSO-LSTM 1.968 2 1.488 1 0.916 3
SSA-LSTM 1.745 2 1.293 9 0.932 3
由表3可知,SSA-LSTM的預(yù)測(cè)結(jié)果擬合效果表現(xiàn)最佳,相較于單一LSTM模型、WOA-LSTM模型以及PSO-LSTM模型,SSA-LSTM的均方根誤差(RMSE)分別降低了27.51%、18.42%、11.33%,平均絕對(duì)誤差(MAE)分別降低了33.25%、20.83%、13.05%,擬合優(yōu)度(R2)分別提高了45.93%、31.55%、19.12%。這些結(jié)果進(jìn)一步證明了SSA-LSTM模型在提高PM2.5濃度預(yù)測(cè)準(zhǔn)確性方面具有顯著優(yōu)勢(shì)。
3? 結(jié)? 論
本研究提出了一種結(jié)合麻雀搜索算法和長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的PM2.5濃度預(yù)測(cè)模型(SSA-LSTM),針對(duì)空氣質(zhì)量評(píng)估的關(guān)鍵問(wèn)題進(jìn)行了探究。通過(guò)構(gòu)建的SSA-LSTM模型,本文有效地解決了LSTM模型超參數(shù)的初始化設(shè)置難題,實(shí)現(xiàn)了對(duì)PM2.5濃度的精確預(yù)測(cè),為相關(guān)領(lǐng)域研究提供了新的思路?;陂L(zhǎng)沙市2023年5月至8月的空氣污染物濃度和氣象數(shù)據(jù),建立對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,SSA-LSTM模型的預(yù)測(cè)結(jié)果相比于單一LSTM模型以及其他先進(jìn)的組合模型(如PSO-LSTM和WOA-LSTM),表現(xiàn)出了更優(yōu)秀的預(yù)測(cè)精度。
未來(lái)的工作將聚焦于進(jìn)一步提升預(yù)測(cè)模型的實(shí)時(shí)性和動(dòng)態(tài)適應(yīng)性,探索實(shí)時(shí)數(shù)據(jù)流環(huán)境下的模型快速更新機(jī)制,并結(jié)合更多種類的環(huán)境數(shù)據(jù)源,以及考慮更加復(fù)雜的外部影響因素,例如區(qū)域工業(yè)活動(dòng)、交通流量和天氣變化等。同時(shí),也應(yīng)關(guān)注模型的可解釋性,以便更好地理解模型預(yù)測(cè)結(jié)果背后的驅(qū)動(dòng)因素,為政策制定者提供更可靠的決策支持。
參考文獻(xiàn):
[1] 李衛(wèi)兵,張凱霞.空氣污染對(duì)企業(yè)生產(chǎn)率的影響——來(lái)自中國(guó)工業(yè)企業(yè)的證據(jù) [J].管理世界,2019,35(10):95-112+119.
[2] 楊新興,馮麗華,尉鵬.大氣顆粒物PM2.5及其危害 [J].前沿科學(xué),2012,6(1):22-31.
[3] DIMITRIOU K,KASSOMENOS P. A study on the reconstitution of daily PM10 and PM2.5 levels in Paris with a multivariate linear regression model [J].Atmospheric Environment,2014,98:648-654.
[4] 黃婷婷,朱家明,劉丹丹.蕪湖市PM(2.5)的影響因素分析與預(yù)測(cè) [J].山西師范大學(xué)學(xué)報(bào):自然科學(xué)版,2017,31(2):88-93.
[5] JIAN L,ZHAO Y,ZHU Y P,et al. An application of ARIMA model to predict submicron particle concentrations from meteorological factors at a busy roadside in Hangzhou,China [J].Science of the Total Environment,2012,426:336-345.
[6] HU X,BELLE J H,MENG X,et al. Estimating PM2.5 Concentrations in the Conterminous United States Using the Random Forest Approach [J].Environmental Science & Technology,2017:6936-6944.
[7] LAI X,LI H,PAN Y. A combined model based on feature selection and support vector machine for PM2.5 prediction [J].Journal of Intelligent & Fuzzy Systems,2021:10099-10113.
[8] CHEN Y. Prediction algorithm of PM2.5 mass concentration based on adaptive BP neural network [J].Computing,2018:825-838.
[9] HOCHREITER S,SCHMIDHUBER J. Long short-term memory [J].Neural computation,1997,9(8):1735-1780.
[10] 潘永東,曹騮,劉明.基于LSTM網(wǎng)絡(luò)的PM2.5濃度預(yù)測(cè) [J].金陵科技學(xué)院學(xué)報(bào),2021,37(4):7-13.
[11] 肖敏志,王淑君,宋巍巍.基于LSTM的PM(2.5)預(yù)測(cè)模型綜述 [C]//2019中國(guó)環(huán)境科學(xué)學(xué)會(huì)科學(xué)技術(shù)年會(huì)論文集(第一卷).西安:[出版者不詳],2019:949-952.
[12] GILIK A,OGRENCI A S,OZMEN A. Air quality prediction using CNN+LSTM-based hybrid deep learning architecture [J].Environmental Science and Pollution Research,2022:11920-11938.
[13] 薛建凱.一種新型的群智能優(yōu)化技術(shù)的研究與應(yīng)用 [D].上海:東華大學(xué),2020.
作者簡(jiǎn)介:曹還君(2000—),男,漢族,湖南常德人,碩士在讀,研究方向:工業(yè)大數(shù)據(jù)、智能信息處理;李長(zhǎng)云(1971—),男,漢族,湖南衡陽(yáng)人,教授,博士,研究方向:軟件理論、物聯(lián)網(wǎng)工程、人工智能。