摘要:出水總氮質量濃度是評價污水處理廠生物脫氮效果的關鍵指標之一。為解決污水廠總氮排放易超標的問題,提出了一個基于長短期記憶網(wǎng)絡(LSTM)的出水總氮實時預測模型。利用皮爾遜相關性分析來確定模型輸入,并通過網(wǎng)格搜索算法優(yōu)化模型超參數(shù)。將得到的LSTM模型應用于重慶市某實際污水處理廠預測出水總氮,并與傳統(tǒng)的時序模型作對比,驗證了該模型的可行性。結果表明:LSTM模型能夠較好地預測出水總氮,其預測值與實際值的平均絕對誤差為0.911 mg/L,均方根誤差為1.074 mg/L,平均絕對百分比誤差為11.28%,各項指標均優(yōu)于循環(huán)神經(jīng)網(wǎng)絡(RNN)模型和自回歸差分移動平均(ARIMA)模型。這一模型的構建可以為出水總氮的高效監(jiān)測提供幫助。
關鍵詞:LSTM模型;皮爾遜相關性;網(wǎng)格搜索算法;出水總氮
中圖分類號:TU992文獻標志碼:A文章編號:1002-4026(2024)06-0116-09
近年來,隨著大數(shù)據(jù)和人工智能技術的興起,智慧水務逐漸成為污水處理的主要發(fā)展方向[1]。在此背景下,水質預測作為污水處理廠向數(shù)字化和智慧化轉型的核心環(huán)節(jié),其重要性愈發(fā)凸顯[2]。準確預測水質不僅能為污水處理廠水質超低排放和能耗藥耗優(yōu)化等提供決策支持,更有助于推動污水廠向“碳中和”目標邁進。
污水廠的出水總氮質量濃度是評估水體富營養(yǎng)化程度的重要指標[3],同時也是衡量污水處理工藝效能的關鍵指標[4]。污水廠通常利用包含復雜生化反應的生物處理工藝實現(xiàn)脫氮。然而,這些工藝的調(diào)控主要依賴于操作人員的個人經(jīng)驗,此方式往往存在一定的滯后性。尤其是在面對突發(fā)事件時,這種調(diào)控方法很難及時響應,可能對出水質量的穩(wěn)定性產(chǎn)生負面影響[5]。所以,污水廠出水總氮質量濃度的準確預測愈發(fā)重要[6-7]。為實現(xiàn)這一目標,國內(nèi)外學者提出了許多新的預測方法。黃學平等[8]利用隨機森林、K近鄰算法和支持向量機等3種模型對出水總氮進行預測,成功建立了總氮與其他水質指標的非線性關系。這表明這些模型在出水總氮預測方面具有可行性。Zhao等[9]將可控運行參數(shù)和其他進水參數(shù)作為模型輸入,采用基于量化共軛梯度法(scaled conjugate gradient,SCG)優(yōu)化的前饋神經(jīng)網(wǎng)絡(feed-forward neural network,F(xiàn)FNN)模型實現(xiàn)了對出水總氮的準確預測。然而,目前所提出的這些模型主要聚焦于出水總氮與其他污水監(jiān)測指標的非線性關系,未充分考慮這些變量之間的時間序列特性,這在一定程度上限制了預測模型的實用性。相比之下,長短期記憶網(wǎng)絡(long short term memory,LSTM)模型在捕捉數(shù)據(jù)中的長期依賴關系上表現(xiàn)出色,并能有效地從長時間序列數(shù)據(jù)中進行學習[10-11]。因此,在處理具有時間序列特性的污水處理廠監(jiān)測數(shù)據(jù)時,該模型能夠展現(xiàn)其優(yōu)勢特性。
山東科學2024年第6期余銘銓,等:基于LSTM模型的污水處理廠出水總氮預測研究鑒于此,以重慶市某污水處理廠的實際運行數(shù)據(jù)為基礎,通過皮爾遜相關性分析識別出與出水總氮最相關的影響因素,再利用網(wǎng)格搜索算法確定LSTM模型的最優(yōu)超參數(shù)組合。利用優(yōu)化后的LSTM模型對出水總氮進行預測,并與循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)模型和自回歸差分移動平均(autoregressive integrated moving average,ARIMA)模型的預測結果對比,評估LSTM模型的預測效果,探討該模型在污水廠出水總氮預測方面的應用潛力。
1材料與方法
1.1數(shù)據(jù)獲取
實驗數(shù)據(jù)源于重慶市某污水處理廠的實際運行數(shù)據(jù),該污水廠的二期工程采用改良型A/A/O工藝(前置預缺氧池),設計污水處理規(guī)模為3×104 m3/d,主要的出水水質指標均滿足城鎮(zhèn)污水處理廠污染物排放標準(GB 18918—2002)[12]一級A標準。實驗數(shù)據(jù)共1 812條,記錄頻率為每2小時1次。獲取的主要數(shù)據(jù)參數(shù)包括進水氨氮(JSAD)、進水pH(JSPH)、預缺氧區(qū)pH(YQYPH)、厭氧區(qū)pH(YYPH)、缺氧區(qū)pH(QYPH)、缺氧區(qū)氧化還原電位(QYORP)、厭氧區(qū)氧化還原電位(YYORP)、回流處氧化還原電位(HLORP)、溫度(Temp)和出水總氮(CSTN)。
1.2LSTM模型原理
LSTM模型是循環(huán)神經(jīng)網(wǎng)絡模型的變體,由Hochreiter和Schmidhuber于1997年首次提出[13]。該模型的每個模塊由遺忘門、輸入門、輸出門3個門控單元和1個細胞狀態(tài)單元組成。這一模型具有較強的記憶能力,適用于處理長時序列數(shù)據(jù)和解決長期依賴問題。其單元內(nèi)部結構如圖1所示。
LSTM模型的工作原理如下:
式中,ft表示遺忘門限;it表示輸入門限;ot表示輸出門限;gt表示前一刻細胞狀態(tài);ct表示當前細胞狀態(tài);ht表示t時刻單元輸出;xt為t時刻的輸入;σ為sigmoid函數(shù);tanh代表雙曲正切函數(shù);Wf、Wi、Wc、Wo分別代表遺忘門、輸入門、細胞狀態(tài)和輸出門的權重矩陣;bf、bi、bc、bo分別為遺忘門、輸入門、細胞狀態(tài)和輸出門的偏移向量。
由圖1可知,上一時刻的輸出ht-1和當前的狀態(tài)變量xt作為輸入量并行的輸入到遺忘門、輸入門和輸出門得到候選值。遺忘門主要負責丟棄ct-1的噪聲信息,保留關鍵信息;輸入門選擇性存儲臨界狀態(tài)ct的信息,進而更新存記憶單元ct;輸出門和更新后的記憶單元ct共同得出當前時刻輸出量ht,通過多次迭代減小誤差可以得到一個較優(yōu)的LSTM模型。
1.3網(wǎng)格搜索算法
利用網(wǎng)格搜索算法優(yōu)化LSTM模型的超參數(shù)。網(wǎng)格搜索算法是指定參數(shù)值的一種窮舉搜索方法[14]。該算法通過指定一個超參數(shù)候選值的列表,然后遍歷這些候選值的所有組合,通過交叉驗證來確定模型的最佳超參數(shù)組合。該算法的具體實現(xiàn)內(nèi)容包括:定義超參數(shù)空間、構建參數(shù)網(wǎng)格、訓練和評估模型以及確定最佳超參數(shù)組合。
網(wǎng)格搜索算法通過系統(tǒng)地探索超參數(shù)組合的空間,可以找到在給定范圍內(nèi)表現(xiàn)最好的模型超參數(shù)配置,適用于超參數(shù)較少的模型,可以大大提高模型的訓練速度。
1.4模型構建
LSTM出水總氮預測模型建模流程如圖2所示,包括數(shù)據(jù)清洗、影響因素分析、模型構建、模型訓練和模型評估。
1.4.1數(shù)據(jù)清洗
為確保數(shù)據(jù)質量,需要對原始數(shù)據(jù)進行預處理。數(shù)據(jù)預處理過程包括去除異常值和數(shù)據(jù)標準化。為減少監(jiān)測過程中的偶然誤差,依據(jù)萊特準則識別并剔除異常值。公式表達如下:
為消除原始數(shù)據(jù)中不同指標的量綱影響并提高模型的擬合效果,需要對原始數(shù)據(jù)進行標準化處理。具體公式如下:
式中,Z為標準化后的樣本值,μ和σ分別是數(shù)據(jù)樣本均值和樣本標準差。
1.4.2影響因素分析
皮爾遜相關性是用于度量兩個變量之間線性相關程度的統(tǒng)計指標[15]。由于污水脫氮過程受多種因素影響,本文利用皮爾遜相關性計算各影響因素與出水總氮的相關性,進而確定出水總氮預測模型的輸入子集。
1.4.3模型構建
將數(shù)據(jù)集按8:2的比例劃分,其中80%的數(shù)據(jù)用作訓練集來訓練模型,而20%的數(shù)據(jù)用作測試集來評估模型。利用Scikit-learn提供的網(wǎng)格搜索算法[16-17]在訓練集上調(diào)優(yōu)LSTM模型,主要優(yōu)化的超參數(shù)包括學習率(lr)、LSTM層數(shù)(num_layers)、隱藏層大?。╤idden_size)、批大?。╞atch_size)等。通過網(wǎng)格搜索算法確定的最優(yōu)超參數(shù)組合為:num_layers=3,batch_size=16,hidden_size=18,lr=0.005。最后,使用這一優(yōu)化后的LSTM模型預測出水總氮。
1.4.4模型評估
通過計算預測值與實際值的平均絕對誤差(mean absolute error,δMAE)、均方根誤差(root mean square error,δRMSE)和平均絕對百分比誤差(mean absolute percentage error,δMAPE)來衡量該預測模型性能。各評價指標計算公式如下:
2結果與討論
2.1重要影響因素分析
通過應用萊特準則,識別并剔除其中42條異常記錄。采用線性插值方法對這些剔除的數(shù)據(jù)點進行填補,以確保數(shù)據(jù)的完整性并減少異常值對后續(xù)分析的影響。
為確定LSTM出水總氮預測模型的輸入子集,對出水總氮的影響因素進行深入分析。各影響因素的皮爾遜相關性分析結果,如圖3所示。
由圖3可知,各因素對出水總氮的影響程度不同。按照相關性強弱排序,影響因素依次為:厭氧區(qū)ORP、缺氧區(qū)ORP、預缺氧區(qū)pH、回流處ORP、厭氧區(qū)pH、缺氧區(qū)pH、進水氨氮、溫度和進水pH。由此可見,運行工藝中的ORP對總氮質量濃度的控制發(fā)揮著重要作用,這與Chen等[18]的研究結果一致。另外,進水氨氮與出水總氮相關性較高,這與Faramarz B等[19]對A/O工藝作總氮預測時的分析結果一致。前人研究也發(fā)現(xiàn),溫度和pH是影響污水中的硝化菌、反硝化菌等微生物的活性的重要因素[19],這些微生物在總氮的去除過程中發(fā)揮著重要作用[19-21]。
通過上述分析,可以得到與出水總氮相關的重要影響因素包括:厭氧區(qū)ORP、缺氧區(qū)ORP、預缺氧區(qū)pH、回流區(qū)ORP、厭氧區(qū)pH、缺氧區(qū)pH、進水氨氮、溫度和進水pH。因此,選擇這9個關鍵影響因素作為輸入,出水總氮作為輸出,構建基于LSTM的出水總氮實時預測模型。
2.2模型預測結果
利用LSTM模型對污水處理廠的出水總氮進行預測,預測結果如圖4所示。由圖4知,LSTM模型在整個預測過程中的波動都相對較小,預測值與實際值接近,具有較高的預測準確性。
圖5是LSTM模型的出水總氮預測值與實際值的對比結果。由圖5可知,該模型在測試集和訓練集上的預測準確性均相對較高,預測值與實際值之間的誤差較小。值得注意的是,該模型在測試集上的預測效果相比訓練集的有所降低。這種性能差異主要是由于測試集的數(shù)據(jù)分布與訓練集的不同[22]。具體而言,測試集的數(shù)據(jù)是從與訓練集不同時間段的抽取的,包括了不同的環(huán)境狀態(tài),如突發(fā)環(huán)境事件或操作條件改變。這些變化反映了測試集在某些關鍵特征上與訓練集的顯著差異,從而影響了模型在測試集上的表現(xiàn)。這表明,盡管該模型表現(xiàn)出了一定的泛化能力,但在預測復雜的環(huán)境監(jiān)測數(shù)據(jù)時,仍需進一步優(yōu)化以適應新的數(shù)據(jù)集。
2.3模型效果評價
為評估LSTM模型的擬合效果和預測精度,進一步與RNN模型和ARIMA模型作對比實驗。圖6展示了3種模型在出水總氮預測效果的對比。由圖6可知,ARIMA模型的預測性能相對較差。雖然LSTM模型與RNN模型預測趨勢接近,但LSTM模型的預測誤差更小,預測效果更好。
表1是3種模型預測結果精度對比。由表1可知,LSTM模型出水總氮預測值與實際值的δMAE、δRMSE和δMAPE分別為0.911 mg/L、1.074 mg/L和11.28%;RNN模型出水總氮預測值與實際值的δMAE、δRMSE和δMAPE分別為1.094 mg/L、1.188 mg/L和13.45%;ARIMA模型出水總氮預測值與實際值的δMAE、δRMSE和δMAPE分別為2.853 mg/L、1.788 mg/L和29.06%。ARIMA模型主要用于小規(guī)模時序數(shù)據(jù)預測且該模型對非線性模式不敏感,因而在出水總氮的預測效果表現(xiàn)較差[23]。RNN模型也適用于時序數(shù)據(jù)預測,但在面對長期依賴問題時,由于反向傳播中的誤差可能引起的梯度爆炸,該模型捕捉輸入變量與出水總氮之間關系的能力會受限,從而影響整體預測效果[13]。相較之下,LSTM模型在面對不同規(guī)模數(shù)據(jù)集和捕捉相關變量間復雜關系的能力更為出色,因此在預測精度方面通常表現(xiàn)更好。
3結論
針對污水處理廠出水總氮易超標與監(jiān)測滯后性等問題,本文在數(shù)據(jù)分析的基礎上,提出基于LSTM的出水總氮實時預測模型。主要結論如下:
(1)通過皮爾遜相關性分析確定影響出水總氮預測的關鍵因素,這些因素主要包括:厭氧區(qū)ORP、預缺氧區(qū)pH、回流區(qū)ORP、厭氧區(qū)pH、缺氧區(qū)pH、進水氨氮、溫度和進水pH。此外,利用網(wǎng)格搜索算法優(yōu)化該LSTM模型的超參數(shù)組合,最終得到表現(xiàn)最佳的LSTM出水總氮預測模型。
(2)LSTM模型的出水總氮預測值與實際值的平均絕對誤差為0.911 mg/L,均方根誤差為1.074 mg/L,平均絕對百分比誤差為11.28%,依次比RNN模型降低了16.73%、9.60%和16.13%,比ARIMA模型降低了68.07%、39.93%和61.18%。所以,LSTM模型的預測值與真實值更接近,預測準確性更高。此外,LSTM模型適用于至少每2 h穩(wěn)定采集一次數(shù)據(jù)的污水處理廠,模型參數(shù)可根據(jù)具體采集條件進行調(diào)整,以確保該模型滿足目標污水廠的出水總氮預測需求。
(3)將LSTM模型引入A/A/O生物脫氮系統(tǒng)中,可以協(xié)助污水處理廠提前識別出水總氮超標排放等異常情況,并迅速采取預防措施。
參考文獻:
[1]孫國慶. 智慧水務關鍵技術研究及應用[J]. 水利信息化, 2018(1): 46-49. DOI: 10.19364/j.1674-9405.2018.01.010.
[2]蔣彬, 劉中亞, 陳垚, 等. 碳中和視角下污水處理現(xiàn)狀與展望[J]. 工業(yè)水處理, 2022, 42(6): 51-58. DOI: 10.19965/j.cnki.iwt.2021-0905.
[3]周青齡, 周琳, 桂雙林. MBR工藝在生活污水處理中同步脫氮除磷效果[J]. 能源研究與管理, 2019(3): 36-38. DOI: 10.16056/j.1005-7676.2019.03.010.
[4]李佟, 李軍. 基于BP神經(jīng)網(wǎng)絡與馬爾可夫鏈的污水處理廠脫氮效果模擬預測[J]. 環(huán)境科學學報, 2016, 36(2): 576-581. DOI: 10.13671/j.hjkxxb.2015.0559.
[5]林佳敏, 陳金良, 林晶晶, 等. BP神經(jīng)網(wǎng)絡和ARIMA模型對污水處理廠出水總氮濃度的模擬預測[J]. 環(huán)境工程技術學報, 2019, 9(5): 573-578. DOI: 10.12153/j.issn.1674-991X.2019.03.261.
[6]夏文澤, 馮驍, 王喆, 等. 基于新型聯(lián)合循環(huán)神經(jīng)網(wǎng)絡(RNN)模型的出水總氮預測[J]. 凈水技術, 2021, 40(8): 107-113. DOI: 10.15890/j.cnki.jsjs.2021.08.015.
[7]崔玉波, 張萬筠, 孫紅杰, 等. 污泥處理濕地系統(tǒng)滲濾液中總氮和氨氮的預測模型[J]. 中國給水排水, 2015, 31(17): 72-75. DOI: 10.19853/j.zgjsps.1000-4602.2015.17.017.
[8]黃學平, 吳留興, 辛攀, 等. 基于3種機器學習模型的污水處理廠出水總氮預測分析[J]. 能源研究與管理, 2023, 15(2): 100-105. DOI: 10.16056/j.2096-7705.2023.02.015.
[9]ZHAO Z H, WANG Z H, YUAN J L, et al. Development of a novel feedforward neural network model based on controllable parameters for predicting effluent total nitrogen[J]. Engineering, 2021, 7(2): 195-202. DOI: 10.1016/j.eng.2020.07.027.
[10]HANSEN L D, STOKHOLM-BJERREGAARD M, DURDEVIC P. Modeling phosphorous dynamics in a wastewater treatment process using Bayesian optimized LSTM[J]. Computers amp; Chemical Engineering, 2022, 160: 107738. DOI: 10.1016/j.compchemeng.2022.107738.
[11]PISA I, SANTIN I, MORELL A, et al. LSTM-based wastewater treatment plants operation strategies for effluent quality improvement[J]. IEEE Access, 2019, 7: 159773-159786. DOI: 10.1109/access.2019.2950852.
[12]國家環(huán)境保護總局科技標準司. 城鎮(zhèn)污水處理廠污染物排放標準: GB 18918—2002[S]. 北京:中國標準出版社,2002.
[13]HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI: 10.1162/neco.1997.9.8.1735.
[14]SHAMS M Y, ELSHEWEY A M, EL-KENAWY E S M, et al. Water quality prediction using machine learning models based on grid search method[J]. Multimedia Tools and Applications, 2024, 83(12): 35307-35334. DOI: 10.1007/s11042-023-16737-4.
[15]CHEN H L, CHANG X F. Photovoltaic power prediction of LSTM model based on Pearson feature selection[J]. Energy Reports, 2021, 7: 1047-1054. DOI: 10.1016/j.egyr.2021.09.167.
[16]李如仁, 孫加瑤. 融合SBAS-InSAR與GS-LSTM的尾礦庫沉降監(jiān)測與預測[J]. 金屬礦山, 2023(1): 102-109. DOI: 10.19614/j.cnki.jsks.202301011.
[17]ZHANG Y T, LI C L, DUAN H P, et al. Deep learning based data-driven model for detecting time-delay water quality indicators of wastewater treatment plant influent[J]. Chemical Engineering Journal, 2023, 467: 143483. DOI: 10.1016/j.cej.2023.143483.
[18]CHEN J C, CHANG N B, SHIEH W K. Assessing wastewater reclamation potential by neural network model[J]. Engineering Applications of Artificial Intelligence, 2003, 16(2): 149-157. DOI: 10.1016/s0952-1976(03)00056-3.
[19]FARAMARZ B, MOHAMAD-JAVAD M, MILAD B, et al. Comparative study on total nitrogen prediction in wastewater treatment plant and effect of various feature selection methods on machine learning algorithms performance[J]. Journal of Water Process Engineering, 2021, 41:102033.
[20]CHO K H, KIM J O, KANG S, et al. Achieving enhanced nitrification in communities of nitrifying bacteria in full-scale wastewater treatment plants via optimal temperature and pH[J]. Separation and Purification Technology, 2014, 132: 697-703. DOI: 10.1016/j.seppur.2014.06.027.
[21]湯琪. 生物脫氮除磷新技術[J]. 重慶大學學報(自然科學版), 2006, 29(9): 138-143.
[22]SHRESTHA N. Detecting multicollinearity in regression analysis[J]. American Journal of Applied Mathematics and Statistics, 2020, 8(2): 39-42. DOI: 10.12691/ajams-8-2-1.
[23]KONTOPOULOU V I, PANAGOPOULOS A D, KAKKOS I, et al. A review of ARIMA vs. machine learning approaches for time series forecasting in data driven networks[J]. Future Internet, 2023, 15(8): 255. DOI: 10.3390/fi15080255.