摘要:由于水質(zhì)數(shù)據(jù)特征復(fù)雜、關(guān)聯(lián)度參差不齊而導(dǎo)致溶解氧濃度預(yù)測(cè)難度較大,為提高水質(zhì)溶解氧濃度預(yù)測(cè)的準(zhǔn)確性,提出了一種基于特征工程和北方蒼鷹優(yōu)化算法的長(zhǎng)短期記憶網(wǎng)絡(luò)(Feature Engineering-Northern Goshawk Optimization-Long Short Term Memory,F(xiàn)E-NGO-LSTM)混合模型。首先對(duì)水質(zhì)數(shù)據(jù)集進(jìn)行缺失值補(bǔ)齊、特征篩選與特征多項(xiàng)式構(gòu)造,然后基于NGO-LSTM模型優(yōu)化模型參數(shù),提升預(yù)測(cè)性能;對(duì)不同多項(xiàng)式階數(shù)下的特征預(yù)測(cè)效果進(jìn)行分析之后,將該模型與基于灰狼優(yōu)化算法、鯨魚優(yōu)化算法及粒子群優(yōu)化算法的LSTM模型進(jìn)行對(duì)比;最后,在太湖流域東苕溪城南監(jiān)測(cè)斷面對(duì)該模型進(jìn)行了驗(yàn)證,計(jì)算FE-NGO-LSTM模型預(yù)見期為4,8,12,16,20,24 h的預(yù)測(cè)結(jié)果。試驗(yàn)結(jié)果顯示:當(dāng)多項(xiàng)式階數(shù)為2階時(shí),模型預(yù)測(cè)效果最好,F(xiàn)E-NGO-LSTM模型相比基于其他優(yōu)化算法的LSTM模型,平均絕對(duì)誤差、均方誤差、均方根誤差分別至少降低9.0%,12.9%及6.3%,且隨著預(yù)見期的增加,預(yù)測(cè)誤差仍在可接受范圍內(nèi),說明FE-NGO-LSTM模型在預(yù)測(cè)溶解氧濃度時(shí)具有一定優(yōu)勢(shì)與泛化性。
關(guān) 鍵 詞:水質(zhì)預(yù)測(cè);溶解氧;特征工程;深度學(xué)習(xí);北方蒼鷹優(yōu)化算法;耦合模型;苕溪流域;太湖流域
中圖法分類號(hào):TV213.4
文獻(xiàn)標(biāo)志碼:ADOI:10.16232/j.cnki.1001-4179.2024.10.012
0 引 言
水質(zhì)監(jiān)測(cè)和預(yù)測(cè)是全面提升國(guó)家水安全保障能力的重要環(huán)節(jié),提高水質(zhì)預(yù)測(cè)準(zhǔn)確度有助于加快推進(jìn)國(guó)家水網(wǎng)建設(shè)。隨著計(jì)算機(jī)科學(xué)技術(shù)的發(fā)展,基于人工智能深度學(xué)習(xí)算法的水質(zhì)預(yù)報(bào)在解決以往經(jīng)驗(yàn)公式老舊、大量數(shù)據(jù)處理、物理機(jī)制模型受限等問題時(shí)有較好表現(xiàn)[1-2]。例如基于長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory,LSTM)的水庫(kù)水位預(yù)測(cè)模型,相對(duì)預(yù)報(bào)誤差較低[3-4]。在此基礎(chǔ)上,郭利進(jìn)等[5]提出基于改進(jìn)果蠅算法優(yōu)化的LSTM模型應(yīng)用于水質(zhì)預(yù)測(cè),該模型預(yù)測(cè)溶解氧濃度效果較好。為進(jìn)一步提高LSTM模型預(yù)測(cè)性能,周朝勉[6]、王軍[7]等進(jìn)行了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)-LSTM的混合水質(zhì)預(yù)測(cè)模型研究,有效提高了預(yù)測(cè)精度。
盡管深度學(xué)習(xí)在水質(zhì)預(yù)測(cè)方面性能出色,但是基于單一算法的超參數(shù)選擇存在局限性,無法得到較優(yōu)解。因此,為克服LSTM中超參數(shù)對(duì)預(yù)測(cè)性能的影響,楊坪宏等[8]采用變色龍優(yōu)化算法(Chameleon Swarm Algorithm,CSA)、獵豹優(yōu)化(Cheetah Optimization,CO)算法、山瞪羚優(yōu)化(Mountain gazelle Optimization,MGO)算法分別調(diào)優(yōu)門控循環(huán)單元(Gated Recurrent Unit,GRU)-LSTM 超參數(shù)的水質(zhì)時(shí)間序列預(yù)測(cè)模型,使模型獲得較好的智能化水平。肖明君等[9]利用粒子群算法(Particle Swarm Optimization,PSO)改進(jìn)反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network,BPNN)模型的參數(shù)選擇方式,提高了模型預(yù)測(cè)結(jié)果準(zhǔn)確性。魯言波等[10]提出PSO-GRU水質(zhì)預(yù)測(cè)模型,引入粒子群優(yōu)化算法,快速簡(jiǎn)便地實(shí)現(xiàn)了GRU模型遷移使用。宋治岑等[11]研究對(duì)比了基于鯨魚算法(Whale Optimization Algorithm,WOA)的支持向量機(jī)(Support Vector Machines,SVM)模型和其他算法的模型預(yù)測(cè)準(zhǔn)確度。牛景輝[12]設(shè)計(jì)了一種基于灰狼算法(Grey Wolf Optimizer,GWO)優(yōu)化的XGBoost(eXtreme Gradient Boosting)算法,用以解決模型參數(shù)調(diào)整復(fù)雜和預(yù)測(cè)水質(zhì)數(shù)據(jù)準(zhǔn)確率較低的問題。但全局搜索能力較好的北方蒼鷹算法(Northern Goshawk Optimization,NGO)暫未應(yīng)用于水質(zhì)預(yù)測(cè)。
此外,預(yù)測(cè)模型對(duì)水質(zhì)監(jiān)測(cè)數(shù)據(jù)要求較高,當(dāng)水質(zhì)指標(biāo)特征較少或者較多時(shí)都會(huì)影響預(yù)測(cè)的效果,因此學(xué)者們提出特征提取、構(gòu)造等方法。許德昊等[13]通過相關(guān)性計(jì)算和特征構(gòu)造方法增加有效特征個(gè)數(shù),有效提高了預(yù)測(cè)準(zhǔn)確率。而在特征提取時(shí),方國(guó)華等[14]則運(yùn)用灰色關(guān)聯(lián)分析選擇多元特征輸入變量,構(gòu)建基于灰色關(guān)聯(lián)-長(zhǎng)短期記憶網(wǎng)絡(luò)(Grey Relational Analysis-Long Short Term Memory,GRA-LSTM)的水質(zhì)預(yù)測(cè)模型,實(shí)現(xiàn)關(guān)鍵水質(zhì)指標(biāo)影響因子重要性定量化排序與冗余信息的消除。但是上述研究缺乏對(duì)深度學(xué)習(xí)的優(yōu)化。
因此,本文創(chuàng)新性地構(gòu)建一種基于特征工程和NGO-LSTM的水質(zhì)預(yù)測(cè)模型。此模型優(yōu)勢(shì)在于先通過特征工程,篩選水質(zhì)監(jiān)測(cè)指標(biāo)中對(duì)溶解氧影響較大的指標(biāo),再進(jìn)行特征構(gòu)造得到新的特征數(shù)據(jù)集,最后基于NGO優(yōu)化算法找出LSTM的相對(duì)最優(yōu)超參數(shù),進(jìn)行溶解氧預(yù)測(cè),以期得到較好的水質(zhì)預(yù)測(cè)效果。
1 研究區(qū)域與數(shù)據(jù)來源
研究區(qū)域東苕溪城南監(jiān)測(cè)斷面(東經(jīng)120.0733°,北緯30.5402°)地處浙江省湖州市,東苕溪流域?qū)儆谔饔蜍嫦担挥谡憬”辈?,監(jiān)測(cè)斷面水質(zhì)基本能達(dá)到Ⅲ類水質(zhì),偶有出現(xiàn)溶解氧小于3 mg/L的Ⅳ類水質(zhì)情況。該斷面存在太湖逆流影響溶解氧波動(dòng)的可能,因此選取此斷面作為研究對(duì)象,研究區(qū)域位置見圖1。
研究數(shù)據(jù)均來自國(guó)家地表水水質(zhì)自動(dòng)監(jiān)測(cè)實(shí)時(shí)數(shù)據(jù)發(fā)布系統(tǒng)。水質(zhì)指標(biāo)主要有水溫(℃)、pH(無量綱)、溶解氧(DO,mg/L)、高錳酸鹽指數(shù)(KMnO,mg/L)、氨氮[15](NH-N,mg/L)、總磷(TP,mg/L)、總氮(TN,mg/L)、電導(dǎo)率(EC,μs/cm)、濁度(NTU)。系統(tǒng)每4 h更新一次水質(zhì)數(shù)據(jù)。
水質(zhì)數(shù)據(jù)監(jiān)測(cè)時(shí)間為2020年11月8日至2023年4月30日,采樣頻率為4 h,理論應(yīng)有5 424組數(shù)據(jù),實(shí)際已有數(shù)據(jù)5 130組,缺失294組,占樣本總量的5%,即存在少量缺失數(shù)據(jù)。本文已通過線性插值方法補(bǔ)充,該監(jiān)測(cè)站的水質(zhì)監(jiān)測(cè)數(shù)據(jù)分布見圖2。因9個(gè)指標(biāo)的數(shù)據(jù)范圍差異較大,故采用子圖(a)~(i)分別展示。從圖2中可看出,該監(jiān)測(cè)斷面的水溫、pH、溶解氧、電導(dǎo)率分布較為均勻,數(shù)據(jù)異常值較少,高錳酸鹽指數(shù)、氨氮、總磷和濁度的監(jiān)測(cè)數(shù)據(jù)較為集中,整體數(shù)據(jù)真實(shí)可靠。其中,溶解氧屬于水質(zhì)監(jiān)測(cè)重要指標(biāo)之一[16],對(duì)水生生物的生存和發(fā)展具有重要影響,影響水體凈化速度快慢,因此選擇溶解氧指標(biāo)為本文預(yù)測(cè)指標(biāo)。
2 研究方法
2.1 特征工程
2.1.1 特征選擇
特征選擇的目標(biāo)是尋找最優(yōu)特征子集,剔除關(guān)聯(lián)度較低的特征,從而達(dá)到減少特征個(gè)數(shù)、提高模型精確度、減少運(yùn)行時(shí)間的目的。本文原始數(shù)據(jù)集共有9個(gè)特征,采用Spearman系數(shù)[17-19]分析對(duì)原始特征進(jìn)行篩選,按照特征相關(guān)性對(duì)各個(gè)特征進(jìn)行評(píng)分篩選,反映等級(jí)相關(guān)程度。Spearman相關(guān)系數(shù)表達(dá)式如式(1)所示:
式中:R(x)和R(y)分別是特征x和特征y的位次,R(x)和R(y)分別表示平均位次。Spearman系數(shù)絕對(duì)值越高,表明y與x相關(guān)性越強(qiáng)。一般認(rèn)為當(dāng)系數(shù)絕對(duì)值大于0.4時(shí),兩個(gè)特征之間即存在較強(qiáng)關(guān)聯(lián)性。
2.1.2 特征構(gòu)造
基于Spearman系數(shù)獲得溶解氧的強(qiáng)關(guān)聯(lián)特征,提出多項(xiàng)式的特征構(gòu)造方法[15],能夠獲得與溶解氧強(qiáng)相關(guān)的更高維度的特征數(shù)據(jù)集。假設(shè)與溶解氧強(qiáng)關(guān)聯(lián)的特征為{S,S},則基于2階多項(xiàng)式特征構(gòu)造的特征數(shù)據(jù)集為{S,S,SS,S2,S2},基于3階多項(xiàng)式特征構(gòu)造的特征數(shù)據(jù)集為{S,S,S2S,S3,S3,SS2,SS},以此類推。隨著多項(xiàng)式n階的增加,數(shù)據(jù)集特征數(shù)量的增加可能導(dǎo)致預(yù)測(cè)性能的下降。因此,較優(yōu)n階的設(shè)置將通過相關(guān)試驗(yàn)進(jìn)行確定。
2.2 LSTM算法
長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)[20-21]被廣泛應(yīng)用于各個(gè)領(lǐng)域,是一種特殊的遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[22-24]。圖3為t-1時(shí)刻和t時(shí)刻的LSTM記憶單元的交互邏輯。在t時(shí)刻,記憶單元的輸入包括t-1時(shí)刻的隱藏層狀態(tài)變量h,記憶單元狀態(tài)變量C和當(dāng)前時(shí)刻的輸入信息X;其中t時(shí)刻記憶單元中從左至右的σ激活函數(shù)分別為遺忘門f,輸入門i以及輸出門o。模型依次通過上述3個(gè)門得到t時(shí)刻的隱藏層狀態(tài)變量h和記憶單元狀態(tài)變量C;最終h會(huì)傳入輸出層生成LSTM在t時(shí)刻的計(jì)算結(jié)果,同時(shí)與C一起傳入后一時(shí)刻進(jìn)行計(jì)算。
圖3 LSTM模型結(jié)構(gòu)
Fig.3 LSTM model structure
2.3 北方蒼鷹優(yōu)化算法
北方蒼鷹優(yōu)化算法(Northern Goshawk Optimization,NGO)在2021年由Dehghani等[25]提出,該算法模擬北方蒼鷹的狩獵策略,具體包括獵物識(shí)別與攻擊、追擊與逃亡等行為[26]。在NGO初始階段,隨機(jī)初始化種群成員在搜索空間中的分布:
式中:X為北方蒼鷹種群的矩陣;X為第i只蒼鷹的初始解;x為第i只蒼鷹在第j維度的值;N和m分別為種群數(shù)量和問題空間的維度。算法目標(biāo)函數(shù)向量如下式:
式中:F(X)為目標(biāo)函數(shù)向量,F(xiàn)為第i個(gè)解對(duì)應(yīng)的目標(biāo)函數(shù)值。
2.4 基于特征工程和NGO-LSTM的模型
本文提出的FE-NGO-LSTM水質(zhì)預(yù)測(cè)模型核心思想在于擴(kuò)充與水質(zhì)指標(biāo)核心相關(guān)的數(shù)據(jù)特征,通過北方蒼鷹優(yōu)化算法優(yōu)化LSTM的核心參數(shù)(學(xué)習(xí)率、隱含層節(jié)點(diǎn)數(shù)、L2正則因子),以期提高水質(zhì)預(yù)測(cè)的能力。模型整體流程如圖4所示。原始數(shù)據(jù)包含9個(gè)水質(zhì)指標(biāo),存在殘缺數(shù)據(jù)、數(shù)據(jù)量綱不同的情況,首先通過線性插值以及數(shù)據(jù)歸一化進(jìn)行數(shù)據(jù)預(yù)處理。接著根據(jù)20%和80%的比例劃分測(cè)試集以及訓(xùn)練集。
為避免數(shù)據(jù)信息泄露,模型僅基于訓(xùn)練集進(jìn)行特征工程操作,其中包含特征關(guān)聯(lián)度分析與多項(xiàng)式n階特征的構(gòu)造。然后基于合適的關(guān)聯(lián)特征與多項(xiàng)式階數(shù)n構(gòu)造得到新的數(shù)據(jù)集。為避免數(shù)據(jù)過擬合,將訓(xùn)練集重新劃分為20%的驗(yàn)證集與60%的新訓(xùn)練集。
最后基于訓(xùn)練集與驗(yàn)證集進(jìn)行FE-NGO-LSTM的參數(shù)優(yōu)化,將驗(yàn)證集的驗(yàn)證誤差作為優(yōu)化指標(biāo),得到最優(yōu)的LSTM參數(shù)。最后將優(yōu)化參數(shù)帶入新數(shù)據(jù)集中進(jìn)行測(cè)試驗(yàn)證。
3 試驗(yàn)與結(jié)果分析
3.1 試驗(yàn)環(huán)境
本文所有試驗(yàn)均基于MATLAB平臺(tái),深度學(xué)習(xí)GPU為NVIDIA GeForce RTX 4080。同時(shí)為驗(yàn)證該模型的有效性,本文在試驗(yàn)中對(duì)LSTM其他網(wǎng)絡(luò)模型參數(shù)均保持相同設(shè)置,如表1所列。
3.2 評(píng)價(jià)標(biāo)準(zhǔn)
水質(zhì)預(yù)測(cè)屬于回歸預(yù)測(cè)問題,采用平均絕對(duì)誤差(Mean Absolute Error,MAE),均方誤差(Mean Squared Error,MSE),均方根誤差(Root Mean Square Error,RMSE)和決定系數(shù)(R2)來評(píng)估模型的預(yù)測(cè)能力。
式中:y表示實(shí)際水質(zhì)指標(biāo);y′表示預(yù)測(cè)水質(zhì)指標(biāo);y則為實(shí)際水質(zhì)指標(biāo)的平均值;m表示測(cè)試樣本數(shù)量。
3.3 試驗(yàn)過程
3.3.1 Spearman系數(shù)設(shè)置
(1)對(duì)原始數(shù)據(jù)集進(jìn)行Spearman系數(shù)分析,圖5表示該數(shù)據(jù)集不同特征之間的Spearman系數(shù)相關(guān)性,與溶解氧特征關(guān)聯(lián)性較強(qiáng)的特征依次為水溫(0.81)、pH(0.80)、電導(dǎo)率(0.51)、總磷(0.32)、總氮(0.20)、高錳酸鹽指數(shù)(0.19)、濁度(0.17)、氨氮(0.12)。初步判斷水溫、pH與電導(dǎo)率為溶解氧強(qiáng)關(guān)聯(lián)特征。
(2)使用大于溶解氧Spearman系數(shù)特定值的數(shù)據(jù)集分別基于傳統(tǒng)LSTM模型以及NGO-LSTM模型進(jìn)行試驗(yàn)。在此試驗(yàn)中Spearman系數(shù)設(shè)置為[0,0.2,
0.4,0.6],其中傳統(tǒng)LSTM模型的參數(shù)參考主流設(shè)置,
L2正則因子為0.000 01,學(xué)習(xí)率為0.001,隱藏層節(jié)點(diǎn)數(shù)量為128。試驗(yàn)結(jié)果如表2所列,可以看到Spearman系數(shù)為0時(shí),即數(shù)據(jù)集為原始數(shù)據(jù)集,冗余特征較多,對(duì)預(yù)測(cè)干擾較大,因此該試驗(yàn)預(yù)測(cè)效果最差,且此時(shí)LSTM模型的3個(gè)誤差指標(biāo)都大于NGO-LSTM模型的誤差指標(biāo),決定系數(shù)小于NGO-LSTM模型的決定系數(shù)。類似情況在Spearman系數(shù)為0.6時(shí)一樣存在,基本證明NGO-LSTM模型優(yōu)于LSTM模型。隨著Spearman系數(shù)逐漸增大,LSTM模型預(yù)測(cè)誤差先減小后增大,表現(xiàn)不夠穩(wěn)定,而NGO-LSTM模型中MAE、MSE、RMSE逐漸減小,R2越來越接近1,充分證明了NGO-LSTM模型的優(yōu)勢(shì)。
3.3.2 基于FE-NGO-LSTM的水質(zhì)預(yù)測(cè)結(jié)果
基于上述研究,該試驗(yàn)使用Spearman系數(shù)大于0.6的特征數(shù)據(jù)集,即上一時(shí)刻的水溫、pH以及溶解氧。FE-NGO-LSTM模型訓(xùn)練數(shù)據(jù)基于以上3個(gè)特征,進(jìn)行多項(xiàng)式n階特征構(gòu)造,n為[2,3,4]。因上一時(shí)刻溶解氧與該時(shí)刻溶解氧的Spearman相關(guān)系數(shù)為1,所以基于上一時(shí)刻的溶解氧構(gòu)造的任意特征與該時(shí)刻溶解氧的Spearman相關(guān)系數(shù)均為1,故此處不針對(duì)上一時(shí)刻溶解氧指標(biāo)進(jìn)行多項(xiàng)式構(gòu)造。其中多項(xiàng)式2階數(shù)據(jù)構(gòu)造如表3所列,指標(biāo)特征由3維升維至6維。
將新構(gòu)造的數(shù)據(jù)集帶入FE-NGO-LSTM算法中進(jìn)行比較,試驗(yàn)結(jié)果如圖6所示,各項(xiàng)指標(biāo)在2階時(shí)效果最好,決定系數(shù)R2達(dá)到了0.871 29,MAE為0.375 04 mg·L-1。當(dāng)階數(shù)達(dá)到3,4時(shí),預(yù)測(cè)指標(biāo)決定系數(shù)降低較為明顯,而且MAE、MSE、RMSE均有不同程度上升,可以推測(cè)當(dāng)核心特征數(shù)量有限時(shí),過高的多項(xiàng)式階
數(shù)將導(dǎo)致特征冗余,預(yù)測(cè)性能過擬合。由此可以判定,
在此數(shù)據(jù)集中,當(dāng)多項(xiàng)式階數(shù)為2時(shí),F(xiàn)E-NGO-LSTM的預(yù)測(cè)效果較為出色。
總氮、總磷及電導(dǎo)率與溶解氧含量有密切關(guān)系,所以本文將Spearman系數(shù)大于0.2的特征數(shù)據(jù)集也納入構(gòu)造多項(xiàng)式n階特征,n同樣為[2,3,4],對(duì)比前后數(shù)據(jù)集的預(yù)測(cè)精度。試驗(yàn)結(jié)果如表4所列,可見誤差已經(jīng)遠(yuǎn)大于水溫、pH數(shù)據(jù)集的預(yù)測(cè)結(jié)果,進(jìn)一步證實(shí)該試驗(yàn)使用Spearman系數(shù)大于0.6的特征數(shù)據(jù)集進(jìn)行預(yù)測(cè)的科學(xué)合理性。
圖7為基于2階新數(shù)據(jù)集的FE-NGO-LSTM模型預(yù)測(cè)結(jié)果和真實(shí)值的擬合效果。由圖7可知:預(yù)測(cè)值和真實(shí)值吻合程度較高。其中真實(shí)值略大于測(cè)試值的比例約占43%,真實(shí)值與測(cè)試值的最大差值約為2.7 mg/L,模型預(yù)測(cè)的曲線相對(duì)真實(shí)值更為平穩(wěn),整體預(yù)測(cè)情況基本能夠擬合溶解氧指標(biāo)變化趨勢(shì)。
為進(jìn)一步驗(yàn)證FE-NGO-LSTM算法的有效性,本文基于同樣的多項(xiàng)式2階數(shù)據(jù)集,將FE-NGO-LSTM模型與耦合其他優(yōu)化算法的LSTM模型進(jìn)行對(duì)比。參與比較的有灰狼優(yōu)化算法(Grey Wolf Optimizer,GWO)、鯨魚優(yōu)化算法(Whale Optimization Algorithm,WOA)、粒子群優(yōu)化算法(Particle Swarm Optimization,PSO),均為學(xué)術(shù)界主流算法。試驗(yàn)結(jié)果如圖8所示,其中FE-NGO-LSTM效果最好,R2達(dá)到0.871 29,RMSE為0.230 25 mg·L-1。FE-GWO-LSTM模型、FE-WOA-LSTM模型、FE-PSO-LSTM模型預(yù)測(cè)準(zhǔn)確度依次下降,而效果相對(duì)最差的FE-PSO-LSTM算法的R2為0.795 86,RMSE為0.289 96 mg/L。總體來看,F(xiàn)E-NGO-LSTM模型的平均絕對(duì)誤差、均方誤差、均方根誤差分別至少降低9.0%,12.9%及6.3%,因此可以判斷NGO優(yōu)化算法更具優(yōu)勢(shì)。
為進(jìn)一步驗(yàn)證FE-NGO-LSTM模型的預(yù)測(cè)性能和泛化能力,本文將構(gòu)造的2階數(shù)據(jù)集的水質(zhì)預(yù)見期由4 h擴(kuò)展至8,12,16,20,24 h,分別進(jìn)行試驗(yàn)。其中圖9展示不同預(yù)見期下模型的預(yù)測(cè)值與真實(shí)值的偏差,直線線段為基于最小二乘法展示的預(yù)測(cè)值擬合情況。隨著預(yù)見期的增加,數(shù)據(jù)樣本減少,預(yù)測(cè)點(diǎn)更偏離擬合線段。圖10為基于不同預(yù)見期的FE-NGO-LSTM預(yù)測(cè)效果。隨著預(yù)見期的增加,誤差緩慢增加,預(yù)測(cè)性能略微下降,基本符合隨時(shí)間增長(zhǎng),預(yù)測(cè)難度加大的實(shí)際情況。R2由8 h預(yù)見期的0.789 85降低為24 h的0.703 01,其余誤差指標(biāo)均有所上升,整體性能下降最大為27%,仍在可接受范圍內(nèi)。因此,當(dāng)預(yù)見期為24 h以內(nèi)時(shí),F(xiàn)E-NGO-LSTM模型仍有相對(duì)較好的預(yù)測(cè)效果,具有較強(qiáng)泛化能力。
4 結(jié) 論
考慮水質(zhì)監(jiān)測(cè)指標(biāo)之間的關(guān)聯(lián)性,在預(yù)測(cè)溶解氧指標(biāo)時(shí),本文利用Spearman相關(guān)系數(shù)篩選出關(guān)聯(lián)度較高的水溫、pH等水質(zhì)指標(biāo)進(jìn)行特征構(gòu)造,提出FE-NGO-LSTM預(yù)測(cè)模型。對(duì)比試驗(yàn)結(jié)果,得到結(jié)論如下:
(1)就原始監(jiān)測(cè)數(shù)據(jù)而言,NGO-LSTM模型比LSTM模型預(yù)測(cè)精度更高,初步證明北方蒼鷹算法耦合長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行水質(zhì)預(yù)測(cè)的可行性。并且選擇Spearman相關(guān)系數(shù)大于0.6的數(shù)據(jù)特征時(shí),預(yù)測(cè)結(jié)果相對(duì)較優(yōu)。
(2)在此基礎(chǔ)上,進(jìn)一步構(gòu)造多項(xiàng)式[2,3,4]階新數(shù)據(jù)集,采用FE-NGO-LSTM模型進(jìn)行預(yù)測(cè)對(duì)比分析,基于2階新數(shù)據(jù)集的預(yù)測(cè)結(jié)果最優(yōu)。
(3)基于2階特征構(gòu)造的新數(shù)據(jù)集,F(xiàn)E-NGO-LSTM對(duì)比粒子群算法、鯨魚算法以及灰狼算法耦合LSTM模型,誤差指標(biāo)最小。
(4)溶解氧指標(biāo)的預(yù)見期由4 h延長(zhǎng)至8,12,16,20,24 h,F(xiàn)E-NGO-LSTM模型仍能夠保持較好的預(yù)測(cè)精度,R2最低為0.703 01,在可接受范圍內(nèi)。
參考文獻(xiàn):
[1] DING F,ZHANG W J,CAO S H,et al.Optimization of water quality index models using machine learning approaches[J].Water Research,2023,243:120337.
[2] 歐陽(yáng)文宇,葉磊,顧學(xué)志,等.深度學(xué)習(xí)水文預(yù)報(bào)研究進(jìn)展綜述Ⅱ:研究進(jìn)展及展望[J].南水北調(diào)與水利科技(中英文),2022,20(5):862-875.
[3] ZHANG L,JIANG Z Q,HE S S,et al.Study on water quality prediction of urban reservoir by coupled CEEMDAN decomposition and LSTM Neural Network Model[J].Water Resources Management,2022,36:3715-3735.
[4] 王渤權(quán),金傳鑫,周論,等.基于長(zhǎng)短期記憶網(wǎng)絡(luò)的西麗水庫(kù)水質(zhì)預(yù)測(cè)[J].長(zhǎng)江科學(xué)院院報(bào),2023,40(6):64-70.
[5] 郭利進(jìn),許瑞偉.基于改進(jìn)果蠅算法的 LSTM 在水質(zhì)預(yù)測(cè)的應(yīng)用[J].長(zhǎng)江科學(xué)院院報(bào),2023,40(8):57-63.
[6] 周朝勉,劉明萍,王京威.基于CNN-LSTM的水質(zhì)預(yù)測(cè)模型研究[J].水電能源科學(xué),2021,39(3):20-23.
[7] 王軍,高梓勛,朱永明.基于CNN-LSTM模型的黃河水質(zhì)預(yù)測(cè)研究[J].人民黃河,2021,43(5):96-99,109.
[8] 楊坪宏,胡奧,崔東文,等.基于數(shù)據(jù)處理與若干群體算法優(yōu)化的 GRU/LSTM水質(zhì)時(shí)間序列預(yù)測(cè)[J].水資源與水工程學(xué)報(bào),2023,34(4):45-53.
[9] 肖明君,朱逸純,高雯媛,等.基于不同人工神經(jīng)網(wǎng)絡(luò)的水質(zhì)預(yù)測(cè)方法對(duì)比[J/OL].環(huán)境科學(xué):1-10[2024-09-03].https:∥doi.org/10.13227/j.hjkx.202310074.
[10]魯言波,陳湛峰,李曉芳.基于粒子群優(yōu)化的GRU廣東省跨境斷面水質(zhì)預(yù)測(cè)模型研究[J].生態(tài)環(huán)境學(xué)報(bào),2023,32(9):1673-1681.
[11]宋治岑,張順平,盧敏.基于HHO-SVM的水質(zhì)預(yù)測(cè)模型及應(yīng)用[J].水電能源科學(xué),2023,41(8):70-72,47.
[12]牛景輝.基于GWO-XGBoost的工業(yè)污水水質(zhì)關(guān)鍵數(shù)據(jù)預(yù)測(cè)算法[J].工業(yè)水處理,2024,44(1):184-190.
[13]許德昊,王魏,胡顯輝,等.基于特征構(gòu)造的MDconv-GRU刺參養(yǎng)殖水質(zhì)pH值預(yù)測(cè)[J/OL].控制工程:1-10[2024-09-03].https:∥doi.org/10.14107/j.cnki.kzgc.20230171.
[14]方國(guó)華,張鈺,袁婷,等.基于灰色關(guān)聯(lián)-長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的水質(zhì)預(yù)測(cè)研究[J].安全與環(huán)境學(xué)報(bào),2023,23(12):4557-4568.
[15]劉揚(yáng)揚(yáng),蘇新華,蔡洺垚.孤山航電樞紐工程對(duì)漢江水環(huán)境的影響研究[J].人民長(zhǎng)江,2023,54(5):73-79.
[16]李余隆,張?zhí)m,李立.基于GCN-LSTM的錢塘江南源水質(zhì)預(yù)測(cè)研究[J].人民黃河,2023,45(12):83-87,95.
[17]余鵬明,管孝艷,陳俊英,等.基于Spearman秩相關(guān)的再生水利用量影響因素研究[J].節(jié)水灌溉,2019(10):78-82,88.
[18]張晶梅.基于秩相關(guān)系數(shù)的大壩安全評(píng)價(jià)組合賦權(quán)研究[J].水電能源科學(xué),2012,30(10):69-71.
[19]趙朔,桂峰蘭,柳后起.基于三種機(jī)器學(xué)習(xí)模型的太湖總氮濃度預(yù)測(cè)[J].中國(guó)農(nóng)村水利水電,2022(6):24-28,39.
[20]HOCHREITER S,SCHMIDHUBER J.Long-term memory[J].Neural Computation,1997,9(8):1735-1780.
[21]覃曉東,朱仟,周東旸,等.基于深度學(xué)習(xí)的多源降水?dāng)?shù)據(jù)融合方法及其應(yīng)用[J].人民長(zhǎng)江,2023,54(11):68-75.
[22]殷兆凱,廖衛(wèi)紅,王若佳,等.基于長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)的降雨徑流模擬及預(yù)報(bào)[J].南水北調(diào)與水利科技,2019,17(6):1-9,27.
[23]JIANG Y Q,LI C L,SUN L,et al.A deep learning algorithm for multi-source data fusion to predict water quality of urban sewer networks[J].Journal of Cleaner Production,2021,318:128533.
[24]RASHEED ABDUL HAQ K P,HARIGOVINDAN V P.Water quality prediction for smart aquaculture using hybrid deep learning models[J].IEEE Access,2022.10:60078-60098.
[25]DEHGHANI M,HUBáLOVSK? ?,TROJOVSK? P.Northern goshawk optimization:a new swarm-based algorithm for solving optimization problems[J].IEEE Access,2021(9):162059-162080.
[26]YANG C,JIANG Y T,LIU Y,et al.A novel model for runoff prediction based on the ICEEMDAN-NGO-LSTM coupling[J].Environmental Science and Pollution Research,2023,30:82179-82188.
[27]楊婷婷,虞佳穎,肖姚,等.基于Embedding-GRU的水庫(kù)水位預(yù)測(cè)模型[J].南水北調(diào)與水利科技(中英文),2023,21(5):940-950.
[28]項(xiàng)新建,張穎超,許宏輝,等.基于CEEMDAN-VMD-TCN-light GBM模型的水質(zhì)預(yù)測(cè)研究[J/OL].中國(guó)農(nóng)村水利水電,2024(3):86-95.
[29]王昱文,杜震洪,戴震,等.基于復(fù)合神經(jīng)網(wǎng)絡(luò)的多元水質(zhì)指標(biāo)預(yù)測(cè)模型[J].浙江大學(xué)學(xué)報(bào)(理學(xué)版),2022,49(3):354-362,375.
[30]王紅晨,馬俊,陳博行.基于進(jìn)化算法優(yōu)化的CNN-EA-Conv LSTM水質(zhì)預(yù)測(cè)模型[J].水電能源科學(xué),2023,41(8):73-76.
(編輯:劉 媛)
Research on water quality prediction model based on feature engineering
and NGO-LSTMYU Jiaying1,XIAO Yao 2
(1.School of Hydraulic Engineering,Zhejiang Tongji Vocational College of Science and Technology,Hangzhou 311231,China; 2.College of Aerospace Engineering,Chongqing University,Chongqing 400044,China)
Abstract: Due to complex characteristics and uneven correlation of water quality data,it is difficult to predict dissolved oxygen concentration.To improve the prediction accuracy of water quality dissolved oxygen concentration,a Feature Engineering and Northern Goshawk Optimization-Long Short Term Memory (FE-NGO-LSTM) hybrid model was proposed.Firstly,missing value imputation,feature screening,and feature polynomial construction were performed on the water quality dataset.Then,the model parameters were optimized based on the NGO-LSTM model to improve prediction performance.After analyzing the feature prediction performance under different polynomial orders,the model was compared with LSTM models based on grey wolf optimization algorithm,whale optimization algorithm,and particle swarm optimization algorithm.Finally,the model was validated with the dataset of the Chengnan monitoring section on east Tiaoxi River,and the prediction results of the FE-NGO-LSTM model were calculated for prediction periods of 4,8,12,16,20,and 24 hours.The experimental results demonstrated that when the polynomial order was 2nd,the model had the best prediction performance.Compared with LSTM models based on other optimization algorithms,the average absolute error,mean square error,and root mean square error of FE-NGO-LSTM model were reduced at least 9.0%,12.9%,and 6.3% respectively.Moreover,as the prediction period increased,the prediction error was still within an acceptable range,indicating that the FE-NGO-LSTM model has certain advantages and generalization in predicting dissolved oxygen concentration.
Key words: water quality prediction;dissolved oxygen;feature engineering;deep learning;Northern Goshawk;optimization algorithm;coupling model;Tiaoxi River Basin;Taihu Lake Basin