周添一,徐 慶,劉振鴻,高 品
(1.東華大學 環(huán)境科學與工程學院,上海 201620;2.上海市環(huán)境監(jiān)測中心,上海 200235)
溶解氧(dissolved oxygen,DO)是評價水體質量及水生態(tài)系統(tǒng)安全的關鍵水質指標之一,是水體自凈的重要條件[1],能夠反映水體受污染程度,同時也是地表水環(huán)境質量考核指標之一[2-3],因此監(jiān)測并預警水體DO質量濃度對維持水生態(tài)安全,以及地表水環(huán)境質量考核和環(huán)境管理決策具有重要意義。
水體中DO質量濃度受溫度、pH、耗氧污染物濃度等因素影響顯著[4],具有時序性、非線性、不穩(wěn)定性等特征。目前,針對水體DO質量濃度的傳統(tǒng)預測方法主要有回歸預測法[5]、時間序列法[6]、水質模型預測法等。例如:于慧等[7]采用優(yōu)化后的灰色GM(1,1)模型對海河三岔口斷面的DO等多項指標年度變化趨勢進行預測,效果良好,預測指標的相對誤差為7.5%。石子泊等[8]采用自回歸差分移動平均模型結合小波變換對黑龍江黑河流域未來5星期的DO質量濃度進行預測,預測平均絕對百分誤差(mean absolute percentage error,MAPE)約為0.29%,均方根誤差(root mean square error,RMSE)為2.23 mg/L,但由于以7 d為單位時間對DO質量濃度進行預測,預測頻率低,無法為在線水質監(jiān)測提供預警依據。吳慧英等[9]結合主成分分析(principal component analysis,PCA)和支持向量機(supporting vector machine,SVM)法對養(yǎng)殖池塘DO質量濃度進行預測,結果表明其MAPE和RMSE值分別為3.43%和2.19 mg/L,但SVM算法難以實現(xiàn)大規(guī)模訓練樣本,對大體量的水質監(jiān)測數據利用率較低。
人工神經網絡具有強大的非線性建模能力、自主學習能力和容錯能力,以及對非線性數據預測具有精確度高等優(yōu)點[10],已被廣泛應用于水質預測研究和實踐[11-12]。非線性有源自回歸模型(nonlinear autoregressive with exogenous inputs,NARX)是一種外部輸入型的動態(tài)神經網絡模型,可較好地描述動態(tài)系統(tǒng)特征,實現(xiàn)對復雜動態(tài)系統(tǒng)的建模。Tripura等[13]采用NARX神經網絡模型對印度阿薩姆邦巴拉克河體積流量進行預測,取得了理想的預測效果。Sofiane等[14]建立的一種基于NARX神經網絡的預測模型用于預測短期水流量的變化趨勢,準確預測時間可達12 h。劉墨陽等[15]結合NARX神經網絡模型與小波分析法對水位進行預測,結果表明其短期預測效果較好。本文以上海市某主要支流具有代表性的河流監(jiān)測斷面為研究對象,基于PCA和灰色關聯(lián)分析(grey relation analysis,GRA)優(yōu)化的NRAX神經網絡模型,即PCA-NARX和GRA-NARX模型,對比分析兩種模型對時間序列DO質量濃度變化的短期(48 h)預測效果,以期為地表水水質預測和監(jiān)管提供方法借鑒。
NARX神經網絡是一種多層前饋神經網絡,由于其在輸入層加入了延時層與反饋層,因此輸入的信息同時包含當前時刻的輸入值與歷史時刻的輸出值,可反映系統(tǒng)的歷史狀態(tài)信息,具有更好的預測精度和自適應能力,是一種有記憶功能的神經網絡[16-17],其網絡結構模型如圖1所示。圖中,x(t),…,x(t-n)為輸入,n為輸入階數,y(t)為輸出,y(t-1),…,y(t-d)為歷史時刻的輸出,d為延遲層的階數。
圖1 NARX神經網絡模型結構示意圖Fig.1 Diagram of NARX neural network model structure
PCA是一種多元統(tǒng)計方法,通常被用于對原始數據進行特征提取和降維,其可將高維的多變量問題轉化到低維的少變量空間中進行處理[18],不僅可以減少網絡模型輸入變量的個數,而且可以簡化網絡模型結構,計算步驟主要包括數據標準化、計算協(xié)方差矩陣、計算特征值與特征向量、計算主成分的貢獻率和累計貢獻率[19]。
GRA是一種通過判斷各因素之間發(fā)展趨勢的相似程度,進而衡量各因素之間關聯(lián)程度的方法[20],計算過程較為簡單,原理主要是通過計算與目標序列的關聯(lián)度并進行排序,進而獲得與其關聯(lián)度較高的序列[21]。本文利用GRA法篩選與DO質量濃度關聯(lián)度較高的指標以簡化網絡模型結構,提高預測準確度。
選取RMSE、MAPE和Pearson相關系數r評價預測模型性能。其中:RMSE用于描述預測值與真實值之間的偏差,RMSE值越小,預測結果越準確;MAPE可反映預測值偏離真實值的百分比;r用于描述模型擬合度,其值越接近1,擬合度越好。具體計算公式如式(1)~(3)所示。
(1)
(2)
(3)
本文以上海市某主要支流具有代表性的監(jiān)測斷面的枯水期水質監(jiān)測結果為基礎,選取2019年1月14日0時至2月19日4時的水質監(jiān)測數據,包括pH、濁度、水溫、DO、電導率、總氮、氨氮、總磷、水中油、水中有機物(UV254)和氧化還原電位(oxidation-reduction potential,ORP)11個指標,每4 h獲取一組數據,共212組數據。其中,前200組用于模型訓練,后12組用于驗證模型預測結果的準確性。
2.2.1 空白數據補全
由于監(jiān)測設備故障等原因,提取原始數據時發(fā)現(xiàn)有數據缺失,因此在數據處理時,對缺失的數據采用前一天同一時間點與其前后時間點的平均值進行填補,如式(4)所示。
(4)
式中:xi為第i時刻的DO質量濃度。
2.2.2 異常數據判斷
2.2.3 數據相關性分析
計算DO與其他水質指標之間的Pearson相關系數,如表1所示。由表1可知,DO與氨氮、電導率和總氮的相關系數分別為-0.83、-0.78和-0.73,均有p<0.01,表明DO與氨氮、電導率和總氮之間具有顯著相關性。
表1 DO與其他水質指標之間的Pearson相關系數Table 1 Pearson correlation coefficients between DO and other water quality indices
2.3.1 PCA-NARX模型外部輸入變量的確定
根據PCA方法原理,對除DO外的10項水質指標進行主成分提取,分別計算主成分特征值λi、貢獻率ei和累計貢獻率P,結果如表2所示。
由表2可知,前3個主成分的特征值大于1,且累計貢獻率為 84.62%>80%,因此可將這3個主成分作為NARX神經網絡模型的輸入。通過主成分提取,將原來10維的輸入降至3維,可簡化模型網絡結構。3個主成分的成分矩陣如表3所示。
表2 主成分分析計算結果Table 2 Results of principal component analysis
表3 主成分成分矩陣Table 3 Principal component matrix
2.3.2 GRA-NARX模型外部輸入變量的確定
根據GRA方法原理,確定DO與其他各水質指標之間的關聯(lián)度和主次順序,結果如表4所示。
由表4可知,pH、水中油和ORP與DO的關聯(lián)度較大,分別為0.796、0.709和0.736,因此將pH、ORP和水中油作為NARX神經網絡模型的外部輸入。
表4 DO與其他各水質指標之間的灰色關聯(lián)度Table 4 Grey relation between DO and other water quality indices
2.3.3 模型網絡結構的確定
(1)數據選取及劃分。在確定的200組數據樣本集中,以3項主成分和3項灰色關聯(lián)度較高的水質指標分別為PCA-NARX和GRA-NARX的外部輸入,同時以原始數據中48 h后的DO質量濃度為輸出,選取數據樣本的70%作為訓練集,主要用于模型數據的訓練和擬合,同時各選取15%數據樣本作為驗證集和測試集,驗證網絡泛化能力和模型預測精度。此外,選用‘trainlm’作為網絡的訓練函數,根據Levenberg-Marquardt算法(簡稱L-M算法)進行優(yōu)化以更新權值。
(2)隱含層神經元數量的確定。PCA-NARX和GRA-NARX神經網絡模型的輸入層數均為3,輸出層數均為1,隱含層神經元數量可通過經驗公式確定其范圍,如式(5)所示。
(5)
圖2 不同隱含層神經元數量下的RMSE、MAPE和r值比較Fig.2 Comparison of RMSE,MAPE and r values with different number of neurons in the hidden layer
分析圖2可知,PCA-NARX和GRA-NARX神經網絡模型在隱含層神經元數量分別為6和9時性能最優(yōu),模型擬合度最好。最優(yōu)條件下,PCA-NARX模型的RMSE、MAPE和r值分別為0.577 mg/L、4.29%和0.876,而GRA-NARX模型的RMSE、MAPE和r值分別為0.509 mg/L、4.16%和0.881。相比之下,GRA-NARX模型整體性能更優(yōu)?;诖?,本研究選取隱含層神經元數量為9時的GRA-NARX模型進行后續(xù)調試。
(3)延遲層階數的確定。目前,針對如何確定延遲層階數暫無相應的理論指導,本研究選取延遲層階數為4~8,通過對比GRA-NARX神經網絡模型在相同隱含層神經元數量條件下整體RMSE、MAPE和r值,進而確定延遲層階數,結果如表5所示。由表5可知,當延遲層階數為6時,模型整體性能最好。
表5 GRA-NARX神經網絡模型在不同延遲層 階數下的RMSE、MAPE和r值Table 5 RMSE,MAPE and r values of GRA-NARX neural network model with different delay sizes
基于上述確定的模型網絡結構,對GRA-NARX和PCA-NARX神經網絡模型進行訓練。
DO質量濃度預測值和誤差(預測值與真實值的差)的時間序列變化情況分別如圖3和4所示。由圖3和4可以看出,GRA-NARX和PCA-NARX模型對DO質量濃度的預測值均與實測值變化趨勢一致,誤差值在0上下波動,表明模型預測值與實測值吻合度均較好。相比PCA-NARX模型,GRA-NARX模型對DO質量濃度的預測性能更好,預測值與實測值之間的貼合度更高,誤差值波動更小。由模型訓練結果可知,GRA-NARX神經網絡模型的預測精度優(yōu)于PCA-NARX模型。
圖3 GRA-NARX和PCA-NARX神經網絡模型對DO質量濃度的預測結果Fig.3 Prediction results of DO mass concentration with GRA-NARX and PCA-NARX neural network models
圖4 GRA-NARX和PCA-NARX神經網絡模型對DO質量濃度預測誤差變化情況Fig.4 Prediction errors of DO mass concentration with GRA-NARX and PCA-NARX neural network models
為評估并驗證神經網絡模型對DO質量濃度的預測效果,本文分別采用NARX、PCA-NARX和GRA-NARX神經網絡模型對未來連續(xù)48 h的DO質量濃度進行預測,并將預測結果與實測值進行對比,結果如圖5和表6所示。由圖5可以看出,優(yōu)化后的PCA-NARX和GRA-NARX模型優(yōu)于單獨NARX模型的預測效果。這主要是因為PCA和GRA方法可有效降低預測模型輸入的維數,簡化了模型系統(tǒng)結構,而優(yōu)化選取的輸入變量能夠更大程度地體現(xiàn)其與輸出DO質量濃度之間的關聯(lián)性,從而提高了模型預測精度。由表6可以看出,NARX、PCA-NARX和GRA-NARX模型對未來24 h的DO質量濃度的預測RMSE值分別為0.433、0.276和0.173 mg/L,MAPE值分別為4.37%、3.13%和1.16%。由此可見,GRA-NARX的預測效果比NARX和PCA-NARX模型更好,其RMSE和MAPE值相比NARX模型分別降低60.0%和73.5%,相比PCA-NARX模型分別降低37.3%和62.9%。這是因為GRA方法可以在多變量的復雜體系中優(yōu)化提取與DO關聯(lián)度更高的變量作為輸入,能夠更好地反映和描述DO質量濃度的變化情況,可提高NARX模型的預測效果與預測精度。
圖5 DO質量濃度短期(48 h)預測效果及誤差分析Fig.5 Short-term (48 h)prediction of DO mass concentration and error analysis
表6 NARX、GRA-NARX、PCA-NARX神經網絡模型預測性能對比Table 6 Comparison of prediction performance of NARX,GRA-NARX,and PCA-NARX neural network models
隨著預測時間的延長,GRA-NARX神經網絡模型對短期DO質量濃度的預測精度也出現(xiàn)些許下降。盡管如此,當預測時間為36 h時,DO質量濃度預測誤差仍可控制在-0.5~0.5 mg/L(見圖5),預測RMSE和MAPE值分別為0.261 mg/L和1.98%。需要注意的是,當預測時間從40 h延長至48 h時,DO質量濃度預測值與實測值偏差較大,這可能與DO質量濃度實測值大幅度波動有關。此時,DO質量濃度實測值相應地從10.25 mg/L降至8.52 mg/L,而與顯著相關的總氮和氨氮實測值則分別從3.43和0.90 mg/L升高至4.85和2.28 mg/L??紤]到目標監(jiān)測斷面水質變化較為平穩(wěn),在短時間內出現(xiàn)大幅波動可能與水質異常情況的發(fā)生有關。由此可見,本文GRA-NARX神經網絡模型可以實現(xiàn)水體DO質量濃度的短期預測,此外還能對與其具有顯著相關性的水質指標進行關聯(lián)預測,識別水質異常情況,這對地表水體水質預測及預警具有較好的實踐意義。
分別采用NARX、PCA-NARX和GRA-NARX神經網絡模型對地表水體短期(48 h)DO質量濃度進行預測,并對其預測精度和效果進行對比分析,結果表明:
(1)GRA-NARX神經網絡模型對時間序列DO質量濃度的預測效果優(yōu)于NARX和PCA-NARX模型,當隱含層神經元數量為9,延遲層階數為6時,GRA-NARX模型的RMSE和MAPE值分別為0.509 mg/L和4.16%。
(2)基于已有數據的訓練學習,GRA-NARX神經網絡模型預測效果較好,在24 h內對DO質量濃度預測的RMSE和MAPE值分別為0.173 mg/L和1.16%。隨著預測時間的延長,預測精度雖出現(xiàn)小幅下降,但在36 h內預測誤差仍可控制在-0.5~0.5 mg/L,預測指標的RMSE和MAPE值分別為0.261 mg/L和1.98%。
本文對地表水體枯水期DO質量濃度進行模型預測并取得了較好的預測效果,后期將考慮采用數據降噪等手段提高模型預測精度,同時結合DO與其他相關性指標對總氮和氨氮等水質指標進行預測,以期為水質預測及預警提供技術支撐。