摘 要:近年來水質(zhì)預測成為水環(huán)境管理領域的熱點問題,但是水環(huán)境本身的復雜性和動態(tài)性導致水質(zhì)預測時預測精度低、模型穩(wěn)定性差。針對這些問題,基于最優(yōu)變分模態(tài)分解(Optimality Variational Mode Decomposition,OVMD)、時間卷積網(wǎng)絡(Temporal Convolutional Network,TCN)、自回歸模型(Autoregression,AR)提出了一種新的水質(zhì)預測模型。首先,采用 OVMD 對原始數(shù)據(jù)進行分解,得到若干個子序列;然后,將分解的子序列作為TCN模型和AR模型的輸入進行水質(zhì)預測,并將兩種模型的預測結果進行疊加重構得到最終預測結果;最后,采用龍華溪監(jiān)測站的總磷數(shù)據(jù)進行實驗驗證。結果表明,OVMD-TCN-AR水質(zhì)預測模型明顯優(yōu)于長短時記憶網(wǎng)絡(Long Short Term Memory networks,LSTM)和長短期時間序列網(wǎng)絡(Long- and Short-term Time-series network, LSTNet),OVMD-TCN-AR水質(zhì)預測模型的平均絕對誤差為 0.00660,均方根誤差為0.01166,MAPE為0.0494,擬合度為0.97,說明OVMD-TCN-AR水質(zhì)預測模型具有較高的可靠性和應用價值。
關鍵詞:水質(zhì);預測;最優(yōu)變分模態(tài)分解;時間卷積網(wǎng)絡;自回歸模型
中圖分類號:X82 文獻標志碼:A 文章編號:1673-9655(2024)05-00-06
0 引言
隨著社會和經(jīng)濟發(fā)展,大量生活和工業(yè)廢水的排放導致水質(zhì)不斷惡化,對水質(zhì)變化趨勢提前進行預測,有助于及時實施保護措施,達到事前預防的目的,對水資源的保護具有重要意義[1]。
早期的水質(zhì)預測模型基于統(tǒng)計方法構建,根據(jù)歷史水質(zhì)數(shù)據(jù)的統(tǒng)計特征、趨勢和周期性等信息,來預測未來水質(zhì)狀態(tài),常用的統(tǒng)計方法包括多元線性回歸[3]、灰色理論[4]等。隨著機器學習方法的興起,機器學習方法也被廣泛應用于水質(zhì)預測[2], 利用機器學習方法可以從大量的水質(zhì)數(shù)據(jù)中學習規(guī)律和模式,從而實現(xiàn)更準確的水質(zhì)預測,常用的機器學習方法有隨機森林[5]、SVM[6]、循環(huán)神經(jīng)網(wǎng)絡[7]、時間卷積神經(jīng)網(wǎng)絡TCN[11]等。但是基于上述單個技術的水質(zhì)預測模型性能一般,水質(zhì)預測的精度不夠理想。
為了獲得更好的預測效果,近年來研究者們開始將多種技術組合在一起構建水質(zhì)預測模型。其中,文獻[8]采用了特征注意力、時間注意力和BiLSTM來構建水質(zhì)預測模型,文獻[9]中將ARIMA和BP神經(jīng)網(wǎng)絡相組合進行水質(zhì)預測,文獻[10]采用SDT和Tucker張量分解技術構建水質(zhì)預測模型。以上組合模型在一定程度上提高了水質(zhì)預測的精度,有效減少了單個模型的預測偏差,但是這些模型主要關注的是水質(zhì)數(shù)據(jù)的長期趨勢,具有一定的局限性。水質(zhì)數(shù)據(jù)同時具有長期和短期模式,數(shù)據(jù)的變化既有隨機性同時也有明顯的周期性,若僅僅對長期模式或短期模式進行預測,不僅預測精度較低,而且水質(zhì)預測模型無法適應不同采樣站點之間的數(shù)據(jù)差異,無法實現(xiàn)模型的泛化性。
為了兼顧長期和短期模式的影響,本文提出一種基于OVMD-TCN-AR的水質(zhì)預測模型。首先,利用OVMD(Optimized Variance Mode Decomposition)算法先將原始水質(zhì)數(shù)據(jù)分解成若干子序列,獲取到時間序列數(shù)據(jù)中不同頻率的成分。然后,將分解之后的每一個子序列輸入到TCN(Tempora Convolutional Network)模型進行長期模式預測、輸入到AR(AutoRegressive)模型中進行短期模式預測,并將兩個模型的預測結果進行加權求和,使得在水質(zhì)預測可以同時兼顧長期和短期模式。最后,采用龍華溪監(jiān)測站采樣的總磷數(shù)據(jù)進行驗證實驗,并與TCN、LSTM、LSTNET水質(zhì)預測進行對比。實驗證明,本文預測模型可以綜合處理水質(zhì)數(shù)據(jù)間的長期依賴關系和短期依賴關系,能夠有效提高水質(zhì)預測精度。
1 模型方法
1.1 OVMD
變分模式分解(Variational mode decomposition,VMD)是通過求解頻域變分優(yōu)化問題估計各個信號分量。當原始信號f被分解為k個分量,為了保證分解序列都是集中在各自中心頻率附近的窄帶信號, VMD需要滿足以下約束變分問題:
(1)
式中:uk—各模態(tài)函數(shù);ωk—各模態(tài)中心頻率。
為了解決上述的約束最優(yōu)化問題,需要將約束性變分問題變?yōu)榉羌s束變分問題,引入二次懲罰因子α和拉格朗日乘法算子λ,如式(2)所示:
(2)
式中:α—懲罰參數(shù);λ—Lagrangian乘子;t—用于控制拉格朗日乘子的更新速率。
通過交替方向乘子算法進行迭代搜索,取該Lagrange函數(shù)的極值點,即可得到無約束變分問題的最優(yōu)解,其模態(tài)函數(shù)uk和中心頻率ωk的計算公式如下:
(3)
(4)
上述迭代搜索當滿足下面式(5)的條件時會停止迭代。
(5)
由于VMD 充分考慮了分量的窄帶性質(zhì),使濾波頻帶更加集中,得到信號分量的信噪比也更高,但是如何確定分解層數(shù)K是一個難題。OVMD采用中心頻率法確定分解層數(shù)K,利用殘差指數(shù)REI(公式6)確定拉格朗日乘子的更新速率t,在每次迭代過程中都會優(yōu)化目標函數(shù),從而最大程度地擬合原始數(shù)據(jù),得到更準確和可靠的模態(tài)函數(shù),加速了分解過程并提高了模型的穩(wěn)定性。根據(jù)OVMD的特點,OVMD對分解非平穩(wěn)數(shù)據(jù)具有較好的適應性,因此可以有效處理水質(zhì)數(shù)據(jù)中的時間變化和趨勢,提供更可靠和穩(wěn)定的分解結果。
(6)
1.2 時域卷積網(wǎng)絡(TCN)
TCN是一種基于卷積神經(jīng)網(wǎng)絡的時間序列建模方法,由多個卷積層和池化層構成,采用了因果卷積、膨脹卷積、殘差連接(Residual connections)等技術,以有效地捕捉時間序列數(shù)據(jù)的依賴關系。每個卷積層使用固定寬度的卷積核對輸入進行卷積操作,并通過RELU激活函數(shù)(公式7)傳遞得到特征序列。對于不同的卷積層,TCN模型能夠?qū)W習不同范圍的特征。具體來說,因果卷積使得模型僅從過去的時間點獲取信息,而膨脹卷積通過增大卷積核的空洞間隔來擴展模型的感受野,從而更好地捕捉時間序列中的長期依賴關系。此外,殘差連接允許卷積層的輸出與之前層的輸出直接相加,有助于改善模型的優(yōu)化和訓練,提高其穩(wěn)定性和性能。TCN還加入一個丟棄(Dropout)(公式8)技術來防止過擬合。
(7)
式中:y—激活函數(shù);x—輸入值。
(8)
式中:maski—一個與xi相同維度的二進制掩碼向量,其元素值為0或1。maski的生成過程是隨機的。
根據(jù)TCN的技術特點,TCN能夠捕捉時間序列數(shù)據(jù)的長期依賴關系和時間演變特征,適用于對水質(zhì)數(shù)據(jù)的長期模式進行預測。
1.3 自回歸模型(AR)
如果一個單變量時序數(shù)據(jù){ yt ; t = 1, 2, ...}中,某時間點數(shù)據(jù)和之前多個時間點的數(shù)據(jù)滿足線性關系,則稱之為自回歸。公式如下:
(9)
式中:p—自回歸模型的階數(shù),記作AR(p);
α—系數(shù)項;ωt—白噪聲。
在構建自回歸模型時,超參數(shù)p的選取尤為重要,它代表了預測未來某一時刻的數(shù)據(jù)所需的歷史時間點數(shù)量。通常有兩種常用的準則來確定這個參數(shù),分別是AIC(赤池信息準則)和BIC(貝葉斯信息準則)。AIC和BIC的計算公式如下:
(10)
(11)
式中:L—該模型下的最大似然函數(shù);n—數(shù)據(jù)數(shù)量;k—模型的變量個數(shù)。
AR模型能夠模擬數(shù)據(jù)之間短期內(nèi)的時間相關性,捕捉時間序列數(shù)據(jù)的動態(tài)變化,從而實現(xiàn)時間上的迭代預測,因此可以使用AR模型對水質(zhì)數(shù)據(jù)間的短期變化關系進行預測。
2 實驗準備
2.1 數(shù)據(jù)來源
本實驗基于2021年福建省莆田市龍華溪監(jiān)測站點的數(shù)據(jù)進行研究。該監(jiān)測站每隔4 h對水體總磷含量進行一次監(jiān)測,共收集了1440組數(shù)據(jù)。并將前1000個數(shù)據(jù)作為訓練樣本,后440個數(shù)據(jù)作為測試樣本。原始數(shù)據(jù)的曲線如圖1所示。
圖1 原始數(shù)據(jù)
2.2 模型評價指標
為了檢驗預測模型的精度度,使用均方根誤差(RMSE)、平均絕對誤差(MAE)、擬合度(R2)和平均絕對百分比誤差(MAPE)4個評價指標對模型進行評估,各個評價指標的計算公式如公式(12)至(15)所示。
(12)
(13)
(14)
(15)
式中:—預測值;y—真實值;n—樣本的數(shù)量。對于MAPE、MAE和RMSE指標,指標值越接近0表示真實值和預測值之間的誤差越小,模型的性能越好。擬合度R2越接近1則表示模型對觀測數(shù)據(jù)的擬合程度越好,模型的性能也就越好。
3 OVMD-TCN-AR水質(zhì)預測模型構建
3.1 水質(zhì)數(shù)據(jù)分解
利用OVMD對總磷時間序列進行分解時,計算不同k值下部分模態(tài)的中心頻率,并采用皮爾遜相關系數(shù)對相鄰k值模態(tài)分量的相關性進行分析,當相鄰模態(tài)分量間的相關性達到最大時,即可確定出k的取值。確定好k值之后,進一步利用殘差指數(shù)來確定t的值,將t的取值范圍設為0到1,步長設為0.01,根據(jù)具體t值進行VMD分解,直到使REI達到最小值。本實驗得到的分解總磷的k值為13、t值為0.75。利用OVMD分解總磷得到的各個分量圖如圖2所示。
總磷的各分量合并之后與原始數(shù)據(jù)對比如圖3所示,圖中藍色曲線為原始數(shù)據(jù),黃色曲線是分量合并之后的數(shù)據(jù)。通過圖3可以看出,各分量合并之后的曲線與原始數(shù)據(jù)曲線基本重合,說明總磷的OVMD分解結果和原始數(shù)據(jù)相比基本一致,能夠很好地還原原始數(shù)據(jù)的整體形態(tài)和趨勢,利用OVMD分解得到的各個分量相對原始數(shù)據(jù)信息損失很小。
3.2 基于TCN的水質(zhì)預測
利用TCN構建總磷的預測模型時,TCN的相關參數(shù)設置如下:過濾器數(shù)量為5、過濾器大小為3、Batch size為32、Epoch為100、優(yōu)化器是Adam、TCN的膨脹因子為1/2/4,輸入特征為3,輸出特征為1,其中,Batch size表示每次投入訓練的數(shù)據(jù)量,Epoch表示迭代次數(shù)。圖4展示了訓練集和測試集上損失函數(shù)的變化情況,損失函數(shù)值代表的是預測結果與真實數(shù)據(jù)之間的誤差,可以看出,隨著迭代次數(shù)的增加訓練集和測試集上的損失函數(shù)值都在逐漸減小,尤其是在迭代100次以后損失函數(shù)值基本收斂,說明模型在訓練過程中逐漸學習到了數(shù)據(jù)的規(guī)律和模式,預測的準確性在逐漸提高。
基于TCN的總磷預測模型的預測結果對比如圖5所示,其中藍色曲線代表預測數(shù)據(jù),橘色曲線代表真實數(shù)據(jù),基于TCN的總磷預測模型的評價指標如表1所示。通過對比圖5的兩條曲線可以看出,TCN水質(zhì)預測模型的預測結果在大部分區(qū)域基本和真實數(shù)據(jù)重合,但是在部分區(qū)域還存在差距,從表1也可以看出,基于TCN的總磷預測模型的精度(R2)達到了0.8512,說明該預測模型的精度在一般水平之上。
3.3 基于AR的水質(zhì)預測
本實驗利用AIC和BIC準則確定總磷AR預測模型的滯后階數(shù)p,針對不同的p值建立自回歸模型,并計算對應的AIC和BIC值,根據(jù)AIC和BIC的最小值選擇最優(yōu)的p值,最終確定的滯后階數(shù)為3。利用AR水質(zhì)預測模型對總磷的預測曲線如圖6所示,總磷的AR預測模型各個評價指標如表2所示。通過對比圖6的兩條曲線可以看出,AR水質(zhì)預測模型的預測結果基本和真實數(shù)據(jù)重合,從表2也可以看出,基于AR的總磷預測模型的精度(R2)達到了0.9996,說明該預測模型的精度非常高。盡管基于AR的總磷預測模型在預測精度上表現(xiàn)出色,但是AR模型本身的特點決定了該預測模型只適用于短期趨勢預測,實驗精度過高很可能是預測模型存在過擬合現(xiàn)象,為了讓水質(zhì)預測模型具有更好的泛化性和適應性,需要將AR預測模型和TCN預測模型進行綜合,以便使預測模型更好地應對不同的情況。
3.4 基于TCN+AR的水質(zhì)預測
利用TCN+AR進行水質(zhì)預測,就是將TCN水質(zhì)預測模型的預測結果與AR水質(zhì)預測模型的預測結果進行加權合并,本實驗中TCN預測結果與AR預測結果的權重均取0.5,合并之后的預測效果對比如圖7所示,TCN+AR水質(zhì)預測模型的具體評價指標如表3所示。從圖7中可以看出藍色預測曲線基本和黃色真實曲線相吻合,說明TCN+AR綜合水質(zhì)預測模型的預測精度較高,表3中可以看出該預測模型達到了0.9731的高擬合度(R2)。
相比于單獨的TCN水質(zhì)預測模型,TCN+AR水質(zhì)預測模型的各個評價指標均有明顯提升,說明TCN+AR相比TCN水質(zhì)預測模型具有更高的預測精度,說明TCN+AR水質(zhì)預測模型充分利用了AR的歷史數(shù)據(jù)分析能力,使得預測結果更加準確。與單獨的AR水質(zhì)預測模型相比,TCN+AR水質(zhì)預測模型的預測精度雖然略低,但是該模型通過引入TCN具有了一定的非線性特征提取能力,更能適應復雜的數(shù)據(jù)模式變化和有效捕捉數(shù)據(jù)中的長期依賴關系,使水質(zhì)預測模型具有更好的穩(wěn)定性。因此, TCN+AR水質(zhì)預測模型能綜合TCN和AR兩種模型的優(yōu)勢,保證預測的準確性和穩(wěn)定性,提高預測性能。
4 模型對比及分析
為了綜合評估OVMD-TCN-AR水質(zhì)預測模型的性能和效果,選取處理時間序列數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡LSTM、LSTNet組合預測模型進行對比分析。對比模型的參數(shù)通過網(wǎng)格尋優(yōu)和早停機制來設置,其中,LSTNet的過濾器數(shù)量為4、大小為3、神經(jīng)元數(shù)量為64,LSTM中神經(jīng)元數(shù)量為32。三種水質(zhì)預測模型的預測曲線如圖8所示,各個水質(zhì)預測模型的具體評價指標值如表 4所示。
從圖8中可以看出,在水質(zhì)變化趨勢相對緩慢的部分,三種水質(zhì)預測模型的預測結果基本都能夠擬合真實曲線;但在水質(zhì)變化較劇烈的部分,尤其是峰值和谷值部分,預測值與實際值存在一定偏差,OVMD-TCN-AR水質(zhì)預測模型的預測曲線和真實值曲線最接近。從表4可以看出, OVMD-TCN-AR水質(zhì)預測模型的RMSE(0.0117)和MAE(0.0066)最低、MAPE(0.0494)最低、R2最高,LSTNet水質(zhì)預測模型的評價指標次之,LSTM水質(zhì)預測模型的評價指標最差,說明OVMD-TCN-AR水質(zhì)預測模型的精度最高,OVMD-TCN-AR相對其他模型的預測效果最好。具體分析如下:
(1)對比OVMD-TCN-AR和 LSTNet水質(zhì)預測模型的評價指標, OVMD-TCN-AR水質(zhì)預測模型的RMSE提升了約60%、MAE提升了約77%、MAPE提升了約76%、R2提升了約17%,證明OVMD-TCN-AR相對LSTNet模型具有一定的優(yōu)越性。
(2)相對于LSTM水質(zhì)預測模型,OVMD-TCN-AR水質(zhì)預測模型的RMSE提升了約87%、 MAE提升了約90%、MAPE提升了約93%、R2提升了約11%,說明OVMD-TCN-AR水質(zhì)預測模型比LSTM水質(zhì)預測模型表現(xiàn)更好、具有明顯的優(yōu)勢。
通過對比曲線和模型評價指標可以看出,本文水質(zhì)預測模型相對于對照模型均具有一定的優(yōu)勢,說明本文水質(zhì)預測模型具有較好的有效性和可靠性。
5 結論
為了提高水質(zhì)預測的準確性和精度,本文提出了一種基于最優(yōu)變分模態(tài)分解(OVMD)、時間卷積網(wǎng)絡(TCN)和自回歸模型(AR)的水質(zhì)預測模型,通過實證驗證顯示,OVMD-TCN-AR水質(zhì)預測模型相比時域卷積網(wǎng)絡(TCN)、長短時記憶網(wǎng)絡(LSTM)和長期和短期時間序列網(wǎng)絡(LSTNet)能夠更準確地預測水質(zhì)情況、具有更好的預測性能。OVMD-TCN-AR水質(zhì)預測模型可為水資源保護和水質(zhì)治理提供重要的輔助手段,有助于提前調(diào)整保護措施和降低事后治理的難度,具有實際應用價值。在今后的工作中,將進一步對該模型在其他水域或特定情境下的應用效果進行探究和驗證,另外,也要進一步探索對水質(zhì)數(shù)據(jù)進行多步預測,以提供更長期、更全面的水質(zhì)保護,從而幫助相關部門更好地制定和實施水環(huán)境保護政策和措施。
參考文獻:
[1] 白雯睿,楊毅強,朱雪芹.基于 VMDLSTNet 的水質(zhì)預測模型[J].科學技術與工程, 2022, 22(22): 9881-9889.
[2] 梁堅.支持向量機在水質(zhì)評價及預測中的應用研究[D]. 杭州:浙江工業(yè)大學, 2009.
[3] 李秋瑤.多元線性回歸模型在河流水質(zhì)預測中的應用[J].信息系統(tǒng)工程,2023(7):79-82.
[4] 王玉亮,吳利豐.灰色預測法在水資源管理中的應用綜述[J].人民黃河,2023,45(7):86-90.
[5] 胡悅,范小娟.基于隨機森林算法的河南地區(qū)地表水水質(zhì)預測與評價[J].廣東水利水電,2023(7):81-85.
[6] 宋治岑,張順平,盧敏.基于HHO-SVM的水質(zhì)預測模型及應用[J].水電能源科學,2023,41(8):70-72,47.
[7] 王梅芳,張磊,單衛(wèi)軍.基于神經(jīng)網(wǎng)絡的水質(zhì)預測模型研究[J].自動化博覽,2022,39(12):66-69.
[8] 陳湛峰,李曉芳.基于注意力機制優(yōu)化的BiLSTM珠江口水質(zhì)預測模型[J/OL].環(huán)境科學:1-14.
[9] 秦梓萱,郭健,許模.基于ARIMA-BP模型的北京市平谷區(qū)地下水水質(zhì)雙尺度預測[J].蘭州大學學報(自然科學版),2023,59(1):121-128.
[10] 羅學剛,呂俊瑞.基于張量特征-GRU和多頭自注意力機制的水質(zhì)預測模型方法[J].攀枝花學院學報,2023,40(5):89-96.
[11] 陳樹龍,黎志偉,黃祖安,等.基于TCN-LSTM-QR的地表水水質(zhì)預測模型[J].廣東化工,2023,50(10):182-184,199.
Water Quality Prediction Model based on OVMD-TCN-AR
ZHANG Si-xuan, KANG Yan, SONG Jin-ling, SUN Xun, LIU Xiao-qing
(School of Mathematics and Information Technology of Hebei Normal University of Science amp; Technology, Hebei Agricultural Data Intelligent Perception and Application Technology Innovation Center, Qinhuangdao Hebei 066004,China)
Abstract: In recent years, water quality prediction has become a hotspot in the field of water environment management. However, the complexity and dynamic nature of the water environment itself lead to low prediction accuracy and poor model stability during water quality prediction. To address these issues, a new water quality prediction model were proposed based on Optimality Variational Mode Decomposition (OVMD), Temporal Convolutional Network (TCN), and Autoregression (AR). First, OVMD was used to decompose the original data to obtain several sub-sequences. Then, the decomposed sub-sequences were used as inputs for TCN and AR models for water quality prediction, and the prediction results of the two models were stacked and reconstructed to obtain the final prediction result. Finally, the total phosphorus data from Longhua Creek monitoring station was used for experimental verification. The results showed that the OVMD-TCN-AR water quality prediction model significantly outperforms Long Short Term Memory networks (LSTM) and Long- and Short-term Time-series network (LSTNet). The average absolute error of the OVMD-TCN-AR water quality prediction model was 0.00660, the root mean square error was 0.01166, the MAPE was 0.0494, and the fitting degree was 0.97, indicating that the OVMD-TCN-AR water quality prediction model had high reliability and application value.
Key words: water quality; prediction; optimal variational mode decomposition; time convolutional network; autoregressive model
基金項目:河北省省級科技計劃資助(21370103D);2023年度河北省高等學??茖W研究項目(ZC2023123);河北省軟件工程重點實驗室項目(22567637H);河北省軟件工程重點實驗室開放課題(KF2307); 河北省農(nóng)業(yè)數(shù)據(jù)智能感知與應用技術創(chuàng)新中心開放課題(ADIC2023Y006, ADIC2023Y004, ADIC2023Y005)。
作者簡介:張思萱(2001- ),女,河北石家莊人,碩士研究生,研究方向為水質(zhì)預測。
通信作者:宋金玲(1973- ),女,河北灤州人,教授,博士,碩士研究生導師,研究方向為數(shù)據(jù)庫安全與數(shù)據(jù)分析處理。