[關(guān)鍵詞]機(jī)器學(xué)習(xí);降雨;水質(zhì);時間分布特征;珊溪水庫
珊溪水庫是溫州市重要的飲用水源地[1]。水庫水質(zhì)狀況直接影響生活飲用水安全,與人民的生命健康密切相關(guān)[2]。溫州地處浙江沿海地區(qū),降雨頻繁且量較大,臺風(fēng)和強(qiáng)降雨等極端氣候事件時常發(fā)生[3-5]。降雨及其導(dǎo)致的地表徑流不僅會增大水庫入庫流量,而且會向水庫水體中輸入營養(yǎng)鹽和有機(jī)污染物[6],導(dǎo)致氮、磷濃度和CODMn等水質(zhì)指標(biāo)水平在短時間內(nèi)大幅升高[7],嚴(yán)重時會造成水體富營養(yǎng)化,降低水環(huán)境質(zhì)量,影響整個水生態(tài)系統(tǒng)[8]。因此,為防控水體富營養(yǎng)化風(fēng)險和保障居民飲用水安全,研究降雨對珊溪水庫水質(zhì)的影響具有重要意義。
機(jī)器學(xué)習(xí)是數(shù)據(jù)挖掘中的一種重要工具,它主要是利用經(jīng)驗(yàn)改善計算機(jī)系統(tǒng)的自身性能,通過對現(xiàn)有知識的學(xué)習(xí)獲取新知識,從而起到數(shù)據(jù)分析和預(yù)測的作用[9-11]。面對大量、復(fù)雜和凌亂的降雨數(shù)據(jù)和水質(zhì)監(jiān)測數(shù)據(jù),傳統(tǒng)的統(tǒng)計分析方法適用性較差,常規(guī)的水環(huán)境質(zhì)量評價方法不具備預(yù)測能力[12]。使用機(jī)器學(xué)習(xí)算法不僅能分析降雨對水庫水質(zhì)的影響,還可以對降雨后水質(zhì)情況進(jìn)行預(yù)測。目前,前人研究主要集中在水庫水體富營養(yǎng)化評價與控制方面[13],針對降雨對水庫水質(zhì)的影響研究較少,基于機(jī)器學(xué)習(xí)算法的水質(zhì)預(yù)測研究更是鮮有報道。本研究解析了珊溪水庫的降雨和水質(zhì)時間分布特征,對降雨與水質(zhì)進(jìn)行了相關(guān)性分析,通過線性回歸、決策樹和隨機(jī)森林3種機(jī)器學(xué)習(xí)算法,構(gòu)建水質(zhì)預(yù)測模型,選出最優(yōu)水質(zhì)預(yù)測模型及算法,以期為掌握珊溪水庫降雨前后水質(zhì)提供技術(shù)支撐,并為該區(qū)域水生態(tài)環(huán)境保護(hù)和水體富營養(yǎng)化防治措施的制定奠定理論基礎(chǔ)。
1. 評價
1.1研究區(qū)域
珊溪水庫(119° 36'54″ ~120° 04'37″E,27° 26'38″ ~27°58'37″N)位于我國浙江省溫州市,飛云江干流中游,距溫州市區(qū)117 km[14]。珊溪水庫流域面積1545.85 km2,約占全流域面積的48%,水庫總庫容18.24×108 m3,約占全市總庫容的80%[1, 14],是溫州市主要的供水水源。溫州屬中亞熱帶季風(fēng)性氣候區(qū),溫度適中,雨量充沛,年平均氣溫19.6℃,年平均降雨量1876.9 mm。珊溪水庫壩址、珊溪?dú)庀笳竞蜕合|(zhì)自動監(jiān)測站均位于溫州市文成縣珊溪鎮(zhèn)。
1.2數(shù)據(jù)來源
2015~2019年珊溪站逐日降雨數(shù)據(jù)由溫州市氣象局提供,2015~2019年珊溪水庫水質(zhì)監(jiān)測數(shù)據(jù)由溫州生態(tài)環(huán)境監(jiān)測中心提供。水質(zhì)監(jiān)測指標(biāo)包括高錳酸鹽指數(shù)(CODMn)、總氮(TN)、總磷(TP)、氨氮(NH3-N)和葉綠素a(Chl.a)。
1.3評價方法
1.3.1相關(guān)性分析
本文運(yùn)用IBM SPSS 26.0 對數(shù)據(jù)進(jìn)行Pearson 相關(guān)性分析,探究不同降雨強(qiáng)度下,降雨前與降雨后的同一水質(zhì)指標(biāo)相關(guān)關(guān)系。由顯著性P 值評估顯著性水平。P 值大于0.05表示差異無統(tǒng)計學(xué)意義,P 值小于0.05表示差異有統(tǒng)計學(xué)意義,P 值小于0.01表示差異非常顯著。
1.3.2 機(jī)器學(xué)習(xí)算法
本文采用線性回歸、決策樹和隨機(jī)森林3種機(jī)器學(xué)習(xí)算法進(jìn)行降雨后水質(zhì)預(yù)測研究。線性回歸算法是以坐標(biāo)系中一個維度為標(biāo)簽,其他維度為特征,以期尋找一條能夠最大程度上擬合標(biāo)簽和特征關(guān)系的直線,標(biāo)簽是因變量,特征是自變量[15]。決策樹是一種樹形結(jié)構(gòu),它能從一組無序的標(biāo)簽和特征數(shù)據(jù)中總結(jié)出決策規(guī)則,并以樹狀圖的結(jié)構(gòu)呈現(xiàn)規(guī)則[16, 17]。決策樹中需要優(yōu)化的主要參數(shù)有葉中最小實(shí)例數(shù)、樹的最大深度和拆分內(nèi)部節(jié)點(diǎn)所需的最小樣本數(shù)。隨機(jī)森林的所有基評估器是決策樹[18]。隨機(jī)森林中需要優(yōu)化的主要參數(shù)有樹的數(shù)量、單個樹的最大深度和拆分內(nèi)部節(jié)點(diǎn)所需的最小樣本數(shù)。
1.3.3 模型驗(yàn)證和精度評價
本研究采用決定系數(shù)(R2)和均方根誤差(RMSE)評價3種機(jī)器學(xué)習(xí)算法的模型精度。R2是預(yù)測值與均值相比于真實(shí)值的符合程度,用來衡量因變量被自變量的解釋程度[19]。R2越接近1,表示模型在預(yù)測時的誤差越小,模型精度越高[20]。RMSE是預(yù)測值與真實(shí)值誤差平方根的均值,用來衡量預(yù)測值與真實(shí)值的差異[21]。RMSE越接近0,表示預(yù)測值與真實(shí)值偏差越小,模型擬合效果越好[22]。
1.4 評價結(jié)果
1.4.1 水庫降雨特征
本研究將日降雨量<25.0 mm的降雨過程劃歸為弱降雨,將日降雨量≥25.0 mm 的降雨過程劃歸為強(qiáng)降雨。2015~2019年珊溪水庫日降雨量變化如圖1所示。2015~2019 年珊溪水庫日降雨量波動范圍為0.0~309.8 mm,在2016年9月28日達(dá)到峰值,強(qiáng)降雨次數(shù)波動范圍為15~28次,在2016 年達(dá)到最大值。研究期間累計降雨量10034.3 mm,平均年降雨量2006.9 mm。從降雨天數(shù)來看,強(qiáng)降雨和弱降雨分別累計105d和829d,分別占總降雨天數(shù)的11.24%和88.76%。從降雨量來看,強(qiáng)降雨和弱降雨分別累計降雨量5273.2 mm和4761.1 mm,分別占總降雨量的52.55%和47.45%。因此,研究區(qū)域內(nèi)強(qiáng)降雨的降雨量較大,在總降雨中占據(jù)較大比例,弱降雨出現(xiàn)得更頻繁,是降雨的常見形式。
1.4.2 水庫水質(zhì)特征
2015~2019年珊溪水庫4項(xiàng)水質(zhì)指標(biāo)CODMn、TN、TP、NH3-N和Chl.a變化特征見圖2。如圖2(a)所示,CODMn濃度介于0.426~3.600 mg/L,滿足《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》(GB3838-2002)的Ⅱ類標(biāo)準(zhǔn)(CODMn≤4 mg/L)。2017年7月~2018年12月CODMn濃度波動劇烈,CODMn濃度在2017年9月達(dá)到峰值,2018年1月達(dá)到第二大值。從整體上來看,全年內(nèi)CODMn濃度波動較大,年際間CODMn濃度表現(xiàn)出下降趨勢。如圖2(b)所示,TN濃度介于0.085~0.888 mg/L,滿足《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》(GB3838-2002)的Ⅲ類標(biāo)準(zhǔn)(TN≤1.0 mg/L)。在2016年11月TN濃度急速上升并達(dá)到峰值,之后快速振蕩下降,并在2018年3月降至低谷。2015~2019年,年際間TN濃度總體呈現(xiàn)上升趨勢。圖2(c)的監(jiān)測數(shù)據(jù)顯示,TP濃度波動范圍為0.002~0.043 mg/L,滿足《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》(GB3838-2002)的Ⅲ類標(biāo)準(zhǔn)(TP≤0.05 mg/L)。在2016年11月~2017年1月,TP濃度陡然上升至最大值,其后迅速下降并恢復(fù)到之前的濃度水平。除此之外,TP濃度波動幅度較小。如圖2(d)所示,NH3-N濃度介于0.003~0.104 mg/L,滿足《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》(GB3838-2002)的I類標(biāo)準(zhǔn)(NH3-N≤0.15 mg/L)。NH3-N濃度最大值和最小值分別出現(xiàn)在2015年8月和2018年2月。2015~2019年,全年NH3-N濃度波動變化大,年際間NH3-N濃度總體呈現(xiàn)下降趨勢。如圖2(e)所示,Chl.a的濃度變化范圍為1.45~61.97 μg·L-1,平均值為10.19 μg·L-1。2015年8月~2016年2月Chl.a濃度出現(xiàn)較大起伏,Chl.a濃度逐漸升高并在2015年12月達(dá)到峰值,之后濃度快速回落下降。整體而言,2015~2019年Chl.a濃度均呈小范圍穩(wěn)定波動。
1.4.3 降雨與水質(zhì)相關(guān)性分析
本研究對不同降雨強(qiáng)度下,降雨前后同一水質(zhì)指標(biāo)進(jìn)行Pearson相關(guān)性分析,結(jié)果如表1所示。5項(xiàng)指標(biāo)降雨前后數(shù)據(jù)差異具有統(tǒng)計學(xué)意義,無論是弱降雨還是強(qiáng)降雨強(qiáng)度下,CODMn、TN、TP、NH3-N和Chl.a降雨前后數(shù)據(jù)均呈現(xiàn)極顯著正相關(guān)(Plt;0.01),且相關(guān)系數(shù)較高。相比之下,TP的相關(guān)性要小于其余四項(xiàng)水質(zhì)指標(biāo),這主要是由于TP的數(shù)值波動范圍較小,削弱了差異性。另外,降雨強(qiáng)度對5項(xiàng)水質(zhì)指標(biāo)濃度變化的影響不同。當(dāng)降雨量增大時,CODMn、NH3-N 和Chl.a降雨前后水質(zhì)相關(guān)性分別增加了11.4%、7.2% 和3.4%,表現(xiàn)出更好的相關(guān)性,這說明CODMn、NH3-N和Chl.a受降雨影響較大,強(qiáng)降雨會在短時間內(nèi)促進(jìn)水庫CODMn、NH3-N和Chl.a濃度上升。與強(qiáng)降雨相比,弱降雨強(qiáng)度下TN和TP的降雨前后水質(zhì)相關(guān)關(guān)系變?nèi)?,相關(guān)性分別下降了10.5%和2.2%。因此,降雨是影響水質(zhì)的主要因素之一,降雨強(qiáng)度對珊溪水庫水質(zhì)變化有顯著影響。
1.4.4 基于機(jī)器學(xué)習(xí)的水質(zhì)預(yù)測
統(tǒng)計水質(zhì)監(jiān)測數(shù)據(jù),分別建立基于各水質(zhì)指標(biāo)濃度的線性回歸、決策樹和隨機(jī)森林的水質(zhì)預(yù)測模型,即以降雨前的水質(zhì)指標(biāo)濃度為自變量,降雨后的水質(zhì)指標(biāo)濃度為因變量建模,結(jié)果如表2所示。3種機(jī)器學(xué)習(xí)模型對水質(zhì)指標(biāo)建模的R2 均在0.719以上,RMSE均在0.320以下,各模型精度較高。對比5項(xiàng)水質(zhì)指標(biāo),模型對TP的預(yù)測精度要低于對CODMn、TN、NH3-N和Chl.a的預(yù)測精度,這主要是由于TP樣本數(shù)值的差異較小,不利于模型訓(xùn)練和數(shù)據(jù)挖掘。進(jìn)一步對比各模型的R2和RMSE可知,線性回歸模型的R2更接近1,RMSE更接近0,預(yù)測精度最高。圖3為樣本實(shí)測值與線性回歸模型的預(yù)測值的比較。通過散點(diǎn)圖可視化分析能夠更直觀地看出,線性回歸模型的穩(wěn)定性較高,樣本擬合度較好。綜上所述,權(quán)衡3種機(jī)器學(xué)習(xí)算法的評價參數(shù),線性回歸模型的模擬效果總體上優(yōu)于決策樹和隨機(jī)森林模型。線性回歸更適用于珊溪水庫降雨后的水質(zhì)預(yù)測。
2. 結(jié)論
a)2015~2019年珊溪水庫流域強(qiáng)降雨的累計量較大,在總降雨中占據(jù)重要比例,弱降雨累計降雨天數(shù)較高,是降雨的常見形式。水質(zhì)指標(biāo)CODMn、TN、TP、NH3-N和Chl.a濃度變化趨勢各異,但均存在一定幅度的波動。
b)降雨強(qiáng)度對珊溪水庫水質(zhì)變化有顯著影響。在弱降雨和強(qiáng)降雨強(qiáng)度下,CODMn、TN、TP、NH3-N和Chl.a降雨前后數(shù)據(jù)均呈現(xiàn)極顯著正相關(guān)(Plt;0.01),且相關(guān)系數(shù)相對較高。降雨強(qiáng)度增大時,CODMn、NH3-N和Chl.a降雨前后水質(zhì)相關(guān)性增強(qiáng),TN和TP降雨前后水質(zhì)相關(guān)性減弱。
c)基于機(jī)器學(xué)習(xí)的水質(zhì)預(yù)測中,線性回歸模型的R2最高,RMSE最小,且模型穩(wěn)定性相對較好,總體性能優(yōu)于決策樹和隨機(jī)森林模型。另外,機(jī)器學(xué)習(xí)模型對TP的預(yù)測精度要低于CODMn、TN、NH3-N和Chl.a。