查木哈, 盧志宏, 翟繼武, 張福順
(1.赤峰市環(huán)境監(jiān)測中心站, 內(nèi)蒙古 赤峰 024000; 2.銅仁學(xué)院, 貴州 銅仁 554300;3.中國農(nóng)業(yè)科學(xué)院草原研究所, 內(nèi)蒙古 呼和浩特 010010)
水資源是經(jīng)濟(jì)社會可持續(xù)發(fā)展和生態(tài)文明建設(shè)不可替代的基礎(chǔ)性自然資源和戰(zhàn)略資源[1]。隨著社會經(jīng)濟(jì)的快速增長和人民生活水平的不斷提高,人們對水資源的需求不斷增大,對水環(huán)境系統(tǒng)造成了持續(xù)的高強(qiáng)度的破壞。生產(chǎn)廢水、生活污水的排放以及降雨徑流攜帶地表污染物匯入河流等因素,導(dǎo)致河流水質(zhì)不斷惡化[2]。水環(huán)境污染是多種因素影響的結(jié)果,具有非線性、不確定性和模糊性。水質(zhì)預(yù)測,通常是利用歷史數(shù)據(jù),通過不同的預(yù)測方法推求環(huán)境變量與待預(yù)測水質(zhì)指標(biāo)之間的非線性關(guān)系或待預(yù)測水質(zhì)指標(biāo)本身隨時(shí)間的變化規(guī)律[3]。
人工神經(jīng)網(wǎng)絡(luò)是一種非線性的、能夠模擬人類大腦思維活動的數(shù)學(xué)模型[4-5],BP神經(jīng)網(wǎng)絡(luò)是目前發(fā)展最為成熟、應(yīng)用最為廣泛的一種網(wǎng)絡(luò)模型,其具有完整的理論推導(dǎo)過程。國內(nèi)外學(xué)者把人工神經(jīng)網(wǎng)絡(luò)引入到水質(zhì)動態(tài)預(yù)測中,BP神經(jīng)網(wǎng)絡(luò)模型在多個(gè)區(qū)域河流水質(zhì)預(yù)測中得到具體應(yīng)用,鄭鵬[6]運(yùn)用改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測遼寧中部河流水質(zhì),郭亮等[7]應(yīng)用人工神經(jīng)網(wǎng)絡(luò)技術(shù)對松花江四方臺高錳酸鹽指數(shù)進(jìn)行預(yù)測,高雅玉等[8]把改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)應(yīng)用到雙塔水庫水質(zhì)的預(yù)測中,李占東等[9]應(yīng)用BP人工神經(jīng)網(wǎng)絡(luò)模型評價(jià)珠江水質(zhì),陳文花[10]應(yīng)用BP神經(jīng)網(wǎng)絡(luò)模型對水質(zhì)變化趨勢做出預(yù)測。目前的預(yù)測和評價(jià)模型多集中在單隱含層及優(yōu)化算法方面,多層隱含層BP神經(jīng)網(wǎng)絡(luò)模型在水質(zhì)預(yù)測中的應(yīng)用較少,而影響河流水質(zhì)的因素很多,是一個(gè)復(fù)雜的系統(tǒng),一般認(rèn)為單隱含層模型能夠處理簡單的問題,多個(gè)隱含層的模型適合于處理比較復(fù)雜的問題。因此本文嘗試應(yīng)用雙層隱含層的BP神經(jīng)網(wǎng)絡(luò)模型對老哈河水質(zhì)進(jìn)行預(yù)測分析,采用赤峰段甸子點(diǎn)位2010-2014年化學(xué)需氧量、五日生化需氧量、高錳酸鹽指數(shù)、總磷濃度這4項(xiàng)污染指標(biāo)為樣本訓(xùn)練數(shù)據(jù),建立雙隱含層BP 人工神經(jīng)網(wǎng)絡(luò)模型,預(yù)測2015年的水質(zhì)變化情況,驗(yàn)證BP神經(jīng)網(wǎng)絡(luò)模型對老哈河水質(zhì)預(yù)測的準(zhǔn)確性,探討 BP 神經(jīng)網(wǎng)絡(luò)模型運(yùn)用于水質(zhì)預(yù)測的可行性與適用性,為水環(huán)境管理和水污染控制提供科學(xué)依據(jù)。
作為西遼河的源頭,老哈河流域地處河北、遼寧兩省與內(nèi)蒙古自治區(qū)交界,是我國重要的重工業(yè)、能源和商品糧生產(chǎn)基地。該流域形狀呈不對稱扇形,介于41°N ~ 43°N、117° E ~ 120° E 之間,流域內(nèi)地形復(fù)雜,地勢西高東低起伏較大,海拔 427~2 017 m。老哈河發(fā)源于河北省平泉縣西北山區(qū)柳溪滿族鄉(xiāng),從寧城縣甸子鄉(xiāng)入內(nèi)蒙古赤峰市境內(nèi),流經(jīng)赤峰市東南部(喀喇沁、元寶山、松山區(qū)、敖漢),全長約426 km,流域面積33 076 km2,河道總落差1 215 m,主要支流有黑里河,坤頭河,錫伯河,英金河。老哈河流域?qū)僦袦貛О敫珊荡箨懶约撅L(fēng)氣候,多年平均氣溫為7℃,平均降水量為430.89 mm,流域內(nèi)降雨量年際和年內(nèi)分配不均衡,豐枯變化大,老哈河天然徑流主要來源于大氣降水,屬于降水補(bǔ)給型。
選取的水質(zhì)項(xiàng)目的確定,是根據(jù)《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》(GB3838-2002)中規(guī)定的基本項(xiàng)目,并結(jié)合老哈河各斷面水質(zhì)污染狀況,選取化學(xué)需氧量(CODCr)、五日生化需氧量(BOD5)、高錳酸鹽指數(shù)(CODMn)、總磷(TP)等4項(xiàng)指標(biāo)。按照地表水監(jiān)測采樣原則,進(jìn)行水樣采集,并按照《水和廢水監(jiān)測分析方法》(第4版)相關(guān)規(guī)定,采用國家標(biāo)準(zhǔn)方法進(jìn)行測定。本文采用 2011-2014年每月老哈河赤峰段甸子點(diǎn)位水質(zhì)監(jiān)測數(shù)據(jù)預(yù)測2015年水質(zhì)。
2.3.1 BP網(wǎng)絡(luò)結(jié)構(gòu) BP網(wǎng)絡(luò)是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。BP網(wǎng)絡(luò)能學(xué)習(xí)和存貯大量的輸入-輸出模式映射關(guān)系,而無需事前揭示描述這種映射關(guān)系的數(shù)學(xué)方程。網(wǎng)絡(luò)包括輸入層、輸出層和隱含層,其中隱含層可以有多層。雙隱含層BP網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示,同層節(jié)點(diǎn)(單元)中沒有任何耦合。從輸入層輸入信號節(jié)點(diǎn),傳過各隱含層節(jié)點(diǎn),傳到輸出層,每一層節(jié)點(diǎn)的輸出結(jié)果只影響下一層節(jié)點(diǎn)的輸出結(jié)果,相鄰層每個(gè)節(jié)點(diǎn)通過適當(dāng)?shù)倪B接權(quán)值和閾值前向連接。BP網(wǎng)絡(luò)是非線性映射模型,能夠?qū)W習(xí)和模擬任意復(fù)雜的非線性函數(shù)。
其中,x1,x2,…,xn為網(wǎng)絡(luò)的輸入向量,y1為輸出向量,連接層與層之間的傳遞函數(shù)是連續(xù)可微的非線性函數(shù),通常采用S形的對數(shù)或正切函數(shù),如logsig函數(shù)和tansig函數(shù);層與層之間的神經(jīng)元通過權(quán)值wni、pij、wnj和閾值αi、qj、βk連接。
圖1 雙隱含層BP神經(jīng)網(wǎng)絡(luò)模型示意圖
2.3.2 BP網(wǎng)絡(luò)的訓(xùn)練 在梯度下降法基礎(chǔ)上建立的BP網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)過程,由誤差信號正向和誤差信號反向傳播組成。誤差信號正向傳播的時(shí)候,每一層神經(jīng)元的結(jié)果僅影響下一層神經(jīng)網(wǎng)絡(luò),訓(xùn)練樣本輸入矩陣從輸入層經(jīng)過隱含層向前傳播到輸出層,并得出輸出結(jié)果。假如輸出結(jié)果未達(dá)到期望值,即輸出值和期望值誤差未達(dá)到預(yù)期精度,則網(wǎng)絡(luò)轉(zhuǎn)入反向傳播過程,會將誤差信號沿原本的連接通路撤回,并通過修改各層神經(jīng)元的權(quán)值和閾值,逐次地向輸入層傳播進(jìn)行計(jì)算,再經(jīng)正向傳播過程,通過兩個(gè)過程的反復(fù)運(yùn)行,直至達(dá)到預(yù)期精度值,網(wǎng)絡(luò)訓(xùn)練結(jié)束。
2.3.3 BP網(wǎng)絡(luò)的測試 經(jīng)過訓(xùn)練的BP網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)成后,各層之間的連接權(quán)值矩陣和各層閾值矢量均已確定,此網(wǎng)絡(luò)就是實(shí)際應(yīng)用運(yùn)行的模型。此神經(jīng)網(wǎng)絡(luò)模型能否用于實(shí)踐,是否達(dá)到預(yù)期目的,還需要對已確定的神經(jīng)網(wǎng)絡(luò)模型用已知的樣本進(jìn)行測試驗(yàn)證。假如測試精度達(dá)到預(yù)期要求,則證明該模型可以用于預(yù)測,否則還需要重新建立新的模型。網(wǎng)絡(luò)模型測試過程就是用測試樣本代入訓(xùn)練樣本作為網(wǎng)絡(luò)輸入,計(jì)算網(wǎng)絡(luò)輸出結(jié)果,探討其輸出與測試樣本目標(biāo)的誤差。經(jīng)過訓(xùn)練的網(wǎng)絡(luò),再經(jīng)過測試證實(shí)可行,即測試樣本相對誤差滿足預(yù)期要求,就可用于預(yù)測。
在網(wǎng)絡(luò)學(xué)習(xí)過程中,為了消除輸入樣本間的量綱差異,以便更好地進(jìn)行學(xué)習(xí),需要對樣本進(jìn)行歸一化處理:
(1)
(2)
(3)
(i=1, 2,……,n,n=12)
當(dāng)缺失值存在時(shí),往往會影響變化規(guī)律的模擬,在數(shù)值分析中,運(yùn)用拉格朗日插值法補(bǔ)充缺失值。拉格朗日插值法是一種多項(xiàng)式插值方法,可以提供一個(gè)正好穿過二維平面上若干已知點(diǎn)的多項(xiàng)式函數(shù)。拉格朗日插值法的公式結(jié)構(gòu)緊湊,在理論分析中應(yīng)用方便[13]。
本文中因河流冬季冰凍,造成了5個(gè)月份數(shù)據(jù)的缺失,因此采用拉格朗日插值法進(jìn)行插值,五日生化需氧量、化學(xué)需氧量、高錳酸鹽指數(shù)、總磷插值情況如圖2。2010年12月、2013年1-2月3個(gè)月的高錳酸鹽、化學(xué)需氧量插值比較平滑,五日生化需氧量插值連續(xù)下降,總磷連續(xù)上升;2012年1、2月份,化學(xué)需氧量連續(xù)上升,五日生化需氧量、高錳酸鹽和總磷連續(xù)下降。插值后的數(shù)據(jù)能夠滿足數(shù)值分析的要求。
圖2 拉格朗日插值圖
經(jīng)過試湊法確定五日生化需氧量最優(yōu)模型的第一隱含層節(jié)點(diǎn)數(shù)為4,第二隱含層節(jié)點(diǎn)數(shù)為12,預(yù)測模型結(jié)構(gòu)為 3-4-12-1。從圖3可以看出,五日生化需氧量預(yù)測值與實(shí)測值的決定系數(shù)R2為0.751 6(P=0.0003),4、7、11月份的誤差較大,其余9個(gè)月的誤差較小。
經(jīng)過試湊法確定化學(xué)需氧量最優(yōu)模型的第一隱含層節(jié)點(diǎn)數(shù)為12,第二隱含層節(jié)點(diǎn)數(shù)為10,模型結(jié)構(gòu)為 3-12-10-1。從圖4可以看出,化學(xué)需氧量預(yù)測值與實(shí)測值的決定系數(shù)R2為0.887 5(P<0.0001),4、12月份的誤差較大,其余10個(gè)月的誤差較小。
圖3 五日生化需氧量濃度預(yù)測值與實(shí)測值對比
圖4 化學(xué)需氧量濃度預(yù)測值與實(shí)測值對比
經(jīng)過試湊法確定高錳酸鹽最優(yōu)模型的第一隱含層節(jié)點(diǎn)數(shù)為6,第二隱含層節(jié)點(diǎn)數(shù)為3,模型結(jié)構(gòu)為 3-6-3-1。從圖5可以看出,高錳酸鹽指數(shù)預(yù)測值與實(shí)測值的決定系數(shù)R2為0.854 7(P<0.000 1),9、10、11月份的誤差較大,其余9個(gè)月的誤差較小。
圖5 高錳酸鹽指數(shù)濃度預(yù)測值與實(shí)測值對比
經(jīng)過試湊法確定總磷最優(yōu)模型的第一、第二隱含層節(jié)點(diǎn)數(shù)均為12,模型結(jié)構(gòu)為 3-12-12-1。從圖6可以看出,總磷濃度預(yù)測值與實(shí)測值的決定系數(shù)R2為0.889 2(P<0.000 1),7、11、12月份誤差較大,其余9個(gè)月的誤差較小。
圖6 總磷濃度預(yù)測值與實(shí)測值對比
由表1可知,4個(gè)預(yù)測模型的回歸系數(shù)從大到小依次為TP>CODCr>CODMn>BOD5(0.889 2>0.887 5>0.854 7>0.751 6),平均相對誤差依次為TP 表1 預(yù)測值與實(shí)測值誤差分析 人工神經(jīng)網(wǎng)絡(luò)是一種非線性數(shù)學(xué)模型,能夠模擬任意復(fù)雜程度的非線性過程,最大的優(yōu)點(diǎn)是能夠反復(fù)訓(xùn)練、測試網(wǎng)絡(luò)結(jié)構(gòu),最終以任意精度逼近任意復(fù)雜的非線性函數(shù),BP神經(jīng)網(wǎng)絡(luò)是應(yīng)用范圍最廣泛的一種人工神經(jīng)網(wǎng)絡(luò)[5,14-15]。分析監(jiān)測數(shù)據(jù)過程中發(fā)現(xiàn),由于水質(zhì)的變化一般都是漸變的過程,可通過歷史監(jiān)測數(shù)據(jù)的變化趨勢來預(yù)測將來的水質(zhì)指標(biāo),可達(dá)到較好的效果。本文以若干連續(xù)實(shí)測值作為輸入值建立神經(jīng)網(wǎng)絡(luò)模型的主要框架,預(yù)測下一時(shí)段的輸出值。通過雙隱含層BP人工神經(jīng)網(wǎng)絡(luò)分析2011-2014年老哈河赤峰段甸子點(diǎn)位的4項(xiàng)污染指標(biāo)的變化規(guī)律,預(yù)測2015年的數(shù)值并驗(yàn)證神經(jīng)網(wǎng)絡(luò)預(yù)測的準(zhǔn)確性,表明人工神經(jīng)網(wǎng)絡(luò)用來預(yù)測老哈河赤峰段水質(zhì)變化具有可行性,其中總磷具有較高的預(yù)測精度。 缺失值是影響完整性的主要因素。由于數(shù)據(jù)錄入的遺漏、不正確的度量方法和數(shù)據(jù)采集條件的限制等多方面因素都有可能導(dǎo)致數(shù)據(jù)缺失,從而使數(shù)據(jù)不完整,更會影響后續(xù)數(shù)據(jù)挖掘、統(tǒng)計(jì)分析等工作的進(jìn)行[16]。常規(guī)處理方法有歷史均值替代缺失值、利用資料序列的前后值加權(quán)以及直接代替?zhèn)€別缺失值。從缺失的分布來看,缺失值可分為完全隨機(jī)缺失、隨機(jī)缺失和完全非隨機(jī)缺失[17]。缺失值掩蓋了數(shù)據(jù)的分布,干擾了屬性相關(guān)性的發(fā)現(xiàn),缺失值補(bǔ)全具有重要的理論和實(shí)踐意義,是后續(xù)分析挖掘工作的基礎(chǔ)[18]。本文可用的訓(xùn)練樣本數(shù)量較少,應(yīng)用拉格朗日插值法補(bǔ)充了缺失值,保證了時(shí)間序列數(shù)據(jù)的完整性,保證了模型的預(yù)測精度。 神經(jīng)網(wǎng)絡(luò)隱含層層數(shù)和模型的預(yù)測精度密切相關(guān),隱含層較少時(shí)因獲取的有效信息太少而導(dǎo)致預(yù)測精度較低,過多時(shí)往往會出現(xiàn)過擬合現(xiàn)象而降低預(yù)測精度,因此隱含層層數(shù)的選擇對BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測能力十分重要[19-20]。一般認(rèn)為針對簡單的問題,單隱含層即可滿足要求,但是對于復(fù)雜的問題,則需要多個(gè)隱含層才能達(dá)到較好的預(yù)測效果,同時(shí)隨著隱含層的增加,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜程度也隨之增加,對數(shù)據(jù)中的噪聲信號具有放大作用,從而降低模型的預(yù)測精度,因此網(wǎng)絡(luò)隱含層層數(shù)的選擇十分重要[14,20]。本文采用雙層BP神經(jīng)網(wǎng)絡(luò)對老哈河水質(zhì)預(yù)測取得了較好的預(yù)測精度。 本文通過插值方法對存在缺失值的河流水質(zhì)指標(biāo)進(jìn)行補(bǔ)充,分別對化學(xué)需氧量、生化需氧量、高錳酸鹽指數(shù)和總磷建立Levenberg - Marquardt 優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行水質(zhì)預(yù)測,結(jié)論如下: (1)4個(gè)預(yù)測模型的回歸系數(shù)從大到小依次為TP>CODCr>CODMn>BOD5(0.889 2>0.887 5>0.854 7>0.751 6);平均誤差依次為TP (2)Levenberg - Marquardt 優(yōu)化的雙隱含層BP神經(jīng)網(wǎng)絡(luò)模型在老哈河水質(zhì)預(yù)測中精度較高,其中總磷濃度預(yù)測效果最好。 (3)通過拉格朗日插值,可以建立老哈河赤峰段甸子點(diǎn)位污染指標(biāo)的雙隱含層BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行水質(zhì)預(yù)測。 參考文獻(xiàn): [1] 王 新. 新疆某縣河流水質(zhì)現(xiàn)狀評價(jià)及其變化趨勢分析[J].干旱環(huán)境監(jiān)測,2017,21(1):33-36. [2] 尹海龍,徐祖信.河流綜合水質(zhì)評價(jià)方法比較研究[J].長江流域資源與環(huán)境, 2008,17(5) :729-733. [3] 田建平,曹東衛(wèi),李海楠. LM-BP神經(jīng)網(wǎng)絡(luò)在于橋水庫水質(zhì)預(yù)測中的應(yīng)用[J]. 水利信息化,2010(3):31-34. [4] 高 雋.人工神經(jīng)網(wǎng)絡(luò)原理及仿真實(shí)例[M].北京:機(jī)械工業(yè)出版社,2003. [5] 陳 明.MATLAB神經(jīng)網(wǎng)絡(luò)原理與實(shí)例精解[M].北京:清華大學(xué)出版社,2013. [6] 鄭 鵬.改進(jìn)的BP 神經(jīng)網(wǎng)絡(luò)模型在遼寧中部河流水質(zhì)預(yù)測中的應(yīng)用研究[J].吉林水利, 2017(2): 18-21. [7] 郭 亮,王 鵬,趙 英.基于BP 神經(jīng)網(wǎng)絡(luò)的松花江四方臺水質(zhì)預(yù)測[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2009,41(6) : 62-66. [8] 高雅玉,張麗萍,閔祥宇,等.改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)在雙塔水庫水質(zhì)預(yù)測中的應(yīng)用[J]. 水資源與水工程學(xué)報(bào),2012,23(6):149-153. [9] 李占東,林 欽. BP人工神經(jīng)網(wǎng)絡(luò)模型在珠江口水質(zhì)評價(jià)中的應(yīng)用[J].南方水產(chǎn),2005,1(4):47-54. [10] 陳文花. 基于BP神經(jīng)網(wǎng)絡(luò)模型的閩江流域地表水(福州段)水質(zhì)變化趨勢預(yù)測[J].能源與環(huán)境,2014(1):13-14+19. [11] 李輝東,關(guān)德新,袁鳳輝,等.BP人工神經(jīng)網(wǎng)絡(luò)模擬楊樹林冠蒸騰[J].生態(tài)學(xué)報(bào),2015,35(12):4137-4145. [12] 王宏宇,馬娟娟,孫西歡,等.基于 BP 神經(jīng)網(wǎng)絡(luò)的土壤水熱動態(tài)預(yù)測模型研究[J].節(jié)水灌溉,2017(7):11-15+27. [13] 楊皓翔,李 濤,張招金,等. 基于拉格朗日插值法的新陳代謝模型在邊坡位移監(jiān)測中的應(yīng)用[J]. 安全與環(huán)境工程,2017,24(2):33-38. [14] 哈明光.單隱含層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇研究[D].保定:河北大學(xué),2014. [15] 唐云輝,高陽華. 基于鄰域特征的溫度缺失值的填補(bǔ)方法[J].中國農(nóng)業(yè)氣象,2008,29(4):454-457. [16] 金 連.不完全數(shù)據(jù)中缺失值填充關(guān)鍵技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2013. [17] 宋煥林. 數(shù)據(jù)挖掘中的數(shù)據(jù)缺失處理[J].河套學(xué)院學(xué)報(bào),2016,13(3):95-98. [18] 賈梓健,宋騰煒,王建新. 基于傅里葉變換和kNNI的周期性時(shí)序數(shù)據(jù)缺失值補(bǔ)全算法[J].軟件工程,2017,20(3):9-13. [19] 唐萬梅.BP神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化問題的研究[J].系統(tǒng)工程理論與實(shí)踐,2005,25 (10):95-100. [20] 韓力群.人工神經(jīng)網(wǎng)絡(luò)理論、設(shè)計(jì)及應(yīng)用:人工神經(jīng)網(wǎng)絡(luò)理論設(shè)計(jì)及應(yīng)用[M].北京:化學(xué)工業(yè)出版社,2007.4 結(jié) 論