邊冰,趙明政
(華北理工大學(xué) 電氣工程學(xué)院,河北 唐山 063210)
水是人類生存和發(fā)展的必要資源,同時(shí)也是經(jīng)濟(jì)發(fā)展過程中的命脈[1]。隨著我國工業(yè)進(jìn)程的不斷推前進(jìn),水資源匱乏加劇、飲用水和生活水需求增加,水質(zhì)、水源和原水的復(fù)雜化、分散化和多樣化等問題日益加劇,使得傳統(tǒng)的生活用水生產(chǎn)方面面臨著巨大的挑戰(zhàn)[2]。水質(zhì)預(yù)測是指通過大量的歷史監(jiān)測和檢測數(shù)據(jù),尋求一種合適的數(shù)學(xué)模型,來分析水質(zhì)中各指標(biāo)的變化規(guī)律,從而能夠準(zhǔn)確地對水質(zhì)進(jìn)行預(yù)測判斷,并能及時(shí)的地了解水質(zhì)的現(xiàn)有狀況及未來的發(fā)展趨勢,為水質(zhì)的預(yù)警等方面提供科學(xué)的依據(jù)。目前,水質(zhì)預(yù)測的方法有數(shù)理統(tǒng)計(jì)法、人工神經(jīng)網(wǎng)絡(luò)法、水質(zhì)模擬模型法、小波分析法等。李娜等[3]將BP神經(jīng)網(wǎng)絡(luò)應(yīng)用在象山港水環(huán)境承載力研究中,結(jié)果表明BP神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)結(jié)果直觀可靠,可以應(yīng)用在象山港水環(huán)境承載力研究中。費(fèi)丹[4]通過BP神經(jīng)網(wǎng)絡(luò)對大伙房水庫進(jìn)行水質(zhì)預(yù)測,研究表明BP網(wǎng)絡(luò)在水質(zhì)預(yù)測方面效果良好。查木哈等[5]通過雙隱含層BP網(wǎng)絡(luò)并結(jié)合拉格朗日插值法對老哈河中的化學(xué)需氧量、生化需氧量、高錳酸鹽指數(shù)和總磷濃度行了預(yù)測分析,研究結(jié)果表明該模型的預(yù)測性能較好,尤其對總磷濃度預(yù)測效果更為明顯。Singh K P等[6]使用了11個(gè)不同水質(zhì)指標(biāo)的數(shù)據(jù)為依據(jù),構(gòu)建了2個(gè)隱藏層不同的BP神經(jīng)網(wǎng)絡(luò)模型,通過對印度某河2個(gè)不同的指標(biāo)進(jìn)行計(jì)算,從而間接地推斷出水質(zhì)好壞。該研究針對河北省某水廠2015年到2016年2年的數(shù)據(jù)進(jìn)行分析處理,然后結(jié)合天氣情況,通過深度極限學(xué)習(xí)機(jī)對NTU、耗氧量、pH值3個(gè)指標(biāo)進(jìn)行分類預(yù)測,對水質(zhì)的變化采取有效的防御措施從而減少損失。
極限學(xué)習(xí)機(jī)[7]是一種針對單隱含層前饋神經(jīng)網(wǎng)絡(luò)的分類算法,它采用的訓(xùn)練方式為批處理,不需要迭代,隱含層的權(quán)值和偏置都是隨機(jī)選取的,通過計(jì)算輸出層權(quán)值完成學(xué)習(xí)。根據(jù)極限學(xué)習(xí)機(jī)基礎(chǔ)依據(jù),它的L1正則化目標(biāo)函數(shù)可表示為:
s.tβTh(xi)=yi-ξ?i,?i
(1)
(2)
其中訓(xùn)練輸出矩陣由H=[h(x1),…h(huán)(xn)]T∈Rn×|h(?)|表示。對于測試樣本x經(jīng)由ELM分類輸出。其表達(dá)式為:
f(x)=β*Th(x)
(3)
深度極限學(xué)習(xí)機(jī)[8]是由多個(gè)極限學(xué)習(xí)機(jī)自編碼器(auto-encoder,AE)堆疊而成的深度網(wǎng)絡(luò)。ELM自編碼器其實(shí)就是令Y=X,從而使得極限學(xué)習(xí)機(jī)的輸入與輸出相等,那么隱含層特征H就成為了輸入訓(xùn)練樣本中的一種編碼,它的輸出權(quán)值矩陣如以下公式:
(4)
自編碼器可以通過輸出權(quán)值矩陣將隱含層特征映射為樣本,還可以將樣本映射為隱含層特征,將多個(gè)ELM-AE疊加起來組成多層網(wǎng)絡(luò)特征提取模型,每層輸出特征用公式表示為
Hi=h(βTHi-1)
(5)
其中第i層ELM-AE的特征用Hi來表示,第i-1層ELM-AE的特征用Hi-1表示。隨著層數(shù)的遞增,學(xué)習(xí)到的特征Hi將變得越來越少。將提取的特征Hi經(jīng)過分類器進(jìn)行分類,這樣的深度網(wǎng)絡(luò)稱為深度極限學(xué)習(xí)機(jī),D-ELM的結(jié)構(gòu)圖如圖1所示。
圖1 D-ELM結(jié)構(gòu)圖
該水廠的位置處于東部季風(fēng)區(qū),氣候?qū)儆谂瘻貛I海半濕潤氣候,該市平均降水量約為622.2 mm。全市人均飲用水和生活水的占有量為340 m3,大約占我國人均水資源的16.7%[9]。
近幾年來,隨著經(jīng)濟(jì)快速的發(fā)展,“四點(diǎn)一帶”的建設(shè)使國家對水資源提出了更高的要求,從而使水資源的供應(yīng)與需求的矛盾逐漸增加。隨著逐年增加的用水需求和廢水、污水量,迫使地表水資源環(huán)境發(fā)生巨大的改變。從而導(dǎo)致水資源越發(fā)緊缺,生態(tài)環(huán)境破壞加劇,出現(xiàn)了一系列水環(huán)境污染問題,進(jìn)而造成了水資源環(huán)境的持續(xù)惡化[10]。
該數(shù)據(jù)資料來源于河北省某水廠在2015~2016年水質(zhì)日監(jiān)測匯總表。以2015~2016年2年的監(jiān)測數(shù)據(jù)為分析依據(jù),選取表1中耗氧量、pH值和NTU 3個(gè)指標(biāo)因子作為參考對象,采用D-ELM模型對水質(zhì)進(jìn)行預(yù)測分類。
表1 水廠部分指標(biāo)檢測值
針對水質(zhì)中NTU、耗氧量和pH值的變化,將水質(zhì)分成了3個(gè)等級分別是1級、2級和3級。其水質(zhì)等級劃定如表2所示。
表2 水質(zhì)等級劃定/(mg·L-1)
由于該項(xiàng)研究所得數(shù)據(jù)中pH值均是大于7的偏堿水,所以在1級中pH值沒有設(shè)置下限。并且每一級中耗氧量、NTU、pH值均必須在表2中所對應(yīng)的范圍內(nèi),如果其中有一項(xiàng)超標(biāo)都會被分到下一級去。例如耗氧量為1.20 mg/L,NTU為3.0,pH值為7.8,這組數(shù)據(jù)的水質(zhì)將被定為2級,而不是1級。
由于本實(shí)驗(yàn)是用NTU、pH和耗氧量3個(gè)指標(biāo)作為輸出量,所以NTU、pH值和耗氧量都必須作為輸入量。而一年四季中陰晴雨雪,對NTU這一指標(biāo)具有很大的影響,故而天氣變化也必須作為輸入量。該實(shí)驗(yàn)對水廠數(shù)據(jù)利用MATLAB進(jìn)行線性擬合來判斷輸入量與輸出量相關(guān)度的高低,從而確定其它幾個(gè)指標(biāo)是否合適。其擬合圖如圖2~圖4所示。
圖2 溫度與耗氧量的擬合圖線
根據(jù)圖2可知,當(dāng)溫度上升時(shí),水的耗氧量會逐漸上升,從而可以判斷出溫度與耗氧量的相關(guān)度很高,所以溫度可作為輸入量。
圖3 藥量與pH值的擬合圖線
根據(jù)圖3可知,當(dāng)水中投入的藥量增加時(shí),水中的pH值也會隨之增加,從而可以判斷出藥量與pH值的相關(guān)度很高,所以藥量也可作為輸入量。
根據(jù)圖4可知,當(dāng)余氯的濃度增高時(shí),水的pH值會逐漸下降,從而可以判斷出余氯與pH值的相關(guān)度很高,所以余氯可作為輸入量。
綜上所述,本實(shí)驗(yàn)輸入量的指標(biāo)分別是天氣、余氯、pH值、溫度、藥量、NTU和耗氧量。
圖4 余氯與pH值的擬合圖線
該研究共采用了50組數(shù)據(jù),訓(xùn)練樣本為系統(tǒng)任意抽取的35組,剩余15組作為測試樣本。為了能清晰直觀地分析對比仿真結(jié)果,該實(shí)驗(yàn)通過MATLAB進(jìn)行仿真,首先給出了深度極限學(xué)習(xí)機(jī)、極限學(xué)習(xí)機(jī)和BP神經(jīng)網(wǎng)絡(luò)的誤差曲線圖。如圖5~圖7所示。
圖5 深度極限學(xué)習(xí)機(jī)誤差曲線圖
圖6 極限學(xué)習(xí)機(jī)誤差曲線圖 圖7 BP網(wǎng)絡(luò)誤差曲線圖
通過對圖5~圖7的進(jìn)行比較可知,深度極限學(xué)習(xí)機(jī)經(jīng)過3次訓(xùn)練就可達(dá)到誤差精度的要求,而極限學(xué)習(xí)機(jī)和BP神經(jīng)網(wǎng)絡(luò)要分別經(jīng)過5次和14次訓(xùn)練才能達(dá)到誤差精度的要求。
為了進(jìn)一步確定深度極限學(xué)習(xí)機(jī)與極限學(xué)習(xí)機(jī)和BP神經(jīng)網(wǎng)絡(luò)的預(yù)測分類效果,將訓(xùn)練好的D-ELM、ELM及BP網(wǎng)絡(luò)數(shù)據(jù)輸入到測試組,其結(jié)果顯示如表3和表4所示。
表3 仿真結(jié)果1
表4 仿真結(jié)果2
由表3和表4可知,從時(shí)間上來看,D-ELM的預(yù)測時(shí)間最短,ELM預(yù)測時(shí)間居中,而BP網(wǎng)絡(luò)的預(yù)測時(shí)長是最長的。從正確率上來看,D-ELM的正確率最高,ELM的正確率次之,而BP網(wǎng)絡(luò)的正確率最低。
(1)由仿真分析可以得出,在水質(zhì)預(yù)測方面,D-ELM的準(zhǔn)確性和快速性最好,ELM的準(zhǔn)確性和快速性次之,BP網(wǎng)絡(luò)的準(zhǔn)確性和快速性最差。
(2)通過3種網(wǎng)絡(luò)的比較,D-ELM在預(yù)測時(shí)間和正確率上優(yōu)于ELM和BP網(wǎng)絡(luò),說明D-ELM對水質(zhì)預(yù)測分類方面具有很高的可信度,這給水質(zhì)預(yù)測分類提供了一種簡單而又快捷的方法,從而減輕了相關(guān)工作人員的壓力,也使人們的生活用水得到了保障。