吳旭東+馮璐遠(yuǎn)+陳正軍+李映曦
摘要:該文采用決策樹、BP神經(jīng)網(wǎng)絡(luò)、Logistic回歸和基于徑向基的RBF神經(jīng)網(wǎng)絡(luò)四種算法來建立水質(zhì)評價(jià)預(yù)測模型,并對結(jié)果進(jìn)行了分析。預(yù)測結(jié)果顯示,基于徑向基的RBF神經(jīng)網(wǎng)絡(luò)在四種算法中是最合適的方法,預(yù)測準(zhǔn)確率較高,建議推廣和使用。
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò);決策樹;水質(zhì)模型
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2017)35-0003-02
1 概述
水是人類賴以生存的重要物質(zhì),它是不可缺少、不可替代的重要資源。隨著我國工業(yè)化進(jìn)程的加快和經(jīng)濟(jì)的迅速發(fā)展,水污染日益嚴(yán)重已經(jīng)成為制約我國實(shí)施可持續(xù)發(fā)展戰(zhàn)略重要因素。水環(huán)境問題已經(jīng)成為眾多專家、學(xué)者研究的重點(diǎn)問題,目前國內(nèi)外研究水環(huán)境質(zhì)量的評價(jià)方法非常多,有關(guān)文獻(xiàn)討論水質(zhì)評價(jià)的方法有幾十種,呈現(xiàn)出非?;钴S的態(tài)勢。由于水環(huán)境中的各種元素的不確定性和水體的未知性,傳統(tǒng)的確定性評價(jià)方法已經(jīng)很難適應(yīng)研究。有些水質(zhì)模型雖考慮了影響水質(zhì)變化的諸多因素,模擬預(yù)測效果較理想,但往往較復(fù)雜并需要大量基礎(chǔ)資料和數(shù)據(jù),使得研究的進(jìn)一步開展和應(yīng)用受到限制。而目前,較常見的情況是根據(jù)水體當(dāng)前的水質(zhì)情況、污染物的遷移特點(diǎn)和流域內(nèi)污染物的排放情況來預(yù)測水質(zhì)未來的變化趨勢,為水質(zhì)污染預(yù)測尋找一種合適的模型是非常必要。
2 相關(guān)理論分析
2.1 決策樹
決策樹是應(yīng)用的最廣的歸納推理算法之一,它是一種逼近離散值函數(shù)方法,對噪聲有很好的健壯性且能夠?qū)W習(xí)析取表達(dá)式。決策樹一般都是自上而下的來生成的,并用了貪婪的搜索遍歷方法進(jìn)行遍歷。每個(gè)決策或事件都可能引出兩個(gè)或多個(gè)事件,導(dǎo)致不同的結(jié)果,把這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。常用的決策樹算法包括C&RT算法、ID3經(jīng)典算法、C4.5算法、C5.0算法、CHAID算法、QUEST算法。
決策樹的基本算法是貪心算法,它以自頂向下遞歸的各個(gè)擊破方式構(gòu)造決策樹,最著名的決策樹算法為ID3算法。ID3算法主要針對屬性選擇問題,是決策樹學(xué)習(xí)方法中最具影響和最為典型的算法。該方法使用信息增益度選擇測試屬性。
2.2 基于徑向基的RBF神經(jīng)網(wǎng)
最基本的RBF神經(jīng)網(wǎng)絡(luò)的構(gòu)成包括三層,分別為輸入層、隱層(中間層)和輸出層。其中輸入層由一些源點(diǎn)(感知單元)組成,它們將網(wǎng)絡(luò)與外部環(huán)境連接起來,僅起到數(shù)據(jù)信息的傳遞作用,對輸入信息不進(jìn)行任何變換;隱層神經(jīng)元的核函數(shù)(或稱作用函數(shù))取為徑向基函數(shù),對輸入信息到隱層空間之間進(jìn)行非線性變換,通常具有較高的維數(shù);輸出層是線性的,為輸入層的激活模式提供響應(yīng)。
設(shè)隱層、輸出層上的神經(jīng)元數(shù)分別為,,輸入模式記為,,輸出記為,。本文取徑向基函數(shù)為Gauss函數(shù),隱單元輸出則為
式中:為隱層第個(gè)神經(jīng)元的輸出值;為隱層第個(gè)神經(jīng)元的中心,由隱層第個(gè)神經(jīng)元對應(yīng)于輸入層所有神經(jīng)元的中心分量構(gòu)成,;為隱層第個(gè)神經(jīng)元的寬度,與相對應(yīng);為歐氏范數(shù)。
輸出層神經(jīng)元的輸入輸出關(guān)系表達(dá)式是:
式中:為輸出層第個(gè)神經(jīng)元的輸出值;為輸出層第個(gè)神經(jīng)元與隱層第個(gè)神經(jīng)元間的權(quán)值。RBF神經(jīng)網(wǎng)絡(luò)的參數(shù)在此主要是指網(wǎng)絡(luò)的中心、寬度、和調(diào)節(jié)權(quán)重。
3 實(shí)驗(yàn)過程
收集和提取一組用戶基本數(shù)據(jù),對數(shù)據(jù)進(jìn)行預(yù)處理,如圖1所示。
影響水質(zhì)狀態(tài)的指標(biāo)主要有:1) 溶解氧(DO):衡量水體的自凈能力(傳感器網(wǎng)絡(luò)自動(dòng)采集);2)溫度:水溫隨著天氣的變化(傳感器網(wǎng)絡(luò)自動(dòng)采集);3) PH值:反映水質(zhì)的酸堿程度(傳感器網(wǎng)絡(luò)自動(dòng)采集);4)氨氮:代表水中營養(yǎng)性污染物的含量(手持傳感器手動(dòng)采集);5)氧化還原電位(ORP):水溶液氧化還原能力的測量指標(biāo)(手持傳感器手動(dòng)采集);6)當(dāng)前環(huán)境因素(天氣,水體環(huán)境狀況)。其中1-250條記錄為訓(xùn)練樣本,251-300條記錄為測試樣本數(shù)據(jù)。通過建立各種模型來尋求一套最合適的評價(jià)方法,預(yù)測準(zhǔn)確率較高的模型。
基于水質(zhì)評價(jià)量化指標(biāo)抽取DO、PH、NH、SD等四個(gè)關(guān)鍵指標(biāo),建立水體環(huán)境質(zhì)量評價(jià)量化模型,實(shí)現(xiàn)水質(zhì)智能化識別。依據(jù)依照《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》(GB3838-2002)中規(guī)定,地面水使用目的和保護(hù)目標(biāo),中國地面水分五大類:Ⅰ類—主要適用于源頭水,國家自然保護(hù)區(qū);Ⅱ類— 主要適用于集中式生活飲用水、地表水源地一級保護(hù)區(qū),珍稀水生生物棲息地,魚蝦類產(chǎn)卵場,仔稚幼魚的索餌場等;Ⅲ類— 主要適用于集中式生活飲用水、地表水源地二級保護(hù)區(qū),魚蝦類越冬、回游通道,水產(chǎn)養(yǎng)殖區(qū)等漁業(yè)水域及游泳區(qū);本文取前三類水質(zhì)進(jìn)行研究,對水質(zhì)進(jìn)行實(shí)時(shí)預(yù)測、分類和仿真。
3.1 利用決策樹建立模型
利用決策樹算法建立數(shù)據(jù)流,快速建立整體數(shù)據(jù)流圖,決策樹的核心算法采用C&RT模型算法。此算法的優(yōu)點(diǎn)是可以啟用交互會(huì)話作為模型的構(gòu)建選項(xiàng),生成的模型之前可以編輯樹,使用專家模式可以使用生成樹和修剪樹。
SD<=9.8且PH>6.75為III類水質(zhì);當(dāng)9.8
通過樣本數(shù)據(jù)建立了決策樹模型,從250-300條記錄測試數(shù)據(jù)使用此模型,得到以下結(jié)果,預(yù)測結(jié)果準(zhǔn)確率為76%,方差為0.021,標(biāo)準(zhǔn)差為0.144,均值標(biāo)準(zhǔn)誤0.02。
3.2 利用BP神經(jīng)網(wǎng)絡(luò)建立模型
使用數(shù)據(jù)挖掘軟件,應(yīng)用BP神經(jīng)網(wǎng)絡(luò)算法的水質(zhì)評價(jià)預(yù)測模型,輸入變量是基于水質(zhì)評價(jià)量化指標(biāo)DO、PH、NH、SD,建立水體環(huán)境質(zhì)量評價(jià)量化模型,實(shí)現(xiàn)水質(zhì)智能化識別。使用1-250條記錄為訓(xùn)練樣本數(shù)據(jù),251-300記錄為測試樣本數(shù)據(jù)。
如圖3所示,BP神經(jīng)網(wǎng)絡(luò)模型根據(jù)DO、PH、NH、SD等四個(gè)關(guān)鍵指標(biāo)的含量來判斷水質(zhì)處于哪個(gè)級別。通過樣本數(shù)據(jù)建立了神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型,從250-300條記錄測試數(shù)據(jù)使用此模型,得到結(jié)果,預(yù)測結(jié)果準(zhǔn)確率為68.852%,方差為0.103,標(biāo)準(zhǔn)差為0.321,均值標(biāo)準(zhǔn)誤0.045。
3.3 構(gòu)建預(yù)測Logistic回歸模型
使用數(shù)據(jù)挖掘軟件,應(yīng)用Logistic回歸算法來構(gòu)建水質(zhì)評價(jià)預(yù)測模型,輸入變量是基于水質(zhì)評價(jià)量化指標(biāo)DO、PH、NH、SD,建立水體環(huán)境質(zhì)量評價(jià)量化模型,實(shí)現(xiàn)水質(zhì)智能化識別。使用1-250條記錄為訓(xùn)練樣本數(shù)據(jù),251-300記錄為測試樣本數(shù)據(jù)。
如圖4所示,Logistic回歸算法模型根據(jù)DO、PH、NH、SD等四個(gè)關(guān)鍵指標(biāo)的含量來判斷水質(zhì)處于哪個(gè)級別。通過樣本數(shù)據(jù)建立了神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型,從250-300條記錄測試數(shù)據(jù)使用此模型,得到結(jié)果,預(yù)測結(jié)果準(zhǔn)確率為70%,方差為0.011,標(biāo)準(zhǔn)差為0.105,均值標(biāo)準(zhǔn)誤0.015。
3.4 利用RBF神經(jīng)網(wǎng)絡(luò)建立模型
使用數(shù)據(jù)挖掘軟件,應(yīng)用RBF神經(jīng)網(wǎng)絡(luò)算法的水質(zhì)評價(jià)預(yù)測模型,輸入變量是基于水質(zhì)評價(jià)量化指標(biāo)DO、PH、NH、SD,建立水體環(huán)境質(zhì)量評價(jià)量化模型,實(shí)現(xiàn)水質(zhì)智能化識別。使用1-250條記錄為訓(xùn)練樣本數(shù)據(jù),251-300記錄為測試樣本數(shù)據(jù)。測試結(jié)果與誤差,其中預(yù)測誤差中,準(zhǔn)確率為88.23%,錯(cuò)誤率為11.76%,Kappa統(tǒng)計(jì)為0.7692,平均絕對誤差0.11,均方根誤差為0.2291。從結(jié)果來看該模型的自學(xué)能力較強(qiáng),模型精度高,誤差范圍小,適合水質(zhì)預(yù)測評價(jià)模型的需要。
通過以上數(shù)據(jù)比較分析,RBF神經(jīng)網(wǎng)絡(luò)算法的預(yù)測效果明顯優(yōu)于決策樹算法、Logistic回歸算法和BP神經(jīng)網(wǎng)絡(luò)算法。RBF神經(jīng)網(wǎng)絡(luò)通過多次模型的學(xué)習(xí)來完善算法模型,RBF神經(jīng)網(wǎng)絡(luò)快速收斂的特性使得它非常適合水質(zhì)預(yù)測模型的建立,并且可以進(jìn)一步跟蹤探索水質(zhì)變化過程中的規(guī)律。而決策樹算法和Logistic回歸無論是從對樣本的要求上,還是從預(yù)測的精度來說都不具備神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),所以,應(yīng)用結(jié)果表明,利用RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行水質(zhì)預(yù)測是可行的,可為水質(zhì)模擬預(yù)測提供一種有效的新方法,建議在水質(zhì)預(yù)測中推廣和應(yīng)用。
參考文獻(xiàn):
[1] 王海英,曹晶.基于L-M神經(jīng)網(wǎng)絡(luò)優(yōu)化算法的池塘水色判別系統(tǒng)的初步建立[J].漁業(yè)現(xiàn)代化,2010,37(5):19-21.
[2] 申艷.BP神經(jīng)網(wǎng)絡(luò)在河流水質(zhì)評價(jià)中的應(yīng)用[J].中國科技縱橫,2011(9):68-69.
[3] 胡海清,周小麗,宋毅. LM-BP神經(jīng)網(wǎng)絡(luò)在水質(zhì)預(yù)測的應(yīng)用[J].微型電腦應(yīng)用,2011,27(9):44-46.
[4] 王冬生,李世華,周杏鵬. 基于PSO-RBF神經(jīng)網(wǎng)絡(luò)模型的原水水質(zhì)評價(jià)方法及應(yīng)用[J].東南大學(xué)學(xué)報(bào):自然科學(xué)版,2011,41(5):1019-1023.endprint