• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      預測造紙廢水出水指標的隨機森林建模方法

      2019-09-11 06:49:34劉鴻斌
      中國造紙 2019年8期
      關鍵詞:決策樹建模變量

      辛 辰 劉鴻斌,2,*

      (1.南京林業(yè)大學林業(yè)資源高效加工利用協(xié)同創(chuàng)新中心,江蘇南京,210037;2.華南理工大學制漿造紙工程國家重點實驗室,廣東廣州,510640)

      在造紙廢水處理工藝中,往往需要根據出水指標來及時調整工藝條件,達到對污水的安全排放。然而考慮到造紙廢水處理過程中大多包含具有時變性與復雜性的化學過程,傳統(tǒng)化學成分檢測儀表存在價格高昂、維護成本高以及檢測不靈敏等缺點。近年來,基于數據驅動的軟測量建模方法可通過建立輸入與輸出數據的關系來完成易測變量對難測變量的預測[1],也可以對造紙廢水處理過程中出現的故障進行檢測[2],因而得到廣泛的應用。

      常見的軟測量建模方法有人工神經網絡(Artificial Neural Networks,ANN)、支持向量回歸(Support Vector Regression,SVR)、偏最小二乘法(Partial Least Squares,PLS)[3]。PLS具有克服變量相關性和噪聲干擾等優(yōu)點,因此PLS在工業(yè)生產過程中應用較廣,但該方法屬于線性方法,對于具備典型非線性特征的造紙廢水處理過程,其預測精度明顯下降?;诖?,楊浩等人[4]在PLS的基礎上研究改進得到了遞歸偏最小二乘法(RPLS),有效地提高了模型的預測精度。ANN模型的工作方式類似于人腦神經元處理信息的方式[5],Zeng等人[6]提出將ANN預測模型應用于造紙廢水處理過程。李曉東等人[7]利用ANN模型對城市廢水排放量進行了預測研究。雖然ANN對于預測過程中的非線性特征具備較強的解釋能力,但該方法也存在一定的缺點。如為了得到最好的網絡結構,需要通過大量的排列組合去尋優(yōu);網絡權值在線調整比較困難,可能出現訓練過早結束,權值衰退現象[8];此外,模型的過擬合問題也難以避免[9]。相比ANN模型,SVR模型在輸入數據中有選擇的尋找有限向量,比ANN對全體樣本迭代計算速度快[10]。汪瑤等人[11]通過粒子群優(yōu)化算法對SVR模型進行參數優(yōu)化,優(yōu)化后的模型相比ANN模型預測精度顯著提高。張世峰等人[12]以溶解氧為控制對象,提出一種支持向量機(SVM)與PID結合的復合控制系統(tǒng)。支持向量機模型除了可以用于預測真實數據外,還可以在已知故障分類下預測數據的故障類型[13]。但當樣本離散程度較高且樣本數過少時,模型難以有效還原總體的全部信息,預測精度不高[14]。

      隨機森林(Random Forest,RF)模型是由Leo Breiman與Adele Cutler在2001年提出的一種統(tǒng)計學習模型[15],是一種結合Bagging和隨機選擇特征的高效新型的組合方法,廣泛用于樣本數據的分類和回歸預測。相比于上述機器學習模型,RF模型泛化能力更強,在不結合其他優(yōu)化方法的前提下仍有較高的預測精度,且建模過程中需要調整的參數較少。RF模型在金融學、生物學、醫(yī)學、電力通信領域中有著廣泛的應用[16-18],但在廢水出水指標預測方面并未得到應用。因此,本課題應用RF模型對出水化學需氧量(COD)與出水固形物含量(SS)進行預測并分析預測效果,同時對比了ANN、SVR、PLS方法的預測效果。

      1 RF模型建模原理和評價指標

      1.1 建模原理

      RF模型由K棵決策樹{h=(X,θK),K=1,2,…,k}組成,其中{θK,K=1,2,…,k}是一個隨機變量序列。當模型用于分類時,RF模型中的決策樹使用分類樹(一般使用C4.5),最終通過少數服從多數的原則決定分類結果,當模型用于回歸預測時,決策樹使用回歸樹(一般用CART),最終將所有決策樹輸出值的平均值作為預測結果[15]。RF模型最大的優(yōu)勢便是其多樣性,依照集成學理論來說,基學習器的多樣性越強,其泛化能力就越好。RF模型的隨機思想主要體現在以下兩方面。

      (1)Bagging思想[15]

      在原始訓練集中,利用Bootstrap抽樣方法有放回地抽取若干個大小相同的數據集樣本。原始訓練集中每個樣本未被抽到的概率為(1-1/N)N,所以當N足夠大時,(1-1/N)N將收斂于1/e≈0.368。這部分占比接近37%的數據即為袋外數據,使用這些袋外數據可以對已有模型進行檢驗。于是,每棵決策樹對應一個誤差率,即OOB(out-of-bag)誤差率,根據誤差率可進一步優(yōu)化模型。

      (2)隨機特征思想[19]

      為保證RF模型的隨機性最大化,每棵樹在節(jié)點分裂的過程中,都會從所有特征中選出最優(yōu)特征作為參考指標。對于RF模型而言,如果選擇過少的特征,則會導致模型的精度降低。如果選擇的特征過多,則會弱化模型在分裂節(jié)點處的隨機性[20]。本課題采用基尼指數(Gini)[21]作為選擇依據選出最佳特征數。

      1.2 RF模型的建模步驟

      (1)在原始訓練集S中,通過Bootstrap重抽樣的方法取出n個數據集樣本,然后將每個數據集樣本分為抽中樣本即袋內數據(in-bag)和未被抽中樣本即袋外數據(out-of-bag)。

      (2)從樣本的所有屬性中隨機抽取m個屬性,根據Gini指標進行節(jié)點分裂,用袋內數據訓練構建CART樹。在構建的過程中不進行修剪,使得每一棵CART樹充分地生長。

      (3)用未參與建模的袋外數據去檢驗對應的CART樹,通過袋外數據的預測誤差確定最佳決策樹數量。

      (4)利用建好的模型去預測測試集中的新數據,將所有CART樹的預測結果平均值作為最終的預測結果。

      RF模型建模流程圖如圖1所示。

      1.3 預測模型的性能評價指標

      實驗引入相關系數(r)、平均絕對百分比誤差(MAPE)與均方根誤差(RMSE)作為模型評價指標,通過對比其他預測模型,發(fā)現RF模型在預測性能方面有明顯優(yōu)勢。其中r越大,MAPE與RMSE越小,表明模型的預測效果越好,對應的計算公式如公式(1)所示。

      圖1 隨機森林建模流程

      式中,yt為測量值,為模型預測值分別為yt與的平均值。

      2 實驗過程與結果

      2.1 造紙廢水數據分析

      實驗通過利用如圖2所示的某造紙廢水處理廠的170組樣本數據進行研究,每組數據包括8個變量,分別為:廢水總流量Q、進水懸浮固形物含量SSin、溫度T、進水化學需氧量CODin、pH值、溶解氧含量DO、出水化學需氧量CODeff、出水懸浮固形物含量SSeff。將CODeff、SSeff作為預測模型的輸出變量,Q、SSin、CODin、pH值、T、DO作為輸入變量。按照時間先后的順序,將前120組數據作為訓練集樣本,后50組數據作為測試樣本,建立RF回歸模型,確立預測變量與其影響變量之間的非線性關系。

      圖2 造紙廢水處理過程數據

      2.2 RF模型及其對比模型的建立

      2.2.1 RF模型的建立

      建模的主要函數為R語言中randomForest包中的randomForest函數。該函數中需要尋優(yōu)的主要參數有2個,分別為決策樹的棵數n_tree與樹節(jié)點的變量個數m_try,其默認參數分別為n_tree=500,m_try=M/3(M為變量總個數)。參數的可調范圍分別為n_tree∈[1,500],m_try∈[1,M]??紤]到較少的決策樹使得模型效果無法完全發(fā)揮,模型錯誤率偏高,而較多的決策樹則會提升模型復雜程度,使得模型訓練與預測速度下降,并有可能出現輕微的過擬合現象。本課題通過調用R語言自帶函數plot對模型錯誤率與決策樹數量的關系可視化處理如圖3所示。由圖3可知,RF模型中樹的棵數n_tree取200時,OOB(out-of-bag)誤差波動已經趨于穩(wěn)定,即實驗可以選用n_tree=200。選出最優(yōu)決策樹棵數后繼續(xù)做了補充驗證實驗,即不斷增加決策樹的棵數到500棵并觀察模型預測效果。結果表明,模型預測效果變化不明顯甚至有輕微下降的趨勢,證明了決策樹最優(yōu)棵數為200。樹節(jié)點預選的變量數m_try根據基尼指數選取最優(yōu)值,基尼指數越大表明樣本屬于某類的不確定性就越大。因為本次實驗數據的變量個數較少,所以依次計算了不同變量數對應的基尼指數,基尼指數最小時對應的節(jié)點變量數為m_try=4。為了進一步驗證所選的節(jié)點變量數為最優(yōu)變量數,后續(xù)補充實驗分別用m_try=1、m_try=2、m_try=3、m_try=5、m_try=6進行建模,觀察模型最后的預測效果即相關系數(r)、平均絕對百分比誤差(MAPE)與均方根誤差(RMSE)等指標,結果同樣表明當m_try=4時,預測效果最好。

      圖3 模型錯誤率與決策樹數量關系圖

      2.2.2 對比模型的建立

      建立3種對比模型前先需要將數據標準化處理,之后用前120組數據進行建模,后50組數據用來檢驗預測效果。SVR模型所利用的主要程序包為R語言中的rminer包,其中模型參數選用SVM。ANN模型建模所利用的程序包主要為AMORE包。通過大量的實驗選出構建模型的最佳參數為:模型的網絡總層數為3層,包含1個輸入層、1個隱含層和1個輸出層,其中輸入層節(jié)點數為6,隱含層節(jié)點數為2,輸出層節(jié)點數為1,隱含層采用tansig激活函數,輸出層采用purelin激活函數。根據赤池信息量準則,PLS模型最終選擇了3個與預測變量相關度最大的自變量作為輸入變量,分別為CODin、SSin、DO。

      2.3 結果與討論

      經過模型的建立及后續(xù)的優(yōu)化后,表1列出了RF模型與其他3種模型的預測結果。對測試集CODeff的預測效果進行比較,相關性方面,RF模型對應的r為 0.7954,ANN、SVR、PLS,對應的r分別為0.6936、0.7183、0.7305;誤差方面,RF模型對應的RMSE與MAPE最小,分別為4.2471和5.2606,相比于ANN、SVR、PLS,其RMSE與MAPE分別降低了19.18%和7.55%、19.20%和15.75%、12.06%和7.67%。對測試集SSeff的預測效果進行比較,相關性方面,RF模型對應的r為0.8551,ANN、SVR、PLS對應的r分別為0.6538、0.6882、0.7408;誤差方面,RF模型對應的RMSE與MAPE最小,分別為0.6687和 2.0633,相比于 ANN、SVR、PLS,其RMSE與MAPE分別降低了20.69%和26.21%、17.03%和29.83%、17.35%和28.60%。

      表1 不同模型對CODeff和出水SSeff的預測結果

      總體而言,RF模型在預測精準度方面都優(yōu)于其他3種常用的回歸預測模型,圖4為RF模型對CODeff和SSeff的預測效果圖。

      RF模型比其他3種模型預測效果好的主要原因在于RF模型的泛化能力更強,實驗中所用到的RF模型包含200棵決策樹,而每棵決策樹的生長只利用了訓練集中的一部分樣本,同時只抽取樣本屬性中的部分屬性。采用該方法極大地提高了決策樹的多樣性,弱化了各棵決策樹的相關性。同時,RF模型需要調整的主要參數只有2個,即決策樹的棵數與樹節(jié)點預選的變量個數,且易于尋找最優(yōu)參數。

      圖4 RF模型對SSeff和CODeff的預測結果

      相比之下,雖然ANN模型具有較強的非線性擬合能力,但在構建模型的過程中,所要考慮的參數種類過多,在初始值、動量因子、網絡結構、節(jié)點個數等參數方面沒有統(tǒng)一規(guī)范的尋優(yōu)方法,嘗試通過原理推導或實驗結果比較進行尋找最優(yōu)參數是一件耗時費力的工作,往往會出現訓練集預測效果較好,但測試集預測效果時好時壞的情況,容易出現過擬合現象,模型的泛化能力一般。SVR雖然相比于ANN過擬合現象得到了弱化,但根據實驗預測效果來看并不是很理想,想要進一步提升預測效果還需要在原始模型上增添優(yōu)化函數。PLS模型預測效果雖然比ANN模型與SVR模型好,但其線性模型的本質限制了它進一步優(yōu)化的空間,且實驗結果證明PLS模型只適合選擇3個自變量作為輸入變量,并不能充分地利用收集到的數據所蘊含的信息。

      ANN、SVR、PLS在進行預測前,也都需要對數據進行標準化處理,實驗中統(tǒng)一用z-score方法標準化,目的就是為了在建模過程中讓不同的自變量具有相同的尺度,對因變量的影響程度基本相同。RF模型與上述3種方法相比省去了這一步驟,因為每棵決策樹的生成過程都是依次用到部分自變量,所以不同尺度的自變量之間互不影響。

      3 結論

      本課題分別采用隨機森林(RF)模型、偏最小二乘(PLS)模型、支持向量回歸(SVR)模型與人工神經網絡(ANN)模型對造紙廢水中的CODeff與SSeff指標進行了回歸預測。

      3.1 通過與其他3種模型的預測結果比較得出:基于隨機森林回歸模型的預測效果最好,預測值與真實值之間不僅相關性更高,且誤差更小,泛化能力更強。

      3.2 隨機森林回歸模型相比其他3種模型,數據無需標準化處理,尋找最優(yōu)參數時所要調整的參數較少且容易尋優(yōu),易于進一步的推廣。

      猜你喜歡
      決策樹建模變量
      抓住不變量解題
      聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃鲋凶鰣A周運動”為例
      也談分離變量
      一種針對不均衡數據集的SVM決策樹算法
      基于PSS/E的風電場建模與動態(tài)分析
      電子制作(2018年17期)2018-09-28 01:56:44
      決策樹和隨機森林方法在管理決策中的應用
      電子制作(2018年16期)2018-09-26 03:27:06
      不對稱半橋變換器的建模與仿真
      基于決策樹的出租車乘客出行目的識別
      SL(3,3n)和SU(3,3n)的第一Cartan不變量
      基于肺癌CT的決策樹模型在肺癌診斷中的應用
      达州市| 邓州市| 平泉县| 上高县| 赤水市| 鹿泉市| 宝丰县| 揭阳市| 延长县| 巴里| 枝江市| 株洲市| 曲沃县| 达孜县| 虹口区| 乐昌市| 石景山区| 朝阳区| 确山县| 墨玉县| 宁蒗| 吉安县| 虎林市| 织金县| 台前县| 名山县| 芦山县| 瑞昌市| 湟中县| 山阳县| 融水| 南康市| 蛟河市| 裕民县| 任丘市| 孙吴县| 耿马| 新津县| 建宁县| 谷城县| 健康|