李 佟, 李 軍
(1.北京工業(yè)大學(xué)建筑工程學(xué)院, 北京 100124;2.北京城市排水集團(tuán)有限責(zé)任公司, 北京 100124)
?
基于數(shù)據(jù)挖掘技術(shù)的污泥厭氧消化模擬研究
李 佟1,2, 李 軍1
(1.北京工業(yè)大學(xué)建筑工程學(xué)院, 北京 100124;2.北京城市排水集團(tuán)有限責(zé)任公司, 北京 100124)
為了更好地模擬實(shí)際工程中污泥厭氧消化系統(tǒng)的產(chǎn)氣效果,以北京某大型污泥厭氧消化工程為例,以大量的工程數(shù)據(jù)為基礎(chǔ),分別采用多元線性回歸模型、神經(jīng)網(wǎng)絡(luò)模型、分類回歸模型和鄰近算法模型等數(shù)據(jù)挖掘技術(shù),對系統(tǒng)的產(chǎn)沼氣效率進(jìn)行了模擬預(yù)測,其中鄰近算法模型具有最好的擬合效果. 對鄰近算法模型進(jìn)行進(jìn)一步研究分析,通過交叉驗(yàn)證法近一步優(yōu)化了模型k值的選取,從測試結(jié)果可以看出隨著k值增加,訓(xùn)練集的擬合度先下降后趨于平穩(wěn),測試集的擬合度則相反. 最終確定當(dāng)k值取5時,模型預(yù)測值與實(shí)際值的相關(guān)度達(dá)0.862,優(yōu)于系統(tǒng)默認(rèn)參數(shù)下的擬合效果. 試驗(yàn)證明:數(shù)據(jù)挖掘技術(shù)可以很好地應(yīng)用于污泥厭氧消化工程的模擬計(jì)算,對于數(shù)學(xué)模擬在污水處理領(lǐng)域的應(yīng)用具有一定指導(dǎo)意義.
數(shù)學(xué)模型;數(shù)據(jù)挖掘;k最鄰近算法;污泥厭氧消化
污泥厭氧消化是指兼性菌和厭氧菌在無氧條件下將污泥中的可生物降解有機(jī)物分解成二氧化碳、甲烷和水的過程[1-2],因其具有減少污泥體積、殺滅病原細(xì)菌、改善污泥脫水性能、產(chǎn)生沼氣能源等優(yōu)點(diǎn),所以作為城鎮(zhèn)大型污水處理廠的主流工藝一直被廣泛應(yīng)用. 由于污泥厭氧消化過程包含了生物、化學(xué)、物理等各種復(fù)雜反應(yīng)[3],因此要對其進(jìn)行完全精準(zhǔn)的數(shù)學(xué)模擬有很大難度.
目前國內(nèi)已有的相關(guān)研究大多是建立在機(jī)理模型基礎(chǔ)上的,例如周芳[4]利用國際水協(xié)的厭氧消化1號數(shù)學(xué)模型(ADM1),對鄭州王新莊污水處理廠厭氧消化工程運(yùn)行進(jìn)行了模擬研究,取得了較好的效果. 然而在實(shí)際工程運(yùn)行中,整體系統(tǒng)的最終運(yùn)行效果是由多方面因素綜合作用而成的,機(jī)理模型并未將生物反應(yīng)以外的影響因素考慮在內(nèi),因此在一定程度上會造成偏差.
數(shù)據(jù)挖掘技術(shù)是一種很好的數(shù)據(jù)分析手段,已被廣泛應(yīng)用于生物信息學(xué)、制造業(yè)和能源等工程科技領(lǐng)域[5-8],國外已有一些針對厭氧消化過程的數(shù)據(jù)挖掘應(yīng)用研究[9-11]. 例如Cakmakci[12]將自適應(yīng)模糊神經(jīng)網(wǎng)絡(luò)系統(tǒng)(adaptive neuro-fuzzy inference system)應(yīng)用于污水處理廠污泥厭氧消化模擬預(yù)測,并取得了很好的效果;Holubar等[13]通過BP神經(jīng)網(wǎng)絡(luò)模擬預(yù)測厭氧消化過程中的沼氣產(chǎn)率,并通過測定沼氣中甲烷的質(zhì)量分?jǐn)?shù)、產(chǎn)氣速率、pH、揮發(fā)性懸浮物(volatile suspended solids,VSS)質(zhì)量濃度等參數(shù),得出了實(shí)現(xiàn)最大產(chǎn)氣量的工藝控制策略,而國內(nèi)在這方面的研究還比較少.
本文以北京某大型污泥厭氧消化工程為例,以大量的工程數(shù)據(jù)為基礎(chǔ),摸索采用數(shù)據(jù)挖掘技術(shù)對厭氧消化工藝過程進(jìn)行模擬研究. 在本研究中,筆者分別采用了多元線性回歸模型、神經(jīng)網(wǎng)絡(luò)模型、分類回歸模型和鄰近算法模型等數(shù)據(jù)挖掘技術(shù),對厭氧消化系統(tǒng)的產(chǎn)沼氣效率進(jìn)行了模擬預(yù)測. 通過對比,找出了具有最好擬合效果的模型,并通過交叉驗(yàn)證法近一步優(yōu)化了該模型的參數(shù)取值,使得該模型有了更好的擬合效果.
1.1 污泥厭氧消化工程介紹
本研究在北京某大型污水處理廠內(nèi)開展,該廠設(shè)計(jì)污水處理能力100萬m3/d,其污泥處理部分采用中溫兩級厭氧消化工藝,消化后的污泥經(jīng)脫水后再進(jìn)一步處置,消化產(chǎn)生的沼氣主要用于發(fā)電,沼氣發(fā)電機(jī)的熱水又可作為消化污泥加熱的熱源回收利用,具體工藝流程圖及設(shè)計(jì)參數(shù)如圖1和表1所示.
參數(shù)名稱參數(shù)值一級消化池/座12二級消化池/座4池體形式圓柱形消化池直徑/m20單池容積/m37850消化池設(shè)計(jì)進(jìn)泥量/(m3·d-1)4400設(shè)計(jì)進(jìn)泥含水率/%94污泥投配率/%3.6消化池設(shè)計(jì)溫度/℃35設(shè)計(jì)沼氣產(chǎn)量/(m3·d-1)44000
1.2 厭氧消化基本原理
有機(jī)物的厭氧消化過程,即在特定的厭氧條件下,在兼性厭氧菌、專性厭氧菌等微生物的共同作用下,有機(jī)質(zhì)被生物降解成CH4和CO2的過程,厭氧消化又被稱為厭氧發(fā)酵. 根據(jù)不同類別微生物作用類型和階段,厭氧消化反應(yīng)過程又被劃分為不同的階段. 一般認(rèn)為,厭氧消化的總過程被分為水解、發(fā)酵、產(chǎn)氧產(chǎn)乙酸以及產(chǎn)甲烷4個階段.
厭氧消化系統(tǒng)中的微生物種類繁多,主要分為產(chǎn)甲烷菌和非產(chǎn)甲烷菌兩大類,它們彼此之間關(guān)系復(fù)雜,既有互利共生關(guān)系也有競爭關(guān)系,但正是由于各種微生物相互協(xié)同,彼此之間發(fā)生著一系列的生物化學(xué)偶聯(lián)反應(yīng),才最終產(chǎn)生了甲烷. 影響厭氧消化系統(tǒng)的因素非常多,例如溫度、厭氧環(huán)境、pH、脂肪酸等條件的變化,都會對厭氧消化產(chǎn)甲烷效果產(chǎn)生影響.
1.3 運(yùn)行數(shù)據(jù)及參數(shù)分析
本研究所用數(shù)據(jù)取自該廠2013年1月1日至12月31日的實(shí)際生產(chǎn)數(shù)據(jù),共計(jì)365組. 每組數(shù)據(jù)包含10個參數(shù),其中有進(jìn)泥量、溫度、含水率、脂肪酸等8個測量值和有機(jī)負(fù)荷、停留時間等2個計(jì)算值,具體見表2.
從表2可以看出,消化系統(tǒng)的進(jìn)泥量和沼氣產(chǎn)量變化范圍非常大,這是因?yàn)樵摃r期內(nèi)因工藝調(diào)整,消化系統(tǒng)經(jīng)歷了短暫的停運(yùn)和恢復(fù)啟動過程,這恰好為系統(tǒng)建模提供了更加全面良好的訓(xùn)練數(shù)據(jù)樣本.
表2中包含了厭氧消化工藝運(yùn)行中常用的幾種主要控制參數(shù). 厭氧微生物對溫度變化非常敏感,溫度稍有波動便會對系統(tǒng)產(chǎn)生不良影響,造成產(chǎn)氣量的下降. 因此,在厭氧消化過程中,保持溫度穩(wěn)定非常重要;揮發(fā)性脂肪酸(volatile fatty acids,VFA)是厭氧消化過程中重要的中間產(chǎn)物,大部分沼氣是由VFA在產(chǎn)甲烷菌的作用下形成的,消化過程中VFA過高或過低都會對系統(tǒng)產(chǎn)生不利影響,因此出泥VFA是厭氧系統(tǒng)重要的控制指標(biāo)之一;有機(jī)負(fù)荷是由進(jìn)泥量、進(jìn)泥含水率等指標(biāo)計(jì)算而得,它反映了厭氧消化系統(tǒng)處理有機(jī)物的能力,對系統(tǒng)運(yùn)行效率和穩(wěn)定性都有重要影響.
表2 消化系統(tǒng)主要工藝參數(shù)及化驗(yàn)數(shù)據(jù)
除以上指標(biāo)外,影響厭氧消化運(yùn)行效果的因素還有很多,例如pH、堿度、氨氮、基質(zhì)營養(yǎng)比例、基質(zhì)顆粒尺寸、沼氣組分、消化池?cái)嚢栊Ч? 這其中很多指標(biāo)對于建立機(jī)理模型來說是必不可少的,但在實(shí)際工程中卻并沒有積累大量數(shù)據(jù)可供利用. 而數(shù)據(jù)挖掘技術(shù)的優(yōu)勢之一便是無須掌握所有參數(shù),只要利用現(xiàn)有數(shù)據(jù)便可建立與目標(biāo)的關(guān)系模型,這非常適用于實(shí)際工程.
2.1 模擬工具
本研究計(jì)算工具采用IBM公司開發(fā)的SPSS MODELER軟件,它提供了一組功能強(qiáng)大的數(shù)據(jù)挖掘工具,包括各種借助機(jī)器學(xué)習(xí)、人工智能和統(tǒng)計(jì)學(xué)的建模方法. 主要功能包括對數(shù)據(jù)進(jìn)行預(yù)處理、訓(xùn)練、模型評估、預(yù)測、誤差分析等,具有界面友好、兼容性強(qiáng)、數(shù)據(jù)處理方法豐富等優(yōu)點(diǎn).
2.2 數(shù)據(jù)挖掘模型介紹
本研究分別采用多元線性回歸、神經(jīng)網(wǎng)絡(luò)、分類回歸樹和鄰近算法等4種最常用的模型來進(jìn)行分析對比.
2.2.1 多元線性回歸模型(multivariable linear regression model,MLR)
該模型是以統(tǒng)計(jì)學(xué)為理論基礎(chǔ),用2個或2個以上的變量來解釋因變量的一種模型,是多元統(tǒng)計(jì)分析中的一個重要方法,被廣泛應(yīng)用于眾多自然科學(xué)領(lǐng)域的研究中.
多元線性回歸模型的建立:
假設(shè)某一因變量y受k個自變量x1,x2,…,xk的影響,其n組觀測值為(ya,x1a,x2a,…,xka),a=1,2,…,n. 那么,多元線性回歸模型的結(jié)構(gòu)形式為
ya=β0+β1x1a+β2x2a+…+βkxka+εa
(1)
式中:β0,β1,…,βk為待定參數(shù);εa為隨機(jī)變量. 如果b0,b1,…,bk分別為β0,β1,…,βk的擬合值,則回歸方程為
(2)
式中:b0為常數(shù);b1,b2,…,bk稱為偏回歸系數(shù).
2.2.2 神經(jīng)網(wǎng)絡(luò)模型(neural networks,NN)
該模型是由大量的、簡單的處理單元(稱為神經(jīng)元)廣泛地互相連接而形成的復(fù)雜網(wǎng)絡(luò)系統(tǒng),是一個高度復(fù)雜的非線性學(xué)習(xí)系統(tǒng),具有大數(shù)量、分散性存儲和處理、自組織、自適應(yīng)和自學(xué)能力,特別適合處理要包含很多影響因子的條件的過程,并且適合信息量很大的數(shù)據(jù)處理過程.
神經(jīng)元是一個多輸入單輸出的信息處理單元,它對信息的處理是非線性的. 根據(jù)神經(jīng)元的特性和功能,可以把神經(jīng)元抽象為一個簡單的數(shù)學(xué)模型,如圖2所示.
圖2中X1,X2,…,Xn是神經(jīng)元的輸入,即來自前級n個神經(jīng)元的軸突的信息;Σ是i神經(jīng)元的閾值;Wi1,Wi2,…,Win分別是i神經(jīng)元對X1,X2,…,Xn的權(quán)系數(shù),也即突觸的傳遞效率;Yi是i神經(jīng)元的輸出;f[·]是激發(fā)函數(shù),它決定i神經(jīng)元受到輸入X1,X2,…,Xn的共同刺激達(dá)到閥值時以何種方式輸出.
從神經(jīng)元模型可以得到神經(jīng)元的數(shù)學(xué)模型表達(dá)式為
(3)
2.2.3 分類回歸樹算法(classification and regression tree,C&RT)
該模型是基于統(tǒng)計(jì)理論的非參數(shù)的識別技術(shù),具有非常強(qiáng)大的統(tǒng)計(jì)解析功能,而且處理后的結(jié)果所包含的規(guī)則明白易懂. 它的主要原理是利用了二叉樹的結(jié)構(gòu)特點(diǎn),使根節(jié)點(diǎn)包含全部樣本,并且按照規(guī)定的規(guī)則,將根節(jié)點(diǎn)分割為2個子節(jié)點(diǎn),以此類推在子節(jié)點(diǎn)上繼續(xù)重復(fù)進(jìn)行,成為一個回歸過程,直至不可再分成為葉節(jié)點(diǎn)為止.
假設(shè)樣本空間X包含2類樣本(A、B類),C&RT將之作為根節(jié)點(diǎn),按照一定規(guī)則進(jìn)行分割,產(chǎn)生2個節(jié)點(diǎn),即子集X1、X2滿足X=X1∪X2,且X1∩X2=?. 這個過程回歸地對X1、X2重復(fù)進(jìn)行,直至按照某種標(biāo)準(zhǔn),節(jié)點(diǎn)無法再分,成為最終的葉節(jié)點(diǎn),而這些葉節(jié)點(diǎn)所表示的數(shù)據(jù)子空間的特征決定了它們屬于哪一類樣本(A或B類). 在同一棵樹上,若干葉節(jié)點(diǎn)可以有相同的類別標(biāo)志,故最終的分類結(jié)果是相同類別標(biāo)志的葉節(jié)點(diǎn)的并集,最終整個空間X=XA∪XB,如圖3所示.
2.2.4 鄰近算法(k-nearest neighbor,kNN)
該模型是一個應(yīng)用較為廣泛,原理和技術(shù)比較成熟的算法,同時相對于其他模型也更為簡單易懂. 其基本原理是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性,具體的算法步驟如下:
1) 根據(jù)特征項(xiàng)集合描述訓(xùn)練數(shù)據(jù).
2) 在新數(shù)據(jù)進(jìn)入后,根據(jù)特征向量確定新數(shù)據(jù)的向量表示.
3) 在訓(xùn)練數(shù)據(jù)集中選出與新數(shù)據(jù)最相似的k個數(shù)據(jù),計(jì)算公式為
(4)
式中k值的確定目前沒有很好的方法,一般采用先定一個初始值,然后根據(jù)實(shí)驗(yàn)測試的結(jié)果調(diào)整k值,一般初始值定為幾百到幾千之間.
4)在新數(shù)據(jù)的k個鄰居中,依次計(jì)算每類的權(quán)重,計(jì)算公式為
(5)
2.3 模型參數(shù)設(shè)置
為了取得滿意的模擬效果,就必須對每種模型進(jìn)行參數(shù)設(shè)置. 本研究首先需要選定一個適用的模型,在此過程中所有模型設(shè)置都采用系統(tǒng)默認(rèn)參數(shù),在選定適合模型后,再對該模型的參數(shù)進(jìn)行近一步優(yōu)化設(shè)置,本研究中4種模型的部分參數(shù)設(shè)置值見表3.
2.4 模擬結(jié)果分析
采用該廠穩(wěn)定運(yùn)行一年的365組數(shù)據(jù),將數(shù)據(jù)分為訓(xùn)練集和測試集,其中255組數(shù)據(jù)用于模型的訓(xùn)練,110組數(shù)據(jù)用于模型驗(yàn)證,4種模型的擬合結(jié)果分別見圖4~7.
從圖中可以看出,采用4種模型均能較好地模擬厭氧消化的產(chǎn)氣過程,為了更好地評價各模型的應(yīng)用效果,分別統(tǒng)計(jì)計(jì)算各模擬結(jié)果的平均絕對誤差(MAE)、標(biāo)準(zhǔn)差(MSE)和相關(guān)系數(shù)(Correlation coefficient)(見表4).
表3 模型設(shè)置參數(shù)
從表4可以看出,4種模型模擬結(jié)果的平均絕對誤差在1 553~1 940,相對誤差在12.7%~10.1%,其中除MLR算法外,其余算法與實(shí)際沼氣產(chǎn)量的誤差均為±10%. 從工藝控制角度看,系統(tǒng)受生物反應(yīng)速率、儀器儀表精度以及各種其他外部條件影響,很難完全達(dá)到預(yù)期的調(diào)控值. 結(jié)合筆者的實(shí)際經(jīng)驗(yàn),認(rèn)為10%的模擬誤差在工藝控制和工程上都是可以接受的.
從各誤差值及相關(guān)系數(shù)綜合來看,MLR模型的準(zhǔn)確率最低,kNN模型最高. 下面則以kNN模型為例進(jìn)行進(jìn)一步分析研究.
kNN分類法的具體算法及實(shí)現(xiàn)步驟為:
表4 4種算法的模擬誤差對比
1) 構(gòu)建分類結(jié)構(gòu)體系,設(shè)定相應(yīng)的類別,在本例中共包含進(jìn)泥量、進(jìn)泥含水率、進(jìn)泥有機(jī)物、進(jìn)泥脂肪酸、出泥含水率、出泥脂肪酸、消化池溫度、沼氣產(chǎn)量等8類指標(biāo).
2) 針對當(dāng)前待分類別特點(diǎn),優(yōu)選對象特征,通過邏輯運(yùn)算符將選取特征組合,建立特征空間,如圖8所示.
3) 對于當(dāng)前待分類別,不同類別交互式選取相應(yīng)的訓(xùn)練樣本,在特征空間中逐一計(jì)算待分類對象與類別的最小距離.
在實(shí)際厭氧消化工程運(yùn)行中,系統(tǒng)絕大部分時期是處于穩(wěn)定狀態(tài)的,其沼氣產(chǎn)量的變化并不大,只有當(dāng)運(yùn)行異常時,才會產(chǎn)生較大的波動. 因此,污泥厭氧消化樣本的相近或重復(fù)很多. 而kNN模型的算法驅(qū)動主要是靠目標(biāo)樣本周圍的鄰近樣本特征而定的,并非采用判別類域等方法,因此對于上述樣本近似或重復(fù)的情況來說,kNN模型具有一定的優(yōu)勢.
2.5 kNN模型參數(shù)優(yōu)化
kNN算法的k值選擇將直接影響模擬結(jié)果,因?yàn)閗NN算法的核心思想是如果一個樣本在特征空間中的k個最相似的樣本中的大多數(shù)屬于某個類別,則該樣本也屬于這個類別,即k代表了所要選取的最相似樣本的個數(shù).k選擇過小,得到的近鄰數(shù)過少,會降低分類精度,同時也會放大噪聲數(shù)據(jù)的干擾;k選擇過大,在選擇k個近鄰的時候,并不相似的數(shù)據(jù)亦被包含進(jìn)來,造成噪聲增加而導(dǎo)致分類效果的降低.
對于k的選擇,一般依靠經(jīng)驗(yàn)或者交叉驗(yàn)證(一部分樣本做訓(xùn)練集,一部分做測試集). 在本研究中,采用k值交叉驗(yàn)證的方法來確定最佳參數(shù),即初始取一個比較小的k,通過不斷調(diào)整k的大小來找出最優(yōu)化的分類,此時得到的k就是最佳參數(shù). 在測試時,一般k取奇數(shù)為佳.
測試結(jié)果如圖9所示,可以看出隨著k值增加,訓(xùn)練集的擬合度先下降后趨于平穩(wěn),測試集的擬合度則相反.kNN的模型復(fù)雜度主要由k決定,k值越小,復(fù)雜度越高,訓(xùn)練準(zhǔn)確度越高,但過度擬合的模型并不能保證實(shí)際測試的準(zhǔn)確率也高. 一般來說,測試集的準(zhǔn)確率在模型過復(fù)雜和過簡單時都比較低,唯有通過試驗(yàn)才能選出最適合的值. 在本例中,當(dāng)k取5時,測試集相關(guān)度為0.862——優(yōu)于系統(tǒng)默認(rèn)參數(shù)(k=4)下的模擬效果,因此最終模型k取5.
1) 本文研究了數(shù)據(jù)挖掘技術(shù)在污泥厭氧消化工程中的實(shí)際應(yīng)用,分別采用多元線性回歸模型、神經(jīng)網(wǎng)絡(luò)模型、分類回歸模型和鄰近算法模型對污泥厭氧消化的產(chǎn)氣效果進(jìn)行了模擬預(yù)測,結(jié)果表明數(shù)據(jù)挖掘技術(shù)可以很好地應(yīng)用于污泥厭氧消化過程模擬,具有一定實(shí)際應(yīng)用價值.
2) 通過對4種模型的誤差對比分析可以看出,采用kNN算法模擬污泥厭氧消化過程具有更好的精度和準(zhǔn)確性. 該算法對于類域的交叉或重疊較多的待分樣本集來說,較其他方法更為適合,這符合實(shí)際厭氧消化工程運(yùn)行的數(shù)據(jù)樣本特點(diǎn).
3) 通過交叉驗(yàn)證法對kNN模型的參數(shù)進(jìn)行近一步優(yōu)化,確定k取5時的模擬效果最優(yōu)化. 而應(yīng)用于其他數(shù)據(jù)樣本時,還需對k參數(shù)值的選取進(jìn)行重新評估.
[1] LETTINGA G. Anaerobic digestion and wastewater treatment systems [J]. Biomedical and Life Sciences, 1995, 67(1): 3-28.
[2] 任南琪. 厭氧生物技術(shù)原理與應(yīng)用[M]. 北京: 化學(xué)工業(yè)出版社, 2004: 23-24.
[3] BATSTONE D, KELLER J, ANGELIDAKI I, et al. The IWA anaerobic digestion model No1 (ADM1) [M]. Queensland: Water Science and Technology, 2002: 65-73.
[4] 周芳. 應(yīng)用厭氧消化模擬技術(shù)對某污水廠消化池運(yùn)行的分析[D]. 天津:天津大學(xué), 2014. ZHOU FANG. Analysis on the operation of an anaerobic digester in a wastewater treatment plant with the anaerobic digestion simulation[D]. Tianjin: Tianjin University, 2014. (in chinese)
[5] KUSIAK A, LI M Y. Cooling output optimization of an air handling unit [J]. Applied Energy, 2010, 87(3): 901-909.
[6] FRANK E, HALL M, TRIGG L, et al. Data mining in bioinformatics using Weka[J]. Bioinformatics, 2004, 20(15): 2479- 2481.
[7] KUSIAK A, ZHENG H Y, SONG Z. Wind farm power prediction: a data-mining approach [J]. Wind Energy, 2009, 12(3): 275-293.
[8] SECKIN N. Modeling flood discharge at ungauged sites across Turkey using neuro-fuzzy and neural networks [J]. Journal of Hydroinformatics, 2011, 13(4): 842-849.
[9] SCHUBERT J, SIMUTIS R, DORS M. Bioprocess optimization and control: application of hybrid modeling [J]. Journal of Biotechnology, 1994, 35(1): 51-68.
[10] TAY J H, ZHANG X. Neural fuzzy modeling of anaerobic biological wastewater treatment systems [J]. ASCE Journal of Environmental Engineering, 1999, 125(12): 149-159.
[11] SOTEMANN S W, RISTOW N E, WENTZEL M C, et al. A steady state model for anaerobic digestion of sewage sludge [J]. Water S A, 2005, 31(4): 511-527.
[12] CAKMAKCI M. Adaptive neuro-fuzzy modeling of anaerobic digestion of primary sedimentation sludge [J]. Bioprocess and Biosystems Engineering, 2007, 30(5): 349-357.
[13] HOLUBAR P, ZANI L. Modeling of anaerobic digestion using self-organizing maps and artificial neural networks[J]. Water Science and Technology, 2000, 41(12): 149-156.
(責(zé)任編輯 呂小紅)
Simulation Research of Sewage Sludge Anaerobic Digestion Based on Data Mining Technology
LI Tong1,2, LI Jun2
(1.College of Architecture and Civil Engineering, Beijing University of Technology, Beijing 100124, China; 2. Beijing Drainage Group CO., LTD., Beijing 100022, China)
This research was based on a large sludge anaerobic digestion project in Beijing, using a large number of engineering data. The multiple linear regression model, the neural network model, the classification and regression model andknearest neighbor model to was adopted fit the system biogas production to simulate the biogas production of sluge anaerobic digestion system in practical engineering. Results show that the kNN model has the best fitting effect. For further kNN model analysis, cross validation error statistics selection method was used to determin the bestkvalue. From the test results, it can be seen that with the increase ofkvalue, the fitting degree of the training set first decreases and then tends to be stable, and the fitting degree of the test set was the opposite. Finally, when thekvalue was 5, the correlation between the model predictive value and the actual value was 0.862, which is better than the fitting effect of the system’s default parameters. The research shows that the data mining technology can be applied to the simulation of sludge anaerobic digestion very well, and has certain guiding significance for the application of mathematical simulation in the field of wastewater treatment.
mathematical model; data mining;knearest neighbor algorithm; sludge anaerobic digestion
2015- 07- 23
國家水體污染控制與治理科技重大專項(xiàng)資助項(xiàng)目(2014ZX07201- 001)
李 佟(1982—), 男, 工程師, 主要從事污水深度處理、污水處理模擬技術(shù)等方面的研究, E-mail: ltong@bdc.cn
U 461;TP 308
A
0254-0037(2016)12-1888-07
10.11936/bjutxb2015070092