許玉格,鄧文凱,陳立定
?
基于核函數(shù)的加權(quán)極限學(xué)習(xí)機(jī)污水處理在線(xiàn)故障診斷
許玉格,鄧文凱,陳立定
(華南理工大學(xué)自動(dòng)化科學(xué)與工程學(xué)院,廣東 廣州510640)
污水生化處理中的運(yùn)行故障會(huì)引起出水水質(zhì)不達(dá)標(biāo)、運(yùn)行費(fèi)用增高和環(huán)境二次污染等嚴(yán)重問(wèn)題,需要及時(shí)準(zhǔn)確地對(duì)運(yùn)行故障進(jìn)行診斷??紤]到污水處理過(guò)程運(yùn)行狀態(tài)數(shù)據(jù)的不平衡性造成故障診斷準(zhǔn)確率下降,提出了一種基于核函數(shù)的加權(quán)極限學(xué)習(xí)機(jī)污水處理過(guò)程實(shí)時(shí)在線(xiàn)故障診斷方法。該方法以極限學(xué)習(xí)機(jī)為基礎(chǔ),采用加權(quán)的方式處理數(shù)據(jù)的不平衡特性,通過(guò)核函數(shù)的非線(xiàn)性映射來(lái)提高數(shù)據(jù)線(xiàn)性可分的程度。仿真實(shí)驗(yàn)證明,本文建立的污水處理在線(xiàn)故障診斷模型在線(xiàn)測(cè)試精度高,泛化性能好,模型在線(xiàn)更新速度快,能夠比較好地滿(mǎn)足準(zhǔn)確性和實(shí)時(shí)性,實(shí)現(xiàn)對(duì)污水處理過(guò)程的在線(xiàn)故障診斷。
加權(quán)極限學(xué)習(xí)機(jī);核函數(shù);在線(xiàn)建模;污水處理;故障診斷;仿真實(shí)驗(yàn)
引 言
污水處理是一個(gè)復(fù)雜的、影響因素非常多的生化過(guò)程,污水處理廠(chǎng)難以保持長(zhǎng)期穩(wěn)定的運(yùn)行,發(fā)生故障容易引起出水水質(zhì)不達(dá)標(biāo)、運(yùn)行費(fèi)用增高和環(huán)境二次污染等嚴(yán)重問(wèn)題[1],所以需要對(duì)污水處理廠(chǎng)運(yùn)行狀態(tài)進(jìn)行在線(xiàn)監(jiān)控,診斷出運(yùn)行故障并及時(shí)處理。污水處理過(guò)程的故障診斷數(shù)據(jù)具有明顯的分布不均衡特征,即正常運(yùn)行狀態(tài)的樣本數(shù)量遠(yuǎn)遠(yuǎn)多于故障狀態(tài)的樣本數(shù)量。采用傳統(tǒng)的機(jī)器學(xué)習(xí)方法建立故障診斷模型,往往容易使分類(lèi)準(zhǔn)確率偏向于多數(shù)類(lèi),使得少數(shù)類(lèi)(故障類(lèi))的分類(lèi)準(zhǔn)確率偏低。然而在實(shí)際應(yīng)用中,故障類(lèi)的錯(cuò)分代價(jià)更高,因此針對(duì)具有不平衡性特征的污水處理系統(tǒng),在保持正常運(yùn)行狀態(tài)識(shí)別率的同時(shí),提高故障類(lèi)的識(shí)別正確率顯得尤為重要。
近年來(lái),國(guó)內(nèi)外學(xué)者在污水生化處理的故障診斷領(lǐng)域中取得了許多科研成果。例如,De La Fuente等[2]利用信號(hào)頻率的信息以及反向傳播神經(jīng)網(wǎng)絡(luò)用于污水處理的故障診斷;施漢昌等[3]開(kāi)發(fā)了用于診斷城市污水處理廠(chǎng)日常運(yùn)行的專(zhuān)家系統(tǒng);陸林花[4]利用聚類(lèi)算法制定污水故障規(guī)則,建立污水處理工藝故障診斷系統(tǒng)知識(shí)庫(kù);范昕煒等[5]采用基于粗糙集理論的支持向量機(jī)算法來(lái)實(shí)現(xiàn)污水處理過(guò)程的故障診斷。以上研究成果均未考慮污水診斷數(shù)據(jù)的不平衡性特征。到目前為止,針對(duì)污水的不平衡特征展開(kāi)的研究還很少見(jiàn)到,錢(qián)云[6]提出一種基于神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)相結(jié)合的方法,處理污水處理故障診斷中的不平衡特征,提高了故障類(lèi)的識(shí)別率,但是故障診斷的性能,尤其是故障類(lèi)的識(shí)別率,還有待進(jìn)一步提升。
對(duì)于污水生化處理的故障診斷,現(xiàn)有技術(shù)存在一定的局限性,神經(jīng)網(wǎng)絡(luò)容易陷入局部最優(yōu),且有過(guò)擬合及收斂速度慢的缺點(diǎn);專(zhuān)家系統(tǒng)存在知識(shí)獲取瓶頸問(wèn)題,若建立的專(zhuān)家知識(shí)庫(kù)不完備,則有可能導(dǎo)致推理混亂;粗糙集理論在處理異常或噪聲數(shù)據(jù)方面常常會(huì)顯得無(wú)能為力,并且在建立模型時(shí)需要大量的數(shù)據(jù)樣本[7-8];支持向量機(jī)受到核函數(shù)必須滿(mǎn)足Mercer條件和懲罰參數(shù)及不敏感參數(shù)計(jì)算量過(guò)大等限制,并且隨著訓(xùn)練樣本數(shù)的增加,訓(xùn)練時(shí)間會(huì)變長(zhǎng)[9];相關(guān)向量機(jī)(relevance vector machine,RVM)[9]雖然比SVM模型更為稀疏,核函數(shù)不需要滿(mǎn)足 Mercer 條件,并且模型中的自由參數(shù)數(shù)量更少,但是其計(jì)算復(fù)雜度大,所需內(nèi)存開(kāi)銷(xiāo)大,在此基礎(chǔ)上,Tipping等[10]引入了快速邊界似然算法(fast variable relevance vector machine,F(xiàn)ast RVM),雖然提高了其計(jì)算的速度,但是基本的Fast RVM能夠直接處理的對(duì)象都是兩類(lèi)模式分類(lèi)問(wèn)題,在處理多分類(lèi)問(wèn)題時(shí),必須采用多個(gè)Fast RVM分類(lèi)器組合的分類(lèi)方法,如“一對(duì)多”、“一對(duì)一”等多分類(lèi)方法[11-12],隨著待分類(lèi)別的增加,其訓(xùn)練時(shí)間同樣也會(huì)增加。
針對(duì)污水?dāng)?shù)據(jù)不平衡特征和污水處理在線(xiàn)故障診斷對(duì)于準(zhǔn)確性與實(shí)時(shí)性要求,本文提出采用一種基于核函數(shù)的加權(quán)極限學(xué)習(xí)機(jī)(kernel-based weighted extreme learning machine,K-WELM)的方法對(duì)污水處理過(guò)程進(jìn)行在線(xiàn)故障診斷建模。該方法通過(guò)對(duì)不同數(shù)量的樣本類(lèi)進(jìn)行加權(quán)恢復(fù)樣本類(lèi)間的平衡性,結(jié)合核函數(shù)將線(xiàn)性不可分的模式進(jìn)行非線(xiàn)性映射到高維特征空間,增加其線(xiàn)性可分的程度,進(jìn)一步提高分類(lèi)的準(zhǔn)確率,利用極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)[13]學(xué)習(xí)過(guò)程中無(wú)須反復(fù)調(diào)整參數(shù),可將傳統(tǒng)單隱層前饋神經(jīng)網(wǎng)絡(luò)參數(shù)訓(xùn)練問(wèn)題轉(zhuǎn)化為求解線(xiàn)性方程組,加快在線(xiàn)學(xué)習(xí)速度,從而實(shí)現(xiàn)對(duì)污水處理廠(chǎng)運(yùn)行狀態(tài)實(shí)時(shí)準(zhǔn)確地監(jiān)測(cè),并通過(guò)仿真實(shí)驗(yàn)驗(yàn)證了其性能。
1 基于核函數(shù)的加權(quán)極限學(xué)習(xí)機(jī)污水處理在線(xiàn)故障診斷模型
圖書(shū)館館服是職業(yè)裝的一種,又稱(chēng)工作服,是為讀者服務(wù)工作需要而特制的服裝。館服在設(shè)計(jì)時(shí)需根據(jù)圖書(shū)館性質(zhì)的要求,從服裝的色彩、面料、款式、造型、搭配等多方面考慮,提供最佳設(shè)計(jì)方案,為圖書(shū)館打造富有內(nèi)涵及品位的全新館員職業(yè)形象。高職院校圖書(shū)館館員做為學(xué)校產(chǎn)學(xué)研的服務(wù)者,自身形象體現(xiàn)為行為舉止、音容笑貌、儀容儀表等方面,隨著時(shí)代的發(fā)展,他們不再是傳統(tǒng)觀(guān)念上的圖書(shū)搬運(yùn)工和勤雜工,而是集知識(shí)收集、分類(lèi)、整理、加工和傳播者,是服務(wù)于讀者的公眾人物,其儀表形象直接反響讀者對(duì)圖書(shū)館形象直觀(guān)印象。統(tǒng)一館服使得館員可以有全面的精神面貌,展示圖書(shū)館的良好形象,提升圖書(shū)館館員的服務(wù)水平。
1.1 基于核函數(shù)的加權(quán)極限學(xué)習(xí)機(jī)
極限學(xué)習(xí)機(jī)采用單隱層前饋神經(jīng)網(wǎng)絡(luò)(single-hidden layer feedforward networks,SLFN)的框架,給定個(gè)污水處理故障診斷訓(xùn)練樣本,,含有個(gè)節(jié)點(diǎn)的標(biāo)準(zhǔn)SLFN輸出模型可以表示如下
可將式(2)表示為
其中
當(dāng)激活函數(shù)無(wú)限可微時(shí),SLFN參數(shù)不需要全部進(jìn)行調(diào)整,輸入鏈接權(quán)重和隱藏層偏置在網(wǎng)絡(luò)參數(shù)初始化的過(guò)程中隨機(jī)選定,并且在訓(xùn)練過(guò)程中保持不變,那么訓(xùn)練SLFN就等價(jià)于求解線(xiàn)性系統(tǒng)的最小二乘解。由隱藏層神經(jīng)元輸出的Moore-Penrose廣義逆矩陣[14]可解得
采用正交投影法(KKT)[15]可以有效地對(duì)求解,當(dāng)或?yàn)榉瞧娈惥仃嚨那闆r時(shí)或。為了使所得到的模型獲得更好的穩(wěn)定性和泛化性能,在求解時(shí)需要對(duì)或?qū)蔷€(xiàn)元素加上一個(gè)足夠小的正值1/,可以得到
相應(yīng)的輸出函數(shù)為
或者當(dāng)
相應(yīng)的ELM的輸出函數(shù)為
為了更好地處理不平衡數(shù)據(jù),對(duì)每個(gè)樣本進(jìn)行加權(quán),使得屬于不同類(lèi)的樣本獲得不同的權(quán)值,最終求解隱藏層輸出權(quán)重可表示為
通常有兩種加權(quán)方案,一種是自動(dòng)加權(quán)方案
另一種加權(quán)方案的思想是將少數(shù)類(lèi)和多數(shù)類(lèi)的比例向著0.618:1的方向推進(jìn),實(shí)質(zhì)上,這種方法是在通過(guò)犧牲多數(shù)類(lèi)的分類(lèi)精度來(lái)?yè)Q取對(duì)少數(shù)類(lèi)的識(shí)別準(zhǔn)確率
這里核函數(shù)需要滿(mǎn)足Mercer條件,那么根據(jù)式(10)可以將輸出表達(dá)式(7)寫(xiě)成
其中,為單位矩陣,為正規(guī)化系數(shù),為加權(quán)矩陣,為輸出層矩陣,為核矩陣。
綜上可知,基于核函數(shù)的加權(quán)極限學(xué)習(xí)機(jī)訓(xùn)練算法的流程為:
(1)根據(jù)加權(quán)方案賦予每個(gè)樣本權(quán)值,計(jì)算加權(quán)矩陣;
1.2 污水處理在線(xiàn)故障診斷建模步驟
污水處理過(guò)程通過(guò)污水歷史數(shù)據(jù)集建立的在線(xiàn)診斷模型對(duì)新的觀(guān)測(cè)數(shù)據(jù)進(jìn)行分類(lèi)決策,然后更新歷史數(shù)據(jù)集,重新訓(xùn)練模型,等待下一次分類(lèi)決策。記污水歷史數(shù)據(jù)集,新觀(guān)測(cè)數(shù)據(jù)為,污水處理在線(xiàn)故障診斷建模步驟如下:
(2)選取核函數(shù)和加權(quán)方案,根據(jù)最優(yōu)模型確定模型參數(shù);
在線(xiàn)故障診斷建??傮w流程如圖1所示。
圖1 基于核函數(shù)的加權(quán)極限學(xué)習(xí)機(jī)污水在線(xiàn)故障診斷建模流程
2 仿真實(shí)驗(yàn)與結(jié)果分析
2.1 性能指標(biāo)
污水處理的故障診斷通常是一個(gè)多分類(lèi)的問(wèn)題,基于混淆矩陣分析的方法是評(píng)價(jià)一個(gè)分類(lèi)器性能好壞的最直接的方法,多分類(lèi)問(wèn)題的混淆矩陣[6]如表1所示。
表1 多分類(lèi)問(wèn)題的混淆矩陣
在多分類(lèi)問(wèn)題上,G-mean定義為所有類(lèi)的召回率的幾何平均值,計(jì)算公式如下
每類(lèi)的召回率表示的是每個(gè)類(lèi)別的分類(lèi)準(zhǔn)確率??偡诸?lèi)準(zhǔn)確率是全部類(lèi)別分類(lèi)正確的個(gè)數(shù)與總樣本個(gè)數(shù)的比值。G-mean是在使每類(lèi)的分類(lèi)準(zhǔn)確率都盡可能大的同時(shí),保持每個(gè)類(lèi)別之間的平衡,是用來(lái)評(píng)價(jià)不平衡數(shù)據(jù)集上分類(lèi)器性能的一個(gè)重要指標(biāo),與總分類(lèi)準(zhǔn)確率相比,更加客觀(guān)和科學(xué)。因此本文采用G-mean作為衡量污水不平衡數(shù)據(jù)故障診斷的主要性能指標(biāo),每類(lèi)的召回率、總的分類(lèi)準(zhǔn)確率以及離線(xiàn)訓(xùn)練時(shí)間或整體在線(xiàn)測(cè)試時(shí)間作為仿真實(shí)驗(yàn)的輔助性能指標(biāo)。
2.2 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)仿真的數(shù)據(jù)來(lái)自加州大學(xué)數(shù)據(jù)庫(kù)(UCI),是一個(gè)污水處理廠(chǎng)的日常監(jiān)控?cái)?shù)據(jù),整個(gè)數(shù)據(jù)集包括不完整記錄在內(nèi)一共有527個(gè)記錄,每個(gè)樣本維數(shù)為38,全部屬性值都完整記錄的有380個(gè),被監(jiān)測(cè)的水體一共有13種狀態(tài),各個(gè)狀態(tài)用數(shù)字代替。527個(gè)記錄在13種狀態(tài)下的分布情況見(jiàn)表2。
表2 13種監(jiān)測(cè)狀態(tài)的數(shù)據(jù)分布
為了簡(jiǎn)化分類(lèi)的復(fù)雜度,根據(jù)樣本類(lèi)別的性質(zhì),將樣本分為4大類(lèi),見(jiàn)表3。
表3 4種檢測(cè)狀態(tài)下的數(shù)據(jù)分布
表3中,類(lèi)別1為正常情況,類(lèi)別2為性能超過(guò)平均值的正常情況,類(lèi)別3為進(jìn)水流量低的正常情況,類(lèi)別4為二沉池故障、暴雨引起的非正常狀態(tài)和固體溶度過(guò)負(fù)荷等原因引起的故障情況。正常情況的類(lèi)別1樣本的個(gè)數(shù)比較多,屬于多數(shù)類(lèi);而類(lèi)別3和類(lèi)別4由于樣本個(gè)數(shù)比較少,故屬于少數(shù)類(lèi),經(jīng)過(guò)數(shù)據(jù)類(lèi)別的化簡(jiǎn),4類(lèi)樣本的分布比例為23.7:8.3:4.6:1,樣本集具有典型的不平衡特征。
2.3 參數(shù)分析
對(duì)于K-WELM的離線(xiàn)建模和在線(xiàn)建模,其參數(shù)選擇主要包括兩方面,一是加權(quán)方案,二是核函數(shù)。對(duì)于加權(quán)方案的選取,首先選取徑向基核函數(shù),然后分別選取第1節(jié)中的1和2的兩種加權(quán)方案進(jìn)行離線(xiàn)建模測(cè)試,得到的測(cè)試結(jié)果如圖2所示,其中“R X acc”表示的是類(lèi)別X的分類(lèi)正確率,“train acc”表示訓(xùn)練分類(lèi)正確率,“test acc”表示測(cè)試分類(lèi)正確率,“G-mean”表示所有類(lèi)的召回率的幾何平均值,“train time”表示訓(xùn)練時(shí)間,“test time”表示測(cè)試時(shí)間,1和2分別表示第1種和第2種加權(quán)方式。
從圖2可知,對(duì)于第1節(jié)提出的1和2的兩種加權(quán)方案來(lái)建立K-WELM的污水診斷的離線(xiàn)模型的效果實(shí)際上差不多,不管從分類(lèi)準(zhǔn)確率上還是訓(xùn)練或測(cè)試的時(shí)間上都相差不多,不過(guò)對(duì)于污水不平衡數(shù)據(jù)來(lái)說(shuō),1的加權(quán)方案的G-mean值更高,會(huì)更加適合污水故障診斷。
圖2 兩種加權(quán)方案離線(xiàn)建模的結(jié)果
對(duì)于核函數(shù)的選取,一般有下面幾種常用的核函數(shù)。
(1)徑向基(RBF)核函數(shù)
(2)線(xiàn)性核函數(shù)
(3)階多項(xiàng)式核函數(shù)
(4)Sigmoid核函數(shù)
考慮到階多項(xiàng)式核函數(shù)的參數(shù)為兩個(gè),要比RBF核函數(shù)多,且當(dāng)多項(xiàng)式的階數(shù)比較高時(shí),核矩陣的元素值將趨于無(wú)窮大或無(wú)窮小,會(huì)增加數(shù)值的計(jì)算困難;而Sigmoid核函數(shù)必須在某些特定條件下才滿(mǎn)足對(duì)稱(chēng)、半正定的核函數(shù)條件,并且有兩個(gè)參數(shù)要選取,其應(yīng)用上受到一定的限制。所以先選取1的加權(quán)方式,分別選取RBF核函數(shù)和線(xiàn)性核函數(shù)進(jìn)行離線(xiàn)建模測(cè)試,得到的測(cè)試結(jié)果如圖3所示,其中“RBF”表示徑向基核函數(shù),“l(fā)inear”表示線(xiàn)性核函數(shù)。
從圖3可知,對(duì)于分別采用RBF核函數(shù)和線(xiàn)性核函數(shù)來(lái)建立K-WELM的污水診斷的離線(xiàn)模型,RBF核函數(shù)的K-WELM模型分類(lèi)準(zhǔn)確率比線(xiàn)性核函數(shù)的要高,雖然訓(xùn)練時(shí)間和測(cè)試時(shí)間比線(xiàn)性核函數(shù)要多,但是均足夠小,所以選用RBF核函數(shù)更適合。綜上分析,本文基于核函數(shù)的加權(quán)極限學(xué)習(xí)機(jī)的污水故障診斷的建模采用1加權(quán)方案和RBF核函數(shù)。
圖3 兩種核函數(shù)離線(xiàn)建模的結(jié)果
2.4 污水故障診斷的離線(xiàn)仿真實(shí)驗(yàn)
故障診斷的目的就是對(duì)污水處理廠(chǎng)的運(yùn)行狀態(tài)進(jìn)行準(zhǔn)確監(jiān)控,及時(shí)處理異常情況。仿真試驗(yàn)中,首先剔除掉527個(gè)污水?dāng)?shù)據(jù)中147個(gè)屬性不完整的數(shù)據(jù),得到380個(gè)屬性完整數(shù)據(jù),然后將數(shù)據(jù)按式歸一化處理,將處理后的數(shù)據(jù)集按2:1的比例隨機(jī)分層抽樣,得到訓(xùn)練集和測(cè)試集。然后分別對(duì)反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)、支持向量機(jī)(SVM)、相關(guān)向量機(jī)(RVM)、快速相關(guān)向量機(jī)(Fast RVM)、極限學(xué)習(xí)機(jī)(ELM)、核函數(shù)極限學(xué)習(xí)機(jī)(K-ELM)以及本文的基于核函數(shù)的加權(quán)極限學(xué)習(xí)機(jī)(K-WELM)模型分別進(jìn)行離線(xiàn)的建模和分類(lèi)測(cè)試。其中BPNN模型設(shè)計(jì)為3層結(jié)構(gòu),輸入層有38個(gè)節(jié)點(diǎn),輸出層有4個(gè)節(jié)點(diǎn),隱藏層的節(jié)點(diǎn)個(gè)數(shù)用點(diǎn)搜索來(lái)尋找,尋優(yōu)范圍為[1,30],采用5折交叉驗(yàn)證;SVM模型選用RBF函數(shù)作為核函數(shù),懲罰因子和核函數(shù)參數(shù)使用網(wǎng)絡(luò)搜索法在區(qū)間[200,300]和區(qū)間[0,1]內(nèi)5折交叉驗(yàn)證獲得;RVM和Fast RVM模型也采用RBF核函數(shù),核寬度參數(shù)同樣采用5折交叉驗(yàn)證的點(diǎn)搜索方法來(lái)確定,并同樣建立“一對(duì)一”的多分類(lèi)模型;ELM模型選擇Sigmoid函數(shù)為激活函數(shù),隱藏層的節(jié)點(diǎn)個(gè)數(shù)用點(diǎn)搜索在[10,300]內(nèi)5折交叉驗(yàn)證選??;K-ELM模型和K-WELM模型均選用RBF核函數(shù),模型的正規(guī)化系數(shù)和核函數(shù)參數(shù)采用5折交叉驗(yàn)證的網(wǎng)格搜索法,特別的K-WELM模型采用第1種加權(quán)方案。由此保證了模型參數(shù)的合理性、模型的分類(lèi)測(cè)試結(jié)果的可靠性。
其中對(duì)BPNN模型和ELM模型的隱藏層節(jié)點(diǎn)取不同個(gè)數(shù)可以得到不同的訓(xùn)練集的交叉驗(yàn)證準(zhǔn)確率,結(jié)果如圖4、圖5所示。
圖4 BPNN模型不同隱藏層節(jié)點(diǎn)個(gè)數(shù)的驗(yàn)證準(zhǔn)確率
圖5 ELM模型不同隱藏層節(jié)點(diǎn)個(gè)數(shù)的驗(yàn)證準(zhǔn)確率
從圖4、圖5可以得到,BPNN模型在隱藏層節(jié)點(diǎn)個(gè)數(shù)大于4附近之后,交叉驗(yàn)證準(zhǔn)確率上升到92%附近波動(dòng),之后隨著節(jié)點(diǎn)個(gè)數(shù)增大不再有很大變化;ELM模型在隱藏層節(jié)點(diǎn)個(gè)數(shù)為20~40交叉驗(yàn)證準(zhǔn)確率最大,然而并不是隱藏層節(jié)點(diǎn)個(gè)數(shù)越多越好,反而訓(xùn)練數(shù)據(jù)的交叉驗(yàn)證準(zhǔn)確率隨著隱藏層節(jié)點(diǎn)個(gè)數(shù)增大而下降。
每個(gè)模型實(shí)驗(yàn)進(jìn)行10次,取10次實(shí)驗(yàn)測(cè)試精度的平均值對(duì)各分類(lèi)進(jìn)行評(píng)估,7種模型的分類(lèi)測(cè)試結(jié)果如表4所示,“training time”為離線(xiàn)模型訓(xùn)練時(shí)間。從表中可以看出,BPNN模型的第1、第2類(lèi)準(zhǔn)確率比較大,訓(xùn)練時(shí)間比較短,但是第3、第4類(lèi)準(zhǔn)確率卻比較低,雖然總的準(zhǔn)確率不是很差,但是其G-mean值最低,為6.75%;SVM模型將第4類(lèi)準(zhǔn)確率提高一點(diǎn),使得總體準(zhǔn)確率和G-mean值都有所提高;RVM模型提高了第2、第3、第4類(lèi)的準(zhǔn)確率,使得G-mean值提高;Fast RVM模型雖然將第1、第2類(lèi)準(zhǔn)確率提高,但是第3、第4類(lèi)準(zhǔn)確率卻很低,使得G-mean值降低;ELM模型由于將傳統(tǒng)單隱層前饋神經(jīng)網(wǎng)絡(luò)參數(shù)訓(xùn)練問(wèn)題轉(zhuǎn)化為直接求解線(xiàn)性方程組,使得訓(xùn)練時(shí)間大大地減少,G-mean也有所提高,達(dá)到36.87%;K-ELM模型繼承了極限學(xué)習(xí)機(jī)的優(yōu)點(diǎn),同時(shí)通過(guò)核函數(shù)的非線(xiàn)性映射關(guān)系提高樣本的線(xiàn)性可分程度,增加了各類(lèi)的分類(lèi)準(zhǔn)確率,模型訓(xùn)練時(shí)間相對(duì)ELM也有所減少,G-mean值與ELM模型接近;K-WELM模型保持了第1、第2類(lèi)的準(zhǔn)確率,提升了第3、第4類(lèi)的準(zhǔn)確率,使得最終的G-mean的值達(dá)到57.26%,優(yōu)于其他6種模型。在訓(xùn)練時(shí)間上,3種基于ELM的模型都體現(xiàn)了較大優(yōu)勢(shì)。
表4 7種模型的離線(xiàn)分類(lèi)結(jié)果
綜合以上分析,K-WELM的污水處理故障診斷模型性能比其他模型更好,為了對(duì)污水處理過(guò)程運(yùn)行狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)測(cè),并且考慮到狀態(tài)監(jiān)測(cè)的準(zhǔn)確率,所以本文采用基于核函數(shù)的極限學(xué)習(xí)機(jī)的在線(xiàn)故障診斷模型。
2.5 污水故障診斷的在線(xiàn)仿真實(shí)驗(yàn)
2.5.1 一般更新模型方法的在線(xiàn)仿真實(shí)驗(yàn)
污水處理的故障診斷實(shí)際上是一個(gè)連續(xù)的過(guò)程,在線(xiàn)仿真實(shí)驗(yàn)時(shí),需要對(duì)每一組新的數(shù)據(jù)進(jìn)行測(cè)試并加入模型進(jìn)行更新。歷史數(shù)據(jù)集通過(guò)采取限定記憶的方式來(lái)保持其容量。限定記憶是指訓(xùn)練數(shù)據(jù)始終是有限組,每增加一組最新的觀(guān)測(cè)數(shù)據(jù),就隨即丟棄一組最早的觀(guān)測(cè)數(shù)據(jù),從而保證模型中都包含新數(shù)據(jù)的信息,避免歷史所含數(shù)據(jù)信息淹沒(méi)新數(shù)據(jù)所包含的信息[16-17]。
同樣首先將污水?dāng)?shù)據(jù)集做2.4節(jié)同樣處理,將處理后的380組數(shù)據(jù)按2:1的比例進(jìn)行隨機(jī)分層抽樣,得到歷史數(shù)據(jù)集和在線(xiàn)更新測(cè)試集。然后根據(jù)網(wǎng)格搜索法或點(diǎn)搜索方法求取最優(yōu)模型參數(shù),進(jìn)行10次實(shí)驗(yàn),最終求取參數(shù)的一個(gè)平均值作為最優(yōu)模型的參數(shù)。其中BPNN模型的隱藏層節(jié)點(diǎn)數(shù);SVM模型中同樣采用RBF核函數(shù),懲罰因子,核函數(shù)參數(shù);RVM和Fast RVM模型同樣采用RBF核函數(shù),其核函數(shù)參數(shù)都??;ELM模型隱藏層節(jié)點(diǎn)數(shù);K-ELM模型以RBF為核函數(shù),核函數(shù)參數(shù),正規(guī)化系數(shù);K-WELM模型選取RBF核函數(shù)和式(16)的加權(quán)方案,核函數(shù)參數(shù),正規(guī)化系數(shù)。接著用歷史數(shù)據(jù)集對(duì)上述模型分別建立初始的離線(xiàn)分類(lèi)模型,然后分別建立在線(xiàn)故障診斷模型,每次從在線(xiàn)更新測(cè)試集中取個(gè)數(shù)據(jù)進(jìn)行在線(xiàn)更新,同時(shí)去掉歷史數(shù)據(jù)集中前個(gè)數(shù)據(jù),實(shí)驗(yàn)進(jìn)行10次,取10次實(shí)驗(yàn)測(cè)試精度的平均值對(duì)各分類(lèi)進(jìn)行評(píng)估,6種模型的在線(xiàn)分類(lèi)測(cè)試結(jié)果如表5所示,“testing time”為在線(xiàn)測(cè)試時(shí)間。
表5 7種模型的在線(xiàn)分類(lèi)結(jié)果
由表5可知,7種模型中,BPNN的第4類(lèi)分類(lèi)正確率和G-mean都是最低,表明BPNN對(duì)樣本數(shù)據(jù)的依賴(lài)性最強(qiáng)。SVM、Fast RVM、ELM和K-ELM的G-mean比較接近,RVM和K-WELM的G-mean最高。K-WELM的訓(xùn)練時(shí)間比RVM更短。實(shí)驗(yàn)結(jié)果說(shuō)明,本文提出的污水處理在線(xiàn)故障診斷K-WELM模型,與其他6種模型相比,具備更好的分類(lèi)準(zhǔn)確率和快速性。
2.5.2 經(jīng)驗(yàn)更新模型方法的在線(xiàn)仿真對(duì)比實(shí)驗(yàn)
通常污水處理過(guò)程的故障類(lèi)數(shù)據(jù)相對(duì)于正常類(lèi)數(shù)據(jù)要少得多,為了避免每次更新歷史數(shù)據(jù)集時(shí),去掉前個(gè)數(shù)據(jù)后,會(huì)導(dǎo)致少數(shù)類(lèi)樣本的個(gè)數(shù)更少甚至沒(méi)有,從而使得下一次少數(shù)類(lèi)樣本得不到訓(xùn)練,降低少數(shù)類(lèi)的分類(lèi)準(zhǔn)確率,這里采用一種新的更新歷史數(shù)據(jù)集的方法進(jìn)行對(duì)比試驗(yàn)。同2.5.1節(jié)同樣的步驟建立6種在線(xiàn)故障診斷模型,只是在每次歷史數(shù)據(jù)集進(jìn)行在線(xiàn)更新時(shí),并不是直接去掉歷史數(shù)據(jù)集中前個(gè)數(shù)據(jù),而是去掉歷史數(shù)據(jù)集中前個(gè)第1、第2類(lèi)的數(shù)據(jù),這里同樣取,其他實(shí)驗(yàn)步驟與2.5.1節(jié)一樣。7種模型的在線(xiàn)分類(lèi)測(cè)試結(jié)果如表6所示。
表6 7種模型的在線(xiàn)分類(lèi)結(jié)果
從表6可以看出,本文提出的K-WELM在線(xiàn)模型的綜合性能仍然占優(yōu),雖然7種模型的運(yùn)行時(shí)間相對(duì)于2.5.1節(jié)的實(shí)驗(yàn)結(jié)果都稍微有所增加,主要是因?yàn)樵黾恿藢?duì)歷史數(shù)據(jù)更新計(jì)算步驟,但是少數(shù)類(lèi)的分類(lèi)準(zhǔn)確率、總的分類(lèi)準(zhǔn)確率和G-mean值卻都有所提高。因此,在對(duì)污水處理過(guò)程進(jìn)行在線(xiàn)故障診斷建模時(shí),可以根據(jù)污水?dāng)?shù)據(jù)的先驗(yàn)情況,選擇具體的模型更新方式,更好地提高在線(xiàn)診斷的分類(lèi)準(zhǔn)確率。K-WELM在線(xiàn)模型在計(jì)算時(shí)間上的優(yōu)勢(shì),為該方法在其他對(duì)實(shí)時(shí)性要求比較高的工業(yè)領(lǐng)域中進(jìn)行應(yīng)用提供了可能性。
3 結(jié) 論
污水生化處理過(guò)程復(fù)雜,一旦發(fā)生故障會(huì)引起出水水質(zhì)不達(dá)標(biāo)、運(yùn)行費(fèi)用增高和環(huán)境二次污染等嚴(yán)重問(wèn)題,必須對(duì)污水處理廠(chǎng)運(yùn)行狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)控。針對(duì)以上問(wèn)題,根據(jù)污水處理過(guò)程運(yùn)行狀態(tài)數(shù)據(jù)的不平衡性特點(diǎn),本文提出一種基于核函數(shù)的加權(quán)極限學(xué)習(xí)機(jī)的在線(xiàn)故障診斷方法,該方法采用加權(quán)的方式處理數(shù)據(jù),通過(guò)核函數(shù)的非線(xiàn)性映射來(lái)提高數(shù)據(jù)線(xiàn)性可分的程度,并利用極限學(xué)習(xí)機(jī)的學(xué)習(xí)速度快的特點(diǎn)進(jìn)行污水處理的在線(xiàn)建模。通過(guò)與其他模型仿真實(shí)驗(yàn)對(duì)比得知,該方法建立的污水處理在線(xiàn)故障診斷模型學(xué)習(xí)速度快,泛化性能好,有效避免了局部收斂,在線(xiàn)測(cè)試精度高,能夠比較好地滿(mǎn)足準(zhǔn)確性和實(shí)時(shí)性,從而實(shí)現(xiàn)了對(duì)污水處理過(guò)程的在線(xiàn)故障診斷。
References
[1] 胡俊剛, 胡雪梅. 城鎮(zhèn)污水處理廠(chǎng)運(yùn)營(yíng)現(xiàn)狀及自動(dòng)化控制的應(yīng)用 [J]. 武漢理工大學(xué)學(xué)報(bào), 2002, 11 (24): 66-69.
HU R G, HU X M. Management and automatically control in water treatment [J]. Journal of Wuhan University of Technology, 2002, 11 (24): 66-69.
[2] DE LA FUENTE M J, VEGA P. A Neural networks based approach for fault detection and diagnosis: application to a real process [C]// Proceedings of the 4th IEEE Conference on Control Applications (CCA 1995). 1995: 188-193.
[3] 施漢昌, 王玉玨. 污水處理廠(chǎng)故障診斷專(zhuān)家系統(tǒng) [J]. 給水排水, 2001, 27 (8): 88-90.
SHI H C, WANG Y J. Diagnostic expert system for WTTP [J]. Water & Water Engineering, 2001, 27 (8): 88-90.
[4] 陸林花. 聚類(lèi)算法及其在污水處理工藝故障診斷中的應(yīng)用研究 [D]. 重慶: 重慶大學(xué), 2007.
LU L H. Research on clustering algorithms and its application of the fault diagnosis of wastewater treatment process [D]. Chongqing: Chongqing University, 2007.
[5] 范昕煒, 杜樹(shù)新, 吳鐵軍. 粗SVM分類(lèi)方法及其在污水處理過(guò)程中的應(yīng)用 [J]. 控制與決策, 2004, 19 (5): 573-576.
FAN X W, DU S X, WU T J. Rough support vector machine and its application to wastewater treatment processes [J]. Control and Decision. 2004, 19 (5): 573-576.
[6] 錢(qián)云. 非均衡數(shù)據(jù)分類(lèi)算法若干應(yīng)用研究 [D]. 長(zhǎng)春: 吉林大學(xué), 2014.
QIAN Y. Research on application of classification algorithms for imbalanced data [D]. Changchun: Jilin University, 2014.
[7] LEE H J, AHN B S, PARK Y M. A fault diagnosis expert system for distribution substations [J]. IEEE Trans. on Power Delivery, 2000, 15 (1): 92-97.
[8] 劉成忠, 韓俊英. 基于鄰域粗糙集的支持向量機(jī)在污水處理故障診斷中的應(yīng)用 [J]. 甘肅農(nóng)業(yè)大學(xué)學(xué)報(bào), 2013, 48 (3): 176-180.
LIU C Z, HAN J Y. Application of support vector machine based on neighborhood rough set to sewage treatment fault diagnoses [J]. Journal of Gansu Agricultural University, 2013, 48 (3): 176-180.
[9] TIPPING M E. The relevance vector machine [J]. Advances in Neural Information Processing Systems, 1999, 12 (3): 652-658.
[10] TIPPING M E, FAUL A C. Fast marginal likelihood maximization for sparse bayesian models [C]//Proc. 9thInternational Workshop on Artificial Intelligence and Statistics. Key West, 2003: 3-6.
[11] GALAR M, FERNANDEZ A, BARRENECHEA E,. An over view of ensemble methods for binary classifiers in multi-class problems: experimental study on one-vs-one and one-vs-all schemes [J]. Pattern Recognit, 2011, 44 (8): 1761-1776.
[12] HSU C W, LIN C J. A comparison of methods for multiclass support vector machines [J]. IEEE Trans. Neural Netw., 2002, 3 (2): 415-425.
[13] HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: a new learning scheme of feedforward neural networks [C]//Proceedings of 2004 IEEE International Joint Conference on Neural Networks. 2004: 985-990.
[14] HUANG G B, CHEN L. Convex incremental extreme learning machine [J]. Neurocomputing, 2007, 70 (16/17/18): 3056-3062.
[15] HUANG G B, WANG D H, LAN Y. Extreme learning machines: a survey [J]. International Journal of Machine Learning and Cybernetics, 2011, 2 (2):107-122.
[16] 許繼平, 陳晨, 劉載文, 等. 基于軟測(cè)量理論的BOD在線(xiàn)檢測(cè)儀研究 [J]. 控制工程, 2010, 17 (s1): 90-92.
XU J P, CHEN C, LIU Z W,. Research on BOD online detection instrument based on the theory of soft instrument [J]. Control Engineering of China, 2010, 17 (s1): 90-92.
[17] BUCHGRABER T, SHUTIN D, POOR H V. A sliding-window online fast variable sparse Bayesian learning algorithm [C]//2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2011, 45 (1): 2128-2131.
Online fault diagnosis in wastewater treatment process by kernel-based weighted extreme learning machine
XU Yuge, DENG Wenkai, CHEN Liding
(School of Automation Science and Engineering, South China University of Technology, Guangzhou 510640, Guangdong, China)
Operation faults in biochemical wastewater treatment process often result in serious issues such as effluent water below quality specification, high operation cost, and secondary environmental pollution, therefore spontaneous and accurate diagnoses are required. Considered the poor accuracy of fault diagnosis induced by imbalanced characteristics of the process data in wastewater treatment, a novel online fault diagnostic model for wastewater treatment process was proposed,.., the kernel-based weighted extreme learning machine. Based on extreme learning machine (ELM) theory, weighting scheme was used to resolve the data imbalance and the non-linear mapping of kernel function was used to improve the extent of linear separation. Simulation experiments showed that this online fault diagnostic model has higher measuring precision, better generalization ability, and faster online updating speed, and meet the requirement of accuracy and spontaneity. Therefore, the proposed method can be applied in real-time on-line fault diagnosis in wastewater treatment process.
weighted extreme learning machine; kernel function; on-line modeling; wastewater treatment; fault diagnosis; simulation experiment
supported by the National Natural Science Foundation of China (61473121), Science and Technology Planning Project of Guangdong Province, China (2016A020221008) and Special Project on the Integration of Industry, Education and Research of Guangdong Province (201604010032).
date: 2016-01-27.
XU Yuge, xuyuge@scut.edu.cn
TP 18
A
0438—1157(2016)09—3817—09
10.11949/j.issn.0438-1157.20160118
國(guó)家自然科學(xué)基金項(xiàng)目(61473121);廣東省科技計(jì)劃項(xiàng)目(2016A020221008);2016年產(chǎn)學(xué)研重點(diǎn)項(xiàng)目(201604010032)。
2016-01-27收到初稿,2016-04-12收到修改稿。
聯(lián)系人及第一作者:許玉格(1978—),女,博士,副教授。