陳如清 ,李嘉春 ,俞金壽
?
基于通勤時(shí)間距離的LE污水處理過(guò)程故障檢測(cè)方法
陳如清1*,李嘉春2,俞金壽3
(1.嘉興學(xué)院機(jī)電工程學(xué)院,浙江 嘉興 314001;2.嘉興學(xué)院數(shù)理與信息工程學(xué)院,浙江 嘉興 314001;3.華東理工大學(xué)自動(dòng)化研究所,上海 200237)
污水處理過(guò)程的性能監(jiān)測(cè)與故障診斷,對(duì)于保障污水處理過(guò)程正常運(yùn)行及保證出水質(zhì)量達(dá)標(biāo)具有重要意義.針對(duì)污水處理過(guò)程數(shù)據(jù)具有非線性、不確定性及且易受隨機(jī)噪聲影響等特征,提出了一種新的基于通勤時(shí)間距離的LE流形學(xué)習(xí)算法實(shí)現(xiàn)對(duì)復(fù)雜過(guò)程數(shù)據(jù)的特征提取.改進(jìn)算法采用通勤時(shí)間距離方式進(jìn)行樣本間的相似度衡量并構(gòu)造鄰域圖,理論分析和仿真測(cè)試表明改進(jìn)算法可有效克服基本LE算法的鄰域參數(shù)敏感問(wèn)題并提高了算法的魯棒性.將基于通勤時(shí)間距離的LE流形學(xué)習(xí)算法用于污水處理過(guò)程故障檢測(cè)建模,在低維流形子空間構(gòu)造綜合統(tǒng)計(jì)量進(jìn)行過(guò)程監(jiān)測(cè).應(yīng)用結(jié)果表明,與基于PCA方法和LE方法的故障檢測(cè)模型相比,基于改進(jìn)算法的故障檢測(cè)模型可及時(shí)探測(cè)故障的發(fā)生,具有較低的故障漏報(bào)率和故障誤報(bào)率.為污水處理等復(fù)雜工業(yè)過(guò)程的故障監(jiān)測(cè)提供了一種可行的解決方案.
污水生化處理過(guò)程;故障檢測(cè)建模;通勤時(shí)間距離;非線性噪聲數(shù)據(jù);LE算法
隨著生活污水和工業(yè)廢水排放量的持續(xù)增加,水資源污染日益嚴(yán)重,城鎮(zhèn)污水處理及再生利用是減少環(huán)境污染和緩解供水緊張的有效途徑.目前污水處理多采用生化法,是工業(yè)和城市污水處理的最主要方式[1].由于處理過(guò)程工藝復(fù)雜且各種影響因素存在很大的不確定性,系統(tǒng)運(yùn)行中故障時(shí)有發(fā)生[2-3].考慮到污水處理過(guò)程具有工作連貫性及不可替代性等特征,一旦發(fā)生故障,便會(huì)造成嚴(yán)重后果和巨大損失.從控制理論角度看,污水處理過(guò)程是一個(gè)外界干擾強(qiáng)烈、時(shí)變性強(qiáng)、耦合性強(qiáng)的復(fù)雜非線性動(dòng)態(tài)過(guò)程[4-5].污水處理過(guò)程的性能監(jiān)測(cè)與故障診斷,對(duì)于保障污水處理過(guò)程正常運(yùn)行、降低運(yùn)行維護(hù)成本及保證出水質(zhì)量達(dá)標(biāo),均具有重要意義和科學(xué)價(jià)值.
針對(duì)污水處理過(guò)程性能監(jiān)測(cè)及故障診斷問(wèn)題,目前已有些研究.人工神經(jīng)網(wǎng)絡(luò)、模糊控制和專家系統(tǒng)等人工智能方法常被用于污水處理過(guò)程建模、控制與診斷.如Comas等[6]將離線、在線及啟發(fā)式知識(shí)有機(jī)融合,研發(fā)了用于檢測(cè)和解決活性污泥抗絮凝問(wèn)題的專家系統(tǒng),文獻(xiàn)[7-8]建立了基于模糊神經(jīng)網(wǎng)絡(luò)的污水處理過(guò)程故障監(jiān)測(cè)模型.都取得了較好的研究成果.由于污水生化處理過(guò)程屬于典型的流程工業(yè),多變量統(tǒng)計(jì)過(guò)程監(jiān)測(cè)方法也常用于解決污水處理過(guò)程性能監(jiān)測(cè)及故障診斷問(wèn)題[9].如Baklouti等[10]提出了一種基于改進(jìn)粒子濾波算法的統(tǒng)計(jì)過(guò)程監(jiān)測(cè)方法.Liu等[11]提出了一種基于變分貝葉斯的PCA方法,用于污水處理廠的過(guò)程監(jiān)測(cè)與故障診斷. Li等[12]通過(guò)引入選擇性集成算法并提出一種改進(jìn)的ICA方法,用于建立污水處理等非高斯過(guò)程的監(jiān)控模型.Smamuelsson等[13]將基于高斯過(guò)程回歸的機(jī)器學(xué)習(xí)方法,用于解決污水處理過(guò)程性能監(jiān)測(cè)及故障診斷問(wèn)題.人工智能方法為工業(yè)過(guò)程的性能監(jiān)測(cè)與故障診斷問(wèn)題提供了一類有效的解決途徑,現(xiàn)已取得了較好的成效.但針對(duì)強(qiáng)外界干擾、強(qiáng)時(shí)變性和強(qiáng)耦合性的復(fù)雜污水處理過(guò)程等建模問(wèn)題,仍存在一定的局限性.如人工神經(jīng)網(wǎng)絡(luò)建模方法存在局部極小值、計(jì)算復(fù)雜度大和經(jīng)驗(yàn)知識(shí)缺乏等問(wèn)題.對(duì)于復(fù)雜非線性系統(tǒng),模糊控制方法存在模糊規(guī)則和隸屬函數(shù)難以生成、計(jì)算時(shí)間長(zhǎng)和規(guī)則“組合爆炸”等問(wèn)題,導(dǎo)致非線性系統(tǒng)的故障監(jiān)測(cè)效果不理想.專家系統(tǒng)建模方法存在專家知識(shí)“瓶頸”、推理方法不確定性和系統(tǒng)自學(xué)習(xí)與完善能力不強(qiáng)等不足.此外,現(xiàn)有多變量統(tǒng)計(jì)方法大多針對(duì)過(guò)程單一限制條件問(wèn)題,而面對(duì)更為復(fù)雜工況(即若干種約束條件的組合)下的過(guò)程監(jiān)控問(wèn)題,現(xiàn)有研究還不夠成熟.
作為一種新的機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析方法,流形學(xué)習(xí)(Manifold learning)基于局部線性和全局非線性的假設(shè),能有效挖掘非線性高維數(shù)據(jù)的內(nèi)在幾何結(jié)構(gòu),在數(shù)據(jù)特征提取和特征選擇等方面已得到成功應(yīng)用[14-15].拉普拉斯特征映射算法(Laplacian Eigenmap,LE)是一種典型流形學(xué)習(xí)方法,以保持流形局部近鄰信息為目標(biāo),通過(guò)Laplacian-Beltrami算子實(shí)現(xiàn)高維向量在低維空間的嵌入[16-17].與傳統(tǒng)過(guò)程監(jiān)測(cè)方法相比,LE等流形學(xué)習(xí)方法在特征提取過(guò)程中能較好保留原始數(shù)據(jù)的非線性和動(dòng)態(tài)特性,準(zhǔn)確揭示過(guò)程數(shù)據(jù)的內(nèi)在變化規(guī)律[18].適用于對(duì)污水處理等復(fù)雜工業(yè)過(guò)程的性能監(jiān)測(cè)及故障診斷[19-20].
本文針對(duì)污水處理過(guò)程的運(yùn)行特性和數(shù)據(jù)特征,引入流形學(xué)習(xí)中的一種經(jīng)典算法-LE算法并予以改良,用于解決污水處理過(guò)程的故障檢測(cè)建模問(wèn)題.為克服現(xiàn)有LE算法對(duì)鄰域參數(shù)的敏感性并改善基本LE算法的魯棒性,在現(xiàn)有算法中引入基于通勤時(shí)間距離(Commute time distance,CTD)的相似性度量方法并提出一種改進(jìn)的CTD-LE算法,仿真分析表明改進(jìn)算法有效提高了基本LE算法的特征提取性能.將改進(jìn)的CTD-LE算法用于構(gòu)建污水處理過(guò)程的故障檢測(cè)模型,實(shí)驗(yàn)結(jié)果驗(yàn)證了該故障檢測(cè)方法的有效性.
對(duì)于多維空間中的任意數(shù)據(jù)點(diǎn)x和x,相似度w通??啥x為:
式中:為相似度參數(shù),表示數(shù)據(jù)點(diǎn)x為x的個(gè)近鄰點(diǎn)之一,為鄰?N()域大小參數(shù).
已知數(shù)據(jù)集=(x)(=1,…,),根據(jù)K-最近鄰法得到近鄰圖= (,,),其中是節(jié)點(diǎn)即==(x)(i=1,…,n),是連接節(jié)點(diǎn)的邊,=(w)×n為近鄰圖的鄰接矩陣.
近鄰圖的Markov轉(zhuǎn)移概率矩陣為:
=(p)×n=-1(3)
由此便得到近鄰圖G的隨機(jī)游走模型[21].
在近鄰圖的基礎(chǔ)上定義Laplace矩陣=-,包含了近鄰圖中的梯度信息,即:
數(shù)據(jù)點(diǎn)x和x間的通勤時(shí)間距離可定義為[22]:
綜上所述,起源于概率論中的隨機(jī)游走(或隨機(jī)漫步)理論,數(shù)據(jù)點(diǎn)間的通勤時(shí)間距離描述了數(shù)據(jù)點(diǎn)在特征空間的差異程度[23-24].與其他數(shù)據(jù)的相似性度量方法(如歐氏距離、測(cè)地距離等)相比,通勤時(shí)間距離具有以下特征:
1)通勤時(shí)間距離以概率形式綜合考慮到兩個(gè)節(jié)點(diǎn)間的所有連接路徑,與傳統(tǒng)的歐氏距離或測(cè)地距離相比,一方面能更好地描述節(jié)點(diǎn)在近鄰圖上的分布情況;另一方面具有更強(qiáng)的魯棒性,減少噪聲帶來(lái)的負(fù)面影響.
2)通勤時(shí)間距離計(jì)算時(shí)只需完成一次Laplace矩陣的廣義逆矩陣的求解,具有較低的計(jì)算復(fù)雜度.
基于譜圖理論,Belkin和Niyogi等人提出了拉普拉斯特征映射算法.其主要思想是以保持流形局部近鄰信息為目標(biāo),通過(guò)Laplacian-Beltrami算子來(lái)實(shí)現(xiàn)高維向量在低維空間的嵌入,使高維原始空間中鄰近的點(diǎn)映射到低維特征空間后距離依然鄰近,揭示高維數(shù)據(jù)的內(nèi)在流形結(jié)構(gòu).
設(shè)高維數(shù)據(jù)集=(1,2,…,x),∈R,為高維數(shù)據(jù)集的維數(shù);低維嵌入=(1,2,…,y),∈R,表示目標(biāo)低維空間的維數(shù).LE算法的計(jì)算過(guò)程可描述如下:
1)構(gòu)造近鄰圖
產(chǎn)生一個(gè)包含全部數(shù)據(jù)點(diǎn)的近鄰圖,可采用超球標(biāo)準(zhǔn)或者近鄰標(biāo)準(zhǔn)來(lái)判斷近鄰點(diǎn).
2)近鄰點(diǎn)邊賦權(quán)
設(shè)置近鄰點(diǎn)之間的權(quán)值W,構(gòu)造鄰接權(quán)矩陣.賦權(quán)方式可采用簡(jiǎn)單賦權(quán)法或熱核函數(shù)法.其中,簡(jiǎn)單賦權(quán)法為:若x與x鄰接,則相應(yīng)的鄰接權(quán)值W設(shè)置為1,否者鄰接權(quán)值W設(shè)置為0.熱核函數(shù)法為:若x與x鄰接,則相應(yīng)的鄰接權(quán)值W如式(6)所示,其中為熱核參數(shù);若x與x不鄰接,則鄰接權(quán)值W為0.
3)特征映射
對(duì)于以上構(gòu)造的近鄰圖,如果是連通圖,則求解式(7)所示的廣義特征分解問(wèn)題.
(7)
上述計(jì)算過(guò)程可知,拉普拉斯特征映射算法的特點(diǎn)是將維數(shù)簡(jiǎn)約的問(wèn)題轉(zhuǎn)化為特征值的求解問(wèn)題,無(wú)需進(jìn)行迭代計(jì)算;整個(gè)求解過(guò)程簡(jiǎn)單,運(yùn)算速度快.適用于基于數(shù)據(jù)驅(qū)動(dòng)的故障檢測(cè)與診斷等模式識(shí)別領(lǐng)域.
作為一種經(jīng)典的流形學(xué)習(xí)算法,LE算法較好地解決了非線性維數(shù)約簡(jiǎn)問(wèn)題,有效挖掘了非線性數(shù)據(jù)的內(nèi)部結(jié)構(gòu),在數(shù)據(jù)降維和特征選取方面已獲得成功應(yīng)用.但用于復(fù)雜高維數(shù)據(jù)降維時(shí),也存在以下兩個(gè)問(wèn)題:1)鄰域參數(shù)的敏感性問(wèn)題.基本LE算法是采用歐氏距離方式進(jìn)行樣本間的鄰域度量,理論分析表明歐氏距離方式僅在較小的鄰域大小參數(shù)范圍內(nèi)才能準(zhǔn)確學(xué)習(xí)和揭示原始高維數(shù)據(jù)的內(nèi)在幾何結(jié)構(gòu).鄰域參數(shù)若取值過(guò)小,在構(gòu)造近鄰圖G時(shí)易出現(xiàn)不連通或孤立的局部區(qū)域,難以真實(shí)反映原始數(shù)據(jù)集的全局特性.反之,鄰域參數(shù)若取值過(guò)大,則會(huì)出現(xiàn)“短路”現(xiàn)象,破壞了高維原始數(shù)據(jù)流形的拓?fù)湫?鄰域大小的選擇是LE算法成功的關(guān)鍵因素.2)算法的魯棒性問(wèn)題.復(fù)雜情況下原始高維數(shù)據(jù)集中往往包含一定量的噪聲數(shù)據(jù),基于歐氏距離方式LE算法在構(gòu)造局部鄰域關(guān)系時(shí)不可避免地包含有噪聲點(diǎn),從而加大了樣本鄰域?qū)颖军c(diǎn)的擬合誤差,降低了原始高維數(shù)據(jù)在低維空間的重構(gòu)精度.如何克服LE算法對(duì)鄰域參數(shù)的敏感性和提高算法的魯棒性能,是LE流形學(xué)習(xí)算法研究的重點(diǎn)問(wèn)題.
針對(duì)LE算法存在的以上兩個(gè)方面不足,考慮在現(xiàn)有LE算法中引入通勤時(shí)間距離進(jìn)行數(shù)據(jù)的相似性度量并提出一種改進(jìn)的CTD-LE算法.改進(jìn)算法在構(gòu)造近鄰圖G時(shí)采用通勤時(shí)間距離方式進(jìn)行樣本間的相似度衡量,以降低LE算法對(duì)鄰域參數(shù)的敏感性并提高LE算法的魯棒性能.
此外,基于數(shù)據(jù)驅(qū)動(dòng)的故障檢測(cè)與診斷是一類典型的模式分類與識(shí)別問(wèn)題,故障數(shù)據(jù)大多屬于多流形數(shù)據(jù).LE等流形學(xué)習(xí)算法在用于對(duì)復(fù)雜高維數(shù)據(jù)降維時(shí),為實(shí)現(xiàn)對(duì)多流形數(shù)據(jù)的有效分類,要求處于同一流形下的數(shù)據(jù)點(diǎn)之間的相似度盡量大或充分連通,處于不同流形下的數(shù)據(jù)點(diǎn)之間的相似度盡量小或避免連通.因此,在構(gòu)造近鄰圖G時(shí)要盡量減少處于不同流形下數(shù)據(jù)點(diǎn)間的連接邊,以準(zhǔn)確描述數(shù)據(jù)的分類結(jié)構(gòu).采用通勤時(shí)間距離方式構(gòu)造近鄰圖,近鄰圖中的“短路”邊和處于不同流形下數(shù)據(jù)點(diǎn)間的連接邊具有較大的通勤時(shí)間距離.因此,可根據(jù)通勤時(shí)間距離判別和去除近鄰圖中可能存在的“短路”邊和處于不同流形下數(shù)據(jù)點(diǎn)間的連接邊,降低流形間的連通性.
設(shè)高維數(shù)據(jù)集=(1,2,…,x),∈R,為高維數(shù)據(jù)集維數(shù);低維嵌入=(1,2,…,y),∈R,為低維目標(biāo)子空間維數(shù);為用于構(gòu)造近鄰圖的鄰域參數(shù);'為計(jì)算通勤時(shí)間距離的鄰域參數(shù);為相似度參數(shù);為用于判斷“短路”和連接邊的閾值.改進(jìn)的CTD-LE算法的運(yùn)算過(guò)程可描述如下:
1)對(duì)于高維數(shù)據(jù)集產(chǎn)生近鄰圖.參照基本LE算法,基于歐氏距離方式并采用k-最近鄰法,計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的近鄰點(diǎn),構(gòu)造近鄰圖.若數(shù)據(jù)點(diǎn)x是x的近鄰點(diǎn),則用邊(,)連接,否則斷開(kāi).
2)計(jì)算通勤時(shí)間距離和基于CTD的最近鄰點(diǎn)集合.根據(jù)鄰域參數(shù)k'和相似度參數(shù)得到近鄰圖',對(duì)于任一數(shù)據(jù)點(diǎn)x,根據(jù)CTD的定義,依次計(jì)算鄰接矩陣、對(duì)角矩陣、Laplace矩陣及廣義逆矩陣+,得到通勤時(shí)間距離c=(c(,))×n.
3)判斷并刪除近鄰圖G中的“短路”邊和連接邊.若數(shù)據(jù)點(diǎn)x和x之間的通勤時(shí)間距離d(,)大于設(shè)定閾值,則認(rèn)為是“短路”邊或連接邊并從近鄰圖G中予以刪除.
4)計(jì)算高維數(shù)據(jù)集=(1,2,…,x)的低維嵌入=(1,2,…,y).如果近鄰圖G是連通圖,按式(7)和式(8)求解廣義特征分解問(wèn)題,計(jì)算拉普拉斯算子的廣義特征向量并得到數(shù)據(jù)的低維嵌入.
與基本LE算法相比,改進(jìn)的CTD-LE 算法涉及到4個(gè)參數(shù),即、'、和.參數(shù)用于創(chuàng)建近鄰圖G以計(jì)算最短路徑距離,由于在“步驟3)”采用通勤時(shí)間距離方式判斷和刪除近鄰圖G中可能存在的“短路”邊和連接邊,故改進(jìn)算法對(duì)鄰域參數(shù)不敏感.參數(shù)'用于創(chuàng)建近鄰圖G'并計(jì)算數(shù)據(jù)點(diǎn)間的通勤時(shí)間距離,由于通勤時(shí)間距離以概率形式綜合考慮到了兩個(gè)節(jié)點(diǎn)間所有的連接途徑,故受近鄰圖中“短路”邊的影響較小或可以接受'值的更大范圍波動(dòng).相似度參數(shù)用于計(jì)算數(shù)據(jù)點(diǎn)間的相似度,影響數(shù)據(jù)點(diǎn)之間的Markov轉(zhuǎn)移概率,為了賦予長(zhǎng)連接邊較小的轉(zhuǎn)移概率或相似度值,通常取較小值(如=1).閾值用于識(shí)別并刪除近鄰圖中可能存在的“短路”邊以及盡可能多的不同流形數(shù)據(jù)點(diǎn)之間的連接邊.通常這兩類邊的通勤時(shí)間距離比其余正常邊的數(shù)值更大,本文根據(jù)所有通勤時(shí)間距離之間的差值選取值.
為驗(yàn)證本文所提出改進(jìn)CTD-LE算法的有效性,進(jìn)行了仿真測(cè)試實(shí)驗(yàn).實(shí)驗(yàn)過(guò)程中以O(shè)RL人臉數(shù)據(jù)庫(kù)為對(duì)象,采用基本LE算法和改進(jìn)CTD-LE算法兩種方法分別進(jìn)行人臉識(shí)別,考察算法的識(shí)別性能.ORL數(shù)據(jù)集是一個(gè)由劍橋大學(xué)AT&T實(shí)驗(yàn)室所收集的人臉數(shù)據(jù)庫(kù),包含了從1992年4月至1994年4月期間該實(shí)驗(yàn)室的40位成員共400張面部圖像,圖像間的差異主要體現(xiàn)在光照條件、面部表情與細(xì)節(jié)等方面的變化.ORL等人臉數(shù)據(jù)庫(kù)現(xiàn)已作為標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)用于對(duì)各種流形學(xué)習(xí)算法進(jìn)行性能分析與測(cè)試,較長(zhǎng)時(shí)期以來(lái)被國(guó)內(nèi)外學(xué)者廣泛采用并得到認(rèn)可.為了評(píng)估改進(jìn)CTD-LE算法的性能,尤其是對(duì)改進(jìn)前后算法的性能進(jìn)行分析對(duì)比,本文也引入該通用數(shù)據(jù)庫(kù)作為測(cè)試對(duì)象.先將ORL原始圖片統(tǒng)一處理成32×32的分辨率,即原始數(shù)據(jù)維數(shù)=1024,再將每個(gè)人的10幅圖像生成規(guī)模為400的樣本集,從中隨機(jī)提取一定規(guī)模的訓(xùn)練樣本和測(cè)試樣本.仿真測(cè)試過(guò)程分為以下兩種情況進(jìn)行:1)從預(yù)處理后的圖片中隨機(jī)選取每個(gè)人的3、4、5、6幅圖片作為訓(xùn)練數(shù)據(jù),剩余圖片作為測(cè)試數(shù)據(jù);2)在預(yù)處理后的圖片中添加比例為10%的隨機(jī)位置像素噪聲,再?gòu)闹须S機(jī)選取每個(gè)人的3、4、5、6幅圖片作為訓(xùn)練數(shù)據(jù),剩余圖片作為測(cè)試數(shù)據(jù).
LE算法和改進(jìn)CTD-LE算法的主要參數(shù)設(shè)置為:近鄰點(diǎn)邊賦權(quán)方式均采用簡(jiǎn)單賦權(quán)法;鄰域參數(shù)取值變化范圍為20~40(情況1)或30(情況2);計(jì)算通勤時(shí)間距離的鄰域參數(shù)'設(shè)置為30,相似度參數(shù)設(shè)置為1;值的設(shè)置,按通勤時(shí)間距離大小排序并計(jì)算相鄰距離的差值,將最大間隔值所對(duì)應(yīng)的通勤距離c(,)設(shè)置為閾值;對(duì)于鑒別維數(shù),現(xiàn)有流形學(xué)習(xí)方法的研究表明,隨著低維目標(biāo)空間維數(shù)由小到大緩慢增加,算法的特征提取性能呈上升趨勢(shì);當(dāng)大到一定的數(shù)值后,算法的性能基本保持平穩(wěn).對(duì)于ORL人臉數(shù)據(jù)庫(kù),實(shí)驗(yàn)表明當(dāng)取值較小(如<30)時(shí)人臉識(shí)別率不高,而當(dāng)>65時(shí)算法的人臉識(shí)別率的提高不明顯.綜合權(quán)衡人臉識(shí)別率和算法的復(fù)雜度,鑒別維數(shù)設(shè)置為65.
表1為兩種算法在鄰域參數(shù)不同取值(取值范圍為20~40)下進(jìn)行5次獨(dú)立實(shí)驗(yàn),取各次人臉識(shí)別率的平均值作為算法性能的評(píng)價(jià)指標(biāo).圖1為訓(xùn)練樣本數(shù)為4時(shí)兩種方法鄰域參數(shù)與人臉識(shí)別率的變化關(guān)系,可以看出:隨著取值從20到40的變化,LE算法人臉識(shí)別率的波動(dòng)范圍為48%~81%,當(dāng)=32時(shí)人臉識(shí)別率最高為81%,平均人臉識(shí)別率僅為69.6%,表明鄰域參數(shù)對(duì)人臉識(shí)別率的影響較大;相比之下,CTD-LE算法人臉識(shí)別率的波動(dòng)范圍為80%~ 91%,當(dāng)=30時(shí)人臉識(shí)別率最高為91%,平均人臉識(shí)別率達(dá)到85.0%,表明鄰域參數(shù)對(duì)人臉識(shí)別率的影響較小.
表1 不同鄰域參數(shù)下2種算法的人臉識(shí)別性能比較(%)
表1和圖1的仿真測(cè)試對(duì)比結(jié)果表明,改進(jìn)的CTD-LE算法由于在構(gòu)造近鄰圖時(shí)采用通勤時(shí)間距離方式,可有效克服基本LE算法對(duì)鄰域參數(shù)的敏感性.針對(duì)不同的訓(xùn)練樣本數(shù)量,CTD-LE算法均具有較高的人臉識(shí)別率,鄰域參數(shù)取值的變化對(duì)算法的整體識(shí)別性能影響較小.相比之下,領(lǐng)域參數(shù)對(duì)基本LE算法的性能影響較大,隨著取值的不同算法的人臉識(shí)別率存在較大波動(dòng),整體識(shí)別性能次于CTD-LE算法.
表2為兩種算法在鄰域參數(shù)取值30且在測(cè)試樣本中添加10%的噪聲情況下進(jìn)行5次獨(dú)立實(shí)驗(yàn),取各次人臉識(shí)別率的平均值作為算法性能的評(píng)價(jià)指標(biāo).仿真測(cè)試對(duì)比結(jié)果表明,與基本LE算法相比,CTD-LE算法的識(shí)別性能受噪聲影響更小,噪聲情況下仍能保持較高人臉識(shí)別率.主要是由于CTD-LE算法在維數(shù)簡(jiǎn)約過(guò)程中通過(guò)計(jì)算數(shù)據(jù)間的通勤時(shí)間距離判斷和刪除了不同流形數(shù)據(jù)點(diǎn)之間的連接邊,一定程度上降低了不同流形間的連通性.改進(jìn)的CTD-LE算法有效提高了基本LE算法的魯棒性.
圖1 兩種方法鄰域參數(shù)與人臉識(shí)別率的變化關(guān)系(訓(xùn)練樣本數(shù)為4)
表2 噪聲情況下2種算法的人臉識(shí)別性能比較(%)
將改進(jìn)的CTD-LE算法用于對(duì)污水處理過(guò)程數(shù)據(jù)進(jìn)行維數(shù)約簡(jiǎn),按式(9)構(gòu)造統(tǒng)計(jì)量2監(jiān)控低維流形子空間的變化情況并檢測(cè)污水處理過(guò)程的故障情況,即
2=yy(9)
基于改進(jìn)CTD-LE算法的過(guò)程故障檢測(cè)過(guò)程主要由兩個(gè)階段構(gòu)成,其中“離線建?!彪A段包括步驟1)到步驟3),主要任務(wù)為將過(guò)程數(shù)據(jù)從高維原始空間映射到低維特征空間并構(gòu)造相應(yīng)的故障檢測(cè)統(tǒng)計(jì)量;“在線監(jiān)測(cè)”階段包括步驟4)到步驟6),主要任務(wù)為利用新的過(guò)程數(shù)據(jù)計(jì)算監(jiān)控統(tǒng)計(jì)量并進(jìn)行過(guò)程監(jiān)測(cè)與故障預(yù)警.具體實(shí)現(xiàn)過(guò)程描述如下:
1)將采集到的正常情況下的污水處理過(guò)程數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,用于故障檢測(cè)建模;
2)利用CTD-LE算法對(duì)原始高維數(shù)據(jù)進(jìn)行特征提取,將數(shù)據(jù)從高維原始空間映射到低維特征空間,計(jì)算拉普拉斯算子的廣義特征向量并獲取數(shù)據(jù)的低維嵌入;
3)對(duì)于低維嵌入,參照(9)式,在低維目標(biāo)子空間構(gòu)造2過(guò)程監(jiān)測(cè)統(tǒng)計(jì)量;
4)參照步驟1)將新的污水處理過(guò)程數(shù)據(jù)進(jìn)行預(yù)處理;
5)根據(jù)CTD-LE算法的映射關(guān)系,將標(biāo)準(zhǔn)化處理后的過(guò)程數(shù)據(jù)投影至特征空間;
6)參照式(9)重新計(jì)算新樣本對(duì)應(yīng)的過(guò)程監(jiān)測(cè)統(tǒng)計(jì)量2并判斷是否超過(guò)正常運(yùn)行狀態(tài)下參量的預(yù)設(shè)控制限,若超出則進(jìn)行故障預(yù)警,表明出現(xiàn)故障.
為驗(yàn)證本文所提出的改進(jìn)CTD-LE算法及基于CTD-LE算法的污水處理過(guò)程故障檢測(cè)方法的有效性,本文引入一個(gè)廣泛采用的污水處理過(guò)程平臺(tái)-BSM1(Benchmark Simulation Model 1,BSM1)基準(zhǔn)模型,作為研究對(duì)象.
BSM1污水生化處理過(guò)程平臺(tái)是由國(guó)際水協(xié)會(huì)(IWA)和COST624工作小組于2002年聯(lián)合發(fā)布.BSM1采用污水處理過(guò)程常用的前置反硝化工藝,包括5個(gè)生化反應(yīng)池和1個(gè)二沉池.前2個(gè)生化反應(yīng)池為厭氧反應(yīng)池和缺氧反應(yīng)池,主要功能為利用反硝化反應(yīng)將硝酸鹽還原成氣態(tài)氮并從水中逸出;后3個(gè)反應(yīng)池為好氧池,主要功能為利用硝化反應(yīng)將氨氮氧化為硝酸鹽.流經(jīng)生化反應(yīng)池的污水,生物脫氮后一部分通過(guò)內(nèi)循環(huán)回流再進(jìn)行脫氮;另外一部分流入二沉池沉淀.這里的二沉池假設(shè)分割為10層,上層為處理后的出水,下層的污泥一部分回流再利用,另外一部分當(dāng)剩余污泥處理.該仿真模型包含污水處理系統(tǒng)的裝置構(gòu)造、數(shù)學(xué)模型、進(jìn)水負(fù)荷、測(cè)試軟件及評(píng)價(jià)標(biāo)準(zhǔn).
BSM1模型現(xiàn)已得到廣泛認(rèn)可,具有典型的非線性、非高斯和不確定性等特征,故障檢測(cè)是一個(gè)富有挑戰(zhàn)性的課題,常作為研究對(duì)象驗(yàn)證污水處理過(guò)程各種控制策略和監(jiān)控算法的有效性[25].BSM1模型給出了污水處理過(guò)程的13種水質(zhì)參量和每日污水流量,水質(zhì)參量分為溶解性成分和顆粒性成分兩類.污水處理過(guò)程的14項(xiàng)參數(shù)具體描述如表3所示.
污水處理過(guò)程實(shí)際運(yùn)行分析表明,在做飯和早晚洗漱時(shí)段屬于用水高峰,污水排放量較大;另外周末的污水排放量較工作日也有明顯地減少.根據(jù)居民日常用水的變化規(guī)律和污水處理過(guò)程典型變量的變化趨勢(shì),數(shù)據(jù)預(yù)處理時(shí)考慮將原始過(guò)程數(shù)據(jù)與周末或工作日的典型流量值相減得到相應(yīng)的偏差值.對(duì)各變量的偏差值進(jìn)行標(biāo)準(zhǔn)化處理后得到建模樣本數(shù)據(jù),為污水處理過(guò)程的故障檢測(cè)提供依據(jù).
表3 污水處理過(guò)程監(jiān)控變量
實(shí)際污水處理過(guò)程中,突變故障和漂移故障是兩類常見(jiàn)的傳感器故障.實(shí)驗(yàn)過(guò)程中取樣了干燥天氣下的14d數(shù)據(jù),采樣間隔為15min,共獲取1344組觀測(cè)數(shù)據(jù)作為正常運(yùn)行時(shí)的過(guò)程數(shù)據(jù).從1344組樣本數(shù)據(jù)中選取約2/3的數(shù)據(jù)即894組數(shù)據(jù)作為建模訓(xùn)練樣本,剩余450組數(shù)據(jù)作為測(cè)試樣本.為產(chǎn)生故障建模數(shù)據(jù),實(shí)驗(yàn)過(guò)程中共模擬了1種正常運(yùn)行工況和3種故障工況,具體描述如表4所示.
針對(duì)污水處理過(guò)程數(shù)據(jù)特征,構(gòu)建基于CTD- LE的故障檢測(cè)模型.為形成對(duì)比,引入PCA、基本LE和CTD-LE3種方法分別建立故障檢測(cè)模型.實(shí)驗(yàn)過(guò)程中,利用正常運(yùn)行下的過(guò)程數(shù)據(jù)對(duì)各個(gè)過(guò)程變量進(jìn)行相關(guān)性分析,選擇常用且與污水處理過(guò)程運(yùn)行工況密切關(guān)聯(lián)的14項(xiàng)易測(cè)過(guò)程參量用于過(guò)程監(jiān)控.采用上述3種故障檢測(cè)模型分別對(duì)污水處理過(guò)程的正常工況和3種典型故障工況下的過(guò)程數(shù)據(jù)進(jìn)行測(cè)試.參數(shù)設(shè)置:近鄰點(diǎn)邊賦權(quán)方式均采用簡(jiǎn)單賦權(quán)法;對(duì)于LE等流形學(xué)習(xí)算法鄰域參數(shù)的取值,目前并無(wú)統(tǒng)一規(guī)則,多通過(guò)具體實(shí)驗(yàn)驗(yàn)證的方式選擇.特征提取對(duì)象不同,取值范圍也不同,多次試驗(yàn)表明取值為10較合適.將鄰域參數(shù)設(shè)置為10;計(jì)算通勤時(shí)間距離的鄰域參數(shù)'設(shè)置為10,與取值相同;相似度參數(shù)設(shè)置為1;特征空間維數(shù)參照現(xiàn)有方法設(shè)置.即用最大似然估計(jì)法進(jìn)行污水處理過(guò)程數(shù)據(jù)的本征維數(shù)估計(jì),通過(guò)構(gòu)建近鄰間距離的似然函數(shù)得到過(guò)程數(shù)據(jù)的本征維數(shù)估計(jì)值[15].最后設(shè)置為7;閾值取值方式同2.3節(jié);監(jiān)控統(tǒng)計(jì)量的置信度均為95%.
表5為4種工況下的故障檢測(cè)結(jié)果,性能參數(shù)為故障誤報(bào)率(即無(wú)故障情況下誤報(bào)警的樣本數(shù)與樣本總數(shù)之比值)和故障漏報(bào)率(即發(fā)生故障后沒(méi)有報(bào)警的樣本數(shù)與樣本總數(shù)之比值).S數(shù)值漂移故障情況下3種模型的故障檢測(cè)情況如圖2所示.
表4 4種污水處理過(guò)程故障類型
由表5和圖2的故障檢測(cè)結(jié)果可知:在用于4種工況下污水處理過(guò)程故障監(jiān)測(cè)的3種模型中,基于CTD-LE的故障檢測(cè)模型均具有最優(yōu)的故障檢測(cè)性能,在各類故障產(chǎn)生的初期就能及時(shí)探測(cè)到故障情況的存在,具有最低的故障漏報(bào)率和故障誤報(bào)率;其次是LE故障檢測(cè)模型,故障檢測(cè)性能較好;3種模型中故障漏報(bào)率和故障誤報(bào)率相對(duì)較高的是PCA故障檢測(cè)模型.
表5 3種方法污水處理過(guò)程故障檢測(cè)結(jié)果(漏報(bào)率、誤報(bào)率)
主要原因在于:PCA是一種理論完善的經(jīng)典數(shù)據(jù)分析方法,對(duì)于服從高斯分布(正態(tài)分布)或者具有線性結(jié)構(gòu)的原始數(shù)據(jù),具有良好的特征提取效果.但當(dāng)原始數(shù)據(jù)(如污水處理過(guò)程數(shù)據(jù))具有非線性和不確定性等特征時(shí),PCA算法難以準(zhǔn)確揭示原始數(shù)據(jù)間所隱藏的非線性特征,存在一定的局限性.與PCA線性降維方法相比,LE算法則是在“保持降維前后近鄰點(diǎn)之間的近鄰關(guān)系不變”的前提下,尋找原始數(shù)據(jù)的局部幾何關(guān)系和特性,從數(shù)量有限且分布非均勻的非線性原始數(shù)據(jù)中挖掘低維流形分布結(jié)構(gòu)并揭示數(shù)據(jù)變化規(guī)律.而本文所提出的改進(jìn)CTD-LE算法,在對(duì)非線性過(guò)程數(shù)據(jù)處理過(guò)程中,采用通勤時(shí)間距離方式對(duì)數(shù)據(jù)進(jìn)行相似度衡量并構(gòu)造近鄰圖,較大程度地降低了基本LE算法對(duì)鄰域參數(shù)的敏感性并有效地改善了LE算法的魯棒性能.在4種不同類型的污水處理過(guò)程故障工況下,CTD-LE故障檢測(cè)模型性能均優(yōu)于PCA模型和基本LE模型,表明利用該算法構(gòu)建復(fù)雜非線性過(guò)程監(jiān)測(cè)模型是可行的.
4.1 針對(duì)現(xiàn)有LE算法存在對(duì)鄰域參數(shù)敏感和魯棒性差等問(wèn)題,提出了一種改進(jìn)的CTD-LE算法.一方面,在現(xiàn)有LE算法中引入了基于通勤時(shí)間距離的相似性度量方法,通過(guò)計(jì)算樣本之間的通勤距離構(gòu)造鄰域圖;另一方面,根據(jù)通勤距離大小去除近鄰圖中的“短路”邊和不同流形下數(shù)據(jù)點(diǎn)間的連接邊.理論分析和仿真實(shí)驗(yàn)表明,改進(jìn)算法能較好地揭示復(fù)雜非線性數(shù)據(jù)的內(nèi)在幾何結(jié)構(gòu),有效提高了基本LE算法的特征提取性能.
4.2 針對(duì)污水生化處理過(guò)程的數(shù)據(jù)特征,將改進(jìn)的CTD-LE算法用于污水處理過(guò)程故障檢測(cè)建模,故障監(jiān)測(cè)結(jié)果表明該模型可及時(shí)探測(cè)到故障的發(fā)生,具有較低的故障漏報(bào)率和故障誤報(bào)率.為污水處理等復(fù)雜工業(yè)過(guò)程的污水處理過(guò)程性能監(jiān)測(cè)故障監(jiān)測(cè)提供了一種可行的解決方案.
[1] 王 劍,付正輝,郭懷成.基于區(qū)間兩階段的城鎮(zhèn)污水處理技術(shù)優(yōu)選模型 [J]. 中國(guó)環(huán)境科學(xué), 2017,37(1):108-115.Wang J, Fu Z H, Guo H C. An inexact two-stage stochastic programming model for optimization of sewage treatment technology [J]. China Environmental Science, 2017,37(1):108-115.
[2] 許玉格,鄧文凱,陳立定.基于核函數(shù)的加權(quán)極限學(xué)習(xí)機(jī)污水處理在線故障診斷 [J]. 化工學(xué)報(bào), 2016,67(9):3817-3825.Xu Y G, Deng W K, Chen L D. Online fault diagnosis in wastewater treatment process by kernel-based weighted extreme learning machine [J]. CIESC Jorunal, 2016,67(9):3817-3825.
[3] 羅 曉,鄭向陽(yáng),趙叢叢,等.A/O工藝中污泥濃度對(duì)微生物群落結(jié)構(gòu)的影響 [J]. 中國(guó)環(huán)境科學(xué), 2018,38(1):275-283.Luo X, Zheng X Y, Zhao C C. Effects of sludge concentration on microbial community structure in A/O process [J]. China Environmental Science, 2018,38(1):275-283.
[4] 黃道平,邱 禹,劉乙奇,等.面向污水處理的數(shù)據(jù)驅(qū)動(dòng)故障診斷及預(yù)測(cè)方法綜述 [J]. 華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版), 2015,43(3): 111-120.Huang D P, Qiu Y, Liu Y Q, et al. Review of data-driven fault diagnosis and prognosis for wastewater treatment [J]. Journal of South China University of Technology (Natural Science Edition), 2015,43(3): 111-120.
[5] 肖紅軍,劉乙奇,黃道平.面向污水處理的動(dòng)態(tài)變分貝葉斯混合因子故障診斷 [J]. 控制理論與應(yīng)用, 2016,33(11):1519-1526.Xiao H J, Liu Y Q, Huang D P. Dynamic fault diagnosis via variational Bayesian mixture factor analysis with application to wastewater treatment [J]. Control Theory & Applications, 2016,33(11):1519- 1526.
[6] Comas J, Rodriguez J, Sancgezmarre M, et al. A knowledge-based approach to the deflocculation problem: Integrating on-line, off-line, and heuristic information [J]. Water Research, 2003,37(10):2377- 2387.
[7] Han H G, Li Y, Qiao J F. A fuzzy neural network approach for online fault detection in waste water treatment process [J]. Computers & Electrical Engineering, 2014,40(7):2216-2226.
[8] Dovzan D, Logar V, Skrjanc I. Implementation of an evolving fuzzy model (eFuMo) in a monitoring system for a wastewater treatment process [J]. IEEE Transactions on Fuzzy Systems, 2015,23(5):1761- 1776.
[9] Daniel A, Christian R. Multivariate statistical monitoring of continuous wastewater treatment plants [J]. Engineering Applications of Artificial Intelligence, 2008,21(7):1080-1091.
[10] Baklouti I, Mansouri M, Ben H A, et al. Monitoring of wastewater treatment plants using improved univariate statistical technique [J]. Process safety and Environmental Protection, 2018,116(2):287-300.
[11] Liu Y Q, Pan Y P, Sun Z H, et al. Statistical monitoring of wastewater treatment plants using variational Bayesian PCA [J]. Industrial & Engineering Chemistry Research, 2014,53(8):3272-3282.
[12] Li Z C, Yan, X F. Adaptive selective ensemble-independent component analysis models for process monitoring [J]. Industrial & Engineering Chemistry Research, 2018,57(24):8240-8252.
[13] Samuelsson O, Bjork A, Zambrano J, et al. Gaussian process regression for monitoring and fault detection of wastewater treatment processes [J]. Water Science and Technology, 2017,75(12):2952-2963.
[14] Miao A M, Ge Z Q, Song Z H, et al. Nonlocal structure constrained neighborhood preserving embedding model and its application for fault detection [J]. Chemometrics and Intelligent Laboratory Systems, 2015,142:184-196.
[15] 陳如清.基于改進(jìn)MVU的非線性動(dòng)態(tài)過(guò)程故障檢測(cè)方法 [J]. 儀器儀表學(xué)報(bào), 2013,34(9):2111-2117.Chen R Q. Improved MVU based fault detection method for nonlinear and dynamic process [J]. Chinese Journal of Scientific Instrument, 2013,34(9):2111-2117.
[16] Mao Q, Wang L, Tsang I W. A unified probabilistic framework for robust manifold learning and embedding [J]. Machine Learning, 2017,106(5):627-650.
[17] Bruneau M, Mottet T, Moulin S, et al. A clustering package for nucleotide sequences using Laplacian Eigenmaps and Gaussian mixture model [J]. Computers in Biology and Medicine, 2018,93(2): 66-74.
[18] Yan L, Niu X D. Spectral-Angle-based Laplacian Eigenmaps for nonlinear dimensionality reduction of hyperspectral imagery [J]. Photogrammetric Engineering and Remote Sensing, 2014,80(9):849- 861.
[19] Jiang Q S, Zhu Q X, Wang B F, et al. Nonlinear machine fault detection by semi-supervised Laplacian Eigenmaps [J]. Journal of Mechanical Science and Technology, 2017,31(8):3697-3703.
[20] Kazor K, Holloway R W, Cath T Y, et al. Comparison of linear and nonlinear dimension reduction techniques for automated process monitoring of a decentralized wastewater treatment facility [J]. Stochastic Environmental research and Risk Assessment, 2016,30(5): 1527-1544.
[21] Kim K H, Choi S. Walking on minimax paths for k-NN search [C]. Proc of the 27th AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2013:518-525.
[22] Qiu H J, Hancock E R. Clustering and embedding using commute times [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2007,29(11):1873-1890.
[23] Albano J A, Messinger D W, Rotman S R. Commute time distance transformation applied to spectral imagery and its utilization in material clustering [J]. Optical Engineering, 2012,51(7):397-407.
[24] 邵 超,張嘯劍.基于通勤時(shí)間距離的流形聚類與可視化 [J]. 計(jì)算機(jī)研究與發(fā)展, 2015,52(8):1757-1767.Shao C, Zhang X J. Manifold clustering and visualization with commute time distance [J]. Journal of Computer Research and Development, 2015,52(8):1757-1767.
[25] Carlsson B, Zambrano J. Fault detection and isolation of sensors in aeration control systems [J]. Water Science and Technology, 2015, 73(3):648-653.
Fault detection of wastewater treatment processes by using commute time distance based LE algorithm.
CHEN Ru-qing1*, LI Jia-chun2, YU Jin-shou3
(1.College of Mechanical and Electrical Engineering, Jiaxing University, Jiaxing 314001, China;2.College of Mathematics, Physics and Information Engineering, Jiaxing University, Jiaxing 314001, China;3.Research Institute of Automation, East China University of Science and Technology, Shanghai 200237, China)., 2019,39(2):657~665
Performance monitoring and fault diagnosis for wastewater treatment processes was of great significance for safeguarding the normal operation of the treatment process and ensuring the standard quality of effluent water. Aiming at the problems of nonlinearity, uncertainty and susceptibility to random noises in wastewater treatment process, an improved Laplacian Eigenmap (LE) manifold learning algorithm based on commuting time distance (CTD) was proposed to realize the feature extraction of the complex process data. In this algorithm, CTD was used to measure the similarity between samples and construct the neighborhood graph. Both theoretical analysis and simulation test proved that the proposed algorithm could efficiently overcome the sensitivity problem caused by neighborhood parameter and improve the robustness of the normal LE algorithm. Then the CTD based LE algorithm was applied in fault detection modeling for actual wastewater treatment process, and the fault monitoring statistic was constructed in the low-dimensional feature subspace. Application results showed that CTD-LE based model can timely detect the faults with lower missing rate and false rate as compared with normal PCA based model and normal LE based model. Application results showed that this method could provide a feasible solution for fault monitoring of complex industrial processes such as wastewater treatment.
wastewater biological treatment process;fault detection modeling;commute time distance;nonlinear noisy data;Laplacian Eigenmap
X703
A
1000-6923(2019)02-0657-09
陳如清(1979-),男,江西萍鄉(xiāng)人,副教授,博士,主要研究方向?yàn)閺?fù)雜工業(yè)過(guò)程建模與故障診斷.發(fā)表論文40余篇.
2018-07-31
浙江省基礎(chǔ)公益研究計(jì)劃項(xiàng)目(LGG18F030011);國(guó)家自然科學(xué)基金資助項(xiàng)目(61603154)
* 責(zé)任作者, 副教授, 10555322@qq.com