趙立杰,王海龍,陳斌(沈陽化工大學信息工程學院,遼寧 沈陽 110142)
?
基于流形正則化半監(jiān)督學習的污水處理操作工況識別方法
趙立杰,王海龍,陳斌
(沈陽化工大學信息工程學院,遼寧 沈陽 110142)
摘要:污水處理過程容易受外界沖激擾動影響,引發(fā)污泥上浮、老化、中毒、膨脹等故障工況,導致出水水質質量差,能源消耗高等問題,如何快速準確識別污水操作工況故障至關重要。針對污水工況識別過程中現有監(jiān)督學習方法未利用大量未標記數據蘊含的豐富操作工況信息,采用基于流形正則化極限學習機的半監(jiān)督學習方法,監(jiān)視生化污水處理過程操作運行工況。該方法在學習過程中,在標記和未標記數據輸入空間構建圖拉普拉斯算子,通過隨機特征映射建立隱含層,在流形正則化框架下,求解隱含層和輸出層之間的權重,保留隨機神經網絡的計算效率和泛化性能。仿真實驗結果表明,基于半監(jiān)督極限學習機的污水處理工況識別在準確率與可靠性方面相對優(yōu)于基本極限學習機方法。
關鍵詞:污水處理;極限學習機;半監(jiān)督算法;流形正則化
2015-10-30收到初稿,2016-03-14收到修改稿。
聯系人及第一作者:趙立杰(1972—),女,博士,教授。
Received date: 2015-10-30.
Foundation item: supported by the National Natural Science Foundation of China (61203102, 61573364) and the Research Project of Liaoning Provincial Educational Department (L2013158, L2013272).
污水生化處理是緩解水環(huán)境污染的有效途徑。由于生化處理系統的主體是有生命的細菌,其培養(yǎng)馴化、調整恢復非常緩慢和困難,且受外界環(huán)境的變化影響較大,如pH波動、供氧不足、負荷的沖擊、有毒物質的流入、錯誤操作等,常常引起污泥上浮、老化、中毒、膨脹、漂出等二沉池故障工況。如果不及時發(fā)現和處理,直接影響系統的出水指標和操作成本,甚至造成系統的停滯、癱瘓和破壞[1]。另外,由于污水處理機理復雜,工藝內部交互耦合、出水水質指標不能連續(xù)在線檢測且化驗周期漫長,現有的以精確數學模型為基礎、以控制系統性能指標為目標的優(yōu)化控制理論與方法難以應用,導致污水處理穩(wěn)定性差、效率低、成本高等問題,因此識別污水處理過程操作工況對于增強污水處理廠優(yōu)化運行和優(yōu)化控制具有重要意義。
污水處理操作工況識別方法主要有基于解析模型方法、基于定性經驗知識方法和基于數據驅動方法三大類?;诮馕瞿P偷姆椒ㄐ枰獪蚀_的機理模型,而污水處理過程由于非線性、多變量、非平穩(wěn)復雜特性,很難獲取準確的數學模型。文獻[2]采用正反向混合推理機制,以故障樹的形式表示知識庫中的知識,開發(fā)了城市污水處理廠日常運行故障診斷專家系統。Carrasco等[3]建立了基于模糊推理的污水處理故障診斷專家系統,并且在實際污水廠成功應用。污水處理故障診斷專家系統性能很大程度上取決于專家知識庫的完備性?;跀祿寗臃椒òǘ嘣y計方法[4]、支持向量機[5]和神經網絡方法等?;诙嘣y計的數據驅動污水處理故障診斷充分利用了污水處理過程DCS采集海量數據的優(yōu)勢,但是該類方法往往缺乏故障分類標記的監(jiān)督指導,在故障定位能力方面略有不足。支持向量機和神經網絡可以充分利用標記數據指導作用,是一種有監(jiān)督的學習方法。文獻[6]基于多分類概率極限學習機神經網絡方法識別污水處理過程工況。這些監(jiān)督學習方法通常假設數據樣本已標記且樣本數量足夠。
為減少標記代價,提高識別準確率,自動利用少量已標記數據和大量未標記數據的半監(jiān)督學習受到工業(yè)界和學術界的關注[7-10]。半監(jiān)督學習方法,如TSVM[11],LapRLS和LapSVM[12]等,通常假設標記數據樣本和未標記數據樣本具有相同的邊界分布,利用未標記的樣本幫助學習平滑的數據幾何結構。文獻[13-14]在流形正則框架下引進ELM[15]模型平衡標記數據和未標記數據,通過在監(jiān)督學習問題中加入和流形相關的正則化項,可以盡可能多地利用無標記數據,使得模型輸出保持原特征空間的幾何結構。文獻[16]在流形正則極限學習機二分類基礎上,提出了基于流形正則化極限學習機半監(jiān)督學習算法,通過與支持向量機、拉普拉斯偏最小二乘法、拉普拉斯支持向量機等方法比較,實驗驗證了基于流形正則化半監(jiān)督的極限學習機方法具有較高的準確性和泛化性。
針對污水工況識別過程中現有監(jiān)督學習方法未利用大量未標記數據蘊含的豐富操作工況信息,本文采用基于流形正則化極限學習機的半監(jiān)督學習方法,監(jiān)視生化污水處理過程操作運行工況。
城市污水處理過程采用活性污泥二級生化處理工藝,如圖1所示。
進水經過預處理和初沉池去除污水中懸浮固體和漂浮物后,進入曝氣池和二沉池組成的二級生物處理單元。曝氣池內微生物降解有機物進行新陳代謝,二沉池內污泥通過重力作用進行固液分離。處理過的污水從沉淀池溢流排出,污泥從二沉池底部回流到曝氣反應池以維持適當的污泥濃度,剩余污泥經濃縮、消化、壓濾脫水處理。
污水處理廠通常在入水、初沉池、曝氣池和二沉池以及出水處檢測水質、水量指標,各監(jiān)測點變量名稱和含義見表1。在污水處理廠運行操作過程中,常見的異常操作工況包括入水水質指標超負荷、欠負荷運行、入水水量的沖擊如干旱、暴雨等事件以及污泥上浮、老化、中毒、膨脹、漂出等二沉池問題。
2.1極限學習機
極限學習機ELM是一種用于訓練單隱含層前饋神經網絡方法。由于ELM隨機初始化輸入權值和隱含層偏置,最小二乘方法求解輸出權值,克服了傳統梯度下降學習算法訓練速度慢、容易陷入局部極小點、學習率敏感等不足,該方法具有學習速絡輸出為度快,泛化能力強等優(yōu)點[15]。
圖1 活性污泥污水處理工藝流程Fig.1 Flow chart of activated sludge wastewater treatment process
表1 污水處理過程監(jiān)測變量Table 1 Wastewater treatment process variables
對于任意N個訓練樣本(xj, tj),假設具有?個隱含層神經元和激活函數G(wi,bi, x ),ELM神經網
其中,x∈Rn,wi∈ Rn,βi∈ Rm。G(wi,bi, x )為與輸入x對應的第i個隱含層神經元的輸出;為第i個隱含層神經元與輸出之間的連接權向量。激活函數g( x )取為RBF神經元時,隱含層輸出為
其中,wi和bi分別為第i個徑向基函數的中心和影響因子;R+是一個正實數集合。存在iβ,wi和bi,以零誤差逼近這N個樣本點,即
式(3)可以寫成矩陣形式為
其中,H是ELM神經網絡的隱含層輸出矩陣
2.2流形正則化框架
半監(jiān)督學習算法的建立需要以下兩個前提[16]:①標記數據Xl和未標記數據Xu來自于相同的邊界分布Px;②如果兩個點x1、x2接近,那么條件概率P( y | x1)和P( y | x2)也是相似的。流行正則化框架提出最小化成本函數Lm
其中,Wij是xi和xj這兩個類型之間的分段相似矩陣。相似矩陣W=[ Wij]通常情況下非零元素很少,因此需要在xi和xj這兩個類型之間放置一個非零權值,如果xi和xj這兩個點接近,也就是說xi是xj的k最近鄰。非零權值通常由高斯公式計算,,或者設置為固定值1。
由于條件概率計算困難,采用數據樣本的預測誤差加權平方和近似Lm
yi、yj分別是數據樣本xi和xj的預測值,采用矩陣形式簡化表達式(6)
Tr(~)表示一個矩陣的跡,L= D? W是圖拉普拉斯算子,D是對角矩陣,對角元素為。
2.3結合流形正則化框架與極限學習機的半監(jiān)督學習算法
高維輸入特征通常會引起模型復雜,泛化性能降低。實際上,高維空間數據分布在低維流形子空間上。通過有標記和無標記樣本共同來挖掘嵌入在高維空間中數據分布的幾何結構,然后在機器學習問題中加入流形正則化項,約束模型輸出的幾何形狀,將有監(jiān)督數據和無監(jiān)督數據結合結合起來學習的半監(jiān)督學習方法,有效解決高維度帶來的模型高復雜度導致模型的泛化能力下降問題[16]。
其中,圖拉普拉斯矩陣L由標記數據和未標記數據共同建立,模型輸出預報矩陣,正則項系數λ控制數據分布的幾何形狀。
模型訓練過程中,模型傾向于適配訓練樣本多的類,類間數據樣本個數不均衡會影響半監(jiān)督學習效果。為緩解樣本不均衡模型泛化性降低問題,通過對不同類分別施加不同懲罰參數,避免樣本多的類出現過擬合,樣本少的類被忽略。假設樣本xi屬于類ti,類ti有Nti個訓練樣本,為平衡類間個數不均衡帶來的誤差,類間懲罰參數Ci等于C0除以所屬類的個數Nti
其中,C0是ELM模型正則項參數。將約束因子帶到目標函數中,寫成矩陣形式
Y∈Rnh × n0是訓練目標值,第l行為Yi,其余行為零,C是對角矩陣,前l(fā)行對角元素為[C]ii=C(i= 1, L , l),其余值為零。關于β目標函數的梯度
通過設置梯度為零,求解β。當標記數據的個數大于隱含層神經元個數時
當標記數據的個數小于隱含層神經元個數時,
Il+u是一個l+ u維的單位矩陣。當設置平衡參數λ為零、對角矩陣元素[C]ii=Ci(i=1, L , l)為常量時,式(12)、式(13)提高極限學習機算法學習效率。
半監(jiān)督極限學習機SS-ELM算法如表2所示。
表2 半監(jiān)督極限學習機SS-ELM算法Table 2 Algorithm of semi-supervised ELM
本節(jié)主要研究半監(jiān)督極限學習機在污水處理過程操作工況識別性能,并與傳統監(jiān)督學習方法極限學習機ELM進行對比。
污水處理數據來源于UCI數據庫[17]。該數據是Manresa城市污水處理廠1990~1991年日常監(jiān)測數據,共包含527樣本,38個屬性變量,涵蓋12類不同的操作工況,包括2類正常工況、1類入水欠負荷、2類固體超負荷、3類暴雨工況、4類二沉池異常工況。事實上,UCI_WWTP污水處理廠采集來的數據存在缺失和離群點,這類數據會惡化模型學習性能。本文采用一種能夠抑制離群點的魯棒EMPCA數據校正方法[18]進行離群點識別和缺失數據的處理。數據預處理前后部分屬性變量處理結果如圖2所示。從圖2可以看出,經過魯棒EMPCA數據校正后數據變量中離群點能夠被識別,缺失點得到合理估計。
圖2 數據預處理前后變量趨勢對比Fig.2 Variable trend comparison before and after data preprocessing
針對半監(jiān)督學習需要大量標記和無標記樣本數據訓練,本文選用常見的3類污水處理工況:正常、超負荷和欠負荷工況,460個樣本進行半監(jiān)督學習。考慮生物需氧量BOD水質指標獲取時間長,忽略各監(jiān)測點BOD變量,剩余31個變量作為模型數據集。正常工況、超負荷工況和欠負荷3類工況分別編碼為整數Ⅰ、Ⅱ、Ⅲ,如表3所示。
表3 污水處理數據集和編碼Table 3 Wastewater treatment data and encoding
3類工況數據集合樣本個數分別為275、116和69。模型訓練和測試過程中,整個數據集合被劃分為4個部分:帶標記的數據集合L,校驗集合V、未標記數據集U和測試數據樣本集T。有標記數據集合L和未標記數據集U用于訓練半監(jiān)督SS-ELM模型,校驗集合V用于模型超參數選擇。
污水操作工況識別半監(jiān)督SS-ELM方法訓練包括輸入權值隨機初始化和輸出權值求解。在計算隱含層輸出矩陣H過程中,激活函數采用Sigmoid類型函數,輸入權值和偏差一致分布在(?1,1)范圍內。隱含層節(jié)點nh設定在100~2000范圍內,每隔100遞增。文中采用分類精度和誤差評價模型的性能,兩者均百分比表示。其中,分類精度等于測試數據正確分類樣本個數占總樣本個數的百分比。分類誤差等于100減識別精度。圖3顯示了隱含層節(jié)點數目對識別精度的影響。從圖3中可以看出,隱含層節(jié)點個數選為200。
圖3 隱含層節(jié)點數目對識別精度的影響Fig.3 Influence of hidden neuron number on recognition accuracy
實驗過程中,基于校驗集分類精度確定合適的參數C0和λ。尋優(yōu)過程中,模型參數C0和λ設置范圍為。圖4顯示不同參數C和λ0對識別精度的影響。圖4中參數C0和參數λ采用對數坐標lgC0和lgλ表示,由圖4確定最優(yōu)參數C0= 0.1和λ=0.01。
保持模型參數不變情況下,設置不同比例的標記和未標記數據比較模型性能。不同數量標記數據的SS-ELM和傳統ELM方法性能對比如圖5所示。圖5顯示,當標記數據量不斷增加時,SS-ELM模型誤差趨向降低。圖6顯示了在加入不同數量未標記數據下SS-ELM和ELM性能對比。圖6顯示,隨著未標記數據增多,半監(jiān)督方法SS-ELM識別精度優(yōu)于傳統ELM,這是因為未標記樣本擴充了訓練數據樣本。
圖4 參數C、λ對識別精度的影響Fig.4 Influence of parameters C and λ on accuracy
圖5 不同數量的標記數據測試誤差Fig.5 Influence of different number of labeled data on test error
圖6 加入未標記數據個數測試誤差Fig.6 Influence of unlabeled data on test error
針對污水處理過程存在少量已標記樣本和大量未標記樣本,采用基于流形正則化半監(jiān)督極限學習機方法,通過隨機產生隱含層參數,避免復雜的迭代過程從而提高學習速率,融合未標記樣本信息,增強模型分類識別精度,避免標記數據少模型精度不足問題。仿真實驗結果表明,基于半監(jiān)督極限學習機的污水處理故障識別方法準確率與可靠性相對優(yōu)于傳統極限學習機方法。
符號說明
bi,wi——分別為第i個隱含層神經元閾值和連接權值
C——懲罰因子系數對角矩陣
C0——預報誤差的懲罰參數初始值
D——稀疏相似對角矩陣
F——神經網絡輸出矩陣
L——圖拉普拉斯算子
Tr(~)——矩陣的跡
{Xl, Yl}——訓練集標記數據
Xu——非標記數據
yi,yj——分別為樣本數據xi和xj的預測值
β——隱含層權值矩陣
λ——平衡參數
References
[1]FIKAR M, CHACHUAT B, LATIFI M A. Optimal operation of alternating activated sludge processes [J]. Control Engineering Practice, 2005, 13 (7): 853-861.
[2]CHONG H G, WALLEY W J. Rule-based versus probabilistic approaches to the diagnosis of faults in wastewater treatment processes [J]. Artificial Intelligence in Engineering, 1996, 10 (3): 265-273.
[3]CARRASCO E F, RODRíGUEZ J, PU?AL A, et al. Rule-based diagnosis and supervision of a pilot-scale wastewater treatment plant using fuzzy logic techniques [J]. Expert Systems with Applications, 2002, 22 (1): 11-20.
[4]TOMITA R K, SONG W P, SOTOMAYOR O A Z. Analysis of activated sludge process using multivariate statistical tools—a PCA approach [J]. Chemical Engineering News, 2002, 90 (3): 283-290.
[5]FAN X W, DU S X, WU T J. Rough support vector machine and its application to wastewater treatment processes [J]. Control and Decision, 2004, 19 (5): 573-576.
[6]GUO H, JEONG K, LIM J. Prediction of effluent concentration in a wastewater treatment plant using machine learning models [J]. Journal of Environmental Sciences, 2015, 32 (105): 90-101.
[7]SHAHSHAHANI B M, LANDGREBE D A. Using partially labeled data for normal mixture identification with application to class definition [C]//Geoscience and Remote Sensing Symposium, 1992. IGARSS '92. International. IEEE, 1992:1603-1605.
[8]NIYOGI P. Manifold regularization and semi-supervised learning: some theoretical analyses [J]. Journal of Machine Learning Research, 2013, 14 (1): 1229-1250.
[9]ZHU X. Cross-domain semi-supervised learning using feature formulation [J]. IEEE Trans. Syst., Man, Cybern. - Part B: Cybern., 2011, 41 (6): 1627-1638.
[10]WANG G, WANG F, CHEN T, et al. Solution path for manifold regularized semi-supervised classification [J]. IEEE Trans. Syst., Man, Cybern. - Part B: Cybern., 2012, 42 (2): 308-319.
[11]VAPNIK V N. Statistical Learning Theory [M]. New York: Wiley, 1998.
[12]BELKIN M, NIYOGI P, SINDHWANI V. Manifold regularization: a geometric framework for learning from labeled and unlabeled examples [J]. Journal of Machine Learning Research, 2006, 7 (3): 2399-2434.
[13]LIU J, CHEN Y, LIU M, et al. SELM: semi-supervised ELM with application in sparse calibrated location estimation [J]. Neurocomputing, 2011, 74 (16): 2566-2572.
[14]LI L, LIU D, QUYANG J. A new regularization classification method based on extreme learning machine in network data [J]. Journal of Information & Computational Science, 2012, 9 (12): 3351-3363.
[15]HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: theory and application [J]. Neurocomputing, 2006, 70:489-501.
[16]HUANG G, SONG S, GUPTA J N, et al. Semi-supervised and unsupervised extreme learning machines [J]. IEEE Transactions Cybernetics, 2014, 44 (12): 2405-2417.
[17]http://archive.ics.uci.edu/ml/datasets/Water+Treatment+Plant.
[18]ZHAO L J, CHAI T Y, CONG Q M. Operating condition recognition of pre-denitrification bioprocess using robust EMPCA and FCM [C]// CHAI T Y. The Sixth World Congress on Intelligent Control and Automation, IEEE WCICA. Dalian, 2006: 9386-9390.
Identification of wastewater operational conditions based on manifold regularization semi-supervised learning
ZHAO Lijie, WANG Hailong, CHEN Bin
(College of Information Engineering, Shenyang University of Chemical Technology, Shenyang 110142, Liaoning, China)
Abstract:The wastewater treatment process is vulnerable to the impact of external shocks to cause sludge floating, aging, poisoning, expansion and other failure conditions, resulting in effluent deterioration and high energy consumption. It is urgent to quickly and accurately identify the operating conditions of wastewater treatment process. In the existing supervised learning methods all the data are labeled which are time consuming and expensive. A multitude of unlabeled data to collect easily and cheaply have rich and useful information about the operating condition. To overcome the disadvantage of supervised learning algorithms that they cannot make use of unlabeled data, a semi-supervised extreme learning machine algorithm based on manifold regularization is adopted to monitor the operation states of biochemical wastewater treatment process. The graph Laplacian matrix is constructed from both the labeled patterns and the unlabeled patterns. Extreme learning machine algorithm is adopted to handle the semi-supervised learning task under the framework of the manifold regularization. It constructs the hidden layer using random feature mapping and solves the weights between the hidden layer and the output layer, which exhibit the computational efficiency and generalization performance of the random neural network. The results of simulation experiments show that the fault identification method based on semi supervised learning machine has superiority to the basic extreme learning machine in improving the accuracy and reliability.
Key words:wastewater treatment; extreme learning machine; semi-supervised learning; manifold regularization
中圖分類號:TP 391
文獻標志碼:A
文章編號:0438—1157(2016)06—2462—07
DOI:10.11949/j.issn.0438-1157.20151625
基金項目:國家自然科學基金項目(61203102,61573364);遼寧省教育廳科學研究項目(L2013158, L2013272)。
Corresponding author:Prof. ZHAO Lijie, zlj_lunlun@163.com