李東 黃道平 許翀 劉乙奇
(華南理工大學 自動化科學與工程學院,廣東 廣州 510640)
水處理過程包含了一系列復雜多變的生化反應。近年來,國家對于污水處理過程中出水質量指標的管控越來越嚴格,但仍有許多重要的出水指標(5日生化需氧量(BOD5)、化學需氧量(COD)等)都無法準確地監(jiān)測,特別是偏遠地區(qū)和農村地區(qū)的污水廠。超大型城市的污水廠雖然安裝了在線監(jiān)測儀器儀表,但普遍存在價格昂貴、維護成本高、監(jiān)測精度差、使用壽命短等問題。因此,利用軟測量技術實現(xiàn)對污水處理過程重要出水指標的有效監(jiān)測具有重要的意義[1]。
軟測量技術通過收集污水處理過程中的易測量變量,分析易測量變量與難測量變量間的數(shù)理關系,從而建立預測模型,實現(xiàn)對難測量變量的預測。近年來,對于污水處理過程難測量變量的預測問題,引起了眾多學者的廣泛關注。郭曉燕等[2]將粒子群算法與反饋(BP)神經(jīng)網(wǎng)絡結合實現(xiàn)了對污泥容積指數(shù)(SVI)的有效預測;趙超等[3]對最小二乘支持向量機(LSSVM)進行改進,實驗表明,加權最小二乘支持向量機對總氮(TN)和總磷(TP)的預測結果最佳;然而,這些模型的迭代時間較長,降低了模型的預測效率。邱禹等[4]提出了一種基于深層神經(jīng)網(wǎng)絡的多輸出自適應軟測量模型,用于對多個出水變量(BOD、COD和SVI等)的同步在線預測;但是,要使多輸出模型發(fā)揮優(yōu)勢,建模數(shù)據(jù)的輸入-輸出分布要具備統(tǒng)一性。盧超等[5]針對氨氮的實時測量問題,提出了一種基于尖峰自組織徑向基神經(jīng)網(wǎng)絡(RBF)的軟測量方法;然而,預測模型的建立需要收集大量的訓練數(shù)據(jù)。
在污水處理過程中,標記數(shù)據(jù)(同時包含輸入變量和輸出變量)和未標記數(shù)據(jù)(僅包含輸入變量)間的比例嚴重失調。上述的監(jiān)督學習方法會丟棄大量未標記數(shù)據(jù),從而導致數(shù)據(jù)資源的浪費[6]。此外,采用傳統(tǒng)化驗測量的方法補充未標記數(shù)據(jù)缺少的輸出變量,成本高昂且缺乏時效性。為了更加充分地使用未標記數(shù)據(jù),近年來,半監(jiān)督學習方法得到廣泛地研究。劉小蘭等[7]提出了一種基于最小熵正則化的半監(jiān)督分類算法,該算法能夠在標記數(shù)據(jù)較少的情況下,通過使用未標記數(shù)據(jù),保證模型仍具有較高的分類質量;史旭東等[8]對自訓練的半監(jiān)督算法進行改進,并與GPR方法結合,實現(xiàn)對脫丁烷塔塔底丁烷濃度的預測;Yao等[9]用協(xié)同訓練的半監(jiān)督方法迭代調用極限學習機,建立了可以廣泛應用到工業(yè)過程的軟測量模型;但是,現(xiàn)有的半監(jiān)督軟測量模型多為離線的單輸出模型,模型經(jīng)過長時間的使用后,預測結果已經(jīng)不夠理想。此外,隨著污水處理工藝越來越復雜,需要監(jiān)測的變量也隨之增多,傳統(tǒng)的單輸出模型效率低下,無法滿足需求。
為了提高模型的自適應性,模型的優(yōu)化方法得到廣泛地研究。劉乙奇等[10]對即時學習算法進行改進,應用到污水處理監(jiān)測中;Cong等[11]提出了一種自適應加權融合的方法來優(yōu)化小波神經(jīng)網(wǎng)絡模型,在外部條件頻繁變化的情況下,對水質COD的預測也能滿足監(jiān)測要求;吳菁等[12]利用時間差分方法改進多核相關向量的動態(tài)特征,提升了模型的預測性能。然而,這類自適應方法的優(yōu)化模式單一,泛化能力弱。
基于上述分析,文中提出了一種基于協(xié)同訓練的集成自適應多輸出軟測量模型,首先利用高斯過程回歸和相關向量機兩種不同類別的方法建立一個異構的軟測量模型;然后通過移動窗口[13]和卡爾曼濾波[14]分別對模型的結構和參數(shù)進行更新;最后通過實際污水廠的實驗對模型的預測性能和自適應性進行驗證。
高斯過程可以表示為隨機變量的集合,該集合中的任意隨機變量組合都服從聯(lián)合高斯分布。高斯過程模型是由均值函數(shù)和協(xié)方差函數(shù)唯一確定,并且通常情況下,均值函數(shù)可以假定為零,因此,只需要確定協(xié)方差函數(shù)便可以確定高斯過程模型[15]。文中,將高斯過程模型應用到多輸出系統(tǒng),同時對多個輸出變量預測;因此,在保留原有算法結構的基礎上,將輸出變量定義為多維矩陣。文中將標記數(shù)據(jù)記為
(X,Y)={(x1,y1),…,(xl,yl)},
其中:X∈Rl×m、Y∈Rl×n,m和n分別表示輸入和輸出的變量個數(shù),l為數(shù)據(jù)數(shù)量。
輸入和輸出變量之間的關系如下:
Y=f(X)+ε
(1)
f(X)~GP(0,K(·,·))
(2)
協(xié)方差矩陣K的計算函數(shù)眾多,文中利用徑向基協(xié)方差函數(shù)計算協(xié)方差矩陣。
(3)
(4)
其中,k(xq)表示測試數(shù)據(jù)xq與每個訓練數(shù)據(jù)之間的協(xié)方差向量,k(xq,xq)是xq與本身的協(xié)方差,K是訓練數(shù)據(jù)集合的協(xié)方差矩陣。
對于小樣本、非線性但高維度的數(shù)據(jù)集合,高斯過程回歸可以達到令人滿意的預測效果。此外,由高斯過程回歸建立的預測模型,參數(shù)較少,計算過程更快,是一種高效且穩(wěn)定的概率預測方法。
相關向量機是一種基于稀疏貝葉斯原理的模型,多用于數(shù)據(jù)分類和回歸[16]。由于文中建立的是多輸出預測模型,因此將現(xiàn)有的相關向量機模型推廣到多輸出系統(tǒng)中,主要的區(qū)別在于每個輸入樣本的權重值都是由同一組數(shù)據(jù)所共享的超參數(shù)控制,使得每一個輸出變量都與輸入變量存在依賴性,并且輸出變量之間也存在相關性[17]。這些超參數(shù)描述了權重值的后驗分布情況,超參數(shù)數(shù)值在訓練過程中通過迭代估計。其中,絕大多數(shù)的超參數(shù)數(shù)值接近于無窮大,導致后驗分布可以將相應的權重值設置為零,而其余對應非零權重值的數(shù)據(jù)稱為關聯(lián)向量。這種算法使本研究可以為多個輸出變量選擇相同的輸入變量集合,簡化了建模結構。具體的回歸函數(shù)為
yh=Φ(x)βh+h
(5)
其中:yh表示第h列的輸出向量;βh表示第h列的權值參數(shù);h表示均值為0、協(xié)方差為σ2的高斯白噪聲;Φ(x)是以輸入向量為基礎的函數(shù),其函數(shù)形式為
Φ(x)=[1φ(x,x1)φ(x,x2) …φ(x,xl)]′
(6)
φ表示用于比較任意兩組輸入變量特性的函數(shù),其中Gaussian、Polynomial和cubic等核函數(shù)都可以作為基本函數(shù)。本研究以Gaussian核函數(shù)作為基本函數(shù)。
(7)
通過期望最大化算法(EM)對參數(shù)進行識別。該算法迭代兩步:第一步計算每個變量中映射函數(shù)的概率,第二步使用前一步中計算的概率估計每個映射函數(shù)的參數(shù)。
(8)
(9)
(10)
(11)
(12)
協(xié)同訓練方法作為半監(jiān)督學習中最常見的方法之一[18],它能夠將標記數(shù)據(jù)均分為兩組,并同步對兩組數(shù)據(jù)集用不同種類的回歸方法進行互不影響的訓練和建模,提高了回歸模型的獨立性和多樣性。此外,由兩個相互獨立的訓練集合對未標記數(shù)據(jù)進行評價和選取,減少了不合格未標記數(shù)據(jù)的選入,提高了模型的精度。然而,軟測量模型在經(jīng)過長時間的運行后,預測性能會下降。為了解決這一問題,本研究提出一種集成自適應方法,將移動窗口法與卡爾曼濾波結合,同時對模型的結構和參數(shù)更新?;趨f(xié)同訓練的集成自適應多輸出軟測量模型的框架圖如圖1所示。
圖1 基于協(xié)同訓練的集成自適應GPR-RVM多輸出模型框架圖
本研究以多輸出的高斯過程回歸和相關向量機作為回歸方法,構建基于協(xié)同訓練的集成自適應異構多輸出軟測量模型。半監(jiān)督學習方法的核心是利用未標記數(shù)據(jù)所攜帶的數(shù)據(jù)信息,實現(xiàn)對預測模型的改進和優(yōu)化。為了選擇出最合適的未標記數(shù)據(jù),文中以文獻[19]在協(xié)同訓練回歸(Coreg)中提出的置信度評價標準作為依據(jù),將置信度的計算公式也擴展到多輸出系統(tǒng):
(13)
此外,多輸出預測模型考慮輸出變量之間的相關性,通過一次建模實現(xiàn)對多個輸出變量的同步預測,有效地提高模型的預測效率。高斯過程回歸和相關向量機作為兩種不同的非線性回歸方法,無論是訓練還是建模過程,都保證了模型之間的獨立性,增強了預測模型的泛化能力。最后,集成自適應方法對預測模型的結構和參數(shù)同步更新,互相補充,模型的自適應性可以得到顯著地提升。
移動窗口通過更新建模數(shù)據(jù)實現(xiàn)對模型結構的更新:
(14)
基于協(xié)同訓練的集成自適應GPR-RVM多輸出模型的具體步驟如下:
步驟1 將收集到的數(shù)據(jù)分為標記數(shù)據(jù)集合L={(x1,y1),(x2,y2),…,(xl,yl)}和未標記數(shù)據(jù)集合U={x1,x2,…,xu}。將標記數(shù)據(jù)集合L編號后,利用奇偶分組的方法均分為L1和L2(若l為奇數(shù),L1={(x1,y1),(x3,y3),…,(xl,yl)},L2={(x2,y2),(x4,y4),…,(xl-1,yl-1) };若l為偶數(shù),L1={(x1,y1),(x3,y3),…,(xl-1,yl-1) },L2={(x2,y2),(x4,y4),…,(xl,yl) }) ,再利用高斯過程回歸和相關向量機對L1和L2兩組標記數(shù)據(jù)集合構建回歸模型f1和f2。不同于隨機分組和前后均分的方法,奇偶分組的方法雖然破壞了數(shù)據(jù)的連續(xù)性,但分兩組標記數(shù)據(jù)能夠包含全局信息,有利于建立更準確的預測模型。用兩種不同類型的回歸方法,可以提高訓練和建模過程中模型的多樣性,減少不適合未標記數(shù)據(jù)的選入。另一方面,多類型的回歸方法,使模型的泛化能力得到提高,適用于更廣泛的工業(yè)數(shù)據(jù)。
步驟3 建立預測模型。對最終的標記數(shù)據(jù)集合L1和L2分別用高斯過程回歸和相關向量機構建預測模型h1和h2。兩個回歸模型相較于之前的回歸模型f1和f2,由于標記數(shù)據(jù)組的數(shù)據(jù)數(shù)量和信息都得到了提高,模型的預測結果將更加準確。
步驟4 由文中提出的集成自適應方法,對模型進行動態(tài)優(yōu)化。利用移動窗口法對建模數(shù)據(jù)實現(xiàn)動態(tài)更新,以達到更新模型結構的效果。由于工業(yè)過程中,各階段數(shù)據(jù)的狀態(tài)是不同的,利用移動窗口法可以實現(xiàn)建模數(shù)據(jù)隨時間的變化而變化,模型的結構也因為數(shù)據(jù)信息的變化而更新。同時,在每一步的預測過程中,利用卡爾曼濾波中的卡爾曼增益系數(shù),對預測模型h1和h2得到的預測結果加權,實現(xiàn)對模型參數(shù)的更新,得到最終的預測結果。卡爾曼增益系數(shù)為Gk,由h1和h2計算得到的預測結果分別為h1(x)和h2(x)。
(15)
(16)
(17)
卡爾曼增益系數(shù)是由上一時刻的Ri(i=1,2)決定,因此。利用卡爾曼增益系數(shù)對預測模型h1和h2得到的預測結果加權有效地保留了上一時刻的預測信息,使得模型預測結果具有連續(xù)性。
本節(jié)分析和討論基于協(xié)同訓練的集成高斯過程回歸-相關向量機模型(Co-training GPR-RVM)的優(yōu)點和缺點。首先,在數(shù)據(jù)的預處理階段,奇偶分組的方法將數(shù)據(jù)編號后按照奇偶屬性將標記數(shù)據(jù)均分為兩組,雖然這種分組方法破壞了標記數(shù)據(jù)的連續(xù)性,但是分組得到的兩組標記數(shù)據(jù)集合都可以包含原始數(shù)據(jù)的全局信息,使得建立的訓練模型更準確。在模型結構上,協(xié)同訓練方法屬于半監(jiān)督學習方法,不同于監(jiān)督學習方法,半監(jiān)督學習方法可以充分使用未標記數(shù)據(jù)來優(yōu)化模型,提高模型的預測性能。然而,半監(jiān)督學習方法需要對未標記數(shù)據(jù)進行評價和選擇,因此,模型結構變得更復雜。此外,文中提出的Co-training GPR-RVM模型通過應用高斯過程回歸(GPR)和相關向量機(RVM)兩種相互獨立的非線性回歸算法建立和優(yōu)化模型,極大地提高了模型的多樣性,能夠使模型適用于不同的數(shù)據(jù)預測問題。最后,文中提出的集成自適應方法分別對模型的結構和參數(shù)進行了更新。在模型的在線應用中,可以更全面地提高模型的自適應能力,避免模型的衰退。
然而,Co-training GPR-RVM模型也存在一些缺點。相較于監(jiān)督學習模型,協(xié)同訓練模型因為增加了未標記數(shù)據(jù)的評價和選擇過程,使得模型結構更復雜,預測的效率更低。其次,不難發(fā)現(xiàn)的是模型在初始的預測階段,預測表現(xiàn)較差,這主要是因為在模型訓練初期,初始的卡爾曼增益系數(shù)較差,需要通過不斷地調試來優(yōu)化;為解決這一問題,可以通過不斷地調試,尋找最佳的初始卡爾曼增益系數(shù)。最后,集成自適應方法容易受到數(shù)據(jù)中個別異常值的影響,從而影響模型整體的預測表現(xiàn)。
本研究以加州大學數(shù)據(jù)庫(UCI)所收集到的污水數(shù)據(jù)為例對該方法的有效性進行驗證,以證明基于協(xié)同訓練的集成自適應GPR-RVM多輸出模型能夠實現(xiàn)對污水處理過程中難測量變量的有效預測。模型預測的表現(xiàn)不僅通過圖中預測曲線和真實曲線的擬合來反映,還可以通過均方根誤差(RMSE)、多元相關系數(shù)(RR)、對角線均方根平方和(RMSSD)以及相關系數(shù)(R)來評價;其中,RMSE和RR是模型對各個變量的評價指標,RMMSD和R是模型整體的評價指標。
(18)
(19)
(20)
(21)
UCI所收集的數(shù)據(jù)來自于一個采用活性污泥處理工藝的污水廠,該廠的污泥處理系統(tǒng)主要由預處理池、初沉池、曝氣罐、二沉池和污泥回流5部分組成,如圖2所示。該污水廠的污水處理量為3.5×104m3/d,主要對污水進行去氮除磷處理。在處理過程中,由于需要大量的微生物對化學反應進行催化、對磷酸鹽進行吸附,隨著生化反應的進行,微生物質量和種類數(shù)量會發(fā)生變化。因此,需要對整個污水處理的過程進行全面的監(jiān)測[20]。
圖2 污水處理過程原理圖
由于該污水廠的結構相對簡易,監(jiān)測設備不足,UCI所收集的數(shù)據(jù)共包含38個變量,采樣周期為1 d,共400 d數(shù)據(jù)。其中前200 d的數(shù)據(jù)作為訓練數(shù)據(jù)構建模型,后200 d的數(shù)據(jù)用來檢驗模型的預測性能。出水指標化學需氧量(COD)、生物需氧量(BOD)和回流出水指標RD-COD、RD-BOD在整個過程中最難監(jiān)測,將它們作為輸出變量對軟測量模型的預測性能進行驗證。根據(jù)對活性污泥處理工藝的機理分析,將各個階段其他變量,如懸浮物濃度(SS)、揮發(fā)性懸浮物濃度(SSV)、pH值等作為輸入變量,共計34個,詳細的變量介紹可參看文獻[21]。
為了驗證模型的預測性能,文中在相同的數(shù)據(jù)及條件下,比較了以下4種模型的預測性能:監(jiān)督學習的異構高斯過程回歸-相關向量機模型GPR-RVM;協(xié)同訓練的高斯過程回歸模型Co-training GPR;協(xié)同訓練的相關向量機模型Co-training RVM;協(xié)同訓練的異構高斯過程回歸-相關向量機模型Co-training GPR-RVM。
此外,為了驗證文中提出的集成自適應方法,分別對4種模型進行集成自適應處理后再次進行對比。其中,未進行集成自適應處理的模型被稱為離線模型,經(jīng)過集成自適應處理的模型被稱為在線模型。
各個模型預測結果見表1。首先,比較在集成自適應方法下4種模型的預測結果,Co-training GPR-RVM模型的RMSSD值比GPR-RVM模型的RMSSD值減小了17.25%,這主要是因為協(xié)同訓練方法能充分使用未標記數(shù)據(jù)優(yōu)化模型,提高了模型的預測性能;此外,Co-training GPR-RVM模型的RMSSD值是最小的,為9.986 5,這說明了在集成自適應方法下,異構多輸出軟測量模型的預測效果整體上優(yōu)于同構模型。但是也不難發(fā)現(xiàn),Co-trai-ning GPR-RVM模型對于個別輸出變量的預測效果并不是最佳的,主要的原因是在訓練學習過程中,未標記數(shù)據(jù)的置信度是在多輸出系統(tǒng)下計算得到,輸出變量間將會存在相互的影響,最終影響模型對個別輸出變量的預測表現(xiàn)。此外,為了更直觀地反映異構模型和同構模型的預測表現(xiàn),文中給出了集成自適應條件下3種協(xié)同訓練模型預測結果的多元相關系數(shù)(RR)的條形圖,如圖3所示。
表1 模型預測結果對比
圖3 多元相關系數(shù)直方圖
由圖3可知,Co-training GPR-RVM模型對于每一個輸出變量的相關系數(shù)基本都是最大的,尤其是BOD和COD兩個重要出水指標的,分別為0.899 2和0.872 8,這可以為污水處理廠在最終排污時,污水指標是否達到安全指標提供一個可靠的監(jiān)測結果。
為了驗證集成自適應方法對模型預測性能的影響,在相同的回歸方法下,比較在線模型與離線模型的RMSSD值可知,集成自適應方法下模型的RMSSD都有顯著地降低,相較于離線的GPR-RVM、Co-training GPR、Co-training RVM 和Co-training GPR-RVM模型 的RMSSD分別減小了12.78%,2.18%,8.14%和17.72%,尤其是Co-training GPR-RVM模型的優(yōu)化效果最為明顯。這說明隨著時間的推移,集成自適應方法能夠保證模型性能維持在一個令人滿意的狀態(tài)。
Co-training GPR-RVM模型在集成自適應方法和離線方法下的預測結果如圖4所示。
圖4 模型的預測曲線
由圖4可見,兩種模型均表現(xiàn)出良好的跟蹤性能,但對于峰值和谷值點的擬合較差。相較于離線模型,集成自適應模型對峰值與谷值點的跟蹤較好,這主要是因為集成自適應模型會根據(jù)上一時刻的預測誤差對這一時刻的模型系數(shù)進行更新。對峰值與谷值點實現(xiàn)更好的跟蹤,可以對污水處理過程中的故障進行及時地判斷和反饋,減少不必要的損失。
針對UCI收集的采用活性污泥處理工藝的污水廠的數(shù)據(jù),本研究提出的基于協(xié)同訓練的集成自適應GPR-RVM多輸出模型實現(xiàn)了對出水指標 COD、BOD和回流出水指標RD-COD、RD-BOD的有效預測。主要原因是:
首先,該污水廠由于結構簡易、監(jiān)測設備不足,導致數(shù)據(jù)量較小,嚴重影響預測模型的建立。文中采用協(xié)同訓練的半監(jiān)督學習方法對標記數(shù)據(jù)集合進行擴充,并且將非線性回歸算法GPR和RVM結合,建立了異構的軟測量模型。
其次,由于污水處理是一個復雜且多變的工業(yè)過程,離線的軟測量模型無法滿足預測精度的要求。因此,文中提出的集成自適應方法,利用移動窗口和卡爾曼濾波同步對模型的結構和參數(shù)進行實時優(yōu)化,保證了模型的預測精度。
最后,在污水處理過程中,難測量變量間存在相關性,本研究將軟測量模型推廣到多輸出系統(tǒng),實現(xiàn)了對多個變量的同步預測;不僅提高了模型的預測精度,模型的預測效率也得到提升。
本研究以半監(jiān)督學習方法為出發(fā)點,提出了一種基于協(xié)同訓練的集成自適應GPR-RVM多輸出軟測量模型,并以通過污水處理過程中的重要出水指標變量(COD和BOD)驗證了異構的半監(jiān)督軟測量模型的預測性能和集成自適應方法對模型的優(yōu)化能力。最后以實際污水廠為對象進行了實驗,對模型的預測性能和自適應性進行驗證,結果表明該模型預測表現(xiàn)優(yōu)于同條件下同構的半監(jiān)督軟測量模型,模型的自適應性在集成自適應方法優(yōu)化下也得到了顯著地提升。