李東,黃道平,劉乙奇
(華南理工大學(xué)自動化科學(xué)與工程學(xué)院,廣東廣州510641)
近年來,基于數(shù)據(jù)驅(qū)動的軟測量技術(shù)被廣泛地應(yīng)用到工業(yè)過程中,主要用于生產(chǎn)過程重要且難以測量變量的預(yù)測[1-2]?;跀?shù)據(jù)驅(qū)動建模的方法作為軟測量技術(shù)中有效且常用的建模方法,無須掌握復(fù)雜的生化反應(yīng)機(jī)理,僅僅需要通過對易獲取的數(shù)據(jù)進(jìn)行分析,建立輸入輸出數(shù)據(jù)的相關(guān)模型[3-5]。其中,主成分回歸(PCR)[6]、偏最小二乘(PLS)[7]、高斯過程回歸(GPR)[8]、支持向量機(jī)(SVM)[9]等模型近年來在工業(yè)建模中受到了廣泛的關(guān)注[10]。然而,隨著工業(yè)過程越來越復(fù)雜,不易檢測的變量越來越多,收集數(shù)據(jù)的成本更是隨之增加,導(dǎo)致在獲取的數(shù)據(jù)中,標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)的比例嚴(yán)重不平衡。在機(jī)器學(xué)習(xí)領(lǐng)域,將同時包含輸入和輸出的數(shù)據(jù)稱為標(biāo)記數(shù)據(jù),只包含輸入的數(shù)據(jù)稱為未標(biāo)記數(shù)據(jù)。如何充分地利用大量的未標(biāo)記數(shù)據(jù)所攜帶的信息,成為建模過程的當(dāng)務(wù)之急。半監(jiān)督學(xué)習(xí)算法的提出有效地解決了這個難題,并在近年來得到了廣泛的研究[11-13]。半監(jiān)督學(xué)習(xí)按照方法分類,可以概括為基于圖的方法(graph-based method)[14]、生成式模型(generative models)[15]、TSVM(transductive support vector machines)[16]、自訓(xùn)練方法(self-training)[17]和協(xié)同訓(xùn)練算法(co-training)[18]。
協(xié)同訓(xùn)練算法作為一種典型的半監(jiān)督學(xué)習(xí)算法,其基本思路是:基于標(biāo)記樣本建立兩個或者多個相互獨立的回歸模型,然后從未標(biāo)記的數(shù)據(jù)中選擇一些置信度高的數(shù)據(jù)加入到訓(xùn)練集中,有效地更新和改進(jìn)模型。周志華等[19]首次提出了協(xié)同訓(xùn)練回歸算法,并將協(xié)同訓(xùn)練算法應(yīng)用到軟測量的研究中。包亮等[20]將協(xié)同訓(xùn)練算法與傳統(tǒng)的PLS 算法結(jié)合,建立了一種可以有效地解決線性問題的cotraining PLS 軟測量模型。但是,該方法是一個離線的軟測量模型,模型的預(yù)測性能會隨著時間推移不斷退化。為了提高模型的預(yù)測性能,Goldman 等[21]提出一種改進(jìn)的協(xié)同訓(xùn)練算法,采用交叉校驗的方法挑選無標(biāo)記數(shù)據(jù)。雖然,該算法選擇了置信度更高的無標(biāo)記數(shù)據(jù),但是交叉驗證的過程計算成本較高。Nigan 等[22]從標(biāo)記數(shù)據(jù)的分組方式入手,通過隨機(jī)采樣的方法把標(biāo)記數(shù)據(jù)分成兩組,模型的預(yù)測能力也得到了一定的提升。然而,這種分組方法容易產(chǎn)生離散的標(biāo)記數(shù)據(jù)集,從而降低模型的預(yù)測性能。周志華等[23]提出tri-training 的協(xié)同訓(xùn)練算法,期望通過建立三個相互獨立的標(biāo)記數(shù)據(jù)集和回歸模型以提高模型的泛化能力。但是,當(dāng)標(biāo)記樣本較少時,三個初始的回歸模型可能會同時將不適合的無標(biāo)記數(shù)據(jù)選入建模的數(shù)據(jù)集合,在迭代過程中錯誤不斷累積,從而降低軟測量模型的預(yù)測精度。
本文提出了一種異構(gòu)自適應(yīng)co-training RPLSRBP 混合軟測量模型。首先,該方法采用傳統(tǒng)的協(xié)同訓(xùn)練算法,將標(biāo)記數(shù)據(jù)分成兩組回歸建模并訓(xùn)練,不同之處在于文中提出了一種新型的標(biāo)記數(shù)據(jù)的分組方法。傳統(tǒng)而言,研究對象是復(fù)雜的工業(yè)過程且數(shù)據(jù)波動大,無論是常用的整體均分的方法還是隨機(jī)分組的方法,都容易使標(biāo)記數(shù)據(jù)只包含局部特征,最終導(dǎo)致建立的軟測量模型精度不高。為此,本文提出了奇偶分組的方法,先對標(biāo)記數(shù)據(jù)依次編號,然后使用奇偶分組的方法將標(biāo)記數(shù)據(jù)均分為兩部分。該方法,一方面,數(shù)據(jù)同樣地被均分成兩份,另一方面,兩組標(biāo)記數(shù)據(jù)都會包含整段標(biāo)記數(shù)據(jù)的全局信息。此外,以往標(biāo)記數(shù)據(jù)使用的回歸算法僅采用一種線性或非線性的回歸方法。然而,本文的協(xié)同訓(xùn)練算法將同時采用兩種不同類型的回歸算法對標(biāo)記數(shù)據(jù)建模并訓(xùn)練。同時采用兩種回歸方法不僅提高兩組回歸模型的獨立性,還增加了回歸模型的多樣性(線性和非線性),以期解決可能存在于線性和非線性之間的弱非線性數(shù)據(jù)的建模問題。最后,文中通過遞歸PLS模型和遞歸BP模型合理地解決了數(shù)據(jù)漂移和模型退化等問題。特別是由于工業(yè)生產(chǎn)過程中復(fù)雜的生化反應(yīng)、惡劣的環(huán)境以及容易波動的數(shù)據(jù)等因素,實時更新的線上模型能有效地克服這些問題和提高模型的預(yù)測性能。
RPLS 算法由傳統(tǒng)的PLS 算法改進(jìn)而來。不同于傳統(tǒng)的PLS 算法,RPLS 算法是一種在線回歸算法。訓(xùn)練數(shù)據(jù)每增加一個新樣本,就會剔除一個舊樣本,通過在線修正樣本的均值和方差,將新樣本的全部信息代入到模型中[24]。然而,RPLS 算法的數(shù)學(xué)原理和PLS算法一致,具體過程如下:
其中,X∈Rn×m和Y∈Rn×1表示輸入矩陣和輸出矩陣,n表示數(shù)據(jù)組的個數(shù),m表示輸入變量的個數(shù)。T∈Rn×a和U∈Rn×a是X和Y的得分矩 陣。a是潛在變量的數(shù)量,th是T的第h行向量,uh是U的第h行向量。P(a×m)和Q(a×1)是加載矩陣,ph是P的第h行向量,qh是Q的第h行向量。E和F是噪聲矩陣。uh和th之間的關(guān)系是:
式中,bh是X空間主成分t與Y空間主成分u的內(nèi)部相關(guān)關(guān)系的回歸系數(shù)。因此,X和Y之間的關(guān)系可以表示為Y=TBQ+F,B為回歸矩陣。
對于RPLS 算法,在基于訓(xùn)練數(shù)據(jù)的基礎(chǔ)上得到T、U、P、Q、B矩陣后,PLS 算法會將新的數(shù)據(jù)xt、yt并上遺忘因子λ(0 ≤λ≤1)來更新訓(xùn)練數(shù)據(jù)X和Y。其中,更新后的X=[λX,xt],Y=[λY,yt]。通過對訓(xùn)練數(shù)據(jù)X和Y的改變,Y=TBQ+F中的T、Q、B矩陣也得到更新。
PLS 算法是一種適用于高維數(shù)據(jù)問題的方法。然而,污水處理過程非常復(fù)雜,變量眾多并且時變性強(qiáng)。RPLS 算法不僅能將高維數(shù)據(jù)以盡可能小的信息損失投影到由幾個主元構(gòu)成的低維空間,還可以通過遞歸的方法將新加的數(shù)據(jù)信息用于更新和優(yōu)化模型。
作為最具有代表性的神經(jīng)網(wǎng)絡(luò),BP神經(jīng)網(wǎng)絡(luò)是一類采用反向傳播算法進(jìn)行訓(xùn)練的前饋神經(jīng)網(wǎng)絡(luò)。RBP 神經(jīng)網(wǎng)絡(luò)同樣采用反向傳播算法和標(biāo)準(zhǔn)的網(wǎng)絡(luò)結(jié)構(gòu),不同的是RBP 神經(jīng)網(wǎng)絡(luò)是一種線上回歸算法,在增加一個新的標(biāo)記數(shù)據(jù)的同時會剔除一個舊的標(biāo)記數(shù)據(jù),再重新建立新的預(yù)測模型[25]。RBP 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)同樣是由輸入層、隱藏層和輸出層組成,層與層之間單向連接且無互連。輸入層單元個數(shù)由輸入變量決定,輸出層單元個數(shù)由輸出變量決定。隱藏層單元個數(shù)目前沒有明確的標(biāo)準(zhǔn),通常采用反復(fù)驗證的方法確定合適的單元個數(shù)。詳細(xì)的計算過程參考文獻(xiàn)[26]。
對于RBP 算法,在通過BP 算法求得網(wǎng)絡(luò)結(jié)構(gòu)中各神經(jīng)元的權(quán)值和閾值后,新的數(shù)據(jù)xt、yt會并上遺忘因子λ(0 ≤λ≤1)對原來的訓(xùn)練數(shù)據(jù)X和Y更新,即X=[λX,xt],Y=[λY,yt]。最后,由更新后的X和Y再次對網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)訓(xùn)練,確定新的權(quán)值和閾值參數(shù)。
RBP 神經(jīng)網(wǎng)絡(luò)不僅具有良好的非線性逼近和泛化能力,還能夠充分運用新的數(shù)據(jù)信息實時更新預(yù)測模型。從而受到了眾多研究者的青睞,并應(yīng)用到了多個領(lǐng)域[27]。
協(xié)同訓(xùn)練算法是為了能夠充分利用未標(biāo)記數(shù)據(jù)所攜帶的信息,提高模型的性能。但是,目前多以分類作為主要的研究方向[28-29]。周志華等[19]提出的協(xié)同訓(xùn)練回歸,將協(xié)同訓(xùn)練應(yīng)用到回歸領(lǐng)域[20-22,30]。本節(jié)提出了可以解決非線性問題的cotraining BP 模型和異構(gòu)自適應(yīng)co-training RPLSRBP 混合回歸模型。通過改進(jìn)協(xié)同訓(xùn)練的過程和應(yīng)用不同的回歸算法,使得模型能夠更好地應(yīng)對污水處理中存在的復(fù)雜性和非線性等問題,提高模型的預(yù)測能力[31]。
co-training BP 模型用BP 神經(jīng)網(wǎng)絡(luò)算法代替?zhèn)鹘y(tǒng)的PLS算法,把標(biāo)記數(shù)據(jù)平均分成為兩部分,然后建立回歸模型并用可信度最高的未標(biāo)記數(shù)據(jù)訓(xùn)練模型。由于BP 神經(jīng)網(wǎng)絡(luò)算法可以通過迭代訓(xùn)練逼近任何函數(shù)[32],因此co-training BP 模型針對具有非線性特點的污水處理過程具有較好的預(yù)測表現(xiàn)。
co-training BP模型的具體過程如下。
最后,當(dāng)滿足迭代中止條件時,用最終的標(biāo)記樣本集建立兩個新模型回歸值的均值作為最終的預(yù)測值。
在協(xié)同訓(xùn)練回歸(Coreg)的研究中,周志華等[19]提出置信度?u的定義。通過計算原始數(shù)據(jù)建立模型的RMSE 值和更新后數(shù)據(jù)建立模型的RMSE 值的差值,可以找到與原始數(shù)據(jù)一致性最高的未標(biāo)記數(shù)據(jù),提高半監(jiān)督學(xué)習(xí)算法的準(zhǔn)確性。
根據(jù)協(xié)同訓(xùn)練的思想,co-training BP 模型建立并訓(xùn)練了兩個獨立的回歸模型。通過交叉驗證的方法減少錯誤數(shù)據(jù)的積累。此外,選擇置信度最高的新標(biāo)記數(shù)據(jù),使得更新后的標(biāo)記數(shù)據(jù)集與最初給定的標(biāo)記數(shù)據(jù)集的特征高度一致。
異構(gòu)自適應(yīng)co-training RPLS-RBP 混合回歸模型不同于傳統(tǒng)的協(xié)同訓(xùn)練模型。通過改變標(biāo)記數(shù)據(jù)的均分方式和使用線上的回歸算法,使得模型能夠更好地解決污水處理過程中非線性、時變性和數(shù)據(jù)變化大等問題,并且隨著時間的變化,新采集的數(shù)據(jù)信息也能得到充分的利用。
圖1 訓(xùn)練過程(a)和預(yù)測過程(b)的圖形說明Fig.1 Graphical description of training process(a)and prediction process(b)
當(dāng)滿足迭代中止條件時,得到最終的標(biāo)記數(shù)據(jù)集L1和L2。然后分別用RPLS 算法和RBP 算法對L1和L2建立預(yù)測模型,取兩個模型回歸值的均值作為最終的預(yù)測值,如式(9)所示。當(dāng)有新的標(biāo)記數(shù)據(jù)加入L1和L2時,使用1.1 節(jié)和1.2 節(jié)中所提的方法對L1和L2更新,重復(fù)建模過程并對下一組數(shù)據(jù)進(jìn)行預(yù)測。模型的詳細(xì)過程如表1所示。
異構(gòu)自適應(yīng)co-training RPLS-RBP 混合回歸模型是一種基于協(xié)同訓(xùn)練回歸的軟測量模型,所以該模型能夠選擇合適的未標(biāo)記數(shù)據(jù)對預(yù)測模型進(jìn)行更新。此外,該模型在均分標(biāo)記數(shù)據(jù)時,克服了局部的弊端,選取的標(biāo)記數(shù)據(jù)具有全局性。采用兩種不同類型的回歸模型,可以建立更全面的回歸模型。使用線上的回歸算法,能夠充分地使用新的數(shù)據(jù)信息來更新預(yù)測模型。
表1 異構(gòu)自適應(yīng)co-training RPLS-RBP 混合回歸模型的詳細(xì)流程Table 1 Detailed flow of heterogeneous adaptive cotraining RPLS-RBP hybrid regression model
為了評估所提出的軟測量模型的預(yù)測性能,通過一個完善的模擬污水處理廠(WWTP)——廢水處理仿真基準(zhǔn)模型(BSM1)以及一個實際的污水處理廠對所提模型進(jìn)行驗證。同時,通過與傳統(tǒng)的cotraining PLS 和co-training BP 模型比較,驗證異構(gòu)自適應(yīng)co-training RPLS-RBP 混合回歸模型對多個污水重要指標(biāo)的預(yù)測性能。模型的預(yù)測性能使用均方根誤差(RMSE)和相關(guān)系數(shù)(R)作為評估標(biāo)準(zhǔn)。
3.1.1 研究背景 BSM1 是由國際水協(xié)會(International Water Association, IWA)基于1 號活性污泥模型(activated sludge model No.1,ASM1)所提出的一種基準(zhǔn)仿真環(huán)境。平臺的設(shè)備由一個生物反應(yīng)器(5999 m3)和一個二次沉淀池(深4 m,10 層,6000 m3)組成。生物反應(yīng)器包含五個反應(yīng)池,前兩個反應(yīng)池(每個1000 m3)為非曝氣的,后三個反應(yīng)池(每個1333 m3)為曝氣的。處理污水的平均流量為20000 m3/d,可生物降解的化學(xué)需氧量(COD)的平均濃度為300 mg/L。仿真數(shù)據(jù)由14 d 的晴天數(shù)據(jù)組成,每15 min取樣一次,共1344組數(shù)據(jù)(更多詳細(xì)的介紹可參見文獻(xiàn)[33])。
在測試過程中,將出水的SS、SNH、SNO 濃度以及重要出水指標(biāo)化學(xué)需氧量(COD)和五日生物需氧量(BOD5)作為輸出變量。根據(jù)機(jī)理、工藝流程和專家經(jīng)驗從可測變量中選取15 個易測量變量作為輸入變量,詳細(xì)變量信息可以參見文獻(xiàn)[34]。為了驗證co-training PLS-RBP 模型在不同條件下的有效性,分別取數(shù)據(jù)集的前10%、20%、30%、40%和50%作為標(biāo)記數(shù)據(jù)(即134 組,269 組,403 組,538 組和672 組),剩余的數(shù)據(jù)覆蓋輸出變量后作為未標(biāo)記數(shù)據(jù)。當(dāng)訓(xùn)練終止后,將輸出變量補充并作為測試數(shù)據(jù),評估模型的預(yù)測性能。
表2 不同的標(biāo)記樣本率下的RMSE值Table 2 RMSE values at different labeled data rate
3.1.2 預(yù)測性能 表2是在不同的標(biāo)記數(shù)據(jù)比例下三種模型對輸出變量預(yù)測的RMSE 值。顯然,隨著標(biāo)記數(shù)據(jù)比例的增大,三種模型的RMSE 值都在減小,預(yù)測結(jié)果越來越好。比較標(biāo)記數(shù)據(jù)比例相同時三種模型的RMSE 值可知,所提的co-training RPLS-RBP 模型的預(yù)測表現(xiàn)是最好的,RMSE 值最小。尤其適當(dāng)標(biāo)記數(shù)據(jù)的比例為50%的時候,圖2給出具體的預(yù)測曲線圖。
圖2 所示為三種模型對輸出變量的預(yù)測曲線(標(biāo)記樣本率為50%)。對比圖2中各行的預(yù)測結(jié)果可知,三種模型對SNH 和SNO 的預(yù)測效果令人滿意,預(yù)測曲線能夠很好地跟蹤目標(biāo)的變化趨勢。這主要是由于在BSM1 仿真平臺模擬出的晴天條件下,SNH 和SNO 的數(shù)值相對穩(wěn)定。然而,在對重要出水指標(biāo)COD 和BOD5的預(yù)測曲線中,所提模型的預(yù)測效果最佳,完全優(yōu)于co-training PLS 和cotraining BP 模型。這是由于co-training RPLS-RBP模型使用遞歸的回歸算法,充分使用新的數(shù)據(jù)信息來更新預(yù)測模型。此外,從觀測曲線中的峰值與谷值的預(yù)測結(jié)果可以看出,co-training PLS 和cotraining BP 模型預(yù)測曲線遠(yuǎn)不及co-training RPLSRBP 混合回歸模型的跟蹤效果。同時,值得注意的是co-training RPLS-RBP 混合回歸模型對于所有輸出變量的峰值與谷值的預(yù)測曲線基本也可以與實際曲線完全重合,進(jìn)一步證明了該模型對在平穩(wěn)的條件下污水處理廠的重要指標(biāo)優(yōu)異的預(yù)測能力。
三種模型對輸出變量預(yù)測的評價指標(biāo)RMSE、R值和耗時如表3 所示(標(biāo)記數(shù)據(jù)占總數(shù)據(jù)50%)。比較耗時可知,由于co-training RPLS-RBP 模型是一種自適應(yīng)的在線模型,每次預(yù)測都會對模型校正并重構(gòu),所以耗時約是co-training PLS 模型的6倍,cotraining BP模型的3倍。雖然耗時增加,但是模型的預(yù)測性能卻有顯著的提高。首先,通過三個模型對各輸出變量的RMSE 值可知,co-training-RPLSRBP 混合回歸模型的RMSE 值均為最小,且遠(yuǎn)遠(yuǎn)小于另外兩個模型的RMSE值。尤其是對重要出水指標(biāo)BOD5的RMSE 值,相 較 于co-training PLS 和cotraining BP 模型分別減少了93.77%和94.68%。比較三個模型的R值可知,co-training RPLS-RBP 混合回歸模型的R值最大,表現(xiàn)出最優(yōu)的預(yù)測能力。然而,值得注意的是,co-training BP 模型對COD 的R值偏小,僅為0.753,沒有滿足預(yù)測要求。主要的原因是BP 神經(jīng)網(wǎng)絡(luò)算法在每次對不同變量預(yù)測時需要通過反復(fù)的訓(xùn)練,找到最合適的隱藏層神經(jīng)元的個數(shù)。然而,在本案例中,為了保證co-training BP和co-training RPLS-RBP 模型具有相同的條件,對兩種模型選取了相同的神經(jīng)元個數(shù)。表3中加粗的數(shù)值是最小的RMSE 值和最大的R值,說明co-training RPLS-RBP模型對BOD5的預(yù)測表現(xiàn)最佳。
表3 輸出變量的RMSE、R值和耗時(標(biāo)記樣本率為50%)Table 3 RMSE,R values and time consuming of the output variables(labeled data rate is 50%)
圖2 輸出變量的預(yù)測曲線與實際曲線的對比圖(標(biāo)記樣本率為50%)Fig.2 Prediction profiles of output variables compared with real values(labeled data rate is 50%)
3.2.1 研究背景 與案例一不同,案例二為一個實際的活性污泥水處理廠,目的是去除有機(jī)物和營養(yǎng)物質(zhì)。它是一個簡單的活性污泥污水處理廠,該污水處理廠的工藝過程分為五部分:預(yù)處理、一次沉淀、曝氣罐、二次沉淀和污泥回流,該工廠的污水處理量為3.5×104m3/d(更多細(xì)節(jié)可以參考文獻(xiàn)[35])。在污水處理的過程中,隨著時間的推移,進(jìn)水率和微生物質(zhì)量和種類數(shù)量會發(fā)生變化。這一過程共包含38 個變量值,由于對反應(yīng)過程的了解有限,傳感器的工作環(huán)境惡劣,所以每隔1 d 收集一次,共計527組數(shù)據(jù)。
圖3 不同標(biāo)記樣本率下RMSE值的變化曲線Fig.3 Change curves of RMSE value under different labeled data rate
本案例研究的目的是評估co-training RPLSRBP 混合回歸模型在真實的污水處理廠對難測量變量的預(yù)測能力。選擇出水指標(biāo)化學(xué)需氧量(DQO)和生物需氧量(DBO)作為輸出變量。輸入變量的選擇,根據(jù)工藝機(jī)理分析和相關(guān)專家經(jīng)驗,在可測量變量中選取18個變量作為模型輸入,詳細(xì)的變量信息可參見文獻(xiàn)[35]。由于數(shù)據(jù)中存在有暴雨影響的異常數(shù)據(jù)點,在模型訓(xùn)練前刪除了7 個嚴(yán)重離群的數(shù)據(jù)點。但是,為了驗證所提出模型對突變數(shù)據(jù)的預(yù)測性能,保留了一些受環(huán)境影響較小的數(shù)據(jù)點。為驗證所提模型在不同標(biāo)記樣本率下的有效性,分別取數(shù)據(jù)集的10%、20%、30%、40%和50%數(shù)據(jù)(即52 組、104 組、156 組、208 組和260 組)作為標(biāo)記數(shù)據(jù),剩余的數(shù)據(jù)在覆蓋預(yù)測變量后作為未標(biāo)記數(shù)據(jù)。當(dāng)滿足終止條件后,將未標(biāo)記數(shù)據(jù)的輸出變量DBO-S和DQO-S補充后作為測試數(shù)據(jù),評估模型的預(yù)測表現(xiàn)。
3.2.2 預(yù)測性能 三種模型對DQO 和DBO 在不同標(biāo)記樣本率下的RMSE 值變化曲線如圖3 所示。顯然,當(dāng)標(biāo)記數(shù)據(jù)的比例增大時,三種模型的RMSE都在減小,尤其是co-training BP 模型。此外,比較在相同標(biāo)記樣本率下三種模型的預(yù)測結(jié)果可知,當(dāng)標(biāo)記樣本率足夠大時,所提的co-training RPLS-RBP模型預(yù)測性能最好,有最小的RMSE值。然而,當(dāng)標(biāo)記樣本率偏小時,則co-training PLS模型的RMSE值較小,這主要是因為BP神經(jīng)網(wǎng)絡(luò)的構(gòu)建和訓(xùn)練需要大量的數(shù)據(jù),當(dāng)標(biāo)記樣本率偏小時,網(wǎng)絡(luò)結(jié)構(gòu)將不夠準(zhǔn)確,導(dǎo)致預(yù)測精度下降,RMSE 值偏大。為進(jìn)一步驗證co-training RPLS-RBP 模型的預(yù)測性能,下文將對標(biāo)記數(shù)據(jù)充足時做詳細(xì)的分析。
三種模型對DQO 和DBO 的預(yù)測曲線如圖4 所示(標(biāo)記樣本率為50%)。顯然,co-training RPLSRBP 混合回歸模型的預(yù)測曲線與實值曲線基本吻合,預(yù)測結(jié)果優(yōu)于另外兩個模型。此外,對于實際的污水處理廠,由于設(shè)備短缺,導(dǎo)致數(shù)據(jù)的采樣周期變長,數(shù)據(jù)的波動性變大,非線性增強(qiáng)。觀察預(yù)測曲線和實際曲線的擬合度可知,co-training RPLS-RBP 混合回歸模型能夠?qū)哂袕?qiáng)烈非線性特征的數(shù)據(jù)達(dá)到令人滿意的預(yù)測結(jié)果。個別由于環(huán)境變化產(chǎn)生的突變點,雖然不能做到完美預(yù)測,但是預(yù)測結(jié)果也優(yōu)于其他兩個模型。
圖4 輸出變量的預(yù)測曲線圖(標(biāo)記樣本率為50%)Fig.4 Prediction curve of output variables(labeled data rate is 50%)
圖5 是三個模型對DQO 和DBO 預(yù)測結(jié)果的評價指標(biāo)RMSE 和R值的條形圖(標(biāo)記樣本率為50%)。由RMSE 值的條形統(tǒng)計圖可知,co-training RPLS-RBP 模型的預(yù)測表現(xiàn)最好。但是,三個模型對DQO 的預(yù)測表現(xiàn)都不佳。主要的原因是因為DQO 本身數(shù)值偏大且波動范圍大,導(dǎo)致預(yù)測過程中RMSE 值也隨之增大。觀察R值條形圖,雖然三個模型對DQO 預(yù)測的評價指標(biāo)RMSE 值偏高,但是R值卻都達(dá)到了90%以上,顯然滿足預(yù)測要求。在DQO 預(yù)測結(jié)果的預(yù)測指標(biāo)R值中,co-training RPLS-RBP 模型的R值遠(yuǎn)大于另外兩種模型且達(dá)到了92%。此外,三種模型的預(yù)測耗時分別為8.968、69.896 和83.059 s。由 于co-training RPLS-RBP 模型是一個自適應(yīng)的線上模型,在每次預(yù)測時都需要對模型重建,所以時間消耗較大。但是,該模型取得令人滿意的預(yù)測效果,一定量的時間消耗也是可接受的??傊稍u價指標(biāo)RMSE 值和R值的條線統(tǒng)計圖,可以推斷出co-training RPLS-RBP 混合回歸模型對具有強(qiáng)烈非線性的數(shù)據(jù)能夠取得良好的預(yù)測表現(xiàn)。
在3.2 節(jié),通過兩個案例研究對所提出的異構(gòu)自適應(yīng)co-training RPLS-RBP 混合回歸模型進(jìn)行了驗證。結(jié)果表明,所提模型具有較好的預(yù)測性能。兩個案例包含了較為穩(wěn)定的線性數(shù)據(jù)和存在異常波動的非線性數(shù)據(jù),對測試模型的適用范圍有非常大的影響。結(jié)合其他兩個模型的預(yù)測結(jié)果分析得到以下結(jié)論。
(1)co-training BP 模型對于輸出變量的預(yù)測效果優(yōu)于co-training PLS 模型。然而,在存在受環(huán)境影響的數(shù)據(jù)異常點時,co-training BP 模型對于異常點的預(yù)測表現(xiàn)較差。
(2)本文提出的異構(gòu)自適應(yīng)co-training RPLSRBP 混合回歸模型無論對穩(wěn)定的線性數(shù)據(jù)還是存在異常點的非線性數(shù)據(jù),預(yù)測結(jié)果都是最優(yōu)。這是由于在線回歸模型能夠充分運用新的數(shù)據(jù)信息,實時地更新和優(yōu)化預(yù)測模型。
(3)異構(gòu)自適應(yīng)co-training RPLS-RBP 混合回歸模型對案例一中的COD 和BOD5的RMSE 值為0.238 和0.003,比co-training BP 模型的RMSE 值減小了96.1%和94.7%。對其他輸出變量的也能有較高的預(yù)測精度。
(4)對于案例二,在采樣周期長、數(shù)據(jù)波動大的條件下,異構(gòu)自適應(yīng)co-training RPLS-RBP 混合回歸模型對于DQO 和DBO 的預(yù)測結(jié)果優(yōu)于cotraining PLS 和co-training BP 模型,印證了所提模型對非線性數(shù)據(jù)預(yù)測結(jié)果也是最佳的。
(5)無論是本文提出的異構(gòu)自適應(yīng)co-training RPLS-RBP 模型還是其他模型,對實際污水廠的預(yù)測效果明顯不如BSM1 仿真平臺的預(yù)測效果。其主要的原因是因為BSM1 仿真平臺的數(shù)據(jù)是在晴天條件下的穩(wěn)態(tài)數(shù)據(jù),而實際污水廠中的數(shù)據(jù)包含由環(huán)境或是設(shè)備故障導(dǎo)致的異常數(shù)據(jù)。其次,BSM1 仿真平臺設(shè)備完善、采樣周期短和數(shù)據(jù)量充足等,而實際污水廠設(shè)備短缺、采樣周期長、數(shù)據(jù)量小等。
圖5 輸出變量的RMSE和R的條形圖(標(biāo)記樣本率為50%)Fig.5 Bar graphs of RMSE and R values(labeled data rate is 50%)
隨著工業(yè)過程越來越復(fù)雜,標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)比例嚴(yán)重不平衡。本文提出了一種半監(jiān)督異構(gòu)自適應(yīng)co-training RPLS-RBP 混合回歸模型。異構(gòu)自適應(yīng)的混合回歸模型,能夠有效應(yīng)對污水處理過程中的數(shù)據(jù)漂移和模型退化等問題。使用奇偶分組的方法提高了標(biāo)記數(shù)據(jù)的全局性,避免了數(shù)據(jù)因離散導(dǎo)致的回歸模型不準(zhǔn)確等問題。最后,通過一個線性數(shù)據(jù)案例和一個非線性數(shù)據(jù)案例驗證了模型適用的廣泛性。結(jié)果表明,無論是條件穩(wěn)定的線性數(shù)據(jù)還是存在異常波動的非線性數(shù)據(jù),異構(gòu)自適應(yīng)co-training RPLS-RBP 混合回歸模型均具有更好的預(yù)測效果。然而,由于該模型在建立初始回歸模型時需要大量的標(biāo)記數(shù)據(jù),所以,當(dāng)標(biāo)記數(shù)據(jù)比例較小時,基于數(shù)據(jù)驅(qū)動建模的建模方法將無法滿足需求。將機(jī)理建模和數(shù)據(jù)驅(qū)動建模結(jié)合的混合模型可作為以后的研究方向。