劉鴻斌, 楊 沖
(南京林業(yè)大學 江蘇省林業(yè)資源高效加工利用協(xié)同創(chuàng)新中心, 江蘇 南京 210037)
在造紙廢水處理過程中,往往存在著大量難以測量或無法在線測量、且密切影響著出水指標控制的參數(shù),被稱作主導變量,如化學需氧量(chemical oxygen demand, COD)和懸浮固形物(suspended so-lids, SS)等.為提高造紙污水處理的達標率,提升系統(tǒng)的穩(wěn)定性,需要對這些主導變量進行及時監(jiān)測.傳統(tǒng)傳感器測量方法普遍存在成本高、維護難、穩(wěn)定性能差和使用壽命短等問題.相比之下,軟測量技術(shù)以建模簡單、方法多樣及預(yù)測效果可觀等優(yōu)勢,為精確的數(shù)據(jù)測量提供了較好的選擇.在軟測量模型中,基于數(shù)據(jù)的軟測量模型旨在挖掘潛在信息,以解釋數(shù)據(jù)特征,更適合工業(yè)過程預(yù)測,主要包括回歸分析模型、人工智能模型與潛變量模型等.
多元線性回歸(multiple linear regression, MLR)是回歸分析中基本的統(tǒng)計分析方法,適用于多種因素關(guān)聯(lián)的變化結(jié)果,其分析的技術(shù)核心是最小二乘法,屬于線性方法,不適于復(fù)雜非線性的造紙廢水處理過程建模.人工智能模型中的人工神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)和支持向量機(support vector machine, SVM)應(yīng)用較為廣泛,屬于非線性處理方法.在廢水處理領(lǐng)域,HUANG M.Z.等[1]將基于遺傳算法的模糊神經(jīng)網(wǎng)絡(luò)應(yīng)用于生物污水處理中養(yǎng)分濃度的實時估計.汪瑤等[2]使用ANN和最小二乘支持向量機(least square support vector machine, LSSVM)對出水COD和SS含量進行了軟測量建模,并比較了兩種方法的優(yōu)劣.在其他工業(yè)領(lǐng)域,J. C. B. GONZAGA等[3]采用ANN完成了對于聚對苯二甲酸乙二酯黏度的在線估計,為進行實時工藝控制提供了有效方案.LIU H.B.等[4]采用即時學習技術(shù)提高了最小二乘支持向量機對地鐵內(nèi)PM2.5含量的預(yù)測效果.不同于以上兩種非線性方法,高斯過程回歸(gaussian process regression, GPR)用來描述函數(shù)的分布問題,C. E. RASMUSSEN等[5]將其應(yīng)用于機器學習.具有易實現(xiàn)、靈活的非參數(shù)推廣及超參數(shù)自適應(yīng)調(diào)節(jié)等優(yōu)點,可以對預(yù)測輸出變量做出概率解釋[6].此外,GPR還可通過對核函數(shù)進行組合的方式,使模型具備不同的函數(shù)特性[7].因此,對于數(shù)據(jù)特征較為復(fù)雜的造紙廢水處理過程,GPR具有很大優(yōu)勢.宋留等[8]采用核函數(shù)相加的方式構(gòu)建GPR模型,對造紙廢水處理過程中的出水指標進行預(yù)測,結(jié)果顯示高斯過程回歸模型的預(yù)測效果優(yōu)于多元線性回歸、主成分回歸、偏最小二乘回歸及人工神經(jīng)網(wǎng)絡(luò)等常規(guī)軟測量模型.
潛變量模型的優(yōu)點在于,經(jīng)過模型分解與參數(shù)選擇,潛變量不僅包含對數(shù)據(jù)的解釋,而且具備低維度與獨立正交關(guān)系,因此可有效減弱原始工業(yè)數(shù)據(jù)對于模型預(yù)測結(jié)果的不利影響.常用的潛變量模型有主成分分析法(principal component analysis, PCA)、偏最小二乘法(partial least squares, PLS)和典型相關(guān)分析法(canonical correlation analysis, CCA)[9-10].在基于潛變量模型的軟測量模型中,XIE B.等[11]將PCA-LSSVM與非支配排序遺傳算法結(jié)合,用于完成氨濃度與總氮濃度的預(yù)測,以更好地控制廢水處理中厭氧氨氧化過程.劉鴻斌等[12]采用基于PCA主成分的ANN與LSSVM軟測量模型,對造紙廢水處理過程中的出水COD和SS含量進行預(yù)測,結(jié)果顯示PCA-ANN與PCA-LSSVM模型在預(yù)測性能上優(yōu)于常規(guī)模型.
上述方法中,雖然潛變量模型的應(yīng)用均有積極效果,但并未考慮到監(jiān)督型潛變量方法的建模效果.PCA主成分的提取來自于對輸入數(shù)據(jù)X的分析,與輸出數(shù)據(jù)Y無關(guān),因此,無法確保根據(jù)特征值降序排列所提取的PCA主成分對于Y是否具有最佳解釋效果.而PLS和CCA在概括自變量系統(tǒng)信息的同時,注重要求所提取的得分向量對輸出數(shù)據(jù)Y的解釋能力,因此更具備質(zhì)量相關(guān)特性.此外,相比于CCA,PLS在確保X與Y相關(guān)性的同時,也注重對于數(shù)據(jù)方差結(jié)構(gòu)的解釋,在潛變量模型中的應(yīng)用最為廣泛.
常規(guī)的潛變量模型均為線性方法,面對非線性數(shù)據(jù)缺乏一定的解釋能力.近年來,核方法的應(yīng)用為潛變量模型提供了更大的應(yīng)用空間,包括故障檢測、故障重構(gòu)及故障分析等[13].對于預(yù)測模型的構(gòu)建,WANG M.Y.等[14]將核偏最小二乘(kernel partial least squares, KPLS)運用于兩種非線性案例,驗證了KPLS對于數(shù)據(jù)預(yù)測的高效性.HUANG X.等[15]根據(jù)線性PLS回歸過程中的變量貢獻率優(yōu)化了KPLS模型,提高了模型預(yù)測能力.從理論上講,KPLS預(yù)測模型完成了兩個步驟:首先,經(jīng)非線性映射,將輸入數(shù)據(jù)轉(zhuǎn)移至高維特征空間,使得非線性特征更易被模型提??;其次,完成高維特征空間數(shù)據(jù)與輸出數(shù)據(jù)的線性PLS擬合.因此,KPLS的潛變量既保持了常規(guī)潛變量對于數(shù)據(jù)維度和結(jié)構(gòu)的優(yōu)化,同時提升了對非線性數(shù)據(jù)的解釋能力.
基于KPLS潛變量與GPR的優(yōu)點,采取KPLS-GPR模型對造紙廢水處理過程進行軟測量建模,分別完成對于出水COD和SS含量的預(yù)測.此外,引入常規(guī)的潛變量方法(PLS)與預(yù)測模型(ANN)作為對比元素,以驗證KPLS-GPR模型的預(yù)測能力.
KPLS的構(gòu)建可分為兩步:首先通過非線性映射將輸入變量映射到高維特征空間,其次建立高維變量與輸出變量間的線性PLS模型.根據(jù)Cover定理,原始數(shù)據(jù)中的非線性特征在高維空間中可能呈現(xiàn)線性特征.因此,經(jīng)模型分解,KPLS的潛變量可對數(shù)據(jù)的非線性特征具備更高的解釋能力.
假設(shè)輸入矩陣X=[x1,x2,…,xn]T∈Rn×m包含n個測量樣本,m個過程變量;輸出矩陣Y=[y1,y2,…,yn]T∈Rn×s包含n個測量樣本,s個過程變量.輸入數(shù)據(jù)xi經(jīng)非線性映射,可表示為φi=Φ(xi),則高維特征空間內(nèi)兩個變量的內(nèi)積可使用核技巧表示[10]:
(1)
式中:xi和xj為輸入變量,i,j=1,2,…,n;K(x)為核函數(shù).
在不同種類的核函數(shù)中,較為常用的為高斯徑向基函數(shù)(radial basis function, RBF),即
(2)
式中:σR為核函數(shù)寬度.
基于此,所有輸入數(shù)據(jù)在特征空間中可表示為
φ(X)=(φ(x1),φ(x2),…,φ(xn))T.
(3)
則特征空間數(shù)據(jù)的內(nèi)積可以由n×n的Gram矩陣代替:
(4)
KPLS的模型分解可表示為
(5)
式中:T為K的得分矩陣,T=[t1,t2,…,td]∈Rn×d;U為Y的得分矩陣,U=[u1,u2,…,ud]∈Rn×d;P和Q分別為K和Y負載矩陣,P=[p1,p2,…,pd]∈Rm×d,Q=[q1,q2,…,qd]∈Rp×d;E和F分別為K和Y的殘差矩陣;d為KPLS的潛變量的個數(shù).
使用非線性迭代最小二乘法(non-linear iterative partial least squares, NIPALS)可以完成模型求解,具體步驟可參考文獻[16].
假設(shè)輸入矩陣為X=[x1,x2,…,xn]T∈Rn×m,模型輸出值為y∈Rn×1,n為樣本量,m為變量個數(shù).由于高斯過程是任意有限個具有聯(lián)合高斯分布的函數(shù)集合[5],因此可表示為
f(x)~GP(m(x),C(x,x′)),
(6)
式中:m(x)為均值函數(shù);C(x,x′)為協(xié)方差函數(shù).
由于數(shù)據(jù)標準化后均值為0,因此高斯過程可簡化為
f(X)~GP(0,C(xi,xj)),
(7)
式中:i,j=1,2,…,n.
將噪聲考慮到觀測目標值中,考慮如下的回歸模型:
y=f(X)+ε,
(8)
(9)
觀測值y與預(yù)測值y*的聯(lián)合先驗分布為
(10)
式中:X為輸入訓練集;X*為輸入測試集;C(X,X*)代表著訓練集X與測試集X*樣本點間的協(xié)方差矩陣,C(X,X*)=C(X*,X)T;C(X*,X*)為測試集X*樣本自身的協(xié)方差矩陣;In為n維單位矩陣.
由此,高斯過程回歸的預(yù)測值可表示為
(11)
其中,
(12)
(13)
預(yù)測點的均值與方差分別用來計算預(yù)測值和對應(yīng)的置信區(qū)間[6].
高斯過程回歸可以選擇不同的協(xié)方差函數(shù)進行預(yù)測,以下介紹3種協(xié)方差函數(shù)[5]:
1) 平方指數(shù)協(xié)方差函數(shù)(squared exponential covariance function, SE),即
(14)
2)線性協(xié)方差函數(shù)(linear covariance function, L),即
(15)
3)周期性協(xié)方差函數(shù)(periodic covariance function, P),
CP(xi,xj)=C0(u(xi),u(xj)),
(16)
式中:C0為任意隨機核函數(shù).
周期性協(xié)方差函數(shù)將一維輸入變量映射到二維u(x)空間,從而得到關(guān)于x的周期性隨機函數(shù):
(17)
式中:p為周期參數(shù).
若C0=CSE,則Cp可以轉(zhuǎn)化為
(18)
高斯過程允許組合不同的協(xié)方差函數(shù)產(chǎn)生新的協(xié)方差函數(shù),文獻[7]將協(xié)方差函數(shù)累加的方式視作邏輯“或”運算.通過協(xié)方差函數(shù)相加的方式組成的高斯過程,可視為具備不同結(jié)構(gòu)獨立函數(shù)的累加過程.因此,組合后高斯過程具備豐富的模型結(jié)構(gòu)和較強的數(shù)據(jù)解釋能力.假設(shè)f1,f2相互獨立,并符合分布f1~GP(u1,k1),f2~GP(u2,k2),則兩個函數(shù)相加可表示為f=f1+f2~GP(u1+u2,k1+k2).
超參數(shù)的集合一般通過最大似然法求得,即
(19)
基于潛變量的軟測量建模流程如圖1所示.圖中ρ(COD)in和ρ(COD)eff分別為進、出水的COD質(zhì)量濃度;ρ(SS)in和ρ(SS)eff分別為進、出水的SS質(zhì)量濃度;Q為流量;t為溫度;ρ(DO)為DO的溶解氧質(zhì)量濃度.該流程圖包括以下4個部分:① 完成數(shù)據(jù)的標準化與預(yù)處理; ② 構(gòu)建KPLS模型,對樣本數(shù)據(jù)進行分解,完成得分矩陣T的選?。?③ 建立所述得分矩陣T與輸出數(shù)據(jù)Y的GPR預(yù)測模型; ④ 根據(jù)輸出數(shù)據(jù)的預(yù)測值與測量值,計算出均方根誤差(RMSE)與決定系數(shù)(R2),完成對KPLS-GPR模型預(yù)測能力的評估.
圖1 基于KPLS潛變量的軟測量流程圖
RMSE和R2表示如下:
(20)
(21)
RMSE越接近于0,代表該模型預(yù)測試驗數(shù)據(jù)具有更高的精確度.R2的結(jié)果一般在0到1之間,R2越接近1,擬合程度越高.
為驗證模型的預(yù)測能力,仿真試驗基于造紙廢水數(shù)據(jù),分別完成對出水COD和出水SS質(zhì)量濃度的數(shù)據(jù)預(yù)測.此外,建立常規(guī)預(yù)測模型(ANN和GPR)、基于PLS的潛變量模型(PLS-ANN和PLS-GPR)以及基于KPLS的潛變量模型(KPLS-ANN和KPLS-GPR),完成預(yù)測能力的對比.
造紙廢水數(shù)據(jù)取自廣東省東莞市某造紙廠好氧段廢水監(jiān)測數(shù)據(jù).取樣間隔2~3 d.數(shù)據(jù)包括8個廢水變量,每個變量包括170個測量值[17].造紙廢水處理過程數(shù)據(jù)如圖2所示.對數(shù)據(jù)進行預(yù)處理后,共有162個測量數(shù)據(jù)用于仿真試驗,其中前100個測量樣本為訓練集,后62個測量樣本作為測試集.預(yù)測模型的輸入端包括ρ(COD)in,ρ(SS)in,ρ(DO),Q,t和pH等6個變量;ρ(COD)eff和ρ(SS)eff為輸出端變量.
圖2 造紙廢水處理過程數(shù)據(jù)
4.2.1常規(guī)預(yù)測模型
使用軟測量模型進行數(shù)據(jù)預(yù)測前,需對模型參數(shù)進行調(diào)整,以取得最優(yōu)預(yù)測結(jié)果.ANN模型的網(wǎng)絡(luò)總層數(shù)為3層,包含1個輸入層、1個隱含層和1個輸出層,其中輸入層節(jié)點數(shù)為6個,隱含層節(jié)點數(shù)為3個,輸出層節(jié)點數(shù)為1個.隱含層采用tan-sigmoid激活函數(shù),輸出層采用purelin激活函數(shù).對于GPR模型,采取CSE+L+P(見2.3部分)作為協(xié)方差函數(shù),使用最大似然法求得7個最優(yōu)超參數(shù).
4.2.2基于PLS潛變量的預(yù)測模型
表1列出了采用PLS建模時,不同潛變量個數(shù)對方差貢獻率以及累計貢獻率的影響.由表1可知:輸入數(shù)據(jù)的累計方差貢獻率,在潛變量個數(shù)超過3個后變化趨于平緩;輸出數(shù)據(jù)的累計方差貢獻率,在潛變量個數(shù)超出3個后無明顯變化.故選擇前3個潛變量作為預(yù)測模型的輸入較為合適.此外,PLS-GPR預(yù)測模型中GPR核函數(shù)選取和參數(shù)選擇方式與4.2.1部分相同;由于潛變量的選擇,PLS-ANN的輸入層節(jié)點變?yōu)?個,其余的網(wǎng)絡(luò)結(jié)構(gòu)與ANN保持一致.
表1 PLS模型潛變量的方差貢獻率及累計貢獻率 %
4.2.3基于KPLS潛變量的預(yù)測模型
不同于PLS模型,KPLS模型分解建立在經(jīng)非線性映射后的高維特征空間.具體而言,KPLS模型的核函數(shù)采用高斯徑向基函數(shù),核寬為7.75.此外,采取表1中的潛變量選取方式,KPLS模型選取前4個潛變量構(gòu)建預(yù)測模型.KPLS-GPR預(yù)測模型中GPR核函數(shù)選取和參數(shù)選擇方式與4.2.1部分的選取方式相同.由于潛變量的選擇,KPLS-ANN的輸入層節(jié)點個數(shù)變?yōu)?個,其余網(wǎng)絡(luò)結(jié)構(gòu)與ANN保持一致.表2為KPLS-ANN和KPLS-GPR的具體潛變量模型參數(shù).
表2 基于KPLS的潛變量模型參數(shù)
結(jié)合以上的參數(shù)設(shè)置與模型調(diào)整,表3和表4分別列出了不同預(yù)測模型對于出水COD和SS質(zhì)量濃度的預(yù)測結(jié)果.
表3 不同預(yù)測模型對出水COD質(zhì)量濃度的預(yù)測結(jié)果
由表3可知:通過對測試集出水COD質(zhì)量濃度的預(yù)測,ANN的RMSE為4.794 mg·L-1,R2為0.420;GPR的RMSE為4.559 mg·L-1,R2為0.475,預(yù)測精度相對較高.結(jié)合PLS潛變量后,常規(guī)模型的預(yù)測效果均有所提高,PLS-ANN的RMSE和R2分別為4.665 mg·L-1和0.451,PLS-GPR分別為4.490 mg·L-1和0.491.PLS-GPR在PLS潛變量預(yù)測模型中具備較優(yōu)預(yù)測效果,R2相比于GPR提高3.37%.在PLS潛變量預(yù)測模型的基礎(chǔ)上,KPLS潛變量預(yù)測模型對測試集COD質(zhì)量濃度的預(yù)測效果有更進一步的提升.KPLS-ANN的RMSE和R2分別為4.559 mg·L-1和0.476,R2較PLS-ANN提升5.54%;KPLS-GPR分別為4.102 mg·L-1和0.575,R2較PLS-GPR提升17.11%.可見,在6種模型中,KPLS-GPR對測試集出水COD質(zhì)量濃度具備最優(yōu)預(yù)測效果,相比于常規(guī)的預(yù)測模型,R2提升最多,提升了36.90%.
表4 不同預(yù)測模型對出水SS質(zhì)量濃度的預(yù)測結(jié)果
由表4可知:GPR,PLS-GPR和KPLS-GPR在常規(guī)預(yù)測模型、PLS潛變量預(yù)測模型和KPLS潛變量預(yù)測模型中分別具備較優(yōu)預(yù)測結(jié)果,其中KPLS-GPR預(yù)測精度最高,PLS-GPR次之,GPR最低.相比于PLS潛變量,KPLS潛變量對常規(guī)模型的預(yù)測效果提升更為明顯.以R2為準,KPLS-GPR的預(yù)測效果較GPR提升7.21%,PLS-GPR較GPR提升2.11%,KPLS-ANN較ANN提升16.51%,PLS-ANN較ANN提升7.78%.對測試集出水SS質(zhì)量濃度的預(yù)測,最優(yōu)模型KPLS-GPR的RMSE為0.656 mg·L-1,R2為0.610,相比于常規(guī)的預(yù)測模型,R2提升最多,為43.87%.總之,KPLS潛變量預(yù)測模型對輸出變量均具備相對較好的預(yù)測結(jié)果.圖3-6分別為KPLS-ANN和KPLS-GPR對出水COD和SS質(zhì)量濃度的預(yù)測.
圖3 KPLS-ANN對出水COD質(zhì)量濃度預(yù)測結(jié)果
圖4 KPLS-ANN對出水SS質(zhì)量濃度預(yù)測結(jié)果
圖5 KPLS-GPR對出水COD質(zhì)量濃度預(yù)測結(jié)果
圖6 KPLS-GPR對出水SS質(zhì)量濃度預(yù)測結(jié)果
KPLS潛變量對常規(guī)預(yù)測模型存在較為顯著的優(yōu)化,主要原因在于:經(jīng)過非線性映射,數(shù)據(jù)原始的非線性特征在高維特征空間中更易被提取,故KPLS潛變量較常規(guī)PLS具備更高的數(shù)據(jù)解釋能力;通過選取合適的潛變量作為預(yù)測模型的輸入,可有效消除特征空間的高維度“災(zāi)難”;潛變量的獨立性可優(yōu)化數(shù)據(jù)結(jié)構(gòu),減少共線性對預(yù)測模型的影響.對于預(yù)測模型,由于協(xié)方差函數(shù)的組合,GPR模型在一定程度上可視為多種獨立函數(shù)的疊加,因此具備同時解釋多類數(shù)據(jù)特征的特點.試驗結(jié)合造紙廢水數(shù)據(jù)的非線性特征、采樣的周期性以及較為有限的樣本量,采取平方指數(shù)協(xié)方差函數(shù)、周期性協(xié)方差函數(shù)以及線性協(xié)方差函數(shù)的相加的方式構(gòu)建組合協(xié)方差函數(shù),使得GPR模型較ANN模型具備更強的建模能力.因此,KPLS潛變量與GPR模型的結(jié)合,使得模型具備最優(yōu)預(yù)測效果.
采用KPLS-GPR模型對造紙廢水數(shù)據(jù)中的出水COD和SS的質(zhì)量濃度進行預(yù)測.首先,采用KPLS的潛變量作為GPR模型的輸入端,在降低數(shù)據(jù)的維度與優(yōu)化數(shù)據(jù)結(jié)構(gòu)的同時,提供了對于數(shù)據(jù)非線性特征的充分解釋.其次,GPR模型對于數(shù)據(jù)結(jié)構(gòu)的考慮,使得模型適用于復(fù)雜多變的造紙廢水處理環(huán)境.因此,KPLS-GPR較常規(guī)模型可取得更優(yōu)的預(yù)測結(jié)果.此外,潛變量對輸入數(shù)據(jù)的預(yù)處理對于其他流程工業(yè)(鋼鐵、化工等)的大數(shù)據(jù)建模也提供了相應(yīng)的優(yōu)化思路.