(浙江工業(yè)大學 信息工程學院,杭州 310013)
近年來,在現(xiàn)代生產(chǎn)過程中,對產(chǎn)品質(zhì)量的要求越來越高,必須對與產(chǎn)品質(zhì)量密切相關(guān)的關(guān)鍵變量進行實時檢測。但是,在線分析儀表價格昂貴、維護保養(yǎng)復雜;而通過離線實驗室分析結(jié)果存在滯后大等原因,將導致控制質(zhì)量的性能下降,難以滿足生產(chǎn)要求。為了解決這個問題,以推斷控制為基礎(chǔ)的軟測量建模方法及其應用技術(shù)取得了廣泛的關(guān)注[1-3]。
軟測量建模的基本思想就是選擇一組與主導變量相關(guān)的且易測量的輔助變量,并構(gòu)造關(guān)于輔助變量和主導變量的數(shù)學模型,實現(xiàn)對主導變量的在線估計[4-5],其中最為關(guān)鍵的問題之一就是如何選取合適的輔助變量。目前,國內(nèi)外對輔助變量選擇進行了大量的研究。其中,基于統(tǒng)計技術(shù)的變量選擇方法被較多的采用。2006年,Emet等人[6]提出了一種直接優(yōu)化 AIC準則,將變量選擇描述成一個混合整數(shù)非線性(MINLP, Mixed Integer Nonlinear Programming)優(yōu)化問題,該方法可以找到具有較優(yōu)建模效果的輔助變量子集,但是由于目標函數(shù)為非線性且非凸,當候選輔助變量過多時,會導致求解時間過長,甚至難以找到最優(yōu)解;2017年,Jian等人[7]在MINLP優(yōu)化問題的基礎(chǔ)上,提出了一種基于BIC準則的嵌套式MIQP的變量選擇方法,該方法大大縮短了求解時間,但是該方法的求解結(jié)果容易陷入局部最優(yōu)。
除此之外,建立具有出眾預測性能的軟測量模型仍然是一件困難的工作。一方面,現(xiàn)代工業(yè)通常存在很強的非線性,導致主成分回歸[8-9],偏最小二乘[10-11]等線性軟測量模型的預測精度下降[12];另一方面,現(xiàn)代生產(chǎn)過程中,通常存在多個重要且難以測得的主導變量。因此建立有非線性解釋能力的多輸出軟測量模型極為重要,而神經(jīng)網(wǎng)絡(luò)憑借網(wǎng)絡(luò)拓撲結(jié)構(gòu)和非線性計算能力,廣泛應用于軟測量建模、模式識別、預測等領(lǐng)域[13-14],2018年,Qiu等人[15]提出了一種基于深層神經(jīng)網(wǎng)絡(luò)的多輸出軟測量建模方法,其核心在于通過VIP方法進行輔助變量選擇,然后將所獲得輔助變量子集代入深度神經(jīng)網(wǎng)絡(luò)進行多輸出軟測量模型建立,該方法所建立污水處理模型具有較優(yōu)的預測性能,但是通過VIP方法選擇輔助變量需要選取一個合適的VIP閾值,閾值過小,使得選取輔助變量過多,會導致模型過擬合;而閾值過大,使得選取輔助變量太少,從而導致模型欠擬合。
本文在嵌套式MIQP的基礎(chǔ)上進一步簡化,將MINLP問題分成內(nèi)外兩層結(jié)構(gòu),外層采用啟發(fā)式算法(本文采用遺傳算法(GA, Genetic Algorithm)對二元整數(shù)變量進行尋優(yōu),內(nèi)層在整數(shù)變量固定之后退化成了最小二乘求解(LS, Least Square),進一步分析提出了基于GA和LS的變量選擇方法(GA-LS),實驗結(jié)果表明,該方法能夠較好地避免局部最優(yōu)的情況方法,而且當候選輔助變量過多時,該方法能夠以更快的速度獲得更優(yōu)的輔助變量子集。但是,實驗結(jié)果表明該方法存在精度不夠的問題,即使用BIC準則雖然能夠較好的估計預測誤差,但是在某些數(shù)據(jù)集中與真實預測誤差仍存在較大差距。在后續(xù)研究中,為了更好的估計預測誤差,本文通過耦合訓練集的BIC準則以及驗證集的MSE準則用于更精確的估計預測誤差,并且仍將其描述為MINLP優(yōu)化問題,并進一步分析提出了基于混合準則的變量選擇方法(GA-NLP),該方法能夠獲得更優(yōu)的輔助變量子集。從而建立預測性能更好的模型。
綜上所述,本文在基于BIC準則的MINLP優(yōu)化問題的基礎(chǔ)上,提出了GA-LS和GA-NLP兩種輔助變量選擇方法。并且將所得到的輔助變量子集通過BP神經(jīng)網(wǎng)絡(luò)建立軟測量模型,實驗結(jié)果表明:通過GA-LS方法能夠以較快的速度獲得能夠具有較優(yōu)預測性能模型的輔助變量子集;而通過GA-NLP雖然求解時間較長,但是所獲得的輔助變量子集能夠建立預測性能更優(yōu)的模型。
多變量統(tǒng)計分析方法,如主成分回歸[12-13],多元線性回歸,偏最小二乘[14-15]等,是最常用的軟測量模型。其中,MLR模型基于其簡便的分析表達式的特點[14],被廣泛用于輔助變量選擇。MLR模型表示如下:
Y=Xβ+ε
E(ε)=0
Cov(ε)=σ2I
(1)
其中:
對于軟測量模型,其主要任務是預測未知數(shù)據(jù)。建立模型的質(zhì)量應根據(jù)其泛化性能進行評估。因此,在評估預測模型時,需要關(guān)注的應該是測試數(shù)據(jù)的預測誤差,而不是訓練數(shù)據(jù)的誤差[7]。但是精確地測量測試數(shù)據(jù)的預測誤差是不可能的,只能通過其它方法對測試數(shù)據(jù)的預測誤差進行估計。其中一種方法就是計算模型的復雜性,然后將其添加到模型訓練誤差中。而對于線性模型,模型中變量的數(shù)量可以表征模型的復雜性。因此,本文選取上述BIC準則作為軟測量評價準則,其定義如下:
BIC=-2lnL+plnn
(2)
其中:L為似然函數(shù),由于本文使用MLR模型用于變量選擇,似然函數(shù)L定義如下[7]:
(3)
輔助變量選擇旨在選擇出主導變量密切相關(guān)的輔助變量子集。Emet等人[6]為了實現(xiàn)這個目的,引入一組0-1決策變量zj,j=1,2,…,m用于選擇輔助變量,若第j個變量被選中,則zj=1,否則zj=0。然后,通過引入大M約束可以實現(xiàn)變量選擇的目的:
-Mzj≤bj≤Mzj(j=1,2,…,m)
(4)
其中:M為一個足夠大的正數(shù),-M和M分別為回歸系數(shù)向量bj的上下界。
由于BIC是一個估計真實預測誤差的有效指標,故將BIC準則作為模型的目標函數(shù),最小化BIC/AIC準則,可以將變量選擇問題表示為如下MINLP問題:
(5)
值得注意的是,由于MINLP優(yōu)化問題中的目標函數(shù)是一個非線性且非凸的函數(shù),當候選變量數(shù)量過大時(m>40),將難以找到最優(yōu)解。2009年,Hastie等人的研究[1]表明隨著模型復雜度的增加,測試誤差會先降低;但當復雜度高于某一臨界值時,測試數(shù)據(jù)的預測效果卻越來越差。Jian等人基于這個原理在MINLP優(yōu)化問題基礎(chǔ)上,進一步簡化,提出了一種嵌套式MIQP的變量選擇方法,表示如下:
minJ=GIC
-Mzj≤bj≤Mzj(j=1,2,…,m)
(6)
該優(yōu)化問題通過外層目標函數(shù),參數(shù)化所選變量個數(shù)k,并在內(nèi)層中,持續(xù)求解一個MIQP 問題,直至外層目標函數(shù)結(jié)果變差為止。
本文將MINLP問題分成內(nèi)外兩層結(jié)構(gòu),外層采用啟發(fā)式算法(本文采用遺傳算法(Genetic Algorithm, GA))對二元整數(shù)變量進行尋優(yōu),內(nèi)層在整數(shù)變量固定之后退化成了較易于求解的非線性規(guī)劃問題(Nonlinear Programming, NLP)。在此基礎(chǔ)上經(jīng)過進一步分析提出了基于GA和最小二乘(Least Squares, LS)的變量選擇方法(GA-LS)。
首先,通過固定每一次進行建模的輔助變量子集時,原MINLP優(yōu)化問題進一步簡化為NLP問題,而該NLP問題的本質(zhì)就是最小二乘求解;然后,通過搜索算法找到具有最優(yōu)預測性能(GIC)的輔助變量子集,而GA[17]具有直接對結(jié)構(gòu)對象進行操作的特點,正適合用來搜索最優(yōu)輔助變量子集。GA-LS的計算步驟總結(jié)如下:
1)數(shù)據(jù)預處理,對數(shù)據(jù)集進行歸一化處理,并將數(shù)據(jù)集按照7:3的比例分為訓練集和測試集,訓練集用于輔助變量選擇,測試集用于驗證所選子集效果;
2)隨機生成種群,即等概率0、1編碼的標準化矩陣,矩陣中行向量代表候選變量個數(shù)m,列向量代表遺傳算法種群大小N。并指定遺傳算法最大迭代次數(shù)500。
3)對于一組給定的有m個候選輔助變量的數(shù)據(jù)集,通過遺傳算法種群個體固定了一個有p個輔助變量的子集時,原MINLP優(yōu)化問題進一步簡化為一個NLP問題:
(7)
4)其中p已知,故式(7)中的p*lnn是一個常數(shù)。故該NLP問題實質(zhì)為均方誤差最小化問題:
(8)
即簡化為最小二乘法求解,其求解結(jié)果如下:
β=(XTX)-1XTY
(9)
當目標數(shù)據(jù)集為多輸出數(shù)據(jù)集時,即主導變量為H=(Y1,Y2,…,Yh),則此時的求解結(jié)果為:
β=(XTX)-1XTY
(10)
5)建立子集模型后,通過式(4)計算個體的適應度值,表達如下:
(11)
用于評價該子集模型的預測性能。
6)計算出種群中各個個體的適應度后,保留適應度最優(yōu)個體,共R個。
7)對其余個體進行交叉和變異操作,其中選交叉算子為0.85,變異算子為0.02。
8)一輪遺傳迭代結(jié)束后,求出最佳個體,并與上一輪求得的最佳個體比較,較優(yōu)個體留下。轉(zhuǎn)到第1)步,開始新一輪的迭代。
9)達到GA設(shè)定迭代次數(shù),則迭代結(jié)束。
上述GA-LS方法中的廣義信息標準(GIC)雖然能夠較好的估計預測誤差,但是不夠精確。于是本文通過耦合訓練集的BIC準則和驗證集的MSE準則用于更精確的估計預測誤差。進一步提出了GA-NLP方法,該方法在GA-LS方法基礎(chǔ)上對步驟1、2、4、5進行改進,改進如下:
1)數(shù)據(jù)預處理,對數(shù)據(jù)集進行歸一化處理,并將數(shù)據(jù)集按照5:2:3的比例分為訓練集、驗證集和測試集,訓練集、驗證集用于輔助變量選擇,測試集用于驗證所選子集效果;
2)通過耦合訓練集的BIC準則和驗證集的MSE準則用于更精確的估計預測誤差,仍表達為MINLP優(yōu)化問題,其表達如下:
-Mzj≤bj≤Mzj(j=1,2,…,m)
zj∈{0,1} (j=1,2,…,m)
(12)
式中,n1,n2分別為訓練集和驗證集的過程數(shù)據(jù)長度,ε1,ε2分別為訓練集和驗證集的模型預測誤差。
4)對于一組給定的有m個候選輔助變量的數(shù)據(jù)集,通過遺傳算法種群個體固定了一個有p個輔助變量的子集時,原MINLP優(yōu)化問題進一步簡化為一個NLP問題:
(13)
當目標數(shù)據(jù)集為多輸出數(shù)據(jù)集時,即主導變量為H=(Y1,Y2,…,Yh),則需要多次求解NLP問題。
5)通過求解NLP問題建立子集模型,通過式(14)計算個體適應度值;
(14)
式中,J(i),i=1,…,h是H中每個主導變量Y,i=1,…,h對應的NLP求解結(jié)果。
本文從UCI數(shù)據(jù)庫中選取了3組數(shù)據(jù)集以及1組廢水處理數(shù)據(jù)集[18](WWTP)進行了仿真實驗。其中,數(shù)據(jù)集WWTP有四個輸出變量可以被預測(生物需氧量、化學需氧量、懸浮固體和沉積物)。
對于CCPP[19]數(shù)據(jù)集,本文在原始數(shù)據(jù)集的基礎(chǔ)上生成了二階多項式特征,對于數(shù)據(jù)集Crime[20]和WWTP數(shù)據(jù)集,原始數(shù)據(jù)集中包含缺失值的變量被剔除。在輔助變量選擇前,對所有實驗數(shù)據(jù)進行標準化處理,即它們的列均值(每一個過程變量的均值)都為0,方差都為1。
本文使用CCPP及Crime兩個數(shù)據(jù)集作為單輸出測試用例。為了評估GA-LS和GA-NLP的性能,本文對該算法進行了實驗仿真及分析,并與MINLP-MLR、MIQP-MLR兩種方法進行比較,其中MINLP-MLR使用BARON求解器進行求解;MIQP-MLR使用CPLEX求解器進行求解。求解的結(jié)果通過BP模型進行建模,并且采用測試集的均方根誤差RMSEP和測試集的模型決定系數(shù)R2P兩個指標對模型的性能進行評價。兩個指標定義如下:
(15)
(16)
在表2中,顯示了4種方法的預測效果。其中,p表示最終輔助變量子集的變量個數(shù);RMSEP和R2P為預測模型評價指標,其中,RMSEP的值越小越好,R2P的值越接近1越好。CPU(s)代表該方法進行變量選擇所使用的時間。所有比較方法的最佳fval/R2P/RMSEP值和最小時間成本用粗體字表示。
由表2可得,本文所提出兩種方法所得預測精度優(yōu)于MINLP以及MIQP兩種方法。其中又以GA-NLP方法所得預測精度最高。
綜上所述,通過GA-LS方法能夠以較快的速度獲得能夠具有較優(yōu)預測性能模型的輔助變量子集;而通過GA-NLP雖然求解時間較長,但是所獲得的輔助變量子集能夠建立預測性能更優(yōu)的模型。
本文使用WWTP數(shù)據(jù)集作為多輸出測試用例。為了評估GA-LS以及GA-NLP方法的性能,本文對該算法進行了實驗仿真及分析,并與VIP方法進行比較。三種方法比較結(jié)果如表3所示。
在表3中,顯示了3種方法的預測效果。其中,p表示最終輔助變量子集的變量個數(shù);RMSEP和R2P為預測模型評價指標,其中,RMSEP的值越小越好,R2P的值越接近1越好。所有比較方法的最佳R2P/RMSEP值用粗體字表示。
由表3可得,本文所提出兩種方法所得預測精度優(yōu)于VIP方法。其中又以GA-NLP方法所得預測精度最高。
預測輸出曲線如圖1~4所示。
表1 UCI 數(shù)據(jù)集
表2 單輸出數(shù)據(jù)集預測結(jié)果
表3 多輸出數(shù)據(jù)集預測結(jié)果
圖1 RD-DBO-G的預測輸出與實際輸出
圖2 RD-DQO-G的預測輸出與實際輸出
圖3 RD-SS-G的預測輸出與實際輸出
圖4 RD-SS-G的預測輸出與實際輸出
用過上面4幅預測輸出與實際輸出對比圖可以發(fā)現(xiàn),本文提出的兩種方法所得預測輸出明顯優(yōu)于VIP方法所得預測輸出;而所提出的耦合準則(BIC+MSE)方法所得結(jié)果也優(yōu)于單一準則(BIC)方法所得結(jié)果。
輔助變量選擇對于構(gòu)建軟傳感器非常重要。為了選擇最佳的輔助變量子集,提出了一種遺傳算法結(jié)合MINLP問題的輔助變量選擇方法(GA-LS),并在GA-LS的基礎(chǔ)上,通過耦合訓練集的BIC準則以及驗證集的MSE準則提出了一種更精確的輔助變量選擇方法(GA-NLP),并將所得輔助變量子集通過BP神將網(wǎng)絡(luò)建立軟測量模型。與其他方法相比,本文所提出的方法能夠很好保證所選變量的質(zhì)量。通過4組數(shù)據(jù)集的實驗結(jié)果表明,該方法可以得到具有良好泛化能力的模型。本文還介紹了該方法在污水處理廠案例上的應用,結(jié)果表明,所提出的變量選擇方法能夠好的與關(guān)鍵變量相關(guān)性高且變量數(shù)盡可能少地輔助變量子集,從而建立預測性能良好的模型。