肖紅軍,黃道平,劉乙奇
(1.佛山科學(xué)技術(shù)學(xué)院自動(dòng)化學(xué)院,廣東 佛山 528000;2.華南理工大學(xué)自動(dòng)化科學(xué)與工程學(xué)院,廣東 廣州 510640)
融入先驗(yàn)知識(shí)的徑向基神經(jīng)網(wǎng)絡(luò)軟測(cè)量建模
肖紅軍1,黃道平2,劉乙奇2
(1.佛山科學(xué)技術(shù)學(xué)院自動(dòng)化學(xué)院,廣東 佛山 528000;2.華南理工大學(xué)自動(dòng)化科學(xué)與工程學(xué)院,廣東 廣州 510640)
針對(duì)神經(jīng)網(wǎng)絡(luò)軟測(cè)量建模過(guò)程中有效信息丟失的情況,在傳統(tǒng)3層徑向基神經(jīng)網(wǎng)絡(luò)(RBFNN)模型的輸入層和隱含層之間引入先驗(yàn)層。先驗(yàn)層與輸入層之間的權(quán)值可直接表征通過(guò)機(jī)理、統(tǒng)計(jì)或者人工智能算法分析得到的先驗(yàn)知識(shí),即各個(gè)輸入變量的重要程度信息,該權(quán)值的變化可以改變RBFNN聚類(lèi)的空間形狀,使得樣本在訓(xùn)練過(guò)程中的聚類(lèi)更為合理,從而提高了RBFNN軟測(cè)量模型的預(yù)測(cè)精度。RBFNN模型在污水處理過(guò)程的生化需氧量(BOD)預(yù)測(cè)中得到了驗(yàn)證。仿真結(jié)果表明,相比傳統(tǒng)3層RBFNN網(wǎng)絡(luò),融入先驗(yàn)知識(shí)的4層RBFNN軟測(cè)量模型具有更優(yōu)異的擬合能力。
污水處理; 人工智能; 神經(jīng)網(wǎng)絡(luò); 軟測(cè)量; 先驗(yàn)知識(shí); 預(yù)測(cè)
在污水處理過(guò)程中,由于測(cè)量設(shè)備昂貴、測(cè)量滯后以及容易受到極端工作環(huán)境的干擾等原因,通常難以實(shí)現(xiàn)過(guò)程變量的在線測(cè)量。為實(shí)現(xiàn)監(jiān)測(cè)甚至控制化工過(guò)程的目的[1],軟測(cè)量技術(shù)得到了廣泛的應(yīng)用。目前,主要的軟測(cè)量方法分為基于機(jī)理的軟測(cè)量模型和數(shù)據(jù)驅(qū)動(dòng)型軟測(cè)量模型,而數(shù)據(jù)驅(qū)動(dòng)型模型又可分為統(tǒng)計(jì)模型和人工智能模型。為了減少模型的計(jì)算量、保證模型的精度、提高模型的泛化能力和自適應(yīng)能力,很多學(xué)者采用混合建模的方法進(jìn)行軟測(cè)量。
在軟測(cè)量建模中,神經(jīng)網(wǎng)絡(luò)由于具有很強(qiáng)的非線性映射能力、自學(xué)習(xí)能力和魯棒性,而且不依賴(lài)于數(shù)學(xué)模型,是目前軟測(cè)量領(lǐng)域中最為活躍的研究分支[2]。 Qi Haiyu等提出了一種機(jī)理模型和神經(jīng)網(wǎng)絡(luò)串聯(lián)的混合建模方法[3],該方法以機(jī)理模型為主導(dǎo),以神經(jīng)網(wǎng)絡(luò)識(shí)別出的輔助參數(shù)作為機(jī)理模型的輸入,因此,該方法要求對(duì)過(guò)程機(jī)理有比較深入的研究。張勇等提出了將主元分析(principal componeut analysis,PCA)-徑向基(radial basis function,RBF)神經(jīng)網(wǎng)絡(luò)的軟測(cè)量模型用于浮選過(guò)程預(yù)測(cè)[4],首先對(duì)輸入過(guò)程變量進(jìn)行數(shù)據(jù)預(yù)處理,然后利用PCA眾多的過(guò)程變量降維解耦,最后將貢獻(xiàn)率較大的主元作為神經(jīng)網(wǎng)絡(luò)的輸入量,減少了神經(jīng)元數(shù)量,也減小了模型的計(jì)算量,但該軟測(cè)量模型丟失了由主元分析得到的各主元貢獻(xiàn)率這個(gè)重要信息。劉瑞蘭等研究了模糊神經(jīng)網(wǎng)絡(luò)的混合控制軟測(cè)量模型[5],由于沒(méi)有在神經(jīng)網(wǎng)絡(luò)算法中找到一種簡(jiǎn)單合適、描述各個(gè)過(guò)程變量重要程度的指標(biāo),所以對(duì)所有輸入變量模糊化,再進(jìn)行模糊推理,得出模糊推理層的若干規(guī)則。當(dāng)輸入向量維數(shù)較大時(shí),可能出現(xiàn)模糊規(guī)則爆炸現(xiàn)象。本文將機(jī)理、統(tǒng)計(jì)或者是經(jīng)過(guò)人工智能算法分析得到的各個(gè)過(guò)程變量的重要程度信息(即先驗(yàn)知識(shí))融入到徑向基神經(jīng)網(wǎng)絡(luò)(radial basis function neural network,RBFNN)中,以充分發(fā)揮RBFNN的逼近能力,提高軟測(cè)量模型預(yù)測(cè)的準(zhǔn)確率。
RBFNN具有很強(qiáng)的非線性函數(shù)逼近能力和較快的學(xué)習(xí)速度,隱含層神經(jīng)元個(gè)數(shù)可在網(wǎng)絡(luò)訓(xùn)練過(guò)程中由算法確定,因此,在對(duì)實(shí)時(shí)性要求不是特別高的污水處理過(guò)程中,適合進(jìn)行在線訓(xùn)練。融入先驗(yàn)知識(shí)集的RBFNN軟測(cè)量模型結(jié)構(gòu)如圖1所示。
圖1 RBFNN軟測(cè)量模型結(jié)構(gòu)圖
圖1中,虛線框內(nèi)即為經(jīng)典的RBFNN結(jié)構(gòu)。RBFNN將低維輸入向量空間擴(kuò)展到高維隱含層空間再進(jìn)行分類(lèi),大大減少了局部極小點(diǎn),其輸出層的輸出值則為各個(gè)隱含層的線性加權(quán)。輸入輸出的映射關(guān)系為[6]:
(1)
圖1展示的4層網(wǎng)絡(luò)結(jié)構(gòu)融入了先驗(yàn)知識(shí)集,在4層網(wǎng)絡(luò)結(jié)構(gòu)中,原3層網(wǎng)絡(luò)的輸入層變?yōu)橄闰?yàn)層。輸入層和先驗(yàn)層之間的權(quán)值ω由先驗(yàn)知識(shí)集確定,ω=[w1,…,wn]T。先驗(yàn)知識(shí)可以來(lái)自于機(jī)理、統(tǒng)計(jì)分析或者人工智能算法,如:通過(guò)機(jī)理分析得知某個(gè)或者多個(gè)過(guò)程變量對(duì)模型影響較大,通過(guò)統(tǒng)計(jì)分析得出某個(gè)或者多個(gè)輸入量的貢獻(xiàn)率,通過(guò)比較輸入輸出的誤差,由模糊邏輯確定權(quán)值等。
r=‖Xi-ci‖2
(2)
式中:Xi為第i個(gè)樣本;ci為第i個(gè)聚類(lèi)中心,即訓(xùn)練樣本的其中一個(gè)輸入向量。
以二維輸入變量加權(quán)前后RBFNN聚類(lèi)的形狀變化為例,設(shè)第k個(gè)訓(xùn)練樣本Xk為聚類(lèi)中心,則加權(quán)后聚類(lèi)中心ck=[ω1xk1,ω2xk2]T,測(cè)試樣本Xi加權(quán)后為[ω1xi1,ω2xi2]T。 圖2為二維輸入變量加權(quán)前后RBFNN聚類(lèi)的形狀變化示意圖。示例中取r=1,Xk=[5,5]T,第一個(gè)變量為主要輸入變量,第二個(gè)變量為次要變量,權(quán)值ω=[0.8,0.2]T,則有:‖Xi-ci‖2=[ω1(xi1-xk1)]2+[ω2(xi2-xk2)]2= 0.64(xi1-5)2+0.04(xi2-5)2
(3)
圖2 RBFNN聚類(lèi)示意圖
圖2(a)對(duì)應(yīng)的是3層網(wǎng)絡(luò)結(jié)構(gòu)的聚類(lèi)示意圖,圖2(b)是4層網(wǎng)絡(luò)結(jié)構(gòu)即先驗(yàn)層加權(quán)輸入后的聚類(lèi)示意圖。從圖2可以看出,加權(quán)后的聚類(lèi)形狀由加權(quán)前的圓形變?yōu)榱藱E圓形,表明第一主要輸入變量對(duì)聚類(lèi)的影響比第二次要輸入變量大。需要說(shuō)明的是,圖2僅為示意圖,其形狀大小并不表示真實(shí)的聚類(lèi)范圍。因?yàn)?層網(wǎng)絡(luò)和4層網(wǎng)絡(luò)的聚類(lèi)中心不同,其對(duì)應(yīng)的方差σi也不同,會(huì)影響激活函數(shù)的輸出,也即影響示意圖中聚類(lèi)空間。
2.1 污水處理工藝
活性污泥污水處理(waste water treatment plant,WWTP)主要用來(lái)分解污水中的有機(jī)物并脫氮降磷,主要監(jiān)測(cè)指標(biāo)是反映水中可降解有機(jī)物參數(shù)的生化需氧量(biochemical oxygen demand,BOD)。污水處理的生化反應(yīng)過(guò)程極其復(fù)雜,微生物數(shù)量與種類(lèi)受污水濃度、進(jìn)水速率、天氣、季節(jié)等因素的影響較大,且在線分析檢測(cè)周期較長(zhǎng)等原因,使用在線分析儀器檢測(cè)BOD的效果并不理想[7]。本節(jié)利用前面所述模型來(lái)預(yù)測(cè)BOD,數(shù)據(jù)來(lái)源于加州大學(xué)數(shù)據(jù)庫(kù)(UCI)。
活性污泥污水處理流程包括預(yù)處理、初沉、曝氣、二沉這4個(gè)部分,經(jīng)過(guò)預(yù)處理和初沉池處理后,污水進(jìn)入曝氣池,經(jīng)過(guò)好氧和厭氧生物的生化反應(yīng)分解污水中的有機(jī)物,同時(shí)進(jìn)行脫氮降磷處理。然后曝氣池的混合出水流入二沉池,經(jīng)固液分離處理后,適合排放的澄清水從二沉池流出。二沉池的污泥一部分回流到曝氣池以維持曝氣池微生物數(shù)量在一合適水平,剩余的污泥則被凈化后再利用。該廠日均處理污水流量為35 000 m3/d,檢測(cè)了38個(gè)與有機(jī)物和微生物相關(guān)的變量,記錄了526天,即共有38×526個(gè)在線檢測(cè)數(shù)據(jù)。
2.2 數(shù)據(jù)預(yù)處理
由于過(guò)程變量較多,采用Kohonen自組織映射的自動(dòng)聚類(lèi)算法,去除了一些冗余或不相關(guān)的變量數(shù)據(jù)。為了便于輸出處理和避免不同過(guò)程變量的量綱影響,將過(guò)程變量進(jìn)行歸一化處理。最終選用的19個(gè)輔助變量如表1所示。
表1 輔助變量表
BOD與污水處理工藝的諸多過(guò)程變化相關(guān),而且隨著工業(yè)技術(shù)的不斷進(jìn)步,儀表精度和采樣頻率不斷提高,使得現(xiàn)場(chǎng)數(shù)據(jù)呈爆炸式的增長(zhǎng)。PCA是一種常用的高維數(shù)據(jù)線性降維和特征提取方法,通過(guò)對(duì)輸入變量的線性變換,由輸入變量互相關(guān)矩陣的主要特征值確定坐標(biāo)變換和變量壓縮,從而在數(shù)據(jù)空間中找出一組正交矢量,最大可能地表示數(shù)據(jù)方差,以便將數(shù)據(jù)從原始高維空間映射到正交矢量構(gòu)成的子空間實(shí)現(xiàn)降維,得到相應(yīng)的主特征矢量以及輸入數(shù)據(jù)的內(nèi)部拓?fù)浣Y(jié)構(gòu)[8]。記歸一化處理后得到的過(guò)程變量向量為Z∈Rn×m,PCA將多變量的輸入數(shù)據(jù)矩陣進(jìn)行奇異值分解后得到主元和特征向量:
(4)
式中:xn∈Rn為得分向量,即矩陣Z的主元;pm∈Rm為負(fù)荷向量;ε為殘差矩陣,它包含了系統(tǒng)數(shù)據(jù)的主要噪聲;X=[x1,x2,…,xn]和P=[p1,p2,…,pm]分別為得分向量矩陣和負(fù)荷向量矩陣。經(jīng)過(guò)PCA變換,特征向量根據(jù)特征值λi降序的方式排列,以此獲得比較重要的特征值、特征向量和主元,而忽視無(wú)關(guān)緊要的變量。同時(shí),原始數(shù)據(jù)間的耦合性也得到了消除。
2.3 RBFNN軟測(cè)量建模
對(duì)RBFNN的輸入變量即主元的選擇,根據(jù)方差貢獻(xiàn)率ηi的大小來(lái)確定。
(5)
(6)
2.4 仿真結(jié)果與分析
取400個(gè)樣本作為訓(xùn)練樣本,126個(gè)樣本作為測(cè)試樣本,使用操作系統(tǒng)為Windows 7 Home Basic、處理器為Intel Core i7-4500U、內(nèi)存容量為8 GB的計(jì)算機(jī)進(jìn)行仿真,參數(shù)設(shè)定MSE=3,測(cè)試性能如表2所示。其中,Spread為RBF擴(kuò)展系數(shù),計(jì)算時(shí)間則包括歸一化處理、PCA降維、網(wǎng)絡(luò)訓(xùn)練和樣本測(cè)試等時(shí)間,相對(duì)平均誤差為:
(7)
從表2的RAE和RMSE兩個(gè)指標(biāo)可以看出,在增加少量神經(jīng)元的情況下,提出的4層網(wǎng)絡(luò)擬合效果明顯優(yōu)于3層網(wǎng)絡(luò),這是因?yàn)?層網(wǎng)絡(luò)加入權(quán)值后,其聚
類(lèi)方式能體現(xiàn)出原始數(shù)據(jù)的更多信息,輸入量權(quán)值不同表示其對(duì)輸出的影響不同,使其分類(lèi)更合理。從程序運(yùn)行時(shí)間來(lái)看,在Spread參數(shù)合適時(shí),整個(gè)軟測(cè)量模型的計(jì)算時(shí)間(包括訓(xùn)練時(shí)間)小于3 s,完全適用于對(duì)實(shí)時(shí)性要求不是很高的污水處理過(guò)程監(jiān)測(cè),甚至可以采用在線訓(xùn)練方式進(jìn)行實(shí)時(shí)控制。此外,表2還反映出當(dāng)Spread參數(shù)設(shè)定大于2時(shí),網(wǎng)絡(luò)3層網(wǎng)絡(luò)和4層網(wǎng)絡(luò)受其變化的影響不大,且4層網(wǎng)絡(luò)的影響略小,這也給在線訓(xùn)練提供了條件。
表2 3層RBFNN和4層RBFNN性能比較
BOD濃度預(yù)測(cè)值和預(yù)測(cè)誤差曲線如圖3所示。
圖3 BOD濃度預(yù)測(cè)和預(yù)測(cè)誤差曲線
由圖3可知,4層網(wǎng)絡(luò)模型擬合效果較好,僅有一個(gè)預(yù)測(cè)序列的絕對(duì)誤差較大為7.6,說(shuō)明提出的模型具有較高的逼近精度。值得一提的是,在測(cè)試指標(biāo)相同時(shí),4層網(wǎng)絡(luò)模型的隱含層數(shù)量并不一定比3層網(wǎng)絡(luò)的要多,反而可能更少。加入權(quán)值對(duì)網(wǎng)絡(luò)模型最主要的作用是改變了聚類(lèi)形狀,而非聚類(lèi)寬度。
本文提出了一種融入先驗(yàn)知識(shí)的4層RBFNN軟測(cè)量模型,并應(yīng)用于BOD參數(shù)預(yù)測(cè)。仿真數(shù)據(jù)表明,4層RBFNN網(wǎng)絡(luò)的逼近能力強(qiáng),由于體現(xiàn)了原始數(shù)據(jù)的更多信息,使得聚類(lèi)更能體現(xiàn)原始數(shù)據(jù)特征,所有其預(yù)測(cè)精度明顯優(yōu)于3層網(wǎng)絡(luò)。文中的4層RBFNN污水處理軟測(cè)量?jī)H僅展示了一個(gè)基于統(tǒng)計(jì)分析獲取權(quán)值的示例,但并不局限于此,它還可以融入機(jī)理、經(jīng)驗(yàn)以及智能算法獲得的權(quán)值信息。
[1] HIROMASA K,KIMITO F.Moving window and iust-in-time soft sensor model based on time differences considering a small number of measurements [J].Industrial & Engineering Chemistry Research,2015,54(2):700-704.
[2] 于霜,劉國(guó)海,梅從立,等.生物發(fā)酵過(guò)程中VIP優(yōu)化神經(jīng)網(wǎng)絡(luò)逆系統(tǒng)的軟測(cè)量方法 [J].南京理工大學(xué)學(xué)報(bào),2015,39(4):447-451.
[3] QI H Y,ZHOU X G,LIU L H,et al.A hybrid neural network-first principle model for fixed-bed reactor[J].Chemical Engineering Science,1999,54(13-14):2521-2526.
[4] 張勇,王介生.基于PCA-RBF神經(jīng)網(wǎng)絡(luò)的浮選過(guò)程軟測(cè)量建模[J].南京航空航天大學(xué)學(xué)報(bào),2006,38(7):116-119.
[5] 劉瑞蘭,蘇宏業(yè),褚健.模糊神經(jīng)網(wǎng)絡(luò)的混合學(xué)習(xí)算法及其軟測(cè)量建模[J].系統(tǒng)仿真學(xué)報(bào),2005,17(12):2878-2881.
[6] 王小川,史峰,郁磊,等.Matlab神經(jīng)網(wǎng)絡(luò)43個(gè)案例分析[M].北京:北京航空航天大學(xué)出版社,2013.
[7] 喬俊飛,郭楠,韓紅桂.基于神經(jīng)網(wǎng)絡(luò)的BOD參數(shù)軟測(cè)量?jī)x表旳設(shè)計(jì)[J].計(jì)算機(jī)與應(yīng)用化學(xué),2013,30(10):1219-1222.
[8] 肖紅軍,劉乙奇,伍俊.一種自確認(rèn)軟測(cè)量方法的研究與應(yīng)用[J].中山大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,53(4):45-51.
RBF Neural Network Modeling Integrated with Priori Knowledge for Soft-Sensing
XIAO Hongjun1,HUANG Daoping2,LIU Yiqi2
(1.School of Automation,Foshan University,Foshan 528000,China;2.School of Automation Science and Engineering,South China University of Technology,Guangzhou 510640,China)
In soft sensing modeling process,effective information loss may occur;in order to solve this problem,a Priori layer is introduced between the input layer and the implicit layer of the traditional three-layer RBF neural network (RBFNN).The weights between the input layers and the Priori layer can directly characterize the Priori knowledge which is obtained by mechanism,statistics,or artificial intelligence algorithm,and it is information about importance of each input variables.The variation of the weights can change clustering shape of RBFNN,which makes the cluster of sample in training process more reasonable,and improves the prediction accuracy of the RBFNN soft sensing model.The proposed model is verified in the biochemical oxygen demand(BOD) prediction of sewage treatment process.Simulation results demonstrate that the soft sensing model of four-layer RBFNN with Priori knowledge offers better fitting capability than the three-layer RBFNN.
Sewage treatment; Artificial intelligence; Neural network; Soft-sensing; Priori knowledge; Prediction
國(guó)家自然科學(xué)基金資助項(xiàng)目(61403142)、廣東省科技計(jì)劃基金資助項(xiàng)目(2015B090901025、2013B011304005)、佛山市科技創(chuàng)新專(zhuān)項(xiàng)基金資助項(xiàng)目(2014AG10018)
肖紅軍(1979—),男,博士,副教授,主要從事智能檢測(cè)與智能控制方向的研究。E-mail:jinsery@163.com。 黃道平(通信作者),男,博士,教授,主要從事控制科學(xué)與工程學(xué)科的科研與教學(xué)工作。E-mail:audhuang@scut.edu.cn。
TH-3;TP3
A
10.16086/j.cnki.issn1000-0380.201704002
修改稿收到日期:2016-01-07