北京信息科技大學(xué) 自動(dòng)化學(xué)院,北京 100192
化學(xué)需氧量(Chemical Oxygen Demand,COD)是能夠反應(yīng)水體有機(jī)污染程度的一項(xiàng)重要的指標(biāo)[1]。基于紫外光譜分析的水質(zhì)監(jiān)測(cè)是通過(guò)建立紫外吸光度和有機(jī)物以及部分無(wú)機(jī)物濃度的相關(guān)模型來(lái)評(píng)價(jià)水體污染程度,具有環(huán)保、低成本、便攜等優(yōu)點(diǎn),是水質(zhì)監(jiān)測(cè)儀器的重要發(fā)展方向[2]。在一定程度上,基于紫外可見光譜法測(cè)定COD,其測(cè)量精度嚴(yán)重依賴于所建立的數(shù)學(xué)模型。因此,如何選擇合適的數(shù)學(xué)模型以提高預(yù)測(cè)精度,成為目前紫外可見光譜COD測(cè)量研究的重點(diǎn)[3]。目前,基于紫外可見吸收光譜分析中,模型分析方法主要有人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)[4-5]、主成分回歸(Principal Component Regression,PCR)[6-7]、支持向量機(jī)回歸(Support Vector Regression,SVR)[8-9]以及偏最小二乘(Partial Least Squares,PLS)[10]等,在線性分析建模中,比較常用的是PLS。
張森[11]等運(yùn)用偏最小二乘法結(jié)合支持向量機(jī)的方法,解決了水質(zhì)因子多重相關(guān)問(wèn)題,提高了預(yù)測(cè)精度,預(yù)測(cè)值與實(shí)際值相對(duì)誤差均低于1%,最大為0.7759%,平均相對(duì)誤差為0.39%。俞祿[12]等以總有機(jī)碳(Total Organic Carbon,TOC)、COD為指標(biāo),分別建立PLS、PCR、偏最小二乘回歸(partial least squares regression,PLSR)、最小二乘支持向量機(jī)(Least Squares Support Vector Machine,LSSVM)預(yù)測(cè)模型,結(jié)果表明,LSSVM的預(yù)測(cè)精度最高。陳武奮[13]等以水溫、溶解氫、電導(dǎo)率、濁度數(shù)據(jù)為影響因子,建立基于SVR的水質(zhì)pH值預(yù)測(cè)模型,結(jié)果表明,基于SVR預(yù)測(cè)模型訓(xùn)練集決定系數(shù)為0.854、測(cè)試集決定系數(shù)為0.897,平均相對(duì)誤差為1.419%,該模型為水質(zhì)評(píng)價(jià)提供了一定的參考價(jià)值。
由于水體具有一定的多樣性和復(fù)雜性,紫外吸收光譜信號(hào)通常在全波段進(jìn)行掃描采樣。但是全波段光譜信息作為非線性建模輸入變量會(huì)導(dǎo)致模型的復(fù)雜度增加,減低計(jì)算速度,使檢測(cè)的實(shí)時(shí)性難以保證,同時(shí)會(huì)導(dǎo)致不確定干擾因素的引入,進(jìn)而降低準(zhǔn)確度[14]。
對(duì)原始數(shù)據(jù)降維是一種有效的消噪并且提取有用信息的方法。流形學(xué)習(xí)是從高維映射到低維流空間,來(lái)達(dá)到數(shù)據(jù)低維、可視的目的,從而找到內(nèi)在規(guī)律[15-16]。局部線性嵌入式算法(Locally Linear Embedding,LLE)是Roweis和Saul[17]于2000年提出的非線性降維方法,其本質(zhì)是利用局部線性去逼近全局非線性,對(duì)原始數(shù)據(jù)點(diǎn)進(jìn)行重構(gòu),來(lái)保持整體的特性。LLE 方法具有低復(fù)雜度、少參、高效、容易實(shí)現(xiàn)等優(yōu)點(diǎn)[18-19]。
本文對(duì)室內(nèi)光譜儀測(cè)量的水樣紫外光譜進(jìn)行研究,光譜信息量龐大、維數(shù)過(guò)高,存在著噪聲干擾,需要對(duì)數(shù)據(jù)降維。首先通過(guò)LLE 對(duì)紫外可見吸收光譜數(shù)據(jù)進(jìn)行非線性降維,然后建立基于SVR的預(yù)測(cè)模型,由此結(jié)合LLE和SVR的優(yōu)點(diǎn),建立了基于水質(zhì)COD預(yù)測(cè)模型。結(jié)果表明,LLE-SVR方法建立的預(yù)測(cè)模型效果顯著。
實(shí)驗(yàn)中,共獲得54組樣本,取自于某市生活廢水、河流地表水以及工業(yè)排放廢水,本實(shí)驗(yàn)采用的是BIM-6002A光譜探測(cè)器(杭州Brolight公司生產(chǎn))采用交叉非對(duì)稱C-T光路結(jié)構(gòu),光學(xué)分辨率高達(dá)0.35nm~1nm,光源選擇LS~3000型50W鹵素?zé)簦ぷ鞑ㄩL(zhǎng)范圍為200nm~900nm。根據(jù)GB11914-89《重鉻酸鹽法水質(zhì)化學(xué)需氧量的測(cè)定》來(lái)獲得每個(gè)樣本的COD真值[20]。圖1為54組樣本的光譜曲線,光譜采集的范圍為190nm~400nm。
本實(shí)驗(yàn)總共獲得54個(gè)實(shí)驗(yàn)樣本,將這些樣本劃分為訓(xùn)練集和預(yù)測(cè)集,其中訓(xùn)練集樣本42個(gè),用來(lái)建立數(shù)學(xué)模型,預(yù)測(cè)集樣本12個(gè),用來(lái)檢驗(yàn)?zāi)P偷木群皖A(yù)測(cè)能力。
在數(shù)據(jù)采集的過(guò)程中,由于儀器設(shè)備的高頻噪音、人員操作、外界環(huán)境等因素,往往會(huì)導(dǎo)致一些無(wú)關(guān)因素參與到模型的建立,從而影響所建模型預(yù)測(cè)精度,選擇合適的預(yù)處理方法能夠提高模型的預(yù)測(cè)精度。對(duì)光譜數(shù)據(jù)分別進(jìn)行S-G平滑濾波(Savitzky-Golay smoothing filter,SG)、標(biāo)準(zhǔn)正態(tài)變換(Standrd Normal Variate,SNV)、一階微分(First Derivative,F(xiàn)D)以及小波變換(Wavelet Transform,WT)的預(yù)處理,再通過(guò)PLSR和SVR兩種方法進(jìn)行建模分析,來(lái)分析比較不同預(yù)處理方法對(duì)模型預(yù)測(cè)結(jié)果的影響。
本實(shí)驗(yàn)采用均方誤差(Mean Square Error,MSE)作為性能指標(biāo)評(píng)價(jià)模型的建模和預(yù)測(cè)能力。
通過(guò)表1可以得出,通過(guò)不同預(yù)處理的光譜數(shù)據(jù)得出了不同的預(yù)測(cè)效果,通過(guò)比較訓(xùn)練樣本和測(cè)試樣本,WT+SVR獲得的預(yù)測(cè)模型精度最高。WT可以有效的抑制無(wú)用噪聲,并保留有用信息,采用SVR建模在總體上優(yōu)于PLSR,其原因可能是SVR能夠有效利用光譜信息中隱含的與水質(zhì)COD濃度相關(guān)的非線性關(guān)系。
表1 不同預(yù)處理方法誤差
在水質(zhì)檢測(cè)中,利用全光譜參與模型建立會(huì)增加模型復(fù)雜度,計(jì)算時(shí)間長(zhǎng),效率低,不利于模型的應(yīng)用和推廣。由于全光譜數(shù)據(jù)中可能含有一些無(wú)關(guān)信息參與模型建立,運(yùn)用以上預(yù)處理方法仍舊不能很好的改善模型預(yù)測(cè)精度。通過(guò)數(shù)據(jù)降維,一方面可以降低維數(shù),減小復(fù)雜度,另一方面可以更好地提取有用信息。下面分別運(yùn)用LLE和主成分分析(Principal Component Analysis,PCA)算法對(duì)數(shù)據(jù)降維,再分別結(jié)合SVR建立COD濃度預(yù)測(cè)模型。
(1)PCA-SVR
PCA算法能夠在數(shù)據(jù)空間中發(fā)掘出能盡可能使數(shù)據(jù)從高維降到低維的向量,以此來(lái)得到原始數(shù)據(jù)空間對(duì)應(yīng)的最低維空間的算法。通過(guò)對(duì)預(yù)處理后的光譜數(shù)據(jù)進(jìn)行PCA降維,得到其各主成分分量以及所占比例,如圖2示。
取累計(jì)貢獻(xiàn)率達(dá)到85%以上的前14維數(shù)據(jù),采用SVR進(jìn)行建模分析,得出訓(xùn)練樣本MSE=0.216076,測(cè)試樣本MSE=0.317303,模型預(yù)測(cè)值與實(shí)際值比較曲線如圖3所示。
(2)LLE-SVR[21]
假設(shè)有n個(gè)水樣紫外光譜數(shù)據(jù)樣本,X={x1,x2,…,xn}為初始光譜樣本,且xi=Rp,原始光譜維數(shù)為p。映射到低維空間的樣本為Y={y1,y2,…,yn},yi∈Rd,d為降維后數(shù)據(jù)維數(shù)(d<p),d為預(yù)先設(shè)定的值。
LLE算法的步驟如下:
LLE方法是映射數(shù)據(jù)集X={x1,x2,…,xn},xi=Rp到數(shù)據(jù)集Y={y1,y2,…,yn},yi∈Rd(d<p),主要包括3步:
第1步,局部鄰域,計(jì)算出每個(gè)樣本點(diǎn)xi與其他n-1個(gè)樣本之間的歐氏距離,選取xi的k個(gè)近鄰點(diǎn),k為預(yù)設(shè)值;
第2步,重新計(jì)算對(duì)每個(gè)樣本點(diǎn)xi以及它的k個(gè)近鄰點(diǎn)的權(quán)值;
其中,ωij—xi和xj之間的權(quán)值,且當(dāng)xj不屬于xi的近鄰時(shí),ωij=0;
第3步,根據(jù)重建權(quán)值,將所有樣本數(shù)據(jù)點(diǎn)映射到低維空間中,得到低維輸出,且盡量保持高維空間中的局部線性特征,使重構(gòu)誤差函數(shù)最小。
要求滿足下面兩個(gè)條件,即:
k和d為L(zhǎng)LE算法的兩個(gè)可調(diào)參數(shù)。k和d的大小不同,訓(xùn)練樣本和測(cè)試樣本也會(huì)得到不同的預(yù)測(cè)結(jié)果,k的選擇受樣本個(gè)數(shù)的影響,本實(shí)驗(yàn)為小樣本,選取的k值較小;而d的選擇受光譜數(shù)據(jù)中干擾因素大小及多少的影響,維數(shù)過(guò)小導(dǎo)致提取信息不夠充分,維數(shù)過(guò)高則加大噪聲等無(wú)用信息對(duì)模型建立的影響。
本文運(yùn)用六折交叉驗(yàn)證的方法,k從10取到20,d從10取到30,得到最佳的k為13,最佳的d為27。圖4為參數(shù)選擇結(jié)果圖。
SVR不敏感損失系數(shù)ε取0.021、懲罰系數(shù)C取10000、RBF核函數(shù)的寬度系數(shù)γ取7.2,訓(xùn)練樣本MSE=0.076030,測(cè)試樣本MSE=0.06147,模型預(yù)測(cè)值與實(shí)際值比較曲線如圖5所示。
從圖3、圖5可以看出,LLE-SVR模型預(yù)測(cè)結(jié)果的擬合精度相對(duì)于PCA-SVR有很大的提高,以MSE為評(píng)價(jià)標(biāo)準(zhǔn),進(jìn)一步對(duì)比兩個(gè)模型的預(yù)測(cè)性能,相對(duì)PCA-SVR模型訓(xùn)練樣本MSE=0.216076,測(cè)試樣本MSE=0.317303,LLE-SVR模型訓(xùn)練樣本MSE=0.076030,測(cè)試樣本MSE=0.061477,模型精度顯著提高,由此可見,LLE-SVR模型有效提取了光譜中的非線性特征,預(yù)測(cè)效果優(yōu)于PCA-SVR模型。
由于水體成分復(fù)雜,無(wú)關(guān)因素干擾比較多,若以全波段作為輸入,對(duì)于所建模型精度必將有很大地影響。本文采用局部線性降維(LLE)和支持向量機(jī)回歸(SVR)相結(jié)合的方法,建立了水樣紫外可見光譜吸光度與COD濃度之間的預(yù)測(cè)模型。得到以下結(jié)論:
(1)分別用不同的預(yù)處理方法結(jié)合SVR和PLSR,發(fā)現(xiàn)運(yùn)用WT結(jié)合SVR建立的模型效果最好;
(2)預(yù)處理后的光譜數(shù)據(jù)結(jié)合LLE非線性降維工具,并與PCA降維進(jìn)行比較,采用LLE降維后的預(yù)測(cè)效果更理想;
(3)本文利用LLE這一非線性降維工具結(jié)合SVR建立預(yù)測(cè)模型,揭示了水質(zhì)COD濃度和吸光度之間的非線性關(guān)系,提高了模型預(yù)測(cè)精度,為紫外可見光譜法檢測(cè)水質(zhì)COD濃度提供了一種可行的分析方法。