趙友全,李 霞,劉 瀟,董鵬飛,王伶俐,王先全
1. 天津大學(xué)精密儀器與光電子工程學(xué)院,天津 300072 2. 重慶理工大學(xué)電子信息與自動化學(xué)院,重慶 400054
基于PCA的水質(zhì)紫外吸收光譜分析模型研究
趙友全1,李 霞1,劉 瀟1,董鵬飛1,王伶俐1,王先全2
1. 天津大學(xué)精密儀器與光電子工程學(xué)院,天津 300072 2. 重慶理工大學(xué)電子信息與自動化學(xué)院,重慶 400054
利用紫外光譜分析水中有機(jī)污染物已成為水質(zhì)實(shí)時在線監(jiān)測的重要方法之一,水樣組分復(fù)雜且不穩(wěn)定是影響其測量結(jié)果的主要因素。利用主成分分析法(PCA)結(jié)合歐氏距離分析水樣紫外吸收光譜,對水樣分類,效果良好。分別用主成分分析結(jié)合偏最小二乘法回歸(PCA-PLSR)和直接利用多波長吸光度結(jié)合偏最小二乘法回歸(MWA-PLSR)建立分析模型,并對比分析了不同濃度的COD標(biāo)準(zhǔn)液的實(shí)驗(yàn)數(shù)據(jù)。結(jié)果表明,采用第一、二主成分作為回歸參數(shù)的PLSR模型的測量誤差在5%以內(nèi),偏差最小。利用本文方法可同時實(shí)現(xiàn)水樣分類和水質(zhì)參數(shù)的精確定量。
紫外吸收光譜;水質(zhì)分析;PCA;PLSR;水樣分類
近年來,環(huán)境污染特別是水質(zhì)污染已成為社會關(guān)注的焦點(diǎn),我國近一半的湖泊和河流被污染,形勢嚴(yán)峻,提升水環(huán)境的監(jiān)控預(yù)警技術(shù)成為一種迫切需要。作為一種純物理的光學(xué)方法,紫外水質(zhì)檢測方法得到了越來越廣泛的關(guān)注,該方法不需化學(xué)試劑,無二次污染,操作簡單[1],可以進(jìn)行實(shí)時在線的連續(xù)監(jiān)測,能及時反應(yīng)水質(zhì)參數(shù)的動態(tài)變化[2]。目前紫外法水質(zhì)建模大多是采用單波長或雙波長方法[3-6],經(jīng)與國家標(biāo)準(zhǔn)化學(xué)法比對后用于檢測監(jiān)測水中污染指數(shù)。該方法較適用于成分比較單一或者污染源固定不變的水體檢測。當(dāng)水質(zhì)污染成分變得復(fù)雜時,某一個或者兩個波長上吸光度的變化與否,已經(jīng)不能代表水中所有污染物含量的變化,也就不能很好的反應(yīng)水質(zhì)的連續(xù)的動態(tài)變化,這會導(dǎo)致檢測結(jié)果與實(shí)際污染物指標(biāo)不一致。
應(yīng)用紫外全光譜法[7],一次檢測即可得到全紫外波段的吸光度曲線,可以比較全面的反映水體污染。用全光譜而不是少數(shù)幾個波長建模,就能夠更多地將組分變化的影響考慮進(jìn)來,水質(zhì)成分雖然復(fù)雜且多樣,但利用主成分分析法結(jié)合歐氏距離將水樣分成有限的種類[8-10],對同一類水體的紫外吸收光譜進(jìn)行主成分分析,獲取主成分,結(jié)合偏最小二乘法建立模型[11],即可準(zhǔn)確得到水中的污染指數(shù),為水質(zhì)的檢測監(jiān)測提供種適應(yīng)性更好方法。
主成分分析法(PCA)分析水樣紫外吸收光譜的基本思想是: 將原來具有一定相關(guān)度的n個波長的吸光度參數(shù),重新組合成一組較少個數(shù)的互不相關(guān)的吸收向量Fm(m=1, 2, 3,…)即主成分。就是將紫外吸收光譜中的眾多的吸光度變量,減少成為吸光度的線性組合變量[12]。所得的主成分可表示為
(1)
(2)
Fm的方差越大,G(m)越大,越能代表原光譜信息。理論上來說,同種水樣的吸收光譜經(jīng)過主成分分析得到的主成分只有一個,第一主成分的貢獻(xiàn)率為100%。但是由于水樣組分變化和污染源不同,吸光度分布與濃度的正比例關(guān)系發(fā)生改變,主成分個數(shù)增加。
樣品在每個主成分上的得分值可以反應(yīng)出主成分與水樣間、水樣與水樣間的相互關(guān)聯(lián)程度,得分值越大代表此水樣在此主成分上的含量越高。同一水樣在不同主成分上的得分為
(3)
每一個主成分都是所有波長吸光度的線性組合,任意一個主成分得分都與濃度成正比例關(guān)系。故可以用主成分得分值的線性組合建立模型,定量分析水樣中的水質(zhì)參數(shù)。
對于不同水樣進(jìn)行主成分分析時,其主成分的得分與水樣成分和濃度有關(guān),對于成分相同,濃度相近的水樣,其主成分得分差距較小。反之,可以認(rèn)為主成分得分相近的水樣可以為同一類,從而解決不同水樣的分類問題。
2.1 實(shí)際水樣的鑒別和分類
紫外法測水質(zhì)一般是利用模型估測水樣中的水質(zhì)參數(shù)含量,模型的選擇與水質(zhì)種類有很大的關(guān)系,不同種類的水樣應(yīng)用不同的估測模型。污染源不同、水樣組分發(fā)生變化,都應(yīng)歸為不同類水體。選取三種水樣,兩個來自人工湖泊,一個來自近湖的河流。在不同位置共取20個水樣,測得所有水樣在200~400 nm的吸收光譜,對所得光譜進(jìn)行主成分分析,得到結(jié)果如圖1、圖2所示。
圖1 實(shí)際水樣的主成分貢獻(xiàn)率圖
由圖1可以看出,20份實(shí)際水樣主要有兩大主成分,第一主成分的貢獻(xiàn)率為62.56%,第二主成分的貢獻(xiàn)率為34.77%,此兩個主成分的累積貢獻(xiàn)率已大于95%。對水樣進(jìn)行得分分析,結(jié)果如圖2所示,可以明顯看出三種水樣被分為3組,1—5號是河流水樣,得分之間有一定的差距,是因?yàn)樗∷畼邮怯珊恿鞑煌L度的界面處取得。6—10號和11—20號分別為兩個湖泊水樣。所有主成分得分值較小,說明水樣成分及濃度都較為接近,這從側(cè)面反映出兩個湖泊和河流的所處的地理位置較近。直接利用歐氏距離對其進(jìn)行系統(tǒng)聚類,如圖3所示,可以看出,水樣可按圖中虛線所示分為3類,和主成分分析分類相同。此外,水樣6—10號與11—20號的距離較小,合為一個大類,和實(shí)際水樣分別取自湖泊和河流的分類相同。本方法很容易精準(zhǔn)對水樣進(jìn)行分類,從而實(shí)現(xiàn)對水質(zhì)參數(shù)的準(zhǔn)確分析。
圖2 不同水樣在第一、二主成分上的得分
圖3 利用歐氏距離的紫外吸收光譜的聚類分析
2.2 水質(zhì)參數(shù)的實(shí)驗(yàn)測定與分析
由國標(biāo)GB11914—89可知, 以重鉻酸鉀為氧化劑,1 g鄰苯二甲酸氫鉀耗氧1.176 g。利用分析純的鄰苯二甲酸氫鉀,配制濃度為1 000 mg·L-1的儲備液,將此儲備液稀釋成如表1所示的16種濃度的鄰苯二甲酸氫鉀溶液,其吸收光譜如圖4所示。
由吸收光譜圖4可以看出,鄰苯二甲酸氫鉀在200~300 nm波段有顯著吸收,當(dāng)波長大于310 nm時,幾乎無吸收。當(dāng)濃度較小(小于等于50 mg·L-1)時,其有3個吸收峰,分別在210,235和280 nm左右;當(dāng)濃度大于50 mg·L-1時,有兩個吸收峰,第一個吸收峰波長會隨濃度的增加而增大,其范圍為235~252 nm,另一個吸收峰在280 nm左右。250~280 nm波段的吸光度隨濃度的增加顯著增加,提取16組不同濃度的COD的溶液吸收光譜250~300 nm波段的吸光度進(jìn)行主成分分析,得到的主成分貢獻(xiàn)率如圖5所示。
表1 不同COD濃度的鄰苯二甲酸氫鉀溶液溶液
圖4 不同濃度的鄰苯二甲酸氫鉀溶液的紫外吸收光譜圖
圖5 主成分貢獻(xiàn)率圖
由圖5可以看出第一主成分的貢獻(xiàn)率已達(dá)到99.02%,而第二主成分的貢獻(xiàn)率為0.93%,其余主成分的貢獻(xiàn)率已經(jīng)很低,可忽略不計。圖6是16個樣品在第一、二主成分的得分,得分呈現(xiàn)出一種隨著濃度的增大在第一主成分上的得分逐漸增大、在第二主成分上的得分先增大后減小的現(xiàn)象。第二主成分的得分變化遠(yuǎn)小于第一主成分的得分變化,這是因?yàn)榈谝恢鞒煞值呢暙I(xiàn)率遠(yuǎn)大于第二主成分的貢獻(xiàn)率,第一主成分已經(jīng)可以代表原水樣的絕大部分信息。由圖7(a)可以看出,第一主成分上的波長得分變化值與鄰苯二甲酸氫鉀溶液的吸收光譜類似,在圖7(b)和(c)中波長得分變化值主要在250~258 nm波段內(nèi),其余波長段得分變化值基本為0,說明在第二主成分中的次波段內(nèi),各波長上的得分不隨濃度的變化而變化,溶液在此波段內(nèi)吸光能力幾乎為0??梢哉J(rèn)為在第一主成分上258~350 nm波段上溶液表達(dá)了所有的吸光能力,吸光度與濃度符合朗伯比爾定律。在其他波段得分不隨濃度變化時,而250~280 nm波段的得分值有了不同程度的變化,說明次波段內(nèi)出現(xiàn)了隨著濃度的增大吸光度已經(jīng)不能同比例增加的現(xiàn)象。主成分分析將此波段的吸光度分為兩部分的和,并且變化比例不同,分成此兩部分有利于水質(zhì)參數(shù)含量的測定。
圖6 16種鄰苯二甲酸氫鉀溶液在第一、二主成分上的得分圖
Fig. 6 Scores of 16 kinds of potassium hydrogen phthalate solution on the first and the second principal component
圖7 主成分得分在每個波長處的變化
(a): 當(dāng)COD濃度由10 mg·L-1增長到400 mg·L-1時,第一主成分得分在每個波長上的變化;(b): 當(dāng)COD濃度由10 mg·L-1增長到220 mg·L-1時,第二主成分得分在每個波長上的變化;(c): 當(dāng)COD濃度由220 mg·L-1增長到400 mg·L-1時,第二主成分得分在每個波長上的變化
Fig.7 Changes in the score at each wavelength
on principal component
(a): When the COD concentration increase from the 10 to 400 mg·L-1, changes at each wavelength on the first principal component; (b): When the COD concentration increase from the 10 to 220 mg·L-1, changes at each wavelength on the second principal component; (c): When the COD concentration increase from the 220 to 400 mg·L-1, changes difference occur at each wavelength on the second principal component
2.3 水質(zhì)參數(shù)的估測模型及可靠性分析
在測量水質(zhì)參數(shù)含量的過程中,當(dāng)水質(zhì)參數(shù)的濃度較大時,吸光度與濃度的關(guān)系不再符合朗伯比爾定律,濃度較小時容易受外界干擾和儀器噪聲的影響而導(dǎo)致測量誤差偏大。為便于實(shí)驗(yàn)設(shè)計和比較,解決水質(zhì)參數(shù)濃度較小時測量誤差容易偏大、濃度較大時吸光度易與濃度不成比例的問題,以濃度為20,200,300和380 mg·L-1為驗(yàn)證集,以剩余的12組不同濃度的樣品為訓(xùn)練集,每個樣品的吸收光譜平行測量三次并取其平均值,以PCA-PLSR和MWA-PLSR方法建立模型,以相關(guān)系數(shù)為評價指標(biāo)。本文中共采用兩種多波長、三種主成分和光譜面積等六種方式建立PLRS模型,結(jié)果如表2所示。
表2 六種模型的回歸結(jié)果
表3 六種方式的測量值與理論值的對比結(jié)果
Table 3 The comparative results between the theoretical value and the measured value from 6 kinds of ways
理論值/(mg·L-1)模型方式測量值/(mg·L-1)測量誤差/%380方式1378.18470.4777方式2385.99971.5789方式3383.31130.8714方式4376.81670.8377方式5374.43591.4642方式6387.28931.9182300方式1311.14893.7163方式2312.59134.1971方式3296.01421.3286方式4299.48980.1701方式5290.83703.0543方式6294.12401.9587200方式1194.77752.6113方式2218.14069.0703方式3203.69891.8494方式4208.08954.0448方式5214.07707.0385方式6200.90220.451120方式114.888025.56方式218.15939.2035方式324.301521.5075方式419.01614.9195方式514.599427.003方式627.518237.5910
由表2可以看出,六種不同建模方式的相關(guān)系數(shù)相差不大,方式1—5的相關(guān)系數(shù)均超過0.99,只有第六種方式的相關(guān)系數(shù)稍微偏小,但是在可接受范圍內(nèi)。為檢測六種模型對水質(zhì)污染含量的估測值的可靠性,利用以COD濃度為20,200,300和380 mg·L-1的吸收光譜對建立的六種模型進(jìn)行測試,得到的結(jié)果如表3所示。
由表3可以看出,以第一、二主成分為回歸參數(shù)的建模方式(方式4)的測量結(jié)果誤差最小,均在5%以內(nèi)。以259,270和288 nm三個波長吸光度為回歸參數(shù)的建模方式(方式1)在濃度較高時,測量較為準(zhǔn)確,測量誤差在4%以內(nèi),濃度較小時誤差太大,達(dá)到了25%。以254,259,265,270和288 nm五個波長吸光度為回歸參數(shù)的建模方式(方式2)的測量結(jié)果偏差基本較大,不宜采用。以第一主成分建模(方式3)、以第一、二、三主成分建模(方式5)和以光譜面積建模(方式6)都出現(xiàn)濃度較小時測量偏差較大的現(xiàn)象。結(jié)果表明,以第一、二主成分為回歸參數(shù)的估測模型比其他幾種模型測量效果好,可為COD含量的預(yù)測提供有效依據(jù)。
采用主成分分析結(jié)合歐氏距離和偏最小二乘法對水樣分類和COD含量的預(yù)測進(jìn)行了定性和定量的分析。通過實(shí)驗(yàn)驗(yàn)證了主成分得分結(jié)合歐氏距離的方法對實(shí)際水樣可以進(jìn)行有效分類,減少了因水樣差異造成的選用模型差異而產(chǎn)生的測量誤差。同時,分別用不同主成分組合和不同波長組合建立了六種多元回歸模型。結(jié)果發(fā)現(xiàn),以第一、二主成分為回歸參數(shù)的估測模型比其他幾種模型測量效果好,此模型將隨濃度的增大而不符合朗伯比爾定律的波長吸光度分為兩部分,解決了COD濃度小時誤差偏大和濃度較大吸光度易與濃度不成比例的問題,為COD含量的準(zhǔn)確預(yù)測提供可靠方法。
[1] Hou D, Liu S, Zhang J, et al. Journal of Spectroscopy, 2014, 2014.
[2] ZHAO You-quan, LI Yu-chun, GUO Yi, et al(趙友全, 李玉春, 郭 翼, 等). Spectroscopy and Spectral Analysis(光譜學(xué)與光譜分析), 2012, 32(5): 1301.
[3] ZHOU Na, LUO Bin, LIAO Ji, et al(周 娜, 羅 彬, 廖 激, 等). Sichuan Environment(四川環(huán)境),2006, 25(1): 84.
[4] Fang J, Dai L. Intelligent Control and Automation, 2004. WCICA 2004. Fifth World Congress on. IEEE, 2004, 5: 3810.
[5] Chong S S, Aziz A R, Harun S W. Sensors, 2013, 13(7): 8640.
[6] GU Jian, ZHAO You-quan,GUO Yi, et al(顧 建, 趙友全, 郭 翼, 等). Journal of Safety and Environment(安全與環(huán)境學(xué)報), 2012, 6: 22.
[7] MU Xiu-sheng(穆秀圣). University of Electronic Science and Technology of China(電子科技大學(xué)), 2009.
[8] DAI Lei-lei(代雷雷). Zhejiang University(浙江大學(xué)), 2014.
[9] HU Yang-jun, ZHU Chun, CHEN Guo-qing, et al(胡揚(yáng)俊, 朱 純, 陳國慶, 等). Spectroscopy and Spectral Analysis(光譜學(xué)與光譜分析), 2014, 34(8): 2143.
[10] Lourenco N D, Chaves C L, Novais J M, et al. Chemosphere, 2006, 65(5): 786.
[11] Chen B, Wu H, Li S F Y. Talanta, 2014, 120: 325.
[12] Platikanov S, Rodriguez-Mozaz S, Huerta B, et al. Journal of Environmental Management, 2014, 140: 33.
(Received Sep. 15, 2015; accepted Jan. 5, 2016)
Research on Water Quality Analysis Model with PCA Method and UV Absorption Spectra
ZHAO You-quan1,LI Xia1,LIU Xiao1,DONG Peng-fei1,WANG Ling-li1, WANG Xian-quan2
1. College of Precision Instrument and Opto-Electronics Engineering, Tianjin University, Tianjin 300072,China 2. Electronic Information and Automation, Chongqing University of Technology, Chongqing 400054,China
Using the UV absorption spectrum to detect Organic pollutants content in water has become one of the most important methods for real-time online monitoring in the field of water quality inspection, however, the water complex and unstable components often bring much uncertain offset to the standard test. In this paper, water samples were classified firstly by analyzing UV absorption spectrum ranging from 200 nm to 400 μm including the organic substances, through the way of combining principal component analysis (PCA) with Euclidean distance. In this paper, we compared the Principal component analysis combined with partial least squares regression (PCA-PLSR) and the direct multi-wavelength absorption models combined with partial least squares regression (MWA-PLSR), not only for the real water sample but also for the analysis of different concentrations of COD standard solution. The result indicates that the measurement errors of the PCA is less than 5%, it is the smallest by using the first and second principal components as regression parameters for PLSR. Using the methods above can simultaneously achieve to classify of water samples and to measure the concentration of water quality parameters more accurately.
UV absorption spectrum;Water quality analysis;PCA;PLSR;Sample classification
2015-09-15,
2016-01-05
國家自然科學(xué)基金項目(51275551),國家重大科學(xué)儀器專項(2011YQ15004008)資助
趙友全,1970年生,天津大學(xué)精密儀器與光電子工程學(xué)院副教授 e-mail: zhaoyouquan@tju.edu.cn
O657.3
A
10.3964/j.issn.1000-0593(2016)11-3592-05