楊 瓊, 朱乾華, 任 鵬, 龍 帥, 楊季冬*,2
(1.長江師范學院化學化工學院,重慶 408100;2.重慶三峽學院化學及環(huán)境工程學院,重慶 404000;3.西南科技大學生命科學與工程學院,四川綿陽 621010)
化學需氧量(COD)為水體受污染程度的重要計量指標之一,因此,研究 COD 的測定方法具有重要意義。COD傳統(tǒng)的檢測方法有重鉻酸鹽法[1]、高錳酸鉀法[2]以及其它的方法[3,4],但這些化學分析法操作繁瑣,需用重金屬藥品,可能造成二次污染。因此,建立一種快速無損且高效的COD的分析方法很有必要,近紅外光譜分析技術就能達到這一要求。
近紅外(NIR)光譜技術具有快速、準確、簡單和成本較低等優(yōu)點,因此得到各行業(yè)的青睞[5],且在COD檢測領域迅速發(fā)展[6,7]。近紅外光譜分析結果的準確性,取決于模型的合理使用和定標模型的質量好壞,所以必須選擇合適的模型建立方法。偏最小二乘法(PLS)是光譜數(shù)據(jù)處理常用的方法之一,且在使用中對其進行了改進[8],并發(fā)展了間隔偏最小二乘法(iPLS)、前向、后向間隔偏最小二乘法(FiPLS,BiPLS)等建模方法。PLS法一般利用全波譜建立模型,為了盡可能選擇靈敏度較高的波段,以簡化模型、提高模型精度。本文在利用近紅外光譜法結合PLS研究COD的基礎上,提出一種基于iPLS、FiBLS和BiPLS的COD近紅外光譜特征波段選擇方法。將全譜波段等分為30、20、15、12個子區(qū)間,以PLS算法對全譜波段和每個子區(qū)間單獨進行回歸建模,然后以FiPLS 和BiPLS算法對各個區(qū)間進行重新組合并得出優(yōu)化結果模型,用預測集標準偏差(RMSEP)和交叉驗證均方差(RMSECV)作為模型的評價參數(shù)。結果顯示:全波段所建立的PLS的選擇效果最差,iPLS、FiPLS、 BiPLS選擇效果均有所改進,且BiPLS算法提升的效果最好。
日立U-4100 紫外-可見/近紅外分光光度計;OPUS5.5光譜軟件;EL104 分析天平(Mettler-toledo,上海)。
重鉻酸鉀、硫酸亞鐵、鄰菲咯啉、硫酸亞鐵銨、硫酸銀、濃硫酸均為分析純。實驗所用水為超純水。
按照環(huán)境監(jiān)測提供的方法在生活污水沉淀池采集120個水樣,其中80個樣本作校正集,40個樣本作預測集,經(jīng)20 min沉淀后,分為2組,一組測定其COD化學值,一組采集其近紅外光譜。COD 化學值測定參照國家標準方法[1]。測得COD標準值的范圍為28.40~528.0 mg·L-1。
使用1 cm 石英池,在波長800~1 800 nm 的近紅外區(qū)域,以空氣為參比,掃描廢水樣品,波長間隔2 nm,設置狹縫為2 nm,掃描速度為1 500 nm/s,每個樣品掃描3次,取平均值為廢水的NIR透射光譜圖,如圖1所示。
1.4.1PLS全譜模型PLS法最先產生于化學計量領域[9],用于克服解釋變量超出化學樣本個數(shù)而導致多重相關性問題。本文采用OPUS5.5計量學軟件建立PLS模型,采用留一法交互驗證(Leave-one-out Cross Validation,LOO-CV)計算RMSECV。
1.4.2iPLS模型iPLS法原理是將預處理后的全光譜模型波段等分成若干子區(qū)間,然后逐個將子區(qū)間建立待測的PLS回歸模型。將得出各組結果中的RMSECV值進行對比,最小的即為最優(yōu)的建立模型區(qū)間。
1.4.3BiPLS模型BiPLS法是在iPLS 的基礎上建立的一種算法,BiPLS法是一種對子區(qū)間只減不加的方法。方法是將含有n個單獨區(qū)間整個iPLS模型中逐一去除一個子區(qū)間,將剩余的n-1個子區(qū)間聯(lián)合建立PLS 模型,并記錄相應的RMSECV值。然后固定剔除局部模型精度低的子區(qū)間進入下一輪運算,即去除該子區(qū)間之后,所建立的模型得到的RMSECV值最小,以這種方法逐一剔除最差區(qū)間,直到只剩一個子區(qū)間。將RMSECV值最小的聯(lián)合模型確定為最優(yōu)組合。
1.4.4FiPLS模型FiPLS法是一種對子區(qū)間只加不減的方法。它的操作方法是將iPLS單獨區(qū)間模型中RMSECV值最低的子區(qū)間作為第一入選區(qū)間(若RMSECV值一致,優(yōu)選相關值大的子區(qū)間),然后依次把剩下的n-1個子區(qū)間逐一與第一入選區(qū)間組合成n-1組聯(lián)合區(qū)間,進行PLS回歸建模,以這種循環(huán)的方式優(yōu)選,各最優(yōu)組逐個聯(lián)合直到全部區(qū)間被同時建模。將RMSECV值最小的聯(lián)合模型確定為最優(yōu)組合模型。
預測集樣本與校正集樣本的劃分對數(shù)學模型的建立有著重要的作用,校正集樣本范圍需覆蓋預測集樣本,如果預測集樣本不在校正集樣本范圍之內,就必須擴充校正集樣本。因此,本實驗選用80個樣品作為校正集樣本,40個樣品作為預測集樣本。樣品中校正集化學值范圍為19.64~528.0 mg·L-1,平均值為120.4 mg·L-1;預測集化學值范圍為41.6~227.2 mg·L-1,平均值為98.38 mg·L-1。
從圖1可以看出,廢水樣品的近紅外透射光譜圖重疊很嚴重,所以對光譜進行預處理是非常有必要的。本實驗對比了原始光譜、多元散射校正、平滑處理、消除常量偏移、矢量歸一化、一階導數(shù)以及二階導數(shù)處理等光譜處理方法,結果顯示,效果最好的模型是由矢量歸一化法對光譜數(shù)據(jù)進行處理而得到。因此,本實驗所有模型的建立均選用矢量歸一法對光譜數(shù)據(jù)進行預處理。
2.3.1PLS模型的建立圖1為廢水樣品波長800~1 800 nm近紅外光譜全譜,由圖可見該光譜的特征吸收范圍應該在800~1 400 nm處,而在其他的波長點處吸收微弱或者沒有特征吸收,應該選擇該波長范圍進行建模。本文光譜預處理使用OPUS軟件,選用矢量歸一化法在全波進行處理,將最優(yōu)波段自動選擇為800~1 400 nm。一般通過以下幾個主要參數(shù)評價一個模型的好壞:RMSECV作為局部模型精度衡量標準,相關系數(shù)(R2)表示變量間的相關緊密程度;RMSEP反映實測值與預測值的差異,一個模型具有較高的R2,較低且值接近的RMSECV和RMSEP,就是較好的模型。根據(jù)選擇最優(yōu)模型的參數(shù),選出了最優(yōu)模型,其最優(yōu)模型的RMSECV為18.8 mg·L-1,相關系數(shù)(R2)為0.8219。
2.3.2iPLS模型的建立對原始光譜采用矢量歸一化法預處理后,確定全波段800~1 400 nm,將全譜每隔20 nm、30 nm、40 nm、50 nm分為30、20、15、12個子區(qū)間,將每個子區(qū)間利用PLS分別建立回歸模型,并選擇了各個區(qū)間的最優(yōu)模型,其最優(yōu)模型的統(tǒng)計結果分別如下表1所示。由表1可以看出,利用iPLS所建立的最佳模型比用全波段所建立的模型各個參數(shù)都有所提高。而把全波譜間隔20 nm劃分為30個區(qū)間所得的最優(yōu)模型為最佳,所以,選用把全波譜劃分為30個子區(qū)間來建立后面的FiPLS和BiPLS模型。
表1 iPLS模型的優(yōu)化結果
2.3.3FiPLS和BiPLS模型的建立因為iPLS只能在一個子區(qū)間內建模,沒有考慮到多個區(qū)間的組合,雖然減少了運算量,但是它也會丟失一些其他區(qū)間的有用信息。因此我們在iPLS的基礎上,又使用BiPLS和FiPLS建立模型。因為把全波譜間隔20 nm劃分為30個區(qū)間所得的模型為最優(yōu)模型,因此,選用把全波譜劃分為30個子區(qū)間來建立FiPLS和BiPLS模型。兩個模型的結果參數(shù)如表2所示。
表2 BiPLS和FiPLS的模型參數(shù)
(續(xù)表2)
BiPLSFiPLSNumber intervals in modelSelected intervalRMSECV(mg·L-1)R2Number intervals in modelSelected intervalRMSECV(mg·L-1)R281816.80.8463232617.90.830072317.50.8450241418.00.829662517.60.8444251518.00.829752417.70.842026118.10.82694418.00.8373273018.00.82833217.20.8502282718.20.825221925.00.6901292819.40.799111723.50.6582302918.80.8219
從表2可以看出,在BiPLS模型中,當入選區(qū)間數(shù)達到8、9、10個,此時的模型RMSECV值最小,為16.8 mg·L-1,當入選區(qū)間數(shù)達到9時,相關系數(shù)最大為84.65,故選用入選區(qū)間為9時為最佳模型。為剩下參與建模區(qū)間序號有22、18、23、25、24、4、2、19、17。在FiPLS模型中,當入選區(qū)間數(shù)達到13個,此時的RMSECV值最小,為17.2 mg·L-1,入選參與建模的區(qū)間序號有20、12、17、8、11、18、19、21、22、10、9、23、4。研究發(fā)現(xiàn)BiPLS和FiPLS均比全譜建模的PLS法以及iPLS所得的結果更為精確,且通過BiPLS和FiPLS的對比發(fā)現(xiàn),BiPLS最優(yōu)組合所得的RMSECV值比FiPLS最優(yōu)組合的更小,更為精確。所以我們選用參與建模區(qū)間序號為22、18、23、25、24、4、2、19、17組合所建立BiPLS模型來測定廢水中COD值,其最佳模型的RMSECV為16.8 mg·L-1,R2為0.8465。BiPLS法所建立的模型吸取了PLS全波長建模和iPLS建模的優(yōu)點,既考慮到多個區(qū)間的組合,也減少了運算量。
通常外部驗證采用性質與參與建模的校正集樣本具有相似的未參與建模樣本,為了評價模型的預測準確性,普遍通過對比化學測量值和模型外部預測集樣品的預測值差別進行驗證。本實驗用校正集樣本經(jīng)BiPLS算法優(yōu)選后的波長范圍建立數(shù)學分析模型,對預測集樣本的COD值進行了預測,其RMSEP為15.9 mg·L-1,R2為0.8265。結果顯示近紅外光譜預測值和標準方法所測值具有較高的相關性,預測效果達到預期目標。
前人利用近紅外光譜法對COD研究頗多,我們把本文方法與其他部分文獻做了對比,結果如表3所示。從表中可以看出,所列出來的文獻所用建模方法均為PLS,波段范圍比較廣,而我們?yōu)榱巳コǘ沃械臒o用部分來減小運算量,通過研究發(fā)現(xiàn)利用BiPLS最優(yōu)組合所得的RMSECV值與RMSEP值更小,更為精確。其RMSECV和RMSEP分別為16.8 mg·L-1和15.9 mg·L-1。
表3 模型參數(shù)對比
本文利用近紅外光譜法結合PLS、iPLS、BiPLS和FiPLS對廢水樣品中的COD進行分析,并對近紅外光譜特征波段進行了選擇。結果表明:iPLS算法較全譜建模更為精確,且有效減少了模型的變量個數(shù),但是改進的BiPLS和FiPLS算法更能體現(xiàn)這一優(yōu)勢,不僅在選擇中剔除了噪音多的區(qū)間,還能將多個較佳的區(qū)間進行組合,但是FiPLS是只加不減的算法,在與BiPLS這種只減不加的算法相比較,更容易被干擾而導致精確度降低,使BiPLS最終結果比FiPLS更佳。所以,BiPLS更適合作為COD近紅外光譜特征波段選擇的算法。用最優(yōu)模型對預測集樣本的COD的含量進行了預測,獲得較好結果。