王彩玲,張育春,王靜怡
(西安石油大學(xué) 計(jì)算機(jī)學(xué)院,陜西 西安 710065)
化學(xué)需氧量(chemical oxygen demand,COD)在生活污水、地表水等的檢測中占據(jù)重要地位,能夠很好地反映水污染的程度[1]。傳統(tǒng)的COD檢測方法是重鉻酸鉀法或高錳酸鉀法,兩種方法都存在耗時(shí)長、人力物力消耗較大、操作不便且難以實(shí)現(xiàn)大批量快速檢測的問題[2],而要更好地實(shí)現(xiàn)水污染的防治,就必須以大面積水質(zhì)狀況檢測為前提和基礎(chǔ)。
高光譜檢測技術(shù)具有綠色、高效、耗時(shí)較少等優(yōu)點(diǎn),因而不少學(xué)者結(jié)合偏最小二乘法進(jìn)行水質(zhì)檢測技術(shù)的研究。RYAN等人構(gòu)建出偏最小二乘最佳高光譜Chl-a濃度估算模型[3];ALI等人利用高光譜技術(shù)檢測出水體總懸浮固體濃度[4];曹引等人建立偏最小二乘水體濁度高光譜反演模型,為水體濁度大面積遙感檢測提供了技術(shù)支持[5];張賢龍等人提出高光譜技術(shù)水質(zhì)參數(shù)濃度反演模型[6];蔡建楠等人采用GA遺傳算法實(shí)現(xiàn)了基于偏最小二乘法高光譜COD檢測模型的優(yōu)化[7]。近年來,BP(back propagation)神經(jīng)網(wǎng)絡(luò)模型在非線性映射能力以及網(wǎng)絡(luò)結(jié)構(gòu)上的優(yōu)勢被應(yīng)用到數(shù)據(jù)檢測領(lǐng)域[8],但對于水質(zhì)檢測研究較少。因此結(jié)合BP神經(jīng)網(wǎng)絡(luò)研究基于高光譜技術(shù)的COD含量檢測,具有很好的理論研究意義和實(shí)踐價(jià)值。
本文以水體COD含量為研究對象,通過多種預(yù)處理方法對高光譜技術(shù)采集的數(shù)據(jù)進(jìn)行處理和特征提取,并進(jìn)行多特征融合,建立BP神經(jīng)網(wǎng)絡(luò)水體COD含量估算模型。經(jīng)實(shí)驗(yàn)對比,基于多特征融合BP神經(jīng)網(wǎng)絡(luò)模型的決定系數(shù)高達(dá)0.991 64,均方根誤差為0.030 9,模型性能最優(yōu),能夠?qū)崿F(xiàn)水體中COD含量的檢測。
本次實(shí)驗(yàn)所用儀器為OCEAN-HDX-XR微型光纖光譜儀,光譜范圍200 nm~1 030 nm,選擇配比溶液為1 mg/L、2 mg/L、3 mg/L、4 mg/L、5 mg/L、6 mg/L、7 mg/L、8 mg/L、9 mg/L、10 mg/L的COD標(biāo)液,相同時(shí)間間隔重復(fù)采集上述標(biāo)液的高光譜數(shù)據(jù),共計(jì)100條,隨機(jī)打亂劃分為校正集與驗(yàn)證集,其中校正集90條,用于模型的訓(xùn)練;驗(yàn)證集10條,用于模型性能的驗(yàn)證。通過白板校正得到所采集高光譜數(shù)據(jù)的光譜透射率值[9],如(1)式所示:
式中:RO為原始光譜數(shù)據(jù);RW為白板數(shù)據(jù)。
采集到的光譜信息夾雜各類噪聲,因此我們選擇做平滑處理以降低噪音的干擾。本次實(shí)驗(yàn)選用滑動平均濾波器進(jìn)行平滑去噪。圖1為某一光譜透射率數(shù)據(jù)的原始及其平滑曲線圖。
圖1 原始數(shù)據(jù)及平滑光譜曲線Fig.1 Original data and smooth spectrum curve
分別采用不同的預(yù)處理方法進(jìn)行處理。其中,采用雙向二階導(dǎo)數(shù)去除背景信號,提高光譜數(shù)據(jù)的分辨率[10];采用多元散射校正有效消除由于散射水平不同會給光譜數(shù)據(jù)帶來差異,增強(qiáng)光譜與數(shù)據(jù)之間的相關(guān)性[11];采用標(biāo)準(zhǔn)正態(tài)變量變換降低固體顆粒大小、表面散射以及光源變換等對光譜信息的影響[12]。
采用偏最小二乘回歸分析分別對上述特征做特征提取,計(jì)算最佳主成分的個數(shù),對最佳主成分?jǐn)?shù)進(jìn)行篩選?;貧w系數(shù)圖如圖2所示。
由圖2可知,COD原始數(shù)據(jù)敏感波段大體分布于500 nm~800 nm,提取特征波段150個。雙向二階導(dǎo)數(shù)敏感波段分布在400 nm~900 nm之間,提取特征波段33個;多元散射校正以及標(biāo)準(zhǔn)正態(tài)變量變換敏感波段都分布在200 nm~300 nm之間,分別提取特征波段48個。
圖2 回歸系數(shù)圖Fig.2 Regression coefficient diagram
本文采用BP神經(jīng)網(wǎng)絡(luò)方法以上述特征波段為自變量,將不同濃度的COD樣本的濃度與光譜數(shù)據(jù)進(jìn)行擬合,通過對樣本數(shù)據(jù)進(jìn)行訓(xùn)練,分別建立基于各類自變量的BP神經(jīng)網(wǎng)絡(luò)特征模型,檢測結(jié)果如圖3所示。
圖3 模型檢測結(jié)果Fig.3 Testing results of model
以均方根誤差RMSE和決定系數(shù)R2以及測試時(shí)間3個參數(shù)為標(biāo)準(zhǔn)對所建立的各個模型進(jìn)行精度檢驗(yàn)與比較。其中:均方根誤差越小,說明模型選擇和擬合更好;R2越接近模型1的擬合效果越好。
檢驗(yàn)結(jié)果如表1所示。
表1 模型精度檢驗(yàn)結(jié)果Table 1 Testing results of model accuracy
由表1可知,特征波段BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間由365.873 s降低為3.386 003 s,測試時(shí)間降低為0.202 852 s,極大地減少了計(jì)算量,縮短了模型建立以及檢測時(shí)間,且誤差更小,擬合優(yōu)度更高,性能有了很大的提升,說明特征波段提取可以實(shí)現(xiàn)水體中COD含量檢測的優(yōu)化。經(jīng)過預(yù)處理之后,雙向二階導(dǎo)數(shù)特征BP神經(jīng)網(wǎng)絡(luò)R2為0.967 58,均方根誤差與原始特征波段結(jié)果較為接近;標(biāo)準(zhǔn)正態(tài)變量變換特征BP神經(jīng)網(wǎng)絡(luò),其R2高達(dá)0.979 02,均方根誤差較低;多元散射校正特征BP神經(jīng)網(wǎng)絡(luò)模型R2達(dá)到0.990 49,RMSE為0.037 6,模型性能均高于特征波段模型,說明3種優(yōu)化處理對于提高模型的精度均有效。
為了提升模型檢測的精度,學(xué)者利用多種方式對提取的特征進(jìn)行優(yōu)化,其中,特征融合是一項(xiàng)常用策略[13]。不同預(yù)處理方式所提取的不同特征向量反映的特性不同,對其進(jìn)行優(yōu)化組合,可以在保留有效鑒別信息的基礎(chǔ)上消除冗余信息,從而提高模型的精度。
本文采用典型相關(guān)分析方法將3種特征進(jìn)行融合,以交叉驗(yàn)證誤差均方根RMSECV為評價(jià)標(biāo)準(zhǔn)[14],篩選80個波段進(jìn)行多特征融合BP神經(jīng)網(wǎng)絡(luò)模型的建立,并采用目前較為成熟的偏最小二乘模型[15]進(jìn)行對比。圖4為對應(yīng)的檢測結(jié)果。
圖4 多特征融合模型檢測結(jié)果Fig.4 Testing results of multi-feature fusion model
對多特征融合BP神經(jīng)網(wǎng)絡(luò)模型以及多特征融合偏最小二乘模型進(jìn)行精度對比。檢驗(yàn)結(jié)果如表2所示。
從表2可知,特征融合BP神經(jīng)網(wǎng)絡(luò)模型R2高達(dá)0.991 64,RMSE為0.030 9,模型擬合度以及精度均有提高,且高于偏最小二乘法預(yù)測模型。根據(jù)R2最大、RMSE最小原則,最終采用多特征融合BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行水體COD含量的檢測。
表2 模型精度檢驗(yàn)結(jié)果Table 2 Testing results of model accuracy
本文對光譜透射率數(shù)據(jù)進(jìn)行預(yù)處理,采用偏最小二乘回歸系數(shù)法提取特征波段,建立BP神經(jīng)網(wǎng)絡(luò)全波段模型、特征波段模型以及多特征融合模型,分析不同特征輸入對模型精度的影響,結(jié)果表明:3種預(yù)處理方法可以有效降低噪音的干擾;偏最小二乘回歸系數(shù)法可以有效降低數(shù)據(jù)維度,同時(shí)可篩選出相關(guān)性較好的波段,COD估算模型的精度;多特征融合BP神經(jīng)網(wǎng)絡(luò)模型決定系數(shù)達(dá)到了0.991 64,均方根誤差為0.030 9,依據(jù)R2最大、RMSE最小原則,采用基于多特征融合的BP神經(jīng)網(wǎng)絡(luò)模型可以建立精度較好的COD定量估算模型。