蔡建楠,劉海龍,姜 波,何甜輝,陳文杰,馮志偉,黎倬琳,邢前國*
(1.中山市環(huán)境監(jiān)測站,廣東 中山 528403;2.中山市生態(tài)環(huán)境局,廣東 中山 528403; 3.中國科學(xué)院 煙臺海岸帶研究所/中國科學(xué)院海岸帶環(huán)境過程與生態(tài)修復(fù)重點(diǎn)實(shí)驗(yàn)室,山東 煙臺 264003)
【研究意義】水質(zhì)監(jiān)測是河流水污染防治工作的重要組成部分。傳統(tǒng)的水質(zhì)監(jiān)測方法存在成本高昂、采樣及分析過程需時(shí)長、時(shí)空代表性差等缺點(diǎn),難以滿足當(dāng)前形勢下水環(huán)境管理的需要[1-2]。近年來,高光譜水質(zhì)遙感以其檢測速度快、無二次污染、精確度高、可與航空技術(shù)結(jié)合、可實(shí)現(xiàn)大面積覆蓋等優(yōu)點(diǎn),在水質(zhì)參數(shù)定量化監(jiān)測中具有較大的應(yīng)用潛力[3-4]。高光譜水質(zhì)監(jiān)測主要基于水體實(shí)測光譜豐富的譜域信息,通過建立光譜特征和水質(zhì)指標(biāo)的關(guān)系模型,實(shí)現(xiàn)對水質(zhì)指標(biāo)的反演[3];但高光譜數(shù)據(jù)也存在數(shù)據(jù)冗余、易受環(huán)境噪聲影響、不同波段間數(shù)據(jù)存在共線性等問題,影響水質(zhì)反演精度及穩(wěn)定性[5-6]。采取合適的數(shù)學(xué)建模方法進(jìn)行數(shù)據(jù)優(yōu)化和波段篩選,實(shí)現(xiàn)冗余變量的剔除和模型的優(yōu)化,是水質(zhì)反演模型建立的關(guān)鍵環(huán)節(jié)[7-8]。
【研究進(jìn)展】高光譜環(huán)境遙感數(shù)據(jù)的波段篩選方法主要有遺傳算法(GA)、無信息變量消除法(UVE)、競爭性自適應(yīng)重加權(quán)算法(CARS)、連續(xù)投影算法(SPA)等[9]。其中GA 是一種模擬自然進(jìn)化搜索最優(yōu)解方法,GA 與偏最小二乘法(Partial Least Squares, PLS)結(jié)合而成的GA-PLS 算法,綜合了GA 全局優(yōu)化搜索能力和PLS 可有效解決變量間多重共線性問題的能力,成為光譜反演模型建立的研究熱點(diǎn),被廣泛應(yīng)用于化工、食品、農(nóng)業(yè)等領(lǐng)域[8,10-12]。
【切入點(diǎn)】在水質(zhì)遙感監(jiān)測領(lǐng)域,GA-PLS 主要應(yīng)用于湖泊水庫中透明度、葉綠素a、懸浮物和濁度等光學(xué)活性參數(shù)的反演研究[13-14],而針對河網(wǎng)水體水質(zhì)綜合指標(biāo)的高光譜反演研究報(bào)道較少。本研究以廣東省中山市有代表性的河流、水渠為監(jiān)測對象,以化學(xué)需氧量(COD)為水質(zhì)綜合評價(jià)指標(biāo),通過現(xiàn)場同步監(jiān)測獲得水體高光譜數(shù)據(jù)和COD 質(zhì)量濃度,建立河網(wǎng)水體化學(xué)需氧量(COD)質(zhì)量濃度高光譜反演模型。
【擬解決的關(guān)鍵問題】通過本研究驗(yàn)證GA-PLS算法對高光譜水質(zhì)反演模型預(yù)測效果的改善作用,從而為河網(wǎng)水體水質(zhì)高光譜監(jiān)測提供參考。
中山市地處粵港澳大灣區(qū)幾何中心,珠江口西岸,北連廣州,毗鄰港澳;屬珠三角感潮河網(wǎng)區(qū),轄區(qū)內(nèi)河流密布,除主要外江河道外,有各種規(guī)模的內(nèi)河涌、排灌渠等超過1 000 條。中山市經(jīng)濟(jì)發(fā)達(dá),產(chǎn)業(yè)集群密集,近年來隨著城市快速發(fā)展和人口不斷增加,河網(wǎng)水體多數(shù)受到一定程度的污染,水質(zhì)復(fù)雜多變。
光譜測量和水質(zhì)監(jiān)測于2019 年7—9 月實(shí)施,監(jiān)測對象盡可能覆蓋中山市不同規(guī)模的河流和渠道。剔除個(gè)別離群值后,共獲得146 個(gè)點(diǎn)位的現(xiàn)場實(shí)測光譜數(shù)據(jù)和水質(zhì)樣品。使用的光譜測量設(shè)備為美國Ocean Optics 公司USB4000 光譜儀,光譜分辨率<0.2 nm。測量時(shí)選擇晴天無云或少云天氣狀況下,距12:00 約3 h 的時(shí)段內(nèi)進(jìn)行,以最大限度地降低太陽耀光影響。在每個(gè)點(diǎn)位離河流水面0.5 m 處,測量河流水體上行輻射亮度(Lu)、天空輻射亮度(Ls)和太陽下行輻照度(Ed)。測量前使用標(biāo)準(zhǔn)白板進(jìn)行儀器定標(biāo),后進(jìn)行3 次測量后取平均值作為光譜測定結(jié)果。計(jì)算測點(diǎn)光譜反射率Rrs計(jì)算式為[15]:
去除高光譜數(shù)據(jù)中噪聲較大、信噪比低的兩端波段,最終每個(gè)測點(diǎn)保留400~900 nm 光譜范圍共2 534個(gè)波長的反射率數(shù)據(jù)。
監(jiān)測點(diǎn)的水樣采集與光譜測量同步進(jìn)行,采集河流表層0~20 cm 處混合樣,加入固定劑保存并送至實(shí)驗(yàn)室分析,監(jiān)測項(xiàng)目為反映河流水質(zhì)的綜合性指標(biāo)COD,分析方法依據(jù)《水質(zhì)化學(xué)需氧量的測定重鉻酸鉀法》(HJ 828—2017)。
1.3.1 GA-PLS 算法原理及實(shí)現(xiàn)
GA 是一種非導(dǎo)數(shù)的隨機(jī)優(yōu)化方法,借鑒生物界自然選擇和進(jìn)化機(jī)制,利用選擇、交換和突變等算子的操作,隨著不斷的遺傳迭代,使目標(biāo)函數(shù)值較優(yōu)的變量被保留,較差的變量被淘汰,最終達(dá)到最優(yōu)結(jié)果[8,11]。PLS 是一種基于高維投影思想的非參數(shù)回歸方法,綜合了多元線性回歸分析、典型相關(guān)分析和主成分分析的基本功能,特別是當(dāng)各自變量集合內(nèi)部存在較高程度相關(guān)性時(shí),通過提取主成分能對系統(tǒng)中的數(shù)據(jù)信息進(jìn)行分解和篩選,提取對因變量解釋性最強(qiáng)的綜合變量,辨識系統(tǒng)中的信息和噪聲,有助于建立最優(yōu)模型[16-17]。將GA 和PLS 結(jié)合可融合2 種算法的優(yōu)勢,建立更加穩(wěn)定、簡便、預(yù)測能力更強(qiáng)的模型。GA-PLS 算法的基本思想是將PLS 算法對因變量預(yù)測效果的評價(jià)指標(biāo)作為GA 的適應(yīng)度函數(shù),用GA 進(jìn)行波段篩選,再用偏最小二乘法方法對篩選后的自變量建立反演模型。GA-PLS 算法實(shí)現(xiàn)流程見圖1。
圖1 GA-PLS 算法實(shí)現(xiàn)流程圖 Fig.1 GA-PLS algorithm implementation flowchart
1.3.2 GA-PLS 算法參數(shù)設(shè)定及結(jié)果處理
GA 算法采用 PLS 交叉校驗(yàn)均方根誤差(RMSECV)作為適應(yīng)度函數(shù),控制參數(shù)設(shè)定為:群體規(guī)模為30,最大迭代次數(shù)為100,交叉概率為50%,變異概率為1%,以遺傳迭代次數(shù)為收斂終止條件。PLS 算法采用舍一交叉驗(yàn)證方法(PRESS)確定主成分的選取個(gè)數(shù)。由于GA 算法單次計(jì)算結(jié)果具有隨機(jī)性,為確保得到穩(wěn)定的篩選結(jié)果,對數(shù)據(jù)執(zhí)行10 次GA-PLS 重復(fù)運(yùn)算并累積記錄每次運(yùn)算得到的入選波段和入選頻率。
將146 個(gè)樣本按照COD 質(zhì)量濃度升序排列,按照1∶4 的間隔依序選擇驗(yàn)證數(shù)據(jù)和建模數(shù)據(jù),可將數(shù)據(jù)劃分為建模集(116 個(gè)樣本)和驗(yàn)證集(30 個(gè)樣本)。其中建模集用于GA-PLS 運(yùn)算以篩選特征波段并建立PLS 回歸模型;驗(yàn)證集用于驗(yàn)證篩選得到的特征波段及回歸模型對水體COD 質(zhì)量濃度的反演效果。同時(shí)將全譜段范圍的反射率數(shù)據(jù)建立PLS 回歸模型,以比較GA-PLS 算法和常規(guī)PLS 算法的效果差異。模型建立和驗(yàn)證效果分別采用模型決定系數(shù)R2、建模集方根誤差RMSEC 和驗(yàn)證集方根誤差RMSEP 進(jìn)行評價(jià)。各評價(jià)指標(biāo)計(jì)算式為:
式中:yi為建模集(驗(yàn)證集)第i 個(gè)樣本COD 質(zhì)量濃度實(shí)測值;yi′為建模集(驗(yàn)證集)第i 個(gè)樣本COD質(zhì)量濃度反演值為建模集COD 質(zhì)量濃度實(shí)測值平均值;n 為樣本數(shù)。
根據(jù)水質(zhì)監(jiān)測結(jié)果,146 個(gè)水質(zhì)樣品測得的COD質(zhì)量濃度范圍為5~32 mg/L,平均值為13.7 mg/L,標(biāo)準(zhǔn)差為6.3 mg/L,偏度和峰度分別為0.799 和-0.004。按照《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》(GB 3838—2002)Ⅱ~Ⅲ類水的限值作為區(qū)間劃分標(biāo)準(zhǔn),將各測點(diǎn)的高光譜反射率數(shù)據(jù)分別按照不同的COD 質(zhì)量濃度分類,以分析不同COD 質(zhì)量濃度水平下水體高光譜特征差異,(圖2)。
在400~700 nm 波段范圍內(nèi)水體光譜反射率對低COD 質(zhì)量濃度水體有較好的區(qū)分度,Ⅱ類水質(zhì)水體光譜反射率在此波段范圍內(nèi)均顯著高于其他水質(zhì)類別的水體;而在波長大于720 nm 的波段范圍內(nèi),則出現(xiàn)Ⅳ類水質(zhì)水體的光譜分辨率高于Ⅲ類水質(zhì)水體的現(xiàn)象。表明水體光譜反射率與COD 質(zhì)量濃度存在一定的相關(guān)性,但在不同波段范圍內(nèi)相關(guān)關(guān)系特征規(guī)律不同;總體上表明基于光譜分辨率的水體COD 質(zhì)量濃度反演具有較好的可行性。
圖2 不同COD 質(zhì)量濃度水平對應(yīng)的水體高光譜反射率 Fig.2 Hyperspectral reflectance of water body with different COD concentration levels
樣本集數(shù)據(jù)經(jīng)過10 次GA-PLS 重復(fù)運(yùn)算,得到的入選波段及累積入選頻率見圖3。圖3 顯示在610~660、680~730、840~870 nm 等波段范圍內(nèi)均有連續(xù)的波段入選;入選頻率最高為650、720、763、818、842、873 nm 附近波長的波段,上述波段入選頻率均超過 20%;入選頻率較低的波段范圍為400~430、530~560、780~800 nm,表明該上述波段范圍內(nèi)的水體光譜反射率可能與COD 質(zhì)量濃度相關(guān)性較低。
圖3 GA-PLS運(yùn)算得出的入選波段及頻率 Fig.3 Selected bands and frequencies from GA-PLS calculation
為探索不同入選波段數(shù)量對模型建立及驗(yàn)證效果的差異,分別選取累積入選頻率大于15%(共74個(gè)波段)、大于10%(共140 個(gè)波段)、大于5%(共471 個(gè)波段)和大于2%(共1 235 個(gè)波段)的波段作為輸入變量進(jìn)行PLS 算法建模,并和基于全譜段PLS模型的預(yù)測效果相比較,評價(jià)結(jié)果見表1。由表1 可知,與全譜段PLS 模型相比,經(jīng)過GA-PLS 算法篩選后得到的不同波段組合作為PLS 模型的輸入變量,模型穩(wěn)定性基本保持不變或有所提高。在各種波段組合中,以471 個(gè)波段作為輸入變量可得到最佳的驗(yàn)證效果,驗(yàn)證集RMSEP 為4.887 mg/L,較全譜段PLS模型降低11.4%;而以74 個(gè)波段(占全波段數(shù)的2.9%)作為輸入變量時(shí),模型仍然保持良好的穩(wěn)定性和驗(yàn)證精度,模型建立和驗(yàn)證效果評價(jià)指標(biāo)均優(yōu)于全譜段PLS 模型,實(shí)現(xiàn)了對輸入?yún)?shù)的有效縮減。
水質(zhì)類別判定是水環(huán)境管理和評價(jià)的重要工作,故本研究按照《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》(GB3838—2002)所劃分的水質(zhì)類別,將全部146 個(gè)樣的模型反演值予以分類,并與實(shí)測值對應(yīng)水質(zhì)類別進(jìn)行比較,結(jié)果(圖4)顯示,模型對全部水質(zhì)樣品的水體類別分類準(zhǔn)確率為72.0%,其中對Ⅱ、Ⅲ類水質(zhì)水體分類準(zhǔn)確性可達(dá)83.9%,但對Ⅳ、Ⅴ類水質(zhì)水體的分類準(zhǔn)確性較差,為21.4%。從全體樣本COD 實(shí)測值與模型反演值對比結(jié)果看(圖5),該模型對COD 質(zhì)量濃度小于20 mg/L 的水體樣本有較好的反演精度,但對于較高COD 質(zhì)量濃度樣本的反演結(jié)果偏低。由于本研究中樣本COD 質(zhì)量濃度主要處于Ⅱ~Ⅲ類水質(zhì)范圍內(nèi),說明在樣本COD 質(zhì)量濃度主要分布范圍內(nèi),基于GA-PLS 的高光譜水質(zhì)反演模型具有較高的驗(yàn)證精度。
表1 模型建立和預(yù)測效果評價(jià) Table 1 Evaluation of model establishment and prediction effect
圖4 GA-PLS 模型水質(zhì)分類結(jié)果與實(shí)測分類結(jié)果比較Fig.4 Comparison of water quality clasification results by GA-PLS model with measured value
圖5 GA-PLS 模型反演值與實(shí)測值比較 Fig.5 Comparison of GA-PLS model retrieval and measured values
本研究采用GA-PLS 算法對高光譜數(shù)據(jù)進(jìn)行波段篩選,實(shí)現(xiàn)了高光譜數(shù)據(jù)的降維,當(dāng)采用數(shù)量僅為全譜段3.4%的優(yōu)選波段作為自變量進(jìn)行PLS建模時(shí),模型建立及驗(yàn)證效果仍然優(yōu)于全譜段PLS 建模,說明GA-PLS 算法可有效去除與水體COD 質(zhì)量濃度相關(guān)性小的波段數(shù)據(jù),從而提高水體COD 質(zhì)量濃度高光譜反演模型的穩(wěn)定性和預(yù)測能力。
對GA-PLS 算法篩選得到的部分特征波段(圖3中箭頭標(biāo)示處)做進(jìn)一步分析可見,篩選得到的部分特征波段與水中藻類、懸浮顆粒物的光譜吸收、反射特征波段一致:如650~680 nm 波長范圍內(nèi)的反射低谷由藻類吸收所致[18];710~720 nm 波長范圍內(nèi)反射率下降與水分子吸收過程密切相關(guān),反映水體潔凈程度;約820 nm 波長處的反射峰則是水體懸浮顆粒物散射程度加強(qiáng)而形成[19]。上述結(jié)果表明受測水體中懸浮顆粒物、藻類對COD 質(zhì)量濃度影響較大,是水體COD 的主要來源;也反映GA-PLS 算法選取的特征波段具有較好的合理性和指示意義。此種特性使得GA-PLS 算法在水質(zhì)高光譜監(jiān)測中具有廣闊的應(yīng)用前景,可為同類型水體光譜監(jiān)測的波段選擇或多光譜傳感器的波段設(shè)計(jì)提供重要參考,也有助于深入開展水體COD 光譜吸收特征及機(jī)理研究。
由于GA-PLS 算法結(jié)果具有隨機(jī)性,多次運(yùn)算后可能得到不同的波段篩選結(jié)果,選擇何種方法確定最終輸入變量對模型效果有一定的影響。本研究以各波段累積入選頻率為標(biāo)準(zhǔn)篩選特征波段,可綜合多次運(yùn)算的結(jié)果,方法簡便易行。但最優(yōu)變量組合的確定仍然有必要結(jié)合目標(biāo)污染物的光譜吸收特征、不同波段間反射率的相關(guān)性和預(yù)測精度的要求等,開展進(jìn)一步研究。
1)基于GA-PLS 算法的河網(wǎng)水體COD 質(zhì)量濃度高光譜反演模型效果優(yōu)于全譜段PLS 模型。采用不同數(shù)量的篩選波段作為輸入變量,驗(yàn)證集RMSEP 最小為4.887 mg/L,較全譜段PLS 模型降低11.4%;以篩選后的74 個(gè)波段(占全波段數(shù)的2.9%)作為輸入變量時(shí),模型仍可保持良好的穩(wěn)定性和反演精度,表明GA-PLS 算法可以實(shí)現(xiàn)對模型輸入?yún)?shù)的有效縮減。
2)模型對全部水質(zhì)樣品的水體類別分類準(zhǔn)確率為72.0%,對Ⅱ、Ⅲ類水質(zhì)水體分類準(zhǔn)確性達(dá)83.9%,表明在樣本COD 質(zhì)量濃度主要分布范圍內(nèi),GA-PLS算法模型有良好水質(zhì)類別分類準(zhǔn)確性。
3)通過GA-PLS 算法可對高光譜數(shù)據(jù)進(jìn)行特征波段篩選,實(shí)現(xiàn)數(shù)據(jù)的降維優(yōu)化,并進(jìn)一步簡化模型;GA-PLS 算法篩選得出的部分特征波段具有較好的合理性,有助于揭示COD 的主要來源構(gòu)成,可為水質(zhì)高光譜監(jiān)測傳感器設(shè)計(jì)和水質(zhì)反演機(jī)理研究提供參考,在河流COD 快速監(jiān)測中具有廣闊的應(yīng)用前景。