李愛(ài)民, 范 猛, 秦光鐸, 王海隆, 許有成
1. 鄭州大學(xué)地球科學(xué)與技術(shù)學(xué)院, 河南 鄭州 450001 2. 鄭州大學(xué)水利科學(xué)與工程學(xué)院, 河南 鄭州 450001
隨著社會(huì)經(jīng)濟(jì)的高速發(fā)展, 一些地表水體(湖泊、 水庫(kù)和河流)受到了嚴(yán)重的污染。 全面準(zhǔn)確的水質(zhì)監(jiān)測(cè)是水污染治理和水環(huán)境保護(hù)的前提。 傳統(tǒng)水質(zhì)監(jiān)測(cè)方法主要是現(xiàn)場(chǎng)采集水樣, 實(shí)驗(yàn)室測(cè)量各種水質(zhì)參數(shù), 難以反映污染物的空間分布特征及水質(zhì)參數(shù)濃度的大面積范圍的動(dòng)態(tài)變化[1-2]。
隨著國(guó)內(nèi)外衛(wèi)星遙感數(shù)據(jù)源的不斷豐富, 遙感被廣泛應(yīng)用于水質(zhì)動(dòng)態(tài)監(jiān)測(cè)。 目前利用遙感數(shù)據(jù)反演的水質(zhì)參數(shù)多集中于葉綠素a[3-5]、 懸浮物[6]以及CDOM[7]等; 隨著對(duì)水質(zhì)光譜特征研究的深入, 機(jī)器學(xué)習(xí)算法的引用、 以及遙感技術(shù)的不斷革新, 利用遙感手段反演的水質(zhì)參數(shù)種類不斷增加, 其中化學(xué)需氧量(chemical oxygen demand, COD)的反演近年來(lái)得到廣泛關(guān)注; COD是反映水中有機(jī)污染程度的重要指標(biāo), 準(zhǔn)確評(píng)估和掌握水體COD濃度分布對(duì)污染治理和環(huán)境保護(hù)有重要作用。 目前在COD參數(shù)遙感反演方法中應(yīng)用最多也最廣泛的是經(jīng)驗(yàn)分析方法[8], 即以遙感影像“面”值與實(shí)際水樣采集的“點(diǎn)位”值建立函數(shù)關(guān)系, 如趙起超等[9]基于Landsat8影像, 使用BP神經(jīng)網(wǎng)絡(luò)方法反演白洋淀水體的COD濃度, 平均相對(duì)誤差為16.5%。 目前利用多光譜遙感數(shù)據(jù)反演COD濃度精度較低, 一是因?yàn)榻?jīng)驗(yàn)方法是以皮爾遜相關(guān)系數(shù)大小為衡量指標(biāo)選取建模波段, 對(duì)于多光譜遙感數(shù)據(jù)而言, 其光譜波段范圍較寬, 波段的組合數(shù)量有限, 難以找到相關(guān)系數(shù)高的變量作為自變量; 二是由于遙感影像的“面”和實(shí)測(cè)數(shù)據(jù)“點(diǎn)”之間存在空間尺度上的差異, 以及遙感圖像處理中幾何校正、 大氣校正等因素的影響, 均導(dǎo)致對(duì)模型的建立以及模型的遷移應(yīng)用產(chǎn)生較大影響。
近年來(lái)深度學(xué)習(xí)技術(shù)快速發(fā)展, 在遙感領(lǐng)域得到了廣泛的應(yīng)用, 不同結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)在遙感影像語(yǔ)義分割[10-11]、 目標(biāo)檢測(cè)[12]、 以及遙感影像去噪[13]等方面取得了巨大的進(jìn)展。 深度卷積神經(jīng)網(wǎng)絡(luò)是將卷積理論與人工神經(jīng)網(wǎng)絡(luò)相結(jié)合, 通過(guò)數(shù)據(jù)特征提取及參數(shù)共享等機(jī)制實(shí)現(xiàn)輸入和輸出數(shù)據(jù)之間的非線性關(guān)系映射[14]。 將深度卷積神經(jīng)網(wǎng)絡(luò)用于水質(zhì)參數(shù)定量遙感反演中, 有望為遙感水質(zhì)參數(shù)反演提供一種新的解決方案。
基于多光譜高分辨率Planet衛(wèi)星影像, 采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)鄭州市天德湖COD水質(zhì)參數(shù)進(jìn)行遙感反演, 并利用若干反演模型進(jìn)行精度對(duì)比分析, 以期對(duì)卷積神經(jīng)網(wǎng)絡(luò)在定量遙感反演中的應(yīng)用做一些探討。
選擇河南省鄭州市天德湖(34°48′—34°49′N, 113°29′—113°30′E)作為研究區(qū), 湖區(qū)面積約為0.306 km2, 水深2~10 m。 實(shí)地水樣采集時(shí)間為2020/12/05日上午。 采用Planet衛(wèi)星數(shù)據(jù); 遙感影像數(shù)據(jù)通過(guò)北京國(guó)測(cè)星繪信息技術(shù)有限公司購(gòu)買(http://www.satimage.cn/)。 衛(wèi)星在研究區(qū)成像時(shí)間與水樣采集時(shí)間同步, 遙感影像有4個(gè)光譜波段, 分別是藍(lán)波段(455~515 nm); 綠波段(500~590 nm); 紅波段(590~670 nm); 紅外波段(780~860 nm)。 影像級(jí)別為L(zhǎng)1B, 分辨率為4 m, L1B級(jí)數(shù)據(jù)為基礎(chǔ)產(chǎn)品, 獲取的數(shù)據(jù)經(jīng)過(guò)了幾何校正和輻射校正等處理。
在研究水域內(nèi)共采集38個(gè)樣本, 采樣時(shí)乘坐皮劃艇小船, 由若干名人員協(xié)作采集, 在湖面無(wú)波動(dòng)時(shí)利用3L的有機(jī)玻璃采樣器采集深度為0~50 cm的表層水樣。 將采集的水樣放置在陰冷處, 并當(dāng)天帶回實(shí)驗(yàn)室進(jìn)行指標(biāo)測(cè)試。 COD濃度的測(cè)定采用密閉催化消解法, 利用5B-6C快速測(cè)定儀測(cè)定水樣的COD濃度, 測(cè)得的COD濃度范圍為6.53~39.13 mg·L-1, 平均值為24.22 mg·L-1, 標(biāo)準(zhǔn)差為6.78 mg·L-1。 研究區(qū)及采樣點(diǎn)如圖1所示。
圖1 研究區(qū)及采樣點(diǎn)位置Fig.1 Study area and location of sampling points
同步開展水面高光譜數(shù)據(jù)測(cè)量。 采用美國(guó)ASD公司生產(chǎn)的FiledSpecHH2手持式光譜儀, 在采集水樣之前對(duì)儀器進(jìn)行校正, 采用水面以上測(cè)量法進(jìn)行水面光譜測(cè)量, 并對(duì)每個(gè)采樣點(diǎn)采集10次取平均值作為此采樣點(diǎn)的光譜反射率數(shù)據(jù)。 實(shí)測(cè)光譜曲線如圖2所示, 為和Planet影像數(shù)據(jù)光譜范圍保持一致, 選取400~900 nm范圍內(nèi)的光譜曲線進(jìn)行分析。 由圖2可看出, 由于水體對(duì)太陽(yáng)輻射具有強(qiáng)烈的吸收作用, 使遙感反射率值大多較低。 天德湖水體具有典型的內(nèi)陸水體特征, 其水體光譜變化帶有較為明顯的葉綠素a的光譜特征和懸浮物的光譜特征, 即在675 nm附近處有葉綠素a的吸收峰以及在700 nm附近處有葉綠素a和懸浮物疊加作用形成的反射峰, 而由于懸浮物的影響使440和550 nm附近處的葉綠素a的吸收峰和綠色反射峰不明顯, 整體表現(xiàn)為中間高兩端低。
圖2 實(shí)測(cè)光譜曲線Fig.2 Measured spectra
遙感數(shù)據(jù)值和實(shí)測(cè)的水質(zhì)參數(shù)之間具有非常復(fù)雜的非線性關(guān)系, 深度學(xué)習(xí)方法能夠?qū)W習(xí)到更深層次的像元之間的抽象關(guān)系, 這對(duì)于水質(zhì)參數(shù)的反演有著新的啟發(fā), 因而探索將卷積神經(jīng)網(wǎng)絡(luò)用于水質(zhì)參數(shù)反演意義重大, 在內(nèi)陸水體水質(zhì)參數(shù)反演精度方面具有巨大的潛力。 實(shí)驗(yàn)采用卷積神經(jīng)網(wǎng)絡(luò)方法針對(duì)Planet衛(wèi)星數(shù)據(jù)進(jìn)行COD反演, 同時(shí)建立單變量回歸(一元線性回歸、 冪函數(shù)回歸)、 多變量回歸(主成分回歸、 多元線性回歸)以及多隱含層神經(jīng)網(wǎng)絡(luò)回歸模型進(jìn)行對(duì)比, 采用均方根誤差(root mean square error, RMSE)、 決定系數(shù)(coefficient of determination,R2)進(jìn)行精度評(píng)價(jià)。
以經(jīng)驗(yàn)分析為主的水質(zhì)參數(shù)反演多以皮爾遜相關(guān)系數(shù)大小為衡量標(biāo)準(zhǔn), 從遙感影像波段的不同組合形式中選取其最優(yōu)波段進(jìn)行反演建模, 對(duì)不同波段組合的形式進(jìn)行相關(guān)系數(shù)計(jì)算, 不同波段組合的最高相關(guān)系數(shù)記錄如表1所示, 根據(jù)單變量建模和多變量建模, 分別選擇合適的建模波段進(jìn)行回歸建模。 分析得出, 在不同波段組合后的變量之間也存在較高的相關(guān)性, 故在篩選波段中選取了5個(gè)波段組合方式參與多變量建模(表1)。
表1 相關(guān)系數(shù)計(jì)算Table 1 Calculation of correlation coefficient
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)(feedfor-ward neural networks), 是深度學(xué)習(xí)(deep learning)的代表算法之一。 卷積神經(jīng)網(wǎng)絡(luò)具有表征學(xué)習(xí)(representation learning)能力, 能夠按其階層結(jié)構(gòu)對(duì)輸入信息在更高層次進(jìn)行抽象, 獲取深層次的圖像信息。 本研究建立“卷積-池化-全連接”的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu), 探討卷積神經(jīng)網(wǎng)絡(luò)在水質(zhì)參數(shù)反演中的應(yīng)用。 考慮到訓(xùn)練集樣本有限, 對(duì)原始獲取的遙感影像進(jìn)行正射校正處理, 將正射校正前的影像用38個(gè)采集點(diǎn)坐標(biāo)裁剪出38個(gè)Patch圖像(7×7)加入到訓(xùn)練集中, 以此對(duì)訓(xùn)練集進(jìn)行增強(qiáng)處理, 按8∶2比例將數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集。
為盡量避免過(guò)擬合現(xiàn)象, 在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練中加入dropout和early stop策略, 選擇Adam算法對(duì)學(xué)習(xí)率進(jìn)行優(yōu)化, 激活函數(shù)選擇ReLu, 輸出層的損失函數(shù)選擇均方誤差(means qured error, MSE), 在模型訓(xùn)練中將訓(xùn)練集按7: 3的比例劃分為新訓(xùn)練集和驗(yàn)證集。 模型的結(jié)構(gòu)如圖3所示。
圖3 卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)Fig.3 Structure of convolutional neural networks
卷積層的工作原理是利用卷積核進(jìn)行深層次抽象特征的提取, 核大小為5×5, Padding為“Same”, 池化層是對(duì)來(lái)自卷積層的數(shù)據(jù)進(jìn)行不同方式的采樣處理, 核大小為2×2, Padding方式為“Same”, Flatten層是將所有特征拉伸成一維的形式。
卷積神經(jīng)網(wǎng)絡(luò)反演COD水質(zhì)參數(shù)的工作流程如圖4所示。
圖4 卷積神經(jīng)網(wǎng)絡(luò)反演COD工作流程Fig.4 Workflow of COD retrieval by convolutional neural network
單變量回歸選擇一元線性回歸、 乘冪函數(shù)模型、 指數(shù)模型; 多變量回歸選擇主成分回歸、 多元線性回歸以及多隱含層神經(jīng)網(wǎng)絡(luò)回歸模型。 多隱含層神經(jīng)網(wǎng)絡(luò)訓(xùn)練中采用網(wǎng)格搜索確定隱含層個(gè)數(shù)和每層的神經(jīng)元個(gè)數(shù), 最終確定隱含層為兩層, 每層的神經(jīng)元個(gè)數(shù)分別是6個(gè)和8個(gè)。 在卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)確定中采用多次實(shí)驗(yàn)調(diào)節(jié)卷積層、 池化層以及全連接層中的核大小, 步長(zhǎng), 神經(jīng)元個(gè)數(shù)等超參數(shù), 并結(jié)合early stop和dropout等策略來(lái)盡量避免過(guò)擬合, 其模型最終確定的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
將建立的多個(gè)模型進(jìn)行匯總, 如表2, 無(wú)論是單變量回歸還是多變量回歸模型, 其精度都較低, 其根本原因是遙感影像數(shù)據(jù)和水質(zhì)參數(shù)濃度之間的關(guān)系是非線性關(guān)系, 用皮爾遜相關(guān)系數(shù)難以準(zhǔn)確衡量之間的相關(guān)性, 且在建立多變量回歸模型中的建模波段之間也存在較高的相關(guān)性, 故以常規(guī)方法建立的模型精度普遍較低, 其中卷積神經(jīng)網(wǎng)絡(luò)精度最高, 其決定系數(shù)為0.89, RMSE為2.22 mg·L-1, 其次為多隱含層神經(jīng)網(wǎng)絡(luò), 其決定系數(shù)為0.76, RMSE為3.45 mg·L-1, 而其他的單變量回歸和多變量回歸模型的精度均較差。
表2 幾種COD反演模型及精度Table 2 Several retrieval models for COD and their accuracy
將精度最高的卷積神經(jīng)網(wǎng)絡(luò)和精度最低的一元線性反演專題圖進(jìn)行對(duì)比, 如圖5(a)和(b), 天德湖的COD濃度分布都呈現(xiàn)西部高、 東部低、 東南方向的進(jìn)水口濃度較低、 東北方向的出水口濃度較高的特征, 但卷積神經(jīng)網(wǎng)絡(luò)反演的專題圖與實(shí)際情況更為符合, 反演的天德湖區(qū)域COD濃度平均值為23.96 mg·L-1, 標(biāo)準(zhǔn)差為7.11 mg·L-1, 變異系數(shù)為0.29; 一元線性反演的天德湖區(qū)域COD濃度平均值為26.92 mg·L-1, 標(biāo)準(zhǔn)差為8.71 mg·L-1, 變異系數(shù)為0.32, 可知卷積神經(jīng)網(wǎng)絡(luò)反演結(jié)果更接近實(shí)際采樣點(diǎn)的統(tǒng)計(jì)值, 其實(shí)際采樣點(diǎn)濃度平均值為24.22 mg·L-1, 標(biāo)準(zhǔn)差為6.78 mg·L-1, 變異系數(shù)為0.28。 由圖6(a)知, 一元線性模型反演結(jié)果在實(shí)測(cè)濃度高于25 mg·L-1時(shí)會(huì)存在嚴(yán)重的高估, 低于25 mg·L-1時(shí)存在低估現(xiàn)象, 由圖6(b)知, 一元線性模型的濃度值分布較為集中, 卷積神經(jīng)網(wǎng)絡(luò)反演結(jié)果的直方圖濃度變化較為平緩, 過(guò)渡更加自然。
圖5 兩種模型反演專題圖對(duì)比(a): 卷積神經(jīng)網(wǎng)絡(luò)反演專題圖; (b): 一元線性反演專題圖Fig.5 Contrast of two retrieval thematic maps(a): Convolutional neural networks thematic map; (b): Unary linear inversion thematic map
圖6 兩種反演模型對(duì)比分析(a): COD實(shí)測(cè)值和預(yù)測(cè)值; (b): 反演結(jié)果的直方圖Fig.6 Contrastive analysis of two retrieval models(a): Actual and predicted values of COD; (b): Histogram of retrieval results
基于Planet多光譜高分辨率遙感影像, 利用卷積神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)模型對(duì)天德湖COD水質(zhì)參數(shù)進(jìn)行反演, 分析模型精度, 反演得到天德湖水質(zhì)參數(shù)COD濃度分布專題圖。 其主要研究結(jié)論如下。
(1)相比于常規(guī)以皮爾遜相關(guān)系數(shù)為衡量標(biāo)準(zhǔn)選擇不同波段組合的反演方式, 卷積神經(jīng)網(wǎng)絡(luò)反演具有更高的空間反演精度, 其決定系數(shù)為0.89, RMSE為2.22 mg·L-1, 這是因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)能夠提取以目標(biāo)像元為中心的領(lǐng)域空間信息, 自動(dòng)學(xué)習(xí)遙感數(shù)據(jù)的“內(nèi)在規(guī)律”, 在一定程度上避免傳統(tǒng)方法建模帶來(lái)的不穩(wěn)定性。
(2)天德湖的COD濃度空間分布呈現(xiàn)西部高、 東部較低、 東南方向的進(jìn)水口濃度較低、 東北方向的出水口濃度較高的特征。 卷積神經(jīng)網(wǎng)絡(luò)反演的天德湖區(qū)域濃度平均值為23.96 mg·L-1, 標(biāo)準(zhǔn)差為7.11 mg·L-1, 變異系數(shù)為0.29, 更加接近實(shí)際采樣點(diǎn)的統(tǒng)計(jì)值。
建立的卷積神經(jīng)網(wǎng)絡(luò)仍存在改進(jìn)的空間, 如將遙感影像進(jìn)行旋轉(zhuǎn)、 反轉(zhuǎn)等方式對(duì)樣本進(jìn)行增強(qiáng), 增加卷積神經(jīng)網(wǎng)絡(luò)的深度以及討論不同核大小對(duì)模型的影響等, 將在以后對(duì)模型進(jìn)行改進(jìn), 以期取得更好的反演效果。 現(xiàn)階段的反演結(jié)果中的每個(gè)像元的水質(zhì)參數(shù)濃度值比較精確, 但依然處在從反演結(jié)果的專題圖中獲取水質(zhì)參數(shù)濃度的空間分布范圍和變化趨勢(shì)的階段。 隨著近年來(lái)反演技術(shù)的進(jìn)步, 反演的要求將逐漸從全局濃度變化趨勢(shì)分析向局部反演的準(zhǔn)確性方面轉(zhuǎn)變, 在此背景下以卷積神經(jīng)網(wǎng)絡(luò)模型為代表的機(jī)器學(xué)習(xí)模型在水質(zhì)參數(shù)反演中具有較高的應(yīng)用潛力。
致謝:此次野外實(shí)驗(yàn)的數(shù)據(jù)獲取得到了研究生趙劉義、 李亭亭、 王革林的幫助, 在此表示衷心的感謝!