摘 要:內(nèi)陸湖庫水體是重要的水資源,利用遙感技術監(jiān)測水體濁度能夠快速掌握大范圍的水質(zhì)和水環(huán)境狀況。該文以Landsat遙感影像為主要數(shù)據(jù)源,以2017—2020年在吉林省采集的180個水體樣本的濁度數(shù)據(jù)為研究對象,以光譜波段為基礎特征變量,基于數(shù)學運算構建多種波段組合特征,提取并選擇最優(yōu)特征變量作為模型輸入,構建極限梯度提升(XGBoost)和隨機森林(RF)機器學習模型對濁度值進行估測,通過對比分析預測結果,選擇最優(yōu)模型對吉林省典型湖庫水體濁度進行反演。研究結果表明,以藍、綠、紅波段計算得到的波段差值組合和比值組合作為最優(yōu)特征變量,XGBoost的預測精度最高,決定系數(shù)R2和均方根誤差RMSE分別為0.84和0.54 NTU。利用XGBoost模型反演吉林省典型湖庫1985—2020年間每5年的水體濁度,分析其時空反演變化,為吉林省水環(huán)境治理與保護提供科學的技術支撐和決策支持。
關鍵詞:水體濁度;機器學習;遙感反演;時空變化;Landsat影像數(shù)據(jù)
中圖分類號:TP311 文獻標志碼:A 文章編號:2095-2945(2024)34-0030-05
Abstract: Inland lakes and reservoirs are crucial water resources, and monitoring water turbidity using remote sensing technology can quickly grasp the water quality and environment over large areas. This study primarily uses Landsat remote sensing images as data sources, focusing on the turbidity data of 180 water samples collected in Jilin Province from 2017 to 2020. Based on spectral bands as fundamental characteristic variables, various band combinations were constructed through mathematical operations to extract and select optimal features for model input. Extreme Gradient Boosting (XGBoost) and Random Forest (RF) machine learning models were developed to estimate turbidity values. By comparing the prediction results, the optimal model was selected to invert the turbidity of typical lakes and reservoirs in Jilin Province. The research indicates that the band difference and ratio combinations calculated from blue, green, and red bands serve as the optimal feature variables, with XGBoost achieving the highest prediction accuracy, R2 and RMSE being 0.84 and 0.54 NTU, respectively. The XGBoost model was used to invert the water turbidity of typical lakes and reservoirs in Jilin Province every five years from 1985 to 2020, analyzing its temporal and spatial variation. This provides scientific technical support and decision-making assistance for water environment management and protection in Jilin Province.
Keywords: Turbidity; Machine learning; Remote sensing; spatial-temporal variation; Landsat image data
湖庫水體是我國主要的飲用水資源,在調(diào)節(jié)生態(tài)環(huán)境平衡,支撐工農(nóng)業(yè)生產(chǎn),提供人們生活保障等方面發(fā)揮積極的作用[1]。吉林省作為我國重要的糧食主產(chǎn)區(qū)和工業(yè)基地,為加快經(jīng)濟發(fā)展,振興東北老工業(yè)基地,工農(nóng)業(yè)及生活用水的需求量增加,導致水體面積發(fā)生較大變化,富營養(yǎng)化現(xiàn)象頻發(fā),極大程度影響人類生存和自然資源的可持續(xù)發(fā)展。濁度作為水質(zhì)監(jiān)測的重要參數(shù)之一,能夠綜合反映水體中懸浮物對光線阻礙程度。通過監(jiān)測水體濁度,可以直接反映水體質(zhì)量情況,有助于及時發(fā)現(xiàn)并預警水體渾濁度較高地區(qū),科學有效地進行水質(zhì)監(jiān)測,對確保當?shù)厮鷳B(tài)系統(tǒng)良性發(fā)展具有重要的意義[2]。
利用遙感技術監(jiān)測水體濁度已是廣泛應用的技術手段[3]。通過衛(wèi)星獲取遙感數(shù)據(jù),提取地表水質(zhì)信息,反映水體濁度連續(xù)時空分布特征和變化情況,有效彌補了采用離散水面樣點分析與監(jiān)測的不足[4],眾多國內(nèi)外學者利用遙感影像來反演水體濁度進行了不同程度的分析,Hossain等[5]利用Landsat 8衛(wèi)星影像和實地現(xiàn)場測量對美國的田納西河進行水體濁度的反演;Ma等[6]利用Sentinel-2衛(wèi)星影像與實地實測水體數(shù)據(jù)繪制了東北區(qū)域典型湖泊濁度反演圖;晁明燦等[7]利用GF-1衛(wèi)星影像與浮標監(jiān)測站濁度數(shù)據(jù)相結合,對2019年巢湖濁度進行了時空分析。近年來,應用遙感數(shù)據(jù)估測水體濁度已經(jīng)成為研究熱點,構建濁度擬合模型用以準確表達濁度與波段反射率間的關系是關鍵問題。陳方方等[8]基于Sentinel-3影像利用支持向量機(SVM)算法構建查干湖水質(zhì)高精度反演模型;Wang等[9]基于Landsat影像構建半經(jīng)驗模型獲取大慶地區(qū)數(shù)百個湖庫1984—2018年的濁度信息;Du等[10]基于Landsat影像構建指數(shù)模型定量分析松嫩平原水域總懸浮物濃度的變化,并進行了驅動力分析;曹引等[11]基于GF-1影像與HJ-1影像構建最小二乘模型對微山湖進行了總懸浮物濃度和濁度監(jiān)測。
本文以Landsat遙感影像為主要數(shù)據(jù)源,以2017—2020年吉林省地區(qū)采集180個水體樣本的濁度數(shù)據(jù)為研究對象,選擇最優(yōu)遙感特征變量,構建機器學習預測模型,通過對比預測精度,選擇最優(yōu)模型對吉林省典型湖庫查干湖和松花湖水體濁度在1985—2020年進行反演,為區(qū)域水環(huán)境治理與保護提供科學的技術支持。
1 研究區(qū)與數(shù)據(jù)源
1.1 研究區(qū)概況
吉林省擁有豐富的湖泊資源,在生態(tài)環(huán)境中發(fā)揮著重要作用,本文以查干湖和松花湖作為主要研究湖泊,其中查干湖(124°03′~124°34′E,45°05′~45°30′N)位于吉林省松原市西部,是省內(nèi)最大的天然湖泊。湖泊面積達到350 km2,平均深度為2.52 m。年平均降水量為400~500 mm[8];松花湖(126°45′~127°38′E,43°07′~43°50′N)位于吉林省吉林市東部,流域面積達到42 500 km2,湖水平均面積為550 km2,氣候屬于北溫帶大陸性季風氣候,全年平均氣溫為4.4 ℃,多年平均降水量為657 mm[12]。
1.2 數(shù)據(jù)源獲取
1.2.1 水體樣本數(shù)據(jù)測定
2017—2020年,在吉林省湖庫的典型湖泊共采集了180個水樣,每個湖泊的采樣點數(shù)量由湖泊面積決定。一般情況下,大湖泊(≥10 km2)設置8~15個采樣點,小湖泊(<10 km2)設置3~8個采樣點[9],野外采樣日期為2017—2020年的4—10月,采樣期間天空晴朗無云,水面平靜,風速較小。按照布設的樣點位置采水樣時,在每個點位用采水器采集0~50 cm處的水體約2 L,采集水體樣本,利用GPS獲取點位坐標,記錄采集時間、點號、水面環(huán)境等信息。采集水樣置于車載保溫箱中冷藏,1~2 d內(nèi)運送回實驗室進行分析測試。實驗室測定時,采用UV-2600紫外可見分光光度計,室溫20 ℃左右,以過濾的純水作為參比,測定每個水樣的濁度。
1.2.2 Landsat遙感影像數(shù)據(jù)及預處理
Google Earth Engine(GEE)是目前應用最廣的云計算平臺,集科學分析、遙感數(shù)據(jù)處理、地理信息數(shù)據(jù)可視化于一體的綜合性平臺[13]。在GEE平臺上選擇影像日期與現(xiàn)場實地采樣日期相吻合(時間間隔7~15 d)的Landsat 7與Landsat 8遙感影像用于實測數(shù)據(jù)相關性分析及模型構建。下載1985—2020年吉林省查干湖和松花湖影像數(shù)據(jù),以5年為間隔的Landsat TM/ETM+/OLI 影像用于后續(xù)時空變化分析。研究所用的遙感影像均為GEE網(wǎng)站中的Landsat Collection 2 Level-2數(shù)據(jù)產(chǎn)品,該數(shù)據(jù)產(chǎn)品是經(jīng)過輻射定標、大氣校正和幾何粗校正的多光譜波段地表反射率數(shù)據(jù)。
2 研究方法
2.1 技術路線
利用歸一化差異水體指數(shù)(Normalized Difference Water Index,NDWI)技術,將衛(wèi)星圖像精準地劃分為水域和非水域區(qū)域。通過在水體感興趣區(qū)域(Region of Interest,ROI)提取NDWI值,利用最大類間方差算法(OTSU)確定閾值。值得注意的是,由于不同圖像的特性和條件可能存在差異,在實際處理過程中,對于閾值的設定需要根據(jù)具體情況進行適當?shù)恼{(diào)整和優(yōu)化,以確保分類結果的準確性和可靠性,技術流程圖如圖1所示。
2.2 數(shù)據(jù)集構建
由Kloiber等[14]的研究發(fā)現(xiàn),通過對光譜反射率數(shù)據(jù)和實測水質(zhì)參數(shù)進行對數(shù)轉換,有助于提高對水體濁度的定量遙感結果精度,因此我們將原始波段反射率、波段反射率組合作為自變量,Ln(濁度值)作為因變量,構建回歸模型。將180個實測數(shù)據(jù)樣本按照3∶1的比例隨機分配,使用135個建立模型,剩余45個樣本檢驗模型精度。訓練數(shù)據(jù)濁度范圍為1.402~182.596 NTU,驗證數(shù)據(jù)中濁度范圍為1.043~153.919 NTU (表1)。
2.3 機器學習算法
RF模型基于Bagging方法,通過構建多個獨立的決策樹并對其預測結果進行平均或累加,減少單個決策樹的過擬合問題;XGBoost模型基于Boosting方法,通過逐步構建多個決策樹,每棵新樹都針對前一棵樹的殘差進行訓練,最終將所有樹的結果累加作為最終預測。
本研究使用分類完成的訓練集和驗證集數(shù)據(jù),通過實驗對模型參數(shù)進行優(yōu)化,構建了隨機森林,XGBoost模型以獲取湖泊濁度值,模型精度如圖2所示。采用3折交叉驗證法,對模型的決策樹數(shù)量(n_estimators)、指定決策樹的最大深度(max_depth)、模型學習率(Learning_rate)和葉子節(jié)點最小的樣本權重和(min_child_weight)4個重要參數(shù)進行網(wǎng)格參數(shù)調(diào)優(yōu),依據(jù)獲得的最高交叉驗證精度,本文設定4個模型參數(shù)值分別為n_estimators=100、max_depth=5、Learning_rate=0.03,min_child_weight=2。
2.4 預測精度評價
模型精度由決定系數(shù)(R2)、均方根誤差(RMSE)和平均絕對百分比誤差(MAPE)決定。R2量化了因變量的變異中由自變量解釋的部分,RMSE和MAPE描述了預測值與實際值之間的總體誤差。這些指標的定義如下
式中:yi和yi′為第i次觀測值和預測值;為平均觀測值;n為校準和驗證樣本的個數(shù)。
3 實驗結果與分析
3.1 波譜反射率特征變量相關性分析
本文利用Landsat系列影像數(shù)據(jù)前6個波段進行波段插值與波段比值組合,應用SPSS進行波段組合相關性分析,篩選出相關性較高的特征變量,得到相關性熱度圖,由圖3可知,選取相關性大于0.7的波段差值(B1-B2)、(B1-B3),波段比值(B2/B1)、(B3/B1)、(B1+B2)/(B2+B3)、B1/(B2+B3)作為模型的輸入變量。
3.2 機器學習模型構建與精度評價
由圖2可知,兩機器學習模型在訓練精度上的指標展示出相似表現(xiàn),而XGBoost驗證模型的R2最高為0.84,RMSE為0.54 NTU,小于RF模型的RMSE。此外,2個模型的MAPE相同,因此選擇XGBoost模型用于濁度反演,為了增加模型的豐富性,除了波段比值與波段插值組合作為輸入變量,將Landsat原始波段B1至B6波段也作為輸入變量,擬合湖庫濁度值。
3.3 查干湖濁度時空變化研究
圖4為1985—2020年查干湖年際濁度的時空格局,從1985年到2000年,湖泊的濁度呈先下降再上升趨勢。具體而言,1990年的平均濁度為44.21 NTU,2000年已增至67.88 NTU。這一變化反映出在此期間查干湖的水質(zhì)狀況有所下降。從2000年至2020年,湖泊水體濁度逐漸下降,但在2010年出現(xiàn)了輕微上升。
在空間格局上,查干湖表現(xiàn)出顯著的空間分布特性。湖泊在沿岸區(qū)域的水體濁度較高,湖心區(qū)域相對較低,這種特殊的空間格局在2000年的濁度反演圖像中表現(xiàn)得尤為明顯。觀察此時間范圍的數(shù)據(jù),查干湖的濁度分布在空間上呈現(xiàn)出從東南向西北逐漸上升的趨勢。
3.4 松花湖濁度時空變化研究
圖5呈現(xiàn)出松花湖的年際濁度整體下降的趨勢,1985—1990年,濁度值下降至24.83 NTU。1990—2000年濁度值基本保持穩(wěn)定,波動范圍在24.83~28.23 NTU。然而,2005年濁度值稍有上升至44.45 NTU,從2005—2020年,再次呈現(xiàn)明顯下降趨勢。這些數(shù)據(jù)表明,松花湖正在經(jīng)歷一個從渾濁逐漸向清澈轉變的關鍵時期。
從空間分布特征分析,松花湖的西北部水體相對清澈,而東南部的濁度較高。松花湖與查干湖在地理位置上存在顯著差異:松花湖坐落于群山之間,遠離人類活動的核心區(qū)域,因此受到的人為干預相對較小。
4 結論
本文利用野外實地采樣的水體濁度數(shù)據(jù)和衛(wèi)星影像數(shù)據(jù),建立了一個湖泊水體濁度擬合模型,繪制1985—2020年吉林省查干湖與松花湖濁度的時空格局。主要結論如下:利用藍光反射率(B1)、綠光反射率(B2)和紅光發(fā)射率(B3)進行波段比值與差值組合作為自變量建立XGBoost機器學習模型更適合反演湖庫濁度??臻g格局上,查干湖與松花湖具有明顯不同的濁度分布特征。查干湖的濁度分布在空間上呈現(xiàn)出從東南向西北逐漸上升的趨勢,松花湖的濁度空間分布與其相反。其分布特征的差異性可能是由地理位置與環(huán)境因素(高程不同、湖庫周圍土地利用情況不同)共同作用導致的。時間格局上,查干湖的濁度變化在1985—2020年期間表現(xiàn)為先上升后降低的趨勢,在2005—2020年內(nèi)呈現(xiàn)逐漸下降的趨勢。利用實地野外采樣和遙感監(jiān)測的方式相結合,對于衛(wèi)星遙感在大規(guī)模、長期湖庫水體濁度監(jiān)測中具有重要意義。
參考文獻
[1] 王紅梅.淺析湖庫型飲用水水源地環(huán)境保護工程措施[J].科學技術創(chuàng)新,2015(35):57.
[2] 李建鴻,黃昌春,查勇,等.長江干流表層水體懸浮物的空間變化特征及遙感反演[J].環(huán)境科學,2021,42(11):5239-5249.
[3] 徐國成,左少新,梁茜.遙感技術在水環(huán)境和大氣環(huán)境監(jiān)測中的應用探討[J].江西化工,2018(4):12-13.
[4] 夏春林.長江流域水體濁度的時空動態(tài)變化影響因素研究[D].南京:南京信息工程大學,2023.
[5] HOSSAIN A K M A, MATHIAS C, BLANTON R. Remote sensing of turbidity in the Tennessee River using Landsat 8 satellite[J]. Remote Sensing,2021,13(18):3785.
[6] MA Y, SONG K, WEN Z, et al. Remote sensing of turbidity for lakes in northeast China using Sentinel-2 images with machine learning algorithms[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021(14):9132-9146.
[7] 晁明燦,趙強,楊鐵利,等.基于GF-1影像的巢湖濁度遙感監(jiān)測及時空變化研究[J].大氣與環(huán)境光學學報,2021,16(2):149-157.
[8] 陳方方,王強,宋開山,等.基于Sentinel-3OLCI的查干湖水質(zhì)參數(shù)定量反演[J].中國環(huán)境科學,43(5):2450-2459.
[9] WANG X, SONG K, WEN Z, et al. Quantifying turbidity variation for lakes in Daqing of Northeast China using Landsat images from 1984 to 2018[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021(14): 8884-8897.
[10] DU Y, SONG K, LIU G, et al. Quantifying total suspended matter (TSM) in waters using Landsat images during 1984-2018 across the Songnen Plain, Northeast China[J]. Journal of environmental management, 2020(262): 110334.
[11] 曹引,冶運濤,趙紅莉,等.草型湖泊總懸浮物濃度和濁度遙感監(jiān)測[J].遙感學報,2019,23(6):1253-1268.
[12] 丁洋,趙進勇,張晶,等.松花湖水質(zhì)空間差異及富營養(yǎng)化空間自相關分析[J].環(huán)境科學,2021,42(5):2232-2239.
[13] 閆凱,陳慧敏,付東杰,等.遙感云計算平臺相關文獻計量可視化分析[J].遙感學報,2022,26(2):310-323.
[14] KLOIBER S M, BREZONIK P L, OLMANSON L G, et al. A procedure for regional lake water clarity assessment using Landsat multispectral data[J]. Remote sensing of Environment, 2002,82(1):38-47.
基金項目:國家自然科學基金項目(42201433);吉林省教育廳科學技術研究項目(JJKH20210269KJ)
第一作者簡介:李宗峻(1998-),男,碩士研究生。研究方向為土木水利。
*通信作者:馬玥(1990-),女,博士,講師。研究方向為水環(huán)境遙感。