王文輝,李 艷,雷 坤,張 萌,魏 明
(1.中國環(huán)境科學研究院,北京 100012;2.沈陽理工大學,沈陽 110159;3.復旦大學大氣科學研究院,上海 200438;4.中國科學院西北生態(tài)環(huán)境資源研究院,蘭州 730000)
水質(zhì)監(jiān)測通過對水污染物含量的定量分析,客觀評價一個地區(qū)水污染程度,為水污染防治和水環(huán)境管理提供決策服務(wù)[1]。水體中TN 的豐歉與水體是否富營養(yǎng)化、水生生物能否平衡密切相關(guān),是衡量水環(huán)境質(zhì)量的重要指標[2],長期以來,生活污水、含氮工業(yè)廢水的大量排放及耕地化肥的施用,引起地表水水體TN 含量升高,導致溶解氧(Dissolved Oxygen,DO)濃度急劇下降,水生生物平衡被破壞,水環(huán)境質(zhì)量一度下降到無法滿足飲用和灌溉的需求。遼河流域作為我國最大工業(yè)基地所在地,接納了遼寧省境內(nèi)大多數(shù)冶金、石化、藥物和印染等重污染行業(yè)的廢水,水污染狀況嚴峻。自1997年以來,遼河流域的水污染治理經(jīng)歷了從單一的控源截污到流域的污染綜合治理[3],“十一五”、“十二五”期間遼河流域以氨氮(NH3-N)作為水污染防治的重點關(guān)注指標之一,參與水環(huán)境質(zhì)量的監(jiān)測與評價,污染程度有所緩解,但通過水質(zhì)監(jiān)測數(shù)據(jù)來看,水質(zhì)達標狀況不穩(wěn)定,水污染控制程度仍不樂觀:2013-2018年五年間,劣Ⅴ類斷面占比增長16.7%,2019年又降低11.8%?!笆濉庇痔岢鲞M一步的要求,將TN也列入水環(huán)境監(jiān)測的重要指標。
對水污染物的監(jiān)測通常以人工現(xiàn)場采樣并進行實驗分析的方式,或在線自動分析儀器來完成[4]。近年來隨著空間探測技術(shù)的革新,水環(huán)境遙感技術(shù)相比于傳統(tǒng)的手段,具備監(jiān)測范圍廣、速度快、成本低及便于進行動態(tài)監(jiān)測的優(yōu)勢[5],而且還能在一定程度上解決歷史數(shù)據(jù)難獲取的問題,因此受到眾多研究人員的青睞。早期水環(huán)境遙感在研究區(qū)域上較多地居于海洋、湖庫等寬闊水域,隨著傳感器成像空間分辨率的提高,逐漸拓展到小面積水域的河流;研究內(nèi)容從水域的定性識別[6]發(fā)展到水質(zhì)參數(shù)的定量估計[7,8];研究方法經(jīng)歷了從分析法[9,10]到經(jīng)驗法[11],再到半經(jīng)驗-半分析法[12,13]的耦合。
對TN 遙感監(jiān)測的研究以經(jīng)驗法和半分析-半經(jīng)驗法為主。經(jīng)驗法類似于“黑箱”,在一定程度上忽略光在大氣與水體之間的傳輸過程,基于TN 濃度與遙感反射率之間的相關(guān)關(guān)系,以統(tǒng)計學的方法完成對TN 濃度的反演,無需大量的長時序?qū)崪y數(shù)據(jù),具有易操作的性質(zhì),這種方法的核心在于遙感數(shù)據(jù)源與敏感特征選取,不乏有大量學者對此進行深入的研究,如Torbick等[14]利用TM 影像對密歇根州42 個湖泊的TN 濃度反演取得了較好的結(jié)果;雷坤等[15]利用另一種遙感數(shù)據(jù)源(CBERS-1-CCD),建立了太湖表層TN 濃度的反演模型(MRE=12.2%);何報寅等[16]、楊柳等[17]則以ETM+影像,分別反演武漢東湖和溫榆河TN 濃度,取得了較好的結(jié)果;而王學軍等[18]通過單波段、多波段組合和主成分分析的方式選擇敏感特征,基于TM 影像反演了太湖TN 濃度。隨著高光譜技術(shù)的發(fā)展,研究人員又嘗試利用基于實測光譜的半分析-半經(jīng)驗法,以期取得更準確的TN反演結(jié)果,如鞏彩蘭等[19]通過分析實測高光譜歸一化值、波段比值和微分值與TN 濃度的相關(guān)性,以656.53 nm 反射率歸一化值與880 nm 反射率歸一化一階微分值反演了黃浦江TN 濃度;徐良將等[20]同樣以實測光譜,通過微分和波段比值的方式,發(fā)現(xiàn)455 nm 反射率微分值與1 015/528 nm 反射率比值為TN 濃度最敏感變量,并得到了R2=0.839 的TN 反演模型。近幾年面對TN反演準確度較低的問題,以機器學習為基礎(chǔ)的非參數(shù)算法無需確定目標函數(shù)的形式,具有更高的靈活性與泛化性,表現(xiàn)略勝一籌,王建平等[21]以人工神經(jīng)網(wǎng)絡(luò)模型對鄱陽湖TN 濃度的反演研究、王云霞[22]以最小二乘支持向量機法對遼寧清河水庫的TN反演,都取得了較好的結(jié)果。
大流域尺度河流水體水質(zhì)遙感監(jiān)測受遙感成像空間分辨率、成像幅寬等諸多因素的制約,有待進一步認識。在充分了解遙感水質(zhì)監(jiān)測優(yōu)勢和發(fā)展現(xiàn)狀的前提下,針對遼河流域干流及部分主要支流,采用最大坡度下降算法選取純水體像元,利用GF1-WFV 遙感影像反演TN 濃度,及時掌握TN 在流域尺度上的時間、空間變化狀況,為大流域尺度河流水體的TN 反演研究積累一定的經(jīng)驗參考和數(shù)據(jù),為遼河流域水生態(tài)環(huán)境精細化管理與保護提供科學依據(jù)。
遼河流域(40°31'~45°17'N,116°54'~125°32'E)位于遼寧省境內(nèi),流域面積約21.9 萬km2,流域內(nèi)有遼河、渾河和太子河三大水系。流域覆蓋遼寧省鐵嶺、沈陽、撫順等8 個地市全境,及黑山、北鎮(zhèn)和彰武等4縣(市)。由于地處東北老工業(yè)基地,長期以來形成了以煤炭與石油開采、焦化和鋼鐵等重工業(yè)為主的工業(yè)結(jié)構(gòu),導致污染排放強度高,致使遼河流域污染狀況愈加嚴峻。自“九五”被列為國家重點治理的流域至今,遼河流域干流河段COD 劣V 類已基本被消除,部分區(qū)域生境有所恢復,水質(zhì)退化的趨勢已經(jīng)得到基本的控制,但水質(zhì)達標狀況依舊不穩(wěn)定:2016年考核斷面水質(zhì)達標率為80%,2017年同比增長3.7%,到2018年又同比下降27.4%;水質(zhì)優(yōu)良比例(Ⅰ~Ⅲ類)從2016年的32%增長到2017年的46.9%,2018年又下降了7.3%;喪失水體使用功能(劣V類)占比總體呈上升趨勢。
1.2.1 水質(zhì)數(shù)據(jù)
選取流域面積在1 000 km2以上的支流,以谷歌地圖(Level=14,空間分辨率約為17 m)為底圖,采用人機交互的方式在支流入干前,選取水陸區(qū)分度較高、水面寬度大于1 個像元的區(qū)域,布設(shè)水樣采集點位;干流水樣采集點位的布設(shè)方法與支流相同,盡可能上中下游均布設(shè)點位;布設(shè)的點位盡量與日常監(jiān)測點位保持一致,以便對數(shù)據(jù)進行補充。全流域布設(shè)40個水質(zhì)采樣點位(圖1)。于2018年4-9月,每月4-10 號采集水樣并分析水質(zhì)。
圖1 采樣點位布設(shè)Fig.1 Layout of sampling points
1.2.2 遙感數(shù)據(jù)
對比非商業(yè)多光譜遙感數(shù)據(jù)之間的參數(shù),綜合考慮遙感衛(wèi)星成像的時間、空間分辨率,及成像幅寬和數(shù)據(jù)的批量易獲取性:高分一號WFV(GF1-WFV)在星下點成像空間分辨率(16 m)上優(yōu)于Landsat 系列(30 m,Landsat8 融合后為15 m)、MODIS(最高250 m)和HJ1A、1B(30 m),在成像幅寬(800 km)、成像時間分辨率(2 d)和數(shù)據(jù)批量易獲取性上要優(yōu)于Sentinel-2,多光譜相機成像譜段涵蓋藍光(0.45~0.52 μm)、綠光(0.52~0.59 μm)、紅光(0.63~0.69 μm)和近紅外光(0.77~0.89 μm),滿足研究的需求。選用GF1-WFV 數(shù)據(jù)作為研究遼河流域干流及主要支流TN濃度反演的遙感數(shù)據(jù)源。
從資源衛(wèi)星應(yīng)用中心網(wǎng)站(http://www.cresda.com/CN/)篩選并獲取云量小于10%的研究區(qū)域GF1-WFV遙感影像,7月全月云量較多,不能滿足研究需求,因此保留了4-6月、8-9月的影像,共計25 景,成像時間與水樣采集時間準同步(±5 d)。依次按照輻射定標、大氣校正、正射校正的順序,基于IDL語言,集成了ENVI5.3 下的輻射定標、FLAASH 大氣校正和正射校正模塊,對GF1-WFV 影像形成流程化的批量處理程序,其中正射校正所使用的DEM數(shù)據(jù)為ASTER GDEM。
2.1.1 TN濃度潛在特征構(gòu)造
GF1-WFV 影像帶寬高,波段少,但通過波段之間的數(shù)學運算可以增強或屏蔽某些信號[23],使有用的信號更為突出。在GF1-WFV 四個波段的基礎(chǔ)上,參考相關(guān)研究[24],以雙波段、三波段、四波段組合的方式構(gòu)建了59個TN濃度潛在特征,累計63個潛在特征,計算方式見表1。
表1 TN濃度潛在特征Tab.1 Latent features of TN concentration
2.1.2 純水體像元與水體提取
水體的反射率通常小于其他地面物體,純水體像元(遙感影像中只包含水體的像元,以GF1-WFV 為例,1 個像元為邊長16 m 的正方形)的歸一化植被指數(shù)(NDVI)值一般不大于0,為了確保最大限度地降低偶然誤差,采取最大坡降算法[25],以采樣點的像元為中心,固定與其相鄰的8個像元,計算中心像元與臨近像元的坡降度[式(1)],選取坡降最大的臨近像元作為采樣點的純水體像元。
式中:Drop為中心像元與臨近像元的坡降度;NDVIcenter為中心像元的NDVI值;NDVIε為 與中心像元臨近像元的NDVI值,ε=1,2,3,…,8;L為中心像元與臨近像元的距離,對角線臨近像元,其余臨近像元L=16。
GF1-WFV 不具備中紅外波段,無法計算MNDWI,故以NDWI計算結(jié)果結(jié)合人機交互的方式進行水體的提取,GF1-WFV影像NDWI計算見式(2)。
式中:Rrs(B2)為綠波段遙感反射率,GF1-WFV 為第2 波段;Rrs(B4)為近紅外波段遙感反射率,GF1-WFV為第4波段。
參數(shù)回歸模型對自變量和因變量之間有明確的函數(shù)式,通過分析潛在特征與TN 濃度的相關(guān)性,確定TN 濃度的敏感特征,以TN 濃度作為因變量,敏感特征作為自變量,建立一個相關(guān)性較高、且具有明確函數(shù)關(guān)系的方程,實現(xiàn)對TN 濃度的反演。但高維度的可能存在冗余特征,將這些特征全部引入模型,雖然擬合效果較理想,但冗余特征的共線性會過度稀釋有用特征的信息量,使目標值的特征難以被解釋。逐步回歸的方法將特征逐個引入模型,根據(jù)特征對目標值的解釋度剔除掉冗余特征,從而保留解釋度較高的特征。按照8∶2 的比例分割數(shù)據(jù)集,采用逐步線性回歸的方法,80%的數(shù)據(jù)來建立逐步回歸模型,剩余20%以作驗證。
非參數(shù)回歸是隨著近年機器學習的興起而衍生的一類算法,這類算法根據(jù)特征集預測目標值時,無需假設(shè)目標函數(shù)的形式,具有更高的靈活性與泛化性能。采用隨機森林[26](Ran‐dom Forest,RF)和極端梯度提升[27](Extreme Gradient Boosting,XGBoost)兩種非參算法探索遼河流域干流及主要支流TN 濃度反演最優(yōu)方式。同樣按照8∶2 的比例分割數(shù)據(jù)集,80%的數(shù)據(jù)作非參數(shù)算法的訓練集,其余的20%驗證算法的預測準確度。
2.3.1 隨機森林算法
隨機森林算法是一種以決策樹為基學習器的有監(jiān)督集成學習算法,面對回歸分析的問題時,取多個決策樹預測結(jié)果的均值作為目標值,具有泛化能力突出、易于實現(xiàn)、抗噪能力強、計算速度快等優(yōu)勢,有利于遼河流域干流及主要支流TN 濃度的預測。RF 在訓練的過程中使用bootstrapping 抽樣方法,約有36.8% 的數(shù)據(jù)不會參與RF 的訓練:對于數(shù)據(jù)集D={Y|X1,…,Xn},RF先使用這部分數(shù)據(jù)計算預測錯誤率,隨機打亂某一特征Xa的排序后,再次計算預測錯誤率,取兩次錯誤率之差量化特征Xa的權(quán)重,若RF 構(gòu)建了β個基學習器,則特征Xa的權(quán)重為β個基學習器前后兩次預測錯誤率之差的均值,因此RF也具備特征選擇的能力。
2.3.2 極端梯度提升算法
首創(chuàng)于2016年的XGBoost 也是一種集成學習算法,其基學習器可以是樹模型,也可以是線性模型。與RF 不同的是,XGBoost采用了boosting 集成框架,使學習器根據(jù)當前的損失殘差,以梯度提升的方式加入另一個學習器,降低損失殘差,通過不斷地迭代達到更高的預測準確率,屬于RF模型的拓展。
參數(shù)、非參數(shù)兩類回歸模型反演遼河流域干流及部分支流TN 濃度的準確度采用決定系數(shù)(R2)、均方誤差(Root Mean Square Error,RMSE)、平均相對誤差(Average Relative Error,MAE)評價,計算公式見式(3)~(5)。
式中:xi為驗證數(shù)據(jù)集中第i個樣本的實測值(或?qū)崪y值對數(shù)),i=1,2,3,…,n;xi,p為驗證數(shù)據(jù)集中第i個樣本的對應(yīng)的預測值(或預測值對數(shù)),i=1,2,3,…,n。
從水樣檢測結(jié)果來看,遼河流域干流及部分支流TN 濃度較高。240 組TN 濃度檢測結(jié)果中超地表水Ⅴ類標準(>2 mg/L)的占比76.67%,其中4月、9月劣Ⅴ類占比均在80%以上,8月最低為65%。在時間上也存在較大的差異,4-9月變異系數(shù)(CV)在0.67~1.14 之間,其中6-8月3 個月TN 濃度均值均小于4 mg/L,低于4-5月、9月[圖2(a)],由于遼河流域年內(nèi)降水量分布差異較大[28],降水集中在6-8月,故而徑流量較大,污染物濃度低。
抽取30%的點位,觀察大氣校正后的光譜曲線,如圖2(b)所示,藍光(B)區(qū)普遍呈吸收狀態(tài),隨著波長的增加,約81.1%的點位在綠光(G)區(qū)出現(xiàn)明顯的反射,紅光(R)與近紅外(NIR)區(qū)反射率逐漸降低,光譜曲線形態(tài)整體呈“倒U”形,反射率均小于10%;其余點位峰值由綠光區(qū)向紅光區(qū)偏移,反射率值高于10%。根據(jù)已有的研究[29]:天然水體的反射率普遍居低(小于10%),在綠光區(qū)會存在明顯的反射峰,隨著波長的增加,反射率與波長成反比;當水體渾濁或含沙量較高時,反射峰會從綠光區(qū)移向紅光區(qū),反射率甚至會高于10%,這種現(xiàn)象通常出現(xiàn)在河流下游區(qū)域。大氣校正結(jié)果接近準確。
圖2 TN濃度(4-9月)與大氣校正后的光譜曲線Fig.2 TN concentration(April to September)and Water spectrum curve after atmospheric correction
為探究遼河流域干流及部分支流TN 的反演是否可以按季節(jié)、水期分布,將時間按照春季(4-5月)、夏季(6-8月)、平水期(5-6月)、豐水期(8-9月)進行劃分。對各月、各季度、各水期TN 濃度的正態(tài)分布性進行了檢驗,均不服從正態(tài)分布(K-S 檢驗Sig<P=0.05),故采用Spearman 秩相關(guān)系數(shù)來描述TN 濃度與63個潛在特征的相關(guān)性,以相關(guān)顯著的特征參與參數(shù)回歸模型的建立。相關(guān)性計算結(jié)果如圖3所示,4-6月、8-9月、春季、夏季、平水期、豐水期分別與TN 濃度相關(guān)性顯著的特征累計為54、26、30、15、5、37、31、41和16個。
圖3 潛在特征與TN濃度的Spearman秩相關(guān)性Fig.3 Spearman rank correlation between latent featuresand TN concentration
“3σ”法對異常數(shù)據(jù)分析后,步進條件設(shè)置為0.15<Per‐cent_F<0.25,參數(shù)回歸模型的建立與驗證結(jié)果見表2,4-6月、9月宜逐月反演,8月宜劃分為豐水期來反演,所對應(yīng)特征組合分別為(X41)、(X41,X1,X11)、(X41,X36)、(X53)和(X53,X49,X17)。隨著敏感特征的逐步增加,R2不斷遞增,F(xiàn)在遞減,但并非最高R2所對應(yīng)的驗證R2也最高,可能是冗余特征稀釋了敏感特征的信息,產(chǎn)生了過擬合的情況。綜合考慮驗證R2、驗證RMSE和驗證MAE,最終以X41 作為4月和平水期TN 濃度的敏感特征;X53 為8、9月和夏季TN 濃度敏感特征;X41、X1 和X11共同作為5月TN 濃度敏感特征;X41和X36共同作為6月TN 濃度敏感特征;X41、X10、X4 共同作為春季TN 濃度敏感特征;X53、X49 和X17 共同作為豐水期TN 濃度敏感特征。同時從驗證R2來看:夏季參數(shù)回歸模型驗證結(jié)果最好,5、4、8月、平水期和9月次之,6月、豐水期和春季居后;但從驗證RMSE和MAE來看,夏季和平水期均要高于6月,因此6月TN 濃度不宜劃分為夏季來反演;8月驗證RMSE雖然小于夏季,但與豐水期相比,驗證RMSE與MAE較高,且在模型建立時R2也不及豐水期,因此8月TN濃度宜劃分為豐水期來反演,4-6月、9月逐月反演。
表2 TN濃度反演的參數(shù)回歸模型Tab.2 Parameter regression model for TN concentration inversion
非參數(shù)回歸模型能夠很好地處理高維特征數(shù)據(jù),先將63個特征全部引入RF 的訓練,超參數(shù)的尋優(yōu)采用3 折交叉驗證(20%的驗證數(shù)據(jù))與網(wǎng)格搜索法。從預測結(jié)果的準確度上來看(圖4),非參算法反演TN濃度宜逐月進行。圖4中曲線為R2,柱狀為特征權(quán)重,隨著將特征按照權(quán)重高低依次加入RF,R2不斷波動,總體呈上升趨勢,到曲線尾部逐漸趨于平直。可以發(fā)現(xiàn):并不是所有的特征都參與到RF 的訓練才使得R2最高,因此非參算法反演TN濃度時,先要對特征進行篩選。
圖4 RF反演TN濃度學習曲線Fig.4 The learning curve for RF inversion of TN concentration
為了使特征的可解釋性更高,進一步壓縮特征維度,取RF驗證集最高R2對應(yīng)的特征組合與Spearman 秩相關(guān)性顯著的特征組合的交集XS=Xrf∩XSpearman,在XGBoost 中進行逐月反演,超參的尋優(yōu)同樣采用3折交叉驗證(20%的驗證數(shù)據(jù))與網(wǎng)格搜索,從圖5可以看出:整體的反演效果相比RF略有提升,MAE分布在7.27%~26.99%之間,5月最佳,8月R2較低,TN 濃度大于10 mg/L時,反演效果較差。
圖5 XGBoost反演TN濃度的結(jié)果Fig.5 XGBoost inversion results of TN concentration
此外,通過對比,非參數(shù)回歸模型與參數(shù)回歸模型類似,特征X41,即(B1+B3)/B2均為4-6月逐月、春季、平水期TN濃度的敏感特征;在特征X41 的基礎(chǔ)上加入B4 后,生成(B1+B3+B4)/B2即特征X51,均為8-9月逐月、夏季、豐水期TN濃度的敏感特征。從每月水樣采集期間水文監(jiān)測站泥沙含量來看[圖6(a)],8、9月日均泥沙濃度分別為0.044 91、0.054 44 kg/m3,明顯高于4-6月[0.022 34 kg/m3,0.025 39 kg/m3];從遙感反射率來看[圖6(b)],B3 波段(R)到B4 波段(NIR),8、9月反射率開始增高,而4-6月均呈下降趨勢。由于8、9月泥沙濃度的升高,水體較為渾濁,引起水體光譜反射率的變化,反射峰值移動到NIR[23,29],而水體中的氮元素會以泥沙作為吸附載體[30],故NIR 波段反射率對8-9月TN濃度的反演起到重要的作用。
圖6 采樣期間撫順(二)站日均泥沙濃度和遙感反射率Fig.6 During the sampling period,the daily average sediment concentration and remote sensing reflectivity of Fushun(2)Station
對比兩類算法反演結(jié)果表明:使用XGBoost 模型的反演效果較好,適合遼河流域干流及部分主要支流TN 濃度反演。由于水體的光學特性較為復雜,影響因素眾多[31-33],可以說明遼河流域干流及部分支流TN 濃度與遙感反射率(或組合)之間不具有明確的線性關(guān)系,非參數(shù)回歸模型類似于“黑箱”,無需確定的函數(shù)關(guān)系,且對復雜的高維特征也能夠較好地應(yīng)對。
XGBoost 模型反演遼河流域干流及部分支流TN 濃度的實測值與預測值之間存在7.27%~26.99%的相對平均誤差??赡苡梢韵略蛞穑?/p>
(1)流域尺度遙感數(shù)據(jù)的局限性。亞米級分辨率的遙感影像對于細小河流的觀測效果固然更好,以GF2-PMS 影像為例,23 km 的成像幅寬對方圓21.9 萬km2的遼河流域而言,經(jīng)濟適用性較低。國產(chǎn)GF1-WFV 成像空間分辨率比廣泛使用的Landsat 系列等要高,盡管在采樣時盡可能選取在河道中央,但對于河寬不足16 m的河段,單個像元內(nèi)混合了河流及兩岸其他物體的信息,其記錄的反射率值仍可能不屬于真實水體。
(2)大氣校正的系統(tǒng)誤差。FLAASH 大氣校正模型能最大程度上消除大氣對地表真實情況的影響,盡可能達到逼真的效果,但校正過程中所使用的經(jīng)驗參數(shù)無法消除衛(wèi)星成像整個過程中的系統(tǒng)誤差,影像所記錄的地表信息與實際不完全相符。
(3)水質(zhì)監(jiān)測數(shù)據(jù)與遙感數(shù)據(jù)的時間吻合度。水質(zhì)與遙感反射率都是水體的瞬時信息,水樣采集時間與衛(wèi)星成像時間雖控制在±5 d 以內(nèi),但這段時間內(nèi)采樣點的TN 濃度是存在波動性的,總會存在差異,客觀上與遙感反射率不完全吻合。
對三條水系的反演結(jié)果進行局部展示(圖7),從時間上來看,遼河流域干流及部分支流TN 濃度在4-6月、8月期間呈逐月遞減趨勢,9月又開始增加,豐水期低于平水期與枯水期;從空間上來看,太子河本溪段下游TN 濃度在0.43~8.02 mg/L,明顯優(yōu)于清河入干前(0.96~8.17 mg/L)和渾河沈陽城區(qū)段下游(1.13~9.88 mg/L)。
圖7 遼河、渾河和太子河局部反演結(jié)果Fig.7 Local inversion results of Liaohe,Hunhe and Taizihe
清河在入干前與渾河沈陽城區(qū)段下游TN 濃度在時間上的變化趨勢一致,4-5月明顯高于6、8、9 三個月。據(jù)《遼河治理攻堅戰(zhàn)支流河目標清單》,清河支流馬仲河、渾河上游撫順段支流東洲河、章黨河、將軍河為重污染河流,考核斷面水質(zhì)現(xiàn)狀均為劣Ⅴ類,且2018年上半年清河支流寇河進行了河道清淤工程,這期間水質(zhì)較差,可能是支流匯流對干流的水質(zhì)產(chǎn)生了較大的影響;此外,2018年上半年,受降水影響,渾河流量同比減少47.9%,且撫順、沈陽城區(qū)筑壩較多,使水流不暢,水質(zhì)也可能會隨著變差。
目前對湖庫等寬闊水域水環(huán)境參數(shù)定量遙感反演的研究相對成熟,大流域尺度河流水體因受遙感成像空間、時間分辨率與幅寬的制約,有待進一步認識。以遼河流域為研究區(qū)域,TN 為反演對象,利用2018年4-9月(不含7月)實測水質(zhì)數(shù)據(jù)和準同步GF1-WFV 遙感影像,基于參數(shù)、非參數(shù)兩類回歸模型,對遼河流域干流及部分支流TN 濃度進行了反演研究,得出結(jié)論:
(1)GF1-WFV 影像空間分辨率16 m,時間分辨率2 d,成像幅寬800 km,多光譜相機成像譜段涵蓋藍、綠、紅和近紅外4 個波段,大氣校正后的反射率普遍小于10%,綠光區(qū)為反射峰,隨著波長的增加,反射率下降,滿足遼河流域干流及主要支流TN濃度反演的需求。但8-9月(豐水期)由于降雨沖刷導致泥沙量增大,反射峰朝近紅外偏移,水體中的氮元素會吸附在泥沙上,因此近紅外波段反射率在8-9月遼河流域干流及部分支流TN濃度反演中具有重要意義。
(2)遼河流域干流及部分支流TN 濃度與遙感反射率(或組合)之間線性關(guān)系較弱,使用參數(shù)回歸模型反演結(jié)果不及非參數(shù)回歸模型。非參數(shù)回歸模型中,極端梯度提升的樹模型(XG‐Boost)比隨機森林(RF)反演效果更好,4-6、8-9月逐月的R2均在0.575 以上,RMSE在0.54~1.899 之間,MAE在7.27%~26.99%之間。當TN濃度在10 mg/L以上時,反演效果不理想。
(3)內(nèi)陸水體的光學特性較為復雜,影響因素眾多,遼河流域干流及部分支流TN 濃度反演需多個特征參與。與TN 濃度相關(guān)的潛在特征中存在非相關(guān)、低相關(guān)的冗余特征,不僅不能提高反演的準確度,還難以被解釋,因此使用XGBoost模型前要對特征進行選擇。取RF 驗證集最高R2對應(yīng)的特征組合與Spearman 秩相關(guān)性顯著的特征組合交集(XS=Xrf∩XSpearman)的方式能夠較好地完成對特征的選擇。
(4)2018年遼河流域干流及部分支流TN 濃度在時間上存在較大的差異,4-6月明顯高于8-9月,8月達到最低(1.675~7.675 mg/L);受清河支流馬仲河、寇河,渾河上游撫順段支流東洲河、章黨河、將軍河劣Ⅴ類水體匯流,以及渾河流量減少的影響,4-5月清河入干前(1.47~8.17 mg/L)和渾河沈陽城區(qū)段下游(1.13~9.88 mg/L)TN 污染情況比太子河本溪段下游(0.48~8.02 mg/L)嚴重。