陳超群,戴慧敏,馮雨林,楊澤,楊佳佳
(1.中國地質(zhì)調(diào)查局 沈陽地質(zhì)調(diào)查中心,遼寧 沈陽 110034;2.自然資源部 黑土地演化與生態(tài)效應(yīng)重點(diǎn)實(shí)驗(yàn)室,遼寧 沈陽 110034;3.遼寧省黑土地演化與生態(tài)效應(yīng)重點(diǎn)實(shí)驗(yàn)室,遼寧 沈陽 110034)
土壤有機(jī)質(zhì)是土壤質(zhì)量的重要參數(shù),可為農(nóng)作物提供各類養(yǎng)分,同時(shí)對(duì)元素表生地球化學(xué)特征有重要影響。黑土作為珍貴的土壤資源,其有機(jī)質(zhì)含量是反映土壤質(zhì)量的重要指標(biāo)參數(shù)[1-2]。近年來,隨著黑土逐漸退化,土壤中有機(jī)質(zhì)成分明顯減少,估算黑土有機(jī)質(zhì)含量,扭轉(zhuǎn)含量下降趨勢,是黑土地保護(hù)的重要舉措[3]。傳統(tǒng)的土壤有機(jī)質(zhì)監(jiān)測主要是通過對(duì)監(jiān)控區(qū)進(jìn)行大量野外土壤樣品采集和室內(nèi)化學(xué)實(shí)驗(yàn)分析進(jìn)行反演,這種方法周期較長,費(fèi)時(shí)費(fèi)力,精度受樣品密度控制,難以滿足現(xiàn)代農(nóng)業(yè)快速發(fā)展的需求[4]。隨著遙感技術(shù)日益成熟,通過有機(jī)質(zhì)含量的光譜差異來測定土壤有機(jī)質(zhì)的含量已成為一種有效手段。
土壤有機(jī)質(zhì)含量遙感反演主要包含兩個(gè)研究方向:光譜信息的處理與選擇和反演模型的構(gòu)建。常采用的光譜處理方法有倒數(shù)、對(duì)數(shù)、去包絡(luò)線變換等,但選取的有機(jī)質(zhì)特征波段因影像數(shù)據(jù)源不同而有所差異。屈冉等[5]選取Landsat TM 影像反演廣西壯族自治區(qū)富川縣的有機(jī)質(zhì)含量,認(rèn)為土壤有機(jī)質(zhì)含量與Landsat TM 波段5和波段7 的DN值相關(guān)性最高。陳德寶等[6]借助Landsat 8遙感影像對(duì)農(nóng)安縣黑土區(qū)有機(jī)質(zhì)進(jìn)行建模反演,表明短波紅外B6波段反射率所建模型擬合效果最好。陳思明等[7]對(duì)Landsat 7 土壤光譜進(jìn)行線性波譜分離重建,認(rèn)為重建光譜能顯著增強(qiáng)與土壤有機(jī)質(zhì)含量的相關(guān)性,提高土壤有機(jī)質(zhì)反演精度。在以往研究中,線性回歸和偏最小二乘回歸模型(PLSR)常被用于土壤有機(jī)質(zhì)含量反演。Dhawale 等[8]結(jié)合土壤樣品有機(jī)質(zhì)含量和相應(yīng)的土壤反射率,選用PLSR建模,均方根誤差不超過2.24%。馬馳[9]對(duì)比Sentinel-2A遙感影像不同波段組合的多元回歸模型,R2均大于0.7。目前針對(duì)有機(jī)質(zhì)敏感波段的選擇主要采用Pearson相關(guān)分析法,反演模型也多選擇線性擬合。本次研究借助Sentinel-2A遙感影像,結(jié)合黑河市孫吳縣實(shí)測土壤有機(jī)質(zhì)含量,通過Peason 相關(guān)分析和隨機(jī)森林(RF)選擇不同特征波段作為模型輸入量,采用PLSR和BP 神經(jīng)網(wǎng)絡(luò)建模,以期研究土壤表層有機(jī)質(zhì)含量與遙感影像關(guān)系,并實(shí)現(xiàn)地面黑土區(qū)紅旗林場的土壤有機(jī)質(zhì)高精度快速反演。
研究區(qū)孫吳縣地處黑龍江省黑河市中部,位于東經(jīng)126°39′35″~128°1′6″,北緯48°59′00″~49°41′55″(圖1)。東部緊靠遜克縣,西邊為嫩江縣,南側(cè)與五大連池市相挨,北方為黑河市愛輝區(qū),總面積4 318.9 km2。孫吳縣海拔110~755 m,屬于低山丘陵區(qū),地勢總體呈西南高東北低趨勢。地貌分界清晰,從西到東分別為低山溝谷區(qū)、丘陵河谷地區(qū)和沿江平原。土壤類型以暗棕壤和草甸黑土為主[10]。氣候?qū)儆诤疁貛Т箨懶约撅L(fēng)氣候,年均氣溫-0.6 ℃,年均降雨約550 mm,凍結(jié)期較長,無霜期短[11]。本文選擇孫吳縣紅旗林場地區(qū)進(jìn)行遙感反演,紅旗林場位于孫吳縣西北方向,范圍為東經(jīng)126°41′25″~127°14′34″,北緯49°16′32″~49°30′58″,界內(nèi)發(fā)育孫吳縣最高山峰松木山。
圖1 孫吳縣遙感影像(a)及紅旗林場位置(b)Fig.1 Remote sensing image of Sunwu County(a)and the location of Hongqi Forest Farm(b)
按照《土地質(zhì)量地球化學(xué)評(píng)價(jià)規(guī)范》(DZ/T 0295—2016)采樣要求,在孫吳縣采集土壤時(shí)去除表面枯枝落葉等雜物,用刻槽法垂直采集地表至20 cm深土樣,保證上下均勻采集,并去除動(dòng)、植物殘留體、礫石、肥料團(tuán)塊等。土壤有機(jī)質(zhì)含量采用硫酸—重鉻酸鉀法測定。共計(jì)采集806個(gè)樣品,其中564個(gè)土樣作為建模集,242個(gè)樣品為測試集,統(tǒng)計(jì)信息如表1所示。
表1 土壤樣品中有機(jī)質(zhì)含量統(tǒng)計(jì)信息Table 1 Statistical information of organic matter content in soil samples
選取研究區(qū)內(nèi)2018年11月7日裸土無雪時(shí)期的Sentinel-2A影像,云覆蓋0%。影像的預(yù)處理包括幾何校正、大氣校正、圖像鑲嵌及圖像剪裁等操作。所選影像為Level-1C 上層大氣反射產(chǎn)品,已經(jīng)過系統(tǒng)幾何精校正處理,其精度在一個(gè)像元內(nèi),滿足研究需求。借助SNAP軟件中Sen2cor280工具箱實(shí)現(xiàn)大氣校正,校正后丟失卷云波段B10。為提高土壤有機(jī)質(zhì)與光譜反射率(R)相關(guān)性,對(duì)遙感影像進(jìn)行倒數(shù)(1/R)、對(duì)數(shù)(lgR)、冪函數(shù)(Ra)、一階微分(FDR)、二階微分(SDR)及倒數(shù)對(duì)數(shù)一階微分(FDLR)處理。
為獲取土壤有機(jī)質(zhì)光譜響應(yīng)波段,研究中采用Pearson相關(guān)判斷反射率與有機(jī)質(zhì)含量之間的線性相關(guān)性。公式為:
(1)
2001年Breiman提出隨機(jī)森林(random forest,RF)算法,主要優(yōu)勢體現(xiàn)在處理多維數(shù)據(jù)集時(shí)無需降維,最大程度的保留數(shù)據(jù)集原始信息[12-13]。本次研究中以X.IncMSE指標(biāo)為重要性選擇依據(jù),X.IncMSE值越大,表明該波段信息越能反應(yīng)有機(jī)質(zhì)含量。
偏最小二乘回歸分析(partial least square regression,PLSR)常用于遙感光譜反演建模,優(yōu)勢在于建模過程中集中了主成分分析、典型相關(guān)分析和線性回歸分析方法的優(yōu)點(diǎn)[14]。其建模思路為:設(shè)自變量X=[x1,x2,…,xp]n×p,因變量為Y=[y]n×1,其中X為波譜曲線反射率及其變換形式,Y為土壤成分含量,n為采集樣本數(shù),p為特征波段數(shù)。從自變量信息中提取最大變異信息成分μ1,且與因變量呈最大相關(guān)性。在提取第一主成分μ1后,建立Y與μ1的回歸方程,若模型精度滿意,則算法停止;否則繼續(xù)利用X和Y被成分解釋后的殘余信息進(jìn)行多次迭代提取,直到回歸方程達(dá)到滿意精度。
為了檢驗(yàn)反演模型的精度及穩(wěn)定性,借助決定系數(shù)R2和均方根誤差RMSE作為模型評(píng)價(jià)指標(biāo),公式如下:
(2)
(3)
BP神經(jīng)網(wǎng)絡(luò)(誤差反向傳播)是人工神經(jīng)網(wǎng)絡(luò)的一種,由輸入層—隱含層—輸出層組成[16]。學(xué)習(xí)過程包含信號(hào)的正向傳播與誤差的反向傳播,正向傳播時(shí),信號(hào)從輸入層傳入,經(jīng)隱含層逐層處理后,最后達(dá)到輸出層。若輸出層的實(shí)際輸出與期望輸出不符,則轉(zhuǎn)向誤差的反向傳播階段[17]。BP神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的非線性處理能力和自適應(yīng)特點(diǎn),能夠較好地?cái)M合光譜反射率與土壤有機(jī)質(zhì)含量的關(guān)系。通過經(jīng)驗(yàn)公式(4)確定隱含層的節(jié)點(diǎn)數(shù)取值范圍,結(jié)合訓(xùn)練結(jié)果的精度選擇最佳隱含層的節(jié)點(diǎn)數(shù):
(4)
式中:n為輸入層節(jié)點(diǎn)數(shù);m為輸出層節(jié)點(diǎn)數(shù);k為1~10之間的常數(shù);N為隱藏層節(jié)點(diǎn)數(shù)。
4.1.1 相關(guān)性波段選擇
在SPSS 26平臺(tái)下計(jì)算土壤有機(jī)質(zhì)含量與Sentinel-2A遙感影像反射率及其變換間的相關(guān)性。如圖2所示,有機(jī)質(zhì)含量與光譜反射率呈現(xiàn)負(fù)相關(guān),但相關(guān)性不高,各波段不同數(shù)學(xué)變換的相關(guān)系數(shù)最高值絕大多數(shù)出現(xiàn)在FDLR變換,表明該預(yù)處理方法能有效提高Sentinel-2A反射率與土壤有機(jī)質(zhì)的相關(guān)性。將不同數(shù)學(xué)變換中通過顯著性檢驗(yàn)的波段作為相應(yīng)反演的特征波段,同時(shí)組合各波段中最高相關(guān)系數(shù)的變換形式作為一種響應(yīng)波段參考,其中B8和B11無通過顯著性檢驗(yàn)的變換,故不予討論(表2)。
圖2 波段反射率及其變換與土壤有機(jī)質(zhì)含量相關(guān)性Fig.2 Correlation between band reflectivity and transformations and soil organic matter content
表2 相關(guān)性選取特征波段Table 2 Feature bands selected by correlation analysis
4.1.2 RF重要性選擇
采用R語言的randomForest包實(shí)現(xiàn)土壤有機(jī)質(zhì)特征波段選取,其中默認(rèn)生成500棵決策樹,并進(jìn)行5次重復(fù)十折交叉驗(yàn)證,結(jié)合最簡原則選擇不同光譜變換下的特征波段。以對(duì)數(shù)變換為例,圖3交叉驗(yàn)證曲線展示了模型誤差與用于擬合的自變量數(shù)量的關(guān)系,當(dāng)波段數(shù)為6時(shí),誤差下降幅度基本保持不變,結(jié)合簡約性原則,選擇重要程度值從大到小排序前6的波段作為有機(jī)質(zhì)反演建模的輸入?yún)?shù),實(shí)驗(yàn)中R、1/R、Ra、FDR、SDR以及FDLR均需要6個(gè)重要變量表示土壤有機(jī)質(zhì)含量。為提高變量表達(dá)精度,將所有波段的變換作為RF的因變量,并需要X.IncMSE值前26個(gè)波段變換作為建模輸入?yún)?shù)集,以精準(zhǔn)表達(dá)有機(jī)質(zhì)含量信息(圖4)。RF重要波段選取結(jié)果如表3所示。
圖3 對(duì)數(shù)變化交叉驗(yàn)證曲線Fig.3 Cross validation curve of lgR
圖4 所有波段交叉驗(yàn)證曲線Fig.4 Cross validation curve of all bands
表3 RF重要波段Table 3 Important bands of RF
4.2.1 PLSR模型反演
將Pearson相關(guān)分析(表2)和RF(表3)提取的特征波段作為自變量,土壤有機(jī)質(zhì)含量作為因變量,建立有機(jī)質(zhì)含量PLSR反演模型,如表4所示,結(jié)果顯示相關(guān)-PLSR模型和RF-PLSR模型反演精度結(jié)果相近,F(xiàn)DLR變換和組合波段都能有效提高模型反演精度,其中針對(duì)傳統(tǒng)的相關(guān)-PLSR模型,F(xiàn)DLR光譜變換的擬合程度最好,RF-PLSR模型中組合波段的效果更為顯著。但PLSR模型下建模集和測試集的決定系數(shù)R2均未超過0.1。
4.2.2 BP神經(jīng)網(wǎng)絡(luò)模型反演
結(jié)合式(4),根據(jù)相關(guān)性和RF重要程度選取獲得的特征波段數(shù),確定BP神經(jīng)網(wǎng)絡(luò)模型中隱含層層數(shù)。網(wǎng)絡(luò)的訓(xùn)練函數(shù)為Trainlm,輸入層和輸出層傳遞函數(shù)分別為Tansig和Purelin,表5為相關(guān)分析和RF兩種特征響應(yīng)波段模擬結(jié)果,對(duì)比PLSR擬合結(jié)果(表4),非線性擬合的多光譜遙感影像反射率與土壤有機(jī)質(zhì)含量模型精度能得到顯著提高。由于多光譜遙感的光譜分辨率較低,光譜包含的土壤信息較為復(fù)雜,因此無法類比高光譜土壤有機(jī)質(zhì)遙感反演,線性回歸擬合模型不能有效提取影像上土壤有機(jī)質(zhì)含量信息[18-20]。相關(guān)性提取波段與RF提取的重要波段在進(jìn)行BP神經(jīng)網(wǎng)絡(luò)建模時(shí),建模集和測試集的R2主要集中在0.2~0.5,RMSE集中在1.3%~1.4%。相關(guān)-BP神經(jīng)網(wǎng)絡(luò)模型中FDLR建模擬合程度最高,建模集R2為0.623 7,RMSE為1.354 8%,測試集R2為0.444 6,RMSE為1.266 4%。RF-BP神經(jīng)網(wǎng)絡(luò)模型中組合波段建模擬合程度最高,建模集R2為0.724 5,RMSE為1.312 7%,測試集R2為0.541 8,RMSE為1.372 2%。
表4 基于PLSR模型的土壤有機(jī)質(zhì)反演Table 4 Inversion of soil organic matter by PLSR
表5 基于BP神經(jīng)網(wǎng)絡(luò)模型的土壤有機(jī)質(zhì)反演Table 5 Inversion of soil organic matter by BP neural network
結(jié)合表4中對(duì)比R、1/R等波段變換的不同提取方法,Pearson相關(guān)分析中選擇的FDLR反射率變換在線性回歸和非線性回歸中都展現(xiàn)較高的擬合效果。因?yàn)镻earson相關(guān)性分析獲取的是有機(jī)質(zhì)含量與反射率間簡單直線性相關(guān)的方向和密切程度,因此光譜處理的程度直接決定了與有機(jī)質(zhì)含量的相關(guān)性,進(jìn)而影響了模型反演精度。FDLR變換中光譜倒數(shù)對(duì)數(shù)計(jì)算可以有效放大相似光譜間的差別,再經(jīng)過一階微分處理后消除部分線性的背景,同時(shí)降低噪聲光譜對(duì)目標(biāo)光譜的影響程度。但相關(guān)性選擇的組合波段包含了反射率變量處理的不同級(jí)別,當(dāng)加入相關(guān)性低的波段變換,很有可能引入了土壤其他成分的特征信息,導(dǎo)致有機(jī)質(zhì)反演精度降低。而在RF重要程度選擇中存在誤差驗(yàn)證,結(jié)合每次選擇的特征集計(jì)算袋外誤差率,最后選擇袋外誤差率最低的特征集作為回歸模型的輸入集。篩選出的波段可能與有機(jī)質(zhì)含量相關(guān)性低,但疊加其他波段光譜特征反而提高了有機(jī)質(zhì)估測精度。因此RF波段選取時(shí),組合所有光譜反射率及變換信息后篩選出的特征響應(yīng)波段更能充分反映有機(jī)質(zhì)含量信息,建模精度顯著提升。
對(duì)比8種影像變換的相關(guān)-PLSR、相關(guān)-BP神經(jīng)網(wǎng)絡(luò)、RF-PLSR、RF-BP神經(jīng)網(wǎng)絡(luò)建模情況,選擇模型擬合度最高、穩(wěn)定性最好的RF-BP神經(jīng)網(wǎng)絡(luò)模型作為多光譜遙感數(shù)據(jù)的土壤有機(jī)質(zhì)反演模型,并預(yù)測孫吳縣紅旗林場的有機(jī)質(zhì)含量分布(圖5)。紅旗林場的有機(jī)質(zhì)范圍大致在0.1%~18.8%,主要集中在3.742 6%~12.455 2%,平均含量為7.939 9%,呈現(xiàn)出中間高、四周低的分布趨勢。該地區(qū)土壤有機(jī)質(zhì)地球化學(xué)分析結(jié)果顯示,紅旗林場有機(jī)質(zhì)平均含量為8.51%,分布趨勢為中西部含量偏高,向北側(cè)逐漸降低,該結(jié)果與遙感反演程度幾乎吻合。但由于在林場附近采集土壤樣品較少,因此地球化學(xué)實(shí)測結(jié)果分布較為粗糙,而遙感反演獲取的土壤有機(jī)質(zhì)含量更為細(xì)致。
圖5 紅旗林場土壤有機(jī)質(zhì)遙感反演和地球化學(xué)對(duì)比Fig.5 Distribution of soil organic matter in Hongqi Forest Farm
對(duì)Sentinel-2A多光譜遙感影像反射率進(jìn)行1/R、lgR、Ra、FDR、SDR及FDLR變換,結(jié)合不同模型實(shí)現(xiàn)了土壤有機(jī)質(zhì)的反演,取得很好應(yīng)用成效。主要得出以下結(jié)論:
1)通過相關(guān)性分析法建模時(shí)反射率的FDLR變換模型擬合程度最好,而采用RF算法篩選的組合波段在反演時(shí)能有效提高土壤有機(jī)質(zhì)含量建模精度。
2)多光譜遙感影像光譜分辨率較低,因此線性擬合模型無法準(zhǔn)確估測土壤有機(jī)質(zhì)含量,需要非線性模型以實(shí)現(xiàn)光譜信息與有機(jī)質(zhì)含量的有效擬合。
3)對(duì)比不同遙感影像預(yù)處理操作下的相關(guān)-PLSR、相關(guān)-BP神經(jīng)網(wǎng)絡(luò)、RF-PLSR、RF-BP神經(jīng)網(wǎng)絡(luò)建模情況,RF-BP神經(jīng)網(wǎng)絡(luò)模型反演土壤有機(jī)質(zhì)含量擬合程度最高,建模集R2為0.724 5,RMSE為1.312 7%,測試集R2為0.541 8,RMSE為1.372 2%。