孟祥添,鮑依臨,劉煥軍,3※,張艾明,劉云超,王丹丹
(1. 赤峰學院資源環(huán)境與建筑工程學院,赤峰 024000;2. 東北農業(yè)大學公共管理與法學院,哈爾濱 150030;3. 中國科學院東北地理與農業(yè)生態(tài)研究所,長春 130012)
精準監(jiān)測土壤類型的空間分布有助于更好的制定土地資源利用策略和指導農業(yè)生產。目前,遙感技術已被廣泛應用于土壤分類的研究中,利用遙感技術可低成本、快速、全面的進行土壤分類,避免了傳統(tǒng)土壤分類中必須根據(jù)診斷層和土壤的理化性質進行分類的過程。土壤光譜反射率是土壤理化性質和內在結構的綜合反映,已有大量研究利用土壤反射光譜數(shù)據(jù)進行土壤分類[1-3]。
依據(jù)土壤反射光譜數(shù)據(jù)進行土壤分類的研究中,數(shù)據(jù)來源可大致分為室內測量的高光譜數(shù)據(jù)、機載高光譜數(shù)據(jù)、星載多光譜數(shù)據(jù)和星載高光譜數(shù)據(jù)?;谑覂葴y量的高光譜數(shù)據(jù)易于獲取,且已經實現(xiàn)了高精度的土壤分類。如Wang 等[4]提取土壤反射光譜的形狀特征,實現(xiàn)在土類、土屬級別上進行高精度的土壤分類;Zhang 等[5]提取了 148 個土壤樣本的光譜特征參數(shù),實現(xiàn)了土壤在土類級別的劃分,總精度高達90.54%。然而,基于室內測量的高光譜數(shù)據(jù)的樣點采集在空間是非連續(xù)的,無法實現(xiàn)區(qū)域性乃至更大尺度的土壤分類及制圖,且不利于土壤類型的實時更新與監(jiān)測。利用機載高光譜數(shù)據(jù)已實現(xiàn)了對植物、地物類型的高精度分類[6-8],然而部分機載傳感器存在光譜帶個數(shù)有限、低信噪比(Signal to Noise Ratio,SNR)和覆蓋范圍有限的問題,導致使用機載高光譜數(shù)據(jù)在土壤分類研究中存在一定的劣勢。星載多光譜遙感數(shù)據(jù)是發(fā)展時間最久、使用范圍最廣的數(shù)據(jù),已廣泛應用于土壤分類中[9-10],然而,多光譜數(shù)據(jù)波段數(shù)量較少,某些與土壤類型相關的細節(jié)信息被綜合或忽略掉,導致利用星載多光譜數(shù)據(jù)進行土壤分類的精度不高。如Meng等[11]證明了Landsat8 OLI星載多光譜數(shù)據(jù)范圍在土壤屬性相關性較高的波段范圍(600~800 nm)內,僅包含其中的2/5 的信息,難以實現(xiàn)高精度的土壤屬性預測。利用星載高光譜數(shù)據(jù)進行土壤分類及制圖可彌補室內測量高光譜數(shù)據(jù)進行土壤性質預測時無法獲取連續(xù)的土壤性質的缺陷、解決機載高光譜數(shù)據(jù)覆蓋范圍有限、星載多光譜數(shù)據(jù)波段數(shù)量少的問題。在高分 5 號(GF-5)全譜段高光譜衛(wèi)星正式投入使用前,僅NASA EO-1 平臺上的Hyperion 傳感器和歐洲航天局PROBA 上的CHRIS 光譜成像平臺具有足夠空間分辨率用于土壤研究[12-13]。但可進行土壤屬性預測應用的Hyperion 與CHRIS 成像光譜儀在定量土壤估算中均存在一定的局限性:Hyperion 數(shù)據(jù)的短波紅外區(qū)域(2 200 nm 附近)的SNR 較低,無法滿足土壤屬性遙感預測的要求[14]。CHRIS 數(shù)據(jù)由于光譜范圍(415~1 050 nm)受限,在短波紅外區(qū)域沒有光譜信息[15]?;谏鲜鲈?,有必要驗證 GF-5 星載高光譜數(shù)據(jù)進行高精度、大范圍的土壤分類及制圖的可能性,以期為基于星載高光譜數(shù)據(jù)進行土壤分類的研究提供參考。
僅考慮土壤光譜特征難以實現(xiàn)高精度的土壤分類及制圖,而成土因素的引入可有效地提高土壤分類精度[16-17]。在五大成土因素(氣候、生物、母質、地形和時間)中,地形因子可減弱光譜特征相互混淆的現(xiàn)象且適用于大尺度的土壤分類研究[18]。同時,與生物,母質要素相比,地形可直接通過光學影像進行觀測,其顯著的高程變化幅度可以縮小其他干擾信息的特征。地形通過引起物質、能量的再分配而間接地作用于土壤的形成及演變,使得不同的土類在地形上具有顯著的差異,且不同土壤類型的交界位置與空間地形特征緊密關聯(lián)。
目前,由于可以使用的星載高光譜數(shù)據(jù)少,且對星載高光譜數(shù)據(jù)進行包絡線去除和主成分分析處理以及加入地形因子(Terrain,TA)是否能夠有效的提高土壤分類精度有待驗證,因此,本研究利用拜泉縣、明水縣星載高光譜影像數(shù)據(jù),對高光譜數(shù)據(jù)分別進行包絡線去除和主成分分析處理,明確進行包絡線去除處理能否提高不同土類之間的差異性;在經過包絡線去除和主成分處理后的數(shù)據(jù)中加入地形因子,并結合隨機森林模型構建土類級別的土壤分類模型,以期為利用GF-5 高光譜數(shù)據(jù)實現(xiàn)高精度土壤分類及制圖提供新的方法。
東北黑土區(qū)的糧食商品量、調出量均居全國首位,精準的土壤分類及制圖結果可為精準農業(yè)提供依據(jù)。拜泉縣、明水縣位于黑土帶中心,包含黑土區(qū)中三大土壤類型,以此為研究區(qū)具有代表性。拜泉縣、明水縣,位于松嫩平原北部、黑龍江西部(124°18′~126°31′E,46°44′~47°55′N),研究區(qū)面積約為 6 000 km2,溫帶大陸性季風氣候,夏季多雨溫暖,冬季干燥寒冷,年平均氣溫在2.9 ℃,年平均降水485 mm 左右,主要農作物種植類型為玉米和大豆。平均海拔為240.5 m,地勢整體呈北高南低,空間差異顯著(圖1)。從全國第二次土壤普查數(shù)據(jù)可知,研究區(qū)內成土母質多為黃土母質和沉積物,少部分為沖積物,主要土壤類型共計3 種,分別為黑土、黑鈣土和草甸土,占總面積的 95%以上,黑鈣土和黑土均是黑土資源的重要組成部分,其有機質含量高,是非常適合糧食生產的土壤類型。不同土壤類型具有不同的地形特征。其中黑土主要分布在高程較高、地表起伏度較低且坡度平緩的區(qū)域;黑鈣土主要分布在研究區(qū)的西南部,整體高程較低;草甸土主要分布在地勢較低洼的地區(qū)。
東北地區(qū)農作物為一年一熟,每年 4 月初期,積雪融化,土壤表面完全裸露出來。當?shù)剞r民將農田里的農作物殘留物(如秸稈與地膜)進行焚燒處理。為了使土壤變得疏松,促進土壤中潛在養(yǎng)分轉化為有效養(yǎng)分和作物根系的伸展,在耕種前通常進行翻地處理,由于重復耕作,耕層的土壤性質通常是均勻的,4 月初到5 月初期,拍攝的影像不被農作物殘留物和積雪覆蓋,未受到混合像元影響,這一時期被稱之為“裸土窗口期”[1]。
圖1 研究區(qū)位置及海拔Fig.1 Location and elevation of the study area
GF-5 高光譜數(shù)據(jù)從黑龍江省高分衛(wèi)星數(shù)據(jù)中心申請獲取。本研究選取了拜泉縣、明水縣共 4 幅符合“裸土窗口期”的GF-5 號高光譜影像,影像的具體拍攝時間為4月 18 日,無云覆蓋,獲取的前一周無雨,且土壤的表面沒有被大片植被和積雪所覆蓋。全國第二次土壤普查數(shù)據(jù)從黑龍江省農墾科學院科技情報研究所申請獲取,該土壤普查結果是根據(jù)土壤發(fā)生學理論對土壤進行劃分。從http://glovis.usgs.gov/網站獲取了研究區(qū) 30 m 空間分辨率數(shù)字高程模型(Digital elevation model,DEM)數(shù)據(jù)。
1.3.1 數(shù)據(jù)預處理
利用ENVI5.1 軟件對GF-5 高光譜影像進行輻射定標和大氣校正處理,隨后使用Arcgis10.1 按照縣域耕地范圍將影像進行裁剪,用于后期處理。提取各采樣點所對應的反射光譜曲線,由于傳感器在400~430、2 450~2 500 nm波譜范圍具有較低的SNR,在900~1 050 nm 受到傳感器自身缺陷的影響[12]、且在1 350~1 451、1 771~1 982 nm受到大氣中水蒸氣吸收的影響,造成光譜數(shù)據(jù)不連續(xù)。因此,本文選取 430~900、1 050~1 350、1 451~1 771、1 982~2 450 nm 作為本次研究的光譜區(qū)間。
1.3.2 包絡線去除
包絡線去除也稱連續(xù)統(tǒng)去除法,去除土壤中特定物質化學鍵內電子躍遷引起的特征吸收,分離出土壤本身的吸收特征。經包絡線去除處理后,反射率(Original Reflectance,OR)被歸一化到0~1 之間[19],原始光譜中“峰值點”為 1,其余點小于 1,從而得到去包絡線數(shù)據(jù)(Continuum Removal,CR)。該處理可以有效地突出不同土壤的光譜曲線的吸收和反射光譜特征,最大限度地增加不同土壤類別之間的差異。
1.3.3 主成分分析
主成分分析(Principal Component Analysis,PCA)是一種常用的數(shù)據(jù)分析方法,PCA 通過線性變換將高維度的原始數(shù)據(jù)轉換成低維度且各維度線性無關的向量,可用于提取數(shù)據(jù)的主要特征分量,常用于數(shù)據(jù)降維。本文分別對OR 和CR 進行PCA 處理,提取累計貢獻率大于85%主成分信息,分別記作OR-PCA 和CR-PCA 作為土壤分類模型的輸入量。
1.3.4 地形因子獲取
地形(Terrain,TA)是五大成土因素之一,其中海拔高度是基礎的地形因子,衍生因子如坡向,曲率及地表起伏度共計 5 種地形因子參與土壤分類。地形因子均提取自30 m 空間分辨率的DEM 數(shù)據(jù)。分別在OR-PCA和CR-PCA 的基礎上加入這5 種地形因子,得到輸入量OR-PCA-TA 和 CR-PCA-TA。
土壤的可分性代表了該土壤與整個土壤集中的其他土壤的差異性,可分性越大,該土壤與其他土壤的差異性越大,原則上更易實現(xiàn)較高的分類精度??煞中裕⊿)的計算公式如下:
式中Vi為土類內差異性;Vb為土類間差異性;STmn為土類m和土類n之間的標準差;Mmn為土類m和土類n之間的均值;STm為土類m的標準差;Mm為土類m的平均值。
隨機森林(Random Forest,RF)是由多個決策樹組成的集成模型。該模型是美國統(tǒng)計學家Breiman[20]提出的一種基于樹的集成學習模型,訓練過程采用隨機采樣方式,增加了模型的泛化能力;目前被廣泛地應用于解決分類和回歸問題[20-22]。本文在建立RF 模型時,通過觀察袋外誤差選擇最佳回歸樹的數(shù)量(ntree)和分裂節(jié)點數(shù)(mtry),從而建立最優(yōu) RF 預測模型。在訓練模型時,確定了不同的參數(shù)值:ntree 為500,mtry 為輸入量個數(shù)的平方根[23]。
根據(jù)全國第二次土壤普查圖選取訓練樣本和驗證樣本(圖 2),樣點采集原則如下:1)同一土壤類型在不同區(qū)域的反射光譜特性具有差異,因此,同一土壤類型需要在不同的區(qū)域分別采樣;2)為了避免不同土壤類型的交界處模糊而造成分類誤差,盡量在不同土壤類型的中心區(qū)域選取樣點;3)不同土壤類型采樣點數(shù)量的比例要與研究區(qū)中不同土壤類型之間面積的比例大致相同,以保證樣點分布均勻[24]。選擇樣本后將所有的樣本進行60 m(2 個像元)的緩沖區(qū)處理,最終得到訓練樣本2 269個(黑土863 個、黑鈣土461 個、草甸土945 個)、驗證樣本 1 169 個(黑土 492 個、黑鈣土 294 個、草甸土383 個)。使用混淆矩陣驗證分類的準確性,并使用總精度和Kappa 系數(shù)代表混淆矩陣中的結果,具體計算公式如下:
圖2 研究區(qū)采樣點F i g.2 S a m p l e s i t e s o f s t u d y a r e a
式中k為混淆矩陣中列的數(shù)量;Pii為混淆矩陣中第i行第i列的像元數(shù),表示正確分類的個數(shù);Pi+和P+i分別第i行和第i列總像元個數(shù);N代表驗證像元的總個數(shù)。
不同類型的土壤具有不同的反射光譜特征[25]。圖 3a為不同土壤類型的反射率曲線,不同土壤類型的原始反射率曲線的形狀差異較小。其中,黑鈣土的反射率最高,這是由于黑鈣土的表面有一層鈣化層。與黑鈣土相比,黑土的反射率稍低,這主要由于其保水保肥能力強,有機質含量較高,顏色比較暗。由于草甸土主要分布在地勢較低的地方,其水分含量較高,從而導致其反射率最低。圖3b 代表不同土壤類型的去包絡線,草甸土在400~900 nm 的去包絡線值最低,該區(qū)間對應的面積也是最大的。黑鈣土在整個光譜區(qū)間內的去包絡線值都比較高,特別是在1 100~1 350 nm 區(qū)間,通過去包絡線處理后,不同土壤類型的光譜特征差異增加,有助于土壤分類精度的提升。
包絡線去除處理可明顯的增加不同土壤類型之間的差異,從而提高不同土類的可分性,與OR、OR-PCA相比,CR、CR-PCA 的可分性的絕對值分別提高了0.04、0.09。PCA 處理有效的提高了 OR、CR 的可分性,與OR、CR 相比,OR-PCA、CR-PCA 可分性的絕對值分別提高了0.04、0.09(圖4a)。圖4b 顯示了不同土壤類型中,5 種地形因子的可分性大小。在不同土壤類型中,5 種地形因子的可分性由高到低的順序是不同的。與OR、CR 的可分性相比,地形因子整體的可分性更高。
圖3 訓練樣本不同土類的原始反射率曲線和去包絡線Fig.3 Original reflectance curves and continuum removal curves of different soil types in training samples
2.3.1 未經PCA 的土壤分類結果
表 1 為基于星載高光譜遙感影像數(shù)據(jù)不同輸入量的土壤分類結果。以OR 為輸入量的不同土壤類型分類精度由高到低依次是黑鈣土、草甸土、黑土。在黑土中,有213 個土壤樣本被錯分到草甸土中,在草甸土中共有106個樣本被誤分到黑土中,這是由于黑土和草甸土的土壤反射率特征差異較小導致的,而黑鈣土的反射率特征與黑土和草甸土的差異較大,因此只有少量的土壤樣本被誤分至黑土或草甸土中。
CR 作為輸入量時,不同類型土壤的分類精度均高于OR 作為輸入量時的分類精度。與OR 作為輸入量相比,CR 作為輸入量的分類總精度提高了5.48%,Kappa系數(shù)提高了0.12,黑土、黑鈣土、草甸土的正確分類數(shù)分別提高了20、17 和27 個。這是由于經過包絡線去除處理,有效的增加了不同土壤類型之間的差異性,特別是黑土與草甸土之間的差異。
圖4 不同輸入量、不同地形因子的可分性Fig.4 Separability of different inputs and terrain factors
表1 基于不同輸入量的土壤分類結果Table1 Soil classification results based on different inputs
2.3.2 PCA 后的土壤分類結果
對OR 進行PCA 處理,提取了3 個主成分信息(累計貢獻率為96.28%),以OR-PCA 作為輸入量時,不同土壤類型分類精度由高到低的順序是草甸土、黑鈣土、黑土。與OR 作為輸入量相比,土壤分類的總精度提高了1.71%,Kappa 系數(shù)提高了0.02,黑土、草甸土的分類精度提高,黑鈣土的分類精度降低。
對CR 進行PCA 處理,提取了7 個主成分信息(貢獻率為85.95%),在CR-PCA 中,不同土壤類型的分類精度依次是黑鈣土、草甸土、黑土。與CR 作為輸入量相比,土壤分類總精度提高了 3.67%,Kappa 系數(shù)提高了0.02。與OR-PCA 作為輸入量相比,土壤分類總精度提高了7.54%,Kappa 系數(shù)提高了0.12,黑土、黑鈣土、草甸土的正確分類數(shù)分別提高了21、39 和27 個,較大程度地提高了土壤分類精度。
2.3.3 引入地形因子后土壤分類結果
從表 1 中可以看出,加入地形因子后各土壤類型的分類精度顯著提升。在OR-PCA-TA 中,各土類的分類精度都提高了10%以上,與OR-PCA 作為輸入量相比,土壤分類的總精度提高了14.12%,Kappa 系數(shù)提高了0.23。在 CR-PCA-TA 中,黑鈣土和草甸土的分類精度達到了80%以上,與 CR-PCA 相比,黑土、黑鈣土、草甸土的正確分類數(shù)分別提高了81、30 和41 個。
在 OR、CR 作為輸入量時,制圖結果中(圖 5)出現(xiàn)了明顯的“椒鹽”現(xiàn)象。經過PCA 處理后,制圖結果中的“椒鹽”現(xiàn)象減弱,土壤類型中心區(qū)域的空間分布更符合第二次土壤普查結果。以 OR-PCA-TA、CR-PCA-TA 作為輸入量的制圖中,不同土壤類型的邊界劃分的更加細致,研究區(qū)中部及東北部大部分是黑土,空間分布成條帶狀,黑鈣土主要分布在研究區(qū)的西南部,草甸土穿插分布于各類土之間。這主要由于黑土主要分布在地勢較為平坦處,本研究區(qū)大部分地區(qū)地勢平坦,草甸土主要分布在低洼地勢中。
圖5 基于不同輸入量的土壤制圖結果Fig.5 Mapping results of soil based on different inputs
過去利用遙感手段進行土壤分類的研究中,包絡線去除方法主要對室內測量的高光譜數(shù)據(jù)進行處理[4,5,26],而對星載高光譜數(shù)據(jù)進行處理的研究有限。本文利用GF-5 星載高光譜數(shù)據(jù)進行土壤分類,證明了CR 作為輸入量可明顯提高土壤分類精度,這是由于包絡線去除處理可明顯的增加不同土壤類型之間的差異,從而提高不同土類的可分性(圖4a)。
經過PCA 處理可有效的降低制圖結果中的“椒鹽”現(xiàn)象,提高了土壤分類精度,尤其是黑土和草甸土的正確分類數(shù)得到了明顯的提升,證明了PCA 可以增加黑土和草甸土之間的可分性;同時PCA 能夠降低高光譜數(shù)據(jù)的維度,極大減少了分類模型的計算時間,提高模型的運算效率,且降低了遙感影像中像元的錯分,減弱了不同影像獲取時間對于土壤分類結果的影響,使土壤類型的變化更加圓滑。試驗證實了在星載高光譜數(shù)據(jù)中,PCA 仍然是降低數(shù)據(jù)冗余性并提高土壤分類精度的有效方法。
地形作為五大成土要素之一,對母質起著重新分配的作用,同時,支配地表徑流,通過改變局地小氣候影響環(huán)境。以往的研究表明,地形因子的選取通常與研究區(qū)范圍有關[27-30],一般而言,研究區(qū)尺度越大,地表空間差異越明顯。同時,本研究發(fā)現(xiàn)不同土壤類型的可分性最高的地形因子具有差異(圖 4b),在黑土中,海拔高度的可分性最高,這是由于黑土主要分布于研究區(qū)北部,其中分布著大量的草甸土,而草甸土地勢低。黑鈣土位于研究區(qū)中部地帶,地勢相對于黑土較低,且主要分布在地表變化較大的地區(qū),因此地表起伏度在黑鈣土中的可分性較高。草甸土發(fā)育于地勢低平區(qū)域,如洼地,溝壑等,在研究區(qū)內較為分散,土壤邊界位置高程差異明顯,因此海拔高度與地表起伏度對提升草甸土分類精度具有重要意義。
本文利用東北黑土區(qū)拜泉縣、明水縣高分 5 號星載高光譜影像數(shù)據(jù),對原始反射率進行包絡線去除處理得到去包絡線,再對原始反射率和去包絡線進行主成分分析(Principal Component Analysis,PCA),并引入地形因子,建立隨機森林土壤高光譜遙感分類模型,進行土壤研究并制圖,得到如下結論:
1)經過包絡線去除處理可有效地增加不同土壤類型間的可分性,從而提高土壤分類的精度。與原始反射率相比,經過包絡線去除處理的總精度提高了 5.48%,Kappa 系數(shù)提高了0.12。
2)利用 PCA 可以提高土壤分類精度,尤其是黑土和草甸土的正確分類數(shù)的提高,同時,降低高光譜數(shù)據(jù)的維度,減少數(shù)據(jù)冗余,提高模型的分類效率。在制圖結果中,經過PCA 處理后可明顯降低了像元的錯分,使土壤類型的變化更趨于實際。
3)引入地形因子,有效的提高了土壤分類精度,且不同土壤類型可分性最高的地形因子是不同的,其中以經過PCA 處理后的去包絡線結合地形因子作為輸入量的精度最高,分類精度為81.61%,Kappa 系數(shù)為0.72,實現(xiàn)了區(qū)域尺度的高精度土壤分類及制圖。且研究結果可為進行大范圍土壤分類及制圖提供參考。