唐海濤,孟祥添,蘇循新,馬 濤,劉煥軍,4,鮑依臨,張美薇,張新樂(lè)※,霍海志
(1. 東北農(nóng)業(yè)大學(xué)公共管理與法學(xué)院,哈爾濱 150030;2. 黑龍江省地質(zhì)資料檔案館,哈爾濱 150030;3. 黑龍江省第五地質(zhì)勘察院,哈爾濱 150030;4. 中國(guó)科學(xué)院東北地理與農(nóng)業(yè)生態(tài)研究所,長(zhǎng)春 130012)
土壤有機(jī)質(zhì)(Soil Organic Matter,SOM)可以通過(guò)生物合成和分解,改善土壤的物理、化學(xué)和生物特性[1],在控制土壤功能和質(zhì)量、抵消溫室氣體排放、完善全球碳循環(huán)系統(tǒng)信息等方面發(fā)揮著重要作用[2]。高光譜預(yù)測(cè)模型為實(shí)現(xiàn)SOM等土壤屬性速測(cè)與遙感反演以及表層碳庫(kù)估算等提供數(shù)據(jù)信息[3],并為SOM速測(cè)儀器研制、土壤制圖與退化監(jiān)測(cè)、精準(zhǔn)農(nóng)業(yè)實(shí)施等提供數(shù)據(jù)與技術(shù)支持[4]。高光譜技術(shù)具有精細(xì)的光譜分辨率,可獲取地物納米級(jí)的連續(xù)光譜信息,SOM具有多種官能團(tuán)(如羥基、羧基等),分別在紅外光譜區(qū)域有特征性吸收,且不同波段的吸收強(qiáng)度與該物質(zhì)的分子結(jié)構(gòu)及濃度存在對(duì)應(yīng)關(guān)系,因此,紅外光譜可以反映SOM含量,為其定量估算提供了一種有效的手段,為預(yù)測(cè)SOM提供了可能[5]。黑龍江省海倫市位于世界三大黑土地分布區(qū)之一的松嫩平原東北端,土壤類型多樣,其中黑土面積達(dá)到全市面積1/2以上,且是中國(guó)重要的商品糧基地,了解其SOM的分布情況、空間變化規(guī)律,有利于科學(xué)評(píng)價(jià)土壤的質(zhì)量情況并對(duì)農(nóng)場(chǎng)合理施肥提供指導(dǎo),對(duì)耕地資源的可持續(xù)利用具有十分重要的實(shí)際意義,可為海倫市耕地的可持續(xù)利用和土壤質(zhì)量保護(hù)監(jiān)測(cè)提供技術(shù)支持,為將來(lái)海倫市土地管理建立完整的空間土壤信息系統(tǒng)提供框架。
以往室內(nèi)高光譜對(duì)于SOM的輸入變量研究多停留在以全波段反射率或?qū)?yīng)的數(shù)學(xué)變換上,選取相關(guān)系數(shù)較大的波段進(jìn)行建模,該方法僅考慮了SOM與光譜間的關(guān)系,并沒(méi)有考慮光譜間的重疊吸收或相互影響[6]。利用光譜指數(shù)技術(shù)預(yù)測(cè)SOM的研究成為當(dāng)前熱點(diǎn),光譜指數(shù)是由幾個(gè)窄波段或?qū)挷ǘ谓M合而成,可通過(guò)分析特定波段間的相互作用,提高對(duì)待測(cè)屬性的敏感程度[7],有助于挖掘波段間的隱晦信號(hào)[8]。SOM空間分布特征受到高程、坡度、坡向等地形因子不同程度的影響,地形條件影響其物質(zhì)循環(huán)過(guò)程和強(qiáng)度[9],通過(guò)數(shù)字高程模型(Digital Elevation Model,DEM)提取高程作為模型輔助變量參與建模。同時(shí)特征波段選擇是進(jìn)行SOM含量預(yù)測(cè)的一個(gè)重要方面,已經(jīng)引起了越來(lái)越多學(xué)者的關(guān)注。土壤光譜反射數(shù)據(jù)通過(guò)競(jìng)爭(zhēng)自適應(yīng)重加權(quán)采樣(Competitive Adaptive Reweighted Sampling,CARS)篩選出的特征波段不僅將輸入波段壓縮至全波段數(shù)目的一半以下,同時(shí)提升了模型估測(cè)精度,降低了變量維度和模型復(fù)雜度[10],Vohland等[11]發(fā)現(xiàn),在60個(gè)農(nóng)業(yè)樣品的土壤屬性預(yù)測(cè)中,CARS算法減少了建模時(shí)間,且能夠合理、精確、有效的確定特征波段在全波段中的位置。以往的學(xué)者多以一種類型的土壤為對(duì)象,進(jìn)行SOM高光譜響應(yīng)特性研究,但是由于土壤的光譜反射率是土壤內(nèi)在理化特性光譜行為的綜合反應(yīng),不同類型土壤的光譜特征不同[12],因此模型普適性較弱。盧艷麗等[13]利用不同土壤類型分組試驗(yàn)分析了東北平原土壤光譜反射率曲線形狀變化,確定了8種不同類型土壤與原始光譜反射率的相關(guān)敏感波段并建立了同質(zhì)性SOM預(yù)測(cè)線性模型,從而達(dá)到簡(jiǎn)化SOM預(yù)測(cè)模型的目的。Bao等[14]對(duì)比了多種土壤分組策略下SOM的預(yù)測(cè)精度,同時(shí)引入競(jìng)爭(zhēng)自適應(yīng)重加權(quán)采樣方法進(jìn)行模型輸入量的篩選,證實(shí)了土壤分類的優(yōu)勢(shì)與多輸入量降維的必要性。因此,不同類型土壤分別提取輸入變量進(jìn)行高光譜SOM預(yù)測(cè)將有利于分析各類土壤的理化性質(zhì),從而提高預(yù)測(cè)精度。
已有SOM高光譜預(yù)測(cè)研究常基于一種土壤類型建立模型或者多種土壤類型進(jìn)行全局回歸建模,且輸入變量的類型較為單一,存在SOM預(yù)測(cè)精度不高的情況[15]。為了充分考慮土壤光譜信息及影響因素,本研究以海倫市為研究區(qū)域,根據(jù)全國(guó)第二次土壤普查結(jié)果及對(duì)采樣點(diǎn)的地理位置對(duì)土樣進(jìn)行分類。在土壤分類的前提下,以土壤光譜反射率數(shù)據(jù)、DEM數(shù)據(jù)以及光譜指數(shù)作為輸入變量,建立基于隨機(jī)森林算法(Random Forest,RF)的分類高光譜SOM預(yù)測(cè)模型。為了降低輸入量之間的共線性,引入CARS算法篩選特征波段,提高不同類型SOM預(yù)測(cè)的精度,以期實(shí)現(xiàn)動(dòng)態(tài)快速預(yù)測(cè)SOM含量。
海倫市位于松嫩平原的中心地帶,地理位置在46°58"N~47°52"N,126°14"E~127°45"E之間,屬溫帶大陸性季風(fēng)氣候,地勢(shì)平坦,土質(zhì)肥沃,耕地面積廣闊,是國(guó)家重要的商品糧基地。其土壤類型主要為黑土、草甸土和沼澤土,在該研究區(qū)內(nèi)還有少量的水稻土、暗棕壤及白漿土。黑土土層深厚,結(jié)構(gòu)良好,富含SOM和腐殖質(zhì),自然肥力高。沼澤土所處的地勢(shì)大都比較低洼,SOM累積明顯。由于該區(qū)地形高程差較大,加上耕地的長(zhǎng)期粗放利用導(dǎo)致土壤侵蝕嚴(yán)重,降水將地勢(shì)較高的土壤沖積到地勢(shì)較低的草甸土表面,導(dǎo)致表層草甸土性質(zhì)較為復(fù)雜多樣[16]。海倫市主要土壤類型(全國(guó)第二次土壤普查結(jié)果)及采樣點(diǎn)分布圖和海倫市30 m空間分辨率的DEM數(shù)據(jù)見(jiàn)圖1。
2019年5月15—20日,于作物出苗前,沿主要鄉(xiāng)級(jí)以上道路,在黑龍江省海倫市全市進(jìn)行樣本采集。選擇土壤裸露的地區(qū)作為樣區(qū),考慮土地利用類型和土壤類型采集0~20 cm耕層土壤。為保證采樣點(diǎn)的有機(jī)質(zhì)含量能夠代表采樣點(diǎn)附近一定空間內(nèi)的SOM水平,采用四分法收集樣品,同時(shí)利用GPS記錄采樣點(diǎn)經(jīng)緯度,總共采集土壤樣本548個(gè)。采集的樣品經(jīng)過(guò)風(fēng)干,研磨,過(guò)2 mm篩。每個(gè)樣品分2份,一份用于光譜測(cè)量;一份用于SOM含量分析。SOM含量用高溫外熱重鉻酸鉀氧化容量法測(cè)定[17]。
采用ASD FieldSpec○R3便攜式光譜儀在暗室內(nèi)對(duì)風(fēng)干土進(jìn)行光譜測(cè)試。光譜測(cè)試流程詳見(jiàn)文獻(xiàn)[18]。由于反射率波譜在400~430和2400~2500 nm范圍內(nèi)噪聲較為強(qiáng)烈,為減少高頻噪聲的干擾,本文選取光譜反射率波譜范圍為430~2400 nm,并對(duì)其進(jìn)行9點(diǎn)平滑、10 nm重采樣處理,此過(guò)程分別在EXCEL和ENVI 5.3中實(shí)現(xiàn)。
不考慮土壤空間差異性,將整個(gè)土壤樣本作為全局回歸預(yù)測(cè)數(shù)據(jù)集。同時(shí),土壤樣本根據(jù)全國(guó)第二次土壤普查圖,利用ArcGIS 10.1中的工具箱提取每個(gè)土壤樣本的土壤類型,將土壤樣本劃分為不同土壤類型,同一種土壤具有相同光譜表現(xiàn)特征的土壤樣本集。根據(jù)中國(guó)土壤分類,土壤類型可分為黑土、草甸土、沼澤土,然后針對(duì)不同分類樣本進(jìn)行局部回歸預(yù)測(cè)建模。
國(guó)內(nèi)外學(xué)者進(jìn)行SOM高光譜估測(cè)時(shí),輸入量多選擇為高光譜反射率或光譜吸收特征建立模型,輸入變量類型結(jié)構(gòu)單一,容易忽略土壤高光譜反射率之間的高度共線性[19]。本研究通過(guò)CARS算法挑選的特征變量、光譜指數(shù)結(jié)合DEM數(shù)據(jù)作為模型輸入變量。
1.4.1 光譜指數(shù)
在高光譜數(shù)據(jù)預(yù)測(cè)SOM的研究中,為了確定敏感的波段,必須從SOM含量信息中獲取深度信號(hào),因此光譜指數(shù)常作為一個(gè)重要指標(biāo)[20]。本文探討歸一化指數(shù)(Normalized Difference Index,NDI)、再歸一化指數(shù)(Renormalized Difference Vegetation Index,RDVI)、比值指數(shù)(Ratio Index,RI)與SOM含量之間的關(guān)系。
表1 光譜指數(shù)及公式 Table 1 Spectral indices and formula
1.4.2 地形因素
地表微氣候、土壤中的水分運(yùn)動(dòng)以及物質(zhì)的重新分配進(jìn)程,都受到地形的影響[25]。在美國(guó)地質(zhì)勘探局網(wǎng)站(http://www.usgs.gov/)下載DEM數(shù)據(jù),其空間分辨率為30 m。在ArcGIS 10.1中,利用Spatial Analyst Tools中的Extract Multi Values to Points工具,提取出每個(gè)采樣點(diǎn)的DEM,將DEM作為模型的輸入變量。
1.4.3 競(jìng)爭(zhēng)性自適應(yīng)加權(quán)算法
土壤高光譜數(shù)據(jù)量大、存在光譜信息冗余和重疊現(xiàn)象,通過(guò)CARS算法挑選特征變量可以降低光譜波段之間的高度共線性問(wèn)題,從而提高預(yù)測(cè)模型的精度及速度。CARS算法將各波段變量作為單一個(gè)體,在進(jìn)行個(gè)體選擇的過(guò)程中,保留具有較強(qiáng)適應(yīng)能力的個(gè)體。其具體步驟為:首先,隨機(jī)抽取固定比率的樣本作為校正集建立PLS模型,計(jì)算回歸系數(shù)的絕對(duì)值和每個(gè)波段點(diǎn)對(duì)應(yīng)的權(quán)重,然后利用指數(shù)衰減函數(shù)(Exponentially Decreasing Function,EDP)和自適應(yīng)重加權(quán)采樣法(Adaptive Reweighted Sampling,ARS)對(duì)變量進(jìn)行選擇,通過(guò)交叉驗(yàn)證的方法計(jì)算交叉驗(yàn)證均方根誤差(Root Mean Square Error of Cross-Validation,RMSECV),N次蒙特卡羅采樣后選擇N個(gè)子集,得到N個(gè)RMSECV,選擇RMSECV最小的波段子集,該子集所包含的變量即為最優(yōu)變量組合[14,26]。本次試驗(yàn)在MATLAB 2014a軟件環(huán)境中運(yùn)行CARS算法。由蒙特卡羅交叉驗(yàn)證法選擇最優(yōu)潛在波段變量,其中將蒙特卡羅采樣次數(shù)設(shè)定為100,對(duì)采樣次數(shù)進(jìn)行反復(fù)迭代,通過(guò)對(duì)比各次采樣的RMSECV值,當(dāng)其值最小時(shí),相應(yīng)采樣次數(shù)的變量被篩選為最優(yōu)變量子集。
RF是基于決策樹(shù)分類集成算法,其中每一棵樹(shù)都依賴于一個(gè)隨機(jī)向量,通過(guò)對(duì)數(shù)據(jù)集的列變量和行變量觀測(cè)進(jìn)行隨機(jī)化,生成多個(gè)分類樹(shù),最終將分類樹(shù)結(jié)果進(jìn)行匯總。RF對(duì)于非線性問(wèn)題有很好的解釋能力,降低了運(yùn)算量的同時(shí)也提高了預(yù)測(cè)精度[27]。本試驗(yàn)在R語(yǔ)言中,利用‘Random Forest’工具包進(jìn)行預(yù)測(cè),在進(jìn)行擬合前,分別對(duì)需要生成樹(shù)的數(shù)量(ntree)參數(shù)設(shè)定為500,每個(gè)節(jié)點(diǎn)用于分割節(jié)點(diǎn)的預(yù)測(cè)變量樹(shù)(mtry)參數(shù)設(shè)定為1/3總變量數(shù)[28]。
模型構(gòu)建按照建模集與驗(yàn)證集2∶1的比例選取樣本。以CARS篩選后土壤高光譜反射率數(shù)據(jù)、DEM以及光譜指數(shù)為自變量,SOM含量作為因變量,運(yùn)用RF,構(gòu)建SOM預(yù)測(cè)模型。使用調(diào)整后決定系數(shù)(R2adj)、均方根誤差(RMSE)以及性能與四分位間隔距離的比率(Ratio of Performance to Interquartile distance,RPIQ)為精度評(píng)價(jià)指標(biāo)。R2adj越大、表明模型越穩(wěn)定;RMSE越小、表明模型精度越高;RPIQ同時(shí)考慮了預(yù)測(cè)誤差和觀測(cè)值的變化,提供了一個(gè)更客觀、更容易在模型驗(yàn)證研究中進(jìn)行比較的模型有效性度量。RPIQ越大,模型的預(yù)測(cè)能力越強(qiáng)。與殘差預(yù)測(cè)偏差不同,RPIQ對(duì)觀測(cè)值的分布沒(méi)有任何假設(shè)[29],其公式如下:
式中IQ是第三和第一個(gè)四分位數(shù)之間的差值。
土壤樣本SOM含量統(tǒng)計(jì)特征見(jiàn)表2,質(zhì)量分?jǐn)?shù)最大值為11.38%,最小值為0.98%,土壤樣品SOM差異較大,這為全面解析SOM反射光譜特性研究提供了較完整的樣本數(shù)據(jù)。根據(jù)土壤樣本SOM描述統(tǒng)計(jì)表的偏度和峰度值可以判斷SOM含量數(shù)據(jù)呈現(xiàn)非正態(tài)分布。在SOM相關(guān)的研究中可知SOM質(zhì)量分?jǐn)?shù)達(dá)到2%以上,對(duì)土壤光譜特征起主導(dǎo)作用[30],SOM質(zhì)量分?jǐn)?shù)小于2%的土壤,其光譜曲線特征易受其他母質(zhì)等成分的影響,而本次研究中SOM平均含量(質(zhì)量分?jǐn)?shù))4.5%以上,能夠充分說(shuō)明SOM的含量決定了土壤光譜的特征。
表2 土壤樣本有機(jī)質(zhì)含量統(tǒng)計(jì)結(jié)果 Table 2 Statistical results of organic matter content in soil samples
3種土壤類型以及未分類整體在指數(shù)衰減函數(shù)的作用下,優(yōu)選變量的數(shù)量均隨迭代次數(shù)的增加呈指數(shù)減少,其RMSECV值整體均呈現(xiàn)先減后升的趨勢(shì)。以黑土為例(圖 2),從圖2a可以看出,隨著運(yùn)行次數(shù)增加,被優(yōu)選出的波段變量數(shù)逐漸減少,前5次采樣過(guò)程有明顯遞減,此后逐漸平穩(wěn)。圖2b 整體上在1~47次采樣中,RMSECV值不斷降低,表明篩選過(guò)程中剔除的變量與SOM去除量無(wú)關(guān),而47次采樣迭代以后,RMSECV值呈回升趨勢(shì),表明反射率光譜中與SOM無(wú)關(guān)的大量信息或噪聲被添加,從而導(dǎo)致RMSECV值上升。圖2c為所有變量在每次采樣過(guò)程中的回歸系數(shù)路徑變化圖,圖中各線表示隨著運(yùn)行次數(shù)的增加各波段變量回歸系數(shù)的變化趨勢(shì)。結(jié)合圖2b分析發(fā)現(xiàn)當(dāng)采樣次數(shù)為第47次時(shí),RMSECV值最小即所選擇的光譜變量子集最優(yōu)。草甸土、沼澤土以及未分類整體的RMSECV最小值、相應(yīng)運(yùn)行次數(shù)及特征波段見(jiàn)表3。
表3 CARS下基于不同土壤類型的特征波段,運(yùn)行次數(shù)和最小交叉驗(yàn)證均方根誤差 Table 3 Characteristic wavebands, number of sampling runs and minimal RMSECV of different soil types under CARS
從表3可知,通過(guò)CARS算法,黑土、草甸土、沼澤土以及整體未分類分別篩選出23、30、21和9個(gè)特征波段,輸入波段壓縮至全波段數(shù)目的16%以下。黑土特征波段的分布主要在1280~2230 nm近紅外光譜區(qū)域,這是由于受到NH,CH和CO等基團(tuán)的分子振動(dòng)的倍頻與合頻吸收影響[31],草甸土在可見(jiàn)光-近紅外光譜區(qū)域均有波段選中,其中1700~1790 nm處SOM響應(yīng)可能是由氧化鋁影響的光譜變化引起的。沼澤土篩選的特征波段在1300~2000 nm比較均勻分布,這主要是由于沼澤土中的大量三氧化物被還原。值得注意的是,波段1450、1470、2150 nm在3種土壤類型中均被選擇,這是由于SOM在1400 nm附近受到土壤黏土礦物質(zhì)中所含羥基的影響,2220 nm附近存在一個(gè)與SOM相關(guān)的烷烴特征峰和存在的氫氧化鋁黏土礦物吸收帶影響[32]。沼澤土、草甸土篩選的430、440、530、550、670 nm少量特征波段位于可見(jiàn)光波段,這是由于受到了土壤發(fā)色團(tuán)和SOM本身黑色的影響,可見(jiàn)光波段存在較寬的吸收波段。
光譜指數(shù)通過(guò)迭代運(yùn)算,充分考慮波段之間的協(xié)同作用,同時(shí)最小化無(wú)關(guān)波段的影響[33]。研究選取的光譜指數(shù)是通過(guò)文獻(xiàn)查閱,選擇可用來(lái)估測(cè)SOM的一系列物理和化學(xué)參數(shù)的相關(guān)光譜指數(shù),并結(jié)合本次實(shí)際采樣點(diǎn)數(shù)據(jù)進(jìn)行相關(guān)性計(jì)算得出。3種土壤類型原始反射率數(shù)據(jù)與SOM之間的NDI、RDVI、RI指數(shù)的相關(guān)性均較高,且均通過(guò)了P=0.01水平上的極顯著性檢驗(yàn)(表4)。黑土RI指數(shù)與SOM的相關(guān)性最高,相關(guān)系數(shù)為0.757,草甸土RDVI指數(shù)與SOM的相關(guān)性最高,相關(guān)系數(shù)為-0.784,沼澤土RDVI指數(shù)與SOM的相關(guān)性最高,相關(guān)系數(shù)為0.922。圖3是不同土壤類型的3種光譜指數(shù)與SOM含量的二維相關(guān)系數(shù)矩陣圖。3種土壤類型的SOM敏感波段區(qū)域主要集中于短波紅外部分,主要集中在1000、1900和2200 nm附近。
表4 土壤有機(jī)質(zhì)含量與最佳光譜指數(shù)的關(guān)系 Table 4 Relationship between soil organic matter content and optimal spectral index
由表5可知,黑土、草甸土、沼澤土的驗(yàn)證集調(diào)整后決定系數(shù)依次為0.678、0.674、0.768,其中沼澤土精度最高,草甸土精度最低,這是由于沼澤土在積水條件下,空氣隔絕,微生物活動(dòng)受到強(qiáng)烈抑制,植物殘?bào)w不能充分分解,而以粗SOM和半腐爛SOM的形式積累于地表。全局回歸模型R2adj達(dá)到0.742,局部回歸模型R2adj達(dá)到0.777。通過(guò)局部回歸,在一定程度上提高了SOM的預(yù)測(cè)精度。無(wú)論是單一土壤類型,還是整體SOM預(yù)測(cè),其R2adj均達(dá)到0.67以上,RPIQ均大于1.8,表明該模型能較好實(shí)現(xiàn)SOM預(yù)測(cè)。
表5 不同土壤類型隨機(jī)森林預(yù)測(cè)模型精度 Table 5 Prediction model accuracy of random forest for different soil types
在高光譜SOM預(yù)測(cè)研究中,波段篩選是一個(gè)關(guān)鍵方面。本研究通過(guò)CARS算法篩選波段與已往學(xué)者利用相關(guān)分析取相關(guān)系數(shù)大于0.65篩選出的波段[34]進(jìn)行建模比較,研究發(fā)現(xiàn)CARS算法不僅極大地降低土壤高光譜變量維度和計(jì)算復(fù)雜程度,驗(yàn)證集R2adj提高了0.167,精度有一定程度的提升。
表6 不同波段篩選方式隨機(jī)森林預(yù)測(cè)模型精度 Table 6 Accuracy of random forest prediction model with different band screening methods
本研究將不同土壤類型(黑土、草甸土、沼澤土)分別進(jìn)行SOM的預(yù)測(cè),取得了較高精度。通過(guò)土壤分類進(jìn)行SOM預(yù)測(cè),消除了不同土壤類型由于“向鄰性”導(dǎo)致的反射光譜曲線相似的影響,從而有利于提高預(yù)測(cè)精度。由于不同類型土壤中礦物成分與SOM含量的差異,造成反射光譜間存在顯著的區(qū)別,通過(guò)土壤分類,將有利于提取不同類型土壤光譜參數(shù)進(jìn)行SOM預(yù)測(cè)。陸龍妹等[35]通過(guò)全局回歸與局部回歸進(jìn)行SOM預(yù)測(cè)比較,依照傳統(tǒng)土壤類型建立各自的有機(jī)質(zhì)光譜預(yù)測(cè)模型精度并不好,這是由于砂姜黑土和黃褐土2種土壤類型的黏土礦物都存在蒙脫石且含量較高,SOM含量接近,所以2種土壤類型之間光譜曲線特征相似,造成SOM全局回歸精度低。而黑土、草甸土、沼澤土之間黏土礦物存在著較大的差異,因此通過(guò)全局回歸與局部回歸比較,全局回歸能夠提高有效信息的獲取程度提高模型精度。其沼澤土的預(yù)測(cè)精度高于草甸土,這是由于沼澤土土壤濕、土層緊且富有彈性,有機(jī)質(zhì)含量豐富、土體酸堿度從微酸到堿性、土壤顏色深,而草甸土土壤表層砂礫化、有浮沙覆蓋、有機(jī)質(zhì)含量較低、土體呈堿性、質(zhì)地較粗、細(xì)粒物質(zhì)少、土壤色澤淺有一定的關(guān)系。
以往許多學(xué)者們采用相關(guān)分析法研究SOM與土壤光譜反射率(或其不同數(shù)學(xué)變換形式)的關(guān)系,將相關(guān)系數(shù)高的波段作為SOM敏感波段。而后,越來(lái)越多的學(xué)者采用CARS變量?jī)?yōu)選方法,從全波段中濾除無(wú)效變量或冗余變量,優(yōu)選出敏感波段。本研究基于CARS算法,黑土、草甸土、沼澤土分別選擇23、30、21個(gè)特征變量,占全波段數(shù)目的11.6%、15.2%、10.6%,極大地縮減了波段信息,解決了SOM預(yù)測(cè)研究中波段數(shù)目多,計(jì)算任務(wù)繁重的問(wèn)題。結(jié)果表明,CARS篩選的最優(yōu)子集存在一定的規(guī)律性,波段主要集中在1100~2400 nm之間,這主要由于受到羰基、酰胺和羥基等基團(tuán)的分子振動(dòng)的倍頻與合頻吸收影響。其中,黑土篩選的特征波段少位于1000 nm以下,這是由于CARS是通過(guò)利用線性模型偏最小二乘法作為適應(yīng)度函數(shù),及交叉驗(yàn)證不斷優(yōu)化計(jì)算,最終選擇出最優(yōu)子集而不是常用的相關(guān)性分析確定特征波段。已有的相關(guān)研究表明:SOM在整個(gè)NIR-SWIR范圍比較敏感,李穩(wěn)冠等[26]將栗鈣土、黑鈣土、灰鈣土、山地草甸土等土壤光譜曲線通過(guò)CARS挑選的特征波段,變量主要分布在1900~2400 nm的近紅外光譜區(qū)域,在可見(jiàn)-近紅外光譜區(qū)域均有分布。CARS對(duì)原始光譜進(jìn)行特征變量篩選,在保證模型精度的同時(shí)顯著減少構(gòu)建模型的變量數(shù)。Bao等[14]對(duì)黑土、黑鈣土、風(fēng)沙土、草甸土4種土壤類型通過(guò)CARS算法篩選最優(yōu)變量子集,其波段大多位于1350~2400 nm范圍內(nèi),少量位于400~1200 nm。因此,通過(guò)CARS算法篩選的特征波段,與已有研究SOM的反射光譜響應(yīng)波段相吻合。不同土壤類型通過(guò)CARS篩選的最優(yōu)子集也存在差異,其選擇的特征變量具有不穩(wěn)定性。
通過(guò)耦合敏感波段的反射率數(shù)值進(jìn)行數(shù)學(xué)變換所計(jì)算得到的光譜指數(shù),避免了由于原始反射率作為輸入量所造成的數(shù)據(jù)冗余,以及產(chǎn)生的共線性問(wèn)題。黑土篩選出的波段主要為1030、1910、1940、1950 nm,草甸土在1420、1340、2150、2230 nm,沼澤土集中在1920和1930 nm。3種土壤類型的篩選的波段都位于NIR-SWIR范圍,這是由于羰基基團(tuán)的基頻振動(dòng)和其在NIR-SWIR范圍所對(duì)應(yīng)的酰胺、羥基等基團(tuán)倍頻和合頻吸收影響,也與以往的研究一致[36]。因此通過(guò)將不同類型土壤分別,以CARS篩選的特征波段、DEM數(shù)據(jù)和光譜指數(shù)作為數(shù)據(jù)源,建立的RF模型能夠有效實(shí)現(xiàn)SOM預(yù)測(cè),使精度有著顯著的提升。然而,本次研究仍存在不足之處:土壤的光譜反射率還會(huì)受到土壤的成土母質(zhì)、礦物成分、土壤表面粗糙度、粒徑、水分等因素的影響,因此,后續(xù)研究在原土室外光譜的基礎(chǔ)上,將考慮更多的影響因素,加強(qiáng)原土室外光譜SOM的估測(cè)模型研究,以提升SOM的預(yù)測(cè)精度。
為了解決不同類型土壤預(yù)測(cè)有機(jī)質(zhì)(Soil Organic Matter,SOM)輸入量類型單一造成精度偏低的問(wèn)題,本文以海倫市3種土壤類型(黑土、草甸土、沼澤土)的室內(nèi)光譜反射率為研究對(duì)象,結(jié)合數(shù)字高程模型(Digital Elevation Model,DEM)以及光譜指數(shù)作為輸入量,運(yùn)用隨機(jī)森林算法(Random Forest,RF)進(jìn)行SOM預(yù)測(cè),得出以下結(jié)論:
1)通過(guò)競(jìng)爭(zhēng)自適應(yīng)重加權(quán)采樣(Competitive Adaptive Reweighted Sampling,CARS)算法,篩選出的特征波段不僅將輸入波段壓縮至全波段數(shù)目的16%以下,而且能夠在很大程度上降低土壤高光譜變量維度和計(jì)算復(fù)雜程度,從而提高了模型的預(yù)測(cè)能力。光譜變量經(jīng)CARS算法篩選后模型調(diào)整后決定系數(shù)提高0.167,估測(cè)效果更好。說(shuō)明CARS算法在提取特征關(guān)鍵波段變量、優(yōu)化模型結(jié)構(gòu)方面起到關(guān)鍵作用。
2)通過(guò)土壤分類進(jìn)行SOM預(yù)測(cè),不同土壤類型的SOM調(diào)整后決定系數(shù)存在差異,沼澤土的調(diào)整后決定系數(shù)最高為0.768,黑土次之,草甸土的預(yù)測(cè)精度最低,只有0.674,運(yùn)用RF對(duì)3類土壤的SOM預(yù)測(cè)性能與四分位間隔距離的比率均大于1.8,說(shuō)明無(wú)論是黑土、草甸土還是沼澤土,該模型都有一定的可信度,具有較好的預(yù)測(cè)能力。
3)通過(guò)將CARS篩選的特征波段、DEM以及光譜指數(shù)作為輸入量,運(yùn)用RF模型,SOM的局部回歸模型驗(yàn)證集精度最優(yōu),調(diào)整后決定系數(shù)為0.777,且RPIQ達(dá)到2.689,與全局回歸模型相比,模型的驗(yàn)證精度提高了0.035。研究表明,3種類型的輸入量,進(jìn)行單一土壤類型分別建模和全局回歸建模,其均具有較好的預(yù)測(cè)能力,在一定程度上可為以后不同土壤類型SOM預(yù)測(cè)時(shí)輸入量的選擇提供幫助,從而促進(jìn)區(qū)域不同類型土壤進(jìn)行SOM預(yù)測(cè)研究的進(jìn)展,為農(nóng)業(yè)和環(huán)境領(lǐng)域SOM的動(dòng)態(tài)監(jiān)測(cè)和建模提供理論支撐。