沈 強,張世文,,夏沙沙,尹 炳,陳 飛,鄒宏光
(1. 安徽理工大學測繪學院,安徽 淮南 232001;2. 安徽理工大學地球與環(huán)境學院, 安徽 淮南 232001)
有機質作為土壤中的一種動態(tài)的變量,其分解和轉化是不斷進行的,傳統(tǒng)的土壤有機質檢測技術操作步驟復雜,成本高,周期長,無法實現(xiàn)大范圍的實時動態(tài)監(jiān)測。高光譜技術具備檢測速度快,成本低等特點,近些年發(fā)展迅速,儀器檢測精度越來越高,分析手段逐漸多樣,已經(jīng)成為了當前研究的熱點問題。
土壤光譜學研究最早開始于20世紀40年代,文獻[1]探究了土壤水分、顆粒大小和物質組成對光譜反射率的影響。20世紀60年代,光譜技術逐漸被應用到土壤有機質檢測當中,文獻[2]探究了有機質分解過程對于光譜反射率的影響。文獻[3]分析了檢測土壤有機質的最優(yōu)波段。80年代以后,成像光譜技術的發(fā)展奠定了高光譜遙感的基礎,光譜分辨率更高,信息量更大。高光譜技術在土壤光譜學研究中得到了更廣泛的研究,文獻[4]利用光譜特征波段估算了土壤有機質和黏土礦物的含量;文獻[5]研究了有機質對土壤反射率、土壤線參數(shù)、土壤鐵氧化物定量反演的影響。探明了土壤有機質的光譜特征及其影響作用;文獻[6]結合偏最小二乘回歸法(PLSR)方法建立土壤有機質的光譜分類-局部預測模型。國內外眾多學者都對土壤有機質的的光譜特性進行了研究,但針對不同的研究區(qū)所選取的光譜處理方法,特征波段的選取方法和模型的建立方法都存在一定的分歧。支持向量機(support vector machines,SVM)是一種通過維度轉化解決非線性樣本的模式識別技術[7],是Vapink在1995年提出的一種基于內核統(tǒng)計學理論的回歸分析模型[8-12],逐漸被應用到高光譜技術中,文獻[13]將穩(wěn)定度自適應重加權采樣特征變量選擇算法用于支持向量機定性分析,提高了近紅外在線分析模型在木材材性分析中的穩(wěn)健性和適用性;文獻[14]結合支持向量機(SVM)分類器,實現(xiàn)了光譜圖像分類法的優(yōu)化。
本文以礦業(yè)廢棄復墾區(qū)為研究對象,探究了支持向量機(SVM)土壤有機質光譜特性中的應用。采用Gaussian濾波、一階微分、二階微分、倒數(shù)對數(shù)法的光譜預處理方法,分析了不同有機質含量下的光譜反射率變化情況。結合逐步回歸模型(stepwise multiple linear regression,SMLR)和支持向量機(SVM)建立了土壤有機質高光譜預測模型,并利用決定系數(shù)和均方根誤差對模型反演效果進行精度評價。研究揭示了土壤有機質快速與光譜反射率間的關系,為實現(xiàn)土壤有機質快速檢測和實時動態(tài)監(jiān)測提供技術支持和參考。
研究區(qū)位于湖北省大冶市礦業(yè)廢棄地復墾項目區(qū),整體地勢南高北低,地面高程30~50m。研究區(qū)屬于典型的亞熱帶季風氣候,四季分明,光照和降雨量充足,年溫差變化范圍-10~40.1℃,年平均氣溫17℃,年均降水量1 385.8mm,年均光照時數(shù)1 813h。2013年對研究區(qū)實行土地復墾工作,于2014復墾完成。采用工程措施和生物化學措施相結合的方法,主要復墾方向為農用地。
綜合考慮研究區(qū)復墾方向和復墾措施,采用網(wǎng)格布點的方式,共布設采樣點38個,采集0~20cm的表層土壤,每份樣本采集200g。將采集到的土壤樣本過10目均勻尼龍篩,去除石子、草桿等雜物,放置在自然通風的條件下陰干。將風干后的土樣研磨過100目篩,一部分土樣(100g)用于土壤光譜檢測;另一部分用于有機質含量檢測,土壤有機質采用重鉻酸鉀-外加熱法檢測。
土壤光譜反射率檢測選擇在無光的暗室中進行,采用美國ASD公司生產的FieldSpec4便攜式地物光譜儀。光譜檢測范圍為350~2 500nm,選用12V、50W的鹵素燈為光源,裸光纖探頭視野范圍25°。儀器使用前預熱半個小時,將土壤樣本放置在直徑100mm,高1.5mm的盛樣皿中,以黑色天鵝絨布為背景,光線探頭位于土樣垂直正上方7cm,光源天頂角為45°,與土樣的直線距離為60cm[15-16]。使用前先進行白板校正,帶儀器穩(wěn)定后再進行實驗,實驗過程中每檢測5個樣本,需要重新優(yōu)化一次。每份樣本采樣間隔為1nm,共采集10次,選取其平均值作為樣本的光譜反射率。
圖1 研究區(qū)位置與采樣點分布圖
光譜數(shù)據(jù)在獲取過程中由于儀器操作、實驗環(huán)境和土壤樣本等因素的影響,會產生不同程度的噪聲,因此需要對光譜曲線進行校正,首先為避免邊緣噪聲的影響,去除350~499nm和2 241~2 500nm兩處波段,并采用Gaussian濾波法,對光譜曲線進行平滑。通過光譜平滑處理可以,在維持光譜曲線的的總體特征的條件下有效的去除噪聲。
將平滑后的光譜曲線進行一階微分(first order differential reflectance,F(xiàn)DR),二階微分(second order differential reflectance,SDR),倒數(shù)對數(shù)(inverse-log reflectance,LR)三種光譜變換。FDR、SDR、CR采用MATLAB 2016 b軟件實現(xiàn)。
已有的研究表明,土壤有機質含量對土壤光譜曲線有影響作用[17-19],研究區(qū)土壤有機質含量變化范圍較大(0.75~26.5 g/kg),按照全國第二次土壤普查的土壤養(yǎng)分分級標準對采集到的土壤樣本進行分類[20-21](見表1)。
表1 土壤有機質分類統(tǒng)計表
土壤養(yǎng)分標準分為6個等級(很豐富、豐富、中等、缺乏、很缺乏、極缺乏),研究區(qū)土壤樣本全部位于中等水平以下,土壤有機質含量總體水平偏低,表明由于長期的礦業(yè)開采導致土壤出現(xiàn)了有機質流失的現(xiàn)象。變異系數(shù)反應了數(shù)據(jù)的離散程度和突變性,土壤有機質在各組分中變異系數(shù)不大,但總體偏移程度較大,變異系數(shù)高達72%。
根據(jù)不同的有機質含量繪制土壤有機質原始光譜反射率曲線圖(見圖2)。從圖2中可以看出不同樣本的土壤光譜反射率值不同,但土壤光譜曲線整體變化趨勢一致。光譜曲線的影響因素眾多,已有的研究結果顯示,土壤光譜反射率受有機質含量的影響,有機質含量越高,光譜反射率越低[22]。但從圖中可以看出不同分級標準下有機質曲線分布均勻,并無明顯的規(guī)律性。這表明有機質含量并不是影響研究區(qū)土壤光譜反射率的主要因素, 具體影響因素還需進一步探究。 近紅外范圍(700~
2 240nm)內反射曲線較為穩(wěn)定,在一定范圍內上下波動, 曲線間的離散程度加大, 在1 000nm、 1 400nm、1 800nm、1 900 m、 2 200nm等位置可以看到明顯的光譜吸收谷, 其中1 400nm、 1 900nm、 2 200nm位置都是明顯的水分吸收谷[23-25]。
圖2 光譜原始反射率曲線
為提取原始波段中不易被發(fā)現(xiàn)的光譜信息,突出光譜特征波段、分離平行背景值,對平滑后的土壤原始光譜反射率曲線進行一階微分(FDR),二階微分(SDR),倒數(shù)對數(shù)(LR)三種光譜變換(見圖3)。
從圖3中可以看出,經(jīng)過變換后的光譜信息得到了明顯的加強,光譜波段,特別是可見光波段的靈敏度提高了。FDR和SDR曲線的數(shù)值在正負值之間上下起伏,所反映出的光譜信息十分豐富,數(shù)值變化范圍分別為:-0.004~0.005、-0.008~0.012。其中曲線變化幅度較大的區(qū)間有:500~800nm、1 300~1 500nm、 1 860~1 920nm、 2 020~2 040nm。LR曲線數(shù)值范圍為:0~1,曲線整體較為平滑,形狀類似于原始曲線的倒置,吸收峰出現(xiàn)的位置與原始波段大體相同。
圖3 光譜變換曲線(FDR、SDR、LR)
為進一步論證利用高光譜反演土壤有機質的可行性,探究有機質含量與土壤光譜反射率曲線間特別是光譜吸收波段的相關性關系。引入相關系數(shù)r進行描述相關性系數(shù)公式如
圖4 土壤有機質含量與OR、FDR、SDR、LR間的相關分析
從總體上來看,與原始光譜曲線相比,經(jīng)過光譜變換后的全波段的光譜相關性都得到了明顯的加強,部分波段的相關系數(shù)提升了0.5以上。 對曲線進行顯著性檢驗, 部分波段可以達到0.05顯著性水平, 少部分達到0.01極顯著水平。 不同相關系數(shù)曲線達到0.05顯著性水平的波段位置分別為OR: 500~560nm; FDR: 640~870nm、 1 150~1 250nm、1 550~1 795nm、1 940~2 200nm;SDR:540~640nm、830~930nm、1 860~1 910nm;LR:500~670nm。從相關系數(shù)來看二階微分變換的效果最好,最高相關波段為2 170nm(r=-0.83)。
按照全樣本3∶1的比例和有機質含均勻選擇建模樣本(28)和預測樣本(10)。根據(jù)FDR、SDR、LR三種光譜變換方法,選擇達到0.05顯著性水平以上的波段為特征波段,建立多元逐步回歸模型(SMLR),采用徑向基函數(shù)((radial base function,RBF))為核函數(shù)建立支持向量機(SVM)模型。并利用決定系數(shù)(coefficient of determination,R2)和均方根誤差(root mean square error,RMSE)對模型預測集進行精度評價(見表2,圖5)。模型建立采用MATLAB 2016 b軟件實現(xiàn)。
表2 土壤有機質含量預測模型
決定系數(shù)(R2)反映了模型的穩(wěn)定性,均方根誤差(RMSE)反映了模型的預測能力,分析可以看出SMLR模型中基于FDR的SMLR模型的反演效果最優(yōu),R2=0.80,均方根誤差為3.18;SVM模型中基于SDR的SVM模型的反演效果最優(yōu),R2=0.89,均方根誤差為1.73。從總體上來看SVM模型的預測效果明顯優(yōu)于SMLR模型,與SMLR模型相比R2普遍提高了0.1左右,RMSE降低的1.5左右。研究表明基于SDR的SVM模型對研究區(qū)土壤有機質的實測值與預測值之間的差異性較小,模型能夠較為精確的實現(xiàn)研究區(qū)土壤有機質含量預測。
a 多元逐步回歸模型比較
b支持向量機模型比較圖5 土壤有機質含量模型實測值與預測值比較
通過研究可以看出,研究區(qū)土壤有機質含量與光譜反射率之間存在較好的相關性關系,研究通過實驗樣本處理,儀器調試,光譜曲線校正等步驟,最大程度上排除了環(huán)境因素對實驗結果的影響,通過與常見的多元逐步回歸模型對比,建立的了基于支持向量機的土壤有機質高光譜預測模型。與傳統(tǒng)的線性模型相比,經(jīng)過支持向量機處理R2普遍提高了0.1左右,RMSE降低的1.5左右。可以實現(xiàn)在高維空間中提升變量間的線性關系,極大的提高了模型的穩(wěn)定性和精度,可以在一定的精度條件下實現(xiàn)土壤有機質的快速檢測。
土壤光譜反射率中包含了大量的土壤信息,是土壤質地,含水量,鹽分、氧化鐵含量等綜合影響的結果。加之土壤成土條件、土壤利用類型和復墾方式的不同具有其特殊的區(qū)域性特點,本文以湖北省大冶市復墾后的礦業(yè)廢棄地為研究區(qū),建立的土壤有機質預測模型在其他區(qū)域的適用性還有待于進一步研究,因此需要針對不同的研究區(qū)域開展長時間的監(jiān)測,獲取更多的數(shù)據(jù)對模型反演效果進行驗證。此外針對影響因素眾多的光譜反射率曲線,如何排除其他因素的干擾,最大程度的提取有機質中包含的光譜信息,還需要進一步優(yōu)化光譜信息提取技術。
本文采用支持向量機(SVM)的方法,建立了湖北大冶復墾項目區(qū)土壤有機質含量高光譜反演預測模型。分析了不同有機質含量的土壤光譜曲線差異,光譜變換對于提升光譜信息的作用,建立了基于SDR的SVM預測模型。具體結論如下:
(1)不同有機質含量的光譜反射率曲線變化趨勢一致,不同等級的光譜反射率數(shù)值分布均勻。表明了,研究區(qū)土壤有機質含量對光譜曲線的影響較小,對于研究區(qū)土壤而言,有機質含量并不是光譜反射率數(shù)值存在差異的主要因素。
(2)可以明顯的看出, 通過光譜預處理技術光譜信息得到了明顯的加強, 與原始曲線相比光譜吸收波段的位置更加明顯。 主要的光譜吸收谷有1 000nm、1 400nm、1 800nm、1 900nm、2 200nm等。
(3)通過光譜變換可以明顯提高相關系數(shù),其中二階微分變換的效果最好,相關系數(shù)為-0.83,最高相關波段為2 170nm。通過顯著性檢驗,部分波段可以達到0.05顯著性水平,少部分達到0.01極顯著水平。
(4)采用多元逐步回歸與支持向量機方法建立土壤有機質高光譜預測模型。通過對比模型實測值和預測值,提出了基于SDR的SVM模型的反演效果最優(yōu),其中R2=0.89,均方根誤差為1.73。研究結果,為實現(xiàn)土壤有機質快速檢測和實時動態(tài)監(jiān)測提供技術支持和參考。