楊邵文,沈 強(qiáng),夏 可,胡青青,張世文*
(1.安徽理工大學(xué)測(cè)繪學(xué)院,安徽 淮南 232001;2.安徽理工大學(xué)地球與環(huán)境學(xué)院,安徽 淮南 232001)
【研究意義】作為地理環(huán)境中的重要組成要素,土壤是人類賴以生存的重要自然資源[1]。受長時(shí)間采礦的影響,礦業(yè)廢棄地土壤污染較為嚴(yán)重,而土地復(fù)墾是實(shí)現(xiàn)環(huán)境治理與土壤重構(gòu)的重要方法,在土壤質(zhì)量的改善方面具有重要意義。有機(jī)質(zhì)作為土壤中的重要組成部分,對(duì)土壤性質(zhì)的改善有著重要作用,是反應(yīng)礦區(qū)土地復(fù)墾成效的重要指標(biāo),因此實(shí)現(xiàn)礦業(yè)復(fù)墾土壤有機(jī)質(zhì)含量的快速估測(cè)十分重要。高光譜技術(shù)估測(cè)擁有效率高、成本低等特點(diǎn),相較于傳統(tǒng)土壤農(nóng)化分析方法表現(xiàn)出了極大優(yōu)勢(shì),順應(yīng)了現(xiàn)代農(nóng)業(yè)發(fā)展的迫切需要。因此,建立礦業(yè)復(fù)墾土壤有機(jī)質(zhì)含量高光譜快速估測(cè)模型有著重要的意義。【前人研究進(jìn)展】國內(nèi)外學(xué)者進(jìn)行了大量研究,其發(fā)展過程由一元線性模型逐漸過渡為多元線性及非線性模型[2]。Shepherd等人研究發(fā)現(xiàn),在光譜的一階微分和二階微分變換下更有利于建立有機(jī)質(zhì)含量估測(cè)模型[3];Krishnan等人對(duì)光譜數(shù)據(jù)進(jìn)行倒數(shù)之對(duì)數(shù)的微分變換后,建立了多元逐步回歸估測(cè)模型[4];Gunsaulis等人在利用多元線性回歸建立估測(cè)模型時(shí)指出660 nm附近的紅光波段是較為有效的敏感波段[5];喬璐等人通過對(duì)光譜數(shù)據(jù)和有機(jī)質(zhì)含量數(shù)據(jù)進(jìn)行數(shù)學(xué)變換后得到了更高精度的有機(jī)質(zhì)估測(cè)模型[6];于雷等人在對(duì)光譜數(shù)據(jù)進(jìn)行數(shù)學(xué)變換的基礎(chǔ)上,探討了在全波段和顯著性波段的前提下,基于偏最小二乘回歸(Partial Least Squares Regression,PLSR)的建模精度問題[7];紀(jì)文君等人則是基于人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)和支持向量機(jī)(Support Vector Machine, SVM)等非線性模型對(duì)光譜的全波段信息進(jìn)行了深入的探究,最終結(jié)合線性模型取得了很好的估測(cè)效果[8];陳紅艷等人在光譜一階微分形式下通過多層離散小波分解剔除低頻近似信號(hào)和高頻噪聲信號(hào),得到反映土壤理化參數(shù)的特征光譜曲線,從而建立了更高精度的有機(jī)質(zhì)估測(cè)模型[9];管延龍等人在光譜數(shù)據(jù)及其數(shù)學(xué)變換形式下比較了偏最小二乘回歸模型與多元線性模型的估測(cè)效果,結(jié)果表明偏最小二乘回歸模型具有更好的穩(wěn)定性與預(yù)測(cè)精度[10]。【本研究切入點(diǎn)】研究表明基于高光譜的有機(jī)質(zhì)含量快速估測(cè)均取得了令人滿意的結(jié)果,無論是光譜的預(yù)處理,還是波段與建模方法的選取都已經(jīng)形成了一個(gè)較為完善的體系,但鮮有人綜合探究不同建模光譜數(shù)據(jù)選擇方式和優(yōu)化模型耦合的二次估測(cè),分析其對(duì)土壤有機(jī)質(zhì)高光譜反演效果的影響?!緮M解決的關(guān)鍵問題】本文以便攜式地物光譜儀獲得的光譜數(shù)據(jù)為研究對(duì)象,采用了3種光譜變換方法和模型建立方法,探討了全波段與顯著性波段2種建模數(shù)據(jù)獲取方式對(duì)有機(jī)質(zhì)含量估測(cè)效果的影響,并采用算術(shù)平均值二次估測(cè)的方法提升現(xiàn)有的估測(cè)精度,以期為礦業(yè)復(fù)墾土壤有機(jī)質(zhì)含量快速監(jiān)測(cè)的實(shí)現(xiàn)提供技術(shù)參考。
研究區(qū)為位于湖北省大冶市的某礦業(yè)土地復(fù)墾區(qū),主要土壤類型為紅壤。地理坐標(biāo)為東經(jīng)114°45′~114°57′, 北緯30°0′~30°6′之間。研究區(qū)屬典型的亞熱帶大陸性季風(fēng)氣候,氣候溫和、濕潤,冬冷夏熱,四季分明;光照充足,年平均氣溫為16.9 ℃,最高氣溫達(dá)到40.1 ℃,最低氣溫-10 ℃,年均無霜期261d;雨量充沛,年均降水量為1385.8 mm,年平均降雨日132 d左右,全年日照2000 h。
采用網(wǎng)格和隨機(jī)抽樣相結(jié)合的方法,共采集土樣48份,采樣深度為0~20 cm。在樣品風(fēng)干磨碎后、通過100目的均勻尼龍篩網(wǎng),將每份干燥過篩后的土樣分為兩份以用于光譜數(shù)據(jù)的獲取和土壤有機(jī)質(zhì)含量的測(cè)定,測(cè)定方法采用重鉻酸鉀容量法。表1為土壤有機(jī)質(zhì)含量統(tǒng)計(jì)特征,數(shù)據(jù)擁有較好的變異系數(shù)。土壤光譜使用ASD FieldSpec4高光譜儀來測(cè)定,采集后的數(shù)據(jù)為范圍在350~2500 nm的土壤樣本光譜曲線。測(cè)量時(shí)首先要將儀器預(yù)熱半個(gè)小時(shí),并將處理好的土樣置于直徑 10 cm 深 1.5 cm的培養(yǎng)皿中,裝滿后將土壤表面刮平;選用12 V、50 W的鹵素?zé)糇鳛槠叫泄庠催M(jìn)行光譜測(cè)定;采用室內(nèi)暗室測(cè)量方法,基于幾何來布置光路徑,以黑天鵝絨布作背景,且需要保證白板能夠全部覆蓋視場(chǎng)[11],在經(jīng)過白板校正后,方可進(jìn)行實(shí)測(cè),且每測(cè)五個(gè)樣品后需要重新進(jìn)行校正以減小儀器產(chǎn)生的誤差。每個(gè)樣品共測(cè)量10次,將10次測(cè)量值平均后作為最終的光譜數(shù)據(jù)。
表1 土壤有機(jī)質(zhì)含量統(tǒng)計(jì)特征
受實(shí)驗(yàn)環(huán)境和儀器噪聲產(chǎn)生的影響,光譜曲線的兩端存在較大波動(dòng),因此將曲線兩端(350~399 nm, 2401~2500 nm)去除,以減小噪聲對(duì)建模的影響。為了進(jìn)一步去除光譜曲線上存在的細(xì)微噪聲,本文通過Savitzky-Golay平滑對(duì)剩下的400~2400 nm范圍的曲線進(jìn)行平滑處理,采用二次多項(xiàng)式以及大小為20的窗口進(jìn)行平滑。此外,為進(jìn)一步提升估測(cè)精度,還需要對(duì)平滑后的原光譜曲線進(jìn)行數(shù)學(xué)變換,以尋找更優(yōu)的估測(cè)模型。本文選取了一階微分(First order Differential Reflectance,F(xiàn)DR),二階微分(Second order Differential Reflectance,SDR)以及標(biāo)準(zhǔn)正態(tài)變換(Standard Normal Variate,SNV)3種變換方式與原反射率(Raw Spectral Reflectance,R)進(jìn)行對(duì)比。
以全波段和顯著性波段為兩種建模數(shù)據(jù),探究模型的估測(cè)精度的變化。顯著性波段的選擇以光譜數(shù)據(jù)與對(duì)應(yīng)的土壤有機(jī)質(zhì)含量的相關(guān)系數(shù)為標(biāo)準(zhǔn),相關(guān)系數(shù)絕對(duì)值越大表明相關(guān)性越強(qiáng),波段響應(yīng)能力越強(qiáng)。在R、FDR、SDR、SNV變換形式下,以相關(guān)系數(shù)曲線中通過P= 0.05水平上的顯著性檢驗(yàn)的極值點(diǎn)對(duì)應(yīng)的波段作為建模的顯著性波段。
采用偏最小二乘回歸(PLSR)、隨機(jī)森林回歸(Random Forest Regression,RFR)和支持向量機(jī)(SVM)3種方法構(gòu)建土壤有機(jī)質(zhì)含量反演模型。PLSR作為一種多元統(tǒng)計(jì)方法在光譜分析中最為常用,該方法集成了主成分分析、典型相關(guān)分析以及線性回歸模型的優(yōu)點(diǎn)。它實(shí)現(xiàn)了數(shù)據(jù)的簡化,著重處理自變量之間的多重相關(guān)性問題,當(dāng)數(shù)據(jù)量較小時(shí),該模型在整體上也擁有更好的穩(wěn)定性以及預(yù)測(cè)能力[12-14]; RFR主要由多重分類與回歸決策樹組成,即一個(gè)包含多個(gè)決策樹的組合分類器。其主要原理是在隨機(jī)分類技術(shù)的支持下通過弱分類器組成的Bootstrap aggregation(Bagging)集成分類器和節(jié)點(diǎn),形成多個(gè)回歸決策樹組成隨機(jī)森林,最終通過投票的方式選擇出最佳分類結(jié)果[15-17];SVM是一種基于核函數(shù)的研究方法,該方法使用隱式將數(shù)據(jù)映射到一個(gè)被稱為核函數(shù)的高維特征空間上以尋找一個(gè)超平面來實(shí)現(xiàn)數(shù)據(jù)的分類。值得指出的是應(yīng)使建模集中的點(diǎn)距離超平面盡可能的遠(yuǎn)以實(shí)現(xiàn)更好的分類效果[18-20]。
采用Kennard-Stone(K-S)方法選取建模集與驗(yàn)證集,樣點(diǎn)比例設(shè)為2︰1。K-S方法可以根據(jù)光譜變量間的歐氏距離,在特征空間中均勻地選取光譜差異較大的樣本[21]。與傳統(tǒng)的隨機(jī)選樣以及根據(jù)距離和含量選取樣點(diǎn)相比,K-S選樣可以根據(jù)光譜數(shù)據(jù)的性質(zhì)來合理劃分樣點(diǎn),這對(duì)于后期的建模十分重要。
模型精度評(píng)價(jià)采用決定系數(shù)(Coefficient of determination,R2)、均方根誤差(Root mean square error,RMSE)以及相對(duì)分析誤差(The ratio of prediction to deviation,RPD)3個(gè)指標(biāo)來衡量。其中決定系數(shù)用來表征模型的穩(wěn)定性與擬合程度,均方根誤差則可以體現(xiàn)模型的估算能力,而相對(duì)分析誤差衡量的是模型的預(yù)測(cè)能力。R2與RPD數(shù)值越大、RMSE數(shù)值越小說明模型的可靠度越高[22]。
數(shù)據(jù)處理與模型建立是基于Matlab2016、Origin2018以及SPSS20來實(shí)現(xiàn)的。
針對(duì)平滑后的原始反射率及其在一階微分、二階微分、標(biāo)準(zhǔn)正態(tài)變換形式下的光譜數(shù)據(jù),分別與對(duì)應(yīng)有機(jī)質(zhì)含量進(jìn)行基于皮爾森系數(shù)的相關(guān)性分析,得到的結(jié)果如圖1所示。
由圖1-a可知,在平滑后的原始反射率形式下相關(guān)系數(shù)的總體走勢(shì)比較平緩,相關(guān)系數(shù)整體上隨著波長的增加而下降,且原始反射率與有機(jī)質(zhì)含量的相關(guān)性從正相關(guān)逐漸變?yōu)樨?fù)相關(guān)。在通過P= 0.05水平顯著性檢驗(yàn)的446、1468、1932與2123 nm附近存在波峰與波谷,這些區(qū)域都是可以充當(dāng)顯著性波段的高相關(guān)性特征波段;從圖1-b中可以看出在一階微分形式下相關(guān)系數(shù)曲線的總體走勢(shì)起伏程度較大,且相關(guān)性較圖1-a有了很好的提升,在940 nm附近的波谷處相關(guān)系數(shù)絕對(duì)值達(dá)到了0.7以上;而由圖1-c可知在二階微分形式下圖形走勢(shì)起伏程度同樣較大,且波動(dòng)最為劇烈,整體趨勢(shì)與一階導(dǎo)相似,相對(duì)于0上下浮動(dòng)且在可見光與近紅外波段部分區(qū)域相關(guān)系數(shù)絕對(duì)值均有提升;由圖1-d可得對(duì)光譜數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后,相關(guān)系數(shù)曲線整體趨勢(shì)與R形式較為接近,在可見光波段530 nm處相關(guān)系數(shù)提升較高,數(shù)值在0.6左右。
在顯著性檢驗(yàn)的基礎(chǔ)上,選取相關(guān)系數(shù)曲線中的極值點(diǎn)對(duì)應(yīng)的波段作為顯著性波段,將其用于估測(cè)模型的建立。
由表2可知,在不同的建模波段選取方式下,模型精度存在不同程度的差異,該結(jié)果表明波段的選擇方式是模型精度的主要影響因素之一;利用PLSR模型建立8種土壤有機(jī)質(zhì)估測(cè)模型,在全波段建模形式下可以看出模型的預(yù)測(cè)能力整體較差,RPD均未超過2,相對(duì)來說一階微分形式下的估測(cè)模型較好一些;顯著性波段建模形式下R2與RPD整體相對(duì)較高,一階微分形式下的估測(cè)模型取得了最好的效果,其R2與RPD分別達(dá)到了0.75和2以上,表明該模型在具有較好穩(wěn)定性的同時(shí)具有良好的預(yù)測(cè)能力。在RFR模型下,基于全波段建立的估測(cè)模型R2與RPD數(shù)值較好,整體上具有更高的可靠度。在全波段形式下,可以看出較其它幾種數(shù)學(xué)形式,一階微分下建立的估測(cè)模型依舊具有最高的可靠性,其R2、RPD達(dá)到了0.76和2.10,表明具有很好的估測(cè)能力;而在顯著性波段的建模形式下,基于一階微分建立的模型較其它形式也具有更高的可靠性,R2、RPD達(dá)到了0.75和2.06,同樣具有很好的估測(cè)能力;從SVM的3項(xiàng)指標(biāo)可以看出該模型下總體估測(cè)結(jié)果普遍不是很好,沒有任何一組數(shù)據(jù)的RPD達(dá)到2以上,這表明在4種數(shù)學(xué)形式下SVM均無法取得較好的效果,且全波段形式下模型可靠性整體要弱于顯著性波段。
a.原始光譜反射率相關(guān)系數(shù);b.一階微分相關(guān)系數(shù);c.二階微分相關(guān)系數(shù);d.標(biāo)準(zhǔn)正態(tài)化相關(guān)系數(shù)a.R correlation coefficient; b.Correlation coefficient in FDR; c.Correlation coefficient in SDR; d. SNV correlation coefficient
綜合分析可得,所有模型的RMSE均介于2~4之間,均擁有很好的估算能力;在一階微分形式下模型擁有更好的估測(cè)能力,其中基于顯著性波段建立的PLSR模型具有最好的估測(cè)精度,由此可以表明光譜數(shù)據(jù)進(jìn)行一階微分變換后可以很好的進(jìn)一步提升模型精度;同時(shí)值得指出的是,在4種光譜形式下,基于全波段和特征波段建立的24種模型整體上估測(cè)效果并不是非常好,在除一階微分的其他數(shù)學(xué)形式下,模型的RPD均未超過2,表明其對(duì)應(yīng)模型存在缺陷,僅能實(shí)現(xiàn)有機(jī)質(zhì)含量的粗略估計(jì)。
表2 土壤有機(jī)質(zhì)含量的全波段與顯著波段的模型檢驗(yàn)
表3 土壤有機(jī)質(zhì)含量均值二次估測(cè)
針對(duì)模型精度較低的問題,本文基于相對(duì)最優(yōu)模型的估測(cè)結(jié)果嘗試多種處理方法,最終選擇二次均值處理。即選取估測(cè)能力相對(duì)較好的兩個(gè)估測(cè)模型,將各模型對(duì)應(yīng)的估測(cè)值進(jìn)行算術(shù)平均處理以結(jié)合多個(gè)模型的優(yōu)勢(shì),使含量估測(cè)的精度更高。
如表3所示,在光譜的4種數(shù)學(xué)形式下經(jīng)均值處理后,除原始反射率外其余3種變換形式下模型的估測(cè)能力均有了一定的提升,對(duì)應(yīng)R2與RPD普遍在0.75和2以上,該現(xiàn)象表明相較于之前各數(shù)學(xué)形式下的最優(yōu)模型,進(jìn)行均值處理后的估測(cè)精度在整體上有了較好的提升,尤其是在標(biāo)準(zhǔn)正態(tài)形式下,R2、RPD由之前最優(yōu)模型的0.70、1.90提升到了0.80和2.31。具體估測(cè)效果如圖2,橫軸為有機(jī)質(zhì)含量實(shí)測(cè)值,縱軸為估測(cè)值,可以看到圖2 d(標(biāo)準(zhǔn)化形式)中的點(diǎn)位相對(duì)于直線y=x離散程度最小,具有最好的估測(cè)效果。
研究結(jié)果表明,光譜數(shù)據(jù)與有機(jī)質(zhì)含量之間存在較高的相關(guān)性,在對(duì)光譜數(shù)據(jù)進(jìn)行數(shù)學(xué)變換后相關(guān)性有了進(jìn)一步提升[23],尤其是在一階微分形式下,由于該變換可以較好的突顯出原曲線的拐點(diǎn)以及波峰對(duì)應(yīng)的波長位置[24],相關(guān)性顯著增強(qiáng),相關(guān)系數(shù)的絕對(duì)值最高達(dá)到了0.8左右。且由估測(cè)結(jié)果的衡量指標(biāo)可以發(fā)現(xiàn),光譜經(jīng)一階微分變換后得到的模型展現(xiàn)出了更好的估測(cè)效果,這表明該變換可有效降低土壤質(zhì)地、成土母質(zhì)等其他因素的影響,建立更優(yōu)的估測(cè)模型[25]。因此嘗試數(shù)學(xué)變換可以進(jìn)一步提升光譜數(shù)據(jù)對(duì)土壤有機(jī)質(zhì)含量的估測(cè)效果,也表明光譜數(shù)據(jù)對(duì)有機(jī)質(zhì)含量擁有很好的解釋能力,可以作為一種快速估測(cè)土壤有機(jī)質(zhì)含量的方法;在全波段和顯著性波段建模形式下,各模型之間存在一定的差異,對(duì)于PLSR模型,顯著性波段建模存在一定的優(yōu)勢(shì),RFR模型則在全波段建模中體現(xiàn)出了更好的估測(cè)能力,而SVM模型在本次驗(yàn)證集估測(cè)中整體效果不太理想,且從整體估測(cè)結(jié)果上可以看出SVM也較于傾向顯著波段建模。上述現(xiàn)象表明,在光譜數(shù)據(jù)的四種數(shù)學(xué)形式下,相較于包含大量數(shù)據(jù)的訓(xùn)練集,在將去除數(shù)據(jù)冗余的信息作為訓(xùn)練集的情況下,PLSR(除SNV形式)、SVM可以擁有較好的估測(cè)效果。而對(duì)于RFR(除R形式)而言,在將所有波段反射率作為訓(xùn)練集的情況下,可以更好的識(shí)別光譜曲線的特性,擁有更高的識(shí)別精度;此外,從基于算術(shù)平均值的二次估測(cè)結(jié)果中可以看出,模型之間的估測(cè)結(jié)果經(jīng)平均處理后可以實(shí)現(xiàn)相互校正,從而進(jìn)一步提升估測(cè)精度,尤其是標(biāo)準(zhǔn)正態(tài)形式下估測(cè)精度有了較大提升。值得指出的是,由于土壤反射光譜受多種要素的影響[8],如水分、氧化物與重金屬等,有機(jī)質(zhì)含量的估測(cè)精度有待于進(jìn)一步提高,還需要綜合考慮其它影響因素進(jìn)行進(jìn)一步分析和實(shí)踐對(duì)比。
a.原始光譜反射率; b.一階微分; c.二階微分; d.標(biāo)準(zhǔn)正態(tài)化a. R; b. FDR; c. SDR; d. SNV
本文選擇了4種光譜數(shù)學(xué)形式并采用PLSR、RFR、SVM 3種方法建立土壤有機(jī)質(zhì)估測(cè)模型,旨在探討了建模數(shù)據(jù)選取以及優(yōu)化模型耦合對(duì)土壤有機(jī)質(zhì)估測(cè)效果的影響。
(1)對(duì)光譜數(shù)據(jù)進(jìn)行一階微分、二階微分等數(shù)學(xué)變換后,在部分波段范圍內(nèi)相關(guān)性可以有明顯提升,尤其是光譜曲線進(jìn)行一階微分處理的形式下,波段的相關(guān)性得到了顯著增強(qiáng)。
(2)建模數(shù)據(jù)的選取是影響模型精度的重要因素,在PLSR與SVM模型下顯著性波段建模整體上相對(duì)更佳,而在RFR模型下全波段建模應(yīng)是更好的選擇,且PLSR、RFR建模方法下基于光譜的一階微分形式建立的估測(cè)模型均體現(xiàn)出了最好的估測(cè)能力,其中在PLSR(顯著性波段)、RFR(全波段)模型下R2、RPD均達(dá)到了0.75與2以上,可以很好的對(duì)研究區(qū)土壤有機(jī)質(zhì)含量進(jìn)行估測(cè),該結(jié)果表明針對(duì)不同的建模方法,應(yīng)結(jié)合模型特點(diǎn),確定建模數(shù)據(jù)的選取方式。
(3)基于兩種相對(duì)最優(yōu)模型的估測(cè)結(jié)果進(jìn)行算術(shù)平均運(yùn)算,較原估測(cè)值而言,二次估測(cè)值的精度在整體上有了一定的提升。3種光譜變換下的二次估測(cè)均取得了較好效果,在標(biāo)準(zhǔn)正態(tài)形式下,對(duì)PLSR(全波段)和RFR(全波段)估測(cè)結(jié)果進(jìn)行均值處理后效果明顯,表明該方法可為高光譜土壤有機(jī)質(zhì)含量估測(cè)提供一定的參考價(jià)值。
由于PLSR模型可以很好的分析自變量之間的相關(guān)性,提取主要信息,因此將其與顯著性波段結(jié)合是較為廣泛的使用方法。研究結(jié)果表明,基于FDR的PLSR顯著波段建模依舊是較為合理的建模方法,而本文中基于算術(shù)平均的二次估測(cè)較這種傳統(tǒng)建模方法估測(cè)能力有了一定提升,結(jié)合多種模型進(jìn)行含量估值具有更好的估測(cè)效果。