肖艷,辛洪波,王斌,崔利,姜琦剛
(1.長春工程學(xué)院勘查與測繪工程學(xué)院,長春 130012;2.長春市測繪院,長春 130021;3.吉林大學(xué)地球探測科學(xué)與技術(shù)學(xué)院,長春 130026)
黑土是寶貴的土地資源,有機質(zhì)含量的多少是反映土壤肥力、狀態(tài)和退化程度的重要指標[1-2]。傳統(tǒng)土壤有機質(zhì)含量測定基于化學(xué)分析方法,步驟繁瑣,耗時費工,很難實現(xiàn)實時檢測。近年來,可見光/近紅外光譜分析技術(shù)以其快速、簡便、無污染、不破壞等特點,正逐步成為估測土壤有機質(zhì)含量的新型有力工具[3]。
采用合適的光譜預(yù)處理和波長選擇方法不僅能提高土壤參數(shù)定量模型的估測能力,還能簡化模型,減少計算量[4]。在現(xiàn)有光譜預(yù)處理方法中,小波變換在信號去噪和數(shù)據(jù)壓縮方面具有獨特的優(yōu)勢[5]。王延倉等[6]結(jié)合小波變換和偏最小二乘法估測土壤有機質(zhì)含量,結(jié)果表明小波變換在一定程度上提高了土壤光譜對有機質(zhì)含量的估測能力;李旭青等[7]利用小波變換選取具有異常光譜特征的奇異點,并采用反向傳播神經(jīng)網(wǎng)絡(luò)模型對水稻冠層重金屬含量進行反演,取得了較好的效果。僅依賴小波變換的結(jié)果建模,參與的變量依然較多,存在的大量冗余信息不僅會降低建模速度,而且可能會影響模型的精度。因此仍需一種有效的手段從小波變換結(jié)果中進一步篩選出最優(yōu)變量。常用的波長選擇方法有相關(guān)系數(shù)法、回歸系數(shù)法、載荷值法、退火算法、遺傳算法和連續(xù)投影算法(successive projections algorithm,SPA)。相關(guān)系數(shù)法、回歸系數(shù)法和載荷值法的閾值大多根據(jù)主觀經(jīng)驗進行選擇,而退火算法和遺傳算法的搜尋過程非常耗時,且不穩(wěn)定[8]。SPA算法能大大減少建模所用變量的個數(shù) ,且計算效率較高,已被廣泛用于可見/近紅外光譜特征波長的選擇。章海亮等[9]和Peng等[10]都利用SPA算法選取建模變量,在保證精度的同時大大降低了模型的計算量。
綜上,本文嘗試在黑土有機質(zhì)含量高光譜估測中引入小波變換和SPA算法,即首先采用小波變換對土壤光譜進行降維去噪,然后利用SPA算法從小波變換結(jié)果中篩選出最優(yōu)變量,最后基于最優(yōu)變量,分別利用偏最小二乘(partial least squares,PLS)和支持向量機(support vector machine,SVM)方法建立估測模型,以驗證小波變換和SPA算法的結(jié)合在黑土有機質(zhì)含量高光譜估測上的有效性。
2014年5月5日—2014年5月10日,根據(jù)第二次土壤普查繪制的1∶100萬黑土分布圖,在黑龍江省黑河市嫩江市、北安市、五大連池市,綏化市以及吉林省長春市德惠市、榆樹市的黑土帶內(nèi),共采得61個土壤樣本,采樣點分布情況如圖1所示。將土樣置于室內(nèi),自然風(fēng)干、研磨、過2 mm篩后,把每個樣本分成2份,一份用于光譜測量,另一份用于化學(xué)分析。土壤有機質(zhì)的測定采用重鉻酸鉀容量法。將61個樣本分為2組,每間隔3個樣本取1個樣本作為驗證樣本,其余作為建模樣本,供試樣本有機質(zhì)含量描述性統(tǒng)計如表1所示。
圖1 采樣點分布圖Fig.1 Distribution map of samples
表1 土壤樣本有機質(zhì)含量描述性統(tǒng)計Tab.1 Descriptive statistics of soil organic matter content
光譜測量儀器是美國ASD公司開發(fā)生產(chǎn)的FieldSpec3便攜式光譜儀,其光譜范圍為350~2 500 nm,采樣間隔為1.4 nm([350,1 000 nm))和2 nm([1 000,2 500 nm]),重采樣間隔為1 nm。光譜測量在暗室內(nèi)進行,室內(nèi)幾何測試條件及測量過程的描述參見文獻[11]。每個土樣采集5條光譜曲線,進行拼接校正后,取其平均曲線,并去除噪聲較大的350~399 nm和2 451~2 500 nm邊緣波段。為擴大樣本之間的光譜特征差異,對光譜曲線進行一階微分變換。
小波變換是基于傅里葉變換發(fā)展起來的數(shù)據(jù)處理方法,其通過伸縮和平移等運算功能可對函數(shù)或信號進行多尺度的細化分析[12]。小波變換分為連續(xù)小波變換和離散小波變換,后者是前者的離散化,在實際運用中,考慮到連續(xù)小波變換計算量大、系數(shù)冗余度高,常常使用離散小波變換[4]。離散小波變換生成的每一層系數(shù)的數(shù)目隨著分解層數(shù)的增加而減少,下層數(shù)目約為上層數(shù)目的1/2,但足以表示光譜的整體特征,且數(shù)據(jù)冗余相對較小。土壤光譜經(jīng)離散小波變換處理后,可獲取低頻系數(shù)和高頻系數(shù)。低頻系數(shù)反映原始光譜明顯的吸收特征,決定整個光譜的形狀,高頻系數(shù)反映原始光譜的噪聲及微小的吸收特征[13],通過離散小波變換舍去小波高頻系數(shù),提取小波低頻系數(shù),能夠一定程度上減少由光譜儀測試條件等不確定因素造成的高頻噪音[14]。在使用小波變換時,首先要選擇合適的小波基,常用的小波基有Haar,Daubechies,Biorthogonal和Symlet等,陳紅艷等[14]和欒福明等[15]都曾對上述4種小波基的表現(xiàn)進行研究,結(jié)果表明,基于Bior1.3小波基進行建模的精度最高。因此,本文采用Bior1.3小波基對土壤反射率的一階導(dǎo)數(shù)光譜進行多層離散小波變換,提取各層的小波低頻系數(shù)作為SPA算法的輸入變量。研究發(fā)現(xiàn),隨著分解層數(shù)的增加,小波低頻系數(shù)與原始光譜相關(guān)性逐漸降低,根據(jù)前人研究經(jīng)驗,本文選取1~7層小波低頻系數(shù)用于估測模型的建立。
SPA算法利用向量的投影分析,尋找含有最低限度冗余信息的變量組合,并使變量之間的共線性達到最小,同時大大減少建模所用的變量個數(shù),以提高建模速度。有關(guān)SPA算法運算步驟詳見文獻[16]。
利用SPA算法分別對土壤全譜和1~7層的小波低頻系數(shù)進行變量篩選,圖2為土壤全譜和各分解層經(jīng)SPA算法篩選得到的變量的分布情況。從圖2中可以看出,入選的變量中,在近紅外范圍的居多,可見光的較少,這是由于有機質(zhì)主要源于農(nóng)作物遺體,由糖類化合物、纖維素、半纖維素、含氮化合物等組成,這些成分中的C-H鍵、C-O鍵、N-O鍵、N-H鍵等的光譜響應(yīng)區(qū)域位于近紅外區(qū)域[6]。
(a)土壤全譜 (b)第1層小波系數(shù) (c)第2層小波系數(shù) (d)第3層小波系數(shù)
為驗證小波變換和SPA算法的結(jié)合在黑土有機質(zhì)含量高光譜估測上的有效性,本文分別基于土壤全譜、1~7層小波低頻系數(shù)、SPA算法選擇的變量,利用PLS和SVM兩種方法建立估測模型。
PLS是多元定量分析中一種常用的方法,被廣泛應(yīng)用于近紅外、紅外、拉曼等波譜定量分析模型的建立,已成為光譜分析中建立線性定量校正模型的通用方法。PLS將數(shù)據(jù)壓縮與回歸結(jié)合起來,通過依次選擇正交因子來擴大因變量與自變量之間的協(xié)方差[17]。
SVM作為一種非線性建模方法,在土壤參數(shù)估測中得到廣泛應(yīng)用,并取得了不錯的效果。SVM通過非線性映射將輸入向量映射到高維特征空間,然后在這個特征空間中求解凸優(yōu)化問題[18],但是這樣就增加了運算的復(fù)雜度,而核函數(shù)的使用可以很好地解決這個問題,本文選擇應(yīng)用較為普遍、建模效果較好的徑向基函數(shù)作為SVM的核函數(shù)。采用徑向基函數(shù)時,內(nèi)核參數(shù)和容錯懲罰系數(shù)是2個必要調(diào)整參數(shù),其取值直接影響模型精度,本文采用訓(xùn)練集交叉驗證和網(wǎng)格搜索法進行參數(shù)尋優(yōu)。
采用決定系數(shù)R2和均方根誤差(root mean square error,RMSE)對估測模型進行評價,其計算公式分別為:
(1)
(2)
分別基于土壤全譜和1~7層小波低頻系數(shù),采用PLS方法和SVM方法構(gòu)建黑土有機質(zhì)含量估測模型,并利用驗證樣本集進行模型評價,得到的決定系數(shù)R2和均方根誤差RMSE如表2所示。從表2可以看出,經(jīng)小波變換處理后,模型精度確實得到了一定程度的提高:采用PLS方法時,R2由土壤全譜的0.79提高至第5層的0.88,RMSE由土壤全譜的6.06 g·kg-1降低至第5層的4.56 g·kg-1;采用SVM方法時,R2由土壤全譜的0.75提高至第5層的0.87,RMSE由土壤全譜的7.46 g·kg-1降低至第5層的4.96 g·kg-1。從表2中同時也可以發(fā)現(xiàn),1~7層小波低頻系數(shù)中,僅第4,5,6層的模型精度高于土壤全譜,而第1,2,3,7層的模型精度低于土壤全譜精度,可見,經(jīng)小波變換處理后,并非每一層的精度都高于原始光譜,整體上是先升高再降低的趨勢,中間層的模型精度最高,這一規(guī)律與王延倉等[6]的研究結(jié)論一致,產(chǎn)生這一現(xiàn)象的主要原因是由于有機質(zhì)組成成分復(fù)雜多樣,各成分均有不同的光譜響應(yīng)范圍,如果光譜分辨率較高則不能充分利用有機質(zhì)各成分的光譜信息,而光譜分辨率較低則降低信噪比,進而對建模產(chǎn)生負面影響。
表2 土壤全譜和1~7層小波低頻系數(shù)的估測模型評價結(jié)果Tab.2 Evaluation results of the estimation models of soil original spectrum and the wavelet coefficients of 1 to 7 levels
分別基于經(jīng)SPA算法篩選獲得的土壤全譜和第1~7層小波低頻系數(shù)變量,采用PLS方法和SVM方法構(gòu)建黑土有機質(zhì)含量估測模型,并利用驗證樣本集進行模型評價,得到的決定系數(shù)R2和均方根誤差RMSE如表3所示。對比表2和表3可以看出,經(jīng)SPA算法處理后,不僅變量數(shù)目得到了大幅降低,而且模型精度也得到了一定程度的提高:采用PLS方法時,R2由0.88提高至0.93,RMSE由4.56 g·kg-1降低至3.48 g·kg-1;采用SVM方法時,R2由0.87提高至0.91,RMSE由4.96 g·kg-1降低至4.12 g·kg-1。另外,對比表2和表3可以發(fā)現(xiàn),對于PLS方法,經(jīng)SPA算法處理后,第2~7層小波低頻系數(shù)的模型精度得到了提高,而土壤全譜和第1層小波低頻系數(shù)的模型精度反而降低;對于SVM方法,經(jīng)SPA算法處理后,土壤全譜和第1~4層小波低頻系數(shù)的模型精度得到了提高,而第5~7層小波低頻系數(shù)的模型精度則變換不大。可見,若不經(jīng)小波變換處理,僅采用SPA算法,模型精度并不一定能夠提高,此結(jié)論進一步驗證了小波變換和SPA算法的結(jié)合在黑土有機質(zhì)含量高光譜估測上的有效性。
表3 SPA算法篩選后的土壤全譜和1~7層小波低頻系數(shù)的估測模型評價結(jié)果Tab.3 Evaluation results of the estimation models of the soil original spectrum and the wavelet coefficients of 1 to 7 levels screened by successive projections algorithm
通過對比表2和表3中使用PLS和SVM方法獲得的模型精度發(fā)現(xiàn),PLS精度整體上高于SVM。采用PLS方法時,最優(yōu)模型的決定系數(shù)R2和均方根誤差RMSE分別為0.93和3.48 g·kg-1,采用SVM方法時,最優(yōu)模型的決定系數(shù)R2和均方根誤差RMSE分別為0.91和4.12 g·kg-1。
分別將基于土壤全譜、基于小波變換的最優(yōu)模型、基于小波變換和SPA算法的最優(yōu)模型獲得的驗證樣本有機質(zhì)預(yù)測值與實測值進行對比,圖3為預(yù)測值與實測值的散點圖,散點離直線越近表示預(yù)測效果越好。從圖中可以看出,6個模型都沒有欠擬合和過擬合現(xiàn)象發(fā)生,其中基于小波變換、SPA算法和PLS建立的模型預(yù)測結(jié)果最好;而未經(jīng)小波變換和SPA算法處理,僅采用SVM建模的預(yù)測結(jié)果最差。
(a)基于土壤全譜的模型(PLS) (b)基于小波變換的最優(yōu)模型(PLS) (c)基于小波變換和SPA的最優(yōu)模型(PLS)
(d)基于土壤全譜的模型(SVM) (e)基于小波變換的 最優(yōu)模型(SVM) (f)基于小波變換和SPA的最優(yōu)模型(SVM)
本文在黑土有機質(zhì)含量高光譜估測中引入了小波變換和SPA算法,為驗證小波變換和SPA算法的結(jié)合在黑土有機質(zhì)含量高光譜估測上的有效性,分別基于土壤全譜、1~7層小波低頻系數(shù)、SPA算法選擇的變量,利用PLS和SVM兩種方法建立了估測模型,主要結(jié)論如下:
1)經(jīng)小波變換處理后,模型精度確實得到了提高,采用PLS方法時,R2由土壤全譜的0.79提高至第5層小波低頻系數(shù)的0.88,RMSE由6.06 g·kg-1降低至4.56 g·kg-1;采用SVM方法時,R2由土壤全譜的0.75提高至第5層小波低頻系數(shù)的0.87,RMSE由7.46 g·kg-1降低至4.96 g·kg-1。
2)經(jīng)小波變換和SPA算法處理后,不僅變量數(shù)目得到了大幅降低,而且模型精度也得到了提高,采用PLS方法時,R2由土壤全譜的0.79提高至第6層小波低頻系數(shù)的0.93,RMSE由6.06 g·kg-1降低至3.48 g·kg-1;采用SVM方法時,R2由土壤全譜的0.75提高至第3層小波低頻系數(shù)的0.91,RMSE由7.46 g·kg-1降低至4.12 g·kg-1。
3)對于1~7層小波低頻系數(shù),整體上是先升高再降低的趨勢。未使用SPA算法時,PLS和SVM均是第5層模型精度最高,R2分別為0.88和0.87,RMSE分別為4.56 g·kg-1和4.96 g·kg-1。使用SPA算法后,PLS第6層模型精度最高,SVM第3層精度最高,二者的R2分別為0.93和0.91,RMSE分別為3.48 g·kg-1和4.12 g·kg-1。
4)PLS和SVM相比,PLS精度整體上高于SVM。采用PLS方法時,最優(yōu)模型的決定系數(shù)R2和均方根誤差RMSE分別為0.93和3.48 g·kg-1,采用SVM方法時,最優(yōu)模型的決定系數(shù)R2和均方根誤差RMSE分別為0.91和4.12 g·kg-1。
迄今為止,許多土壤有機質(zhì)含量高光譜估測研究中都采用了小波變換或SPA算法,并都取得了較好的估測效果,但將二者結(jié)合起來用于有機質(zhì)含量高光譜估測的研究還非常有限,本研究結(jié)果表明結(jié)合小波變換和SPA算法進行黑土有機質(zhì)含量高光譜估測是可行的,相比于使用單一算法,二者的結(jié)合能夠獲得更高的模型精度。但本文在建模過程中僅采用Bior1.3小波基進行小波變換,而事實上小波基種類很多,選用不同的小波基勢必得到不同的建模精度,因此,未來將會在土壤有機質(zhì)含量高光譜估測中針對小波基進行系統(tǒng)研究。