安柏聳,王雪梅*,黃曉宇,卡吾恰提·白山
1. 新疆師范大學(xué)地理科學(xué)與旅游學(xué)院,新疆 烏魯木齊 830054 2. 新疆維吾爾自治區(qū)重點(diǎn)實(shí)驗(yàn)室“新疆干旱區(qū)湖泊環(huán)境與資源實(shí)驗(yàn)室”,新疆 烏魯木齊 830054
隨著工農(nóng)業(yè)的快速發(fā)展,礦井排水、石油開采、化學(xué)農(nóng)藥使用等多種人類活動(dòng)將重金屬帶入土壤,致使土壤中重金屬含量明顯高于原有水平,從而造成土壤重金屬污染[1]。鉛(Pb)作為一種毒性強(qiáng)、難降解、易積累的重金屬元素,在土壤中不斷富集,對(duì)環(huán)境以及人類健康構(gòu)成嚴(yán)重威脅。因此,快速、準(zhǔn)確估測(cè)土壤鉛含量對(duì)土壤污染防治具有重要意義。相較于傳統(tǒng)的土壤重金屬監(jiān)測(cè)方法,高光譜遙感監(jiān)測(cè)技術(shù)具有效率高、成本低等優(yōu)點(diǎn),為實(shí)現(xiàn)大規(guī)??焖俦O(jiān)測(cè)土壤重金屬含量提供了新途徑[2]。
由于高光譜波段中存在大量無(wú)用和干擾信息,對(duì)模型的穩(wěn)定性和預(yù)測(cè)能力產(chǎn)生嚴(yán)重影響。因此,通過(guò)波段選擇算法從高光譜數(shù)據(jù)中篩選出最具代表性的特征波段,對(duì)提高土壤鉛含量估測(cè)模型的性能至關(guān)重要。Tan等[3]利用競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)(competitive adaptive reweighted sampling,CARS)算法篩選的特征波段構(gòu)建土壤重金屬含量估測(cè)模型,發(fā)現(xiàn)該模型在所有模型中精度和穩(wěn)定性最好。Jiang等[4]分別通過(guò)連續(xù)投影算法(successive projections algorithm,SPA)、CARS等方法篩選特征波段,對(duì)重金屬含量進(jìn)行估測(cè),最優(yōu)模型R2可達(dá)0.734。通常廣泛采用一種算法來(lái)篩選特征波段,但隨著研究的深入,發(fā)現(xiàn)對(duì)波段進(jìn)行二次篩選在降低數(shù)據(jù)冗余性、提取特征信息方面具有更好的效果,能進(jìn)一步提高模型精度[5]。Wei等[2]將迭代保留有效信息變量(iteratively retains informative variables,IRIV)算法與斯皮爾曼秩相關(guān)分析(Spearman’s rank correlation analysis,SCA)結(jié)合,發(fā)現(xiàn)結(jié)合兩種方法能更好的篩選出與土壤重金屬相關(guān)的重要波段。Wei等[6]先采用穩(wěn)定競(jìng)爭(zhēng)自適應(yīng)重加權(quán)采樣(stbility CARS,sCARS)算法,再利用連續(xù)投影算法(SPA)進(jìn)行特征波段選擇,解決了光譜數(shù)據(jù)的冗余和共線問(wèn)題,與單純使用sCARS算法相比,所建模型具有更高的預(yù)測(cè)精度。
前人在研究高光譜波段選擇算法時(shí),多采用CARS、IRIV等構(gòu)建結(jié)合算法,卻很少將具有競(jìng)爭(zhēng)選擇機(jī)制的隨機(jī)蛙跳算法(random frog,RF)運(yùn)用到結(jié)合中,對(duì)RF構(gòu)建的結(jié)合算法相對(duì)缺少研究。為了對(duì)高光譜數(shù)據(jù)進(jìn)行有效降維,有必要全面研究不同算法的結(jié)合,深入探索更加適用的波段選擇結(jié)合算法。鑒于此,本研究通過(guò)相關(guān)分析選取倒數(shù)對(duì)數(shù)一階微分變換后的光譜數(shù)據(jù),采用隨機(jī)蛙跳算法(RF),并結(jié)合競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)(CARS)算法、迭代保留有效信息變量(IRIV)算法及連續(xù)投影算法(SPA),構(gòu)建RF-CARS、RF-IRIV及RF-SPA三種算法進(jìn)行特征波段的篩選,并采用極端梯度提升(extreme gradient boosting,XGBoost)和地理加權(quán)回歸(geographically weighted regression,GWR)方法建立渭干河-庫(kù)車河三角洲綠洲耕層土壤重金屬鉛含量估測(cè)模型,旨在確定土壤重金屬鉛含量的最佳波段選擇算法和特征波段,從而提高估測(cè)模型的精度,為土壤重金屬污染監(jiān)測(cè)提供理論及技術(shù)支持。
渭干河-庫(kù)車河三角洲綠洲(39°29′51″—42°38′01″N,81°28′30″—84°05′06″ E)位于中國(guó)新疆維吾爾自治區(qū)南部的塔里木盆地北緣,地勢(shì)北高南低,為中國(guó)西北干旱區(qū)典型的扇形沖積平原綠洲。研究區(qū)屬溫暖帶大陸性干旱氣候,年均氣溫10.5~11.4 ℃,降水稀少(年均降水量50.0~66.5 mm),蒸發(fā)強(qiáng)烈(年均蒸發(fā)量1 990~2 865 mm)。該綠洲主要發(fā)展農(nóng)業(yè),農(nóng)作物有玉米(Zeamays)、棉花(Gossypiumspp.)等,經(jīng)濟(jì)作物有核桃(JuglansregiaL.)、蘋果(Maluspumila)、紅棗(ZiziphusjujubaMill.)等。土地利用類型主要包括耕地、林地、草地、建設(shè)用地、裸地等。主要的土壤類型為潮土、灌淤土和棕漠土。近年來(lái),隨著新疆油氣資源的開發(fā)及化工產(chǎn)業(yè)的發(fā)展,砷、鉛、鎘等重金屬元素在土壤環(huán)境中逐漸積累,土壤重金屬污染問(wèn)題日益突出。
于2019年7月采用GPS定位方法在渭干河-庫(kù)車河三角洲綠洲采集98個(gè)土壤樣品(圖1),采集土層深度為0~20 cm。采樣過(guò)程中,對(duì)樣點(diǎn)周圍環(huán)境進(jìn)行拍照,并詳細(xì)記錄樣點(diǎn)信息,如經(jīng)緯度坐標(biāo)、植被類型、土壤質(zhì)地等。每個(gè)樣點(diǎn)采集土壤樣品約500 g放入已編號(hào)的自封袋內(nèi)密封,帶回實(shí)驗(yàn)室自然風(fēng)干后進(jìn)行研磨過(guò)篩處理。每個(gè)土壤樣品分成兩份,一份測(cè)定高光譜數(shù)據(jù),另一份通過(guò)石墨爐原子吸收分光光度法測(cè)定土壤重金屬鉛含量。
圖1 采樣點(diǎn)分布圖Fig.1 Distribution of sampling points
采用ASD FieldSpec3地物光譜儀,選擇光照穩(wěn)定、天氣晴朗的中午,在室外空曠場(chǎng)地測(cè)定土壤高光譜數(shù)據(jù)。光譜采集范圍為350~2 500 mm,采樣間隔為1 nm。遠(yuǎn)離可能干擾土壤光譜的物體,對(duì)地物光譜儀進(jìn)行白板校正,然后按編號(hào)順序把土壤樣品均勻平鋪在50 cm×50 cm的牛皮紙上,將探頭放置在距土壤樣品表面15 cm的垂直距離處,對(duì)每個(gè)樣品重復(fù)采集10次光譜數(shù)據(jù),并取其平均值作為土壤樣品的原始光譜反射率。由于環(huán)境因素存在不可控性,統(tǒng)一去除土壤原始光譜數(shù)據(jù)中受水分影響的1 341~1 400和1 811~1 950 mm波段及噪聲較大的2 451~2 500 mm波段。采用Savitzky-Golay法對(duì)土壤原始光譜數(shù)據(jù)進(jìn)行平滑處理,減少噪聲影響。為了增強(qiáng)土壤樣品的代表性,保證模型的有效性,利用蒙特卡洛交叉驗(yàn)證(Monte Carlo cross-validation,MCCV)算法剔除異常樣本,通過(guò)計(jì)算各樣本預(yù)測(cè)誤差的標(biāo)準(zhǔn)差和均值,將標(biāo)準(zhǔn)差和均值的平均值的2.5倍作為閾值,大于閾值的判定為異常樣本并剔除,最終從98個(gè)土壤樣品中確定92個(gè)有效土壤樣品。通過(guò)聯(lián)合X-Y距離(sample set partitioning based on joint x-y distance,SPXY)方法對(duì)土壤樣品進(jìn)行劃分,以光譜數(shù)據(jù)為X變量,土壤重金屬鉛含量為Y變量,利用兩種變量計(jì)算樣品間歐式距離,獲得具有代表性的訓(xùn)練集(70%)和驗(yàn)證集(30%)。
首先采用隨機(jī)蛙跳(RF)算法初步篩選波段,再分別利用競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)(CARS)算法、迭代保留有效信息變量(IRIV)算法及連續(xù)投影算法(SPA)對(duì)波段進(jìn)行二次篩選,構(gòu)建RF-CARS、RF-IRIV及RF-SPA算法。RF是一種模擬穩(wěn)態(tài)分布的馬爾可夫鏈的變量選擇方法,通過(guò)計(jì)算變量在每次迭代過(guò)程中被選擇的概率,根據(jù)概率衡量變量的重要性,概率越高則變量越重要。CARS模擬達(dá)爾文進(jìn)化論中“適者生存”的原則對(duì)變量進(jìn)行選擇,采用蒙特卡洛采樣法隨機(jī)選取樣本建立偏最小二乘回歸模型并計(jì)算各波段權(quán)重,利用自適應(yīng)重采樣加權(quán)采樣技術(shù)和指數(shù)衰減函數(shù)去除權(quán)重較小的波段,通過(guò)迭代確定變量的最佳組合。IRIV基于二進(jìn)制矩陣重排過(guò)濾器選擇變量,通過(guò)多次迭代消除無(wú)信息變量和干擾信息變量,保留強(qiáng)信息變量和弱信息變量,最后進(jìn)行反向消除確定最優(yōu)變量集。SPA是一種前向變量選擇算法,在向量空間中采用投影分析,獲得共線性小的變量集合。以上4種特征波段篩選方法均在MATLAB R2019b軟件中實(shí)現(xiàn)。
選取極端梯度提升(XGBoost)和地理加權(quán)回歸(GWR)構(gòu)建土壤重金屬鉛含量估測(cè)模型,并對(duì)比分析2種模型的效果。XGBoost通過(guò)損失函數(shù)引入二階導(dǎo)數(shù)信息,并使用正則項(xiàng)防止模型過(guò)度擬合,是梯度增強(qiáng)算法的優(yōu)化實(shí)現(xiàn)。設(shè)置該模型的關(guān)鍵參數(shù)學(xué)習(xí)率為0.3,樹的最大深度為6。GWR是局部回歸模型,將數(shù)據(jù)的空間坐標(biāo)代入回歸參數(shù),可利用局部加權(quán)最小二乘法實(shí)現(xiàn)樣點(diǎn)估測(cè)。該模型的參數(shù)選擇如下:模型類型為Gaussian,核函數(shù)為Adaptive bi-square,帶寬選擇Golden section search(定義范圍1~27),準(zhǔn)則為AICc。XGBoost模型通過(guò)R 4.1.2平臺(tái)實(shí)現(xiàn),GWR模型使用GWR 4.0軟件構(gòu)建。為評(píng)估模型的穩(wěn)定性和預(yù)測(cè)能力,采用決定系數(shù)(coefficient of determination,R2)、均方根誤差(root mean square error,RMSE)和相對(duì)分析誤差(relative percent deviation,RPD)對(duì)結(jié)果進(jìn)行檢驗(yàn)。
通過(guò)對(duì)研究區(qū)土壤重金屬鉛含量進(jìn)行基本統(tǒng)計(jì)分析(表1),可以看出總體樣品的土壤鉛含量在9.2~22.3 mg·kg-1范圍,變異系數(shù)為18.27%,屬于中等空間變異,說(shuō)明土壤鉛的空間異質(zhì)性較顯著,訓(xùn)練集和驗(yàn)證集的平均值分別為15.262和15.922 mg·kg-1,標(biāo)準(zhǔn)差分別為2.925和2.552 mg·kg-1,平均值和標(biāo)準(zhǔn)差較為接近,表明訓(xùn)練集和驗(yàn)證集中存在偏差的可能性減小,確保了樣本的代表性??傮w樣品的平均值為15.455 mg·kg-1,是新疆灌耕土鉛元素背景值(13.50 mg·kg-1)的1.14倍,說(shuō)明人類活動(dòng)對(duì)土壤造成一定程度的鉛污染[7]。
表1 土壤重金屬鉛的基本統(tǒng)計(jì)分析Table 1 Basic statistical analysis of soil lead content
由于原始光譜反射率與土壤重金屬鉛含量的相關(guān)性較低,故采用MATLAB R2019b軟件對(duì)原始光譜反射率做倒數(shù)對(duì)數(shù)、一階微分、二階微分等多種數(shù)學(xué)變換,其中土壤原始光譜反射率R及其3種變換lg(1/R)、[lg(1/R)]′、[lg(1/R)]″與土壤鉛含量的相關(guān)系數(shù)曲線如圖2所示。經(jīng)分析,發(fā)現(xiàn)倒數(shù)對(duì)數(shù)一階微分[lg(1/R)]′變換后的光譜反射率與土壤鉛含量之間的相關(guān)性有明顯提高,相關(guān)系數(shù)可達(dá)到0.620(p<0.001),能有效增強(qiáng)波譜信息,因此選取倒數(shù)對(duì)數(shù)一階微分變換處理的光譜數(shù)據(jù)進(jìn)行特征波段的篩選。
圖2 土壤重金屬鉛含量與光譜反射率的相關(guān)分析Fig.2 Correlation analysis of soil lead content and spectral reflectance
2.2.1 RF算法的初步篩選
由于高光譜波段眾多,數(shù)據(jù)冗余嚴(yán)重,為提高模型估測(cè)精度,采用波段選擇算法對(duì)光譜數(shù)據(jù)進(jìn)行特征波段提取。首先,采用隨機(jī)蛙跳(RF)算法進(jìn)行初步篩選,去除無(wú)用信息波段和干擾信息波段。設(shè)定RF算法的最大潛在變量數(shù)為10,初始變量數(shù)為2,迭代次數(shù)為10 000,但RF算法基于蒙特卡洛思想,每次的篩選結(jié)果略有差異,具有隨機(jī)性,因此運(yùn)行100次,取選擇概率的平均值作為特征波段的篩選依據(jù),結(jié)果如圖3所示。從圖中可以看出,只有少數(shù)變量的選擇概率較高,選擇概率在第740個(gè)變量處(光譜波段1 089 nm)達(dá)到最高。設(shè)置閾值為0.1,用黑色水平虛線表示,選取概率超過(guò)閾值的22個(gè)變量作為特征波段,結(jié)果見(jiàn)表2。由于RF算法每次篩選出的特征波段存在一定差異,導(dǎo)致22個(gè)波段中可能存在冗余信息,并且經(jīng)SPSS軟件分析,發(fā)現(xiàn)波段間存在共線性,因此分別采用競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)(CARS)算法、迭代保留有效信息變量(IRIV)算法和連續(xù)投影算法(SPA)進(jìn)一步對(duì)波段進(jìn)行篩選。
表2 不同算法篩選的特征波段Table 2 Characteristic bands extracted by different algorithms
圖3 RF算法確定的變量選擇概率Fig.3 Selection probability determined by RF
2.2.2 基于RF-CARS、RF-IRIV和RF-SPA算法的波段篩選
為了提升高光譜估算模型的精度,分別采用RF-CARS、RF-IRIV和RF-SPA三種算法進(jìn)行了最佳特征波段的篩選。圖4為利用競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)(CARS)算法對(duì)RF算法提取的22個(gè)波段進(jìn)行再次篩選的過(guò)程,抽樣運(yùn)行次數(shù)為50次。圖4(a)說(shuō)明抽樣運(yùn)行次數(shù)與所選變量數(shù)量之間的關(guān)系,隨著運(yùn)行次數(shù)的增加,所選變量的數(shù)量以指數(shù)衰減函數(shù)的態(tài)勢(shì)逐漸減少。圖4(b)為交叉驗(yàn)證均方根誤差(root mean square error of cross validation,RMSECV)的變化趨勢(shì)圖。當(dāng)運(yùn)行次數(shù)為1~26時(shí),RMSECV總體為下降趨勢(shì),說(shuō)明在運(yùn)行過(guò)程中去除了波段中的冗余信息;當(dāng)運(yùn)行次數(shù)超過(guò)26后,RMSECV值逐漸增大,表示關(guān)于土壤重金屬鉛含量的重要變量開始被去除。因此,在第26次運(yùn)行時(shí),RMSECV值最小,此時(shí)可以確定最佳變量組合,對(duì)應(yīng)的變量數(shù)為6個(gè),結(jié)果見(jiàn)表2。雖然RF-CARS算法的篩選結(jié)果仍存在少量共線性,但與RF算法的初步篩選結(jié)果相比,已較好地降低了波段間的共線性。
圖4 RF-CARS篩選變量Fig.4 Variables extracted by RF-CARS
通過(guò)對(duì)RF算法初篩結(jié)果進(jìn)行多次實(shí)驗(yàn),確定迭代保留有效信息變量(IRIV)算法的最大主因子數(shù)為10,交叉驗(yàn)證次數(shù)為5,對(duì)22個(gè)波段共進(jìn)行3輪篩選,結(jié)果如圖5所示。在第1輪迭代,保留的變量數(shù)量迅速減少,由22個(gè)減少到18個(gè),經(jīng)過(guò)第2輪迭代,減少1個(gè)變量后,保留17個(gè)變量,之后進(jìn)入反向消除的第3輪迭代,最終得到9個(gè)變量,篩選完成。IRIV算法將RF篩選出的波段進(jìn)一步分為強(qiáng)信息波段、弱信息波段、無(wú)信息波段和干擾信息波段,減小RF篩選結(jié)果的隨機(jī)性,增加與土壤重金屬鉛含量相關(guān)的有效信息波段被選中的概率,有利于增強(qiáng)估測(cè)模型的精度。通過(guò)RF-IRIV算法篩選出9個(gè)特征波段,結(jié)果見(jiàn)表2。
圖5 RF-IRIV篩選變量Fig.5 Variables extracted by RF-IRIV
在RF算法初選后,再采用連續(xù)投影算法(SPA)進(jìn)一步篩選變量,結(jié)果如圖6所示。由圖6(a)可知,隨著篩選變量數(shù)量增加,RMSE曲線先迅速下降后趨于平緩,RMSE最小值(RMSE=1.765 6 mg·kg-1)對(duì)應(yīng)的變量數(shù)為最優(yōu)變量個(gè)數(shù)(7個(gè))。圖6(b)為RF-SPA算法篩選出的7個(gè)最優(yōu)變量,結(jié)果見(jiàn)表2。該波段選擇算法重點(diǎn)解決變量間的共線性問(wèn)題,提高了對(duì)特征波段的選擇能力。
圖6 RF-SPA篩選變量Fig.6 Variables extracted by RF-SPA
表2為不同算法篩選的特征波段,從中可以看出RF算法初選的特征波段主要位于近紅外光譜區(qū)域,這與土壤組分中的有機(jī)質(zhì)、鐵氧化物和黏土礦物有關(guān)。成永生等[8]認(rèn)為土壤鉛的特征波段主要分布在350~418、838、1 400~1 600及1 930~2 400 nm;劉彥平等[9]認(rèn)為鉛元素的特征波段主要在350~600、900~1 200、1 300~1 800及2 000~2 500 nm范圍。本研究初選的特征波段基本在前人認(rèn)可的范圍內(nèi),二次篩選提供了較為可靠的光譜數(shù)據(jù)。在RF算法的基礎(chǔ)上,采用CARS、IRIV及SPA算法進(jìn)一步篩選,分別得到6、9和7個(gè)特征波段,其中888、1 550和1 563 nm波段被3種算法同時(shí)選中,說(shuō)明這3個(gè)波段中的信息可能與土壤鉛含量有重要關(guān)聯(lián)。
分別以RF-CARS、RF-IRIV和RF-SPA算法篩選出的特征波段為自變量,土壤重金屬鉛含量為因變量,構(gòu)建基于XGBoost和GWR的土壤鉛含量估測(cè)模型,建模效果如表3所示。對(duì)比2種模型下3種算法的表現(xiàn),發(fā)現(xiàn)通過(guò)RF-CARS算法構(gòu)建的模型精度低于RF-IRIV和RF-SPA算法。可能因?yàn)椴捎?CARS 算法對(duì)波段進(jìn)一步篩選時(shí),指數(shù)衰減函數(shù)誤將部分有用的弱信息波段進(jìn)行了強(qiáng)制剔除,導(dǎo)致模型的估測(cè)能力降低[10]。RF-IRIV算法的建模效果明顯優(yōu)于其他算法,說(shuō)明該算法能篩選出代表性較好的特征波段,這與IRIV篩選波段時(shí)具有軟收縮的特點(diǎn)有關(guān)。在IRIV的多次迭代中,減小了偶然因素造成的誤差,更充分的對(duì)波段中的有效信息進(jìn)行挖掘。SPA在篩選波段時(shí),通常會(huì)選擇具有較低共線性的波段,而非有效波段,因此采用RF-SPA算法選取的特征波段不太穩(wěn)定。
表3 土壤鉛含量估測(cè)模型的訓(xùn)練集與驗(yàn)證集結(jié)果Table 3 Training set and validation set results of heavy metal content estimation model
通過(guò)對(duì)模型的整體估測(cè)效果進(jìn)行對(duì)比,發(fā)現(xiàn)基于特征波段構(gòu)建的GWR模型(R2>0.75,RMSE<1.3 mg·kg-1,RPD>2)明顯優(yōu)于XGBoost模型,這可能與其在建模過(guò)程中不僅考慮光譜特征,并且應(yīng)用采樣點(diǎn)空間位置信息進(jìn)行局部回歸有關(guān)。結(jié)合RF-IRIV算法構(gòu)建的GWR模型預(yù)測(cè)效果最佳,訓(xùn)練集與驗(yàn)證集的R2分別為0.917和0.892,RMSE分別為0.837和0.825 mg·kg-1,RPD分別為3.49和3.09,相較于RF-IRIV-XGBoost,驗(yàn)證集R2提升了0.161,RMSE降低了0.527 mg·kg-1,RPD提高了1.20,可對(duì)土壤樣品進(jìn)行有效估測(cè)。
為進(jìn)一步對(duì)比模型估測(cè)效果,選取2種建模方法下的最優(yōu)模型,以土壤鉛含量的實(shí)測(cè)值為橫坐標(biāo)、預(yù)測(cè)值為縱坐標(biāo)繪制散點(diǎn)圖(圖7)。從圖中可以看出,RF-IRIV-GWR模型的樣點(diǎn)比RF-IRIV-XGBoost模型更接近1∶1線,證明該模型具有更好的精度和預(yù)測(cè)能力。綜合分析表3和圖7,認(rèn)為基于RF-IRIV算法篩選出的特征波段構(gòu)建的GWR模型可作為土壤重金屬鉛含量的最優(yōu)估測(cè)模型。
圖7 不同鉛含量估測(cè)模型預(yù)測(cè)值與實(shí)測(cè)值的比較Fig.7 Comparison between predicted and measured values of different lead content estimation models
采用RF-CARS算法提取特征波段,與Wei等[11]采用CARS-SCA算法提取與土壤砷含量相關(guān)的光譜信息的效果相似。RF-IRIV算法減少了波段中的不相關(guān)信息,與馮帥等[12]利用該算法篩選波段的效果一致。Wu等[13]利用CARS-SPA算法優(yōu)選的7個(gè)特征波段構(gòu)建土壤含水量估測(cè)模型,極大降低模型的復(fù)雜度,而本研究的RF-SPA算法也具有相同研究效果。研究結(jié)果表明,采用RF-CARS、RF-IRIV及RF-SPA 3種算法對(duì)高光譜波段進(jìn)行篩選可去除波段中的大量冗余信息,提取出與土壤重金屬鉛含量相關(guān)的重要波段,并提高估測(cè)模型的穩(wěn)定性和預(yù)測(cè)能力,這與前人在估測(cè)土壤重金屬含量方面對(duì)波段進(jìn)行兩次篩選的效果一致,表明本研究篩選特征波段的方法具有一定可行性[6]?;赗F-CARS和RF-SPA算法篩選特征波段雖能簡(jiǎn)化模型,但所選波段的穩(wěn)定性不足,提取的波段不總能反映土壤鉛含量信息。RF-IRIV算法能較為穩(wěn)妥的提取高光譜數(shù)據(jù)中的有效波段,并且在RF算法的基礎(chǔ)上使用IRIV算法能克服單純使用IRIV算法篩選波段時(shí)計(jì)算量大、耗時(shí)長(zhǎng)的缺點(diǎn)。此外,3種算法篩選的特征波段全部位于近紅外光譜區(qū)域,說(shuō)明土壤鉛元素的光譜敏感區(qū)域主要位于近紅外波段。利用XGBoost和GWR方法構(gòu)建估測(cè)模型,綜合考慮了全局與局部回歸算法。GWR模型在土壤含鹽量反演方面具有較好的效果,但在土壤重金屬含量估測(cè)方面的研究較少,作為一種局部建模方法,本研究中GWR土壤重金屬鉛含量估測(cè)模型的性能也較好[14]。在光譜處理過(guò)程中,采用傳統(tǒng)數(shù)學(xué)變換增強(qiáng)了光譜與土壤鉛含量的敏感性,但通過(guò)相關(guān)研究發(fā)現(xiàn),連續(xù)小波變換等處理方法在挖掘土壤有效信息方面具有更好的效果,所建模型具有更高的預(yù)測(cè)能力[15]。為進(jìn)一步提升土壤重金屬含量的高光譜反演精度,采用多源化數(shù)據(jù)、線性與非線性方法結(jié)合已成為高光譜遙感技術(shù)的重要發(fā)展趨勢(shì)[7]。
以渭干河-庫(kù)車河三角洲綠洲為研究區(qū),采用RF-CARS、RF-IRIV及RF-SPA算法對(duì)高光譜數(shù)據(jù)進(jìn)行特征波段的篩選,并分別構(gòu)建XGBoost和GWR模型,比較不同算法的估測(cè)精度。研究表明:
(1)倒數(shù)對(duì)數(shù)一階微分變換后光譜與土壤鉛含量的相關(guān)性顯著提高,相關(guān)系數(shù)最高可達(dá)到0.620(p<0.001),說(shuō)明一階微分變換處理可有效放大細(xì)小的光譜特征,增強(qiáng)波譜信息。
(2)通過(guò)RF-CARS、RF-IRIV及RF-SPA算法分別提取6、9和7個(gè)特征波段,占全波段的0.32%、0.47%和0.37%,表明3種算法可在很大程度上減少高光譜波段中的冗余信息。
(3)對(duì)比3種算法,發(fā)現(xiàn)基于RF-IRIV算法建立的2種模型精度最高,說(shuō)明RF-IRIV算法能有效克服RF-CARS和RF-SPA的不足,更為準(zhǔn)確的篩選出包含有效信息的波段。相較于XGBoost,利用GWR方法構(gòu)建的模型的穩(wěn)定性和預(yù)測(cè)能力更好,更適于研究區(qū)土壤鉛含量的估測(cè),其中RF-IRIV-GWR模型的性能最好,訓(xùn)練集與驗(yàn)證集的R2均大于0.8,RMSE均小于0.9 mg·kg-1,RPD均大于3,在本研究區(qū)土壤鉛含量估測(cè)方面具有一定適用性,為同類地區(qū)反演土壤重金屬含量提供參考。