湯 超
(安徽理工大學(xué)空間信息與測(cè)繪工程學(xué)院,安徽 淮南 232000)
精準(zhǔn)農(nóng)業(yè)作為我國(guó)目前的農(nóng)業(yè)發(fā)展重要方向,是把農(nóng)業(yè)和現(xiàn)代技術(shù)結(jié)合的一種現(xiàn)代化農(nóng)業(yè)應(yīng)用系統(tǒng)[1]??焖佾@取土壤理化性質(zhì)成為實(shí)現(xiàn)精確農(nóng)業(yè)的重要環(huán)節(jié),因此光譜分析掌握土壤有機(jī)質(zhì)含量對(duì)精準(zhǔn)農(nóng)業(yè)有重要意義。土壤有機(jī)質(zhì)中含有各種碳類有機(jī)化合物,其中含有植物生長(zhǎng)所必需的各種元素[2],同時(shí)是地下微生物活動(dòng)的生命之源,是把持土壤肥力和養(yǎng)分供應(yīng)能力的重要因素[3]。隨著工業(yè)化、城鎮(zhèn)化的快速發(fā)展,礦山類型企業(yè)成為國(guó)民經(jīng)濟(jì)穩(wěn)步增長(zhǎng)的重要支點(diǎn),伴隨共生的重金屬污染、生態(tài)環(huán)境惡化等問題,致使收集土壤有機(jī)質(zhì)含量的變化進(jìn)行分析顯現(xiàn)得尤為重要。目前,高光譜遙感是較為成熟的現(xiàn)代技術(shù)用以快速監(jiān)測(cè)土壤有機(jī)質(zhì)含量的方式。
現(xiàn)行條件下,有2種獲取高光譜數(shù)據(jù)的方式,光譜分析法和傳統(tǒng)的實(shí)驗(yàn)室分析法。實(shí)驗(yàn)室法會(huì)挑選采集并添加標(biāo)簽,風(fēng)干,篩選出雜物,最后通過化學(xué)方法如光度法、重鉻酸鉀容量法等方法計(jì)算有機(jī)質(zhì)的含量。傳統(tǒng)方式的野外地面實(shí)測(cè)具有建模精度高、速度快等優(yōu)點(diǎn),但是利用人工測(cè)量不可避免會(huì)出現(xiàn)實(shí)用區(qū)域小、周期長(zhǎng),且模型的延展性低等缺點(diǎn)[4,5]。高光譜遙感法,利用遙感技術(shù)中的高光譜獲取范圍廣、周期短、實(shí)時(shí)性強(qiáng),適用于大面積建模等優(yōu)點(diǎn),通過辨別地物之間細(xì)微的吸收和反射特性來實(shí)測(cè)地物的地球化學(xué)元素含量。從而得到光譜反射率和含量之間的曲線,通過分析地球化學(xué)元素含量的相關(guān)性,找到化學(xué)元素的敏感波段,建立線性或者非線性模型,以此反演化學(xué)元素的含量分布[6-10]。王婷等[6]通過對(duì)華南地區(qū)75組高光譜數(shù)據(jù)的選取,選擇敏感的單波段和雙組合波段,對(duì)比分析了線性回歸和非線性的回歸效果,得到最佳的精度模型,相對(duì)誤差也更小。Lijuan Cui等[7]根據(jù)敏感波段用多元線性回歸法建立有機(jī)質(zhì)與反射率的模型,經(jīng)過精度評(píng)價(jià),其均方誤差(RMSE)的值在0.38%~1.67%;全文詮釋了有機(jī)質(zhì)的建立和形成的長(zhǎng)期變化,并建立模型[11-13]。目前有機(jī)質(zhì)的研究,關(guān)注點(diǎn)在構(gòu)建模型和光譜指標(biāo)變換。因此,本文通過ASD便攜式光譜儀對(duì)朱莊礦采集的樣本進(jìn)行密室探照,檢測(cè)測(cè)定土壤光譜數(shù)據(jù)后用實(shí)驗(yàn)室分析法獲取土壤具體有機(jī)質(zhì)含量,構(gòu)建安徽省淮北市朱莊礦區(qū)的土壤有機(jī)質(zhì)高光譜估算模型,用建立的模型估測(cè)礦區(qū)的有機(jī)質(zhì)含量,為今后的研究提供堅(jiān)實(shí)的基礎(chǔ),進(jìn)一步為淮北礦區(qū)采動(dòng)裂隙評(píng)價(jià)和礦區(qū)土地復(fù)墾以及生態(tài)資環(huán)修復(fù)打下基礎(chǔ)。
研究區(qū)朱莊煤礦位于安徽省淮北市中部,具體位于離淮北市區(qū)9km的安徽省北市杜集區(qū)礦山集鎮(zhèn)境內(nèi)。地處N33°16′~34°10′,E116°24′~117°03′。近年來,煤礦開采,礦區(qū)已多處產(chǎn)生裂隙。由于該地開采嚴(yán)重,生態(tài)系統(tǒng)的恢復(fù)能力較差,所以對(duì)該地進(jìn)行有機(jī)質(zhì)含量的反演有重要的實(shí)際意義。在朱莊礦將土壤有機(jī)質(zhì)含量樣品送往安徽理工大學(xué)分析測(cè)試中心,采用元素分析儀法測(cè)定土壤中含碳量,將測(cè)定的有機(jī)碳含量轉(zhuǎn)化為有機(jī)質(zhì)含量。
1.2.1 土壤光譜反射率測(cè)定及處理
采用ASD便攜式地物光譜儀對(duì)研究區(qū)土壤樣本的光譜反射率進(jìn)行了測(cè)量,有效的光譜波段為350~2500nm。在光源上選擇與太陽光源相似的50W鹵素?zé)?,將土壤樣品放入具有角度?0°探頭的密室內(nèi)測(cè)定以避免周圍其它因素的干擾,在礦區(qū)的南北6個(gè)深度,取10個(gè)點(diǎn)位為樣品點(diǎn),用ASD viewSpecpro軟件進(jìn)行預(yù)處理,剔除異常曲線,在每個(gè)點(diǎn)位求平均值確定為每條光譜的反射率。
1.2.2 光譜數(shù)據(jù)分析
在MATLAB軟件中采用Savitzky-Golay平滑方法,目的是在剔除異常曲線后將波形中噪聲引起的細(xì)小突出平滑。如圖1所示,經(jīng)過處理后的光譜曲線分別在紫外可見光(350~1100nm)呈現(xiàn)上升趨勢(shì),但是在1300nm中有一個(gè)降低,之后又穩(wěn)步上升。近紅外(1100~2500nm)上在1500nm處有一個(gè)明顯的凹陷,之后又緩步上升,但是上升趨勢(shì)減緩。所有曲線的趨勢(shì)大致相同,總體都呈快速上升,然后在1300nm和1600nm段有個(gè)呈現(xiàn)波谷式的下降,之后上升趨勢(shì)減緩,推測(cè)是因?yàn)榈V區(qū)粘土中所含的水分子或者羥基的吸收帶。
圖1 土壤反射率平滑后光譜曲線
1.2.3 朱莊礦土壤屬性統(tǒng)計(jì)特征分析
土壤的理化性質(zhì)包括土壤pH、有機(jī)質(zhì)、有效磷、速效鉀等各方面。而對(duì)土壤理化屬性的描述統(tǒng)計(jì)方法包括變異系數(shù)、標(biāo)準(zhǔn)差、平均值、最小值、最大值等。平均值和均值是數(shù)理統(tǒng)計(jì)中廣泛用于描述頻率分布以及中心位置集中趨勢(shì)的2種方法。變異系數(shù)(CV)用來反映數(shù)據(jù)集的離散程度。本文有機(jī)質(zhì)含量變異系數(shù)為0.603(0.1≤CV≤1),表現(xiàn)為中等變異性。變異系數(shù)越大,表明土壤理化性質(zhì)中的空間離散程度越大,而變異系數(shù)越大,也有利于模型的構(gòu)建,使模型更具普適性。
表1 土壤有機(jī)質(zhì)特征分析
1.2.4 光譜變換
Al-Abbs[15]等研究表明,土壤有機(jī)質(zhì)的含量與反射光譜呈負(fù)相關(guān)。在可見光與紅外光的波段發(fā)現(xiàn)本實(shí)驗(yàn)數(shù)據(jù)滿足以上關(guān)系[15-17]。根據(jù)以上關(guān)系,測(cè)定數(shù)據(jù)時(shí)可以根據(jù)有機(jī)質(zhì)含量的起伏變化關(guān)系發(fā)現(xiàn)敏感波段,為建模打下基礎(chǔ)[17]。在選擇光譜變換指標(biāo)時(shí)不應(yīng)該只選擇線性的,受到土壤和測(cè)量環(huán)境的影響,也應(yīng)該考慮非線性的指標(biāo)對(duì)反射率的變化。光譜的一階微分和二階微分能變化去除一些線性噪聲和基線漂移等產(chǎn)生的影響,而進(jìn)行吸光率變換(倒數(shù)的導(dǎo)數(shù))也是處理方式之一,吸光率變換能解決一些非線性和光照條件的影響,增強(qiáng)光譜數(shù)據(jù)和土壤有機(jī)質(zhì)之間的相關(guān)性。綜上,選擇反射率、一階微分、二階微分導(dǎo)數(shù)的對(duì)數(shù)變換作為光譜數(shù)據(jù)構(gòu)建的指標(biāo)進(jìn)行處理,找到波形上劇烈起伏大且對(duì)土壤有機(jī)質(zhì)含量敏感的波段。
表2 光譜指標(biāo)描述
1.2.5 模型建立與驗(yàn)證
在篩選光譜指標(biāo)上,利用皮爾遜(Pearson)相關(guān)分析方法進(jìn)行篩選。光譜指標(biāo)中的函數(shù)自變量選擇反射率指標(biāo)和經(jīng)過變換后的反射率指標(biāo),因變量則選擇通過實(shí)驗(yàn)室密室測(cè)得的土壤有機(jī)質(zhì)含量,選擇合適的模型進(jìn)行回歸反演。相關(guān)系數(shù)用于詮釋事物或者變量之間相關(guān)性程度強(qiáng)弱關(guān)系,皮爾遜相關(guān)系數(shù)是最常見但不是唯一的相關(guān)系數(shù)。不同的事物或者變量之間對(duì)應(yīng)著不同特征的統(tǒng)計(jì)指標(biāo)。在光譜分析中,會(huì)分析許多變量之間的關(guān)系問題,如在土壤有機(jī)質(zhì)反演中,會(huì)分析土壤有機(jī)質(zhì)含量和反射率及其反射率變換的指標(biāo)(曲線的為非線性)的相關(guān)關(guān)系,會(huì)分析土壤理化性質(zhì)之間的相關(guān)關(guān)系,會(huì)分析土壤訓(xùn)練集與驗(yàn)證的得到的模型預(yù)測(cè)值與實(shí)測(cè)值之間的相關(guān)關(guān)系。會(huì)根據(jù)以上找到合適的相關(guān)性強(qiáng)的敏感波段,建立模型揭示土壤有機(jī)質(zhì)和光譜的關(guān)系。而土壤預(yù)測(cè)值與實(shí)測(cè)值之間的關(guān)系一般條件下選擇y=x模型檢驗(yàn)最后的模型精度。
光譜分析中2個(gè)事物或者變量之間有正相關(guān)、負(fù)相關(guān)和無關(guān)等,本文分析高光譜有機(jī)質(zhì)含量和光譜指標(biāo)的關(guān)系,研究表明都呈現(xiàn)負(fù)相關(guān)。而2個(gè)變量的線性相關(guān)用相關(guān)系數(shù)r2或r表示。相關(guān)系數(shù)r公式:
(1)
相關(guān)性分析可用于建立土壤有機(jī)質(zhì)含量和反射率光譜指標(biāo)之間的相關(guān)性強(qiáng)弱關(guān)系,也是較為常用的進(jìn)行光譜反演建模的分析手段。如圖2-5所示,將土壤原始光譜數(shù)據(jù)和轉(zhuǎn)換后的一階微分、二階微分、吸光率變換(倒數(shù)的對(duì)數(shù))與土壤有機(jī)質(zhì)含量進(jìn)行Pearson相關(guān)分析。在圖2中觀察經(jīng)過平滑后的反射率曲線與有機(jī)質(zhì)含量的Pearson相關(guān)性變化趨勢(shì),正如大部分研究所示一樣,有機(jī)質(zhì)含量與平滑后的反射率曲線都是負(fù)數(shù),呈現(xiàn)為負(fù)相關(guān),且相關(guān)性程度隨著可見光到紅外光的波段呈降低趨勢(shì)。在350~1761nm波段都表現(xiàn)出很好的相關(guān)性,在558nm處達(dá)到相關(guān)最大。一階微分變換能夠去除部分線性的噪聲,增強(qiáng)局部位置的光譜響應(yīng)差異。一階微分變換數(shù)據(jù)與有機(jī)質(zhì)含量在350~2500nm波段上可以明顯地找到更多的吸收反射特征點(diǎn),并在350~1760nm的波段上可以發(fā)現(xiàn)更多的拐點(diǎn),在一階微分變換的數(shù)據(jù)中,507nm、519nm、1399nm、1432nm的光譜波段表現(xiàn)十分顯著。而在二階微分中,二階微分能夠消除一些基線漂移和一些儀器背景的影響,二階微分表現(xiàn)的光譜數(shù)據(jù)中,在350~1310nm段相關(guān)性起伏皆不大,1390nm、1399nm、1409nm、1446nm波段分別達(dá)到一個(gè)極大值或者極小值點(diǎn),并且后面又趨于穩(wěn)定。收集樣本點(diǎn)的光譜信號(hào)時(shí),由于土壤表面的散射和吸收作用引起吸收強(qiáng)度的變化造成一些非線性的光譜噪聲。將反射率轉(zhuǎn)化為吸光率是處理非線性的常用方法,將土壤反射率轉(zhuǎn)化為吸光率不僅增強(qiáng)了光譜反射的差異性,還可以減少光照條件等其它隨機(jī)因素的影響,更好地反映土壤的理化性質(zhì)。吸光率和反射率的趨勢(shì)相似,在極值點(diǎn)531nm段達(dá)到極大值點(diǎn)后,便不斷下降。
圖2 反射率與有機(jī)質(zhì)含量的相關(guān)系數(shù)
圖3 反射率一階微分變換與有機(jī)質(zhì)的相關(guān)系數(shù)
圖4 反射率二階微分與有機(jī)質(zhì)的相關(guān)系數(shù)
由圖2-5可知,土壤有機(jī)質(zhì)反射率的光譜曲線的波形在可見光和紅外光的波譜上除了羥基和水分子的影響都較為平直,明顯有機(jī)質(zhì)含量的吸收特征都不明顯,所以需要將土壤光譜進(jìn)行光譜指標(biāo)變換。而變換之后的曲線,能擴(kuò)大光譜特征中差異不大的部分,增大光譜的吸收特征,突出對(duì)有機(jī)質(zhì)含量中較敏感的波段,方便識(shí)別各種光譜指標(biāo)中敏感波段中的差異。將原始光譜反射率進(jìn)行光譜一階微分變換、二階微分變換、吸光率(倒數(shù)的導(dǎo)數(shù))轉(zhuǎn)換等處理,從圖2至圖5可以看出,土壤光譜曲線在經(jīng)過微分變換后,可見光與紅外光波段上的光譜指標(biāo)的細(xì)小差異被凸顯出來。
圖5 反射率吸光率變換(倒數(shù)的對(duì)數(shù))與有機(jī)質(zhì)的相關(guān)系數(shù)
偏最小二乘回歸(PLSR)是一種主成分分析和相關(guān)分析相結(jié)合的多元統(tǒng)計(jì)回歸方法。偏最小二乘回歸的優(yōu)點(diǎn)是當(dāng)多個(gè)自變量相關(guān)時(shí),更容易識(shí)別噪聲和處理信息,且模型將包括所有自變量。本研究認(rèn)為,PLSR模型更適用于土壤光譜估計(jì)分析,通過建立X(土壤光譜數(shù)據(jù))與Y(土壤有機(jī)質(zhì)含量)的最優(yōu)模型,達(dá)到土壤光譜信息準(zhǔn)確估算理化參量的目的。
在參與回歸反演的PLSR模型,選擇參與回歸的變量個(gè)數(shù)非常關(guān)鍵。如果變量合格數(shù)太少,則模型的擬合程度不高;反之變量個(gè)數(shù)太多,則會(huì)出現(xiàn)過度擬合現(xiàn)象。所以選擇交叉檢驗(yàn)方法(K-CV)作為檢驗(yàn)?zāi)P偷木群凸浪憬Y(jié)果。在研究中,原始數(shù)據(jù)集被隨機(jī)分成K個(gè)子樣本,選擇其中一個(gè)樣本為驗(yàn)證數(shù)據(jù)集,剩下的K-1個(gè)樣本用于訓(xùn)練集,最后總的重復(fù)驗(yàn)證K次。根據(jù)數(shù)據(jù)選擇K的值為3,原始數(shù)據(jù)集被隨機(jī)分成3個(gè)相等的組,其中任意2組為訓(xùn)練集,剩下的一組為驗(yàn)證機(jī),重復(fù)3次上述操作。
建模以后需要對(duì)建模進(jìn)行精度檢驗(yàn),通常選擇表現(xiàn)線性擬合程度的決定系數(shù)(R2)和表示觀測(cè)值與真值偏差差異的均方根誤差(RMSE)。平均相對(duì)誤差(MRE)來預(yù)測(cè)模擬值與真值的精度。驗(yàn)證模型選用的指標(biāo)是決定系數(shù)(R2)、平均相對(duì)誤差(MRE)和均方根誤差(RMSE),計(jì)算公式分別如式(2)、(3)、(4):
(2)
(3)
(4)
為了消除噪聲和基線漂移以及非線性噪聲影響,將反射率進(jìn)行4種光譜指標(biāo)變換處理,分別為經(jīng)過Savitzky-Golay平滑后的反射率曲線,一階微分、二階微分、吸光率(倒數(shù)的導(dǎo)數(shù))變換。分別篩選出4種光譜指標(biāo)中相關(guān)性較高也產(chǎn)生起伏的敏感波段。如表3所示。
表3 有機(jī)質(zhì)含量的敏感波段及其相關(guān)系數(shù)
通過上述的相關(guān)性分析成果和交換檢驗(yàn)方法,在SPSS軟件中用PLSR建立模型,分別對(duì)不同的建模集和驗(yàn)證集進(jìn)行分析,從而選擇最佳的模型預(yù)測(cè)建模模擬預(yù)測(cè)值。土壤有機(jī)質(zhì)PLSR的估算模型結(jié)果如表4所示。
表4 土壤有機(jī)質(zhì)偏最小二乘法估算模型
由表4可知,在所有的反射率以及光譜變換形式下,反射率轉(zhuǎn)換為吸光率具有較好的反演能力,其中吸光率無論是在建模集還是驗(yàn)證集R2,RMSE的值都有較好的準(zhǔn)確性,R2值越大,RMSE值越小,說明吸光率變換有著很好的反映能力。在建模集的R2值達(dá)到0.45,在驗(yàn)證集達(dá)到最大0.657。在RMSE的值在吸光率變換時(shí)都很小,如在建模集為1.082,而在驗(yàn)證集達(dá)到0.932,都在很大程度上確保了吸光率變換的可靠性。吸光率模型:
(5)
建模完成后對(duì)建立的模型檢驗(yàn)可靠性,將驗(yàn)證集中有機(jī)質(zhì)含量的實(shí)測(cè)數(shù)據(jù)與預(yù)測(cè)數(shù)值進(jìn)行對(duì)比分析。模擬實(shí)測(cè)值與預(yù)測(cè)值的含量值在0.3~5.3g·kg-1,平均值是2.55g·kg-1,相關(guān)系數(shù)(R2)達(dá)到0.65,計(jì)算最后以反射率轉(zhuǎn)化為吸光率的平均相對(duì)誤差(MRE)為78.6%。上述數(shù)據(jù)和圖像皆可說明土壤有機(jī)質(zhì)用光譜吸光率來反演較為可靠。
圖6 土壤有機(jī)質(zhì)模型實(shí)測(cè)值與預(yù)測(cè)模擬值之間的比較
安徽省淮北市朱莊礦區(qū)開采多年,空間變異顯著,該區(qū)域適合進(jìn)行有機(jī)質(zhì)含量反演。
光譜反射率與有機(jī)質(zhì)含量呈現(xiàn)負(fù)相關(guān),在紫外到可見光以及近紅外都與有機(jī)質(zhì)含量表現(xiàn)較好的相關(guān)性。其中與吸光率的變換形式最佳,可在該礦區(qū)推廣使用。研究區(qū)的有機(jī)質(zhì)反演模型以吸光率為自變量時(shí),決定系數(shù)(R2)能達(dá)到0.45,均方根誤差(RMSE)能達(dá)到1.08。當(dāng)用吸光率模型預(yù)測(cè)有機(jī)質(zhì)含量時(shí),與實(shí)測(cè)值的決定系數(shù)(R2)達(dá)到0.65,平均相對(duì)誤差(MRE)為78.6%。以上均說明預(yù)測(cè)模型精度高,穩(wěn)定性好。
研究區(qū)為礦區(qū),開采嚴(yán)重,出現(xiàn)地面水下跌、錯(cuò)動(dòng)下沉、礦區(qū)裂隙等問題,研究有機(jī)質(zhì)含量反演結(jié)果可為礦區(qū)生態(tài)修復(fù)、礦區(qū)復(fù)墾,以及礦區(qū)土地修復(fù)提供數(shù)據(jù)。
本研究對(duì)有機(jī)質(zhì)含量反演的影響,在光譜變換、建模方法等方面存在缺陷,后面會(huì)考慮非線性的模擬方法,如決策時(shí)、人工BP神經(jīng)網(wǎng)絡(luò)、光譜變換指標(biāo)選擇小波變換等。