李宏達(dá),李德成,曾 榮?
(1. 南京信息工程大學(xué)地理科學(xué)學(xué)院,南京 210044;2. 土壤與農(nóng)業(yè)可持續(xù)發(fā)展國(guó)家重點(diǎn)實(shí)驗(yàn)室(中國(guó)科學(xué)院南京土壤研究所),南京 210008)
土壤是地球關(guān)鍵帶的核心之一[1],定量研究土壤發(fā)生學(xué)、土壤屬性和功能、土壤發(fā)生的時(shí)空變化,是當(dāng)今全球變化背景下土壤科學(xué)研究面臨的挑戰(zhàn)[2-3]。土壤有機(jī)碳含量是評(píng)價(jià)土壤質(zhì)量演變的重要指標(biāo)之一,它直接影響土壤肥力和作物產(chǎn)量,作為衡量土壤肥力的重要指標(biāo)[4],其定量化快速監(jiān)測(cè)成為精準(zhǔn)農(nóng)業(yè)研究的熱點(diǎn)[5]。傳統(tǒng)的測(cè)定方法費(fèi)時(shí)、費(fèi)力、費(fèi)錢,且污染環(huán)境,可見(jiàn)-近紅外光譜的發(fā)展為該問(wèn)題提供了解決方法[6],土壤可見(jiàn)-近紅外光譜是土壤理化參數(shù)的綜合反映,結(jié)合化學(xué)計(jì)量模型已實(shí)現(xiàn)了對(duì)有機(jī)碳等諸多土壤屬性的快速估算。目前,建立了局地、國(guó)家、洲際乃至全球等不同尺度的土壤光譜庫(kù),但前人的研究表明,基于光譜庫(kù)采用全局建模預(yù)測(cè)的效果并不理想[7]。如何從光譜庫(kù)中挑選合適的建模集以實(shí)現(xiàn)對(duì)任一局部地區(qū)土壤有機(jī)碳的高精度預(yù)測(cè),是一個(gè)值得研究的問(wèn)題。
前人的研究表明,利用光譜相似性匹配挑選建模集可以提高預(yù)測(cè)精度[8],光譜相似性匹配是依據(jù)某一特定的光譜相似性指數(shù)來(lái)判定未知光譜與參考光譜之間的相似度[9]。該方法提高預(yù)測(cè)精度存在如下假設(shè):即相似的光譜具有相似的理化屬性,依據(jù)光譜相似性匹配可以挑選光譜維度上的局部建模集(local model)。光譜相似性指數(shù)在遙感影像分類中的應(yīng)用較多,但是利用光譜相似性匹配來(lái)預(yù)測(cè)土壤屬性的研究較少[10]。光譜相似性匹配算法有多種,常用的有歐氏距離(Euclidean distance,ED)、馬氏距離(Mahalanobis distance,MaD)、光譜角匹配(Spectral angle mapper,SAM)等[11],不同匹配算法所挑選的光譜會(huì)存在差異,進(jìn)而也會(huì)影響模型預(yù)測(cè)精度,前人研究較少關(guān)注不同相似性匹配算法對(duì)局地土壤有機(jī)碳預(yù)測(cè)精度的影響。如魏昌龍等[10]采用光譜角匹配(SAM)、偏最小二乘回歸(PLSR)和 SAM-PLSR 三種方法預(yù)測(cè)土壤有機(jī)質(zhì)(SOM)和陽(yáng)離子交換量(CEC),其研究表明光譜角匹配結(jié)合PLSR算法極大地提高了SOM(R2=0.89,RPD=3.00)和CEC(R2=0.91,RPD=3.06)的預(yù)測(cè)精度,也大大降低了建模樣本的數(shù)量,但該研究基于土壤類型單一、土壤屬性變異不大的小區(qū)域,對(duì)于土壤類型復(fù)雜、土壤屬性變異大的區(qū)域是否適用有待研究。
在利用光譜相似性匹配算法挑選建模集時(shí),建模集數(shù)量的確定也尤為重要。以往研究多采用簡(jiǎn)單數(shù)值比例來(lái)確定預(yù)測(cè)集與建模集的大小,比如1∶1、1∶3,這種劃分缺乏一定的科學(xué)依據(jù)[12]。前人的研究表明,通過(guò)合適的建模集挑選,僅使用少量的樣本數(shù)量,或建模集較小時(shí),也能取得較高的預(yù)測(cè)精度。如Peng等[13]利用丹麥土壤光譜庫(kù)預(yù)測(cè)農(nóng)田土壤有機(jī)碳,僅從土壤光譜庫(kù)中提取了30個(gè)樣本,也得到了較高的預(yù)測(cè)精度,但該研究并未對(duì)最優(yōu)建模集做具體探究。Zeng等[14]探索利用區(qū)域土壤光譜庫(kù)預(yù)測(cè)局地土壤有機(jī)質(zhì)的有效策略,也并未研究建模集最優(yōu)數(shù)量。
利用相似性匹配算法挑選建模集后,可以采取兩種不同的策略建模:(1)建模集結(jié)合化學(xué)計(jì)量模型對(duì)未知樣本進(jìn)行預(yù)測(cè);(2)將挑選的相似性樣本屬性的均值賦值給未知樣本。魏昌龍等[15]的研究結(jié)果表明,光譜相似的土壤,其部分理化屬性也具有一定的相似性(如SOM和CEC),在該研究中兩種建模策略均取得了較高的預(yù)測(cè)精度。但針對(duì)大區(qū)域、大尺度的光譜庫(kù),何種研究策略更優(yōu)還有待探究。
綜上所述,前人的研究主要存在如下可改進(jìn)之處:(1)主要針對(duì)較小的研究區(qū)、較小的光譜庫(kù)[13];(2)缺少不同光譜相似性指數(shù)影響模型預(yù)測(cè)精度的比較研究[16];(3)相似性光譜組成的建模集大小有待進(jìn)一步探索。
因此,本研究旨在基于光譜相似性指數(shù),探索利用全球光譜庫(kù)[17]預(yù)測(cè)局部地區(qū)土壤有機(jī)碳的有效策略,以實(shí)現(xiàn)對(duì)局部地區(qū)有機(jī)碳的高精度預(yù)測(cè)。研究目標(biāo)如下:(1)比較不同的光譜相似性指數(shù)對(duì)建模精度的影響;(2)比較不同建模集數(shù)量對(duì)建模精度的影響;(3)比較不同建模策略(建模預(yù)測(cè)與賦值預(yù)測(cè))對(duì)建模精度的影響。
全球土壤光譜庫(kù)由國(guó)際土壤參比與信息中心(ISRIC)建立,覆蓋來(lái)自非洲、亞洲、歐洲、北美洲和南美洲等58個(gè)國(guó)家的土壤樣本,挑選了其中測(cè)定了光譜及有機(jī)碳的樣本,共計(jì)3 782個(gè)[17]。其中245個(gè)中國(guó)區(qū)域的樣本作為預(yù)測(cè)集,3 537個(gè)非中國(guó)區(qū)域樣本作為參考光譜庫(kù),用于建模集挑選及后續(xù)的預(yù)測(cè)研究。光譜測(cè)量采用FieldSpec FR(Analytical Spectral Devices, Boulder, CO)光譜儀記錄,波長(zhǎng)范圍為350~2 500 nm,采樣間隔為1 nm。光譜采集在暗室中進(jìn)行,將約20 g風(fēng)干研磨過(guò)2 mm篩的土樣放入直徑7.4 cm的玻璃培養(yǎng)皿內(nèi),樣品高度約為1 cm,采用4.5 W鹵素?zé)糇鳛楣庠?。為了減少數(shù)據(jù)冗余,在350~2 500 nm范圍內(nèi),每10 nm求取平均值,每條光譜共216個(gè)波段數(shù)據(jù)。
首先將光譜反射率轉(zhuǎn)換為吸收率,通過(guò)公式Lg(1/R)進(jìn)行轉(zhuǎn)換,其中R為光譜反射率。然后對(duì)吸收率采用Savitzky-Golay(SG)卷積平滑一階求導(dǎo)方法[18]進(jìn)行平滑去噪,其光譜預(yù)處理在軟件R 3.2.5中完成。
在進(jìn)行光譜相似性匹配計(jì)算時(shí),分別使用歐氏距離、馬氏距離[19]和光譜角算法[20]挑選相似樣本,為探究不同數(shù)量建模集對(duì)建模精度的影響,本文將建模集大?。此暨x的相似光譜的數(shù)量)設(shè)定為13個(gè)等級(jí):5、10、20、30、40、50、100、150、200、250、300、400和500,便于探究不同建模數(shù)量對(duì)有機(jī)碳預(yù)測(cè)精度的影響。
本研究采用的建模方法為經(jīng)典的偏最小二乘回歸法。偏最小二乘回歸法(Partial least squares regression,PLSR)是一種基于因子分析的多元統(tǒng)計(jì)數(shù)據(jù)分析方法,1965年由 Herman Wold首次提出[21]。本研究對(duì)PLSR模型采用五折交叉驗(yàn)證進(jìn)行精度評(píng)定,交叉驗(yàn)證的方法可在所有樣品參與建模的基礎(chǔ)上,較好地評(píng)估模型精度。
PLSR因子數(shù)量的選擇根據(jù)五折交叉驗(yàn)證最小的均方根誤差來(lái)確定,中國(guó)區(qū)域數(shù)據(jù)作為預(yù)測(cè)集,非中國(guó)區(qū)域數(shù)據(jù)作為建模集。模型預(yù)測(cè)精度的評(píng)價(jià)指標(biāo)包括決定系數(shù)(R2)、預(yù)測(cè)均方根誤差(RMSEp)和相對(duì)分析誤差(Relative percent deviation,RPD)。
R2越大,RMSEp越小,RPD越大,預(yù)測(cè)效果越佳。R2越接近1時(shí),說(shuō)明擬合效果越好;根據(jù)Chang等[22]對(duì)RPD的劃分:當(dāng) 1.0
本研究采用兩種建模策略:第一種是PLSR建模預(yù)測(cè),針對(duì)歐氏距離、馬氏距離和光譜角算法挑選出來(lái)的相似光譜,利用PLSR建模來(lái)估算預(yù)測(cè)集中的土壤有機(jī)碳含量;第二種策略是賦值預(yù)測(cè),利用相似性匹配算法挑選出相似樣本,將相似樣本土壤有機(jī)碳含量的平均值直接賦值給預(yù)測(cè)集中的未知樣本。賦值預(yù)測(cè)建立于如下假設(shè):光譜相似的土壤,其土壤有機(jī)碳的含量也較為相似。
全球土壤光譜庫(kù)中土壤有機(jī)碳的相關(guān)統(tǒng)計(jì)特征如表1所示。建模集土壤有機(jī)碳含量范圍為0~60 g·kg–1,平均值約為1.19 g·kg–1,含量分布極其不均衡。這是由于光譜庫(kù)樣本較多且分布涉及全球,造成土壤有機(jī)碳含量標(biāo)準(zhǔn)差以及變異系數(shù)較大。預(yù)測(cè)集土壤有機(jī)碳含量分布范圍為0~6.03 g·kg–1,標(biāo)準(zhǔn)差和變異系數(shù)相對(duì)建模集而言較小,但變異系數(shù)也較高(119%),這是因?yàn)橹袊?guó)國(guó)土面積遼闊,土壤類型多樣,造成土壤有機(jī)碳含量差異較大。
表1 全球光譜庫(kù)土壤有機(jī)碳統(tǒng)計(jì)特征 Table 1 Soil organic carbon statistical features of the global soil spectral library
本研究為探索土壤有機(jī)碳含量與光譜曲線形態(tài)的關(guān)系,對(duì)預(yù)測(cè)集有機(jī)碳含量由小到大進(jìn)行四等分[23],四個(gè)等級(jí)的有機(jī)碳含量平均值分別為0.10 g·kg–1、0.27 g·kg–1、0.58 g·kg–1和1.71 g·kg–1,其對(duì)應(yīng)的光譜曲線平均值如圖1所示。
有機(jī)碳含量越高,其整體反射率越低,可見(jiàn)光波段反射率曲線分異較小,隨著波長(zhǎng)增加,分異逐漸變大。雖然有機(jī)質(zhì)含量為0.27 g·kg–1和0.58 g·kg–1的光譜反射率差異不大,但0.58 g·kg–1光譜平均反射率仍然低于0.27 g·kg–1光譜平均反射率。在近紅外光譜波段的1 400 nm,1 900 nm和2 200 nm處存在明顯吸收峰,通常被認(rèn)為與黏土礦物中所含的水分子和羥基有關(guān)[24]。
為了便于建模精度的比較分析,在用光譜匹配方法選取合適建模集之前,采用參考光譜庫(kù)中的所有光譜運(yùn)用PLSR方法對(duì)預(yù)測(cè)集中的土壤有機(jī)碳進(jìn)行全局建模預(yù)測(cè),并評(píng)估其預(yù)測(cè)精度。全局建模預(yù)測(cè)精度低(R2=0.3,RPD=0.77),并不能較好地預(yù)測(cè)土壤有機(jī)碳含量。主要原因可能是建模集樣本數(shù)量較多,且全球土壤光譜庫(kù)樣本來(lái)自于全球各個(gè)區(qū)域,參考集樣本與預(yù)測(cè)集樣本在地理位置、理化性質(zhì)等方面均存在較大差異,光譜庫(kù)中光譜曲線以及有機(jī)碳含量差異較大,才導(dǎo)致建模精度不高。這與鄔登巍和張甘霖[6]的研究結(jié)果相似,通常情況下全局建模的預(yù)測(cè)精度不高。因此,準(zhǔn)確預(yù)測(cè)局部地區(qū)土壤有機(jī)碳含量需要篩選合適的建模集,下文中將采用歐氏距離、馬氏距離和光譜角算法來(lái)挑選合適的建模集。
將以上三種光譜匹配方法挑選出的13個(gè)數(shù)量等級(jí)的建模樣本分別作為建模集進(jìn)行PLSR建模預(yù)測(cè)土壤有機(jī)碳含量,其預(yù)測(cè)精度如下:
表2展示了基于三種相似性光譜匹配算法及不同建模集數(shù)量下土壤有機(jī)碳的預(yù)測(cè)精度?;跉W氏距離匹配所建立的模型,決定系數(shù)R2p范圍介于0.40~0.75,RPD范圍介于1.27~1.73;基于馬氏距離匹配所建立的模型,決定系數(shù)R2p范圍介于0.38~0.72,RPD范圍介于1.23~1.67;基于光譜角匹配所建立的模型,決定系數(shù)R2p范圍介于0.35~0.75,RPD范圍介于1.21~1.73。使用上述三種匹配方法,盡管只挑選極少量相似的光譜(例如5條),相比于全局建模(RPD=0.77),預(yù)測(cè)精度也得到了極大的提升,RPD提升至1.20左右。
表2 不同相似性匹配算法及不同建模集數(shù)量下土壤有機(jī)碳的預(yù)測(cè)精度 Table 2 SOC prediction accuracy relative to similarity matching algorithm and size of the modeling sets
整體而言,在建模集數(shù)量較少時(shí)(<50),三種方法的預(yù)測(cè)精度均不高(RPD<1.4),而建模集數(shù)量較多時(shí),光譜角算法略優(yōu)于其他兩種算法。從R2p、RMSEp和RPD隨建模集數(shù)量的變異來(lái)看,建模數(shù)量大小對(duì)模型精度有較大的影響,有關(guān)建模集數(shù)量對(duì)建模精度的影響將在下文中深入討論。
為探究不同相似性光譜指數(shù)所挑選的光譜有何差異,本研究在預(yù)測(cè)集中挑選出3條具有明顯差異的土壤有機(jī)碳含量光譜曲線,其土壤有機(jī)碳含量分別為0.02 g·kg–1、0.65 g·kg–1和6.03 g·kg–1,提取出其所匹配的最相似的5條光譜進(jìn)行對(duì)比分析,比較三種相似性匹配算法所挑選的光譜有何異同之處。如表3所示,無(wú)論是對(duì)低、中、高有機(jī)碳含量,歐氏距離與馬氏距離挑選出來(lái)的相似樣本重合率高達(dá)80%~100%;而SAM算法所挑選的光譜與歐氏距離、馬氏距離有較大差異,相似度僅為10%~20%。這是由于算法的不同,歐氏距離和馬氏距離的算法相似,均是計(jì)算兩點(diǎn)間的空間距離,而SAM算法則是比較兩光譜曲線的余弦?jiàn)A角,故差異較大。
表3 不同相似性算法匹配光譜的比對(duì) Table 3 Comparison between similarity algorithms in number of matching spectra
三種匹配方法所挑選出來(lái)的土壤光譜有機(jī)碳含量差異也較大,比如針對(duì)低土壤有機(jī)碳含量的樣本(0.02 g·kg–1),ED算法所挑選出的5條相似性光譜中,有兩條光譜有機(jī)碳含量(0.07 g·kg–1和0.08 g·kg–1)與目標(biāo)樣本相近,其他光譜有機(jī)碳的含量(0.12~0.38 g·kg–1)遠(yuǎn)高于目標(biāo)樣本。針對(duì)中高有機(jī)碳含量樣本的匹配,也存在類似的情況,這反映了光譜的相似性與土壤有機(jī)碳含量的相似性并不完全一致。這是因?yàn)楣庾V曲線的反射率高低、曲線形態(tài)由多種因素控制,不僅是土壤有機(jī)碳,還受其他土壤屬性的影響,如顆粒組成、氧化鐵含量、碳酸鈣含量等[25]。造成這一結(jié)果的另一原因在于,所匹配的建模集樣品來(lái)自于除中國(guó)外的全球各地,光譜本身的差異性大,與預(yù)測(cè)集樣品在光譜、理化屬性上均存在較大差異。
圖2分別展示了低(0.02 g·kg–1)、中(0.65 g·kg–1)、高(6.03 g·kg–1)有機(jī)碳含量下三種相似性匹配算法所挑選的光譜曲線。
針對(duì)低土壤有機(jī)碳含量的相似光譜,光譜角算法所匹配光譜的反射率均高于目標(biāo)光譜,雖然光譜反射率存在較大差異,但光譜曲線形態(tài)較為相似。歐氏距離和馬氏距離所匹配光譜中,有兩條光譜曲線反射率較為接近,但曲線形態(tài)差異較大。
針對(duì)中土壤有機(jī)碳含量的相似光譜,通過(guò)歐氏距離和馬氏距離方法匹配的光譜幾乎完全相同。整體來(lái)看,三種算法所匹配光譜的反射率均低于目標(biāo)光譜。光譜角算法所匹配的一條相似性光譜,其整體反射率明顯低于其他光譜,這也反映了光譜角算法的特質(zhì),著重于形態(tài)差異而非反射率高低。
針對(duì)高土壤有機(jī)碳含量的相似光譜,歐氏距離和馬氏距離算法匹配的光譜完全一致,其中三條匹配曲線的反射率高于參考光譜,兩條匹配曲線的反射率低于參考光譜,無(wú)論是從反射率大小還是形態(tài)來(lái)看,已知光譜與匹配光譜間均存在較大差異。光譜角匹配的光譜從形態(tài)特征上與參考光譜更加相似,這也與光譜角計(jì)算算法的內(nèi)涵相一致,光譜角所挑選的相似光譜其反射率均高于目標(biāo)光譜。
無(wú)論是低、中、高有機(jī)碳含量的光譜,相比于目標(biāo)光譜,匹配光譜的相似程度均不是太高,因而基于此的模型預(yù)測(cè)精度也比較低(1.21 在使用歐氏距離、馬氏距離和光譜角算法挑選出建模樣本之后,建模樣本數(shù)量的差異極大地影響 了模型的預(yù)測(cè)精度,圖3直觀展示了三種匹配算法下13個(gè)等級(jí)建模數(shù)量對(duì)有機(jī)碳預(yù)測(cè)精度的影響。 如圖3所示,建模集數(shù)量的差異對(duì)建模精度有較大的影響。從整體來(lái)看,隨著建模集數(shù)量的增多,三種匹配方法的預(yù)測(cè)精度均呈現(xiàn)上升趨勢(shì),并且相比于全局建模,預(yù)測(cè)精度提升顯著。 針對(duì)歐氏距離,建模集數(shù)量小于100時(shí),R2呈上升趨勢(shì),但R2<0.6、RPD<1.4,此時(shí)所建立的模型并不能很好地預(yù)測(cè)土壤有機(jī)碳;當(dāng)建模集數(shù)量大于100,小于300時(shí),R2基本處于0.6附近,但RPD<1.4,模型預(yù)測(cè)能力較差;當(dāng)建模集數(shù)量大于300,小于500時(shí),R2>0.6、RPD>1.4,可以較好地預(yù)測(cè)有機(jī)碳含量,該方法下最優(yōu)建模集數(shù)量范圍為400~500。但由圖上趨勢(shì)來(lái)看,還需進(jìn)一步探究建模集數(shù)量為600、700甚至更多的情形以及更細(xì)致的等級(jí)劃分。 針對(duì)馬氏距離,建模集數(shù)量小于100時(shí),與歐氏距離的預(yù)測(cè)結(jié)果相似,R2呈上升趨勢(shì),但RPD和R2均較低,土壤有機(jī)碳預(yù)測(cè)精度不高;當(dāng)建模集數(shù)量大于100,小于500時(shí),R2>0.6、RPD>1.4,有機(jī)碳含量預(yù)測(cè)精度較高,由圖3可知馬氏距離的整體預(yù)測(cè)精度均優(yōu)于歐氏距離,其最優(yōu)建模集數(shù)量范圍也為400~500。 針對(duì)光譜角算法,在建模集數(shù)量小于50時(shí),R2和RPD均較低,所建立的模型并不能很好地預(yù)測(cè)有機(jī)碳;當(dāng)建模集數(shù)量在50~100時(shí),預(yù)測(cè)精度高于歐氏距離和馬氏距離所匹配的模型;當(dāng)建模集數(shù)量大于50,小于500時(shí),除去樣本數(shù)為200的情況下,R2>0.6、RPD>1.4,可以較好地預(yù)測(cè)土壤有機(jī)碳含量,由圖3可知,除樣本數(shù)為200以外其余建模集預(yù)測(cè)精度均優(yōu)于歐氏距離和馬氏距離,該方法下最優(yōu)建模集數(shù)量范圍同樣為400~500。 建模集數(shù)量較少(樣本數(shù)<50)時(shí),三種方法預(yù)測(cè)精度均不高,但隨建模集數(shù)量的增多,預(yù)測(cè)精度皆有提高,三者中預(yù)測(cè)精度較高的是光譜角匹配,且最優(yōu)建模集數(shù)量范圍為400~500。 本研究結(jié)果與預(yù)期有一些偏差,預(yù)期當(dāng)建模數(shù)量樣本較大時(shí),越接近于全局建模,預(yù)測(cè)精度會(huì)降低,但三種匹配的最優(yōu)建模集數(shù)量范圍均為400~ 500。原因可能如下:(1)由于光譜運(yùn)算計(jì)算量較大,本文僅采用了13個(gè)等級(jí),對(duì)有限的建模集數(shù)量(5~500)進(jìn)行了比較,在今后的研究中,有必要對(duì)建模集數(shù)量做更細(xì)致的等級(jí)劃分;(2)相比于全局建模,相似性樣本匹配的建模策略存在差異,全局建模是僅利用一個(gè)模型對(duì)整個(gè)預(yù)測(cè)集做估算;而相似性匹配是針對(duì)每一個(gè)預(yù)測(cè)樣本均進(jìn)行建模預(yù)測(cè),這可能是樣本數(shù)量為500時(shí)預(yù)測(cè)精度依然較高的原因。 由以上研究得出光譜角算法的預(yù)測(cè)精度略高于歐氏距離和馬氏距離,因而在建模策略比較上,本文將針對(duì)光譜角算法匹配所挑選的樣本,探究不同建模策略對(duì)預(yù)測(cè)精度的影響。如表4所示,建模預(yù)測(cè)精度隨相似光譜數(shù)量的增加呈上升趨勢(shì),R2從0.35升至0.75,RPD由1.21升至1.73,此上升趨勢(shì)在0~50條光譜時(shí)尤為顯著,50條之后精度趨于平穩(wěn);賦值預(yù)測(cè)精度隨相似光譜數(shù)量的增加呈下降趨勢(shì),該下降趨勢(shì)在50~500條光譜時(shí)極其明顯,R2從0.52降至0.30,RPD由1.43降至1.17。因而,當(dāng)建模集數(shù)量較少時(shí)(<50),宜選擇賦值預(yù)測(cè)的建模策略(R2>0.6、RPD>1.4);而當(dāng)建模集數(shù)量較大時(shí)(>50),宜選擇PLSR建模預(yù)測(cè)(R2>0.6、RPD>1.4)。 表4 PLSR建模預(yù)測(cè)和賦值預(yù)測(cè)精度比較 Table 4 Comparison between the PLSR modeling strategy and the assignment strategy in prediction accuracy 出現(xiàn)該結(jié)果的可能原因如下:當(dāng)建模樣本數(shù)量增多時(shí),匹配的相似光譜與參考光譜的曲線形態(tài)相似程度越低,相似樣本的有機(jī)碳含量差異就越大,其有機(jī)碳含量的平均值與實(shí)際偏差越大,精度越低。所以只有少量樣本參與建模(<50)時(shí),賦值預(yù)測(cè)精度才會(huì)較高。對(duì)于PLSR建模預(yù)測(cè),當(dāng)建模樣本數(shù)量較多時(shí)(>50),模型的預(yù)測(cè)精度較高。建模策略的合理選取需參考光譜庫(kù)本身的變異,以及參考光譜庫(kù)與待預(yù)測(cè)樣本光譜的差異。 相較全局模型,基于歐氏距離、馬氏距離和光譜角三種光譜相似性指數(shù)選取樣本所建立模型均顯著提升了土壤有機(jī)碳的預(yù)測(cè)精度。總體而言,光譜角算法略優(yōu)于歐氏距離和馬氏距離。不過(guò)本研究中預(yù)測(cè)精度并不高,這可能是由于全球土壤光譜庫(kù)中的光譜數(shù)據(jù)較多且土壤樣本分布廣泛,與預(yù)測(cè)集土壤樣本屬性差異較大有關(guān)。對(duì)于建模集大小的研究,當(dāng)建模集數(shù)量較少時(shí),三種方法預(yù)測(cè)精度均不高,但隨建模集數(shù)量的增多,預(yù)測(cè)精度皆有提高,三者中預(yù)測(cè)精度較高的是光譜角匹配,且最優(yōu)建模集數(shù)量范圍為400~500。在建模策略上,當(dāng)建模集數(shù)量較少時(shí),宜選擇賦值預(yù)測(cè)的建模策略;而當(dāng)建模集數(shù)量較大時(shí),宜選擇PLSR建模預(yù)測(cè)。本研究還有待在如下方面進(jìn)行進(jìn)一步探索:(1)相似性樣本數(shù)量需要進(jìn)一步細(xì)化,并探究建模集樣本數(shù)量為500以上的預(yù)測(cè)精度,以進(jìn)一步探究最優(yōu)建模集數(shù)量的選??;(2)增加其他光譜相似性指數(shù)的比較,比如相關(guān)系數(shù)法、蘭氏距離以及多重測(cè)度方法,探究最佳的土壤有機(jī)碳預(yù)測(cè)策略;(3)嘗試將該方法應(yīng)用于其他土壤屬性的預(yù)測(cè),比如交換性陽(yáng)離子、全氮、全磷、全鉀,探討該方法對(duì)其他屬性預(yù)測(cè)的適宜性。2.4 不同建模集數(shù)量對(duì)土壤有機(jī)碳含量預(yù)測(cè)精度影響
2.5 不同建模策略對(duì)土壤有機(jī)碳含量預(yù)測(cè)精度影響
3 結(jié) 論