張 森, 盧 霞*, 聶格格, 李昱蓉, 邵亞婷, 田燕芹, 范禮強, 張鈺娟
1. 江蘇海洋大學測繪與海洋信息學院, 江蘇 連云港 222005 2. 河南財經政法大學資源與環(huán)境學院, 河南 鄭州 450046
土壤中的有機質是濕地土壤成分中的重要組成部分, 是判別濕地中土壤肥力大小的重要指標[1]。 因此快速測定濕地土壤中有機質的含量, 對于維護濕地生態(tài)平衡, 可持續(xù)發(fā)展具有重要的意義。 傳統(tǒng)檢驗土壤中養(yǎng)分含量的方法主要是基于化學分析, 費時耗力, 不能滿足快速、 低成本的現(xiàn)實需求, 而光譜分析正好彌補了傳統(tǒng)式化學分析方法的不足, 為估算土壤中的各種養(yǎng)分含量提供了有力的技術支持。
目前利用光譜分析來估算土壤中養(yǎng)分含量的研究主要分為三個步驟: (1) 將測得的原始光譜數(shù)據進行光譜預處理, 以消除或減弱原有光譜信息中的噪聲, 放大有用信息, 比較常見的光譜預處理方法有連續(xù)投影法(SPA)[2-3]、 Savitzky-Golay卷積平滑算法[4]、 微分算法[5]、 指數(shù)變換[6]等; (2) 將預處理后的光譜提取特征波段, 常用的提取方法主要有相關系數(shù)法[7]、 逐步回歸法、 遺傳算法[8]等; (3) 將特征波段的光譜數(shù)據和對應的土壤理化數(shù)據進行建模, 常用的建模方法主要分為線性與非線性建模, 線性建模主要有線性回歸[9]、 偏最小二乘法回歸[10]等; 非線性建模主要有BP神經網絡[11]、 最小二乘支持向量機(LS-SVM)[12]等。 已有部分研究發(fā)現(xiàn)利用非線性模型來估算土壤養(yǎng)分含量的精度要高于線性模型, 如Bao等[13]在綜合分析了不同地貌土壤有機質含量與相應光譜反射率之間的關系的基礎上, 對PLS與PLS-SVM兩種建模方法預測礦區(qū)土壤有機質含量的準確度做了比較, 結果表明PLS-SVM比PLS更能準確的預測。 章海亮等將光譜進行平滑、 標準歸一化、 多元散射校正和一階導數(shù)處理后, 用偏最小二乘和最小二乘支持向量機建立校正模型, 最后比較得出連續(xù)投影可見/短波近紅外光譜利用最小二乘支持向量機建模是一種精確的土壤有機質和速效鉀的測定方法。 然而針對濱海濕地土壤類型的非線性高光譜估算研究相對較少[14]。 濱海濕地作為一種陸地與水域之間的生態(tài)系統(tǒng), 受海洋環(huán)境的影響較大, 表現(xiàn)出獨特的土壤特性。 因此本文以江蘇省大豐麋鹿野牧區(qū)濱海濕地土壤為研究對象, 利用非線性模型SVM支持向量機的建模方法并對比BP神經網絡算法來估算濱海濕地土壤有機質的含量, 以此來驗證濱海濕地土壤有機質含量的非線性高光譜估算模型的可行性。
江蘇省大豐麋鹿國家級自然保護區(qū)坐落于中國四大濕地(南黃海濕地、 青藏高原濕地、 東北三江平原濕地、 鄱陽湖濕地)之一的南黃海濕地上, 核心區(qū)面積4萬畝, 是世界上最大的麋鹿自然保護區(qū)(32°59′—33°03′N, 120°47′—120°53′E), 該區(qū)域主要為暖溫帶大陸季風性氣候, 海洋性和季風性特征顯著[15]; 地勢平坦, 為平原鹽漬沼澤, 黃河口沉積物成土母質; 第三核心區(qū)植被茂密, 分布著互花米草、 堿蓬、 蘆葦?shù)戎脖蝗郝洌?土壤類型主要為潮鹽土與草甸濱海鹽土亞類, 表層土壤含鹽量在0.04%~1.13%之間[16]。
依據研究區(qū)土壤類型和植被群落分布特征, 采用規(guī)則網格法(1 000 m×1 000 m)劃分研究區(qū), 采樣方案如圖1所示。 每個網格采用對角線采樣法采集0~20 cm的表層土壤, 之后均勻混合, 作為該網格的土壤樣本, 共采集34個土壤樣本。
圖1 研究區(qū)土壤采樣點空間分布
將所采集的土壤樣品在室溫條件下自然風干, 去除石塊、 殘根等雜物后研磨、 過80目篩子, 保存, 用于待測土壤SOM和室內反射光譜。 土壤SOM含量測定是用水合熱重鉻酸鉀氧化-比色法; 土壤pH范圍為8.02~8.94之間, 平均值在8.4, 屬于堿性土壤, 表1為34個采樣點獲得的土壤樣品SOM的統(tǒng)計結果。
表1 研究區(qū)土壤樣本SOM含量統(tǒng)計
土壤反射光譜利用美國Spectra Vista 公司生產的SVC HR-1024I光譜儀進行測定。 波段范圍為350~2 500 nm, 其中在350~1 000 nm光譜分辨率≤3.0 nm, 光譜間隔≤1.5 nm; 1 000~1 900 nm光譜分辨率≤9.5 nm, 光譜間隔≤3.6 nm; 1 900~2 500 nm光譜分辨率≤9.5 nm, 光譜間隔≤2.5 nm。 利用BRDF系統(tǒng)建立土壤測試環(huán)境: 探頭垂直向下, 視場角4°, 距離土壤樣品(樣品盒的直徑為9 cm, 高度為2 cm的圓形玻璃器皿)表面約為1 m, 室內照明光源, 為50 W的鹵素燈, 天頂角45°。 測定時, 將裝有土壤樣品的玻璃皿放在黑色阻尼布上, 保持土壤表面平整, 每個土壤樣本測量5次, 取平均值作為土壤樣本反射光譜; 測量期間, 每隔15 min測定白板反射光譜以便校正。
光譜預處理主要采用Savitzky-Golay(S-G)卷積平滑濾波與微分算法。 S-G卷積平滑濾波原理主要是采用最小二乘擬合系數(shù)來建立濾波函數(shù), 然后對每一個窗口范圍內的波長數(shù)據進行多項式最小二乘擬合, 其擬合的表達式可表示為
(1)
R′(λi)=[R(λi+1)-R(λi-1)]/2Δλ
(2)
(1/R)′(λi)=[(1/R)(λi+1)-(1/R)(λi-1)]/(2Δλ)
(3)
(4)
[lg(R)]′(λi)={[lg(R)](λi+1)-[lg(R)](λi-1)}/2Δλ
(5)
式中λi為各波段的波長, Δλ表示波長λi+1到λi的間隔[17]。 特征波段的選取是利用皮爾遜相關系數(shù)法以及相關系數(shù)的顯著性檢驗。 為研究不同的非線性建模方法在利用高光譜反射率預測濱海濕地土壤養(yǎng)分含量上的精度差異, 選取支持向量機(support vector machine, SVM)與BP神經網絡兩種非線性模型作對比分析。
SVM建模采用臺灣大學林智仁教授開發(fā)的LIBSVM工具包, BP神經網絡利用MATLAB2018b軟件中自帶的工具包通過編程實現(xiàn)。 模型驗證主要使用決定系數(shù)R2與均方根誤差RMSE, 其中決定系數(shù)是相關系數(shù)的平方, 是一個能夠直觀判斷擬合優(yōu)勢的指標, 決定系數(shù)越接近于1, 說明實測值與預測值的擬合程度越高, 模型的精度也就越佳; 均方根誤差是觀測值與真值偏差的平方和觀測次數(shù)比值的平方根, 它對模型的建模能力和預測能力都能做出非常有效的評價, RMSE的值越小, 模型的反演能力越強。
由于原始光譜在350~400之間存在很多噪聲, 因此選取400~2 400 nm波段做分析。 在MATLAB 2014b軟件中利用Savitzky-Golay(S-G)濾波器將濱海濕地土壤的原始光譜進行5點平滑濾波處理, 處理后的光譜反射率曲線如圖2所示, 可以看出經過自然風干的34個土壤樣本測得的光譜曲線走勢具有很大的相似性, 但是由于每個土壤樣本中的有機質含量等土壤理化性質的不同, 所測得的土壤樣本光譜反射率在波峰、 波谷、 反射率強弱上還是有所不同, 這與章海亮等的研究結果相同。 總體波段范圍內的反射率介于0.1~0.7之間; 同時可以清楚的發(fā)現(xiàn)在1 400和1 900 nm兩個波段附近有兩個明顯的吸收谷, 在700和1 000 nm兩個波段附近有兩個比較弱的吸收谷, 這主要是由土壤中的水分子振動的倍頻與合頻所產生的; 在1 950~2 400 nm波段內光譜曲線呈現(xiàn)波浪式狀態(tài), 主要是由于土壤樣本中的少量水分與空氣中的水分吸收產生的, 這與研究土壤光譜反射率特征的相關報道一致[2-3]。 總體上看土壤反射率隨著波長的增加而不斷增大, 其中在400~600 nm波段范圍上升速度比較明顯, 600~800 nm波段之間呈現(xiàn)中等緩慢上升, 800 nm以后波譜反射率上升比較平緩。
圖2 S-G濾波后土壤樣本反射率曲線
將S-G濾波后的光譜反射率進行四種微分變換, 并與土壤實測的34個土壤樣本組的SOM含量做相關性與顯著性分析, 如圖3所示, 其中(a)圖為一階微分變換后的相關系數(shù), (b)圖為倒數(shù)的一階微分后的相關系數(shù), (c)圖為倒數(shù)的二階微分后的相關系數(shù), (d)圖為對數(shù)的一階微分后的相關系數(shù)。 從圖3可以發(fā)現(xiàn)四種光譜變換形式不同程度上改變了原始光譜與土壤有機質含量的相關系數(shù), 并且將有關土壤有機質的敏感波段處的反射率進一步放大, 同時可以發(fā)現(xiàn)在700, 1 000, 1 400和1 900 nm幾處光譜吸收谷附近的相關性都比較低, 這說明土壤受水分影響會降低光譜反射率與土壤有機質含量的相關系數(shù)。
圖3 變換后的光譜與SOM含量的相關性
挑選出置信水平p<0.01的波長作為特征波段, 篩選結果如表2所示。 由表2可知: 每一種微分變換后所提取出的特征波段的數(shù)量不同, 并且每一種微分變換后與對應的土壤SOM養(yǎng)分含量相關性也不同。 相關性最高的是(1/R)′光譜變換形式, 所提取到的特征波段數(shù)有13個, 分別為498~501, 1 180~1 182, 1 946, 1 947和2 323~2 326 nm, 其中在2 324 nm波段附近呈現(xiàn)正相關性, 在500 nm波段附近主要呈現(xiàn)負相關性。
但是提取到的敏感波段與章海亮等利用連續(xù)投影法所提取的水稻土、 磚紅土和黃土有機質敏感波段362, 392, 422, 437, 537, 652, 702和1 062 nm有所不同。 差異的原因可能是由于研究區(qū)土壤類型的不同, 前人研究結果發(fā)現(xiàn)大豐麋鹿國家級自然保護區(qū)第三核心區(qū)的土壤類型主要為潮灘鹽土和草甸海濱鹽土, 這兩種土壤類型通常含鹽量在0.8%~2.0%之間, 最高甚至可達4%的含鹽量[18], 而土壤鹽分含量會影響土壤的反射率, 也會影響到土壤中有機質的光譜信息[6]。
表2 土壤SOM含量的特征波段篩選
Note: *p<0.05, **p<0.01
2.3.1 基于SVM支持向量機的土壤有機質含量高光譜估算模型
訓練集與測試集的設置是隨機選取34個土壤樣本中24個光譜變換后篩選出來的特征波段數(shù)據和對應的土壤SOM含量值作為訓練集的輸入與輸出, 剩下的10個樣本作為測試集的輸入與輸出。 并利用MATLAB中的mapminmax函數(shù)將訓練集與測試集的數(shù)據進行歸一化處理, 使其映射到[0, 1]區(qū)間內。 在SVM的創(chuàng)建與訓練中, “-t”核函數(shù)類型選擇為RBF核函數(shù), 利用網格搜索交叉驗證的方法遍歷c與g的值來獲取最佳c與g參數(shù), “-s”即SVM類型選擇為e-SVR類型, “-p”設置e-SVR類型中損失函數(shù)p的值為0.01。 最后利用svmpredict函數(shù)和已經訓練好的模型預測出剩余10個樣本的有效值, 并將預測值進行反歸一化處理以便更好的還原真實值。 最后構建的模型驗證精度如表3所示。 由表3可知: 土壤樣本反射率(1/R)′變換形式估算土壤有機質含量的精度最高, 預測決定系數(shù)R2為0.93, 預測均方根誤差為0.23。
表3 SVM建模方法得到的土壤SOM含量精度
Note: *p<0.05, **p<0.01
2.3.2 基于BP神經網絡的土壤有機質含量高光譜估算模型
BP神經網絡的建模形式與SVM類似, 都需要設置訓練集與測試集, 為方便觀察對比兩種建模精度, 選取與SVM建模一樣的測試集與訓練集; 同時與SVM建模相同, 將訓練集與測試集都進行歸一化處理將其映射到[0.1]區(qū)間內; 在創(chuàng)建神經網絡時, 訓練方式選擇梯度下降方法, 迭代次數(shù)設置為1 000次, 訓練目標設置為le-30即訓練的均方根誤差小于le-30, 神經元設置為10個, 學習率設置為0.01; 之后的仿真測試與反歸一化和SVM建模相同。 最后構建的模型精度如表4所示。 由表4可知: 土壤樣本反射率(1/R)′形式估算土壤有機質含量的精度較高, 其中預測決定系數(shù)R2為0.87, 預測均方根誤差為0.33。
表4 用BP神經網絡建模方法得到的土壤SOM含量精度
Note: *p<0.05, **p<0.01
2.3.3 SVM和BP檢測土壤有機質含量的精度對比
圖4為SVM與BP神經網絡兩種非線性建模方法在估算濱海濕地土壤有機質含量的精度對比, 橫坐標代表四種不同的光譜變換形式, 縱坐標左側代表決定系數(shù)R2的值, 縱坐標右側代表RMSE的值。
圖4 土壤SOM含量的建模精度對比
由圖4可知: 基于決定系數(shù)R2和均方根誤差RMSE評價指標, SVM支持向量機估算濱海濕地土壤有機質含量精度明顯優(yōu)于BP神經網絡。 為了更加直觀的看出SVM模型的預測效果, 用光譜變換(1/R)′構建SVM模型所預測的濱海濕地土壤有機質含量與實測的含量進行對比, 如圖5所示, 橫坐標為實測值, 縱坐標為預測值。 由圖5可以看出SVM預測土壤有機質含量精度較好, 均勻分布于y=x直線附近。
由以上分析結果表明: 通過SVM支持向量機檢測土壤有機質的精度要優(yōu)于BP神經網絡, 這與蔣璐璐等[19]通過最小二乘支持向量機與BP神經網絡構建的浙江省衢州紅壤和海寧青紫泥中氮磷鉀含量的估算模型結果一致。 通過光譜的(1/R)′變換形式構建的SVM估算模型在預測濱海濕地土壤有機質的精度最高, 其中預測決定系數(shù)R2為0.93, 均方根誤差RMSE為0.23, 這比劉雪梅[20]通過一階微分結合最小二乘回歸方法構建的江西省遂川縣枚江鄉(xiāng)土壤有機質含量的預測精度(R2為0.825 5)要高。 這說明基于高光譜反射率的微分變換形式所構建的SVM模型在預測濱海濕地中土壤有機質含量具有一定的可行性, 但該模型是否可以預測其他地區(qū)的濱海濕地土壤中有機質的含量還需進一步的驗證。
圖5 土壤SOM含量預測
濱海濕地采集的34個土壤樣本在室內測得的原始光譜進行S-G濾波處理與R′, (1/R)′, (1/R)″, (lgR)′四種微分變換, 利用相關系數(shù)法提取土壤SOM含量在高光譜遙感中的特征波段, 并通過SVM支持向量機和BP神經網絡估算濱海濕地土壤中SOM含量。 得出以下結論:
(1)SVM支持向量機檢測濱海濕地土壤有機質含量的精度明顯優(yōu)于BP神經網絡模型, 利用可見-近紅外高光譜構建的SVM非線性模型來快速估算濱海濕地土壤中的養(yǎng)分含量具有一定的可行性。
(2)土壤有機質與光譜反射率倒數(shù)的一階微分存在較高的相關性, 顯著相關(p<0.01)的波段數(shù)為13個, 敏感波段為498~501, 1 180~1 182, 1 946, 1 947和2 323~2 326 nm。
(3)基于SVM構建土壤有機質的估算模型精度最高, 預測決定系數(shù)R2為0.93, 均方根誤差RMSE為0.23。
(4)光譜數(shù)據的預處理與變換形式以及模型的構建方式和樣本的數(shù)量都是影響最終預測精度的重要因子, 本實驗由于樣本數(shù)量有限并不能很好的展示樣本大小對模型估算精度的影響程度, 因此未來應深入探討土壤樣本數(shù)量對估算模型的精度和均方根誤差的影響程度。