劉志勇 黃宇飛 劉佳欣 金麗花 徐嘉
(1 北京空間飛行器總體設計部,北京 100094)(2 哈爾濱工程大學計算機科學與技術學院,哈爾濱 150001)
隨著土地規(guī)劃管理、精準農(nóng)業(yè)等的快速發(fā)展,對土壤制圖的精度與土壤分類提出了更高要求。遙感技術的迅速發(fā)展 和應用,為土壤分類提供了新的技術與數(shù)據(jù)支持。高光譜遙感的出現(xiàn),加速了土壤分類的進程,在土壤屬性的研究中展現(xiàn)出了巨大潛力[1]。目前,許多學者利用土壤反射光譜特征曲線研究土壤分類工作[1-3]。
目前,國外已經(jīng)開展采用衛(wèi)星數(shù)據(jù)和地形數(shù)據(jù)進行土壤資源調(diào)查和制圖的研究。文獻[4]以先進超高分辨率輻射計(Advanced Very High Resolution Radiometer,AVHRR)和數(shù)字高程模型(Digital Elevation Model,DEM)為數(shù)據(jù)源,采用普通克里金等方法對土壤性質(zhì)進行了研究,并結合地形數(shù)據(jù),評價了各種研究方法的優(yōu)缺點;文獻[5]基于AVHRR數(shù)據(jù)空間分辨率為500 m 和1000 m的圖像,以DEM數(shù)據(jù)為輔助對匈牙利土壤進行分類研究,結果發(fā)現(xiàn)地形數(shù)據(jù)的加入對2種分辨率圖像的土壤分類精度都有顯著提高;文獻[6]結合了遙感指數(shù)特征與地形特征實現(xiàn)了土壤類的分類。近年來,國內(nèi)也有不少學者借助遙感圖像進行土壤調(diào)查與分類。文獻[7]利用美國陸地衛(wèi)星(Landsat)專題繪圖儀(TM)圖像作為數(shù)據(jù)源,對我國植被覆蓋率高的東南山區(qū)運用不同的分類方法進行土壤分類的研究,結果發(fā)現(xiàn)即使運用較好的分類方法,土壤的地形、質(zhì)地等信息也會影響分類結果;文獻[8-9]基于中分辨率成像光譜儀(Moderate Resolution Imaging Spectroradiometer,MODIS)的遙感數(shù)據(jù)和地形數(shù)據(jù),探討了遙感技術在受干旱地區(qū)的限制進行土壤調(diào)查時,對干旱區(qū)的土壤效果和適用性;我國其他學者也對土壤高光譜特反射性特性和反演模型進行了研究[10-12]。很多文獻通過J-M距離將容易區(qū)分的亞類提取出來,進行分類,雖然分類結果很好,但是缺乏實用價值,土類級別的分類正確率在58%左右[6]。
相對于其他遙感圖像, Landsat-8衛(wèi)星具有預測分類準確度高、分辨率高以及波段的光譜范圍大等優(yōu)點。所以本文應用Landsat-8衛(wèi)星遙感圖像及高程圖像,提出一種土壤分類方法,并首次提出2個基于遙感圖像的紋理特征(熵與平滑度),通過隨機森林方法實現(xiàn)了青海地區(qū)的土壤分類。
本文采用Landsat-8衛(wèi)星遙感圖像,Landsat-8衛(wèi)星由美國國家航空航天局于2013年2月發(fā)射,其數(shù)據(jù)包括可見光、短波紅外、熱紅外等11個波段,空間分辨率為30 m,如表1所示。除遙感圖像外,本文還用到了航天飛機雷達地形測繪任務(Shuttle Radar Topography Mission,SRTM)高程數(shù)據(jù)(平面精度±20 m,高程精度±16 m,空間分辨率30 m)。SRTM是美國航空航天局聯(lián)合國防部國家測繪局于2002年完成的全球數(shù)字高程數(shù)據(jù)(DEM)。
土壤分類通過機器學習方法實現(xiàn),首先提取特征,然后通過隨機森林方法實現(xiàn)土壤分類,按3步實現(xiàn):大氣校正、特征提取和分類。
表1 Landsat-8圖像的波段
衛(wèi)星傳感器最終測得的地面目標的總輻射亮度并不是地表真實反射率的反映,其中包含了由大氣吸收,尤其是散射作用造成的輻射量誤差。大氣校正就是消除這些由大氣影響所造成的輻射誤差,反演地物真實的表面反射率的過程。在大氣校正圖像的基礎上,應用遙感圖像進行研究,可以獲得更準確的結果。
超立方體的快速視線大氣分析(Fast Line-of-sight Atmospheric Analysis of Hypercub,F(xiàn)LAASH)是由波譜科學研究所(Spectral Sciences Inc.)在美國空軍研究實驗室(U.S. Air Force Research Laboratory)設計的大氣校正算法。FLAASH適用于高光譜遙感數(shù)據(jù)和多光譜遙感數(shù)據(jù)。通過ENVI軟件可實現(xiàn)遙感圖像的FLAASH大氣校正。
土壤分類特征分成4類,基于變換的特征、遙感指數(shù)特征、圖像紋理特征和地形特征。下面分別介紹每種特征的計算方法。
1)基于變換的特征
K-T變換分類特征提取。K-T變換是一種特殊的主成分分析(Principal Component Analysis,PCA),既可以對于遙感數(shù)據(jù)進行降噪,又可以使處理后的遙感影像實現(xiàn)數(shù)據(jù)壓縮和圖像增強的效果。將3幅Landsat-8的OLI影像分別進行K-T變換,變換后每幅遙感影像得到3個指數(shù)作為K-T變換分類特征,分別是亮度指數(shù),綠度指數(shù)和濕度指數(shù),其中亮度指數(shù)可以反映出地物總體反射效果,綠度指數(shù)反映出地表植被情況,而濕度指數(shù)反映出地表的水分條件。此外,所有波段的波段值PCA變換后的前3維也作為特征。
2)遙感指數(shù)特征
遙感指數(shù)特征包括3種特征:歸一化植被指數(shù)(NDVI),水體指數(shù)(NDWI)和比率植被指數(shù)(RVI),其計算方法見文獻[6]。
3)圖像紋理特征
(1)平滑度
(1)
該特征是通過Landsat-8的可見光波段,即表1中的2~4波段計算出來的,主要過程是首先將這3個波段的平均值轉(zhuǎn)化為灰度圖像,計算得到圖像灰度的歸一化直方圖P(zi);再基于式(1)得出平滑度U(z)。式(1)中其他符號意義如下:z為圖像灰度值;i為灰度值序號(若圖像最大灰度值為255,最小灰度值為0,設i=0,1,…255),則zi為第i個灰度值(由前面假設,zi=i),P(zi)是z的概率估值(灰度為z的像素個數(shù)占總像素的百分比)。平滑度特征為歸一化直方圖每個數(shù)值的平方和,當圖像平滑時該值較大。
(2)熵
(2)
熵也是通過歸一化直方圖P(zi)計算,計算方法與平滑度特征相同。熵是直方圖數(shù)值與其對數(shù)的乘積之和。平滑圖像熵值較小,粗糙圖像熵值較大。
4)地形特征
土壤成分與地形關系較大,因此計算了三種地形特征。地形特征是通過高程文件計算出來的,我們通過經(jīng)緯度將遙感圖像與高程圖像關聯(lián)起來,計算相應數(shù)據(jù)點的地形特征。
(1)高程
高程圖像中像素點的灰度值即高程值。
(2)坡度
坡度即計算高程圖像的一階微分,坡度[13]表示了地表面在該點的傾斜度。
(3)
(3)曲率
曲率[14]即計算高程圖像的二階微分,將二階偏微分之和作為曲率特征。
(4)
本文所提取的特征包括6維基于變換的特征、4維遙感指數(shù)特征、2維紋理特征及3維地形特征,特征總數(shù)為15維。
根據(jù)上文提取的特征通過隨機森林算法實現(xiàn)土壤分類。隨機森林是由多個決策樹構成的“森林”。隨機森林模型具有兩個非常重要的自定義參數(shù):決策樹的數(shù)量(k)和分割節(jié)點的隨機變量的數(shù)量(m)。隨機森林模型可以通過有放回抽樣以及不同樹演化過程中隨機改變預測變量組合來增加決策樹的多樣性。每一個決策樹可以通過原始數(shù)據(jù)集中的一個自助法取樣子集進行生長,并且利用隨機選擇的m個預測變量中的最佳預測變量進行節(jié)點分割。
由于土壤信息數(shù)據(jù)在全世界的迫切需要,特別是在氣候變化的背景下,國際應用系統(tǒng)分析研究所(IIASA)及聯(lián)合國糧農(nóng)組織(FAO)等組織和機構共同建立了新一代世界土壤數(shù)據(jù)庫(Harmonized World Soil Database,HWSD),該數(shù)據(jù)庫提供了全世界范圍內(nèi)每處土壤的分類與成份信息,采用的土壤分類系統(tǒng)主要為FAO-90,HWSD數(shù)據(jù)存儲在Access數(shù)據(jù)庫中,可導出為Excel數(shù)據(jù)表。
中國土壤數(shù)據(jù)集[15]來源是世界土壤數(shù)據(jù)集,中國地區(qū)數(shù)據(jù)源為全國第二次土地調(diào)查由南京土壤所提供的1∶1 000 000土壤數(shù)據(jù)。HWSD沒有提供地理柵格數(shù)據(jù),中國土壤數(shù)據(jù)集提供了柵格數(shù)據(jù),數(shù)據(jù)格式為img柵格格式,投影為WGS84。
待研究的樣本是青海地區(qū)的3張圖像,如表2和圖1所示。所提數(shù)據(jù)點來源于HWSD中國土壤數(shù)據(jù)集,數(shù)據(jù)點總數(shù)為16 444個。
表2 青海地區(qū)圖像信息
圖1 青海地區(qū)圖像Fig.1 Image of Qinghai area
該地區(qū)所包括的土壤類別有薄層土、栗鈣土、石膏土、人為土、潛育土、黑鈣土、始成土、黑土、紅砂土、鈣積土、鹽土、粗骨土、膨轉(zhuǎn)土和有機土等共14類,每個類下還包括一些亞類,共31個亞類。
1)測試方法與評價指標
每次用2張圖像數(shù)據(jù)點訓練分類模型,沒訓練過的圖像的數(shù)據(jù)點進行測試,可驗證針對未訓練過的圖像、分類模型是否有效。評價指標為分類正確率和一致性指數(shù)Kappa。
2)試驗結果
土類是土壤高級分類的基本分類單元,它是根據(jù)土壤主要成土條件、成土過程和由此發(fā)生的土壤屬性來劃分的,同土類土壤應具有某些突出的、共同的發(fā)生屬性與層段。亞類是根據(jù)成土過程對土類的進一步細化分類。
根據(jù)全國第2次土壤普查結果,確定了61個土類和231個亞類,本文按上述方法實現(xiàn)了青海地區(qū)土壤分類方法的測試,每張圖像對土類的分類準確率與Kappa系數(shù)如圖2所示,對亞類的分類準確率與Kappa系數(shù)如圖3所示。
圖2 土類的分類準確率與Kappa系數(shù)Fig.2 Classification accuracy and Kappa coefficients of soil
圖3 亞類的分類準確率與Kappa系數(shù)Fig.3 Subclass classification accuracy and Kappa coefficients
3)結果分析
由圖2、3可知,土類的分類平均準確率為0.629 7,Kappa系數(shù)0.523 0;亞類的分類平均準確率為0.517 7,Kappa系數(shù)為0.514 7;分類結果較好,分類一致性一般。土壤分類是較難的問題,文獻[6]僅對土壤類進行了分類,其分類正確率為58%,雖然所分類的地區(qū)是不同的,不能進行直接對比,但仍可說明本文分類效果較好;而且一般文獻的數(shù)據(jù)點數(shù)較少,僅幾百個,本文提取的數(shù)據(jù)點為16 444個,也證明本文方法的有效性。
本文實現(xiàn)了一種基于機器學習方法的土壤分類算法,仿真試驗結果表明,土壤分類準確率達到同類文獻的水平,且經(jīng)過大量數(shù)據(jù)點的驗證,說明本文方法是有效的。
本文主要采用Landsat-8衛(wèi)星圖像進行土壤分類的研究,Landsat-8衛(wèi)星圖像的質(zhì)量較高,圖像像素缺失情況較少,土壤分類要求選擇裸土較多時間的圖像,對于同一位置Landsat-8衛(wèi)星圖像每個月都有一到兩張圖像可供研究,這對土壤分類的研究是比較有利的。本文研究主要采用可見光、近紅外和短波紅外波段,波長范圍在0.4~2.5 μm之間,在今后的衛(wèi)星載荷中,如若能夠在這個區(qū)間內(nèi)增加若干波段,對土壤分類的研究將會起到更大的作用。除此之外,土壤分類用到了高程數(shù)據(jù),因此,可見光紅外光譜儀與激光測距儀配合,是可以考慮的。