陳 利 ,林 輝 ,孫 華 ,嚴恩萍 ,王家均
(中南林業(yè)科技大學 a.林業(yè)遙感信息工程研究中心;b.林學院,湖南 長沙 410004)
基于決策樹分類的森林信息提取研究
陳 利1,林 輝1,孫 華1,嚴恩萍1,王家均2
(中南林業(yè)科技大學 a.林業(yè)遙感信息工程研究中心;b.林學院,湖南 長沙 410004)
以株洲市為研究對象,采用2009年10月TM遙感數據和地面固定樣地點數據開展土地利用分類研究,提取分析各種地類在TM遙感影像上的光譜特征曲線和各地類的歸一化植被指數及歸一化差異水體指數,依據提取的光譜特征曲線及植被指數建立了土地利用分類決策樹模型,通過反復分類試驗,篩選出最優(yōu)的決策樹分類模型的閾值。結果表明:通過典型地物波譜分析以及實驗,區(qū)分植被與非植被的歸一化植被指數的閾值為0.3,即大于0.3為植被,反之則為非植被;區(qū)分水體與非水體的歸一化差異水體指數的閾值為1.5,即大于1.5為水體,反之則為非水體;從分類結果來看,基于決策樹模型分類的總體精度為87.21%,Kappa系數為0.850 6,株洲市林地面積為703 421.49 hm2,非林地面積為422 470.61 hm2,林地覆蓋率為62.5%,主要分布在株洲市的東南部,即攸縣、茶陵縣、炎陵縣,占株洲市林地面積的73.0%。
森林信息;遙感信息;決策樹分類;信息提取
森林是林木、伴生植物、動物及其與環(huán)境的綜合體,是可再生自然資源,無時不處于消長交替的動態(tài)過程之中,具有經濟、生態(tài)和社會三大效益。因而開展森林資源調查與監(jiān)測,進行一定時間和空間內的森林資源狀態(tài)連續(xù)性跟蹤調查,掌握其現狀和消長變化情況,為其制定林業(yè)方針政策、預測發(fā)展趨勢、制定生產經營計劃和中長期規(guī)劃提供科學依據,為實現林業(yè)資源可持續(xù)利用,及時準確地了解林業(yè)用地的時空配置狀況,在提高林業(yè)發(fā)展乃至經濟社會發(fā)展科學決策水平,對促進林業(yè)和資源環(huán)境及社會經濟可持續(xù)發(fā)展方面具有極其重要的意義。
隨著遙感技術的不斷進步與發(fā)展,遙感技術越來越受到各行各業(yè)的重視,遙感圖像的分類在森林資源信息提取中起到了重要的作用,由于遙感平臺多尺度、多層次、多角度、多波段地對地球進行著連續(xù)觀測,各種先進的對地觀測系統(tǒng)源源不斷地向地面提供著豐富的數據源,我們應及時、準確地獲取所需信息并加以利用,特別是遙感在林業(yè)上的應用[1]。
因為不同的地物具有不同的光譜特性,依據光譜間關系對遙感影像進行分析,建立基于地面特征的遙感信息模型及智能化提取遙感信息,是遙感應用分析的核心和基礎。通過對地物波譜的比較,國內外的學者提出了各種植被指數模型,如歸一化植被指數(NDVI)[2]。為了能夠更好地提取城市水體信息,徐涵秋[3-4]對NDWI進行了改進,提出了改進歸一化差異水體指數,汪金花等人[5]運用譜間關系方法、陳華芳等人[6]運用了差值法相結合的手段提取山區(qū)水體,研究表明該方法是消除陰影、提取水體信息效果較好的方法,在山區(qū)水體信息的提取中具有較廣闊的應用前景。遙感影像分類方法有非監(jiān)督分類、監(jiān)督分類以及專家分類等方法。決策樹分類算法具有清晰、直觀、靈活、運算效率高等特點,在遙感分類方面具有很大的優(yōu)勢[7-8],決策樹分類方法已經開始應用于各種遙感影像信息提取[9],并已被應用于許多分類問題。張爽[10]將決策樹分類法應用到景觀分類中,并討論了樣本點對分類精度的影像。陳寶政等[11]和申文明等人[12]利用決策樹對TM遙感影像進行了分類研究。韓濤[13]利用決策樹方法,對祁連山典型區(qū)的針葉林和灌木林進行了分類,并了解了黑河上游祁連山區(qū)水源涵養(yǎng)林十年間的變化狀況。孫華等人[14]進行了面向對象的決策樹分類技術研究。溫興平等人[15]利用決策樹對廣州市中部七區(qū)的ETM+影像進行信息提取,并通過影像的波段組合獲得了比較高的分類精度。
本研究利用CART決策樹算法對株洲市2009年10月TM遙感影像以及固定樣地點數據進行土地利用分類,提取森林信息,并結合地物的遙感影像特征和地物的光譜特征信息進行分類,找出適合株洲市的決策樹分類森林信息提取的最優(yōu)模型,并能夠及時準確獲取森林信息,為株洲市林業(yè)的發(fā)展以及合理的規(guī)劃提供了重要的決策依據。
株洲市位于湖南省東部,湘江下游,北緯 26°03′05″~ 28°01′07″, 東 經 112°57′30″~114°07′15″,東界江西省萍鄉(xiāng)市、蓮花縣、永新縣及井岡山市,南連衡陽、郴州兩市,西接湘潭市,北與長沙市毗鄰。株洲市位于羅霄山脈西麓,南嶺山脈至江漢平原的傾斜地段上,市域總的地勢東南高、西北低。北中部地形嶺谷相間,盆地呈帶狀展布;東南部均為山地,山巒迭障,地勢雄偉。株洲屬亞熱帶季風性濕潤氣候,四季分明,雨量充沛,光熱充足,年均氣溫17.6 ℃,年降水量1 280 mm,無霜期281 d,是名副其實的膏腴之地,適宜多種農作物生長,為湖南省有名的糧食高產區(qū)和國家重要的商品糧基地,長江流域第一個糧食畝產過噸的縣(市)就產生在株洲管轄的醴陵市。研究區(qū)示意圖見圖1。
圖1 研究區(qū)位置Fig.1 Location of studied area
本研究采用Landsat TM遙感數據為數據源,獲取時間為2010年10月17日,共3景影像,軌道號分別為p123r41、p122r41、p122r42,影像空間分辨率為30 m,共7個波段;以及2009年株洲市固定樣地點200多個,森林資源二類調查分布圖,1∶10000的地形圖、行政邊界矢量圖等其他輔助數據。
在ENVI4.8遙感軟件平臺進行圖像增強、圖像拼接、裁切及幾何校正等預處理[16-19]。經過野外考察、目視判讀以及波段選擇組合,發(fā)現TM4、TM5、TM3這3個波段假彩色合成影像對森林信息的提取效果較好,因此本研究采用453最佳波段組合,應用決策樹分類技術對森林信息進行自動識別研究[20-22]。
本研究主要是針對森林信息提取,而植物生長狀態(tài)及植被空間分布密度的最佳指示因子是歸一化植被指數,與植被分布密度呈線性相關,通過實踐證明INDVI對土壤背景的變化確實較為敏感。由于從Landsat TM遙感影像中提取出的水體中摻雜有居民地及裸地,并且一些小的水體無法被提取出來,因此,為了達到突出水體信息、抑制植被信息的目的,本研究采用歸一化差異水體指數(INDWI)。植被指數的提取是通過遙感圖像處理軟件ENVI4.8進行的,在band match功能中輸入各植被指數的計算公式,生成植被指數圖像,并根據樣地點GPS采集的地理坐標,輸入到圖像中提取研究區(qū)樣地點的植被指數值。植被指數計算公式見表1。
表1 植被指數計算公式Table 1 Calculation formula of vegetation index
本研究采用的是2009年10月17日的TM數據,此季節(jié)植被生長較好,同時也和固定樣點地調查的時間一致,結合遙感分類的需要和湖南省二類森林資源調查的地類劃分,以及本次研究的需要,將研究區(qū)地類分為針葉林、闊葉林、竹林、耕地、水域、建設用地、未利用地7種類型。在ENVI4.8遙感軟件中,每種地類選取一定數量的樣點,根據樣地點GPS采集的地理坐標提取各波段的光譜值,計算各地物在每個波段的標準差、平均值等統(tǒng)計特征參數,得到地物光譜特征曲線(見圖2),縱坐標表示各地物在遙感影像采樣點的平均DN值。并在計算得到的植被指數影像中提取相應樣點的INDVI及INDWI值,結果見圖3。
圖2 典型地物的波譜特征Fig.2 Spectral characteristics of typical objects
圖3 典型地物的植被指數Fig.3 Vegetation index of typical objects
從圖2、3可知,為了區(qū)別植被與非植被選取了歸一化植被指數作為判斷依據,歸一化植被指數是一個用來對遙感數據進行分析,以確定被觀測的目標區(qū)是否為綠色植被覆蓋,以及植被覆蓋程度的指標值,檢測植被生長狀態(tài)、植被覆蓋度和消除部分輻射誤差等。通過典型地物波譜分析以及反復試驗結果表明,INDVI大于閾值0.3即為植被區(qū),否則為非植被區(qū)。在非植被區(qū),為了達到突出水體信息,采用歸一化差異水體指數,即INDWI小于閾值1.5即為水域,否則為建設用地或者未利用地。為了區(qū)分建設用地以及未利用地,從圖3的典型地物波譜特征可知,TM1-TM5大于閾值20即為未利用地,否則為建設用地。在植被區(qū),為了區(qū)別耕地與其他林地,選取TM1波段,該波段對水體的穿透力強,易于調查水質或水深的情況,對葉綠素和葉綠素濃度反應敏感,對區(qū)分干燥的土壤及茂密的植物效果較好。TM1大于閾值85小于閾值100即為耕地,否則為林地。為了區(qū)別竹林和針闊葉林,通過波譜特征分析以及反復試驗,TM1-TM4大于閾值0即為竹林,否則為針葉林或者為闊葉林。在區(qū)別針葉林和闊葉林中,通過試驗以及波譜分析,最終確定TM1大于閾值75即為闊葉林,否則為針葉林。具體的決策樹模型如圖4所示。
圖4 遙感影像決策樹分類模型Fig.4 Remote sensing image classif i cation based on decision tree classif i cation model
在ENVI4.8軟件中,利用決策樹分類模型對研究區(qū)進行分類,并進行分類后處理,因為在分類結果中不可避免地會產生一些面積很小的圖斑。無論從專題制圖還是從實際應用的角度,都有必要對這些小圖斑進行剔除或者重新分類。目前常用的方法有Majority/Minority分析、聚類處理和過濾處理。本研究主要是采Majority/Minority分析方法,此方法采用類似于卷積濾波的方法將較大類別中的虛假像元歸到該類中,定義一個變換核尺寸,用變換核中占主要地位的像元類別代替中心像元的類別。分類結果如圖5所示。
通過精度分析,分類者能夠確定分類的有效性以及改變分類模型,從而提高分類精度。使用者可以從分類結果中正確有效地獲取分類結果中的信息。在選取了良好的采樣方案和可靠的樣本數據的基礎上,對精度評價指標進行分類精度評價。通過野外調查固定樣點記錄的地類經緯度資料及二類調查森林資源分布圖,精確地在遙感圖像上選取各類地表真實感興趣區(qū),建立混淆矩陣,計算各種統(tǒng)計量,并進行統(tǒng)計檢驗,計算得出Kappa系數、總體精度、用戶精度、制圖精度、漏分誤差、錯分誤差等分類精度。分類精度結果見表2。
圖5 決策樹分類結果Fig. 5 Result of decision tree classif i cation
表2 決策樹分類精度Table 2 Decision tree classification accuracy
由表2可知,基于決策樹模型分類的總體精度為87.210 1%,Kappa系數為0.850 6,高于一般的監(jiān)督分類以及非監(jiān)督分類的精度;從錯分精度來看,闊葉林以及竹林錯分精度比較高,建設用地錯分精度最低;從漏分精度來看,建設用地漏分精度最高,高達32.92%,漏分精度最低的是水域;從制圖精度來看,精度最高的是建設用地,為99.09%, 除了未利用地的制圖精度低于80%外,其它都高于80%,制圖精度都比較好,得到了比較好的分類效果。
在ENVI4.8 中把分類的影像矢量化,導出矢量圖層,通過ARCGIS軟件把株洲各縣界行政矢量圖與該圖層進行相交處理,并計算分類后各類的面積,得到林地面積為703 421.49 hm2,其中針葉林面積為506 283.08 hm2,闊葉林面積為192 337.35 hm2,竹林面積為4 801.06 hm2,非林地面積為422 470.61 hm2,林地覆蓋率為62.5%。從空間分布來看,攸縣林地面積為162 245.26 hm2,株洲縣林地面積為45 074.21 hm2,茶陵縣林地面積為175 437.05 hm2,醴陵市林地面積為134 074.48 hm2,炎陵縣林地面積為175 680.61 hm2,株洲市區(qū)林地面積為10 909.88 hm2,分別占株洲林地面積的23.1%、6.4%、24.9%、19.1%、25.0%、1.6%。株洲的林地主要分布在東南部的攸縣、茶陵縣、炎陵縣3個縣,占株洲林地面積的73.0%。
(1)基于決策樹的分類方法的森林信息提取獲得了比較好的效果。通過典型地類波譜信息以及各植被指數的分析,并找出森林信息提取精度比較高的決策樹閾值,為計算機自動分類的流程化和自動化提供了基礎。
(2)從分類精度來看,基于決策樹模型分類的總體精度為87.210 1%,Kappa系數為0.850 6,高于一般的監(jiān)督分類以及非監(jiān)督分類的精度。水域的分類精度最高,針葉林、闊葉林、竹林由于光譜特征相似程度比較高,地物情況相對比較復雜,出現了較多的錯分情況。
(3)利用歸一化植被指數、歸一化差異水體指數可以更好地區(qū)分植被與非植被以及水體與非水體,通過典型地物波譜分析以及反復的實驗,得出了區(qū)分植被與非植被NDVI的閾值為0.3,即大于0.3為植被,反之則為非植被;區(qū)分水體與非水體NDWI的閾值為1.5,即大于1.5為水體,反之則為非水體。
(4)分類結果表明株洲市林地面積為703 421.49 hm2,非林地面積為422 470.61 hm2,林地覆蓋率為62.5%。從空間分布來看,林地主要分布在東南部的攸縣、茶陵縣、炎陵縣3個縣,占株洲市林地面積的73.0%。
總體分類效果比較好,可以滿足一般性研究分析的精度要求,但是基于決策樹的分類方法還存在不能充分利用分類地物的空間特征、分類決策規(guī)則與專家系統(tǒng)不易結合等缺點,在實際生產應用中還需要進一步深入研究以提高精度,如加入DEM(坡度、坡向)及其它地學先驗知識等來輔助分類,使該方法更具有實用價值。
[1] 楊 桄,劉湘南.遙感影像解譯的研究現狀和發(fā)展趨勢[J].國土資源遙感,2004,15(2):7-10.
[2] Rouse J W, Haas R H, Schell J A. Monitoring vegetation systems in the Great Plains with ERTS[J]. NASA: Third ERTS Symposium,1973, SP-351,1:309-317.
[3] 徐涵秋.基于譜間特征和歸一化指數分析的城市建筑用地信息提取[J].地理研究,2005,24(2):311-320.
[4] 徐涵秋.利用改進的歸一化差異水體指數(NDWI)提取水體信息的研究[J].遙感學報,2005,9(5):589-595.
[5] 汪金花,張永彬,孔改紅.譜間關系法在水體特征提取中的應用[J].礦山測量,2004,4:30-32.
[6] 陳華芳,王金亮,陳 忠,等.山地高原地區(qū)TM影像水體信息提取方法比較—以香格里拉縣部分地區(qū)為例[J].遙感技術與應用,2004,19(6):479-484.
[7] 李 爽,張二勛.基于決策樹的遙感影像分類方法研究[J].地域研究與開發(fā),2003,22(1):17-21.
[8] Friedl M A, Brodley C E. Decision Tree Classification of Land Cover from Remotely Sensed Data[J]. Remote Sensing Environment, 1997,61(3):399-409.
[9] McIver D K, Friedl M A. Using Prior Probabilities in Decisiontree Remotely Sensed Data[J]. Remote Sensing of Environment,2002,81:253-261.
[10] 張 爽,劉雪華,靳 強.決策樹學習方法應用于生境景觀分類[J].清華大學學報:自然科學版,2006,46(9):18-36.
[11] 陳寶政,蔡德利,張有利,等.利用決策樹對TM遙感影像的分類研究[J].黑龍江八一農墾大學學報,2010,1:79-82.
[12] 申文明,王文杰,羅海江,等.基于決策樹分類技術的遙感影像分類方法研究[J].遙感技術與應用,2007,22(3):333-337.
[13] 韓 濤.用TM資料對祁連山部分地區(qū)進行針葉林、灌木林分類研究[J].遙感技術與應用,2002,17(6):317-321.
[14] 孫 華,林 輝,莫登奎,等.面向對象的決策樹分類技術[J].中南林業(yè)科技大學學報,2007,27(4):40-41.
[15] 溫興平,胡光道,楊曉峰.基于C5.0決策樹分類算法的ETM+影像信息提取[J].地理與地理信息科學,2007,23(6):26-29.
[16] 李小娟,宮兆寧,劉曉萌,等.ENVI遙感影像處理教程[M].北京:中國環(huán)境科學出版社,2007:300-322.
[17] 鄧書斌. 遙感圖像處理方法[M].北京:科學出版社,2010:56-99.
[18] 陳 利,林 輝,孫 華.基于SPOT 5影像冷水江市巖溶區(qū)石漠化時空演變研究[J].中南林業(yè)科技大學學報,2012,32(8): 22-27.
[18] 湯國安,張友順,劉詠梅,等.遙感數字圖像處理[M].北京:科學出版社,2004:15-28 .
[20] 戴昌達,雷莉萍.TM圖像的光譜信息特征與最佳波段組合[J].環(huán)境遙感,1989(4) :4-7.
[21] 桂 玲,孫 華,陳 利.基于中等分辨率遙感影像的桃源縣竹林信息提取研究[J].中國農學通報,2012,28(01):85-91.
[22] 劉建平,趙時英,孫淑玲.高光譜數據最佳波段選擇方法試驗研究[J].遙感技術與應用, 2001, 16(1): 7-13.
[23] 田慶久,閔祥軍.植被指數研究進展[J].地球科學進展,1998,13(4): 327-333.
Studies on information extraction of forest in Zhuzhou city based on decision tree classif i cation
CHEN Li1, LIN Hui1, SUN Hua1, YAN En-ping1, WANG Jia-jun2
(a. Research Center of Forestry Remote Sensing & Information Engineering; b. School of Forestry, Central South University of Forestry and Technology, Changsha 410004, Hunan, China )
By taking the forests in as the research object, using the TM remote sensing images taken in Oct. 2009 and ground-f i xed sample plots data, the land use classif i cation of Zhuzhou city was investigated. The spectrum curves of various land type on the TM remote sensing images were extracted and analyzed, the normalized differential vegetation index (NDVI) and normalized water vegetation index(NWVI) were obtained. According to the curves and indexes, the decision tree model of classif i cation was established.After repeated classif i cation test, the threshold value of decision tree classif i cation model was determined fi nally. The results show that through the analysis and test of typical geography objects spectrum, the NDVI threshold values were obtained, the NDVI distinguishing vegetation from non-vegetation was 0.3, namely the images that threshold with value greater than 0.3 is vegetation, contrarily is nonvegetation; the NWVI distinguishing water from non-water was 1.5, namely more than 1.5 is water, less than is non-water. From the results of classif i cation based on decision tree classif i cation model, the overall accuracy was 87.21%, the Kappa coeff i cient was 0.8506,the woodlands in Zhuzhou area was 703 421.49 hm2, non-forest land area was 422 470.61 hm2, the forest coverage rate was 62.5%,mainly in the south-east of Youxian, Chaling county, Yanling county, which occupies the entire Zhuzhou area forest land area by 73%.
forest information;remote sensing information; decision tree classif i cation; information extraction
S771.8
A
1673-923X(2013)01-0046-06
2012-10-10
“十二五”國家高技術研究發(fā)展計劃(863計劃)課題(2012AA102001):“數字化森林資源監(jiān)測關鍵技術研究”;林業(yè)公益性行業(yè)科研專項(201104028):“林分結構與生長模擬技術研究”;國家重大專項項目(E0305/1112/02):“高分濕地資源應用監(jiān)測示范”;湖南省高??萍汲晒a業(yè)化培育項目(11CY019)
陳 利(1987-),男,湖南衡陽人,碩士生,研究方向:林業(yè)遙感和地理信息系統(tǒng);E-mail:csufcl@126.com
林 輝(1965-),女,湖北黃岡人,教授,博士,博士生導師,主要從事森林經理學、遙感技術與地理信息系統(tǒng)的教學和科研工作
[本文編校:謝榮秀]