田紹鴻, 張顯峰
(北京大學遙感與地理信息系統(tǒng)研究所,北京 100871)
?
采用隨機森林法的天繪數(shù)據(jù)干旱區(qū)城市土地覆蓋分類
田紹鴻, 張顯峰
(北京大學遙感與地理信息系統(tǒng)研究所,北京100871)
摘要:基于天繪一號(TH-1,或稱MS-1)衛(wèi)星多光譜數(shù)據(jù),采用隨機森林分類方法(random forests classification,RFC)對位于中亞干旱區(qū)的我國新疆維吾爾自治區(qū)阿勒泰地區(qū)北屯市及周邊區(qū)域的土地覆蓋進行了分類研究。針對北屯市不透水層與裸土混雜的情況,將紋理特征與植被信息構建最優(yōu)組合,建立有效的RFC分類器,提高對易混淆土地覆蓋類型的分類識別精度。結果表明,采用RFC的分類精度高于最大似然法分類結果,總體分類精度提高了近10%。經過優(yōu)化選擇的特征組合在對干旱區(qū)中小城市土地覆蓋進行分類時表現(xiàn)良好,能得到較高精度的分類結果,可滿足新疆中小城市發(fā)展規(guī)劃對土地覆蓋信息的需求。
關鍵詞:天繪一號(TH-1); 隨機森林; 特征選擇; 土地覆蓋分類; 干旱區(qū)
0引言
我國中西部地區(qū)的城市大多位于干旱半干旱區(qū)域,受地形等自然因素的影響,城市的輪廓特征以及城市類群的分布都不十分規(guī)則[1]。采用遙感技術對中西部干旱區(qū)的城市區(qū)域土地覆蓋進行監(jiān)測是一種低成本、高效率的手段。最大似然分類法(maximum likelihood classification,MLC)被認為是穩(wěn)定性較好的統(tǒng)計分類器[2],如果圖像數(shù)據(jù)在特征空間中的分布較復雜、離散或訓練樣本不具代表性,可能會造成統(tǒng)計結果與實際分布的偏差較大、分類精度下降。許多學者提出了MLC的改進算法[2-3]以及基于支持向量機(support vector machines,SVM)理論和人工神經網(wǎng)絡(artificial neural network,ANN)模型的分類方法[4-7],取得了很好的分類效果。然而,傳統(tǒng)的基于統(tǒng)計和非統(tǒng)計的分類算法對地物類型的劃分都只進行單次決策,其分類結果受遙感圖像噪聲干擾以及“同物異譜”、“同譜異物”現(xiàn)象的存在會出現(xiàn)較多的錯分、漏分現(xiàn)象,導致分類精度不高。為解決上述問題,集成學習與多分類器系統(tǒng)被引入遙感土地覆蓋分類研究中,并在理論上被證明比單一分類器得到的分類結果更好[8]。其中,Breiman[9]提出的隨機森林分類(random forests classification,RFC)是目前有效的分類器集成策略,該方法對噪聲具有較強的容忍度和較低的泛化誤差[10]。研究表明,RFC方法非常適合于土地覆蓋分類[11],在對Landsat TM/ETM+多光譜圖像數(shù)據(jù)、高光譜航空遙感數(shù)據(jù)、機載LiDAR數(shù)據(jù)等進行土地覆蓋分類的研究中,RFC方法都取得了較好的分類效果[12-15]。目前國內僅有少數(shù)學者將RFC方法應用于遙感圖像分類[16-18],但針對快速發(fā)展的我國中西部城市區(qū)域基于RFC的土地覆蓋分類研究尚不多見。
本文基于天繪一號(TH-1,或稱MS-1)衛(wèi)星多光譜數(shù)據(jù),針對干旱區(qū)城市區(qū)域土地覆蓋分類的特點,利用RFC方法,通過特征選擇與優(yōu)化,建立基于RFC的新疆維吾爾自治區(qū)北屯市土地覆蓋分類方法,探索適合干旱區(qū)城市區(qū)域土地覆蓋分類的方法,旨在為新疆城市化發(fā)展規(guī)劃提供土地覆蓋信息,并進一步推進TH-1衛(wèi)星圖像的應用。
1研究區(qū)與數(shù)據(jù)源
1.1研究區(qū)概況
新疆維吾爾自治區(qū)北屯市(E 87°45′14.2″~87°51′31.5″,N 47°18′37.8″~47°22′58.7″)地處阿爾泰山南麓、準噶爾盆地北緣,毗鄰阿勒泰市和福海縣; 屬溫帶大陸性氣候,年平均氣溫3.6~3.9℃,干旱少雨; 主要地貌類型為平原和河流,市區(qū)沿著名的額爾齊斯河東西向延伸; 地勢較平坦,光照充足,農牧業(yè)生產條件較好,土地開發(fā)潛力較大。
該區(qū)域土地覆蓋分類的難點主要在于: ①空間異質性強。在景觀上,干旱區(qū)的城市多為近鄰水資源的人工綠洲,形成了在大范圍荒漠草地、戈壁沙漠之中鑲嵌的人工綠洲異質體。在遙感圖像中,即使同一類覆蓋類型也會呈現(xiàn)出不一致的光譜特征,即“同物異譜”現(xiàn)象,這一現(xiàn)象一旦出現(xiàn)將給遙感分類增加很大難度; ②不透水層與透水層混合。在干旱區(qū),城市的景觀格局分布分散,城市規(guī)模小,城市中的不透水層覆蓋過重會影響地下水的補充,因此位于干旱區(qū)的城市區(qū)域呈現(xiàn)不透水層和透水層混合分布的狀況。干旱區(qū)土壤含水量較低,鹽堿化嚴重,存在難以區(qū)分裸露土壤與不透水層的情況,也會給遙感分類帶來困難; ③水體水位變異大。因河流多為季節(jié)河,水位變化大,往往導致水體輪廓點不能用作幾何糾正的參考點,這給水體/水系的分類帶來了難度; ④裸土光譜差異大。人工綠洲的耕地中,土壤經人工改造有機質含量豐富,土壤礦物如氧化鐵等含量高,會導致土壤在可見光波段范圍出現(xiàn)多個異常的吸收特征[19]。如沙漠結皮往往表現(xiàn)出一定的植被特性或低反射特性,在多光譜遙感圖像中易被識別為植被或濕潤土壤甚至水體。干旱區(qū)土地覆蓋的以上特點,導致了傳統(tǒng)的遙感分類法難以取得令人滿意的結果; 而在訓練樣本不全、噪聲干擾強以及地物光譜特征不顯著的情況下,引入機器學習的模式識別機制和集成學習的投票策略是提高干旱區(qū)土地覆蓋分類精度的有效手段。
1.2數(shù)據(jù)源及其預處理
本文使用的遙感數(shù)據(jù)是天繪一號(TH-1,或稱MS-1)衛(wèi)星多光譜圖像,獲取時間為2013年9月26日,包括4個空間分辨率為10 m的多光譜波段和空間分辨率為2 m的全色波段數(shù)據(jù)。該圖像覆蓋了北屯市市區(qū)及其周邊部分區(qū)域。對數(shù)據(jù)進行輻射校正和幾何糾正等預處理,得到待分類的TH-1圖像。
研究使用的參考數(shù)據(jù)是以研究區(qū)土地利用調查數(shù)據(jù)及QuickBird數(shù)據(jù)為基準繪制的北屯市及周邊土地覆蓋類型圖。對所得結果通過地面采樣點進行驗證,用于對土地覆蓋類型分類精度的比較分析。
2隨機森林分類方法
2.1RFC的原理
隨機森林分類是以決策樹為基本分類器的一個集成學習模型[20-21]。單個決策樹在數(shù)據(jù)復雜或存在噪聲干擾情況下,得到的分類規(guī)則容易出現(xiàn)“過擬合”,致使泛化誤差增大,造成對總體樣本的分類精度下降; 而RFC包含多個通過訓練樣本集成學習得到的決策樹,從而較好地克服了單個決策樹的過擬合問題。RFC對噪聲和異常值的容忍性較好,已被廣泛應用于各類數(shù)據(jù)的分類[22]。
RFC模型中的每個決策樹根據(jù)訓練集和隨機向量θk生成,最終組成的決策樹集合就是RFC模型{h(X,θk),k=1,2,…K},其中X是輸入變量。每一個決策樹模型h(X,θk)都有一票投票權用于選擇輸入變量X的分類結果。經過K輪訓練,可根據(jù)訓練集得到一個分類模型序列{h1(X),h2(X),…,hk(X)},也就形成了RFC模型。對樣本集的分類結果則由每個分類模型的分類結果通過投票決定,即
(1)
式中:H(X)為RFC模型;hi(X)為單個決策樹分類模型;X為輸入變量;Y為目標變量(或分類目標);I(·)為示性函數(shù)。RFC模型使用簡單的投票策略來完成最終的分類(圖1)。
圖1 隨機森林分類過程示意圖
RFC方法具有泛化誤差收斂和袋外估計無偏性2個特性。
1)泛化誤差收斂。根據(jù)RFC分類模型序列{h1(X),h2(X),…,hk(X)}定義模型的余量函數(shù)為
mr(X,Y)=avkI[h(X,θk)=Y]-maxj≠YavkI[h(X,θk)=j] ,
(2)
式中:mr(X,Y)為余量函數(shù);avk(·)為均值運算;h(X,θk)為分類模型序列。余量函數(shù)反映了輸入樣本X的正確分類Y的得票數(shù)高于錯誤分類得票最多類別的程度,因此余量函數(shù)越大,RFC模型的置信度越高。
s=EX,Y[mr(X,Y)] ,
(3)
(4)
式中:E(·)與sd(·)分別表示數(shù)學期望與標準差。Breiman[9]證明了RFC模型的泛化誤差上界為
(5)
2)袋外估計無偏性。從原始樣本集中隨機取樣時,約有37%的樣本不會被選中,這一部分未被選中的袋外數(shù)據(jù)(out-of-bag,OOB)可用于估計組合樹模型的泛化誤差、分類強度和相關系數(shù); 對于每一個決策樹都可以使用OOB得到一個誤差估計,將RFC中所有決策樹的OOB誤差估計取平均值,可以評估RFC模型的泛化誤差。Breiman[9]通過實驗證明,OOB誤差估計是無偏的。RFC模型各個決策樹的建立是并行的,可在構建各個決策樹的同時對OOB誤差進行計算,故通過少量計算即可在短時間內完成模型的誤差估計,減少計算量。Breiman根據(jù)Wolpert等[24]對裝袋預測泛化誤差方法的研究,證明了袋外估計與使用全樣本集進行測試得到誤差估計具有相同的精度。OOB估計的無偏性在很大程度上提高了RFC模型的運行效率,也為分類結果的精度驗證提供了理論依據(jù)。
2.2基于RFC的土地覆蓋分類
2.2.1分類體系的確定
在TH-1衛(wèi)星圖像上研究區(qū)可清晰識別出的典型地表覆蓋類型有荒地(如沙地)、林地、草地、河流、河漫灘、建筑、道路、綠化帶、耕地、湖泊以及硬化地面(如水泥地等)。參考《GBT_21010—2007土地利用現(xiàn)狀分類標準》,結合研究區(qū)遙感圖像以及干旱區(qū)土地覆蓋遙感分類的特點,確定分類體系為: 小麥田(011)、玉米地(012)、稀林地(021)、荒漠草地(031)、建筑(041)、道路(051)、水體(061)以及其他用地(071)。
2.2.2RFC分類的實現(xiàn)
基于RFC的原理,根據(jù)目標數(shù)據(jù)選擇訓練樣本,通過對訓練區(qū)中樣本數(shù)據(jù)的分析建立分類決策規(guī)則或判別函數(shù),根據(jù)確定的8個類別選取響應的訓練區(qū)。RFC的實現(xiàn)基于ENVI/IDL軟件,采用懷卡托智能分析環(huán)境(Waikato environment for knowledge analysis,WEKA)開展分類研究。根據(jù)研究區(qū)TH-1圖像中主要地表覆蓋類型的光譜及空間分布特征的分析,為提高組合決策樹的分類精度,在TH-1原始4個多光譜波段數(shù)據(jù)的基礎上納入全色波段信息、植被指數(shù)信息和紋理特征信息,構建了多個特征數(shù)據(jù)集,依次對各特征的有效性進行評價與分析,以選取最優(yōu)化的分類特征集。
3結果與分析
3.1選取最優(yōu)分類特征集
TH-1遙感圖像全色波段的星下空間分辨率為2 m,包含地物大量的結構與紋理特征信息。將全色波段、從全色波段提取的紋理以及4個多光譜波段構成分類特征集; 在此基礎上,進行特征的有效性檢驗,構成優(yōu)化后的分類特征子集。
3.1.1加入紋理特征
在研究區(qū),建筑和道路都具有類似水泥表面的光譜特征,這也是傳統(tǒng)的分類方法難以將二者準確分開的原因。根據(jù)建筑的排列特點,密集低矮的樓群在遙感影像上表現(xiàn)出良好的紋理特征,因此將紋理特征作為參數(shù)引入分類器,可有效改善分類結果(表1)。
表1 基于紋理特征的樣本分類精度
注: ①MS表示多光譜波段; ②Pan表示全色波段; ③Texture表示從全色波段提取的紋理。
由表1可見,加入紋理特征后建筑的分類精度提高了約20%,在分類中紋理能有效地判別城市中非建筑硬化地表(其他用地的一部分,紋理特征不明顯)和建筑用地(紋理特征明顯)。北屯市區(qū)建筑高度較低,其光譜特征受地面背景的影響較大,在沒有紋理特征的數(shù)據(jù)中,建筑容易被錯分為其他用地; 加入紋理特征后,對建筑的分類效果明顯提高。建筑用地的紋理信息與其他覆蓋類型有明顯的區(qū)別,在決策樹節(jié)點分裂時,依靠紋理特征分裂的節(jié)點能保證含有建筑用地的節(jié)點擁有較高的純度,在對建筑用地的判定時表現(xiàn)出較高的準確性。
3.1.2利用植被信息
歸一化差值植被指數(shù)(normalized difference vegetation index,NDVI)被廣泛應用于監(jiān)測植被生長狀態(tài)、植被覆蓋度等領域,能有效地反映植物冠層的背景影響(如土壤、雪蓋等)。差值植被指數(shù)(difference vegetation index,DVI)為近紅外波段(NIR)的反射率與紅光波段(R)的反射率之差,與NDVI相比,DVI對高植被覆蓋區(qū)域的敏感性更強; 但因DVI沒有進行數(shù)值歸一化,故對植被覆蓋類型的聚類較差。研究區(qū)NDVI分布在0~0.47之間,而DVI分布在0.88~117之間。對待分類數(shù)據(jù)中的上述2個植被指數(shù)按照稀林地、玉米地、荒漠草地、小麥田等4種植被覆蓋類型進行統(tǒng)計,得到4種植被覆蓋類型對應的NDVI和DVI: 稀林地NDVI為0.27~0.47,DVI為40~117; 玉米地NDVI為0.15~0.28,DVI為20~52; 荒漠草地NDVI為0.06~0.22,DVI為12~29; 小麥田的NDVI為0.03~0.12,DVI為6~22。
研究區(qū)在TH-1圖像獲取時小麥已基本收割完畢,田中主要剩余秸稈; 荒漠草地為該區(qū)域主要的天然植被覆蓋,蓋度較低; 而玉米地和稀林地的植被覆蓋度較高,由于NDVI對低植被覆蓋較敏感而DVI對較高植被覆蓋的區(qū)分效果更好,故理論上引入這2種植被指數(shù)可以提高分類的準確度。對檢驗樣本進行精度檢驗,以分析2個植被指數(shù)特征對各類地表覆蓋分類情況的影響(表2)。
表2 加入植被指數(shù)后的樣本分類精度
植被指數(shù)對植被覆蓋的分類精度影響較大,對非植被覆蓋(如建筑、道路等)影響小。其中,NDVI對4類植被覆蓋的分類精度都提高了約5%~7%; 相比之下,DVI對高覆蓋植被類型的分類精度影響更大。4種植被覆蓋類型在植被指數(shù)上有明顯差異,對于植被覆蓋較高的林地和玉米地,DVI的區(qū)分更明顯,增加了分類的準確性; NDVI對低植被覆蓋的小麥田和荒漠草地判別效果更好,并對植被和非植被的區(qū)分起到很大作用。
3.1.3優(yōu)化選擇紋理特征
為探索干旱區(qū)城市區(qū)域土地覆蓋類型分類的適宜方法,分別對全色波段基于灰度共生矩陣計算生成的方差、對比度、相異性和信息熵4種紋理進行了分類實驗,并對分類結果進行了檢驗。結果表明,方差紋理的分類精度最高,4種紋理類型對分類結果的影響差異并不明顯,最低的相異性紋理只比方差紋理低約1.5%。進一步選用了不同的原始數(shù)據(jù)進行實驗,分別是全色波段數(shù)據(jù)、大氣衰減效應較低的紅光波段數(shù)據(jù)以及經過主成分變換后包含主要亮度信息的第一主成分和包含主要結構信息的第二主成分數(shù)據(jù)。經過對分類結果的精度檢驗,由全色波段數(shù)據(jù)計算產生的方差紋理在4種數(shù)據(jù)中的分類精度最高,其次為紅光波段; 對比2個主成分信息的分類結果,使用第二主成分的分類效果好于第一主成分,表明第一主成分數(shù)據(jù)中包含過于集中的各種信息反而壓抑了紋理特征的表達,相比之下第二主成分數(shù)據(jù)生成的紋理信息更為有效,但總體來說2個主成分信息對4種地物的分類精度影響很小,僅在1%左右。
由于紋理特征對分類結果的影響主要表現(xiàn)在對建筑用地和其他用地錯分的糾正,而TH-1圖像中建筑用地的紋理特征較明顯,從而會優(yōu)化對這2類地物覆蓋類型的判別,所以紋理特征對最后分類的總體精度影響并不十分明顯。經比較認為使用全色波段數(shù)據(jù)計算的方差紋理得到的分類效果最好。
3.2分類精度評價
在傳統(tǒng)的分類方法中,基于統(tǒng)計模式識別原理的MLC是最常用且分類結果穩(wěn)定性較好的分類器,在樣本數(shù)增多時分類效果的收斂性好,運算速度也較快,因此在遙感圖像分類上得到了廣泛的應用[25]。本文分別利用MLC和RFC對北屯市的TH-1圖像數(shù)據(jù)進行了分類實驗(圖2)。分類特征集由上述優(yōu)化選擇的4個多光譜波段+全色波段+方差紋理+NDVI+DVI構成。結果表明,RFC與MLC對訓練樣本的分類精度分別為99.97%和71.36%,Kappa分別為0.99和0.66。
(a) RFC分類結果 (b) MLC分類結果 (c) 參考數(shù)據(jù)
圖2RFC與MLC分類結果比較
Fig.2Comparison between classification results with RFC and MLC
訓練樣本用于機器學習從而產生分類模型,所以上述結果表明了RFC模型的有效性,并且可以看出組合樹投票決策策略優(yōu)于傳統(tǒng)MLC的決策策略。為進一步評價分類效果,還利用獨立的檢驗樣本對分類結果進行了精度評價,RFC和MLC的分類精度分別為82.26%和72.61%,Kappa系數(shù)分別為0.80和0.69。用RFC方法得到的分類結果的準確性比MLC方法提高了約10%。這表明RFC方法具有更低的泛化誤差,分類性能更好,可靠性更高。比較2種分類結果混淆矩陣中的分類誤差與精度,除了對水體的分類二者差異不大外,對其他地表覆蓋類型RFC的分類結果都優(yōu)于MLC方法。其中,RFC方法對其他用地這種光譜特征噪聲較大的地表覆蓋類型分類誤差下降了約20%; RFC方法有效地利用紋理特征使建筑、道路等易錯分的土地覆蓋類型都有很好的分類效果; RFC方法對高植被覆蓋類型的分類效果明顯高于MLC方法,使稀林地、玉米地等的分類誤差下降了15%左右。對植被覆蓋分類起主要作用的特征為多光譜特征和植被指數(shù)特征,在多維向量空間中,基于組合決策樹的判別策略能使特征空間產生較好的分割; 而MLC方法則效果不好,錯分、漏分的現(xiàn)象較多(表3)。
表3 MLC與RFC混淆矩陣比較
綜上所述,RFC方法對北屯市TH-1圖像的分類結果明顯優(yōu)于傳統(tǒng)的MLC方法。根據(jù)OOB誤差估計理論,通過對訓練樣本和檢驗樣本的精度分析,驗證了RFC方法的誤差較MLC方法要小,分類結果更加可靠。北屯市位于干旱區(qū),無論是建筑用地、綠化用地還是農業(yè)用地受土壤背景的影響都比較明顯,會干擾TH-1圖像對城市區(qū)域的分類。研究表明,RFC方法較強的抗圖像噪聲能力,結合紋理信息和植被信息,可較好識別新疆中小城鎮(zhèn)不透水層與土壤,并且在對訓練樣本有很高分類精度的情況下,檢驗樣本仍然具有較高的分類精度,體現(xiàn)了RFC方法在處理“過擬合”問題上的優(yōu)良性能。
4結論
本文基于天繪一號(TH-1)衛(wèi)星遙感數(shù)據(jù)和隨機森林分類(RFC)算法,對新疆阿勒泰地區(qū)北屯市及周邊區(qū)域土地覆蓋進行了分類研究。針對干旱區(qū)中小城市區(qū)域土地覆蓋的特點,引入紋理特征與植被指數(shù)來構建優(yōu)化特征集,建立了針對北屯市土地覆蓋類型的RFC方法。結果表明: 使用TH-1數(shù)據(jù),通過RFC分類,能較好地得到北屯市區(qū)的土地覆蓋類型結果,經與參考數(shù)據(jù)對比較析,分類精度達到80%以上,證明了TH-1數(shù)據(jù)對干旱區(qū)土地覆蓋類型分類的適用性; 與傳統(tǒng)的最大似然分類方法相比,RFC方法的分類精度提高了10%左右,能更好地提取北屯市及周邊區(qū)域的土地覆蓋信息。本研究所構建的TH-1數(shù)據(jù)分類最優(yōu)特征組合中,全色波段紋理特征對建筑的提取發(fā)揮了重要作用; NDVI和DVI對減少植被覆蓋與非植被覆蓋以及不同植被覆蓋度地表類型之間的分類誤差有一定作用,優(yōu)化選擇后的分類特征組合能較好地完成對研究區(qū)土地覆蓋的分類。
雖然RFC分類相對于MLC有較高的分類精度,但對有相近光譜特性的地物進行分類時,仍然出現(xiàn)了一些錯分現(xiàn)象。為進一步提高分類精度,未來的研究應著重在優(yōu)化決策樹結構與引入模糊數(shù)學方法來改進RFC算法; 同時考慮到干旱區(qū)植被和水體的季節(jié)變化比較大,還應利用多季相遙感數(shù)據(jù)進行分類,以進一步提高分類精度。
參考文獻(References):
[1]董鎖成,王傳勝,尤飛,等.中國西部經濟社會地域分異規(guī)律研究[J].地理研究,2002,21(4):399-406.
Dong S C,Wang C S,You F,et al.On the laws of territorial differentiation of socio-economic development in western China[J].Geographical Research,2002,21(4):399-406.
[2]駱劍承,王欽敏,馬江洪,等.遙感圖像最大似然分類方法的EM改進算法[J].測繪學報,2002,31(3):234-239.
Luo J C,Wang Q M,Ma J H,et al.The EM-based maximum likelihood classifier for remotely sensed data[J].Acta Geodaetica et Cartographica Sinica,2002,31(3):234-239.
[3]Ediriwickrema J,Khorram S.Hierarchical maximum-likelihood classification for improved accuracies[J].IEEE Transactions on Geoscience and Remote Sensing,1997,35(4):810-816.
[4]譚琨,杜培軍.基于支持向量機的高光譜遙感圖像分類[J].紅外與毫米波學報,2008,27(2):123-128.
Tan K,Du P J.Hyperspectral remote sensing image classification based on support vector machine[J].Journal of Infrared and Millimeter Waves,2008,27(2):123-128.
[5]毛建旭,王耀南.基于神經網(wǎng)絡的遙感圖像分類[J].測控技術,2001,20(5):29-30.
Mao J X,Wang Y N.Remote sensing image classification based on neural network[J].Measurement and Control Technology,2001,20(5):29-30.
[6]李強,王正志.基于人工神經網(wǎng)絡和經驗知識的遙感信息分類綜合方法[J].自動化學報,2000,26(2):233-239.
Li Q,Wang Z Z.Remote sensing information classification based on artificial neural network and knowledge[J].Acta Automatica Sinica,2000,26(2):233-239.
[7]王耀南.小波神經網(wǎng)絡的遙感圖像分類[J].中國圖象圖形學報,1999,4(5):368-371.
Wang Y N.A classification of remote sensing image using wavelet neural network[J].Journal of Image and Graphics,1999,4(5):368-371.
[8]Giacinto G,Roli F.An approach to the automatic design of multiple classifier systems[J].Pattern Recognition Letters,2001,22(1):25-33.
[9]Breiman L.Random forests[J].Machine Learning,2001,45(1):5-32.
[10]Rodríguez-Galiano V F,Abarca-Hernández F,Ghimire B,et al.Incorporating spatial variability measures in land-cover classification using Random Forest[J].Procedia Environmental Sciences,2011,3:44-49.
[11]Gislason P O,Benediktsson J A,Sveinsson J R.Random forests for land cover classification[J].Pattern Recognition Letters,2006,27(4):294-300.
[12]Ham J,Chen Y C,Crawford M M,et al.Investigation of the random forest framework for classification of hyperspectral data[J].IEEE Transactions on Geoscience and Remote Sensing,2005,43(3):492-501.
[13]Chan J C W,Paelinckx D.Evaluation of random forest and adaboost tree-based ensemble classification and spectral band selection for ecotope mapping using airborne hyperspectral imagery[J].Remote Sensing of Environment,2008,112(6):2999-3011.
[14]Guo L,Chehata N,Mallet C,et al.Relevance of airborne LiDARand multispectral image data for urban scene classification using Random Forests[J].ISPRS Journal of Photogrammetry and Remote Sensing,2011,66(1):56-66.
[15]Yuan F,Sawaya K E,Loeffelholz B C,et al.Land cover classification and change analysis of the Twin Cities(Minnesota) Metropolitan area by multitemporal Landsat remote sensing[J].Remote sensing of Environment,2005,98(2/3):317-328.
[16]劉毅,杜培軍,鄭輝,等.基于隨機森林的國產小衛(wèi)星遙感影像分類研究[J].測繪科學,2012,37(4):194-196.
Liu Y,Du P J,Zheng H,et al.Classification of China small satellite remote sensing image based on random forests[J].Science of Surveying and Mapping,2012,37(4):194-196.
[17]楊耘,徐麗,顏佩麗.條件隨機場框架下基于隨機森林的城市土地利用/覆蓋遙感分類[J].國土資源遙感,2014,26(4):51-55.doi:10.6046/gtzyyg.2014.04.09.
Yang Y,Xu L,Yan P L.Urban land use/cover classification of remote sensing using random forests under the framework of conditional random fields[J].Remote Sensing for Land and Resources,2014,26(4):51-55.doi:10.6046/gtzyyg.2014.04.09.
[18]張修遠,劉修國.基于隨機森林算法的高維模糊分類研究[J].國土資源遙感,2014,26(2):87-92.doi:10.6046/gtzyyg.2014.02.15.
Zhang X Y,Liu X G.Study of high-dimensional fuzzy classification based on random forest algorithm[J].Remote Sensing for Land and Resources,2014,26(2):87-92.doi:10.6046/gtzyyg.2014.02.15.
[19]魏娜,姚艷敏,陳佑啟.高光譜遙感土壤質量信息監(jiān)測研究進展[J].中國農學通報,2008,24(10):491-496.
Wei N,Yao Y M,Chen Y Q.The advance of soil quality information monitoring by hyperspectral remote sensing[J].Chinese Agricultural Science Bulletin,2008,24(10):491-496.
[20]Breiman L.Bagging predictors[J].Machine Learning,1996,24(2):123-140.
[21]Ho T K.The random subspace method for constructing decision forests[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(8):832-844.
[22]方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述[J].統(tǒng)計與信息論壇,2012,26(3):32-38.
Fang K N,Wu J B,Zhu J P,et al.A review of technologies on random forests[J].Statistics and Information Forum,2012,26(3):32-38.
[23]董師師,黃哲學.隨機森林理論淺析[J].集成技術,2013,2(1):1-7.
Dong S S,Huang Z X.A brief theoretical overview of random forests[J].Journal of Integration Technology,2013,2(1):1-7.
[24]Wolpert D H,Macready W G.An efficient method to estimate bagging’s generalization error[J].Machine Learning,1999,35(1):41-55.
[25]Otukei J R,Blaschke T.Land cover change assessment using decision trees,support vector machines and maximum likelihood classification algorithms[J].International Journal of Applied Earth Observation and Geoinformation,2010,12(1):27-31.
(責任編輯: 李瑜)
Random forest classification of land cover information of urban areas in arid regions based on TH-1 data
TIAN Shaohong, ZHANG Xianfeng
(InstituteofRemoteSensingandGIS,PekingUniversity,Beijing100871,China)
Abstract:Random-forest classification(RFC)method was used to extract the land cover information from the TH-1 satellite remotely sensed multispectral data in Beitun Town and its adjacent areas within the arid region of Altay,Xinjiang. Owing to the mixture of the impervious covers and the exposed soils inside the city, the textural and vegetation features were derived from the TH-1 panchromatic image and multispectral bands and subsequently applied to creating optimal feature set so as to implement the RFC classification. The optimized classifier can achieve better identification of some confused land cover classes. The results show that the RFC possesses higher accuracy than the conventional maximum likelihood classification(MLC)with the same TH-1 image, with their total accuracy being 82.26% and 72.61%, respectively. In addition, favorable applicability is observed in the land cover classification in the arid urban region using optimized combined multi-feature methods, which can provide land cover information for the urban development and planning in the medium and small cities of Xinjiang.
Keywords:TH-1;random forests;feature selection;land-cover classification;arid regions
通信作者:張顯峰(1967-),男,副教授,主要從事生態(tài)遙感、高光譜遙感數(shù)據(jù)智能處理與分析、遙感數(shù)據(jù)同化模擬等方面的研究。Email: xfzhang@pku.edu.cn。
作者簡介:第一 田紹鴻(1991-),男,碩士研究生,主要從事生態(tài)遙感、遙感數(shù)據(jù)智能處理與分析等方面的研究。Email: shaohongtian@pku.edu.cn。
中圖法分類號:TP 751.1
文獻標志碼:A
文章編號:1001-070X(2016)01-0043-07
基金項目:國家科技支撐計劃項目“新疆重大突發(fā)事件應急響應技術與應用”(編號: 2012BAH27B03)和新疆建設兵團援疆項目“基于小型無人機遙感的額河流域自然災害防控關鍵技術研究”(編號: 2014AB021)。
收稿日期:2014-09-30;
修訂日期:2014-12-03
doi:10.6046/gtzyyg.2016.01.07
引用格式: 田紹鴻,張顯峰.采用隨機森林法的天繪數(shù)據(jù)干旱區(qū)城市土地覆蓋分類[J].國土資源遙感,2016,28(1):43-49.(Tian S H,Zhang X F.Random forest classification of land cover information of urban areas in arid regions based on TH-1 data[J].Remote Sensing for Land and Resources,2016,28(1):43-49.)