秦夢宇 趙赫
摘? 要:與傳統(tǒng)的信息提取方法相比,將機器學習算法應用到遙感影像信息提取中,可以提高結果的精度,文章以WorldView-2遙感影像為例,首先利用多尺度分割選取最優(yōu)分割尺度,獲得影像對象。在基于對象的基礎上利用特征空間優(yōu)選工具獲得最優(yōu)特征子集,最后利用J48算法、隨機森林算法對建筑物提取的效果進行分析。實驗結果表明:J48算法在高分辨率影像建筑物提取中有更好地效果。
關鍵詞:WorldView-2;面向對象;J48;隨機森林;建筑物
中圖分類號:TP751? ? ? ? ?文獻標志碼:A? ? ? ? ?文章編號:2095-2945(2020)10-0129-02
Abstract: Compared with the traditional information extraction methods, the application of machine learning algorithm to remote sensing image information extraction can improve the accuracy of the results. Taking WorldView-2 remote sensing image as an example, firstly, the optimal segmentation scale is selected by multi-scale segmentation, and the image object is obtained. On the basis of object-based, the optimal feature subset is obtained by using feature space optimization tool. finally, J48 algorithm and random forest algorithm are used to analyze the effect of building extraction. The experimental results show that J48 algorithm is more effective in building extraction from high-resolution images.
Keywords: WorldView-2; object-oriented; J48; random forest; building
隨著技術的發(fā)展,遙感影像空間分辨率不斷提高,高分辨率影像的細節(jié)信息越來越顯著。傳統(tǒng)的基于像元的信息提取方法,偏重于地物的光譜特征,而忽略了例如幾何、紋理、上下文等特征,已經不能滿足信息提取的精度要求。近年來,不少學者對基于對象[1-2]的方法進行了廣泛研究,證明了該方法從高分辨率影像中提取地物信息的有效性。
與此同時,機器學習和數據挖掘廣泛地應用到了影像信息提取中,其中J48算法[3]與隨機森林算法[4]最為普遍,本文以瑞典斯德哥爾摩為例,對比這兩種算法在WorldView-2影像建筑物提取中的效果。
1 數據準備
研究區(qū)地處瑞典的東海岸斯德哥爾摩,斯德哥爾摩所在緯度:59°18'00.00"N,所在經度:18°10'00.00"E。本實驗數據采用Wordview-2影像,數據獲取日期為2016年8月27日,多光譜波段空間分辨率為2米,研究區(qū)大小為1024×1024個像元。實驗首先在ENVI5.3中對數據進行了預處理,獲得了地表反射率。
2 研究方法
2.1 決策樹J48算法
J.Ross Quinlan對ID3算法進行了改進,提出了C4.5算法。除了繼承了ID3算法的所有功能以外,決策樹C4.5算法還可以利用信息增益率來選擇屬性,合并具有連續(xù)屬性值、處理含有未知屬性值的訓練樣本等。
C4.5算法是對ID3算法的最大改進之處是對信息增益率的引入。屬性選擇時利用信息增益率,對連續(xù)屬性實現(xiàn)離散化處理,將知識表示為決策樹的形式,并最終生成規(guī)則。信息增益率[5]的計算公式如下:
GainRatio=I(C,V)/H(V)
計算出信息增益率后,將最高信息增益率所對應的屬性作為根節(jié)點,然后向下遞歸建樹最終形成產生式規(guī)則。Weka平臺中的J48算法就是C4.5算法。
2.2 隨機森林
隨機森林屬于集成分類器,它由一組決策樹分類器組成,是基于無參數回歸算法的集成學習策略,如果將單個決策樹看為是某一方面的專家,所有專家聚集就構成了隨機森林,最終的分類結果根據專家投票的結果得出[6]。
3 操作過程
3.1 分類體系的確立
根據研究區(qū)的地理特征、自然狀況,通過試錯法確立研究區(qū)的最優(yōu)分割參數。本實驗采用多尺度分割,分割尺度設置為80,形狀因子設置為0.8,緊致度因子設置為0.5,共生成了3826個地物。結合Google earth高分辨率影像,共選取了565 個對象作為訓練樣本,將研究區(qū)分為5種土地覆被類型(表1)。
3.2 分類特征優(yōu)選
為了避免分類過程中出現(xiàn)盲目使用多種特征容易導致計算量急劇增大、分類精度降低、分類特征冗余等問題[7],本實驗采用易康中自帶的Feature Space Optimization工具對分類特征進行優(yōu)選。
對每個類別選取不少于50個樣本(由于水體較少,不包括水體),對選取的21個特征進行計算,得到所有的特征組合與類別之間樣本可分性的詳細信息,從中能夠直觀看出:樣本之間的區(qū)分距離隨特征數量即維數的變化而變化。當特征數量較少時,不能很好地區(qū)分地物,當特征數量過多時,可能影響分類效率。如圖1可以看出區(qū)分距離的變化趨勢為先上升后下降,并在特征數量等于19時達到最大,因此確定最優(yōu)特征數量為19。
4 分類結果及精度評價
基于J48算法以及隨機森林算法得到的分類結果見圖2。
選取566個獨立于前述模型構建的訓練樣本數據集對以上2種方法的分類結果進行精度評價分析(表2)。從中可以看出,隨機森林算法對影像整體的分類結果好于J48算法。但對于建筑物的提取,J48算法在生產者精度和用戶精度上均高于隨機森林算法。
5 結論
本文對比了J48算法以及隨機森林算法在高分辨影像建筑物提取上的效果,得出J48算法優(yōu)于隨機森林算法的結論,但是J48算法在建筑物提取上仍有一些錯誤,例如將建筑物錯分為道路、將道路錯分為建筑物等。如何改進J48算法,得到更好的建筑物提取效果有待進一步的研究。
參考文獻:
[1]許燕,段福洲,段光耀.面向對象的無人機影像分類研究[J].地理空間信息,2014(5):8+41-43.
[2]陳云浩,等.基于面向對象和規(guī)則的遙感影像分類研究[J].武漢大學學報(信息科學版),2006(04):316-320.
[3]史澤鵬,等.基于J48決策樹算法的遙感土地利用變化分析[J].遙感信息,2014,29(1):78-84.
[4]Breiman L . Random Forests[J]. Machine Learning, 2001, 45(1):5-32.
[5]高海賓.基于Weka平臺的決策樹J48算法實驗研究[J].湖南理工學院學報(自然科學版),2017,30(01):21-25.
[6]李欣海.隨機森林模型在分類與回歸分析中的應用[J].應用昆蟲學報,2013,50(04):1190-1197.
[7]叢佃敏,等.基于最優(yōu)特征空間構建的隨機森林算法在WorldView-2影像分類中的適用性研究[J].科學技術與工程,2016,16(31):218-224.