陳元鵬,羅 明,彭軍還,王 軍,周 旭,李少帥
(1. 中國(guó)地質(zhì)大學(xué)(北京)土地科學(xué)技術(shù)學(xué)院,北京 100083;2. 國(guó)土資源部土地整治中心,北京 100035)
基于網(wǎng)格搜索隨機(jī)森林算法的工礦復(fù)墾區(qū)土地利用分類(lèi)
陳元鵬1,2,羅 明1,彭軍還2,王 軍1,周 旭1,李少帥1,2
(1. 中國(guó)地質(zhì)大學(xué)(北京)土地科學(xué)技術(shù)學(xué)院,北京 100083;2. 國(guó)土資源部土地整治中心,北京 100035)
為提高工礦復(fù)墾區(qū)遙感影像土地利用分類(lèi)精度,為土地復(fù)墾監(jiān)測(cè)工作提供數(shù)據(jù)支持,該文探討了基于網(wǎng)格搜索(Grid-Search)的隨機(jī)森林(random forest)復(fù)墾區(qū)土地利用分類(lèi)方法。研究利用GF-1影像、DEM(digital elevation model)和野外調(diào)查等數(shù)據(jù),以隨機(jī)森林分類(lèi)算法為框架,采用基于OOB(Out-of-Bag)誤差的網(wǎng)格搜索法對(duì)算法進(jìn)行參數(shù)尋優(yōu),結(jié)合影像光譜、地形、紋理、空間信息,計(jì)算選取了33個(gè)特征變量,構(gòu)建了4種變量組合模型開(kāi)展隨機(jī)森林分類(lèi)試驗(yàn),4個(gè)組合模型的分類(lèi)精度分別達(dá)到82.79%、84.91%、86.75%、88.16%。為去除33個(gè)特征變量中的冗余信息、降低影像波段變量維度、縮短分類(lèi)執(zhí)行時(shí)間并保證影像分類(lèi)精度,試驗(yàn)分別利用變量重要性估計(jì)和Relief F方法進(jìn)行特征選擇后再次執(zhí)行隨機(jī)森林分類(lèi),將分類(lèi)結(jié)果與不同組合模型、不同分類(lèi)方法進(jìn)行比較,結(jié)果表明:基于網(wǎng)格搜索參數(shù)尋優(yōu)的隨機(jī)森林算法在多特征變量的影像分類(lèi)中可以達(dá)到88.16%的分類(lèi)精度,在利用不同方法降維后依然可以將分類(lèi)精度保持在85%以上,精度優(yōu)于相同特征變量下的SVM(support vector machine)和MLC(maximum likelihood classification)分類(lèi)方法;在效率方面,隨機(jī)森林分類(lèi)方法執(zhí)行時(shí)間優(yōu)于SVM,并且在處理多維特征變量時(shí)能力更強(qiáng)。由此可見(jiàn),采用基于網(wǎng)格搜索的隨機(jī)森林方法對(duì)工礦復(fù)墾區(qū)土地利用信息進(jìn)行分類(lèi)提取可以得到較高的精度,基于該方法開(kāi)展遙感影像解譯可為土地復(fù)墾監(jiān)測(cè)工作提供技術(shù)支持和理論參考。
土地復(fù)墾;土地利用;工礦;復(fù)墾區(qū);隨機(jī)森林;網(wǎng)格搜索;多特征變量;特征選擇
中國(guó)是一個(gè)礦業(yè)大國(guó),礦產(chǎn)資源開(kāi)發(fā)為國(guó)家社會(huì)經(jīng)濟(jì)發(fā)展做出了巨大的貢獻(xiàn),但礦產(chǎn)資源開(kāi)采對(duì)一些區(qū)域土地資源和生態(tài)環(huán)境造成了嚴(yán)重的負(fù)面影響[1],對(duì)此,土地復(fù)墾與生態(tài)重建成為統(tǒng)籌礦產(chǎn)資源開(kāi)發(fā)和土地資源保護(hù)、推動(dòng)生態(tài)文明建設(shè)的重要措施。利用遙感技術(shù)手段開(kāi)展復(fù)墾區(qū)土地利用信息的識(shí)別、提取與分類(lèi)成為驗(yàn)證、評(píng)估土地復(fù)墾工作成效,持續(xù)跟蹤復(fù)墾土地后期管護(hù)情況的重要手段之一。
隨機(jī)森林(RF,random forest)分類(lèi)方法目前在基于機(jī)器學(xué)習(xí)的遙感影像分類(lèi)方法中精度相對(duì)較高,在處理大數(shù)據(jù)集時(shí)運(yùn)行速度更快,不容易過(guò)擬合,處理多維變量能力強(qiáng),可生成變量重要性估計(jì),所以該方法在多維數(shù)據(jù)分類(lèi)回歸中被廣泛應(yīng)用,并取得較好效果[2]。
在國(guó)外,RF方法應(yīng)用于遙感影像分類(lèi)的研究開(kāi)展較早,如Pal等利用其對(duì)土地覆被進(jìn)行分類(lèi),并與迭代、支持向量機(jī)、決策樹(shù)等方法在精度及效率方面進(jìn)行比較,驗(yàn)證了方法的優(yōu)越性[3-4]。近些年,國(guó)內(nèi)亦有研究人員將RF方法應(yīng)用于遙感影像的分類(lèi)研究,如馬玥、郭玉寶等分別應(yīng)用該方法對(duì)農(nóng)耕區(qū)和城市區(qū)土地利用信息進(jìn)行了分類(lèi)提取,并取得較高精度[5-7]。但國(guó)內(nèi)對(duì)于 RF方法的研究與應(yīng)用仍有待深入和加強(qiáng),如對(duì)方法本身而言,存在一定缺陷,封裝性強(qiáng)、運(yùn)行過(guò)程不可控,只能通過(guò)參數(shù)調(diào)節(jié)完善模型;對(duì)研究應(yīng)用而言,以中等分辨率影像和平原區(qū)的研究居多,基于高分辨率影像的山地丘陵區(qū)研究較少。
工礦復(fù)墾區(qū)域,多位于山地丘陵區(qū),域內(nèi)地形起伏大、地物分布破碎,項(xiàng)目區(qū)較小、布局分散,利用中等分辨率影像開(kāi)展地物信息提取的精度難以滿足土地復(fù)墾管理需求。因此采用高分辨影像開(kāi)展工礦復(fù)墾區(qū)土地利用分類(lèi)研究很有必要,同時(shí)利用參數(shù)尋優(yōu)與RF結(jié)合可彌補(bǔ)方法本身不足,有助于提高分類(lèi)精度。
本文使用高分辨率影像,采用基于 RF袋外數(shù)據(jù)(OOB,Out-of-Bag)誤差網(wǎng)格搜索(Grid-Search)參數(shù)尋優(yōu)的分類(lèi)方法對(duì)工礦復(fù)墾區(qū)土地利用信息進(jìn)行分類(lèi)提取,分析不同特征變量對(duì)分類(lèi)結(jié)果的影響與重要性,并根據(jù)特征變量重要性和 Relief F方法分別對(duì)高維數(shù)據(jù)降維,通過(guò)與支持向量機(jī)(SVM,support vector machine)和最大似然(MLC,maximum likelihood classification)分類(lèi)方法進(jìn)行比較,評(píng)估RF分類(lèi)方法的性能和在工礦復(fù)墾區(qū)土地利用分類(lèi)中的適用性,為土地復(fù)墾監(jiān)測(cè)工作提供理論參考和技術(shù)支持。
研究區(qū)位于四川省瀘州市古藺縣石屏鄉(xiāng),地理坐標(biāo)為 28°0′55′~28°3′26′N(xiāo),105°59′32′~106°2′13′E,區(qū)域內(nèi)海拔410~1 025 m,中亞熱帶氣候,年平均氣溫17.1~18.5 ℃、平均降雨量748.4~1 184.2 mm。區(qū)域內(nèi)分布有若干硫磺廠與工業(yè)區(qū),堆積有廢棄磺渣堆,對(duì)周邊土地造成了一定污染[8-10],參照《土地利用現(xiàn)狀分類(lèi)標(biāo)準(zhǔn)(GB/T 21010-2007)》,研究區(qū)內(nèi)土地利用類(lèi)型劃分為有林地、灌木林地、旱地、工礦用地(工業(yè)用地、采礦用地)、農(nóng)村宅基地、道路(公路、農(nóng)村道路)和坑塘水面等,地理區(qū)位、樣點(diǎn)分布及遙感影像數(shù)據(jù)如圖1所示。
圖1 研究區(qū)地理位置、樣點(diǎn)分布和3D遙感影像Fig.1 Location of study area, sampling points distribution and 3D of remote sensing image
本研究中采用的主要數(shù)據(jù)為GF-1衛(wèi)星遙感影像,輔助數(shù)據(jù)包括無(wú)人機(jī)航拍影像、DEM數(shù)據(jù)、地面實(shí)測(cè)數(shù)據(jù)、Google Earth數(shù)據(jù)。其中,GF-1衛(wèi)星遙感影像用于復(fù)墾區(qū)土地利用信息分類(lèi)提取;DEM數(shù)據(jù)作為輔助數(shù)據(jù),提取坡度、坡向信息,參與影像分類(lèi)并用于提高影像分類(lèi)精度;無(wú)人機(jī)航拍影像與Google Earth數(shù)據(jù)用于樣點(diǎn)采集和精度評(píng)價(jià)。
2.1 GF-1衛(wèi)星遙感影像
GF-1號(hào)衛(wèi)星發(fā)射于2013年,搭載了兩臺(tái)2 m分辨率全色/8m分辨率多光譜相機(jī)(PMS),四臺(tái)16 m分辨率多光譜相機(jī)(WFV)[11]。本文選用的GF-1遙感數(shù)據(jù)為2 m分辨率全色/8 m分辨率多光譜波段數(shù)據(jù)1景,波段數(shù)為5,分別為 B、G、R、NIR、PAN,獲取日期為 2016年 10月9日,域內(nèi)無(wú)云量。影像的預(yù)處理在ENVI5.3軟件平臺(tái)中完成,對(duì)多光譜數(shù)據(jù)的預(yù)處理包括輻射定標(biāo)、FLAASH模塊大氣校正、正射校正,后對(duì)全色數(shù)據(jù)進(jìn)行輻射定標(biāo)、正射校正,再將全色和多光譜數(shù)據(jù)利用Gram-Schmidt 方法融合后裁剪生成研究區(qū)影像數(shù)據(jù)[12]。
2.2 輔助數(shù)據(jù)
輔助數(shù)據(jù)中,航拍影像為 UV-II型無(wú)人機(jī)搭載的Pentax-645D相機(jī)拍攝,拍攝時(shí)間為2016年11月,空間分辨率為0.2 m;DEM數(shù)據(jù)基于無(wú)人機(jī)航拍影像的畸變校正、自由網(wǎng)空三加密后生成,空間分辨率2 m。
2.3 地面實(shí)測(cè)與樣點(diǎn)數(shù)據(jù)
地面實(shí)測(cè)數(shù)據(jù)的采集在無(wú)人機(jī)航拍過(guò)程中同步開(kāi)展,地面實(shí)測(cè)儀器采用天寶手持式 GPS,水平精度優(yōu)于1m(Trimble geoexplorer 2008 Series GeoXH,trimble navigation limited,USA);此外,還應(yīng)用Google Earth影像數(shù)據(jù)用以輔助航拍影像選取訓(xùn)練與驗(yàn)證樣點(diǎn),其中訓(xùn)練樣點(diǎn)48 279個(gè)像素,占比20%;驗(yàn)證樣點(diǎn)209 691個(gè)像素,占比80%。
3.1 技術(shù)方法
本文方法流程:1)對(duì)全色和多光譜影像進(jìn)行預(yù)處理和融合,對(duì)航拍影像、DEM影像與衛(wèi)星影像進(jìn)行配準(zhǔn)、裁剪,利用Nearest Neighbor方法將航拍影像空間分辨率重采樣至1 m以提高影像處理速度;2)結(jié)合數(shù)據(jù)的光譜、地形、紋理、空間信息進(jìn)行特征變量的計(jì)算、選取;3)建立了4種不同的特征變量組合模型:模型1(光譜特征,SPE),模型 2(光譜、地形特征組合,SPE+DEM),模型3(光譜、地形和紋理特征組合,SPE+DEM+TXT),模型4(光譜、地形、紋理和空間特征組合,SPE+DEM+TXT+SPA),評(píng)測(cè)各特征變量對(duì)影像分類(lèi)的貢獻(xiàn)度,選出最佳的分類(lèi)方案;4)通過(guò)基于 OOB誤差的網(wǎng)格搜索法進(jìn)行RF分類(lèi)算法參數(shù)尋優(yōu),對(duì)4種模型執(zhí)行分類(lèi)并對(duì)結(jié)果進(jìn)行精度評(píng)價(jià)[13-14];5)利用特征變量重要性估計(jì)和Relief F方法分別擇優(yōu)選取波段變量,再次執(zhí)行RF分類(lèi)算法,通過(guò)與SVM和MLC分類(lèi)方法進(jìn)行比較,評(píng)估RF分類(lèi)方法的性能,技術(shù)路線如圖2。
圖2 技術(shù)路線Fig.2 Work flow of this study
其中,影像的特征變量計(jì)算包括基于光譜信息計(jì)算的適于提取植被的NDVI(normalized difference vegetation index)、適于提取不透水面的BCI(biophysical composition index)[15-16];基于地形數(shù)據(jù)計(jì)算的坡度、坡向、曲率;基于紋理信息計(jì)算的均值、方差、同質(zhì)性、熵與二階距等;反映空間信息的 Local Moran’I和 Local Getis Ord Gi[17]。
3.2 特征變量計(jì)算與選取
影像獲取月份為10月,該時(shí)段部分旱地植被覆蓋度較低,其目視特征與工礦用地十分相似。GF-1影像沒(méi)有中紅外、熱紅外波段,無(wú)法構(gòu)建NDISI、NDII等提取不透水層較為有效的光譜指數(shù)[18],因此本文利用三指數(shù)法構(gòu)建了 BCI指數(shù),用以增強(qiáng)分類(lèi)算法識(shí)別低覆蓋度植被區(qū)與工礦區(qū)的能力。
BCI的計(jì)算過(guò)程如下[19-20]
式中B、G、R、NIR分別為藍(lán)、綠、紅光和近紅外波段,TC1、TC2、TC3為纓帽變換后的前3個(gè)分量,H、V、L為歸一化后的TC1、TC2、TC3。
地形信息特征變量包括DEM,基于DEM計(jì)算的坡度(slope)、坡向(aspect)、曲率(curvature);紋理信息特征變量中,經(jīng)多次試驗(yàn)對(duì)比分析,選用 3×3大小的移動(dòng)窗口,利用灰度共生矩陣分別計(jì)算影像 4個(gè)波段變量的8種紋理特征[21]:均值(mean)、方差(variance)、同質(zhì)性(homogeneity)、對(duì)比度(contrast)、差異性(dissimilarity)、熵(entropy)、二階矩(second moment)、相關(guān)性(correlation)[22],總計(jì)32個(gè)變量,因32個(gè)變量之間相關(guān)性較高,利用主成分變換(PCA)對(duì)其進(jìn)行降維,以標(biāo)準(zhǔn)差值0.3為閾值正向排序擇優(yōu)選取了前12個(gè)變量(PC1~PC12)參與影像分類(lèi);空間信息特征變量是基于全部光譜、地形、紋理信息計(jì)算的Local Moran’I和Local Getis Ord Gi,以標(biāo)準(zhǔn)差值0.6為閾值正向排序最后選擇了10個(gè)變量參與分類(lèi)。所有特征變量如表1所示。
表1 特征變量統(tǒng)計(jì)Table 1 Statistic of feature variables
3.3 RF分類(lèi)方法
RF分類(lèi)方法是由決策樹(shù)組合構(gòu)成的機(jī)器學(xué)習(xí)算法,該算法適用于處理高維數(shù)據(jù)且運(yùn)行速度相對(duì)較快[23],它的執(zhí)行過(guò)程如下:首先采用隨機(jī)Bootstrap方法從原始數(shù)據(jù)中有放回的抽取N組訓(xùn)練集,每組訓(xùn)練集的大小約為訓(xùn)練數(shù)據(jù)集的 2/3,這一過(guò)程稱(chēng)為Bagging;然后利用N組訓(xùn)練集構(gòu)建N棵決策樹(shù),在每棵樹(shù)生長(zhǎng)過(guò)程中,從全部M個(gè)特征變量中隨機(jī)抽選m個(gè)(m≤M)進(jìn)行內(nèi)部節(jié)點(diǎn)劃分;最后,集合N棵決策樹(shù)的預(yù)測(cè)結(jié)果,采用投票的方式?jīng)Q定新樣本的類(lèi)別。在訓(xùn)練數(shù)據(jù)抽取過(guò)程中,約1/3的數(shù)據(jù)未被抽中,這些數(shù)據(jù)稱(chēng)為袋外數(shù)據(jù)(OOB),OOB可用于類(lèi)別錯(cuò)分的誤差評(píng)估和變量重要性估計(jì),在變量選取過(guò)程中采用了Gini系數(shù)測(cè)量變量的不純度。通常樹(shù)的默認(rèn)數(shù)量(ntree)為100,變量默認(rèn)數(shù)量(mtry)為影像波段總數(shù)的平方根[24-26],為進(jìn)一步提高分類(lèi)精度,本文采用了基于 OOB誤差值的網(wǎng)格搜索法[27]進(jìn)行ntree和mtry的參數(shù)尋優(yōu)。
網(wǎng)格搜索法(Grid-Search)是ntree和mtry分別取M和N個(gè)值,用M×N個(gè)(ntree,mtry)的組合分別訓(xùn)練不同的RF分類(lèi)器,再根據(jù)OOB誤差值估計(jì)其學(xué)習(xí)精度,進(jìn)而在若干個(gè)組合中得到學(xué)習(xí)精度最高的一個(gè)組合作為最優(yōu)參數(shù),其優(yōu)點(diǎn)是可以保證所得的搜索解是劃定網(wǎng)格中的全局最優(yōu)解,避免重大誤差[28]。RF分類(lèi)算法與網(wǎng)格搜索算法均在Matlab 2012b語(yǔ)言平臺(tái)實(shí)現(xiàn)。
3.4 訓(xùn)練與驗(yàn)證樣點(diǎn)
參照無(wú)人機(jī)航拍影像、地面實(shí)測(cè)數(shù)據(jù)和Google Earth高分辨率影像,選取訓(xùn)練與驗(yàn)證樣點(diǎn),其中訓(xùn)練樣點(diǎn)48 279個(gè)像素,占比20%;驗(yàn)證樣點(diǎn)209 691個(gè)像素,占比80%。各類(lèi)地物樣點(diǎn)數(shù)量與分布如表2。
表2 各地物類(lèi)型樣點(diǎn)數(shù)量Table 2 Numbers of samples for each class
4.1 分類(lèi)結(jié)果與精度
利用網(wǎng)格搜索法分別對(duì)4個(gè)模型的RF算法進(jìn)行參數(shù)尋優(yōu),模型1的mtry參數(shù)尋優(yōu)范圍是(2、3、4、5),模型2的mtry參數(shù)尋優(yōu)范圍是(3、5、7、9),模型3的mtry參數(shù)尋優(yōu)范圍是(5、10、15),模型 4的mtry參數(shù)尋優(yōu)范圍是(6、12、18);ntree參數(shù)尋優(yōu)范圍統(tǒng)一為(25、50、75、100)。4個(gè)模型的mtry和ntree最優(yōu)參數(shù)分別為(4,100)(7,100)(10,100)(12,100),利用以上參數(shù)分別執(zhí)行RF分類(lèi)算法得到分類(lèi)結(jié)果,分類(lèi)圖局部效果如圖 3。4個(gè)模型分類(lèi)總體精度分別為82.79%、84.91%、86.75%、88.16%,由變化幅度看,增加了地形特征變量后,精度提升幅度最大為2.12%,加入紋理特征變量和空間特征變量也能夠相應(yīng)提高分類(lèi)精度。
通過(guò)圖3比較,模型2的分類(lèi)結(jié)果明顯優(yōu)于模型1,模型1結(jié)果:灌木林地錯(cuò)分為有林地為32%,村莊錯(cuò)分為耕地為32.4%(灌木林地和村莊的錯(cuò)分如位置①),因?yàn)楣嗄玖值睾陀辛值鼐哂邢嗨频墓庾V特性,而在該低山丘陵區(qū)部分村莊和耕地混合分布,所以單純利用光譜信息進(jìn)行分類(lèi)效果不佳,而在加入地形數(shù)據(jù)變量后,效果得以改善、精度有所提高、椒鹽現(xiàn)象消除顯著。
模型2結(jié)果相較與模型1:灌木林地、道路、耕地的誤分結(jié)果較模型 1結(jié)果有所改善(位置①),但有林地與耕地誤分增加;的灌木林地與耕地誤分結(jié)果與模型 1比較得以改善(位置②);工礦用地與村莊的區(qū)分效果更優(yōu)(位置③),線狀地物的提取效果更明顯,但部分道路混分到村莊和工礦用地中(位置④)。
圖3 分類(lèi)結(jié)果局部效果對(duì)比Fig.3 Comparison of local classification result
模型3結(jié)果相較于模型2:有林地與耕地的誤分得以進(jìn)一步改善(位置①),灌木林地錯(cuò)分為耕地比率有所減少(位置②),村莊和工礦用地中混分的道路得到進(jìn)一步去除(位置④)。
模型4與模型3結(jié)果比較:引入Local Getis Ord Gi變量后,空間集聚效應(yīng)更優(yōu),細(xì)碎的分類(lèi)地物得到有效歸并(位置②),分類(lèi)精度進(jìn)一步提高。
4個(gè)模型中,模型4分類(lèi)精度最高達(dá)88.16%,混淆矩陣見(jiàn)下表 3,其中精度在 80%以下的有灌木林地和村莊,分別為76.75%和68.61%,雖然精度相對(duì)較低,但較之模型1的56.89%和54.31%,分別提高19.86%和14.3%,可知在多特征變量下分類(lèi)精度提高顯著。各地物類(lèi)型的錯(cuò)分和漏分誤差如下圖4,由圖4知加入地形信息變量后,各地物的錯(cuò)分漏分誤差都有不同程度降低,尤其灌木林地、村莊、道路的漏分誤差下降顯著,可知地形數(shù)據(jù)變量對(duì)于提取建設(shè)用地信息較為有效。加入紋理信息變量和空間信息變量后,各類(lèi)地物錯(cuò)分漏分誤差總體呈現(xiàn)下降趨勢(shì),雖然部分地物如道路錯(cuò)分誤差有所提高,但漏分誤差下降,總體看仍提高了分類(lèi)精度。
表3 模型4精度評(píng)價(jià)表Table 3 Accuracy assessment of model 4 %
圖4 分類(lèi)結(jié)果錯(cuò)分與漏分誤差圖Fig.4 Commission and omission errors of the classification results
4.2 特征變量重要性與降維
如圖5所示,根據(jù)OOB誤差得出4個(gè)模型的特征變量重要性排序,由圖5可知在前個(gè)3模型中R、DEM、NDVI、BCI、NIR、PC9、PC5、Slope 重要性較高,B、G、Cur等波段重要性相對(duì)較低,而在模型4中加入了空間統(tǒng)計(jì)變量Local Getis Ord Gi后,Gi相關(guān)波段變量在分類(lèi)的重要性中排序較為靠前,其中Gi R變量重要性值最高。在參與分類(lèi)的變量增多時(shí),冗余變量信息也逐漸增多,B、G、Cur、PC7、PC6等重要性排序相對(duì)靠后的變量參與分類(lèi)后延長(zhǎng)了算法執(zhí)行時(shí)間,降低了工作效率,如模型1~4的分類(lèi)執(zhí)行時(shí)間分別為6、11、19、26 min,所以雖然模型4的分類(lèi)精度最高達(dá)到88.16%,但相對(duì)的分類(lèi)算法執(zhí)行時(shí)間也最長(zhǎng)26 min。為此,為在保證分類(lèi)精度的同時(shí)提高分類(lèi)效率,試驗(yàn)進(jìn)行了進(jìn)一步的特征變量選擇,對(duì)影像波段進(jìn)行降維。主要應(yīng)用了 2種方法進(jìn)行比較分析。
1)根據(jù)變量重要性估計(jì)進(jìn)行選擇。按照模型4的特征變量重要性排序,利用前向選擇方法抽取了模型 4的前11個(gè)特征變量(Gi R、R、DEM、Gi DEM、Gi NDVI、NDVI、slope、PC9、Gi NIR、PC5、BCI),構(gòu)建了與模型2特征變量數(shù)目相同的由11個(gè)波段組成的模型,記為模型RF_FS。
2)利用Relief F算法對(duì)模型4的變量進(jìn)行降維。Relief F 算法是一種考慮了多變量和特征互相依賴(lài)作用的過(guò)濾式(Filter)特征選擇算法[29-30],算法通過(guò)“假設(shè)間隔”對(duì)特征的分類(lèi)能力進(jìn)行評(píng)價(jià),綜合考慮類(lèi)間距與類(lèi)內(nèi)距,若類(lèi)間距大于類(lèi)內(nèi)距,則增加其權(quán)值,若類(lèi)間距小于類(lèi)內(nèi)距,則降低其權(quán)值,通過(guò)類(lèi)間距與類(lèi)內(nèi)距不斷更新其權(quán)值,并根據(jù)計(jì)算的最終權(quán)值進(jìn)行特征選擇,權(quán)值更新公式見(jiàn)(8),假設(shè)間隔θ是指當(dāng)保持樣本類(lèi)別不變時(shí)分類(lèi)決策面可移動(dòng)的最大距離,公式見(jiàn)(9)。
式中,diff()是不同樣本間的距離,n是樣本數(shù)量,f是評(píng)價(jià)的特征,i是隨機(jī)抽中的樣本,H(x)、M(x)分別是樣本x的同類(lèi)和異類(lèi)最近鄰樣本點(diǎn)。
利用Relief F算法對(duì)模型4的33個(gè)特征變量進(jìn)行選擇,保留了與目標(biāo)類(lèi)相關(guān)性較大的前11個(gè)變量(Gi R、Gi B、Gi R、R、G、B、PC1、PC3、PC6、PC2、Gi NIR),構(gòu)建了與模型 2特征變量數(shù)目相同的模型,記為RF_Relief F。
4.3 不同方法分類(lèi)結(jié)果比較
將基于Relief F算法降維的變量組合模型RF_Relief F、基于變量重要性估計(jì)降維的變量組合模型RF_FS進(jìn)行基于網(wǎng)格搜索的 RF算法分類(lèi),將分類(lèi)結(jié)果分別與模型4RF分類(lèi)(Model 4)、模型2 RF分類(lèi)(Model 2)、基于變量重要性估計(jì)降維后的支持向量機(jī)分類(lèi)(SVM_FS)、基于變量重要性估計(jì)降維后的最大似然分類(lèi)(MLC_FS)結(jié)果進(jìn)行比較,比較算法執(zhí)行時(shí)間、分類(lèi)總體精度和Kappa 系數(shù),分析各組合、分類(lèi)方法對(duì)復(fù)墾區(qū)土地利用信息分類(lèi)提取的適用性,比較結(jié)果如表4。
對(duì)照結(jié)果可知,RF_Relief F和RF_FS的總體精度分別為86.26%、85.24%,與Model 4相比精度分別下降1.9%和2.92%,但與同是11個(gè)特征變量的Model 2相比,分類(lèi)總體精度分別提高1.35%和0.33%,說(shuō)明雖然特征變量的減少對(duì)分類(lèi)總體精度有負(fù)面影響,但對(duì)于同等數(shù)量的特征變量而言,特征變量的優(yōu)選對(duì)于RF分類(lèi)總體精度改善有著不同程度的正面影響。RF_Relief F和RF_FS相比,前者總體精度略高,說(shuō)明總體上看Relief F算法和基于變量重要性估計(jì)降維方法相比較,Relief F算法的變量尋優(yōu)效果更佳。但兩者的灌木林地分類(lèi)精度為分別為59.33%和 75.26%,耕地分類(lèi)精度分別為 87.59%和 81.59%,道路分類(lèi)精度分別為86.48%和97.15%,說(shuō)明基于地形信息的特征變量對(duì)于該區(qū)域的灌木林地和道路等的分類(lèi)精度影響較大,比較結(jié)果見(jiàn)表5。從圖6a、b比較也可看出,位置①②③④差異顯著,主要是道路、工礦和灌木林地的差別。
圖5 模型1~4變量重要性Fig.5 Variable importance value of model 1-4
表4 不同方法精度評(píng)價(jià)表Table 4 Accuracy assessment of result based on different method
如表5,RF_FS與SVM_FS、MLC_FS相比較,RF_FS分類(lèi)結(jié)果總體精度分別提高4.1%和5.57%。MLC方法運(yùn)行時(shí)間最短,但精度最低為79.67%,其中工礦用地的分類(lèi)精度只有52.63%,可知該方法對(duì)復(fù)墾區(qū)內(nèi)工礦用地信息的提取效果不理想,但其余各地類(lèi)分類(lèi)精度均在 70%以上,其中有林地 95.14%、道路 93.32%、灌木林地84.30%。SVM方法分類(lèi)結(jié)果總體精度較MLC方法稍有提高,但村莊的分類(lèi)精度只有46.30%、灌木林地65.86%、工礦用地62.97%,算法執(zhí)行時(shí)間在四種方法中時(shí)間較長(zhǎng)達(dá)22分鐘,所以本實(shí)驗(yàn)中SVM與MLC分類(lèi)方法相比,對(duì)于工礦復(fù)墾區(qū)土地利用信息的分類(lèi)提取適用性更低。分類(lèi)結(jié)果及差異如圖6c、d示。
表5 不同方法類(lèi)間精度評(píng)價(jià)表Table5 Accuracy assessment of classification result based on different method %
圖6 不同組合、分類(lèi)方法結(jié)果對(duì)比Fig.6 Comparison of different model and classification results
基于網(wǎng)格搜索參數(shù)尋優(yōu)的 RF方法在多特征變量的影像分類(lèi)中可以達(dá)到88.16%的分類(lèi)精度,利用不同方法降維后分類(lèi)精度依然保持在 85%以上,精度優(yōu)于相同特征變量下的SVM和MLC分類(lèi)方法;在效率方面,隨機(jī)森林分類(lèi)方法執(zhí)行時(shí)間優(yōu)于SVM,并且在處理多維特征變量時(shí)能力更強(qiáng)??梢?jiàn)采用基于網(wǎng)格搜索的RF方法對(duì)工礦復(fù)墾區(qū)土地利用信息進(jìn)行分類(lèi)提取可以得到較高的精度,基于該方法開(kāi)展遙感影像解譯可為土地復(fù)墾監(jiān)測(cè)工作提供技術(shù)支持和理論參考。但研究試驗(yàn)中仍存在一些有待改進(jìn)的環(huán)節(jié):如參數(shù)尋優(yōu)過(guò)程中的參數(shù)預(yù)設(shè)范圍有待進(jìn)一步擴(kuò)大;導(dǎo)致各地類(lèi)分類(lèi)精度變化的相關(guān)性影響因素有待進(jìn)一步驗(yàn)證等,不足之處將在未來(lái)的學(xué)習(xí)研究中逐步完善。
[1] 國(guó)土資源部土地整治中心. 《中國(guó)土地整治發(fā)展研究報(bào)告NO.3》[M]. 北京:社會(huì)科學(xué)文獻(xiàn)出版社,2016.
[2] 馬玥,姜琦剛,孟治國(guó),等. 基于隨機(jī)森林算法的農(nóng)耕區(qū)土地利用分類(lèi)研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2016,47(1):297-303.Ma Yue, Jiang Qigang, Meng Zhiguo, et al. Classification of land use in farming area based on random forest algorithm[J].Transactions of the Chinese Society for Agricultural Machinery,2016, 47(1): 297-303. (in Chinese with English abstract)
[3] Pal M. Random forest classifier for remote sensing classification[J]. International Journal of Remote Sensing,2005, 26(1): 217-222
[4] Pall Oskar Gislason, Jon Atli Benediktsson, Johannes R Sveinsson. Random forests for land cover classification[J].Pattern Recognition Letters, 2006, 27(4): 294-300
[5] 郭玉寶,池天河,彭玲,等. 利用隨機(jī)森林的高分一號(hào)遙感數(shù)據(jù)進(jìn)行城市用地分類(lèi)[J]. 測(cè)繪通報(bào),2016(5):73-76.Guo Yubao, Chi Tianhe, Peng Ling, et al. Classification of GF-1 remote sensing image based on random forests for urban land-use[J]. Bulletin of Surveying and Mapping,2016(5): 73-76. (in Chinese with English abstract)
[6] 楊珺雯,張錦水,朱秀芳,等. 隨機(jī)森林在高光譜遙感數(shù)據(jù)中降維與分類(lèi)的應(yīng)用[J]. 北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,51(1):82-88.Yang Junwen, Zhang Jinshui, Zhu Xiufang, et al. Random forest applied for dimension reduction and classification in hyperspectral data[J]. Journal of Beijing Normal University(Natural Science), 2015, 51(1): 82-88.
[7] 王書(shū)玉,張羽威,于振華. 基于隨機(jī)森林的洪河濕地遙感影像分類(lèi)研究[J]. 測(cè)繪與空間地理信息,2014,37(4):83-85.Wang Shuyu, Zhang Yuwei, Yu Zhenhua. Classification of Honghe wetland remote sensing image based on random forests[J]. Geomatics & Spatial Information Technology,2014, 37(4): 83-85. (in Chinese with English abstract)
[8] 張玉芳,龐艷梅,劉琰琰,等. 近50年四川省水稻生產(chǎn)潛力變化特征分析[J]. 中國(guó)生態(tài)農(nóng)業(yè)學(xué)報(bào),2014,22(7):813-820.Zhang Yufang, Pang Yanmei, Liu Yanyan, et al. Potential productivity of rice in Sichuan Province in recent five decades[J]. Chinese Journal of Eco-Agriculture, 2014, 22(7):813-820. (in Chinese with English abstract)
[9] 孫園園,徐富賢,孫永健,等. 四川稻作區(qū)優(yōu)質(zhì)稻生產(chǎn)氣候生態(tài)條件適宜性評(píng)價(jià)及空間分布[J]. 中國(guó)生態(tài)農(nóng)業(yè)學(xué)報(bào),2015,23(4):506-513.Sun Yuanyuan, Xu Fuxian, Sun Yongjian, et al. Suitability evaluation of eco-climatic conditions for high quality rice production in Sichuan Province[J]. Chinese Journal of Eco-Agriculture, 2015, 23(4): 506-513. (in Chinese with English abstract)
[10] 肖科. 瀘州市土地整理效益分析與評(píng)價(jià)[D]. 四川:四川農(nóng)業(yè)大學(xué),2009.Xiao Ke. Land Consolidation Benefit Analyzation and Evaluation in Lu Zhou[D]. Sichuan: Sichuan Agricultural University, 2009.
[11] 王利民,劉佳,楊福剛,等. 基于GF-1衛(wèi)星遙感的冬小麥面積早期識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2015,31(11):194-201.Wang Limin, Liu Jia, Yang Fugang, et al. Early recognition of winter wheat area based on GF-1 satellite[J]. Transactions of the Chinese Society of Agricultural Engineering(Transactions of the CSAE), 2015, 31(11): 194-201. (in Chinese with English abstract)
[12] 賈玉秋,李冰,程永政,等. 基于GF-1與Landsat-8多光譜遙感影像的玉米LAI反演比較[J]. 農(nóng)業(yè)工程學(xué)報(bào),2015,31(9):173-179.Jia Yuqiu, Li Bing, Cheng Yongzheng, et al. Comparison between GF-1 images and Landsat-8 images in monitoring maize LAI[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015,31(9): 173-179. (in Chinese with English abstract)
[13] Aaron E Maxwell, Timothy A Warner. Differentiating mine-reclaimed grasslands from spectrally similar land cover using terrain variables and object-based machine learning classification[J]. International Journal of Remote Sensing,2015, 36(17): 4384-4410.
[14] Wu Chaofan, Deng Jinsong, Wang Ke, et al. Object-based classification approach for greenhouse mapping using Landsat-8 imagery[J]. International Journal of Agricultural &Biological Engineering, 2016, 9(1): 79-88.
[15] 徐涵秋,王美雅. 地表不透水面信息遙感的主要方法分析[J]. 遙感學(xué)報(bào),2016,20(5):1270-1289.Xu Hanqiu, Wang Meiya. Remote sensing-based retrieval of ground impervious surfaces[J]. Journal of Remote Sensing,2016, 20(5): 1270-1289. (in Chinese with English abstract)[16] Chengbin Deng, Changshan Wu, et al. BCI: A biophysical composition index for remote sensing of urban environments[J]. Remote Sensing of Environment, 2012, 127:247–259.
[17] 趙玉,王紅,張珍珍. 基于遙感光譜和空間變量隨機(jī)森林的黃河三角洲刺槐林健康等級(jí)分類(lèi)[J]. 遙感技術(shù)與應(yīng)用,2016,31(2):359-367.Zhao Yu, Wang Hong, Zhang Zhenzhen. Forest healthy classification of robinia pseudoacacia in the Yellow River Delta, China based on Spectral and spatial remote sensing variables using random forest[J]. Remote Sensing Technology and Application, 2016, 31(2): 359-367. (in Chinese with English abstract)
[18] Xu Hanqiu. Analysis of impervious surface and its impact on urban heat environment using the normalized difference impervious surface index (NDISI)[J]. Photogrammetric Engineering and Remote Sensing, 2010, 76(5): 557-565.
[19] 楊文治,張友靜,尹新沆,等. 面向 GF-1影像的比值建筑用地指數(shù)構(gòu)建[J]. 國(guó)土資源遙感,2016,28(1):35-42.Yang Wenzhi, Zhang Youjing, Yin Xinhang, et al.Construction of ratio build-up index for GF-1 image[J].Remote Sensing for Land & Resources, 2016, 28(1): 35-42.(in Chinese with English abstract)
[20] Horne J H. A tasseled cap transformation for IKONOS images[C]. ASPRS 2003 Annual Conference Proceedings.2003: 60-70.
[21] 王文靜,張霞,趙銀娣,等. 綜合多特征的Landsat 8時(shí)序遙感圖像棉花分類(lèi)方法[J]. 遙感學(xué)報(bào),2017,21(1):115-124.Wang Wenjing, Zhang Xia, Zhao Yindi, et al. Cotton extraction method of integrated multi-features based on multi-temporal Landsat 8 images[J]. Journal of Remote Sensing, 2017, 21(1): 115–124. (in Chinese with English abstract)
[22] 王書(shū)志,張建華,馮全. 基于紋理和顏色特征的甜瓜缺陷識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2011,42(3):175-179.Wang Shuzhi, Zhang Jianhua, Feng Quan. Defect detection of muskmelon based on texture features and color features[J].Transactions of the Chinese Society for Agricultural Machinery, 2011, 42(3): 175-179. (in Chinese with English abstract)
[23] Breiman L. Random forest[J]. Machine Learning, 2001, 45(1):5-32.
[24] Vahid Eisavi, Saeid Homayouni, Ahmad Maleknezhad Yazdi,et al. Land cover mapping based on random forest classification of multitemporal spectral and thermal images[J]. Environ Monit Assess , 2015, 187: 291.
[25] Ghosh A, Sharma R, Joshi P K. Random forest classification of urban landscape using Landsat archive and ancillary data:Combining seasonal maps with decision level fusion[J].Applied Geography, 2014, 48: 31–41.
[26] 雷震. 隨機(jī)森林及其在遙感影像處理中應(yīng)用研究[D]. 上海:上海交通大學(xué),2012.Lei Zhen. Random Forest and Its Application in Remote Sensing[D]. Shang Hai: Shanghai Jiao Tong University,2012.
[27] 王興玲,李占斌. 基于網(wǎng)格搜索的支持向量機(jī)核函數(shù)參數(shù)的確定[J]. 中國(guó)海洋大學(xué)學(xué)報(bào),2005,35(5):859-862.Wang Xingling, Li Zhanbin. Identifying the parameters of the kernel function in support vector machines based on the Grid-search method[J]. Periodical of Ocean University of China, 2005, 35(5): 859-862.
[28] 劉穎. 《基于機(jī)器學(xué)習(xí)的遙感影像分類(lèi)方法研究》[M]. 北京:清華大學(xué)出版社,2014.
[29] Liu Jiantao, Feng Quanlong, Gong Jianhua, et al. Land-cover classification of the Yellow River Delta wetland based on multiple endmember spectral mixture analysis and a Random Forest classifier[J]. International Journal of Remote Sensing,2016, 37(8): 1845-1867.
[30] 王永吉,孟慶巖,楊健,等. 一種基于特征選擇的面向?qū)ο筮b感影像分類(lèi)方法[J]. 科學(xué)技術(shù)與工程,2016,16(32):1671-1815.Wang Yongji, Meng Qingyan, Yang Jian, et al. Object based remote sensing image classification based on feature selection method[J]. Science Technology and Engineering,2016, 16(32): 1671-1815. (in Chinese with English abstract)
Classification of land use in industrial and mining reclamation area based grid-search and random forest classifier
Chen Yuanpeng1,2, Luo Ming1, Peng Junhuan2, Wang Jun1, Zhou Xu1, Li Shaoshuai1,2
(1. China University of Geosciences (Beijing), School of Land Science and Technology, Beijing100083, China;2.Land Consolidation and Rehabilitation Center, Ministry of Land and Resource, Beijing100035, China)
In the industrial and mining land reclamation area, the strong topographic relief, the diversity, breakage, mixed distribution and scattered layout of the surface features and other factors cause the difficulties for remote-sensing image classification mapping. In order to improve the classification accuracy for land use of industrial and mining reclamation area and provide data support for land reclamation monitoring and supervision, this article explored the classification method based on grid-search and random forest algorithm for the reclamation area. Satellite and auxiliary dataset including GF-1 images,DEM (digital elevation model) and field investigation data were acquired in October 2016. The study area was Gulin County,Luzhou City, Sichuan Province. In order to obtain the real surface reflectance and reduce the atmospheric and environmental effects from the satellite images in this study, FLAASH atmospheric correction and geometric correction were used in the satellite image pre-processing with ENVI 5.3 software. A machine learning algorithm, random forest algorithm, was used because the method facilitated the use of ancillary data in classification. Feature selection was an important preprocessing step in many machine learning applications, which selected the smallest subset of relevant features that built robust learning models.In the paper, spectrum, topography, texture and space variables were included in feature selection, in order to differentiate the built-up areas and farmlands, and BCI (biophysical composition index) was calculated in spectrum features. Texture feature processing comprised principal component analysis. Local Moran’ I reflecting spatial autocorrelation feature and Local Getis Ord Gi reflecting hotspot feature were selected to improve the result of classification further. The grid-search method based on OOB (Out-of-Bag) error was used to optimize parameter. Based on data image spectrum, topography, texture, space and other information, 33 feature variables were figured out from the feature selection step, and 4 combined models were constructed to carry out random forest classification experiment; and the precision was 82.79%, 84.91%, 86.75% and 88.16% respectively.To eliminate the redundant information in the 33 feature variables and reduce the image band dimensionality, the study adopted variable importance estimation and Relief F algorithm to select the principle feature variables to conduct classification according to random forest algorithm. Through the comparison between the Model 2, Model 4, SVM (support vector machine)and MLC (maximum likelihood classification) classification result respectively, the study indicates that the random forest algorithm based on grid-search parameter optimization can achieve the classification accuracy of 88.16% in the multi-feature variables frame. After different methods are used to reduce the dimension of variables, the classification accuracy can also be kept above 85%, and the accuracy is higher than SVM and MLC classification results under the same number of feature variables. The random forest classifier is superior to SVM and more capable of dealing with multidimensional characteristic variables. The random forest method based on grid-search can obtain high precision in land use classification applied in reclamation area. Based on this method, remote sensing image interpretation can well provide the technical support and rational reference for land reclamation monitoring and supervision.
land reclamation; land use; mines; reclamation area; random forest; grid-search; multi-feature variables; feature selection
10.11975/j.issn.1002-6819.2017.14.034
TP79;S127
A
1002-6819(2017)-14-0250-08
陳元鵬,羅 明,彭軍還,王 軍,周 旭,李少帥. 基于網(wǎng)格搜索隨機(jī)森林算法的工礦復(fù)墾區(qū)土地利用分類(lèi)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2017,33(14):250-257.
10.11975/j.issn.1002-6819.2017.14.034 http://www.tcsae.org
Chen Yuanpeng, Luo Ming, Peng Junhuan, Wang Jun, Zhou Xu, Li Shaoshuai. Classification of land use in industrial and mining reclamation area based grid-search and random forest classifier[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(14): 250-257. (in Chinese with English abstract)
doi:10.11975/j.issn.1002-6819.2017.14.034 http://www.tcsae.org
2017-02-26
2017-07-05
公益性行業(yè)科研專(zhuān)項(xiàng)(201411017)
陳元鵬,男,遼寧人,博士生,主要從事遙感技術(shù)在土地利用與復(fù)墾中的應(yīng)用研究。北京 國(guó)土資源部土地整治中心,100035;中國(guó)地質(zhì)大學(xué)(北京),100083。Email:cyp520918@163.com