林海晏 岳彩榮 吳曉暉 胥 輝 鄭 欣
(1.西南林業(yè)大學(xué)林學(xué)院,云南 昆明 650224;2.首都體育學(xué)院現(xiàn)代教育技術(shù)中心,北京 100086)
基于EnMAP-Box的遙感圖像分類研究
林海晏1岳彩榮1吳曉暉2胥 輝1鄭 欣1
(1.西南林業(yè)大學(xué)林學(xué)院,云南 昆明 650224;2.首都體育學(xué)院現(xiàn)代教育技術(shù)中心,北京 100086)
采用2007年6月云南省勐臘縣TM遙感數(shù)據(jù),利用EnMAP-box進(jìn)行了支持向量機(jī)的圖像分類研究,以網(wǎng)格搜索法尋找最優(yōu)參數(shù),在設(shè)定的范圍內(nèi),求得了最優(yōu)C和g參數(shù),用此參數(shù)進(jìn)行支持向量機(jī)的遙感圖像土地覆蓋分類。結(jié)果表明:SVM方法較最大似然分類方法具有較高的分類精度,特別是闊葉林和橡膠林的精度明顯優(yōu)于最大似然分類方法;對(duì)于面積較小的次要類型,2種分類方法的精度基本保持一致;SVM的總體精度相對(duì)于最大似然分類提高了11.9%。
支持向量機(jī);EnMAP-box;網(wǎng)格搜索法;遙感圖像分類
SVM(support vector machines)支持向量機(jī)是建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上的一個(gè)學(xué)習(xí)算法,根據(jù)有限的樣本信息在模型的復(fù)雜性(對(duì)特定訓(xùn)練樣本的學(xué)習(xí)精度)和學(xué)習(xí)能力(無錯(cuò)誤識(shí)別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力,是統(tǒng)計(jì)學(xué)習(xí)、最優(yōu)化方法和核函數(shù)方法的結(jié)合[1-2],目前主要應(yīng)用于分類和回歸問題。隨著空間技術(shù)的發(fā)展,SVM被引入遙感影像分類處理,現(xiàn)已成為SVM應(yīng)用的一個(gè)熱門研究方向。很多研究表明[3],SVM分類精度與其懲罰參數(shù)(C)和核函數(shù)參數(shù)(g)是影響SVM分類器性能的關(guān)鍵參數(shù)。近年來,許多學(xué)者提出或改進(jìn)了SVM分類研究中參數(shù)優(yōu)化問題。目前,主要有以下方法:實(shí)驗(yàn)法、網(wǎng)格搜索(grid search)法[4]、遺傳算法(genetic algorithm,GA)[5]尋優(yōu)法、粒子群算法(particle swarm optimization,PSO)[6]尋優(yōu)法等。然而尚未見關(guān)于整合SVM分類器和參數(shù)優(yōu)化模塊軟件的相關(guān)報(bào)道,因而很多SVM參數(shù)優(yōu)化的應(yīng)用性研究受到工具的限制。本文利用EnMAP-Box工具包中的網(wǎng)格搜索作為研究工具,以(C,g)作為尋優(yōu)變量,以TM影像中各波段像素值和NDVI作為特征向量,研究EnMAP-Box工具包中SVM參數(shù)優(yōu)化在遙感圖像分類中的性能表現(xiàn)。
1.1 SVM分類原理
SVM最初是針對(duì)2個(gè)數(shù)據(jù)類別的分類問題提出來的。對(duì)于樣本集:(xi,yi),其中:i=1,2,3,…,n;yi∈{-1,1}。
構(gòu)造分類面:ωX+b=0,能將2類樣本無錯(cuò)誤的分開,并且使2類樣本之間的距離最大。其中,X為n維向量。
對(duì)于線性不可分的情況,首先通過非線性變換將輸入空間變換到一個(gè)高維空間,然后在這個(gè)新空間中求取最優(yōu)線性分類面,而這種非線性變換是通過定義適當(dāng)?shù)暮撕瘮?shù)(內(nèi)積函數(shù))來實(shí)現(xiàn)。SVM訓(xùn)練樣本集和核函數(shù)完全描述,因此采用不同核函數(shù)k(x,xi),就可以構(gòu)造實(shí)現(xiàn)輸入空間中不同類型的非線性決策面的學(xué)習(xí)機(jī),導(dǎo)致不同的支持向量算法。在實(shí)際問題中,通常是直接給出核函數(shù)。目前,研究最多、最常用的核函數(shù)有:
1) 線性核函數(shù):k(xi,x)=(xi,x);
2) 多項(xiàng)式核函數(shù):k(xi,x)=((xi,x)+1)q,q為參數(shù);
3) Sigmoid核函數(shù):
k(xi,x)=tanh(v(xi,x)+c);
4) 徑向基(RBF)核函數(shù):
1.2 EnMAP-Box工具包
EnMAP-Box是一款由德國(guó)環(huán)境制圖與分析計(jì)劃(environmental mapping and analysis program)項(xiàng)目組基于IDL(interactive data language)開發(fā)的處理高光譜遙感數(shù)據(jù)的工具包。工具包提供了數(shù)據(jù)歸一化、SVM和RF(random decision forests)分類和回歸、濾波等功能。目前,EnMAP-Box功能還在進(jìn)一步擴(kuò)展,其組件式設(shè)計(jì)可以和ENVI遙感圖像處理軟件較好的耦合,其簡(jiǎn)單易用的用戶界面使得工具包有較好的推廣前景。內(nèi)置一些模塊可以針對(duì)高光譜數(shù)據(jù)進(jìn)行處理,如Savitzky-Golay平滑濾波器和基于網(wǎng)格搜索參數(shù)優(yōu)化的支持向量機(jī)的圖像分類等。本研究使用EnMAP-Box的SVM分類器,對(duì)TM遙感圖像進(jìn)行分類。
EnMAP-Box工具包中的SVM分類模塊依賴于臺(tái)灣大學(xué)林智仁等[7]開發(fā)設(shè)計(jì)的libsvm,一個(gè)簡(jiǎn)單、易于使用和快速有效的SVM模式識(shí)別與回歸的軟件包,其功能模塊集成了網(wǎng)格搜索參數(shù)優(yōu)化。
研究區(qū)主要包括云南省勐臘縣關(guān)累鎮(zhèn)和勐臘自然保護(hù)區(qū)的大部分范圍,地處東經(jīng)101°07′28″~101°33′56″,北緯21°30′07″~21°51′04″,海拔400~ 1 450m,土壤類型以磚紅壤和赤紅壤為主,主要的植被類型為熱帶常綠闊葉林。研究區(qū)物種豐富,包括望天樹(Parashorea chinensis)、番龍眼(Pometia pinnata)、版納青梅(Vatica xishuangbannaensis)、見血封侯(Antiaris toxicaria)、纖細(xì)龍腦香(Dipterocarpus gracilis)等名貴樹種;此外研究區(qū)人為干擾較多,其中以橡膠樹(Hevea brasiliensis)為主的人工林分布廣泛。由2007年6月24日Landsat5衛(wèi)星獲取研究區(qū)域作為研究主要數(shù)據(jù)來源,圖像范圍見圖1。
3.1 技術(shù)路線
此次研究以提高SVM分類精度為目的,應(yīng)用EnMAP工具實(shí)現(xiàn)網(wǎng)格搜索參數(shù)尋優(yōu)SVM遙感圖像分類,其中的EnMAP工具包已經(jīng)集成于ENVI遙感圖像處理軟件,能夠?yàn)閿?shù)據(jù)預(yù)處理、采集樣本、圖像分類、精度檢驗(yàn)提供便利,其優(yōu)勢(shì)在于為SVM分類提供了參數(shù)尋優(yōu)方法。研究中采用SVM分類和傳統(tǒng)的最大似然分類,分別對(duì)研究區(qū)遙感圖像進(jìn)行分類研究比較。研究流程見圖2。
3.2 研究方法
交叉驗(yàn)證[8](crossvalidation,CV)方法貫穿于SVM參數(shù)優(yōu)化過程中,是完成參數(shù)優(yōu)化過程中最基本的手段之一,也是參數(shù)優(yōu)化中重要精度檢測(cè)方法之一。很多SVM分類器在設(shè)計(jì)之初就將交叉驗(yàn)證納入設(shè)計(jì)范圍之內(nèi),因此EnMAP-Box實(shí)現(xiàn)參數(shù)優(yōu)化功能也依賴于其使用的libsvm模塊自身具備的交叉驗(yàn)證功能。交叉驗(yàn)證的基本思想是把原始樣本數(shù)據(jù)進(jìn)行分組,一部分作為樣本集,另一部分作為測(cè)試集。首先用樣本集對(duì)分類器進(jìn)行訓(xùn)練,得到訓(xùn)練模型,再利用測(cè)試集驗(yàn)證分類模型的精度,以此作為評(píng)價(jià)分類器的性能指標(biāo)。通常人們都采用K-foldCV,即將原始數(shù)據(jù)分成K組,將每個(gè)子集數(shù)據(jù)分別做一次測(cè)試集,其余的(K-1)組子集數(shù)據(jù)作為樣本集,這樣會(huì)得到K個(gè)分類模型,用這K個(gè)分類模型最終測(cè)試集的分類準(zhǔn)確率平均數(shù)作為此K-CV下分類器分類精度的性能指標(biāo)。
3.2.1 樣本獲取 研究中選取了除第六波段之外6個(gè)TM波段以及NDVI,一共7個(gè)分類特征。使用ENVI遙感圖像處理軟件及工具,對(duì)圖像進(jìn)行了大氣校正、地形校正等預(yù)處理,盡量消除氣溶膠、地形等環(huán)境因子對(duì)遙感圖像的影響;使用EnMAP工具對(duì)相應(yīng)的遙感圖像進(jìn)行歸一化處理。根據(jù)實(shí)地調(diào)查的數(shù)據(jù),選取一定數(shù)量的訓(xùn)練樣本,研究區(qū)主要類型分為:水域、農(nóng)地、橡膠林、竹林、灌木林、常綠闊葉林。
實(shí)地調(diào)查的地類以及一些輔助參考數(shù)據(jù)作為選取樣本的依據(jù),其中最重要的樣本類型是常綠闊葉林和橡膠林(人工林)。根據(jù)森林資源清查數(shù)據(jù),2種類型的面積占到研究區(qū)面積85%以上。樣本的選擇兼顧了代表性和樣本間的可分離度。樣本的數(shù)量見表1。
表1 各類型樣本數(shù)量
3.2.2 數(shù)據(jù)歸一化 遙感數(shù)據(jù)經(jīng)過大氣校正、地形校正等預(yù)處理,完成數(shù)據(jù)歸一化操作。歸一化并不是必須采用的預(yù)處理方法。但一旦采用了,這個(gè)步驟就十分重要,因?yàn)檫@是使用SVM分類的第一步驟,原始數(shù)據(jù)將會(huì)被變化,若處理不當(dāng)會(huì)使后面的分類或回歸效果不佳,最好的效果是將測(cè)試集和樣本集放在一起歸一化。因此,遙感圖像的分類歸一化問題顯的尤為重要,有學(xué)者研究證明歸一化能有效提高分類器的分類準(zhǔn)確率,SVM尤為明顯,且能使其參數(shù)的尋優(yōu)范圍縮小,縮短訓(xùn)練周期[9]。
3.2.3 參數(shù)尋優(yōu) 對(duì)于以RBF核函數(shù)的SVM分類器,網(wǎng)格搜索法[10]的基本原理是讓懲罰參數(shù)(C)和核參數(shù)(g)在一定的范圍劃分網(wǎng)格并遍歷網(wǎng)格內(nèi)所有點(diǎn)進(jìn)行取值,對(duì)于取定的C和g利用交叉驗(yàn)證K-CV方法得到在此組C和g下訓(xùn)練集驗(yàn)證分類準(zhǔn)確率,最終取使訓(xùn)練集驗(yàn)證分類準(zhǔn)確率最高那組的C和g作為最佳的參數(shù)。值得提出的是,為了保證參數(shù)選擇的合理性,在設(shè)定的取值范圍之內(nèi),在取值過程中舍去邊界值。在一定取值范圍之內(nèi)在保證模型的精度的前提下,C和g的取值在非邊界值內(nèi),可以在一定程度上解決網(wǎng)格搜索尋優(yōu)陷入局部最優(yōu)解的問題。
在ENVI中獲取的樣本信息ROI文件,使用ENVI的ROITool工具CreatClassImagefromROI功能轉(zhuǎn)為符合EnMAP使用規(guī)范的分類圖像。使用EnMAP工具的parameterizeSVclassifer(支持向量分類器參數(shù)優(yōu)化),設(shè)定懲罰參數(shù)和核參數(shù)的取值范圍,對(duì)樣本分類模型進(jìn)行依據(jù)交叉驗(yàn)證方法的精度分析,得出分類精度較好的分類模型。參數(shù)尋優(yōu)見圖3。
3.2.4 圖像分類 在得到合理的參數(shù)優(yōu)化結(jié)果后,對(duì)遙感圖像進(jìn)行SVM分類。值得提出的是,EnMAP工具包網(wǎng)格搜索參數(shù)尋優(yōu)SVM分類器使用的核函數(shù)是RBF徑向基核函數(shù)。
4.1EnMAP參數(shù)尋優(yōu)結(jié)果
通過多次的反復(fù)試驗(yàn)發(fā)現(xiàn),網(wǎng)格搜索中模型的精度與網(wǎng)格搜索范圍的設(shè)定有著密切的聯(lián)系。在樣本空間、遙感數(shù)據(jù)等背景設(shè)定一定的情況下,C和g參數(shù)的初始設(shè)定范圍和搜索步長(zhǎng)對(duì)模型精度的影響是顯而易見的。參數(shù)設(shè)定范圍要在可控范圍內(nèi)避免出現(xiàn)局部最優(yōu)解,即尋優(yōu)參數(shù)應(yīng)是非臨界值,而搜索的步長(zhǎng)應(yīng)當(dāng)在尋優(yōu)時(shí)間允許的范圍內(nèi),保證步長(zhǎng)最小,交叉驗(yàn)證中樣本集的分割數(shù)量應(yīng)>3。
文章中網(wǎng)格搜索參數(shù)設(shè)置如下:Cmin和Cmax為初始最大值和最小值,M為乘數(shù);則C的搜索范圍是:
合理的初始值設(shè)定值能夠有效增加搜索密度,并且能夠?qū)?shù)控制在初始設(shè)定值的范圍內(nèi)。計(jì)算結(jié)果表征了在設(shè)定的參數(shù)范圍之內(nèi),交叉驗(yàn)證模型的最優(yōu)分類精度為0.947 964。網(wǎng)格搜索尋優(yōu)所得的參數(shù)C=137.370 55;g=1.728 00。網(wǎng)格搜索參數(shù)設(shè)定見圖4。
4.2 分類結(jié)果與精度檢驗(yàn)
將以上參數(shù)尋優(yōu)結(jié)果代入分類器SVM,得到研究區(qū)分類結(jié)果,見圖5。為了便于對(duì)比,研究中使用同樣的訓(xùn)練樣地采用最大似然方法進(jìn)行分類,結(jié)果見圖6。
對(duì)2種方法得到的分類結(jié)果采用2006年森林資源二類清查數(shù)據(jù)作為地面真實(shí)數(shù)據(jù)進(jìn)行精度檢驗(yàn)(表2)。檢驗(yàn)結(jié)果表明,SVM的分類總體精度為84.4%,kappa系數(shù)為0.778 8;最大似然分類總體精度為72.5%,kappa系數(shù)為0.622 1。SVM分類精度比最大似然方法有了較大幅度的提高,特別是對(duì)于面積比例較大的闊葉林和橡膠林,使用網(wǎng)格搜索的SVM分類方法,其分類精度得到了較大程度的提高。
表2 SVM和最大似然分類精度比較
1) SVM參數(shù)的優(yōu)化選取,國(guó)際上并沒有公認(rèn)統(tǒng)一的最好的方法[11-12]。本文嘗試網(wǎng)格搜索最優(yōu)參數(shù)的方法,通過網(wǎng)格搜索參數(shù)尋優(yōu),在設(shè)定的范圍內(nèi),求得了最優(yōu)的C和g參數(shù)。用此參數(shù)進(jìn)行了支持向量機(jī)的遙感圖像土地覆蓋分類。結(jié)果表明:SVM方法較最大似然分類方法具有較高的分類精度,特別是闊葉林和橡膠林的精度明顯優(yōu)于最大似然分類方法;對(duì)于面積較小的次要類型,2種分類方法的精度基本保持一致;SVM的總體精度相對(duì)于最大似然分類提高了11.9%。
2)EnMAP-box工具包中的SVM分類模塊包含網(wǎng)格搜索參數(shù)優(yōu)化功能,為中尺度遙感圖像SVM分類提供了一個(gè)可行方案。同時(shí),網(wǎng)格搜索中初始設(shè)定范圍和步長(zhǎng)是得到最優(yōu)解的關(guān)鍵,按照EnMAP中網(wǎng)格搜索算法設(shè)定,乘數(shù)(multipler)是直接影響C和g取值密度的重要參數(shù)。基于網(wǎng)格搜索參數(shù)優(yōu)化的SVM分類是一個(gè)提高中尺度遙感圖像分類精度的有效手段。
3) 在SVM分類中,在設(shè)定參數(shù)尋優(yōu)范圍時(shí),應(yīng)避免參數(shù)范圍過窄陷入局部最優(yōu)解的問題。
4) 在遙感圖像的分類問題中,SVM是解決小樣本、非線性問題的有力工具,其參數(shù)的優(yōu)化方法也多種多樣,文章介紹的EnMAP工具集成了網(wǎng)格搜索參數(shù)優(yōu)化的功能,一定程度上為提高光譜遙感圖像分類精度提供了一個(gè)有效的途徑。
[1] 張學(xué)工. 關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J]. 自動(dòng)化學(xué)報(bào), 2000, 26(1): 32-42.
[2] 張學(xué)工. 統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)[J]. 北京: 清華大學(xué)出版杜, 2000.
[3] 李嬌.支持向量機(jī)參數(shù)優(yōu)化研究[D].武漢:華中師范大學(xué),2011.
[4]LiuXianglou,JiaDongxu,LiHui,etal.ResearchonKernelparameteroptimizationofsupportvectormachineinspeakerrecognition[J].ScienceTechnologyandEngineering, 2010, 10(7): 1669-1673.
[5]ChenPW,WangJY,LeeHM.ModelselectionofSVMsusingGAapproach[C]//NeuralNetworks, 2004.Proceedings. 2004IEEEInternationalJointConferenceon.IEEE, 2004, 3: 2035-2040.
[6]EberhartRC,KennedyJ.Anewoptimizerusingparticleswarmtheory[C]//Proceedingsofthesixthinternationalsymposiumonmicromachineandhumanscience, 1995, 1: 39-43.
[7]ChangCC,LinCJ.LIBSVM:alibraryforsupportvectormachines[J].ACMTransactionsonIntelligentSystemsandTechnology(TIST), 2011, 2(3): 27.
[8] 王健峰, 張磊, 陳國(guó)興, 等. 基于改進(jìn)的網(wǎng)格搜索法的SVM參數(shù)優(yōu)化[J]. 應(yīng)用科技, 2012, 39(3): 28-31.
[9] 鄒鵬, 姜秋喜, 莫翠瓊, 等. 基于SVM識(shí)別的雷達(dá)輻射源特征向量歸一化研究[J]. 電子信息對(duì)抗技術(shù), 2010, 25(6): 30-33.
[10] 王興玲, 李占斌. 基于網(wǎng)格搜索的支持向量機(jī)核函數(shù)參數(shù)的確定[J]. 中國(guó)海洋大學(xué)學(xué)報(bào): 自然科學(xué)版, 2005, 35(5): 859-862.
[11] 劉淳安, 陳一虎. 基于帶變異算子的粒子群優(yōu)化算法[J]. 重慶工學(xué)院學(xué)報(bào), 2006, 19(8): 38-40.
[12] 張榮沂. 一種新的集群優(yōu)化方法:粒子群優(yōu)化算法[J]. 黑龍江工程學(xué)院學(xué)報(bào), 2005, 18(4): 34-36.
(責(zé)任編輯 曹 龍)
Remote Sensing Image Classification by EnMAP-Box Model
LIN Hai-yan1, YUE Cai-rong1, WU Xiao-hui2, XU Hui1, ZHENG Xin1
(1.College of Forestry, Southwest Forestry University, Kunming Yunnan 650224, China;2.New Media Service Center, Capital University of Physical Education and Sports, Beijing 100086, China)
Image classification of the TM remote sensing data of Mengla County, Yunnan Province in June of 2007 was conducted by EnMAP-box model with the support vector machine (SVM), attempting to search for the optimal parameters by grid search. The optimal C and g parameters were obtained within a set range, and the land cover classification was done by SVM with the optimized parameters and the remote sensing image. The results showed that the classification accuracy of SVM classifier was higher than that of the regular Maximum Likelihood Classifier (MLC), especially for the broadleaved forests and rubber plantations. The classification accuracy of the two methods would be similar for smaller secondary land types. Comparatively speaking, the overall accuracy of the SVM was 11.9% higher than that of MLC.
support vector machine (SVM); EnMAP-box Model; grid search; remote sensing image classification
2013-12-29
國(guó)家公益性行業(yè)科研專項(xiàng)(200904045)資助;國(guó)家自然基金項(xiàng)目(31260156)資助。
岳彩榮(1964—),男,教授。研究方向:遙感與地理信息系統(tǒng)應(yīng)用。Email:cryue@163.com。
10.3969/j.issn.2095-1914.2014.02.013
S771.3
A
2095-1914(2014)02-0067-05
第1作者:林海晏(1985—),男,碩士生。研究方向:林業(yè)遙感。Email:lindar2004@163.com。