薛章鷹, 劉興權(quán)
(中南大學(xué) 地球科學(xué)與信息物理學(xué)院, 湖南 長沙 410083)
?
結(jié)合ReliefF、GA和SVM的面向?qū)ο蠼ㄖ锬繕?biāo)識別特征選擇方法
薛章鷹, 劉興權(quán)
(中南大學(xué) 地球科學(xué)與信息物理學(xué)院, 湖南 長沙 410083)
提出結(jié)合ReliefF算法、遺傳算法(Genetic algorithm, GA)和支持向量機(jī)(Support Vector Machine, SVM)的高分辨率遙感影像建筑物目標(biāo)識別特征選擇算法。首先使用ReliefF算法進(jìn)行初步的特征篩選,然后將SVM參數(shù)和特征子集編碼到GA染色體中,以SVM識別精度構(gòu)建適應(yīng)度函數(shù),同時優(yōu)化特征子集和SVM參數(shù)。實驗結(jié)果表明,將文中算法應(yīng)用于建筑物目標(biāo)識別,能以較小的特征子集和較短的優(yōu)化時間達(dá)到較高的識別精度。
ReliefF;遺傳算法;支持向量機(jī);特征選擇
面向?qū)ο竽繕?biāo)識別將影像分割成大小不一、包含多個像素的同質(zhì)區(qū)域(對象),以對象取代像元作為識別的基本單元,它綜合考慮影像對象的光譜、幾何、紋理和拓?fù)潢P(guān)系等特征,可以得到較高精度的識別結(jié)果,是當(dāng)前高分辨率遙感影像目標(biāo)識別技術(shù)的發(fā)展趨勢。然而,由于“維數(shù)災(zāi)難”的存在,如果將所有的特征都輸入分類器,不僅會使運算變得復(fù)雜,處理速度大大下降;而且在有限樣本的情況下,過多的特征可能會導(dǎo)致分類精度降低。
目前,常用的高分辨率遙感影像面向?qū)ο竽繕?biāo)識別特征選擇方法主要有經(jīng)驗分析法[1-2]、分離閾值法[3-4]、基于互信息的最大相關(guān)性最小冗余度方法[5-6]和結(jié)合GA與SVM的特征選擇方法[7]等。其中,結(jié)合GA與SVM的特征選擇方法根據(jù)SVM識別精度構(gòu)建GA適應(yīng)度函數(shù),以識別精度引導(dǎo)優(yōu)化過程,通??梢缘玫捷^高的識別精度。但是該算法沒有考慮同時優(yōu)化特征子集和SVM參數(shù),而且所得到的特征子集較大,優(yōu)化時間較長。因此,本文提出了一種結(jié)合ReliefF算法、GA和SVM的特征選擇算法,該算法首先使用ReliefF算法進(jìn)行初步的特征篩選,然后將SVM參數(shù)和特征子集編碼到GA染色體中,使用GA同時優(yōu)化特征子集和SVM參數(shù),利用該算法所得到的特征子集和SVM參數(shù)對高分辨率遙感影像中的建筑物目標(biāo)進(jìn)行識別。
1.1 相關(guān)理論
Relief算法是基于兩類問題的特征選擇算法,主要思想是根據(jù)特征區(qū)分相鄰樣本的能力來決定特征權(quán)重[8]。ReliefF算法是對Relief算法的擴(kuò)展,它可以解決多類問題以及回歸問題,并提供了對不完整數(shù)據(jù)的處理方法[9]。遺傳算法是Holland于1975年提出的一種基于生物自然選擇和遺傳機(jī)理的隨機(jī)搜索算法,它與問題的領(lǐng)域無關(guān),具有較強(qiáng)的魯棒性,常用于解決復(fù)雜的優(yōu)化問題[10]。支持向量機(jī)是在統(tǒng)計學(xué)習(xí)理論的基礎(chǔ)上發(fā)展起來的新一代學(xué)習(xí)算法[11]。其主要思想是:將輸入空間通過非線性變換映射到高維空間中,使原輸入空間中線性不可分的問題映射到高維空間后變?yōu)榫€性可分,并在保證不同類別樣本正確分開的同時最大化類別之間的分類間隔[12]。
1.2 基本思想
本文提出的結(jié)合ReliefF、GA和SVM的特征選擇算法首先使用ReliefF算法計算出各個特征的權(quán)重,依據(jù)權(quán)重對特征進(jìn)行排序,排序靠后的特征將被直接排除,不再參與到GA的優(yōu)化過程中,從而縮短GA染色體的長度,減少優(yōu)化時間。在使用SVM時,兩個關(guān)鍵的問題是:如何選擇最優(yōu)的輸入特征子集以及如何設(shè)置最優(yōu)的核函數(shù)參數(shù)。輸入特征子集的改變會影響對應(yīng)的最優(yōu)核函數(shù)參數(shù),核函數(shù)參數(shù)的改變也會影響對應(yīng)的最優(yōu)輸入特征子集。因此,為了達(dá)到最優(yōu)的目標(biāo)識別精度,本文算法將核函數(shù)參數(shù)和特征子集一起編碼到GA染色體中,在優(yōu)化特征子集的同時優(yōu)化核函數(shù)的參數(shù),最后使用優(yōu)化得到的特征子集和核函數(shù)參數(shù)來識別影像中的建筑物目標(biāo),算法流程如圖1所示。
圖1 結(jié)合ReliefF、GA和SVM的特征選擇算法
1.3 染色體編碼
圖2 由參數(shù)C,γ和特征子集組成的染色體
1.4 種群初始化
本文算法使用ReliefF算法來減少輸入到GA進(jìn)行優(yōu)化的特征子集的特征個數(shù),并且依據(jù)特征權(quán)重為GA提供一個好的初始種群,從而為GA提供一批好的搜索起點。種群初始化的具體步驟如下:
1)使用ReliefF算法算出各個特征的權(quán)重,依據(jù)特征權(quán)重對特征進(jìn)行排序,選擇排序結(jié)果最靠前的nf個特征參與到GA的優(yōu)化過程中,直接淘汰其他權(quán)重過低的特征。
2)在SVM參數(shù)二進(jìn)制編碼部分,隨機(jī)設(shè)置某個二進(jìn)制位為0或者1;在特征子集二進(jìn)制編碼部分,將保留下來前nf個特征的權(quán)重歸一化,以歸一化后的結(jié)果作為該特征的被選概率,如果該特征被選中,則對應(yīng)位設(shè)為1,未被選中則設(shè)為0。
重復(fù)步驟2),直到產(chǎn)生的個體數(shù)目達(dá)到初始種群大小。
1.5 適應(yīng)度函數(shù)設(shè)置
適應(yīng)度是遺傳算法中個體進(jìn)化的驅(qū)動力,是進(jìn)行自然選擇的依據(jù),個體質(zhì)量的優(yōu)劣由適應(yīng)度來評價[13]。本文算法在設(shè)計適應(yīng)度函數(shù)時主要考慮如下3個因素:目標(biāo)識別精度、所選特征子集的特征個數(shù)以及所選特征子集的特征成本。具有最高的目標(biāo)識別精度、最少的特征個數(shù)以及最低的特征成本的個體將具有最高的適應(yīng)度函數(shù)值。為了同時考慮這3個因素,本文設(shè)計了如下適應(yīng)度函數(shù):
(1)
其中:ωA為目標(biāo)識別精度的權(quán)重,ωF為特征個數(shù)和特征成本的權(quán)重,ωA+ωF=1,Accuracy為目標(biāo)的識別精度,Ci為獲取特征i所需成本,F(xiàn)i為1,則表示特征i被選擇;Fi為0,則表示特征i未被選擇。目標(biāo)的識別精度Accuracy通過對測試樣本集的識別結(jié)果構(gòu)建混淆矩陣來計算,計算公式如下:
(2)
其中:FP表示把負(fù)例識別為正例的數(shù)量(本文中正例為建筑物,負(fù)例為非建筑物),F(xiàn)N表示把正例識別為負(fù)例的數(shù)量,TP表示正確識別的正例的數(shù)量,TN表示正確識別的負(fù)例的數(shù)量。
為了驗證本文提出的結(jié)合ReliefF、GA和SVM的特征選擇算法在高分辨率遙感影像面向?qū)ο蠼ㄖ锬繕?biāo)識別中的優(yōu)勢,本文選取了3組實驗數(shù)據(jù)進(jìn)行了實驗。將實驗結(jié)果與其他幾種方法進(jìn)行對比,包括GA-SVM(C,γ)方法、使用經(jīng)驗特征的SVM方法和使用全部特征的SVM方法。其中,GA-SVM(C,γ)方法僅優(yōu)化特征子集,不同時優(yōu)化SVM參數(shù),也不使用ReliefF算法;使用經(jīng)驗特征的SVM方法所選用的特征有亮度、各波段均值、各波段標(biāo)準(zhǔn)差、面積、長度、長/寬、主方向、緊致度和矩形度。
由于GA的優(yōu)化結(jié)果具有不確定性,本文對每組數(shù)據(jù)進(jìn)行10次實驗,以10次實驗結(jié)果的平均值作為評價算法的依據(jù)。
2.1 實驗數(shù)據(jù)和實驗環(huán)境
實驗數(shù)據(jù)1為QuickBird影像,獲取于ENVI示例數(shù)據(jù),大小為682×634;實驗數(shù)據(jù)2為美國加州地區(qū)Google影像,獲取于Google Earth,大小為681×643;實驗數(shù)據(jù)3為印度Sundarbans地區(qū)QuickBird影像,獲取于GLCF網(wǎng)站,大小為400×400。Quickbird影像包含藍(lán)、綠、紅和近紅外4個波段,Google影像包含藍(lán)、綠和紅3個波段。
本文實驗環(huán)境操作系統(tǒng)為Win7,處理器為AMD Athlon主頻2.71 GHz,內(nèi)存為4 G。算法在MATLAB中實現(xiàn),SVM使用的是臺灣大學(xué)林智仁教授等[14]開發(fā)的Libsvm。
2.2 影像分割和特征提取
本文使用分形網(wǎng)絡(luò)演化算法(FNEA)算法[15]對影像進(jìn)行多尺度分割,分割在eCognition軟件中完成,3組實驗數(shù)據(jù)的分割尺度、光譜異質(zhì)性權(quán)重和緊致度權(quán)重分別設(shè)為(45,0.5,0.9)、(35,0.4,0.9)和(25,0.5,0.9)。
從分割后影像對象中提取的特征包含光譜特征、幾何特征和紋理特征[16]3類,從實驗數(shù)據(jù)1和實驗數(shù)據(jù)3中提取的特征均為82個,從實驗數(shù)據(jù)2中提取的特征為67個。
2.3 實驗樣本和參數(shù)說明
本文的實驗樣本分為訓(xùn)練樣本集和測試樣本集,樣本分為建筑物、植被和其他地面三類地物,樣本類別和個數(shù)如表1所示。
表1 樣本類別和個數(shù)
ReliefF算法參數(shù)設(shè)定如下:最近鄰樣本個數(shù)設(shè)為40,迭代次數(shù)設(shè)為輸入樣本的總個數(shù),從該算法的計算結(jié)果中保留下來進(jìn)入GA優(yōu)化過程的特征個數(shù)設(shè)為30。
GA的參數(shù)設(shè)定如下:種群大小設(shè)為100,直接進(jìn)入下一代的優(yōu)良個體數(shù)設(shè)為10,GA的停止條件設(shè)為遺傳代數(shù)達(dá)到100或者連續(xù)進(jìn)化10代適應(yīng)度
函數(shù)值的變化小于0.001。在適應(yīng)度函數(shù)參數(shù)的設(shè)置方面,由于本文以提高目標(biāo)識別精度作為主要目標(biāo),將目標(biāo)識別精度的權(quán)重設(shè)為0.9,將特征個數(shù)和特征成本的權(quán)重設(shè)為0.1。在特征成本的設(shè)置方面,將具有較高計算代價的紋理特征的成本設(shè)為2,將光譜特征和幾何特征的成本設(shè)為1。
對于不使用GA優(yōu)化SVM參數(shù)的方法,參數(shù)C和γ通過交叉驗證方法[17]得到。
2.4 實驗結(jié)果與分析比較
本文算法的實驗數(shù)據(jù)原圖和建筑物識別結(jié)果見圖3。實驗數(shù)據(jù)1達(dá)到最優(yōu)建筑物識別精度時,所選特征子集中包含的特征有建筑物指數(shù)、近紅外波段GLCM均值、近紅外均值、近紅外波段GLCM同質(zhì)性、密度;實驗數(shù)據(jù)2達(dá)到最優(yōu)建筑物識別精度時,所選特征子集中包含的特征有綠光波段貢獻(xiàn)率、最大差分、紅光波段均值、紅光波段GLCM均值、植被指數(shù)、亮度、綠光波段均值、綠光波段GLCM熵、面積、體積、藍(lán)光波段GLCM同質(zhì)性、紅光波段GLDV熵;實驗數(shù)據(jù)3達(dá)到最優(yōu)建筑物識別精度時,所選特征子集中包含的特征有歸一化植被指數(shù)、比值植被指數(shù)、土壤調(diào)節(jié)植被指數(shù)、藍(lán)光波段均值、紅光波段均值、最大差分、長度和綠光波段GLCM均值。
(a)數(shù)據(jù)1原圖
(c)數(shù)據(jù)3原圖
(d)數(shù)據(jù)1識別結(jié)果
(e)數(shù)據(jù)2識別結(jié)果
(f)數(shù)據(jù)3識別結(jié)果
本文選取了建筑物識別精度、總精度、Kappa系數(shù)、優(yōu)化時間和優(yōu)化后特征子集的特征個數(shù)5項指標(biāo),用于將本文算法與其他算法進(jìn)行比較(見表2,使用GA的特征選擇算法的統(tǒng)計量均為10次實驗的平均值)。可以發(fā)現(xiàn),使用全部特征的SVM方法雖然可以達(dá)到80%以上的識別精度,但是其使用的特征個數(shù)過多,帶來了巨大的計算成本,同時其精度低于使用GA的特征選擇算法;使用經(jīng)驗特征的SVM方法在某些時候可以達(dá)到與使用全部特征的SVM方法相當(dāng)?shù)淖R別精度,但是該方法對人的經(jīng)驗要求較高,當(dāng)影像場景變化時,利用已有的特征選擇經(jīng)驗難以達(dá)到較高的識別精度;GA-SVM(C,γ)方法具有較高的識別精度和一致性,但是由于其沒有同時優(yōu)化特征子集和SVM參數(shù),識別精度依然低于本文算法,且存在所選特征子集特征個數(shù)較多的問題。
將本文算法實驗結(jié)果與GA-SVM(C,γ)方法進(jìn)行比較可以發(fā)現(xiàn),本文算法較大幅度地縮短了優(yōu)化時間,減少了優(yōu)化得到的特征子集的特征個數(shù),同時達(dá)到了較高的建筑物識別精度、總精度和Kappa系數(shù)。
表2 本文算法與其他特征選擇算法比較
現(xiàn)有的基于GA的面向?qū)ο竽繕?biāo)識別特征選擇算法通常只將特征子集編碼到染色體中進(jìn)行優(yōu)化,而沒有考慮同時優(yōu)化SVM參數(shù),并且在構(gòu)建GA適應(yīng)度函數(shù)時沒有考慮到特征成本因素,因而存在目標(biāo)識別精度不高、優(yōu)化得到的特征子集較大等問題。本文提出了結(jié)合ReliefF、GA和SVM的高分辨率遙感影像面向?qū)ο竽繕?biāo)識別特征選擇算法,在使用ReliefF算法進(jìn)行初步特征選擇的基礎(chǔ)上,把特征子集和SVM參數(shù)編碼到染色體中,同時優(yōu)化特征子集和SVM參數(shù)。在構(gòu)建GA適應(yīng)度函數(shù)時,同時考慮到識別精度、特征子集大小和特征成本3個因素。
將本文算法應(yīng)用到建筑物目標(biāo)識別中,并將識別結(jié)果與其他特征選擇算法進(jìn)行比較,實驗結(jié)果表明,本文算法可以有效地縮短優(yōu)化時間、減少優(yōu)化得到的特征子集的特征個數(shù),并且達(dá)到較高的建筑物目標(biāo)識別精度,具有較大的實用價值。樣本的質(zhì)量對特征選擇結(jié)果和目標(biāo)識別精度具有直接的影響,如何獲取更優(yōu)質(zhì)量的樣本,為特征選擇提供更科學(xué)的依據(jù),將是后續(xù)的研究方向。
[1] 甘甜,李金平,李小強(qiáng),等. 面向?qū)ο蟮母叻直媛蔬b感影像建筑物震害信息提取[J]. 測繪工程,2015,24(4):11-15.
[2] 譚衢霖,高姣姣. 面向?qū)ο蠓诸愄崛「叻直媛识喙庾V影像建筑物[J].測繪工程,2010,19(4):30-33.
[3] 王賀,陳勁松,余曉敏. 面向?qū)ο蠓诸愄卣鲀?yōu)化選取方法及其應(yīng)用[J].遙感學(xué)報,2013,17(4):816-829.
[4] 鄭毅,武法東,劉艷芳. 一種面向?qū)ο蠓诸惖奶卣鞣治龇椒╗J].地理與地理信息科學(xué),2010,26(2):19-23.
[5] PENG Hanchuan,LONG Fuhui,DING C. Feature selection based on mutual information: criteria of max-dependency,max-relevance,and min-redundancy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(8):1226-1238.
[6] 吳波,朱勤東,高海燕,等. 面向?qū)ο笥跋穹诸愔谢谧畲蠡バ畔⒌奶卣鬟x擇[J]. 國土資源遙感,2009,81(3):29-34.
[7] 孫寧,陳秋曉,駱劍承,等. 面向遙感目標(biāo)識別耦合GA 與SVM 的特征優(yōu)選方法[J]. 遙感學(xué)報,2010,14(5): 928-943.
[8] 黃莉莉,湯進(jìn),孫登第,等. 基于多標(biāo)簽ReliefF的特征選擇算法[J]. 計算機(jī)應(yīng)用,2012,32(10):2888-2890.
[9] JIA J,YANG N,ZHANG C,et al. Object-oriented feature selection of high spatial resolution images using an improved Relief algorithm[J]. Mathematical & Computer Modelling,2013,58(3-4):619-626.
[10] 馬永杰,云文霞. 遺傳算法研究進(jìn)展[J]. 計算機(jī)應(yīng)用研究,2012,29(4):1201-1206.
[11] 臧淑英,張策,張麗娟,等. 遺傳算法優(yōu)化的支持向量機(jī)濕地遙感分類——以洪河國家級自然保護(hù)區(qū)為例[J]. 地理科學(xué),2012,32(4):434-440.
[12] 張學(xué)工. 關(guān)于統(tǒng)計學(xué)習(xí)理論與支持向量機(jī)[J]. 自動化學(xué)報,2000,26(1):32-42.
[13] 金芬,孫春華,鐘鳴. 遺傳算法中適應(yīng)度函數(shù)的改進(jìn)[J]. 機(jī)械設(shè)計與制造,2010(3):218-219.
[14] CHANG Chih-Chung,LIN Chih-Jen. LIBSVM: a library for support vector machines[J]. Acm Transactions on Intelligent Systems & Technology,2001,2(3):389-396.
[15] 呂志勇,張新利,高利鵬,等. 基于高分辨率遙感影像數(shù)據(jù)的FNEA分割算法研究與應(yīng)用分析[J]. 測繪與空間地理信息,2012,35(10):13-16.
[16] 李智峰,朱谷昌,董泰鋒. 基于灰度共生矩陣的圖像紋理特征地物分類應(yīng)用[J]. 地質(zhì)與勘探,2011,47(3):456-461.
[17] 王興玲,李占斌. 基于網(wǎng)格搜索的支持向量機(jī)核函數(shù)參數(shù)的確定[J]. 中國海洋大學(xué)學(xué)報,2005,35(5):859-862.
[責(zé)任編輯:劉文霞]
Feature selection method for object-oriented building targetsrecognition based on ReliefF, GA and SVM
XUE Zhangying, LIU Xingquan
(School of Geosciences and Info-Physics, Central South University, Changsha 410083, China)
This paper proposes a feature selection algorithm for building targets recognition from high resolution remote sensing images, which combines ReliefF algorithm, Genetic algorithm(GA) and Support Vector Machine(SVM). Firstly the algorithm uses ReliefF algorithm for preliminarily feature selection, then the parameters of SVM and feature subset are encoded to GA chromosome, finally the fitness function is constructed with recognition precision, white the feature subset and parameters of SVM are optimized simultaneously. The experiment demonstrates that the proposed algorithm can achieve higher recognition accuray with smaller feature subset and less optimizing time, thus it has great practical value in recognizing building targets.
ReliefF;genetic algorithm;support vector machine;feature selection;target recognition
10.19349/j.cnki.issn1006-7949.2017.02.012
2015-11-18
國家自然科學(xué)基金資助項目(41472302)
薛章鷹(1990-), 男, 碩士研究生.
TP75
A
1006-7949(2017)02-0052-05
引用著錄:薛章鷹, 劉興權(quán).結(jié)合ReliefF、GA和SVM的面向?qū)ο蠼ㄖ锬繕?biāo)識別特征選擇方法[J].測繪工程,2017,26(2):52-56,61.