王 耀,楊化超,王光輝,黃 杰,王 更,劉 笑
(1. 中國礦業(yè)大學(xué),江蘇 徐州 221116; 2. 國家測繪地理信息局衛(wèi)星測繪應(yīng)用中心, 北京 100830)
利用多分類器自適應(yīng)級聯(lián)模型的高分二號影像分類
王 耀1,2,楊化超1,王光輝1,2,黃 杰1,2,王 更1,2,劉 笑1,2
(1. 中國礦業(yè)大學(xué),江蘇 徐州 221116; 2. 國家測繪地理信息局衛(wèi)星測繪應(yīng)用中心, 北京 100830)
針對傳統(tǒng)單一分類器分類效果不夠理想,存在各自的不足,以及已有的多分類器級聯(lián)模型不能根據(jù)待識別樣本特征進行動態(tài)調(diào)整優(yōu)化等問題,提出了一種基于多分類器自適應(yīng)級聯(lián)模型的遙感影像分類方法。該模型選取各類別最優(yōu)分類器進行級聯(lián)組合,以待識別樣本在整體性能最優(yōu)分類器的表現(xiàn)對類別最優(yōu)分類器作出自適應(yīng)調(diào)整,對高分辨率影像分割后的像斑對象輸出類別信息。以杭州區(qū)域高分二號遙感影像進行分類試驗,結(jié)果表明,本文方法相比于單一分類器及已有的級聯(lián)模型具有更高的分類精度。
多分類器;影像分類;自適應(yīng)模型;高分二號
對遙感影像提取類別信息,是遙感數(shù)據(jù)在各個領(lǐng)域得到廣泛應(yīng)用的基礎(chǔ)環(huán)節(jié),是遙感數(shù)據(jù)轉(zhuǎn)換為可用地理數(shù)據(jù)的技術(shù)核心[1-2]。隨著高分辨率遙感影像的快速發(fā)展,地物細(xì)節(jié)信息變得更加豐富與精細(xì),但“同物異譜”現(xiàn)象的出現(xiàn)會對分類質(zhì)量帶來不良影響。傳統(tǒng)單一分類器利用了影像某方面的特征和規(guī)則而忽略了其他方面的有用信息,存在一定的局限性與各自的不足,導(dǎo)致最終的輸出類別精度無法滿足實際應(yīng)用的需要,因此,能夠綜合利用各種分類器的優(yōu)勢的多分類器集成方法成為學(xué)者研究的熱點[3-5]。
多分類器集成對不同分類器之間的互補信息加以利用,可以構(gòu)造優(yōu)于單個分類器的融合器,從而顯著提高分類精度。近年來,多分類器組合的方法逐漸應(yīng)用在遙感影像分類領(lǐng)域中并取得了良好的效果。柏延臣等[6]分別給出了抽象級上相同訓(xùn)練特征多分類器組合、抽象級上不同訓(xùn)練特征多分類器組合和測量級上貝葉斯平均法多分類器組合,完成了Landsat TM多光譜影像土地覆被分類;韓建峰等[7]將組合分類方法引入到高光譜影像的分類過程中,針對影像特點,提出了級聯(lián)與并聯(lián)混合的組合策略;王惠英等[8]提出最近距離法和基于知識規(guī)則的模糊分類法相結(jié)合的混合分類法,使總體分類精度得到了提高;彭正林等[9]自定義規(guī)則對簡單投票法、最大概率類別法及模糊積分法進行組合完成航攝數(shù)字正射影像的分類。這些方法在分類前選取了固定的參數(shù)進行多分類器集成,對任何測試樣本均采用相同的分類器子集,系統(tǒng)結(jié)構(gòu)固定,缺乏一定的靈活性。本文充分考慮分類器級聯(lián)組合方式的嚴(yán)密性及已有級聯(lián)方法的缺陷,提出一種多分類器自適應(yīng)級聯(lián)模型指導(dǎo)遙感影像分類。多分類器自適應(yīng)級聯(lián)模型能夠利用不同分類器模型之間的互補信息,并根據(jù)測試樣本自適應(yīng)調(diào)整每一類別最優(yōu)分類器的級聯(lián)順序,有較高的泛化能力與識別精度。
級聯(lián)方式組合結(jié)構(gòu)主要有類集合減少方法和重新判定方法[10]。多分類器自適應(yīng)級聯(lián)模型采用重新判定方法,即當(dāng)待識樣本輸入分類器后,按照某個“規(guī)則”對其類別作出判斷,如滿足一定的條件,則對其類別作出判斷,并終止后續(xù)分類器對該樣本的判斷。如不滿足該條件,則該分類器對其拒識,將其輸入下一級分類器,進行相應(yīng)判斷操作。這里采用的“規(guī)則”指的是,當(dāng)輸入樣本通過某類別專家,若分類后結(jié)果為該類別,并且按照某個置信度進行判斷,在該閾值范圍內(nèi),則認(rèn)為此樣本屬于該類;否則,若不滿足上述兩個條件中的任意一個,則該分類器對其拒識,交給下一級分類器處理。若所有級聯(lián)模型分類器都拒識,則最終交給整體性能最優(yōu)分類器去完成樣本識別。算法原理如圖1所示。
圖1 自適應(yīng)級聯(lián)模型算法原理
在子分類器集成中,只有當(dāng)子分類器之間所產(chǎn)生的錯誤表現(xiàn)出一定的差異性,其錯誤才能被其他分類器補償。大量文獻(xiàn)表明[11],不同算法的分類器之間會存在較大差異性。目前常用的遙感影像分類器包括最近鄰分類器、貝葉斯分類器、支持向量機分類器、神經(jīng)網(wǎng)絡(luò)分類器、光譜角分類器、馬氏距離分類器等,在試驗中具有較高的分類精度。一般情況下,度量層次輸出的分類器包含信息豐富,因此,本文將這些常用的具有度量層次輸出的分類器作為候選子分類器集來構(gòu)造多分類器動態(tài)模型。
為了測試候選分類器精度,在開發(fā)和優(yōu)化數(shù)據(jù)挖掘模型的過程中需要將含有類別真值標(biāo)簽的訓(xùn)練樣本分為兩部分,一部分用作訓(xùn)練分類模型,另一部分用作檢核精度。研究中使用四折交叉驗證的方法。方法的基本思路是:將含有標(biāo)簽的樣本集分成4份,輪流將其中3份作為訓(xùn)練數(shù)據(jù),剩余一份作為測試數(shù)據(jù)進行試驗,每次試驗都會得到分類模型的正確率,以4次結(jié)果的正確率平均值作為該分類模型的精度指標(biāo)。四折交叉驗證技術(shù)能夠有效地計算分類模型的精度,對分類器模型有一個良好的評估。
利用四折交叉驗證方法,根據(jù)各候選分類器在訓(xùn)練樣本中識別的精度對比,選取每個類別的最優(yōu)分類器[12-13]。類別最優(yōu)分類器選取的是對特定類有最高的識別準(zhǔn)確率的專家分類器,即在樣本被分為某一類的先決條件下,該樣本確實屬于這一類的概率最大。類別最優(yōu)分類器定義為
(1)
(2)
將每個類別最優(yōu)分類器組合成級聯(lián)模型,由于類別最優(yōu)分類器對各自類有最高的識別準(zhǔn)確率,若類別j最優(yōu)分類器將待測樣本識別為類別j,則該樣本屬于類別j的概率非常高,因此可以將此作為級聯(lián)模型的一個輸出條件。
樣本識別為某一類的判定概率不同,不同的分類器模型有不同的決策空間,除了類別最優(yōu)分類器輸出為該類別這一級聯(lián)輸出條件以外,還增加了類別識別概率滿足在特定置信范圍這個條件。如不滿足該閾值范圍,模型依舊將待測樣本拒識并傳入下一級分類器。
tj=[max(f(l)j)+min(f(l)j)]/2
(3)
式中,tj為類別j最優(yōu)分類器對j的識別閾值;l=1,2,…,njj,njj表示在訓(xùn)練樣本中類別真值為j且類別j最優(yōu)分類器也將其識別為j的樣本集。函數(shù)值f具有不同的物理意義,如最小距離分類器,該函數(shù)值為樣本點與類別中心的距離,而對于SVM支持向量機分類器,該函數(shù)值為樣本點的預(yù)測概率。因此,對于不同的基分類器模型,都應(yīng)根據(jù)實際情況求出輸出類別的閾值。
設(shè)樣本有M個類別,則級聯(lián)部分包括M個類別最優(yōu)分類器。由于不同的級聯(lián)順序會對分類精度產(chǎn)生一定的影響,因此如何對M個專家分類器進行排序是個值得研究的問題??紤]到樣本空間的差異,對于類別為j的輸入樣本,更希望類別j的最優(yōu)分類器首先對其進行分類,因為這樣拒識的概率會很小,很大概率直接輸出該類別信息,若存在非類別j的專家分類器優(yōu)于類別j專家分類器順序進行分類判斷,則只要順序在類別j專家分類器之前的任一專家錯分,都會導(dǎo)致分類結(jié)果與實際不符。因此,尋找一個分類函數(shù)能夠?qū)颖精@得排序級或度量級的分類輸出是自適應(yīng)連接的關(guān)鍵。
根據(jù)訓(xùn)練樣本中各分類器交叉驗證精度可以選取一個整體性能最優(yōu)分類器,能夠?qū)颖居凶罡叩淖R別精度與較強的泛化能力。分類混淆矩陣常用于圖像分類評價,包含了分類器在樣本集上的全部分類結(jié)果和實際測得值,其表達(dá)為
(4)
(5)
式中,nsum表示樣本總個數(shù)。整體性能最優(yōu)分類器定義為
Expert*=argmaxk{CAk|k=1,2,…,K}
(6)
式中,Expert*表示整體性能最優(yōu)分類器;CAk表示分類器k的總分類精度。
根據(jù)待測樣本在整體性能最優(yōu)分類器的分類情況,能夠有一個預(yù)測類別排序,由此排序自適應(yīng)地調(diào)整分類器級聯(lián)順序,能夠有效地提高樣本最終分類精度。自適應(yīng)級聯(lián)過程如圖2所示,y1,y2,…,yn為樣本降序排列的預(yù)測類別。
圖2 自適應(yīng)級聯(lián)過程
試驗數(shù)據(jù)為浙江省杭州市西湖區(qū)2015年8月高分二號PMS多光譜遙感影像。研究區(qū)域大小為5030×3300像素,包含4個波段。對預(yù)處理后的影像利用文獻(xiàn)[14]方法進行分割獲取分割矢量,考慮到尺度越小像斑數(shù)越多,分割尺度取120,形狀因子取0.3,緊致度因子取0.5,分割后獲取像斑數(shù)目為7452個。研究區(qū)域321波段合成的真彩色影像與局部影像分割結(jié)果如圖3所示。對像斑進行特征提取,選取常見的光譜特征有分割像斑對象的各波段光譜均值、標(biāo)準(zhǔn)差、最大值、最小值等;常見的紋理特征有各波段灰度共生矩陣的特征,如二階距、熵、相關(guān)度等;常見的形狀特征有面積、長度比、緊致度等;常見的指數(shù)特征有歸一化植被指數(shù)NDVI、歸一化水指數(shù)NDWI等。再隨機均勻選取共400個像斑作為訓(xùn)練樣本集,類別標(biāo)簽包括:水域、裸地、道路、建筑區(qū)、草地、林地。
候選子分類器集選擇具有度量級輸出的最近鄰分類器(KNN)、樸素貝葉斯分類器(Naive-Bayes)、高斯徑向基核的支持向量機分類器(RBF-SVM)、BP神經(jīng)網(wǎng)絡(luò)分類器(BP-ANN)、光譜角填圖分類器(SAM)、馬氏距離分類器(Markov-d)這6種分類器。在訓(xùn)練集上運用四折交叉驗證后計算得到的類別準(zhǔn)確率如圖4所示,總體分類精度和Kappa系數(shù)如圖5所示。
圖5 訓(xùn)練集不同子分類器總體分類精度和Kappa系數(shù)
從圖4和圖5中可以選取各類別最優(yōu)分類器與整體最優(yōu)分類器,得出水域和荒裸地的最優(yōu)分類器為Native-Bayes,道路的最優(yōu)分類器為SAM,建筑區(qū)和耕地的最優(yōu)分類器為BP-ANN,林地的最優(yōu)分類器為RBF-SVM,整體最優(yōu)分類器為BP-ANN。將子分類器根據(jù)提出的自適應(yīng)級聯(lián)模型輸出最終分類結(jié)果。
基于自適應(yīng)級聯(lián)結(jié)構(gòu)的高分二號遙感影像分類結(jié)果如圖6所示。本文方法對每種地物的分類精度見表1。
圖6 自適應(yīng)級聯(lián)模型分類結(jié)果
表1 自適應(yīng)級聯(lián)模型分類精度 (%)
通過表1可以看出,本文的多分類器混聯(lián)模型對各類地物具有較高的精度。為了驗證本文分類方法的有效性與優(yōu)越性,將子分類器分類結(jié)果、文獻(xiàn)[15]采用的級聯(lián)模型加入對比試驗,來驗證本文方法的有效性。
不同方法的總分類精度與Kappa系數(shù)見表2。
表2 不同分類方法精度對比
通過表2可以看出:
(1) 多分類器混聯(lián)模型相比于單一子分類器具有更高的分類精度。子分類器中,BP-ANN總分類精度最高,本文方法總分類精度比BP-ANN高出2.52%,Kappa系數(shù)高出0.04,這是因為多分類器組合能夠綜合利用子分類器各自的優(yōu)點,在本文中表現(xiàn)為對特定地物識別準(zhǔn)確率最高的類別分類器,并且對于類別最優(yōu)分類器拒識的待測樣本,會最終傳遞到整體性能最優(yōu)分類器中,因此,本文方法的分類精度會高于子分類器的分類精度,這體現(xiàn)了多分類器組合方法在遙感分類應(yīng)用的優(yōu)勢。
(2) 本文自適應(yīng)級聯(lián)方法相比于文獻(xiàn)[15]級聯(lián)方法總分類精度高出1.75%,Kappa系數(shù)高出0.03,分類精度有所提高,這是由于文獻(xiàn)[15]提出了一種多分類器組合的靜態(tài)方法,沒有將獲取的專家分類器進行動態(tài)組合,缺乏靈活性,而自適應(yīng)級聯(lián)模型能夠隨識別目標(biāo)根據(jù)特征空間自適應(yīng)地調(diào)整組合模型,讓某類別樣本優(yōu)先進入該類別專家進行判斷輸出,因此正確率更高。
本文針對傳統(tǒng)單一分類器分類效果不夠理想及已有的級聯(lián)模型無法根據(jù)樣本特征動態(tài)調(diào)整的問題,提出了一種基于多分類器自適應(yīng)模型的遙感影像分類方法。該方法利用不同分類器模型之間的互補信息,并且能夠根據(jù)樣本在整體最優(yōu)分類器上的輸出概率自適應(yīng)動態(tài)調(diào)整選取的每一類別最優(yōu)分類器的級聯(lián)順序,以高分二號影像為例對多種分類方法進行對比,驗證了本文方法具有更好的分類性能。
[1] 黃鴻, 鄭新磊. 高光譜影像空-譜協(xié)同嵌入的地物分類算法[J]. 測繪學(xué)報, 2016,45(8):964-972.
[2] 劉小平, 黎夏, 何晉強, 等. 基于蟻群智能的遙感影像分類新方法[J]. 遙感學(xué)報, 2008,12(2):253-262.
[3] 楊海波, 王宗敏, 張濤. 基于混合多分類器結(jié)合算法的遙感分類[J]. 計算機工程, 2010,36(11):173-175.
[4] 鮑蕊. 光譜和空間特征聯(lián)合的高光譜遙感影像多分類器集成方法[D]. 南京:南京大學(xué), 2016.
[5] 郭云開, 曾繁. 融合增強型模糊聚類遺傳算法與ISODATA算法的遙感影像分類[J]. 測繪通報, 2015(12):23-26.
[6] 柏延臣, 王勁峰. 結(jié)合多分類器的遙感數(shù)據(jù)專題分類方法研究[J]. 遙感學(xué)報, 2005,9(5):555-563.
[7] 韓建峰, 楊哲海. 組合分類器及其在高光譜影像分類中的應(yīng)用[J]. 測繪科學(xué)技術(shù)學(xué)報, 2007,24(3):231-234.
[8] 王惠英, 蘇偉, 周軍其. 基于多分類器組合面向?qū)ο筮b感影像信息提取方法[J]. 測繪工程, 2009,18(5):22-26.
[9] 彭正林, 毛先成, 劉文毅, 等. 基于多分類器組合的遙感影像分類方法研究[J]. 國土資源遙感, 2011(2):19-25.
[10] 唐春生, 金以慧. 基于全信息矩陣的多分類器集成方法[J]. 軟件學(xué)報, 2003,14(6):1103-1109.
[11] 竇鵬. 基于投票法的多分類器集成遙感影像分類技術(shù)[D]. 蘭州:蘭州交通大學(xué), 2014.
[12] 陳紹杰, 李光麗, 張偉,等. 基于多分類器集成的煤礦區(qū)土地利用遙感分類[J]. 中國礦業(yè)大學(xué)學(xué)報, 2011, 40(2):273-278.
[13] 薛梅, 鄭全弟. 基于差異性度量的多分類器集成系統(tǒng)設(shè)計[J]. 計算機工程與設(shè)計, 2010, 31(23):5104-5107.
[14] 王更, 王光輝, 楊化超. 融合顏色-紋理模型的均值漂移分割算法[J]. 測繪科學(xué), 2015,40(8):108-112.
[15] SUN J, LI H. Financial Distress Prediction Based on Serial Combination of Multiple Classifiers[J]. Expert Systems with Applications, 2009,36(4):8659-8666.
ClassificationofGF-2ImageUsedbyMultipleClassifiersSelf-adaptionCascadeModel
WANG Yao1,2,YANG Huachao1,WANG Guanghui1,2,HUANG Jie1,2,WANG Geng1,2,LIU Xiao1,2
(1. China University of Mining and Technology, Xuzhou 221116, China; 2. Satellite Surveying and Mapping Application Center, NASG, Beijing 100830, China)
Aiming at the shortcomings of traditional single classifier and the lacking that the existing multiple classifiers cannot adjust itself dynamically according to the characteristics of unknown sample, the classification method of high resolution remote sensing image based on the self-adaption cascade model of multiple classifiers is proposed. In this model, the optimal classifier and the whole optimal classifier are selected to dynamically assemble, making an self-adaption adjustment by performance of the sample which will be classified in this classifier, and the model can produce output category information. By GF-2 image on Hangzhou area classification test, the results show that the multiple classifiers self-adaption cascade model method has a higher classification accuracy compared to a single classifier.
multiple classifiers; image classification; self-adaption model; GF-2
王耀,楊化超,王光輝,等.利用多分類器自適應(yīng)級聯(lián)模型的高分二號影像分類[J].測繪通報,2017(11):32-36.
10.13474/j.cnki.11-2246.2017.0343.
P237
A
0494-0911(2017)11-0032-05
2017-04-04;
2017-06-15
國家自然科學(xué)基金(41371438)
王 耀(1992—),男,碩士,研究方向為遙感信息提取。E-mail:xz_wangyao@163.com