楊 潔,魏華鋒,劉士文
(中國礦業(yè)大學(xué)地球科學(xué)與測繪工程學(xué)院,北京 100083)
TM影像分類算法比較與評價
楊 潔,魏華鋒,劉士文
(中國礦業(yè)大學(xué)地球科學(xué)與測繪工程學(xué)院,北京 100083)
基于遷安市的TM影像,綜合比較分析常用的6種分類算法——K-Means、Iterative Self-Organizing Data Analysis Technique(ISODATA)、最小距離(Minimum Distance,MD)、波譜角制圖(Spectral Angle Mapper,SAM)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)和支持向量機(jī)(Support Vector Machine,SVM),得到SVM精度最高,但是其時間消耗也很大。隨著大數(shù)據(jù)時代的到來,更加要求算法精度與效率兼顧,而現(xiàn)有的遙感影像分類評價指標(biāo)大都忽略算法的時間效率。因此,提出分類綜合評價指數(shù)L,并成功應(yīng)用于此6種分類算法,得出MD算法最佳。
TM影像;分類;分類綜合評價指數(shù);大數(shù)據(jù);Kappa系數(shù)
隨著傳感器的更新和遙感科學(xué)與技術(shù)的進(jìn)步,遙感技術(shù)已經(jīng)被逐步應(yīng)用到許多行業(yè)。在氣象學(xué)中,可以運(yùn)用遙感影像預(yù)測未來天氣;在航海漁業(yè),人們利用衛(wèi)星影像追蹤魚群;在農(nóng)業(yè)中,遙感影像可以帶來精確的土地利用分類,便于各種決策。而眾多應(yīng)用的前提是對遙感影像的解譯和分類,解譯多指目視解譯,與解譯者的經(jīng)驗密切相關(guān)。遙感影像的分類是重中之重,也是學(xué)者們研究的重點。
目前的分類算法可以分為兩類:非監(jiān)督分類和監(jiān)督分類。常用的非監(jiān)督分類算法有:K-Means[1]、Iterative Self-Organizing Data Analysis Technique(ISODATA)、貝葉斯分類法[2];監(jiān)督分類有:平行六面體(Parallelepiped)、最小距離(Minimum Distance,MD)、最大似然(Maximum Likelihood)、波譜角制圖(Spectral Angle Mapper,SAM)[3]、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)[47]、支持向量機(jī)(Support Vector Machine,SVM)[8-11]等。這些算法各有利弊,如K-MEANS操作簡單速度快,但精度較低;神經(jīng)網(wǎng)絡(luò)分類算法精度高,效率低。在大數(shù)據(jù)到來的時代,現(xiàn)有的分類評價方法,如總體精度[12]、Kappa系數(shù)[13]、PABAK指標(biāo)[14]、混肴矩陣等均為考慮算法的時間效率,因此,本文通過研究K-Means、ISODATA、MD、SAM、ANN和SVM 6種分類算法的時間效率和精度,提出了一個綜合評價指數(shù)L用于評價分類算法的優(yōu)劣,并得到成功應(yīng)用。
1.1 K-Means
K-Means最早是由James MacQueen在1967年提出的,它是一種得到最廣泛使用的基于劃分的聚類算法,把n個對象分為k個簇。算法首先隨機(jī)地選擇k個對象,每個對象初始地代表了一個簇的平均值或中心,對剩余的每個對象根據(jù)其與各個簇中心的距離,將它賦給最近的簇,然后重新計算每個簇的平均值,這個過程不斷重復(fù),直到準(zhǔn)則函數(shù)收斂。它的準(zhǔn)則函數(shù)為
式中:Si為第i個簇,μi為群組Si內(nèi)所有元素xi的重心。
1.2 ISODATA
ISODATA使用最小光譜距離方程產(chǎn)生聚類,此方法以隨機(jī)的類中心或已知信號集中。其實質(zhì)是用某種算法生成初始類別作為“種子”,依據(jù)某個判別規(guī)則進(jìn)行自動迭代聚類的過程。在兩次迭代之間對上一次迭代的聚類結(jié)果進(jìn)行統(tǒng)計分析,根據(jù)統(tǒng)計參數(shù)對已有類別進(jìn)行取消、分裂、合并處理,并繼續(xù)進(jìn)行下一次迭代,直至超過最大迭代次數(shù)或者滿足分類參數(shù),完成分類過程。
1.3 最小距離分類
最小距離分類是一種監(jiān)督分類的方法。它是求出未知類別向量到要識別各類別代表向量中心點的距離,將未知類別向量歸屬于距離最小一類的一種圖像分類算法。
假定c個類別代表模式的特征向量,用R1,…,Rc表示,x是被識別模式的特征向量,|x-Ri|是x與Ri(i=1,2,…,c)之間的距離,如果|x-Ri|最小,則把x分為第i類。
1.4 波譜角制圖
波譜角制圖又稱光譜角分類法,它將光譜數(shù)據(jù)視為多維空間矢量,通過比較解析方法計算像元光譜與已知光譜數(shù)據(jù)中參考光譜之間矢量的夾角,根據(jù)夾角的大小確定光譜間的相似程度,以達(dá)到識別地物的目的。
1.5 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)是一種運(yùn)算模型,由大量的“神經(jīng)元”和相互連接構(gòu)成。每個“神經(jīng)元”代表一種特定的輸出函數(shù),稱為激勵函數(shù)(activation function)。每兩個“神經(jīng)元”間的連接都代表一個對于通過該連接信號的加權(quán)值,稱之為權(quán)重(weight),這相當(dāng)于人工神經(jīng)網(wǎng)絡(luò)的記憶。一個“神經(jīng)元”的結(jié)構(gòu)如圖1所示。
圖1 神經(jīng)元結(jié)構(gòu)
其中,a1~an為輸入向量的各個分量,w1~wn為神經(jīng)元各個突觸的權(quán)值,b為偏置,f為傳遞函數(shù),t為神經(jīng)元輸出。
因此,ANN的數(shù)學(xué)表示為
1.6 支持向量機(jī)
SVM的機(jī)理是尋找一個滿足分類要求的最優(yōu)分類超平面,在保證分類精度的同時使得超平面兩側(cè)的空白區(qū)域最大。
比如給定訓(xùn)練樣本(xi,yi),x∈Rn,y∈{± 1},i=1,2,…,k,超平面(w·x)+b=0,計算分類間隔并轉(zhuǎn)化為在約束條件下求
為了解決這個問題引入Lagrange函數(shù)
1.7 分類綜合評價指數(shù)
分類精度作為分類的最佳評價指標(biāo)無可厚非,但是隨著遙感數(shù)據(jù)的“爆炸”,“云數(shù)據(jù)”逐漸嶄露頭角,僅僅通過精度評價分類是不足的,分類算法的時間效率也應(yīng)加以考慮。因此,本文在實驗的基礎(chǔ)上提出了一個分類綜合評價指數(shù)L,其定義為
式中:n為影像像元個數(shù),k為分類后的Kappa系數(shù),a為一個像元調(diào)節(jié)參數(shù),δ為精度指數(shù),τ為時間指數(shù)。a的大小與像元個數(shù)有關(guān),δ,τ由實驗確定,L越大分類算法越好。
2.1 實驗數(shù)據(jù)
實驗數(shù)據(jù)是河北北部遷安市的Landsat 5TM影像數(shù)據(jù),該TM影像共有7個波段,分別是藍(lán)色波段0.45~0.52um、綠色波段0.52~0.60um、紅色波段0.62~0.69um、近紅外波段0.76~0.96um、中紅外波段1.55~1.75um、熱紅外波段10.4~12.5um、中遠(yuǎn)紅外2.08~3.35um,除熱紅外波段的空間分辨率為60m,其它各波段的空間分辨率均為30m,圖幅大小為1250×1179。遷安處于環(huán)渤海、京津“兩環(huán)戰(zhàn)略”的前沿地帶。其地處燕山余脈,地勢西北高,東南低,山地和丘陵約占全縣面積的55.4%,有灤河、青龍河、冷口沙河、西沙河等河流相伴,其TM影像如圖2所示。
圖2 遷安市的TM影像
2.2 分類與分析
首先對下載的TM影像進(jìn)行波段融合,并去除第6波段,然后進(jìn)行輻射校正、Flaash大氣校正等預(yù)處理工作,最后利用K-Means、ISODATA、MD、SAM、ANN和SVM 6種分類算法對TM影像分類,分為五類:植被Plant、水體Water、建筑物Building、道路Road和裸地Land,其結(jié)果如圖3所示。
從圖3可以看出,K-Means和ISODATA誤將影像左上方的植被分成了水體,而SAM分類過于保守,出現(xiàn)很多未分類區(qū)域。利用混淆矩陣得到精度統(tǒng)計如表1所示,并統(tǒng)計這些算法的運(yùn)行時間,其中,K-Means和ISODATA的迭代次數(shù)選擇為5,分類類別為6,其它均為默認(rèn)。
表1 精度統(tǒng)計
若僅僅從精度方面考慮算法的優(yōu)勝,由表1可以得出分類精度由好到壞依次是SVM、ANN、MD、SAM、ISODATA、K-Means。
隨著數(shù)據(jù)量的增加,有些算法的時間消耗劇增,此時算法的選擇不能僅考慮精度也要考慮時間效率,可以通過計算分類綜合評價指數(shù)L來選擇算法。針對遷安市的TM影像,分別取100×100、200×200、400×400的3幅影像進(jìn)行實驗,建立線性回歸分析,確定δ,τ的最佳值為12、0.2,針對本文1250×1179的影像,a的最佳值為8.25E-6。因此,可以依次計算這些分類算法的L,結(jié)果如表2所示。
表2 綜合評價指數(shù)計算
由表2可知,MD分類算法最好,既兼顧精度又兼有效率,其次是SVM,因此,在數(shù)據(jù)“爆炸”的信息時代分類時應(yīng)最先考慮MD算法,不建議采用精度較高L較低的ANN算法。
2.3 L的普適應(yīng)性檢驗
2.3.1 檢驗數(shù)據(jù)
檢驗數(shù)據(jù)是河北某地區(qū)的Landsat 7的ETM+影像數(shù)據(jù),該影像共有8個波段,其中熱紅外波段的空間分辨率為60~120m,全色波段為15m,其它波段為30m。圖幅大小為2200×2000,如圖4所示。
2.3.2 分類評價
分別用此6種分類方法對檢驗影像分類,其中,K-Means和ISODATA的迭代次數(shù)選擇為5,分類類別為6,其它均為默認(rèn)。分為六類:植被、水體、建筑物、道路、裸地和云,仍然保持δ,τ的值不變,a取2.75E-6,得到分類評價如表3所示。
圖4 ETM+影像
表3 分類評價
從表3數(shù)據(jù)可知,MD仍是最佳,其次是SAM、SVM。比較實驗數(shù)據(jù)和檢驗數(shù)據(jù)可知,隨著數(shù)據(jù)量的進(jìn)一步增大,MD優(yōu)勢更加明顯,因此,在數(shù)據(jù)“爆炸”的信息時代MD是最佳選擇,同時驗證了L的普適應(yīng)性合格。
遙感影像分類作為其它應(yīng)用的基礎(chǔ),在諸多行業(yè)有著重要應(yīng)用。學(xué)者們對分類算法的研究也較多,并提出了許多分類算法。文章利用遷安市的TM影像比較分析了K-Means、ISODATA、最下距離(MD)、光譜角制圖(SAM)、神經(jīng)網(wǎng)絡(luò)(ANN)和支持向量機(jī)(SVM)分類算法,得出監(jiān)督分類的精度比非監(jiān)督分類好,其中SVM、ANN的分類精度最高,但是它們的時間消耗也最大。為了更好地迎接大數(shù)據(jù)時代的到來,首次提出分類綜合評價指數(shù)L,并應(yīng)用于此6種分類算法,得出MD算法兼顧效率與精度,是大數(shù)據(jù)到來的最佳分類選擇。
[1]MCQUEEN J B.Some Methods for classification and Analysis of Multivariate Observations[C].Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and Probability.Berkeley,University of California Press,1967:281-297.
[2]杜培軍.遙感原理與應(yīng)用[M].徐州:中國礦業(yè)大學(xué)出版社,2006.
[3]PETRIPOULOS G P,VADREVUB K P,KALAITZIDIS C.Spectral angle mapper and object-based classification combined with hyperspectral remote sensing imagery for obtaining land use/cover mapping in a Mediterranean region[J].Geocarto International,2013,28(2):114-129.
[4]DIANE M,EDIT J,SORAYA R.Neural network classification of Remote sensing data[J].Computers&Geosciences,1995,21(3):337-386.
[5]任軍號,吉沛琦,耿躍.SOM神經(jīng)網(wǎng)絡(luò)改進(jìn)及在遙感圖像分類中的應(yīng)用[J].計算機(jī)應(yīng)用研究,2011,28(3):1170-1172.
[6]林劍,鮑光淑,敬榮中,等.FasART模糊神經(jīng)網(wǎng)絡(luò)用于遙感圖象監(jiān)督分類的研究[J].中國圖象圖形學(xué)報,2002,7(12):42-47.
[7]BARALDI A,BINAGHI E.Comparison of the multilayer perceptron with neural-fuzzy techniques in the estimation of cover class mixture in remotely sense data[J].IEEE Transactions on Geoscience and Remote Sensing,2001,39(5):994-1005.
[8]譚琨,杜培軍.基于支持向量機(jī)的高光譜遙感圖像分類[J].紅外與毫米波學(xué)報,2008,27(2):123-128.
[9]丁勝鋒,孫勁光,陳東莉,等.一種改進(jìn)的SVM決策樹及在遙感分類中的應(yīng)用[J].計算機(jī)應(yīng)用研究,2012,29(3):1146-1148.
[10]李冬萍.基于混沌粒子群優(yōu)化的SVM分類器研究[J].計算機(jī)仿真,2010,27(4):185-187.
[11]HUANG C,DAVISLS,TOWNSHEND R G.An assessment of Support Vector Machines for Land Cover Classification[J].International Journal of Remote Sensing,2002,23:725-749.
[12]呂超,呂游.遙感影像信息提取技術(shù)的研究與實現(xiàn)[J].黑龍江工程學(xué)院學(xué)報,2014,28(1):34-37.
[13]COHEN J.A coefficient of agreement for nominal scales[J].Educational and Psychological Measurement,1960,20(1):37-46.
[14]田苗,王鵬新,嚴(yán)泰來,等.Kappa系數(shù)的修正及在干旱預(yù)測精度及一致性評價中的應(yīng)用[J].農(nóng)業(yè)工程學(xué)報,2012,28(24):1-7.
[責(zé)任編輯:郝麗英]
Comparison and evaluation of TM image classification algorithm
YANG Jie,WEI Hua-feng,LIU Shi-wen
(College of Geoscience and Surveying Engineering,China University of Mining &Technology(Beijing),Beijing 100083,China)
Based on the TM images of Qian'an city,the six classification algorithms,named as K-Means,Iterative Self-Organizing Data Analysis Technique(ISODATA),Minimum Distance(MD),Spectral Angle Mapper(SAM),Artificial Neural Network(ANN),Support Vector Machine(SVM)are compared and analyzed comprehensively.It is concluded that the accuracy of SVM is the highest and it also costs much time.With the arrival of the era of big data,both precision and efficiency of the algorithm are needed,but most of evaluation index of current remote sensing image classification cannot take the time efficiency of the algorithms into consideration.So an index L is put forward for classified comprehensive evaluation,which is applied successfully to the six kinds of classification algorithms,finally getting the optimal algorithm MD.
TM image;classification;comprehensive evaluation index of classification;big data;Kappa coefficient
P237
A
1671-4679(2015)01-0016-05
2014-09-25
中央高?;究蒲袠I(yè)務(wù)費(fèi)專項資金(2009QD02)
楊 潔(1990-),女,碩士研究生,研究方向:遙感與GIS科學(xué)及其應(yīng)用.