李 雙,楊寶華
隨著遙感技術(shù)不斷發(fā)展,遙感技術(shù)的應(yīng)用越來越受到各行各業(yè)的重視,而遙感影像分類已經(jīng)成為遙感影像信息提取及處理的關(guān)鍵技術(shù)之一[1]。遙感影像分類從方法上分為兩種。一種是基于像素的分類方法,如決策樹等[2],這類方法在多光譜遙感影像上應(yīng)用較多,但其分類結(jié)果需要大量分類后處理來改進(jìn)修正結(jié)果[3]。另一種方法則是面向?qū)ο蟮难芯糠椒ǎ@類方法多用于高分辨率影像。通過分割影像,結(jié)合多種信息源,確定分割對像的所屬類別[4],但這種分類精度不高,需進(jìn)一步改進(jìn)提升精度。
決策樹方法是一種應(yīng)用廣泛的數(shù)據(jù)挖掘分類方法,因具有分類精度高、速度快、生成的模式易于理解等優(yōu)點而受到廣泛關(guān)注[5]。但普通決策樹的規(guī)則一般是根據(jù)經(jīng)驗和目視解譯人為設(shè)定的,對于從影像數(shù)據(jù)中獲取的先驗知識依賴性較大。CRUISE算法,也叫無偏交互作用分類規(guī)則的選擇和評價算法,是分類決策樹算法的一種,它綜合了FACT、QUEST和CART等傳統(tǒng)的決策樹的思想[6],能夠利用選定的訓(xùn)練樣本,快速地從大量數(shù)據(jù)中自動生成精準(zhǔn)的分類規(guī)則,受人為因素的影響較小。目前單一特征在遙感技術(shù)應(yīng)用中不如多特征融合提取的影像信息更加完整[7],因此結(jié)合紋理特征、光譜特征與地學(xué)輔助信息的影像解譯技術(shù),已成為遙感分類應(yīng)用研究領(lǐng)域的一個新方向。合理地將遙感影像中的光譜信息和空間紋理信息結(jié)合,借助現(xiàn)有的土地、植被和水體等土地類型的分類知識,再配合上CRUISE算法,對影像進(jìn)行地物分類,可以高效的區(qū)分地物類型,并且提高分類精度[8],因此將這種改進(jìn)型的新方法用于遙感分類具有很大優(yōu)勢?;谝陨咸攸c,本文以南京南部高淳縣為例,采用基于改進(jìn)CRUISE算法的分類方法對遙感影像進(jìn)行分類,并與其他分類方法的結(jié)果進(jìn)行精度對比,驗證該方法在遙感影像上的精確性和適用性。
CRUISE算法,也叫無偏交互作用分類規(guī)則的選擇和評價算法,是由Kim和Loh在2001年提出的一種決策樹生長算法[9]。它是早期FACT算法的一種改進(jìn)算法,它綜合了FACT、QUEST和CART的思想,該算法是通過最小化的次決策樹來構(gòu)建分類樹。主要有精度高、計算速度快、無選擇偏見、對局部相互作用敏感、有多種方法處理缺失值等特點,這些特點使CRUISE算法相對于傳統(tǒng)的決策樹算法有一定的優(yōu)勢。
構(gòu)建CRUISE算法流程如下:
選定α作為一個顯著性水平值(默認(rèn)值是0.05)。假設(shè)X1,…,XK1是數(shù)值變量,XK1+1,…,XK是絕對變量。
(1)對每一個數(shù)值變量進(jìn)行一個方差分析并計算它的P值,假設(shè)具有最小的P值。
(2)對于每個絕對變量,構(gòu)建一個列聯(lián)表,用絕對值做行,類值做列,并且找出它的X2的P值。選取最小的P值作為2,關(guān)聯(lián)變量作為XK2。
(3)定義
(4)如果 min(1,2)<α/Κ(Bonferroni第一矯正法),則選擇XK′作為分離變量。
(5)否 則為Levene方差齊性檢驗找出P值,此Levene方差齊性檢驗是針對于每個數(shù)值變量的類平均的絕對偏差的。假設(shè)XK′′有最小的P值。
①如果<α/(Κ+K1),則選擇XK”(Bonferroni第二矯正法)。
② 否則選擇XK′。
但由于研究區(qū)存在多種地物,單一的根據(jù)算法和光譜信息無法有效的區(qū)分不同地物,因此需要引入植被指數(shù)作為輔助參考數(shù)據(jù),生成改進(jìn)CRUISE算法。歸一化植被指數(shù)(NDVI)是一種重要的植被指數(shù),目前被廣泛地運用到各個領(lǐng)域。它能很好的反映植被的覆蓋度,與植被的分布有著重要關(guān)聯(lián),同時能為作為植被空間分布的參考因子之一[10,11],因此可以將它作為遙感影像分類的特征變量。歸一化植被指數(shù)(NDVI)計算可以將多光譜數(shù)據(jù)變換成一個單獨的圖像波段,用于顯示植被分布,較高的NDVI值預(yù)示著包含較多的綠色植被[12]。NDVI標(biāo)準(zhǔn)公式如式(1):
其中NIR為影像的近紅外光波段,Red為紅光波段。NDVI值的范圍為-1~+1,負(fù)值表示地面覆蓋為云、水、雪等,對可見光高反射;0表示有巖石或裸土等,NIR值和Red值近似相等;正值,表示有植被覆蓋,且隨覆蓋度增大而增大。
這種結(jié)合植被指數(shù)的改進(jìn)CRUISE決策樹算法可以有效的區(qū)分不同的地物類型,有利于影像的分類。
高淳縣位于南京南部(東經(jīng)118°69′~119°22′,北緯31°22′~31°44′)(如圖1),東鄰蘇、錫、常,西接安徽的宣城、馬鞍山,總面積802平方公里。高淳縣屬北亞熱帶和中亞熱帶過度季風(fēng)氣候區(qū),四季分明,全區(qū)有固城湖、石臼湖兩大天然淡水湖和長江支流水陽江,適合做土地分類研究。
圖1 高淳縣研究區(qū)域示意圖
本文的研究數(shù)據(jù)是高淳縣2010年4月5日的landsat7ETM+衛(wèi)星影像,該影像有9個波段,本研究只選取ETM的1-5、7這6個光譜波段進(jìn)行分類研究。實驗前對此幅影像進(jìn)行了進(jìn)行幾何校正、感興趣研究區(qū)域的影像裁剪。選定如圖2所示的研究區(qū)域,并利用NDVI指數(shù)公式計算提取了影像的NDVI值。
圖2 高淳縣ETM原始影像
經(jīng)過目視判斷以及波段選擇組合分析得出TM4、TM3、TM2這3個波段合成的影像對地物信息的提取效果較好,因此本文基于432波段合成的遙感影像來進(jìn)行信息提取。
2.3.1 訓(xùn)練樣本選擇
訓(xùn)練樣本對于遙感影像分類來說非常重要,它直接影響到分類的精度。參考1:10000比例尺2008年高淳縣土地利用圖和2010年數(shù)字高程模型圖,在遙感影像圖上采用地表真實感興趣區(qū)域ROI(region of interest)采樣方法均勻的選取各種地物的訓(xùn)練區(qū)樣本(如表1)。
根據(jù)《土地利用現(xiàn)狀分類》國家標(biāo)準(zhǔn),在訓(xùn)練區(qū)將土地類型分為五類,林地、耕地、草地、居民地、水體。林地和草地的葉綠素含量比較高,所以NDVI值較高,水體的反射率在見紅外波段是被強吸收的,居民地的反射率較其他地物有很大差別,因此通過以上這些特征可以將幾種地物區(qū)分開來。
表1 訓(xùn)練區(qū)各地物分類樣本個數(shù)及象元數(shù)
2.3.2 訓(xùn)練區(qū)樣本分析
為了降低基于目視方法選取樣本帶來的誤差,在進(jìn)行分類之前需要采取分離度計算來驗證樣本選取的好壞。由于J-M距離法在表達(dá)類別可分性上具有很大優(yōu)勢,因此此方法目前被廣泛應(yīng)用。J-M距離法是一種基于概率論的光譜可分性指標(biāo),公式如式(2):
其中:p(X/ωi)為條件概率密度。Jij的值分布在0-2之間,它的多少代表樣本間可分離程度的高度。當(dāng)Jij為0.0-1.0時,表示樣本間不具有光譜可分性;Jij處于1.0-1.9時,表示樣本間具有一定的光譜可分性,但也說明其存在較大程度的重疊;Jij的值在1.9-2.0時,說明樣本間的光譜可分性很好[13]。本文采用J-M距離法作為區(qū)分地物類別的標(biāo)準(zhǔn)。訓(xùn)練樣本的可分離度如表2所示。通過表2,我們可以看出樣本具有很好的分離度,可以進(jìn)行分類。
表2 各種地物之間的分離度
綜合考慮本文選取的研究區(qū)的地物類型,以及使用的遙感影像數(shù)據(jù)源的特點,基于改進(jìn)CRUISE算法遙感影像分類的主要步驟如下,圖3為具體的影像分類流程圖:
(1)遙感影像預(yù)處理?;?.2節(jié),本文對影像進(jìn)行了幾何校正、感興趣研究區(qū)域的影像裁剪。
通過利用不同時間相同地區(qū)的ETM+影像和相同地區(qū)的Modis影像,來對原始衛(wèi)星影像進(jìn)行幾何校正。校正需要檢查原始衛(wèi)星圖像與校正圖像是否在同一個坐標(biāo)系和投影下,并且需要在對比的兩幅影像上尋找對應(yīng)的控制點對,然后使用畸變模型對原始影像進(jìn)行精校正,最后重采樣,得到校正的影像,完成幾何校正。對完成幾何校正的ETM+影像,通過手動繪制ROI多邊形感興趣區(qū)域,然后利用這個感興趣區(qū)域裁剪ETM+影像作為研究域。
對于裁剪好的影像通過波段組合找出最適合提取影像信息的成像方法。按照公式(1),將紅外波段值和近紅外波段值通過波段計算,提取歸一化植被指數(shù)值,作為輔助分類特征。
(2)樣本選擇與分析?;?.3節(jié),本文通過選取ROI的方法在影像上均勻地選取75個訓(xùn)練樣本,如表1。由于選取的樣本需要具有代表性,因此在影像圖上,選取同一地物時應(yīng)注意其分布范圍,不應(yīng)局限于臨近地區(qū)。同一地物在不同區(qū)域的紋理和顏色會有區(qū)別,因此廣泛的選取樣本才能使得最后的分類趨于準(zhǔn)確。而且樣本的數(shù)量不應(yīng)過少,選取的數(shù)量應(yīng)能充分反映地物的特征和分布情況。利用J-M距離法對選取的樣本進(jìn)行分離度計算,判別樣本選取的好壞。默認(rèn)值1.9是區(qū)分樣本好壞的標(biāo)準(zhǔn),對于分離度小于1.9的兩個地物,需要重新對其進(jìn)行修改。通過人工篩選出低質(zhì)量的樣本并刪除,再添加進(jìn)新樣本,再進(jìn)行分離度計算,以保證樣本的準(zhǔn)確性。這其中涉及到大量的樣本處理,對于多種地物和大量樣本的選取,需經(jīng)過反復(fù)試驗,最后得到結(jié)果如表2。
(3)基于改進(jìn)CRUISE算法的規(guī)則構(gòu)建。僅基于原始影像的6個波段來進(jìn)行地物分類是不能準(zhǔn)確的區(qū)分不同地物信息的,因此本文選擇TM影像1-5、7波段、NDVI值、DEM高程值,組成一個8波段的影像數(shù)據(jù)。通過植被指數(shù)和數(shù)字地形圖的加入作為輔助變量,可以有效的補充和完善算法和光譜信息的不足。再將選取好的訓(xùn)練樣本導(dǎo)入處理后的影像數(shù)據(jù)中,配合NDVI值,選取基于CRUISE算法的分類方法,提取分類規(guī)則,最后生成訓(xùn)練樣本的分類決策樹。該算法能夠自動選擇最適合的分類特征并確定閾值,從而減少人為主觀影響。
(4)遙感影像分類。根據(jù)生成的決策樹規(guī)則實現(xiàn)對研究區(qū)影像的分類。利用得到的規(guī)則樹對影像進(jìn)行分類時,可以很直觀的看到分類的流程,其中的判別規(guī)則也可以很好的提現(xiàn)出來,通過分類的過程可以清楚的了解到分類規(guī)則是否能很好的適用于此遙感影像。最后對于分類后的影像,用不同的顏色代表不同的地物類型,以直觀的判別不同地物類型。影像分類結(jié)果如圖4所示。
圖3 影像分類流程圖
圖4 CRUISE決策樹分類圖
(5)結(jié)結(jié)果分析與精度驗證。利用選定的檢驗樣本,通過混淆矩陣的方法對分類結(jié)果進(jìn)行精度驗證。通過淆矩陣的方法來進(jìn)行精度驗證,可以準(zhǔn)確地得到分類的精度和Kappa系數(shù)。同時用最大似然法和普通決策樹的方法對影像進(jìn)行分類,得到其分類精度,最后將幾種分類方法的結(jié)果進(jìn)行對比,如表3-5。
精度評價對于遙感影像分類來說十分重要,它代表著分類方法的可行性。利用精度分析,使用者能夠清晰的獲取影像分類結(jié)果的信息,并且可以根據(jù)分類的精度來修正改進(jìn)分類方法中的參數(shù),來提高分類的精度。目前對于分類精度評價最常用的方法就是混淆舉證的方法。本文在研究區(qū)采用地表真實感興趣區(qū)(ROI)采樣方法選取了68個ROI作為驗證樣本,建立混淆矩陣,計算各種統(tǒng)計量,并進(jìn)行統(tǒng)計檢驗,計算得出Kappa系數(shù)、總體精度、用戶精度、生產(chǎn)精度、漏分誤差、錯分誤差等分類精度。將改進(jìn)CRUISE算法分類的精度分析與普通的決策樹分類、最大似然法分類進(jìn)行比較,如表3、表4、表5所示。
表3 基于改進(jìn)型CRUISE決策樹分類精度評價結(jié)果
表4 普通決策樹分類精度評價結(jié)果
表5 最大似然法分類精度評價結(jié)果
比較表3、表4、表5可知,改進(jìn)CRUISE算法的分類方法的總精度為98.1807%,Kappa系數(shù)為0.9739,精度最高,比最大似然分類方法(97.8296%)高0.3511%,比普通決策樹分類方法(97.7338%)高0.4469%,說明改進(jìn)CRUISE算法在總體精度上體現(xiàn)了改進(jìn)的效果。從分類結(jié)果可以說明,耕地、草地、水體等大多數(shù)地物的分類精度都較高,只有居民地的精度較低。因為林地、草地、耕地都具有一定程度的葉綠素,所以增加NDVI值作為輔助參數(shù),可以較好的區(qū)分植被區(qū)與其他地物區(qū)。而耕地、居民地、水體分布于地勢較低的地區(qū),林地、草地分布于地勢較高的地區(qū),因此可以通過增加DEM數(shù)據(jù)的方法使林地、耕地、草地的分類精度提高。但是在分類過程中也存在著居民地邊緣的地物難區(qū)分的問題,使得居民地的精度偏低。而通過對比可知,改進(jìn)CRUISE算法的分類方法相比其他分類方法在草地、耕地和水體的用戶精度值上都得到提高。普通決策樹方法耕地的錯分率偏高,居民地的漏分率偏高,最大似然法草地的錯分率較高,居民地的漏分率較高,因此可以看出改進(jìn)CRUISE算法的分類方法能很好的控制整體的分類精度。綜上所述,最大似然法過度依賴于地物的光譜特征,普通的決策樹算法受人為因素影響較大,而改進(jìn)CRUISE算法能客觀、有效的融合光譜特征和紋理特征,精度優(yōu)于其他兩種算法,具有較強的實用性和優(yōu)越性。
本文以ETM+衛(wèi)星影像為數(shù)據(jù)源,融合地物類別特征,基于改進(jìn)CRUISE算法,對地物進(jìn)行劃分。相比單純的算法和光譜信息遙感分類,改進(jìn)CRUISE算法利用了更多的地理學(xué)信息,并且提高了分類的精度。改進(jìn)CRUISE算法獲取遙感影像的分類規(guī)則是高效的,它綜合了多種分類方法的的優(yōu)點,具有高效、準(zhǔn)確等特點,豐富了遙感分類的方法?;诟倪M(jìn)CRUISE算法的分類方法具有一定的適用性,可以為土地利用的研究打下堅實的基礎(chǔ)。如何進(jìn)一步優(yōu)化改進(jìn)算法中的參數(shù),并引入更多的輔助特征數(shù)據(jù)來提高分類精度,是本文下一步的研究方向和內(nèi)容。
[1]趙 薔,宋笑雪.一種基于PCA-LDA的衛(wèi)星遙感圖像的分類方法[J].計算機應(yīng)用與軟件,2013,30(2):198-204.
[2]黎 夏,葉嘉安.基于神經(jīng)網(wǎng)絡(luò)的元胞自動機及模擬復(fù)雜土地利用系統(tǒng)[J].地理研究,2005,24(1):19-27.
[3]蘇 偉,李 京,陳云浩,等.基于多尺度影像分割的面向?qū)ο蟪鞘型恋馗脖环诸愌芯俊择R來西亞吉隆坡市城市中心區(qū)為例[J].遙感學(xué)報,2007,11(4):521-530.
[4]彭海濤,柯長青.基于多層分割的面向?qū)ο筮b感影像分類方法研究[J].遙感技術(shù)與應(yīng)用,2010,25(1):149-154.
[5]陳家俊,蘇守寶,徐華麗.基于多尺度粗糙集模型的決策樹優(yōu)化算法[J].計算機應(yīng)用,2011,31(12):3243-3246.
[6]KIM H,LOH W-Y.Classification trees with bivariate linear discriminant node models[J].Journal of Computational and Graphical Statistics,2003,12:512-530.
[7]唐銀鳳,黃志明.基于多特征提取和SVM分類器的紋理圖像分類[J].計算機應(yīng)用與軟件,2011,28(6):22-25.
[8]齊 樂,岳彩榮.基于CATR決策樹方法的遙感影像分類[J].林業(yè)調(diào)查規(guī)劃,2011,36(2):62-66.
[9]KIM H,LOH W-Y.Classification trees with unbiased multiway splits[J].Journal of the American Statistical Association,2001,96:589-604.
[10]李杭燕.時間序列NDVI數(shù)據(jù)集重建方法研究[D].蘭州:蘭州大學(xué),2010.
[11]KROSS A,F(xiàn)ERNANDES R,SEAQUIST J.The effect of the temporal resolution of NDVI data on season onset dates and trends across Canadian broadleaf forests.Remote Sensing of Environment,2011,115:1564-1575.
[12]鄧書斌.遙感圖像處理方法[M].北京:科學(xué)出版社,2010.
[13]馬 娜,胡云鋒,莊大方,等.基于最佳波段指數(shù)和J-M距離可分性的高光譜數(shù)據(jù)最佳波段組合選取研究——以環(huán)境小衛(wèi)星高光譜數(shù)據(jù)在東莞市的應(yīng)用為例[J].遙感技術(shù)與應(yīng)用,2010,25(3):358-365.