瞿珊珊,康 順
(湖北理工學(xué)院 電氣與電子信息工程學(xué)院,湖北 黃石435003)
地表覆蓋信息是進行地理氣候變化、國情監(jiān)測、可持續(xù)發(fā)展等研究的基礎(chǔ)地理空間數(shù)據(jù)。隨著對地觀測技術(shù)的發(fā)展,利用遙感影像技術(shù)快速準確地提取地表覆蓋信息已成為主流[1]。地表覆蓋信息的提取方法主要有監(jiān)督分類與非監(jiān)督分類2種。其中,監(jiān)督分類主要有基于傳統(tǒng)統(tǒng)計分析的神經(jīng)網(wǎng)絡(luò)、支持向量機、決策樹、最大似然等;非監(jiān)督分類有K-means、模糊聚類、ISODATA等聚類算法[2]。在實際應(yīng)用中,不同的分類器對不同的遙感數(shù)據(jù)分類精度不同,目前還沒有一種分類器能夠滿足用戶對所有數(shù)據(jù)分類的質(zhì)量需求[3]。
多分類器集成思想被廣泛應(yīng)用在諸多領(lǐng)域。在多光譜遙感數(shù)據(jù)信息提取方面,Wang等[4]利用隨機增強集成分類器實現(xiàn)了土地利用類型分類。Radhika等[5]使用集成分類進行了多光譜影像分類。Liu等[6]基于集成分類器研究了影像中一類數(shù)據(jù)的非監(jiān)督分類。此外,多分類器集成在森林精細類型分類、不平衡數(shù)據(jù)分類、果蔬種類識別、MINIST手寫數(shù)字識別、圖像自動標注與分類以及樸素Bayes組合分類器等中的應(yīng)用受到眾多學(xué)者的關(guān)注[7-13]。
目前,對分類器集成遙感數(shù)據(jù)分類的研究大多集中在復(fù)雜分類器與復(fù)雜分類器、復(fù)雜分類器與簡單分類器的集成,而對傳統(tǒng)簡單分類器之間的互補性利用不足。此外,普通多分類器集成投票法在投票相等時缺乏一種自適應(yīng)性。因此,本文通過集成簡單分類器,構(gòu)建一種基于數(shù)據(jù)聚類的自適應(yīng)投票選取方法,旨在快速提取一定精度的地表覆蓋信息。
最小距離分類器是通過采樣波段與波段的歐式距離,將其劃分為距離最近的采樣波段,每個波段可用一個n維向量X來表示,即:X=(x1,x2,…,xn)。
最小距離分類器具體分類過程如下。
1)利用訓(xùn)練樣本數(shù)據(jù)計算出每一類別的均值向量及標準差(均方差)向量。每一類地物的特征均值為μi=(μi1,μi2,…,μin)。
(1)
3)根據(jù)計算的距離,把像元歸入到距離最小的那一類中去。
最小距離分類器的原理簡單、計算速度快,適用于快速瀏覽分類概況。
平行六面體分類法又叫多級切割法,通過選取訓(xùn)練區(qū)詳細了解分類類別的特征,并以較高的精度設(shè)定每個分類類別特征的上限值和下限值,構(gòu)成特征子空間。對于一個未知類別的像素來說,其分類取決于所落入的類別特征子空間。因此,平行六面體分類法要求訓(xùn)練區(qū)樣本的選擇必須覆蓋所有的類型。
若有m個波段,n個類別,Nij為第i類第j波段的均值,Sij為對應(yīng)標準差,xj為x在j波段的像元值。對某一類別i(i=1,2,…,n),當像元x滿足|xj-Nij| 平行六面體分類器簡單、計算速度較快,當劃分的平行六面體與實際地物類別數(shù)據(jù)分布形態(tài)不一致時,易造成類別重疊、混淆不清。 最大似然分類也稱貝葉斯分類,根據(jù)像元數(shù)據(jù)對各類別的似然度,將其分到似然度最大的類別中去。其中,似然度是指所觀測像元數(shù)據(jù)屬于分類類別的后驗概率。根據(jù)訓(xùn)練區(qū)可求出均值、方差以及協(xié)方差等特征參數(shù),從而求出總體的先驗概率密度函數(shù),公式為: (2) 式(2)中,μi和Σi分別為每一類地物的均值和方差。 最大似然分類器錯誤概率和判別分析風險小,是應(yīng)用最廣的監(jiān)督分類方法之一。 分類器集成的思想是從訓(xùn)練數(shù)據(jù)集中構(gòu)造一系列分類器,并通過聚集預(yù)測值來預(yù)測類標簽。假設(shè)這些分類器是獨立的,則分類器集成就有效,也就可以確定分類器產(chǎn)生的最糟糕結(jié)果與在集成中的最壞分類是一樣的。多數(shù)投票集成如圖1所示。 圖1 多數(shù)投票集成 對同一套遙感數(shù)據(jù)進行分類,不同分類器的分類精度不同,同一分類器對不同類別的分類也存在精度差異,這種現(xiàn)象被稱之為選擇優(yōu)越性[14-15]。利用上述3種傳統(tǒng)簡單分類器的互補性,設(shè)計一種基于K-means的多分類器投票集成法,分類元組集合序列如圖2所示。 圖2 分類元組集合序列 基于K-means的多分類器投票集成算法描述如下。 算法1:基于K-means的多分類器投票集成。 輸入:遙感影像RS。 輸出:地表覆蓋LC。 1)利用最小距離分類器、平行六面體分類器、最大似然分類器對RS分類,分別得到TIFF文件RSmdc,RSpc,RSml。 2)利用ArcGIS將RSmdc,RSpc,RSml轉(zhuǎn)為ASCII文件,并以數(shù)組Arraymdc,Arraypc,Arrayml存儲。 3)依次取出3個數(shù)組中相應(yīng)的第i個值,構(gòu)成元組Turple_i(Arraymdc_i,Arraypc_i,Arrayml_i)。 ①當i= 1時,統(tǒng)計元組元素的發(fā)生數(shù),若發(fā)生數(shù)均為1,則計算Turple_i中每一元素與Turple_i+1中每一元素的絕對值距離dis,取最小距離對應(yīng)的Turple_i元素作為結(jié)果值;否則,將統(tǒng)計發(fā)生數(shù)最多的元素作為結(jié)果值。絕對值距離dis的計算公式為: dis= min[|Arraymdc_i-Arraymdc_i+1|,|Arraymdc_i-Arraypc_i+1|,|Arraymdc_i-Arrayml_i+1|, |Arraypc_i-Arraymdc_i+1|,|Arraypc_i-Arraypc_i+1|, |Arraypc_i-Arrayml_i+1|,|Arrayml_i-Arraymdc_i+1|, |Arrayml_i-Arraypc_i+1|,|Arrayml_i-Arrayml_i+1|] (3) ②當1 ③當i=len(Arraymdc_i)時,統(tǒng)計元組元素的發(fā)生數(shù),若發(fā)生數(shù)均為1,則計算Turple_i中每一元素與Turple_i-1中每一元素的絕對值距離dis,取最小距離對應(yīng)的Turple_i元素作為結(jié)果值;否則,將統(tǒng)計發(fā)生數(shù)最多的元素作為結(jié)果值。 ④直到i>len(Arraymdc_i),算法結(jié)束。 試驗區(qū)數(shù)據(jù)獲取途徑為地理空間數(shù)據(jù)云(http://www.gscloud.cn),所用數(shù)據(jù)為2017年湖北黃石Landsat 8(Level 1T)遙感影像。 將試驗區(qū)的地表覆蓋信息劃分為6個類別,即1代表水體、2代表耕地、3代表林地、4代表草地、5代表建筑用地、6代表裸地。首先,利用Python+GDAL(Geospatial Data Abstraction Library)實現(xiàn)最大似然、最小距離、平行六面體分類器提取地表信息(如圖3(a)~(c)所示);其次,將數(shù)據(jù)格式TIFF文件轉(zhuǎn)化為更適宜一般性程序讀寫的ASCII文件(如圖4(a)~(c)所示);然后,在PyCharm IDE中實現(xiàn)算法1,得到地表覆蓋信息的提取結(jié)果(如圖4(d)所示);最后,將ASCII格式的文件轉(zhuǎn)為TIFF文件(如圖3(d)所示)。 (a) 最小距離 (b) 最大似然 (c) 平行六面體 (d) 集成投票 (a) 最小距離 (b) 最大似然 (c) 平行六面體 (d) 集成投票 在ENVI 5.3中,人工選擇感興趣點(POI)作為驗證樣本,每個類別的樣本數(shù)目為40個,共計240個驗證樣本。利用ENVI 5.3混淆矩陣計算工具評估分類結(jié)果的準確度。各分類器的分類精度評估結(jié)果見表1。 表1 各分類器的分類精度評估結(jié)果 針對單分類器的選擇優(yōu)越性設(shè)計了一種基于K-means聚類的多分類器投票集成方法。分別采用最大似然分類法、最小距離分類法和平行六面體分類法對黃石市2017年的遙感影像數(shù)據(jù)進行分類處理,并通過投票集成方法整合3種分類,得到新的地表覆蓋產(chǎn)品。通過分析可以得到以下結(jié)論。 1)通過投票集成法得到的新地表覆蓋產(chǎn)品的質(zhì)量遠遠高于其他3種分類方法,且可以準確地表達黃石市的地理信息。 2)集成投票法適用于快速地表覆蓋遙感制圖,分類精度高達95.87%,Kappa系數(shù)為0.88,明顯高于其他3種分類器。 3)TIFF數(shù)據(jù)與ASCII文件轉(zhuǎn)換為空間數(shù)據(jù)處理提供了一種更為便捷的計算方式,避免了專業(yè)數(shù)據(jù)由專業(yè)商業(yè)軟件處理的局限性。 4)基于聚類思想的投票自適應(yīng)選取是可行的,可解決投票相等時選擇的不確定,對地表覆蓋遙感制圖具有一定的工程實踐意義。1.3 最大似然分類器
2 多分類器投票集成
3 算例與分析
3.1 地表覆蓋信息提取
3.2 精度驗證
4 結(jié)論