張 紅,吳智偉,王繼成,高培超
1. 華東師范大學(xué)全球創(chuàng)新與發(fā)展研究院,上海 200062; 2. 華東師范大學(xué)城市與區(qū)域科學(xué)學(xué)院,上海 200241; 3. 西南交通大學(xué)地球科學(xué)與環(huán)境工程學(xué)院,四川 成都 611756; 4. 北京師范大學(xué)地表過(guò)程與資源生態(tài)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100875
高光譜圖像已被廣泛用于地質(zhì)、生態(tài)、大氣、醫(yī)學(xué)、農(nóng)業(yè)等領(lǐng)域[1-2]。其波段數(shù)目眾多且相鄰波段相關(guān)性較高,需進(jìn)行降維處理[3]。常見(jiàn)的高光譜數(shù)據(jù)降維處理方法有考慮所有波段的數(shù)學(xué)變換方法及波段組合方法[4]。前者過(guò)程復(fù)雜、計(jì)算量大,且改變了高光譜圖像的物理意義。后者更為常用,包括監(jiān)督和非監(jiān)督兩類[5]。
非監(jiān)督波段選擇多基于波段排序和聚類[6]。波段排序方法例如信息離散度法(information divergence,ID)[7]、線性約束最小方差法(linearly constraint minimum variance,LCMV)[8]和最大方差主成分分析法(maximum variance principal component analysis,MVPCA)[7]。這些方法雖然直觀簡(jiǎn)便,但忽略了波段間相關(guān)性,導(dǎo)致冗余波段。波段聚類先將相關(guān)性強(qiáng)的波段聚成一組,再挑選各組的代表性波段。聚類多基于互信息(Ward’s linkage strategy using mutual information,WaLuMI)和KL散度(Ward’s linkage strategy using divergence,WaLuDi)[9]。人工智能也被用于波段聚類與選擇,如文獻(xiàn)[10]基于深度學(xué)習(xí)對(duì)高光譜數(shù)據(jù)降維處理。文獻(xiàn)[11]結(jié)合深度卷積自編碼器和子空間聚類進(jìn)行波段選擇。文獻(xiàn)[12]采用深度對(duì)抗子空間聚類(deep adversarial subspace clustering,DASC)網(wǎng)絡(luò)以提升子空間聚類的自表達(dá)能力,文獻(xiàn)[13]基于全連接深度網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)提取波段間的非線性特征。
最優(yōu)波段組合為信息豐富且各波段間的相關(guān)性最小的波段集合[14]。作為傳統(tǒng)信息測(cè)度指標(biāo),香農(nóng)熵僅考慮了空間組分信息(像元的種類和比例)[15-17],忽略了空間配置信息(像元的空間分布),無(wú)法準(zhǔn)確刻畫圖像相似性[18]。如圖1所示,圖1(a)與1(b)的組分不同、但配置相同;圖1(a)與1(c)的組分相同、但配置不同。
圖1 具有相同組分或配置信息的不同圖像Fig.1 Different images with the same composition or configuration information
香農(nóng)熵因熱力學(xué)基礎(chǔ)薄弱、忽略了空間配置信息等受到質(zhì)疑[16]。玻爾茲曼熵(簡(jiǎn)稱玻熵)被引入以克服上述不足,包括基于邊緣總數(shù)的玻熵[19]、基于多尺度層次結(jié)構(gòu)的玻熵[20]等。文獻(xiàn)[21]提出了基于Wasserstein指標(biāo)的配置熵(簡(jiǎn)稱W熵)測(cè)度指標(biāo),本文將其引入高光譜圖像波段選擇,將W熵從四鄰域拓展至八鄰域?;赪熵差異值測(cè)度高光譜圖像波段間的相關(guān)性,通過(guò)非監(jiān)督次優(yōu)搜索法確定最優(yōu)波段組合,使用支持向量機(jī)(support vector machine,SVM)分類,評(píng)價(jià)其分類精度。
當(dāng)前測(cè)度波段信息和波段相關(guān)性主要有兩類方法,即香農(nóng)熵和玻熵。
信息是“事物運(yùn)動(dòng)狀態(tài)或存在方式的不確定性”[15],信息量是對(duì)信息統(tǒng)計(jì)特征的描述,公式為
(1)
式中,P(x)表示隨機(jī)變量X取值為x的概率。
文獻(xiàn)[22]構(gòu)建了地圖符號(hào)多樣性信息熵測(cè)度指標(biāo)。文獻(xiàn)[17]指出地圖信息包括統(tǒng)計(jì)、幾何、拓?fù)浜蛯n}信息等,提出基于Voronoi圖的信息熵計(jì)算方法,是現(xiàn)有對(duì)地圖信息的最佳量測(cè)[15]。文獻(xiàn)[23]構(gòu)建了香農(nóng)熵變體。
玻熵源于熱力學(xué)[24],公式為
S=kBlnW
(2)
式中,S為某宏觀狀態(tài)的玻熵;kB為玻爾茲曼常數(shù);W為該宏觀狀態(tài)中所包含的微觀狀態(tài)總數(shù)。W熵是玻熵的變體,基于Wasserstein距離構(gòu)建,即兩個(gè)概率分布之間轉(zhuǎn)換的最小代價(jià)[25],公式為
(3)
式中,(Pr,Pg)是邊緣分布Pr和Pg的聯(lián)合分布;∏(Pr,Pg)是聯(lián)合分布(Pr,Pg)的集合。W熵指標(biāo)[21]公式為
Wdist=(1-Wc)(1-Ws)
(4)
式中,Wc和Ws分別為改進(jìn)版玻熵計(jì)算公式中第2項(xiàng)對(duì)應(yīng)的直方圖、第3項(xiàng)對(duì)應(yīng)的直方圖與狄拉克分布變體之間的Wasserstein距離的歸一化結(jié)果。
圖2(a)尺寸為512×512像素,分別取其灰度矩陣的前128、256、384及512列像元灰度值進(jìn)行隨機(jī)排列,得到圖2(b)至圖2(e)。圖2(a)至圖2(e)的W熵分別為0.422 0、0.422 4、0.423 0、0.424 5和0.426 6,與目視觀察到的無(wú)序性程度一致,表明W熵可刻畫圖像空間配置復(fù)雜性。
圖2 某圖像及部分像元隨機(jī)排列后的圖像Fig.2 A image and its randomly permuted images
兩個(gè)隨機(jī)變量的相關(guān)性可由互信息或相對(duì)熵測(cè)度。
1.3.1 互信息
互信息描述了兩個(gè)隨機(jī)變量之間的統(tǒng)計(jì)相關(guān)性,即某隨機(jī)變量包含另一隨機(jī)變量信息的不確定性程度,公式為
(5)
式中,p(x,y)是兩個(gè)隨機(jī)變量X、Y的聯(lián)合概率分布函數(shù);p(x)和p(y)分別是隨機(jī)變量X、Y的邊緣概率分布函數(shù)。變量相關(guān)性越強(qiáng),包含的共同信息越多,互信息值越高。互信息具有對(duì)稱性。
1.3.2 標(biāo)準(zhǔn)化互信息
因變量類型與取值范圍的差異,對(duì)互信息進(jìn)行標(biāo)準(zhǔn)化處理[26-27],包括
I1=I(X,Y)/min{H(X),H(Y)}
(6)
I2=2×I(X,Y)/(H(X)+H(Y))
(7)
I3=I(X,Y)/max{H(X),H(Y)}
(8)
(9)
式中,I(X,Y)是兩個(gè)隨機(jī)變量X和Y的互信息;H(X)和H(Y)為X和Y的香農(nóng)熵。
1.3.3 相對(duì)熵
相對(duì)熵(又稱為KL散度)是兩個(gè)概率分布差異的非對(duì)稱性測(cè)度[28],公式為
(10)
式中,P(X)和Q(X)分別為隨機(jī)變量X的兩種概率分布。
1.3.4 相對(duì)熵變體
為避免Q(X)=0,文獻(xiàn)[9]提出兩個(gè)應(yīng)用范圍更廣的相對(duì)熵變體
(11)
(12)
式中,P(X)和Q(X)分別是隨機(jī)變量X的概率分布。
表1列出圖2中影像兩兩間相似性計(jì)算結(jié)果,證實(shí)了互信息和標(biāo)準(zhǔn)化互信息的有效性。
表1 圖2中各影像的互信息、標(biāo)準(zhǔn)化互信息及相對(duì)熵變體值
1.3.5 玻熵差異值
絕對(duì)或相對(duì)玻熵差異值也可刻畫波段相似性[9],公式如下
DBEA(X,Y)=|SA(X)-SA(Y)|
(13)
DBER(X,Y)=|SR(X)-SR(Y)|
(14)
式中,X和Y代表不同波段;SA和SR代表絕對(duì)和相對(duì)玻熵。
W熵差異值公式為
DW(X,Y)=|W(X)-W(Y)|
(15)
式中,X和Y代表不同波段;W代表各波段的W熵。
傳統(tǒng)W熵局限于四鄰域,本文將其拓展到八鄰域,并提出基于W熵的高光譜圖像波段選擇方法。
鄰域廣泛見(jiàn)于斑塊鑲嵌體格局、地理相似性或空間自相關(guān)分析中[29]。常見(jiàn)的鄰域定義方式有Rook(僅共邊)鄰近、Bishops(僅共頂點(diǎn))鄰近和Queen’s(或King’s)(共邊或共頂點(diǎn))鄰近[30]。前二者為四鄰域,后者為八鄰域,對(duì)應(yīng)的W熵分別記為Wdist和W8dist。
圖3中,各影像對(duì)應(yīng)的Wdist值分別為1.000 0、0.955 3、0.977 4和0.977 4,對(duì)應(yīng)的W8dist值分別為1.000 0、0.955 3、0.955 3和0.977 4。表明W8dist可有效識(shí)別連續(xù)區(qū)域引起的信息冗余。
采用文獻(xiàn)[5]提出的非監(jiān)督次優(yōu)搜索法來(lái)確定信息量較大且相關(guān)性較低的波段組合。具體過(guò)程如圖4所示,其中α和β分別代表原始波段集合和最優(yōu)波段集合。
圖3 4幅模擬圖像Fig.3 Four simulated images
圖4 基于Wasserstein配置熵的高光譜圖像非監(jiān)督波段選擇流程Fig.4 Flow chart of unsupervised band selection for hyperspectral image using the Wasserstein metric-based configuration entropy
選取兩組試驗(yàn)數(shù)據(jù),比較W熵和7種熵圖像分類的精度。
試驗(yàn)數(shù)據(jù)為文獻(xiàn)[31]的印度松木試驗(yàn)場(chǎng)(Indian Pines)高光譜數(shù)據(jù)(145×145像素,含220個(gè)波段)和文獻(xiàn)[32]的帕維亞大學(xué)(Pavia University)高光譜數(shù)據(jù)(610×340像素,含103個(gè)波段)(圖5)。
W熵有效性評(píng)價(jià)流程圖如圖6所示。
從最優(yōu)波段圖像中隨機(jī)選取5%、10%和50%的像元作為各類地物的訓(xùn)練集,余下像元作為測(cè)試集。使用支持向量機(jī)分類器對(duì)樣本進(jìn)行分類(參數(shù)C設(shè)為1、核函數(shù)設(shè)為線性函數(shù))[33]。為保證結(jié)果可比,各類地物訓(xùn)練樣本數(shù)相同且隨機(jī)種子點(diǎn)也完全一致。
圖5 兩組高光譜圖像及其參考圖像與光譜特征Fig.5 Two hyperspectral images, their corresponding reference images and spectral characteristics
圖7為各信息熵指標(biāo)在多種波段組合下對(duì)應(yīng)的圖像分類精度。I為互信息、I1-I4為4種標(biāo)準(zhǔn)化的互信息、SID1和SID2為兩種相對(duì)熵變體、DW4和DW8分別為基于四鄰域和八鄰域的W熵差異值。
將Indian Pines和Pavia University的每類訓(xùn)練樣本容量分別設(shè)為20和100。圖7表明,隨波段選擇個(gè)數(shù)增加,分類精度穩(wěn)定提升。對(duì)Indian Pines數(shù)據(jù)有:①基于W熵差異值的圖像分類精度與穩(wěn)定性均優(yōu)于香農(nóng)熵,特別是當(dāng)選擇的波段數(shù)較少時(shí)。例如,當(dāng)波段選擇個(gè)數(shù)為15、25和50時(shí),基于W熵差異值的分類精度分別比互信息提高16%、18%和11%;②DW4和DW8的分類結(jié)果相近。當(dāng)訓(xùn)練樣本占比5%或10%,每類訓(xùn)練樣本數(shù)量相同且波段個(gè)數(shù)為107—173時(shí),DW8的分類精度高于DW4約3%。
對(duì)Pavia University數(shù)據(jù)有:①或許因訓(xùn)練樣本規(guī)模不夠,當(dāng)各類訓(xùn)練樣本數(shù)量相同時(shí),隨波段選擇個(gè)數(shù)增加,分類精度波動(dòng)劇烈;②當(dāng)訓(xùn)練樣本占比為5%、10%和50%且波段選擇數(shù)較少時(shí),基于W熵差異值的分類精度均優(yōu)于互信息。選擇15個(gè)波段時(shí),前者比后者分類精度高約4%;③樣本規(guī)模固定時(shí),隨波段個(gè)數(shù)增加,基于互信息、相對(duì)熵變體及DW4指標(biāo)的分類精度穩(wěn)定提升;④當(dāng)波段選擇個(gè)數(shù)為11—27時(shí),DW8的分類精度比DW4高約2%。
為進(jìn)一步比較波段選擇數(shù)量一定時(shí)具體入選波段的差異,將兩組數(shù)據(jù)在分類精度達(dá)到穩(wěn)定時(shí)的最小波段數(shù),即25和15作為閾值,分析基于互信息(I)、第1種相對(duì)熵變體(SID1)和DW8時(shí)的波段序號(hào)及其對(duì)應(yīng)的光譜值。結(jié)果如圖8和表2所示。圖8中實(shí)線代表地物類別,虛線代表具體選擇波段序號(hào)。
圖9繪出了表2中各波段的W8dist值,可見(jiàn)基于DW8指標(biāo)選出的波段信息更加豐富。
由圖8可知,Indian Pines數(shù)據(jù)在總波段數(shù)為1—50、60—70、110—130及170—190時(shí)分類效果較好?;赪熵差異值選出的前25個(gè)波段多位于上述區(qū)間內(nèi),而基于互信息和相對(duì)熵變體所選波段集中于100—110和150—170。并且,基于W熵差異值選出的前25個(gè)波段分布更離散、冗余度更低。Pavia University數(shù)據(jù)的分析結(jié)果一致。
圖6 基于Wasserstein配置熵的高光譜圖像分類有效性評(píng)價(jià)流程Fig.6 Flow chart of evaluation on hyperspectral image classification using the Wasserstein metric-based configuration entropy
圖7 基于不同測(cè)度指標(biāo)的波段組合的圖像分類精度Fig.7 Accuracy of image classification for band combinations using different indicators
圖10給出當(dāng)訓(xùn)練樣本占比為5%時(shí),基于DW4和DW8選擇的Indian Pines第107至173個(gè)波段(該區(qū)間內(nèi)DW4和DW8的分類精度差異顯著),以及Pavia University第11至27個(gè)波段的光譜信息。
圖8 給定波段選擇個(gè)數(shù)下不同熵測(cè)度指標(biāo)選出的波段序號(hào)及其光譜值Fig.8 Various entropy-based band selection and corresponding spectral value with given number of selected bands
表2 給定波段選擇個(gè)數(shù)下不同測(cè)度指標(biāo)選出的波段序號(hào)
圖9 給定波段數(shù)目下基于不同指標(biāo)選取得到的波段序號(hào)及其對(duì)應(yīng)的Wasserstein配置熵Fig.9 Various entropy-based band selection and corresponding W8dist with given number of selected bands
圖10說(shuō)明DW8挑選合適波段的能力優(yōu)于DW4。例如,對(duì)Indian Pines數(shù)據(jù),其第150至162個(gè)波段含有大量噪聲。DW4將第150、154和157號(hào)波段作為最優(yōu)波段,而DW8只含有第154和157波段。Pavia University數(shù)據(jù)也證實(shí)DW8篩選最優(yōu)波段的能力更強(qiáng)。
將SVM分類器更換為決策樹(shù)(decision tree,DT)分類器,其余條件不變,得到的結(jié)果見(jiàn)圖11。發(fā)現(xiàn)使用SVM分類器,DW8的分類精度均優(yōu)于DW4。而使用DT分類器,DW8與DW4的分類精度相近。
圖10 基于DW4和DW8方法選取的部分波段信息Fig.10 Information of selected bands based on DW4 and DW8
圖11 基于DW4和DW8的決策樹(shù)分類方法分類精度Fig.11 Accuracy of image classification of DW4 and DW8 using decision tree classifier
高光譜圖像應(yīng)用前景廣泛,但其波段數(shù)量多且相鄰波段之間的相關(guān)性較高,需要根據(jù)波段信息和波段間相關(guān)性等進(jìn)行波段選擇。以香農(nóng)熵為代表的傳統(tǒng)信息熵測(cè)度指標(biāo)僅考慮統(tǒng)計(jì)信息和空間組分信息,忽略了空間配置信息。玻爾茲曼熵能有效刻畫空間配置信息,特別是W熵還能消除連續(xù)空間的冗余信息。本文將傳統(tǒng)W熵從四鄰域拓展到八鄰域,提出了基于W熵差異值的高光譜圖像非監(jiān)督次優(yōu)波段選擇方法。以兩組高光譜圖像數(shù)據(jù)為例,比較了不同訓(xùn)練樣本規(guī)模、不同波段選擇個(gè)數(shù)下,基于9種信息熵測(cè)度指標(biāo)(兩種W熵差異值、互信息、四種標(biāo)準(zhǔn)化互信息和兩種相對(duì)熵變體)的圖像分類精度。結(jié)果表明,W熵差異值可用于高光譜圖像波段選擇和圖像分類,特別是當(dāng)波段選擇個(gè)數(shù)較少時(shí)。八鄰域效果優(yōu)于四鄰域。
W熵在不同場(chǎng)景下影像解譯的有效性仍待檢驗(yàn)。W熵有望用于其他類型數(shù)據(jù),如夜間燈光數(shù)據(jù)、土地利用數(shù)據(jù)、醫(yī)學(xué)影像等。此外,集成W熵和香農(nóng)熵的影像復(fù)雜性測(cè)度模型也值得進(jìn)一步探索。