陳志超,張正,劉昌華 ,周亞文,蘆俊俊,王春陽(yáng)
(1.河南理工大學(xué) 測(cè)繪與國(guó)土信息工程學(xué)院,河南 焦作 454000;2.北京吉威時(shí)代軟件股份有限公司,北京 100194)
高光譜遙感影像包含幾十甚至幾百個(gè)窄波段形成的連續(xù)光譜波段,光譜范圍可覆蓋紫外、可見(jiàn)光、近紅外乃至熱紅外[1-2]。通過(guò)獲取不同地物超高分辨率的光譜信息,高光譜遙感可實(shí)現(xiàn)對(duì)地面目標(biāo)的精細(xì)描述,其“圖譜合一”的成像方式將影像空間結(jié)構(gòu)信息與光譜信息結(jié)合在一起,大大提高了人類對(duì)地全方位探測(cè)的能力,以及對(duì)觀測(cè)對(duì)象的理解和認(rèn)識(shí)[3]。高光譜遙感影像成百上千的波段在帶來(lái)豐富光譜信息的同時(shí),也出現(xiàn)了大量冗余信息以及數(shù)據(jù)傳輸和存儲(chǔ)困難。高光譜影像應(yīng)用中不同波段均具有不同貢獻(xiàn)值,有些波段甚至沒(méi)有貢獻(xiàn)值,將高維空間中的數(shù)據(jù)通過(guò)線性或非線性映射投影到低維空間中,找出隱蔽在高維觀測(cè)數(shù)據(jù)中有意義且能揭示數(shù)據(jù)本質(zhì)的低維子結(jié)構(gòu),可以避免高維數(shù)據(jù)的維數(shù)災(zāi)難問(wèn)題,從而有效促進(jìn)高維數(shù)據(jù)的分類、反演等應(yīng)用[4]。在綜合分析張量空間和影像稀疏特性優(yōu)勢(shì)的基礎(chǔ)上,針對(duì)以往特征提取算法均基于向量對(duì)高光譜影像進(jìn)行處理,沒(méi)有利用高光譜影像的立方體空間結(jié)構(gòu)信息這一缺點(diǎn),本文提出基于多線性稀疏主成分分析(MSPCA)的高光譜遙感影像特征提取算法,并利用中國(guó)嘉興典型村莊和美國(guó)內(nèi)華達(dá)州Curprite礦區(qū)的高光譜影像數(shù)據(jù)進(jìn)行分類試驗(yàn),以驗(yàn)證所提算法的有效性。
本文分別選取AVIRIS光譜儀獲取的美國(guó)內(nèi)華達(dá)州Curprite礦區(qū)高光譜影像和AISA獲取的我國(guó)浙江嘉興地區(qū)高光譜影像進(jìn)行試驗(yàn)。
浙江省嘉興市典型村莊利用AISA獲取的高光譜影像,光譜380~2 500 nm,影像大小525像素×356像素,原始數(shù)據(jù)共126個(gè)波段。遙感影像中包含植被1(樹(shù)木)、植被2、土路、水泥路、房屋、水體6種地物,由波段95,64和33組成的假彩色影像和地面參照數(shù)據(jù)如圖1(a)和(b)所示。
圖1 嘉興地區(qū)高光譜影像
美國(guó)內(nèi)華達(dá)州Curprite礦區(qū)高光譜遙感數(shù)據(jù)是由機(jī)載可見(jiàn)光/近紅外成像光譜儀(AVIRIS)獲取,光譜400~2 500 nm,光譜分辨率約10 nm,影像大小500像素×320像素,原始數(shù)據(jù)共有224個(gè)波段,但是有一些波段受噪聲干擾和水蒸氣吸收影響嚴(yán)重,去除這些受影響嚴(yán)重的波段后,用余下190個(gè)波段進(jìn)行試驗(yàn)。遙感影像中包含伊利石、地開(kāi)石、凝灰?guī)r、干鹽湖、石英石、高嶺石、水銨長(zhǎng)石、明礬石等8種礦物,由波段178,111和33組成的假彩色影像和地面參照數(shù)據(jù)如圖2(a)和(b)所示。
圖2 內(nèi)華達(dá)州高光譜影像
浙江省嘉興市典型村莊遙感數(shù)據(jù)為自主拍攝獲取的影像,由于所使用AISA傳感器獲取數(shù)據(jù)的數(shù)據(jù)格式本身就與其他數(shù)據(jù)格式存在差異,加上拍攝過(guò)程中造成的幾何畸變,因此,在降維試驗(yàn)之前首先需要對(duì)影像進(jìn)行預(yù)處理。本文使用的AISA數(shù)據(jù)所進(jìn)行的幾何校正屬于已知幾何信息的幾何校正這一范疇,具體預(yù)處理步驟:TIF影像左右翻轉(zhuǎn);查找表文件(geographic lookup table,GLT)地理位置的生成;利用GLT文件幾何校正影像;輸出降維試驗(yàn)中使用影像。從圖3可以看出,嘉興地區(qū)幾何校正前后存在影像角度和地物位置等多個(gè)變化。
圖3 嘉興地區(qū)幾何校正前后影像
高光譜影像特征提取旨在降低數(shù)據(jù)維數(shù),消除“維數(shù)災(zāi)難”現(xiàn)象并且減弱由于樣本有限導(dǎo)致的建模不準(zhǔn)確等問(wèn)題,從而有效提高高光譜影像反演、分類等應(yīng)用的效率和精度[5]。隨著高光譜特征提取技術(shù)的不斷發(fā)展,以數(shù)據(jù)立方體結(jié)構(gòu)為主的數(shù)據(jù)分析方法逐漸受到重視。張量是在向量與矩陣基礎(chǔ)上的推廣(最早由William Ron Hamilton在1846年引入到數(shù)學(xué)中),眾多學(xué)者開(kāi)始研究張量空間的高光譜遙感影像特征提取方法。YAN S等[6-7]將線性判別分析(linear discriminant analysis,LDA)推廣到高階張量空間中,提出多線性判別分析(multilinear discriminant analysis,MDA)即張量表示的判別分析(discriminant analysis with tensor representation,DATER),但MDA變量無(wú)法收斂且受參數(shù)影響較大,也就是說(shuō)YAN S等[6]的算法不能全面而系統(tǒng)地確定子空間維度。由于張量對(duì)象的子空間維數(shù)可能非常高,致使窮舉法確定參數(shù)不可行。LU H等[8]將主成分分析[9](principal component analysis,PCA)推廣到任意高階張量空間中,提出多線性判別分析(multilinear principal component analysis,MPCA)。MPCA是PCA的拓展,MPCA的目的是獲取一個(gè)多線性轉(zhuǎn)換(或投影)集。PCA是將向量投影到低維向量,而MPCA是將張量投影到低維張量,最終在低維子張量上進(jìn)行分類或其他應(yīng)用。模式識(shí)別或機(jī)器視覺(jué)應(yīng)用中的典型張量對(duì)象通常為指定的高維張量空間,高維空間數(shù)據(jù)復(fù)雜、計(jì)算量大且樣本相對(duì)稀少。然而,由于張量對(duì)象與周?chē)鷮?duì)象具有強(qiáng)相關(guān)性,因此,可以假設(shè)張量空間高度約束在本質(zhì)低維的流形子空間中,其優(yōu)勢(shì)在于能夠直接將多維張量形式數(shù)據(jù)投影到低維張量子空間,而不改變影像數(shù)據(jù)的空間結(jié)構(gòu),并在此基礎(chǔ)上解決高維小樣本問(wèn)題并提高計(jì)算速度和處理效率。但是,由于高光譜影像中復(fù)雜多樣的地物類型以及樣本分布的不規(guī)范,若不考慮數(shù)據(jù)本身的稀疏結(jié)構(gòu),特征提取就不具備合理性;而稀疏表示利用感興趣信號(hào)的稀疏性和海量高維數(shù)據(jù)的高冗余性,可有效提取高光譜遙感影像的地物特征信息,是一種新型的數(shù)據(jù)表達(dá)方式[10],該數(shù)據(jù)表達(dá)方式已成功應(yīng)用在高光譜影像空-譜數(shù)據(jù)融合、混合像元分解、超分辨率重建和去噪等方面。因此,本文將稀疏表示引入到MPCA中,提出多線性稀疏主成分分析(multilinear sparse principal component analysis,MSPCA),進(jìn)行高光譜遙感影像的特征處理,同時(shí)利用稀疏與張量學(xué)習(xí)的優(yōu)勢(shì)以期得到更高精度的分類效果。
相關(guān)研究表明[6-11],當(dāng)一維的方法擴(kuò)展到高階張量時(shí),相應(yīng)的擴(kuò)展方法通常優(yōu)于原始方法,尤其是在小樣本的情況下。其次,引入稀疏特征選擇的L1范數(shù)可以提高投影精度、增強(qiáng)泛化能力和分類魯棒性[12-14]。將PCA擴(kuò)展到更高階張量形式(MPCA)后,引入用于稀疏特征選擇的L1范數(shù),可以進(jìn)一步改進(jìn)算法(即MSPCA)性能。本文的多線學(xué)習(xí)方法受到L1規(guī)范施加的稀疏約束。MSPCA在所有張量模式中執(zhí)行稀疏降維,并且捕獲原始張量的大部分變量。
假設(shè)訓(xùn)練樣本被表示為n階張量,其中N為訓(xùn)練樣本的總數(shù)。根據(jù)對(duì)于任意給定模式k下多線性回歸問(wèn)題與MPCA的目標(biāo)函數(shù)之間的密切關(guān)系[15],為了獲得多線性稀疏主分量,lasso[16](一種補(bǔ)償最小二乘方法,在L1范數(shù)的基礎(chǔ)上增加一個(gè)約束)被強(qiáng)加于MPCA標(biāo)準(zhǔn)模式k扁率的回歸表示上。MSPCA目標(biāo)函數(shù)為
(1)
其中,βk,j≥0作為約束優(yōu)化處理的懲罰系數(shù),用于懲罰不同主成分向量的荷載。當(dāng)βk,j=0時(shí)為MPCA算法,因此,在MSPCA中假設(shè)βk,j>0。
MSPCA的操作步驟如下。
輸入:張量樣本{Xi∈Rm1×m2×…×mn,i=1,2,…,N},迭代次數(shù)Tmax,低維維度di(≤mi),i=1,2,…,n。
輸出:多線性稀疏子空間U1,U2,…,Un(i=1,2,…,N)。
第一步:中心化輸入的訓(xùn)練樣本。
第三步:對(duì)于t=1:Tmax
對(duì)于k=1:n
解決彈性網(wǎng)問(wèn)題:
結(jié)束
結(jié)束
第四步:輸出多線性稀疏子空間U1,U2,…,Un(i=1,2,…,n)。
下面介紹MSPCA的解法,公式(1)可得
(2)
可見(jiàn),如果Bk已知,式(2)與下面彈性網(wǎng)問(wèn)題的解相同
j=1,…,m′k;
(3)
另一方面,有
當(dāng)Uk固定且已知時(shí),式(4)中第1,3,4項(xiàng)為常數(shù),可寫(xiě)為
(5)
根據(jù)文獻(xiàn)[17],對(duì)于給定Uk,上述最大化問(wèn)題的最優(yōu)解為
(6)
為簡(jiǎn)便起見(jiàn),假設(shè)m1=m2=…=mn=m且訓(xùn)練樣本N的總數(shù)與特征維度mn相當(dāng),MSPCA的復(fù)雜度為tO(n2Nmn+1+nNmn+1+nTm3),其中t為迭代次數(shù),T為彈性網(wǎng)的迭代次數(shù)。雖然形式復(fù)雜,但彈性網(wǎng)在一個(gè)很低的維度上能很快收斂,且整體迭代次數(shù)通常不會(huì)太大。在相同的迭代次數(shù)下,MSPCA顯然比MPCA和SPCA更復(fù)雜。然而,計(jì)算稀疏主成分向量只是在模式識(shí)別任務(wù)的訓(xùn)練階段才需要,因此,這一不足可以被忽略。
選取3種特征提取方法進(jìn)行對(duì)比試驗(yàn),以驗(yàn)證本文所提方法的有效性,選取對(duì)比的特征提取算法包括PCA,SPCA和MPCA。在監(jiān)督特征提取和影像分類中,隨機(jī)選擇每類地物樣本中50個(gè)作為訓(xùn)練樣本,剩余的樣本作為驗(yàn)證樣本。為增加試驗(yàn)的可比性,所有特征提取方法設(shè)置特征提取后的維數(shù)為C-1(C為樣本類別個(gè)數(shù))。
選用支持向量機(jī)(support vector machine,SVM)[18]分類器相結(jié)合對(duì)高光譜影像進(jìn)行分類,并與其他PCA特征提取方法進(jìn)行對(duì)比分析。使用Kappa系數(shù)、平均精度(average accuracy,AA)和總體精度(overall accuracy,OA)作為分類評(píng)價(jià)指標(biāo)。為了提高試驗(yàn)的可靠性和準(zhǔn)確性,本文對(duì)SVM分類中核函數(shù)參數(shù)和規(guī)則化系數(shù)分別在{2-10,…,210},{2-5,…,210}的范圍內(nèi)選擇最優(yōu)[19],并使用一對(duì)余(OAR)的策略進(jìn)行分類。而且每種算法進(jìn)行10次重復(fù)分類試驗(yàn),最后選取10次重復(fù)分類試驗(yàn)的平均值為最終結(jié)果。
表1為在不同算法下嘉興地區(qū)影像中各類地物的分類精度OA,AA和Kappa系數(shù),其中Kappa系數(shù)和OA為10次試驗(yàn)的平均值。從表1可以看出,相比其他算法,MSPCA分類精度均較高,尤其是水體分類精度達(dá)到了85.81%,而基于原始波段特征分類精度僅為64.16%;總體精度OA達(dá)到96.36%,平均精度AA達(dá)到95.02%,Kappa系數(shù)達(dá)到92.33%,均優(yōu)于其他算法精度。在圖4的分類圖中也可以看出,MSPCA降維算法錯(cuò)分點(diǎn)更少,地物分布更加平滑。
圖4為原始影像及各特征提取方法對(duì)應(yīng)的分類結(jié)果圖,從圖4可以看出,對(duì)于本文提出的MSPCA方法,分類圖中的類別噪聲最少,空間連續(xù)性得到有效的增強(qiáng)。
表1 嘉興地區(qū)影像中各類地物在不同算法下的分類精度
圖4 各算法在嘉興地區(qū)數(shù)據(jù)集上的分類結(jié)果
Fig.4 Classification results of each algorithm of the data set of Jiaxing area
在Curprite礦區(qū)數(shù)據(jù)集中,使用與嘉興市典型村莊數(shù)據(jù)集相同的參數(shù)設(shè)置方法,在不同特征提取方法下各類地物的分類精度OA,AA和Kappa系數(shù)如表2所示,對(duì)應(yīng)的分類圖如圖5所示。由表2可知,MSPCA方法對(duì)大部分地物的分類精度、總體分類精度、平均分類精度和Kappa系數(shù)要明顯優(yōu)于其他算法,這表明在高光譜影像特征提取過(guò)程中,MSPCA算法能提取出更為有效的特征。表2和圖5顯示MAPCA在分類圖中錯(cuò)分點(diǎn)更少,地物分布更加平滑,進(jìn)一步驗(yàn)證了本文所提特征提取算法的有效性。
(1)基于張量學(xué)習(xí)的優(yōu)勢(shì)和稀疏特性的問(wèn)題,提出多線性稀疏主成分分析模型,進(jìn)而提出MSPCA高光譜遙感影像特征提取方法。
(2)兩組試驗(yàn)的分類精度均較高,其中MSPCA的特征提取算法精度的OA,AA和Kappa系數(shù)均為最高值,特別是嘉興市典型村莊遙感影像中的水體和Curprite礦區(qū)遙感影像中凝灰?guī)r等弱特征地物的分類精度得到了大幅提高。
表2 Curprite礦區(qū)影像中各類地物在不同算法下的分類精度
圖5 各算法在Curprite礦區(qū)數(shù)據(jù)集上的分類結(jié)果
(3)在綜合考慮影像稀疏特性和張量空間算法優(yōu)勢(shì)的基礎(chǔ)上,MSPCA降維算法有效提高了影像分類精度,為較難分類的弱特征地物分類與反演提供了新的方法。