虎曉紅 司海平
(河南農(nóng)業(yè)大學(xué)信息與管理科學(xué)學(xué)院, 鄭州 450046)
高光譜圖像的光譜分辨率高,不僅能辨識不同地物光譜間差異較大的地物類別,而且能辨識不同地物光譜間只存在細(xì)微差異的地物類別,在農(nóng)業(yè)規(guī)劃、環(huán)境監(jiān)測和資源勘察等領(lǐng)域得到了廣泛的應(yīng)用[1-5]。對高光譜圖像分類技術(shù)的研究可促進(jìn)高光譜遙感的應(yīng)用,近年來,高光譜圖像分類已成為遙感、機(jī)器視覺和機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn),并取得了大量的研究成果。
高光譜圖像分類研究主要包括高光譜圖像的表達(dá)和分類器設(shè)計(jì)兩方面。在高光譜圖像的表達(dá)中,早期只采用光譜特征進(jìn)行分類,由于缺乏空間信息,分類效果受到限制。為了更好地體現(xiàn)高光譜圖像“圖譜合一”的特點(diǎn),空間信息在高光譜圖像分類中得到了應(yīng)用[6],空間濾波和區(qū)域分割等空間信息表達(dá)方法拓展了高光譜圖像的應(yīng)用領(lǐng)域[7-9],空譜融合方式的不斷改進(jìn)有效提高了高光譜圖像的分類性能[10]。在高光譜圖像分類的分類器設(shè)計(jì)方面,傳統(tǒng)基于統(tǒng)計(jì)學(xué)習(xí)的支持向量機(jī)(Support vector machine, SVM)、融合空間信息的復(fù)合核支持向量機(jī)(Support vector machine with composite kernels, SVMCK)[11]取得了較好的分類效果;近年來,基于字典學(xué)習(xí)的稀疏分類器(Sparse representation based classification, SRC)[12]和協(xié)同分類器(Collaborative representation classification, CRC)[13]在高光譜圖像分類中表現(xiàn)出良好的潛力,并得到廣泛關(guān)注。文獻(xiàn)[14]結(jié)合SRC和空間信息提出了高光譜圖像的聯(lián)合稀疏分類器(Joint sparse representation based classification, JSRC);文獻(xiàn)[15]采用局部空間語義窗口平均特征,提出聯(lián)合協(xié)同分類器(Joint collaborative representation based classification, JCRC),應(yīng)用在高光譜圖像分類中;文獻(xiàn)[16]在JSRC中加入相關(guān)系數(shù),提出了融合相關(guān)系數(shù)的聯(lián)合稀疏表示(Correlation coefficient and joint sparse representation, CCJSR)。在空譜融合中相關(guān)系數(shù)的引入使基于字典的高光譜圖像分類效果在聯(lián)合空間信息的基礎(chǔ)上得到了進(jìn)一步改善[14-16]。
然而,高光譜圖像分類仍然存在一些問題:其一,在實(shí)際應(yīng)用中,標(biāo)注工作通常需要實(shí)地采樣,相比普通相機(jī)采集的圖像,標(biāo)注工作更加困難,且代價(jià)更高昂,因此可利用的訓(xùn)練樣本數(shù)量非常有限,“小樣本問題”極大地影響了高光譜圖像的分類性能;其二,在基于字典學(xué)習(xí)的高光譜圖像分類中,當(dāng)構(gòu)成字典的原子數(shù)目不足時(shí),分類性能直接受到影響,若由大量的元素創(chuàng)建字典進(jìn)行樣本重構(gòu),構(gòu)成字典的原子間又會(huì)因信息冗余、字典原子間的相互干擾和字典原子數(shù)量過多而導(dǎo)致分類時(shí)間過長和分類效果下降。因此,如何高效地協(xié)同高光譜圖像的空譜信息來進(jìn)一步提升分類性能,是高光譜圖像分類及其應(yīng)用中亟待解決的問題。
針對這些問題,本文提出基于自適應(yīng)字典的小樣本高光譜圖像分類方法。通過對有限標(biāo)記的訓(xùn)練樣本空譜信息進(jìn)行分析,采用偽標(biāo)注方法擴(kuò)展標(biāo)記樣本數(shù)量,并針對不同的測試樣本構(gòu)建其自適應(yīng)字典,在自適應(yīng)的空譜字典下協(xié)同重構(gòu)樣本,同時(shí)在協(xié)同表示中增加自適應(yīng)空譜協(xié)同字典中的競爭關(guān)系,以期挖掘樣本的本征,在小樣本下提升高光譜圖像的分類性能。
在高光譜圖像分類中,圖像局部空間子塊信息得到了廣泛的采用[11,14-16],但無論是預(yù)處理中采用的均值濾波,還是像素級高光譜圖像分類后,在固定窗口尺寸上進(jìn)行的空間信息融合,通常無法有效地保持高光譜圖像目標(biāo)區(qū)域的邊界。而超像素[17]作為在一幅圖像中有意義的不規(guī)則區(qū)域,通過將相似的相鄰像素合并而產(chǎn)生,能更好地保持高光譜圖像的局部細(xì)節(jié)。同時(shí),熵率超像素分割[18]有利于形成結(jié)構(gòu)均勻、緊湊和尺寸基本一致的超像素區(qū)域,據(jù)此,本文采用熵率方法對高光譜圖像進(jìn)行超像素分割,分割流程如圖1所示。
設(shè)高光譜圖像X=[x1,x2,…,xn]∈Rd×n,d為波段數(shù),n為圖像像素?cái)?shù),圖像尺寸為M×N,在對X進(jìn)行熵率超像素分割前,對X進(jìn)行主成分分析,提取高光譜圖像X的第一主成分Γ,由Γ的像素點(diǎn)構(gòu)建圖G=(V,E),其中V為Γ的像素點(diǎn)構(gòu)成的頂點(diǎn)集,E為描述圖G中頂點(diǎn)相似性的邊集,從而將圖像分割轉(zhuǎn)換為圖的劃分問題,優(yōu)化目標(biāo)為
(1)
H(·)——隨機(jī)游走熵率
B(·)——平衡項(xiàng)
μ——平衡系數(shù)
由貪心算法[18]求解式(1),可得到高光譜圖像的第一主成分Γ被分割為
(2)
式中Ti、Tj——Γ中的第i、j個(gè)超像素
p——Γ中的超像素?cái)?shù)目
由此,可得到高光譜圖像X的超像素分割。
高光譜圖像在像素的局部空間上,滿足較好的局部一致性,屬于相同類標(biāo)的概率大[19-23];依據(jù)像素局部空間的類別關(guān)聯(lián)性,可增加標(biāo)記樣本數(shù)量,緩解分類中的小樣本問題。設(shè)高光譜圖像中的標(biāo)記樣本XL={x1,x2,…,xm},標(biāo)記為{l1,l2,…,lm},li∈{1,2,…,c},1≤i≤m,c為類別數(shù)目。既在xi的超像素區(qū)域中的像素,又在xi的光譜近鄰的像素,定義為
Z(xi)={x|x∈Ω(xi)∩x∈Ψ(xi)}
(3)
式中Z(·)——空間近鄰和光譜近鄰交集
Ω(·)——所在的超像素空間近鄰
Ψ(·)——X中的前q個(gè)光譜近鄰
雖然X的超像素區(qū)域多為類別一致性區(qū)域,但對xi的不規(guī)則超像素區(qū)域Ω(xi), 由于受到背景點(diǎn)、噪聲和超像素分割算法的影響,導(dǎo)致Ω(xi)中的一些像素不具備和xi相同的類標(biāo),即這些xi的空間近鄰對xi類別的代表性相對較弱。因此,本文在擴(kuò)展超像素局部空間像素點(diǎn)至標(biāo)記樣本集時(shí),通過增加光譜近鄰Ψ(xi)來過濾掉背景點(diǎn)、噪聲點(diǎn)和分割算法的影響,將Z(xi)中的像素點(diǎn)添加至標(biāo)記樣本集,其標(biāo)記為xi的標(biāo)記,形成新的標(biāo)記樣本集L,滿足
L=Z(xi)∪XL(1≤i≤m)
(4)
(5)
對X中的每個(gè)測試樣本點(diǎn)xj分別在L上篩選出xj的超像素空間近鄰Ω(xj)和光譜近鄰L(xj),形成自適應(yīng)字典為自適字典中的第k個(gè)原子。
(6)
λ——正則化參數(shù)
(7)
(8)
λ1——競爭參數(shù)
(9)
式中I——t階單位矩陣
(10)
xj的類別標(biāo)記lj計(jì)算式為
(11)
本文算法步驟如圖2所示:①對高光譜圖像進(jìn)行熵率超像素分割。②對帶標(biāo)記的小樣本在高光譜圖像中計(jì)算光譜近鄰,并結(jié)合超像素分割結(jié)果通過式(4)擴(kuò)展標(biāo)記樣本,形成新的標(biāo)記樣本集。③計(jì)算測試樣本在擴(kuò)展標(biāo)記樣本上的光譜近鄰,同時(shí)結(jié)合擴(kuò)展樣本和超像素分割結(jié)果根據(jù)式(5)生成測試樣本的自適應(yīng)樣本集并構(gòu)建自適應(yīng)字典。④采用式(9)計(jì)算測試樣本在自適應(yīng)字典上的協(xié)同競爭表示。⑤依據(jù)協(xié)同競爭表示系數(shù)和自適應(yīng)字典的類別標(biāo)記,通過式(10)計(jì)算測試樣本的類別殘差。⑥通過式(11)計(jì)算最小類別殘差得到高光譜圖像的分類結(jié)果。
本文采用印地安農(nóng)林和帕維亞大學(xué)2個(gè)高光譜數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),圖3和圖4分別為這2個(gè)數(shù)據(jù)集的假彩色圖像和實(shí)際地物圖。
印地安農(nóng)林是由機(jī)載可見光/紅外成像光譜儀(AVIRIS型)采集的一片農(nóng)田區(qū)域高光譜影像,采集時(shí)間為1992年6月,空間分辨率20 m,影像尺寸為145像素×145像素,波長范圍為400~2 450 nm,光譜分辨率為10 nm,波段數(shù)為220,去除受噪聲或水氣吸收影響的第104~108波段和第150~163波段以及第220波段,余下的200波段用于實(shí)驗(yàn),共包含16 類不同的農(nóng)業(yè)對象。該影像種類分布不均勻并且存在樣本稀少類別,混合了種植作物、林地、草地等,同時(shí)影像中種植作物尚處于生長階段,裸露的土壤與種植作物殘?jiān)黾恿朔诸惖碾y度。
帕維亞大學(xué)高光譜圖像是由機(jī)載成像光譜儀(ROSIS型)采集的大學(xué)周圍影像,采集時(shí)間為2002年7月,空間分辨率為1.3 m,影像尺寸為610像素×340像素,波長范圍為430~860 nm,共115個(gè)波段,去除12個(gè)受噪聲影響嚴(yán)重的波段,余下103個(gè)波段用于實(shí)驗(yàn),共包含9種地物類別。
在印地安農(nóng)林和帕維亞大學(xué)高光譜圖像中,為了獲取足夠的樣本信息進(jìn)行分類,傳統(tǒng)訓(xùn)練樣本數(shù)量取值通常為印地安農(nóng)林圖像中每類10%采樣,不足10個(gè)訓(xùn)練樣本的類別選取10個(gè)訓(xùn)練樣本,余下樣本作測試,帕維亞大學(xué)圖像每類5%采樣,剩余為測試樣本。為了減少采樣訓(xùn)練樣本的數(shù)量,在印地安農(nóng)林圖像上按照每類2%隨機(jī)選取標(biāo)簽訓(xùn)練樣本,不足10個(gè)訓(xùn)練樣本的類別選取10個(gè)訓(xùn)練樣本,剩余約98%數(shù)據(jù)作為測試集;在帕維亞大學(xué)圖像上按照每類1%隨機(jī)采樣,余下99%的數(shù)據(jù)為測試樣本。在Intel i7-8550U CPU,主頻為1.8 GHz,內(nèi)存為8 GB的硬件環(huán)境,Matlab2015b軟件平臺(tái)下進(jìn)行10次實(shí)驗(yàn),取10次實(shí)驗(yàn)結(jié)果的平均值作為實(shí)驗(yàn)結(jié)果。
為了驗(yàn)證本文所提方法的有效性,將本文方法與K近鄰(K-nearest neighbor,KNN)、SVM、SVMCK[11]、SRC[12]、CRC[13]、JSRC[14]、JCRC[15]、CCJSR[16]方法進(jìn)行對比,選取生產(chǎn)者精度(Producer’s accuracy,PA)、生產(chǎn)者精度均值(Average accuracy,AA)、總體分類精度(Overall accuracy,OA)和Kappa系數(shù)(Kc)作為評價(jià)準(zhǔn)則。
在本文所提出的算法中,有4個(gè)參數(shù)需要分析,自適應(yīng)協(xié)同競爭表示中的正則化參數(shù)λ、競爭參數(shù)λ1、超像素分割區(qū)域數(shù)p以及光譜近鄰數(shù)q。圖5a為印地安農(nóng)林圖像在分割區(qū)域數(shù)p為80,光譜近鄰數(shù)為290,λ1、λ分別在{10-3,10-2,10-1,1,10,102,103}上進(jìn)行取值所對應(yīng)OA的影響結(jié)果,圖5b為帕維亞大學(xué)圖像在分割區(qū)域數(shù)p為30,光譜近鄰數(shù)為5,λ和λ1所對應(yīng)的OA結(jié)果。由圖5可見,2幅高光譜圖像均在圖的最右邊(λ=103,λ1=10-3),即在取值區(qū)間λ取最大值,λ1取最小值時(shí), OA值最??;然后,隨著λ的降低和λ1的增大,OA值在2幅圖中均快速提升,隨即達(dá)到較寬泛平穩(wěn)的OA最高值。λ1較小時(shí),分類結(jié)果不能體現(xiàn)自適應(yīng)樣本間的競爭性,不足以表達(dá)樣本本征,導(dǎo)致OA在不同的λ取值上波動(dòng)較大,λ1的引入,協(xié)同樣本的競爭信息增加,能有效改善分類結(jié)果受傳統(tǒng)協(xié)同表示參數(shù)λ的大幅度波動(dòng),減少分類結(jié)果對參數(shù)的敏感性。
為了探究超像素分割區(qū)域數(shù)p對高光譜遙感圖像分類的影響,在印地安農(nóng)林和帕維亞大學(xué)2幅圖像中分別對分割區(qū)域數(shù)[10,200]間隔為10進(jìn)行實(shí)驗(yàn)參數(shù)取值,其中λ1為0.1,λ為0.01,光譜近鄰數(shù)q分別為290和5,圖6為區(qū)域數(shù)p對OA的影響。從圖中可見,印地安農(nóng)林圖像和帕維亞大學(xué)圖像分別在[10,80]和[10,30]超像素分割數(shù)目區(qū)間隨著分割區(qū)域數(shù)p的增加,可運(yùn)用的空間信息逐步豐富,OA迅速提升;然后印地安農(nóng)林圖像和帕維亞大學(xué)圖像在OA達(dá)到各自的最大值后隨著分割區(qū)域數(shù)p的繼續(xù)增加,過多的空間信息對分類精度形成干擾,OA緩慢下降。
圖7為2幅高光譜圖像中不同光譜近鄰數(shù)q對OA的影響,其中2幅圖像的λ1為0.1,λ為0.01,印地安農(nóng)林和帕維亞大學(xué)2幅圖像的分割區(qū)域數(shù)p分別為80和30。從圖7a可知,印地安農(nóng)林圖像在q取值[5,130]區(qū)間,可運(yùn)用的光譜信息逐步增多,OA增加相對較快;在q達(dá)到130之后,隨著光譜近鄰數(shù)的進(jìn)一步增加,OA持續(xù)緩慢增加。從圖7b可知,帕維亞大學(xué)圖像對光譜近鄰參數(shù)q不敏感,變化相對平穩(wěn)。q在[5,105]區(qū)間,隨著光譜近鄰數(shù)的增加,更多光譜信息的引入,OA增加非常緩慢,幾近不變;但尺寸為610像素×340像素的帕維亞大學(xué)圖像,像素?cái)?shù)目超過20萬,隨著更多光譜近鄰像素點(diǎn)的引入,在空譜協(xié)同時(shí)的運(yùn)行時(shí)間勢必加長;在q為5時(shí)的運(yùn)行時(shí)間為391 s,在q為40時(shí)運(yùn)行時(shí)間為2 283 s,在q超過75后,運(yùn)行時(shí)間超過3 600 s。面對對q不敏感的OA增長,在OA和運(yùn)行時(shí)間之間進(jìn)行平衡,本文對帕維亞大學(xué)圖像取相對較小的q值5。對比圖7a和圖7b可見,帕維亞大學(xué)圖像超像素中的樣本較為豐富,反映出其地物分布更密集,因此具有更高的空間特征利用率。
表1和表2為不同方法分別在印地安農(nóng)林和帕維亞大學(xué)高光譜圖像的PA、AA、OA、Kc和運(yùn)行時(shí)間的結(jié)果對比。由表1和表2可知,本文方法在2個(gè)數(shù)據(jù)集上的總體分類精度分別為91.45%和95.54%,相較于其他方法,本文方法在2幅高光譜圖像中均有最高的AA、OA和Kc,在印地安農(nóng)林圖像上OA高出其他方法3.48~39.52個(gè)百分點(diǎn),在帕維亞大學(xué)數(shù)據(jù)集上OA高出其他方法2.45~21.63個(gè)百分點(diǎn);同時(shí),在大部分地物中具有較高的分類精度。尤其對印地安農(nóng)林圖像的“草地/牧草”和“建筑-草-樹”2類,其訓(xùn)練樣本數(shù)偏少,僅為10個(gè)樣本,本文方法相比于其他方法中的最高地物分類精度分別提高了9.33、9.50個(gè)百分點(diǎn);對帕維亞大學(xué)圖像的砂礫、裸土和地磚3類圖像,本文方法相比于其他方法中的最高地物分類精度分別提高了17.70、7.60、7.79個(gè)百分點(diǎn)。
表1 不同方法在印地安農(nóng)林高光譜圖像的分類效果對比Tab.1 Classification results with different methods on Indian Pines HSI
表2 不同方法在帕維亞大學(xué)高光譜圖像的分類效果對比Tab.2 Classification results with different methods on Pavia University HSI
圖8和圖9分別為實(shí)驗(yàn)中印地安農(nóng)林和帕維亞大學(xué)高光譜圖像一次隨機(jī)抽樣的訓(xùn)練樣本圖、測試樣本的真實(shí)地物類別圖以及采用不同方法進(jìn)行分類后的地物分類效果。從圖8和圖9可見,在2幅高光譜圖像上,和僅用光譜信息的KNN、SVM、SRC、CRC相比,加入空間信息的SVMCK、JSRC、CCJSR、JCRC和本文方法分類效果明顯更為光滑,錯(cuò)分點(diǎn)相對較少。由圖8可知,在印地安農(nóng)林圖像上,雖然本文分類效果圖仍存在點(diǎn)狀噪聲,但塊狀噪聲相對較少。為了進(jìn)行對比,在4個(gè)方法(JSRC、CCJSR、JCRC和本文方法)的效果圖上繪制了3個(gè)白色矩形框,這3個(gè)矩形框中的地物樣本較少,地物周圍種類較為復(fù)雜,在測試樣本受局部空間多類別樣本干擾時(shí),本文方法尤其顯示出了更好的分類效果,錯(cuò)分率明顯低于其他3種方法。由圖9可見,在帕維亞大學(xué)高光譜圖像上, JSRC、CCJSR、JCRC由于固定的塊狀空間濾波,均呈現(xiàn)出大量大塊的噪聲點(diǎn),而本文超像素分割更貼近地物細(xì)節(jié),地物分類結(jié)果圖中噪聲點(diǎn)相對較少。
(1)針對小樣本下提高高光譜圖像分類性能問題,提出了高光譜圖像分類的自適應(yīng)字典分類方法。通過協(xié)同擴(kuò)展小樣本構(gòu)建的自適應(yīng)字典原子,可以緩解小樣本問題,在小樣本下印地安農(nóng)林圖像數(shù)據(jù)集總體分類精度為91.45%,比其他方法提高3.48~39.52個(gè)百分點(diǎn),在帕維亞大學(xué)數(shù)據(jù)集上總體分類精度達(dá)到95.54%,比其他方法提高2.45~21.63個(gè)百分點(diǎn)。
(2)與固定窗口尺寸的空間信息表達(dá)相比,在高光譜圖像分類中運(yùn)用超像素表示局部空間信息,能在分類結(jié)果中更好地保持圖像的局部細(xì)節(jié),降低分類中的塊狀噪聲。
(3)在高光譜圖像分類中,過多的超像素分割數(shù)對分類形成干擾,導(dǎo)致分類精度下降,光譜近鄰數(shù)的增加影響分類時(shí)間,空譜自適應(yīng)字典原子間競爭性的表達(dá)可以彌補(bǔ)協(xié)同表示在高光譜圖像分類中的不足。