劉 煊,渠慎明,2*
(1.河南大學(xué) 軟件學(xué)院,開封 475001;2.河南大學(xué) 智能網(wǎng)絡(luò)系統(tǒng)研究所,開封 475001)
高光譜圖像是由成像光譜儀接收的數(shù)十上百個(gè)波段所反射回來(lái)的地物的光譜特性組成。高光譜圖像由兩個(gè)空間維和一個(gè)光譜維構(gòu)成,光譜維中的光譜向量代表了高光譜圖像中相應(yīng)像素獨(dú)特的光譜特征。由于光譜特征在特征識(shí)別方面的優(yōu)勢(shì),目前高光譜圖像處理技術(shù)已經(jīng)被廣泛應(yīng)用到各種場(chǎng)景中[1-2],例如精準(zhǔn)農(nóng)業(yè)[3]、海洋監(jiān)測(cè)[4]以及城鄉(xiāng)規(guī)劃[5]等。在這些應(yīng)用場(chǎng)景中,高光譜圖像分類起到了重要作用。近年來(lái),一些空譜聯(lián)合分類算法被用來(lái)提升分類精度[6-8]。這些方法用于學(xué)習(xí)訓(xùn)練樣本標(biāo)簽是可行的,然而在實(shí)際應(yīng)用中并非如此。
有監(jiān)督的高光譜圖像分類算法要求樣本是標(biāo)記完成的,但是手動(dòng)標(biāo)記過(guò)程非常困難,僅憑視覺解釋的訓(xùn)練樣本并不可靠。具體來(lái)說(shuō),引入誤標(biāo)簽的原因有如下幾點(diǎn):(1)全球定位系統(tǒng)會(huì)對(duì)目標(biāo)對(duì)象的空間位置產(chǎn)生不準(zhǔn)確的估計(jì),導(dǎo)致很難確定高光譜像素的精確位置;(2)對(duì)于一些場(chǎng)景,比如海洋和濕地,這樣的場(chǎng)景人類無(wú)法到達(dá),在這種情況下,基于人類視覺解讀的訓(xùn)練樣本標(biāo)簽不可避免會(huì)產(chǎn)生噪聲;(3)當(dāng)標(biāo)記一個(gè)包含許多不規(guī)則形狀土地覆蓋物的場(chǎng)景時(shí),人工貼標(biāo)簽的過(guò)程中會(huì)產(chǎn)生錯(cuò)誤。
為了解決訓(xùn)練樣本的誤標(biāo)簽問(wèn)題,對(duì)計(jì)算機(jī)視覺領(lǐng)域進(jìn)行了深入的研究。LU等人[9]提出一種基于曼哈頓距離優(yōu)化的學(xué)習(xí)模型來(lái)檢測(cè)弱噪聲標(biāo)簽。FOODY等人[10]發(fā)現(xiàn),噪聲標(biāo)簽會(huì)影響基于支持向量機(jī)的機(jī)載制圖分類。雖然許多研究已經(jīng)解決了計(jì)算機(jī)視覺領(lǐng)域的噪聲標(biāo)簽問(wèn)題,但由于高光譜圖像的高維和非線性結(jié)構(gòu),這些方法不能直接擴(kuò)展到高光譜圖像誤標(biāo)簽分類中。最近幾年,關(guān)于帶有噪聲標(biāo)簽的高光譜圖像分類算法得到了關(guān)注。KANG等人[11]首次提出了基于光譜檢測(cè)和邊緣保持濾波的噪聲標(biāo)簽檢測(cè)和校正方法。TU等人[12]通過(guò)融合光譜角度和局部離群值因子來(lái)檢測(cè)高光譜圖像中的噪聲標(biāo)簽,實(shí)驗(yàn)結(jié)果表明,該算法能有效地檢測(cè)出有噪聲的標(biāo)簽。密度峰值(density peak,DP)聚類算法作為一種魯棒的聚類算法首次在科學(xué)雜志上被提出[13]。TU等人[14]首次利用DP聚類算法來(lái)檢測(cè)高光譜圖像訓(xùn)練樣本中的誤標(biāo)簽,基于DP聚類的高光譜圖像誤標(biāo)簽檢測(cè)算法在檢測(cè)過(guò)程中沒有考慮相鄰光譜像素之間的空間相關(guān)性。為了解決這一問(wèn)題,TU等人[15]提出一種新的基于空間DP聚類(k-spatial density peak,K-SDP)的噪聲標(biāo)簽檢測(cè)算法,該算法通過(guò)加入中心樣本的鄰域樣本來(lái)進(jìn)一步檢測(cè)中心樣本的異常程度。然而,參考文獻(xiàn)[14]和參考文獻(xiàn)[15]中沒有考慮原始高光譜圖像中存在稀疏噪聲的問(wèn)題。參考文獻(xiàn)[16]中提出一種基于核熵分量分析(kernel entropy component analysis,KECA)的噪聲標(biāo)簽檢測(cè)方法,但是,該算法在檢測(cè)過(guò)程中沒有考慮到訓(xùn)練樣本的上下文信息。多種基于約束能量最小化(constrained energy minimum,CEM)算法已被廣泛應(yīng)用于高光譜圖像處理中。ZOU等人[17]提出一種用于高光譜圖像目標(biāo)檢測(cè)的二次約束能量最小化檢測(cè)器。此外,ZHANG等人[18]提出一種混合稀疏性和CEM的檢測(cè)器,以提高目標(biāo)檢測(cè)的性能。CEM也有效地應(yīng)用到了高光譜圖像誤標(biāo)簽檢測(cè)上。TU等人[19]提出了一種層次約束能量最小值(hierarchical constrained energy minimum,HCEM)方法來(lái)檢測(cè)經(jīng)過(guò)監(jiān)督任務(wù)訓(xùn)練的原始訓(xùn)練集的錯(cuò)誤標(biāo)記樣本,該方法可以準(zhǔn)確地去除原始訓(xùn)練集的噪聲標(biāo)簽,有效地提高監(jiān)督分類任務(wù)的性能。但是,該算法的一個(gè)缺點(diǎn)是使用原始的光譜角制圖算法(spectral angle mapping,SAM)來(lái)衡量光譜向量的相似度。原始的SAM是一種全局性的描述指標(biāo),當(dāng)部分波段屬性值有變化、或全部波段屬性值具有不同的變化值時(shí),往往導(dǎo)致光譜角余弦的失真。
為了解決參考文獻(xiàn)[14]~參考文獻(xiàn)[16]和參考文獻(xiàn)[19]中所出現(xiàn)的問(wèn)題,本文作者提出基于低秩稀疏和改進(jìn)光譜角制圖的密度峰值聚類算法(low rank sparse-normalized spectral angular mapping density peak clustering,LRS-NSAMDP)。相比于DP聚類算法[14]和K-SDP[15]算法,本算法的改進(jìn)是去除原始高光譜圖像中的稀疏噪聲,提取高光譜圖像中的低秩成分,降低每一類樣本中的加權(quán)平均局部密度,從而減少了光譜向量中的誤標(biāo)簽數(shù)目,提高了分類精度。相比于基于層次約束能量最小值的高光譜圖像誤標(biāo)簽分類算法[19],本算法對(duì)原始的SAM算法進(jìn)行改進(jìn),將光譜向量在波段上的屬性值除以該光譜向量的模進(jìn)行歸一化,相比于SAM算法降低了同類像元之間的光譜角,使同類像元更加接近,從而更容易檢測(cè)出訓(xùn)練樣本中的像元之間差異較大的誤標(biāo)簽。通過(guò)以上兩個(gè)改進(jìn),相比于其它先進(jìn)的遙感圖像誤標(biāo)簽分類算法,提升了總體精度(overall accuracy,OA)、平均精度(average accuracy,AA)和kappa系數(shù)。
一幅原始高光譜圖像Y≡[y1,y2,…,yQ],Q代表每一波段的像素?cái)?shù)。由于高光譜圖像相鄰波段之間的高相關(guān)性,根據(jù)線性回歸理論和最小二乘法理論[20],假設(shè)zi為傳感器在第i波段讀取的相關(guān)系數(shù)向量,所以有:
zi=Z?iβi+ξi
(1)
(2)
(3)
40年來(lái),特別是黨的十八以來(lái),云南鐵路抓住國(guó)家西部大開發(fā)和云南面向南亞?wèn)|南亞輻射中心建設(shè)的機(jī)遇,積極爭(zhēng)取國(guó)家政策支持,鐵路投資、規(guī)劃項(xiàng)目落地和開通運(yùn)營(yíng)里程保持高位增長(zhǎng)。
SAM是KRUSE等人在1993年提出的[22],把圖像中的每一個(gè)像元的光譜視為一個(gè)高維向量,通過(guò)計(jì)算兩向量之間的夾角來(lái)度量光譜間的相似性,夾角越小,兩光譜越相似,屬于同類地物的可能性越大,因而可根據(jù)光譜角的大小來(lái)辨別未知數(shù)據(jù)的類別。分類時(shí),通過(guò)計(jì)算未知數(shù)據(jù)與已知數(shù)據(jù)間的光譜角,并把未知數(shù)據(jù)的類別歸為最小光譜角對(duì)應(yīng)的類別中,如下式所示:
(4)
式中,L為波段數(shù),A和B分別表示兩個(gè)光譜向量在L個(gè)波段上的屬性值,α為光譜角。夾角越小,余弦值較大;相反夾角大,相應(yīng)的余弦值就較小。
圖1是所提出的LRS-NSAMDP的流程圖。主要分為5個(gè)步驟:(1)基于低秩稀疏表示的高光譜圖像低秩特征提??;(2)計(jì)算各個(gè)類中訓(xùn)練樣本間的距離;(3)訓(xùn)練樣本局部密度的計(jì)算;(4)檢測(cè)誤標(biāo)簽訓(xùn)練樣本;(5)支持向量機(jī)分類。
Fig.1 Flow chart of LRS-NSAMDP algorithm
(5)
式中,?表示克羅內(nèi)克乘積,‖·‖表示矩陣的范數(shù),I表示單位矩陣,Z表示相關(guān)系數(shù)矩陣,z為向量化Z,M為掩模,φ(z)表示正則化函數(shù),δ是正則化系數(shù),y為向量化圖像Y。設(shè)掩模Mp作用在未觀測(cè)到的像素p所對(duì)應(yīng)的高光譜圖像yp,所以有:
(6)
(7)
(8)
(9)
dl=[dl,l1,dl,l2,…,dl,lj]T
(10)
為了計(jì)算訓(xùn)練樣本間的局部密度,定義截止距離dc,計(jì)算方式如下:
(11)
式中,S(t)為將Dj的上三角矩陣中的非零元素從最小到最大排序得到的矩陣,Nj為第j重樣本總數(shù),θ為隨機(jī)參數(shù),〈·〉為四舍五入運(yùn)算。根據(jù)得到的dc矩陣計(jì)算每一類的局部密度ρ=∑exp[-(Dj/dc)2]。
根據(jù)每一類中每一個(gè)訓(xùn)練樣本的局部密度,誤樣本可以通過(guò)線性閾值決策函數(shù)計(jì)算得到:
(12)
Kennedy Space Center(KSC)數(shù)據(jù)集是由AVIRIS高光譜儀于1996年在佛羅里達(dá)州肯尼迪太空中心采集的512像素×614像素大小的高光譜圖像,包含224個(gè)波段,經(jīng)過(guò)噪聲去除后還剩下176個(gè)波段,空間分辨率是18m,有13個(gè)地物類別,總樣本大小為5211。
University of Pavia(PaviaU)數(shù)據(jù)集是由ROSIS高光譜儀在帕維亞大學(xué)上空采集的610像素×340像素大小的高光譜圖像,共包含9類地物115個(gè)波段,去掉含噪聲波段后,其余103個(gè)波段作為實(shí)驗(yàn)數(shù)據(jù)集,總體樣本大小為42776。本算法的實(shí)驗(yàn)以及對(duì)比算法實(shí)驗(yàn)的運(yùn)行環(huán)境為12G內(nèi)存,英特爾酷睿i5 2.2GHz的CPU,開發(fā)環(huán)境為MATLAB R2018a。圖2和圖3分別給出了兩種數(shù)據(jù)集的假彩色圖像、地物真值圖和每一類物種。
Fig.2 KSC dataseta—false color image b—ground object truth map c—name of each species
Fig.3 PaviaU dataseta—false color image b—ground object truth map c—name of each species
本算法提出的兩個(gè)參數(shù)分別為:計(jì)算局部密度的隨機(jī)參數(shù)θ和檢測(cè)誤標(biāo)簽訓(xùn)練樣本的隨機(jī)參數(shù)λ,圖4和圖5中分別展示了在KSC和PaviaU兩個(gè)數(shù)據(jù)集上的不同參數(shù)下對(duì)OA的影響。為了證明算法的有效性,后續(xù)實(shí)驗(yàn)使用廣泛應(yīng)用在高光譜圖像分類算法中的支持向量機(jī)(support vector machine,SVM)作為分類器,具體使用LIBSVM工具箱中的分類器,SVM的參數(shù)采用交叉驗(yàn)證的方式來(lái)確定。對(duì)于KSC數(shù)據(jù)集,對(duì)每一類隨機(jī)選取25個(gè)真實(shí)樣本和5個(gè)不確定標(biāo)記樣本,對(duì)于PaviaU數(shù)據(jù)集,對(duì)每一類隨機(jī)選取50個(gè)真實(shí)樣本和10個(gè)不確定標(biāo)記樣本。
Fig.4 On KSC dataset, the parameter θ and λ coefficient of different local densities λ impact on OA
Fig.5 On PaviaU dataset, the parameter θ and λ coefficient of different local densities λ impact on OA
根據(jù)圖4和圖5可以看出,隨機(jī)參數(shù)θ在兩個(gè)數(shù)據(jù)集上的波動(dòng)范圍相較于系數(shù)λ較小,比如在PaviaU數(shù)據(jù)集上,最大的局部密度只比最小的局部密度高2%左右,而在KSC數(shù)據(jù)集上最大的局部密度比最小的局部密度要高15%以上,因此決定本算法的精度值主要是隨機(jī)參數(shù)θ。從圖4和圖5還可以看出,在KSC數(shù)據(jù)集上,當(dāng)取θ=11、λ=0.2時(shí),可以取得局部最優(yōu)的OA值;PaviaU數(shù)據(jù)集上,當(dāng)取θ=20、λ=0.2時(shí),可以取得局部最優(yōu)的OA值。因此對(duì)于一個(gè)新的數(shù)據(jù)集,建議取θ=20、λ=0.2作為提出算法的參數(shù)設(shè)置。
Table 1 Umber of false labels in each class detected by different detection algorithms under different uncertain samples
為了驗(yàn)證改進(jìn)光譜角制圖算法的優(yōu)越性,在此將多種距離度量算法應(yīng)用在本算法當(dāng)中,比如,歐幾里得距離(Euclidean distance,ED)[23]、光譜信息散度(spectral information divergence,SID)[24]、相關(guān)系數(shù)(correlation coefficient,CC)[25]以及SAM[22]。根據(jù)表2可以明顯看出,本文中提出的歸一化光譜角相似度算法取得了較優(yōu)的分類精度,因此后續(xù)的對(duì)比實(shí)驗(yàn)采用本文中提出的歸一化光譜角相似度算法來(lái)度量距離。
Table 2 Classification performance of KSC dataset under the false labeles detected by different distance measurement algorithms
將本算法和先進(jìn)的誤標(biāo)簽檢測(cè)算法進(jìn)行對(duì)比,具體包括SVM算法[26]、DP聚類算法[14]、K-SDP算法[15]、KECA算法[16]和HCEM算法[19]。本算法的實(shí)驗(yàn)參數(shù)采用第3.2節(jié)中給出的參數(shù),為了保持對(duì)比算法在最優(yōu)的條件下進(jìn)行對(duì)比,所有參數(shù)采用文獻(xiàn)中給出的默認(rèn)參數(shù)。在KSC數(shù)據(jù)集上,實(shí)驗(yàn)采用每一類25個(gè)正確樣本加5個(gè)不確定樣本、25個(gè)正確樣本加15個(gè)不確定樣本。在PaviaU數(shù)據(jù)集上,實(shí)驗(yàn)采用每一類50個(gè)正確樣本加10個(gè)不確定樣本、50個(gè)正確樣本加20個(gè)不確定樣本。限于篇幅,圖6和圖7中分別展示了在KSC數(shù)據(jù)集上25個(gè)正確樣本加5個(gè)不確定樣本和PaviaU數(shù)據(jù)集上50個(gè)正確樣本加10個(gè)不確定樣本下的不同誤標(biāo)簽檢測(cè)算法隨機(jī)一次地物分類圖。表3和表4中分別展示了不同誤標(biāo)簽檢測(cè)算法在KSC和PaviaU數(shù)據(jù)集上隨機(jī)運(yùn)行10次后求平均值的分類精度表格。
Fig.6 Feature classification map (25T+5U) obtained by different algorithms in KSC dataset
Fig.7 Feature classification map (50T+10U) obtained by different algorithms in PaviaU dataset
Table 3 Classification accuracy under different false label algorithms on KSC dataset
Table 4 Classification accuracy of PaviaU dataset with different false label algorithms
根據(jù)圖6可知,本文中提出的LRS-NSAMDP算法和真實(shí)地物分類圖更相似,證明了相比于SVM、DP、K-SDP、KECA和HCEM算法,本文中提出的算法可以有效地去除帶有誤標(biāo)簽的訓(xùn)練樣本。由表3可以看出,當(dāng)每一類訓(xùn)練樣本中包含5個(gè)不確定樣本時(shí),本文中提出的算法的OA值要比SVM的OA值高5.86%,此外,和兩個(gè)高光譜圖像誤標(biāo)簽檢測(cè)算法DP聚類和K-SDP聚類相比,本算法對(duì)原始高光譜圖像提取了低秩成分,提高了原始高光譜的質(zhì)量。根據(jù)第3.3節(jié)可知,本算法相比于DP聚類和K-SDP聚類可以有效減少訓(xùn)練樣本中的誤標(biāo)簽,在KSC數(shù)據(jù)集上的不同誤標(biāo)簽樣本下,都提升了分類精度。相比于KECA算法,本算法使用改進(jìn)的光譜角制圖算法充分獲取每一類訓(xùn)練樣本間的上下文信息,在每一類包含5個(gè)不確定的訓(xùn)練樣本上OA提升2.76%。相比于使用未改進(jìn)光譜角制圖的HCEM算法,本算法克服了原始光譜角余弦的失真問(wèn)題,能夠抑制誤差,在每一類包含15個(gè)不確定的訓(xùn)練樣本上OA提升1.26%。同時(shí)根據(jù)圖7和表4可以得出同樣的結(jié)論,例如,當(dāng)每一類訓(xùn)練樣本中包含10個(gè)不確定樣本時(shí),本算法相比于SVM、DP、K-SDP、KECA和HCEM算法,OA分別提高了6.76%,4.58%,3.94%,2.38%,1.24%,在兩種數(shù)據(jù)集上充分證明了本算法的有效性。
圖8中給出了不同訓(xùn)練集下使用不同誤標(biāo)簽檢測(cè)算法的總體精度柱狀圖。其中包括本算法和5種不同對(duì)比算法進(jìn)行10次重復(fù)實(shí)驗(yàn)后獲得的OA平均值。
Fig.8 OA obtained by using different false label detection algorithms in different training sets
可以看出,本算法相比于SVM、DP、K-SDP、KECA和HCEM算法,兩個(gè)數(shù)據(jù)集上都提高了OA值,證明了在誤標(biāo)簽的檢測(cè)過(guò)程中,提出的算法相比于對(duì)比算法更具有魯棒性。
表5中給出本方法在兩個(gè)數(shù)據(jù)集上所有檢測(cè)失敗的不確定樣本數(shù),檢測(cè)失敗的不確定樣本造成檢測(cè)算法的誤差。其中,6×13表示在訓(xùn)練樣本中所有的不確定樣本數(shù)目,6表示每一類中的不確定樣本數(shù)目,13表示類的數(shù)目(實(shí)驗(yàn)數(shù)據(jù)重復(fù)5次求得平均值),其它類推。首先明顯看出,本算法所有檢測(cè)失敗的不確定樣本相比于DP算法和K-SDP算法檢測(cè)失敗的不確定樣本數(shù)目少,證明本算法檢測(cè)性能優(yōu)越。仍然會(huì)出現(xiàn)檢測(cè)誤差的原因主要還是算法本身造成的。(12)式采用簡(jiǎn)單的線性閾值決策函數(shù),該函數(shù)可能會(huì)導(dǎo)致無(wú)法準(zhǔn)確度量、檢測(cè)、去除臨界值附近的待檢測(cè)樣本,造成系統(tǒng)誤差。此外,本算法采用改進(jìn)SAM算法來(lái)衡量光譜相似度和利用光譜信息,在檢測(cè)過(guò)程中并沒有利用到遙感圖像的空間信息,這也會(huì)造成系統(tǒng)誤差,可以采取自適應(yīng)調(diào)節(jié)的軟閾值決策函數(shù)、聯(lián)合樣本之間的空間上下文信息等來(lái)減少系統(tǒng)誤差。另一方面,測(cè)量?jī)x器、設(shè)備裝置和環(huán)境會(huì)導(dǎo)致隨機(jī)誤差,可以通過(guò)增加求平均值的次數(shù)以及使用最小二乘法求得最優(yōu)值來(lái)減少隨機(jī)誤差。但是隨機(jī)誤差仍是不可以避免的。
Table 5 Detection performance of false labels for the proposed method on two datasets