崔穎,王鈴秀,李文山
1.哈爾濱工程大學(xué) 信息與通信工程學(xué)院,黑龍江 哈爾濱 150001
2.先進(jìn)船舶通信與信息技術(shù)工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室,黑龍江 哈爾濱 150001
對(duì)于高光譜分類來(lái)說(shuō),獲取標(biāo)記樣本是非常困難的,主動(dòng)學(xué)習(xí)的提出緩解了這一問(wèn)題。近年來(lái),主動(dòng)學(xué)習(xí)在聲音事件檢測(cè)[1]、視覺(jué)情感分析[2]、醫(yī)學(xué)圖像標(biāo)注[3]和故障診斷[4]等領(lǐng)域得到廣泛應(yīng)用。1992年,基于投票機(jī)制的委員會(huì)方法(Queryby-Committee,QBC)一經(jīng)提出就得到了人們極大關(guān)注[5],該算法根據(jù)成員的投票結(jié)果選擇樣本。之后,基于委員會(huì)的查詢方法被不斷改進(jìn)。熵作為信息量的衡量標(biāo)準(zhǔn)走進(jìn)了人們的視野。文獻(xiàn)[6]將信息熵用于硬件木馬檢測(cè)。Li等[7]提出了一種基于信息熵和博弈論的混合遺傳算法,該算法克服傳統(tǒng)遺傳算法容易陷入局部最優(yōu)的缺點(diǎn),獲得更好的性能。Liu等[8]提出了新的指數(shù)熵函數(shù)作為圖像紋理平滑的指標(biāo)。李衡等[9]將信息熵引入樁基信號(hào)特征提取與識(shí)別算法中,得到了較好的識(shí)別效果。在主動(dòng)學(xué)習(xí)方面人們利用熵來(lái)度量樣本的不確定性。熵值裝袋算法(entropy queryby-bagging algorithm,EQB)[10]的優(yōu)勢(shì)在于其結(jié)果與分類器的種類無(wú)關(guān),可以使用任何種類的分類器。Copa等[11]指出熵值存在多值偏置問(wèn)題,即選擇樣本時(shí)會(huì)傾向于選擇同一種類的樣本,這會(huì)使得分類器不能泛化,導(dǎo)致分類結(jié)果的不理想。針對(duì)這一問(wèn)題,李寵等[12]提出了平均熵值裝袋查詢算法(aEQB),該算法利用待分類數(shù)據(jù)的種類數(shù)來(lái)懲罰熵值,使其可以得到較好的分類效果。Copa等[11]提出了歸一化熵值裝袋查詢算法(nEQB),通過(guò)預(yù)測(cè)類別數(shù)的對(duì)數(shù)項(xiàng)對(duì)熵值進(jìn)行歸一化處理,改善了熵值的多值偏置問(wèn)題。但是對(duì)于多分類問(wèn)題,基于熵值的不確定度查詢算法的效果可能并不理想。陳榮等[13]研究發(fā)現(xiàn),樣本的不確定性不能由熵值完全決定,會(huì)出現(xiàn)熵值小的樣本比熵值大的樣本的不確定度還要高的情況。
通過(guò)對(duì)上述方法的分析,本文提出二次樣本篩選的高光譜圖像分類算法。首先,采用超像素分割選擇區(qū)域邊緣的不確定性較高的樣本。然后,利用信息熵在不確定度較高的樣本中進(jìn)行二次選擇,挑選出更有價(jià)值的樣本。
Demir等[14]通過(guò)實(shí)驗(yàn)表明,在選取樣本的過(guò)程中,選取樣本越多,熵值裝袋算法的性能越好。這表明基于熵值裝袋算法只能確定樣本信息量的大致分割范圍,而不能按照信息量大小對(duì)樣本進(jìn)行準(zhǔn)確的排列。為了使得熵值裝袋算法能夠更好地選取不確定度高的樣本,本文提出在未標(biāo)記樣本集中進(jìn)行一輪樣本篩選,選取出未標(biāo)記樣本集中不確定度較高的樣本,再利用主動(dòng)學(xué)習(xí)策略在不確定度較高的樣本中進(jìn)行二次樣本篩選。本算法在分類模型的訓(xùn)練過(guò)程中僅利用了較少的標(biāo)記樣本和未標(biāo)記樣本中不確定度較高的部分樣本。相較于傳統(tǒng)的主動(dòng)學(xué)習(xí)算法使用樣本少。圖1為樣本二次篩選算法的結(jié)構(gòu)框圖。
圖1 樣本二次篩選算法的框圖
本文通過(guò)改進(jìn)的SLIC算法[15]進(jìn)行區(qū)域樣本選取。
每個(gè)超像素內(nèi)的像素視作同類地物,這樣位于超像素邊緣位置的像素也就是位于多類之間的像素。這樣像素的特征并不鮮明,在分類時(shí)容易誤判,具有較高的不確定度,利用價(jià)值很高。改進(jìn)的SLIC算法在初始化網(wǎng)格時(shí)采用六邊形網(wǎng)格而不是傳統(tǒng)的正方形網(wǎng)格。這樣做的好處是:可以更大程度地利用周圍的空間信息,從而更好地減少邊界像素的距離失真。同時(shí)該算法利用光譜信息和空間信息計(jì)算像素到聚類中心的距離,最大限度地利用圖像信息。六角形網(wǎng)格如圖2所示。
圖2 初始化超像素模型
圖2中,ω為六邊形的寬度,h為六邊形的高度,相鄰六邊形的水平距離用horiz表示(公式中用whoriz表示),垂直距離為vert(公式中用hvert表示)。在搜索過(guò)程中,在2ω×2ω大小的窗中搜索與中心像素相似的像素,六邊形中心的計(jì)算可以用矩陣乘法進(jìn)行簡(jiǎn)單的表示
式中:超像素的中心像素的坐標(biāo)為(mi,ni);irow為超像素的行索引;icolumn為列索引。
為了充分利用圖像中的空間信息,本算法將光譜距離和空間距離進(jìn)行加權(quán)求和,用得到的距離作為像素到聚類中心的距離。本算法中,用歐氏距離來(lái)衡量每一像素到聚類中心的空間距離,計(jì)算公式如下
式中:光譜距離dx為光譜角距離(spectral angle distance,SAD);空間距離dmn為歐氏距離;Dj為每一像素xj與聚類中心Ci的距離;因?yàn)榭臻g距離dmn的變化較為明顯,所以用六邊形的寬度ω對(duì)其進(jìn)行歸一化處理;ωS為衡量空間相似度和光譜相似度之間的權(quán)重,ωS越大,空間相似度就越重要,超像素越緊密,其大小、形狀也更加規(guī)范,衡量相似度時(shí),光譜相似度比空間相似度更為重要,因此在實(shí)驗(yàn)中將ωS設(shè)置為0.3。參數(shù)ω用來(lái)控制超像素的平均面積進(jìn)而調(diào)整其數(shù)量P,只要可以得到高光譜圖像的尺寸及超像素的尺寸ω,P就可以通過(guò)將超像素的最大行索引和最大列索引相乘得到。
圖3給出了改進(jìn)的SLIC算法的分割結(jié)果,其中圖3(a)圖代表Pavia大學(xué)數(shù)據(jù)集的分割結(jié)果,圖3(b)圖代表肯尼迪太空中心(Kennedy Space Center,KSC)數(shù)據(jù)集的分割結(jié)果。
圖3 改進(jìn)的SLIC算法的分割結(jié)果
由圖3可知,在平滑的中心區(qū)域超像素的形狀呈現(xiàn)較為規(guī)則的六邊形,在邊界處超像素的形狀規(guī)則性較差,由于ω設(shè)定為7,所以超像素的面積較小,個(gè)數(shù)較多,每個(gè)超像素的面積也更為平均,分割效果更好。
在區(qū)域劃分之后,將整幅較大的高光譜圖像分割為許多較小的超像素,并且為每1個(gè)超像素中的像素貼上偽標(biāo)簽(假設(shè)同屬于1個(gè)超像素內(nèi)的樣本為一類,它們的偽標(biāo)簽相同)。本算法利用滑窗機(jī)制來(lái)實(shí)現(xiàn)第1輪樣本篩選。在滑動(dòng)窗口的過(guò)程中,若窗口內(nèi)的像素分屬幾個(gè)類別(即類別數(shù)大于1),則將窗口內(nèi)的全部樣本選擇出來(lái),在本文中這樣的樣本定義為邊界樣本。如圖4所示。
圖4 滑窗示意
圖4中的數(shù)字表示每1個(gè)樣本的偽標(biāo)簽,滑動(dòng)窗口的大小為2×2。圖中虛線框中的樣本即為邊界樣本(圖4中僅畫出窗口在第1行和第2行滑動(dòng)時(shí)的效果圖)。在窗口滑動(dòng)的過(guò)程中,若判定窗口內(nèi)的樣本為邊界樣本,則將整個(gè)窗口內(nèi)的樣本的偽標(biāo)簽全部置為0。在滑窗結(jié)束后,所有偽標(biāo)簽為0的樣本都被視為邊界樣本。
信息是一個(gè)很抽象的東西,最初人們并不能用一個(gè)具體的指標(biāo)去衡量信息的多少。直到1948年,信息熵的提出使得人們可以具象的描述信息量。之后信息熵這一概念被廣泛地應(yīng)用于各個(gè)領(lǐng)域。信息熵作為衡量樣本不確定度的指標(biāo)被引入主動(dòng)學(xué)習(xí),產(chǎn)生了熵值裝袋算法。
本文通過(guò)熵值裝袋算法來(lái)進(jìn)行第2次的樣本篩選。接下來(lái)介紹3種熵值裝袋算法。
1)EQB算法
通常情況下,樣本的不確定性與熵值成正比。因此EQB算法將熵作為衡量不確定度的指標(biāo)。式(5)中xi表示未標(biāo)記樣本,H(xi)是xi的信息熵
在多分類問(wèn)題中,分類器將樣本分為更少的類,表明樣本的信息量較少。分類器將樣本分為更多的類,表明樣本的信息量更豐富。EQB由式(6)定義
式中U為未標(biāo)記樣本集。
2)nEQB算法
nEQB算法可以有效地改善多值偏置問(wèn)題,該方法使用1個(gè)包含預(yù)測(cè)類別數(shù)的對(duì)數(shù)項(xiàng)來(lái)懲罰多值問(wèn)題,nEQB由式(7)定義
3)aEQB算法
aEQB算法通過(guò)加入1個(gè)待分類數(shù)據(jù)集中的種類的數(shù)量來(lái)懲罰多值屬性,aEQB由式(8)定義
本文使用PaviaU、PaviaC和Salinas數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。PaviaU數(shù)據(jù)集共有9種地物,全部參與實(shí)驗(yàn),其中訓(xùn)練集占23%,共有270個(gè)標(biāo)記樣本;在PaviaC數(shù)據(jù)集中選擇除去第1類地物和第8類地物以外的樣本進(jìn)行實(shí)驗(yàn),其中訓(xùn)練集占58%,在訓(xùn)練集中每類選擇5個(gè)樣本作為有標(biāo)記樣本,共計(jì)35個(gè)。在Salinas數(shù)據(jù)集中選擇樣本數(shù)量較多的8類地物參與實(shí)驗(yàn),其中訓(xùn)練集占57%,訓(xùn)練集中共有240個(gè)有標(biāo)記樣本。每次實(shí)驗(yàn)會(huì)迭代100次,共重復(fù)10次,取平均值得出實(shí)驗(yàn)結(jié)果。
表1和圖5是PaviaU數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果。
表1 PaviaU數(shù)據(jù)集實(shí)驗(yàn)結(jié)束時(shí)的各種精度對(duì)比
圖5 PaviaU數(shù)據(jù)集的仿真結(jié)果
在OA方面,改進(jìn)算法與EQB算法相比提高最多為1.45%;與nEQB算法相比提升最少為0.04%;與aEQB算法相比提升0.57%。在所有的6種算法中樣本篩選分類方法(aEQB)的OA最高為93.61%。從Kappa系數(shù)來(lái)看,EQB算法的Kappa系數(shù)最低為0.893 9,樣本篩選分類方法(aEQB)的Kappa系數(shù)最高為0.915 2。
表2和圖6是PaviaC數(shù)據(jù)集上的仿真結(jié)果。對(duì)于OA來(lái)說(shuō),所有算法在實(shí)驗(yàn)結(jié)束時(shí)的OA都達(dá)到91%以上,改進(jìn)算法與EQB算法相比提高1.81%;與aEQB算法相比提高0.09%;與nEQB算法相比沒(méi)有提升。在AA方面,EQB算法的AA最低為91.32%,nEQB算法和改進(jìn)算法的AA相同且最高為94.76%。
表2 PaviaC數(shù)據(jù)集實(shí)驗(yàn)結(jié)束時(shí)的各種精度對(duì)比
圖6 PaviaC數(shù)據(jù)集的仿真結(jié)果
表3和圖7是Salinas數(shù)據(jù)集上的仿真結(jié)果。在OA方面,改進(jìn)算法與EQB算法相比提高最多為0.16%;與nEQB算法相比提升最少為0.02%。在所有的6種算法中樣本篩選分類方法(EQB)的OA最高為91.06%。從AA來(lái)看,aEQB算法的AA最低為94.10%,樣本篩選分類方法(nEQB)的Kappa系數(shù)最高為0.893 6。
圖7 Salinas數(shù)據(jù)集的仿真結(jié)果
表3 Salinas數(shù)據(jù)集實(shí)驗(yàn)結(jié)束時(shí)的各種精度對(duì)比
本文對(duì)于熵值裝袋算法中熵值不能完全決定樣本的不確定度的問(wèn)題,提出樣本的二次篩選策略。第1次篩選,利用SLIC算法將高光譜圖像進(jìn)行區(qū)域分割,提取不確定度較高的樣本;第2次篩選,利用熵值裝袋算法對(duì)不確定度較高的無(wú)標(biāo)簽樣本進(jìn)一步篩選,選擇信息量豐富的樣本進(jìn)行人工標(biāo)注。在訓(xùn)練分類器的過(guò)程中,本算法僅利用了有標(biāo)簽樣本和未標(biāo)記樣本中位于區(qū)域邊緣的不確定度較高的部分樣本。相對(duì)于傳統(tǒng)的主動(dòng)學(xué)習(xí)策略,本算法使用的樣本數(shù)量相比之下少很多。實(shí)驗(yàn)表明,在PaviaU數(shù)據(jù)集上改進(jìn)算法相比于基礎(chǔ)算法在各種精度上均有提高。在PaviaC數(shù)據(jù)集上改進(jìn)算法相比于EQB算法、aEQB算法在各種精度上均有提高,與nEQB算法相比并無(wú)提高。在未來(lái)的工作中,在一次樣本篩選時(shí),可以采用其他的圖像分割算法進(jìn)行實(shí)驗(yàn),對(duì)于不確定度高的樣本采取不同策略結(jié)合,討論圖像分割算法和不同熵值計(jì)算對(duì)分類結(jié)果的影響。