范迎迎,張姍姍
(新疆財(cái)經(jīng)大學(xué)信息管理學(xué)院,新疆 烏魯木齊 830008)
高光譜圖像具有豐富的空間信息和光譜信息,被廣泛應(yīng)用于生態(tài)科學(xué)、農(nóng)業(yè)信息學(xué)、地質(zhì)學(xué)等領(lǐng)域[1].高光譜圖像分類是將高光譜圖像應(yīng)用于各領(lǐng)域的基礎(chǔ),其目標(biāo)是為每一個(gè)像素分配一個(gè)唯一的語義標(biāo)簽.
對(duì)于高光譜圖像分類,傳統(tǒng)的基于光譜特征的方法[2-5],由于忽略了空間特征之間的相互依賴關(guān)系,往往不能獲得良好的性能.而基于光譜空間特征的分類方法,如小波變換法[6]、低秩表示法[7]等,充分考慮了高光譜圖像中的光譜信息和空間信息,取得了相對(duì)較好的效果.然而,上述方法依賴于手工提取的特征,分類過程相對(duì)煩瑣,通用性不高,且傳統(tǒng)的淺層機(jī)器學(xué)習(xí)算法,在處理高維遙感數(shù)據(jù)時(shí),容易陷入“維數(shù)災(zāi)難”.
近年來,深度學(xué)習(xí)技術(shù)使得高光譜圖像分類性能得到了較大改善[8-10].盡管基于深度學(xué)習(xí)的方法在純數(shù)據(jù)驅(qū)動(dòng)的方式下表現(xiàn)良好,但它們通常依賴于大量標(biāo)記樣本.然而,由于高光譜遙感圖像特殊的成像機(jī)理,高光譜圖像的獲取及標(biāo)注成本較高,很難獲得大量的標(biāo)注數(shù)據(jù).訓(xùn)練樣本的缺乏在很大程度上制約著高光譜圖像分類性能的進(jìn)一步提升.因此,如何在降低標(biāo)注成本的同時(shí)提高高光譜圖像的分類精度,成為亟待解決的問題.
本文從提高高光譜圖像分類精度和降低樣本標(biāo)注成本兩方面入手,提出一種結(jié)合殘差連接和注意力機(jī)制的分類網(wǎng)絡(luò),充分利用高光譜圖像中的光譜空間信息進(jìn)行分類.將深度學(xué)習(xí)和主動(dòng)學(xué)習(xí)技術(shù)相結(jié)合,降低樣本標(biāo)注成本.
近年來,深度學(xué)習(xí)被廣泛應(yīng)用于高光譜圖像分類任務(wù).如文獻(xiàn)[9]提出基于深度信念網(wǎng)絡(luò)的高光譜數(shù)據(jù)特征提取和分類框架,文獻(xiàn)[10]提出使用棧式自編碼對(duì)高光譜圖像進(jìn)行分類,而這兩種方法在處理高光譜數(shù)據(jù)時(shí),不能充分利用其空間信息,分類精度有待進(jìn)一步提高.卷積神經(jīng)網(wǎng)絡(luò)(CNN)引入了局部感受野的概念,通過卷積核捕獲圖像上的空間信息,在圖像分類領(lǐng)域取得了可觀的成就.目前,有不少研究者使用CNN實(shí)現(xiàn)高光譜圖像分類.Yu等[11]通過構(gòu)建高效的端到端CNN模型,提高了高光譜圖像分類的精度;Kang等[12]提出了一種基于雙路徑網(wǎng)絡(luò)的分類方法,結(jié)合了殘差網(wǎng)絡(luò)和密集卷積網(wǎng)絡(luò)的優(yōu)點(diǎn),取得了較好的分類效果;文獻(xiàn)[13]利用遷移學(xué)習(xí)和CNN模型對(duì)高光譜圖像分類,提高了分類性能,并且從一定程度上緩解了高光譜圖像樣本不足的問題.CNN方法使得高光譜圖像分類效果得到了一定程度的提升,但不難發(fā)現(xiàn)現(xiàn)有的基于CNN的分類方法通常對(duì)樣本量需求過大,而現(xiàn)有算法不能從根本上解決高光譜圖像數(shù)據(jù)缺乏以及標(biāo)注困難問題.
主動(dòng)學(xué)習(xí)(Active Learning,AL)[14]主要用來最大限度地減少訓(xùn)練集規(guī)模并降低標(biāo)注成本,其主要思想:通過機(jī)器學(xué)習(xí)算法篩選出那些比較難分類的樣本并進(jìn)行專家標(biāo)注,然后將得到的標(biāo)注數(shù)據(jù)再次放入機(jī)器學(xué)習(xí)模型中進(jìn)行學(xué)習(xí),進(jìn)而提高模型的準(zhǔn)確度.目前,已有學(xué)者將主動(dòng)學(xué)習(xí)算法運(yùn)用在高光譜圖像分類中,如王立國(guó)等[15]采用支持向量機(jī)作為分類器的AL算法進(jìn)行高光譜圖像分類,但SVM在面對(duì)高光譜圖像的復(fù)雜空間光譜特征時(shí),分類性能并不如人意;程圓娥等[16]將棧式自編碼和AL結(jié)合實(shí)現(xiàn)高光譜圖像分類,而棧式自編碼網(wǎng)絡(luò)要求輸入為一維向量,破壞了高光譜圖像的空間鄰域信息.針對(duì)上述問題,本文擬采用CNN作為主動(dòng)學(xué)習(xí)的分類器,通過殘差連接和注意力機(jī)制提升CNN網(wǎng)絡(luò)對(duì)高光譜圖像的空間-光譜信息的利用能力.
本文提出的基于深度主動(dòng)學(xué)習(xí)的高光譜圖像分類網(wǎng)絡(luò),充分利用深度學(xué)習(xí)的判別能力和主動(dòng)學(xué)習(xí)的標(biāo)記效率,進(jìn)一步提高了高光譜圖像分類的性能.其網(wǎng)絡(luò)框架圖如圖1所示.首先,為了充分利用高光譜圖像豐富的光譜空間信息,選取以待分類像素點(diǎn)為中心的三維圖像子塊作為網(wǎng)絡(luò)的輸入,其中有標(biāo)記樣本作為訓(xùn)練集訓(xùn)練分類器,而未標(biāo)記樣本則作為主動(dòng)學(xué)習(xí)的候選池;然后,使用訓(xùn)練集訓(xùn)練分類器,并基于訓(xùn)練好的分類器計(jì)算候選池中每個(gè)樣本的類別概率;最后,使用主動(dòng)學(xué)習(xí)策略選擇信息量最大的樣本進(jìn)行專家標(biāo)注,并將新標(biāo)記的樣本加入到訓(xùn)練集中,對(duì)網(wǎng)絡(luò)進(jìn)行新一輪的迭代訓(xùn)練;重復(fù)上述步驟,直至達(dá)到最大迭代次數(shù)為止.
圖1 網(wǎng)絡(luò)整體框架圖
由于本文所提算法的樣本選擇過程依賴于分類器的分類結(jié)果,所以分類器的設(shè)計(jì)在主動(dòng)學(xué)習(xí)過程中至關(guān)重要.鑒于CNN網(wǎng)絡(luò)在圖像分類領(lǐng)域取得的巨大成就,本文選取CNN網(wǎng)絡(luò)作為高光譜圖像分類的骨干網(wǎng)絡(luò).
2.1.1 基于殘差連接的CNN網(wǎng)絡(luò)
在深度學(xué)習(xí)算法中,隨著網(wǎng)絡(luò)深度的加深,網(wǎng)絡(luò)性能常常會(huì)出現(xiàn)退化,實(shí)踐證明,殘差連接通過將網(wǎng)絡(luò)低層信號(hào)以跳躍傳播的方式傳入網(wǎng)絡(luò)高層,能夠解決這種退化問題.此外,高光譜圖像存在不可避免的高維、小樣本問題,過深的網(wǎng)絡(luò)容易造成過擬合,因此本文借鑒ResNet網(wǎng)絡(luò)[17]的殘差連接思想,構(gòu)建了一個(gè)6層卷積神經(jīng)網(wǎng)絡(luò)模型,每層均采用3×3大小的卷積核,其中,前5層卷積核個(gè)數(shù)為256,第6層卷積核個(gè)數(shù)為1 024,兩個(gè)全連接層的神經(jīng)元個(gè)數(shù)分別為500和K,其中K為類別數(shù).該模型引入殘差連接方式,既能緩解使用小樣本訓(xùn)練過程中的梯度消失問題,同時(shí)有助于梯度的反向傳播.
2.1.2 融合注意力機(jī)制的CNN網(wǎng)絡(luò)
高光譜圖像的高維特性增加了對(duì)高光譜數(shù)據(jù)進(jìn)行分類的難度,如果能讓模型快速聚焦于高光譜圖像中的重要波段和關(guān)鍵區(qū)域,將會(huì)在很大程度上簡(jiǎn)化分類過程.深度學(xué)習(xí)中的注意力機(jī)制是仿照人類大腦處理視覺信息的思維方式而設(shè)計(jì)的一種機(jī)器視覺注意力機(jī)制,該機(jī)制可以將注意焦點(diǎn)迅速聚焦于圖像中的重要區(qū)域,而忽略其他無關(guān)背景區(qū)域,從而能夠更加高效地處理視覺信息.目前常用的空間注意力機(jī)制[18]能夠凸顯關(guān)鍵區(qū)域的特征表示,但忽略了圖像中各通道之間的相關(guān)性;而通道注意力機(jī)制[19]能夠?yàn)槊總€(gè)通道賦予不同的權(quán)值,提升重要通道信息抑制無關(guān)通道特征,但忽略了圖像空間內(nèi)的信息交互.為了同時(shí)兼顧空間內(nèi)、通道間的信息交互,CBAM[20]混合注意力機(jī)制被提出,該機(jī)制結(jié)合了通道域和空間域的注意力方法,形成一種較為綜合的注意力機(jī)制.如圖2所示,CBAM在原通道注意力的基礎(chǔ)上,連接了一個(gè)空間注意力模塊.為了充分利用高光譜圖像不同光譜之間的相關(guān)性以及提升高光譜圖像關(guān)鍵空間區(qū)域的特征表達(dá),本文在CNN網(wǎng)絡(luò)中加入了CBAM注意力機(jī)制.
圖2 CBAM結(jié)構(gòu)圖
本文提出的分類網(wǎng)絡(luò)結(jié)構(gòu)圖如圖3所示.為了更好地描述分類器的工作過程,給出如下定義:對(duì)于高光譜數(shù)據(jù)I∈RH×W×D,H和W分別為高光譜圖像的高和寬,D為波段數(shù),假設(shè)xi∈Rm×m×D是以像素pi為中心像素、空間大小為m×m、波段數(shù)為D的3維圖像塊,yi為像素pi的類別標(biāo)簽,N為校本總數(shù),則訓(xùn)練樣本集DL={(x1,y1),…,(xn,yn)},候選樣本集(未標(biāo)記樣本)DU={pn+1,…,pN},高光譜圖像分類的目的是為每個(gè)像素pi分配一個(gè)類別標(biāo)簽yi.
圖3 分類器結(jié)構(gòu)圖
則卷積操作計(jì)算公式為
(1)
在網(wǎng)絡(luò)的輸出層采用Softmax函數(shù)計(jì)算類別概率,對(duì)于一個(gè)多分類問題,如C(C>2)類,給定輸入x,假設(shè)P=(y(i)=1|x(i);θ)為每一個(gè)類別j的概率值,則其公式為
(2)
使用交叉熵?fù)p失函數(shù)優(yōu)化網(wǎng)絡(luò)參數(shù),公式為
(3)
主動(dòng)學(xué)習(xí)查詢策略是主動(dòng)學(xué)習(xí)算法的核心組件通過查詢策略可以挑選出最有價(jià)值的一組樣本,提高模型分類的精度.目前,使用最多的是基于不確定性采樣的方法.本文擬采用基于最小置信度(Minimum Confidence,MC)和基于最優(yōu)標(biāo)號(hào)和次優(yōu)標(biāo)號(hào)(Best vs second-best,BvSB)的采樣方法.
2.2.1 基于MC的采樣
該方法選擇最大概率最小的樣本進(jìn)行標(biāo)注,最大概率越小說明樣本的不確定性越大.本文將所有未標(biāo)記數(shù)據(jù)輸入到CNN網(wǎng)絡(luò),網(wǎng)絡(luò)的Softmax函數(shù)輸出值為屬于某類地物的類別概率,假設(shè)最后一層全連接層的輸出向量為v,vi表示v中的第i個(gè)元素,則經(jīng)過Softmax函數(shù)后的輸出為
(4)
所有基于MC的采樣可以表示為
MC=min{Pmax}.
(5)
其中Pmax=max(Pi).
2.2.2 基于BvSB的采樣
該方法選擇極易被判定為兩類的數(shù)據(jù),即選擇模型預(yù)測(cè)最大和次大的概率差值最小的樣本.樣本的最大和次大的概率差值小就說明該樣本很容易被錯(cuò)誤分類,對(duì)這樣的樣本進(jìn)行標(biāo)注,有更大的標(biāo)注價(jià)值.由(5)式基于BvSB的采樣可以表示為
BvSB=min{Pmax-Psecond-max}.
(6)
其中Psecond-max表示次大概率值.
訓(xùn)練集和未標(biāo)注樣本集在每次主動(dòng)選擇后動(dòng)態(tài)更新,即被主動(dòng)選擇策略選中的樣本將從未標(biāo)記樣本池DU中刪除,新標(biāo)注的樣本會(huì)被添加到訓(xùn)練集DL中,假設(shè)每次主動(dòng)選擇b個(gè)樣本進(jìn)行標(biāo)記,則:
DL=DL∪{(x1,y1),…,(xb,yb)};
(7)
DU=DU-{(x1),…,(xb)}.
(8)
整個(gè)算法流程可以歸納如下:
算法1 本文算法
輸入:訓(xùn)練樣本集DL,未標(biāo)注樣本集DU,主動(dòng)選擇次數(shù)S,首次隨機(jī)選取樣本數(shù)a,每次主動(dòng)選取樣本數(shù)b;
初始化:s=0
(1)隨機(jī)選擇m個(gè)標(biāo)記樣本構(gòu)造初始訓(xùn)練樣本集DL,
(2)Whiles (3)使用DL訓(xùn)練分類網(wǎng)絡(luò), (4)使用訓(xùn)練好的分類網(wǎng)絡(luò)計(jì)算DU中的每個(gè)樣本的類別概率, (5)根據(jù)(5)—(6)式主動(dòng)選擇b個(gè)樣本進(jìn)行標(biāo)記, (6)根據(jù)(7)—(8)式更新DL,DU, (7)EndWhile; 輸出:類別. 為了評(píng)估本文所提算法的性能,在兩個(gè)廣泛使用的高光譜圖像分類數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn). (1)IndianPines(IP)數(shù)據(jù)集:該數(shù)據(jù)集是最早用于高光譜圖像分類的公開數(shù)據(jù)集,由機(jī)載可見光紅外光譜儀(AVIRIS)采集得到,影像范圍為美國(guó)西北部印第安納州的印第安納松樹試驗(yàn)田,大小為145×145像素,空間分辨率大小為20 m,包含220個(gè)波段,剔除了20個(gè)噪聲和水吸收波段,保留了200個(gè)波段用于實(shí)驗(yàn),包含了16種地物類別.該數(shù)據(jù)集的偽彩圖和標(biāo)簽圖見圖4(a). (2)Pavia University(PU)數(shù)據(jù)集:該數(shù)據(jù)集由反射光學(xué)成像光譜儀(ROSIS)采集獲得影像范圍為意大利帕維亞城,大小為610×340像素,空間分辨率大小為1.3 m,包含103個(gè)可用波段,共9種地物類別.該數(shù)據(jù)集的偽彩圖和標(biāo)簽圖見圖4(b). 圖4 IP(a)和PU(b)的偽彩色和真彩色圖 本文實(shí)驗(yàn)在深度學(xué)習(xí)框架Pytorch中進(jìn)行,硬件環(huán)境為IntelCore i7-9700CPU處理器,內(nèi)存大小為16 GB,顯卡為 NVIDIAGeForce RTX 2080.分類網(wǎng)絡(luò)選取遙感圖像塊作為網(wǎng)絡(luò)的輸入,若圖像塊尺寸過大,則會(huì)包含較多的其他地物信息,對(duì)實(shí)驗(yàn)結(jié)果影響較大;若選取的圖像塊尺寸過小,則從圖像中學(xué)習(xí)到的特征有限,也不利于分類,因此,本文根據(jù)經(jīng)驗(yàn)選取輸入圖像塊大小為7×7像素,設(shè)置分類器的batch大小設(shè)為32,epoch大小為200,學(xué)習(xí)率大小為0.01.實(shí)驗(yàn)設(shè)置5輪CNN訓(xùn)練,第一輪從未標(biāo)記樣本池中隨機(jī)選取250個(gè)樣本標(biāo)注后進(jìn)行訓(xùn)練,主動(dòng)學(xué)習(xí)迭代次數(shù)為5,每次從未標(biāo)記樣本中選擇60個(gè)進(jìn)行標(biāo)注,所以總訓(xùn)練樣本數(shù)為550. 實(shí)驗(yàn)選用3個(gè)評(píng)價(jià)指標(biāo)評(píng)估分類性能,即總體分類精度(Overall accuracy,OA)、平均分類精度(Average accuracy,AA)、Kappa系數(shù)作為評(píng)價(jià)指標(biāo). 3.3.1 不同查詢策略對(duì)分類精度的影響 為了探索不同查詢策略對(duì)模型結(jié)果的影響,通過實(shí)驗(yàn)比較了MC、BvSB、RS(Randomselection,RS)3種查詢策略在5次主動(dòng)學(xué)習(xí)迭代后的分類結(jié)果,如表1所示. 表1 不同查詢策略的實(shí)驗(yàn)結(jié)果 % 由表1可以看出,采用BvBS的主動(dòng)學(xué)習(xí)策略在兩個(gè)數(shù)據(jù)集上都取得了較好的分類效果,這是因?yàn)樵?種策略中,只有BvBS是基于邊緣的查詢方法,能夠更準(zhǔn)確地篩選出難分類樣本;基于RS的分類策略毫無懸念地取得了最差的分類結(jié)果,因?yàn)檫@種選擇方法漫無目的地從未標(biāo)記樣本中選擇樣本進(jìn)行標(biāo)記,無法為模型提供貢獻(xiàn)率較大的樣本.因此在實(shí)驗(yàn)中采用BvBS查詢策略. 3.3.2 注意力機(jī)制和AL策略對(duì)分類精度的影響 通過對(duì)比實(shí)驗(yàn)驗(yàn)證注意力機(jī)制和主動(dòng)學(xué)習(xí)策略對(duì)實(shí)驗(yàn)結(jié)果的影響.將本文提出的未加注意力機(jī)制的CNN網(wǎng)絡(luò)設(shè)置為基線網(wǎng)絡(luò),記為CNN,則CNN-CBAM為在基線網(wǎng)絡(luò)中加入CBAM,CNN-AL為使用基線CNN網(wǎng)絡(luò)作為分類器的主動(dòng)學(xué)習(xí)模型,CNN-CBAM-AL為使用CNN-CBAM作為分類器的主動(dòng)學(xué)習(xí)模型.非主動(dòng)學(xué)習(xí)方法(CNN、CNN-CBAM)采用隨機(jī)選擇樣本的方式進(jìn)行迭代訓(xùn)練,所有模型經(jīng)過5次迭代后的實(shí)驗(yàn)結(jié)果如表2所示.由表2中CNN和CNN-CBAM方法的對(duì)比結(jié)果可知,加入注意力機(jī)制后的網(wǎng)絡(luò)分類結(jié)果在兩個(gè)數(shù)據(jù)集上均有提升,說明CBAM可以使網(wǎng)絡(luò)更加關(guān)注關(guān)鍵空間-光譜特征,能夠提高特征表達(dá)能力,提升網(wǎng)絡(luò)分類效果;由CNN和CNN-AL方法的對(duì)比結(jié)果可知,采用主動(dòng)學(xué)習(xí)策略的模型能夠大幅度提升網(wǎng)絡(luò)性能,在IP、PU數(shù)據(jù)集上OA分別提升了7.9%,9.54%;4種方法對(duì)比可知,加入注意力機(jī)制和主動(dòng)學(xué)習(xí)策略的網(wǎng)絡(luò)取得了最優(yōu)的分類結(jié)果,而且,發(fā)現(xiàn)在PU數(shù)據(jù)集上的分類結(jié)果高于IP數(shù)據(jù)集,這主要是因?yàn)镮P數(shù)據(jù)集地物類別更加復(fù)雜. 表2 實(shí)驗(yàn)結(jié)果 % 3.3.3 不同分類器對(duì)AL方法實(shí)驗(yàn)結(jié)果的影響 為了驗(yàn)證本文所提分類網(wǎng)絡(luò)的性能,將本文方法與使用K近鄰(KNN)、支持向量機(jī)(SVM)、棧式自編碼(SAE)、深度置信網(wǎng)絡(luò)(DBN)作為分類器的主動(dòng)學(xué)習(xí)方法進(jìn)行了對(duì)比.對(duì)于KNN算法,設(shè)置近鄰數(shù)K=10;對(duì)于SVM算法,將高光譜圖像的光譜特征作為模型輸入,使用徑向基核函數(shù)將輸入映射到高維空間,正則化參數(shù)c和核參數(shù)g由交叉驗(yàn)證的網(wǎng)格搜索確定;對(duì)于SAE算法,設(shè)置3個(gè)隱藏層,隱層神經(jīng)元個(gè)數(shù)分別為80,50,30,學(xué)習(xí)率為0.05,epoch為200;對(duì)于DBN算法,設(shè)置DBN網(wǎng)絡(luò)為3層,各層節(jié)點(diǎn)數(shù)為64,學(xué)習(xí)率為0.05,epoch為200.圖像的選取見3.2節(jié)的實(shí)驗(yàn)設(shè)置,使用不同分類器主動(dòng)學(xué)習(xí)算法在IP數(shù)據(jù)集上分類效果如圖5所示、PU數(shù)據(jù)集上的分類結(jié)果見圖6. 圖5 不同分類器在IP數(shù)據(jù)集上的分類結(jié)果 圖6 不同分類器在PU數(shù)據(jù)集上的分類結(jié)果 由圖5和6可知,(1)隨著訓(xùn)練樣本的增加,所有方法的OA值均呈現(xiàn)上升趨勢(shì),說明主動(dòng)學(xué)習(xí)算法在分類過程中能夠提升分類準(zhǔn)確度;(2)深度神經(jīng)網(wǎng)絡(luò)方法高于傳統(tǒng)淺層機(jī)器學(xué)習(xí)算法,說明深度學(xué)習(xí)方法在處理高維數(shù)據(jù)時(shí)具有明顯優(yōu)勢(shì);(3)本文提出的加入CBAM的CNN方法取得了最高的分類方法,且明顯高出其余兩種深度學(xué)習(xí)算法,這是因?yàn)槭褂肧AE和DBN方法時(shí)需要將輸入數(shù)據(jù)轉(zhuǎn)成一維向量,破壞了高光譜圖像的空間結(jié)構(gòu)信息,而基于CNN的方法以圖像塊作為輸入,能夠同時(shí)利用高光譜圖像的空間光譜信息進(jìn)行分類. 本文將深度學(xué)習(xí)和主動(dòng)學(xué)習(xí)技術(shù)結(jié)合使用,提出基于深度主動(dòng)學(xué)習(xí)的高光譜圖像分類技術(shù),設(shè)計(jì)了適用于高光譜圖像分類問題的6層卷積神經(jīng)網(wǎng)絡(luò),并加入CBAM注意力機(jī)制,充分挖掘圖像中關(guān)鍵的空間光譜信息;應(yīng)用不同的主動(dòng)學(xué)習(xí)策略,探索主動(dòng)學(xué)習(xí)技術(shù)在解決高光譜圖像標(biāo)注問題中的應(yīng)用潛力.通過在IP和PU兩個(gè)高光譜數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明本文提出的CNN-CBAM分類器結(jié)合BvSB查詢策略能夠取得較好的分類性能.3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)集
3.2 實(shí)驗(yàn)環(huán)境與設(shè)置
3.3 實(shí)驗(yàn)結(jié)果與分析
4 結(jié)束語
東北師大學(xué)報(bào)(自然科學(xué)版)2022年4期