葛 蕓 馬 琳 葉發(fā)茂 儲 珺*
①(南昌航空大學(xué)軟件學(xué)院 南昌 330063)
②(東華理工大學(xué)測繪工程學(xué)院 南昌 330013)
近年來,遙感衛(wèi)星和傳感器技術(shù)發(fā)展迅速,高空間分辨率遙感圖像檢索技術(shù)在城市規(guī)劃、環(huán)境保護(hù)、農(nóng)業(yè)以及軍事等領(lǐng)域發(fā)揮重要作用。然而,遙感圖像類別繁多,內(nèi)容復(fù)雜,在按類別檢索時,圖像的有效特征容易受其他特征干擾,導(dǎo)致難以準(zhǔn)確區(qū)分圖像的類間差異。除此以外,遙感圖像的空間信息豐富,如圖1所示,高速公路與立交橋所包含的目標(biāo)特征基本一致,但空間信息存在差異。因此,如何充分利用空間信息來增強(qiáng)特征對類間相似圖像的辨別力,并且有效地提取圖像的關(guān)鍵特征,成為檢索工作中的研究熱點(diǎn)。
圖1 類間相似性大的遙感圖像示例
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)通過自主學(xué)習(xí)來提取圖像的特征,相比于傳統(tǒng)的手工特征,CNN特征的泛化性和魯棒性更強(qiáng),隨著視覺幾何組網(wǎng)絡(luò)(Visual Geometry Group Network, VGGNet)[1]、深度殘差神經(jīng)網(wǎng)絡(luò)(deep Residual Network, ResNet)[2]、壓縮和激勵網(wǎng)絡(luò)(Squeeze-and-Excitation Network, SENet)[3]等模型提出,CNN在遙感圖像檢索領(lǐng)域應(yīng)用更加廣泛。葉發(fā)茂等人[4]利用CNN來提取圖像高層特征,并且設(shè)計(jì)一種加權(quán)類別的重新排序方法來提高遙感圖像檢索準(zhǔn)確率。Li等人[5]通過深度哈希神經(jīng)網(wǎng)絡(luò),將高維特征向量映射到低維2進(jìn)制特征向量,以端到端的方式進(jìn)行優(yōu)化,并能有效應(yīng)用于大規(guī)模遙感圖像檢索。
近些年,圍繞特征優(yōu)化來進(jìn)一步提高檢索性能的方法取得了不錯的進(jìn)展。Roy等人[6]將3元組圖像輸入預(yù)訓(xùn)練的InceptionNet,得到的pool3層特征作為中間特征輸入到哈希網(wǎng)絡(luò)中,并使用3種不同的損失函數(shù)來訓(xùn)練哈希網(wǎng)絡(luò),在相同的檢索時間下顯著提高了檢索性能。彭晏飛等人[7]采用基于對比度受限直方圖均衡化算法對圖像進(jìn)行預(yù)處理,并提出根據(jù)距離度量標(biāo)準(zhǔn)進(jìn)行重新排序的相關(guān)反饋方法,對檢索結(jié)果不佳的情況進(jìn)行調(diào)整,提高檢索精度。Ye等人[8]計(jì)算查詢圖像和檢索圖像之間的特征相似度,據(jù)此為每個特征分配權(quán)重,通過查詢自適應(yīng)加權(quán)方法融合這些特征,并對檢索結(jié)果進(jìn)行重新排序,顯著提高檢索精度。
另外,通過改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)也可以很好地提高檢索準(zhǔn)確率,Ma等人[9]提出多層次融合框架,通過對CNN不同層次信息的挖掘,獲得局部特征和全局特征,并且利用級聯(lián)和相加兩種方式對這些特征進(jìn)行融合,提高了特征的表達(dá)力。Liu等人[10]設(shè)計(jì)的網(wǎng)絡(luò)框架由兩個分類網(wǎng)絡(luò)和一個相似性學(xué)習(xí)網(wǎng)絡(luò)組成,相似性學(xué)習(xí)網(wǎng)絡(luò)根據(jù)兩幅輸入圖像之間的相似性進(jìn)行評分,對分類分支的輸出進(jìn)行特征融合與得分融合,通過雙融合來提升檢索性能。然而,上述方法沒有充分利用遙感圖像豐富的空間信息,并缺乏對顯著特征的關(guān)注。
因此,許多研究者將注意力機(jī)制融入到CNN中來關(guān)注圖像的顯著信息。注意力機(jī)制在減少冗余信息的基礎(chǔ)上傾向于給顯著特征更大的權(quán)重,因此在目標(biāo)檢測[11]、圖像分類[3,12]、語義分割[13]等諸多圖像處理領(lǐng)域取得成功。Hu等人[3]提出的SE模塊對特征圖進(jìn)行“擠壓”和“激勵”操作,將各個通道特征圖壓縮,為每個特征通道生成權(quán)重,通過乘法逐通道加權(quán)到原特征上,成功利用通道注意力實(shí)現(xiàn)通道自適應(yīng)校準(zhǔn)。Woo等人[12]設(shè)計(jì)了一個簡單有效的注意力模塊(Convolutional Block Attention Module, CBAM),CBAM從通道和空間兩個維度計(jì)算特征圖的注意力權(quán)重,然后將注意力權(quán)重與輸入的特征圖相乘來進(jìn)行特征的自適應(yīng)學(xué)習(xí)。CBAM是一個輕量的通用模塊,可以將其融入到各種卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行端到端訓(xùn)練。
本文受文獻(xiàn)[12]的啟發(fā),提出一種基于多尺度池化和范數(shù)注意力機(jī)制的方法,本方法從通道與空間兩個方面減少圖像背景信息的干擾,并通過獲得遙感圖像中不同尺度的目標(biāo)信息與類別信息來有效提取特征。本文的主要貢獻(xiàn)如下:
(1)在通道層面上,采用不同最大池化尺寸構(gòu)建多個不同尺度的池化特征圖,將這些特征圖進(jìn)行全局均值池化統(tǒng)一尺寸后,逐像素相加各個特征圖來關(guān)注多尺度的目標(biāo)。
(2)在空間層面上,將特征圖不同通道對應(yīng)相同空間位置的像素視為一組向量,通過計(jì)算多組向量的范數(shù)來表達(dá)圖像的空間信息。特征經(jīng)過空間注意力權(quán)重的校準(zhǔn)以后,可以更好地?cái)M合遙感圖像。
(3)采用級聯(lián)池化處理高層特征圖,級聯(lián)池化結(jié)合了最大池化和均值池化的優(yōu)點(diǎn),能夠保留更多的有效信息,池化后的特征檢索準(zhǔn)確率更高。
引入注意力機(jī)制可以提高網(wǎng)絡(luò)對關(guān)鍵特征的關(guān)注,結(jié)合遙感圖像豐富的空間上下文信息,有效促進(jìn)特征表達(dá)能力的提高。Wang等人[14]利用遞歸注意結(jié)構(gòu)在高層特征上關(guān)注一些關(guān)鍵區(qū)域,丟棄非重要的信息,有監(jiān)督地調(diào)整特征權(quán)重,顯著提高準(zhǔn)確率。Guo等人[15]采用全局注意分支和局部注意分支獲得全局信息和局部信息,用于航空場景分類。Zhang等人[16]提出了一種多尺度注意力網(wǎng)絡(luò)來表征遙感圖像的多層次結(jié)構(gòu)特征,通過特征融合塊和通道注意力模塊,自適應(yīng)地利用多尺度特征之間的有效信息。徐從安等人[17]設(shè)計(jì)了通道維和空間維的注意力模塊嵌入循環(huán)神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)不同通道不同局部區(qū)域的顯著性特征,提高特征的鑒別能力。
在遙感圖像檢索中,Zhang等人[18]在DenseNet中添加注意力模塊和哈希層,利用遙感圖像數(shù)據(jù)對模型進(jìn)行微調(diào),同時學(xué)習(xí)輸入圖像的特征表達(dá)式和相應(yīng)的哈希函數(shù),實(shí)現(xiàn)查詢圖像和數(shù)據(jù)庫圖像之間的相似度匹配。Wang等人[19]利用雙重注意力機(jī)制細(xì)化最后一層卷積層的特征,并將這些特征作為緊湊雙線性池化的輸入,再結(jié)合PCA降維,抑制背景的干擾。Liu等人[20]從不同的角度探索遙感圖像的特征,一方面,通過特征聚合充分挖掘遙感圖像的多尺度特征;另一方面,通過離散傅里葉變換中的注意力分支,突出屬于不同場景的類別特征,以保證檢索精度。Xiong等人[21]添加注意力機(jī)制抑制無用特征,并且在訓(xùn)練階段引入中心損失作為網(wǎng)絡(luò)分支,最小化特征與其對應(yīng)中心之間的距離,使類間的距離分散,類內(nèi)的距離緊湊,更適合遙感圖像檢索。
注意力機(jī)制使特征中的關(guān)鍵信息獲得更大的權(quán)重,通道注意力可以抑制背景信息的干擾,空間注意力可以更好地保留原始圖像的空間信息,因此,本文方法結(jié)合了通道注意力與空間注意力,有監(jiān)督地分配特征權(quán)重,提高特征對遙感圖像的判別能力。
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型深度增加時,模型精度則會隨之下降,并且產(chǎn)生梯度消失或者梯度爆炸問題。而ResNet允許網(wǎng)絡(luò)盡可能地增加隱藏層,不僅提升了訓(xùn)練模型的準(zhǔn)確度,而且解決了深度網(wǎng)絡(luò)中梯度消失的問題。因此本文選用ResNet50[2]來提取遙感圖像的高層特征,并且利用預(yù)訓(xùn)練的參數(shù)來改善遙感數(shù)據(jù)集規(guī)模較小所帶來的過擬合問題。ResNet50模型由1個卷積層、4個中間層和1個池化層組成,各中間層分別包含3, 4, 6, 3個深度殘差快,每個深度殘差模塊包含3個卷積層,并且以跳躍連接的方式結(jié)合,大大降低了參數(shù)的數(shù)目。本文的多尺度池化和范數(shù)注意力機(jī)制模型結(jié)構(gòu)如圖2所示,其中F表示卷積特征。
為了有效利用預(yù)訓(xùn)練參數(shù),加入注意力模塊不能改變原有ResNet50的網(wǎng)絡(luò)結(jié)構(gòu),因此本文將注意力模塊分別加在第1層卷積層之后以及池化層之前,注意力模塊包含通道注意力機(jī)制以及空間注意力機(jī)制。另外,本文用級聯(lián)池化[22]的方法對高層特征進(jìn)行池化,采用4×4的尺寸對卷積層進(jìn)行最大池化,接著進(jìn)行全局均值池化,得到(2048×1×1)維的檢索特征。
為了區(qū)分復(fù)雜遙感圖像的目標(biāo)與背景,提取有效特征來區(qū)分類間相似性大的圖像,本文在文獻(xiàn)[12]的基礎(chǔ)上提出多尺度池化通道注意力和范數(shù)空間注意力,根據(jù)目標(biāo)的尺度不同以及空間位置不同,重新為特征分配權(quán)重。
3.2.1 多尺度池化通道注意力
根據(jù)輸入特征各通道的重要程度分配權(quán)重是通道注意力機(jī)制的關(guān)鍵部分。CBAM的通道注意力機(jī)制對輸入特征每一個通道做全局池化操作來區(qū)分不同通道的重要程度。高分辨率遙感圖像中目標(biāo)多樣復(fù)雜,僅僅利用全局池化得到的最顯著目標(biāo)特征檢索會忽略一些小尺度的有效信息。
因此,本文結(jié)合空間金字塔池化的思想采用多尺度池化操作獲得通道注意力權(quán)重,圖3展示了多尺度池化通道注意力模塊的結(jié)構(gòu),其中H, W, C分別表示輸入特征圖的高度、寬度和通道數(shù)目。
圖2 多尺度池化和范數(shù)注意力機(jī)制模型結(jié)構(gòu)
首先,對輸入的卷積層特征在通道層面上以不同尺寸對其進(jìn)行4次最大池化操作,池化后尺寸分別為1×1×C, 2×2×C, 3×3×C和4×4×C,然后,對得到的4個特征圖再進(jìn)行全局均值池化,將4個特征相加后輸入多層感知機(jī)(MultiLayer Perceptron,MLP),最后,經(jīng)由sigmoid映射生成通道特征權(quán)重,以此關(guān)注大小不同的前景目標(biāo)。計(jì)算多尺度池化通道注意力權(quán)重的公式為
3.2.2 范數(shù)空間注意力
通道注意力模塊關(guān)注不同通道的差異性,空間注意力模塊則關(guān)注不同目標(biāo)的空間信息。本文利用范數(shù)的計(jì)算來度量目標(biāo)的空間位置,首先,以輸入卷積特征(H×W×C)中不同通道對應(yīng)相同位置的像素點(diǎn)作為一個向量,計(jì)算向量組的L1范數(shù)(曼哈頓距離)和L2范數(shù)(歐式距離),得到的兩個特征圖(H×W×1)以串聯(lián)的方式拼接起來;然后,經(jīng)過卷積操作獲取顯著空間信息;最后,利用sigmoid函數(shù)映射得到空間上的權(quán)重矩陣。如圖4所示,圖中Vn表示向量組,n表示單通道特征圖像素點(diǎn)總數(shù),F(xiàn)M和FE表示向量組經(jīng)過L1范數(shù)和L2范數(shù)計(jì)算得到的特征圖。
通過向量組Vn的范數(shù)計(jì)算,在向量空間比較不同向量在空間上的位置差異。計(jì)算方法為
圖4 空間注意力模塊
CNN模型中高層特征語義信息豐富,網(wǎng)絡(luò)泛化性較好,遷移學(xué)習(xí)能力較強(qiáng)。在此基礎(chǔ)上,增加多尺度池化和范數(shù)注意力模塊,進(jìn)一步提高特征的判別力,并通過較大規(guī)模遙感數(shù)據(jù)集來訓(xùn)練該模型,使得該模型能夠更好地遷移到小規(guī)模遙感數(shù)據(jù)集中。遷移學(xué)習(xí)過程如圖5所示。
首先,因?yàn)檫b感圖像數(shù)據(jù)集規(guī)模較小,為了避免過擬合,將ResNet50在ImageNet上預(yù)訓(xùn)練的模型參數(shù)直接遷移到本文的多尺度和范數(shù)注意力機(jī)制模型,然后,利用較大規(guī)模的遙感數(shù)據(jù)集,比如NWPU-RESISC45數(shù)據(jù)集[23],在原有參數(shù)的基礎(chǔ)上訓(xùn)練網(wǎng)絡(luò),經(jīng)過多尺度池化通道注意力模塊與范數(shù)空間注意力模塊在不同角度為高層特征自適應(yīng)加權(quán),使模型參數(shù)更加擬合遙感圖像。最后,將訓(xùn)練好的模型遷移到小規(guī)模遙感數(shù)據(jù)集,提取圖像特征進(jìn)行測試,驗(yàn)證模型的泛化性。
圖5 遷移學(xué)習(xí)過程
為了驗(yàn)證本文方法的有效性,在不同分辨率、不同尺寸的高分辨遙感數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),對本文方法與注意力機(jī)制CBAM的檢索結(jié)果進(jìn)行分析,對不同池化方法的檢索性能進(jìn)行比較,驗(yàn)證本方法遷移學(xué)習(xí)的有效性,并且與最新的遙感圖像檢索方法進(jìn)行比對。實(shí)驗(yàn)框架為Pytorch1.6.0,GPU為RTX2060s。
本文選用UC Merced數(shù)據(jù)集[25]、AID數(shù)據(jù)集[26]與NWPU-RESISC45數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),UC Merced是由加州大學(xué)默塞德分校提出的遙感圖像數(shù)據(jù)集,共有2100張圖像,包含21個類,每個類具有100張圖像,圖像尺寸為256×256,空間分辨率為0.3 m,這個數(shù)據(jù)集被廣泛用于遙感領(lǐng)域。AID數(shù)據(jù)集由華中科技大學(xué)和武漢大學(xué)于2017年發(fā)布,共有10000張場景圖像,包含30個類別,每個類別圖像數(shù)量從220~400不等,空間分辨率介于0.5~8 m之間。NWPU-RESISC45是由西北工業(yè)大學(xué)提出的遙感圖像場景分類數(shù)據(jù)集,共有31500張圖像,包含45個場景類別,每個類具有700張圖像,像素大小為256×256。圖6中顯示了UC Merced數(shù)據(jù)集、AID數(shù)據(jù)集與NWPU-RESISC45數(shù)據(jù)集的部分示例圖像。
圖6 示例圖像
采用平均檢索準(zhǔn)確率(mean Average Precision,mAP)、平均歸一化調(diào)整后的檢索秩(Average Normalized Modified Retrieval Rate, ANMRR)以及查準(zhǔn)率查全率曲線(P-R曲線)這幾個常用的指標(biāo)對檢索結(jié)果進(jìn)行評價(jià)。mAP是在每個類別平均準(zhǔn)確率的基礎(chǔ)上,求得數(shù)據(jù)集所有類別的平均檢索準(zhǔn)確率,mAP越高,則代表查詢結(jié)果越準(zhǔn)確。ANMRR是用來衡量檢索結(jié)果中正確圖片排序靠前的程度,ANMRR越小,則表示正確結(jié)果排序越靠前。P-R曲線可以綜合地反映模型的檢索能力,曲線下面積越大,則表示模型的檢索能力越強(qiáng)。本文檢索特征為ResNet50的最后一個Bottleneck中的relu層特征。
為了驗(yàn)證所提方法的有效性,設(shè)計(jì)不同實(shí)驗(yàn)對骨干網(wǎng)絡(luò)ResNet50、注意力機(jī)制CBAM(后記為Resnet50_CBAM)、多尺度池化通道注意力模塊(后記為Resnet50_C)、范數(shù)空間注意力模塊(后記為Resnet50_S)以及本文注意力機(jī)制(后記為Resnet50_SC)5種方法的檢索結(jié)果進(jìn)行評估,加“-cp”后綴表示采用級聯(lián)池化方式。
根據(jù)表1,兩種注意力改進(jìn)方法均可以使模型的檢索能力在原來的Resnet50_CBAM基礎(chǔ)上有所提升。這是因?yàn)橄啾扔谌滞ǖ雷⒁饬C(jī)制,多尺度的通道注意力關(guān)注更多的目標(biāo)信息,得到的檢索結(jié)果更為準(zhǔn)確。除此以外,與簡單的計(jì)算空間特征的最大值、平均值相比,向量的范數(shù)計(jì)算將空間向量映射到統(tǒng)一的向量空間中進(jìn)行比較,獲取顯著的空間信息,檢索精度更高。最后,將改進(jìn)后的兩種注意機(jī)制結(jié)合,從通道和空間兩個角度為高層特征加權(quán)來提高特征的判別能力,因此在兩個數(shù)據(jù)集上的檢索結(jié)果都有提升。在UC Merced數(shù)據(jù)集中,Resnet50_C比Resnet50_CBAM的mAP提高0.028,Resnet50_S比Resnet50_CBAM的mAP提高0.022。在AID數(shù)據(jù)集中,Resnet50_C比Resnet50_CBAM的ANMRR降低了0.010,Resnet50_S比Resnet50_CBAM的ANMRR降低了0.009。
表1 UC Merced數(shù)據(jù)集和AID數(shù)據(jù)集不同方法檢索結(jié)果
將本文方法與ResNet50_CBAM, ResNet50進(jìn)行比較,如圖7所示,選擇第1個注意力模塊之后的池化層進(jìn)行特征圖可視化,其中,黃色框選區(qū)域顯示出圖7(a)與圖7(b)特征圖差異,紅色框選區(qū)域顯示出圖7(b)與圖7(c)特征圖差異。顏色越接近紅色表示特征響應(yīng)值越大,顏色越接近藍(lán)色表示特征響應(yīng)值越低。根據(jù)圖7(a)和圖7(b)對比可以看出,注意力機(jī)制的加入,使更多的特征圖前景目標(biāo)與背景區(qū)分明顯,目標(biāo)輪廓更加清晰。根據(jù)圖7(b)和圖7(c)對比可以看出,本文方法,在這3個紅框標(biāo)示的特征圖中,作為關(guān)鍵特征信息的飛機(jī)響應(yīng)值更大,關(guān)鍵信息提取更完整。
本節(jié)實(shí)驗(yàn)根據(jù)池化方式的不同,對級聯(lián)池化和全局均值池化兩種方法得到的特征檢索結(jié)果進(jìn)行比對,實(shí)驗(yàn)數(shù)據(jù)集選用UC Merced數(shù)據(jù)集與AID數(shù)據(jù)集,圖8分別展示了在UC Merced數(shù)據(jù)集與AID數(shù)據(jù)集上不同池化方式和不同方法的P-R曲線。
圖7 不同方法特征圖差異
圖8 P-R曲線
圖8(a)中展示了在UC Merced數(shù)據(jù)集中骨干網(wǎng)絡(luò)ResNet50, Resnet50_CBAM和Resnet50_SC 3種方法不同池化方式的P-R曲線,加“-cp”后綴表示采用級聯(lián)池化方式,不加后綴表示采用普通的全局均值池化方法。其中,采用全局均值池化的骨干網(wǎng)絡(luò)P-R曲線最低,檢索能力較弱,本文方法的P-R曲線高于Resnet50_CBAM的P-R曲線,說明改進(jìn)以后檢索能力有所提高。
在提取特征方法相同的情況下,采用級聯(lián)池化方式檢索效果優(yōu)于全局均值池化的檢索效果,這是因?yàn)檫b感圖像拍攝角度、位置不同,很多關(guān)鍵目標(biāo)在圖像上的尺寸不會很大,全局均值池化可能會忽略一些小尺度的有效信息,而減小池化尺寸能夠更好地利用這類小目標(biāo)的信息。因此,采用級聯(lián)池化的多尺度池化和范數(shù)注意力機(jī)制模型檢索結(jié)果最好,曲線位于最上方。
類似地,圖8(b)為AID數(shù)據(jù)集的P-R曲線圖,實(shí)驗(yàn)結(jié)果顯示在這個數(shù)據(jù)集中,曲線面積最大的還是對改進(jìn)后的注意力機(jī)制進(jìn)行級聯(lián)池化的方法。根據(jù)P-R曲線,可知級聯(lián)池化方法比全局池化更適合高分辨率遙感圖像。
在實(shí)際的圖像檢索中,模型的訓(xùn)練均在線下完成,不占用檢索時間,而訓(xùn)練模型的結(jié)構(gòu)不同,檢索時間也有所差異。因此,本節(jié)實(shí)驗(yàn)在UC Merced數(shù)據(jù)集上比較了以上幾種方法檢索所需的時間。
根據(jù)表2,當(dāng)加入通道注意力模塊與空間注意力模塊后,檢索時間稍有增加,與Resnet50_CBAM方法相比,檢索時間相同。綜合分析,本文方法檢索準(zhǔn)確率更高,具有較大的優(yōu)勢。
本文所提注意力機(jī)制可以很好地?cái)M合遙感圖像,有效利用關(guān)鍵特征的空間位置信息增強(qiáng)特征的判別力。為了驗(yàn)證模型的泛化性,用NWPU-RESISC45數(shù)據(jù)集對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,再將訓(xùn)練參數(shù)遷移到UC Merced數(shù)據(jù)集,測試模型在UC Merced數(shù)據(jù)集上的檢索性能。實(shí)驗(yàn)中圖像批量輸入大小設(shè)置為60,學(xué)習(xí)率設(shè)置為0.01,衰減率設(shè)置為0.004,迭代次數(shù)設(shè)置為40。
實(shí)驗(yàn)結(jié)果如表3所示。本文方法的遷移特征檢索結(jié)果mAP在0.8以上,與Resnet50_CBAM相比,采用全局池化時mAP提高了0.055,ANMMR降低了0.044;采用級聯(lián)池化對特征進(jìn)行處理以后,mAP達(dá)到了0.827,ANMRR降低至0.138。
將本文方法與幾種較新的基于內(nèi)容的遙感圖像檢索方法進(jìn)行比較,由于注意力機(jī)制在遙感圖像檢索領(lǐng)域應(yīng)用較少,因此本文還選擇了其他較新的遙感圖像檢索方法進(jìn)行比較。
表4顯示了在UC Merced數(shù)據(jù)集和AID數(shù)據(jù)集上與其他方法進(jìn)行對比的結(jié)果,表中均用80%的數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為測試集。由表4可知,與同樣使用了注意力機(jī)制的方法相比,在UC Merced數(shù)據(jù)集中,本文方法比文獻(xiàn)[21]的mAP提高了0.084。在AID數(shù)據(jù)集中,本文方法比文獻(xiàn)[20]的mAP提高了0.14。與其他方法相比,本文注意力機(jī)制在UC Merced數(shù)據(jù)集與AID數(shù)據(jù)集中都有效提高了遙感圖像的檢索準(zhǔn)確率,取得了較優(yōu)的檢索結(jié)果。
表2 不同方法的平均檢索時間比較(ms)
表3 遷移特征的檢索結(jié)果
表4 與其他方法mAP的比較
本文提出一種基于多尺度池化和范數(shù)注意力機(jī)制的檢索方法。首先,在多尺度池化通道注意力模塊中,以不同尺寸對輸入特征圖進(jìn)行最大池化,得到多尺度的特征圖,再對不同尺寸的特征圖使用均值池化,得到尺寸統(tǒng)一的特征圖,并將這些特征圖逐像素相加,利用sigmoid函數(shù)生成特征的通道權(quán)重,與原始的輸入特征圖相乘,以此關(guān)注不同大小的目標(biāo)特征。然后,在范數(shù)空間注意力模塊中,輸入通道加權(quán)后的特征圖,以不同通道對應(yīng)相同位置的像素組成多組向量,計(jì)算向量組的L1范數(shù)和L2范數(shù)確定其在向量空間中的相對位置,通過對二者進(jìn)行卷積操作獲得顯著的空間信息,生成特征的空間權(quán)重,對特征圖進(jìn)行2次加權(quán)。最后,采用級聯(lián)池化處理高層特征圖,保留更多的有效信息。本文在3個廣泛使用的遙感圖像數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明,與現(xiàn)有的許多方法相比,本文方法可以很好地表達(dá)內(nèi)容復(fù)雜的遙感圖像,得到較好的檢索結(jié)果。