邊小勇,費(fèi)雄君,穆 楠
(1. 武漢科技大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,武漢430065; 2. 武漢科技大學(xué)大數(shù)據(jù)科學(xué)與工程研究院,武漢430065;3. 智能信息處理與實時工業(yè)系統(tǒng)湖北省重點(diǎn)實驗室(武漢科技大學(xué)),武漢430065)
(*通信作者電子郵箱xyongwh04@163.com)
近年來,隨著遙感圖像場景數(shù)據(jù)不斷涌現(xiàn),遙感圖像場景分類獲得了廣泛的關(guān)注。與此同時,受平移、視點(diǎn)、空間分辨率、旋轉(zhuǎn)、姿態(tài)、背景、多時相等多種變化的影響,類內(nèi)呈現(xiàn)大的多樣性和類間具有高的相似性[1],特別是新一代高分辨率遙感圖像同一地物內(nèi)像素光譜測度的一致性減弱,而不同地物間像素光譜測度的一致性增強(qiáng),使得遙感圖像場景分類問題依然面臨嚴(yán)重挑戰(zhàn)。此外,圖像場景分類對于對象檢測、圖像匹配和檢索、機(jī)器人避障等任務(wù)將發(fā)揮重要作用,因此,遙感圖像場景分類具有重要的理論研究意義和應(yīng)用前景。
近二十年來,遙感圖像場景分類主要利用傳統(tǒng)手工特征和特征編碼方法[2]。手工特征方法有局部二值模式(Local Binary Pattern,LBP)、方向梯度直方圖(Histogram of Oriented Gradients,HOG)、尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)等。特征編碼方法有視覺詞袋法(Bag-Of-Visual-Words,BOVW)[3]、局部聚合向量描述符(Vector of Locally Aggregated Descriptors,VLAD)[4]、FV(Fisher Vector)等[5]。以上方法提取的都是圖像的低中層特征,雖然這些特征具有旋轉(zhuǎn)不變性、對噪聲容忍度高等特點(diǎn),但這些方法存在繁瑣的參數(shù)調(diào)整且人工經(jīng)驗使得模型是次優(yōu)的。為了更好地利用這些特征,出現(xiàn)了基于以上方法的若干改進(jìn)做法。其中,Bian 等[6] 提 出 了 salM3LBP (saliency-based Multiscale Multiresolution Multistructure Local Binary Pattern)特征和CLM(CodebookLess Model)特征融合的高分辨率圖像場景分類方法,在AID(Aerial Image Dataset)數(shù)據(jù)集上的分類準(zhǔn)確率達(dá)到89.76%。Huang 等[7]將深度學(xué)習(xí)與特征編碼方法相結(jié)合,提出了基于改進(jìn)的LBP 方法、預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)特征提取器和FV 編碼的高分辨率圖像場景分類方法。以上方法在特征提取和特征區(qū)分性等方面仍有一定的局限性,模型的分類準(zhǔn)確率和泛化能力仍然有很大的提升空間。
最近,深度學(xué)習(xí)方法在計算機(jī)視覺領(lǐng)域發(fā)展迅速,出現(xiàn)了一些經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型[8-10]以及基于CNN 改進(jìn)的網(wǎng)絡(luò)模型,這些模型與傳統(tǒng)手工特征和特征編碼方法相比,具有更強(qiáng)的特征提取能力和模型泛化能力。其中,He等[11]針對層數(shù)過深的CNN模型難以訓(xùn)練的問題提出ResNet(Residual Network),在ImageNet 數(shù)據(jù)集上取得了更好的分類結(jié)果。Zhou 等[12]針對圖像的旋轉(zhuǎn)問 題 提 出ARFs(Active Rotating Filters)和ORN(Oriented Response Network),在手寫數(shù)字圖像上取得了不錯的分類結(jié)果。Luan 等[13]針對圖像的旋轉(zhuǎn)和尺度問題提出GoFs(Gabor Orientation Filters)和GCN(Gabor Convolutional Network),在手寫數(shù)字圖像和ImageNet數(shù)據(jù)集上的實驗結(jié)果表明該方法的有效性。Woo等[14]基于注意力機(jī)制提出通道注意力模塊和空間注意力模塊,并將其嵌入到CNN 的不同層中,在ImageNet 數(shù)據(jù)集上驗證了該方法的有效性。
這些方法在以上數(shù)據(jù)集中均取得了不錯的分類效果,但沒有用于遙感圖像場景分類。隨著大規(guī)模遙感圖像場景數(shù)據(jù)集[15-16]的出現(xiàn),許多學(xué)者將已有模型根據(jù)遙感圖像場景數(shù)據(jù)集的特點(diǎn)進(jìn)行相應(yīng)的改進(jìn),以此得到更高的分類準(zhǔn)確率。此外,深度學(xué)習(xí)方法在遙感圖像場景分類領(lǐng)域也取得了不少進(jìn)展。其中,許夙暉等[17]利用CNN 提取圖像的多尺度特征,并使用多核支持向量機(jī)實現(xiàn)遙感圖像場景分類。Wang 等[18]基于ORN 提出IORN(Improved ORN)模型,用于遙感圖像場景分類,能夠提取到具有一定旋轉(zhuǎn)不變性的特征。Chen 等[19]受到空間變換網(wǎng)絡(luò)[20]的啟發(fā),提出循環(huán)變換網(wǎng)絡(luò)(Recurrent Transformer Network,RTN),能夠基于潛在關(guān)系學(xué)習(xí)到區(qū)域特征表示,發(fā)掘平移不變區(qū)域,提取圖像的關(guān)鍵信息,用于遙感圖 像 場 景 分 類。Wang 等[21]提 出ArcNet(Attention recurrent convolutional Network)模型,利用長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)生成循環(huán)注意力圖,并用注意力圖與CNN 高層特征加權(quán)的方法對遙感圖像場景數(shù)據(jù)集進(jìn)行分類,在AID 數(shù)據(jù)集上的分類準(zhǔn)確率相比salM3LBP-CLM 方法提高了3.34 個百分點(diǎn)。以上方法雖然在遙感圖像場景分類取得了不俗的分類效果,但是,這些方法在提取特征時平等對待每個像素,模型的特征區(qū)分能力仍顯不足。
本文在以前工作[22-23]的基礎(chǔ)上,受Wang等[24]在圖像匹配任務(wù)上所做工作的啟發(fā),提出了一種基于注意力機(jī)制和多尺度特征變換的尺度注意力網(wǎng)絡(luò)模型,并將其應(yīng)用于遙感圖像場景分類。不同于RTN 中利用圖像的空間域信息,對圖像作相應(yīng)的空間變換,提取關(guān)鍵信息的方法,本文在殘差網(wǎng)絡(luò)的卷積層后嵌入注意力圖來加權(quán)CNN 特征圖,增強(qiáng)主要特征,抑制次要特征,從而提取特征圖中的關(guān)鍵信息。主要工作如下:1)提出了一種基于最優(yōu)特征選擇的注意力圖生成方法,簡單、快速而有效;2)嵌入注意力圖加權(quán)圖像低中高層特征的變換,緩解了遙感圖像場景存在多個小對象和背景復(fù)雜的分類問題;3)基于ResNet50 網(wǎng)絡(luò)結(jié)構(gòu)和多尺度特征變換構(gòu)建了尺度注意力網(wǎng)絡(luò)。
本文提出了一種基于注意力機(jī)制和多尺度特征變換的尺度注意力網(wǎng)絡(luò)模型。首先研究了基于超像素擴(kuò)展的注意力圖生成方法,然后將不同尺度注意力圖嵌入基于ResNet50 的殘差網(wǎng)絡(luò)依次進(jìn)行學(xué)習(xí),最后提取深度注意力特征進(jìn)行分類。其中,注意力模型能夠捕獲場景中主要對象的顯著性信息,而嵌入注意力圖的殘差網(wǎng)絡(luò)有助于提取場景主要對象的特征信息。圖1 說明了本文方法的原理,(a)為注意力圖加權(quán)后的4個位置的卷積特征圖,(b)是相應(yīng)位置沒有注意力加權(quán)的卷積特征圖,所示圖像均為特征圖的第一個通道。從卷積層2_x輸出特征圖(圖1 第1 列)和卷積層5_x輸出特征圖(圖1 第4列)對比中可以看出,嵌入注意力圖層層加權(quán)特征圖的方法,能夠突出對象信息,增加特征可區(qū)分性,因此所提方法具有更好的特征提取能力?;谝陨戏治觯疚奶岢龅姆椒傮w框架如圖2所示。
圖1 特征加權(quán)前后對比Fig.1 Feature comparison before and after weighting
圖2 總體框架Fig.2 Overall framework
本文提出的注意力圖生成過程如圖3 所示,包括超像素分割、注意力特征提取及篩選、初始注意力圖生成以及注意力圖優(yōu)化。超像素分割是將輸入圖像細(xì)分為多個子區(qū)域的過程,該方法使用SLIC(Simple Linear Iterative Clustering)算法[25]對圖像進(jìn)行超像素分割,能夠保留對象結(jié)構(gòu)信息并利用原始圖像的中層信息,分割后的超像素可以表示為{si}(i=1,2,…,N)。在獲得超像素后,從中提取包括顏色特征、紋理特征、方向特征和梯度特征在內(nèi)的12 個低層特征,并計算這些特征的一維熵,選擇一維熵值較大的9 個最優(yōu)特征,表示為{Fm}(m= 1,2,…,9),一維熵計算公式:
其中PI表示特征中灰度值為I的像素比例。得到最優(yōu)特征后,計算超像素的顯著性分?jǐn)?shù),生成初始注意力圖S0,顯著性分?jǐn)?shù)Sal(si)根據(jù)全局區(qū)域?qū)Ρ榷群涂臻g關(guān)系計算,即:
其中,c(si)由以下公式計算:
式(2)、(3)、(4)中:Fm(si)表示超像素si對應(yīng)的第m個 特 征;c(si)為 超 像 素 的 坐 標(biāo)(xi,yi)與 圖 像 中 心 坐 標(biāo)(x′,y′)之 間 的 距 離;vx、vy是 由 圖 像 的 水 平 和 垂 直 信 息 決定的變量;[l a b]表示CIELAB 顏色空間像素的3 個顏色分量;(xi,yi)、(xj,yj)分別表示超像素si、sj的空間坐標(biāo);Z為相鄰超像素的空間距離;β為常數(shù),取值范圍[1,40];dis(si,sj)表示超像素之間的顏色-空間加權(quán)距離。
圖3 注意力圖生成Fig.3 Attention map generation
由于初始注意力圖還不足以有效地區(qū)分圖像的對象和背景區(qū)域,需要對初始注意力圖進(jìn)行優(yōu)化。本方法使用最大類間方差法,根據(jù)設(shè)定的閾值將S0分割為顯著和非顯著區(qū)域,即圖像的前景種子(Foreground Seed,F(xiàn)S)和背景種子(Background Seed,BS),并重新計算超像素的顯著性分?jǐn)?shù)Sal′(si),計算公式為:
其中:SalFS(·)和SalBS(·)分別表示FS 和BS 的顯著性分?jǐn)?shù),計算后得到新的注意力圖Sc,c=1。接下來,重新使用最大類間方差法獲取Sc的前景種子和背景種子,并通過式(5)計算下一次迭代后的注意力圖Sc+1。在迭代計算過程中,本方法定義了以下?lián)p失函數(shù)L(c)來確定迭代是否達(dá)到終止條件,即:
其中Sc表示第c次迭代后的注意力圖。
通過以上方法生成的注意力圖在尺度變換后可以直接嵌入到CNN中,與不同層的特征進(jìn)行加權(quán)(如圖4所示);與通過嵌入CNN 的并行模塊和通過空間變換突出圖像主要信息的注意力機(jī)制相比,網(wǎng)絡(luò)結(jié)構(gòu)修改小,不需要額外的計算和訓(xùn)練,同時不增加網(wǎng)絡(luò)模型的參數(shù)個數(shù),具有快速和有效的特點(diǎn)。
圖4 尺度注意力網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Scale-attention network structure
本文提出的尺度注意力網(wǎng)絡(luò)以ResNet50 為基礎(chǔ)設(shè)計,增加了多尺度圖像、注意力圖和多尺度特征融合層,并重新設(shè)計了全連接層,如圖4 所示,虛線框標(biāo)出的為本文方法改進(jìn)部分。首先,輸入層將源圖像進(jìn)行多尺度變換,得到多個不同尺度圖像,并對這些圖像進(jìn)行歸一化處理。由于輸入是k個尺度圖像,因此可以看作k個并列的分支網(wǎng)絡(luò),每一個分支對應(yīng)一個尺度圖像,各分支共享參數(shù),網(wǎng)絡(luò)配置與ResNet50 在卷積層1 到卷積層5_x的結(jié)構(gòu)相同。在每個分支網(wǎng)絡(luò)的卷積層i_x(i=2,3,4,5)后的位置(如圖4 所示)嵌入注意力圖。對圖像進(jìn)行歸一化處理能夠在使用隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)訓(xùn)練網(wǎng)絡(luò)時防止梯度消失和梯度爆炸問題。由于各分支的結(jié)構(gòu)相同,卷積核大小不變,不同尺度大小的輸入圖像經(jīng)過卷積和池化操作后得到的特征圖大小是不同的。為便于后續(xù)多尺度特征融合操作,本文在分支網(wǎng)絡(luò)的最后一層使用全局平均池化,將輸出特征圖維度大小統(tǒng)一到1×1×2 048。然后,在全局平均池化層后設(shè)置特征融合層串聯(lián)多個尺度圖像輸出的特征。由于原始ResNet50 僅有一個全連接層,沒有使用Dropout 策略來降低節(jié)點(diǎn)間的相互依賴性,為了避免模型過擬合,本文在尺度注意力網(wǎng)絡(luò)的最后設(shè)計了兩個全連接層,增加了一個Dropout層。最后,使用SoftMax 分類器得到預(yù)測的場景類別標(biāo)簽。
本文選用ResNet50 作為網(wǎng)絡(luò)基本結(jié)構(gòu)的原因在于,ResNet50 比使用卷積層堆疊的CNN,網(wǎng)絡(luò)層數(shù)更深,模型參數(shù)更少,特征提取能力更強(qiáng),其網(wǎng)絡(luò)配置如表1 所示。ResNet50 是由多個殘差模塊堆疊在一起構(gòu)成,與普通卷積層不同的是,殘差模塊通過一條直連通道,將輸入信息直接傳到輸出,緩解了CNN 在信息傳遞過程中存在信息丟失的問題,保護(hù)了信息的完整性,對存在多個小對象和背景復(fù)雜的場景圖像,其特征提取能力更強(qiáng)。構(gòu)成ResNet50 的每一個殘差模塊都是由卷積核大小分別為1×1、3×3、1×1的三個卷積層串聯(lián)在一起組成,結(jié)構(gòu)如圖5 所示,圖中Conv 表示卷積層,BN(Batch Normalization)表示批歸一化,ReLu(Rectified Linear Unit)表示線性整流函數(shù)。
表1 ResNet50的網(wǎng)絡(luò)配置Tab.1 Network configuration of ResNet50
尺度注意力網(wǎng)絡(luò)能夠通過在卷積層后嵌入注意力圖,提取低中高級特征中的關(guān)鍵信息,使得網(wǎng)絡(luò)提取的特征包含更多層次的對象信息,逐漸弱化背景復(fù)雜對網(wǎng)絡(luò)性能帶來的影響,從而提高模型的分類效果和泛化能力。
圖5 殘差模塊結(jié)構(gòu)Fig.5 Residual block structure
與傳統(tǒng)手工特征和特征編碼方法相比,卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢在于能夠通過端到端訓(xùn)練學(xué)習(xí)到判別性的深度特征表示。本文使用隨機(jī)梯度下降法(SGD)訓(xùn)練尺度注意力網(wǎng)絡(luò),訓(xùn)練過程可以分為前向傳播和反向傳播,每一次前向傳播和反向傳播為一次迭代過程,共同調(diào)整網(wǎng)絡(luò)參數(shù)。前向傳播的計算公式為:
其中:Xl為網(wǎng)絡(luò)第l層的輸出,wl為網(wǎng)絡(luò)第l層的權(quán)重值,bl為網(wǎng)絡(luò)第l層的偏置,f(·)為ReLU 激活函數(shù)。反向傳播的計算公式為:
其中:α表示學(xué)習(xí)率,L表示損失函數(shù),尺度注意力網(wǎng)絡(luò)使用的損失函數(shù)計算公式為:
其中:LCE為交叉熵?fù)p失函數(shù);C為樣本的類別數(shù);x為SoftMax層的輸出向量,形如[1,C];label為樣本對應(yīng)的實際標(biāo)簽;x[label]為樣本的實際標(biāo)簽對應(yīng)的預(yù)測概率值;x[i]為樣本屬于第i類的預(yù)測概率值。通過前向傳播預(yù)測輸入圖像的標(biāo)簽,并通過真實標(biāo)簽與預(yù)測標(biāo)簽計算當(dāng)前模型的損失函數(shù)值,判斷模型優(yōu)劣。然后,利用反向傳播算法更新網(wǎng)絡(luò)參數(shù)的方法,迭代訓(xùn)練網(wǎng)絡(luò)模型,縮小模型的預(yù)測值與真實標(biāo)簽之間的差距,最終使損失值保持在誤差許可的范圍,使得提取的特征能夠更好地表征遙感圖像場景數(shù)據(jù),提高模型的識別準(zhǔn)確率。
利用前述圖3、4 給出的算法處理流程,給定一個輸入圖像I,就可以獲得對應(yīng)的注意力圖S,然后通過微調(diào)后的尺度注意力網(wǎng)絡(luò)得到預(yù)測的場景類別標(biāo)簽。首先,對輸入圖像I進(jìn)行多尺度變換,獲得多個尺度圖像Ik,并作歸一化處理,即:
其中:μ、std分別表示輸入圖像的均值和標(biāo)準(zhǔn)差,Ik表示第k個尺度圖像。然后,提取不同尺度圖像的特征及融合,具體是嵌入注意力圖與多個卷積層輸出特征加權(quán)再作卷積,注意力圖與特征圖的加權(quán)可用以式(11)表示:
其中,F(xiàn)ki表示第k個尺度圖像,第i_x卷積層后(圖4)輸出的特征圖,i=2,3,4,5;S表示輸入圖像對應(yīng)的注意力圖;R(·)表示將圖像調(diào)整到與Fki同樣大小。接著,融合多尺度特征,并依次經(jīng)過全連接層、Dropout 層、全連接層和SoftMax 層,得到預(yù)測的場景類別標(biāo)簽。
本文方法在Linux系統(tǒng)下進(jìn)行實驗驗證,實驗環(huán)境是基于Linux 的Pytorch 機(jī)器學(xué)習(xí)框架,采用GPU 進(jìn)行加速訓(xùn)練,其型號為NVIDIA Tesla V100。
本文使用遙感圖像場景分類領(lǐng)域中的兩個大規(guī)模數(shù)據(jù)集AID[14] 和 NWPU-RESISC (NorthWestern Polytechnical University-Remote Sensing Image Classification)[15]來訓(xùn)練和測試尺度注意力網(wǎng)絡(luò)。兩個數(shù)據(jù)集的相關(guān)參數(shù)以及訓(xùn)練比例(訓(xùn)練集占樣本總數(shù)的比例)如表2 所示。實驗中使用的第一個數(shù)據(jù)集是AID 數(shù)據(jù)集,包含30 個類別,總共有10 000 張圖像。該場景數(shù)據(jù)集具有從大約8 m到0.5 m的不同分辨率,每個圖像的大小被固定為600×600 像素大小,以覆蓋各種不同分辨率的場景。第二個數(shù)據(jù)集是NWPU-RESISC 數(shù)據(jù)集,包含45 個類別。每類有700 幅圖像,每個圖像的大小被固定為256×256 像素大小,總共有31 500 張圖像,且空間分辨率從每像素約30 m到0.2 m不等。
表2 場景數(shù)據(jù)集Tab.2 Scene datasets
首先,將數(shù)據(jù)集輸入到注意力模塊中產(chǎn)生對應(yīng)的注意力圖;然后,將數(shù)據(jù)集按比例隨機(jī)劃分為訓(xùn)練集和測試集;接著,使用在ImageNet 圖像上訓(xùn)練的ResNet50 預(yù)訓(xùn)練模型初始化尺度注意力網(wǎng)絡(luò)參數(shù),并利用訓(xùn)練集和注意力圖微調(diào)網(wǎng)絡(luò);最后,利用微調(diào)后的尺度注意力網(wǎng)絡(luò)對測試集進(jìn)行分類預(yù)測,得到最終的分類結(jié)果。
在尺度選擇上,由于尺度大的圖像包含的信息更加豐富,細(xì)節(jié)部分更加清晰,能夠提供更細(xì)微的特征信息,同時增加了模型的計算量;而尺度小的圖像包含的信息不如大尺度圖像,同時尺度變換會丟失部分信息,如何選擇最優(yōu)尺度組合成為一個值得研究的問題。本文以224×224 圖像大小為基準(zhǔn),在選定的尺度0.7、1、1.4、2 中,即156×156、224×224、313×313、448×448 圖像大小,選用不同組合進(jìn)行交叉驗證,最終選取1、1.4,0.7、1、1.4 以及1、1.4、2 這三組尺度組合進(jìn)行實驗。模型的批處理大小為16,完全訓(xùn)練60 次后停止訓(xùn)練,確保網(wǎng)絡(luò)損失值基本平穩(wěn),保障得到的模型的可靠性。模型在以下設(shè)定下完成訓(xùn)練:1)使用SGD 優(yōu)化器,并設(shè)置初始學(xué)習(xí)率為0.002,動量為0.9,權(quán)值衰減為0.000 5,訓(xùn)練30 次后將學(xué)習(xí)率設(shè)置為0.001,Dropout 層節(jié)點(diǎn)隱藏率為0.5;2)使用交叉熵?fù)p失函數(shù)。最終的實驗結(jié)果為五次隨機(jī)劃分?jǐn)?shù)據(jù)集進(jìn)行實驗得到的平均準(zhǔn)確率。
表3、4 給出了本方法在兩種不同數(shù)據(jù)集上的平均分類準(zhǔn)確率,包含本方法以及幾種最新方法的結(jié)果。其中,CaffeNet結(jié)果源于本實驗中的實現(xiàn)。為簡化起見,表中及下文中的尺度1、2、3、4分別表示尺度0.7、1、1.4、2。
從實驗結(jié)果可以看出,本文方法(尺度2+3+4)與傳統(tǒng)手工特征提取方法salM3LBP-CLM 相比,在AID 數(shù)據(jù)集的不同訓(xùn)練比例下準(zhǔn)確率分別提高了5.61、5.96 個百分點(diǎn)。與經(jīng)典CNN 方法(ResNet50、CaffeNet、VGG-VD16、GoogleNet)中最好的準(zhǔn)確率相比,在不同訓(xùn)練集和不同訓(xùn)練比例下分類準(zhǔn)確率分別提高了0.47、0.96、0.90、1.01 個百分點(diǎn)。與現(xiàn)有的基于CNN 改進(jìn)的ArcNet 方法相比,在AID 數(shù)據(jù)集的不同訓(xùn)練比例下的準(zhǔn)確率提高了3.78、2.62 個百分點(diǎn)。與現(xiàn)有的基于CNN改進(jìn)的IORN4-VGG16 方法相比,在NWPU-RESISC 數(shù)據(jù)集的兩個不同訓(xùn)練比例下的準(zhǔn)確率分別提高了1.09、0.95 個百分點(diǎn)。
以上對比結(jié)果說明在網(wǎng)絡(luò)中嵌入不同尺度注意力圖加權(quán)再融合的方法能夠使得網(wǎng)絡(luò)提取的特征包含更多的對象信息,逐漸弱化復(fù)雜背景對網(wǎng)絡(luò)性能帶來的影響。
另外,本文方法在使用尺度2+3 進(jìn)行實驗時的分類準(zhǔn)確高于尺度1+2+3,而在使用尺度2+3+4進(jìn)行實驗時的分類準(zhǔn)確率略高于尺度2+3,出現(xiàn)這種結(jié)果可能是由于遙感圖像場景的高分辨率,使得對圖像進(jìn)行縮放時圖像的細(xì)節(jié)部分被削弱,相對于普通圖像丟失的信息更多,導(dǎo)致包含小尺度圖像(尺度1)的尺度組合分類準(zhǔn)確率有所下降。
表3 在AID場景數(shù)據(jù)集上的分類結(jié)果Tab.3 Classification results on scene dataset AID
表4 在NWPU-RESISC場景數(shù)據(jù)集上的分類結(jié)果Tab.4 Classification results on scene dataset NWPU-RESISC
本文提出了一種基于注意力圖和多尺度特征變換的尺度注意力網(wǎng)絡(luò)模型。尺度注意力網(wǎng)絡(luò)提出了一種簡單高效的注意力圖生成方法,獲得了包含語義對象權(quán)重信息的注意力圖。并嵌入注意力圖與低中高層特征進(jìn)行加權(quán),有效地提取出特征的重要信息,進(jìn)一步減小了圖像中許多小對象和復(fù)雜背景問題對分類的影響。同時,尺度注意力網(wǎng)絡(luò)以ResNet50 網(wǎng)絡(luò)為基礎(chǔ)構(gòu)建,增加了多尺度圖像、注意力圖和多尺度特征融合層,并重新設(shè)計了全連接層,即保留了殘差網(wǎng)絡(luò)很強(qiáng)的特征提取能力以及上下文信息抽象能力,因此,學(xué)習(xí)到了更具判別性的特征表示。最后,本文分別在兩個遙感圖像場景數(shù)據(jù)集上進(jìn)行實驗,表現(xiàn)出了比其他方法更高的分類準(zhǔn)確率,驗證了本文方法的有效性。