摘" 要:""""" 光學(xué)遙感圖像分類是對(duì)地觀測領(lǐng)域的關(guān)鍵技術(shù)之一。 近年來, 研究人員提出利用深度神經(jīng)網(wǎng)絡(luò)對(duì)光學(xué)遙感圖像進(jìn)行分類, 針對(duì)部分網(wǎng)絡(luò)模型存在特征提取不充分的問題, 本文提出了一種基于場景上下文感知和注意力增強(qiáng)的ScEfficientNet遙感圖像分類方法。 該方法設(shè)計(jì)了場景上下文信息感知模塊(SCDM)建模目標(biāo)及其周圍鄰域的空間關(guān)系, 利用場景上下文特征增強(qiáng)原始特征表示, 引入卷積塊注意力模塊(CBAM), 根據(jù)通道和空間的重要性對(duì)特征圖進(jìn)行加權(quán), 并結(jié)合深度可分離卷積結(jié)構(gòu)提取目標(biāo)判別性信息, 提出了ScMBConv卷積結(jié)構(gòu)。 在上述工作的基礎(chǔ)上, 利用基于場景上下文感知與注意力增強(qiáng)的ScEfficientNet網(wǎng)絡(luò)模型進(jìn)行遙感圖像分類識(shí)別。 實(shí)驗(yàn)結(jié)果表明, ScEfficientNet在AID數(shù)據(jù)集上實(shí)現(xiàn)了96.8%的分類準(zhǔn)確率, 較EfficientNet提升了3.3%, 參數(shù)量為5.55 M, 整體性能優(yōu)于VGGNet19、 GoogLeNet和ViT-B等圖像分類算法, 驗(yàn)證了ScEfficientNet網(wǎng)絡(luò)模型的有效性。
關(guān)鍵詞:"""" 圖像分類; 光學(xué)遙感圖像; 卷積神經(jīng)網(wǎng)絡(luò); EfficientNet
中圖分類號(hào):"""""" TJ760; V243.5
文獻(xiàn)標(biāo)識(shí)碼:""" A
文章編號(hào):"""" 1673-5048(2024)03-0094-07
DOI: 10.12132/ISSN.1673-5048.2023.0221
引用格式: 郭欣怡, 張科, 郭正玉, 等 ." 基于場景上下文感知的光學(xué)遙感圖像分類方法[ J]. 航空兵器, 2024, 31( 3): 94-100.
Guo Xinyi, Zhang Ke, Guo Zhengyu, et al. Optical Remote Sensing Image Classification Method Based on Scene Context Perception[ J]. Aero Weaponry, 2024, 31( 3): 94-100.( in Chinese)
0" 引" 言
隨著航空遙感技術(shù)的不斷發(fā)展和進(jìn)步, 獲取的圖像數(shù)據(jù)具有較高的分辨率和豐富的信息內(nèi)容, 如何對(duì)龐大而復(fù)雜的遙感圖像進(jìn)行準(zhǔn)確解析成為該領(lǐng)域的研究熱點(diǎn)。 作為遙感數(shù)據(jù)有效解譯的關(guān)鍵技術(shù), 遙感圖像分類對(duì)給定的遙感圖像進(jìn)行正確的語義分類標(biāo)識(shí)[1], 已廣泛應(yīng)用于自然災(zāi)害探測[2]、 土地資源管理[3]等眾多領(lǐng)域。 由于光學(xué)遙感圖像數(shù)據(jù)具有多尺度、 高分辨率以及復(fù)雜的空間和背景分布[4]等特點(diǎn), 實(shí)現(xiàn)遙感圖像的精確分類難度較高。 為此, 研究人員提出了各種理論框架和方法。
近年來, 由于深度學(xué)習(xí)理論的進(jìn)步以及并行計(jì)算資源的增加, 基于深度學(xué)習(xí)的圖像分類算法不斷推陳出新, 取得了眾多突破[5], 因此, 研究人員也將深度學(xué)習(xí)模型引入遙感圖像分類領(lǐng)域。 其中, 具有代表性的算法是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)及其改進(jìn)網(wǎng)絡(luò), 例如VGGNet[6]、 GoogLeNet[7]、 ResNet[8]等網(wǎng)絡(luò)模型。 從近年來的研究成果可以看出, 神經(jīng)網(wǎng)絡(luò)架構(gòu)演變的趨勢是向更深的方向發(fā)展: AlexNet[9]網(wǎng)絡(luò)有8層, VGGNet網(wǎng)絡(luò)有16層, ResNet101超過了100層。 這些研究工作表明, 增加網(wǎng)絡(luò)深度可有效提高網(wǎng)絡(luò)性能。 與此同時(shí), 早期基于深度學(xué)習(xí)的圖像分類網(wǎng)絡(luò)(如VGGNet)盡管深度只有幾層, 卻包含大量參數(shù), 其中大部分參數(shù)來自全連接層。 而近年來提出的網(wǎng)絡(luò)結(jié)構(gòu)雖然層數(shù)更多, 但此類模型因?yàn)楸苊馐褂萌B接層而減少了參數(shù)量。 例如, GoogLeNet使用Inception模塊代替全連接層, 相比使用全連接層的VGGNet來說, 極大地降低了參數(shù)量。
隨著網(wǎng)絡(luò)模型層數(shù)逐漸加深, 網(wǎng)絡(luò)計(jì)算量急劇增加, 訓(xùn)練時(shí)對(duì)計(jì)算資源的要求越來越高。 為了降低計(jì)算開銷, 研究人員開始對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行輕量化設(shè)計(jì), 如Mobile-Net[10]、 ShuffleNet[11]。 隨后, 通過借鑒MobileNet中深度可分離卷積結(jié)構(gòu), 研究人員結(jié)合模型復(fù)合縮放方法提出了EfficientNet[12]網(wǎng)絡(luò)模型。 該網(wǎng)絡(luò)模型的性能在圖像分類領(lǐng)域遠(yuǎn)超其他大部分網(wǎng)絡(luò)模型, 并在遙感圖像分類任務(wù)中實(shí)現(xiàn)了較高的分類準(zhǔn)確率。" 文獻(xiàn)[13]在EfficientNet高效網(wǎng)絡(luò)中引入帶動(dòng)量的梯度下降算法, 充分考慮歷史
梯度的影響, 改善了神經(jīng)網(wǎng)絡(luò)對(duì)滑坡遙感圖像的識(shí)別效果; 文獻(xiàn)[14]提出將微調(diào)后的EfficientNet-B0和Effi-
收稿日期: 2023-11-16
基金項(xiàng)目: 國家自然科學(xué)基金項(xiàng)目(62106200); 航空科學(xué)基金項(xiàng)目(20220001053002)
作者簡介: 郭欣怡(1999-), 女, 陜西西安人, 碩士研究生。
*通信作者:" 蘇雨(1990-), 男, 陜西西安人, 博士, 助理研究員。
cientNet-B7模型作為特征提取器并進(jìn)行特征融合, 取得了較好的分類效果; 文獻(xiàn)[15]基于預(yù)先訓(xùn)練好的帶有注意力機(jī)制的EfficientNet-B3網(wǎng)絡(luò)模型, 提出了Efficient-Net-B3-Attn分類方法, 將專用分支添加到網(wǎng)絡(luò)的第262層以計(jì)算所需的權(quán)重。 對(duì)于光學(xué)遙感圖像數(shù)據(jù), 文獻(xiàn)[16]提出遷移學(xué)習(xí)與微調(diào)策略, 利用預(yù)訓(xùn)練的EfficientNet網(wǎng)絡(luò)來提高遙感圖像處理的性能。
航空兵器" 2024年第31卷第3期
郭欣怡, 等: 基于場景上下文感知的光學(xué)遙感圖像分類方法
然而, CNN通常受限于只能獲取局部感受野, Transformer則可以捕捉全局特征, 因此, Transformer模型在視覺領(lǐng)域逐漸流行起來。 Transformer使用多頭注意力和位置嵌入建模不同單詞之間的關(guān)系信息, 顯著提高了模型性能。 Dosovitskiy等[17]提出了Vision Transformer (ViT), 將圖像分割為不同的圖塊(patch), 然后使用Transformer架構(gòu)處理圖塊, 將傳統(tǒng)的卷積結(jié)構(gòu)替換為自注意力機(jī)制。 文獻(xiàn)[18]在ViT的基礎(chǔ)上加入滑窗的思想, 提出了Swin-Transformer, 在不重疊的局部窗口上計(jì)算自注意力, 有效地建模局部信息和全局信息。 文獻(xiàn)[19]通過在MobileNet中嵌入Transformer構(gòu)建輕量化網(wǎng)絡(luò)MobileViT, 融合了CNN的高效性能和Transformer的全局感知力。 ParC-Net[20]設(shè)計(jì)了一種輕量化的循環(huán)卷積, 能夠提取全局特征, 還能產(chǎn)生與局部卷積一樣的位置敏感特征。 然而, 針對(duì)圖像類別多樣、 背景復(fù)雜的光學(xué)遙感數(shù)據(jù)集, 上述方法在進(jìn)行分類識(shí)別時(shí)網(wǎng)絡(luò)模型對(duì)特征的提取不夠充分, 泛化能力不強(qiáng), 因此識(shí)別精度有待進(jìn)一步提高。
針對(duì)上述問題, 本文基于EfficientNet-B0網(wǎng)絡(luò)提出了場景上下文信息感知模塊, 增強(qiáng)目標(biāo)感受野, 加強(qiáng)網(wǎng)絡(luò)對(duì)場景信息的感知能力, 并與局部特征融合以提取更有效的特征; 引入CBAM卷積注意力模塊對(duì)MBConv模塊進(jìn)行改進(jìn), 該模塊在考慮通道之間信息編碼的同時(shí)加強(qiáng)對(duì)遙感圖像空間信息的學(xué)習(xí), 有效提高網(wǎng)絡(luò)對(duì)判別性信息的提取能力。 此外, 使用小尺寸深度可分離卷積以減少模型參數(shù)量, 降低計(jì)算開銷。
1" EfficientNet概述
經(jīng)典的神經(jīng)網(wǎng)絡(luò)一般通過分別改變網(wǎng)絡(luò)深度、 特征通道寬度、 輸入圖像分辨率的方式提升網(wǎng)絡(luò)性能。 與專注于單一維度優(yōu)化的網(wǎng)絡(luò)不同, EfficientNet網(wǎng)絡(luò)基于模型復(fù)合縮放思想, 尋找合適的縮放系數(shù)統(tǒng)一對(duì)網(wǎng)絡(luò)深度、 寬度和分辨率進(jìn)行調(diào)整。 相比于其他模型, EfficientNet在有限的計(jì)算資源下, 可以獲得更好的性能提高。
1.1" 模型復(fù)合縮放方法
EfficientNet網(wǎng)絡(luò)是一種基于模型復(fù)合縮放方法的新型神經(jīng)網(wǎng)絡(luò)架構(gòu), 整體結(jié)構(gòu)通常被劃分為多個(gè)階段, 每個(gè)階段中的卷積層具有相似的架構(gòu)。 若用函數(shù)fi定義卷積操作, 卷積層可表示為
y=fk⊙…⊙f2⊙f1(X1)(1)
整體網(wǎng)絡(luò)框架可表示為
Y=⊙i = 1, …, n" fiLi(X(Hi, Wi, Ci))(2)
式中: ⊙代表連乘運(yùn)算, 表示在第i個(gè)階段中fi卷積操作被重復(fù)執(zhí)行Li次; X表示輸入特征矩陣; Hi, Wi, Ci分別代表X的高度、 寬度、 特征通道數(shù)。 在網(wǎng)絡(luò)參數(shù)和計(jì)算量滿足要求的情況下, 對(duì)網(wǎng)絡(luò)深度、 特征通道寬度和圖像輸入分辨率三個(gè)影響因素進(jìn)行優(yōu)化, 得到優(yōu)化問題:
maxd, w, β Accuracy(Y(d, w, β))
s.t." Y(d, w, β) = ⊙i = 1, …, nfid·Li(X(β·Hi, β·Wi, w·Ci))(3)
式中: d表示網(wǎng)絡(luò)深度; w表示特征通道寬度; β表示輸入分辨率; fi, Li, Hi, Wi, Ci是網(wǎng)絡(luò)中預(yù)定義的參數(shù)。
經(jīng)過驗(yàn)證, 研究人員發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)獲得更高精度和效率的關(guān)鍵是平衡網(wǎng)絡(luò)深度、 特征通道寬度和圖像輸入分辨率三個(gè)維度, 因此提出了一種規(guī)范化的復(fù)合縮放方法, 按照式(4)使用復(fù)合縮放系數(shù)φ來調(diào)整三個(gè)參數(shù)的縮放倍率, 即
D=dφ, W=wφ, R=βφ
s.t. d·w2·β2≈2
d≥1, w≥1, β≥1(4)
式中: d," w," β都是常數(shù)。
1.2" EfficientNet網(wǎng)絡(luò)模型
EfficientNet網(wǎng)絡(luò)模型的主要組成部分是倒置瓶頸卷積模塊(Mobile Inverted Bottleneck Convolution, MBConv)。 該模塊的核心是深度可分離卷積, 它由多個(gè)深度卷積層(Depthwise Convolution)和逐點(diǎn)卷積層(Pointwise Convolution)順序連接組成。 此外, 該模塊還從MobileNetV2[21]中借鑒了反向殘差連接和線性瓶頸的方法。
EfficientNet網(wǎng)絡(luò)模型使用Swish激活函數(shù)代替ReLU激活函數(shù)。 Swish函數(shù)無上界, 有下界, 是一個(gè)更流暢、 更平滑的激活函數(shù), 在形狀上類似于ReLU和LeakyReLU函數(shù), 但是在深層模型上表現(xiàn)更好。 Swish激活函數(shù)的公式如下:
f(x)=xsigmoid(μx)(5)
式中: μ為常數(shù)或可訓(xùn)練的參數(shù)。
對(duì)于EfficientNet網(wǎng)絡(luò)結(jié)構(gòu)的確定, 首先基于神經(jīng)架構(gòu)搜索(Neural Architecture Search," NAS)[22]技術(shù), 搜索分辨率、 網(wǎng)絡(luò)深度和網(wǎng)絡(luò)寬度三個(gè)參數(shù)的最優(yōu)配置, 提出一個(gè)高效的EfficientNet-B0基線網(wǎng)絡(luò)。 之后結(jié)合復(fù)合縮放方法對(duì)該基線網(wǎng)絡(luò)進(jìn)行擴(kuò)展, 通過調(diào)整縮放系數(shù)φ按比例擴(kuò)大分辨率、 寬度和深度三個(gè)維度, 得到Efficient-Net-B0到EfficientNet-B7系列網(wǎng)絡(luò)。 由于EfficientNet-B0計(jì)算量更小、 推理速度更快, 本文以EfficientNet-B0為基本網(wǎng)絡(luò)進(jìn)行改進(jìn), 提出了ScEfficientNet。
2" ScEfficientNet網(wǎng)絡(luò)模型
2.1" ScEfficientNet模型架構(gòu)
光學(xué)遙感數(shù)據(jù)集通常不是復(fù)雜的百萬級(jí)別數(shù)據(jù)集, 用復(fù)雜網(wǎng)絡(luò)學(xué)習(xí)可能造成過擬合現(xiàn)象。 EfficientNet模型以MBConv結(jié)構(gòu)為主, 得益于高效的深度可分離卷積層, 能夠有效提取圖像的局部特征。 而遙感圖像背景復(fù)雜, 建模全局場景上下文信息可以幫助網(wǎng)絡(luò)更精準(zhǔn)地捕捉目標(biāo)特征。 因此, 本文提出一個(gè)場景上下文信息感知模塊(Scene Context-Driven Module," SCDM)以建模目標(biāo)及其周圍鄰域的空間關(guān)系, 同時(shí)引入卷積塊注意力模塊[23](Convolutional Block Attention Module," CBAM)根據(jù)通道和空間位置的重要程度對(duì)特征圖進(jìn)行加權(quán), 增強(qiáng)網(wǎng)絡(luò)對(duì)圖像中重要信息的關(guān)注度。 此外, 使用3×3小尺寸深度可分離卷積核對(duì)EfficientNet結(jié)構(gòu)進(jìn)行簡化。 在網(wǎng)絡(luò)核心架構(gòu)的基礎(chǔ)上, 提出了場景信息增強(qiáng)的ScEfficientNet網(wǎng)絡(luò)模型, 以進(jìn)一步提升遙感圖像分類模型的準(zhǔn)確性。 結(jié)構(gòu)框架如表1所示。
ScEfficientNet網(wǎng)絡(luò)模型由16個(gè)MBConv模塊、 2個(gè)卷積層和1個(gè)分類層構(gòu)成, 本文將其劃分為10個(gè)階段。 第一階段進(jìn)行卷積核尺寸為3×3、 步長為2的普通卷積操作。 經(jīng)過批標(biāo)準(zhǔn)化和Swish激活函數(shù)之后, 第二階段至第八階段重復(fù)堆疊改進(jìn)的ScMBConv結(jié)構(gòu), ScMBConv模塊包括3×3深度可分離卷積層、 SCDM場景上下文感知模塊、 CBAM注意力模塊、 隨機(jī)丟棄層(Dropout)以及殘差結(jié)構(gòu)。 最后在第九、 十階段, 特征圖通過一個(gè)具有升維作用的1×1卷積層, 后接歸一化層和Swish激活函數(shù), 接著通過平均池化層和全連接層輸出最終的分類結(jié)果。 具體地, 在ScEfficientNet網(wǎng)絡(luò)的ScMBConv卷積模塊中, ScMBConv1或ScMBConv6代表通道倍率因子大??; 3×3卷積核表示模塊中深度可分離卷積用的卷積核大小, 各階段ScMBConv模塊的個(gè)數(shù)與EfficientNet保持一致。 ScEfficientNet網(wǎng)絡(luò)和ScMBConv卷積模塊結(jié)構(gòu)如圖1所示。
2.2" 場景上下文信息感知模塊
EfficientNet通過倒置瓶頸卷積結(jié)構(gòu)不斷提取圖像的局部特征, 但該網(wǎng)絡(luò)沒有關(guān)注到周圍場景對(duì)特征提取的影響, 在圖像識(shí)別過程中, 對(duì)象的上下文信息沒有得到充分利用, 導(dǎo)致在某些場景下識(shí)別精度較低。 事實(shí)上, 遙感圖像中地物的類型通常與其所在的場景密切相關(guān), 例如, 船只通常出現(xiàn)在海上, 車輛出現(xiàn)在道路上的可能性最高。 因此, 本文利用場景上下文信息輔助識(shí)別, 提出將場景上下文信息感知模塊(Scene" Context-Driven" Module,"" SCDM)添加到ScMBConv卷積結(jié)構(gòu)中, 以建模目標(biāo)及其周圍鄰域的空間關(guān)系, 擴(kuò)大目標(biāo)感受野, 有利于網(wǎng)絡(luò)對(duì)不同地物目標(biāo)的分類識(shí)別。 SCDM結(jié)構(gòu)如圖2所示。
為了增強(qiáng)網(wǎng)絡(luò)對(duì)場景信息的感知與特征提取能力, SCDM模塊采用膨脹系數(shù)為3的空洞卷積來擴(kuò)大感受野, 得到的特征映射通過歸一化操作, 并由Swish非線性函數(shù)激活。 最后, 使用常規(guī)的3×3卷積濾波和Swish函數(shù)激活, 進(jìn)一步提取更具區(qū)分性的特征。 此外, 還采用了常規(guī)3×3卷積和批歸一化的捷徑連接, 融合局部特征與場景特征, 同時(shí)幫助緩解梯度消失問題, 更有利于訓(xùn)練。
空洞卷積[24]最初是為了解決在語義分割中下采樣會(huì)降低圖像分辨率和遺漏信息的問題, 其主要思想是在卷積核的像素之間插入“空洞”以提高圖像分辨率, 從而在CNN中實(shí)現(xiàn)密集特征提取。 一維的空洞卷積定義為
g[i]=∑Ll=1f[i+r·l]h[l](6)
式中: g[i]表示輸出信號(hào); f[i]表示輸入;" h[l]表示長度為l的濾波器; r是對(duì)應(yīng)于用來采樣f[i]的空洞率, 在標(biāo)準(zhǔn)卷積中r=1。
通過在卷積核中的每個(gè)像素之間插入“空洞”構(gòu)建二維空洞卷積。 對(duì)于大小為k×k的卷積核, 得到的空洞濾波器的大小為kd×kd, 其中kd=k+(k-1)·(r-1)。 “空洞”的值越大, 卷積的感受野也就越大, 但是感受野并不是越大越好, 過大時(shí)對(duì)遙感圖像中的小目標(biāo)不利, 應(yīng)適當(dāng)選取。 因此, SCDM使用r=3的空洞卷積來增加感受野, 實(shí)現(xiàn)目標(biāo)周圍場景上下文特征的提取。
2.3" CBAM注意力模塊
CBAM注意力機(jī)制的思想是同時(shí)使用通道注意力和空間注意力模塊, 在通道域中主要學(xué)習(xí)特征重要性, 在空間域中重點(diǎn)關(guān)注細(xì)節(jié)信息, 如圖3所示。 給定一個(gè)原始輸入特征F∈RC×H×W, 經(jīng)過一維通道注意力機(jī)制Mc∈RC×1×1后得到注意力權(quán)重Mc(F), 經(jīng)過二維空間注意力機(jī)制Ms∈R1×H×W后得到注意力權(quán)重Ms(F′), 整個(gè)注意過程可概括為
F′=Mc(F)F
F″=Ms(F′)F′(7)
對(duì)于通道注意力模塊(CAM), 首先采用全局平均池化和最大池化, 生成兩種不同的描述符: Fcavg和Fcmax分別表示平均池化特征和最大池化特征, 再經(jīng)過共享全連接網(wǎng)絡(luò)MLP, 得到通道注意力特征Mc∈RC×1×1。 為了減少參數(shù), 將特征大小設(shè)置為RC/α×1×1, 其中α為縮減比。 之后將輸出特征相加后通過全連接層和激活函數(shù)得到通道注意力權(quán)重, 最后與原始特征圖相乘完成重標(biāo)定操作。 通道注意力偽代碼如下:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))=σ(W1(W0(Fcavg))+W1(W0(Fcmax)))(8)
式中: σ表示激活函數(shù)sigmoid, W0∈RC/α×C, W1∈RC×C/α, 這兩個(gè)MLP權(quán)重對(duì)輸入是共享的。 通道注意力模塊結(jié)構(gòu)如圖4所示。
對(duì)于空間注意力模塊(SAM), 首先是基于通道的平均池化和最大池化操作, 并將它們連接在一起得到兩個(gè)二維特征圖: Fsavg∈R1×H×W和Fsmax∈R1×H×W, 合并后再通過一個(gè)卷積層生成空間注意圖Ms(F)∈RH×W," 之后的步驟和CAM相似, 通道注意力偽代碼如下:
Ms(F)=σ(f7×7([AvgPool(F); MaxPool(F)]))=σ(f7×7([Fsavg; Fsmax]))(9)
式中: σ表示激活函數(shù)sigmoid; f7×7表示卷積核大小為7×7的卷積運(yùn)算。 空間注意力模塊的結(jié)構(gòu)如圖5所示。
2.4" ScMBConv卷積模塊
為了提高遙感圖像的分類識(shí)別準(zhǔn)確率, 本文引入SCDM場景上下文信息感知模塊和CBAM注意力模塊提取圖像中的關(guān)鍵特征, 但是復(fù)雜的卷積操作使得模型參數(shù)量增加較多。 因此, 本文對(duì)ScMBConv卷積模塊中深度可分離卷積結(jié)構(gòu)的卷積核大小選取進(jìn)行探索, 以達(dá)到降低計(jì)算開銷、 提高參數(shù)效率的目的。 EfficientNet網(wǎng)絡(luò)模型中的深度可分離卷積核尺寸包括5×5和3×3, 但使用更小的卷積核是當(dāng)前在保證模型精度的前提下, 減少參數(shù)的主要方式之一。 例如VGG16使用了2個(gè)3×3卷積核代替5×5卷積核, 表明使用多個(gè)小尺寸卷積核代替大尺寸卷積核能夠?qū)崿F(xiàn)更少的參數(shù)和計(jì)算量, 并且在一定程度上提升了網(wǎng)絡(luò)訓(xùn)練的準(zhǔn)確率和效率。 經(jīng)過實(shí)驗(yàn)驗(yàn)證, 盡可能多地使用3×3卷積核對(duì)分類結(jié)果更有幫助。 因此, 在ScEfficientNet網(wǎng)絡(luò)中, ScMBConv模塊的深度可分離卷積層中卷積核全部使用3×3小尺寸, 以減少參數(shù)和計(jì)算開銷。
ScMBConv模塊結(jié)構(gòu)見圖1。 輸入特征圖首先經(jīng)過用于擴(kuò)大通道維數(shù)的擴(kuò)張卷積層, 然后由場景上下文感知模塊提取更多的場景特征, 之后通過深度可分離卷積結(jié)構(gòu)進(jìn)一步融合提取有用信息, 并利用卷積注意力機(jī)制模塊根據(jù)通道和空間的重要性對(duì)特征圖進(jìn)行加權(quán), 從而提高模型對(duì)重要信息的關(guān)注度, 改善模型的性能。 之后添加隨機(jī)丟棄層, 在網(wǎng)絡(luò)前向傳播過程中以一定的概率使神經(jīng)元停止工作, 以避免過擬合現(xiàn)象、 加強(qiáng)模型的泛化性, 最后使用捷徑連接分支緩解梯度消失問題, 有利于網(wǎng)絡(luò)訓(xùn)練。
3" 基于ScEfficientNet的遙感圖像分類實(shí)驗(yàn)
3.1" 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)
3.1.1" 數(shù)據(jù)集和預(yù)處理
本文在光學(xué)遙感圖像數(shù)據(jù)集AID上進(jìn)行遙感圖像的分類識(shí)別實(shí)驗(yàn)。 AID數(shù)據(jù)集包含30個(gè)類別的場景圖像, 每個(gè)類別約220~420張, 共有10 000張遙感圖像, 其中每張像素大小約為600×600, 如圖6所示。 在訓(xùn)練過程中, 隨機(jī)選取8 000張作為訓(xùn)練集, 2 000張作為測試集, 并進(jìn)行數(shù)據(jù)增強(qiáng)操作, 包括隨機(jī)裁剪、 縮放到指定大小、 隨機(jī)水平旋轉(zhuǎn)、 歸一化等, 用于減少過擬合, 確保訓(xùn)練結(jié)果的準(zhǔn)確度和有效性。
3.1.2" 評(píng)價(jià)指標(biāo)
(1) 混淆矩陣
混淆矩陣是評(píng)判模型結(jié)構(gòu)的指標(biāo), 用于分析不同類別之間的所有錯(cuò)誤, 它是通過對(duì)測試樣本每種類型的正確和錯(cuò)誤分類進(jìn)行計(jì)數(shù)并將結(jié)果累加到表中生成的。 縱坐標(biāo)是預(yù)測類別, 橫坐標(biāo)是真實(shí)類別; 每一列對(duì)應(yīng)屬于該類的所有驗(yàn)證樣本, 每一行對(duì)應(yīng)預(yù)測屬于該類的所有樣本; 對(duì)角線代表正確預(yù)測的樣本個(gè)數(shù), 是主要關(guān)注的信息。 以二分類為例, 混淆矩陣相關(guān)定義如表2所示。
(2) 準(zhǔn)確率
本文選擇準(zhǔn)確率作為評(píng)價(jià)指標(biāo), 該指標(biāo)被廣泛用于評(píng)價(jià)圖像分類任務(wù)的性能。 準(zhǔn)確率(ACC)表示正確分類的樣本數(shù)占所有樣本數(shù)的比例。 通過對(duì)混淆矩陣做進(jìn)一步處理, 可以得到準(zhǔn)確率計(jì)算公式:
ACC=TP+TNTP+FP+TN+FN(10)
3.2" 實(shí)驗(yàn)設(shè)置
本文所有的訓(xùn)練和測試實(shí)驗(yàn)均基于pytorch深度學(xué)習(xí)框架, 在RTX GPU硬件平臺(tái)上進(jìn)行。 由于平臺(tái)的內(nèi)存限制, 模型以32幅圖像為訓(xùn)練批次進(jìn)行訓(xùn)練; 使用SGD優(yōu)化器, 權(quán)重衰減設(shè)置為1×10-4, 動(dòng)量設(shè)置為0.9, 初始學(xué)習(xí)率從0.01開始, 共訓(xùn)練100個(gè)輪次; 隨機(jī)丟棄比率設(shè)置為0.2。 實(shí)驗(yàn)過程基于遷移學(xué)習(xí)載入在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的權(quán)重, 采用反向傳播算法端到端進(jìn)行網(wǎng)絡(luò)參數(shù)訓(xùn)練, 最后根據(jù)準(zhǔn)確率評(píng)估結(jié)果。
3.3" 實(shí)驗(yàn)結(jié)果與分析
為檢驗(yàn)ScEfficientNet神經(jīng)網(wǎng)絡(luò)模型在遙感圖像分類識(shí)別領(lǐng)域的有效性, 所有實(shí)驗(yàn)均基于預(yù)訓(xùn)練模型遷移學(xué)習(xí), 在AID數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試, 實(shí)驗(yàn)結(jié)果如表3所示。 雖然原始網(wǎng)絡(luò)EfficientNet在參數(shù)量和FLOPs方面低于ScEfficientNet, 但它的性能更低, 分類準(zhǔn)確率相比ScEfficientNet下降了3.3%。 相較于EfficientNet, 本文提出的ScEfficientNet模型效果有較大提升, 實(shí)現(xiàn)了96.8%的遙感圖像分類準(zhǔn)確率。
3.4" 不同模型性能對(duì)比
為進(jìn)一步測試本文算法的效果, 在相同實(shí)驗(yàn)環(huán)境下, 用ScEfficientNet和其他具有代表性的圖像分類算法對(duì)AID數(shù)據(jù)集進(jìn)行分類識(shí)別, 就準(zhǔn)確率、 參數(shù)量、 計(jì)算復(fù)雜度三項(xiàng)指標(biāo)進(jìn)行對(duì)比, 以驗(yàn)證ScEfficientNet模型的準(zhǔn)確性和高效性。 表4為ScEfficientNet模型和其他神經(jīng)網(wǎng)絡(luò)模型的測試結(jié)果, 可以看到, ScEfficientNet具有更高的分類準(zhǔn)確率, 在不顯著增加模型參數(shù)量的情況下保證了遙感圖像分類識(shí)別的精度。
具體來說, 與經(jīng)典的CNN圖像分類算法ResNet-50、 VGGNet19、 GoogLeNet相比, ScEfficientNet在AID數(shù)據(jù)集上分類準(zhǔn)確率顯著提高, 參數(shù)量也明顯減少, 分別降低了20.05 M, 138.05 M, 4.85 M, 證明了ScEfficientNet網(wǎng)絡(luò)模型的有效性。 考慮到對(duì)比的全面性, 基于Transformer的分類方法也被列為對(duì)比方法。 ViT-B和Swin Transformer-B雖然比傳統(tǒng)CNN算法的分類效果有所提升, 但是參數(shù)量和計(jì)算量表現(xiàn)出明顯的上升, 無法做到準(zhǔn)確率與計(jì)算復(fù)雜度很好的平衡。 相比ViT-B, ScEfficientNet的分類準(zhǔn)確率提高了2.2%, 參數(shù)量對(duì)比88.1 M明顯較少, 計(jì)算量略大, 整體性能相對(duì)較優(yōu)。 相比Swin Transformer-B模型, 盡管ScEfficientNet準(zhǔn)確率略微降低0.2%, 但是參數(shù)量和計(jì)算量顯著減少, 分別減少了81.25 M和29.33 GFLOPs, 因此, ScEfficientNet能夠在保持較高準(zhǔn)確率的情況下更加輕量化, 訓(xùn)練速度明顯更快。 與在EfficientNet特定層中引入注意力機(jī)制的改進(jìn)模型相比, ScEfficientNet在分類效果、 參數(shù)量和計(jì)算量方面均更具有優(yōu)勢, 準(zhǔn)確率提高了0.5%, 參數(shù)量、 計(jì)算量減少了36.4%和26.6%, 表明ScEfficientNet模型更加簡單高效。 綜上, 對(duì)比實(shí)驗(yàn)結(jié)果顯示, 充分利用場景上下文信息, 結(jié)合通道及空間注意力機(jī)制能更好地提高模型的分類性能。
3.5" 消融實(shí)驗(yàn)
3.5.1" 不同模塊消融實(shí)驗(yàn)效果
針對(duì)本文提出的三種改進(jìn)措施進(jìn)行了消融實(shí)驗(yàn), 實(shí)驗(yàn)結(jié)果如表5所示。 每組實(shí)驗(yàn)設(shè)置除網(wǎng)絡(luò)結(jié)構(gòu)不同外, 其他設(shè)置均保持一致。 從表中結(jié)果分析可得, 3×3深度可分離卷積核、 CBAM和SCDM分別加入基線網(wǎng)絡(luò)EfficientNet之后, 模型均有不同程度的性能提升。 相比原始網(wǎng)絡(luò), 在使用小尺寸深度可分離卷積核后分類準(zhǔn)確率提高了1.65%, 相比使用大卷積核參數(shù)也有一定減少。 當(dāng)添加CBAM注意力機(jī)制時(shí), 模型的分類準(zhǔn)確率有小幅度提升, 在AID數(shù)據(jù)集中提升0.45%, 再加入場景上下文信息感知模塊SCDM后, 分類效果顯著提升。 當(dāng)加入所有模塊后, ScEfficientNet分類準(zhǔn)確率達(dá)到96.8%, 由此證明了三種改進(jìn)措施的有效性, 場景上下文信息和CBAM注意力機(jī)制對(duì)卷積神經(jīng)網(wǎng)絡(luò)的分類效果提升是巨大的。
3.5.2" 不同尺寸卷積核在不同位置的影響
雖然使用大尺寸卷積核可以提高準(zhǔn)確率, 但在網(wǎng)絡(luò)中的所有位置都添加并不是最好的, 本文對(duì)于5×5和3×3卷積核添加的位置進(jìn)行了探索。 表6展示了兩種卷積核
添加在不同位置對(duì)結(jié)果產(chǎn)生的影響。 “1”表示ScMBConv可分離卷積核為5×5, “0”表示卷積核為3×3。 從表中可以看出, 深度可分離卷積全部使用3×3卷積核時(shí)推理時(shí)間縮短, 分類精度有所提高。 因此, ScEfficientNet中ScMBConv的深度可分離卷積全部使用3×3小卷積核。
4" 結(jié)" 論
本文以EfficientNet為基線網(wǎng)絡(luò)," 對(duì)目標(biāo)周圍的場景特征進(jìn)行建模, 結(jié)合CBAM注意力機(jī)制與深度可分離卷積層, 從通道和空間兩個(gè)維度賦予特征圖不同的注意力權(quán)重以提取關(guān)鍵信息, 提出了ScMBConv卷積結(jié)構(gòu), 并通過探究小尺寸卷積核對(duì)網(wǎng)絡(luò)分類性能的提升作用, 提出了一種基于場景上下文感知與注意力增強(qiáng)的ScEfficientNet網(wǎng)絡(luò)模型。 基于此模型在AID遙感圖像數(shù)據(jù)集上進(jìn)行圖像分類識(shí)別實(shí)驗(yàn), ScEfficientNet實(shí)現(xiàn)了96.8%的識(shí)別準(zhǔn)確率, 較原網(wǎng)絡(luò)提升了3.3%的準(zhǔn)確性, 參數(shù)量為5.55 M, 整體性能優(yōu)于VGGNet19、 GoogLeNet和ViT-B等圖像分類算法, 驗(yàn)證了ScEfficientNet網(wǎng)絡(luò)模型的有效性。
參考文獻(xiàn):
[1] Cheng G, Xie X X, Han J W, et al. Remote Sensing Image Scene Classification Meets Deep Learning: Challenges, Methods, Benchmarks, and Opportunities[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 3735-3756.
[2] Lv Z Y, Shi W Z, Zhang X K, et al. Landslide Inventory Mapping from Bitemporal High-Resolution Remote Sensing Images Using Change Detection and Multiscale Segmentation[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2018, 11(5): 1520-1532.
[3] Ghazouani F, Farah I R, Solaiman B. A Multi-Level Semantic Scene Interpretation Strategy for Change Interpretation in Remote Sensing Imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(11): 8775-8795.
[4] Hu F, Xia G S, Yang W, et al. Recent Advances and Opportunities in Scene Classification of Aerial Images with Deep Models[C]∥IEEE International Geoscience and Remote Sensing Symposium, 2018: 4371-4374.
[5] 寶音圖, 劉偉, 牛朝陽, 等. 聯(lián)合集成學(xué)習(xí)與EfficientNet的光學(xué)遙感圖像場景分類[J]. 計(jì)算機(jī)工程, 2021, 47(10): 226-235.
Bao Yintu, Liu Wei, Niu Chaoyang, et al. Scene Classification of Optical Remote Sensing Images Joint Ensemble Learning and EfficientNet[J]. Computer Engineering, 2021, 47(10): 226-235. (in Chinese)
[6] Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[C]∥3rd International Conference on Learning Representations (ICLR), 2014: 1-14.
[7] Szegedy C, Liu W, Jia Y Q, et al. Going Deeper with Convolutions[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015: 1-9.
[8] He K M, Zhang X Y, Ren S Q, et al. Deep Residual Learning for Image Recognition[C]∥ IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016: 770-778.
[9] Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[J].Communications of the ACM, 2017, 60(6): 84-90.
[10] Howard A G, Zhu M L, Chen B, et al. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications[EB/OL]. (2017-04-17)[2023-11-15].https:∥arxiv.org/pdf/1704.04861.pdf.
[11] Zhang X Y, Zhou X Y, Lin M X, et al. ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 6848-6856.
[12] Tan M, Le Q. Efficientnet: Rethinking Model Scaling for Convolutional Neural Networks[C]∥International Conference on Machine Learning, 2019: 6105-6114.
[13] 李長冬, 龍晶晶, 劉勇, 等. 基于EfficientNet的滑坡遙感圖像識(shí)別方法: 以貴州省畢節(jié)市為例[J]. 華南地質(zhì), 2023, 39(3): 403-412.
Li Changdong, Long Jingjing, Liu Yong, et al. Landslide Remote Sensing Image Recognition Based on EfficientNet: Taking Bijie City, Guizhou Province as an Example[J]. South China Geology, 2023, 39(3): 403-412. (in Chinese)
[14] 陳筱, 朱向冰, 吳昌凡, 等. 基于遷移學(xué)習(xí)與特征融合的眼底圖像分類[J]. 光學(xué)精密工程, 2021, 29(2): 388-399.
Chen Xiao, Zhu Xiangbing, Wu Changfan, et al. Research on Fundus Image Classification Based on Transfer Learning and Feature Fusion[J]. Optics and Precision Engineering, 2021, 29(2): 388-399. (in Chinese)
[15] Alhichri H, Alswayed A S, Bazi Y, et al. Classification of Remote Sensing Images Using EfficientNet-B3 CNN Model with Attention[J]. IEEE Access, 2021, 9: 14078-14094.
[16] Zhang D Y, Liu Z H, Shi X B. Transfer Learning on EfficientNet for Remote Sensing Image Classification [C]∥5th International Conference on Mechanical, Control and Computer Engineering (ICMCCE), 2020: 2255-2258.
[17] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale[C]∥ 9th International Conference on Learning Representations (ICLR), 2021.
[18] Liu Z, Lin Y T, Cao Y E, et al. Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows[C]∥IEEE/CVF International Conference on Computer Vision (ICCV), 2021: 10012-10022.
[19] Mehta S, Rastegari M. MobileViT: Light-Weight, General-Purpose, and Mobile-Friendly Vision Transformer[C]∥10th International Conference on Learning Representations (ICLR), 2022.
[20] Zhang H K, Hu W Z, Wang X Y. ParC-Net: Position Aware Circular Convolution with Merits from ConvNets and Transformer[C]∥European Conference on Computer Vision, 2022: 613-630.
[21] Sandler M, Howard A, Zhu M L, et al. MobileNetV2: Inverted Residuals and Linear Bottlenecks[C]∥ IEEE/ CVF Conference on Computer Vision and Pattern Recognition, 2018: 4510-4520.
[22] Zoph B, Le Q V. Neural Architecture Search with Reinforcement Learning[C]∥5th International Conference on Learning Representations (ICLR), 2017.
[23] Woo S, Park J, Lee J Y, et al. CBAM: Convolutional Block Attention Module[C]∥European Conference on Computer Vision, 2018: 3-19.
[24] Yu F, Koltun V, Funkhouser T. Dilated Residual Networks[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 636-644.
Optical Remote Sensing Image Classification
Method Based on Scene Context Perception
Guo Xinyi1, Zhang Ke1, Guo Zhengyu2, Su Yu1*
(1. Northwestern Polytechnical University, Xi’an 710072, China;
2. China Airborne Missile Academy, Luoyang 471009, China)
Abstract: Optical remote sensing image classification is one of the key technologies in the field of Earth observation. In recent years, researchers have proposed optical remote sensing image classification using deep neural networks. Aiming at the problem of inadequate feature extraction in some network models, this paper proposes a remote sensing image classification method based on scene context perception and attention enhancement, called ScEfficientNet. This method designs a scene context-driven module (SCDM) to model the spatial relationship between the target and its surrounding neighborhood, enhancing the original feature representation with scene context features. It introduces a convolutional block attention module (CBAM) to weight the feature maps based on the importance of channels and spatial locations, and combines it with a depth-wise separable convolution structure to extract discriminative information of the targets, referred to as ScMBConv. Based on the above works, the ScEfficientNet model, which incorporates scene context perception and attention enhancement, is used for remote sensing image classification. Experimental results show that ScEfficientNet achieves an accuracy of 96.8% in AID dataset, which is a 3.3% improvement over the original network, with a parameter count of 5.55 M. The overall performance is superior to other image classification algorithms such as VGGNet19, GoogLeNet and ViT-B, confirming the effectiveness of the ScEfficientNet model.
Key words:" image classification; optical remote sensing image; convolutional neural network; EfficientNet