林文龍,阿里甫·庫(kù)爾班,陳一瀟,袁 旭
新疆大學(xué) 軟件學(xué)院,烏魯木齊 830046
隨著衛(wèi)星遙感技術(shù)的飛速發(fā)展,遙感影像成像范圍持續(xù)擴(kuò)大,更新周期逐步縮短,空間分辨率顯著提升,以及其具有的豐富的空間信息以及清晰的幾何結(jié)構(gòu)和紋理信息,遙感目標(biāo)檢測(cè)在國(guó)民經(jīng)濟(jì)、社會(huì)發(fā)展、國(guó)防安全、生態(tài)保護(hù)等領(lǐng)域獲得廣泛應(yīng)用。然而,遙感圖像中普遍存在目標(biāo)尺度變化大、目標(biāo)方向變化大、密集小目標(biāo)占比大、目標(biāo)模糊背景復(fù)雜等特點(diǎn),給檢測(cè)帶來(lái)了很大的挑戰(zhàn)。因此,提出一種用于遙感圖像的高精度檢測(cè)算法具有重要意義。
傳統(tǒng)的遙感目標(biāo)檢測(cè)方法主要有:(1)基于模板匹配的對(duì)象檢測(cè)方法,(2)基于知識(shí)的對(duì)象檢測(cè)算法,(3)基于對(duì)象的圖像分析(OBIA)的對(duì)象檢測(cè)法,(4)基于機(jī)器學(xué)習(xí)的對(duì)象檢測(cè)技術(shù)等。Niu[1]提出了一種基于幾何活動(dòng)輪廓模型的半自動(dòng)框架,用于從航空照片中提取公路和檢測(cè)車(chē)輛。Peng 和Liu[2]在密集的城市航拍圖像中,通過(guò)陰影信息與背景信息相結(jié)合的方法提取建筑區(qū)域,建立了陰影-背景模型。Shi 等人[3]將圓頻特征與HOG 特征相結(jié)合,開(kāi)發(fā)了一種用于船舶檢測(cè)的圓頻-HOG特征。但是基于傳統(tǒng)方法的目標(biāo)檢測(cè)算法模型泛化性差、定位精度差、冗余計(jì)算量大等缺點(diǎn),不能滿(mǎn)足實(shí)際應(yīng)用的需求。近年來(lái),隨著深度學(xué)習(xí)理論的成熟,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法得到了快速發(fā)展?;谏疃葘W(xué)習(xí)的遙感圖像目標(biāo)檢測(cè)算法相對(duì)于傳統(tǒng)方法性能取得了大幅提升。
深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)按處理步驟可以分為兩類(lèi):兩階段方法(two-stage)和一階段方法(one-stage)。兩階段方法的優(yōu)點(diǎn)在于檢測(cè)準(zhǔn)確率高;而一階段方法相比兩階段方法計(jì)算效率更高,檢測(cè)速度快,但檢測(cè)精度相對(duì)較低。兩階段方法是一類(lèi)基于區(qū)域推薦的檢測(cè)算法,它首先生成目標(biāo)區(qū)域候選框(region proposals),然后對(duì)候選框中的圖像做進(jìn)一步的分類(lèi)并修正框的位置,從而實(shí)現(xiàn)目標(biāo)的檢測(cè)。比較常見(jiàn)的兩階段方法有:R-CNN[4]、FastR-CNN[5]、Faster R-CNN[6]和FPN[7]。一階段方法是基于回歸方法的目標(biāo)檢測(cè)算法,主要是通過(guò)對(duì)圖像用不同尺度、比例的錨框進(jìn)行有規(guī)律的密集采樣來(lái)檢測(cè)目標(biāo),網(wǎng)絡(luò)直接對(duì)輸入的圖像進(jìn)行處理以產(chǎn)生物體的類(lèi)別概率和位置坐標(biāo)值。經(jīng)典的一階段目標(biāo)檢測(cè)算法有YOLO系列算法[8-11]、SSD[12]、RetinaNet[13]、FCOS[14]。
目前,深度學(xué)習(xí)算算法已經(jīng)在遙感圖像目標(biāo)檢測(cè)中廣泛應(yīng)用。Lu 等人[15]提出了一種端到端的注意與特征融合SSD算法,該算法設(shè)計(jì)了一種多層特征融合結(jié)構(gòu)來(lái)增強(qiáng)淺層特征的語(yǔ)義信息,并且引入雙路徑注意模塊來(lái)篩選特征信息,提高了對(duì)小目標(biāo)的檢測(cè)效果。Guo 等人[16]提出了一種用于密集遙感目標(biāo)檢測(cè)的全變形卷積網(wǎng)絡(luò)(FD-Net),通過(guò)將可變形卷積集成到整個(gè)網(wǎng)絡(luò)有效提取特征,并且使用基于可變形卷積構(gòu)造的特征金字塔網(wǎng)絡(luò)進(jìn)行特征增強(qiáng),實(shí)現(xiàn)了密集遙感目標(biāo)的檢測(cè)任務(wù)。Cao等人[17]構(gòu)建了一種新的結(jié)構(gòu)——注意引導(dǎo)的語(yǔ)境特征金字塔網(wǎng)絡(luò)(ACFPN),該網(wǎng)絡(luò)通過(guò)集成注意引導(dǎo)的多路徑特征,利用來(lái)自不同接受域的判別信息,有效提高了檢測(cè)性能。Dong等人[18]設(shè)計(jì)了一種新型多尺度可變注意力模塊加入FPN中,該模塊從具有多尺度可變形感受野的特征圖中生成注意力圖,可以更好地?cái)M合各種形狀和大小的遙感目標(biāo),改善了遙感圖像中目標(biāo)多尺度問(wèn)題。Ye等人[19]提出了一種自適應(yīng)注意融合機(jī)制,在該機(jī)制中引入了可學(xué)習(xí)的融合因子,實(shí)現(xiàn)模塊內(nèi)和模塊間特征的自適應(yīng)融合,提高了模型在遙感圖像目標(biāo)檢測(cè)中的精度和魯棒性。Zhou 等人[20]為了解決遙感圖像中小目標(biāo)、密集目標(biāo)分布和陰影遮擋問(wèn)題,提出了針對(duì)小目標(biāo)的跨層融合網(wǎng)絡(luò),大大提高了算法在DIOR車(chē)輛數(shù)據(jù)集[21]的表現(xiàn)。Tang 等人[22]通過(guò)引入特征對(duì)齊模塊來(lái)估計(jì)像素偏移量和上下文對(duì)齊高級(jí)特征,建立了增強(qiáng)特征金字塔子網(wǎng)絡(luò)來(lái)解決由于特征不對(duì)稱(chēng)和目標(biāo)外觀變化(即尺度變化、縱橫比變化)帶來(lái)的檢測(cè)困難。Chalavadi等人[23]利用并行空洞卷積來(lái)探索分層擴(kuò)張網(wǎng)絡(luò),學(xué)習(xí)不同類(lèi)型物體在多個(gè)尺度和多個(gè)視場(chǎng)的上下文信息,有效覆蓋了航空?qǐng)D像的視覺(jué)信息,增強(qiáng)了模型的檢測(cè)能力。Xiao等人[24]提出CEM模塊提取豐富的上下文信息進(jìn)行多尺度空洞卷積的特征融合。
以上眾多論文都對(duì)算法的特征融合進(jìn)行了改進(jìn),其中文獻(xiàn)[17]串聯(lián)地使用可變形卷積進(jìn)行密集連接,但是由于密集的連接使得上下文信息冗余,需要搭配額外的注意力引導(dǎo)模塊使用。文獻(xiàn)[18]串聯(lián)使用帶有固定空洞率的可變形卷積生成注意力圖;文獻(xiàn)[23-24]使用簡(jiǎn)單的并行3 個(gè)帶有不同空洞率的空洞卷積提取上下文信息。以上文獻(xiàn)顯示了在FPN中調(diào)整特征圖感受野、對(duì)特征圖進(jìn)行具有注意力引導(dǎo)的特征融合對(duì)緩解目標(biāo)檢測(cè)多尺度問(wèn)題和小目標(biāo)問(wèn)題的有效性,但在模塊結(jié)構(gòu)上或精度仍有改進(jìn)空間。故本文提出了自適應(yīng)上下文特征提取模塊,該模塊使用并行的帶有不同空洞率的可變形卷積從多個(gè)感受野探索上下文信息,并且進(jìn)行多次注意力引導(dǎo)的自適應(yīng)特征融合。同時(shí),采用Swin Transformer作為主干提高算法特征提取能力。引入FreeAnchor 模塊,優(yōu)化錨框(anchor)匹配策略,提高檢測(cè)精度。實(shí)驗(yàn)表明,ACFEM-RetinaNet算法在本文中的遙感圖像目標(biāo)檢測(cè)任務(wù)中具有較好的檢測(cè)效果。
RetinaNet算法是于2017年隨論文Focal loss for dense object detection被提出的一種基于錨框的one-stage 通用目標(biāo)檢測(cè)算法。RetinaNet的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,由Backbone(主干網(wǎng)絡(luò))、Neck(特征融合網(wǎng)絡(luò))和Head(分類(lèi)子網(wǎng)絡(luò)與邊框回歸子網(wǎng)絡(luò))三部分組成。
圖1 RetinaNet網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 RetinaNet network structure diagram
RetinaNet 采用ResNet-50 作為Backbone,對(duì)圖像進(jìn)行特征提取,同時(shí)在Neck 部分構(gòu)建FPN 進(jìn)行特征融合。在Head 部分,RetinaNet 塊使用class subnet 和box subnet分別處理目標(biāo)類(lèi)別分類(lèi)任務(wù)和目標(biāo)定位任務(wù)。并且使用Focal Loss 根據(jù)置信度動(dòng)態(tài)調(diào)整交叉熵?fù)p失來(lái)解決樣本不平衡問(wèn)題。
ACFEM-RetinaNet 算法如圖2 所示。首先,為增強(qiáng)算法的特征提取能力,將Backbone 替換為Swin Transformer。其次,將特征圖C5 輸入自適應(yīng)上下文特征提取模塊(adaptive context feature extraction module,ACFEM)自適應(yīng)提取上下文特征,多尺度目標(biāo)檢測(cè)效果。最后,在Head 中引入FreeAnchor 模塊提高檢測(cè)器對(duì)錨框分配的效果。
圖2 ACFEM-RetinaNet結(jié)構(gòu)示意圖Fig.2 Schematic diagram of ACFEM-RetinaNet structurer
谷歌在2017 年提出了Transformer[25]模型。它實(shí)現(xiàn)了序列建模和轉(zhuǎn)導(dǎo)任務(wù),以關(guān)注數(shù)據(jù)中的長(zhǎng)期依賴(lài)關(guān)系而著稱(chēng)。Transformer 在語(yǔ)言領(lǐng)域的成功促使研究者將其應(yīng)用于計(jì)算機(jī)視覺(jué)。然而,其在計(jì)算機(jī)視覺(jué)的應(yīng)用遇到了兩大的問(wèn)題:首先,視覺(jué)領(lǐng)域中不同圖像及目標(biāo)在規(guī)模上有很大差異,原有的Transformer 模型中固定的圖像塊(tokens)不能有效適應(yīng)差異大的圖像目標(biāo)。其次,相較于文本信息,圖像有著很高的像素分辨率,Transformer 對(duì)高分辨率圖像的自注意力計(jì)算會(huì)帶來(lái)龐大的計(jì)算量。針對(duì)以上問(wèn)題,Liu 等人[26]提出了Swin Transformer。
2.1.1 Swin Transformer流程
Swin Transformer(Swin-T)網(wǎng)絡(luò)架構(gòu)圖如圖3 所示,框架基本流程如下:
圖3 Swin Transformer(Swin-T)架構(gòu)圖Fig.3 Architecture of Swin Transformer(Swin-T)
2.1.2 W-MSA模塊
為了減少計(jì)算量以及實(shí)現(xiàn)窗口之間的信息交互,在Swin Transformer Block的堆疊過(guò)程中成對(duì)使用W-MSA(windows multi-head self-attention)和SW-MSA(shifted windows multi-head self-attention)。
如圖4所示為堆疊的Swin Transformer Block,其中為了減少計(jì)算量Swin Transformer引入W-MSA(windows multi-head self-attention)模塊。與MSA(multi-head self-attention)模塊在整個(gè)圖像上計(jì)算自注意力相比,windows multi-head self-attention(W-MSA)模塊首先將特征圖按照如圖5M×M大小劃分為窗口(windows),然后對(duì)單獨(dú)每個(gè)窗口進(jìn)行self-attention計(jì)算。公式(1)(2)分別為MSA和W-MSA的計(jì)算復(fù)雜度。其中C為特征圖的深度。由于劃分好的窗口包含的像素量為M×M,小于整個(gè)特征圖包含的像素量h×w,self-attention的計(jì)算復(fù)雜度W-MSA較WSA減少了,使得W-MSA的計(jì)算復(fù)雜度與圖像尺寸呈線性關(guān)系。
圖4 堆疊的Swin Transformer BlockFig.4 Stacked Swin Transformer Block
圖5 移位窗口的自注意力計(jì)算Fig.5 Self-attention computation for shifted windows
2.1.3 SW-MSA模塊
雖然W-MSA 模塊在每個(gè)窗口進(jìn)行自注意力計(jì)算,減少了計(jì)算復(fù)雜度,與此同時(shí)也阻隔了各窗口之間的信息傳遞。為了解決這個(gè)問(wèn)題,Swin Transformer 引入了shifted windows multi-head self-attention(SW-MSA)模塊,該模塊是在W-MSA 的基礎(chǔ)上進(jìn)行了窗口的偏移。如圖6所示,首先將原先的四個(gè)窗口進(jìn)行偏移,產(chǎn)生新的窗口。新窗口的自注意力計(jì)算跨越了前一層W-MSA窗口的邊界,實(shí)現(xiàn)了信息之間的聯(lián)系。之后,為了實(shí)現(xiàn)高效的計(jì)算方法,將窗口移位形成新的四窗口形式,通過(guò)掩碼機(jī)制解決原本不相鄰窗口的信息交流后,計(jì)算出能夠?qū)崿F(xiàn)窗口間信息傳遞的結(jié)果。
圖6 高效的批量計(jì)算方法Fig.6 Approach of efficient batch computation
針對(duì)遙感目標(biāo)檢測(cè)中多尺度目標(biāo)問(wèn)題,本文基于可變形卷積[28]和SK 注意力[29],設(shè)計(jì)了自適應(yīng)上下文特征提取模塊(adaptive context feature extraction module,ACFEM)。在ACFEM 模塊中,使用多對(duì)并聯(lián)且?guī)в胁煌斩绰实目勺冃尉矸e從多個(gè)感受野探索上下文信息,并且通過(guò)注意力引導(dǎo)不同感受野的特征圖進(jìn)行特征融合,以提升算法處理多尺度目標(biāo)的能力。
如圖7 所示為3×3 可變形卷積示例圖,可變形卷積在卷積的基礎(chǔ)上,用額外的偏移量增加模塊中的空間采樣位置,達(dá)到適應(yīng)幾何變化、姿勢(shì)、視角和部分形變的目的。有助于改善遙感圖像目標(biāo)中飛機(jī)、油桶等目標(biāo)在不同視角、姿勢(shì)和圖像畸變導(dǎo)致的檢測(cè)困難;可變性卷積雖然能夠適當(dāng)調(diào)整感受野,但是偏移量相對(duì)較小。因此,ACFEM在可變形卷積的基礎(chǔ)上進(jìn)一步添加空洞率,從而擴(kuò)大感受野、捕捉多尺度信息。
圖7 3×3可變形卷積示例Fig.7 Illustration of 3×3 deformable convolution
如圖8 所示,ACFEM 由FEM(feature extraction module)模塊、SM(fusion module)模塊組成。
圖8 自適應(yīng)上下文特征提取模塊Fig.8 Adaptive context feature extraction module
如圖9所示,F(xiàn)EM模塊由卷積層、Group Normalization 層、ReLU 層、可變形卷積層以及Droupout 層組成。在這個(gè)模塊中,通過(guò)對(duì)可變形卷積層設(shè)置不同的空洞率,進(jìn)一步增強(qiáng)可變形卷積的感受野以及特征提取能力。并且將Group Normalization層代替Batch Normalization 層提高模塊在小批量情況下的收斂效果。在模塊最后加入Droupout層防止網(wǎng)絡(luò)過(guò)度擬合。
圖9 FEM模塊Fig.9 Feature extraction module
如圖10 所示,在FM 模塊中,首先對(duì)輸入的兩個(gè)特征圖x1、x2 逐元素相加(element-wise product),之后壓縮通道數(shù)并進(jìn)行全局平均池化,最后將注意力與對(duì)應(yīng)的特征圖逐元素積(element-wise product)得到輸出結(jié)果。
Zhang 等人[30]在NIPS 2019 中提出了FreeAnchor。從極大釋然估計(jì)的角度出發(fā)設(shè)計(jì)優(yōu)化方式提出了一種新的錨框(anchor)匹配策略,使得網(wǎng)絡(luò)能夠以一個(gè)更加靈活的方式去選擇目標(biāo)匹配的錨框。
在先前基于錨框的目標(biāo)檢測(cè)方法中,需要配置密集的錨框,以便匹配目標(biāo)對(duì)象和錨框,并且可以很好地初始化錨框回歸。然后,通過(guò)使用真實(shí)標(biāo)注框(ground truth box)對(duì)錨框進(jìn)行IoU 閾值劃分,將anchor 分配給對(duì)象或背景。雖然以上方法在一般情況下是有效的,但是在遙感目標(biāo)檢測(cè)過(guò)程中,如圖11所示,存在著無(wú)中心特征或擁擠的目標(biāo),其中綠色框?yàn)檎鎸?shí)標(biāo)注框的位置,紅色框?yàn)樗惴A(yù)測(cè)的目標(biāo)位置。檢測(cè)器容易出現(xiàn)如圖因?yàn)橹行奶卣鞅桓蓴_以及擁擠情況導(dǎo)致錯(cuò)過(guò)最佳的錨框和特征。FreeAnchor 的優(yōu)勢(shì)在于使用極大似然估計(jì)角度優(yōu)化錨、特征與各種幾何布局的對(duì)象的匹配,能很大程度上緩解無(wú)中心、細(xì)長(zhǎng)和/或擁擠的對(duì)象檢測(cè)困難的問(wèn)題。因此本文引入FreeAnchor,以提高檢測(cè)器對(duì)錨框分配的效果。
圖11 遙感目標(biāo)檢測(cè)中的目標(biāo)Fig.11 Target in remote sensing target detection
FreeAnchor的匹配策略為:尋找錨框與對(duì)應(yīng)目標(biāo)錨框的分類(lèi)置信度和定位置信度乘積最大值的同時(shí),將定位較差的錨框歸為背景類(lèi)。
基于錨框算法常用的損失函數(shù)如式(3)所示,該損失函數(shù)優(yōu)化了分類(lèi)和位置回歸,但卻忽視了對(duì)目標(biāo)和錨框的匹配。FreeAnchor 從三個(gè)方面優(yōu)化對(duì)目標(biāo)和錨框的匹配。
(1)優(yōu)化召回率,F(xiàn)reeAnchor 定義了召回似然函數(shù)。如式(4)所示,為分類(lèi)置信度,為定位置信度,Ai為錨框集合。P(θ)recall為所有目標(biāo)的錨框分類(lèi)置信度和定位置信度的最大乘積。目的為尋找最大的目標(biāo)錨框的分類(lèi)置信度和定位置信度乘積。
(2)提高檢測(cè)精度,F(xiàn)reeAnchor定義了式(5)所示的精度似然概率函數(shù)。P{aj∈A-}=1-maxP{aj→bi}為aj屬于背景類(lèi)的概率,P{aj→bi}表示錨框aj正確預(yù)測(cè)目標(biāo)bi的概率。其目的是將定位較差的錨框歸為背景類(lèi)。
(3)與nms 程序兼容,F(xiàn)reeAnchor 定義了式(6)、式(7)函數(shù)。
通過(guò)以上優(yōu)化得到的檢測(cè)似然函數(shù)為式(8)所示,將似然函數(shù)轉(zhuǎn)換為損失函數(shù)為式(9)所示。
同時(shí),為了解決在網(wǎng)絡(luò)訓(xùn)練初期置信度普遍偏低的情況下,置信度最高的錨框不一定為最佳錨框的問(wèn)題,F(xiàn)reeAnchor引入了Mean-max函數(shù),當(dāng)訓(xùn)練不足時(shí),使幾乎所有的錨框都被用于訓(xùn)練。隨著訓(xùn)練的進(jìn)行,一些錨框的置信度增加,Mean-max 函數(shù)向max 函數(shù)靠攏。當(dāng)進(jìn)行了充分的訓(xùn)練后,則從中選擇最佳錨框。
式(10)為max 函數(shù)替換為Mean-max 函數(shù),加入平衡因子w1、w2,將focalloss 函數(shù)應(yīng)用于式所得到的FreeAnchor損失函數(shù)。
本文所采用的數(shù)據(jù)集為光學(xué)遙感圖RSOD[31]數(shù)據(jù)集。數(shù)據(jù)集包括飛機(jī)、油箱、操場(chǎng)和立交橋。此數(shù)據(jù)集的格式為PASCAL VOC。在實(shí)驗(yàn)過(guò)程中,發(fā)現(xiàn)RSOD數(shù)據(jù)集中對(duì)一些小目標(biāo)并未標(biāo)注,故對(duì)這些目標(biāo)進(jìn)行了補(bǔ)充標(biāo)注。補(bǔ)充標(biāo)注后的RSOD數(shù)據(jù)集由7 676個(gè)對(duì)象實(shí)例組成,包含了四個(gè)對(duì)象類(lèi),分別為5 465架飛機(jī)(aircraft),1 869個(gè)油箱(oiltank),180座立交橋(overpass)和162個(gè)操場(chǎng)(playground)。對(duì)ROSD 數(shù)據(jù)集劃分如下:按7∶3的比例劃分為訓(xùn)練集和測(cè)試集。圖12為RSOD 數(shù)據(jù)集部分?jǐn)?shù)據(jù)示例圖。
圖12 部分?jǐn)?shù)據(jù)集展示Fig.12 Presentation of part of dataset
本文實(shí)驗(yàn)使用基于Pytorch 的mmdetection 開(kāi)源代碼庫(kù),訓(xùn)練環(huán)境:CUDA 版本為11.1,GPU 為NVIDIA GeForce RTX 2080 SUPER,顯存8 GB,編譯語(yǔ)言為Python3.8,訓(xùn)練最小批次為2,總共訓(xùn)練24 epoch。
為驗(yàn)證本文提出的ACFEM-RetinaNet 算法在遙感目標(biāo)檢測(cè)任務(wù)的有效性,本文設(shè)置了7個(gè)消融實(shí)驗(yàn),1個(gè)對(duì)比實(shí)驗(yàn),1 個(gè)ACFEM 模塊空洞率參數(shù)對(duì)性能影響實(shí)驗(yàn),1個(gè)ACFEM模塊與常見(jiàn)感受野調(diào)整模塊對(duì)比實(shí)驗(yàn),7個(gè)消融實(shí)驗(yàn)中,分別驗(yàn)證了更換Swin Transformer作為主干、自適應(yīng)上下文特征提取模塊以及加入FreeAnchor模塊及其組合的有效性。在1 個(gè)對(duì)比實(shí)驗(yàn)中,對(duì)比了ACFEM-RetinaNet 算法與當(dāng)前主流目標(biāo)檢測(cè)算法的檢測(cè)精度。
訓(xùn)練時(shí)對(duì)設(shè)置輸入圖像大小為(1 000,600),采用SGD 優(yōu)化器對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,初始學(xué)習(xí)率為0.001 25,使用余弦退火策略調(diào)整學(xué)習(xí)率。實(shí)驗(yàn)以平均精度均值(mean average precision)、模型每秒檢測(cè)的圖像數(shù)量(FPS)等評(píng)價(jià)指標(biāo)對(duì)模型進(jìn)行評(píng)價(jià)。
為了提高算法的特征提取能力,本文采用Swin Transformer 作為算法的主干。實(shí)驗(yàn)1 對(duì)比了更換Swin Transformer 作為主干算法與原始RetinaNet 算法的效果,結(jié)果如表1所示。對(duì)比mAP可知,更換Swin Transformer作為主干使算法的mAP從86.5%提升到了88.8%,mAP提升了2.3個(gè)百分點(diǎn)。對(duì)于飛機(jī)類(lèi)、油桶類(lèi)、立交橋類(lèi),mAP 分別提升了4、3.5、1.5 個(gè)百分點(diǎn),證明了Swin Transformer能夠提升算法的特征提取能力、有助于提高算法的檢測(cè)能力。
本文提出了自適應(yīng)上下文特征提取模塊,該模塊使用并行的帶有不同空洞率的可變形卷積進(jìn)行上下文信息提取,并且進(jìn)行多次注意力引導(dǎo)的自適應(yīng)特征融合以提升算法處理多尺度目標(biāo)的能力。為了驗(yàn)證ACFEM模塊的有效性,實(shí)驗(yàn)2 對(duì)比了添加ACFEM 與原算法的檢測(cè)效果。實(shí)驗(yàn)結(jié)果如表1所示,添加ACFEM模塊后,算法mAP增加了2.2個(gè)百分點(diǎn)。如圖13所示,在RSOD數(shù)據(jù)集中,尺度變化最大的類(lèi)別為立交橋,在多尺度目標(biāo)問(wèn)題最為嚴(yán)重的立交橋類(lèi)中加入ACFEM 后mAP 提升了3.3 個(gè)百分點(diǎn),證明了ACFEM 模塊能夠通過(guò)自適應(yīng)多感受野提取上下文信息并進(jìn)行特征融合緩解遙感圖像目標(biāo)檢測(cè)中多尺度問(wèn)題,并提升算法的檢測(cè)效果。
圖13 RSOD數(shù)據(jù)集類(lèi)別尺度Fig.13 Category scale of RSOD dataset
針對(duì)遙感圖像目標(biāo)的密集小目標(biāo)等問(wèn)題,本文引入FreeAnchor 模塊。該模塊能夠從極大似然估計(jì)的角度提高錨框的匹配效果。實(shí)驗(yàn)3 對(duì)比了添加FreeAnchor模塊前后算法的檢測(cè)效果,由表1可知,添加FreeAnchor模塊后,算法mAP 由86.5%提升到了88.4%,提升了1.9個(gè)百分點(diǎn)。對(duì)于密集小目標(biāo)問(wèn)題明顯的飛機(jī)類(lèi)、油桶類(lèi),mAP 分別顯著提升5.8、4.5 個(gè)百分點(diǎn),證明了Free-Anchor模塊解決此類(lèi)問(wèn)題的有效性。
實(shí)驗(yàn)4、實(shí)驗(yàn)5、實(shí)驗(yàn)6 驗(yàn)證了3 個(gè)改進(jìn)方法的兩兩組合對(duì)算法的檢測(cè)效果。對(duì)比mAP 可知,三個(gè)實(shí)驗(yàn)在分別使算法的mAP提升了2.8、3.6、3.1個(gè)百分點(diǎn)。
實(shí)驗(yàn)7對(duì)比了原始算法與更換Swin Transformer作為主干、添加ACFEM 模塊后和添加FreeAnchor 模塊的改進(jìn)算法。如表1 所示,雖然GFLOPs 增加了4%,F(xiàn)PS下降了6,但是算法mAP由86.5%提升至91.1%,提升了4.6個(gè)百分點(diǎn)。實(shí)驗(yàn)證明對(duì)算法的三個(gè)改進(jìn)有助于提升網(wǎng)絡(luò)的檢測(cè)精度。
表2 為ACFEM-RetinaNet 算法與目前主流算法在RSOD數(shù)據(jù)集中的性能表現(xiàn),以驗(yàn)證本文算法的有效性。本文對(duì)比了以下算法:Faster R-CNN、VGG16-SSD、MobileNetv2-SSDlite、YOLOv3、ResNet50-TOOD。實(shí)驗(yàn)表明,更換Swin Transformer作為主干增強(qiáng)了算法的特征提取能力、加入自適應(yīng)上下文特征提取模塊自適應(yīng)調(diào)整感受野、提取上下文特征,提高了處理多尺度目標(biāo)的能力、加入FreeAnchor模塊優(yōu)化了錨框分配策略。與其他算法相比,本文算法具有更好的檢測(cè)效果。圖14 為本文算法檢測(cè)效果。
表2 不同算法檢測(cè)結(jié)果比較Table 2 Comparison of detection results of different algorithms
圖14 檢測(cè)效果圖Fig.14 Test effect drawing
表3為ACFEM模塊空洞率參數(shù)對(duì)性能影響實(shí)驗(yàn)結(jié)果。首先實(shí)驗(yàn)以RetinaNet-ResNet50 為基礎(chǔ),選取最佳組合。其次,空洞率的選取遵循逐步增大的規(guī)律。如表3 所示,同一組中空洞率逐步增加,不同組合間逐步增加,實(shí)驗(yàn)表明,在ACFEM 模塊空洞率為組合2 時(shí),算法mAP 達(dá)到88.7%的最佳性能,相比于原始RetinaNet-ResNet50在mAP上提升了2.2個(gè)百分點(diǎn)。
表3 不同空洞率的組合對(duì)性能影響Table 3 Effect of combination of different dilation rates on performance
如表4所示為ACFEM模塊與在感受野探索方面的其他常見(jiàn)方法的對(duì)比實(shí)驗(yàn)。其中,SPP[10]使用三個(gè)并行的最大池化后進(jìn)行Concatenate 操作;ASPP[32]使用具有不同采樣率的多個(gè)并行空洞卷積后進(jìn)行Concatenate操作;RFB[33]則是在Iception結(jié)構(gòu)的基礎(chǔ)上加入空洞卷積,將卷積后的結(jié)果進(jìn)行逐元素相加。上述論文都表明了調(diào)整感受野對(duì)目標(biāo)檢測(cè)效果提升的重要作用,但是上述常見(jiàn)方法對(duì)感受野的調(diào)整只是進(jìn)行單一的池化或空洞率設(shè)置,并且對(duì)擴(kuò)大感受野之后的特征圖只進(jìn)行簡(jiǎn)單的Concatenate 操作或逐元素相加,不能對(duì)并行產(chǎn)生的不同感受野的特征圖進(jìn)行有效的融合。本文所提出的ACFEM模塊在這兩方面對(duì)比常見(jiàn)的方法具有明顯的優(yōu)勢(shì)。首先,ACFEM使用帶有空洞率的可變形卷積,在可變形卷積可變感受野的基礎(chǔ)上進(jìn)一步增大感受野。其次,ACFEM加入注意力引導(dǎo)模塊,由注意力引導(dǎo)并行的帶有不同感受野的特征圖進(jìn)行特征融合,提高了特征融合的有效性。如表4 實(shí)驗(yàn)所得,ACFEM 的mAP 均高于常見(jiàn)的感受野調(diào)整方法。
表4 感受野模塊性能比較Table 4 Comparison of performance of receptive field module
表4 同時(shí)進(jìn)行了多次注意力引導(dǎo)必要性的實(shí)驗(yàn)。ACFEM-0 為不對(duì)特征融合進(jìn)行引導(dǎo)、ACFEM-1、ACFEM-2、ACFEM-3 分別為只對(duì)第1、2、3 次感受野調(diào)整的特征圖進(jìn)行帶有注意力引導(dǎo)的特征融合,其余的特征融合方式為逐元素相加。由表4所示,不添加注意力引導(dǎo)的ACFEM 檢測(cè)mAP 為87.2%。在三個(gè)部位分別添加注意力引導(dǎo),mAP分別提升了1、0.9、0.6個(gè)百分點(diǎn),證明了注意力引導(dǎo)的必要性和有效性。
本文將RetinaNet 算法應(yīng)用到遙感圖像目標(biāo)檢測(cè)中,針對(duì)原主干特征提取不充分、目標(biāo)多尺度的問(wèn)題,算法采用Swin Transformer作為主干網(wǎng)絡(luò),提升算法的特征提取能力,提高檢測(cè)精度。針對(duì)遙感圖像多尺度問(wèn)題,提出自適應(yīng)上下文特征提取模塊,該模塊使用并行的帶有不同空洞率的可變形卷積從多個(gè)感受野探索上下文信息,并且進(jìn)行多次注意力引導(dǎo)的自適應(yīng)特征融合提升算法處理多尺度目標(biāo)的能力。針對(duì)遙感圖像中目標(biāo)密集重疊問(wèn)題,引入FreeAnchor 模塊,從極大釋然估計(jì)的角度設(shè)計(jì)優(yōu)化錨框匹配策略,提高檢測(cè)精度。實(shí)驗(yàn)表明,ACFEM-RetinaNet算法在本文中的遙感圖像目標(biāo)檢測(cè)任務(wù)中具有較好的檢測(cè)效果。