祝冰艷,陳志華*,盛斌
(1.華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237;2.上海交通大學(xué)電子信息與電氣工程學(xué)院, 上海 200240)
隨著遙感圖像采集技術(shù)的飛速發(fā)展,獲取大量高分辨率的遙感圖像越來越容易,這些高質(zhì)量的遙感圖像在實(shí)際生產(chǎn)生活中有著廣泛的應(yīng)用,如國(guó)防安全、地理測(cè)繪、農(nóng)業(yè)檢測(cè)等諸多領(lǐng)域,但同時(shí)更為復(fù)雜的檢測(cè)場(chǎng)景也給檢測(cè)器帶來了更大的挑戰(zhàn)。相較于傳統(tǒng)圖像,遙感圖像通常由高空航拍獲得,圖像分辨率大、待檢測(cè)目標(biāo)小。此外,遙感圖像中還存在尺度范圍變化大、背景復(fù)雜、正負(fù)樣本不平衡等問題。
常見的基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和基于Transformer 的目標(biāo)檢測(cè)網(wǎng)絡(luò)各有優(yōu)劣,其中基于CNN 的網(wǎng)絡(luò)在提取底層特征方面有較大的優(yōu)勢(shì)。文獻(xiàn)[1]在RetinaNet 的基礎(chǔ)上對(duì)特征融合進(jìn)行改進(jìn),并增加了空間和通道注意力,使用旋轉(zhuǎn)錨框計(jì)算損失,有效提升了遙感小目標(biāo)的檢測(cè)準(zhǔn)確率。在文獻(xiàn)[1]的基礎(chǔ)上,文獻(xiàn)[2]引入實(shí)例級(jí)去噪模塊,實(shí)現(xiàn)了更好的特征提取,進(jìn)一步提高了檢測(cè)準(zhǔn)確率。文獻(xiàn)[3]將水平感興趣區(qū)域轉(zhuǎn)換為旋轉(zhuǎn)感興趣區(qū)域(RRoI),使用RRoI 池化進(jìn)一步修正旋轉(zhuǎn)檢測(cè)框的坐標(biāo)信息,有效提升了模型預(yù)測(cè)結(jié)果的準(zhǔn)確率。文獻(xiàn)[4]提出一種名為RoadCapsFPN 的膠囊特征金字塔網(wǎng)絡(luò),可以提取并整合多尺度膠囊特征,以增強(qiáng)遙感道路圖像的分辨率和上下文語(yǔ)義信息。文獻(xiàn)[5]將多尺度特征動(dòng)態(tài)地進(jìn)行融合,有效解決了遙感圖像中目標(biāo)尺度變化范圍大和不同檢測(cè)類別間相似度高的問題。文獻(xiàn)[6]使用密集連接網(wǎng)絡(luò)改進(jìn)YOLOv3 網(wǎng)絡(luò),提升了遙感圖像的檢測(cè)效果。文獻(xiàn)[7]提出一種由粗到細(xì)的遙感圖像檢測(cè)網(wǎng)絡(luò)CoF-Net,分別利用特征適應(yīng)和樣本分配逐步增強(qiáng)了特征表示和訓(xùn)練樣本的選擇。
相較于CNN,Transformer 中的自注意力機(jī)制不受局部作用的限制,能關(guān)注全局信息,從而更好地實(shí)現(xiàn)視覺建模,基于Transformer 的DETR[8]等網(wǎng)絡(luò)在處理高層不同要素之間語(yǔ)義關(guān)聯(lián)上更自然及有效。文獻(xiàn)[8]將Transformer 應(yīng)用于目標(biāo)檢測(cè)領(lǐng)域,但是在小目標(biāo)上的檢測(cè)效果較差。針對(duì)遙感圖像的特點(diǎn),研究者們嘗試對(duì)Transformer 進(jìn)行改進(jìn)。文獻(xiàn)[9]使用Transformer 代替旋轉(zhuǎn)錨框精準(zhǔn)定位,并使用深度可分離卷積降低了計(jì)算復(fù)雜度。文獻(xiàn)[10]使用Transformer 編碼器在基于標(biāo)記的緊湊時(shí)空對(duì)上下文進(jìn)行建模,并將學(xué)習(xí)到的豐富上下文信息標(biāo)記反饋到像素空間。文獻(xiàn)[11]綜合CNN 和Transformer 中自注意力的優(yōu)點(diǎn),更加注重全局和局部信息的聚合,提升了遙感圖像檢測(cè)性能。受DETR[8]的影響,文獻(xiàn)[12]提出AO2-DETR 框架,避免了大量預(yù)設(shè)的錨框和復(fù)雜的前/后處理。文獻(xiàn)[13]使用結(jié)構(gòu)化的Transformer 提高特征收集范圍,并設(shè)計(jì)空間前饋神經(jīng)網(wǎng)絡(luò)解決了Transformer 檢測(cè)中局部空間感受野不足的問題。文獻(xiàn)[14]使用預(yù)訓(xùn)練好的CNN 提取特征,并利用Transformer 構(gòu)建針對(duì)遙感圖像的特征金字塔。文獻(xiàn)[15]在特征金字塔中嵌入Transformer 塊以增強(qiáng)特征融合能力。
雖然上述方法在遙感圖像檢測(cè)領(lǐng)域都取得了一定的性能提升,但是Transformer 在遙感圖像檢測(cè)中的直接應(yīng)用仍存在很多問題,例如:遙感圖像的分辨率很大,Transformer 中逐像素計(jì)算的自注意力機(jī)制導(dǎo)致網(wǎng)絡(luò)的計(jì)算復(fù)雜度很大;采集遙感圖像時(shí),拍攝視角高度不同導(dǎo)致目標(biāo)尺度變化較大;遙感圖像中的背景復(fù)雜,在網(wǎng)絡(luò)訓(xùn)練時(shí)圖像中可能會(huì)包含大量無(wú)用的背景信息,導(dǎo)致正負(fù)樣本不平衡等。
為了解決上述問題,本文對(duì)Swin Transformer[16]進(jìn)行改進(jìn),提出一種基于感知增強(qiáng)Swin Transformer的遙感圖像檢測(cè)網(wǎng)絡(luò)(PESTN)。該網(wǎng)絡(luò)使用局部增強(qiáng)Swin Transformer 作為主干網(wǎng)絡(luò),充分利用其分層設(shè)計(jì)和移動(dòng)窗口的優(yōu)點(diǎn)減小網(wǎng)絡(luò)計(jì)算量,同時(shí)設(shè)計(jì)空間局部感知塊并插入每個(gè)階段以實(shí)現(xiàn)高效精確的遙感圖像檢測(cè)。此外,設(shè)計(jì)一種新的Area-IoU 損失函數(shù),引入加權(quán)因子以改善對(duì)小物體的特征學(xué)習(xí),解決正負(fù)樣本不平衡問題,提升網(wǎng)絡(luò)檢測(cè)性能。
構(gòu)建一種基于感知增強(qiáng)Swin Transformer 的遙感圖像檢測(cè)網(wǎng)絡(luò),整體框架如圖1 所示。使用局部增強(qiáng)Swin Transformer 模塊作為特征提取主干網(wǎng)絡(luò),通過特征金字塔細(xì)化特征,并設(shè)計(jì)Area-IoU 損失函數(shù)同時(shí)解決正負(fù)樣本不平衡和不同分支之間的差距問題,實(shí)現(xiàn)更精確的遙感圖像檢測(cè)。
圖1 基于感知增強(qiáng)Swin Transformer 的遙感圖像檢測(cè)網(wǎng)絡(luò)框架Fig.1 Framework of remote sensing image detection network based on the perceptually enhanced Swin Transformer
針對(duì)傳統(tǒng)Transformer 中逐像素計(jì)算的自注意力機(jī)制計(jì)算量巨大且其中的位置編碼操作無(wú)法捕獲圖像中的局部相關(guān)性和整體結(jié)構(gòu)信息,文獻(xiàn)[16]在Swin Transformer 中提出分層結(jié)構(gòu)和移位窗口機(jī)制,有效減小了計(jì)算量并提升了檢測(cè)準(zhǔn)確率。
Swin Transformer 網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。首先,將輸入大小為H×W×3 的圖像通過標(biāo)記分割塊分割成相同大小的小塊送入后續(xù)處理。然后,每個(gè)小塊共被分為4 個(gè)階段,每個(gè)階段都包含2 個(gè)部分,除了第1 個(gè)階段由1 個(gè)線性嵌入塊和1 個(gè)Swin Transformer 塊構(gòu)成之外,其余3 個(gè)階段均由1 個(gè)標(biāo)記合并塊和1 個(gè)Swin Transformer 塊構(gòu)成,其中,標(biāo)記合成塊類似于池化操作,但是不會(huì)造成信息損失。經(jīng)過每個(gè)階段處理后圖像分辨率變?yōu)樵鹊?/2,通道數(shù)變?yōu)樵鹊? 倍。
圖2 Swin Transformer 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of the Swin Transformer
Swin Transformer 塊結(jié)構(gòu)如圖3 所示,Swin Transformer 與Transformer 塊結(jié)構(gòu)類似,不同之處在于將原始的多頭自注意力(MSA)換成了窗口多頭自注意力(W-MSA)和移動(dòng)窗口多頭自注意力(SWMSA)。
圖3 Swin Transformer 塊結(jié)構(gòu)Fig.3 Block structure of the Swin Transformer
考慮到MSA 在全局內(nèi)逐像素計(jì)算的冗余性,W-MSA 僅在一個(gè)小窗口內(nèi)進(jìn)行Transformer 操作。假設(shè)每個(gè)窗口包含M×M個(gè)小塊,那么兩者的計(jì)算復(fù)雜度分別如式(1)和式(2)所示,可以看出W-MSA大大減少了計(jì)算復(fù)雜度。此外,考慮到窗口的設(shè)置導(dǎo)致了不同窗口間的信息無(wú)法獲取的問題,進(jìn)一步提出SW-MSA,首先使用移動(dòng)窗口實(shí)現(xiàn)跨窗口的特征提取,然后使用循環(huán)移位操作合并窗口進(jìn)行批處理,并利用掩碼操作消除不相關(guān)部分的關(guān)聯(lián)性,實(shí)現(xiàn)高效的檢測(cè)性能。
1.2.1 局部增強(qiáng)Swin Transformer 主干網(wǎng)絡(luò)
對(duì)于背景復(fù)雜且存在較多小目標(biāo)的遙感圖像檢測(cè),Swin Transformer 中仍然沒有很好地對(duì)大量空間上下文信息進(jìn)行編碼。為了解決這個(gè)問題,本文改進(jìn)Swin Transformer 并提出了局部增強(qiáng)Swin Transformer 主干網(wǎng)絡(luò)(LEST),以更好地提取遙感圖像特征。局部增強(qiáng)Swin Transformer 主干網(wǎng)絡(luò)設(shè)計(jì)如圖4 所示,該主干網(wǎng)絡(luò)共包含4 個(gè)階段,每個(gè)階段由1 個(gè)標(biāo)記合并塊(第1 個(gè)階段為線性嵌入塊)、n個(gè)空間局部感知塊和n個(gè)Swin Transformer 塊組成,其中n表示對(duì)應(yīng)階段的塊數(shù)。在Swin Transformer 中共提供了4 種不同大小的模型[16],考慮到遙感圖像尺寸以及模型計(jì)算量問題,僅使用Swin Transformer進(jìn)行改進(jìn),即對(duì)應(yīng)每個(gè)階段n的數(shù)值分別為2、2、6、2。
圖4 局部增強(qiáng)Swin Transformer 主干網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Structure of local enhanced Swin Transformer backbone
1.2.2 空間局部感知模塊
為了加強(qiáng)網(wǎng)絡(luò)對(duì)遙感圖像中局部相關(guān)性和結(jié)構(gòu)信息的提取能力,融合空洞卷積[17]和殘差連接提出一種空間局部感知塊。將這一模塊插入每一個(gè)Swin Transformer 塊之前,并與Swin Transformer 塊一起在每個(gè)階段中重復(fù)對(duì)應(yīng)的次數(shù)??臻g局部感知模塊結(jié)構(gòu)如圖5 所示,考慮到Swin Transformer 中的數(shù)據(jù)輸入格式與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)不同,首先對(duì)原始輸入數(shù)據(jù)格式進(jìn)行調(diào)整。假設(shè)原始數(shù)據(jù)輸入為(B,H×W,C),調(diào)整后格式為(B,C,H,W),將這一特征作為殘差連接的一個(gè)分支,另一個(gè)分支首先進(jìn)行一次3×3 的空洞卷積,然后送入一個(gè)GeLU 函數(shù)激活,最后將兩個(gè)分支相加,以擴(kuò)大感受野并提取遙感圖像中更多的空間局部信息。
圖5 空間局部感知模塊結(jié)構(gòu)Fig.5 Structure of spatial local perceptually module
與傳統(tǒng)卷積操作相比,空洞卷積[17]可以在不損失圖像信息的情況下,擴(kuò)大感受野范圍(普通3×3 的卷積的感受野為3×3,相同內(nèi)核大小下擴(kuò)張率為2 的空洞卷積感受野為5×5),從而更好地在不同尺度上對(duì)更大范圍的上下文信息進(jìn)行編碼。
在遙感圖像中的檢測(cè)背景復(fù)雜,在網(wǎng)絡(luò)訓(xùn)練時(shí)可能會(huì)提取到圖像中大量無(wú)用的背景信息,導(dǎo)致正負(fù)樣本不平衡,不利于遙感圖像檢測(cè)網(wǎng)絡(luò)的性能提升。為了解決這一問題,引入一種Area-IoU 損失函數(shù)。將檢測(cè)框的參數(shù)標(biāo)記為四參數(shù){x,y,w,h},在計(jì)算最終損失函數(shù)時(shí)表示為改進(jìn)的IoU-aware 分類損失和區(qū)域分配回歸損失的和,具體公式如下:
其中:i?[1,N]表示小批量中錨框的索引;N表示錨框數(shù)量;pi表示預(yù)測(cè)IoU-aware 分類得分(IACS)[18];表示預(yù)測(cè)框和真實(shí)值之間的交并比(IoU);ti和分別表示預(yù)測(cè)框和真實(shí)值的坐標(biāo);Lcls表示分類損失,本文提出一種改進(jìn)的IoU-aware 分類損失;Lreg表示用于回歸4 個(gè)參數(shù){x,y,w,h}的區(qū)域分配回歸損失。
1.3.1 區(qū)域分配回歸損失
針對(duì)遙感圖像檢測(cè)中嚴(yán)重的尺度不平衡問題,使用相同權(quán)重的L1 平滑損失函數(shù)不利于小物體的特征學(xué)習(xí)。為此,受文獻(xiàn)[19]的啟發(fā),設(shè)計(jì)一種新的區(qū)域分配回歸損失,具體公式如下:
其中:Lsmooth代表L1 平滑損失函數(shù)且代表一個(gè)單調(diào)遞減的加權(quán)因子,即權(quán)重隨著檢測(cè)目標(biāo)區(qū)域面積的增大而減小。
相較于其他回歸損失方法,該方法增大了小目標(biāo)的權(quán)重,在回歸時(shí)更多關(guān)注小目標(biāo),從而有效地解決了尺度不平衡問題。將?i引入回歸損失函數(shù)后,區(qū)域分配回歸損失可以定義如下:
1.3.2 改進(jìn)的IoU-aware 分類損失
近年來,基于IoU-aware 的分類損失設(shè)計(jì)表現(xiàn)出了重要作用和優(yōu)越性能,但是現(xiàn)有的多數(shù)方法只是將IoU 預(yù)測(cè)分支作為一個(gè)輔助分支來輔助分類。為了消除不同預(yù)測(cè)分支之間的差距,文獻(xiàn)[20]提出一種可以從稠密檢測(cè)候選框中校準(zhǔn)預(yù)測(cè)框置信度的計(jì)算方式,將分類目標(biāo)由真實(shí)值替換為預(yù)測(cè)框與真實(shí)值之間的IoU,并設(shè)計(jì)了一種焦點(diǎn)損失,分類性能得到了明顯提升。參考上述方法,提出一種改進(jìn)的IoU-aware 分類損失函數(shù),具體公式如下:
其中:pi表示預(yù)測(cè)IACS 值表示目標(biāo)得分。對(duì)于正樣本為預(yù)測(cè)邊界框與地面真實(shí)值之間的IoU。對(duì)于負(fù)樣本值取0。相較于其他的分類損失,改進(jìn)的IoU-aware 分類損失簡(jiǎn)單有效地消除了不同分支間的差距,減小了網(wǎng)絡(luò)分類的損失。
DOTA 數(shù)據(jù)集[21]是目前最大的公開可用遙感數(shù)據(jù)集,包括15 類共2 806 幅來自不同傳感器和平臺(tái)的航空?qǐng)D像,圖像大小從800×800 像素到4 000×4 000 像素不等,包含各種不同尺度、方向和形狀的物體。所有的訓(xùn)練和驗(yàn)證圖像都被分割成600×600 像素的塊,并重疊150 像素。實(shí)驗(yàn)平臺(tái)如下:操作系統(tǒng)為Ubuntu18.04,深度學(xué)習(xí)框架為PyTorch1.8.1,訓(xùn)練GPU 為NVIDIA GeForce RTX 3090。
所提網(wǎng)絡(luò)模型在訓(xùn)練時(shí)均使用相同的設(shè)置:使用多尺度訓(xùn)練,訓(xùn)練時(shí)批大小為1,迭代次數(shù)為50 個(gè)epoch,初始化學(xué)習(xí)率為0.000 1,采用權(quán)重衰減因子為0.05 的AdamW 優(yōu)化器,并參考文獻(xiàn)[17]中的3x策略(訓(xùn)練50 個(gè)epoch,并在第27 個(gè)epoch 后學(xué)習(xí)率衰減為之前的1/10)進(jìn)行訓(xùn)練。
選擇一些常見的深度學(xué)習(xí)目標(biāo)檢測(cè)指標(biāo)作為實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn),包括召回率(Recall)、準(zhǔn)確率(Precision)、平均精度均值(mAP)[22]、參數(shù)量(Parameter)、浮點(diǎn)運(yùn)算次數(shù)(FLOPs)、運(yùn)行速度(FPS)、F1 值、馬修斯相關(guān)系數(shù)(MCC)[23]等。IoU 由混淆矩陣生成。準(zhǔn)確率、召回率、假陽(yáng)性率(FPR)、F1值、MCC的計(jì)算公式分別如下:
其中:TTP表示被正確預(yù)測(cè)為正樣本的數(shù)量;FFP表示被錯(cuò)誤預(yù)測(cè)為正樣本的數(shù)量;TTN表示被正確預(yù)測(cè)為負(fù)樣本的數(shù)量;FFN表示被錯(cuò)誤預(yù)測(cè)為負(fù)樣本的數(shù)量。
對(duì)于多類別目標(biāo)檢測(cè)任務(wù),分別計(jì)算平均精度再對(duì)所有類別求平均,就可以得到最終的平均精度均值。此外,為了提升網(wǎng)絡(luò)模型的魯棒性,還使用隨機(jī)旋轉(zhuǎn)、水平和垂直翻轉(zhuǎn)方法進(jìn)行數(shù)據(jù)增強(qiáng)。
為驗(yàn)證PESTN 的有效性,基于DOTA 數(shù)據(jù)集[21]進(jìn)行一系列消融實(shí)驗(yàn),逐步分析每個(gè)部分的性能。實(shí)驗(yàn)中的基準(zhǔn)模型使用Swin Transformer-Tiny(簡(jiǎn)寫為Swin-T)作為主干網(wǎng)絡(luò)和L1 平滑損失函數(shù)。在此基礎(chǔ)上,構(gòu)造不同的模型分別來全面評(píng)估PESTN 中各部分的有效性。
為了驗(yàn)證所提LEST 主干網(wǎng)絡(luò)的性能,分別將DeiT-S[24]、Swin-T 和LEST 分別作為主干網(wǎng)絡(luò)插入Mask R-CNN[25]和Cascade Mask R-CNN 兩個(gè)典型的目標(biāo)檢測(cè)網(wǎng)絡(luò)框架進(jìn)行對(duì)比實(shí)驗(yàn)。原始DeiT 只產(chǎn)生單一分辨率的特征圖,無(wú)法直接應(yīng)用在上述框架上,為了比較公平性,參照文獻(xiàn)[17]使用卷積層為DeiT 構(gòu)建層次化的特征圖以實(shí)現(xiàn)和ResNet50、Swin-T相同的分層結(jié)構(gòu)。此外,鑒于輸入遙感圖像的尺寸大小,僅使用DeiT-S 進(jìn)行相關(guān)實(shí)驗(yàn)。在上述兩個(gè)框架中分別插入DeiT-S 的性能結(jié)果如表1 所示,以Cascade Mask R-CNN 框架為例,使用Swin-T 作為主干網(wǎng)絡(luò)時(shí)mAP 高出3.23%,模型大小相似(86×106與80×106),每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPs)明顯減小(742×109與885×109),檢測(cè)速度明顯提高(5.8 幀/s 與3.2 幀/s)。在Mask R-CNN 框架中性能也得到了相應(yīng)的提升。此外,當(dāng)在兩個(gè)典型的框架上使用改進(jìn)后的LEST 作為主干網(wǎng)絡(luò)時(shí),在FLOPs 沒有顯著增加、檢測(cè)速度沒有顯著降低時(shí),網(wǎng)絡(luò)性能得到了進(jìn)一步提升:Mask R-CNN 的平均精度均值提升了4.16 個(gè)百分點(diǎn),Cascade Mask R-CNN 提升了3.41 個(gè)百分點(diǎn)。這說明了所提LEST 主干網(wǎng)絡(luò)可以在減少FLOPs 的情況下有效提高對(duì)遙感圖像中目標(biāo)的檢測(cè)性能。
表1 不同框架上不同主干網(wǎng)絡(luò)的性能比較Table 1 Performance comparison of different backbones on different frameworks
使用不同主干網(wǎng)絡(luò)的檢測(cè)結(jié)果可視化如圖6 所示。由圖6(b)可以看出,當(dāng)使用ResNet101 作為主干網(wǎng)絡(luò)時(shí),檢測(cè)圖片左下角的船只時(shí)置信度較低,并出現(xiàn)了漏檢以及由同一邊緣檢測(cè)區(qū)域?qū)е碌腻e(cuò)檢現(xiàn)象。如圖6(c)所示,使用Swin-T 作為主干網(wǎng)絡(luò)時(shí)可以準(zhǔn)確檢測(cè)出船只區(qū)域,同時(shí)也提高了置信度。如圖6(d)所示,LEST 更多關(guān)注對(duì)圖像中局部信息的學(xué)習(xí),消除了對(duì)圖像中部白色非船只物體的誤檢,LEST 可以檢測(cè)到更多正確的目標(biāo),并進(jìn)一步提升了置信度。
圖6 使用不同主干網(wǎng)絡(luò)的檢測(cè)結(jié)果可視化Fig.6 Visualization of detection results by using different backbones
不同損失函數(shù)在DOTA 數(shù)據(jù)集[21]的部分小目標(biāo)檢測(cè)類別上的結(jié)果如表2 所示。其中,√表示使用該網(wǎng)絡(luò)或損失,?表示不使用該網(wǎng)絡(luò)或損失。由表2可以看出,當(dāng)使用區(qū)域分配回歸損失Larea時(shí),在小目標(biāo)類別小車和大車上的檢測(cè)準(zhǔn)確率分別提高了0.95 和1.51 個(gè)百分點(diǎn),同時(shí)平均精度均值也提升了0.53 個(gè)百分點(diǎn);當(dāng)使用改進(jìn)IoU-aware 分類損失LIoU時(shí),平均精度均值為77.87%,提升了0.44 個(gè)百分點(diǎn);當(dāng)同時(shí)使用融合后的2 種損失函數(shù)時(shí),平均精度均值達(dá)到了78.47%,提升了1.04 個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,Area-IoU 損失函數(shù)中的兩部分對(duì)遙感小目標(biāo)的檢測(cè)性能都有不同程度的提升。
表2 兩種損失函數(shù)在DOTA 數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Table 2 Ablation experimental results of two loss functions on the DOTA dataset
為了驗(yàn)證所提PESTN 網(wǎng)絡(luò)在遙感圖像上的檢測(cè)性能,在大型公開的遙感數(shù)據(jù)集DOTA[21]上進(jìn)行實(shí)驗(yàn),將其與SCRDet[2]、SCRDet++[3]、Mask R-CNN[25]、Faster R-CNN[26]、R3Det[27]、Gliding Vertex[28]、DINO[29]、Mask OBB[30]網(wǎng)絡(luò)得到的檢測(cè)結(jié)果進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表3 所示,其中最優(yōu)值加粗表示。
表3 DOTA 數(shù)據(jù)集上不同網(wǎng)絡(luò)性能對(duì)比Table 3 Performance comparison of different networks on the DOTA dataset
由表3 可以看出:PESTN 的平均精度均值高于其他對(duì)比網(wǎng)絡(luò),達(dá)到78.47%,檢測(cè)速度達(dá)到了10.8 幀/s,并且在各檢測(cè)類別上表現(xiàn)良好,均達(dá)到了最高的平均檢測(cè)準(zhǔn)確率;相較于經(jīng)典的目標(biāo)檢測(cè)網(wǎng)絡(luò)Faster R-CNN 和Mask R-CNN,PESTN 的mAP 分別提高了11.75 和10.92 個(gè)百分點(diǎn);相較于近期提出優(yōu)秀的基于Transformer 的遙感圖像檢測(cè)網(wǎng)絡(luò)DINO[25],PESTN 的平均精度均值提升了2.50 個(gè)百分點(diǎn),檢測(cè)速度更快,并且在尺度較小的小車、大車、直升機(jī)等目標(biāo)上檢測(cè)效果均有大幅提高;相較于最優(yōu)對(duì)比網(wǎng)絡(luò),在平均精度均值上也提升了1.49 個(gè)百分點(diǎn),并在檢測(cè)速度上具有明顯優(yōu)勢(shì)。
DOTA 數(shù)據(jù)集[21]上部分可視化的檢測(cè)結(jié)果如圖7所示。由圖7 可以看出,PESTN 可以很好地檢測(cè)出遙感圖像中各類不同尺度大小的目標(biāo)。此外,為了更全面地評(píng)估PESTN 模型性能,在圖8 中比較了基準(zhǔn)模型Swin-T 和PESTN 在準(zhǔn)確率、召回率、F1 值和MCC 指標(biāo)上的性能,在圖9 中繪制了兩者的ROC 曲線并分別計(jì)算曲線下面積(AUC)。可以看出,PESTN 模型在各檢測(cè)性能指標(biāo)上均表現(xiàn)較優(yōu)。
圖7 DOTA 數(shù)據(jù)集上的檢測(cè)結(jié)果Fig.7 Detection results on the DOTA dataset
圖8 Swin-T 和PESTN 各項(xiàng)檢測(cè)性能比較Fig.8 Comparison of the detection performance of Swin-T and PESTN
圖9 Swin-T 和PESTN 的ROC 曲線比較Fig.9 Comparison of the ROC curves of Swin-T and PESTN
針對(duì)遙感圖像檢測(cè)中計(jì)算復(fù)雜度高、目標(biāo)尺度小、正負(fù)樣本不平衡等問題,本文提出一種基于感知增強(qiáng)Swin Transformer 的遙感圖像檢測(cè)網(wǎng)絡(luò)。改進(jìn)Swin Transformer 主干網(wǎng)絡(luò),在保留原始分層設(shè)計(jì)和移動(dòng)窗口優(yōu)點(diǎn)的同時(shí),插入空間局部感知模塊對(duì)空間上下文信息進(jìn)行編碼,提高了主干網(wǎng)絡(luò)的局部感知能力,并有效減少了計(jì)算復(fù)雜度。此外,設(shè)計(jì)Area-IoU 損失函數(shù),引入加權(quán)因子改善對(duì)小物體的特征學(xué)習(xí),以解決正負(fù)樣本不平衡問題,同時(shí)引入改進(jìn)的IoU-aware 分類損失消除不同分支之間的差距。在DOTA 數(shù)據(jù)集[21]上的各項(xiàng)實(shí)驗(yàn)結(jié)果驗(yàn)證了該網(wǎng)絡(luò)的有效性。后續(xù)將在確保較高網(wǎng)絡(luò)平均精度均值的情況下進(jìn)一步提升檢測(cè)速度,同時(shí)探索Swin Transformer 在其他領(lǐng)域的改進(jìn)和應(yīng)用。