鄒華宇 王劍 刁悅欽 山子岐 史小兵
基金項目:國家級創(chuàng)新項目(批準號:KKPT202103005)資助的課題。
作者簡介:鄒華宇(1993-),高級工程師,從事深度學(xué)習(xí)、計算機視覺目標檢測的研究。
通訊作者:王劍(1976-),副教授,從事圖像處理、自然語言處理方向的研究,1528906057@qq.com。
引用本文:鄒華宇,王劍,刁悅欽,等.基于視覺注意和語義信息特征融合的遙感圖像目標檢測方法[J].化工自動化及儀表,2024,51(3):379-387;395.
DOI:10.20030/j.cnki.1000?3932.202403002
摘 要 針對遙感圖像目標檢測方法中存在的特征提取不充分、語義信息表達能力弱、小目標檢測準確率低和定位不準確的問題,提出了一種基于YOLOv5和Swin Transformer的改進策略。實驗結(jié)果表明,與傳統(tǒng)方法以及其他改進策略方法相比,文中的方法在公共數(shù)據(jù)集DOTA和自建數(shù)據(jù)集SkyView上均表現(xiàn)出更高的檢測準確率,性能優(yōu)勢顯著。
關(guān)鍵詞 遙感圖像目標檢測 多尺度特征融合 坐標注意力機制 Swin Transformer
中圖分類號 TP393.08?? 文獻標志碼 A?? 文章編號 1000?3932(2024)03?0379?10
目標檢測問題作為計算機視覺工程的基礎(chǔ),是計算機視覺領(lǐng)域的核心任務(wù)之一,其在工業(yè)領(lǐng)域中具有巨大的實用價值,例如遙感影像分析、醫(yī)療健康檢查等[1]。
遙感圖像目標檢測是指在遙感圖像中自動識別和定位目標物體的過程,其應(yīng)用范圍廣泛,涉及城市規(guī)劃、農(nóng)業(yè)、軍事及國防安全等諸多領(lǐng)域。然而,遙感圖像目標檢測在實際應(yīng)用過程中存在一些弊端:首先,遙感圖像的目標物體往往比較小,且目標與背景之間的差異較小,增加了目標檢測的難度;其次,遙感圖像中存在大量的干擾因素,如云層、陰影及反射等,這些因素都會影響目標檢測的準確性和效率;最后,在實際應(yīng)用中還需要考慮到算法的實時性、魯棒性等問題。因此,遙感圖像的目標檢測仍然是一項具有挑戰(zhàn)性的任務(wù)。
在深度學(xué)習(xí)領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、Transformer等模型被廣泛應(yīng)用于遙感圖像目標檢測中。其中,基于CNN的網(wǎng)絡(luò)在抽取底層特征方面(如針對小目標檢測的RetinaNet[2]、針對旋轉(zhuǎn)目標的檢測[3]等)具有顯著優(yōu)勢。與CNN相比,基于Transformer的檢測技術(shù)能夠?qū)崿F(xiàn)更好的視覺建模,因為它無需像CNN一樣手動設(shè)計卷積核大小、步長等超參數(shù),通過自注意力機制[4]即可實現(xiàn)全局信息的交互和建模,能夠更好地捕捉遙感圖像中目標之間的關(guān)聯(lián)性和上下文信息,從而提高目標檢測的準確率[5,6]。
在此,筆者提出一種適用于遙感圖像中小目標檢測的網(wǎng)絡(luò)模型,該模型基于Swin Transformer[7]和YOLOv5[8]網(wǎng)絡(luò)的組合,通過引入坐標注意力機制(Coordinate Attention,CA)[9]和卷積塊注意模塊(Convolutional Block Attention Module,CBAM)[10],在減少網(wǎng)絡(luò)計算開銷的同時關(guān)注更大的區(qū)域。同時,通過改進K?means聚類算法,使其生成更適合遙感圖像的錨框,從而提高檢測結(jié)果的召回率并加快模型的收斂速度。
1 模型基礎(chǔ)
1.1 YOLOv5
目前,主流的目標檢測算法主要分為單階段和兩階段兩種策略。其中,基于候選框的兩階段方法例如R?CNN[11]、Faster RCNN[12]及Cascade
RCNN[13]等,其實現(xiàn)過程為:首先,對感興趣的區(qū)域進行候選框獲取,然后利用CNN網(wǎng)絡(luò)生成對應(yīng)的特征圖,對候選框進行分類識別和邊框回歸從而完成目標檢測。這類方法檢測精度較高,但計算量較大,不適合實時應(yīng)用?;诨貧w的單階段方法如SSD[14]、YOLO系列等,此類方法將整個檢測過程簡化為一個回歸問題,直接預(yù)測每個網(wǎng)格或錨點框內(nèi)是否存在目標及其位置信息,這類算法通常收斂速度較快、計算復(fù)雜度較低、檢測實時性較強。尤其是YOLOv5,其在計算速度和精度方面都具有顯著優(yōu)勢。
1.2 Swin Transformer
自注意力機制通過對輸入序列中不同位置的元素之間的關(guān)系進行建模,從而實現(xiàn)對全局信息的建模和提取。2017年,Google研究團隊基于自注意力機制提出了Transformer[15]架構(gòu),隨即在自然語言處理(Natural Language Processing,NLP)領(lǐng)域的序列建模、機器翻譯等任務(wù)上顯示出了巨大優(yōu)勢。隨后,研究學(xué)者通過將CNN中成功的先驗知識引入Transformer中,實現(xiàn)了局部性、層次化、多尺度、殘差連接及歸納偏置等設(shè)計。2018年,文獻[16]首次將Transformer應(yīng)用于計算機視覺領(lǐng)
域。2021年,目標檢測模型DETR和圖像分類模
型[17]的提出成為了Transformer高速發(fā)展的開端,其中Swin Transformer是將Transformer引入目標檢測領(lǐng)域的一次成功嘗試。以上算法可通過直接比較所有位置或時間的特征來建立全局信息模型,在圖像分類、目標檢測、分割等任務(wù)中取得了良好的效果,為計算機視覺領(lǐng)域的各種問題提供了一種新的解決方案。
盡管Transformer模型在處理全局信息方面表現(xiàn)出色,但是它們可能會忽略一部分局部信息,對遙感目標不敏感,導(dǎo)致對小物體目標的檢測效果不佳。為了獲得更好的性能表現(xiàn),筆者聯(lián)合使用CNN和Transformer,并集成了Swin Transformer和YOLOv5網(wǎng)絡(luò),以提高模型的檢測精度和魯棒性。
2 網(wǎng)絡(luò)模型的建立
2.1 網(wǎng)絡(luò)整體架構(gòu)
遙感圖像目標檢測方法結(jié)構(gòu)框架如圖1所示。其中,輸入部分用于對圖像進行預(yù)處理,以增強網(wǎng)絡(luò)的魯棒性、提高檢測精度。在骨干網(wǎng)絡(luò)部分,通過CBS、C3和SPPF(空間金字塔池化模
塊)[18]3種結(jié)構(gòu)從預(yù)處理的輸入圖像中提取豐富的特征信息。其中,CBS負責(zé)對輸入特征進行卷積、歸一化和激活操作;C3結(jié)構(gòu)作為一個簡化的瓶頸CSP,包含3個CBS層和多個瓶頸模塊,有助于進一步提取特征;SPPF用于實現(xiàn)局部特征和全局特征的融合,提升特征表達能力。在骨干網(wǎng)絡(luò)末尾,添加基于Swin Transformer的改進CSPDarknet53[19]網(wǎng)絡(luò),通過引入自注意力機制提高特征提取能力。頸部部分采用路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PANet)[20]結(jié)構(gòu)進行特征融合,用于聚合骨干部分不同檢測層的參數(shù),實現(xiàn)自上而下的路徑傳遞語義特征,自下而上的路徑傳遞定位特征。此外,使用雙向特征金字塔網(wǎng)絡(luò)(Bi?directional Feature Pyramid Network,BiFPN)[21]將特征融合層擴展到4個尺度的檢測分支結(jié)構(gòu),從而提高檢測性能。在檢測部分,使用CIoU[22]作為損失函數(shù)。與傳統(tǒng)的IoU損失函數(shù)相比,CIoU損失函數(shù)同時考慮了邊界框的重疊程度、中心點偏移和長寬比例差異,因此能夠提高預(yù)測邊界框回歸的速度和精度。
網(wǎng)絡(luò)整體架構(gòu)是由多個模塊組成的深度神經(jīng)網(wǎng)絡(luò),用于識別圖像中的物體并為它們提供分類標簽(Class)和邊界框(Bbox),并利用上采樣(Upsample)和拼接(Concat)操作結(jié)合不同層次的特征,以提高模型預(yù)測精度。
2.2 K?means聚類算法的改進
錨框是一種常用的目標檢測方法,用于在輸入圖像中生成一組候選區(qū)域。為了在具體的數(shù)據(jù)集上更好地匹配目標特征,需要考慮該數(shù)據(jù)集所有錨框的尺度分布情況,從而選取合適的錨框,以便穩(wěn)定模型訓(xùn)練并加快收斂速度。YOLOv5使用K?means聚類算法來生成錨框。該算法的思想是將所有訓(xùn)練集的邊界框分成若干簇,根據(jù)各簇的中心點生成錨框。然而,傳統(tǒng)的K?means聚類算法存在一些缺點,例如需要手動確定K值即簇的數(shù)量,需要使用歐氏距離來度量邊界框之間的相似性,這在長寬比不同的邊界框中可能無法體現(xiàn)出它們之間的相似性。為此,筆者提出采用Elbow Method和Silhouette Method自動確定最佳K值,這將有助于選取更適合的錨框數(shù)量,從而提高模型性能;使用CIoU指數(shù)代替歐氏距離作為相似性指標,它綜合了邊界框的重疊程度、長寬比和中心點距離。CIoU損失L的計算式如下:
L=1-IoU++αv(1)
α=(2)
v=arctan
-arctan
(3)
其中,IoU代表交并比;ρ代表兩個中心點之間的歐氏距離;b和b分別代表預(yù)測框和真實框的中心點坐標;c代表對角線長度;α代表長寬比失衡的懲罰項;v代表長寬比失衡程度;αv是一個常數(shù),用于對誤差進行懲罰;w、h與w、h分別代表預(yù)測框與真實框的寬度、高度。
使用CIoU指數(shù)作為相似性指標,可以更準確地度量邊界框之間的相似性,從而在K?means聚類過程中得到更準確的錨框,這將有助于提高YOLOv5在目標檢測任務(wù)中的性能。
2.3 引入注意力機制的特征加強網(wǎng)絡(luò)
2.3.1 注意力機制
在目標檢測任務(wù)中,模型需要對不同目標物體的特征進行不同的關(guān)注。如果模型對所有特征圖的關(guān)注程度相同,則會影響模型的收斂速度。因此,如何快速且有效地提取重要特征對于模型至關(guān)重要。
CBAM(圖2)是一種用于深度卷積神經(jīng)網(wǎng)絡(luò)的輕量級注意力模塊,作為特征增強網(wǎng)絡(luò)的輸入,主要負責(zé)連接主干特征提取網(wǎng)絡(luò)和特征增強網(wǎng)絡(luò),從而提高模型性能。CBAM主要包含兩部分:通道注意力模塊(Channel Attention Module,CAM)和空間注意力模塊(Spatial Attention Module,SAM)。其中,γ、λ、ω是多層感知器中的權(quán)重參數(shù),代表不同層的學(xué)習(xí)參數(shù)。通過這種注意力機制,網(wǎng)絡(luò)能夠更加專注于圖像的關(guān)鍵區(qū)域,從而在圖像分類、目標檢測等任務(wù)中取得更好的結(jié)果。
在遙感圖像中,小物體占用的像素較少,容易受到復(fù)雜場景的影響。因此,在CBAM的基礎(chǔ)上增加一個CA模塊(圖3),用于增強對位置信息的關(guān)注度,這樣能夠以較小的計算代價在更充分的信息基礎(chǔ)上學(xué)習(xí)表示,從而提高模型性能。
r——衰減率,用于減少參數(shù); C——通道數(shù);
H——特征圖的高度;??? W——特征圖的寬度
通過CA模塊的加權(quán)相乘操作,神經(jīng)網(wǎng)絡(luò)可以更加有效地學(xué)習(xí)輸入數(shù)據(jù)的關(guān)鍵特征,并提高模型在任務(wù)上的性能。具體實現(xiàn)步驟如下:
a. 將輸入特征圖分別送入兩個分支,生成通道向量和位置向量;
b. 將位置向量和通道向量相互作用,生成一個加權(quán)的注意力矩陣;
c. 使用注意力矩陣對輸入的特征進行加權(quán),以生成最終的特征表示,并將其傳遞給后續(xù)的網(wǎng)絡(luò)層進行分類或其他任務(wù)。
在此過程中,CA自適應(yīng)學(xué)習(xí)不同坐標位置的相關(guān)性,從而增強特征表示能力。
2.3.2 雙向加權(quán)特征融合
YOLOv5目標檢測模型的Neck組件采用PANet結(jié)構(gòu)以實現(xiàn)多尺度特征融合。然而,PANet結(jié)構(gòu)在特征圖融合方面使用相對簡單的張量拼接方法,并未考慮不同尺度特征圖對網(wǎng)絡(luò)檢測效果的影響。為了解決這些問題并提高特征融合的質(zhì)量與效率,針對原特征金字塔網(wǎng)絡(luò)的局限性,引入雙向加權(quán)特征金字塔網(wǎng)絡(luò)BiFPN(圖4)。相較于PANet結(jié)構(gòu),BiFPN通過雙向特征傳遞和特征加權(quán)機制可以實現(xiàn)高效的多尺度特征融合,并且可以在不損失檢測精度的情況下大幅減少模型的參數(shù)量和計算量。
P~P——不同層級主干網(wǎng)絡(luò)中不同分辨率的輸出
首先,BiFPN刪除了只有單個輸入的節(jié)點,減少了一些冗余計算,從而提高網(wǎng)絡(luò)的計算效率。其次,BiFPN在同一尺寸的特征圖上增加了跳躍連接,使得特征融合時能夠獲得更多的特征;在特征融合方面,BiFPN選擇引用權(quán)重對特征進行加權(quán)融合,從而提高了特征融合的質(zhì)量、準確性和效率。最后,在權(quán)值歸一化方面,BiFPN采用一種精度與softmax相近但速度比其快30%的歸一化方法,進一步提高網(wǎng)絡(luò)的收斂速度和計算效率。模型輸出特征O的計算式為:
O=·I(4)
其中,I表示輸入特征;ε是一個極小的值,為避免歸一化計算中數(shù)值不穩(wěn)定,ε通常設(shè)置為0.000 1;ω表示學(xué)習(xí)到的權(quán)重值,并用激活函數(shù)ReLU確保ω≥0。
改進的網(wǎng)絡(luò)采用跨尺度連接和加權(quán)特征融合,將從主干網(wǎng)絡(luò)提取的3種尺度不同的特征P、P、P作為輸入。以P層為例,改進的特征融合計算過程如下:
P=Conv
(5)
P=Conv
(6)
其中,P表示“自頂而下”的中間特征;P表示“自底向上”的輸出特征;Conv(·)表示卷積操作;Resize(·)表示對特征層尺度進行修改,即上采樣或下采樣;ω′、ω′、ω′表示不同輸入特征層的權(quán)重,這些權(quán)重用于加權(quán)融合不同分辨率的特征層,在雙向特征金字塔網(wǎng)絡(luò)(BiFPN)中進行特征整合。
2.4 Swin Transformer模型
在計算機視覺領(lǐng)域,Transformer通過注意力機制捕獲全局信息并建立目標的遠距離依賴,從而提取更強有力的特征。然而,Transformer在實際使用過程中面臨兩大挑戰(zhàn):物體尺度變化大,圖像像素點眾多。在目標檢測和語義分割等任務(wù)中,物體的大小可能在5%~95%甚至更大的范圍內(nèi)變化,在這種情況下,多尺度分層特征圖是至關(guān)重要的。此外,對于像素點多的密集預(yù)測任務(wù),若把像素點作為token,序列長度將變得極大,同時由于計算成本與圖像大小的平方成正比,導(dǎo)致Transformer難以處理高分辨率圖像。
為了解決上述問題,在連續(xù)的兩個Swin Transformer Block(圖5)中采用不同的MSA模塊,其主要由歸一化層(Layer Normalization,LN)、多
頭自注意力模塊(Multi?head Self?Attention,
MSA)、殘差連接和多層感知機(Multi?Layer Perceptron,MLP)組成。其中,z表示輸入或輸出特征表示的序列,例如z表示第l-1層的輸出特征(或第l層的輸入特征),[z][^]表示第l層之后的特征表示。
首先,采用基于窗口的多頭自注意力(Window?based Multi?head Self?Attention,W?MSA)模塊將輸入圖像分割為不重疊的窗口,每個窗口內(nèi)的像素點或圖像塊(例如分割后的小尺寸圖像塊)將被視為獨立的輸入序列。然后,在這些窗口中進行局部自注意力計算,使模型具有線性的計算復(fù)雜度。該處理方式不僅降低了計算復(fù)雜度,而且引入了局部性先驗,有助于處理物體尺度變化的問題。盡管W?MSA降低了自注意力計算的復(fù)雜度,但由于窗口間缺乏信息交互,難以提取圖像的高層語義信息。為此,引入基于移動窗口的多頭自注意力(Shifted Window?based Multi?head Self?Attention,SW?MSA)模塊。SW?MSA通過連接上一層相鄰但不重疊的窗口從而擴大感受野,捕獲圖像的高層語義信息。同時,在模型中連續(xù)使用兩個或其倍數(shù)的Swin Transformer Block,以便交替使用W?MSA模塊和SW?MSA模塊,從而保證不重疊的窗口間可以實現(xiàn)信息交換,相鄰窗口間能夠進行信息傳遞,增強模型建模效果,解決全局特征缺失的問題。
針對大規(guī)模復(fù)雜場景的遙感影像YOLOv5特征提取過程中細節(jié)信息丟失的問題(例如LN層會破壞在CNN中使用時學(xué)到的樣本特征),提出一種集成了CSPDarknet53和Swin Transformer的改進結(jié)構(gòu)C3 SW?T。C3 SW?T可以擴展網(wǎng)絡(luò)的感受野,提供更高的效率,更好地捕獲全局信息,豐富上下文信息,可以更好地識別遙感目標。
3 實驗結(jié)果與分析
3.1 數(shù)據(jù)集
采用DOTA數(shù)據(jù)集[23]和課題組自建數(shù)據(jù)集
SkyView來驗證筆者所提模型的有效性。
DOTA數(shù)據(jù)集是用于遙感圖像中目標檢測的圖像數(shù)據(jù)集,用于發(fā)現(xiàn)和評估航拍圖像中的物體。DOTA數(shù)據(jù)集含有15類總計2 806幅航拍圖,每張圖像的像素尺寸范圍在(800×800)~(4000×4000),涵蓋不同尺度、方向和形狀的物體。所有的訓(xùn)練和驗證圖像都被分割成640×640像素的塊,并重疊150像素。
SkyView數(shù)據(jù)集有1 825張無人機航拍圖像,涵蓋了多種自然和人工環(huán)境,包括城市(圖6a)、鄉(xiāng)村(圖6b)、森林、道路、建筑及農(nóng)田等。圖像采集自不同的飛行高度、航拍視角、城市、光照條件,單張圖像中往往包含多種目標信息,其檢測目標較小且易被遮擋。SkyView數(shù)據(jù)集使用Labelimg軟件進行標注,每張圖像配有一個對應(yīng)的JSON文件,包含圖像的基本信息、目標物體及場景描述。按照7∶3的比例隨機劃分訓(xùn)練集和驗證集。
3.2 實驗環(huán)境及參數(shù)設(shè)置
實驗在Ubuntu系統(tǒng)下的深度學(xué)習(xí)框架PyTorch中進行,詳細實驗環(huán)境配置列于表1。
網(wǎng)絡(luò)訓(xùn)練階段使用SGD算法來優(yōu)化損失函數(shù),此外還采取了優(yōu)化策略,例如預(yù)熱訓(xùn)練、余弦退火、梯度累積和指數(shù)移動平均,具體設(shè)置見表2。
3.3 評價標準
模型訓(xùn)練完成后,使用訓(xùn)練好的權(quán)重對模型進行測試,從多個方面對模型進行評價。筆者選取以下指標評估模型的性能。
精確率P代表模型預(yù)測正類的準確性,表示被分類器判斷為正例的樣本中,實際為正例的比例;召回率R是正確檢測到的對象數(shù)與所有標記對象數(shù)的比值,兩者的計算式如下:
P=×100%(7)
R=×100%(8)
其中,TP為真陽性,表示被正確預(yù)測為正樣本的數(shù)量;FP為假陽性,表示被錯誤預(yù)測為正樣本的數(shù)量;FN為假陰性,表示被錯誤預(yù)測為負樣本的數(shù)量。
平均精度均值mAP是綜合考慮了不同類別目標的檢測精度得分,是衡量目標檢測算法性能的重要指標之一,它由精確率和召回率計算得到:
mAP=AP(9)
AP=P(R)dR (10)
其中,APi為類別序號取i時對應(yīng)的精度值;n為類別數(shù)。
每秒幀數(shù)(Frames per Second,F(xiàn)PS)表示在推理過程中能夠處理的圖像幀數(shù)。
3.4 實驗及結(jié)果分析
3.4.1 不同改進策略的性能對比
為了更全面地評估改進后YOLOv5的檢測性能,筆者進行多組對比實驗,比較不同改進策略(K?means聚類算法改進、加入坐標注意力CA模塊、采用BiFPN架構(gòu)、引入Swin Transformer模型)的效果,結(jié)果見表3。從表3可以看出,采用不同的改進策略后,YOLOv5的性能有了不同程度的提升。融合所有改進策略后,即本文方法使得YOLOv5的性能達到了最佳,mAP最高,達到了78.5%,相較于未做任何改進的原始YOLOv5s提高了5.2%,精確率P和召回率R分別增加了6.1%和11.0%,F(xiàn)PS也提升了10幀,可見改進策略在提高檢測精度的同時還保持了較高的處理速度。
3.4.2 不同比例模型的效果對比
YOLOv5提供了4個不同比例的模型,分別為YOLOv5s(small,小型)、YOLOv5m(medium,中型)、YOLOv5l(large,大型)和YOLOv5x[24](extra large,超大型)。每個檢測器會對模型的深度和寬度乘以不同的系數(shù),以保持整體的結(jié)構(gòu)穩(wěn)定性,同時實現(xiàn)不同的比例和復(fù)雜度。然而,網(wǎng)絡(luò)模型越復(fù)雜,并不代表檢測準確性越好,反而可能會導(dǎo)致推理時間的增加。
為了驗證筆者所提方法的優(yōu)勢,對不同比例的模型方法進行性能比較(表4)。由表4可以看出,筆者所提方法能夠獲得更高的精確率、召回率和mAP,同時保持較快的推理速度,這主要得益于Swin Transformer的計算效率優(yōu)勢。
3.5 消融實驗
消融實驗通過減少或增加模型中的某些模塊進行算法性能檢測,以評估各模塊對算法性能的貢獻和影響[25]。將改進的各模塊進行組合,分別加入原始算法YOLOv5中,其中改進K?means聚類算法記為K,加入坐標注意力模塊記為CA,采用雙向加權(quán)特征金字塔網(wǎng)絡(luò)架構(gòu)記為BiFPN,引入Swin Transformer模型記為SW?T。
消融實驗結(jié)果列于表5,可以看出,不同策略改進后的方法,其4項性能指標均高于原始YOLOv5s算法,驗證了改進策略的有效性。
4 結(jié)束語
筆者提出了一種針對遙感圖像目標檢測的改進方法,結(jié)合了YOLOv5和Swin Transformer,有效提高了遙感小目標檢測的性能。實驗結(jié)果表明,筆者所提方法在DOTA和SkyView數(shù)據(jù)集上取得了顯著的性能提升。盡管本研究取得了一定的成果,但仍存在進一步優(yōu)化的空間。未來研究可以繼續(xù)探索新的注意力機制、特征融合方法和網(wǎng)絡(luò)結(jié)構(gòu),以進一步提高遙感圖像目標檢測的準確性和效率,探索Swin Transformer在其他領(lǐng)域的改進和應(yīng)用。
參 考 文 獻
[1]??? 楊鋒,丁之桐,邢蒙蒙,等.深度學(xué)習(xí)的目標檢測算法改進綜述[J].計算機工程與應(yīng)用,2023,59(11):1-15.
[2]??? XU Z, SU J, HUANG K.A?RetinaNet:A novel Retina Net with an asymmetric attention fusion mechanism for dim and small drone detection in infrared images[J].Mathematical Biosciences and Engineering,2023,
20(4):6630-6651.
[3]??? ZHU K, ZHANG X, CHEN G, et al. Multi?Oriented Rotation?Equivariant Network for Object Detection on Remote Sensing Images[J].IEEE Geoscience and Remote Sensing Letters,2022,19:1-5.
[4]??? YANG C L,WANG Y L,ZHANG J M,et al.Lite vision transformer with enhanced self?attention[C]//Proceedi?
ngs of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).New Orleans,LA,USA,2021:11998-12008.DOI:10.48550/arXiv.2112.
10809.
[5]??? GAO P,ZHENG M H,WANG X G,et al.Fast convergence of DETR with spatially modulated Co?attention[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision(ICCV).Montreal,QC,Canada,2021:3621-3630.
[6]??? DAI L H,LIU H,TANG H,et al.AO2?DETR:Arbitrary?oriented object detection transformer[J].IEEE Transactions on Circuits and Systems for Video Technology,2023,33(5):2342-2356.
[7]??? LIU Z,LIN Y T,CAO Y,et al.Swin transformer:Hierarchical vision transformer using shifted windows[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV).IEEE,2021:10012-10022.
[8]??? 陳旭,彭冬亮,谷雨.基于改進YOLOv5s的無人機圖像實時目標檢測[J].光電工程,2022,49(3):210372?1-210372?13.
[9]??? HOU Q B,ZHOU D Q,F(xiàn)ENG J S.Coordinate attention for efficient mobile network design[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).IEEE,2021:13713-13722.
[10]??? LI H Y, RAZI A. MEDA:Multi?output Encoder?Decoder for Spatial Attention in Convolutional Neural Networks[C]//2019 53rd Asilomar Conference on Signals, Systems, and Computers. IEEE, 2019:2087-2091.
[11]??? GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2014:580-587.
[12]??? REN S Q, HE K M, GIRSHICK R, et al.Faster R?CNN:Towards real?time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[13]??? CAI Z W,VASCONCELOS N.Cascade R?CNN:Delving into high quality object detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.IEEE,2018:6154-6162.
[14]??? WANG L, SHOULIN Y, ALYAMI H, et al.A novel deep learning?based single shot multibox detector model for object detection in optical remote sensing images[J].Geoscience Data Journal,2022:1-15.
[15]??? VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[C]//Advances in Neural Information Processing Systems.Long Beach,CA,USA,2017:5998-6008.
[16]??? PARMAR N, VASWANI A, USZKOREIT J,et al.Image Transformer[C]//International Conference on Machine Learning.PMLR,2018:4055-4064.
[17]??? DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al.An image is worth 16×16 words:Transformers for image recognition at scale[C]//International Conference on Learning Representations.ICLR,2021:1-21.
[18]??? HE K M,ZHANG X Y,REN S Q,et al.Spatial pyramid pooling in deep convolutional networks for visual recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1916.
[19]??? WANG C Y, LIAO H Y, WU Y H, et al.CSPNet:A new backbone that can enhance learning capability of CNN[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).IEEE,2020:390-391.
[20]??? LIU S,QI L,QIN H F,et al.Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.IEEE,2018:8759-8768.
[21]??? TAN M X, PANG R M, LE Q V.EfficientDet:Scalable and efficient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).IEEE,2020:10781-10790.
[22]??? ZHENG Z H, WANG P, LIU W, et al. Distance?IoU loss:Faster and better learning for bounding box regression[C]//AAAI Conference on Artificial Intelligence.Palo Alto,California,USA:AAAI Press,2020:12993-13000.
[23]??? XIA G S,BAI X,DING J,et al.DOTA:A large?scale dataset for object detection in aerial images[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.IEEE,2018:3974-3983.
[24]??? GE Z, LIU S T, WANG F,et al. YOLOX:Exceeding YOLO Series in 2021[J].2021.DOI:10.48550/arXiv.2107.08430.
(收稿日期:2023-04-28,修回日期:2024-03-25)
The Remote Sensing Object Detection Based on Visual
Attention and Semantic Information Feature Fusion
ZOU Hua?yua, WANG Jiana,b, DIAO Yue?qina, SHAN Zi?qia, SHI Xiao?binga
(a. Faculty of Information Engineering and Automation; b. Key Laboratory of Artificial Intelligence of
Yunnan Province, Kunming University of Science and Technology)
Abstract?? Considering insufficient feature extraction, weak semantic information representation, low detection accuracy for small targets and inaccurate localization in remote sensing object detection methods, an improved strategy based on YOLOv5 and Swin Transformer was proposed. Experimental results show that, compared with the traditional method and other improved strategy methods, the proposed method shows higher detection accuracy rating on the public data set DOTA and the self?built data set SkyView, and the performance advantage is significant.
Key words?? remote sensing object detection, multi?scale feature fusion, coordinate attention mechanism, Swin Transformer