許德剛,王再慶,邢奎杰,郭奕欣
1.河南工業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,鄭州 450001
2.河南工業(yè)大學(xué) 糧食信息處理與控制教育部重點實驗室,鄭州 450001
3.湖南工程學(xué)院 計算機與通信學(xué)院,湖南 湘潭 411104
近年來,隨著遙感平臺和圖像處理技術(shù)的蓬勃發(fā)展,高分辨率的遙感圖像日益增多,其蘊含的信息越來越豐富[1],遙感圖像目標檢測已成為遙感領(lǐng)域中的重要研究方向,已被廣泛應(yīng)用于軍事安全、交通安全、應(yīng)急救援、精準農(nóng)業(yè)等諸多方面[2]。
從發(fā)展歷程看,遙感圖像目標檢測技術(shù)主要可分為傳統(tǒng)的目標檢測算法和基于深度學(xué)習(xí)的目標檢測算法。傳統(tǒng)的目標檢測算法主要利用滑動窗口遍歷圖像,提取感興趣區(qū)域內(nèi)的目標紋理、顏色、邊緣等特征信息,并使用支持向量機(support vector machine,SVM)[3]、Adaboost[4]和K-means[5]等方法作為分類器,易導(dǎo)致耗時長、檢測精度低、魯棒性和泛化性較差。而基于深度學(xué)習(xí)的目標檢測算法能夠自動提取目標特征,并基于回歸直接在特征圖上預(yù)測目標類別和位置信息,顯著提高了檢測的效率與性能。根據(jù)有無候選框生成階段可以將基于深度學(xué)習(xí)的目標檢測算法分為兩類,一類是以R-CNN系列(R-CNN[6]、Fast R-CNN[7]、Faster R-CNN[8]、Mask R-CNN[9])為代表的雙階段目標檢測算法,另一類是以YOLO 系列(YOLOv3[10]、YOLOv4[11]、YOLOv5[12])、SSD[13]、RetinaNet[14]等為代表的單階段目標檢測算法。盡管基于深度學(xué)習(xí)的目標檢測算法有較好的檢測效果,但與自然場景圖像不同,遙感圖像通常是通過衛(wèi)星和航空飛機在不同海拔高度鳥瞰視角拍攝,且圖像中存在的目標物體種類較多,例如,道路、建筑物、植被、車輛等,由于這些目標物體的外觀和形狀存在巨大差異,對目標的檢測和識別帶來了干擾。因此,遙感圖像背景復(fù)雜、目標普遍比較小且呈多尺度分布等特點增加了檢測難度,給遙感圖像目標檢測帶來了額外的挑戰(zhàn)[15]。
針對以上問題,國內(nèi)外學(xué)者在深度學(xué)習(xí)的基礎(chǔ)上進行了一系列的研究。趙珊等[16]在通道分離過程中提出雙注意力機制來構(gòu)建深度神經(jīng)網(wǎng)絡(luò),以解決神經(jīng)網(wǎng)絡(luò)不能自動學(xué)習(xí)特征間的重要性問題,通過添加細節(jié)提取模塊與通道注意力特征融合模塊來提取更多的細節(jié)特征,以解決高分辨率特征經(jīng)過深度CNN后導(dǎo)致的信息丟失問題。賈天豪等[17]引入基于殘差學(xué)習(xí)的增強特征映射塊,通過通道平均和歸一化處理使模型更專注于目標區(qū)域而不是背景,并使用特征映射對上下文信息敏感的特征融合塊進一步增大有效特征圖的感受野,將用于預(yù)測的淺特征層與深特征層進行融合,提高低分辨率下的檢測性能。李坤亞等[18]通過引入通道-全局注意力機制以增強對不同尺度目標的特征提取能力和抑制冗余信息的干擾,通過引入密集上采樣卷積模塊擴張低分辨率卷積特征圖,有效增強不同卷積特征圖的融合效果。楊晨等[19]通過引入特征復(fù)用以增加特征圖中的小目標特征信息,以解決下采樣導(dǎo)致的特征圖中包含的小目標信息較少或消失的問題,使用EMFFN(efficient multi-scale feature fusion network)的特征融合網(wǎng)絡(luò)代替原有的PANet,通過添加跳躍連接以及跨層連接高效融合不同尺度的特征圖信息,同時提出一種包含通道與像素的雙向特征注意力機制,以提高模型在復(fù)雜背景下的檢測效果,但是改進措施極大地提高了模型的參數(shù)量,模型的訓(xùn)練速度與推理速度存在一定程度的下降。劉濤等[20]為了強化對遙感圖像的多尺度特征表達能力,通過增加一個融合淺層語義信息的細粒度檢測層來提高對小目標的檢測效果,但是模型對全局語義信息的感知能力以及預(yù)測框的定位能力有待提升。汪鵬等[21]通過在骨干部分引入密度連接結(jié)構(gòu),以增強對遙感圖像不同尺度目標的特征提取能力,但不同特征層之間不能充分融合,從而不能有效地提取檢測目標的上下文信息。Dong等[22]使用可變形卷積橫向連接模塊代替FPN 原有的橫向連接,生成可變形感受野的特征圖,并通過引入基于注意力的多級特征融合模塊,自適應(yīng)地集成FPN的多級輸出,提升了多尺度遙感目標的檢測效果,但是提升效果并不明顯,同時也明顯增加了模型的復(fù)雜度。Wang等[23]設(shè)計了一種自適應(yīng)特征感知模塊,用于對不同尺度特征圖進行跨尺度深度融合,以提高模型的學(xué)習(xí)能力,減少復(fù)雜背景對遙感圖像的影響,但在提高檢測精度方面仍有改進的空間。
受上述文獻的啟發(fā),本文提出了一種改進YOLOv6的遙感圖像目標檢測算法。首先,引入一種坐標注意力模塊,通過將遙感目標的位置信息嵌入到通道中以獲得更大區(qū)域的信息,從而提高復(fù)雜背景下模型的特征提取能力和目標定位能力。其次,提出一種上下文增強模塊,通過擴大模型的感受野與強化關(guān)鍵通道在模型的重要性,使模型獲取豐富的上下文信息,進而提升模型提取多尺度目標細節(jié)信息的能力。最后,引入一種自適應(yīng)空間特征融合,有效地將不同尺度的特征進行自適應(yīng)融合,以提升模型的多尺度目標尤其是小目標的檢測精度。
YOLOv6[24]是2022年6月美團視覺智能部通過研究并借鑒業(yè)界已有的先進技術(shù),所開發(fā)的一套新的單階段目標檢測框架。根據(jù)模型的深度和寬度,可將YOLOv6細分為YOLOv6n、YOLOv6t、YOLOv6s、YOLOv6m 和YOLOv6l 等多個版本。其中,YOLOv6n 具有最小的深度和寬度,其余版本均是在其基礎(chǔ)上增加深度和寬度。為了平衡算法的精度和速度,選擇YOLOv6t 作為基準模型。YOLOv6t 的網(wǎng)絡(luò)結(jié)構(gòu)主要分為骨干(Backbone)、頸部(Neck)和頭部(Head)三個部分。Backbone部分主要是采用結(jié)構(gòu)重參數(shù)化風(fēng)格的EfficientRep進行特征提取;Neck 部分采用特征金字塔結(jié)構(gòu)Rep-PAN 進行特征融合;Head 部分采用解耦頭結(jié)構(gòu)分別對不同尺度的特征圖進行分類及位置回歸。
針對遙感圖像背景復(fù)雜的特點,在Backbone 部分引入一種坐標注意力(coordinate attention,CA)[25]模塊,提高了復(fù)雜背景下模型的特征提取能力以及對目標的定位能力。針對模型不能有效地提取多尺度目標信息,在Backbone 部分引入一種上下文增強模塊(context enhancement module,CEM),以獲得豐富的上下文信息,提升了模型對于多尺度目標細節(jié)信息的提取能力。針對遙感目標總體比較小且呈多尺度分布的特點,在Neck 部分引入一種自適應(yīng)空間特征融合(adaptively spatial feature fusion,ASFF)[26],通過自適應(yīng)融合不同尺度的特征,提升了多尺度目標尤其是小目標的檢測精度。改進的YOLOv6t網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 改進的YOLOv6t網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Improved YOLOv6t network structure
遙感圖像背景相當復(fù)雜,蘊含了各式各樣的特征信息,然而并不是所有特征信息都值得模型關(guān)注。為了抑制背景的重要性,獲取對遙感目標更關(guān)鍵的信息,通過在Backbone部分引入一種坐標注意力CA模塊,使模型獲得遙感目標的位置信息和通道間的關(guān)系,并將位置信息嵌入到通道中以獲得更大區(qū)域的信息,進而提高復(fù)雜背景下模型的特征提取能力和目標定位能力。
CA 模塊結(jié)構(gòu)如圖2 所示,主要通過坐標信息嵌入和坐標注意力生成兩個階段來編碼通道關(guān)系和長距離依賴關(guān)系。在坐標信息嵌入階段,分別使用空間范圍為(H,1)和(1,W)的平均池化對輸入特征圖的每個通道沿水平和垂直方向進行編碼,以上操作可公式化為:
圖2 CA模塊結(jié)構(gòu)Fig.2 CA module structure
其中,(w)表示寬度為W的第c個通道的輸出,(h)表示高度為H的第c個通道的輸出,二者是一對具有方向感知的特征圖,允許注意力模塊捕獲沿一個空間方向的長距離依賴關(guān)系,并保留沿一個空間方向的精確位置信息,有助于模型更準確地定位感興趣的目標。
在坐標注意力生成階段,首先將上述具有方向感知的特征圖進行拼接,并經(jīng)卷積、標準化和非線性激活生成中間特征圖,如式(3)所示:
其中,[?,?]表示沿空間維度的拼接操作,F(xiàn)1是為卷積變換,δ為SiLU激活函數(shù),f∈?C/r×(H+W)為中間特征圖,r為通道縮減比。然后沿著空間維度將f分解為兩個獨立的張量f h∈?C/r×H和f w∈?C/r×W,并分別經(jīng)卷積和非線性激活生成高度注意力權(quán)重gh和寬度注意力權(quán)重gw,以上操作可公式化為:
其中,F(xiàn)h和Fw為卷積變換,σ為Sigmoid 激活函數(shù)。最后,將輸入特征圖分別與高度和寬度注意力權(quán)重進行相乘,得到注意力特征圖yc,如式(6)所示:
在目標檢測中,待檢測目標通常與周圍的其他目標或多或少存在某種關(guān)系,即為上下文信息。在遙感圖像目標檢測中,周圍的環(huán)境可以作為遙感目標的有效周圍信息,通過學(xué)習(xí)目標周圍區(qū)域的相關(guān)聯(lián)信息,能夠?qū)δP推鸬街匾难a充作用。受空洞空間卷積池化金字塔(atrous SPP,ASPP)[27]啟發(fā),提出了一種上下文增強模塊CEM,其結(jié)構(gòu)如圖3 所示,主要通過不同空洞率的空洞卷積來獲取不同感受野的上下文信息,并使用一種改進的有效的通道注意力(improved efficient channel attention,IECA)機制強化關(guān)鍵通道在模型中的重要性,進一步增強上下文信息,有助于提升模型對于多尺度目標細節(jié)信息的提取能力。
圖3 CEM結(jié)構(gòu)Fig.3 CEM structure
考慮到ECA(efficient channel attention)[28]中僅使用平均池化不易提取最突出的特征信息,故IECA 使用平均池化和最大池化并行的方式壓縮特征。具體地說,IECA首先分別使用平均池化與最大池化對輸入特征圖x壓縮尺寸,其次分別經(jīng)過一維卷積變換得到具有通道交互信息的特征圖,然后將兩個分支的特征圖進行Add操作,并經(jīng)Sigmoid 激活后得到通道注意力權(quán)重W,最后將輸入特征圖與通道注意力權(quán)重相乘,即可獲得通道注意力增強的特征圖f。以上操作可公式化為:
其中,F(xiàn)conv1D表示一維卷積變換,AvgPool表示平均池化操作,MaxPool表示最大池化操作。
CEM首先使用1×1卷積對輸入特征圖x進行通道壓縮,得到特征圖f1。其次,考慮到基準模型中的Sim-SPPF 模塊采用池化操作會降低特征圖的分辨率,容易丟失細節(jié)信息,不利于網(wǎng)絡(luò)學(xué)習(xí),同時也為了避免模型參數(shù)量急劇增大,故分別使用空洞率為2、4、6的3×3空洞卷積構(gòu)成的多分支結(jié)構(gòu)替代池化操作。再次考慮到通過不同空洞率的空洞卷積得到的特征會在不同的通道上具有相似性,故使用由IECA 生成的通道注意力權(quán)重W對特征的各通道進行約束,并在通道維度上進行拼接。最后,使用1×1卷積對拼接后的特征進行通道壓縮,即可得到輸出特征圖f2,以上操作可公式化為:
遙感目標總體比較小且呈多尺度分布,而小目標的語義信息集中存在于淺特征層中,且相鄰特征層只以簡單的拼接方式進行特征融合,模型不能充分利用不同尺度特征,同時也很難提取到小目標的特征。因此,在Neck部分引入一種自適應(yīng)空間特征融合ASFF,其結(jié)構(gòu)如圖4所示,通過自適應(yīng)方法調(diào)整不同特征層之間的融合權(quán)重,在空間上過濾沖突信息以抑制梯度反向傳播時的不一致,提高了特征的尺度不變性,同時也能將不同尺度的特征進行自適應(yīng)融合,進而提升多尺度目標尤其是小目標的檢測精度。
圖4 ASFF結(jié)構(gòu)Fig.4 ASFF structure
以ASFF-2 計算融合為例,Level1、Level2 和Level3分別是經(jīng)Backbone 與Neck 部分后所提取的特征圖,其維度信息分別為192×20×20、96×40×40、48×80×80。首先,Level1 通過卷積變換將通道壓縮為96,通過上采樣將尺寸擴大為40×40,以獲得與Level2相同維度的特征圖x1→2。其次,Level3通過卷積操作將通道提升至96,通過下采樣將尺寸壓縮為40×40,進而獲得與Level2相同維度特征圖x3→2。然后,Level2 進行卷積變換維度不發(fā)生變化,進而獲得特征圖x2→2。最后,使用softmax函數(shù)處理這三個特征圖,以生成其權(quán)重系數(shù)α、β與γ,并使用下式進行ASFF融合計算:
為評估本文提出算法的有效性,在遙感圖像公開檢測數(shù)據(jù)集DOTA-v1.0[29]上進行實驗驗證。
DOTA-v1.0 是一個由各種機載傳感器和空間傳感器收集的大型遙感圖像數(shù)據(jù)集,包括15個類別,2 806張圖像和188 282 個已標注的實例。由于其圖像像素從800×800到4 000×4 000不等,故將其切片為608×608像素,最后將得到的12 092張圖像作為訓(xùn)練集,3 024張圖像作為測試集。
對訓(xùn)練集中所有標簽的寬、高及中心點分布進行統(tǒng)計,如圖5所示。圖5(a)中橫縱坐標代表在yolo坐標格式下標簽真實框的中心點橫縱坐標,可以看出基本上每個點顏色都較深,這表明訓(xùn)練集中目標均勻地分布在中心點附近。圖5(b)中橫縱坐標代表在yolo坐標格式下標簽真實框的寬度和高度,可看出左下角和中間部分聚集了更多的點,說明兩個數(shù)據(jù)集包含大量小尺度和中等尺度目標,也存在少量大縱橫比的目標,符合實際場景中遙感圖像的特點,與本文研究的背景和問題相契合。
圖5 訓(xùn)練集中所有標簽大小的分布Fig.5 Distribution of all tag sizes in training set
本文實驗基于Ubuntu 18.04操作系統(tǒng),實驗環(huán)境為Python3.8,CUDA11.4及PyTorch1.8,使用NVIDIA Tesla T4 GPU 加速模型訓(xùn)練。實驗設(shè)置優(yōu)化器為隨機梯度下降算法(stochastic gradient descent,SGD),初始學(xué)習(xí)率為0.01,權(quán)重衰減系數(shù)為0.000 5,動量為0.937,最大迭代輪數(shù)為400,圖片大小統(tǒng)一調(diào)整為640×640。
本文實驗使用參數(shù)量(params)、復(fù)雜度(GFLOPs)、檢測速度FPS(frame per second)與COCO 評價指標中的AP、AP50、AP75、APS、APM、APL等指標衡量模型的檢測性能。其中,AP表示根據(jù)IoU閾值從0.5至0.95以0.05為步長,10種情況下對所有目標類別的平均檢測精度。AP50、AP75 表示IoU 閾值分別在0.5、0.75 情況下的檢測精度。一般來說,高IoU 閾值下的檢測指標越高,模型的檢測結(jié)果也就越準確。APS、APM和APL分別表示小、中和大目標的檢測精度。
為了驗證所提的三項改進對遙感圖像目標檢測的優(yōu)化作用,以YOLOv6t為基準模型,使用DOTA-v1.0數(shù)據(jù)集在測試集上對各模塊進行消融實驗,其實驗結(jié)果如表1所示。
表1 各模塊消融實驗結(jié)果Table 1 Ablation results of each module 單位:%
由表1可知,YOLOv6t-CA表示在Backbone部分引入CA,模型的AP提升了0.3個百分點,表明CA的引入能夠提升模型的特征提取能力,進而提升模型的檢測精度。YOLOv6t-ASFF 表示在Neck 部分引入ASFF,模型的AP、AP50、AP75、APS、APM 均有了提升,其中,APS和APM 分別提升了0.7 和0.9 個百分點,提升了多尺度目標尤其是中小目標的檢測精度。YOLOv6t-CEM 表示在Backbone 部分引入CEM,模型的APS、APM、APL均有提升,表明CEM 的引入有助于提升模型提取多尺度細節(jié)信息的能力,進而提升模型的檢測精度。Improved YOLOv6t表示采用了所提三項改進方法的組合,相較于基準模型,AP、AP50與AP75分別提升了1.4、2.3 與1.2 個百分點,APS、APM 與APL 分別提升了0.7、1.3與0.9個百分點,表明改進后的模型對遙感圖像中多尺度目標有著更好的檢測能力。
為了進一步驗證改進算法的有效性,改進算法與基準算法訓(xùn)練過程的類別損失cls_loss與邊界框回歸損失iou_loss以及驗證過程的AP50及AP變化情況對比如圖6所示。從圖中可以看出,兩種算法的cls_loss與iou_loss均隨著迭代次數(shù)epoch 的增加而下降,AP50 與AP 均隨著epoch的增加而增加,但改進算法均能比基準算法更先收斂,表明改進算法在收斂速度和收斂精度方面均優(yōu)于基準算法,證明了改進模塊的有效性。
圖6 損失與平均精度變化對比Fig.6 Comparison of loss and average precision change
2.5.1 注意力模塊對比實驗
為了進一步驗證CA 的有效性,分別將其與其他注意力機制SA(shuffle attention)[30]、ECA[28]、CBAM(convolutional block attention module)[31]以及基準模型進行橫向比較,實驗結(jié)果如表2 所示。由表2 可以看出,CA僅在增加較少的參數(shù)量和計算量的前提下,模型的AP、AP50、AP75、APS 與APL 等五個指標是最優(yōu)的,而其余注意力機制只在個別指標有提升,甚至還會出現(xiàn)明顯掉點的情況。
表2 不同注意力模塊對比結(jié)果Table 2 Comparison of different attention modules
另外,使用熱力圖分別對YOLOv6t 和引入CA 后的YOLOv6t-CA 的檢測結(jié)果可視化,如圖7 所示,顏色越深說明模型對此區(qū)域的特征信息關(guān)注度越高。圖7(a)中目標中心及周圍背景均有被關(guān)注,而圖7(b)中目標中心具有更高的關(guān)注度,這表明CA的引入能夠減少復(fù)雜背景的干擾,更加關(guān)注遙感目標的特征和位置信息,提升了復(fù)雜背景下模型的特征提取能力以及目標定位能力。
圖7 YOLOv6t與YOLOv6t-CA特征圖可視化對比Fig.7 Visual comparison of YOLOv6t and YOLOv6t-CA feature maps
2.5.2 上下文增強模塊對比實驗
為了進一步驗證CEM 的有效性,分別將CEM 和ASPP 模塊加入到基準模型中,并與基準模型的SimSPPF模塊進行橫向比較,實驗結(jié)果如表3所示。由表可以看出,CEM 的引入能夠使模型的AP、AP50、APS、APM與APL等五個指標同時帶來增益,但同時也增加了較少的參數(shù)量與計算量。
表3 SimSPPF、ASPP、CEM模塊對比結(jié)果Table 3 Comparison result of CEM,ASPP,and SimSPPF modules
使用熱力圖分別對YOLOv6t 和引入CEM 后的YOLOv6t-CEM 進行特征圖可視化,如圖8 所示。相較于圖8(a),圖8(b)中大多數(shù)中小尺度目標中心被給予高度關(guān)注,這主要由于CEM 的引入通過擴大模型的感受野,使模型學(xué)習(xí)到目標與周圍環(huán)境相關(guān)聯(lián)的信息,進而獲取豐富的上下文信息,并通過強化關(guān)鍵通道在模型的重要性,強化上下文信息,幫助模型精準定位目標所在區(qū)域,從而提升模型提取多尺度細節(jié)信息的能力。
圖8 YOLOv6t與YOLOv6t-CEM特征圖可視化對比Fig.8 Visual comparison of YOLOv6t and YOLOv6t-CEM feature maps
2.5.3 主流算法對比實驗
為了驗證改進算法的性能,在DOTA-v1.0數(shù)據(jù)集上將其分別與RetinaNet[14]、Faster RCNN[8]、Mask RCNN[9]、TOOD[32]、DDOD[33]、YOLOv3[10]、YOLOXs[34]、YOLOv5s[12]和YOLOv6t[24]等目前的一些先進目標檢測算法進行對比實驗,實驗結(jié)果如表4 所示。從表可看出,相較于基準算法YOLOv6t,改進算法在參數(shù)量增加1.8×106,復(fù)雜度增加2.02 的前提下,同時為AP、AP50、AP75、APS、APM和APL六個指標帶來了增益,分別提升了1.4、2.3、1.2、0.7、1.3與0.9個百分點,F(xiàn)PS減少了32,說明其在犧牲一定檢測速度的前提下,明顯地提高了遙感圖像多尺度目標的檢測精度,但仍能滿足實時性檢測的需求。而相較于其他目標檢測算法,改進算法具有最優(yōu)的AP、AP50、AP75、APM、APL和FPS。其中,相較于RetinaNet、Faster RCNN、Mask RCNN、TOOD、DOOD、YOLOv3,改進算法在參數(shù)量和復(fù)雜度較低的前提下,AP 分別提升了12.4、2.4、2.3、2.3、2.6、22.5 個百分點。而相較于YOLOXs 與YOLOv5s,雖然改進算法增加了較少的參數(shù)量和復(fù)雜度,但其AP與FPS均最優(yōu)。對于APS指標,Mask RCNN表現(xiàn)最佳,達到了37.5%,說明其小目標的檢測能力最為優(yōu)異,但是其參數(shù)量與計算量相對較大。總的來說,改進算法在參數(shù)量、計算量、精度和速度的平衡上更具優(yōu)勢。
表4 不同目標檢測算法對比實驗結(jié)果Table 4 Comparative experimental results of different object detection algorithms
從DOTA-v1.0測試集中選取部分圖像,分別使用檢測精度較高的YOLOXs、YOLOv5s、YOLOv6t 與改進算法進行檢測,檢測效果對比如圖9 所示??梢钥闯觯琘OLOXs、YOLOv5s與YOLOv6t算法對于像大汽車、飛機等目標會經(jīng)常性地出現(xiàn)誤檢的情況,而對于像小汽車這種目標較小的類別會經(jīng)常性地出現(xiàn)漏檢的情況,主要由于這些算法對于目標特征提取不足,在復(fù)雜背景下對難分類目標關(guān)注度不夠,并無法解決遙感圖像目標尺度差異大的難題。而改進算法通過引入CA、CEM 與ASFF,增強了復(fù)雜背景下多尺度目標的定位能力與特征提取能力,從而生成更加精準的檢測框,在一定程度上緩解了誤檢和漏檢的情況。
圖9 部分算法檢測效果對比Fig.9 Part of algorithm detection effect comparison
為解決由于遙感圖像背景復(fù)雜、目標普遍比較小且呈多尺度分布所導(dǎo)致的目標檢測精度較低的問題,基于YOLOv6 目標檢測算法,通過在Backbone 部分嵌入CEM 與CA 模塊,在Neck 部分引入一種ASFF,提出了一種改進YOLOv6 的遙感圖像目標檢測算法。在遙感圖像公開數(shù)據(jù)集DOTA-v1.0 上進行測試,實驗結(jié)果顯示,改進算法的收斂速度與收斂精度均優(yōu)于基準算法,且其AP 值遠高于基準算法與一些其他目前先進的目標檢測算法,表明其具有優(yōu)異的多尺度目標檢測能力。但是,改進算法在目標檢測精度上尤其是小目標檢測精度仍有著極大的提升空間,另外,由于引入了新模塊,增加了算法的參數(shù)量和復(fù)雜度,一定程度上影響了其檢測速度,盡管能滿足遙感實時檢測的需求,但未來仍要考慮通過優(yōu)化模型結(jié)構(gòu)以提升算法的檢測精度與檢測速度。