李建新,陳厚權(quán),范文龍
(1.保定市不動(dòng)產(chǎn)登記中心,河北 保定 071051;2.河北大學(xué) 質(zhì)量技術(shù)監(jiān)督學(xué)院,河北 保定 071002)
遙感技術(shù)和人工智能的融合為全球監(jiān)測(cè)、環(huán)境變遷、資源管理等提供了新的視角和工具。特別是,遙感圖像目標(biāo)檢測(cè)在這個(gè)交叉領(lǐng)域中占據(jù)了重要的地位。然而遙感圖像高緯度、大規(guī)模、復(fù)雜性和動(dòng)態(tài)變化的特性,給精準(zhǔn)的遙感圖像目標(biāo)檢測(cè)帶來(lái)了挑戰(zhàn)。目前遙感圖像目標(biāo)檢測(cè)算法大多來(lái)源于自然圖像目標(biāo)檢測(cè)算法的改進(jìn),傳統(tǒng)的目標(biāo)檢測(cè)算法需要通過(guò)手動(dòng)提取感興趣區(qū)域的特征,提取特征方式繁瑣低效,且提取特征十分單一。如何有效解讀這些圖像,從中提取并識(shí)別出有價(jià)值的信息,成為了目前遙感圖像目標(biāo)檢測(cè)領(lǐng)域研究的關(guān)鍵問(wèn)題之一。
當(dāng)前以卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的目標(biāo)檢測(cè)方法主要分為兩類:雙階段和單階段檢測(cè)算法,其主要的區(qū)別在于是否有候選框的生成。雙階段算法如R-CNN[1]、Fast R-CNN[2]、Faster R-CNN[3]等,通過(guò)先生成目標(biāo)候選區(qū)域再進(jìn)行分類的方式實(shí)現(xiàn)目標(biāo)檢測(cè),檢測(cè)精度高但速度慢。單階段檢測(cè)算法如SSD[4]和YOLO[5]系列,舍棄了候選框生成階段,利用卷積神經(jīng)網(wǎng)絡(luò)直接對(duì)輸入圖像進(jìn)行特征提取,然后進(jìn)行目標(biāo)分類和位置預(yù)測(cè),有效地提高了檢測(cè)算法的識(shí)別速度。在這些單階段檢測(cè)算法中,YOLOv5算法以模型訓(xùn)練和預(yù)測(cè)快速、便于模型部署等優(yōu)點(diǎn)而受到廣泛關(guān)注。盡管如此,針對(duì)遙感圖像,這種算法仍存在一些問(wèn)題,例如特征提取不足,對(duì)復(fù)雜背景的適應(yīng)性差,以及對(duì)小目標(biāo)的檢測(cè)性能不佳。
對(duì)此,文獻(xiàn)[6]運(yùn)用空洞殘差卷積的思想提取淺層特征,隨后與深層特征進(jìn)行融合,有效提高了遙感圖像中飛機(jī)的檢測(cè)精度。姚艷清等[7]使用了一種雙尺度特征融合模塊,保證了圖像特征的豐富性,以緩解深層信息的丟失問(wèn)題,有效提高了多尺度遙感目標(biāo)的檢測(cè)能力。文獻(xiàn)[8]提出了多階段級(jí)聯(lián)結(jié)構(gòu)的遙感圖像目標(biāo)檢測(cè)算法,在水平框和旋轉(zhuǎn)框兩個(gè)檢測(cè)任務(wù)上均有提升。以上方法,雖然通過(guò)融合淺層特征和深層特征,保存了豐富的圖像特征,但是對(duì)于目標(biāo)尺度變化較大的圖像易出現(xiàn)漏檢的問(wèn)題。文獻(xiàn)[9]在YOLOv5s的骨干網(wǎng)絡(luò)的卷積塊中加入了一種即插即用的輕量級(jí)有效通道注意力(ECA,efficient channel attention)模塊[10],形成新的卷積有效通道注意力(CECA,convolutional efficient channel attention)模塊,基于不降維的局部跨信道交互策略加強(qiáng)遙感目標(biāo)的特征提取能力。此外,他們?cè)诙喑叨忍卣魅诤系倪^(guò)程中引入具有Swin Transformer[11]網(wǎng)絡(luò)特性的C3STR模塊和坐標(biāo)注意力機(jī)制,以增強(qiáng)網(wǎng)絡(luò)的局部感知能力,提高小尺度目標(biāo)的檢測(cè)精度。文獻(xiàn)[12]在主干網(wǎng)絡(luò)引入通道-全局注意力機(jī)制(CGAM,channel-global attention mechanism),以增強(qiáng)模型對(duì)不同尺度目標(biāo)的特征提取能力和抑制冗余信息的干擾,解決了復(fù)雜背景的適應(yīng)性差的問(wèn)題。雖然通過(guò)添加注意力機(jī)制,提高了復(fù)雜背景的適應(yīng)性以及小目標(biāo)的檢測(cè)性能,但對(duì)于云層陰影以及光照變化等不可抗因素的干擾,會(huì)產(chǎn)生嚴(yán)重的檢測(cè)性能下降以及漏檢等問(wèn)題。
本研究提出了一種基于改進(jìn)的YOLOv5模型的遙感圖像目標(biāo)檢測(cè)算法,通過(guò)設(shè)計(jì)新的網(wǎng)絡(luò)結(jié)構(gòu)和優(yōu)化策略來(lái)解決原始YOLOv5算法對(duì)遙感圖像特征提取不足,對(duì)復(fù)雜背景的適應(yīng)性差,以及對(duì)小目標(biāo)的檢測(cè)性能不佳等常見(jiàn)問(wèn)題。并在遙感圖像目標(biāo)檢測(cè)任務(wù)中取得了優(yōu)秀的性能。根據(jù)在RSOD數(shù)據(jù)集上進(jìn)行的測(cè)試結(jié)果顯示,改進(jìn)后的算法相比于原網(wǎng)絡(luò)的檢測(cè)效果在平均精度上提高了10.6%,達(dá)到了94.2%。
YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)分為輸入端、主干、頸部和頭部四部分。YOLOv5在輸入端采用了Mosaic數(shù)據(jù)增強(qiáng),即將四張圖片進(jìn)行隨機(jī)縮放、裁剪和排布并拼接在一起,可以大大豐富數(shù)據(jù)量較少的遙感圖像數(shù)據(jù)集,同時(shí)進(jìn)一步提升對(duì)小目標(biāo)的檢測(cè)性能。相較于YOLOv3[15]和YOLOv4[16]采用固定長(zhǎng)寬比的錨框值,YOLOv5中可以根據(jù)不同的數(shù)據(jù)集特點(diǎn),自適應(yīng)計(jì)算所需錨框的大小尺寸。相較于最新的YOLOv7,YOLOv5的訓(xùn)練和推理速度比YOLOv7快得多,并且具有較低的內(nèi)存占用,這使得YOLOv5在移動(dòng)設(shè)備或資源受限的應(yīng)用場(chǎng)景中更具優(yōu)勢(shì)。輸入網(wǎng)絡(luò)之前,原始圖片需要統(tǒng)一縮放到同一標(biāo)準(zhǔn)尺寸,YOLOv5采用自適應(yīng)圖片縮放的方法,來(lái)為圖像添加最少量的黑邊,減少計(jì)算量并提升YOLOv5網(wǎng)絡(luò)的推理速度。除了在輸入端進(jìn)行的優(yōu)化,YOLOv5基于YOLOv4網(wǎng)絡(luò)在主干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和損失函數(shù)部分又做了進(jìn)一步的改進(jìn)與提升。圖1所示為YOLOv5的整體網(wǎng)絡(luò)結(jié)構(gòu)。需要注意的是,YOLOv5的V6.0版本后網(wǎng)絡(luò)第一層的focus模塊替換成了的6*6的卷積層(conv),focus模塊原來(lái)的作用即為了實(shí)現(xiàn)無(wú)信息丟失的下采樣。兩個(gè)模塊的作用是等效的,但是更換為6*6的卷積層會(huì)使得當(dāng)前利用GPU進(jìn)行檢測(cè)網(wǎng)絡(luò)計(jì)算時(shí)更加高效,更適合實(shí)際工程環(huán)境下進(jìn)行部署使用。
圖1 YOLOv5的整體網(wǎng)絡(luò)結(jié)構(gòu)示意圖
YOLO系列目標(biāo)檢測(cè)算法首先將圖像輸入到輸入端進(jìn)行馬賽克(Mosaic)數(shù)據(jù)增強(qiáng)、自動(dòng)拼接等預(yù)處理操作。同時(shí)將圖像分成若干個(gè)區(qū)域,在每個(gè)區(qū)域的中心,聚類生成一系列設(shè)定初始長(zhǎng)寬比的錨框。隨后輸入到骨干網(wǎng)絡(luò)中,對(duì)圖像進(jìn)行三次連續(xù)下采樣操作,生成三張不同分辨率的特征圖,并通過(guò)特征融合模塊對(duì)提取到的抽象語(yǔ)義信息和淺層特征信息進(jìn)行重構(gòu)與融合。進(jìn)而,將特征融合模塊輸出的特征圖輸入到輸出端進(jìn)行預(yù)測(cè),包括類別分類和目標(biāo)邊界框的回歸預(yù)測(cè)。最后與真實(shí)標(biāo)簽框比較,計(jì)算差值來(lái)反向更新,進(jìn)而迭代卷積神經(jīng)網(wǎng)絡(luò)參數(shù)。
本文提出的改進(jìn)YOLOv5s的遙感圖像目標(biāo)檢測(cè)算法(ConvN-sim-yolo)的整體框架結(jié)構(gòu)如圖2所示。在骨干網(wǎng)絡(luò)方面,使用ConvNeXt取代Darknet53,提高捕獲全局信息的能力。由于遙感圖像存在云層陰影以及光照變化等不可抗因素的干擾,因此引入SimAM注意力機(jī)制,提高網(wǎng)絡(luò)抗干擾能力。此外,引入CFP捕獲全局長(zhǎng)距離依賴關(guān)系以及遙感圖像的局部關(guān)鍵區(qū)域信息,提高了遙感圖像目標(biāo)檢測(cè)的精度。
圖2 改進(jìn)的YOLOv5的整體網(wǎng)絡(luò)結(jié)構(gòu)示意圖
YOLOv5主干網(wǎng)絡(luò)依然沿襲使用YOLO系列常用的Darknet53網(wǎng)絡(luò),其借鑒了ResNet卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)思想。2020年以來(lái),Transformer[17]網(wǎng)絡(luò)在各類圖像識(shí)別領(lǐng)域表現(xiàn)優(yōu)異,在圖像分類等任務(wù)中超越傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的性能。由于CNN網(wǎng)絡(luò)中卷積操作僅能實(shí)現(xiàn)局部信息的捕獲,全局信息的捕獲受網(wǎng)絡(luò)本身的結(jié)構(gòu)限制無(wú)法實(shí)現(xiàn)。Transformer則可以通過(guò)其固有的自注意力機(jī)制提取圖像全局信息,擴(kuò)大圖像的感受野,獲取更多的上下文信息,相較于CNN保留了更多空間信息。然而由于Transformer網(wǎng)絡(luò)不具備CNN網(wǎng)絡(luò)中的平移不變性、特征局部性等網(wǎng)絡(luò)特點(diǎn),只有在擁有大規(guī)模數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)訓(xùn)練時(shí)才能使得網(wǎng)絡(luò)模型達(dá)到良好的檢測(cè)效果。結(jié)合RSOD數(shù)據(jù)集其遙感圖像數(shù)量少特點(diǎn),設(shè)計(jì)使用基于Transformer風(fēng)格的卷積神經(jīng)主干網(wǎng)絡(luò)——ConvNeXt。
ConvNeXt[18]作為一種純卷積網(wǎng)絡(luò),基于ResNet50網(wǎng)絡(luò),借鑒Transformer網(wǎng)絡(luò)的設(shè)計(jì)思想從宏觀設(shè)計(jì),深度卷積,逆瓶頸化,大卷積核,微觀設(shè)計(jì)這五個(gè)方面改進(jìn)所得,三者的結(jié)構(gòu)對(duì)比如圖2所示。圖3(a)表示Swin Transformer模塊結(jié)構(gòu),圖3(b)為ResNet模塊,圖3(c)表示ConvNeXt模塊,其中d7×7表示7×7大小的深度卷積。
圖3 Swin Transformer、ResNet和ConvNeXt模塊結(jié)構(gòu)對(duì)比示意圖
1)宏觀設(shè)計(jì):首先改變階段(stage)計(jì)算比率,如將ResNet50中殘差塊堆疊次數(shù)比值由從(3,4,6,3)更改為(3,3,9,3)與Swin Transformer網(wǎng)絡(luò)中的堆疊比例相似。其次,ResNet50的“stem cell”層包含一個(gè)大小為7*7,步長(zhǎng)(stride)為2的卷積層和一個(gè)最大池化層。參考Transformer網(wǎng)絡(luò)使用的“patchify(修補(bǔ))”策略,使用大小為4*4,步長(zhǎng)為4的“補(bǔ)丁”來(lái)替換ResNet50網(wǎng)絡(luò)中的“stem cell”層。
2)深度卷積:此處借鑒ResNeXt網(wǎng)絡(luò)中組卷積的思想,采用深度卷積替換ResNet50網(wǎng)絡(luò)中的傳統(tǒng)卷積層。深度卷積的操作與Swin Transformer網(wǎng)絡(luò)中自注意力機(jī)制的加權(quán)求和類似,僅進(jìn)行空間信息的交互,可降低網(wǎng)絡(luò)的計(jì)算量FLOPs。同時(shí)將網(wǎng)絡(luò)寬度增加至與Swin Transformer相同的96通道數(shù)。
3)逆瓶頸化:ConvNeXt采用了MobileNetV2中設(shè)計(jì)的逆瓶頸結(jié)構(gòu),如圖4所示,與transformer模塊中MLP隱藏層是輸入層的4倍寬的結(jié)構(gòu)類似,減少整體網(wǎng)絡(luò)的計(jì)算量FLOPs,避免了降采樣過(guò)程中小息肉特征信息的丟失,提升網(wǎng)絡(luò)性能。
圖4 ConvNext逆瓶頸化示意圖
4)大卷積核:當(dāng)前大多數(shù)卷積神經(jīng)網(wǎng)絡(luò)采用堆疊多個(gè)3*3卷積核來(lái)替代一個(gè)大尺寸卷積,使得感受野大小受限。將上述深度卷積的卷積核尺寸從3*3調(diào)整到與Swin Transformer的自注意力模塊中l(wèi)ocal窗口大小相同的7*7,利用大尺寸卷積核來(lái)增大感受野,獲取更多的圖像信息。
5)微觀設(shè)計(jì):基于Transformer網(wǎng)絡(luò)的設(shè)計(jì),ConvNeXt替換ReLU激活函數(shù)為GeLU激活函數(shù),并減少了其數(shù)量。使用更少的正則化層,并將Batch Normalization(BN)正則化操作替換為L(zhǎng)ayer Normalization(LN),使得模型更加穩(wěn)定,減少梯度振蕩。ConvNeXt采用大小為2*2,步距為2的卷積進(jìn)行空間下采樣,并在下采樣操作之前以及全局池化以后增加LN正則化操作以維持訓(xùn)練的穩(wěn)定性。
為了降低云層陰影、光照變化等復(fù)雜環(huán)境對(duì)檢測(cè)任務(wù)的干擾,以提升網(wǎng)絡(luò)的抗干擾能力,本研究在ConvNext模塊中又增加了SimAM注意力機(jī)制。與現(xiàn)有常用的空間及通道注意力機(jī)制相比,SimAM可實(shí)現(xiàn)在不增加ConvNext主干網(wǎng)絡(luò)參數(shù)的同時(shí)推斷出特征圖3D注意力權(quán)值,以提升網(wǎng)絡(luò)性能。圖5(a)所示為ConvNext模塊結(jié)構(gòu),其由深度卷積(Deepwise conv)、層歸一化(Layer Norm)、普通卷積和GELU激活函數(shù)組成。本研究將SimAM注意力機(jī)制添加在ConvNeXt模塊中的深度卷積層之后,構(gòu)成ConvN-Sim模塊,如圖5(b)所示。
圖5 SimAM注意力機(jī)制示意圖
該注意力機(jī)制采用神經(jīng)科學(xué)引導(dǎo)所得能量函數(shù)來(lái)計(jì)算注意力的權(quán)值,無(wú)須進(jìn)行大量的工程性實(shí)驗(yàn),最小能量計(jì)算如公式(1)所示。
(1)
(2)
YOLOv5所采用的FPN(feature pyramid network)特征金字塔結(jié)構(gòu)[19],提出了一種自頂向下的層間特征交互方法。它可以為不同尺寸的目標(biāo)提供相應(yīng)尺度的特征表示,并提供上下文信息,融合多尺度特征信息以實(shí)現(xiàn)不同尺度下對(duì)不同大小目標(biāo)的預(yù)測(cè),最終提升檢測(cè)網(wǎng)絡(luò)的識(shí)別性能。然而當(dāng)前計(jì)算機(jī)視覺(jué)中的特征金字塔方法研究重點(diǎn)在于層間特征交互而忽略了一些層內(nèi)特征表示。由于卷積神經(jīng)網(wǎng)絡(luò)的固有特性,使得感受野大小受限,僅能捕獲局部的上下文信息。本研究中,我們提出采用全局顯式集中調(diào)節(jié)方案的集中特征金字塔(CFP,centralized feature pyramid),使用計(jì)算效率更高的輕量化多層感知機(jī)(MLP)來(lái)捕獲全局長(zhǎng)距離依賴關(guān)系,并行學(xué)習(xí)視覺(jué)中心(EVC,explicit visual center)機(jī)制捕獲輸入遙感圖像的局部關(guān)鍵區(qū)域信息。同時(shí),由于深層特征常具有淺層特征所不具備的視覺(jué)集中特征表示[20],為了提升層內(nèi)特征調(diào)節(jié)的計(jì)算效率,針對(duì)常用的視覺(jué)特征金字塔結(jié)構(gòu),提出一種效率更高的自頂向下的全局集中調(diào)節(jié)(GCR,global centralized regulation)方法,從深層特征獲取顯示視覺(jué)中心特征來(lái)優(yōu)化淺層特征,由此獲得全面而具有差異化的圖像特征表示。如圖6所示為YOLOv5添加CFP模塊(EVC+GCR)后的網(wǎng)絡(luò)結(jié)構(gòu)。
圖6 集中特征金字塔結(jié)構(gòu)示意圖
EVC的計(jì)算公式如式(3)所示。
X=cat(MLP(Xin);LVC(Xin))
(3)
其中:X為并行可學(xué)習(xí)視覺(jué)中心機(jī)制EVC的輸出,Xin為輸入,cat(·)表示沿通道維度拼接特征圖。MLP(Xin)和LVC(Xin)分別表示輕量化多層感知機(jī)MLP和可學(xué)習(xí)視覺(jué)中心機(jī)制的輸出特征。
輕量級(jí)MLP主要由深度卷積殘差模塊和通道MLP殘差塊組成,計(jì)算公式如下(4)和(5)所示。
(4)
(5)
LVC可學(xué)習(xí)視覺(jué)中心機(jī)制是帶有特定字典的編碼器,其計(jì)算過(guò)程如式(6)~(9)所示。
(6)
(7)
e表示整個(gè)圖像相對(duì)K個(gè)視覺(jué)碼字的完整信息。
Z=Xin?(δ(Conv1×1(e)))
(8)
Xin表示輸入特征,δ表示比例因子系數(shù),Z表示局部邊角區(qū)域特征,?表示通道乘法。
LVC(Xin)=Xin⊕Z
(9)
其中:⊕表示通道加法。
傳統(tǒng)的邊界框定位損失函數(shù)依賴于預(yù)測(cè)框與真實(shí)框之間的重疊面積、中心點(diǎn)距離等幾何因素,并未考慮目標(biāo)真實(shí)框與目標(biāo)預(yù)測(cè)框之間的方向這一要素,導(dǎo)致檢測(cè)網(wǎng)絡(luò)收斂效率低下。本研究使用了新的邊界框定位損失函數(shù)-SIoU loss[21],通過(guò)在損失函數(shù)中引入邊界框回歸之間的向量角度,與傳統(tǒng)損失函數(shù)方法(例如CIoU損失)相比,在網(wǎng)絡(luò)訓(xùn)練階段可以實(shí)現(xiàn)更快的收斂,并在推理方面實(shí)現(xiàn)更優(yōu)越的準(zhǔn)確性。SIoU loss計(jì)算公式如(10)~(13)所示。
(10)
(11)
Δ=∑t=x,y(1-e-(2-Λ)ρt)
(12)
Ω=∑t=w,h(1-e-ωt)θ
(13)
其中:Λ表示角度損失(Angle cost)函數(shù)、Δ為基于角度損失考慮下的距離損失(Distance cost)函數(shù),Ω表示形狀損失(Shape cost)代價(jià)函數(shù)。ρt表示預(yù)測(cè)框和真實(shí)框的中心點(diǎn)之間的距離。ωt表示預(yù)測(cè)框和真實(shí)框的寬度和高度的差異。θ表示調(diào)整形狀損失影響程度的參數(shù)。
非極大值抑制NMS常用于目標(biāo)檢測(cè)網(wǎng)絡(luò)中,在網(wǎng)絡(luò)預(yù)測(cè)的最后過(guò)濾掉多余候選框,找到目標(biāo)的最佳檢測(cè)位置。為了避免當(dāng)前檢測(cè)框與得分最高的檢測(cè)框IoU大于閾值時(shí),該檢測(cè)框被直接置零,造成相鄰兩個(gè)重疊的目標(biāo)被漏檢的現(xiàn)象出現(xiàn),且同時(shí)能夠?qū)蚺c框之間的位置關(guān)系進(jìn)行合理化的評(píng)估,本研究將NMS、Soft-NMS和SIoU結(jié)合,構(gòu)建新的非極大值抑制方法Soft-SIoU-NMS。加權(quán)后的NMS能夠更好地解決在遙感圖像實(shí)時(shí)檢測(cè)過(guò)程中,相鄰檢測(cè)目標(biāo)互相遮擋的檢測(cè)問(wèn)題,提升目標(biāo)檢測(cè)網(wǎng)絡(luò)的最終效果。Soft-SIoU-NMS的計(jì)算公式如下(14)和(15)所示。
(14)
f(SIoU(M,bi))=e-CIoU(M,bi )2/σ
(15)
其中:si表示當(dāng)前檢測(cè)框的得分,bi表示目標(biāo)預(yù)測(cè)框,Nt表示SIoU的閾值,M表示得分最高的檢測(cè)框,f(·)表示高斯衰減函數(shù),σ取值0.5。
本實(shí)驗(yàn)深度學(xué)習(xí)框架為開(kāi)源的PyTorch框架,PyTorch是一個(gè)開(kāi)源的Python機(jī)器學(xué)習(xí)庫(kù),是一個(gè)功能完備的框架,可用于構(gòu)建深度學(xué)習(xí)模型,PyTorch版本為1.10.1。編程語(yǔ)言采用Python 3.9.13,硬件設(shè)備配置為Inter Core i7-7800X,使用的操作系統(tǒng)為Ubuntu 18.04.5,GPU為NVIDIA GeForce RTX 2080Ti,CUDA為10.2。
在訓(xùn)練過(guò)程中,采用隨機(jī)梯度下降算法 (SGD,stochastic gradient descent)訓(xùn)練 200 epoch。初始學(xué)習(xí)率設(shè)置為0.01,并采用步長(zhǎng)衰減的策略來(lái)降低學(xué)習(xí)率,在每個(gè)epoch后,將學(xué)習(xí)率降低10%以避免模型在后期訓(xùn)練過(guò)程中陷入局部最優(yōu)解。實(shí)驗(yàn)表明此學(xué)習(xí)率在保證模型在初期快速收斂的同時(shí),且不會(huì)造成梯度爆炸或消失?;谟布渲煤湍P偷膹?fù)雜性綜合考慮,將批量大小(BatchSize)設(shè)置為32,工作線程數(shù)(num_workers)設(shè)置為8。在該設(shè)置環(huán)境下模型能夠在硬件上穩(wěn)定運(yùn)行,同時(shí)獲得合理的訓(xùn)練速度。研究發(fā)現(xiàn)該設(shè)置環(huán)境使得模型在遙感圖像目標(biāo)檢測(cè)任務(wù)上達(dá)到最佳性能。
本文所使用的數(shù)據(jù)集為RSOD遙感數(shù)據(jù)集。該數(shù)據(jù)集于2015年由武漢大學(xué)發(fā)布用于遙感圖像目標(biāo)檢測(cè)的標(biāo)準(zhǔn)數(shù)據(jù)集,共有976張圖片,6 950個(gè)實(shí)例,包括飛機(jī)446張圖片4 993個(gè)實(shí)例、油罐165張圖片1 586個(gè)實(shí)例、立交橋176張圖片180個(gè)實(shí)例和操場(chǎng)189張圖片191個(gè)實(shí)例。RSOD數(shù)據(jù)集是PASCAL VOC格式作為規(guī)范,為滿足yolo訓(xùn)練的數(shù)據(jù)集格式,將PASCAL VOC格式轉(zhuǎn)為yolo格式。從中選取546張圖片作為訓(xùn)練集,137張圖片作為驗(yàn)證集,剩余的293張圖片作為測(cè)試集。
為了評(píng)估ConvN-Sim-YOLO網(wǎng)絡(luò)的遙感圖像目標(biāo)檢測(cè)的性能,引入常用于深度學(xué)習(xí)測(cè)試網(wǎng)絡(luò)性能評(píng)價(jià)的六個(gè)重要指標(biāo),包含精確度(Precision)、召回率(Recall)、平均正確率(AP)和平均類別AP(mean Average Precision,mAP)。這五者計(jì)算如公式(16)~(19)所示。
(16)
精確度表示預(yù)測(cè)為陽(yáng)性的樣本中真正為陽(yáng)性樣本的比例。其中TP表示真陽(yáng)性,即將陽(yáng)性預(yù)測(cè)為陽(yáng)性的數(shù)量;FP表示假陽(yáng)性,即將陰性預(yù)測(cè)為陽(yáng)性的數(shù)量。
(17)
召回率則表示預(yù)測(cè)正確的陽(yáng)性樣本占全部陽(yáng)性樣本的比例。式中TP表示真陽(yáng)性,即將真陽(yáng)性預(yù)測(cè)為陽(yáng)性的數(shù)量;FN表示假陰性,即將真陽(yáng)性預(yù)測(cè)為陰性的數(shù)量。
(18)
此平均正確率(AP)值的計(jì)算為11點(diǎn)計(jì)算方法,每個(gè)點(diǎn)處取該點(diǎn)右側(cè)最大精確率,然后結(jié)合召回率=[0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0],繪制出P-R曲線,并通過(guò)(19)公式相加求平均值。
(19)
其中:class_num代表類別總數(shù),本研究實(shí)驗(yàn)取值為4,APj代表第j個(gè)類別的平均正確率。mAP表示各類別AP的均值,描述網(wǎng)絡(luò)對(duì)所有類別檢測(cè)的最終效果。mAP@0.5表示將IoU設(shè)置為0.5時(shí),每一類圖片的AP值再求平均,mAP@0.5:0.95表示IoU在區(qū)間[0.5,0.95]內(nèi)取值,步距間隔0.05計(jì)算一個(gè)mAP值,再將這些mAP值總和求平均。
為驗(yàn)證本文改進(jìn)的ConvNeXt主干網(wǎng)絡(luò)、SimAM注意力機(jī)制、CFP結(jié)構(gòu)、非極大值抑制方法(SIoU損失函數(shù)、NMS非極大值抑制)的有效性,進(jìn)行消融實(shí)驗(yàn),評(píng)估各個(gè)改進(jìn)模塊對(duì)本文檢測(cè)算法的影響。消融實(shí)驗(yàn)以原始的YOLOv5s實(shí)驗(yàn)結(jié)果作為基準(zhǔn),實(shí)驗(yàn)數(shù)據(jù)如表1所示。
表1 消融實(shí)驗(yàn)結(jié)果
由表1可知,原始YOLOv5在RSOD數(shù)據(jù)集上可獲得83.6%的精確度,84.5%的召回率以及83.6的mAP的結(jié)果,逐步增加改進(jìn)的四個(gè)模塊后檢測(cè)各指標(biāo)基本都有提升,表明各個(gè)模塊都有助于遙感圖像目標(biāo)檢測(cè)任務(wù),也驗(yàn)證了優(yōu)化特征捕獲能力、特征表達(dá)能力和加強(qiáng)抗干擾能力的出發(fā)點(diǎn)的合理性。進(jìn)一步,首先將YOLOv5的主干網(wǎng)絡(luò)Darknet53替換成ConvNeXt后精確度從83.6%提升至87.6%,召回率提升了5.3%以及mAP值提升了6.9,證明了改進(jìn)后模型會(huì)捕獲更多的全局空間信息。其次引入SimAM注意力機(jī)制后精確度提高了0.5%,召回率略有所下降,mAP值提升1%,證明SimAM注意力機(jī)制提升網(wǎng)絡(luò)在檢測(cè)任務(wù)中的抗干擾能力。隨后引入CFP精確率和召回率進(jìn)一步提升2.9%和3.6%,mAP值顯著提升至93.7%,證明網(wǎng)絡(luò)可獲取全局上下文信息。此外將原始的NMS替換為Soft-SIoU-NMS后精確度達(dá)到91.9%,召回率達(dá)92.5%,mAP值提升了0.5,證明此處改進(jìn),解決了目標(biāo)互相遮擋的檢測(cè)問(wèn)題。最后,當(dāng)集成四個(gè)改進(jìn)模塊時(shí)可將遙感圖像目標(biāo)檢測(cè)的精確度提升至91.9%,召回率提升至92.5%,mAP提升至94.2,有效驗(yàn)證了所提出的遙感圖像目標(biāo)檢測(cè)方法的有效性。
為驗(yàn)證本文提出的改進(jìn)的YOLOv5目標(biāo)檢測(cè)算法相比于其他主流算法具有更好的目標(biāo)檢測(cè)能力,將提出的算法與現(xiàn)有主流算法進(jìn)行對(duì)比實(shí)驗(yàn)。選取六種模型包括典型的目標(biāo)檢測(cè)模型如SSD、Faster-RCNN、YOLOv3等以及最近基于YOLOv5改進(jìn)的Swin-YOLOv5s[9]進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)采用相同的遙感圖像數(shù)據(jù)集RSOD,實(shí)驗(yàn)結(jié)果如表2所示。
表2 不同算法在RSOD數(shù)據(jù)集的檢測(cè)結(jié)果對(duì)比
由表2可知,改進(jìn)的方法在RSOD取得了最優(yōu)的mAP值結(jié)果。與原始的YOLOv5s相比,雖然對(duì)于操場(chǎng)類別的準(zhǔn)確率有所下降,但對(duì)于其他類別的準(zhǔn)確率以及mAP值都有大幅度的提升。此外,與最近基于YOLOv5改進(jìn)的Swin-YOLOv5s相比,本文改進(jìn)方法mAP值達(dá)到94.2,Swin-YOLOv5s只有88.9。雖然,本文算法和其他算法相比,檢測(cè)操場(chǎng)目標(biāo)的精度有所下降,但大部分類別的目標(biāo)檢測(cè)精度都有所提高,總體來(lái)看本文提出的改進(jìn)方法能夠有效提升遙感圖像中的目標(biāo)檢測(cè)精度,在精度性能方面優(yōu)勢(shì)明顯。
本文對(duì)RSOD數(shù)據(jù)集上的測(cè)試結(jié)果進(jìn)行了可視化展示,如圖7所示。圖7(a,b,c)為改進(jìn)前基礎(chǔ)的yolov5網(wǎng)絡(luò)檢測(cè)效果,圖7(d,e,f)為本文提出的ConvN-sim-yolo網(wǎng)絡(luò)檢測(cè)效果。通過(guò)比較圖7(a)和圖7(d),檢測(cè)結(jié)果表明Conv-sim-yolo對(duì)于遙感圖像小目標(biāo)的檢測(cè)具有更高的精度。進(jìn)一步比較圖7(b)和圖(e),圖中有飛機(jī)處于陰暗或光照和陰暗交界處,而基礎(chǔ)的yolov5對(duì)于處于云層陰影和光照變化的飛機(jī)檢測(cè)效果并不好,而Conv-sim-yolo能夠很好的檢測(cè)此類飛機(jī),展現(xiàn)出Conv-sim-yolo在抗干擾方面的優(yōu)越性。圖7(c)和圖7(f)的檢測(cè)結(jié)果表明,Conv-sim-yolo能夠察覺(jué)不易被發(fā)現(xiàn)的小目標(biāo),減少了漏檢率,進(jìn)而提升了遙感圖像目標(biāo)檢測(cè)的精度值。
針對(duì)遙感圖像目標(biāo)檢測(cè)中存在云層陰影和光照變化干擾以及小目標(biāo)漏檢的問(wèn)題,本文提出了ConvN-sim-yolo算法。首先,使用基于Transformer風(fēng)格的卷積神經(jīng)主干網(wǎng)絡(luò)--ConvNeXt,捕獲遙感圖像全局信息,充分提取遙感圖像豐富的特征。其次,為了應(yīng)對(duì)云層陰影和光照變化的干擾,在ConvNext模塊中加入SimAM注意力機(jī)制,推斷特征圖的3D注意力權(quán)值,提高了網(wǎng)絡(luò)的穩(wěn)定性和抗干擾能力。同時(shí)提出采用全局顯式集中調(diào)節(jié)方案的集中特征金字塔(CFP,centralized feature pyramid),使用計(jì)算效率更高的輕量化多層感知機(jī)(MLP)來(lái)捕獲全局長(zhǎng)距離依賴關(guān)系,并行學(xué)習(xí)視覺(jué)中心(EVC,explicit visual center)機(jī)制捕獲輸入遙感圖像圖像的局部關(guān)鍵區(qū)域信息,降低了漏檢的概率,展現(xiàn)了優(yōu)越的目標(biāo)檢測(cè)的性能。最后經(jīng)過(guò)實(shí)驗(yàn)對(duì)比,本文算法相比于原始的YOLOv5s,平均檢測(cè)準(zhǔn)確率在RSOD數(shù)據(jù)集上提升了10.6%,由此表明本文算法在遙感圖像目標(biāo)檢測(cè)領(lǐng)域上改善了小目標(biāo)漏檢的問(wèn)題,并對(duì)于更復(fù)雜的干擾環(huán)境依然具有良好的目標(biāo)檢測(cè)性能。但是,改進(jìn)的yolov5算法在目標(biāo)檢測(cè)能力上還有一定的局限性,未來(lái)工作將繼續(xù)優(yōu)化網(wǎng)絡(luò)以提升算法的目標(biāo)檢測(cè)能力。