焦新泉,李???陳建軍
(中北大學(xué)電子測試技術(shù)國家重點實驗室,山西 太原 030051)
近年來出現(xiàn)了許多高質(zhì)量的遙感圖像數(shù)據(jù)集,但在衛(wèi)星實際拍攝的圖像中存在著多種問題,例如衛(wèi)星受到了大氣條件(云層、霧霾)、太陽光照條件、拍攝曝光條件等限制,最終得到的遙感圖像往往并沒有市面上常見的理想,造成了訓(xùn)練樣本難度可能低于實際對遙感圖像檢測的難度。此外,在遙感圖像數(shù)據(jù)集中,有些目標(biāo)占圖像比例差距較大,例如飛機、汽車和操場、港口,一些目標(biāo)之間相似度接近易于造成混淆識別,例如山地、丘陵地形等分類和形狀相似的一些建筑物,還有一些目標(biāo)在平時被拍攝到的難易程度不同,引起了數(shù)據(jù)樣本分布不均勻。這些問題造成了遙感圖像人工標(biāo)注時標(biāo)準(zhǔn)不統(tǒng)一,提高了人工標(biāo)注的成本。一些方法能夠檢測出云層和云陰影[1],或者在云、雪共存的復(fù)雜情況檢測出云層[2],減弱了氣象條件的影響,但是數(shù)據(jù)分布不均勻的問題依然存在。
針對數(shù)據(jù)集標(biāo)注存在的問題,無監(jiān)督對比學(xué)習(xí)可以提高模型的識別率和檢測精度。目標(biāo)分類和目標(biāo)檢測是不同的任務(wù),在分類任務(wù)中,整幅圖像被分類為單一的標(biāo)簽,而在檢測任務(wù)中,除了目標(biāo)的類別之外,還有它具體的位置,且整幅圖像中有可能存在不同分類的多個目標(biāo)。雖然2種任務(wù)不同,但是檢測任務(wù)可以認(rèn)為是分類任務(wù)的下游任務(wù),在對比學(xué)習(xí)中,將特征提取網(wǎng)絡(luò)訓(xùn)練好的權(quán)重作為固定值,參與下游的檢測任務(wù),可以提高整體模型的檢測精度。將通道注意力機制添加到對比學(xué)習(xí)中的編碼器網(wǎng)絡(luò),可以增強特征提取,提高檢測精度。全局通道注意力機制[3]建立了全局信息的交互聯(lián)系,通過迭代獲取每個通道的重要程度。局部的通道注意力[4]認(rèn)為獲取所有通道之間的交互關(guān)系效率不高且不必要,只考慮每個通道及其相鄰的部分通道之間的聯(lián)系以增強模型的效率及有效性。
本文提出一個由局部的注意力機制改善的MoCo v2的模型,將MoCo v2預(yù)訓(xùn)練得到的權(quán)重作為固定參數(shù)應(yīng)用于以YOLOv5為基礎(chǔ)的目標(biāo)檢測框架,以提高遙感圖像檢測精度。實驗在AID Dataset[5]進行分類訓(xùn)練,遷移對比學(xué)習(xí)得到的預(yù)訓(xùn)練權(quán)重到Y(jié)OLOv5中進行遙感圖像檢測,在TGRS-HRRSD[6]數(shù)據(jù)集上進行檢測訓(xùn)練。
Chen等人[7]通過多尺度特征融合,提高了遙感圖像檢測精度,使用通道注意力機制,生成集成多尺度的注意力特征圖,利于關(guān)注不同背景和大小的物體,一定程度上改善了大小目標(biāo)之間的特征信息不對等的情況。還有基于多特征融合的變化檢測方法,通過計算結(jié)構(gòu)相似的紋理差,利用紋理和光譜特征提高遙感圖像中樣本的可信度,提高了檢測性能。Tan等人[8]提出了對Faster R-CNN的剪枝和量化的優(yōu)化方法,提高了對遙感圖像中車輛的檢測性能。這些方法雖然在各自的數(shù)據(jù)集上提高了檢測表現(xiàn),但在實際應(yīng)用的多分類場景中沒有改善標(biāo)簽標(biāo)注的標(biāo)準(zhǔn)不統(tǒng)一和相似樣本之間難于區(qū)分的情況。
到目前為止,流行的目標(biāo)檢測模型可以分為2類,其中一類是R-CNN系列的兩階段檢測算法,例如:RCNN[9]和Faster R-CNN[10],另外一類是單階段檢測算法,例如:YOLOv3[11]、YOLOv4[12]、YOLOv5和SSD[13]及DSSD[14],其中YOLO系列在檢測效果的實時性和精度上都更優(yōu)秀。經(jīng)過YOLOv1到Y(jié)OLOv5這6年的發(fā)展,現(xiàn)在許多檢測項目和實際應(yīng)用都使用YOLO算法,YOLOv5模型已經(jīng)在目標(biāo)檢測領(lǐng)域有最好的速度和精度的綜合性能。自從ResNet[15]提出以來有許多實驗證明了用于提取信息的骨干網(wǎng)絡(luò)對于殘差結(jié)構(gòu)的依賴。YOLOv5的骨干網(wǎng)絡(luò)使用了類似于ResNet結(jié)構(gòu)的CSP網(wǎng)絡(luò),增加殘差結(jié)構(gòu)可以增強網(wǎng)絡(luò)層與網(wǎng)絡(luò)層之間反向傳播的梯度值,有利于網(wǎng)絡(luò)層的加深,從而可以提取到更微小、更豐富的特征信息而不必?fù)?dān)心網(wǎng)絡(luò)退化。之后經(jīng)過不同尺度的池化操作,送入特征融合網(wǎng)絡(luò)FPN[16]和PAN[17],最后再預(yù)測分類和回歸具體位置。
近年來,無監(jiān)督對比學(xué)習(xí)領(lǐng)域迅速發(fā)展,許多模型和方法在分類任務(wù)上的表現(xiàn)已經(jīng)超過了有監(jiān)督模型,在目標(biāo)檢測任務(wù)上也有相近或者超過的性能。無監(jiān)督對比學(xué)習(xí)本質(zhì)上是利用大量的無標(biāo)注數(shù)據(jù)與復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,從圖像中吸取本身的分布,學(xué)習(xí)到高級的語義特征信息。目前效果比較好的對比學(xué)習(xí)方法主要分為2類:對比聚類和對比反例,基于負(fù)例的對比學(xué)習(xí)方法在目標(biāo)檢測、語義分割的下游任務(wù)的表現(xiàn)會更好一點。典型無監(jiān)督訓(xùn)練模型[18]和無監(jiān)督embedding學(xué)習(xí)[19]目的是在無標(biāo)定樣本中發(fā)現(xiàn)視覺相似性或者弱類別信息?;谪?fù)例的對比學(xué)習(xí)模型的發(fā)展從端到端的模型例如CPC v1[20]、CPC v2[21]、DIM[22]、AMDIM[23],到關(guān)鍵分支采用Memory Bank[24]再到動態(tài)字典的分支構(gòu)建[25],這些方法注重于關(guān)鍵值分支的處理,MoCo已經(jīng)實現(xiàn)了穩(wěn)定的迭代方法,訓(xùn)練出了高質(zhì)量的編碼器。MoCo v2[26]、SimCLR[27]進一步對編碼器輸出的表示做了改進,增加了全連接層,能夠過濾圖像更多的像素級的細節(jié)特征,能夠促進模型對高級語義特征、一些通用特征的學(xué)習(xí)。為了改善對比學(xué)習(xí)在圖像分類任務(wù)和目標(biāo)檢測任務(wù)上的精度不一致的情況,Xie等人[28]提出了除了全局圖像特征之外,局部特征也很重要,加入了跨局部和全局的對比損失和多階段的對比損失,大大提高了對比學(xué)習(xí)應(yīng)用于目標(biāo)檢測的性能。在遙感圖像領(lǐng)域,也有一些方法使用了弱監(jiān)督或者無監(jiān)督對比學(xué)習(xí)方法。 Li等人[29]使用場景級標(biāo)記進行多類地理空間目標(biāo)檢測的弱監(jiān)督深度學(xué)習(xí)方法,利用分離的場景類別信息和場景對之間的相互線索來充分訓(xùn)練深度網(wǎng)絡(luò),以追求更高的目標(biāo)檢測性能。2020年,Li等人[30]又提出了一種基于弱監(jiān)督深度學(xué)習(xí)的云檢測方法,一定程度上減弱了云層覆蓋對光學(xué)遙感圖像可用性的影響。Li等人[31]提出在遙感特征的基礎(chǔ)上,重新構(gòu)建了一種新的遙感知識圖,用于支持未知遙感圖像場景的推理識別,在遙感圖像分類任務(wù)上有很好的表現(xiàn)。
對比學(xué)習(xí)可以大致分為3個部分,如圖1所示。第一部分是數(shù)據(jù)輸入端,對樣本使用2種不同的數(shù)據(jù)增強方法得到2種樣本作為對比2個分支的輸入,經(jīng)過2種數(shù)據(jù)增強后,2個分支中的由相同圖像增強后得到的2個樣本互為正例,不同圖像進行增強后的2個樣本互為負(fù)例,基于負(fù)例的對比學(xué)習(xí)通過比較正負(fù)例之間的相似性學(xué)習(xí)到圖像內(nèi)的分類信息。第二部分為編碼器,通過編碼器來提取圖像中的表示和特征,查詢分支提取出的特征表示可以用于下游任務(wù)。第三部分為損失函數(shù),通過計算2個分支中的樣本的相似性來定義損失函數(shù),得到樣本的偽標(biāo)簽,達到分類的效果。
圖1 基于負(fù)例的對比學(xué)習(xí)模型
數(shù)據(jù)輸入端的改進:MoCo v2使用了比較大的動態(tài)字典構(gòu)建關(guān)鍵值分支的樣本,并對關(guān)鍵值分支的編碼器采用了動量迭代的方法,以能夠緩慢穩(wěn)定地訓(xùn)練。對比學(xué)習(xí)中好的特征通過大量的反例來學(xué)習(xí),但AID數(shù)據(jù)集中的圖像總數(shù)遠遠小于MoCo v2用到的ImageNet,為了在下一個迭代周期時打亂樣本批量隊列更新,降低抽到重復(fù)的樣本的概率,需要改變動態(tài)字典的大小,MoCo v2的字典大小為65536,對于AID數(shù)據(jù)集,可以設(shè)置為1024或者2048。其次對關(guān)鍵值的分支使用的數(shù)據(jù)增強方法再增加隨機對比度轉(zhuǎn)換以增大2個分支樣本的區(qū)別,加快訓(xùn)練速度。
編碼器的改進:許多遙感圖像中目標(biāo)與背景之間相似度很高,部分種類之間的相似度也很高,降低了識別率以及目標(biāo)錨框的準(zhǔn)確度,許多不同類別的物體在整幅圖像中所占的比例差距很大,造成了標(biāo)注時的標(biāo)準(zhǔn)不統(tǒng)一的問題。如圖2所示,圖2(a)飛機和圖2(b)立交橋所占整個圖像比例差距很大,帶來標(biāo)注的麻煩,圖2(c)是裸地與圖2(d)中沙漠的相似度很高,分類時容易發(fā)生錯誤。使用通道注意力可以改善這種情況,通道注意力機制會分配更多的權(quán)重在局部關(guān)注的區(qū)域,增強了重點區(qū)域的信息表達。在對比學(xué)習(xí)中增加注意力模塊能夠有效地提高目標(biāo)的特征提取,能夠改善遙感圖像中大、小目標(biāo)占圖像的比例差距過大的情況,能夠抑制無用背景或者干擾信息。如圖3所示為局部通道注意力機制實現(xiàn)方法,對輸入做不改變通道維度的全局平均池化操作,在通道維上使用卷積核為設(shè)定值的一維的1×1卷積,在經(jīng)過sigmoid激活函數(shù)之后得到各個通道的權(quán)重值,將各權(quán)重值應(yīng)用于原輸入,最終得到經(jīng)過注意力權(quán)值分配之后的特征圖。
(a) 飛機 (b) 立交橋 (c) 裸地 (d) 沙漠圖2 遙感圖像對比
圖3 局部通道注意力原理圖
圖4是添加了注意力機制的ResNet結(jié)構(gòu)圖,實際中將注意力機制添加到ResNet50時,可以在Conv2、Conv3、Conv4、Conv5層的最后加入注意力機制,在殘差網(wǎng)絡(luò)的每一個階段都加入注意力機制,對每一階段得到的不同通道數(shù)的特征進行注意力權(quán)重分配。整個獲得特征圖的網(wǎng)絡(luò)作為之后檢測網(wǎng)絡(luò)的骨干網(wǎng)絡(luò),特征圖接后續(xù)的網(wǎng)絡(luò)可以實現(xiàn)目標(biāo)分類與邊界框位置回歸。
圖4 ResNet50添加通道注意力機制結(jié)構(gòu)圖
損失函數(shù)的計算:如圖5所示,基于負(fù)例的對比學(xué)習(xí)的目的是將查詢分支的樣本和關(guān)鍵值分支上的正樣本匹配、負(fù)樣本區(qū)分,相同分類在向量投影空間上的分布體現(xiàn)一致性,距離很接近,不同分類在投影空間上的分布比較均勻。對比學(xué)習(xí)中的損失函數(shù)通過比較2個分支上的特征相似度來得到,公式(1)用來計算2個向量之間的相似度,通過點積運算方法,以判斷2個向量在投影空間上的距離遠近。
圖5 對比損失在投影空間上的理解
(1)
在經(jīng)過編碼器網(wǎng)絡(luò)之后,許多對比學(xué)習(xí)方法都直接進行相似度的計算,但是MoCo v2、SimCLR提出在編碼器網(wǎng)絡(luò)之后加入非線性變換,原因是編碼器得到的特征表會包含包括圖像增強信息在內(nèi)的底層通用的細節(jié)信息,增加一個非線性網(wǎng)絡(luò)層可以聚集這些通用特征,形成高階特征信息,有利于對比和計算2個特征圖之間的相似度。和MoCo v2相同,使用的是infoNCE損失函數(shù)[32],公式(2)為損失函數(shù)計算公式,在迭代過程中,分子上代表正例之間的相似度越來越大,分母上代表負(fù)例之間的相似度會越來越低,達到訓(xùn)練模型的目的。
(2)
YOLOv5是目前精度較高,實際應(yīng)用性最好的目標(biāo)檢測框架,也能較快地部署到不同的設(shè)備之中,因此下游檢測任務(wù)的基本框架選用YOLOv5模型。整體框架包括輸入端的Mosaic數(shù)據(jù)增強、自適應(yīng)錨框計算和自適應(yīng)圖片縮放。骨干網(wǎng)絡(luò)通常是一些性能優(yōu)異的網(wǎng)絡(luò)用于提取特征,neck網(wǎng)絡(luò)用于進一步提升特征的多樣性以及魯棒性,包括了FPN網(wǎng)絡(luò)和PAN網(wǎng)絡(luò)。最后是head輸出端,包含分類分支和位置回歸分支,使用GIOU損失函數(shù)。YOLOv5對這4個模塊不斷加深和加寬,最后形成了4個版本YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x。
圖6 YOLOv5中骨干網(wǎng)絡(luò)的殘差模塊
YOLOv5的骨干網(wǎng)絡(luò)是CSPDarknet53結(jié)構(gòu),主要由卷積層、殘差塊、連接層組成。如圖6所示為YOLOv5中的殘差模塊,CBL模塊為卷積層-批量歸一化層-Leaky Relu激活函數(shù),用于提取特征信息。大部分對比學(xué)習(xí)中使用的用于提取特征信息的編碼網(wǎng)絡(luò)是ResNet50,ResNet50帶有殘差組件的神經(jīng)網(wǎng)絡(luò)可以促進網(wǎng)絡(luò)結(jié)構(gòu)的加深,提高對特征信息的提取。為了更方便地遷移對比學(xué)習(xí)中學(xué)習(xí)到的用于特征提取的編碼器模型,需要對YOLOv5中的骨干網(wǎng)絡(luò)進行更換。實際中將YOLOv5中的骨干網(wǎng)絡(luò)更換為帶有注意力機制的ResNet50網(wǎng)絡(luò),使用了對比學(xué)習(xí)訓(xùn)練同樣的帶有注意力機制的ResNet50編碼器的權(quán)重作為骨干網(wǎng)絡(luò)的權(quán)重,這一權(quán)重在訓(xùn)練時不進行梯度迭代,作為固定權(quán)重生成特征圖。使用帶有注意力機制的ResNet50網(wǎng)絡(luò)為YOLOv5骨干網(wǎng)絡(luò)的好處有2個,第一點是對ResNet50增加了注意力結(jié)構(gòu),增強了特征提取,第二點是可以直接用許多對比學(xué)習(xí)方法中的預(yù)訓(xùn)練權(quán)重參與到下游的檢測任務(wù)中,方便了實驗結(jié)果的比較、驗證工作。更換之后的網(wǎng)絡(luò)整體模型如圖7所示。
圖7 改進的YOLOv5整體模型結(jié)構(gòu)
整體實驗分為2個部分,第一部分為對比學(xué)習(xí)方法的改進,在遙感圖像分類數(shù)據(jù)集上進行訓(xùn)練、驗證、測試。第二部分為遷移對比學(xué)習(xí)中獲得的編碼器網(wǎng)絡(luò)到下游的檢測任務(wù),在遙感圖像目標(biāo)檢測數(shù)據(jù)集上進行訓(xùn)練、驗證、測試。
無監(jiān)督對比學(xué)習(xí)的實驗環(huán)境:Intel(R) Xeon(R) Gold 5218 CPU,4個GeForce GTX 2080Ti(每個顯卡11 GB顯存),CUDA 11.1,Ubuntu 18.04操作系統(tǒng),深度學(xué)習(xí)框架是Pytorch 1.9。無監(jiān)督對比學(xué)習(xí)實驗在AID數(shù)據(jù)集上進行,設(shè)置batch-size為64,MoCo中維護的字典隊列的大小設(shè)置為2048,設(shè)置溫度超參數(shù)T為0.07,學(xué)習(xí)率為0.015,計算分類損失之前的特征維度是128,使用多GPU分布式訓(xùn)練。
AID數(shù)據(jù)集共有10000余張遙感圖像,30種分類,每種分類包含的圖像數(shù)目都在300以上,由于AID Dataset包含的圖像數(shù)目要遠遠小于ImageNet數(shù)據(jù)集,所以設(shè)置批量數(shù)和維護字典隊列要盡量小一點,ImageNet雖然是全世界種類最全,圖像數(shù)目最多的數(shù)據(jù)集,但是由于拍攝角度和圖像分辨率的問題,直接使用在ImageNet上預(yù)訓(xùn)練的權(quán)重去對遙感圖像分類效果不好,所以還是需要在ImageNet預(yù)訓(xùn)練權(quán)重的基礎(chǔ)之上在AID Dataset上訓(xùn)練一個針對遙感圖像分類的權(quán)重,以使該權(quán)重在之后的目標(biāo)檢測任務(wù)上有更好的表現(xiàn)。分類精度采用top1精度和top5精度。如表1所示,實驗首先對比了使用MoCo v2在使用在ImageNet的預(yù)訓(xùn)練權(quán)重和在AID Dataset上進一步訓(xùn)練得到的權(quán)重進行分類實驗,結(jié)果顯示,在ImageNet預(yù)訓(xùn)練權(quán)重的基礎(chǔ)之上在AID Dataset上進行微調(diào)200 epochs之后分類的精度更高,top1精度提高了1.838個百分點,top5精度提高了0.612個百分點,體現(xiàn)了當(dāng)訓(xùn)練自己的數(shù)據(jù)集時,ImageNet上的預(yù)訓(xùn)練權(quán)重微調(diào)后,整個模型的表現(xiàn)會更好。
表1 ImageNet上的預(yù)訓(xùn)練權(quán)重在AID數(shù)據(jù)集上微調(diào)的結(jié)果
除此之外,對MoCo v2的輸入端數(shù)據(jù)增強和編碼器進行了改進,分別都在ImageNet預(yù)訓(xùn)練權(quán)重的基礎(chǔ)上微調(diào),實驗結(jié)果如表2所示。結(jié)果顯示,在MoCo v2的基礎(chǔ)上,針對AID Dataset數(shù)據(jù)量比較小的情況,對2個對比的分支使用不同的數(shù)據(jù)增強方法比對2個分支使用隨機數(shù)據(jù)增強表現(xiàn)要好一點,top1精度提高了0.277個百分點。通過對編碼器使用局部的通道注意力改進之后,整個對比的學(xué)習(xí)模型在AID Dataset上分類精度達到了95.888%,較MoCo v2不改進之前的top1精度提高了2.712個百分點,top5精度提高了且額外引入的參數(shù)大小增加量可以微乎不計,證明了局部的注意力是輕量化的、有效的。
表2 MoCo v2和改進過后的MoCo v2在AID數(shù)據(jù)集上的結(jié)果對比
實驗還選取了之前的幾種對比學(xué)習(xí)方法進行比較,主要分為對比聚類方法和基于負(fù)例的對比方法2類,基于聚類的方法選擇了Deep Cluster[33]和SwAV[34]這2種方法,基于負(fù)例的對比方法選擇了MoCo v1、SimCLR v1,MoCo v2和改進過的MoCo v2。為了公平,除了改進過的MoCo v2這些模型的編碼器都選用了ResNet50,都是用它們各自在ImageNet上的預(yù)訓(xùn)練權(quán)重在AID Dataset進行微調(diào)。
如表3所示,基于聚類的對比學(xué)習(xí)方法SwAV在AID Dataset上分類精度最高95.963%,在基于負(fù)例的方法中改進過的MoCo v2表現(xiàn)最好,top1精度達到了95.888%。雖然改進的MoCo v2的性能并沒有SwAV的聚類方法高,但這并不意味著基于聚類的對比學(xué)習(xí)方法更適合下游的檢測任務(wù),原因是對于目標(biāo)檢測、語義分割等像素級的任務(wù)時基于負(fù)例的對比學(xué)習(xí)方法往往能夠獲得不同種類物體的關(guān)鍵信息,而這些信息能夠在像素級的任務(wù)中起到很大的幫助作用。這一觀點也在之后的目標(biāo)檢測任務(wù)的實驗中得到了驗證。
表3 不同方法的預(yù)訓(xùn)練權(quán)重在AID數(shù)據(jù)集上的分類精確度
這部分實驗設(shè)備與對比學(xué)習(xí)實驗的基本相同,只是使用了單張GeForce GTX 2080Ti顯卡。
遙感圖像檢測實驗使用的數(shù)據(jù)集為TGRS數(shù)據(jù)集,TGRS數(shù)據(jù)集共有大約21700張遙感圖像,有13種遙感圖像中常見的分類,例如airplane、ship、harbor。劃分?jǐn)?shù)據(jù)集時,整個數(shù)據(jù)集隨機分配為訓(xùn)練集,測試集,比例為9:1,并且同樣對訓(xùn)練集以9∶1的比例劃分出訓(xùn)練驗證集。每一次訓(xùn)練的迭代輪數(shù)為100。初始學(xué)習(xí)率為0.01,樣本批量為16,輸入圖像的分辨率為640×640。目標(biāo)檢測任務(wù)采用YOLOv5框架,將YOLOv5中的骨干網(wǎng)絡(luò)更換為對比學(xué)習(xí)中的編碼器的結(jié)構(gòu),各種功能神經(jīng)網(wǎng)絡(luò)的骨干網(wǎng)絡(luò)都是用來提取特征的,訓(xùn)練過程這一部分的權(quán)重是通用的,所以實驗中可以將對比學(xué)習(xí)中的編碼器網(wǎng)絡(luò)作為YOLOv5的骨干網(wǎng)絡(luò),并在訓(xùn)練的過程中不對這部分模塊進行參數(shù)的更新、迭代。這樣做一方面可以直接使用無監(jiān)督對比學(xué)習(xí)訓(xùn)練得到的性能比較好的權(quán)重,另一方面可以減少計算量,加快訓(xùn)練速度。
首先在骨干網(wǎng)絡(luò)上進行了消融實驗,設(shè)置了不同結(jié)構(gòu)骨干網(wǎng)絡(luò)的預(yù)訓(xùn)練權(quán)重,使用了從MoCo v2和使用改進的MoCo v2在AID數(shù)據(jù)集得到的預(yù)訓(xùn)練權(quán)重,也將骨干網(wǎng)絡(luò)加入訓(xùn)練中的迭代更新與以上2個結(jié)果對比。結(jié)果如表4所示,分析結(jié)果可得,當(dāng)骨干網(wǎng)絡(luò)使用了由對比學(xué)習(xí)得到的權(quán)重并在遙感圖像檢測任務(wù)中凍結(jié)它們,可以提高檢測精度,使用改進MoCo v2得到的權(quán)重的mAP@0.5為95.2%,比不使用預(yù)訓(xùn)練模型時提高了3.4個百分點,更嚴(yán)格的指標(biāo)mAP@.5:.95提高了5.6個百分點,作為改進,比MoCo v2的預(yù)訓(xùn)練權(quán)重分別提高了1.2個百分點和2.8個百分點。證明了使用對比學(xué)習(xí)中編碼器得到的預(yù)訓(xùn)練權(quán)重可以對目標(biāo)檢測任務(wù)的性能起到提高的作用,也證明了改進的MoCo v2中對于遙感圖像的檢測是有效果的。
表4 在TGRS數(shù)據(jù)集上的下游檢測任務(wù)微調(diào)的結(jié)果
遙感圖像檢測實驗還使用了其他一些之前不同方法的骨干網(wǎng)絡(luò)的預(yù)訓(xùn)練權(quán)重作為固定值參與訓(xùn)練,和改進的MoCo v2一起比較。每一次訓(xùn)練都是100輪,用時12.6 h。結(jié)果如表5所示,雖然在對比學(xué)習(xí)的分類任務(wù)中基于聚類方法的SwAV表現(xiàn)最好,但是在目標(biāo)檢測中像素級別的分類和回歸的要求更高,基于負(fù)例的對比學(xué)習(xí)在檢測方面的任務(wù)遷移時表現(xiàn)更好。使用改進的MoCo v2預(yù)訓(xùn)練權(quán)重的mAP@0.5比SwAV的高了1.1個百分點,mAP@.5:.95提高了2.8個百分點,改進的模型取得了最好的表現(xiàn),證明了改進MoCo v2模型的通用性和魯棒性。
表5 不同方法在TGRS數(shù)據(jù)集上的檢測結(jié)果對比
下一步進行了停車場類別上的檢測,在TGRS- HRRSD數(shù)據(jù)集上使用的每種方法對于不同種類的檢測精度都是停車場的檢測精度最低。表6是各種方法在停車場上的表現(xiàn),圖8對比了使用改進的MoCo v2預(yù)訓(xùn)練權(quán)重與不使用預(yù)訓(xùn)練權(quán)重在停車場上的檢測結(jié)果。圖8(a)和圖8(c)中使用了改進的MoCo v2的預(yù)訓(xùn)練權(quán)重檢測效果會更好,證明了對比學(xué)習(xí)對于目標(biāo)檢測任務(wù)的幫助作用。
表6 不同方法檢測停車場的結(jié)果對比
(a) (b) (c)圖8 在TGRS-HRRSD數(shù)據(jù)集的停車場類別的目標(biāo)檢測結(jié)果對比
最后為了進一步驗證改進模型的通用性,在RSOD遙感數(shù)據(jù)集[35]上進行目標(biāo)檢測實驗。RSOD數(shù)據(jù)集包含4種分類,共976張衛(wèi)星遙感圖像。模型骨干網(wǎng)絡(luò)的預(yù)訓(xùn)練權(quán)重設(shè)置為在AID數(shù)據(jù)集上微調(diào)過的MoCo v2和改進的MoCo v2相同,結(jié)果與骨干網(wǎng)絡(luò)參與迭代做對比,迭代輪數(shù)都設(shè)置為100。結(jié)果如表7所示,使用微調(diào)過改進的MoCo v2的預(yù)訓(xùn)練權(quán)重取得了最好的表現(xiàn),體現(xiàn)了模型的先進性。
表7 在RSOD數(shù)據(jù)集上的下游檢測任務(wù)微調(diào)的結(jié)果
為了體現(xiàn)基于無監(jiān)督對比學(xué)習(xí)的先進性,選擇幾種流行的或性能優(yōu)越的目標(biāo)檢測方法在TGRS-HRRSD數(shù)據(jù)集上進行對比,對比結(jié)果如表8所示,基于改進的MoCo v2的YOLOv5取得了最好的表現(xiàn)。
表8 在TGRS數(shù)據(jù)集上的不同算法的目標(biāo)檢測精度
針對衛(wèi)星遙感圖像中存在的標(biāo)注標(biāo)準(zhǔn)不統(tǒng)一,大小目標(biāo)占圖比例差距過大的問題,本文提出了一種改進的MoCo v2基于無監(jiān)督對比學(xué)習(xí)方法,將對比學(xué)習(xí)中的提取特征的網(wǎng)絡(luò)遷移到目標(biāo)檢測任務(wù)中。對于對比學(xué)習(xí)中數(shù)據(jù)增強做出了改進,并對編碼器加入了局部的通道注意力機制,增強了提取特征,在一定程度上幫助模型識別和分類小目標(biāo)和相似目標(biāo)。遷移預(yù)訓(xùn)練權(quán)重時,將YOLOv5的骨干網(wǎng)絡(luò)更換為改進的MoCo v2的編碼器。無監(jiān)督對比學(xué)習(xí)的方法不僅能夠解決遙感圖像中標(biāo)簽標(biāo)注時的標(biāo)準(zhǔn)不統(tǒng)一的問題,而且也能夠提高對遙感圖像檢測的精度。實驗結(jié)果表明在TGRS數(shù)據(jù)集上的mAP@.5:.95最高達到了67.8%,利用無監(jiān)督對比學(xué)習(xí)方法得到的權(quán)重可以提高下游檢測任務(wù)的表現(xiàn)。同時使用YOLOv5作為目標(biāo)檢測的框架,保持了檢測精度、速度的優(yōu)點,與其他的常用檢測模型相比,該網(wǎng)絡(luò)具有良好的通用性,當(dāng)對比學(xué)習(xí)中的編碼器部分做出了改進,很方便地能夠把相同的改動應(yīng)用到Y(jié)OLOv5的骨干網(wǎng)絡(luò),遷移的訓(xùn)練方法也能夠加快整體網(wǎng)絡(luò)訓(xùn)練的速度。在未來,也可以繼續(xù)對無監(jiān)督對比學(xué)習(xí)改進,一方面可以更加正確地做數(shù)據(jù)增強,構(gòu)造有難度的正例,增強模型的表示學(xué)習(xí)能力,另一方面針對下游檢測、分割任務(wù)的像素級別的任務(wù)時,可以提高像素級別的細節(jié)學(xué)習(xí)能力。