周院,楊慶慶,馬強(qiáng),薛博維,孔祥楠
中科星圖空間技術(shù)有限公司,西安 710000
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)中一項(xiàng)基本而又具有挑戰(zhàn)的任務(wù),其主要目的是準(zhǔn)確定位圖像中全部前景物體并識(shí)別它們的類(lèi)別。經(jīng)典的目標(biāo)檢測(cè)方法可分為雙階段方法(Girshick,2015;Ren等,2017;Azimi等,2019)和單階段方法(Redmon等,2016;Liu等,2016; Lin等,2017;丁鵬,2019;史文旭 等,2020)。
現(xiàn)有的雙階段和單階段目標(biāo)檢測(cè)算法大都借助錨框(anchor box)定位物體位置。例如,F(xiàn)aster R-CNN(faster region-based convolutional network)方法(Ren等,2017)需要在區(qū)域建議網(wǎng)絡(luò)中使用錨框產(chǎn)生候選區(qū)域;經(jīng)典的單階段檢測(cè)器YOLOv3(you only look once)(Redmon和Farhadi,2018)則在多個(gè)特征圖尺度上通過(guò)3組錨框檢索真實(shí)物體(趙永強(qiáng) 等,2020)。此外,比較經(jīng)典的方法,如SSD(single shot multibox detector)(Liu,2016)、RetinaNet(Lin等,2017)等,也都是基于錨框的目標(biāo)檢測(cè)。
錨框的引入有助于提升目標(biāo)檢測(cè)精度,但也帶來(lái)了如下問(wèn)題:1)錨框的設(shè)置引入了額外的超參數(shù),在不同數(shù)據(jù)集通常需要針對(duì)性地調(diào)整以取得最高的識(shí)別效果;2)錨框的匹配機(jī)制使得極端尺寸目標(biāo)被匹配到的頻率相對(duì)于大小適中的目標(biāo)被匹配到的頻率更低;3)大量的錨框多數(shù)為負(fù)樣本,使得正負(fù)樣本出現(xiàn)嚴(yán)重的不平衡問(wèn)題。
無(wú)錨框檢測(cè)算法是最近較新的研究方向。一般可分為兩大類(lèi),一類(lèi)是基于關(guān)鍵點(diǎn)的算法,典型代表為CornerNet(Law和Deng,2018),一類(lèi)是基于密集預(yù)測(cè)的算法,主要代表有DenseBox(Huang等,2015)和FCOS(fully convolutional one-stage object detection)(Tian等,2020)。FCOS目標(biāo)檢測(cè)算法在特征圖的每個(gè)像素上直接預(yù)測(cè)目標(biāo)框和類(lèi)別,通過(guò)預(yù)測(cè)目標(biāo)框與像素中心點(diǎn)的上、下、左、右距離描述目標(biāo)框邊界。為檢測(cè)相近位置不同大小的目標(biāo),F(xiàn)COS使用特征金字塔結(jié)構(gòu)(feature pyramid network)(Lin等,2016),在不同尺度的特征圖上檢測(cè)不同尺寸的目標(biāo),并加入中心度(centerness)制約因子大大減少了網(wǎng)絡(luò)輸出中的低質(zhì)量目標(biāo)框,使得其檢測(cè)精度超越了單階段基于錨框的目標(biāo)檢測(cè)算法(高鑫 等,2018)。
上述算法均是基于自然影像研發(fā)的目標(biāo)檢測(cè)方法,自然場(chǎng)景中物體幾乎總是以正向朝上的方式呈現(xiàn),且一幅圖像中的物體數(shù)量非常有限。遙感影像與自然影像相比,有非常明顯的特點(diǎn):1)存在大量密集排列的小尺寸目標(biāo);2)目標(biāo)物體沒(méi)有統(tǒng)一的朝向,可能在各個(gè)方向上旋轉(zhuǎn);3)圖像中前景物體數(shù)量龐大。針對(duì)遙感影像特點(diǎn),有學(xué)者針對(duì)性地設(shè)計(jì)了目標(biāo)檢測(cè)流程(付琨 等,2019),或從不同數(shù)據(jù)源成像特點(diǎn)出發(fā)設(shè)計(jì)算法,例如王思雨等人(2017)、張躍等人(2018)研究了合成孔徑雷達(dá)(synthetic aperture radar,SAR)影像下的目標(biāo)檢測(cè)方法。本文則以目標(biāo)框標(biāo)注方式為切入點(diǎn)構(gòu)造適合于遙感目標(biāo)檢測(cè)的算法。
傳統(tǒng)的目標(biāo)框標(biāo)注使用與坐標(biāo)軸平行的矩形框,即正框表示物體位置。這種表示方法無(wú)法滿(mǎn)足遙感影像目標(biāo)識(shí)別需求,例如對(duì)于密集排列的近岸艦船目標(biāo),如果使用正框標(biāo)注,則目標(biāo)實(shí)例之間將存在大量重疊區(qū)域,其檢測(cè)框內(nèi)部將包含大量不屬于該實(shí)例的前景物體(侯彪 等,2020;王彥情 等,2011)。
針對(duì)正框檢測(cè)的不足,許多研究嘗試在遙感影像上通過(guò)與目標(biāo)實(shí)例朝向一致的傾斜目標(biāo)框(簡(jiǎn)稱(chēng)斜框)檢測(cè)提升算法表現(xiàn)(馮衛(wèi)東 等,2013)。傾斜目標(biāo)是指像素坐標(biāo)下,矩形目標(biāo)框的邊不與水平或垂直軸平行,而是呈一定夾角的傾斜現(xiàn)象。斜框能夠更緊致地貼合目標(biāo)邊界,基于斜框標(biāo)注的檢測(cè)框能夠大大減少框內(nèi)冗余信息。
近年來(lái)已經(jīng)提出了多種基于斜框的目標(biāo)檢測(cè)算法,如Liu等人(2017)提出了帶有區(qū)域生成網(wǎng)絡(luò)的Faster R-CNN,Yang等人(2019)提出了專(zhuān)門(mén)針對(duì)密集小目標(biāo)的斜框目標(biāo)檢測(cè),Pan等人(2020) 提出了動(dòng)態(tài)精細(xì)化網(wǎng)絡(luò)(dynamic refinement network,DRN)(Pan等,2020),能根據(jù)目標(biāo)的形狀、方向和位置調(diào)整感受野,有效緩解目標(biāo)和感受野之間的失調(diào)。Xu等人(2021)提出的滑動(dòng)頂點(diǎn)方法在正框的邊界上尋找斜框頂點(diǎn),無(wú)錨框的遙感影像檢測(cè)算法有張?bào)汴系热?2020)在CornerNet的基礎(chǔ)上提出的通過(guò)中心點(diǎn)進(jìn)行回歸的方法。
綜上,本文試圖結(jié)合FCOS目標(biāo)檢測(cè)和滑動(dòng)端點(diǎn)技術(shù)實(shí)現(xiàn)一種快速穩(wěn)健的遙感目標(biāo)識(shí)別方法,一方面解決滑動(dòng)端點(diǎn)方法中出現(xiàn)的任意四邊形和訓(xùn)練耗時(shí)長(zhǎng)的問(wèn)題;另一方面,摒棄角度參數(shù)預(yù)測(cè),推理出最終的斜框結(jié)果,算法不僅很好地保持了無(wú)錨框檢測(cè)的速度優(yōu)勢(shì),還通過(guò)改進(jìn)中心點(diǎn)預(yù)測(cè)提升了算法的檢測(cè)精度。
網(wǎng)絡(luò)整體結(jié)構(gòu)由3部分組成,如圖1所示,首先利用帶有殘差模塊(deep residual networks, ResNet) (He等,2016)的骨干網(wǎng)絡(luò)對(duì)輸入影像進(jìn)行特征提取,然后將提取到的特征輸入第2部分的特征金字塔模塊,通過(guò)該模塊對(duì)不同尺度的特征信息進(jìn)行融合,得到魯棒的融合特征,最后將該特征送入檢測(cè)分支進(jìn)行目標(biāo)類(lèi)別和目標(biāo)邊框位置預(yù)測(cè)。其中,檢測(cè)的第1個(gè)分支預(yù)測(cè)目標(biāo)類(lèi)別和中心度,第2個(gè)分支預(yù)測(cè)回歸目標(biāo)邊框4個(gè)方向的距離,在回歸四邊距離的前提下,加入斜框部分,分別預(yù)測(cè)目標(biāo)的鄰邊比率和正框與斜框的面積比率。
圖1 模型整體框架Fig.1 The framework of overall model
特征提取網(wǎng)絡(luò)使用ResNet系列,如ResNet50,整個(gè)特征提取網(wǎng)絡(luò)分為4個(gè)卷積模塊,每個(gè)卷積模塊結(jié)構(gòu)如圖2所示,將若干個(gè)卷積模塊堆疊起來(lái),提取到不同粒度的特征信息,此外,殘差網(wǎng)絡(luò)巧妙的跳躍連接方式,能夠有效避免由網(wǎng)絡(luò)深度增加導(dǎo)致的網(wǎng)絡(luò)梯度爆炸和梯度消失問(wèn)題(唐瑋 等,2019)。
圖2 卷積模塊示意圖Fig.2 The structure of convolution block
ResNet50網(wǎng)絡(luò)中共有4類(lèi)卷積模塊,每一類(lèi)的卷積結(jié)構(gòu)相同,特征圖通道數(shù)不同,圖2表示ResNet50網(wǎng)絡(luò)的一個(gè)卷積模塊的卷積結(jié)構(gòu)圖,每個(gè)方框代表一種操作。
目標(biāo)檢測(cè)任務(wù)中,常常由于不同尺度的目標(biāo)難以檢測(cè),導(dǎo)致網(wǎng)絡(luò)檢測(cè)精度不理想,殘差網(wǎng)絡(luò)中,每類(lèi)卷積模塊之后,特征圖都是不同尺度的,低層次的卷積模塊提取到的特征包含更多的圖像局部信息和低層次特征,如邊緣、輪廓等,高層次的卷積模塊提取到的特征通常是更高層的全局、抽象特征(李湘眷 等,2016)。在目標(biāo)檢測(cè)任務(wù)中,低層和高層特征都至關(guān)重要,因此在特征提取之后,取不同層級(jí)的殘差提取特征圖進(jìn)行特征融合,整合不同層級(jí)的特征信息。在原始FCOS的基礎(chǔ)上,改進(jìn)了特征融合的方式,不僅僅是將多個(gè)尺度的特征圖進(jìn)行通道維度拼接,還增加了1×1卷積核的卷積操作和批量歸一化操作,有效提升算法速度和精度,具體的多尺度特征融合結(jié)構(gòu)如圖3所示。
圖3 多尺度特征融合結(jié)構(gòu)Fig.3 The fusion structure of multi-scale feature((a) multi-scale feature extraction; (b) feature fusion)
圖3(a)中,左邊一列是殘差網(wǎng)絡(luò),以ResNet50為例,網(wǎng)絡(luò)共包含4類(lèi)卷積模塊(block),取后3類(lèi)卷積模塊輸出分別進(jìn)行1×1卷積,得到C3,C4,C5,接著將C5進(jìn)行1×1卷積得到P5,P4由經(jīng)過(guò)1×1卷積的C4和上采樣之后的P5融合得到;同理得到P3。P6由P5經(jīng)過(guò)步長(zhǎng)為2的卷積得到,同理得到P7。圖3(b)是以P3為例,展示了多尺度特征融合的方式,圖中C3′代表經(jīng)過(guò)1×1卷積的C3,P4′代表經(jīng)過(guò)上采樣的P4,先把C3′和P4′按照通道維度進(jìn)行拼接,然后使用1×1卷積進(jìn)行降維,再歸一化得到P3??紤]到相鄰層級(jí)之間的特征差異更平滑,因此只對(duì)相鄰兩層特征進(jìn)行融合。融合拼接之后的特征圖經(jīng)過(guò)1×1卷積核的操作可以針對(duì)通道維度進(jìn)行跨通道信息交互,降低特征通道維度,有效減少計(jì)算量,批量歸一化操作可以加快網(wǎng)絡(luò)收斂,控制梯度爆炸并防止梯度消失,避免網(wǎng)絡(luò)過(guò)擬合。這種金字塔特征融合模塊一方面可以保證特征空間分辨率不下降,另一方面也可以有效擴(kuò)大感受野,提升網(wǎng)絡(luò)魯棒性。
回歸檢測(cè)分支的輸出主要有兩個(gè)分支:第1分支計(jì)算目標(biāo)類(lèi)別和中心度(ct),第2分支回歸目標(biāo)框參數(shù)(l,t,r,b,α1,α2,k)。改進(jìn)的部分主要體現(xiàn)在第2分支上,(l,t,r,b)是前景點(diǎn)至目標(biāo)框的左邊、上邊、右邊和下邊之間的距離,(α1,α2)表示兩條鄰邊的斜框在正框邊上的比率。k表示斜框面積與正框面積的比率,具體目標(biāo)回歸檢測(cè)框優(yōu)化分支如圖4所示。
圖4 回歸檢測(cè)分支結(jié)構(gòu)Fig.4 The branch structure of regression detection
在第1分支上,通過(guò)卷積回歸將特征圖映射成c個(gè)通道的分類(lèi)結(jié)果,c代表目標(biāo)類(lèi)別數(shù),即映射成每類(lèi)目標(biāo)的分類(lèi)結(jié)果。特征上的位置可以通過(guò)換算映射到輸入圖像位置,從而建立特征圖上點(diǎn)的位置和輸入圖像上點(diǎn)的位置之間的關(guān)系,為計(jì)算特征圖上每個(gè)點(diǎn)的分類(lèi)提供基礎(chǔ)。第1分支的另一個(gè)輸出是中心度ct,用于衡量特征圖上每個(gè)點(diǎn)與目標(biāo)中心點(diǎn)之間的距離,目的是減少距離目標(biāo)中心較遠(yuǎn)的預(yù)測(cè)框,約束預(yù)測(cè)框盡可能靠近目標(biāo)中心點(diǎn)。計(jì)算為
(1)
改進(jìn)的第2分支上,回歸斜框的參數(shù)為(l,t,r,b,α1,α2,k),通過(guò)推理正框四邊距離、斜框鄰邊比率和面積比率預(yù)測(cè)任意方向的傾斜目標(biāo)框位置。
假設(shè)對(duì)于給定的目標(biāo),其傾斜目標(biāo)框?yàn)镺(圖5中的藍(lán)框),對(duì)應(yīng)的正框?yàn)锽(圖5中的黑框),設(shè)vi,i∈{1,2,3,4}分別表示兩種目標(biāo)框在上邊、右邊、下邊和左邊的交點(diǎn),其正框分別用4點(diǎn)坐標(biāo)v′i,i∈{1,2,3,4}表示。正框通常也用(x,y,w,h)表示,其中(x,y)表示中心點(diǎn)坐標(biāo),w和h分別是寬度和高度(陳華杰 等,2021),額外變量(α1,α2)定義為
(2)
k=|O|/|B|
(3)
式中,|·|表示基數(shù)。接近水平目標(biāo)的傾斜度系數(shù)k較大,趨近于1,目標(biāo)框窄長(zhǎng)(長(zhǎng)寬比例大)且傾斜目標(biāo)的傾斜度系數(shù)k趨近于0。因此,可以根據(jù)傾斜度因子k選擇正框或斜框作為最終結(jié)果,有效避免了極端情況的檢測(cè)誤差。最后通過(guò)回歸(l,t,r,b,α1,α2,k)來(lái)求出目標(biāo)的傾斜框位置。
通過(guò)回歸兩個(gè)邊的長(zhǎng)度比,有效表征了正框每側(cè)的相對(duì)滑動(dòng)偏移量,與滑動(dòng)點(diǎn)網(wǎng)絡(luò)提出的斜框表示中的角度預(yù)測(cè)誤差相比,這種表示對(duì)偏移預(yù)測(cè)誤差的敏感性更小。通過(guò)限制正框四邊的偏移量,可以方便地進(jìn)行偏移量學(xué)習(xí),同時(shí)也避免了直接回歸定向目標(biāo)的4個(gè)頂點(diǎn)時(shí)順序標(biāo)記點(diǎn)的混淆。為了進(jìn)一步消除近水平目標(biāo)的小角度傾斜,還引入了一種基于傾斜目標(biāo)框與正框面積比的傾斜因子,該傾斜因子指導(dǎo)網(wǎng)絡(luò)選擇近水平目標(biāo)的正框檢測(cè)或傾斜目標(biāo)的斜框檢測(cè)。
圖5 傾斜目標(biāo)框參數(shù)說(shuō)明圖Fig.5 The parameters of oblique frame detection
訓(xùn)練過(guò)程中,網(wǎng)絡(luò)損失函數(shù)由兩個(gè)分支損失函數(shù)組成,第1個(gè)分支損失包含類(lèi)別損失和中心度損失;第2個(gè)分支損失主要是四邊距離損失和斜框預(yù)測(cè)損失。
訓(xùn)練中第1分支的類(lèi)別和中心度的損失函數(shù)為
(4)
第2分支的四邊距離損失函數(shù)為
(5)
與FCOS不同的是第2分支的斜框預(yù)測(cè)損失函數(shù),為了計(jì)算預(yù)測(cè)斜框兩鄰邊上的比率(α1,α2)和傾斜度系數(shù)k的損失,計(jì)算為
(6)
Lreg=λ1Lα+λ2Lk
(7)
(8)
(9)
因此,訓(xùn)練第2分支的總損失為
L′2=L2+L3
(10)
綜上,訓(xùn)練過(guò)程中網(wǎng)絡(luò)的總損失函數(shù)為
L=L1+L2+L3
(11)
本文提出的改進(jìn)FCOS的傾斜目標(biāo)檢測(cè)方法在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,將像素點(diǎn)作為訓(xùn)練樣本,并且盡可能多地選擇正樣本來(lái)訓(xùn)練探測(cè)器,通過(guò)特征提取網(wǎng)絡(luò)得到特征圖之后,進(jìn)入分類(lèi)和回歸模塊進(jìn)行網(wǎng)絡(luò)參數(shù)回歸,最終得到預(yù)測(cè)的目標(biāo)框位置(伍穎佳,2015)。最后,通過(guò)損失函數(shù)約束來(lái)優(yōu)化網(wǎng)絡(luò)參數(shù),直至訓(xùn)練結(jié)束。
在模型的測(cè)試推理中,使用了逐像素回歸策略,借助中心度來(lái)抑制低質(zhì)量檢測(cè)到的邊界框,且不引入任何超參數(shù),該中心度的主要作用是找到目標(biāo)的中心點(diǎn),離目標(biāo)中心越近,中心度越大,反之越小,網(wǎng)絡(luò)通過(guò)前向傳播之后,將第1分支中推測(cè)得到的中心度的值與分類(lèi)的輸出值相乘,這樣可以有效地過(guò)濾掉一批誤檢框,提高識(shí)別準(zhǔn)確度。
網(wǎng)絡(luò)推理得到的(l,t,r,b,α1,α2,k)參數(shù),可以用來(lái)計(jì)算預(yù)測(cè)目標(biāo)包圍框的4點(diǎn)坐標(biāo)。具體推理過(guò)程如下。
設(shè)特征圖為Fi∈RH×W×C,s為特征圖至該層的總步長(zhǎng),對(duì)于特征圖Fi上的每個(gè)位置(x,y),可以通過(guò)下式將其映射回輸入圖像上的鄰近位置(x0,y0)
(12)
根據(jù)推理得到的四邊距離值(l,t,r,b)和式(12)得到的中心坐標(biāo)聯(lián)合計(jì)算,可以得到目標(biāo)正框的左上角和右下角的坐標(biāo)(xmin,ymin),(xmax,ymax)為
xmin=x0-l,ymin=y0-t
xmax=x0+r,ymax=y0+b
(13)
根據(jù)網(wǎng)絡(luò)推理得到的(α1,α2)和式(13)得到的正框坐標(biāo)聯(lián)合計(jì)算,便得到斜框的4點(diǎn)坐標(biāo)(p1,p2,p3,p4)為
w=xmax-xmin
h=ymax-ymin
s1=α1×w,s2=α2×h
p1=(x1,y1),x1=xmin+s1,y1=ymax
p2=(x2,y2),x2=xmax,y2=ymax-s2
p3=(x3,y4),x3=xmax-s1,y3=ymin
p4=(x4,y4),x4=xmin,y4=ymin+s2
(14)
對(duì)于推理得到的參數(shù)k,主要用于正框和斜框的選擇,不是所有情況都選擇推理出來(lái)的斜框。當(dāng)參數(shù)k大于設(shè)定的閾值,則目標(biāo)使用正框檢測(cè),如果小于閾值則直接用式(13)得到的正框作為推理結(jié)果,本文該閾值取0.8。
實(shí)驗(yàn)環(huán)境如下:服務(wù)器選擇64位Linux的操作系統(tǒng),搭載4塊TeslaP100顯卡(16 GB),CUDA版本選擇10.0,cuDNN版本選擇7.0,網(wǎng)絡(luò)搭建基于Pytorch框架進(jìn)行python語(yǔ)言編程。在實(shí)驗(yàn)中,超參設(shè)置為:訓(xùn)練中的迭代次數(shù)為50 000,初始學(xué)習(xí)率為0.01,batchsize為12。學(xué)習(xí)率調(diào)整采用warmup方式,在訓(xùn)練過(guò)程中,網(wǎng)絡(luò)分別在38 000和46 000輪時(shí)變?yōu)樵瓉?lái)學(xué)習(xí)率的10%,本文實(shí)驗(yàn)使用多尺度訓(xùn)練和預(yù)測(cè)。
本文采用平均準(zhǔn)確率(mean average precision, mAP)作為算法評(píng)價(jià)指標(biāo)。其中檢測(cè)結(jié)果像素?cái)?shù)與真值目標(biāo)像素?cái)?shù)交并比大于0.5,則認(rèn)為正確,否則認(rèn)為預(yù)測(cè)錯(cuò)誤。采用AP作為評(píng)價(jià)指標(biāo)即要求在獲取較高的精確率時(shí),也要獲取較高的召回率,彌補(bǔ)了單一準(zhǔn)確率或召回率評(píng)價(jià)方法的不足。mAP為所有類(lèi)別的AP均值,具體計(jì)算為
(15)
式中,p(r)代表準(zhǔn)確率,r代表召回率,q代表某個(gè)類(lèi)別。mAP能很好地平衡準(zhǔn)確率和召回率。
為了對(duì)比不同骨干網(wǎng)絡(luò)的特征提取效果,本文分別采用ResNet50和ResNet101網(wǎng)絡(luò)進(jìn)行特征提取,并對(duì)比算法精度。在特征提取過(guò)程中,輸入圖像大小為1 024×1 024像素,測(cè)試結(jié)果如表1。
表1 不同特征提取網(wǎng)絡(luò)檢測(cè)結(jié)果對(duì)比Table 1 The detection results of different feature extraction networks
從表1中可以看出,在DOTA數(shù)據(jù)集上,本文方法在骨干網(wǎng)絡(luò)ResNet101上比ResNet50的特征提取能力強(qiáng),表明在本文實(shí)驗(yàn)數(shù)據(jù)集上,ResNet101殘差網(wǎng)絡(luò)的特征表征能力比ResNet50網(wǎng)絡(luò)更好,但網(wǎng)絡(luò)訓(xùn)練時(shí)長(zhǎng)也隨著網(wǎng)絡(luò)層數(shù)加深而變長(zhǎng)。
為了進(jìn)一步驗(yàn)證本文斜框目標(biāo)檢測(cè)方法的效果,本文與其他經(jīng)典斜框目標(biāo)檢測(cè)方法在相同數(shù)據(jù)集DOTA上進(jìn)行效果對(duì)比,其中包括以SSD、YOLOv3為代表的單階段目標(biāo)檢測(cè)(Redmon和Farhadi,2018),以R-DFPN(rotation dense feature pyramid network)(Yang等,2018)、RRPN(rotation region proposal network)(Ma等,2018)、SCRDet(Yang等,2019)等為代表的雙階段目標(biāo)檢測(cè)方法,還有最新的DRN無(wú)錨框目標(biāo)檢測(cè)方法。實(shí)驗(yàn)結(jié)果如表2所示。為評(píng)估算法速度,采用FPS(frames per second)作為效率指標(biāo)。
表2 不同模型目標(biāo)檢測(cè)結(jié)果對(duì)比Table 2 The detection results of different models
從表2中可以明顯看出,本文方法在DOTA數(shù)據(jù)集上表現(xiàn)突出,并且無(wú)錨框的斜框目標(biāo)檢測(cè)方法比基于錨框的目標(biāo)檢測(cè)方法有著明顯優(yōu)勢(shì)。本文方法在基于FCOS正框檢測(cè)的基礎(chǔ)上,通過(guò)由2條鄰邊的滑動(dòng)距離計(jì)算出另外兩邊的滑動(dòng)距離,減少了回歸參數(shù),本文提出的改進(jìn)FCOS斜框目標(biāo)檢測(cè)方法取得了最佳精度。表2中改進(jìn)后的斜框FCOS的mAP達(dá)到73.22%,比原始正框FCOS在相同數(shù)據(jù)集和相同的特征提取網(wǎng)絡(luò)情況下精度提升了33.02%,F(xiàn)PS比YOLOv3提升了38.82%,改進(jìn)的FCOS算法FPS均高于其他單階段方法和雙階段方法。結(jié)果說(shuō)明改進(jìn)后的斜框FCOS在保持了FCOS無(wú)錨框算法的速度特性的前提下,比原始正框FCOS精度提升明顯。
M, s1, s2 |= φ ∧ ψ ,當(dāng)且僅當(dāng), 存在s3且M, s1, s3 |= φ ,M, s3, s2 |= ψ
不同模型斜框目標(biāo)檢測(cè)算法的詳細(xì)精度對(duì)比如表3所示??梢钥吹?,每個(gè)類(lèi)別的AP值不一定都是本文方法表現(xiàn)最優(yōu),但本文算法的mAP高于其他單階段和雙階段的斜框目標(biāo)檢測(cè)算法,比R3Det在相同骨干網(wǎng)絡(luò)情況下精度提升1.53%,在加載Resnet50骨干網(wǎng)絡(luò)時(shí),最優(yōu)效果達(dá)到74.84%。
表3 DOTA數(shù)據(jù)集15類(lèi)斜框目標(biāo)檢測(cè)精度對(duì)比Table 3 The Comparison of 15 types of oblique object detection accuracy on DOTA dataset /%
本文方法利用DOTA數(shù)據(jù)集進(jìn)行訓(xùn)練,采用1/2樣本做訓(xùn)練,1/6樣本做驗(yàn)證,剩下1/3為測(cè)試集。圖6為部分測(cè)試結(jié)果。
圖6中,藍(lán)色方框代表誤識(shí)別目標(biāo),紅色方框?yàn)槁┨崮繕?biāo)。其中不同角度、不同尺度、不同分辨率和不同場(chǎng)景的目標(biāo)均能很好地識(shí)別,且識(shí)別框能緊致地貼合目標(biāo),與真實(shí)目標(biāo)方向一致,尤其是在整齊密集排布的目標(biāo)場(chǎng)景下,能達(dá)到較高的識(shí)別精度。但結(jié)果中,仍然有少量目標(biāo)錯(cuò)提和漏提,尤其是在目標(biāo)周邊陰影區(qū)域容易產(chǎn)生誤識(shí)別,對(duì)特殊目標(biāo)容易發(fā)生漏提問(wèn)題。
圖6 改進(jìn)后FCOS目標(biāo)檢測(cè)結(jié)果Fig.6 The results of improved FCOS on target detection
為比較原始正框FCOS與改進(jìn)后的斜框FCOS算法在DOTA數(shù)據(jù)集上的表現(xiàn),結(jié)果如圖7所示。
圖7 原始FCOS與改進(jìn)后FCOS結(jié)果對(duì)比Fig.7 The comparison of the results of the original FCOS and the improved FCOS((a)original FCOS;(b)improved FCOS)
對(duì)密集排列的窄長(zhǎng)型目標(biāo)來(lái)說(shuō),原始FCOS檢測(cè)結(jié)果冗余信息較多,且存在大量重疊目標(biāo)框。本文方法表現(xiàn)良好,對(duì)密集排列的目標(biāo)識(shí)別框排布較規(guī)則,能緊致地貼合真實(shí)目標(biāo),有效滿(mǎn)足遙感影像對(duì)目標(biāo)檢測(cè)的要求,尤其對(duì)艦船、車(chē)輛等目標(biāo)識(shí)別效果較好,重疊信息較少。
本文提出的一階全卷積遙感影像傾斜目標(biāo)檢測(cè)方法,在原始FCOS算法的基礎(chǔ)上,結(jié)合金字塔多尺度特征融合思想和目標(biāo)邊框滑動(dòng)點(diǎn)思想對(duì)遙感影像進(jìn)行目標(biāo)斜框檢測(cè),使網(wǎng)絡(luò)能夠?qū)θ我獬虻奈矬w進(jìn)行建模,有效消除了正框標(biāo)注下目標(biāo)干擾和背景冗余問(wèn)題,對(duì)遙感影像中密集排列目標(biāo)具有良好的適應(yīng)性。在當(dāng)前最大的遙感斜框檢測(cè)公開(kāi)數(shù)據(jù)集上,對(duì)比了當(dāng)前先進(jìn)的單階段和雙階段檢測(cè)器,本文方法mAP達(dá)到74.84%,獲得了較高的評(píng)價(jià)指標(biāo),證明了本文方法在斜框檢測(cè)上的優(yōu)越性。
本文的貢獻(xiàn)主要在于:1)建立了高精度無(wú)錨框單階段斜框目標(biāo)檢測(cè)器,在效率與精度兩方面均具有良好的表現(xiàn),以更簡(jiǎn)潔的方式描述了斜框目標(biāo);2)避免了有錨框檢測(cè)算法中,需要針對(duì)特定數(shù)據(jù)進(jìn)行錨框參數(shù)配置所可能導(dǎo)致的檢測(cè)器性能下降;3)在當(dāng)前公開(kāi)的最大的斜框目標(biāo)檢測(cè)數(shù)據(jù)集DOTA上進(jìn)行了廣泛評(píng)測(cè),驗(yàn)證了所提算法的性能。本文提出的斜框目標(biāo)檢測(cè)方法還存在較大的改進(jìn)空間,將在如下幾個(gè)方面繼續(xù)開(kāi)展研究:1)多尺度特征融合和特征篩選;2)改進(jìn)樣本選擇策略,取得更好的正負(fù)樣本平衡;3)優(yōu)化斜框交并比損失函數(shù),提升檢測(cè)精度和穩(wěn)定性。