張 智,鄭 錦
(1.中國民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300;2.北京航空航天大學(xué) 計(jì)算機(jī)學(xué)院,北京 100191)
相較于傳統(tǒng)的固定視角監(jiān)控視頻,無人機(jī)視頻具有視角靈活、時(shí)效性強(qiáng)、監(jiān)視范圍廣等優(yōu)點(diǎn),使得無人機(jī)監(jiān)控市場在近些年得到迅猛發(fā)展。如何有效利用無人機(jī)視頻的優(yōu)點(diǎn),成為智能監(jiān)控的重要環(huán)節(jié)。其中,無人機(jī)視頻中車輛檢測作為智能監(jiān)控的基礎(chǔ),同時(shí)也是計(jì)算機(jī)視覺的熱點(diǎn)方向之一,被國內(nèi)外研究者所關(guān)注。目前,無人機(jī)視頻目標(biāo)檢測算法大致可以分為兩類:一類是單幀無人機(jī)圖像目標(biāo)檢測,該類方法使用通用目標(biāo)檢測網(wǎng)絡(luò)對(duì)無人機(jī)視頻中的每一幀進(jìn)行特定目標(biāo)的檢測;另一類是視頻目標(biāo)檢測,該類方法利用視頻幀間的運(yùn)動(dòng)和時(shí)序信息,對(duì)視頻中的特定目標(biāo)進(jìn)行檢測。
在單幀無人機(jī)圖像目標(biāo)檢測方法的研究中,LI等[1]借鑒基于區(qū)域候選網(wǎng)絡(luò)的實(shí)時(shí)目標(biāo)檢測(Faster-Rcnn)[2]來提升無人機(jī)圖像中車輛檢測的精度。文獻(xiàn)[3]通過改進(jìn)單階段多候選框目標(biāo)檢測(SSD)[4],并結(jié)合基于焦點(diǎn)損失的密集目標(biāo)檢測(Focal loss)[5]來實(shí)現(xiàn)無人機(jī)圖像中目標(biāo)的快速檢測。文獻(xiàn)[6-7]通過使用Yolov 3[8]的變體來實(shí)現(xiàn)無人機(jī)圖像中目標(biāo)的快速檢測。這一類方法在單幀無人機(jī)圖像中優(yōu)勢明顯,但是當(dāng)目標(biāo)存在遮擋時(shí)容易漏檢。此外,將單幀無人機(jī)圖像檢測器直接應(yīng)用于視頻檢測時(shí),由于無人機(jī)和車輛兩者的運(yùn)動(dòng)會(huì)導(dǎo)致目標(biāo)光照、視角發(fā)生變化,使得同一目標(biāo)在連續(xù)幀中檢測的置信度變化較大,甚至出現(xiàn)部分幀目標(biāo)的漏檢,即檢測框“閃爍”現(xiàn)象。
相較于單幀圖像檢測方法,視頻目標(biāo)檢測方法利用視頻連續(xù)幀的時(shí)序和運(yùn)動(dòng)信息來實(shí)現(xiàn)檢測精度的提升。目前基于深度學(xué)習(xí)的通用視頻檢測方法中,文獻(xiàn)[9]采用跟蹤結(jié)果對(duì)檢測結(jié)果進(jìn)行修正,進(jìn)而提高視頻檢測精度?;诠饬饕龑?dǎo)特征融合的視頻目標(biāo)檢測(FAGA)[10]和基于運(yùn)動(dòng)感知的視頻目標(biāo)檢測(MANET)[11]來利用光流進(jìn)行運(yùn)動(dòng)估計(jì),對(duì)當(dāng)前幀的前后多幀進(jìn)行特征融合,進(jìn)而減弱目標(biāo)遮擋的影響。這些方法在視頻目標(biāo)檢測中性能優(yōu)越,但主要針對(duì)通用目標(biāo)檢測,且屬于離線檢測器,不能滿足無人機(jī)視頻車輛檢測實(shí)時(shí)處理的需求。
針對(duì)上述問題,筆者提出了結(jié)合視頻幀間目標(biāo)回歸網(wǎng)絡(luò)的無人機(jī)視頻車輛檢測算法。該算法主要貢獻(xiàn)有以下3個(gè)方面:
(1) 針對(duì)無人機(jī)視頻中車輛密集分布且遮擋所造成的大量檢測框重疊問題,采用高斯加權(quán)衰減設(shè)計(jì)軟化非極大值抑制[12]處理,將其作為單階段全卷積目標(biāo)檢測(FCOS)[13]檢測框合并策略,構(gòu)成性能更優(yōu)的單幀無人機(jī)車輛檢測器。
(2) 在單幀無人機(jī)車輛檢測器基礎(chǔ)上,設(shè)計(jì)幀間目標(biāo)回歸網(wǎng)絡(luò)。利用視頻幀間連續(xù)性將相鄰多幀的目標(biāo)特征進(jìn)行有效融合,并與當(dāng)前幀目標(biāo)特征進(jìn)行匹配回歸輸出預(yù)測結(jié)果,最后利用單幀檢測結(jié)果修正預(yù)測結(jié)果,形成無人機(jī)視頻車輛檢測算法,有效克服無人機(jī)平臺(tái)運(yùn)動(dòng)噪聲強(qiáng)的影響。
(3) 針對(duì)現(xiàn)有無人機(jī)數(shù)據(jù)集往往忽略小尺寸區(qū)域和靜止車輛目標(biāo)的問題,通過對(duì)小尺寸區(qū)域和部分靜止車輛的補(bǔ)充標(biāo)注來豐富現(xiàn)有數(shù)據(jù)集,并自采集、標(biāo)注無人機(jī)視頻數(shù)據(jù)集來引入更多典型場景,構(gòu)建了一個(gè)更全面的無人機(jī)視頻車輛數(shù)據(jù)集。在該數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,筆者提出的算法可有效提高無人機(jī)視頻車輛的檢測準(zhǔn)確率。
文中提出的結(jié)合幀間目標(biāo)回歸網(wǎng)絡(luò)的無人機(jī)視頻車輛檢測框架如圖1所示。圖1中上半部分的虛線框內(nèi)為單幀無人機(jī)圖像檢測器,下半部分的虛線框內(nèi)為幀間目標(biāo)回歸網(wǎng)絡(luò)。單幀無人機(jī)圖像檢測器算法流程如下:首先對(duì)輸入的當(dāng)前幀(第i幀)圖像采用骨干網(wǎng)絡(luò)殘差網(wǎng)絡(luò)(ResNet101)[14]+基于特征金字塔的目標(biāo)檢測(FPN)[15]進(jìn)行特征提??;然后對(duì)每層特征進(jìn)行分類、中心度和逐像素回歸;最后采用軟化非極大值抑制來更有效地從大量候選框中選取檢測結(jié)果。幀間目標(biāo)回歸網(wǎng)絡(luò)算法流程如下:首先將當(dāng)前幀圖像的單幀檢測結(jié)果和上一幀的最終檢測結(jié)果進(jìn)行最近鄰匹配,獲取丟失目標(biāo),記為R;然后將目標(biāo)R在前序多幀中對(duì)應(yīng)位置處的特征擴(kuò)展后融合,并將融合特征與目標(biāo)R在當(dāng)前幀預(yù)測位置處的特征共同輸入全連接層進(jìn)行特征匹配,進(jìn)而得出當(dāng)前幀R的預(yù)測框;最后為了避免誤差累積,利用單幀檢測器的候選檢測結(jié)果進(jìn)行修正,得到最終檢測結(jié)果。圖1中“⊕”表示特征像素值相加[15]的特征融合方式。
圖1 結(jié)合幀間目標(biāo)回歸網(wǎng)絡(luò)的無人機(jī)視頻車輛檢測框架
針對(duì)無人機(jī)圖像中車輛目標(biāo)分布密集且尺寸相對(duì)較小的特點(diǎn),文中選取了單階段全卷積目標(biāo)檢測[13]作為基礎(chǔ)目標(biāo)框架。該框架采用ResNet101+FPN進(jìn)行特征提取。與基于預(yù)定義的錨框(anchor)的算法不同,該框架屬于基于密集采樣無錨框的單階段目標(biāo)檢測算法。在單階段全卷積目標(biāo)檢測的特征提取階段采用FPN策略,將網(wǎng)絡(luò)中頂層強(qiáng)語義特征上采樣與低層強(qiáng)細(xì)節(jié)特征融合,從而引入對(duì)小目標(biāo)尤為重要的低層特征。在檢測候選框產(chǎn)生的過程中采用中心度快速過濾負(fù)樣本,提高召回率和檢測性能。與單階段全卷積目標(biāo)檢測原有后處理方式不同,文中提出高斯加權(quán)衰減的軟化非極大值抑制(Soft-NMS),根據(jù)重疊度和距離重置候選檢測框的置信度分?jǐn)?shù),改進(jìn)后的后處理策略可在一定程度上解決原有非極大值抑制(NMS)對(duì)遮擋目標(biāo)候選框的置信度過度抑制造成的漏檢問題。
圖2 VisDrone[16]數(shù)據(jù)集中遮擋情況下的置信度選擇
如圖2所示,圖像中框出的兩輛車輛,后者被前者部分遮擋,其中前者的檢測置信度為0.98,而后者的檢測置信度為0.82。如果直接使用非極大值抑制,當(dāng)兩個(gè)候選框的重疊面積大于交并比(IOU)所設(shè)定的閾值時(shí),圖中便會(huì)只剩下置信度為0.98的候選框,若僅將其作為最終的檢測情況,則會(huì)發(fā)生漏檢。為解決這一問題,與原來使用非極大值抑制直接將重疊面積大于交并比閾值的置信度重置為0的思路不同,軟化非極大值抑制根據(jù)重疊面積、相隔距離降低其置信度分?jǐn)?shù),故而可以同時(shí)保留兩個(gè)候選框。原始非極大值抑制置信度分?jǐn)?shù)重置函數(shù)為
(1)
其中,B={b1,…,bn},為搜索范圍內(nèi)的候選框的位置;S={s1,…,sn},為與之對(duì)應(yīng)的候選框的分?jǐn)?shù);M為非極大值抑制某一次循環(huán)中置信分?jǐn)?shù)最高候選框的位置;Nt是非極大值抑制閾值;Iou為計(jì)算兩個(gè)候選框交并比的函數(shù)。從式(1)中可以看出,非極大值抑制采用硬閾值來決定是否保留相關(guān)聯(lián)的候選框。高斯加權(quán)衰減軟化非極大值抑制的置信度分?jǐn)?shù)重置函數(shù)為
(2)
其中,σ為超參數(shù)。與前者采取暴力淘汰的方式不同,軟化非極大值抑制逐步衰減與M有重疊面積的候選框的置信度分?jǐn)?shù)。對(duì)與M重疊面積大、距離近的候選框,衰減權(quán)重就大;反之,重疊面積小、距離遠(yuǎn)的候選框,衰減權(quán)重就小。
當(dāng)直接使用上文中單幀無人機(jī)圖像目標(biāo)檢測器對(duì)視頻進(jìn)行檢測時(shí),會(huì)發(fā)現(xiàn)整段視頻中部分車輛目標(biāo)的檢測置信度如圖3中曲線所示,起伏變化明顯。原因在于連續(xù)幀中無人機(jī)和車輛目標(biāo)同時(shí)運(yùn)動(dòng),車輛目標(biāo)在運(yùn)動(dòng)過程中發(fā)生了遮擋及視角變化,使得檢測置信度發(fā)生波動(dòng)。針對(duì)這一情況,文中設(shè)計(jì)了基于視頻幀間連續(xù)性的幀間目標(biāo)回歸網(wǎng)絡(luò)。如圖1所示,該網(wǎng)絡(luò)分為3個(gè)部分:第1部分為采用最近鄰匹配的相鄰幀間目標(biāo)匹配,獲得當(dāng)前幀中的丟失目標(biāo),如圖1中上一幀檢測結(jié)果的目標(biāo)R;第2部分為幀間目標(biāo)融合算法設(shè)計(jì),利用視頻幀間信息連續(xù)性將前序的連續(xù)多幀目標(biāo)特征進(jìn)行有效融合,并與目標(biāo)R在當(dāng)前幀預(yù)測位置處的特征進(jìn)行匹配回歸,輸出預(yù)測結(jié)果;第3部分為檢測結(jié)果修正,對(duì)預(yù)測結(jié)果和單幀檢測器的候選檢測結(jié)果,使用軟化非極大值抑制策略進(jìn)行結(jié)果修正,以避免誤差累計(jì),得到最終的檢測結(jié)果。
圖3 視頻幀間目標(biāo)置信度變化示意圖
1.3.1 相鄰幀間目標(biāo)匹配
依據(jù)視頻幀間信息的連續(xù)性特點(diǎn)[17],同一目標(biāo)在連續(xù)幀之間的位置應(yīng)該由背景運(yùn)動(dòng)和目標(biāo)運(yùn)動(dòng)的相對(duì)運(yùn)動(dòng)決定;除了背景特別劇烈的運(yùn)動(dòng)以外,一般情況下,目標(biāo)中心點(diǎn)位置在連續(xù)幀的變化不會(huì)太大。故而可以通過最近鄰匹配思路,依據(jù)相鄰兩幀目標(biāo)檢測框的重疊面積來構(gòu)建相對(duì)應(yīng)的匹配關(guān)系。具體過程如下:
(1) 從i-1幀中選取目標(biāo)R,假設(shè)其中心點(diǎn)坐標(biāo)為c=(cx,cy),檢測框的大小為w×h,以中心點(diǎn)坐標(biāo)c為中心,分別將寬度和長度拓展為kw和kh,此處k=1.5。
(2) 在i幀中,將以c為中心、kw×kh面積內(nèi)所有檢測框與i-1幀中目標(biāo)R計(jì)算交并比,并排序。
(3) 從排序的檢測框中選取第1個(gè)滿足交并比值大于閾值N且未被標(biāo)記的檢測框(已與其他目標(biāo)匹配則進(jìn)行標(biāo)記)作為R的匹配目標(biāo),并進(jìn)行標(biāo)記。若沒有滿足條件,則將其標(biāo)記為丟失目標(biāo)。重復(fù)(1)、(2),直至結(jié)束。
(4) 在i幀中未被標(biāo)記的目標(biāo),則確定為新目標(biāo)。
(5) 若當(dāng)前幀沒有出現(xiàn)丟失目標(biāo),則采用單幀無人機(jī)圖像檢測結(jié)果作為最終輸出結(jié)果。
1.3.2 幀間目標(biāo)特征融合算法設(shè)計(jì)
為了實(shí)現(xiàn)對(duì)當(dāng)前幀丟失目標(biāo)R的回歸預(yù)測,需要將當(dāng)前幀丟失目標(biāo)特征和對(duì)應(yīng)的前序幀該目標(biāo)的融合特征進(jìn)行特征匹配回歸。在進(jìn)行特征匹配回歸之前,需要確定兩者的具體輸入。假設(shè)上一幀丟失目標(biāo)R的中心點(diǎn)位置為c=(cx,cy),則上一幀與當(dāng)前幀的目標(biāo)中心點(diǎn)位置、目標(biāo)寬度和高度可建立如下公式:
c′x=cx+wΔx,c′y=cy+hΔx,w′=wγw,h′=hγh,
(3)
其中,c′= (c′x,c′y),為當(dāng)前幀的目標(biāo)中心點(diǎn)位置;w、h、Δx、 Δy分別是上一幀目標(biāo)的寬度、高度以及x、y方向上的相關(guān)隨機(jī)變化值;w′、h′、γw、γh分別是當(dāng)前幀目標(biāo)的寬度、高度以及與x、y相關(guān)的隨機(jī)變化值。同時(shí)Δx、Δy服從μ=0、b=0.2,γw、γh服從μ= 1、b=1/15的拉普拉斯分布[17]。拉普拉斯分布的概率密度函數(shù)為
(4)
由上述可以確定當(dāng)前幀中丟失目標(biāo)的位置及大小,進(jìn)而將該位置及大小作為當(dāng)前幀目標(biāo)所在位置和大小,確定當(dāng)前幀丟失目標(biāo)特征。
融合特征由當(dāng)前幀丟失目標(biāo)R在前n幀中所在位置的特征融合而來。具體過程為:① 采用節(jié)1.3.1中的相鄰幀間目標(biāo)匹配方法確定丟失目標(biāo)R在前n幀中的位置;② 將丟失目標(biāo)R在前n幀中的大小進(jìn)行擴(kuò)展,大小與丟失目標(biāo)在當(dāng)前幀中所確定的目標(biāo)大小一致,原因在于全連接層的輸入和特征融合都需要統(tǒng)一大??;③ 提取丟失目標(biāo)在前n幀中對(duì)應(yīng)位置處的特征,并進(jìn)行像素值相加的特征融合,其中融合權(quán)重按前序幀與當(dāng)前幀距離的遠(yuǎn)近分配,如融合總幀數(shù)為K,則當(dāng)前幀i的前n幀,即第i-n幀特征權(quán)重為1-(i-(i-n))/K。
最后,將i幀丟失目標(biāo)預(yù)測位置特征和融合特征輸入到全連接層得到預(yù)測結(jié)果。上述幀間目標(biāo)特征融合方法見算法1。
算法1幀間目標(biāo)特征融合方法。
輸入:視頻序列{Ii},融合幀數(shù)范圍K。
fori=2 to ∞ do:
forr=1 toudo
forj=max(2,i-K) toido
提取拓展后圖像的特征;
else
end if
計(jì)算融合權(quán)重W=1-{i-j}/K;
采用像素值相加方式進(jìn)行特征融合;
end for
end for
end for
一個(gè)高質(zhì)量的數(shù)據(jù)集可以對(duì)算法性能進(jìn)行更全面的評(píng)價(jià)。目前已有的無人機(jī)視頻車輛數(shù)據(jù)集存在一些問題:① 數(shù)據(jù)集中將尺寸較小的目標(biāo)標(biāo)記為忽略區(qū)域,但其中部分車輛目標(biāo)相對(duì)清晰。對(duì)較小車輛的檢測也是對(duì)算法評(píng)測的一個(gè)重要方面;② 標(biāo)記道路上的運(yùn)動(dòng)車輛,但對(duì)部分靜止車輛不進(jìn)行標(biāo)記;③ 數(shù)據(jù)中的場景主要集中在交通路口,而場景數(shù)據(jù)的多樣性可以使得算法具有更好的泛化性能。針對(duì)這些問題,文中基于VisDrone[16]數(shù)據(jù)集、航空?qǐng)D像中的車輛檢測(VEDAI)[18]數(shù)據(jù)集及自采集標(biāo)注的數(shù)據(jù)集,通過補(bǔ)充標(biāo)注、篩選和融合,構(gòu)成高質(zhì)量的無人機(jī)視頻車輛數(shù)據(jù)集,數(shù)據(jù)集下載地址:https://pan.baidu.com/s/1umAfY9I3wEVtJUQDIiZT0g,提取碼:drjk。具體操作包括:① 從VisDrone-VDT數(shù)據(jù)集中去除主要為行人數(shù)據(jù)的視頻,對(duì)篩選后視頻中未標(biāo)記的車輛進(jìn)行補(bǔ)充標(biāo)記;② 引入VEDAI數(shù)據(jù)集作為訓(xùn)練集,該數(shù)據(jù)集中的車輛目標(biāo)尺寸主要集中在10×10~40×40像素,尺寸較小,同時(shí)該數(shù)據(jù)集的拍攝方式和高度均與VisDrone數(shù)據(jù)有一定差異性;③ 引入自采集標(biāo)注的數(shù)據(jù)集,其中包括車輛高度密集分布的大型停車場及斜視的無人機(jī)車輛視頻。最終文中構(gòu)建的無人機(jī)視頻車輛數(shù)據(jù)集有以下幾個(gè)特性:① 訓(xùn)練集包括視頻40段,共27 346幀。外加VEDAI的1 268張圖片。測試集8段,共6 127幀;② 圖像大小主要為1 904×1 071像素和2 704×1 520像素兩種;③ 車輛目標(biāo)大小尺寸主要分布在10×10~320×320像素。
文中算法在訓(xùn)練過程中采用了包括翻轉(zhuǎn)、裁剪及隨機(jī)平移等數(shù)據(jù)增強(qiáng)方式。訓(xùn)練過程分為兩部分,在單幀無人機(jī)圖像檢測器中輸入圖像大小為800×1 280像素,批處理大小設(shè)置為4,學(xué)習(xí)率初始值設(shè)置為0.01,每10個(gè)輪(epchos)變?yōu)樵瓉淼?/10,學(xué)習(xí)率最小值為0.000 1。優(yōu)化過程采用隨機(jī)梯度下降(SGD)算法,其中動(dòng)量設(shè)置為0.9。soft-NMS的超參數(shù)σ設(shè)置為0.3。幀間目標(biāo)回歸網(wǎng)絡(luò)中輸入圖像大小為224×224像素,批處理大小設(shè)置為4,優(yōu)化過程同樣采用SGD來更新網(wǎng)絡(luò)參數(shù),在后一部分訓(xùn)練中只使用視頻測試集。
與文中方法進(jìn)行比較的算法中,F(xiàn)aster-Rcnn[2]、Yolov 3[8]、FGFA[10]采用的優(yōu)化器為SGD,動(dòng)量設(shè)置為0.9,初始學(xué)習(xí)率為0.001,權(quán)重衰減正則項(xiàng)系數(shù)為0.000 5,批處理大小為4。RetinaNet[5]采用的優(yōu)化器為自適應(yīng)矩估計(jì)(Adam),初始學(xué)習(xí)率為0.01,計(jì)算梯度以及梯度平方的運(yùn)行平均值的系數(shù)分別為0.9、0.999,批處理大小為4。文中測試平臺(tái)硬件配置為CPU i7-9700,GPU為GTX 1080Ti×2,內(nèi)存為16 GB;軟件配置為CUDA 9.0、cudnn 7.1。
表1 在無人機(jī)視頻車輛數(shù)據(jù)集的結(jié)果對(duì)比
表2 與現(xiàn)有算法的比較
為了進(jìn)一步分析評(píng)價(jià)算法性能,這一節(jié)的消融實(shí)驗(yàn)分別從軟化非極大值抑制對(duì)單階段全卷積目標(biāo)檢測的影響、幀間目標(biāo)網(wǎng)絡(luò)中融合幀數(shù)的多少對(duì)算法的影響兩方面進(jìn)行分析。與此同時(shí),為了更全面地和現(xiàn)有算法進(jìn)行比較,文中選取了包括單幀無人機(jī)圖像目標(biāo)檢測器和視頻檢測器兩類現(xiàn)有算法同時(shí)比較。圖4對(duì)文中算法的檢測結(jié)果進(jìn)行表示,具體對(duì)比結(jié)果見表1和表2。
從表1中的實(shí)驗(yàn)結(jié)果可以看出,在無人機(jī)視頻車輛數(shù)據(jù)中,Soft-NMS的后處理方式對(duì)單階段全卷積目標(biāo)檢測這種單幀無人機(jī)圖像檢測器的性能有明顯提升。從圖4(a)中也可以看出,其對(duì)相互重疊的密集車輛同樣有較好的檢測結(jié)果。在引入幀間目標(biāo)回歸網(wǎng)絡(luò)后,相較于單幀圖像檢測器,精度(AP)值提升了1個(gè)百分點(diǎn)左右。與此同時(shí),從圖4(c)中可以看出,在目標(biāo)相對(duì)較小且存在夜間強(qiáng)光干擾的情況下,文中算法也沒有出現(xiàn)閃爍的現(xiàn)象。
從表1的實(shí)驗(yàn)結(jié)果還可以看出,在融合1幀、5幀和10幀的情況下,算法的檢測性能是高于不融合的,說明融合特征可以有效提升幀間目標(biāo)回歸網(wǎng)絡(luò)的性能。但是從表中可以看出,當(dāng)融合幀數(shù)逐步加多時(shí),在時(shí)間和內(nèi)存代價(jià)更大的情況下,檢測性能反而下降。說明前序幀特征過多引入,不僅增加了有效特征,同時(shí)也帶來了更多的噪聲,減弱了網(wǎng)絡(luò)的性能。故文中算法最終選擇融合5幀的幀間目標(biāo)回歸網(wǎng)絡(luò)。
從表2中可以看出,在與現(xiàn)有方法的比較中,無論是與單階段全卷積目標(biāo)檢測思路一樣的端到端目標(biāo)檢測器RetinaNet、Yolov 3,還是與經(jīng)典級(jí)聯(lián)目標(biāo)檢測器Faster-Rcnn在內(nèi)的通用單幀圖像目標(biāo)檢測器相比,在骨干網(wǎng)絡(luò)同樣采用ResNet 101+FPN的情況下,文中提出的更有針對(duì)性的FCOS+Soft-NMS單幀無人機(jī)圖像檢測器的性能更勝一籌。更進(jìn)一步,與FGFA這一結(jié)合光流特征的視頻檢測性能相比,文中增強(qiáng)了單幀檢測器的性能,在針對(duì)靜止及尺寸較小的目標(biāo)時(shí)性能更加魯棒;而且引入基于視頻幀間信息連續(xù)性的幀間目標(biāo)回歸網(wǎng)絡(luò),使得整體算法在數(shù)據(jù)集上呈現(xiàn)出更為優(yōu)秀的實(shí)驗(yàn)結(jié)果。從圖4(b)和(d)的實(shí)驗(yàn)結(jié)果中也可以看出,文中算法在完全俯視角度、車輛目標(biāo)較小和車輛存在樹木遮擋等情況下都具有優(yōu)異表現(xiàn)。綜上所述,文中提出的結(jié)合幀間目標(biāo)回歸網(wǎng)絡(luò)的無人機(jī)視頻車輛檢測算法具有良好的魯棒性和泛化性能。
圖4中4組圖中上面一行為部分挑戰(zhàn)視頻序列幀的檢測結(jié)果,下面一行為這些視頻序列幀檢測結(jié)果的局部放大圖。
圖4 算法檢測結(jié)果展示
筆者提出的結(jié)合幀間目標(biāo)回歸網(wǎng)絡(luò)的無人機(jī)視頻車輛檢測算法,采用Soft-NMS作為FCOS的檢測框后處理策略,構(gòu)建更適合無人機(jī)車輛分布特點(diǎn)的單幀無人機(jī)視頻車輛檢測算法;針對(duì)前者應(yīng)用于無人機(jī)視頻檢測出現(xiàn)的閃爍情況,設(shè)計(jì)基于視頻幀間信息連續(xù)性的幀間目標(biāo)回歸網(wǎng)絡(luò);為了更客觀分析評(píng)價(jià)算法,構(gòu)建了更高質(zhì)量更全面的無人機(jī)視頻車輛數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明,文中所提算法有效地提高了無人機(jī)視頻車輛檢測的性能。