戴文君,常天慶,褚凱軒,張雷,郭理彬
(陸軍裝甲兵學(xué)院 兵器與控制系,北京 100072)
目標(biāo)檢測(cè)技術(shù)是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)重要研究?jī)?nèi)容。近年來(lái),隨著深度學(xué)習(xí)的不斷發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)取得了快速發(fā)展,并在交通、工業(yè)制造、醫(yī)學(xué)影像以及國(guó)防等領(lǐng)域得到了廣泛應(yīng)用[1-3]。目標(biāo)檢測(cè)通??梢苑譃閳D像目標(biāo)檢測(cè)與視頻目標(biāo)檢測(cè),目前圖像目標(biāo)檢測(cè)技術(shù)發(fā)展較為迅速,而視頻目標(biāo)檢測(cè)仍然是一個(gè)極具挑戰(zhàn)性的問(wèn)題。一方面,視頻圖像通常會(huì)受到運(yùn)動(dòng)模糊、衍射模糊或散焦等因素的影響,導(dǎo)致圖像畫(huà)面質(zhì)量低劣或目標(biāo)不清晰,給目標(biāo)檢測(cè)帶來(lái)極大的困難;另一方面,視頻目標(biāo)檢測(cè)不僅要求其能夠準(zhǔn)確檢測(cè)出每一幀圖像中的目標(biāo),而且要保證檢測(cè)結(jié)果的時(shí)序一致性。盡管存在這些困難,但由于視頻中包含更豐富的時(shí)空信息,如果能夠充分利用這些時(shí)空信息,則視頻目標(biāo)檢測(cè)能夠取得比圖像目標(biāo)檢測(cè)更好的檢測(cè)效果。
坦克火控系統(tǒng)能夠獲取戰(zhàn)場(chǎng)態(tài)勢(shì)并控制武器瞄準(zhǔn)與發(fā)射,對(duì)戰(zhàn)場(chǎng)目標(biāo)搜索以及火力打擊效果具有重要的影響[4]。面向坦克火控系統(tǒng)的目標(biāo)檢測(cè)技術(shù)能夠輔助坦克乘員快速準(zhǔn)確發(fā)現(xiàn)敵方目標(biāo),使我方坦克實(shí)現(xiàn)“先敵發(fā)現(xiàn)、先敵打擊、先敵摧毀”,從而取得戰(zhàn)場(chǎng)主動(dòng)權(quán)。目前,目標(biāo)檢測(cè)技術(shù)還沒(méi)有應(yīng)用于坦克火控系統(tǒng),但相關(guān)研究技術(shù)一直在進(jìn)行中,并且主要集中于圖像目標(biāo)檢測(cè)領(lǐng)域,基于視頻的目標(biāo)檢測(cè)研究較少[5-6]。
隨著深度學(xué)習(xí)在圖像目標(biāo)檢測(cè)領(lǐng)域取得突破性的成就,以及大規(guī)模視頻目標(biāo)檢測(cè)數(shù)據(jù)集ImageNet VID[7]的建立,基于深度學(xué)習(xí)的視頻目標(biāo)檢測(cè)引起學(xué)術(shù)界的廣泛關(guān)注,國(guó)內(nèi)外學(xué)者提出了多種基于深度學(xué)習(xí)的視頻目標(biāo)檢測(cè)方法。目前,視頻目標(biāo)檢測(cè)方法主要分為2類(lèi):圖像目標(biāo)檢測(cè)與后處理相結(jié)合的視頻目標(biāo)檢測(cè)方法,以及基于特征流的視頻目標(biāo)檢測(cè)方法[8-10]。圖像目標(biāo)檢測(cè)與后處理相結(jié)合的視頻目標(biāo)檢測(cè)方法的思想,是將多個(gè)視頻幀的圖像目標(biāo)檢測(cè)結(jié)果按照時(shí)間序列連接到一起,形成一個(gè)管道并通過(guò)跟蹤或其他方法對(duì)檢測(cè)結(jié)果進(jìn)行修正,提高視頻目標(biāo)檢測(cè)的精度,其代表有深度卷積神經(jīng)網(wǎng)絡(luò)(T-CNN)[11]、檢測(cè)與跟蹤(D&T)[12]等。常用的后處理辦法有多上下文抑制、目標(biāo)跟蹤以及Seq-NMS[13]等?;谏鲜鏊悸返囊曨l目標(biāo)檢測(cè)方法在ILSVRC 2016視頻目標(biāo)檢測(cè)競(jìng)賽中大量涌現(xiàn),極大地提高了視頻目標(biāo)檢測(cè)的精度,促進(jìn)了視頻目標(biāo)檢測(cè)技術(shù)的發(fā)展,但這種方法存在對(duì)視頻中的時(shí)序信息利用不足、計(jì)算流程較為復(fù)雜、計(jì)算量較大以及檢測(cè)精度依賴于后續(xù)處理方法的性能等不足。針對(duì)上述方法的局限性,研究人員希望直接利用視頻圖像中的時(shí)空信息進(jìn)行目標(biāo)檢測(cè),并基于這種思想提出了基于特征流的視頻目標(biāo)檢測(cè)方法。FlowNet方法[14]利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)實(shí)現(xiàn)了視頻幀間的光流信息預(yù)測(cè),與傳統(tǒng)的光流預(yù)測(cè)方法相比,F(xiàn)lowNet方法沿襲了CNN在特征提取方面的優(yōu)勢(shì),具有較好的學(xué)習(xí)能力,并能夠與基于CNN的圖像目標(biāo)檢測(cè)方法相融合,從而構(gòu)建端到端的視頻目標(biāo)檢測(cè)模型。文獻(xiàn)[15]在FlowNet方法基礎(chǔ)上,將多幀視頻圖像的運(yùn)動(dòng)信息聚合到當(dāng)前幀,通過(guò)檢測(cè)子網(wǎng)絡(luò)對(duì)聚合后的卷積特征進(jìn)行目標(biāo)檢測(cè),極大地提高了視頻目標(biāo)檢測(cè)的精度。FlowNet方法與特征聚合機(jī)制能夠有效地提高視頻目標(biāo)檢測(cè)的精度,但通過(guò)光流網(wǎng)絡(luò)計(jì)算多幀的光流然后進(jìn)行特征聚合的方法存在參數(shù)較多、計(jì)算量較大的問(wèn)題,導(dǎo)致目標(biāo)檢測(cè)的實(shí)時(shí)性較差。受循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[16]的啟發(fā),研究人員將長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[17]及門(mén)控循環(huán)單元(GRU)[18]與卷積操作相結(jié)合,提出了卷積長(zhǎng)短期記憶網(wǎng)絡(luò)(ConvLSTM)[19]與卷積門(mén)控循環(huán)單元(ConvGRU)[20]。ConvLSTM與ConvGRU具有記憶特性,能夠?qū)W習(xí)視頻中的時(shí)空信息以及能同時(shí)處理多個(gè)目標(biāo)框,適合基于時(shí)序的視頻目標(biāo)檢測(cè)任務(wù)。文獻(xiàn)[21]在單次多盒檢測(cè)器(SSD)[22]的基礎(chǔ)上結(jié)合ConvLSTM,提出一種基于時(shí)空一致性的視頻目標(biāo)檢測(cè)方法,通過(guò)ConvLSTM處理每幀視頻圖像并構(gòu)建多幀視頻圖像之間的關(guān)聯(lián)誤差損失函數(shù),強(qiáng)化相鄰視頻幀的檢測(cè)結(jié)果在時(shí)序上的一致性,有效地增強(qiáng)了視頻目標(biāo)檢測(cè)的魯棒性。與ConvLSTM相比,ConvGRU將ConvLSTM中的遺忘門(mén)與輸入門(mén)合并為更新門(mén),同時(shí)還混合了細(xì)胞狀態(tài)與隱藏狀態(tài),結(jié)構(gòu)相對(duì)簡(jiǎn)單,在訓(xùn)練數(shù)據(jù)較大情況下,ConvGRU能夠節(jié)省更多的時(shí)間。文獻(xiàn)[23]在ConvGRU基礎(chǔ)上構(gòu)建了時(shí)空記憶模塊,將距離較遠(yuǎn)的視頻圖像信息傳遞至當(dāng)前幀,更充分地利用了視頻中的時(shí)序信息,最后在融合后的時(shí)空卷積特征上應(yīng)用檢測(cè)子網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)目標(biāo)的精確檢測(cè)。
上述方法在圖像目標(biāo)檢測(cè)的基礎(chǔ)上,根據(jù)視頻中的時(shí)序信息進(jìn)行建?;蚱渌筇幚磙k法,有效地提高了視頻目標(biāo)檢測(cè)的精度,先后在ImageNet VID等通用視頻目標(biāo)檢測(cè)數(shù)據(jù)集上取得了較好的效果,極大地推動(dòng)了視頻目標(biāo)檢測(cè)技術(shù)的發(fā)展。然而,針對(duì)復(fù)雜戰(zhàn)場(chǎng)下面向坦克火控系統(tǒng)的視頻目標(biāo)檢測(cè)任務(wù),直接使用上述方法的思路并不能取得較好的檢測(cè)效果。一方面,戰(zhàn)場(chǎng)上的目標(biāo)與坦克裝甲車(chē)輛之間可能存在較快的相對(duì)運(yùn)動(dòng)速度,導(dǎo)致相鄰視頻圖像之間的目標(biāo)位置偏差較大,對(duì)視頻目標(biāo)檢測(cè)結(jié)果的一致性和檢測(cè)精度有較大的影響;另一方面,由于戰(zhàn)場(chǎng)態(tài)勢(shì)瞬息萬(wàn)變,對(duì)視頻目標(biāo)檢測(cè)的實(shí)時(shí)性提出了較高要求。此外,由于復(fù)雜的地面環(huán)境以及坦克火控系統(tǒng)具有較遠(yuǎn)的觀測(cè)打擊距離,使得目標(biāo)在視頻圖像中所占像素比例較小且容易產(chǎn)生遮擋、形變,給視頻目標(biāo)檢測(cè)帶來(lái)了一定的挑戰(zhàn)。
因此,本文從實(shí)際需求出發(fā),針對(duì)復(fù)雜戰(zhàn)場(chǎng)環(huán)境下的坦克火控系統(tǒng)視頻目標(biāo)檢測(cè)任務(wù),提出一種時(shí)空卷積特征校準(zhǔn)機(jī)制,將其與ConvGRU相結(jié)合構(gòu)建時(shí)空卷積特征記憶模型,并將該模型與結(jié)合可形變卷積網(wǎng)絡(luò)(DCN)[24]的ResNet-101網(wǎng)絡(luò)[25]及位置敏感感興趣池化(PS ROI pooling)[26]等相結(jié)合,構(gòu)建一個(gè)端到端的視頻目標(biāo)檢測(cè)模型,從而實(shí)現(xiàn)對(duì)地面戰(zhàn)場(chǎng)視頻目標(biāo)的自動(dòng)檢測(cè),對(duì)提升坦克火控系統(tǒng)的智能化、自主化以及信息化條件下的作戰(zhàn)能力具有重要的意義。
圖1 本文方法整體框架Fig.1 Framework of the proposed method
為沿著時(shí)間軸方向融合視頻幀的信息,本文在ConvGRU的基礎(chǔ)上提出時(shí)空卷積特征記憶模型,并通過(guò)該模型傳遞和融合多幀視頻圖像的目標(biāo)信息。具體操作步驟如下:在t時(shí)刻,首先通過(guò)特征提取網(wǎng)絡(luò)獲取當(dāng)前視頻幀的卷積特征Ft;然后將Ft以及相鄰幀的卷積特征Ft-1、Ft+1與其時(shí)空卷積特征Mt-1、Mt+1送入時(shí)空卷積特征記憶模型,得到當(dāng)前幀的時(shí)空卷積特征Mt,其中Mt-1、Mt+1分別融合了t時(shí)刻前K幀與后K幀的信息,即Mt共融合了2K+1幀視頻圖像的信息;最后,將Mt送入結(jié)合DCN的PS ROI pooling,再通過(guò)后續(xù)的卷積層以及損失函數(shù)等實(shí)現(xiàn)對(duì)視頻目標(biāo)的自動(dòng)檢測(cè)。
常用的VGG-Net[27]、ResNet[25]、Google-Net[28]等深度CNN中只采用固定幾何結(jié)構(gòu)的卷積核,在卷積操作過(guò)程中局限于幾何變換,因此通常通過(guò)大規(guī)模數(shù)據(jù)訓(xùn)練來(lái)提高網(wǎng)絡(luò)對(duì)形變目標(biāo)的泛化能力。文獻(xiàn)[24]針對(duì)這一問(wèn)題提出DCN,DCN是在CNN基礎(chǔ)上通過(guò)給卷積采樣點(diǎn)增加一個(gè)偏移量,使其能夠動(dòng)態(tài)調(diào)整感受野的區(qū)域并根據(jù)目標(biāo)的形狀變化優(yōu)化采樣點(diǎn)的位置,從而提高對(duì)形變目標(biāo)的特征提取能力。此外,DCN還能夠與檢測(cè)子網(wǎng)絡(luò)中的ROI pooling或PS ROI pooling相結(jié)合,提高檢測(cè)的精度,且模型的大小與計(jì)算量并沒(méi)有明顯提升。在復(fù)雜的戰(zhàn)場(chǎng)環(huán)境中,由于地形、目標(biāo)成像角度以及遮擋等因素的影響,通過(guò)坦克火控系統(tǒng)觀瞄分系統(tǒng)獲取的視頻中目標(biāo)形狀變化多端。因此,本文通過(guò)采用結(jié)合DCN的ResNet-101網(wǎng)絡(luò)提取卷積特征,并在檢測(cè)子網(wǎng)絡(luò)中使用結(jié)合DCN的PS ROI pooling來(lái)提高目標(biāo)檢測(cè)的精度。此外,為提高時(shí)空卷積特征的融合效果,在本文提出的時(shí)空卷積特征記憶模型中使用了DCN計(jì)算相鄰視頻幀中目標(biāo)位置的偏移量。
在標(biāo)準(zhǔn)的二維卷積下,要計(jì)算輸出卷積特征圖Y中p0位置的值,需要對(duì)輸入卷積特征圖X進(jìn)行如下操作:
(1)
式中:R為感受野;pn為R中的某一位置,n=1,2,…,N,N=|R|;ω為權(quán)重。對(duì)于DCN,R受偏移量Δpn的影響,其卷積過(guò)程的計(jì)算公式如下:
(2)
在上述操作過(guò)程中,偏移量Δpn通過(guò)將額外的卷積層應(yīng)用于包含卷積特征圖X的激活張量中獲得,并且在給定激活張量的特征通道中共享權(quán)重。所有偏移量Δpn組成的偏移量圖分辨率與X分辨率相同。此外,由于Δpn通常為分?jǐn)?shù),通常使用雙線性插值來(lái)實(shí)現(xiàn)上述操作。
對(duì)于深度CNN,一般而言,網(wǎng)絡(luò)越深,其具有的平移旋轉(zhuǎn)不變性越強(qiáng),從而可以提高目標(biāo)分類(lèi)的魯棒性。然而,對(duì)于目標(biāo)檢測(cè)問(wèn)題,對(duì)目標(biāo)的精確定位任務(wù)要求檢測(cè)模型對(duì)位置信息具有良好的感知能力,過(guò)度的平移旋轉(zhuǎn)不變形能力會(huì)降低模型的定位精度。針對(duì)該問(wèn)題,文獻(xiàn)[26]在ROI pooling基礎(chǔ)提出了PS ROI pooling,其核心思想是在特征聚集時(shí)引入位置信息,從而改善檢測(cè)子網(wǎng)絡(luò)對(duì)目標(biāo)位置信息的敏感程度。對(duì)于一個(gè)大小為w×h、左上角坐標(biāo)為q0的感興趣區(qū)域,首先將其劃分為k×k個(gè)網(wǎng)格,每一個(gè)網(wǎng)格稱為一個(gè)bin;然后在每一個(gè)bin中進(jìn)行ROI pooling或PS ROI pooling,其輸出為特征圖Y.在進(jìn)行PS ROI pooling之前,首先需要將輸入的卷積特征圖轉(zhuǎn)化為每個(gè)目標(biāo)類(lèi)型的k2位置敏感得分圖,每一類(lèi)位置敏感得分圖表示為Xi,j.對(duì)于第i,j個(gè)bin,在Xi,j上進(jìn)行PS ROI pooling,有
(3)
式中:ni,j為該bin中像素點(diǎn)的數(shù)量;q枚舉了該bin中的所有位置;q0為左上角坐標(biāo)。在結(jié)合DCN的PS ROI pooling過(guò)程中,偏移量{Δq|0≤i,j≤k}被添加到該bin中位置,其計(jì)算公式為
(4)
時(shí)空卷積特征記憶模型由ConvGRU以及時(shí)空特征校準(zhǔn)機(jī)制組成,如圖1中間的虛線框內(nèi)所示。ConvGRU能夠傳遞視頻幀間信息,但目標(biāo)的快速移動(dòng)等情況會(huì)導(dǎo)致幀中的目標(biāo)空間位置具有較大變化,如果沒(méi)有進(jìn)行時(shí)空卷積特征校準(zhǔn),則融合后的時(shí)空卷積特征中目標(biāo)特征的位置可能出現(xiàn)偏移甚至丟失等情況,導(dǎo)致目標(biāo)定位失敗、誤檢甚至漏檢,降低目標(biāo)檢測(cè)的精度。
1.3.1 時(shí)空卷積特征校準(zhǔn)機(jī)制
對(duì)于Ft中一個(gè)坐標(biāo)為p0的卷積特征單元Ft(p0)∈Rc×1×1,在Ft-1中對(duì)應(yīng)的卷積特征單元為Ft-1(p0),F(xiàn)t與Ft-1聚合后得到的Ft,t-1中所對(duì)應(yīng)的卷積特征單元為Ft,t-1(p0)∈R2c×1×1.在Ft,t-1中利用DCN得到Ft,t-1的偏移量{Δp},如(2)式所示。{Δp}能夠表示部分Ft與Ft-1中對(duì)應(yīng)卷積特征單元之間的位置偏差。然后根據(jù)Ft(p0)和Ft-1中(p0+Δp0)的附近區(qū)域{p0+Δp0+p|p∈Ω}中卷積特征單元的關(guān)系計(jì)算變換矩陣Γ,其中Ω∈((-λ,-λ),…,(λ,λ))為以(p0+Δp0)為中心的正方形網(wǎng)格。變換矩陣Γ的計(jì)算公式為
(5)
(6)
1.3.2 卷積門(mén)控循環(huán)單元
圖2 ConvGRU單元結(jié)構(gòu)圖Fig.2 Framework of ConvGRU
(7)
(8)
(9)
(10)
2.1.1 戰(zhàn)場(chǎng)視頻目標(biāo)檢測(cè)數(shù)據(jù)集
針對(duì)坦克的作戰(zhàn)任務(wù),分析其主要火力打擊對(duì)象并構(gòu)建相應(yīng)的戰(zhàn)場(chǎng)視頻目標(biāo)檢測(cè)數(shù)據(jù)集——TKHK VID.坦克作戰(zhàn)過(guò)程中主要火力打擊的目標(biāo)可以分為3大類(lèi):1)坦克、步兵戰(zhàn)車(chē)和自行火炮等作戰(zhàn)車(chē)輛。這類(lèi)目標(biāo)具有機(jī)動(dòng)性強(qiáng)、偽裝性能好、對(duì)坦克有較強(qiáng)的毀傷能力等特點(diǎn),是坦克火控系統(tǒng)主要的檢測(cè)對(duì)象。此外,戰(zhàn)場(chǎng)上的其他普通車(chē)輛也是重點(diǎn)檢測(cè)對(duì)象。2)作戰(zhàn)人員。人員是坦克作戰(zhàn)過(guò)程中不可忽視的對(duì)象,相對(duì)車(chē)輛而言,這類(lèi)目標(biāo)體積小,且往往身著與戰(zhàn)場(chǎng)環(huán)境顏色相近的迷彩服,偽裝效果強(qiáng),難以被發(fā)現(xiàn)。3)直升機(jī)、無(wú)人飛行器等低空飛行目標(biāo)。該類(lèi)目標(biāo)在低空中很容易發(fā)現(xiàn)我方目標(biāo),可以直接攻擊我方坦克裝甲車(chē)輛或引導(dǎo)敵方武器對(duì)我方目標(biāo)進(jìn)行火力打擊,是坦克主要的低空威脅力量。
確定需要檢測(cè)的目標(biāo)類(lèi)型后,本文通過(guò)實(shí)地拍攝以及互聯(lián)網(wǎng)下載等多個(gè)渠道獲得相關(guān)的視頻,并按照ImageNet VID數(shù)據(jù)集的格式對(duì)其進(jìn)行標(biāo)注,構(gòu)建TKHK VID數(shù)據(jù)集。目前,TKHK VID數(shù)據(jù)集含有坦克、步兵戰(zhàn)車(chē)、火炮、普通車(chē)輛、作戰(zhàn)人員、直升機(jī)以及無(wú)人機(jī)等7類(lèi)目標(biāo),共有1 025段視頻,總計(jì)112 187幅圖像,其中每段視頻最少有43幀圖像,最多有487幀圖像。這些視頻包含叢林、雪地、荒漠、草地以及城市等多種作戰(zhàn)場(chǎng)景以及各類(lèi)目標(biāo)的多種型號(hào),并考慮了運(yùn)動(dòng)、遮擋、煙霧、氣象、姿態(tài)等多種情況。與ImageNet VID數(shù)據(jù)集相比,TKHK VID數(shù)據(jù)集中的目標(biāo)尺度較小,且大量存在形變、尺度變化、遮擋以及運(yùn)動(dòng)模糊等情況。為更好地進(jìn)行訓(xùn)練以及測(cè)試,本文將TKHK VID數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集以及測(cè)試集,分別為650、100、275段視頻。目前,TKHK VID數(shù)據(jù)集中的目標(biāo)類(lèi)型及樣本數(shù)量還不夠豐富,后期將對(duì)其進(jìn)行補(bǔ)充完善。
2.1.2 實(shí)驗(yàn)參數(shù)設(shè)置
本文所有實(shí)驗(yàn)均在核心配置為CPU:i9-10900X @3.7 GHz/GPU:RTX 2080Ti4的圖形工作站上進(jìn)行。特征提取網(wǎng)絡(luò)采用了結(jié)合DCN的ResNet-101網(wǎng)絡(luò),其中,ResNnet-101網(wǎng)絡(luò)的res5a、res5b以及res5c等卷積層采用DCN,卷積核的大小為3×3.本文方法的檢測(cè)子網(wǎng)絡(luò)與R-FCN中的檢測(cè)子網(wǎng)絡(luò)相似,采用了相同的損失函數(shù)來(lái)訓(xùn)練網(wǎng)絡(luò),不同點(diǎn)在于本文使用結(jié)合DCN的PS ROI pooling代替原有的PS ROI pooling.使用訓(xùn)練好的結(jié)合DCN的R-FCN初始化網(wǎng)絡(luò),然后在TKHK VID數(shù)據(jù)集中進(jìn)行端到端的訓(xùn)練。訓(xùn)練過(guò)程中,所有輸入圖像的最短邊調(diào)整為600像素,結(jié)合DCN的PS ROI pooling的卷積核大小為7.對(duì)于建議區(qū)域提取網(wǎng)絡(luò)(RPN),本文使用9個(gè)錨點(diǎn)和300個(gè)建議區(qū)域。為降低視頻序列中的冗余,本文通過(guò)均勻的步幅在每5個(gè)視頻圖像中采樣1幀來(lái)形成新的視頻序列。同時(shí),為減少計(jì)算量,設(shè)置時(shí)空卷積特征的通道數(shù)為512.在訓(xùn)練過(guò)程中,使用4個(gè)RTX 2080Ti GPU進(jìn)行90 000次迭代訓(xùn)練,其中前60 000次和后30 000次迭代訓(xùn)練的學(xué)習(xí)率分別是0.001和0.000 1.在測(cè)試過(guò)程中,為計(jì)算加速以及避免GPU內(nèi)存問(wèn)題,首先提取視頻幀的卷積特征以及計(jì)算相鄰視頻幀間的變換矩陣并將其緩存到內(nèi)存中,然后將這些信息提供給時(shí)空卷積特征記憶模塊,其中K設(shè)置為5,并使用標(biāo)準(zhǔn)的左右浮動(dòng)填充來(lái)處理采樣邊界情況。此外,本文還采用了Seq-NMS以提高相鄰視頻幀檢測(cè)結(jié)果的平滑性。
2.2.1 檢測(cè)精度與速度分析
為驗(yàn)證本文方法的有效性,將本文方法與以下4種目標(biāo)檢測(cè)方法進(jìn)行實(shí)驗(yàn)對(duì)比:1)R-FCN[26].R-FCN是一種經(jīng)典的圖像目標(biāo)檢測(cè)方法。在R-FCN基礎(chǔ)上,結(jié)合DCN對(duì)ResNet-101特征提取網(wǎng)絡(luò)以及PS ROI pooling進(jìn)行改進(jìn),能夠有效地提升目標(biāo)檢測(cè)的精度。2)FGFA[15].FGFA是一種基于光流網(wǎng)絡(luò)的視頻目標(biāo)檢測(cè)方法,該方法通過(guò)光流網(wǎng)絡(luò)傳遞視頻信息并在聚合后的卷積特征上進(jìn)行目標(biāo)檢測(cè)。3)D&T[12].該方法將相關(guān)濾波目標(biāo)跟蹤方法與R-FCN相結(jié)合,其損失函數(shù)由目標(biāo)跟蹤損失以及目標(biāo)檢測(cè)損失構(gòu)成。4)MANet[29].該方法在一個(gè)統(tǒng)一的框架中結(jié)合了像素級(jí)校準(zhǔn)以及實(shí)例級(jí)校準(zhǔn),其中,像素級(jí)的校準(zhǔn)可以對(duì)細(xì)節(jié)的運(yùn)行進(jìn)行建模,而實(shí)例級(jí)的校準(zhǔn)則更注重全局的運(yùn)動(dòng),使得對(duì)遮擋的情況更加魯棒。上述4種對(duì)比方法中,R-FCN為靜態(tài)圖像目標(biāo)檢測(cè)方法,根據(jù)單幀圖像進(jìn)行目標(biāo)檢測(cè),其他方法利用了視頻幀之間的聯(lián)系來(lái)建立視頻目標(biāo)檢測(cè)模型。由于本文方法采用的特征提取網(wǎng)絡(luò)以及檢測(cè)子網(wǎng)絡(luò)均結(jié)合DCN,為保證對(duì)比實(shí)驗(yàn)條件的一致性,上述對(duì)比方法的特征提取網(wǎng)絡(luò)以及檢測(cè)子網(wǎng)絡(luò)也結(jié)合DCN對(duì)其進(jìn)行改進(jìn)。目標(biāo)檢測(cè)評(píng)估指標(biāo)為平均精度均值(mAP)和幀率(FPS)。
表1所示為本文方法與4種對(duì)比方法在TKHK VID數(shù)據(jù)集中的目標(biāo)檢測(cè)結(jié)果,其中下劃線表示最佳的實(shí)驗(yàn)結(jié)果。
表1 本文方法與4種對(duì)比方法的實(shí)驗(yàn)結(jié)果Tab.1 Experimental results of the proposed method and other four methods
從表1中可以看出,在檢測(cè)速度方面,R-FCN方法取得了最快的檢測(cè)速度,達(dá)到10.3幀/s.本文方法為6.0幀/s,低于R-FCN和D&T方法,但高于FGFA以及MANet方法。從檢測(cè)精度方面來(lái)看,檢測(cè)速度最快的R-FCN與其他4種利用視頻幀間的聯(lián)系建立目標(biāo)檢測(cè)模型的方法相比,其mAP最低,只有69.6%,表明利用視頻中豐富的信息能夠有效地提高視頻目標(biāo)檢測(cè)的精度。與FGFA、D&T以及MANet等3種方法相比,本文方法取得mAP最高,達(dá)到76.9%,比MANet高0.5%.對(duì)于各類(lèi)目標(biāo)的平均精度(AP),本文方法均高于R-FCN、FGFA以及D&T等方法,與MANet方法的結(jié)果較接近,其中,MANet方法在普通車(chē)輛、作戰(zhàn)人員以及無(wú)人機(jī)等3類(lèi)目標(biāo)的AP略高于本文方法,其他4類(lèi)目標(biāo)的AP值低于本文方法。這是因?yàn)楸疚姆椒ㄅcMANet方法均對(duì)視頻幀間傳遞的時(shí)空卷積特征進(jìn)行調(diào)整,使得當(dāng)前幀的時(shí)空卷積特征更好的融合了多個(gè)相鄰幀中的信息,提高了目標(biāo)檢測(cè)的精度。
2.2.2 模型分解實(shí)驗(yàn)
由于本文在融合2K+1幀視頻圖像信息的時(shí)空卷積特征上進(jìn)行目標(biāo)檢測(cè),為驗(yàn)證來(lái)自相鄰幀的信息能否有效地提升目標(biāo)檢測(cè)的精度,分析支持幀數(shù)K對(duì)檢測(cè)精度的影響。圖3和圖4所示為測(cè)試階段不同K值對(duì)mAP以及FPS的影響。
圖3 支持幀數(shù)K對(duì)mAP的影響Fig.3 Influence of K values on mAP
圖4 支持幀數(shù)K對(duì)FPS的影響Fig.4 Influence of K values on FPS
從圖3和圖4中可以看出,本文方法在TKHK VID數(shù)據(jù)集上取得的mAP以及FPS均優(yōu)于MANet方法。當(dāng)K=1即只使用與當(dāng)前幀相鄰的兩個(gè)視頻幀時(shí),本文方法取得了75.6%的mAP,F(xiàn)PS為10幀/s,而MANet方法取得了mAP為75.3%,F(xiàn)PS為9.4幀/s,均低于本文方法。隨著K的不斷增大,本文方法在TKHK VID數(shù)據(jù)集上取得的mAP不斷增大,但取得mAP增加的速度在不斷降低,表明本文方法能夠有效地利用多個(gè)相鄰幀的信息,且與當(dāng)前視頻幀距離越遠(yuǎn)的視頻幀對(duì)當(dāng)前幀的目標(biāo)檢測(cè)效果提升越小。對(duì)于MANet方法,當(dāng)K增大時(shí),mAP的增長(zhǎng)速度低于本文方法,且當(dāng)K增大到一定的值后mAP并不再增大,從而證明了本文方法比MANet方法能夠更好地利用更多的視頻幀信息。另一方面,K的不斷增大也使本文方法以及MANet方法的FPS不斷降低,但FPS降低的速度低于MANet方法。最后,綜合考慮計(jì)算量與檢測(cè)效果,本文設(shè)置K=5,即利用視頻圖像It以及與其前后相鄰的10幀視頻圖像實(shí)現(xiàn)對(duì)目標(biāo)的檢測(cè),此時(shí)的FPS約為6幀/s,mAP為76.9%.
本文方法使用了DCN、時(shí)空卷積特征校準(zhǔn)機(jī)制以及Seq-NMS等多種策略,為進(jìn)一步驗(yàn)證本文方法的性能以及各策略的貢獻(xiàn)度,在TKHK VID數(shù)據(jù)集中進(jìn)行模型分解實(shí)驗(yàn),測(cè)試模型的其他參數(shù)與2.2.1節(jié)中使用的模型保持一致。模型分解的實(shí)驗(yàn)結(jié)果如表2所示。
表2 模型分解實(shí)驗(yàn)結(jié)果Tab.2 Experimental results of model decomposition
注:*與#分別表示ResNet-101以及PS ROI pooling;與分別表示使用和不使用。
從表2中可以看出,本文使用的多種策略均對(duì)視頻目標(biāo)檢測(cè)精度有一定的提升:使用結(jié)合DCN的ResNet-101以及PS ROI pooling能夠提升目標(biāo)檢測(cè)模型對(duì)空間信息的建模能力,其中單獨(dú)使用這兩種策略能夠分別使目標(biāo)檢測(cè)精度提升1.5%和1.3%,共同使用兩種策略能夠使目標(biāo)檢測(cè)精度提升2.4%;使用本文提出的時(shí)空卷積特征校準(zhǔn)機(jī)制,能夠更好地融合多個(gè)相鄰視頻幀中的信息,目標(biāo)檢測(cè)精度提升了1.8%;使用Seq-NMS能夠使目標(biāo)檢測(cè)精度提升1.7%.
表3~表6分別展示了本文方法與R-FCN方法對(duì)TKHK VID數(shù)據(jù)集中視頻序列1~4的測(cè)試結(jié)果。視頻序列1中存在2個(gè)坦克目標(biāo),其中1輛坦克靜止不動(dòng),另外1輛坦克從左向右快速運(yùn)動(dòng)。由于目標(biāo)快速運(yùn)動(dòng)引起的大量灰塵造成目標(biāo)遮擋以及目標(biāo)圖像尺寸較小等情況,在第38幀與第59幀中R-FCN方法漏檢了一個(gè)目標(biāo)。視頻序列2中有1輛運(yùn)動(dòng)的步兵戰(zhàn)車(chē),目標(biāo)尺寸出現(xiàn)較大變化,本文方法與R-FCN方法均能檢測(cè)到目標(biāo),但R-FCN方法的檢測(cè)精度略低于本文方法。視頻序列3中為2個(gè)直升機(jī)目標(biāo),與R-FCN方法相比,本文方法能夠準(zhǔn)確地檢測(cè)出所有的目標(biāo),且具有較高的置信度。視頻序列4中有1輛從左向右運(yùn)動(dòng)的步兵戰(zhàn)車(chē),目標(biāo)尺寸較小且存在形變以及遮擋,R-FCN方法存在部分漏檢,而本文方法能夠準(zhǔn)確地檢測(cè)該目標(biāo)。
表3 本文方法與R-FCN方法在視頻序列1中的檢測(cè)結(jié)果Tab.3 Detection results of the proposed method and R-FCN method on Video 1
表4 本文方法與R-FCN方法在視頻序列2中的檢測(cè)結(jié)果Tab.4 Detection results of the proposed method and R-FCN method on Video 2
表5 本文方法與R-FCN方法在視頻序列3中的檢測(cè)結(jié)果Tab.5 Detection results of the proposed method and R-FCN method on Video 3
表6 本文方法與R-FCN方法在視頻序列4中的檢測(cè)結(jié)果Tab.6 Detection results of the proposed method and R-FCN method on Video 4
除了在本文構(gòu)建的TKHK VID數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)外,還在通用數(shù)據(jù)集ImageNet VID上對(duì)本文方法進(jìn)行測(cè)試。ImageNet VID數(shù)據(jù)集有30類(lèi)目標(biāo),共5 354段視頻,其中訓(xùn)練集、驗(yàn)證集以及測(cè)試集中所包含的視頻段數(shù)量分別為3 862、555和937.采用的對(duì)比方法為FGFA、D&T以及MANet3種方法。由于ImageNet VID數(shù)據(jù)集中的數(shù)據(jù)多于TKHK VID數(shù)據(jù)集,本文方法在訓(xùn)練過(guò)程中使用4個(gè)RTX 2080Ti GPU進(jìn)行120 000次迭代訓(xùn)練,其中前80 000次和后40 000次迭代訓(xùn)練的學(xué)習(xí)率分別是0.001和0.0 001,其余參數(shù)保持不變。表7展示了4種方法在TKHK VID數(shù)據(jù)集上的測(cè)試結(jié)果。從表7中可以看出,本文方法取得的mAP達(dá)到78.3%,優(yōu)于FGFA以及D&T方法,與MANet方法基本持平。從各方法取得的單個(gè)目標(biāo)類(lèi)型AP來(lái)看,本文方法取得部分目標(biāo)類(lèi)型的較高,如熊、汽車(chē)等,但也存在部分目標(biāo)類(lèi)型的AP較低,如老虎、斑馬等,但整體的檢測(cè)效果最佳。相對(duì)于TKHK VID數(shù)據(jù)集,ImageNet VID數(shù)據(jù)集中的目標(biāo)尺寸較大,因此與表1相比,表7中各方法取得的mAP較高。
表7 在ImageNet VID數(shù)據(jù)集上的測(cè)試結(jié)果Tab.7 Experimental results of ImageNet VID data set
本文針對(duì)坦克火控系統(tǒng)的實(shí)際應(yīng)用需求,分析其主要檢測(cè)對(duì)象,建立了一個(gè)戰(zhàn)場(chǎng)視頻目標(biāo)檢測(cè)數(shù)據(jù)集TKHK VID,并提出一種基于時(shí)空卷積特征記憶模型的視頻目標(biāo)檢測(cè)方法。根據(jù)測(cè)試結(jié)果得出以下主要結(jié)論:
1) 基于ConvGRU和時(shí)空卷積特征校準(zhǔn)機(jī)制構(gòu)建的時(shí)空卷積特征記憶模型能夠有效地傳遞并融合多幀視頻圖像中的信息。
2) 在特征提取網(wǎng)絡(luò)以及檢測(cè)子網(wǎng)絡(luò)中結(jié)合DCN能夠有效地提升戰(zhàn)場(chǎng)環(huán)境中形變目標(biāo)的檢測(cè)效果。
3) 聯(lián)合特征提取網(wǎng)絡(luò)、檢測(cè)子網(wǎng)絡(luò)以及時(shí)空卷積特征記憶模型構(gòu)建的視頻目標(biāo)檢測(cè)模型實(shí)現(xiàn)了對(duì)戰(zhàn)場(chǎng)視頻目標(biāo)的精確檢測(cè),能夠更好地滿足裝備的實(shí)際應(yīng)用需求。
本文方法還存在對(duì)硬件的需求較高等問(wèn)題,要實(shí)現(xiàn)本文方法在坦克火控系統(tǒng)中的實(shí)際應(yīng)用,還需要繼續(xù)對(duì)本文方法進(jìn)行優(yōu)化。此外,本文構(gòu)建的戰(zhàn)場(chǎng)視頻目標(biāo)檢測(cè)數(shù)據(jù)集中的目標(biāo)類(lèi)型和圖像序列數(shù)量需要進(jìn)一步擴(kuò)展,使其能夠更全面地反映坦克等裝甲車(chē)輛的作戰(zhàn)環(huán)境。