顧立鵬,孫韶媛,李 想,劉訓華,宋奇奇
(東華大學 信息科學與技術學院,上海 201620)
多目標跟蹤(Multi-Object Tracking,MOT)是計算機視覺領域的一個研究熱點,在自動駕駛、機器人續(xù)航、視頻監(jiān)控與行為分析等領域發(fā)揮著重要的作用[1].相比于單目標跟蹤,多目標跟蹤主要是在輸入的視頻中定位多個目標,維持它們的ID不變,并形成各自的軌跡,因此更復雜、更具挑戰(zhàn).近10年來,隨著深度神經(jīng)網(wǎng)絡的迅速發(fā)展,基于檢測的多目標跟蹤算法受到了廣泛的關注.這類方法主要將多目標跟蹤問題分為兩個步驟:第1步,使用目標檢測網(wǎng)絡檢測出給定視頻序列中每一幀存在的感興趣的目標;第2步,使用數(shù)據(jù)關聯(lián)算法將檢測到的目標隨著時間推移,分配各自的ID,并生成各自的軌跡[2].
盡管已經(jīng)過多年的研究,多目標跟蹤算法的性能仍還遠未達到人類的水平.當前該問題面臨的挑戰(zhàn)主要包括:未知的目標類別及數(shù)量;目標之間頻繁的遮擋;目標的漏檢或誤檢等[1].針對上述問題,目前的解決方法大多集中在以下幾個方面:優(yōu)化提升目標檢測網(wǎng)絡性能、設計更具表現(xiàn)力的目標特征模型、設計更高效的數(shù)據(jù)關聯(lián)算法[3].對于優(yōu)化提升目標檢測器性能,Zhou[4]等人提出了CenterNet網(wǎng)絡,利用關鍵點估計來確定潛在目標的中心點,并回歸出寬高尺寸、偏移量等目標,具有整體網(wǎng)絡計算開銷小、精度高且速度快等優(yōu)點.Shang-Hua Gao[5]等人提出了Res2Net模塊,其可被便捷地嵌入到現(xiàn)有的目標檢測網(wǎng)絡中,在不增加網(wǎng)絡整體計算開銷的基礎上,提升目標檢測網(wǎng)絡的性能.針對設計更具表現(xiàn)力的目標特征模型,Bo Li[6]等人提出的SiamRPN網(wǎng)絡,通過將孿生網(wǎng)絡和區(qū)域推薦網(wǎng)絡結合到一起實現(xiàn)對初始幀的給定目標的跟蹤,前者用來提取目標在上一幀的區(qū)域和在當前幀的兩倍區(qū)域的卷積特征,后者用來推理出該目標在當前幀的狀態(tài).針對優(yōu)化數(shù)據(jù)關聯(lián)算法,Leal-Taixé[7]等人使用孿生網(wǎng)絡提取局部時空域特征,再根據(jù)兩個檢測到目標的時空域特征的響應之間的幾何距離,得到兩個檢測到目標之間的關聯(lián)概率,最后用匈牙利算法對相鄰幀檢測到的目標進行關聯(lián).
受上述啟發(fā),為了解決無人車駕駛場景下的多目標跟蹤所面臨的各種問題,本文從優(yōu)化目標檢測器和數(shù)據(jù)關聯(lián)算法兩個方面,提出了一種無人駕駛場景下的多目標車輛與行人跟蹤算法:1)提出了Res2Net_plus模塊,具體是在Res2Net模塊中嵌入了1×1卷積和SE-Net模塊,以融合空間信息和通道信息,提升網(wǎng)絡對目標區(qū)域特征的提取能力;2)用CenterNet網(wǎng)絡作為目標檢測器,并用Res2Net_plus模塊替代網(wǎng)絡原有的殘差單元,以進一步提升CenterNet網(wǎng)絡對無人車駕駛場景下車輛和行人的檢測精度;3)受SiamRPN網(wǎng)絡啟發(fā),將其網(wǎng)絡一分為二,孿生網(wǎng)絡部分設計為關聯(lián)概率網(wǎng)絡,進行基于外觀特征的關聯(lián)概率度量,而區(qū)域推薦網(wǎng)絡部分設計為輔助跟蹤器,來對歷史幀中的漏檢或消失又出現(xiàn)的目標進行持續(xù)跟蹤,并將可靠的跟蹤結果合并到存在的軌跡中;4)設計了一種基于目標外觀特征和位置信息融合的匹配策略,具體是孿生網(wǎng)絡對檢測到目標所在區(qū)域的外觀特征進行提取,作為主要的匹配依據(jù).同時,目標的位置信息作為輔助匹配依據(jù),用于剔除外觀相似但在兩幀中所處的位置較遠的虛假匹配關系.在KITTI跟蹤基準數(shù)據(jù)集上的實驗結果表明,與已有的方法對比,本文方法具有競爭力,尤其對于因目標檢測器的漏檢或目標的消失又出現(xiàn)所導致的跟蹤軌跡不連續(xù)或目標ID頻繁切換的問題有很大的改善作用.
本文提出的無人車駕駛場景下的多目標檢測算法由目標檢測網(wǎng)絡、關聯(lián)概率網(wǎng)絡和數(shù)據(jù)關聯(lián)模塊3部分組成,算法整體框圖如圖1所示.其中,①為輸入視頻序列;②為目標檢測網(wǎng)絡檢測每幀的車輛與行人;③為提取目標外觀和位置信息,并經(jīng)過關聯(lián)概率網(wǎng)絡,得到關聯(lián)概率矩陣;④為經(jīng)過數(shù)據(jù)關聯(lián)模塊,得到車輛與行人跟蹤結果(目標的ID和包圍框坐標).
圖1 算法整體框圖Fig.1 Algorithm block diagram
目標檢測網(wǎng)絡對基于檢測的多目標跟蹤器的整體性能有著至關重要的影響,這是因為目標檢測網(wǎng)絡的誤檢或漏檢將造成目標ID的頻繁切換或目標軌跡的斷開等問題[8].因此,一個兼顧精度和速度的目標檢測網(wǎng)絡對多目標跟蹤算法十分重要.
2.1.1 CenterNet網(wǎng)絡
本文選取了CenterNet網(wǎng)絡作為多目標跟蹤的目標檢測器.不同于基于錨框的檢測網(wǎng)絡,CenterNet網(wǎng)絡將目標檢測問題巧妙地轉換成關鍵點估計問題,利用關鍵點估計來確定目標的中心點,同時在中心點處回歸出該目標的其他屬性,如寬高尺寸、中心點的偏移量等.這使得該網(wǎng)絡在整體計算開銷相對較小的情況下,擁有很好地提取并利用目標內(nèi)部的信息的能力,實現(xiàn)了潛在目標的檢測,因此具有其精度高且速度快的優(yōu)點,尤其對于無人車駕駛場景下數(shù)量多且有頻繁遮擋的車輛與行人具有很好的檢測能力,網(wǎng)絡結構圖如圖2所示.
圖2 CenterNet網(wǎng)絡結構圖Fig.2 Network structure of CenterNet
在圖2中,右上角虛線圈內(nèi)網(wǎng)格中的黑點是對該圖片內(nèi)的車輛進行偏移量估計的放大圖,以實現(xiàn)對車輛位置的修正,對其精確定位.本文中所使用的Backbone為帶有動態(tài)卷積的DLA_34網(wǎng)絡,該網(wǎng)絡是通過多級跳躍連接的,并以多次迭代的方式融合淺層與深層的信息,以獲得更具表現(xiàn)力的特征.在Backbone的輸出端增加了Keypoint heat head、Object size head和Local offset head,分別回歸輸入圖像中潛在目標的關鍵點、寬高尺寸和中心點的偏移量,從而可以精準地檢測到視頻序列中的車輛與行人.
2.1.2 Res2Net_plus模塊
由于無人車駕駛場景下存在很多較小的目標或行人和車輛之間相互遮擋的情況,為了提高CenterNet網(wǎng)絡對小目標和遮擋目標的檢測效果,本文提出了Res2Net_plus模塊.Res2Net_plus模塊通過結合Octave Conv[9]和SE-Net[10]的思想對原始ResNet(Bottleneck)模塊進行改進.Octave Conv的核心思想是將原始特征圖按不同頻率進行分解,對含有不同頻率信息的特征圖分開操作,從而可以加速卷積的計算和提高任務的性能.而SE-Net的思想是引入了注意力的機制,用一個權重來表示輸入特征圖的通道在后續(xù)階段的重要程度,以實現(xiàn)特征圖的空間信息和通道信息的融合.
受此啟發(fā),本文在Res2Net模塊中的以層級殘差式風格連接3×3卷積前端分別加上一組1×1的卷積,以獲得含有不同頻率信息的特征圖,如圖3(b)中①號虛線框所示.同時,在Res2Net模塊中嵌入SE-Net,以融合特征通道間的關系,進一步提升網(wǎng)絡的空間特征表現(xiàn)力,得到更加有表現(xiàn)力的多尺度特征,如圖3(b)中②號虛線框所示.Res2Net模塊和Res2Net_plus結構如圖3所示.
圖3 Res2Net和Res2Net_plus模塊結構Fig.3 Module structure of Res2Net and Res2Net_plus
在圖3中,假設經(jīng)過頭部第一個1×1卷積后的尺寸為H×W×C的特征圖為U′,原來的Res2Net模塊僅僅簡單的將1×1卷積后的特征圖按通道等分成4份,而Res2Net_plus是將1×1的卷積后的特征圖分別經(jīng)過4個1×1×(C/4)的卷積,生成4個H×W×(C/4)特征圖送入后續(xù)卷積層,以獲得含有不同頻率信息但通道數(shù)減為原來4倍的特征圖.同時,嵌入的SE-Net模塊則是對經(jīng)過尾部最后一個1×1卷積輸出的尺寸為H×W×C的特征圖U″先后進行Squeeze操作、Excitation操作及Scale操作,以實現(xiàn)特征圖的空間信息和通道信息的融合.其中,Squeese操作是使用全局池化,將大小為H×W×C的輸入特征圖轉為1×1×C的特征描述,計算方法如公式(1).Excitation操作是將得到的1×1×C的特征描述經(jīng)過兩個全連接層和一個Sigmoid激活函數(shù),得到1×1×C的通道間的權重s.Scale操作是按通道將獲得1×1×C的權重s與原始輸出的H×W×C的特征圖U″通過簡單的乘法進行融合,得到H×W×C的特征圖U?,計算方法如公式(2).
(1)
(2)
外觀特征是目標檢測領域中一種具有很好區(qū)分性的屬性.尤其是在目標之間相互遮擋或存在許多外觀相似的目標時,外觀特征可以被使用來對目標進行檢測、識別和區(qū)分.
在早期的研究中,一些人工制作的特征常常被使用來表征物體的外觀特征.隨著深度神經(jīng)網(wǎng)絡的發(fā)展,基于深度神經(jīng)網(wǎng)絡提取的物體的外觀特征被廣泛地使用在目標檢測、跟蹤等領域.本文利用基于嵌入了CIR單元(cropping-inside residual units)的CIResNet_22為主干網(wǎng)絡的孿生網(wǎng)絡提取目標的外觀特征,并分別將其兩兩直接進行卷積計算如公式(3)所示,得到關聯(lián)概率值,值越高目標越相似,具體網(wǎng)絡結構如圖4所示.
k=U1*U2
(3)
其中,U1和U2為兩個不同目標經(jīng)過CIResNet_22提取的尺寸一樣的特征圖,*表示卷積計算操作,k為一個標量,值越高,表示兩個目標越相似,反之,則差異越大.
該關聯(lián)概率網(wǎng)絡的輸入是目標檢測網(wǎng)絡對視頻序列每幀檢測到的目標的二維包圍框的左上角和右下角坐標,(x1,y1)和(x2,y2).然后根據(jù)二維包圍框的坐標將每幀檢測到的目標裁剪出來,把尺寸調(diào)整為127×127,送入CIResNet_22網(wǎng)絡中,來提取每幀中檢測到的每個目標的外觀特征,其尺寸為6×6×256.假設上一幀和當前幀分別代表第t幀和第t+1幀,且分別檢測到目標的數(shù)量為Nt和Nt+1.然后,將第t幀的Nt個特征圖與第t+1幀的Nt+1個特征圖兩兩直接進行卷積計算,可以得到尺寸為Nt×Nt+1的關聯(lián)概率矩陣,例如圖4右上角虛線圈內(nèi)所示.
圖4 關聯(lián)概率網(wǎng)絡結構圖Fig.4 Structure diagram of association probability network
數(shù)據(jù)關聯(lián)也是基于檢測跟蹤的多目標跟蹤方法中十分關鍵的一步,這直接決定了所檢測到的目標之間匹配的效率與最終跟蹤效果.本文設計了一種級聯(lián)形式的數(shù)據(jù)關聯(lián)方法,首先采用匈牙利算法來完成相鄰幀之間檢測到的目標的初步匹配,后續(xù)兩步工作由基于區(qū)域推薦網(wǎng)絡[11]的輔助跟蹤器完成,以進一步提升目標跟蹤能力.
2.3.1 數(shù)據(jù)關聯(lián)
數(shù)據(jù)關聯(lián)一共分3步進行,工作流程如圖5所示.
圖5 數(shù)據(jù)關聯(lián)模塊工作流程圖Fig.5 Workflow of data association module
第1次匹配:充分利用目標的外觀特征,得到相鄰幀的目標的初步匹配關系.以 “集合Dt和Dt+1” 為輸入,通過關聯(lián)概率網(wǎng)絡計算得到相鄰幀的關聯(lián)概率矩陣.然后,使用匈牙利算法[12]得到相鄰兩幀所檢測到的目標的初步匹配關系.接著,將滿足下述條件1和條件4的當前幀的目標合并到存在的軌跡中;反之,則將上一幀和當前幀的未匹配上的目標分別放入“集合Ut”和“集合Ut+1”.
第2次匹配:利用基于區(qū)域推薦網(wǎng)絡的輔助跟蹤器對漏檢的目標進行持續(xù)跟蹤.以“集合Ut”為輸入,使用輔助跟蹤器對上一幀未匹配上的目標進行持續(xù)跟蹤,得到當前幀的位置狀態(tài)和跟蹤得分.接著,將滿足條件2、條件3和條件5的跟蹤結果合并到存在的軌跡中;反之,則認為該目標已消失,將其放入“集合U30”.設置一個最大連續(xù)跟蹤幀數(shù)Nmax,當超過連續(xù)Nmax幀時,該漏檢的目標還未出現(xiàn),則不再對此進行跟蹤.
第3次匹配:利用輔助跟蹤器對前30幀已經(jīng)消失的目標進行推理判斷是否在當前幀再次出現(xiàn).以“集合Ut+1和U30”為輸入,使用輔助跟蹤器對前30幀未匹配上的目標進行持續(xù)跟蹤,推理出在當前幀的狀態(tài).接著,將滿足下述條件2、條件3和條件5的跟蹤結果合并到存在的軌跡中,并將其從“集合U30”中刪除.最后,當前幀未匹配上的目標為新出現(xiàn)的目標,為其創(chuàng)建新的軌跡.
其中,條件1為關聯(lián)概率大于閾值30;條件2為跟蹤得分大于閾值0.9;條件3為預測得到的目標包圍框距離圖片邊界大于15像素值;條件4為兩個目標的包圍框的IoU值大于閾值0.01;條件5為預測得到的目標包圍框與歷史幀中該目標的包圍框的IoU值大于閾值0.01.
2.3.2 輔助跟蹤器
C組自然分娩產(chǎn)婦所占比例高于A、B組,B組高于A組(P<0.05);C組陰道助產(chǎn)及剖宮產(chǎn)產(chǎn)婦所占比例低于A、B組,B組低于A組(P<0.05),見表4。
本文中所使用的輔助跟蹤器是基于區(qū)域推薦網(wǎng)絡設計的,主要目的是改善因目標檢測網(wǎng)絡的漏檢導致目標ID頻繁切換或軌跡斷開的問題,具體網(wǎng)絡結構如圖6所示.
其中,輔助跟蹤器中使用的主干網(wǎng)絡和前面關聯(lián)概率網(wǎng)絡的主干網(wǎng)絡一樣,都是使用CIResNet_22網(wǎng)絡,且共享權重.輔助跟蹤器輸入由兩部分組成,分別為未匹配上的目標集合(包括特征圖、ID和包圍框的坐標)和當前幀的圖片.其中,未匹配的目標的特征圖作為模板幀的特征圖,尺寸為6×6×256.而檢測幀的特征圖的提取通過兩個步驟:首先,以未匹配的目標的中心點在當前幀圖片中裁剪出同樣中心點的兩倍區(qū)域;然后用CIResNet_22網(wǎng)絡提取出尺寸為22×22×256的特征圖;接著,模板幀和檢測幀的特征圖復制雙份,分別送入?yún)^(qū)域推薦網(wǎng)絡的分類分支和回歸分支中進行后續(xù)操作.其中,分類分支,用于區(qū)分目標的前景和背景;回歸分支,用于對目標的候選區(qū)域進行微調(diào).
圖6 輔助跟蹤器結構圖Fig.6 Structure diagram of auxiliary tracker
(4)
(5)
本實驗是使用Pytorch 0.4.1框架實現(xiàn)的,實驗配置如表1所示.
表1 實驗配置Table 1 Experimental configuration
數(shù)據(jù)集使用了公開的KITTI目標檢測基準數(shù)據(jù)集和KITTI目標跟蹤基準數(shù)據(jù)集,其中,目標檢測數(shù)據(jù)集主要是對汽車和行人的檢測,其訓練集和測試集分別有7481和7518張圖片,而目標跟蹤數(shù)據(jù)集主要是對汽車與行人的跟蹤,其訓練集和測試集分別有21和29個視頻序列.在本實驗中,將KITTI目標檢測基準數(shù)據(jù)集原有標注的8個不同的類別合并為兩個類別,具體是將Car、Van和Truck這3類合并為Car類,將Pedestrian、Person_sitting和Cyclist這3類合并為Pedestrian類,且僅保留Car和Pedestrian類.同時,也將KITTI目標跟蹤基準數(shù)據(jù)集原有標注的Pedestrian和Person類合并為Pedestrian,將Van和Car合并為Car類,且僅保留Car、Pedestrian和Cyclist類.同時,將KITTI目標檢測基準數(shù)據(jù)集的訓練集按8∶1∶1劃分為訓練集、驗證集和測試集,用于對目標檢測網(wǎng)絡的訓練和評估.另外,考慮到目標檢測數(shù)據(jù)集和目標跟蹤數(shù)據(jù)集有部分圖片是重合的,為了公平起見,首先將目標跟蹤數(shù)據(jù)集的訓練集中21個視頻序列分別按7∶3的比例切分成訓練集和驗證集,分別用來重新訓練目標檢測網(wǎng)絡和驗證本文提出的多目標跟蹤算法.接著,將目標跟蹤數(shù)據(jù)集的訓練集全部用來重新訓練目標檢測網(wǎng)絡,用于在該目標跟蹤數(shù)據(jù)集的測試集上評估本文所提出的多目標跟蹤算法.
3.2.1 Centernet網(wǎng)絡訓練過程
首先,本文為了評估CenterNet網(wǎng)絡,先使用KITTI目標檢測基準數(shù)據(jù)集.然后,為了評估多目標跟蹤算法,使用KITTI目標跟蹤數(shù)據(jù)集重新訓練CenterNet網(wǎng)絡,訓練過程都是未加載預訓練模型,優(yōu)化器都為Adam,初始的學習率都為1.25×10-4.在按比例劃分好的目標檢測數(shù)據(jù)集的訓練集和目標跟蹤數(shù)據(jù)集的訓練集上的兩次訓練過程都是一樣的,輸入分辨率為512×512,訓練140個epoch,batch為8,并分別在第90和120的epoch處,使學習率分別下降10倍.而在目標跟蹤數(shù)據(jù)集的全部訓練集上先后訓練3次,第1次未加載預訓練模型,第2、3次均以上次訓練出來的模型為預訓練模型來加載訓練.首先以512×512的輸入分辨率,訓練230個epoch,分別在第90和120的epoch處,使學習率分別下降10倍.接著,以384×1280的輸入分辨率,訓練140個epoch,分別在第90和120的epoch處,使學習率分別下降10倍.最后,以384×1280的輸入分辨率,訓練40個epoch,分別在第10和15的epoch處,使學習率分別下降10倍.
3.2.2 關聯(lián)概率網(wǎng)絡和區(qū)域推薦網(wǎng)絡訓練過程
由于關聯(lián)概率網(wǎng)絡和基于區(qū)域推薦網(wǎng)絡的輔助跟蹤器是受SiamRPN網(wǎng)絡啟發(fā)而設計的,且其權重共享,因此關聯(lián)概率網(wǎng)絡和區(qū)域推薦網(wǎng)絡的權重可由以CIResNet_22為主干網(wǎng)絡的SiamRPN網(wǎng)絡訓練得到.首先,SiamRPN網(wǎng)絡加載在ImageNet數(shù)據(jù)集上訓練得到的預訓練模型.接著,在使用裁剪程序處理后的VID和Youtu-BB數(shù)據(jù)集上訓練,訓練50個epoch.裁剪程序為從歷史幀中裁剪出目標模板區(qū)域,并將其尺寸變?yōu)?27×127,且以歷史幀的目標的中心點在當前幀圖片中裁剪出同樣中心點的兩倍區(qū)域,并將其尺寸變?yōu)?55×255,以組成成對的圖片用于網(wǎng)絡的訓練.
評估多目標跟蹤算法采用的指標如表2所示,其中,MOTA和MOTP對多目標跟蹤算法總體性能進行評估,而Mostly Tracked(MT),Mostly Lost(ML)、ID-Switch(IDS)和Fragmentations(FRAG)對跟蹤器在給目標分配正確的ID的效率進行評估.另外,本文也做了關于目標檢測網(wǎng)絡性能的實驗評估,其指標如表3所示.
表2 多目標跟蹤算法的指標Table 2 Metrics used for multiple object tracking
表3 目標檢測算法的指標Table 3 Metrics used for object detection
圖7為KITTI跟蹤基準數(shù)據(jù)集的測試集中視頻序列1中連續(xù)的4幀視頻序列的目標檢測與跟蹤的結果.從圖7中可以看出,在第3和第4幀中,目標檢測器因汽車有部分遮擋,所以沒有檢測到這輛汽車,但是輔助跟蹤器卻能很好地跟蹤這輛有部分遮擋的汽車,其ID為7,沒有發(fā)生改變.圖8為KITTI跟蹤基準數(shù)據(jù)集的測試集中視頻序列0中連續(xù)的4幀的目標跟蹤的結果.從圖8中可以看出,本文算法在擁擠的停車環(huán)境中仍然能對車輛進行很好的跟蹤.
圖7 KITTI跟蹤基準測試集中序列1中連續(xù)4幀視 頻序列的檢測與跟蹤對比結果Fig.7 Comparison results of detection and tracking of four consecutive video sequences in video sequence 1 of KITTI tracking benchmark test set
為了驗證本文提出的Res2Net_plus模塊對CerterNet網(wǎng)絡的影響,本文將Res2Net_plus模塊拆分成Res2Net、1×1和SE-Net 3部分,在KITTI目標檢測數(shù)據(jù)集上進行了對比實驗,結果如表4所示.另外,為了驗證所提出的關聯(lián)概率網(wǎng)絡、輔助跟蹤器對整體多目標算法性能的影響,本文在KITTI跟蹤基準數(shù)據(jù)集中包含21個視頻序列的訓練集上進行了對比實驗,結果如表5所示.最后,為了與已有的多目標跟蹤算法進行比較,本文還在KITTI目標跟蹤數(shù)據(jù)集中包含28個視頻序列的測試集上進行與其他多目標跟蹤算法的對比實驗,結果分別如表6和表7所示.
圖8 KITTI跟蹤基準測試集中序列0中連續(xù)4幀 視頻序列的跟蹤的結果Fig.8 Video sequence tracking results of four consecutive frames in video sequence 0 of KITTI tracking benchmark test set
從表4中可以看出,Res2Net、1×1和SE-Net模塊可使CenterNet網(wǎng)絡的各項指標均有提升,表明了所提出的Res2Net_plus模塊可提升CenterNet網(wǎng)絡對無人車駕駛場景下車輛和行人的檢測精度.
從表5中可以看出,相較于僅使用目標的位置信息(相鄰幀目標的IoU值),關聯(lián)概率網(wǎng)絡和輔助跟蹤器均可以提高多目標跟蹤算法對車輛目標的跟蹤能力.另外,基于區(qū)域推薦網(wǎng)絡的輔助跟蹤器也可以一定程度上提高多目標算法的性能,尤其是IDS和FRAG這兩個指標都有明顯的提升.
從表6和表7中可以看出,本文所提出的無人車駕駛場景下的多目標跟蹤算法對于車輛與行人這兩類,在大部分指標上都領先其他幾個多目標跟蹤算法.尤其,本文提出的多目標跟蹤算法在MOTP和FRAG這兩個指標均領先其他算法許多,這也表明了所提出的多目標跟蹤算法在無人車駕駛場景下具有很好的競爭力.
表4 在KITTI檢測基準數(shù)據(jù)集(訓練集中劃分出來的748張圖片)上試驗Res2Net_plus模塊對CerterNet網(wǎng)絡的影響Table 4 Effects of Res2Net_plus module for CenterNet on the KITTI detecting benchmark dataset (748 pictures divided from the training set)
表5 在KITTI跟蹤基準數(shù)據(jù)集(21個視頻序列的訓練集中劃分出來的驗證集)上試驗各模塊對多目標跟蹤算法的影響Table 5 Effects of each module for the multi-object tracking algorithm on the KITTI tracking benchmark dataset (the verification set divided by 21 video sequences of training set)
表6 在KITTI跟蹤基準數(shù)據(jù)集的測試集上與其他多目標跟蹤算法對比實驗結果(‘Car’類)Table 6 Comparison of experimental results with other multi-object tracking algorithm on test set of KITTI tracking benchmark dataset(′Car′class)
表7 在KITTI目標跟蹤數(shù)據(jù)集的測試集上與其他多目標跟蹤算法對比實驗結果(‘Pedestrian’類)Table 7 Comparison of experimental results with other multi-object tracking algorithm on test set of KITTI tracking benchmark dataset(′Pedestrian′class)
本文提出多目標算法在無人車駕駛場景下對車輛與行人具有很好的跟蹤能力.實驗結果表明,提出的Res2Net_plus模塊可以有效提高目標檢測器對車輛與行人的檢測精度,關聯(lián)概率網(wǎng)絡也能很好地構建目標的特征表達模型,從而顯著提高多目標跟蹤算法對目標的跟蹤能力.另外,輔助跟蹤器也可以有效對漏檢的目標進行持續(xù)跟蹤,這樣可以很好地改善因目標部分遮擋、目標檢測器失效造成的目標漏檢所導致的目標ID頻繁切換或跟蹤軌跡斷開等問題,尤其可以從IDS和FRAG這兩個指標看出.但從實驗結果可以看出,相較于其他的算法,對車輛的跟蹤,本文提出的算法的MOTA和MT、ML這3個指標還不是很具有競爭力,還有提升的空間,后續(xù)的研究將進一步解決好對相互擁擠且外觀相近的目標跟蹤能力較弱的問題.