劉洋 郭春生
摘要:針對目前多目標跟蹤中目標數(shù)據(jù)關聯(lián)度量方式的不足,以及Wasserstein度量值衡量概率測度間差異程度的性質(zhì),提出基于Wasserstein度量的目標數(shù)據(jù)關聯(lián)算法,即利用Wasserstein距離衡量目標外觀特征向量之間的相似度,將目標外觀特征向量看成一個分布,計算分布之間的Wasserstein距離,再用Wasserstein距離判斷目標是否相似。但是Wasserstein距離表達式比較復雜,難以直接計算,因此通過訓練一個深度網(wǎng)絡計算Wasserstein距離,并使相同目標特征向量之間Wasserstein距離縮小、不同目標特征向量之間的Wasserstein距離增大;然后,利用目標運動匹配度進一步篩選滿足外觀匹配度的目標,最終得到最佳目標關聯(lián)。實驗結(jié)果表明,該算法能較好地解決多目標跟蹤中的漏報問題,與原算法相比,MT提高了6.7%,ML減少了4.9%,F(xiàn)N減少了6627個。
關鍵詞:多目標跟蹤;深度網(wǎng)絡;Wasserstein距離;數(shù)據(jù)關聯(lián)
DOI:10.11907/rjdk.191176開放科學(資源服務)標識碼(OSID):
中圖分類號:TP312文獻標識碼:A 文章編號:1672-7800(2019)010-0074-04
0引言
多目標跟蹤是計算機視覺和圖像處理中的基本問題,也是智能交通、智能安防領域的熱門話題,近年來受到越來越多的關注。目標檢測和目標數(shù)據(jù)關聯(lián)是目標跟蹤的重要組成部分,深度網(wǎng)絡模型(Faster-Rcnn、SSD和YOLO)等常被用于實現(xiàn)目標準確檢測。目標數(shù)據(jù)關聯(lián)指隨著時間的移動,選擇和聚類相應的檢測,這是實現(xiàn)目標跟蹤的前提。
Bewley等在目標關聯(lián)問題中僅使用了目標運動信息,造成多個跟蹤目標丟失;Wojke等在文獻[5]的基礎上,增加了目標表觀信息,綜合使用馬氏距離和余弦距離計算目標間的相似度,但是目標誤報個數(shù)較多;Shen等把目標軌跡分成若干小段,把目標數(shù)據(jù)關聯(lián)問題轉(zhuǎn)換成從小軌跡段集合中選擇最優(yōu)小段的問題,思路比較新穎,有效解決了目標遮擋問題,但是過程較復雜;王熠把Wasser-stein距離應用于圖像識別,提出基于Wasserstein距離的圖像聚類算法;張潔琳等”提出基于Gromov-Wasserstein距離的3D圖形匹配方法,在保證精確率的前提下得到了較好的匹配率,但是利用傳統(tǒng)方法求解Wasserstein距離,過程較復雜。
綜上所述,本文基于Wasserstein度量的目標數(shù)據(jù)關聯(lián)算法,不僅將Wasserstein度量與深度神經(jīng)網(wǎng)絡結(jié)合,通過神經(jīng)網(wǎng)絡求解Wasserstein度量,還將Wasserstein度量應用于多目標跟蹤中的目標數(shù)據(jù)關聯(lián)問題,利用Wasserstein度量值衡量目標特征向量之間的相似度,實驗結(jié)果表明該方法可行,并且能有效解決多目標跟蹤中的漏檢問題。
1 算法原理
余弦距離是一種常用的計算向量相似度的度量方式。假設X1真和X2是兩個模為1的m維列向量,其計算公式為:
可以看出Wasserstein距離不但能衡量兩個分布之間的差異,更能反映分布的空間幾何性質(zhì)。本文對于檢測到的每個目標,均可提取目標表觀特征,表觀特征是一個特征向量,可將該特征向量視為一個高維空間中的分布。如果視頻前后幀中的目標匹配,則該分布相似;反之,分布不同。Wasserstein距離可以定量給巾兩個分布的相似度。但是特征向量的每一維均可正可負可為零,當某一維的值為負數(shù)時,則Wasserstein距離失去物理意義,無法直接利用公式計算Wasserstein距離,所以本文訓練一個深度網(wǎng)絡,利用該網(wǎng)絡計算Wasserstein距離。同時Wasserstein距離還可反映目標外觀匹配度,對于滿足外觀匹配度的目標再利用目標運動信息進一步篩選,最后利用迪杰斯特拉算法得到最佳目標數(shù)據(jù)關聯(lián)。
2 Wasserstein距離求解
通??紤]式(2)的等價形式進行Wasserstein距離求解。
以上證明過程說明式(6)的對偶形式與其本身具有相同的解,求原始問題的最小值轉(zhuǎn)化為求其對偶形式最大值問題,式(6)的對偶形式為:
從式(15)可以看出,當函數(shù)f(x)的梯度小于1時,梯度懲罰項為0;當函數(shù)f(x)梯度大于1時,存在梯度懲罰項。但是無法窮舉所有滿足條件的x求積分,僅保證從Ppenalty分布中取得的x、輸㈩值的梯度小于等于1即可,式(15)可轉(zhuǎn)化為式(16)。
3 模型訓練
3.1數(shù)據(jù)集制作
本文以文獻[13]在MOT16數(shù)據(jù)集上的目標檢測結(jié)果為基礎,利用文獻[6]對目標進行特征提取,使每個目標外觀特征向量維數(shù)均為128;然后,基于這些特征向量制作訓練深度網(wǎng)絡數(shù)據(jù)集。本文制作的訓練集數(shù)據(jù)共有110000個,其中正樣本有70000個,負樣本對共有40000個;正樣本label為0,負樣本label為1。正樣本代表兩個特征向量取自視頻前后幀中的同一個目標,負樣本代表兩個特征向量取自視頻前后幀中的不同目標。
3.2網(wǎng)絡結(jié)構
網(wǎng)絡訓練的目的是讓相同目標特征向量之間的Was-serstein距離盡可能小,不同目標特征向量之間的Wasser-stein距離盡可能大。網(wǎng)絡總體結(jié)構如圖1所示。
虛線框為網(wǎng)絡整體結(jié)構,稱之為f(x)網(wǎng)絡。從圖1可以看出f(x)由4個全連接層和3個ReLu層組成。輸人數(shù)據(jù)的維度為128,由于ReLu層不改變特征維度,經(jīng)過前3個全連接層(FC-1、FC-2、FC-3)之后特征向量維度相同,均為512維,經(jīng)過最后一個全連接層(FC-4)之后,輸出為一個值。xi為某個目標在當前視頻幀特征向量的輸入,經(jīng)過f(x)網(wǎng)絡后,得到f(xi)。
3.3損失函數(shù)
網(wǎng)絡損失函數(shù)為:
3.4網(wǎng)絡訓練
本文使用Pytorch作為訓練深度網(wǎng)絡的平臺,在Intel酷睿i7-4790八核處理器、24GB內(nèi)存的NVIDIA GeForceGTX TITAN X的計算機上進行訓練,每個epoch為128,初始學習率為1×e-6,訓練該深度網(wǎng)絡總共耗吋約48 h。
網(wǎng)絡模型訓練損失值的變化趨勢如圖2所示,從圖中可以看出隨著迭代次數(shù)的變化,模型損失值呈現(xiàn)不斷下降的趨勢,模型很快達到收斂,說明網(wǎng)絡具備學習能力。
4實驗結(jié)果與分析
前文已求出Wasserstein距離,該值代表目標表觀匹配度,為滿足表觀匹配度的目標,計算當前檢測與軌跡在卡爾曼濾波器預測位置之間的馬氏距離,并作進一步篩選。馬氏距離計算公式為:
其中dj代表當前幀中的第j個檢測目標,yi代表第i條軌跡在當前時刻的預測值,Si是軌跡由卡爾曼濾波器預測得到的在當前時刻觀測量的協(xié)方差矩陣。
本文使用MOT Benchmark文獻提供的指標評價多目標跟蹤性能,包括:實際不存在而預測為軌跡上的目標(FP);實際存在于軌跡上但是沒有被預測出來的目標(FN);跟蹤目標從一個軌跡轉(zhuǎn)換到另一個軌跡的次數(shù)(IDs);正確跟蹤軌跡占80%上的目標比率(MT);正確跟蹤軌跡占20%以下的比率(ML);多目標跟蹤準確度(MO-TA);多目標跟蹤的精確度(MOTP)。將3種跟蹤算法進行對比,結(jié)果如表1所示。
這3種算法在M0716數(shù)據(jù)集上進行跟蹤,文獻[5]和本文算法是使用文獻[13]的目標檢測結(jié)果,文獻[17]使用與本文不同的目標檢測結(jié)果,目標檢測置信度閾值是0.3。其中M07A、MOTP和MT 3項指標的值越大,表示跟蹤效果越好;ML、IDs、FN、FP的值越小,表示跟蹤性能越好。從表1可以看出,本文方法的MT、ML和FN 3項指標均優(yōu)于原始結(jié)果,MOTA和IDs兩項指標與原始結(jié)果相比有微小提升。
圖4為攝像機移動場景下的跟蹤結(jié)果,第1列(a)為文獻[5]的跟蹤結(jié)果,第2列(b)為本文算法的跟蹤結(jié)果。從檢測目標個數(shù)來看,本文算法檢測的目標個數(shù)多于文獻[5]的結(jié)果:在第19幀、第24幀中,文獻[5]檢測的目標個數(shù)分別為8個、6個;本文算法檢測的目標個數(shù)分別為11個、11個。圖4顯示,文獻[5]無法檢測出小目標,而本文數(shù)據(jù)關聯(lián)算法可檢測并關聯(lián)小目標,例如圖4(b)的17號、18號目標在圖4(a)中均無法檢測也無法關聯(lián)起來。
5結(jié)語
本文提出基于Wasserstein度量的目標數(shù)據(jù)關聯(lián)算法,利用Wasserstein距離的值衡量目標外觀特征向量匹配度,并把Wasserstein度量與深度網(wǎng)絡結(jié)合起來;對于滿足外觀匹配的目標,再利用目標運動匹配度進一步篩選。從目標跟蹤結(jié)果可以看出,本文把Wasserstein度量應用于多目標跟蹤中的目標數(shù)據(jù)關聯(lián)問題可行,并且能有效減少多目標跟蹤中漏檢目標個數(shù)。