張紅艷,黃宏博,2+,何嘉玉,劉亞輝,李 穎
(1.北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院,北京 100101;2.北京信息科技大學(xué) 計(jì)算智能研究所,北京 100192;3.北京信息科技大學(xué) 信息管理學(xué)院,北京 100192)
多目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要方向之一[1],目前的多目標(biāo)跟蹤算法主要是基于檢測(cè)的跟蹤。該類算法將目標(biāo)檢測(cè)和重識(shí)別作為兩個(gè)獨(dú)立的任務(wù)分開(kāi)進(jìn)行(也稱兩步法),即首先使用目標(biāo)檢測(cè)器來(lái)定位圖像中所有運(yùn)動(dòng)的對(duì)象并分別用邊界框標(biāo)記出來(lái),接著將目標(biāo)檢測(cè)框送入重識(shí)別(re-identification,ReID)網(wǎng)絡(luò),以提取判別性特征,最后通過(guò)關(guān)聯(lián)算法將每幀中各個(gè)目標(biāo)的邊界框連接起來(lái)形成多個(gè)目標(biāo)運(yùn)動(dòng)軌跡,如Deep SORT[2]。兩步法多目標(biāo)跟蹤可以分別為目標(biāo)檢測(cè)和重識(shí)別選擇最合適的模型,并且可以把檢測(cè)框調(diào)整到相同的大小,然后再提取重識(shí)別特征,這有助于處理目標(biāo)的尺度變化。因此,兩步法在公共數(shù)據(jù)集上取得了很好的性能。然而,由于目標(biāo)檢測(cè)和重新識(shí)別特征嵌入都需要大量的計(jì)算,且兩者之間沒(méi)有共享特征,跟蹤模型很難實(shí)現(xiàn)視頻幀率推斷。而單步雙分支多目標(biāo)跟蹤在單一網(wǎng)絡(luò)架構(gòu)中同時(shí)完成目標(biāo)檢測(cè)和重識(shí)別特征提取,通過(guò)共享大部分計(jì)算來(lái)減少推理時(shí)間,可以解決上述問(wèn)題,如JDE[3]。
在上述研究的基礎(chǔ)上,為了進(jìn)一步提高多目標(biāo)跟蹤精度,使用融合改進(jìn)注意力機(jī)制的深度聚合主干網(wǎng)絡(luò)[4]來(lái)提取共享特征,得到同時(shí)適用于檢測(cè)與重識(shí)別的判別性特征;然后將特征圖送入聯(lián)合訓(xùn)練的無(wú)錨框檢測(cè)與重識(shí)別兩個(gè)任務(wù)分支來(lái)預(yù)測(cè)目標(biāo)的位置以及得到外觀特征向量,提高了跟蹤的準(zhǔn)確度;最后使用簡(jiǎn)潔的卡爾曼濾波和匈牙利算法組合的方式進(jìn)行軌跡匹配與更新,提高算法跟蹤效率。
為了提高多目標(biāo)跟蹤的跟蹤準(zhǔn)確度,本文使用深層聚合網(wǎng)絡(luò)的改進(jìn)結(jié)構(gòu)作為主干網(wǎng)絡(luò),并融入改進(jìn)的通道注意力機(jī)制,以此來(lái)提取目標(biāo)特征,進(jìn)而將特征送入檢測(cè)分支和重識(shí)別分支,圖1為該階段的框架。
圖1 單步雙分支多目標(biāo)跟蹤網(wǎng)絡(luò)框架
在單步雙分支多目標(biāo)跟蹤中,特征共享網(wǎng)絡(luò)需要同時(shí)滿足后續(xù)的檢測(cè)和重識(shí)別特征提取兩個(gè)任務(wù)的需求:①具備多層特征聚合功能;②解決目標(biāo)尺度變化和形變問(wèn)題。
根據(jù)上述條件,設(shè)計(jì)如下方案:為了在準(zhǔn)確性和速度之間取得良好的平衡,使用深層聚合網(wǎng)絡(luò)(deep layer aggregation,DLA[5])改進(jìn)的DLA-34作為主干網(wǎng)絡(luò)。具體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其中,根據(jù)特征圖的分辨率不同,每個(gè)層次(Stage)由不同的基礎(chǔ)塊(BasicBlock)聚合而成。在原有結(jié)構(gòu)的基礎(chǔ)上,改進(jìn)后的網(wǎng)絡(luò)在低級(jí)特征和高級(jí)特征之間添加了更多的跳躍連接以此來(lái)滿足目標(biāo)檢測(cè)和重識(shí)別兩個(gè)分支(前者需要深度和抽象的特征來(lái)估計(jì)目標(biāo)的類別和位置,后者更注重使用低級(jí)的外觀特征來(lái)區(qū)分同一類的不同實(shí)例)使用不同深度特征圖的需求,同時(shí)使用可變形卷積代替上采樣模塊中的卷積層動(dòng)態(tài)調(diào)整感受野,解決目標(biāo)尺度變化和形變問(wèn)題。
注意力機(jī)制歸根結(jié)底是模仿人腦視覺(jué)信號(hào)處理機(jī)制獲取信息,即注意力只關(guān)注其本身認(rèn)為重點(diǎn)的信息,從而忽視或相對(duì)忽視其它方面的信息。改進(jìn)的DLA-34特征提取網(wǎng)絡(luò)僅關(guān)注特征圖的空間信息,忽略了特征通道間的相互依賴關(guān)系,從而使提取的特征不能準(zhǔn)確地代表目標(biāo)。SENet(squeeze-and-excitation networks)[6]是一種通道注意力機(jī)制,它可以學(xué)習(xí)特征通道之間的相互依賴關(guān)系,自動(dòng)實(shí)現(xiàn)特征通道之間的權(quán)重標(biāo)注,根據(jù)特征通道產(chǎn)生的效果大小賦予不同的權(quán)重值。該網(wǎng)絡(luò)包括Squeeze和Excitation兩部分。
1.2.1 Squeeze部分
傳統(tǒng)的卷積操作利用固定大小的卷積核進(jìn)行,導(dǎo)致輸出特征圖上的特征點(diǎn)無(wú)法利用卷積核區(qū)域以外的上下文信息。為了解決這個(gè)問(wèn)題,Squeeze網(wǎng)絡(luò)使用全局平均池化對(duì)每個(gè)特征通道進(jìn)行特征壓縮,將全局空間信息壓縮到一個(gè)特征通道描述符z∈Rc中。具體過(guò)程如下式所示
(1)
其中,F(xiàn)sq表示Squeeze操作,H表示輸入特征圖的高度,W表示輸入特征圖的寬度,zc表示特征通道描述符z的第c個(gè)元素,uc表示特征圖U的第c通道。由公式可以看出使用極簡(jiǎn)單的操作就可以實(shí)現(xiàn)全局信息的聚合,降低了計(jì)算量,提高了效率。
1.2.2 Excitation部分
為了利用上步操作中的全局平均池化信息,需要進(jìn)行第二步操作來(lái)標(biāo)注不同特征通道的權(quán)重。為了完成上述目標(biāo),需要設(shè)計(jì)滿足如下標(biāo)準(zhǔn)的函數(shù):第一,它必須具有靈活性,可以學(xué)習(xí)特征通道之間的非線性關(guān)系;第二,它必須學(xué)會(huì)構(gòu)造非互斥關(guān)系,因?yàn)樾枰鄠€(gè)特征通道并存,而不是類似于獨(dú)熱編碼那樣只允許一個(gè)通道存在。所以,Excitation網(wǎng)絡(luò)部分使用一個(gè)簡(jiǎn)單的門控機(jī)制和Sigmoid非線性激活函數(shù)來(lái)完成上述要求。具體實(shí)現(xiàn)過(guò)程如下式所示
s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z))
(2)
圖2 改進(jìn)的通道注意力機(jī)制
(3)
將該改進(jìn)網(wǎng)絡(luò)嵌入到特征共享網(wǎng)絡(luò)的基礎(chǔ)塊,充分學(xué)習(xí)特征通道之間的依賴關(guān)系,提取更具判別性的特征,以實(shí)現(xiàn)更好的跟蹤性能。
1.3.1 目標(biāo)檢測(cè)分支
目標(biāo)檢測(cè)按照表現(xiàn)形式可以分為無(wú)錨框和基于錨框的。但是基于錨框的目標(biāo)檢測(cè)一般采用非極大值抑制(NMS)進(jìn)行邊界框的棄留,所以通常會(huì)面臨如圖3(a)所示的問(wèn)題,即一個(gè)錨框包含多個(gè)目標(biāo)(左側(cè))或者一個(gè)目標(biāo)由多個(gè)錨框(右側(cè))表示,這樣容易導(dǎo)致特征提取歧義。針對(duì)這些問(wèn)題,借鑒文獻(xiàn)[7],本文擬采用無(wú)錨框的CenterNet目標(biāo)檢測(cè)器,將目標(biāo)檢測(cè)作為一個(gè)在高分辨率的特征圖上基于中心點(diǎn)的邊界框回歸任務(wù),將主干網(wǎng)絡(luò)輸出的特征圖作為輸入,輸出目標(biāo)在當(dāng)前幀的位置,以更好適應(yīng)跟蹤場(chǎng)景。
圖3 基于錨框與無(wú)錨框檢測(cè)效果
如圖1所示,在主干網(wǎng)絡(luò)上附加3個(gè)平行分支回歸頭來(lái)分別輸出目標(biāo)的熱力圖、目標(biāo)中心偏移量和邊界框大小。
(1)熱力圖分支
熱力圖分支采用基于熱力圖的表示方法估計(jì)目標(biāo)中心的位置,熱力圖的尺寸為1×H×W。 其實(shí)現(xiàn)思想是:如果熱力圖中某一位置與真實(shí)標(biāo)記目標(biāo)中心重合,其響應(yīng)預(yù)計(jì)為1,并且響應(yīng)隨著熱力圖中位置和目標(biāo)中心之間的距離越大呈指數(shù)衰減。
(4)
其次,通過(guò)劃分步長(zhǎng)得到其在特征圖上的對(duì)應(yīng)位置為
(5)
再次,在特征圖 (x,y) 位置處的熱力圖響應(yīng)計(jì)算為
(6)
其中,N表示圖像中目標(biāo)的數(shù)量,σc表示標(biāo)準(zhǔn)差。
最后,損失函數(shù)定義為焦點(diǎn)損失[8]的像素級(jí)邏輯回歸
(7)
(2)中心偏移和邊界框大小回歸分支
重識(shí)別特征需要根據(jù)精確的目標(biāo)中心來(lái)提取,然而由于特征圖的縮放步長(zhǎng)會(huì)引入量化誤差,所以該誤差對(duì)于跟蹤的影響比較大。中心偏移分支估計(jì)每個(gè)像素相對(duì)于對(duì)象中心的連續(xù)偏移,負(fù)責(zé)更精確地定位物體,以減輕下采樣的影響。邊界框大小回歸分支負(fù)責(zé)估計(jì)目標(biāo)邊界框的高度和寬度,該分支定位的精度會(huì)影響對(duì)目標(biāo)檢測(cè)性能的評(píng)估。
(8)
同樣,真實(shí)標(biāo)記框偏移量計(jì)算為
(9)
(10)
其中,N表示目標(biāo)數(shù)量。
1.3.2 重識(shí)別網(wǎng)絡(luò)分支
重識(shí)別網(wǎng)絡(luò)分支的目標(biāo)是提取能夠區(qū)分不同目標(biāo)的判別性特征。在同一空間維度中,同一物體之間的距離應(yīng)該遠(yuǎn)遠(yuǎn)小于不同物體之間的距離。為了達(dá)到上述目標(biāo),重識(shí)別分支使用128核的卷積層來(lái)提取特征圖上每個(gè)位置的重識(shí)別特征,進(jìn)而得到的特征映射E∈R128×W×H。 最后從特征圖中提取以 (x,y) 為中心的目標(biāo)的重識(shí)別特征Ex,y∈R128。
P={p(k),k∈[1,K]}
(11)
其中,K為總類別數(shù)。
定義Li(k) 為真實(shí)標(biāo)記框的類標(biāo)簽的獨(dú)熱編碼,重識(shí)別網(wǎng)絡(luò)的損失函數(shù)定義為
(12)
1.3.3 損失函數(shù)聯(lián)合訓(xùn)練
為了使檢測(cè)與重識(shí)別兩個(gè)分支同時(shí)得到充分學(xué)習(xí),采用聯(lián)合訓(xùn)練的方式,即不確定性損失[9]加權(quán)式(7)、式(10)和式(12),自動(dòng)平衡檢測(cè)與重識(shí)別任務(wù)
Ldetection=Lheat+Lbox
(13)
(14)
其中,w1和w2是平衡這兩項(xiàng)任務(wù)的可學(xué)習(xí)參數(shù)。
使用上述加權(quán)損失函數(shù)來(lái)訓(xùn)練整個(gè)網(wǎng)絡(luò)模型,以期達(dá)到魯棒的跟蹤性能。
在整個(gè)單步雙分支多目標(biāo)跟蹤中,數(shù)據(jù)關(guān)聯(lián)階段也是至關(guān)重要的一部分。該階段主要考慮如何使用檢測(cè)結(jié)果和身份嵌入信息來(lái)執(zhí)行后續(xù)跟蹤流程。為了實(shí)現(xiàn)實(shí)時(shí)在線跟蹤,本文使用卡爾曼濾波加匈牙利算法組合的方式實(shí)現(xiàn)幀間連接。首先,使用上文提到的無(wú)錨框目標(biāo)檢測(cè)器檢測(cè)目標(biāo),并對(duì)每個(gè)目標(biāo)初始化一個(gè)跟蹤器(ID號(hào))。然后計(jì)算當(dāng)前幀中的每個(gè)檢測(cè)目標(biāo)與上一幀的所有目標(biāo)軌跡之間的外觀余弦距離代價(jià)矩陣,接著計(jì)算卡爾曼濾波預(yù)測(cè)的每個(gè)軌跡的平均軌道位置和實(shí)際檢測(cè)框之間的平方馬氏距離代價(jià)矩陣。隨后將這兩個(gè)代價(jià)矩陣進(jìn)行加權(quán),并使用匈牙利算法以加權(quán)代價(jià)矩陣為輸入將檢測(cè)與軌跡進(jìn)行匹配,返回初步的匹配結(jié)果。對(duì)于未匹配的軌跡和檢測(cè),使用IOU距離作為代價(jià)矩陣輸入到匈牙利算法進(jìn)行匹配,得到最終的匹配結(jié)果。最后是軌跡更新和后續(xù)處理階段,使用卡爾曼濾波對(duì)軌跡進(jìn)行更新,并確定軌跡狀態(tài)是開(kāi)始還是終止。
1.4.1 卡爾曼濾波
卡爾曼濾波(Kalman)[10]是利用目標(biāo)的動(dòng)態(tài)信息進(jìn)行狀態(tài)估計(jì),在已知上一幀圖像的估計(jì)值及當(dāng)前幀圖像的觀測(cè)值的情況下,預(yù)測(cè)并更新目標(biāo)在當(dāng)前幀中可能出現(xiàn)的位置。通過(guò)對(duì)目標(biāo)位置進(jìn)行線性預(yù)測(cè)能夠解決一些復(fù)雜情況下的目標(biāo)漂移現(xiàn)象。所以其可以在無(wú)合適匹配檢測(cè)框的情況下,根據(jù)目標(biāo)狀態(tài)歷史信息線性預(yù)測(cè)目標(biāo)位置,為后續(xù)應(yīng)用匈牙利算法提供匹配信息。
1.4.2 匈牙利算法
解決卡爾曼濾波預(yù)測(cè)的運(yùn)動(dòng)狀態(tài)與目標(biāo)檢測(cè)之間的匹配的方法是把其看作分配問(wèn)題。常規(guī)做法是使用匈牙利算法[11]來(lái)求解分配問(wèn)題。匈牙利算法本質(zhì)上是在二分圖中尋找最大匹配。二分圖將無(wú)向圖的頂點(diǎn)劃分為兩個(gè)子集,并且這兩個(gè)子集互不相交,圖中每條邊的兩個(gè)頂點(diǎn)分別連接兩個(gè)子集且每?jī)蓷l邊之間沒(méi)有公共頂點(diǎn)。在視頻多目標(biāo)跟蹤中,由于同一幀圖像的不同檢測(cè)框不會(huì)是同一個(gè)目標(biāo)不需要互相關(guān)聯(lián)匹配,所以適合二分圖的應(yīng)用。連續(xù)兩幀圖像中的所有檢測(cè)邊界框可以看作二分圖的全部頂點(diǎn),前一幀圖像中全部邊界框作為一個(gè)集合,當(dāng)前幀圖像所有邊界框作為另一個(gè)集合。兩個(gè)集合之間需要相互連通,最終相鄰兩幀圖像的檢測(cè)邊界框被盡可能地連接起來(lái),實(shí)現(xiàn)最大匹配。本文通過(guò)結(jié)合運(yùn)動(dòng)信息和外觀信息以及IOU距離來(lái)實(shí)現(xiàn)匈牙利算法的匹配。
(1)外觀信息
(15)
其中,rj是第j個(gè)目標(biāo)檢測(cè)邊界框的外觀向量。
(2)運(yùn)動(dòng)信息
為了計(jì)算運(yùn)動(dòng)度量,使用卡爾曼濾波預(yù)測(cè)的運(yùn)動(dòng)狀態(tài)與目標(biāo)檢測(cè)結(jié)果之間的(平方)馬氏距離如式(16)所示
(16)
其中,dj表示第j個(gè)檢測(cè)的邊界框位置,yi表示第i個(gè)跟蹤器在當(dāng)前幀中的預(yù)測(cè)位置,Si表示檢測(cè)位置與平均跟蹤位置之間的協(xié)方差矩陣。即馬氏距離考慮狀態(tài)測(cè)量誤差的標(biāo)準(zhǔn)是計(jì)算檢測(cè)位置和平均跟蹤位置之間的標(biāo)準(zhǔn)差。
對(duì)于本文多目標(biāo)跟蹤中的數(shù)據(jù)關(guān)聯(lián),首先已完成了用單步雙分支聯(lián)合檢測(cè)與重識(shí)別網(wǎng)絡(luò)得到當(dāng)前幀圖像中的目標(biāo)邊界框的坐標(biāo)位置以及目標(biāo)的外觀特征向量,然后計(jì)算已有軌跡與當(dāng)前幀中檢測(cè)結(jié)果外觀向量的最小余弦距離,接著使用卡爾曼濾波根據(jù)上一幀圖像的跟蹤結(jié)果完成了當(dāng)前幀中目標(biāo)位置的預(yù)測(cè),進(jìn)而計(jì)算目標(biāo)位置預(yù)測(cè)與當(dāng)前幀檢測(cè)之間的馬氏距離,最后利用余弦距離和馬氏距離加權(quán)構(gòu)造關(guān)聯(lián)矩陣,表達(dá)式如下
ci,j=λd(1)(i,j)+(1-λ)d(2)(i,j)
(17)
其中,λ為權(quán)重系數(shù),負(fù)責(zé)控制外觀度量與運(yùn)動(dòng)度量所占的比重,為匈牙利算法提供更準(zhǔn)確的匹配矩陣。
(3)IOU距離
使用匈牙利算法將加權(quán)代價(jià)矩陣作為輸入,將軌跡與檢測(cè)進(jìn)行匹配,得到初步的多目標(biāo)跟蹤匹配成功結(jié)果以及沒(méi)有匹配上的檢測(cè)與軌跡。然后計(jì)算未匹配的檢測(cè)與未匹配的軌跡之間的IOU距離作為新的代價(jià)矩陣,并將其輸入到匈牙利算法進(jìn)行匹配,再次得到匹配結(jié)果以及未匹配的檢測(cè)和軌跡。進(jìn)而使用卡爾曼濾波更新軌跡狀態(tài),并確定未匹配的軌跡與檢測(cè)的狀態(tài)。其具體確定流程如下:對(duì)于每個(gè)軌跡,設(shè)置一個(gè)計(jì)數(shù)器。在沒(méi)有合適檢測(cè)框匹配的時(shí)間段內(nèi),卡爾曼濾波將持續(xù)預(yù)測(cè),計(jì)數(shù)器的數(shù)字在預(yù)測(cè)期間持續(xù)增大,直到軌跡與檢測(cè)相關(guān)聯(lián)時(shí)重置為0。當(dāng)計(jì)數(shù)器增大到最大閾值時(shí),認(rèn)為該目標(biāo)離開(kāi)場(chǎng)景并從軌跡設(shè)置中刪除。對(duì)于不能與現(xiàn)有軌跡相關(guān)聯(lián)的每一個(gè)檢測(cè),都啟動(dòng)一個(gè)新的軌跡假設(shè)(即假定新目標(biāo)軌跡開(kāi)始)。這些新的軌跡在它們出現(xiàn)的前三幀中被監(jiān)督。在這段時(shí)間內(nèi),沒(méi)有成功關(guān)聯(lián)到新檢測(cè)的軌跡將被刪除(目標(biāo)離開(kāi)了畫(huà)面),反之,則被確定軌跡狀態(tài)并分配新的ID號(hào)。
使用的操作系統(tǒng)為Ubuntu 16.04.7,CPU為Intel(R) Core(TM) i9-9820X CPU @ 3.30 GHz,內(nèi)存為32 GB;GPU為兩塊TITAN RTX,每塊TITAN RTX的顯存是24 GB。
實(shí)驗(yàn)采用多目標(biāo)跟蹤綜合評(píng)價(jià)指標(biāo)[12]多目標(biāo)跟蹤準(zhǔn)確度(MOTA)、多目標(biāo)跟蹤精確度(MOTP)、成功跟蹤的目標(biāo)軌跡占真實(shí)標(biāo)注目標(biāo)軌跡比例(MT)、丟失的目標(biāo)軌跡占真實(shí)標(biāo)注目標(biāo)軌跡比例(ML)、誤檢目標(biāo)總數(shù)(FP)和漏檢目標(biāo)總數(shù)(FN)以及身份切換次數(shù)(IDs)進(jìn)行結(jié)果分析,其中前3種指標(biāo)表示數(shù)值越大跟蹤性能越好,而后4種指標(biāo)表示數(shù)值越小跟蹤性能越好。
為了保持整個(gè)訓(xùn)練過(guò)程的簡(jiǎn)潔性以及與其它算法對(duì)比的公平性,本文不使用其它額外數(shù)據(jù)集,僅使用多目標(biāo)跟蹤挑戰(zhàn)(MOT challenge)官網(wǎng)提供的2D MOT2015數(shù)據(jù)集[13]進(jìn)行訓(xùn)練以及測(cè)試。2D MOT 2015數(shù)據(jù)集收集在固定或移動(dòng)攝像機(jī)拍攝、不同的環(huán)境和照明條件等情況下的各類視頻,包含22個(gè)視頻序列,分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集兩部分,每部分都各有11個(gè)視頻序列。其中,訓(xùn)練數(shù)據(jù)集提供了真實(shí)標(biāo)注,測(cè)試數(shù)據(jù)集沒(méi)有提供真實(shí)標(biāo)注。所以,本文將上述訓(xùn)練數(shù)據(jù)集劃分為訓(xùn)練集和驗(yàn)證集以驗(yàn)證本文提出的算法性能,具體的劃分情況見(jiàn)表1。
表1 2D MOT 2015訓(xùn)練數(shù)據(jù)集的劃分
本文提出的添加改進(jìn)注意力機(jī)制與沒(méi)改進(jìn)之前的對(duì)比實(shí)驗(yàn)見(jiàn)表2。其中,“DLA-34”表示未融合注意力機(jī)制的單步雙分支多目標(biāo)跟蹤算法,“Se-DLA-34”表示加入原始SENet的單步雙分支多目標(biāo)跟蹤,“Ours”表示本文提出的算法。由表2可以發(fā)現(xiàn),融合注意力機(jī)制的多目標(biāo)跟蹤算法比未添加的跟蹤算法跟蹤性能有了明顯提升,其中MOTA提升了1.9%,F(xiàn)P和IDs都有明顯下降。而本文改進(jìn)的通道注意力機(jī)制更是發(fā)揮了巨大的作用,相對(duì)于原始的跟蹤算法,其MOTA提高了2.7%,說(shuō)明在降低計(jì)算參數(shù)量的同時(shí),使模型更容易訓(xùn)練,避免陷入局部最優(yōu)。更進(jìn)一步說(shuō)明了提出的融合改進(jìn)的通道注意力的單步雙分支多目標(biāo)跟蹤更加適合多目標(biāo)跟蹤場(chǎng)景。
表2 驗(yàn)證集上的對(duì)比實(shí)驗(yàn)
在驗(yàn)證集上驗(yàn)證本文提出的算法有效后,接著使用2D MOT 2015中的全部訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,然后將測(cè)試結(jié)果提交MOT Benchmark進(jìn)行跟蹤性能測(cè)評(píng),并與其它4種在線的使用私有檢測(cè)器的多目標(biāo)跟蹤器CDA-DDAL[14]、HFRN[15]、Tracktor++[16]和IFMOT[17]進(jìn)行對(duì)比,見(jiàn)表3。
表3 各類算法在2D MOT 2015測(cè)試數(shù)據(jù)集的結(jié)果
從表3可知,本文的算法在MOTA和MOTP上實(shí)現(xiàn)了最好的性能,且MOTA得分比位于第二位的CDA-DDAL算法高3.8%。并且丟失的目標(biāo)軌跡占真實(shí)目標(biāo)軌跡比例以及漏檢的數(shù)目最少,在單塊TITAN RTX上以28.6 FPS的速度運(yùn)行。上述結(jié)果驗(yàn)證了本文提出的融合改進(jìn)注意力機(jī)制的單步雙分支多目標(biāo)跟蹤算法具有較高的多目標(biāo)跟蹤準(zhǔn)確度和精確度,并且可以有效解決目標(biāo)的遮擋問(wèn)題導(dǎo)致的軌跡丟失以及身份切換問(wèn)題。
為直觀體現(xiàn)本文提出的跟蹤算法的跟蹤效果,從測(cè)試數(shù)據(jù)集TUD-Crossing中選擇3幀視頻圖像來(lái)定性分析說(shuō)明,其中第一行是第36幀行人遮擋發(fā)生前;第二行是第47幀行人遮擋正在發(fā)生,最右側(cè)的兩個(gè)行人發(fā)生了遮擋與被遮擋;第三行是第56幀遮擋結(jié)束。圖4顯示了本文跟蹤算法與其它4種跟蹤算法的跟蹤性能對(duì)比結(jié)果。由圖4可以看出,本文的算法在遮擋前后的目標(biāo)檢測(cè)以及身份號(hào)保持都有不錯(cuò)的效果;而CDA-DDAL算法雖然身份號(hào)保持不錯(cuò),但是在第47幀發(fā)生了明顯的漏檢;HFRN在第36幀有目標(biāo)漏檢;Tracktor++不僅在第36幀和47幀有漏檢,而且還發(fā)生了明顯的身份號(hào)切換;IFMOT在3幀圖像中均出現(xiàn)了漏檢現(xiàn)象,并且還伴隨著遮擋前后的身份號(hào)切換,跟蹤準(zhǔn)確度較低。結(jié)果表明,本文提出的算法在應(yīng)對(duì)遮擋時(shí)能保持不錯(cuò)的跟蹤性能,并且擁有魯棒的檢測(cè)性能。
圖4 5種算法跟蹤結(jié)果
為了在實(shí)現(xiàn)實(shí)時(shí)多目標(biāo)跟蹤的同時(shí)進(jìn)一步提高多目標(biāo)跟蹤精度、減少身份切換次數(shù),本文提出了一種融合注意力機(jī)制的單步雙分支多目標(biāo)跟蹤算法。在聯(lián)合檢測(cè)與重識(shí)別網(wǎng)絡(luò)框架的基礎(chǔ)上,添加改進(jìn)的通道注意力機(jī)制,使模型學(xué)習(xí)到更豐富更具判別性的特征,提高了目標(biāo)檢測(cè)器的精度,同時(shí)有效解決了由于遮擋問(wèn)題引起的身份切換次數(shù)增加的問(wèn)題。為了進(jìn)一步提高跟蹤速度,在數(shù)據(jù)關(guān)聯(lián)階段使用卡爾曼濾波加匈牙利算法的組合方法并利用了運(yùn)動(dòng)信息、外觀信息以及IOU信息,實(shí)現(xiàn)了快速、準(zhǔn)確的跟蹤。從實(shí)驗(yàn)結(jié)果可以看出,本文提出的算法在遮擋以及目標(biāo)形變的復(fù)雜環(huán)境下,都可以實(shí)現(xiàn)不錯(cuò)的跟蹤性能。