張文利,辛宜桃,楊 堃,陳開臻,趙庭松
(北京工業(yè)大學(xué) 信息學(xué)部,北京 100124)
近年來,基于深度學(xué)習(xí)的計算機(jī)視覺應(yīng)用快速發(fā)展,多目標(biāo)跟蹤領(lǐng)域作為重要的研究方向之一,其在視頻監(jiān)控、智能安防、智慧建筑等領(lǐng)域[1-3]有非常廣泛的應(yīng)用。多目標(biāo)跟蹤主要是對場景中各個目標(biāo)進(jìn)行定位,隨后基于時序上下文信息實現(xiàn)目標(biāo)之間的關(guān)聯(lián)匹配,形成各個目標(biāo)的跟蹤軌跡。雖然近年來多目標(biāo)跟蹤領(lǐng)域取得了很大成果,但是實際場景中目標(biāo)之間的遮擋、背景雜亂問題使得該領(lǐng)域仍然面臨挑戰(zhàn)。
目前有許多研究人員對多目標(biāo)跟蹤算法進(jìn)行研究,部分研究人員[4-5]采用錨框的方式定位目標(biāo),即從預(yù)先設(shè)置的多個錨框篩選出置信度最大的錨框,然后回歸定位場景中的各個目標(biāo),因此將此類算法統(tǒng)稱為Anchor-based多目標(biāo)跟蹤算法。
但是,Anchor-based多目標(biāo)跟蹤算法存在未解決的問題,當(dāng)場景中目標(biāo)聚集時,由于設(shè)置了多個錨框,導(dǎo)致一個錨框?qū)?yīng)多個目標(biāo)或多個錨框?qū)?yīng)一個目標(biāo),從而產(chǎn)生錯誤的目標(biāo)位置,降低了多目標(biāo)跟蹤算法的準(zhǔn)確性。因此,有研究人員[6-7]提出采用Anchor-free多目標(biāo)跟蹤算法跟蹤場景中的各個目標(biāo),即拋棄復(fù)雜的錨框設(shè)置,通過特征圖直接區(qū)分目標(biāo)和背景,并回歸邊界框以獲取目標(biāo)的位置。
盡管Anchor-free多目標(biāo)跟蹤算法降低了目標(biāo)定位和特征表示的歧義性,可以比較準(zhǔn)確地區(qū)分密集場景下的各個目標(biāo),但實際場景中目標(biāo)間的相互遮擋仍是多目標(biāo)跟蹤算法面臨的重大挑戰(zhàn)。目前,有研究人員提出一些改進(jìn)的多目標(biāo)跟蹤算法以提高算法在遮擋情況下的準(zhǔn)確性。左國才等[8]通過引入注意力加權(quán)機(jī)制,設(shè)計了基于VGG16網(wǎng)絡(luò)抗遮擋的多目標(biāo)跟蹤模型,使模型更加關(guān)注對運(yùn)動目標(biāo)有用的正樣本信息,解決了多目標(biāo)跟蹤過程中目標(biāo)相互遮擋而導(dǎo)致的跟蹤漂移問題;劉金文等[9]通過檢測器對場景中的目標(biāo)進(jìn)行定位,并使用CNN(Convolutional Neural Network,卷積神經(jīng)網(wǎng)絡(luò))估計場景的人群密度圖,用于修正檢測器的定位結(jié)果,從而解決遮擋情況下多目標(biāo)跟蹤算法定位精度差的問題;周志海等[10]采用了區(qū)域質(zhì)量的評估網(wǎng)絡(luò)技術(shù),再聯(lián)合多幀的檢測結(jié)果,用加權(quán)的形式恢復(fù)被遮擋部分,提高跟蹤結(jié)果的準(zhǔn)確率。上述算法雖然有效提高了遮擋情況下目標(biāo)的定位精度,但沒有判斷目標(biāo)間的遮擋情況與保存被遮擋目標(biāo)的身份信息,這使得遮擋消失后重新出現(xiàn)的目標(biāo)的身份信息發(fā)生錯誤切換,降低了多目標(biāo)跟蹤算法的準(zhǔn)確性。
目前,有許多研究人員提出了遮擋判斷方法來確定目標(biāo)的遮擋狀態(tài)。依據(jù)遮擋判斷方法使用的輸入圖像,可將遮擋判斷方法分為基于RGB圖像的遮擋判斷方法和基于RGB-D圖像的遮擋判斷方法。
① 基于RGB圖像的遮擋判斷方法。An等[11]利用CNN分別提取檢測目標(biāo)特征與模板目標(biāo)特征,根據(jù)檢測目標(biāo)與模板目標(biāo)之間的IoU(Intersection-Over-Union)和檢測目標(biāo)特征與模板目標(biāo)特征的相似度得分判斷目標(biāo)的遮擋狀態(tài)。但是基于CNN的方法對于圖像的有效感受野小于理論感受野[12],僅利用了輸入圖像的局部空間特征做遮擋判斷,導(dǎo)致密集場景下遮擋判斷任務(wù)的精度較差。就遮擋判斷任務(wù)而言,可以依據(jù)場景中目標(biāo)之間的空間位置關(guān)系將目標(biāo)之間的狀態(tài)分類為遮擋狀態(tài)與未遮擋狀態(tài),Transformer模型作為自然語言處理領(lǐng)域的主流模型,最近有研究人員[13]將其遷移至圖像分類領(lǐng)域并取得了良好效果。Transformer模型通過空間等分將輸入序列切分為多個尺寸相同的子區(qū)域,充分利用了輸入圖像的全局空間位置關(guān)系,有利于判斷目標(biāo)之間的遮擋狀態(tài)。
② 基于RGB-D圖像的遮擋判斷方法。深度圖像可以較好地反映目標(biāo)的深度距離信息和邊緣輪廓信息,可以輔助RGB圖像更好地完成遮擋判斷任務(wù)。Luiten等[14]通過分割網(wǎng)絡(luò)得到目標(biāo)區(qū)域的分割掩碼,并利用分割掩碼內(nèi)各點(diǎn)的深度值確定掩碼區(qū)域的有效性,隨后將掩碼區(qū)域映射到三維世界坐標(biāo),通過判斷掩碼的三維點(diǎn)和預(yù)估的三維邊界框的位置關(guān)系判斷目標(biāo)的遮擋狀態(tài),但是該方法需要三維場景重構(gòu),導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜且需要大量的計算資源。
因此提出了一種基于改進(jìn)的Transformer加Anchor-free網(wǎng)絡(luò)的多目標(biāo)跟蹤算法TransAnfMOT(Transformer-Anchor-free-MOT),該算法可以有效解決目標(biāo)遮擋引起的身份信息切換問題,提升多目標(biāo)跟蹤算法的穩(wěn)定性和準(zhǔn)確性。所提的算法具有以下創(chuàng)新點(diǎn):
① 針對輸入信息無法被有效利用從而導(dǎo)致遮擋判斷方法精度低的問題,提出RGB-D特征融合方法提高Transformer模型判斷遮擋情況的精度。通過跨層特征融合(Cross-Layer Feature Fusion)方法和注意力機(jī)制(Convolutional Block Attention Module,CBAM)對RGB圖像和Depth圖像進(jìn)行特征融合以獲取高質(zhì)量的RGB-D特征,之后通過Transformer分類模型判斷目標(biāo)的遮擋狀態(tài),提高遮擋判斷任務(wù)的精度。
② 針對密集場景下目標(biāo)遮擋導(dǎo)致身份信息變化的問題,設(shè)計了基于搜索區(qū)域和外觀特征的身份信息恢復(fù)策略對遮擋消失后重新出現(xiàn)的目標(biāo)繼續(xù)跟蹤,減少被遮擋目標(biāo)的軌跡斷連次數(shù),從而提升目標(biāo)跟蹤軌跡質(zhì)量。
在前期研究中,為了解決目標(biāo)軌跡偏移和中斷問題,提出了AD-SiamMOT-RGB-D[15]多目標(biāo)跟蹤算法,該算法首先將輸入序列切分為多個視頻子序列,對每個子序列進(jìn)行軌跡生成和軌跡分析。其中在軌跡生成模塊中,使用YOLOv3目標(biāo)檢測器對視頻子序列的第1幀中的目標(biāo)進(jìn)行定位,之后用非對稱Siamese網(wǎng)絡(luò)跟蹤器對視頻序列的剩余幀中的各個目標(biāo)進(jìn)行跟蹤,最后在軌跡分析模塊中使用匈牙利匹配算法連接各個視頻子序列的目標(biāo)軌跡,以此生成多條目標(biāo)跟蹤軌跡。該算法在特定的時間內(nèi)使用單目標(biāo)跟蹤輔助多目標(biāo)跟蹤,同時通過判斷目標(biāo)軌跡質(zhì)量確定目標(biāo)的跟蹤軌跡,在一定程度上緩解了遮擋情況引起的目標(biāo)身份信息丟失問題,而單目標(biāo)跟蹤算法的引入使多目標(biāo)跟蹤的速度受到影響。筆者以CenterTrack算法[6]為基礎(chǔ)模型,提出了一種基于改進(jìn)的Transformer加Anchor-free網(wǎng)絡(luò)的多目標(biāo)跟蹤算法TransAnfMOT。
所提算法TransAnfMOT的整體結(jié)構(gòu)如圖1所示。整個算法以RGB圖像和Depth圖像作為輸入,首先將RGB圖像輸入至目標(biāo)檢測模塊,獲取當(dāng)前幀中各個目標(biāo)的位置信息;其次關(guān)聯(lián)匹配模塊通過貪婪匹配對當(dāng)前幀各個目標(biāo)的檢測結(jié)果以及上一幀圖像中各個目標(biāo)的跟蹤結(jié)果進(jìn)行關(guān)聯(lián),獲得關(guān)聯(lián)成功的結(jié)果和關(guān)聯(lián)失敗的結(jié)果,其中關(guān)聯(lián)失敗的結(jié)果包括未匹配的檢測結(jié)果和未匹配的跟蹤結(jié)果;之后遮擋恢復(fù)模塊對關(guān)聯(lián)匹配結(jié)果分別進(jìn)行處理,得到當(dāng)前幀各個目標(biāo)的跟蹤結(jié)果,獲取多條目標(biāo)跟蹤軌跡。然后利用當(dāng)前幀各個目標(biāo)的跟蹤結(jié)果篩選出可能發(fā)生遮擋情況的相鄰目標(biāo),通過RGB-D相鄰目標(biāo)裁剪模塊裁剪相鄰目標(biāo)對應(yīng)的RGB圖像和Depth圖像,并將裁剪后的RGB圖像和Depth圖像輸入至遮擋判斷模塊,判斷目標(biāo)之間的遮擋狀態(tài),若目標(biāo)之間處于遮擋狀態(tài),則保存被遮擋目標(biāo)的跟蹤信息。
圖1 基于改進(jìn)的Transformer加Anchor-free網(wǎng)絡(luò)的多目標(biāo)跟蹤算法整體結(jié)構(gòu)
由于目標(biāo)之間的遮擋經(jīng)常導(dǎo)致被遮擋目標(biāo)的身份信息頻繁切換,因此需要準(zhǔn)確地判斷目標(biāo)的遮擋狀態(tài)并設(shè)置良好的恢復(fù)策略。根據(jù)目標(biāo)之間的空間位置關(guān)系,可以將目標(biāo)之間的狀態(tài)劃分為遮擋狀態(tài)與未遮擋狀態(tài),因此對目標(biāo)之間空間關(guān)系的充分利用至關(guān)重要。而Transformer模型通過對輸入數(shù)據(jù)進(jìn)行空間等分操作,充分發(fā)揮了輸入數(shù)據(jù)中全局空間關(guān)系的作用,有利于完成遮擋判斷的分類任務(wù)?,F(xiàn)有的Transformer模型利用RGB圖像作為輸入數(shù)據(jù),雖然可以有效區(qū)分外觀特征明顯不同的目標(biāo)之間的遮擋狀態(tài),但是難以應(yīng)對場景中目標(biāo)外觀特征相似、位置距離相近的情況。
為解決上述問題,設(shè)計了一種基于跨層融合和注意力機(jī)制的遮擋判斷模塊。該模塊通過CFF模塊和CBAM模塊實現(xiàn)RGB圖像特征和Depth圖像特征的有效融合,獲取高質(zhì)量的RGB-D圖像特征,之后通過Transformer模型判斷目標(biāo)之間的遮擋狀態(tài)。在獲取到當(dāng)前幀的各個目標(biāo)跟蹤結(jié)果后,通過各個目標(biāo)位置之間的歐式距離以及IoU篩選出可能發(fā)生遮擋情況的相鄰目標(biāo),將保留下來的相鄰目標(biāo)對應(yīng)的RGB圖像和Depth圖像進(jìn)行裁剪,作為遮擋判斷模塊的輸入。遮擋判斷模塊的流程如圖2所示,具體步驟如下。
圖2 基于跨層融合和注意力機(jī)制的遮擋判斷
(1)以RGB圖像和Depth圖像作為輸入,對二者進(jìn)行通道合并操作。
(2)設(shè)計CFF模塊得到融合后的RGB-D圖像特征。首先通過兩層卷積網(wǎng)絡(luò)Conv1、Conv2增強(qiáng)RGB圖像和Depth圖像之間的輸入信息相關(guān),然后對卷積網(wǎng)絡(luò)Conv1和Conv2輸出的特征進(jìn)行通道合并操作,獲取更加豐富的特征表達(dá),其中卷積網(wǎng)絡(luò)Conv1、Conv2均由卷積核為7*7、填充為3的卷積層和ReLU激活層組成。
(3)利用CBAM模塊提取RGB-D圖像特征中的目標(biāo)語義信息和目標(biāo)空間位置信息,獲取高質(zhì)量的RGB-D特征。通道注意力和空間注意力的計算公式為
(1)
(2)
(4)將融合后的RGB-D特征進(jìn)行空間等分操作,充分利用輸入RGB-D特征的全局信息,隨后通過Transformer遮擋判斷模塊對目標(biāo)之間的遮擋狀態(tài)進(jìn)行判斷,若目標(biāo)之間發(fā)生遮擋,則將深度距離大的目標(biāo)記為被遮擋目標(biāo),并保存其跟蹤信息(包括被遮擋目標(biāo)位置信息、被遮擋目標(biāo)外觀特征信息、被遮擋目標(biāo)身份信息),隨后將跟蹤信息輸出至遮擋恢復(fù)模塊;若目標(biāo)之間未發(fā)生遮擋,則不進(jìn)行任何操作,直接進(jìn)入遮擋恢復(fù)模塊。其中,Transformer遮擋判斷模塊主要包括以下部分。
① 圖像特征預(yù)處理。首先通過空間等分操作得到多個大小相同的RGB-D圖像特征塊,之后對每個圖像特征進(jìn)行線性變換,以降低圖像特征維度。隨后,使用一維的Position Embedding對圖像特征塊的位置信息進(jìn)行編碼,同時,通過Class Token的處理,可以從Transformer編碼器的輸出獲取圖像特征,進(jìn)而實現(xiàn)對圖像的分類。其中,Position Embedding的設(shè)置與圖像特征塊的數(shù)量和維度有關(guān)。
② Transformer編碼器處理。Transformer編碼器包括12層編碼塊,每一層編碼塊主要包括多頭自注意力(Multi-Head Attention,MHA)模塊和多層感知器(Multi-Layer Perceptron Neuralnetworks,MHP)模塊。輸入特征在MHA模塊和MHP模塊的計算過程分別為
(3)
(4)
式中:LN代表卷積層歸一化處理。
Transformer編碼器的結(jié)構(gòu)如圖3所示。
圖3 Transformer編碼器的結(jié)構(gòu)
③ 目標(biāo)類別判斷。該模型根據(jù)Transformer編碼器輸出的特征,輸入至分類器中判斷目標(biāo)間的遮擋狀態(tài)。在實際場景中,可以根據(jù)目標(biāo)之間的位置距離關(guān)系,將目標(biāo)間的遮擋狀態(tài)分為兩種:目標(biāo)遮擋狀態(tài)、目標(biāo)未遮擋狀態(tài)。
為了直觀展示Transformer的功能與效果,對多頭注意力進(jìn)行了可視化,可視化結(jié)果如圖4所示。
圖4 Transformer多頭注意力可視化結(jié)果
由圖4可以看到,Transformer模型對輸入圖像的不同區(qū)域分配了不同權(quán)重的注意力,紅色黃色區(qū)域代表Transformer模型分配的注意力權(quán)重較大,藍(lán)色紫色區(qū)域代表Transformer模型分配的注意力權(quán)重較小。其中,與遮擋分類任務(wù)相關(guān)的目標(biāo)區(qū)域獲得了較大權(quán)重的注意力,與遮擋分類任務(wù)無關(guān)的背景區(qū)域獲得了更小權(quán)重的注意力,這表明Transformer模型的多頭注意力有效提取了對遮擋分類任務(wù)最有幫助的目標(biāo)區(qū)域的特征,進(jìn)而準(zhǔn)確完成目標(biāo)遮擋狀態(tài)的分類任務(wù)。
在目標(biāo)人員運(yùn)動過程中,經(jīng)常發(fā)生目標(biāo)間的相互遮擋情況,導(dǎo)致被遮擋目標(biāo)短暫消失在視野中,其身份信息會被多目標(biāo)跟蹤算法消除,當(dāng)消失的目標(biāo)重新出現(xiàn)后,會被賦予新的身份信息,從而造成目標(biāo)軌跡斷連。筆者提出基于搜索區(qū)域和外觀特征距離的遮擋恢復(fù)模塊,對遮擋消失后重新出現(xiàn)的目標(biāo)繼續(xù)跟蹤,提升目標(biāo)跟蹤軌跡的穩(wěn)定性和準(zhǔn)確性。
遮擋恢復(fù)模塊流程如圖5所示,其具體步驟如下。
圖5 基于搜索區(qū)域和外觀特征距離的遮擋恢復(fù)
① 獲取關(guān)聯(lián)匹配模塊的結(jié)果(包括匹配成功的目標(biāo)、未匹配的跟蹤目標(biāo)、未匹配的檢測目標(biāo))和遮擋判斷模塊的結(jié)果(包括被遮擋目標(biāo)位置信息、被遮擋目標(biāo)外觀特征信息、被遮擋目標(biāo)身份信息)。
② 對于匹配成功的目標(biāo),將互相匹配的跟蹤目標(biāo)的身份信息設(shè)置為檢測目標(biāo)的身份信息,之后將包含身份信息的檢測目標(biāo)添加至跟蹤結(jié)果中。
③ 對于未匹配的跟蹤目標(biāo),通過比較未匹配的跟蹤目標(biāo)身份信息與被遮擋目標(biāo)的身份信息,若二者身份信息相同,則表明未匹配的跟蹤目標(biāo)中存在被遮擋的目標(biāo),因此設(shè)置被遮擋目標(biāo)標(biāo)志,包含被遮擋目標(biāo)搜索區(qū)域、被遮擋目標(biāo)外觀特征信息、被遮擋目標(biāo)身份信息。將目標(biāo)消失之前的跟蹤位置作為搜索區(qū)域以捕獲重新出現(xiàn)的目標(biāo)。
④ 對于未匹配的檢測目標(biāo),若被遮擋目標(biāo)標(biāo)志存在,則計算檢測目標(biāo)的邊界框的中心點(diǎn),若被遮擋目標(biāo)搜索區(qū)域內(nèi)包含檢測目標(biāo)的中心點(diǎn),則計算被遮擋目標(biāo)的外觀特征與未匹配的檢測目標(biāo)的外觀特征之間的余弦距離,計算公式為
dis=cos(Freid1,Freid2)
(5)
式中:dis為兩個目標(biāo)的外觀特征Freid1、Freid2間的距離;Freid1為目標(biāo)1的外觀特征;Freid2為目標(biāo)2的外觀特征。目標(biāo)之間外觀特征的余弦距離越大,代表兩個目標(biāo)是同一目標(biāo)的可能性越大。若目標(biāo)的外觀特征之間的余弦距離大于預(yù)先設(shè)定的閾值,則將被遮擋目標(biāo)的身份信息賦給未匹配的檢測目標(biāo)身份信息,保證二者的身份信息相同,恢復(fù)對同一目標(biāo)的持續(xù)跟蹤。
2.1.1 硬件設(shè)備
提出的改進(jìn)的多目標(biāo)跟蹤算法TransAnfMOT是基于PyTorch框架完成的,所用的計算機(jī)環(huán)境配有GeForce GTX 3090型號GPU、Intel i7 8th型號CPU。
2.1.2 數(shù)據(jù)集
在3個公共數(shù)據(jù)集(MICC數(shù)據(jù)集[16]、EPFL數(shù)據(jù)集[17]、UM數(shù)據(jù)集[18])進(jìn)行實驗,這些數(shù)據(jù)集包括了不同程度的人員密集、人員遮擋情況,具有較大的挑戰(zhàn)性。
MICC數(shù)據(jù)集包括Flow、Groups和Queue序列,這些序列均由固定拍攝角度的RGB-D相機(jī)拍攝,分別模擬了實驗室場景中人員雙向流動、人員聚集、人員順序排隊的運(yùn)動情況。
EPFL數(shù)據(jù)集包括EPFL-LAB序列和EPFL-CORRIDOR(EPFL)序列。其中,EPFL-LAB序列由架設(shè)在實驗室場景下的RGB-D相機(jī)拍攝;EPFL序列由架設(shè)在室內(nèi)走廊場景下的RGB-D相機(jī)拍攝,這些序列包括人員交替前進(jìn)的運(yùn)動情況,并且場景中人員數(shù)量較多,人員遮擋情況嚴(yán)重,具有很大的挑戰(zhàn)性。
UM數(shù)據(jù)集包括4條視頻序列,它們由架設(shè)在實驗室場景下的RGB-D相機(jī)拍攝,包括了不同程度的人員遮擋情況。
從MICC數(shù)據(jù)集選取了3363對RGB-D圖像、從EPFL數(shù)據(jù)集選取了4190對RGB-D圖像以及從UM數(shù)據(jù)集選取了2662對RGB-D圖像用于實驗。根據(jù)7∶3的比例對10215對RGB-D圖像進(jìn)行劃分,7148對圖像用于算法訓(xùn)練,3067對圖像用于算法測試。其中,訓(xùn)練數(shù)據(jù)集包括Flow序列、EPFL2-EPFL5序列和UM_Scene1、UM_Scene2序列,測試數(shù)據(jù)集包括Groups序列、Queue序列、EPFL1序列。在訓(xùn)練基于CFF和CBAM的遮擋判斷模塊時,將距離較遠(yuǎn)的目標(biāo)設(shè)置為未遮擋狀態(tài),將距離較近且目標(biāo)之間有重疊的目標(biāo)設(shè)置為遮擋狀態(tài)。
2.1.3 評價指標(biāo)
① 為驗證所提遮擋判斷模塊的有效性,使用分類精度(Accuracy)評估模塊的性能。該指標(biāo)是指正確預(yù)測的目標(biāo)數(shù)目與真實目標(biāo)數(shù)目之間的比值,其數(shù)值越大,代表遮擋判斷模塊的判斷精度越高,計算公式為
(6)
式中:TP為正確預(yù)測的正例;TN為正確預(yù)測的負(fù)例;FP為錯誤預(yù)測的正例;FN為錯誤預(yù)測的負(fù)例。
② 為驗證所提遮擋恢復(fù)模塊和所提算法TransAnfMOT的有效性,使用了MOT[19]挑戰(zhàn)賽提出的評價指標(biāo)作為評估標(biāo)準(zhǔn)。在多目標(biāo)跟蹤算法的評估標(biāo)準(zhǔn)中,主要關(guān)注的是MOTA指標(biāo)和MOTP指標(biāo)。其中,MOTA指標(biāo)主要關(guān)注跟蹤器的出錯次數(shù),跟蹤器發(fā)生錯誤的次數(shù)越少,MOTA指標(biāo)越高,代表跟蹤器性能越好。其計算公式為
(7)
式中:FN為跟蹤器未檢測到目標(biāo)的次數(shù);FP為跟蹤器錯誤預(yù)測目標(biāo)的次數(shù);IDS為目標(biāo)身份信息切換的次數(shù);GT為真實目標(biāo)的數(shù)量。
MOTP指標(biāo)主要關(guān)注目標(biāo)位置邊界框與真值邊界框之間的距離,該距離越小,MOTP指標(biāo)越高,代表跟蹤器定位越準(zhǔn)確。其計算公式為
(8)
式中:dt,i為目標(biāo)的預(yù)測框和真值框之間的平均度量距離(這里指IoU距離);ct為當(dāng)前幀匹配成功的數(shù)目。
另外,評估標(biāo)準(zhǔn)中所用的FM指標(biāo)代表跟蹤過程中一條目標(biāo)軌跡斷連的次數(shù),該指標(biāo)越低,代表目標(biāo)跟蹤軌跡越穩(wěn)定。
2.2.1 消融實驗
(1)遮擋判斷模塊有效性。
進(jìn)行了消融實驗,以驗證所提遮擋判斷模塊中各個組件(包括RGB圖像、Depth圖像、CFF和CBAM)對遮擋判斷精度的影響。使用Transformer模型作為基礎(chǔ)的遮擋判斷模型,通過采取不同的組件對輸入圖像進(jìn)行處理以提升遮擋判斷模塊的精度。在Groups序列、Queue序列、EPFL1序列上進(jìn)行測試,并將3個序列的遮擋判斷精度均值作為最終評價指標(biāo),不同組件下遮擋判斷模塊的精度如表1所示。
表1 不同組件下的遮擋判斷精度
如表1所示,通過引入Depth圖像,遮擋判斷模塊的精度提升了8.20%,表明RGB圖像和Depth圖像可以實現(xiàn)多模態(tài)信息互補(bǔ);通過引入CFF,遮擋判斷模塊的精度提升了8.25%,表明CFF通過融合不同卷積層的特征,獲取了豐富的特征信息;最后,通過引入CBAM,遮擋判斷模塊的精度提升了1.73%,表明CBAM關(guān)注對遮擋判斷任務(wù)最有幫助的特征,獲得了更具判別力的特征表達(dá)。
綜上所述,所提遮擋判斷模塊中各個組件(包括Depth圖像、CFF和CBAM)均有利于提升輸入信息的質(zhì)量,進(jìn)而提高了遮擋判斷模塊判斷目標(biāo)之間遮擋狀態(tài)的精度。
(2)遮擋恢復(fù)模塊有效性。
為驗證提出的遮擋恢復(fù)模塊有效性,采用CenterTrack多目標(biāo)跟蹤算法和所提出的TransAnfMOT多目標(biāo)跟蹤算法分別在Groups序列、Queue序列、EPFL1序列上進(jìn)行測試,測試結(jié)果如表2所示。
由表2可以看出,所提出的TransAnfMOT的MOTA指標(biāo)在Groups序列、Queue序列、EPFL1序列上均優(yōu)于原始CenterTrack算法。在遮擋情況較多的Groups序列、Queue序列上,與原始CenterTrack算法相比,所提出的TransAnfMOT算法的MOTA指標(biāo)分別提升了11.47%、4.86%,需要注意的是,在人員數(shù)量較多的EPFL1序列上,MOTA指標(biāo)從75.4提升至96.5,獲得了27.98%的MOTA指標(biāo)增長。其中在Groups序列、Queue序列和EPFL1序列上,F(xiàn)N指標(biāo)均有不同程度下降,F(xiàn)P指標(biāo)除在Groups序列有一定程度上升以外,在其他兩個序列都呈下降趨勢;同時在3個序列上,衡量目標(biāo)身份信息變化次數(shù)的IDS指標(biāo)、目標(biāo)跟蹤軌跡的斷連次數(shù)的FM指標(biāo)也實現(xiàn)了不同程度的下降。上述結(jié)果表明所提出的遮擋恢復(fù)模塊可以減少目標(biāo)身份信息切換次數(shù),有效解決了目標(biāo)軌跡斷連錯誤,提升了多目標(biāo)跟蹤算法的穩(wěn)定性和準(zhǔn)確性。
表2 不同數(shù)據(jù)集下添加遮擋恢復(fù)模塊前后的多目標(biāo)跟蹤結(jié)果
2.2.2 對比實驗
為證明所提多目標(biāo)跟蹤算法TransAnfMOT的有效性,選擇了Anchor-based的經(jīng)典多目標(biāo)跟蹤算法Sort[4]、Deepsort[5],Anchor-free的經(jīng)典多目標(biāo)跟蹤算法FairMOT[7]、基準(zhǔn)算法CenterTrack[6]以及近年來解決遮擋跟蹤效果較好的多目標(biāo)跟蹤算法AD-SiamMOT-RGB[15]、
采用AD-SiamMOT-RGB-D[15]、SST[20]、KV-IOU[21]。分別在Groups序列、Queue 序列和EPFL1序列上進(jìn)行測試,測試結(jié)果如表3所示。
表3 不同測試數(shù)據(jù)集下各個多目標(biāo)跟蹤算法的跟蹤結(jié)果
如表3所示,提出的算法TransAnfMOT在Groups、Queue、EPFL1這3個序列上的MOTA指標(biāo)分別達(dá)到了55.4、86.3和96.5,均取得了比較有競爭力的結(jié)果。針對MOT挑戰(zhàn)賽中主要關(guān)注的MOTA指標(biāo),對各個算法從高到低排序,各個算法的排序結(jié)果由表3中的Rank指標(biāo)展示。
具體地,在Groups序列上,與MOTA指標(biāo)排名第二的FairMOT相比,所提算法TransAnfMOT的MOTA指標(biāo)提升了7.78%,其中FN指標(biāo)和FM指標(biāo)的下降說明TransAnfMOT可以有效減少漏檢次數(shù)和軌跡斷連次數(shù),有利于提高目標(biāo)跟蹤軌跡的穩(wěn)定性;在Queue序列上,與MOTA指標(biāo)排名第二的FairMOT相比,所提算法TransAnfMOT的MOTA指標(biāo)獲得了3.11%的增長,同時FN指標(biāo)和FM指標(biāo)都有所下降,這證明了TransAnfMOT對于提高目標(biāo)跟蹤軌跡質(zhì)量的有效性。需要注意的是,在人員數(shù)目較多的EPFL1序列上,與MOTA指標(biāo)排名第二的FairMOT算法相比,所提算法TransAnfMOT的MOTA指標(biāo)大幅提升,從77.9提升至96.5,實現(xiàn)了23.88%的指標(biāo)增長。其中衡量跟蹤器未檢測到目標(biāo)次數(shù)的FN指標(biāo)和衡量跟蹤器錯誤預(yù)測目標(biāo)次數(shù)的FP指標(biāo)均明顯下降。
上述結(jié)果表明,所提的算法TransAnfMOT在3個數(shù)據(jù)集上均取得了比較有競爭力的結(jié)果,可以有效減少目標(biāo)漏檢和目標(biāo)軌跡斷連的次數(shù),有利于提升多目標(biāo)跟蹤算法的跟蹤精度和穩(wěn)定性。
為了直觀地展示所提TransAnfMOT的跟蹤效果,圖6分別展示了TransAnfMOT在Groups、Queue、EPFL1這3個序列下的可視化跟蹤結(jié)果。
圖6 不同序列下的可視化跟蹤結(jié)果
另外,就多目標(biāo)跟蹤算法的跟蹤速度而言,所提算法的跟蹤速度有所下降。未來的改進(jìn)方向是對Transformer模型進(jìn)行輕量化操作,通過刪減網(wǎng)絡(luò)結(jié)構(gòu)中冗余的模塊,均衡Transformer模型的精度和速度。對于外觀特征距離恢復(fù)模塊,將設(shè)計精簡有效的外觀特征提取網(wǎng)絡(luò),保證外觀特征質(zhì)量的同時降低外觀特征維度以提升外觀特征恢復(fù)模塊的速度。通過上述操作將進(jìn)一步提高多目標(biāo)跟蹤算法的速度,以均衡多目標(biāo)跟蹤算法的精度和速度。
提出了一種基于改進(jìn)的Transformer加Anchor-free網(wǎng)絡(luò)的多目標(biāo)跟蹤算法TransAnfMOT。該算法有2個主要的特點(diǎn):首先通過CFF和CBAM融合RGB圖像和Depth圖像,可以提升融合的RGB-D圖像特征的質(zhì)量,從而提高Transformer模型判斷目標(biāo)間遮擋狀態(tài)的精度;另外,通過分析目標(biāo)的運(yùn)動情況,設(shè)置了被遮擋目標(biāo)的搜索區(qū)域,并通過外觀特征距離方法對遮擋消失后重新出現(xiàn)的目標(biāo)繼續(xù)跟蹤,減少了被遮擋目標(biāo)身份信息切換的次數(shù)。實驗結(jié)果表明,所提算法在Groups序列、Queue序列、EPFL1序列上均取得了比較有競爭力的結(jié)果,這說明該算法可以解決目標(biāo)身份信息切換的問題并提高目標(biāo)跟蹤軌跡的穩(wěn)定性和準(zhǔn)確性。未來,將設(shè)計輕量化的Transformer模型結(jié)構(gòu)和精簡有效的外觀特征提取網(wǎng)絡(luò)以均衡所提多目標(biāo)跟蹤算法的精度和速度。