摘 要:點(diǎn)云和圖像的多模態(tài)特征具有很強(qiáng)的優(yōu)勢(shì)互補(bǔ)性,能夠有效提升三維多目標(biāo)跟蹤的性能。然而,由于跟蹤場(chǎng)景的復(fù)雜性和目標(biāo)狀態(tài)的不確定性,使得目標(biāo)跟蹤仍面臨許多挑戰(zhàn)。基于此,提出多模態(tài)嵌入與軌跡修正的三維多目標(biāo)跟蹤算法。首先構(gòu)建多模態(tài)嵌入學(xué)習(xí)網(wǎng)絡(luò),通過(guò)多尺度語(yǔ)義特征學(xué)習(xí)與多模態(tài)再融合模塊,學(xué)習(xí)更具判別性的嵌入表示;其次,提出多特征綜合關(guān)聯(lián)模塊,聯(lián)合跟蹤嵌入和幾何信息,同時(shí)修正角度預(yù)測(cè)錯(cuò)誤,實(shí)現(xiàn)更精確的數(shù)據(jù)關(guān)聯(lián);最后,提出雙流軌跡修正與管理算法,修正錯(cuò)誤消失軌跡,以提升軌跡的準(zhǔn)確性。在KITTI數(shù)據(jù)集上對(duì)提出的方法進(jìn)行評(píng)估并與其他先進(jìn)方法進(jìn)行比較,該方法的HOTA指標(biāo)達(dá)到了77.72%,MOTA指標(biāo)達(dá)到了88.24%,整體體現(xiàn)出較好的跟蹤性能。實(shí)驗(yàn)證明該方法有效地提升了跟蹤精度,并減少了跟蹤錯(cuò)誤的發(fā)生,具有良好的跟蹤性能。
關(guān)鍵詞:多目標(biāo)跟蹤;多模態(tài)融合;跟蹤嵌入;軌跡修正
中圖分類號(hào):TP391.4"" 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2024)12-045-3859-07
doi: 10.19734/j.issn.1001-3695.2024.01.0066
3D multi-object tracking with multi-modal embedding and trajectory correction
Zhao Guowei1, Liu Hengyuan1, Li Hui1, Qin Xiugong2, Yang Haoran1, Tao Ye1
(1.School of Data Science, Qingdao University of Science amp; Technology, Qingdao Shandong 266061, China; 2. Beijing Research Institute of Automation for Machinery Industry Co., Ltd., Beijing 100120, China)
Abstract:The multi-modal features of point clouds and images have strong complementary advantages and can effectively improve the performance of three-dimensional multi-object tracking. However, object tracking still faces many challenges due to the complexity of the tracking scene and the uncertainty of the object state. Based on this, this paper proposed a three-dimensional multi-object tracking algorithm with multi-modal embedding and trajectory correction. Firstly, it constructed a multi-modal embedding learning network to learn more discriminative embedding representations through multi-scale semantic feature learning and multi-modal re-fusion modules. Secondly, it designed a multi-feature comprehensive correlation module to jointly track embedding and geometric information, while correcting angle prediction errors to achieve more accurate data correlation. Finally, it proposed a dual-stream trajectory correction and management algorithm to correct erroneous disappearing trajectories to improve trajectory accuracy. The proposed method was evaluated on the KITTI data set and compared with other advanced methods. The HOTA index of the proposed method reached 77.72%, and the MOTA index reached 88.24%, showing the best tracking performance overall. Experiments prove that the proposed method effectively improves tracking accuracy, reduces the occurrence of tracking errors, and has good tracking performance.
Key words:multi-object tracking; multi-modal fusion; track embedding; trajectory correction
0 引言
三維多目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要研究方向之一,在自動(dòng)駕駛[1]、智慧交通等領(lǐng)域都有著重要的研究意義與應(yīng)用價(jià)值,能夠幫助人們改善日常生活與工作體驗(yàn)。其中,自動(dòng)駕駛領(lǐng)域是三維多目標(biāo)跟蹤的重要應(yīng)用方向,通過(guò)在連續(xù)的時(shí)間序列中對(duì)目標(biāo)進(jìn)行識(shí)別與跟蹤,同時(shí)對(duì)目標(biāo)運(yùn)動(dòng)方向、速度等屬性進(jìn)行預(yù)測(cè),幫助自動(dòng)駕駛系統(tǒng)進(jìn)行運(yùn)動(dòng)規(guī)劃,提升車輛在各種環(huán)境下的通行能力,并有效地防止發(fā)生危險(xiǎn)事故。綜上,三維多目標(biāo)跟蹤的研究對(duì)于推動(dòng)自動(dòng)駕駛技術(shù)實(shí)現(xiàn)更高水平發(fā)展具有重要意義。
多目標(biāo)跟蹤任務(wù)主要分為檢測(cè)和跟蹤兩個(gè)子任務(wù)。檢測(cè)任務(wù)負(fù)責(zé)從視頻序列中對(duì)每一個(gè)有效目標(biāo)進(jìn)行定位和分類[2,3];跟蹤任務(wù)負(fù)責(zé)匹配不同幀之間的同一目標(biāo)[4],組合得到軌跡序列。但在現(xiàn)實(shí)環(huán)境下,場(chǎng)景中目標(biāo)間的遮擋與檢測(cè)器的錯(cuò)檢、漏檢問(wèn)題導(dǎo)致跟蹤器有時(shí)并不能順利地連續(xù)跟蹤目標(biāo),難以避免地出現(xiàn)身份切換與軌跡碎片化問(wèn)題,如圖1所示,因遮擋而消失的目標(biāo)在重新出現(xiàn)后被賦予了新的ID。由于3D場(chǎng)景不同于2D場(chǎng)景,3D空間下目標(biāo)的運(yùn)動(dòng)軌跡更為復(fù)雜,所以對(duì)跟蹤算法提出了更高的要求,當(dāng)前的3D多目標(biāo)跟蹤方法大多結(jié)合不同模態(tài)的數(shù)據(jù)進(jìn)行跟蹤,這有效地提升了跟蹤性能,但仍存在以下問(wèn)題:a)現(xiàn)有跟蹤方法多采用檢測(cè)分支特征構(gòu)建嵌入親和矩陣,沒(méi)有針對(duì)學(xué)習(xí)跟蹤嵌入,由于檢測(cè)與跟蹤兩者任務(wù)目標(biāo)的區(qū)別,導(dǎo)致此類嵌入親和矩陣不能有效地區(qū)分目標(biāo);b)大多數(shù)方法在數(shù)據(jù)關(guān)聯(lián)階段采用目標(biāo)的位置信息或采用目標(biāo)的外觀信息計(jì)算親和矩陣,忽略了3D空間中目標(biāo)的其他特征,親和矩陣的判別能力仍有提升空間;c)對(duì)于錯(cuò)檢與漏檢造成的跟蹤錯(cuò)誤,傳統(tǒng)的軌跡管理方法在處理的同時(shí),仍然會(huì)發(fā)生軌跡缺失與軌跡碎片化問(wèn)題,不能完全消除檢測(cè)錯(cuò)誤對(duì)跟蹤造成的影響。針對(duì)上述問(wèn)題,本文提出以下方法:
a)構(gòu)建多模態(tài)嵌入學(xué)習(xí)網(wǎng)絡(luò),使用多尺度語(yǔ)義特征學(xué)習(xí)與多模態(tài)再融合模塊,學(xué)習(xí)更具判別的嵌入表示,提升多目標(biāo)跟蹤性能。
b)提出多特征綜合關(guān)聯(lián)方法,聯(lián)合外觀特征和幾何信息綜合進(jìn)行數(shù)據(jù)關(guān)聯(lián),修正角度預(yù)測(cè)錯(cuò)誤,降低了錯(cuò)誤匹配概率。
c)提出雙流軌跡修正與管理模塊,在管理軌跡匹配結(jié)果的同時(shí)修復(fù)缺陷軌跡。驗(yàn)證初始化軌跡有效性,減少錯(cuò)誤檢測(cè)初始化概率,提升軌跡的準(zhǔn)確性。
1 相關(guān)工作
3D多目標(biāo)跟蹤技術(shù)作為自動(dòng)駕駛領(lǐng)域的關(guān)鍵技術(shù)[5],通過(guò)對(duì)周邊環(huán)境目標(biāo)的感知與跟蹤,直接影響著自動(dòng)駕駛系統(tǒng)的規(guī)劃與決策,根據(jù)輸入數(shù)據(jù)類型的不同,主要分為基于點(diǎn)云的多目標(biāo)跟蹤方法與基于多模態(tài)融合的多目標(biāo)跟蹤方法。通過(guò)激光雷達(dá)獲取的點(diǎn)云數(shù)據(jù),具有極高的空間信息豐富度,通過(guò)對(duì)點(diǎn)云特征的學(xué)習(xí),能夠準(zhǔn)確地定位目標(biāo)在3D空間中的位置,在基于點(diǎn)云的多目標(biāo)跟蹤算法中,Wen等人[4]采用PointRCNN[6]作為3D檢測(cè)器,以3D IoU(intersection over union)計(jì)算親和矩陣,采用卡爾曼濾波與匈牙利算法預(yù)測(cè)并求解匹配結(jié)果,為3D多目標(biāo)跟蹤開(kāi)創(chuàng)了一個(gè)新的基線算法。Yin等人[7]提出了一個(gè)兩階段的3D檢測(cè)跟蹤方法,將3D空間中目標(biāo)框視為目標(biāo)點(diǎn),以目標(biāo)點(diǎn)與目標(biāo)點(diǎn)之間的歐氏距離作為數(shù)據(jù)關(guān)聯(lián)的親和矩陣,采用貪心算法求解軌跡與檢測(cè)的匹配關(guān)系,但在現(xiàn)實(shí)場(chǎng)景下僅僅采用幾何信息進(jìn)行目標(biāo)關(guān)聯(lián),難以在各種復(fù)雜的環(huán)境中維持較高的跟蹤精度。Benbarka等人[8]認(rèn)為將軌跡置信度更新為匹配檢測(cè)的置信度的方法并不能準(zhǔn)確地表達(dá)軌跡的活躍性,提出采用置信度更新函數(shù)對(duì)軌跡的狀態(tài)進(jìn)行描述,從而實(shí)現(xiàn)對(duì)軌跡更準(zhǔn)確的管理。Pang等人[9]采用非極大值方法抑制替代傳統(tǒng)的閾值檢測(cè)篩選方法,并采用卡爾曼濾波對(duì)目標(biāo)的狀態(tài)進(jìn)行預(yù)測(cè),使用GIOU[10]計(jì)算親和矩陣,同樣取得了不錯(cuò)的效果。Luo等人[11]構(gòu)建混合時(shí)間中心圖,同時(shí)預(yù)測(cè)目標(biāo)運(yùn)動(dòng)與邊界框大小,采用混合時(shí)間中心圖直接進(jìn)行關(guān)聯(lián),進(jìn)而得到軌跡序列。雖然基于點(diǎn)云的多目標(biāo)跟蹤方法已經(jīng)取得了優(yōu)異的結(jié)果,但由于點(diǎn)云本身存在的缺陷,限制了當(dāng)前算法的發(fā)展,點(diǎn)云在空間中分布稀疏且不均勻,其分布密度與激光雷達(dá)距離呈負(fù)相關(guān),即對(duì)于遠(yuǎn)距離目標(biāo),往往不能實(shí)現(xiàn)精確的跟蹤目標(biāo)。同時(shí),僅基于幾何信息的關(guān)聯(lián)在復(fù)雜環(huán)境下辨別性能較低,當(dāng)目標(biāo)被遮擋或者因?yàn)槠渌蚨鴽](méi)有被檢測(cè)到時(shí),容易導(dǎo)致目標(biāo)身份切換和軌跡碎片化問(wèn)題。因此,基于單模態(tài)或僅采用單一特征進(jìn)行數(shù)據(jù)關(guān)聯(lián)的多目標(biāo)跟蹤存在一定的局限性。
相較于點(diǎn)云,圖像數(shù)據(jù)具有更豐富的紋理特征,即使對(duì)較遠(yuǎn)的目標(biāo)仍能獲取充足的語(yǔ)義特征,在一定程度上解決了點(diǎn)云對(duì)于遠(yuǎn)距離目標(biāo)識(shí)別較差的問(wèn)題。與基于點(diǎn)云的多目標(biāo)跟蹤方法對(duì)比,基于點(diǎn)云和圖像融合的跟蹤方法中,Zhang等人[12]分別使用VGG[13]模型處理圖像數(shù)據(jù),PointNet[14]模型處理點(diǎn)云數(shù)據(jù),融合并計(jì)算親和矩陣,并采用混合整數(shù)線性規(guī)劃進(jìn)行數(shù)據(jù)關(guān)聯(lián),同樣取得了優(yōu)異的結(jié)果。Kim等人[15]使用不同的3D與2D檢測(cè)器作為基準(zhǔn)檢測(cè)器,根據(jù)映射關(guān)系將2D檢測(cè)結(jié)果投影至3D空間,并按照投影結(jié)果進(jìn)行兩階段匹配,一定程度上提升了跟蹤精度。Wang等人[16]在EagerMot方法的基礎(chǔ)上,提出四階段關(guān)聯(lián)方法進(jìn)行軌跡的數(shù)據(jù)關(guān)聯(lián),取得了更加準(zhǔn)確的結(jié)果。Wang等人[17]構(gòu)建點(diǎn)云-圖像融合框架,針對(duì)目標(biāo)被遮擋和錯(cuò)檢的情況,采用遮擋頭,判斷并選擇目標(biāo)的最優(yōu)外觀特征,同時(shí)采用基于置信度分?jǐn)?shù)的親和矩陣,提高了目標(biāo)匹配的精度。
現(xiàn)有的跟蹤方法多數(shù)依賴于幾何信息或者外觀特征進(jìn)行數(shù)據(jù)關(guān)聯(lián),但針對(duì)外觀特征并沒(méi)有進(jìn)行適應(yīng)跟蹤任務(wù)的學(xué)習(xí)?;诖耍趶?fù)雜環(huán)境下很難實(shí)現(xiàn)魯棒的跟蹤,同時(shí)目標(biāo)檢測(cè)任務(wù)的準(zhǔn)確度對(duì)跟蹤任務(wù)存在較大影響,出現(xiàn)錯(cuò)誤時(shí)極易造成跟蹤任務(wù)同步出現(xiàn)錯(cuò)誤,故本文分別針對(duì)嵌入學(xué)習(xí)網(wǎng)絡(luò)、親和矩陣計(jì)算、軌跡管理模塊幾個(gè)方面進(jìn)行了研究,以提升網(wǎng)絡(luò)對(duì)目標(biāo)的跟蹤能力。
2 方法描述
本文方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,主要包含多模態(tài)嵌入學(xué)習(xí)網(wǎng)絡(luò)、多特征數(shù)據(jù)關(guān)聯(lián)模塊以及雙流軌跡修正與管理模塊三個(gè)部分。網(wǎng)絡(luò)以點(diǎn)云和圖像作為輸入,分別采用PointNet++[18]網(wǎng)絡(luò)與輕量卷積網(wǎng)絡(luò)學(xué)習(xí)點(diǎn)云與圖像特征,然后進(jìn)行多模態(tài)特征融合,得到預(yù)測(cè)框和預(yù)測(cè)類別。多模態(tài)嵌入學(xué)習(xí)網(wǎng)絡(luò)與檢測(cè)網(wǎng)絡(luò)并行推理,對(duì)特征提取網(wǎng)絡(luò)中得到的多尺度圖像語(yǔ)義特征進(jìn)行處理,并與融合特征進(jìn)行多模態(tài)再融合,得到目標(biāo)嵌入表示,然后通過(guò)目標(biāo)關(guān)聯(lián)網(wǎng)絡(luò)計(jì)算目標(biāo)相關(guān)性。最終由數(shù)據(jù)關(guān)聯(lián)模塊求解目標(biāo)匹配關(guān)系,再經(jīng)過(guò)雙流軌跡修正與管理得到軌跡序列。
2.1 多模態(tài)嵌入學(xué)習(xí)網(wǎng)絡(luò)
跟蹤過(guò)程中,跟蹤嵌入作為親和矩陣的重要組成部分,其準(zhǔn)確性對(duì)跟蹤精度有著重要的影響,本文的多模態(tài)嵌入學(xué)習(xí)網(wǎng)絡(luò)首先通過(guò)多尺度圖像語(yǔ)義特征增強(qiáng)網(wǎng)絡(luò)對(duì)不同尺度的圖像特征進(jìn)行學(xué)習(xí),提升網(wǎng)絡(luò)對(duì)目標(biāo)特征的感知,并通過(guò)圖像坐標(biāo)信息與預(yù)測(cè)框中心信息增強(qiáng)嵌入的判別力,然后通過(guò)多模態(tài)再融合機(jī)制,結(jié)合融合特征與圖像特征的優(yōu)勢(shì),進(jìn)一步提升跟蹤嵌入的準(zhǔn)確性。
2.1.1 多尺度圖像語(yǔ)義特征增強(qiáng)網(wǎng)絡(luò)
在嵌入學(xué)習(xí)網(wǎng)絡(luò)中,由于小目標(biāo)的信息量較少,傳統(tǒng)的卷積網(wǎng)絡(luò)難以充分學(xué)習(xí)該類特征,故需要設(shè)計(jì)專門(mén)的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)學(xué)習(xí)不同尺度下的目標(biāo)特征。如圖3所示,首先采用特征金字塔結(jié)構(gòu)[19]與多尺度注意力網(wǎng)絡(luò),通過(guò)自注意力網(wǎng)絡(luò)增強(qiáng)并融合不同尺度下的圖像語(yǔ)義特征。
多尺度圖像語(yǔ)義特征增強(qiáng)網(wǎng)絡(luò)的輸入為檢測(cè)分支中不同尺度的圖像特征Fi(i=1,2,3,4),采用特征金字塔網(wǎng)絡(luò)對(duì)檢測(cè)分支圖像特征進(jìn)行處理,增強(qiáng)對(duì)不同尺度目標(biāo)感知的同時(shí)得到更適宜跟蹤任務(wù)的圖像特征。首先利用雙線性插值實(shí)現(xiàn)對(duì)圖像特征的上采樣操作,再通過(guò)卷積核大小為1×1的卷積調(diào)整圖像特征通道,自上而下地將對(duì)應(yīng)的圖像特征進(jìn)行處理,并與相鄰特征沿通道進(jìn)行拼接操作,得到新的圖像特征。之后,利用卷積核大小為3×3的卷積對(duì)圖像進(jìn)行下采樣操作,同樣采用卷積核大小為1×1的卷積調(diào)整圖像特征通道,自下而上地將對(duì)應(yīng)圖像特征進(jìn)行處理,并與相鄰特征沿通道進(jìn)行拼接操作,得到增強(qiáng)的圖像語(yǔ)義特征Fi′(i=1,2,3,4)。然后采用不同步幅的轉(zhuǎn)置卷積將增強(qiáng)后的特征恢復(fù)到原始圖像尺寸,并通過(guò)空間注意力機(jī)制對(duì)圖像特征進(jìn)行自適應(yīng)增強(qiáng),提升對(duì)于目標(biāo)的判別力,之后將增強(qiáng)后的圖像特征沿通道進(jìn)行拼接,得到最終的圖像特征。計(jì)算公式為
Fi′=TransConvi(Fi′)(1)
Fi′=SpatialAtt(Fi′)×Fi′(2)
F=Cat(F1′,F(xiàn)2′,F(xiàn)3′,F(xiàn)4′)(3)
其中:TransConvi表示轉(zhuǎn)置卷積;SpatialAtt表示空間注意力;Cat表示拼接操作;F表示增強(qiáng)后的圖像特征。
之后利用攝像頭與激光雷達(dá)的內(nèi)參矩陣MT,將點(diǎn)云中每個(gè)點(diǎn)通過(guò)內(nèi)參矩陣映射到圖像坐標(biāo),由此構(gòu)建圖像與點(diǎn)云之間的映射關(guān)系,然后將增強(qiáng)后的圖像特征F映射到3D空間,獲得3D圖像特征F3D。但映射到3D空間的圖像特征丟失了圖像的坐標(biāo)信息,故通過(guò)原始圖像的位置信息,生成圖像位置信息Fpos∈RH×W×2,并經(jīng)由兩層卷積塊處理,其中卷積塊由卷積層與激活函數(shù)ReLu構(gòu)成。將處理后的2D圖像位置信息Fpos與圖像特征F沿通道維度拼接,并通過(guò)卷積核大小為1×1的卷積層調(diào)整通道數(shù),由此補(bǔ)充了映射過(guò)程中丟失的圖像坐標(biāo)信息。之后采用通道注意力模塊對(duì)圖像特征進(jìn)行進(jìn)一步處理,精細(xì)化每個(gè)通道對(duì)特征信息的表達(dá),然后再將圖像特征轉(zhuǎn)換為3D圖像特征,基于此,使得3D圖像特征獲得了坐標(biāo)信息,提升了對(duì)后續(xù)關(guān)聯(lián)的魯棒性。最后,對(duì)3D圖像特征進(jìn)行3D RoI(3D region of interest)池化操作,得到圖像區(qū)域提議特征。具體計(jì)算公式為
Fpos=ConvBlock(ConvBlock(Fpos))(4)
F=Conv(Cat(F,F(xiàn)pos))(5)
F=ChannelAtt(F)×F(6)
F3D=Maping(F,MT)(7)
FI=3DRoIPooling(F3D)(8)
其中:ConvBlock表示卷積塊;ChannelAtt表示通道注意力;Maping表示映射操作;FI表示圖像區(qū)域提議特征。
同時(shí)為了增加網(wǎng)絡(luò)對(duì)目標(biāo)的判別能力,將檢測(cè)網(wǎng)絡(luò)得到的3D預(yù)測(cè)框D3D投影至圖像坐標(biāo),得到2D預(yù)測(cè)框D2D,并生成預(yù)測(cè)框中心點(diǎn)信息Fcen∈RN×2,通過(guò)兩層全連接層對(duì)2D預(yù)測(cè)框中心點(diǎn)信息進(jìn)行處理,將處理后的預(yù)測(cè)框中心點(diǎn)信息與圖像區(qū)域提議特征進(jìn)行拼接,之后通過(guò)全連接層再進(jìn)行處理,得到更具判別性的圖像特征。具體計(jì)算公式為
Fcen=fc(fc(Fcen))(9)
FI=fc(Cat(Fcen,F(xiàn)I))(10)
其中:fc表示全連接層;FI表示增強(qiáng)后的圖像區(qū)域提議特征。
2.1.2 多模態(tài)再融合
由于在嵌入學(xué)習(xí)網(wǎng)絡(luò)中只使用了圖像語(yǔ)義特征,但點(diǎn)云的空間特征對(duì)于數(shù)據(jù)關(guān)聯(lián)也是尤為重要的,為了彌補(bǔ)缺失的點(diǎn)云信息,同時(shí)避免重復(fù)計(jì)算,對(duì)檢測(cè)分支的融合區(qū)域提議特征與圖像提議特征進(jìn)行多模態(tài)再融合,整體結(jié)構(gòu)如圖4所示。首先將融合提議特征和圖像提議特征分別使用全連接層進(jìn)行處理,之后將兩者對(duì)應(yīng)元素相加,再次通過(guò)全連接層處理,采用sigmoid函數(shù)計(jì)算得到對(duì)應(yīng)的注意力權(quán)重,然后將對(duì)應(yīng)的權(quán)重分別與對(duì)應(yīng)的融合提議特征與圖像提議特征相乘,得到增強(qiáng)后的特征,最終將增強(qiáng)后的融合特征和圖像特征相加,獲得跟蹤嵌入表示。計(jì)算公式如下:
Ff=fc(FD)+fc(FI)(11)
Att=sigmoid(fc(tanh(Ff)))(12)
FB=(1-Att)×FD+(1+Att)×FI(13)
其中:FD與FI分別為融合特征與圖像特征;1-Att和1+Att分別表示融合特征與圖像特征的注意力掩碼;FB為最終得到的跟蹤嵌入。對(duì)于得到的邊框嵌入,采用目標(biāo)關(guān)聯(lián)網(wǎng)絡(luò)計(jì)算開(kāi)始分?jǐn)?shù),結(jié)束分?jǐn)?shù)與特征相似度矩陣,然后通過(guò)多特征數(shù)據(jù)關(guān)聯(lián)模塊中進(jìn)行數(shù)據(jù)關(guān)聯(lián)操作。
2.1.3 多特征數(shù)據(jù)關(guān)聯(lián)
數(shù)據(jù)關(guān)聯(lián)作為多目標(biāo)跟蹤算法中的關(guān)鍵算法,其目的是將當(dāng)前幀的檢測(cè)框與現(xiàn)有軌跡進(jìn)行關(guān)聯(lián)。首先需要將現(xiàn)有軌跡通過(guò)算法預(yù)測(cè)其在當(dāng)前幀中的狀態(tài),同時(shí)利用各種特征構(gòu)建軌跡與檢測(cè)之間的親和矩陣,從而得到軌跡與檢測(cè)的匹配關(guān)系。本文提出多特征數(shù)據(jù)關(guān)聯(lián)模塊,通過(guò)聯(lián)合幾何與外觀的多種特征進(jìn)行數(shù)據(jù)關(guān)聯(lián),減少軌跡與檢測(cè)的錯(cuò)誤匹配,提升跟蹤精度。
關(guān)聯(lián)流程如圖5所示。首先將現(xiàn)有軌跡使用卡爾曼濾波預(yù)測(cè)其在當(dāng)前幀的位置,再采用運(yùn)動(dòng)補(bǔ)償將軌跡的坐標(biāo)系從上一幀轉(zhuǎn)換到當(dāng)前幀,以降低由于傳感器自身運(yùn)動(dòng)造成的誤差。之后采用跟蹤嵌入、IoU、距離、角度信息構(gòu)建幾何-外觀親和矩陣,由此提升關(guān)聯(lián)準(zhǔn)確度,并提高算法在各種環(huán)境下的辨別力。跟蹤嵌入親和矩陣AME是將多模態(tài)嵌入學(xué)習(xí)網(wǎng)絡(luò)中得到的軌跡嵌入FT與檢測(cè)嵌入FD的差值的絕對(duì)值送入目標(biāo)關(guān)聯(lián)網(wǎng)絡(luò)處理得到的,其中軌跡與檢測(cè)的嵌入絕對(duì)差值代表了軌跡與檢測(cè)的外觀相似性。IoU親和矩陣AMI、距離親和矩陣AMD與角度親和矩陣AMA計(jì)算如下:
AMI=BT∩BDBT∪BD(14)
AMD=1-ρ(bT,bD)l(15)
AMA=cos(θT-θD)(16)
其中:BT表示軌跡預(yù)測(cè)框;BD表示檢測(cè)框;ρ表示歐氏距離;bT表示軌跡預(yù)測(cè)框中心點(diǎn);bD表示檢測(cè)框中心點(diǎn);θT表示軌跡目標(biāo)運(yùn)動(dòng)方向;θD表示檢測(cè)目標(biāo)運(yùn)動(dòng)方向。
圖5 多特征數(shù)據(jù)關(guān)聯(lián)模塊
Fig.5 Multi-feature data association module
在某些時(shí)候,檢測(cè)網(wǎng)絡(luò)會(huì)錯(cuò)誤判斷目標(biāo)的運(yùn)動(dòng)方向,如圖6所示。檢測(cè)網(wǎng)絡(luò)對(duì)ID為3的車輛的角度在相近的兩幀內(nèi)給出不同的預(yù)測(cè),出現(xiàn)了明顯的錯(cuò)誤,在高幀率下,處于相鄰幀數(shù)的目標(biāo)的方向變化應(yīng)處于一定范圍內(nèi),對(duì)于相鄰的兩幀,如果同一目標(biāo)間出現(xiàn)超過(guò)90°的角度差,即認(rèn)定出現(xiàn)角度預(yù)測(cè)錯(cuò)誤。若此時(shí)仍采用原始角度信息繼續(xù)數(shù)據(jù)關(guān)聯(lián),則有可能發(fā)生錯(cuò)誤關(guān)聯(lián),降低網(wǎng)絡(luò)跟蹤的精度,所以在數(shù)據(jù)關(guān)聯(lián)階段需要對(duì)檢測(cè)網(wǎng)絡(luò)預(yù)測(cè)的錯(cuò)誤運(yùn)動(dòng)方向進(jìn)行修復(fù)。在完成所有親和矩陣計(jì)算后,利用IoU親和矩陣修復(fù)角度親和矩陣中可能存在的錯(cuò)誤并提升其判別性,具體過(guò)程如式(17)所示。
AMA(i,j)=0.95"""" AMI(i,j)gt;0.9amp;AMA(i,j)lt;-0.9AMA(i,j)-3" AMI(i,j)lt;0.3amp;AMA(i,j)lt;0AMA(i,j)-1" AMI(i,j)lt;0.3amp;AMA(i,j)gt;0AMA(i,j)"" others(17)
其中:AMA(i,j)為角度親和矩陣對(duì)應(yīng)值;AMI(i,j)為IoU親和矩陣對(duì)應(yīng)值。最終的親和矩陣采用四種親和矩陣按照一定系數(shù)組合得到,如式(18)所示。
AM=a1×AME+a2×AMI+a3×AMD+a4×AMA(18)
其中:a1、a2、a3、a4分別為對(duì)應(yīng)矩陣的系數(shù);AM為最終的親和矩陣。之后將AM與目標(biāo)關(guān)聯(lián)網(wǎng)絡(luò)得到的開(kāi)始分?jǐn)?shù)與結(jié)束分?jǐn)?shù)以及目標(biāo)置信度送入到混合整型線性規(guī)劃模塊[20]中求解軌跡與檢測(cè)的匹配關(guān)系,混合整型線性規(guī)劃模塊計(jì)算方法與文獻(xiàn)[21]相同。
2.2 雙流軌跡修正與管理
目標(biāo)檢測(cè)任務(wù)作為跟蹤任務(wù)的前置任務(wù),如果發(fā)生了漏檢與錯(cuò)檢錯(cuò)誤,不可避免地會(huì)影響到目標(biāo)跟蹤的精度,出現(xiàn)類似于身份切換與軌跡碎片化等問(wèn)題。針對(duì)上述問(wèn)題,本文提出雙流軌跡修正和管理模塊,即數(shù)據(jù)關(guān)聯(lián)階段后,在管理軌跡的同時(shí),利用軌跡歷史信息對(duì)錯(cuò)誤軌跡進(jìn)行修正。
數(shù)據(jù)關(guān)聯(lián)結(jié)束后,對(duì)匹配的軌跡檢測(cè)對(duì)利用卡爾曼濾波進(jìn)行更新,同時(shí)將未匹配的檢測(cè)初始化為預(yù)備軌跡,此時(shí)預(yù)備軌跡中可能存在錯(cuò)檢目標(biāo)。預(yù)備軌跡與正式軌跡一同參與后續(xù)的數(shù)據(jù)關(guān)聯(lián)計(jì)算,如果該軌跡能夠在τ幀中連續(xù)匹配檢測(cè),證明該軌跡為正確檢出目標(biāo),將其轉(zhuǎn)換為正式軌跡,并恢復(fù)其過(guò)去τ幀軌跡。如果預(yù)備軌跡在τ幀未能連續(xù)匹配,代表該軌跡為錯(cuò)檢目標(biāo),刪除該軌跡的同時(shí),刪除保存的該軌跡的結(jié)果。
如果正式軌跡在關(guān)聯(lián)階段沒(méi)有與檢測(cè)匹配,該目標(biāo)可能是離開(kāi)場(chǎng)景或者被其他目標(biāo)遮擋,導(dǎo)致跟蹤器無(wú)法對(duì)該軌跡繼續(xù)進(jìn)行跟蹤。如圖7所示,本文將該類軌跡轉(zhuǎn)為消失軌跡,在一定幀數(shù)內(nèi),正常參與后續(xù)的數(shù)據(jù)關(guān)聯(lián)計(jì)算,同時(shí)保存其在消失期間的卡爾曼濾波預(yù)測(cè)的軌跡信息,即以未匹配的前一幀軌跡為起點(diǎn),構(gòu)建正向的預(yù)測(cè)軌跡序列。同時(shí),如果該軌跡在θ1幀內(nèi)與檢測(cè)匹配,則利用卡爾曼濾波以及當(dāng)前匹配的檢測(cè)預(yù)測(cè)框?qū)壽E信息進(jìn)行更新,并將該軌跡恢復(fù)為正式軌跡,同時(shí)以當(dāng)前匹配檢測(cè)為終點(diǎn),由此構(gòu)建反向卡爾曼濾波對(duì)該軌跡消失期間的軌跡信息進(jìn)行反向預(yù)測(cè),構(gòu)建反向的預(yù)測(cè)軌跡序列,然后將正向的預(yù)測(cè)軌跡與反向的預(yù)測(cè)軌跡融合,得到最終的預(yù)測(cè)軌跡,將該預(yù)測(cè)軌跡恢復(fù)至正式軌跡序列中,填補(bǔ)消失軌跡缺失的軌跡序列。缺陷軌跡修復(fù)流程如圖7所示。如果該軌跡未能在θ1幀內(nèi)與檢測(cè)匹配,則刪除其保存的軌跡信息,對(duì)該軌跡不進(jìn)行修正操作。如果其在θ2(θ1lt;θ2)幀內(nèi)與檢測(cè)成功匹配,則在更新軌跡的同時(shí)將該軌跡恢復(fù)為正式軌跡,之后正常參與數(shù)據(jù)關(guān)聯(lián)。如果其在θ2幀內(nèi)未與檢測(cè)匹配,則將該軌跡刪除,不再參與數(shù)據(jù)關(guān)聯(lián)。
3 實(shí)驗(yàn)
3.1 數(shù)據(jù)集
實(shí)驗(yàn)采用KITTI[22]數(shù)據(jù)集,該數(shù)據(jù)集是三維多目標(biāo)跟蹤的標(biāo)準(zhǔn)數(shù)據(jù)集之一,包括激光雷達(dá)和彩色相機(jī)得到的兩種傳感器數(shù)據(jù),同時(shí)針對(duì)多種任務(wù)做了標(biāo)注。數(shù)據(jù)集分為訓(xùn)練集與測(cè)試集,其中訓(xùn)練集有21個(gè)場(chǎng)景序列,測(cè)試集有29個(gè)場(chǎng)景序列,場(chǎng)景包含城市街道、高速公路、校園等。
3.2 實(shí)驗(yàn)設(shè)置
本文方法使用PyTorch框架搭建,并在 Ubuntu 服務(wù)器上進(jìn)行訓(xùn)練和測(cè)試,以EPNet作為預(yù)訓(xùn)練模型,訓(xùn)練輸入數(shù)據(jù)為兩幀的點(diǎn)云與圖像數(shù)據(jù),批處理大小為2,學(xué)習(xí)率設(shè)置為1E-3。
3.3 消融實(shí)驗(yàn)
為了分析本文方法的有效性,設(shè)計(jì)了全局消融實(shí)驗(yàn)、參數(shù)消融實(shí)驗(yàn),采用KITTI標(biāo)準(zhǔn)進(jìn)行評(píng)估,主要指標(biāo)為HOTA[23]、MOTA、FP、FN、IDSW與FRAG等。
3.3.1 全局消融實(shí)驗(yàn)
全局消融實(shí)驗(yàn)是在基線方法的基礎(chǔ)上分別添加多模態(tài)嵌入網(wǎng)絡(luò)、多特征關(guān)聯(lián)模塊、雙流軌跡修正與管理模塊,進(jìn)行對(duì)比分析,研究本文方法對(duì)跟蹤精度的影響。如表1所示,基線方法的主要指標(biāo)HOTA和MOTA分別為76.66%和85.39%,F(xiàn)P和FN分別為964和1 360,在跟蹤過(guò)程中,由于檢測(cè)器造成的錯(cuò)檢和漏檢干擾,并且網(wǎng)絡(luò)的跟蹤嵌入沒(méi)有得到較好的訓(xùn)練,不能精確地區(qū)別不同目標(biāo),從而導(dǎo)致跟蹤性能相對(duì)較差。
添加多模態(tài)嵌入學(xué)習(xí)網(wǎng)絡(luò)后,HOTA和MOTA分別為78.29%和86.12%,相對(duì)基線方法,分別提高1.63%和0.73%,同時(shí)FP與FN分別降低了305、307,說(shuō)明本文提出的多模態(tài)嵌入網(wǎng)絡(luò)學(xué)習(xí)到更準(zhǔn)確的跟蹤嵌入,有效提升了網(wǎng)絡(luò)的跟蹤性能。添加多特征關(guān)聯(lián)模塊后, HOTA和MOTA分別為78.57%和86.46%,與僅添加多模態(tài)嵌入學(xué)習(xí)網(wǎng)絡(luò)的方法對(duì)比分別提升了0.28%、2.67%。FP和FN分別為648和1 004,對(duì)應(yīng)降低了11和49。IDSW降低了2,有效證明了多模態(tài)嵌入網(wǎng)絡(luò)和多特征關(guān)聯(lián)的有效性,整體網(wǎng)絡(luò)更能區(qū)分相似目標(biāo),對(duì)于因遮擋而消失的軌跡,也能在數(shù)幀之后得到匹配。添加雙流軌跡修正與管理方法后,HOTA與MOTA分別為79.91%與89.13%,相較于添加多模態(tài)嵌入和多特征關(guān)聯(lián)的方法分別提高了1.34%與2.67%,并大幅度降低了IDSW與FRAG,通過(guò)修復(fù)缺陷軌跡,緩解了身份切換問(wèn)題與軌跡碎片化問(wèn)題。添加了上述三個(gè)部分的方法相較于基線方法,主要指標(biāo)HOTA和MOTA提升了3.25%和3.74%,F(xiàn)P和FN也存在不同程度的下降,充分證明了所提方法的有效性。
3.3.2 參數(shù)消融實(shí)驗(yàn)
參數(shù)消融實(shí)驗(yàn)分別為親和矩陣消融實(shí)驗(yàn)、軌跡修復(fù)消融實(shí)驗(yàn),以及軌跡驗(yàn)證消融實(shí)驗(yàn),在本文方法的基礎(chǔ)上,對(duì)特定參數(shù)進(jìn)行測(cè)試分析。為了驗(yàn)證通過(guò)嵌入提取網(wǎng)絡(luò)得到的跟蹤嵌入以及聯(lián)合幾何-外觀信息構(gòu)建親和矩陣的有效性,對(duì)親和矩陣進(jìn)行消融實(shí)驗(yàn),分析不同親和矩陣計(jì)算方式對(duì)網(wǎng)絡(luò)跟蹤精度的影響。實(shí)驗(yàn)結(jié)果如表2所示,本文提出的多特征關(guān)聯(lián)整體效果優(yōu)于其他親和矩陣方法,在綜合評(píng)定了IoU、距離、角度以及跟蹤嵌入的效果之后,HOTA達(dá)到79.91%,MOTA達(dá)到89.13%,證明在特征關(guān)聯(lián)階段,幾何信息與外觀信息都起到了至關(guān)重要的作用,在復(fù)雜的真實(shí)環(huán)境下,所提方法的效果更加顯著。同時(shí)對(duì)雙流軌跡修正與管理模塊中軌跡修正閾值以及軌跡驗(yàn)證閾值進(jìn)行消融實(shí)驗(yàn)。從表3與4可以看出,當(dāng)軌跡修復(fù)閾值取8幀時(shí),HOTA和MOTA達(dá)到了最優(yōu)的結(jié)果,當(dāng)軌跡驗(yàn)證閾值取2幀時(shí),HOTA和MOTA達(dá)到了最優(yōu)的結(jié)果。
3.4 實(shí)驗(yàn)對(duì)比
3.4.1 定量結(jié)果分析
本文在KITTI跟蹤測(cè)試數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)對(duì)比,關(guān)于“car”類別的評(píng)估結(jié)果如表5所示,本文方法的HOTA與MOTA指標(biāo)分別為77.72%、88.24%,AssA、AssPr、IDSW與FRAG指標(biāo)分別為81.31%、89.90%、71和210,與現(xiàn)有先進(jìn)方法相比,本文方法在HOTA、AssA、MOTA與IDSW指標(biāo)上取得了最優(yōu)的結(jié)果,在AssPr、FP與FRAG指標(biāo)上取得前三的結(jié)果,整體體現(xiàn)出最好的跟蹤性能。
本文方法在HOTA與MOTA指標(biāo)上均優(yōu)于表中單模態(tài)方法,證明模型整體跟蹤效果優(yōu)于該類方法,同時(shí)說(shuō)明了3D多目標(biāo)跟蹤方法中合理地使用多模態(tài)數(shù)據(jù)能夠有效地提升跟蹤性能。與使用多模態(tài)的EagerMOT方法比較,除了AssPr與FN指標(biāo)外,在其他指標(biāo)上,本文方法均優(yōu)于該方法,EagerMOT采用的多階段關(guān)聯(lián)方法結(jié)合了2D與3D檢測(cè)的優(yōu)勢(shì),僅使用幾何信息進(jìn)行關(guān)聯(lián),難以精確地關(guān)聯(lián)不同幀的目標(biāo)。與同樣使用圖像和點(diǎn)云的方法DeepFusionMOT相比,本文方法在FN指標(biāo)上略差于該方法,其使用了精度高的檢測(cè)器,在更準(zhǔn)確定位目標(biāo)的同時(shí),利用2D與3D信息進(jìn)行多階段目標(biāo)關(guān)聯(lián),提高了跟蹤精度,但在多數(shù)指標(biāo)上均低于本文方法,整體性能不如本文方法。同時(shí)可以看到,本文方法的FPS為80幀/s,略低于部分其他方法,是由于多特征關(guān)聯(lián)模塊與軌跡修正模塊增加了計(jì)算量,一定程度上影響了網(wǎng)絡(luò)的推理速度。從表5可以看出,與其他先進(jìn)方法對(duì)比,本文方法在大多數(shù)指標(biāo)上均有較好性能,其余指標(biāo)雖然不是最優(yōu),但也處于前列,證明了其有效性。
3.4.2 定性結(jié)果分析
為了驗(yàn)證方法的有效性,在KITTI數(shù)據(jù)集上進(jìn)行了可視化,如圖8所示。在第一個(gè)場(chǎng)景中,ID為17的目標(biāo)與ID為16、20、21的目標(biāo)分別發(fā)生了遮擋,同時(shí)在遮擋結(jié)束后網(wǎng)絡(luò)正確識(shí)別了被遮擋的目標(biāo),并持續(xù)跟蹤目標(biāo)直至其離開(kāi)場(chǎng)景。第二個(gè)場(chǎng)景中,ID為28與ID為36的目標(biāo)與多輛車發(fā)生了遮擋,但在遮擋過(guò)程中與遮擋結(jié)束之后,跟蹤網(wǎng)絡(luò)都正確地跟蹤了每一個(gè)目標(biāo),證明了本文方法的有效性,能在跟蹤過(guò)程中保持良好的準(zhǔn)確度,減少了身份切換錯(cuò)誤和軌跡碎片化的發(fā)生。
同時(shí)對(duì)其他場(chǎng)景跟蹤結(jié)果進(jìn)行可視化分析,并與基線算法進(jìn)行對(duì)比。圖9為本文方法與基線算法跟蹤結(jié)果可視化對(duì)比圖,其中第一排為基線算法跟蹤結(jié)果,第二排為本文跟蹤結(jié)果??梢钥吹?,基線算法跟蹤結(jié)果出現(xiàn)身份切換錯(cuò)誤、軌跡碎片化問(wèn)題,同時(shí)還將錯(cuò)誤目標(biāo)實(shí)例化為軌跡,而本文方法準(zhǔn)確地跟蹤了ID為13的目標(biāo),未出現(xiàn)身份切換錯(cuò)誤。
4 結(jié)束語(yǔ)
本文提出了多模態(tài)嵌入與軌跡修正的三維多目標(biāo)跟蹤,在基線模型的基礎(chǔ)上提出多模態(tài)嵌入學(xué)習(xí)網(wǎng)絡(luò),采用多尺度圖像特征增強(qiáng)網(wǎng)絡(luò)與多模態(tài)再融合模塊,構(gòu)建更高效的嵌入特征,同時(shí)采用多特征數(shù)據(jù)關(guān)聯(lián)算法,并修復(fù)錯(cuò)誤的目標(biāo)方向,提升了特征關(guān)聯(lián)精度,并且在傳統(tǒng)跟蹤管理方法的基礎(chǔ)上增加了雙流軌跡修正模塊,減少了軌跡碎片化的發(fā)生。同時(shí)本文提出的三維多目標(biāo)跟蹤算法在KITTI數(shù)據(jù)集上取得了良好的實(shí)驗(yàn)效果,證明了該方法的有效性。
參考文獻(xiàn):
[1]劉旖菲, 胡學(xué)敏, 陳國(guó)文, 等. 視覺(jué)感知的端到端自動(dòng)駕駛運(yùn)動(dòng)規(guī)劃綜述 [J]. 中國(guó)圖像圖形學(xué)報(bào), 2021, 26 (1): 49-66. (Liu Yifei, Hu Xuemin, Chen Guowen, et al. Review of end-to-end motion planning for autonomous driving with visual perception [J]. Journal of Image and Graphics, 2021, 26 (1): 49-66.)
[2]趙筱楠, 申丹虹. 基于地面先驗(yàn)的3D目標(biāo)檢測(cè)算法 [J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39 (1): 275-279. (Zhao Xiaonan, Shen Danhong. Ground-aware 3D object detection algorithm [J]. Application Research of Computers, 2022, 39 (1): 275-279.)
[3]汪明明, 陳慶奎, 付直兵. KPP3D: 基于關(guān)鍵點(diǎn)信息融合的3D目標(biāo)檢測(cè)模型 [J]. 計(jì)算機(jī)工程與應(yīng)用, 2023, 59 (17): 195-204. (Wang Mingming, Chen Qingkui, Fu Zhibing. KPP3D: key point painting for 3D object detection [J]. Computer Engineering and Applications, 2023, 59 (17): 195-204.)
[4]Weng Xinshuo, Wang Jianren, Held D, et al. 3D multi-object trac-king: a baseline and new evaluation metrics [C]// Proc of IEEE International Conference on Intelligent Robots and Systems. Piscataway, NJ: IEEE Press, 2020: 10359-10366.
[5]馬建紅, 王稀瑤, 陳永霞, 等. 自動(dòng)駕駛中圖像與點(diǎn)云融合方法研究綜述 [J]. 鄭州大學(xué)學(xué)報(bào): 理學(xué)版, 2022, 54 (6): 24-33. (Ma Jianhong, Wang Xiyao, Chen Yongxia, et al. A review of research on image and point cloud fusion methods in automatic driving [J]. Journal of Zhengzhou University: Natural Science Edition, 2022, 54 (6): 24-33.)
[6]Shi Shaoshuai, Wang Xiaogang, Li Hongsheng. PointRcnn: 3D object proposal generation and detection from point cloud [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2019: 770-779.
[7]Yin Tianwei, Zhou Xingqi, Krahenbuhl P. Center-based 3D object detection and tracking [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2021: 11784-11793.
[8]Benbarka N, Schroder J, Zell A. Score refinement for confidence-based 3D multi-object tracking [C]// Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway,NJ: IEEE Press, 2021: 8083-8090.
[9]Pang Ziqi, LiZhichao, Wang Naiyan. SimpleTrack: understanding and rethinking 3D multi-object tracking [C]// Proc of European Conference on Computer Vision. Berlin: Springer, 2022: 680-696.
[10]Rezatofighi H, Tsoi N, Gwak J Y, et al. Generalized intersection over union: a metric and a loss for bounding box regression [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2019: 658-666.
[11]Luo Chenxu, Yang Xiaodong, Yuille A. Exploring simple 3D multi-object tracking for autonomous driving [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press, 2021: 10488-10497.
[12]Zhang Wenwei, Zhou Hui, SunShuyang, et al. Robust multi-modalitymulti-object tracking [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press, 2019: 2365-2374.
[13]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition [C]// Proc of the 3rd International Conference on Learning Representations. 2015: 1-14.
[14]Charles R Q, Su Hao, Mo Kaichun , et al. PointNet: deep learning on point sets for 3D classification and segmentation [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press 2017: 652-660.
[15]Kim A,Osep A, Leal-Taixe L. EagerMOT: 3D multi-object tracking via sensor fusion [C]// Proc of IEEE International Conference on Robotics and Automation. Piscataway,NJ: IEEE Press, 2021: 11315-11321.
[16]Wang Xiyang, Fu Chunyun, Li Zhankun, et al. DeepFusionMOT: a 3D multi-object tracking framework based on camera-LiDAR fusion with deep association [J]. IEEE Robotics and Automation Letters, 2022, 7 (3): 8260-8267.
[17]Wang Li, Zhang Xinyu, QinWengyuan, et al. CAMO-MOT: combined appearance-motion optimization for 3D multi-object tracking with camera-lidar fusion [J]. IEEE Trans on Intelligent Transportation Systems, 2023, 24 (11): 11981-11996.
[18]Charles R Q, Yi Li, Su Hao, et al. PointNet++: deep hierarchical feature learning on point sets in a metric space [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 77-85.
[19]Lin T Y,Dollár P, Girshick R, et al. Feature pyramid networks for object detection [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2017: 2117-2125.
[20]Vielma J P. Mixed integer linear programming formulation techniques [J]. SIAM Review, 2015, 57(1): 3-57.
[21]Huang Kemiao, Hao Qi. Joint multi-object detection and tracking with camera-lidar fusion for autonomous driving [C]// Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, NJ: IEEE Press, 2021: 6983-6989.
[22]Geiger A, Lenz P, Urtasun R. Arewe ready for autonomous driving? The KITTI vision benchmark suite [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2012: 3354-3361.
[23]Luiten J,Osep A, Dendorfer P, et al. HOTA: a higher order metric for evaluating multi-object tracking [J]. International Journal of Computer Vision, 2021, 129 (2): 548-578.
[24]Wang Gaoang, Gu Renshu, Liu Zuozhu, et al. Track without appea-rance: learn box and tracklet embedding with local and global motion patterns for vehicle tracking [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 9876-9886.
[25]Shenoi A, Patel M, Gwak J, et al. JRMOT: a real-time 3D multi-object tracker and a new large-scale dataset [C]// Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscata-way,NJ: IEEE Press, 2020: 10335-10342.
[26]Pang Jiangmiao, Qiu Liulu, Li Xia, et al. Quasi-dense similarity learning for multiple object tracking [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2021: 164-173.
[27]Kim A,Braso G, Osep A, et al. PolarMOT: how far can geometric relations take us in 3D multi-object tracking? [C]// Proc of European Conference on Computer Vision. Berlin: Springer, 2022: 41-58.
[28]Liu Hao, Ma Yanni, Wang Hanyun, et al. AnchorPoint: query design for transformer-based 3D object detection and tracking [J]. IEEE Trans on Intelligent Transportation Systems, 2023, 24 (10): 10988-11000.
[29]Ma Yuanzhi, Zhang Jindong, Qin Guihe, et al. 3D multi-object trac-king based on dual-tracker and ds evidence theory [J]. IEEE Trans on Intelligent Vehicles, 2022, 8 (3): 2426-2436.