陸康亮,薛 俊,陶重犇,2*
1蘇州科技大學(xué)電子與信息工程學(xué)院,江蘇 蘇州 215009;2清華大學(xué)蘇州汽車(chē)研究院,江蘇 蘇州 215134
在計(jì)算機(jī)視覺(jué)領(lǐng)域中,目標(biāo)跟蹤在自動(dòng)駕駛中扮演著關(guān)鍵角色[1-2]。點(diǎn)云中的三維目標(biāo)跟蹤應(yīng)用更是至關(guān)重要[2-4]?,F(xiàn)有大多數(shù)三維目標(biāo)跟蹤算法都是直接處理點(diǎn)云信息[3],然而,點(diǎn)云的稀疏性和無(wú)序性給這項(xiàng)任務(wù)帶來(lái)了巨大的挑戰(zhàn),對(duì)于點(diǎn)云精確度的嚴(yán)重依賴(lài)也使得計(jì)算成本大幅度提高。本文將注意點(diǎn)從直接處理點(diǎn)云轉(zhuǎn)移至利用二維數(shù)據(jù)處理三維數(shù)據(jù)。
隨著視頻處理能力取得巨大的進(jìn)步,視頻目標(biāo)跟蹤任務(wù)成為了新熱點(diǎn),國(guó)內(nèi)外對(duì)目標(biāo)跟蹤進(jìn)行了深入的研究[5-7]。在相關(guān)跟蹤的方法中,如Jiang 等[8]提出的方法是一種基于注意力模型的分層多模式融合全卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建的RGB-D 跟蹤算法,能夠通過(guò)深度圖形獲得更豐富的語(yǔ)義感知;Muller 等[9]提出的方法從一系列RGB-D 幀中檢測(cè)每個(gè)幀中的目標(biāo)并學(xué)習(xí)預(yù)測(cè)目標(biāo)的幾何形狀以及到規(guī)范空間的密集對(duì)應(yīng)映射,為每幀中的目標(biāo)導(dǎo)出6DoF 姿勢(shì)和目標(biāo)在幀之間的對(duì)應(yīng)關(guān)系,從而在RGB-D 序列中提供穩(wěn)健的目標(biāo)跟蹤。上述算法都依賴(lài)于RGB-D 數(shù)據(jù),對(duì)于點(diǎn)云精度依賴(lài)性不高,因此計(jì)算成本低。此外,He 等[10]提出了一種可學(xué)習(xí)圖匹配方法的多目標(biāo)跟蹤,圖匹配方法著重于軌跡和檢測(cè)之間的關(guān)系。然而這些算法仍存在光照遮擋等問(wèn)題導(dǎo)致的目標(biāo)丟失情況,因此本文將注重優(yōu)化跟蹤任務(wù)中的目標(biāo)丟失問(wèn)題。
為了從數(shù)據(jù)中挖掘信息,國(guó)內(nèi)外研究人員引入了自監(jiān)督方法[11-12]。許多新的跟蹤方法通過(guò)多模態(tài)融合來(lái)估計(jì)運(yùn)動(dòng),例如Luo 等[13]通過(guò)利用來(lái)自點(diǎn)云的免監(jiān)督信號(hào)和成對(duì)的相機(jī)圖像來(lái)通過(guò)自監(jiān)督純粹地估計(jì)運(yùn)動(dòng)。研究人員還探索了利用視頻的空間信息來(lái)進(jìn)行學(xué)習(xí)的方法,如Han 等[14]通過(guò)對(duì)原始視頻進(jìn)行自監(jiān)督的對(duì)比學(xué)習(xí),強(qiáng)化視頻目標(biāo)的表示,從而進(jìn)行動(dòng)作識(shí)別;Wang 等[15]采用自監(jiān)督學(xué)習(xí)的方法來(lái)訓(xùn)練局部相關(guān)性模塊,使得模型對(duì)相似物體的判別能力更強(qiáng)。然而,上述算法運(yùn)算量大,并且無(wú)法滿(mǎn)足目標(biāo)跟蹤所需的實(shí)時(shí)性要求。因此,本文將結(jié)合自監(jiān)督優(yōu)化方法設(shè)計(jì)一種跟蹤器,并用于優(yōu)化跟蹤任務(wù)中的實(shí)時(shí)性。
針對(duì)上述問(wèn)題,本文提出了一種基于融合空間掩膜預(yù)測(cè)與點(diǎn)云投影的多目標(biāo)跟蹤算法。算法模型主要在時(shí)序跟蹤器前增加第一層掩膜輸入以提高目標(biāo)初始位置的準(zhǔn)確性。其次,使用卷積神經(jīng)網(wǎng)絡(luò)為主導(dǎo)的跟蹤器進(jìn)行跟蹤,優(yōu)化每幀的單獨(dú)實(shí)例分割,以提高跟蹤器的速度,從而提高實(shí)時(shí)性效果。與之前的自監(jiān)督方法類(lèi)似,跟蹤器對(duì)目標(biāo)掩膜的空間特征學(xué)習(xí),預(yù)測(cè)目標(biāo)在后續(xù)幀的具體位置,從而獲得整個(gè)視頻序列對(duì)于目標(biāo)的跟蹤掩膜,因此減少遮擋對(duì)跟蹤目標(biāo)的丟失情況。還設(shè)置了一個(gè)驗(yàn)證層,將抽取樣例掩膜輸出與跟蹤器對(duì)應(yīng)圖片輸出進(jìn)行比較驗(yàn)證,以減少檢測(cè)不細(xì)致導(dǎo)致的跟蹤丟失。最后,將二維視頻處理后獲得的掩膜數(shù)據(jù),用點(diǎn)云投影的辦法與三維雷達(dá)中的點(diǎn)云進(jìn)行匹配,投影至三維點(diǎn)云中以獲得三維目標(biāo)跟蹤。
創(chuàng)新點(diǎn)如下:1) 以卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測(cè)模塊為基層模塊,不直接使用實(shí)例分割模塊進(jìn)行跟蹤,減少掩膜提取量。2) 增加了一個(gè)預(yù)測(cè)模塊梯度損失函數(shù),以增加算法對(duì)于預(yù)測(cè)掩膜精準(zhǔn)度的把控,提高了算法對(duì)于預(yù)測(cè)出現(xiàn)差錯(cuò)所擁有的修正能力。3) 通過(guò)將二維跟蹤到的目標(biāo)掩膜數(shù)據(jù)投影到對(duì)應(yīng)的點(diǎn)云圖像上,不需要對(duì)于點(diǎn)云圖像進(jìn)行進(jìn)一步處理。
首先,本文利用空間位置預(yù)測(cè)模塊來(lái)保存跟蹤實(shí)例的位置信息,將序列視頻信息輸入算法跟蹤層,以獲得簡(jiǎn)單的跟蹤目標(biāo)信息。然后,通過(guò)基于FCOS[16]的EmbedMask[17]算法的掩膜分類(lèi)分支來(lái)預(yù)測(cè)檢測(cè)到的邊界框,并且生成實(shí)例特定的空間系數(shù)。在空間掩膜預(yù)測(cè)模塊中,針對(duì)邊界盒內(nèi)的每個(gè)子區(qū)域的空間進(jìn)行單獨(dú)的掩膜邊界框預(yù)測(cè),并通過(guò)每項(xiàng)單獨(dú)的映射預(yù)測(cè)組合來(lái)獲得最終實(shí)例掩膜預(yù)測(cè)。最后,通過(guò)確定信息的實(shí)例掩膜數(shù)據(jù)與雷達(dá)點(diǎn)云的關(guān)聯(lián)特征相對(duì)應(yīng),利用二維掩膜覆蓋確定三維點(diǎn)云中的目標(biāo)位置,算法框架圖如圖1 所示。
圖1 算法框架圖Fig.1 Algorithm frame diagram
掩膜預(yù)測(cè)模塊對(duì)同一物體不同幀的掩膜信息進(jìn)行標(biāo)定,從而獲得每幀之間對(duì)于同一目標(biāo)的跟蹤定位。本模塊對(duì)第一幀圖像掩膜進(jìn)行提取工作,后續(xù)幀的掩膜信息通過(guò)預(yù)測(cè)形式進(jìn)行提取,這減少了提取圖像每幀掩膜信息和跟蹤對(duì)比所浪費(fèi)的大量算力。同時(shí),通過(guò)預(yù)測(cè)掩膜與驗(yàn)證幀掩膜的對(duì)比驗(yàn)證,這樣既保證了掩膜預(yù)測(cè)正確,也節(jié)省了算力并提高運(yùn)行速度,掩膜預(yù)測(cè)模型如圖2 所示。
圖2 掩膜預(yù)測(cè)模塊Fig.2 Mask prediction module
2.1.1 基掩膜提取
目標(biāo)檢測(cè)的任務(wù)是找出圖像中所有感興趣的目標(biāo),并確定其位置和大小,這是機(jī)器視覺(jué)領(lǐng)域的核心問(wèn)題之一[18]。隨著深度學(xué)習(xí)的不斷發(fā)展,實(shí)例分割算法開(kāi)始出現(xiàn),其目的是指定一個(gè)像素級(jí)的掩膜來(lái)對(duì)圖像中的每個(gè)目標(biāo)進(jìn)行定位和分類(lèi)。傳統(tǒng)的目標(biāo)檢測(cè)僅提供盒級(jí)定位信息,然而實(shí)例分割提供目標(biāo)輪廓級(jí)信息,從而能夠更好地提供目標(biāo)準(zhǔn)確的位置信息。目標(biāo)跟蹤器需要對(duì)于目標(biāo)捕捉擁有一定的實(shí)時(shí)性要求,然而Mask RCNN[19]算法存在無(wú)法保留精細(xì)掩膜和識(shí)別速度緩慢的弱點(diǎn),難以做到實(shí)時(shí)準(zhǔn)確的目標(biāo)識(shí)別。因此,采用可高速運(yùn)行并制作高分辨率掩膜的EmbedMask算法,這一優(yōu)化能夠快速地預(yù)處理圖像序列,從而提高每秒輸出幀數(shù)(frames per second,fps)。此外,由于選取EmbedMask 算法提供目標(biāo)跟蹤所需求的目標(biāo)位置信息,單階段方法減少了計(jì)算成本,從而能夠給予后續(xù)跟蹤器充足時(shí)間進(jìn)行幀與幀對(duì)比分析以做到實(shí)時(shí)化處理。
EmbedMask 算法是使用多任務(wù)丟失的端到端優(yōu)化,其損失函數(shù)被聯(lián)合優(yōu)化為
其中:除了FCOS 中原有的分類(lèi)損失Lcls和盒回歸損失Lbbox之外,還引入了額外的損失用于掩膜預(yù)測(cè)的Lmask和Lmatch。
2.1.2 掩膜預(yù)測(cè)模塊
掩膜預(yù)測(cè)模塊對(duì)序列圖像后續(xù)掩膜進(jìn)行預(yù)測(cè),使用一種特殊的循環(huán)神經(jīng)網(wǎng) 絡(luò)Long-Short Term Memory (LSTM)[20]的門(mén)控制去預(yù)測(cè)獲得最終的掩膜覆蓋。LSTM 的特點(diǎn)在于單個(gè)循環(huán)結(jié)構(gòu)內(nèi)部有四個(gè)狀態(tài),循環(huán)結(jié)構(gòu)之間將保持一個(gè)持久的單元狀態(tài)不斷傳遞下去,用于決定要遺忘或繼續(xù)傳遞下去的信息。通過(guò)各種狀態(tài)門(mén)之間的轉(zhuǎn)化,判斷該層是否選擇輸出或者跳轉(zhuǎn)到下一層。通過(guò)閥門(mén)的控制,使得LSTM 框架解決在訓(xùn)練過(guò)程中數(shù)據(jù)量過(guò)大而造成的梯度爆炸問(wèn)題,這種算法很好地應(yīng)用到序列圖像中的目標(biāo)數(shù)據(jù)關(guān)聯(lián)計(jì)算。
當(dāng)建立多目標(biāo)跟蹤外觀模型時(shí),可以認(rèn)為ct代表目標(biāo)外觀的存儲(chǔ)模板,通過(guò)外觀的數(shù)據(jù)變化量,決定是否將門(mén)ot輸出之前存儲(chǔ)的外觀ct-1,以決定當(dāng)前輸出ht。LSTM 使用以下規(guī)則運(yùn)行:
其中:? 表示哈達(dá)瑪積(Hadamard product)。
基于LSTM 的空間掩膜預(yù)測(cè)模塊如圖3 所示。在給定輸入的序列圖像的情況下,預(yù)測(cè)模塊以邊界框、基掩膜和空間系數(shù)為輸入,預(yù)測(cè)最終的掩膜。首先,通過(guò)基掩膜和空間系數(shù)定義模型中的外觀輸入ct并存儲(chǔ)第一幀的外觀輸入ot+1,同時(shí)與第二幀的外觀輸入對(duì)比。然后,結(jié)合外觀數(shù)據(jù)的變化量決定是否將門(mén)ot輸出預(yù)測(cè)外觀ot+2。最后,將新獲得的外觀輸出和第三幀輸入的外觀數(shù)據(jù)進(jìn)行比較獲得一個(gè)新的Lcenter值以表達(dá)空間預(yù)測(cè)模塊的梯度下降性能。
圖3 預(yù)測(cè)幀模塊Fig.3 Prediction module
其中:σ 為掩膜輸入的規(guī)范化表示,B是整個(gè)圖像所擁有的m個(gè)基掩膜輸入,Ci表示每張圖片所獲得的外觀輸入。Mi表示所有邊界框的映射,已獲得最終掩膜所擁有的邊界框形狀和位置信息。將預(yù)測(cè)邊界框映射中心點(diǎn)與同幀邊界框輸入中心點(diǎn)信息對(duì)比,獲得對(duì)于空間位置信息的變化梯度增加變量Lcenter如式(4),以確保邊界框預(yù)測(cè)合理。
2.1.3 二維目標(biāo)跟蹤器
本文采用EmbedMask 算法進(jìn)行序列圖像的邊界框及基掩膜特征提取,只使用基掩膜和目標(biāo)的邊界框判定,減少了實(shí)例分割模塊對(duì)于每一幀圖像中每一個(gè)目標(biāo)的掩膜分割。不使用每幀的掩膜覆蓋輸出作為跟蹤器的輸入,避免了輸入數(shù)據(jù)量過(guò)大而導(dǎo)致的梯度爆炸問(wèn)題,同時(shí)也減少了輸入量遞增所產(chǎn)生的檢測(cè)速度極度下降的情況。其次,將輸入的序列圖像邊界框判定以及基掩膜作為外觀總特征,輸入空間掩膜預(yù)測(cè)模型中,通過(guò)LSTM 模型對(duì)于每幀圖像外觀特征的變化進(jìn)行一定量約束,以門(mén)類(lèi)型的決策進(jìn)行輸出判斷。然后,對(duì)后續(xù)圖像的掩膜輸出進(jìn)行預(yù)測(cè),以獲得最終的掩膜輸出,從而實(shí)現(xiàn)多目標(biāo)跟蹤器。最后,通過(guò)驗(yàn)證幀的掩膜輸入作為判據(jù),以確保輸出的掩膜幀跟蹤目標(biāo)的魯棒性。通過(guò)這種優(yōu)化減少一定量的特征輸入并確保算法不失準(zhǔn)確性,為提高實(shí)時(shí)速率提供了保障。
本算法采用實(shí)例分割檢測(cè)模塊與LSTM 空間掩膜預(yù)測(cè)模塊融合的多目標(biāo)跟蹤器。通過(guò)將不同幀的視頻信息作為輸入Σpi,最終獲得的掩膜 Σyi為輸出,得出以下算法:
三維點(diǎn)云數(shù)據(jù)存在處理數(shù)據(jù)量大和處理難度高的問(wèn)題,然而二維圖像處理技術(shù)較為成熟,并且可以通過(guò)提升硬件性能來(lái)提高處理速度。因此,本文通過(guò)對(duì)二維相機(jī)數(shù)據(jù)與三維雷達(dá)點(diǎn)云數(shù)據(jù)的對(duì)比匹配,將二維圖像的跟蹤數(shù)據(jù)投影到三維點(diǎn)云中。點(diǎn)云投影的方法不僅能夠讓自動(dòng)駕駛車(chē)輛對(duì)于道路情況擁有更好的信息感知能力,還可以減少點(diǎn)云計(jì)算并提高算法的實(shí)時(shí)性,點(diǎn)云投影模塊如圖4 所示。
圖4 點(diǎn)云投影Fig.4 Point cloud projection
2.2.1 三維雷達(dá)與長(zhǎng)焦相機(jī)的聯(lián)合標(biāo)定
激光雷達(dá)和單目相機(jī)之間的標(biāo)定是傳感器所必需的,需要獲取相機(jī)與激光雷達(dá)外參,將點(diǎn)云三維坐標(biāo)系下的點(diǎn)投影到相機(jī)三維坐標(biāo)系下。還需要通過(guò)相機(jī)標(biāo)定獲得相機(jī)內(nèi)參,將相機(jī)三維坐標(biāo)系下的點(diǎn)投影到成像平面。通過(guò)調(diào)整標(biāo)定板的角度可以將三維激光雷達(dá)數(shù)據(jù)與相機(jī)數(shù)據(jù)相轉(zhuǎn)換,以確定雷達(dá)與相機(jī)內(nèi)參統(tǒng)一,標(biāo)定板效果如圖5 所示。
圖5 標(biāo)定板效果Fig.5 Calibration board effect
在聯(lián)合標(biāo)定時(shí),會(huì)使用基于投影的方法估計(jì)激光雷達(dá)點(diǎn)云和相機(jī)圖像平面中的一組目標(biāo)特征??梢酝ㄟ^(guò)以下方式對(duì)應(yīng),找到激光雷達(dá)到相機(jī)的變換:
其中:Xi是雷達(dá)特征的(均勻)坐標(biāo),Yi是攝像機(jī)特征的坐標(biāo),P為“投影圖”,是雷達(dá)框架的帶有旋轉(zhuǎn)矩陣和平移的攝像機(jī)幀變換,ddist是距離或誤差的度量。
在一個(gè)確定目標(biāo)頂點(diǎn)的新方法中,令Pr表示目標(biāo)的雷達(dá)點(diǎn)云,并將三維點(diǎn)的集合設(shè)為Xi,使Pr={Xi}Ni=1,其中N是目標(biāo)上的點(diǎn)數(shù)。對(duì)于外部校準(zhǔn)問(wèn)題,需要估計(jì)雷達(dá)框架中的目標(biāo)頂點(diǎn)。
對(duì)于a>0 和 λ ∈R有:
秀麗隱桿線(xiàn)蟲(chóng)是一種重要的模式生物,以大腸桿菌OP50為食。它具有結(jié)構(gòu)簡(jiǎn)單、身體透明、易于觀察、生命周期短、子代數(shù)目多等生物學(xué)特征[4],并與人類(lèi)脂肪代謝路徑相似,各關(guān)鍵步驟的酶相似度較高[5]。通過(guò)線(xiàn)蟲(chóng)的生理生化研究,有助于闡明并揭示食品中功能活性成分對(duì)健康的影響及作用機(jī)制。L-阿拉伯糖作為一種食品中重要的代糖來(lái)源,目前在模式生物線(xiàn)蟲(chóng)中的研究較少。因此,本試驗(yàn)擬通過(guò)研究 L-阿拉伯糖對(duì)秀麗隱桿線(xiàn)蟲(chóng)生長(zhǎng)發(fā)育和脂肪合成能力的影響,為進(jìn)一步探索開(kāi)發(fā)其功能活性,并揭示其健康作用機(jī)制提供理論和試驗(yàn)基礎(chǔ)。
其中:d由(正方形)目標(biāo)的大小確定,唯一的調(diào)整參數(shù)? >0(即理想目標(biāo)的厚度)。并定義估計(jì)的目標(biāo)頂點(diǎn)為
首先通過(guò)三維雷達(dá)和相機(jī)的聯(lián)合標(biāo)定,獲取了估計(jì)的目標(biāo)頂點(diǎn)。有了對(duì)應(yīng)關(guān)系后,下一步就是將雷達(dá)目標(biāo)的頂點(diǎn)[xi yi zi1 ]T=Xi匹配到圖像坐標(biāo)中。
2.2.2 點(diǎn)云投影算法
假設(shè)已確定目標(biāo)在雷達(dá)和相機(jī)圖像平面中的頂點(diǎn)及其對(duì)應(yīng)關(guān)系,用最小化相應(yīng)角的歐幾里得距離來(lái)表示外在變換的優(yōu)化。同時(shí),將對(duì)應(yīng)投影多邊形的并集和交集最大化。其中是攝像機(jī)角點(diǎn)公式
最后,通過(guò)“交叉驗(yàn)證”的形式評(píng)估了此對(duì)應(yīng)關(guān)系式。以循環(huán)方式使用一個(gè)或多個(gè)場(chǎng)景中的數(shù)據(jù)估算外在變換,然后評(píng)估剩下的場(chǎng)景。
當(dāng)獲得相機(jī)與雷達(dá)點(diǎn)云的對(duì)應(yīng)關(guān)系后,將識(shí)別所得掩膜數(shù)據(jù)投影到雷達(dá)點(diǎn)云之中,通過(guò)球投影算法,將雷達(dá)中目標(biāo)所對(duì)應(yīng)點(diǎn)云數(shù)據(jù)進(jìn)行渲染標(biāo)注。以投影雷達(dá)點(diǎn)云的方式獲得目標(biāo)在三維點(diǎn)云圖像中位置信息,投影關(guān)系如圖6 所示。
圖6 掩膜投影到點(diǎn)云中Fig.6 Mask projection
本文基于百度阿波羅數(shù)據(jù)進(jìn)行實(shí)驗(yàn)?zāi)P陀?xùn)練。在訓(xùn)練模型中輸入如圖7 的一組序列的視頻數(shù)據(jù)和相對(duì)應(yīng)的掩膜數(shù)據(jù)進(jìn)行訓(xùn)練,最終獲得跟蹤器的權(quán)重文件。將阿波羅數(shù)據(jù)集的實(shí)例分割樣本分為進(jìn)行了訓(xùn)練、測(cè)試和驗(yàn)證三部分,對(duì)訓(xùn)練集進(jìn)行了培訓(xùn),并且在測(cè)試集和驗(yàn)證集中進(jìn)行了訓(xùn)練結(jié)果的分析,再對(duì)邊界框使用空間掩膜預(yù)測(cè)訓(xùn)練線(xiàn)性組合獲得最終掩碼,從而完善跟蹤器。
圖7 向模型中輸入序列RGB 和掩膜數(shù)據(jù)。(a)原始序列RGB 數(shù)據(jù);(b)對(duì)應(yīng)序列掩膜數(shù)據(jù)Fig.7 Input sequence RGB and mask data into the model.(a) Original sequence RGB data;(b) Corresponding sequence mask data
在訓(xùn)練模型中輸入所需數(shù)據(jù),通過(guò)不斷迭代和訓(xùn)練獲得loss 曲線(xiàn)如圖8 所示。其中圖8(a)顯示了算法定義的四個(gè)不同loss 值所產(chǎn)生的曲線(xiàn)下降,圖8(b)顯示了四個(gè)loss 值總和所展現(xiàn)的曲線(xiàn)梯度下降。通過(guò)曲線(xiàn)可以看出梯度下降在一開(kāi)始表現(xiàn)得非常迅速,到后期逐漸趨于平緩。本算法通過(guò)四個(gè)loss 值展示訓(xùn)練效果,最后將其總結(jié)成最終的loss 值。
圖8 損失函數(shù)曲線(xiàn)。(a) 四種定義損失;(b) 總算法損失Fig.8 Loss function curve.(a) Four definitions of loss;(b) Total algorithm loss
在掩膜提取部分,本文算法與主流實(shí)例分割算法進(jìn)行對(duì)比,結(jié)果如表1 所示??梢钥闯霰疚难谀ぬ崛∷惴ㄔ谧R(shí)別精確度方面和主流的算法Mask R-CNN 相近,并且實(shí)時(shí)速度提升顯著,與主流算法YOLACT相近。通過(guò)上述實(shí)驗(yàn)分析,可以體現(xiàn)出本算法在保證精度穩(wěn)定情況下,提高了算法的實(shí)時(shí)性。
表1 本文與其他算法對(duì)比Table 1 This algorithm is compared with other algorithms
利用PR 曲線(xiàn)驗(yàn)證分類(lèi)狀況,并與Yolo-V3[22]、Faster-RCNN[23],MS-RCNN[24]進(jìn)行比較,PR 曲線(xiàn)如圖9 所示。其中Precision 能夠體現(xiàn)模型分類(lèi)為正樣本的數(shù)量中分類(lèi)正確的比例,其計(jì)算方法為在設(shè)定某一閾值的情況下,正樣本的預(yù)測(cè)數(shù)除以被預(yù)測(cè)為正樣本的數(shù)量(包含錯(cuò)誤預(yù)測(cè)為正樣本的負(fù)樣本)。Recall作為召回率,計(jì)算方法為在設(shè)定某一閾值的情況下,分類(lèi)正確的樣本除以所有正樣本的數(shù)量。因此,不同的閾值會(huì)得到不同的Precision 和Recall 的值,由此繪制PR 曲線(xiàn)??梢钥闯?,本算法相較于這些成熟的目標(biāo)檢測(cè)算法具有良好的收斂性。在不同閾值下,本方法能夠更好地兼顧精確率和召回率,且比其他方法收斂地更慢。
圖9 PR 曲線(xiàn)對(duì)比Fig.9 PR curve comparison
本文主要解決的是遮擋以及光度變化所導(dǎo)致的跟蹤目標(biāo)丟失而引起的跟蹤器失靈的問(wèn)題,因此本算法與其他算法在不同的距離、遮擋度、光度以及模糊度下進(jìn)行對(duì)比實(shí)驗(yàn)。結(jié)果如圖10 所示,從圖像看出,對(duì)于完全遮擋和完全圖像損失,所有算法都完全丟失目標(biāo)無(wú)法獲得跟蹤。然而,對(duì)于圖像一般變化時(shí),本文跟蹤器的精確度明顯高于另外兩種跟蹤器。特別對(duì)于遮擋情況,本算法能夠在完全遮擋情況下,通過(guò)預(yù)測(cè)幀與幀的關(guān)聯(lián)提供目標(biāo)跟蹤功能。這可以體現(xiàn)出本算法的魯棒性強(qiáng),對(duì)于遮擋問(wèn)題的解決較為明顯。
圖10 三種算法對(duì)于不同距離、遮擋度、光度以及模糊度的精確度Fig.10 The accuracy of the three algorithms for different distance,occlusion,luminosity and ambiguity
本文算法在傳統(tǒng)的目標(biāo)跟蹤框架基礎(chǔ)上,優(yōu)化了遮擋導(dǎo)致的目標(biāo)丟失問(wèn)題。與其他算法在MOT 數(shù)據(jù)集檢測(cè),結(jié)果如圖11 所示,在圖中可以看出本算法的跟蹤性能不輸于其他傳統(tǒng)方法,尤其在KITTI 數(shù)據(jù)集中,本算法效果明顯優(yōu)于其他算法。
圖11 多種目標(biāo)跟蹤算法在MOT 上的性能Fig.11 Performance of multiple target tracking algorithms on MOT
本算法與一些主流的多目標(biāo)跟蹤算法做了對(duì)比,結(jié)果如表2 所示。在針對(duì)車(chē)輛的KITTI 多目標(biāo)跟蹤數(shù)據(jù)集中,本算法的分割準(zhǔn)確度優(yōu)于其他所示算法。在針對(duì)行人的KITTI 多目標(biāo)跟蹤數(shù)據(jù)集中,本算法效果與其他算法相近。由于本算法主要針對(duì)目標(biāo)車(chē)輛進(jìn)行跟蹤,行人的外形變化可能會(huì)導(dǎo)致一定丟失目標(biāo),使得準(zhǔn)確度略低于現(xiàn)有多目標(biāo)跟蹤算法。由于本算法采用空間掩摸預(yù)測(cè)模型對(duì)目標(biāo)進(jìn)行跟蹤,在跟蹤精確度方面略低于其他算法,然而本文的主要目標(biāo)是提高算法對(duì)被遮擋目標(biāo)的跟蹤準(zhǔn)確度,略微的跟蹤精度下降不影響跟蹤器效果體現(xiàn)。
表2 性能指標(biāo)Table 2 Performance index
在阿波羅數(shù)據(jù)集中測(cè)試結(jié)果如圖12 所示,對(duì)于目標(biāo)的重疊等問(wèn)題顯示了良好的解決效果,所獲得的跟蹤目標(biāo)準(zhǔn)確并且掩膜覆蓋得完整良好。
圖12 阿波羅數(shù)據(jù)集測(cè)試效果Fig.12 Effect of Apollo dataset test
為了驗(yàn)證訓(xùn)練模型的魯棒性,使用阿波羅數(shù)據(jù)中訓(xùn)練所獲得的模型去測(cè)試KITTI 數(shù)據(jù)集。如圖13所示,對(duì)于不同情況的道路車(chē)輛狀況,本算法具有一定的兼容性,這也為實(shí)時(shí)性開(kāi)發(fā)奠定了良好的效果基礎(chǔ)。對(duì)于KITTI 數(shù)據(jù)集圖像分辨率問(wèn)題,采用了數(shù)據(jù)集匹配模型的方法進(jìn)行了測(cè)試,后續(xù)將優(yōu)化跟蹤器模型對(duì)于不同相機(jī)的兼容性,以獲得更好的實(shí)際使用效果。
圖13 KITTI 數(shù)據(jù)集測(cè)試效果Fig.13 Effect of KITTI dataset test
在BDD100K 數(shù)據(jù)集的多種經(jīng)典無(wú)人駕駛子數(shù)據(jù)集中進(jìn)行效果測(cè)試,可以更好地檢測(cè)出算法對(duì)于復(fù)雜多變的交通環(huán)境的跟蹤適應(yīng)能力。在圖14 的表現(xiàn)中可以看出,本算法兼容性良好,對(duì)于不同的相機(jī)拍攝環(huán)境因素都擁有很好的穩(wěn)定性,能夠準(zhǔn)確地檢測(cè)出所要求的多目標(biāo)跟蹤車(chē)輛。
圖14 BDD100K 數(shù)據(jù)集測(cè)試效果Fig.14 Effect of BDD100K dataset test
本文通過(guò)聯(lián)合標(biāo)定的方法,將每幀獲取的RGB目標(biāo)跟蹤掩膜與三維點(diǎn)云相匹配。以二維跟蹤掩膜獲取三維跟蹤目標(biāo)點(diǎn)云,從而獲得三維目標(biāo)跟蹤圖像。通過(guò)深度位置關(guān)系,可以使得自動(dòng)駕駛車(chē)輛獲得最為準(zhǔn)確的目標(biāo)信息,從而做出更好的決策。三維點(diǎn)云圖像如圖15 所示,可以看到算法擁有較為良好的匹配。
圖15 點(diǎn)云投影效果Fig.15 Effect of point cloud projection
本文使用一輛搭載了多傳感器的自動(dòng)駕駛汽車(chē)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)平臺(tái)如圖16,汽車(chē)擁有一個(gè)集合了短焦相機(jī)的32 線(xiàn)三維激光雷達(dá)、一個(gè)長(zhǎng)焦相機(jī)、兩個(gè)RTK 定位裝置和車(chē)頭的毫米波雷達(dá)。主要使用三維激光雷達(dá)以及長(zhǎng)焦相機(jī)進(jìn)行配合,對(duì)點(diǎn)云目標(biāo)進(jìn)行跟蹤處理。
圖16 實(shí)驗(yàn)平臺(tái)Fig.16 Experimental platform
實(shí)際道路測(cè)試在清華大學(xué)蘇州汽車(chē)研究院的試驗(yàn)場(chǎng)地道路上進(jìn)行,結(jié)果如圖17 所示。首先在ROS 系統(tǒng)中錄制實(shí)時(shí)道路數(shù)據(jù),然后使用本算法對(duì)數(shù)據(jù)進(jìn)行目標(biāo)跟蹤,最后可視化輸出最終結(jié)果。本文構(gòu)建的數(shù)據(jù)集輸入模型得到的檢測(cè)結(jié)果顯示,整個(gè)算法在實(shí)驗(yàn)平臺(tái)上運(yùn)行時(shí)間為32 ms,對(duì)于車(chē)輛跟蹤的平均精度達(dá)到81.63%。從可視化結(jié)果也可以看出,本算法對(duì)中遠(yuǎn)距離的車(chē)輛檢測(cè)效果良好,而對(duì)于近處的車(chē)輛,由于角度偏差較大存在丟失情況,需要進(jìn)一步修正。上述實(shí)驗(yàn)表明,該算法計(jì)算效率高,可以滿(mǎn)足實(shí)際路況下的實(shí)時(shí)檢測(cè)需求。
圖17 實(shí)際道路測(cè)試效果Fig.17 Effect of actual road experiment
本文提出基于掩摸預(yù)測(cè)與點(diǎn)云投影融合的多目標(biāo)跟蹤算法,很好地解決了目標(biāo)跟蹤中車(chē)輛重疊導(dǎo)致的目標(biāo)丟失問(wèn)題。在目標(biāo)跟蹤算法基礎(chǔ)上,融合了空間掩摸預(yù)測(cè)來(lái)優(yōu)化算法對(duì)于目標(biāo)的跟蹤效果,同時(shí)增加點(diǎn)云投影算法,將獲取二維數(shù)據(jù)投影到三維點(diǎn)云中,能夠更好地獲取所跟蹤的三維目標(biāo)信息。結(jié)果表明,算法很好地解決了車(chē)輛遮擋導(dǎo)致的目標(biāo)丟失問(wèn)題。本文在多種數(shù)據(jù)集中進(jìn)行跟蹤器驗(yàn)證,能夠很好地對(duì)多目標(biāo)車(chē)輛進(jìn)行跟蹤。同時(shí),算法在實(shí)際道路上進(jìn)行測(cè)試,有效地滿(mǎn)足了實(shí)際路況下的實(shí)時(shí)目標(biāo)跟蹤需求。后續(xù)將進(jìn)一步增高算法對(duì)多輛車(chē)、拐彎、變道及車(chē)的形狀突然變化情況處理的實(shí)時(shí)性和精準(zhǔn)度,并通過(guò)傳感器的邊緣計(jì)算以更好地輔助決策系統(tǒng)判斷。