王殿偉,方浩宇,劉 穎,伍世虔,謝永軍,宋海軍
(1.西安郵電大學(xué) 通信與信息工程學(xué)院,西安 710121; 2.武漢科技大學(xué) 信息科學(xué)與工程學(xué)院,武漢 430081;3.中國(guó)科學(xué)院 西安光學(xué)精密機(jī)械研究所,西安 710119)
目標(biāo)跟蹤是在視頻序列中給定第1幀目標(biāo)位置信息后,能夠估計(jì)之后視頻幀中同一目標(biāo)位置與尺度信息的算法,在智能交通系統(tǒng)、監(jiān)控系統(tǒng)等領(lǐng)域都有廣泛的應(yīng)用[1].目標(biāo)跟蹤算法受相似背景干擾、目標(biāo)遮擋、目標(biāo)尺度變化等因素的影響,導(dǎo)致精度較差和適用性較差,因此,如何提高目標(biāo)跟蹤算法魯棒性和準(zhǔn)確性是一項(xiàng)挑戰(zhàn)[2].
近些年來(lái)深度學(xué)習(xí)的運(yùn)用,使計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展更為迅速.Nam等[3]提出了MDNet,使用了卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用于學(xué)習(xí)目標(biāo)的通用特征表示.Yun等[4]結(jié)合監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)提出ADNet,訓(xùn)練網(wǎng)絡(luò)學(xué)習(xí)識(shí)別目標(biāo),通過(guò)強(qiáng)化學(xué)習(xí)預(yù)測(cè)目標(biāo)的變化姿態(tài)及尺度,算法較好地解決了尺度變化的問(wèn)題,但精度不佳.Li等[5]將Siamese FC與RPN網(wǎng)絡(luò)相結(jié)合提出Siamese RPN,利用相關(guān)濾波的方法提升了跟蹤精度,具有實(shí)時(shí)的性能,但算法易受到背景的干擾.Jung等[6]在MDNet的基礎(chǔ)上提出RT-MDNet,設(shè)計(jì)損失函數(shù)和采用自適應(yīng)的RoIAlign,簡(jiǎn)化特征提取網(wǎng)絡(luò)結(jié)構(gòu),在保持了相同精度的同時(shí),將速度提升了近25倍,但是算法對(duì)于目標(biāo)尺度變化估計(jì)很局限,無(wú)法直接應(yīng)用于全景視頻圖像的目標(biāo)跟蹤.
針對(duì)上述問(wèn)題,本文提出了一種利用長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)改進(jìn)RT-MDNet的目標(biāo)跟蹤算法,改進(jìn)算法增大網(wǎng)絡(luò)的輸入以適應(yīng)全景圖像的輸入特征,調(diào)整生成樣本尺度,訓(xùn)練網(wǎng)絡(luò)能更好地適應(yīng)全景圖像的目標(biāo)形變,提高網(wǎng)絡(luò)跟蹤精度.在原有的網(wǎng)絡(luò)結(jié)構(gòu)中增加尺度變化模塊,利用LSTM網(wǎng)絡(luò)學(xué)習(xí)尺度變化過(guò)程,結(jié)合之前視頻幀的位置信息,自適應(yīng)地調(diào)整當(dāng)前視頻幀的尺度變化程度,以適應(yīng)全景圖像中目標(biāo)跟蹤的尺度變化和目標(biāo)形變問(wèn)題.算法很好地提高了跟蹤精度,保持了一定的運(yùn)算速度.
全景數(shù)據(jù)具有更高的分辨率,同時(shí)伴隨著更復(fù)雜的場(chǎng)景和更高的計(jì)算要求,目標(biāo)對(duì)象與攝像頭相對(duì)運(yùn)動(dòng)時(shí),距離的變化在跟蹤中會(huì)以尺度變化的方式反映出來(lái),當(dāng)目標(biāo)對(duì)象與攝像頭距離越靠近,這種尺度變化程度會(huì)更嚴(yán)重[7].RT-MDNet算法對(duì)于尺度變化的映射較為簡(jiǎn)單,不能很好地適應(yīng)全景視頻中的變化幅度,訓(xùn)練RT-MDNet用于全景視頻序列的目標(biāo)跟蹤時(shí),實(shí)驗(yàn)結(jié)果如圖1所示.
圖1 不同場(chǎng)景下出現(xiàn)的尺度變化問(wèn)題
圖1中為原網(wǎng)絡(luò)輸出結(jié)果與真實(shí)值,實(shí)驗(yàn)結(jié)果覆蓋的多個(gè)場(chǎng)景均出現(xiàn)了很大程度的尺度變化,而改進(jìn)前原網(wǎng)絡(luò)應(yīng)對(duì)尺度變化的能力很弱,需要分析全景圖像成像方式和數(shù)據(jù)特性,針對(duì)全景數(shù)據(jù)調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),使其具有更好的適用性和應(yīng)對(duì)尺度變化的能力.
RT-MDNet使用BoundingBox regression方法對(duì)邊框進(jìn)行調(diào)整,BoundingBox regression根據(jù)第1幀真實(shí)值和預(yù)選值做線(xiàn)性映射改善目標(biāo)尺度變化.在全景視頻中尺度隨著目標(biāo)的運(yùn)動(dòng)有規(guī)律的變化,在跟蹤過(guò)程中僅使用第1幀做線(xiàn)性映射難以估計(jì)目標(biāo)的尺度變化.針對(duì)已有算法應(yīng)用于全景圖像目標(biāo)跟蹤時(shí),跟蹤精度較低且尺度變化適應(yīng)性差的問(wèn)題,提出了一種基于改進(jìn)RT-MDNet的全景視頻目標(biāo)跟蹤算法.隨著視頻序列的移動(dòng),依據(jù)LSTM網(wǎng)絡(luò)擁有長(zhǎng)時(shí)間記憶單元的優(yōu)勢(shì),結(jié)合不同頻幀之間的尺度變化信息,利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)集中尺度變化的方式,算法的整體流程如圖2所示.
由圖2可知輸入圖像經(jīng)過(guò)共享的3個(gè)卷積層提取特征圖,經(jīng)過(guò)Adaptive RoIAlign提取出預(yù)選框特征送入全連接層區(qū)分前景背景,最后目標(biāo)框經(jīng)過(guò)LSTM網(wǎng)絡(luò)自適應(yīng)的選取目標(biāo)框尺度,LSTM網(wǎng)絡(luò)輸出最終的改進(jìn)結(jié)果.網(wǎng)絡(luò)整體參數(shù)針對(duì)全景數(shù)據(jù)進(jìn)行改進(jìn),使網(wǎng)絡(luò)更加適用全景數(shù)據(jù)的特性,使用Adaptive RoIAlign進(jìn)行特征提取降低了計(jì)算成本減少了卷積過(guò)程損耗,利用區(qū)域間的損失函數(shù)加強(qiáng)了網(wǎng)絡(luò)對(duì)于相似目標(biāo)的區(qū)分能力,提升了網(wǎng)絡(luò)的跟蹤精度.
圖2 本文算法整體網(wǎng)絡(luò)框架
RT-MDNet的損失函數(shù)引入了實(shí)例,在區(qū)分目標(biāo)背景的同時(shí),可較好地在特征空間中將不同視頻序列的目標(biāo)進(jìn)行區(qū)分.RT-MDNet的最后一個(gè)全連接層根據(jù)輸入的視頻序列在線(xiàn)調(diào)整參數(shù),輸出網(wǎng)絡(luò)得分,并通過(guò)Softmax區(qū)分目標(biāo)對(duì)象與背景干擾,通過(guò)另一個(gè)Softmax區(qū)分不同視頻域之間的目標(biāo)類(lèi).整體的損失函數(shù)L為
L=Lcls+α·Linst,
(1)
式中Lcls和Linst分別為目標(biāo)背景二分類(lèi)和實(shí)例嵌入的損失函數(shù),α是控制兩個(gè)損失函數(shù)之間的超參數(shù).
(2)
式中:yi∈{0,1}2×D是真實(shí)值的one-hot編碼,對(duì)應(yīng)在視頻序列d中c個(gè)類(lèi)別的輸出為1或是0.實(shí)例間的損失函數(shù)由下式給出:
(3)
式中:+d為損失函數(shù)中實(shí)例嵌入的損失只由正樣本給出,算法引入了當(dāng)前序列的實(shí)例特征,使當(dāng)前序列中的目標(biāo)分?jǐn)?shù)變大,其他序列目標(biāo)分?jǐn)?shù)變小,用以區(qū)分其他類(lèi)似對(duì)象對(duì)目標(biāo)的影響.
目標(biāo)跟蹤與目標(biāo)檢測(cè)中常用RoIPooling作為區(qū)域特征的映射方式[4,8],通過(guò)RoIPooling將目標(biāo)預(yù)選區(qū)域通過(guò)卷積的方式映射到固定尺寸的特征圖,然后進(jìn)入全連接層進(jìn)行分類(lèi)和預(yù)選框回歸操作.RoIPooling的局限性在于,映射的過(guò)程中會(huì)出現(xiàn)兩次量化的過(guò)程,量化的過(guò)程會(huì)損失掉一部分特征信息.目標(biāo)足夠大的時(shí)候這種損失可以忽略,然而全景視頻中由于其成像特性,距離稍遠(yuǎn)的目標(biāo)會(huì)呈現(xiàn)得很小,在持續(xù)的目標(biāo)跟蹤中細(xì)小的誤差將會(huì)持續(xù)累積,小目標(biāo)出現(xiàn)頻繁時(shí)這種損失對(duì)原有特征產(chǎn)生很大的影響從而導(dǎo)致目標(biāo)丟失.
為了解決這一問(wèn)題,MaskR-CNN[9]對(duì)RoIPooling改進(jìn),提出了RoIAlign,在遍歷預(yù)選框時(shí)不再進(jìn)行量化操作,而是通過(guò)雙線(xiàn)性插值來(lái)得到近似特征,以實(shí)現(xiàn)對(duì)目標(biāo)更精準(zhǔn)地定位.RT-MDNet采用的Adaptive RoIAlign方式與MaskR-CNN相似,雙線(xiàn)性插值的步長(zhǎng)由輸出的RoI feature的大小決定,顯著提高了跟蹤算法的性能.RoIAlign整體流程如圖3所示.
圖3中預(yù)選框經(jīng)過(guò)卷積提取到的RoI尺度為W×H,預(yù)期經(jīng)過(guò)RoIAlign得到的RoI尺度為W′×H′,[·]是舍入算子通過(guò)卷積操作得到最終的輸出.Adaptive RoIAlign圖層生成7×7的特征圖,并在圖層之后應(yīng)用Maxpooling最終生成3×3的特征圖.在本文算法中采用Adaptive RoIAlign方法映射特征圖,加強(qiáng)算法對(duì)于全景視頻中小目標(biāo)跟蹤的魯棒性.
Hochreiter等[10]于1997年在RNN網(wǎng)絡(luò)基礎(chǔ)上提出LSTM網(wǎng)絡(luò).LSTM通過(guò)引入更新門(mén)、遺忘門(mén)和輸出門(mén),同時(shí)考慮了時(shí)間序列的機(jī)制,解決了RNN網(wǎng)絡(luò)中的梯度消失問(wèn)題,LSTM網(wǎng)絡(luò)已經(jīng)在目標(biāo)檢測(cè),目標(biāo)跟蹤領(lǐng)域中取得了很好的成果[11].在跟蹤中對(duì)目標(biāo)框進(jìn)行調(diào)整時(shí)如果只知道當(dāng)前輸入,所輸入的信息對(duì)尺度變化的估計(jì)是不夠精確的,利用LSTM的記憶單元連接先前的信息結(jié)合到當(dāng)前任務(wù)中,可以更好地調(diào)整原始網(wǎng)絡(luò)的輸出目標(biāo)框尺度.
圖3 Adaptive RoIAlign特征映射流程
LSTM在t時(shí)刻隱藏單元為:
Γu=σ(Wu[a〈t-1〉,x〈t〉]+bu),
(4)
Γf=σ(Wf[a〈t-1〉,x〈t〉]+bf),
(5)
Γo=σ(Wo[a〈t-1〉,x〈t〉]+bo).
(6)
式中:Γu、Γf和Γo分別為更新門(mén)、遺忘門(mén)和輸出門(mén),σ為sigmoid激活函數(shù),a〈t-1〉為上一時(shí)刻的輸出,x〈t〉為當(dāng)前時(shí)刻的輸入,Wu、Wf、Wo和bu、bf、bo分別是不同門(mén)的參數(shù)與偏差項(xiàng).更新門(mén)和遺忘門(mén)控制記憶細(xì)胞的更新,更新門(mén)記錄當(dāng)前的尺度,遺忘門(mén)選擇保留更顯著的特征,在記憶細(xì)胞中保留之前視頻幀的尺度變化,記憶細(xì)胞公式由下式給出:
(7)
(8)
a〈t〉=Γo*tanhc〈t〉,
(9)
式中:c〈t〉是經(jīng)過(guò)輸出門(mén)Γo得到當(dāng)前網(wǎng)絡(luò)的輸出a〈t〉.本文設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)由3層LSTM和1個(gè)全連接層組成,整體的預(yù)測(cè)網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示.
圖4 LSTM網(wǎng)絡(luò)結(jié)構(gòu)
目標(biāo)在全景視頻中的尺度變化方式受其位置因素的影響,變化模式較為單一.深層次的LSTM網(wǎng)絡(luò)利用多層的神經(jīng)網(wǎng)絡(luò)從多個(gè)不同維度理解尺度特征的變化,在多個(gè)層次中分解輸入尺度特征,低維度輸入映射到高維度相當(dāng)于將低維特征分解到多個(gè)維度,再利用高維度的特征擬合全景視頻尺度變化方式,在高維空間中學(xué)習(xí)運(yùn)動(dòng)規(guī)律,更容易學(xué)習(xí)并且能達(dá)到更高的準(zhǔn)確率.隨著視頻幀的進(jìn)行,LSTM學(xué)習(xí)在不同時(shí)刻多維度的尺度表達(dá)并將其特征保留在記憶細(xì)胞中,從高維度學(xué)習(xí)解決尺度變化的問(wèn)題.
神經(jīng)網(wǎng)絡(luò)中增加網(wǎng)絡(luò)層數(shù)可以擬合更加復(fù)雜的映射,因此增加神經(jīng)網(wǎng)絡(luò)深度是網(wǎng)絡(luò)搭建中有效的優(yōu)化方式.但是過(guò)深的神經(jīng)網(wǎng)絡(luò)不僅會(huì)造成過(guò)擬合,而且會(huì)造成計(jì)算資源的浪費(fèi).為平衡網(wǎng)絡(luò)計(jì)算復(fù)雜度以及追蹤的精度,本文設(shè)置3組實(shí)驗(yàn)來(lái)驗(yàn)證LSTM的層數(shù)選擇,LSTM分別為2層、3層、4層.網(wǎng)絡(luò)中使用盡可能少的神經(jīng)元數(shù)量達(dá)到需求的準(zhǔn)確率是搭建結(jié)構(gòu)中的重點(diǎn).在實(shí)驗(yàn)中采用Adam算法優(yōu)化網(wǎng)絡(luò)訓(xùn)練,針對(duì)歸一化的數(shù)據(jù)采用tanh激活函數(shù),在多次實(shí)驗(yàn)中衡量損失值的變化趨勢(shì)調(diào)整學(xué)習(xí)率和訓(xùn)練批量,使損失值下降的更為平滑,并且梯度向最優(yōu)方向迭代.通過(guò)實(shí)驗(yàn)對(duì)比網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)對(duì)精度的影響,本算法選擇先分解輸入特征再聚合的網(wǎng)絡(luò)結(jié)構(gòu),最后通過(guò)全連接層輸出目標(biāo)框.圖5為選取一部分實(shí)驗(yàn)數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)預(yù)訓(xùn)練的實(shí)驗(yàn)結(jié)果圖.
圖5 不同網(wǎng)絡(luò)層數(shù)損失值和精度結(jié)果對(duì)比
圖5中分別代表2層、3層、4層LSTM網(wǎng)絡(luò)在訓(xùn)練中的損失值與精度的變化曲線(xiàn).3次實(shí)驗(yàn)中均選擇相同的實(shí)驗(yàn)數(shù)據(jù)和網(wǎng)絡(luò)參數(shù),2層LSTM網(wǎng)絡(luò)損失值局部收斂得更快一些,在精度和損失值趨于平緩時(shí)準(zhǔn)確率并不理想.2層網(wǎng)絡(luò)在訓(xùn)練中受深度的限制,精度提升緩慢原因在于提取的特征少,處于當(dāng)前最優(yōu)的情況,損失值不再下降.3層和4層的LSTM趨近于收斂后,可以達(dá)到更低的損失值和更高的準(zhǔn)確率,3層的LSTM在達(dá)到準(zhǔn)確率要求的同時(shí)運(yùn)用了更少的計(jì)算資源.
表1 3種網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)量對(duì)比
原網(wǎng)絡(luò)輸出每幀目標(biāo)的位置信息和尺度信息,利用LSTM網(wǎng)絡(luò)的記憶特性結(jié)合之前幀的位置信息和尺度信息,學(xué)習(xí)當(dāng)前幀的目標(biāo)尺度變化.輸入經(jīng)過(guò)3層LSTM網(wǎng)絡(luò)得到輸出a〈t〉,a〈t〉再經(jīng)過(guò)全連接層得到當(dāng)前網(wǎng)絡(luò)的尺度變化.圖6為改進(jìn)后LSTM網(wǎng)絡(luò)的目標(biāo)框與原網(wǎng)絡(luò)輸出目標(biāo)框的結(jié)果.
圖6 原網(wǎng)絡(luò)與改進(jìn)網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果對(duì)比
圖6(a)為原網(wǎng)絡(luò)輸出結(jié)果,圖6(b)為改進(jìn)網(wǎng)絡(luò)的輸出結(jié)果.由圖可知目標(biāo)由近及遠(yuǎn)的過(guò)程中出現(xiàn)了大幅度的尺度變化問(wèn)題,原網(wǎng)絡(luò)難以適應(yīng)尺度變化,經(jīng)過(guò)改進(jìn)的網(wǎng)絡(luò)在跟蹤中能自適應(yīng)調(diào)整目標(biāo)框尺度,取得更好的跟蹤效果.
目前常用的目標(biāo)跟蹤算法都是基于公開(kāi)數(shù)據(jù)集,如OTB[12],VOT[13]等數(shù)據(jù)集,盡管在公開(kāi)數(shù)據(jù)集中可以獲得特征表達(dá),但由于數(shù)據(jù)集場(chǎng)景還是較為單一,導(dǎo)致在跟蹤方面的有效性受到數(shù)據(jù)集的限制.為了在全景數(shù)據(jù)上有更佳的表現(xiàn)力,就需要可用于訓(xùn)練和測(cè)試的全景數(shù)據(jù)集.為了解決上述問(wèn)題,本文建立了用于目標(biāo)跟蹤的全景數(shù)據(jù)集,該數(shù)據(jù)集包含標(biāo)注了多個(gè)場(chǎng)景、不同時(shí)間(白天、夜晚)條件下的行人、車(chē)輛等數(shù)據(jù),可以實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)端到端的訓(xùn)練.所有訓(xùn)練及測(cè)試數(shù)據(jù)集均為泰科易720 Pro七目全景相機(jī)采集所得,分為4個(gè)類(lèi)別進(jìn)行了標(biāo)注,處理后的圖片分辨率2 000×1 000.
硬件配置為CPU Intel Xeon E5-2620v4×2,顯卡GPU NVIDIA Titan XP×4.在Ubuntu系統(tǒng)中使用Python作為實(shí)驗(yàn)平臺(tái),訓(xùn)練的LSTM網(wǎng)絡(luò)用Keras框架搭建.
為了評(píng)估算法在全景圖像中的有效性,本文選取了多個(gè)不同場(chǎng)景不同目標(biāo)的全景視頻作為測(cè)試數(shù)據(jù),并與MDNet,ADNet,RT-MDNet和Siamese RPN算法的跟蹤結(jié)果做主觀和客觀分析.實(shí)驗(yàn)結(jié)果中全景視頻序列涵蓋了目標(biāo)變形,目標(biāo)旋轉(zhuǎn),光照變化,長(zhǎng)時(shí)間跟蹤等諸多現(xiàn)實(shí)挑戰(zhàn)情況,為了突出對(duì)比性能結(jié)果的好壞,對(duì)整幅全景圖進(jìn)行了截取,并選取出其中具有較復(fù)雜的尺度變化問(wèn)題的視頻序列.結(jié)果圖中不同的線(xiàn)型代表不同的跟蹤算法中的目標(biāo)框,其主觀結(jié)果如圖7所示.
圖7 4個(gè)不同場(chǎng)景下不同算法結(jié)果對(duì)比
圖7(a)至(d)分別為自行車(chē)、汽車(chē)、夜晚和白天的行人視頻序列,序列中均出現(xiàn)了較大程度的尺度變化和外觀變化.在圖7(a)序列中目標(biāo)旋轉(zhuǎn)和光照的影響比較大,MDNet和ADNet不能很好地應(yīng)對(duì)這種變化,出現(xiàn)了跟蹤丟失的情況,本文算法對(duì)受光照影響的目標(biāo)跟蹤效果較好.圖7(b)序列中物體出現(xiàn)了劇烈的旋轉(zhuǎn)和尺度變化,ADNet和Siamese RPN具有應(yīng)對(duì)尺度變化的模塊,在圖7(b)中對(duì)于尺度變化的適應(yīng)比RT-MDNet和MDNet稍好一些,但是在全景數(shù)據(jù)上依然很難達(dá)到很好的視覺(jué)效果,本文改進(jìn)算法也能較好地適應(yīng)這種情況.圖7(c)中5種算法均有較好的準(zhǔn)確率,圖7(d)中Siamese RPN在受到具有相似特征的背景干擾時(shí)發(fā)生了目標(biāo)丟失的情況,本文改進(jìn)算法在準(zhǔn)確跟蹤目標(biāo)的同時(shí),目標(biāo)框能夠結(jié)合之前視頻幀自適應(yīng)的變化.圖8、圖9和圖10為采用本文算法得到的完整實(shí)驗(yàn)結(jié)果與真實(shí)值對(duì)比及其跟蹤目標(biāo)的放大圖.
由圖8可見(jiàn),全景視頻序列中小目標(biāo)較為普遍,小目標(biāo)尺度變化程度不明顯,本算法在應(yīng)對(duì)全景視頻中的小目標(biāo)時(shí),依然能夠準(zhǔn)確穩(wěn)定地追蹤,具有較好的魯棒性.
由圖9可見(jiàn),在多個(gè)目標(biāo)交叉運(yùn)動(dòng)時(shí),雖然受多個(gè)相似目標(biāo)的影響出現(xiàn)了小幅度的漂移,但在后續(xù)視頻幀中仍然可以穩(wěn)定跟蹤目標(biāo)對(duì)象.本算法在區(qū)分相似的群目標(biāo)時(shí),能持續(xù)跟蹤選定目標(biāo),具有較好的自適應(yīng)跟蹤能力.
圖8 小目標(biāo)情況下的實(shí)驗(yàn)結(jié)果
圖9 多個(gè)目標(biāo)交叉運(yùn)動(dòng)的實(shí)驗(yàn)結(jié)果
圖10中出現(xiàn)了目標(biāo)遮擋的問(wèn)題,對(duì)跟蹤結(jié)果產(chǎn)生了一定的影響,但接下來(lái)的視頻幀目標(biāo)重新出現(xiàn)改進(jìn)算法能夠繼續(xù)跟蹤目標(biāo),本算法在應(yīng)對(duì)遮擋問(wèn)題上仍有不錯(cuò)的表現(xiàn).
綜上所述,RT-MDNet與MDNet都達(dá)到了很好的精度,但缺少對(duì)目標(biāo)尺度變化的估計(jì).ADNet和Siamese RPN具有應(yīng)對(duì)尺度變化的能力,但是不能滿(mǎn)足全景數(shù)據(jù)的目標(biāo)變化.在速度上全景圖像由于具有很高的分辨率所以很難達(dá)到實(shí)時(shí)的要求,本文算法在應(yīng)對(duì)不同光照條件、不同目標(biāo)時(shí)可以較好地應(yīng)對(duì)目標(biāo)的尺度變化,并提供了準(zhǔn)確率和重疊率.
圖10 目標(biāo)遮擋情況下的實(shí)驗(yàn)結(jié)果
為了評(píng)估算法性能,利用重疊率(Intersection over Union,IOU)和距離精度作為客觀分析指標(biāo)來(lái)評(píng)估算法.重疊率表示跟蹤結(jié)果與真實(shí)值重疊部分與整體之間的比值,距離精度表示跟蹤結(jié)果中心位置與真實(shí)值結(jié)果中心位置的歐氏距離.評(píng)估性能時(shí)須得到當(dāng)前幀重疊率和距離精度,當(dāng)大于一定閾值判定為預(yù)測(cè)準(zhǔn)確,判定為預(yù)測(cè)準(zhǔn)確的視頻幀與整體視頻幀的比率稱(chēng)之為成功率和精度.在全景圖像數(shù)據(jù)集上試驗(yàn)得到預(yù)測(cè)結(jié)果IOU和目標(biāo)框,可視化為曲線(xiàn)圖11.計(jì)算兩個(gè)標(biāo)準(zhǔn)中不同閾值所對(duì)應(yīng)成功率和精度來(lái)生成這兩個(gè)對(duì)比圖,根據(jù)其中的成功率和準(zhǔn)確率得分對(duì)跟蹤器進(jìn)行排名.
圖11 4種算法在全景數(shù)據(jù)集上的測(cè)試結(jié)果
圖11給出RT-MDNet、MDNet、ADNet和Siamese RPN,4種算法與本文改進(jìn)算法精確率和成功率的比較.ADNet丟失目標(biāo)的視頻幀較多,所以在精度圖中的表現(xiàn)較差,而在成功率圖中IOU高于RT-MDNet和MDNet.Siamese RPN應(yīng)對(duì)尺度變化的能力強(qiáng)于其他4種算法,但成功率略低于MDNet和RT-MDNet.從圖11中可以看出本文改進(jìn)算法在精度測(cè)算圖和成功率測(cè)算圖中對(duì)于原算法均有明顯的提升.表2中給出各算法在歐氏距離閾值為20像素時(shí)跟蹤器的精確率,IOU大于閾值0.5時(shí)跟蹤器的成功率,數(shù)據(jù)集距離精度的平均值,即平均中心位置誤差和基于全景數(shù)據(jù)集的平均FPS.
由表2可知,由于全景圖像具有較大的分辨率,復(fù)雜的目標(biāo)形變和尺度變化,導(dǎo)致RT-MDNET精確率只有80.1%,成功率只有51.6%,本文算法適應(yīng)了全景數(shù)據(jù)特性,通過(guò)采用LSTM算法減少尺度變化對(duì)目標(biāo)跟蹤網(wǎng)絡(luò)產(chǎn)生的影響,降低了跟蹤難度,從而提升了算法跟蹤性能.最終,本文算法精確率為86.9%,成功率為79.9%,速度也優(yōu)于ADNet與MDNet.
表2 各算法在不同指標(biāo)下性能對(duì)比
綜上所述,RT-MDNet與MDNet都達(dá)到了很好的精度,但在應(yīng)對(duì)尺度問(wèn)題時(shí)難以適應(yīng)變化程度.ADNet在應(yīng)對(duì)尺度變化的問(wèn)題強(qiáng)于前者,但還是達(dá)不到對(duì)于全景數(shù)據(jù)的需求.Siamese RPN較好地應(yīng)對(duì)了尺度變化的問(wèn)題,但相關(guān)濾波方法容易受到相似特征背景的影響導(dǎo)致精確率較低.通過(guò)以上對(duì)比試驗(yàn)可以得出,經(jīng)過(guò)LSTM網(wǎng)絡(luò)的本文算法在主觀標(biāo)準(zhǔn)和客觀標(biāo)準(zhǔn)上均有很大的提升,在應(yīng)對(duì)不同光照條件,不同目標(biāo)時(shí)可以較好地應(yīng)對(duì)目標(biāo)的尺度變化和遮擋,并提高了在全景圖像上的準(zhǔn)確率和重疊率,跟蹤效果明顯提升.
為了解決基于全景數(shù)據(jù)集的目標(biāo)跟蹤的問(wèn)題,本文提出了一種基于RT-MDNet和LSTM網(wǎng)絡(luò)的全景圖像跟蹤算法,采用卷積神經(jīng)網(wǎng)絡(luò)提取特征,并利用RoIAlign方法來(lái)減少卷積過(guò)程中對(duì)特征區(qū)域的損耗,增強(qiáng)網(wǎng)絡(luò)的魯棒性;使用區(qū)分多視頻序列間目標(biāo)的損失函數(shù),使網(wǎng)絡(luò)可以更好的區(qū)分相似目標(biāo)加強(qiáng)網(wǎng)絡(luò)的適用性;設(shè)計(jì)LSTM網(wǎng)絡(luò)自適應(yīng)地選取邊界框的尺度,針對(duì)數(shù)據(jù)集改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),以應(yīng)對(duì)全景數(shù)據(jù)中出現(xiàn)的目標(biāo)形變和尺度變化問(wèn)題,最終輸出目標(biāo)位置信息.
實(shí)驗(yàn)結(jié)果表明,本文算法具有較高的跟蹤精度,能夠在目標(biāo)扭曲、旋轉(zhuǎn)劇烈、目標(biāo)運(yùn)動(dòng)快、背景相似干擾等多種挑戰(zhàn)下長(zhǎng)期穩(wěn)定地跟蹤目標(biāo),在保持了精度的同時(shí)對(duì)全景數(shù)據(jù)的IOU得分實(shí)現(xiàn)了有效的提高.但是由于全景圖像分辨率較大的原因,伴隨著運(yùn)算量大的問(wèn)題,導(dǎo)致算法速度受到限制,目前還難以滿(mǎn)足實(shí)時(shí)的需求.進(jìn)一步裁剪網(wǎng)絡(luò)、優(yōu)化算法、實(shí)時(shí)處理將會(huì)是以后的重點(diǎn)研究方向.