• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      深度學習及時空約束的行人跟蹤算法研究

      2021-04-12 05:18:30唐國智李頂根
      計算機工程與應(yīng)用 2021年7期

      唐國智,李頂根

      華中科技大學 能源與動力工程學院,武漢 430074

      行人跟蹤一直是計算機視覺的一個重要領(lǐng)域,在很多的場景中都有所應(yīng)用。在簡單的無遮擋和無大幅度目標尺寸變化的場景中,傳統(tǒng)的行人跟蹤算法取得了較好的成績,如STC[1]、CSK[2]、KCF[3]、OCT-KCF[4]等。但是在以往的傳統(tǒng)方法中,一旦目標行人在復雜的自然場景中被遮擋,或是因為目標行人逐漸遠離和接近攝像頭而導致行人尺寸發(fā)生變化時,均會出現(xiàn)跟蹤不準的問題。這是由于傳統(tǒng)方法的搜索機制都是由上一幀所檢測出的目標位置作為下一幀的檢測目標,所以一旦出現(xiàn)了遮擋和尺寸變化的情況,就會導致目標的匹配模板逐漸失真,以至于最終跟蹤出現(xiàn)較大的誤差而失敗[5]。最近,提出了一種自適應(yīng)模板更新的魯棒目標跟蹤算法[6]將目標模板及其仿射變換得到的圖像放入候選模板庫中,使得該算法進一步提升了對目標變現(xiàn)變化的魯棒性,但是當跟蹤序列中存在多個相似行人目標或目標行人被完全遮擋時時表現(xiàn)不佳,為了解決遮擋、目標尺寸變化及相似目標干擾的問題,引入了深度學習加時空約束的行人跟蹤方法。

      深度學習的目標跟蹤方法主要基于孿生網(wǎng)絡(luò)的方法,孿生網(wǎng)絡(luò)通過學習模板和當前幀的相似度,判斷目標最可能出現(xiàn)的位置,來達到跟蹤的效果。最有代表性的孿生網(wǎng)絡(luò)跟蹤方法為SiamFC[7],然后又提出了SiamRPN[8]、SiamRPN++[9]等,孿生網(wǎng)絡(luò)中的模板就是第一幀中給出的要跟蹤的目標,其他后序幀通過與模板進行相似性計算來尋找跟蹤目標,但是孿生網(wǎng)絡(luò)同樣具有缺點,一旦目標發(fā)生了很大的形變,或者嚴重的遮擋,甚至和第一幀的給定目標從外觀上已經(jīng)看不出是一個目標了,這個時候仍借助模板去匹配目標就出現(xiàn)跟蹤漂移。如果恰好出現(xiàn)了和目標相似類別的另一個背景目標出現(xiàn),網(wǎng)絡(luò)很可能出現(xiàn)誤差漂移現(xiàn)象。所以提出了GradNet[10],此算法通過挖掘目標模板的梯度信息來不斷更新模板信息,達到連續(xù)適應(yīng)目標的動態(tài)外觀變現(xiàn)。此方法在一定程度上解決了目標被遮擋的問題,但是在跟蹤序列中存在多個高度相似目標時,它們的相似度得分會超過正確目標,從而產(chǎn)生跟蹤漂移,所以提出了一個基于深度學習和時空約束的方法來解決上訴問題。為得到較高的處理速度,深度學習的跟蹤機制為先使用處理速度較快的SSD[11]神經(jīng)網(wǎng)絡(luò)檢測出圖片中所有的行人目標組成一個行人池,然后再把行人池中的行人與行人模板通過一種基于領(lǐng)域差異[12]的深度學習方法計算相似度,相似度最高的為目標行人。但是經(jīng)過試驗發(fā)現(xiàn),單純深度學習的方法雖然在解決了遮擋和尺寸變化的問題,但是也會產(chǎn)生漂移現(xiàn)象,特別是在低像素的圖片中,這是由于目前最好的神經(jīng)網(wǎng)絡(luò)在自然場景下的行人檢測的準確率為83%,行人匹配的準確率為95%,但是由于整個跟蹤過程由兩個部分串聯(lián)形成,所以跟蹤準確率只有78.85%,這還只是在指定數(shù)據(jù)集上得到的結(jié)果,用于大量自然場景下的泛化誤差會更高,所以引入時空約束的后處理,解決了上訴問題。

      提出的算法的主要改進及創(chuàng)新點:

      (1)根據(jù)實際工況優(yōu)化了SSD網(wǎng)絡(luò)結(jié)構(gòu);

      (2)領(lǐng)域差異用于行人跟蹤后端網(wǎng)絡(luò);

      (3)提出的時空約束極大提升了算法在多個相似目標干擾情況下的魯棒性。

      1 行人檢測和匹配

      1.1 行人檢測

      目標檢測是計算機視覺中一個重要問題,在行人跟蹤、車牌識別、無人駕駛等領(lǐng)域都具有重要的研究價值。行人跟蹤的第一步驟即為行人檢測,高效快速的檢測出圖片中所有行人是至關(guān)重要的。目前準確率最高的檢測框架為Faster R-CNN[13],但是其速度較慢,每秒只有7幀左右,YOLO[14]框架現(xiàn)在更新到了YOLO V3[15]版本,速度超過60 幀,但是準確率不高,而且對于小物體不敏感。最近提出一種PCNN的行人檢測方法,使用推薦候選區(qū)及多尺度并行卷積來提升對于行人目標檢測的方法[16],還有一種專用于熱圖像檢測行人的算法[17],根據(jù)實際使用情況,本文選擇的檢測框架為SSD,它的速度也達到了每秒58 幀左右,這對于做行人跟蹤完全夠用,準確率也接近Faster R-CNN的水準。

      下面介紹SSD的檢測原理。SSD的底層特征提取網(wǎng)絡(luò)采用去除全連接層的VGG16[18],也可以替換為ResNet[19]等基礎(chǔ)網(wǎng)絡(luò)。這些基礎(chǔ)網(wǎng)路都是經(jīng)過ImageNet[20]數(shù)據(jù)集預訓練的。經(jīng)過基礎(chǔ)網(wǎng)絡(luò)的特征提取后再進行一系列卷積和池化操作直到最后一層,其中的每層的卷積和池化的操作尺寸這里不詳細說明。然后選取其中的一些卷積層的輸出feature map 再通過各自的anchor layer,得到深度卻不一樣的最終結(jié)果。如圖1所示,原本的SSD框架會在每一個anchor point上產(chǎn)生系列長寬比不同的default box,由于在道路監(jiān)控場景中行人的檢測框都為豎直的矩形框,而平放的矩形檢測框不會出現(xiàn),所以可對此處優(yōu)化,刪除平放的default box,以達到加快模型處理速度的目的。且SSD 采用了多尺度特征融合的處理方法,越往后的feature map的尺寸越小,但感知視野也就越大,所以靠后的特征預測大物體,而靠前的特征預測小物體,在實際的場景中,行人目標屬于中小型目標,所以如圖2 所示,完全可以把最后三層的feature map刪除。

      1.2 行人匹配

      行人匹配采用一種計算領(lǐng)域差異的算法,其算法框架如圖3。首先采用兩層綁定卷積(共享權(quán)重的卷積層)卷積圖片然后再通過最大池化從每張圖片提取出37×25×12 的feature map,接下來計算交叉領(lǐng)域差異,令fi和gi分別表示來自第一和第二視圖的第i 個特征圖(1 ≤i ≤25)。交叉輸入鄰域差異層計算圍繞每個特征位置的鄰域的兩個視圖的特征值的差異,產(chǎn)生一組25 個鄰域差異映射??偟膩碚f,5×5 矩陣Ki(x,y)是兩個5×5 矩陣的差值,在第一個矩陣中,每個元素都是標量fi(x,y)的副本,第二個是gi的5×5 鄰域以(x,y)為中心。在鄰域中獲取差異背后的動機是增加兩個輸入圖像對應(yīng)特征中的位置差異的魯棒性。由于操作是不對稱的,還考慮了鄰域差異圖K"i,其運算過程互換fi和gi。這產(chǎn)生50 個鄰域差異圖,和,每個大小為12×37×5×5。然后通過一個補丁匯總層來總結(jié)這些領(lǐng)域差異,具體操作為把每個5×5塊中的元素相加,經(jīng)過匯總后feature map 尺寸變?yōu)?7×12×50。最后通過全連接層和softmax 層得出相應(yīng)結(jié)果得分。該計算領(lǐng)域差異的算法的兩個輸入分別為基準跟蹤圖片和由行人檢測網(wǎng)絡(luò)輸出的候選行人圖片,主要關(guān)注點為輸入圖像與基準圖像在各點(x,y)周圍5×5 領(lǐng)域的特征距離,增強了對特征點位置差異的魯棒性,使用的綁定卷積在各個不同場景下的數(shù)據(jù)集經(jīng)過訓練,用于提取兩個輸入的高維特征,使得適用于不同場景下的行人匹配。

      圖1 去除冗余default box

      圖2 優(yōu)化SSD算法框架圖

      圖3 行人匹配算法框架圖

      2 時空約束后處理

      單純使用深度學習的行人檢測和匹配來實現(xiàn)目標跟蹤是的效果并不理想,雖然有效解決了遮擋與尺寸變化的問題,但是也出現(xiàn)了在一些場景下跟蹤漂移的問題。經(jīng)過實驗發(fā)現(xiàn),這種問題基本出現(xiàn)在低像素圖片中有多個相似的行人和漏檢目標行人情況下,特別是當目標行人遠離攝像機從而在圖片所占像素減小時,深度學習模型更加難以區(qū)分目標與相似行人。如圖4 給出一些漂移案例。綠色粗體框為正確的標簽,紫色細框為深度學習跟蹤模型跟蹤結(jié)果??梢悦黠@看出,圖中的行人基本都是穿著黑衣,在目標的像素比較大時(前兩張圖),跟蹤效果良好,但是當目標像素比減小到一定程度后,深度學習模型無法區(qū)分目標與較遠處的相似行人,從而產(chǎn)生誤判。為了抑制這種漂移現(xiàn)象,下面提出幾種方法來解決這個問題。

      2.1 幀間位移約束

      普通攝像機的幀率為25~30 f/s之間,行人移動的速度在相鄰幾幀之間是不會產(chǎn)生較大的變化的,因此相鄰幾幀的幀間位移應(yīng)該是近似的,如有較大的幀間位移差異,則視為跟蹤產(chǎn)生漂移,算法拋棄當前行人池中匹配得分最高的行人目標,選出得分次高且超過閾值的目標進行幀間位移計算,計算幀間位移方法如下:

      式(1)中c為深度學習目標行人檢測框中心的坐標集合;式(2)中xn,yn,wn,hn分別為框左上角坐標和框的寬高;式(3)中S為目標行人幀間位移集合;式(4)中計算相鄰中心點的歐式距離;式(6)是計算相鄰3 次位移的加權(quán)和,ω為設(shè)定的權(quán)值,設(shè)定的依據(jù)為行人目標當前的運動狀態(tài)與其前一時刻的運動狀態(tài)相關(guān)性最高,依次類推,越早的運動狀態(tài)與當前運動狀態(tài)相關(guān)性越低,這里使用的ω值是通過多次試驗得到的經(jīng)驗值。

      2.2 尺寸變化約束

      目標在圖片中檢測框尺寸隨著與攝像機的相對距離的變化而不斷改變,但是相鄰幀之間的檢測框不會發(fā)生較大的尺寸變化,選取相鄰幀之間檢測框尺寸變化比例來作為衡量標準,選取一個閾值,如果變化比例超過閾值,則算法拋棄當前行人池中匹配得分最高的行人目標,選出得分次高且超過閾值的目標進行尺寸變化比例計算。尺寸變化比例計算公式如下:

      式(8)中K為深度學習目標行人檢測框?qū)挾群透叨鹊募?;式?)計算了相鄰兩幀幀間寬和高的變化比例,取較大的為判別依據(jù),式中γ為比例變化閾值,本文中γ的取值為前3幀的幀間寬高變化比例的加權(quán)值,考慮到在目標行人被半遮擋時檢測框比例變化較大的情況,且通常情況下幀間寬高比變化比例不會超過0.1,所以加權(quán)權(quán)值在這里是非常規(guī)的,設(shè)置為(2,1.7,1.5),也可以直接使用經(jīng)過多次實驗得到的經(jīng)驗值γ=0.25。

      2.3 遮擋或漏檢時跟蹤框預測

      當目標行人被遮擋或是被漏檢,行人檢測無法檢測到,此時目標行人在這些遮擋幀和漏檢幀中消失,行人池中就不包含有目標行人圖片,由上兩種約束遍歷完整個行人池也不會發(fā)現(xiàn)目標,也就無法得到目標行人有效的跟蹤框坐標,且上述兩種約束算法都是迭代進行的,即計算時需要依賴上一幀的信息,所以這里提出一種由跟蹤目標運動慣性來預測遮擋和漏檢時目標跟蹤框位置的算法。當遍歷完整個行人池也沒有發(fā)現(xiàn)符合約束的目標時,判斷為目標行人被遮擋或是漏檢,此時取前3幀中幀間位移矢量做加權(quán)求和來預測當前幀的跟蹤框位置。由于目標行人在被長時間遮擋時其移動狀態(tài)是不可知的,而上述兩種約束算法在時間上都具有連續(xù)性,所以本文設(shè)定當目標行人連續(xù)60 幀不被檢測到出現(xiàn)在行人池中則不再加以約束,此時只有深度學習算法單獨進行檢測匹配,直到目標行人再次出現(xiàn)。計算方法如下:

      圖4 漂移示例

      3 實驗結(jié)果及分析

      3.1 實驗結(jié)果展示

      本文算法將在OTB[21]、TC128[22]、UAV123[23]數(shù)據(jù)集上進行測試,OTB數(shù)據(jù)集中有大量包含相似目標干擾的視頻跟蹤序列數(shù)據(jù),這對于跟蹤算法是一個嚴峻的考驗。TC128 數(shù)據(jù)集包含有彩色和灰度視頻序列以檢驗傳統(tǒng)方法使用灰度信息與深度學習使用色彩信息對跟蹤效果的影響,UAV123 包含了無人機拍攝的視頻序列,有大量攝像頭角度切換的的視頻序列,可以檢驗目標角度和尺寸變化對于跟蹤算法的影響。在上述的數(shù)據(jù)中進行了算法的測試,并與優(yōu)秀的傳統(tǒng)算法以及未加時空約束的深度學習算法進行比較,主要解決遮擋和自適應(yīng)尺寸變化,以及在有多個相似目標時單純的深度學習算法產(chǎn)生漂移的問題。如圖5 為各個算法在各個數(shù)據(jù)集中不同的子集上的運行結(jié)果圖,分別展示了多個相似目標、目標尺寸變化以及目標遮擋場景下的不同算法的跟蹤效果。

      3.2 抑制漂移性能分析

      圖5 算法運行效果圖

      為了便于算法之間的分析對比,給出了上述7種場景中不同算法跟蹤目標的3D散點圖(圖6至圖8);散點圖中x、y為每幀圖像中跟蹤框的幾何中心坐標,frame number為幀序列。性能評判采用文獻[24]中提出的的評價指標,這里給出了兩個評價指標:中心位置誤差(CLE)和重疊(OP)。圖6 展示了對于目標尺寸變化的場景跟蹤,對應(yīng)圖5(a)的算法運行效果,可見OCT-KCF算法從初始幀就選擇了錯誤的基準特征從而導致跟蹤全程都產(chǎn)生漂移,而其他兩種傳統(tǒng)跟蹤算法初期跟蹤良好,但由于對目標的尺寸變化不魯棒而產(chǎn)生漂移。目標尺寸變化如圖9 所示,本文提出的算法預測框面積與Label基本符合,圖中在180 幀時CSK 與Label 的面積差達到了最大值,所以結(jié)合圖6可明顯發(fā)現(xiàn)此時跟蹤發(fā)生了漂移,STC 算法在60 幀到130 幀期間框的尺寸增大,而Label的框的尺寸減小,導致特征匹配模板被噪聲干擾,所以產(chǎn)生漂移,這是由于傳統(tǒng)算法對于尺寸變化不魯棒導致的。而單純深度學習算法在此場景中由于受到有多個相似目標的存在且圖片分辨率較低的影響,跟蹤也產(chǎn)生大幅度的漂移,但是加入了本文提出的時空約束后,深度學習產(chǎn)生的漂移得到了很好的抑制,跟蹤點云基本與標簽點云重合。GradNet算法在150幀左右時,由于存在多個相似目標聚集在一起從而發(fā)生跟蹤漂移。

      圖6 Bolt跟蹤算法3D散點圖

      圖7 Walk跟蹤算法3D散點圖

      圖8 Girl跟蹤算法3D散點圖

      圖9 目標尺寸變化圖

      圖7對應(yīng)于圖5(c)的算法運行效果,在此場景中,也存在多個相似目標,而且途中還出現(xiàn)了跟蹤目標被半遮擋的情況,傳統(tǒng)算法在目標被半遮擋后,特征模板被噪聲污染,而且由于跟蹤目標是逐漸遠離鏡頭的,尺寸發(fā)生變化,跟蹤產(chǎn)生漂移。由于在場景中存在一個高度相似的行人,所以單純的深度學習跟蹤算法無法準確分辨目標行人,頻繁產(chǎn)生漂移。本文提出的算法在深度學習的基礎(chǔ)上加入時空約束,極大地抑制了相似漂移,取得了較好的效果,從圖7 可看出,跟蹤點與標簽點基本重合。

      圖8 對應(yīng)于圖5(d)的算法運行效果,在此場景中,出現(xiàn)了跟蹤目標完全被遮擋的情況。傳統(tǒng)的跟蹤算法在目標被遮擋之后,特征模板被噪聲污染,導致下一幀產(chǎn)生跟蹤漂移。而單純的深度學習在跟蹤目標被遮擋時,目標不在行人池中及喪失了目標所有的像素信息,算法即使遍歷整個行人池也無法得出目標被遮擋時的跟蹤框,從而產(chǎn)生漂移。本文提出的算法加入了目標被遮擋時的位置預測,可以根據(jù)目標被遮擋前幾幀的運動慣性推測出被遮擋時的位置。由圖8可看出,本文提出的算法很好地抑制了在目標本遮擋時深度學習算法產(chǎn)生的漂移。

      基于中心位置誤差(CLE)和重疊(OP)的算法性能對比的算法性能對比,如圖10和圖11所示。

      下面重點分析提出方法對相似漂移和漏檢漂移的抑制能力。如圖12、13舉例說明如何避免相似漂移。

      在圖12、13 中紫紅色框為不加時空約束的深度學習算法結(jié)果,紅色框為提出的帶時空約束的算法結(jié)果,白色框為上一幀正確跟蹤結(jié)果。由于場景中存在高度相似目標的干擾,相似目標的最終跟蹤得分比正確目標要高,造成了相似漂移,加入時空約束后計算幀間位移,得分最高幀間位移超過90,遠遠超出了計算得出的閾值2.062 0 和0.707 1,所以高度相似目標被時空約束算法濾除,避免了相似漂移。

      圖10 圖5中7場景下不同跟蹤算法的CLE

      圖11 圖5中7場景下不同跟蹤算法的OP

      圖12 Bolt相似漂移標示圖

      如圖13 所示,舉例說明如何避免遮擋漏檢漂移。圖14中紫紅色框為不加入時空約束的深度學習算法結(jié)果,紅色框為本文提出的算法的跟蹤結(jié)果。四個白色框為前4幀的正確跟蹤結(jié)果。在當前場景中,要跟蹤的目標被完全遮擋,孿生網(wǎng)絡(luò)中的行人檢測網(wǎng)絡(luò)無法檢測跟蹤目標,造成了漏檢,在不加入時空約束的網(wǎng)絡(luò)中,由于漏檢而喪失了跟蹤目標的全部信息,為了跟蹤的連續(xù)性,會找到當前幀中得分最高的目標來當做跟蹤結(jié)果,造成漏檢漂移。加入時空約束后會以漏檢前的4 幀正確跟蹤結(jié)果的幀間位移矢量加權(quán)計算出當前幀的位移矢量,達到預測漏檢時目標位置的效果,避免了漏檢漂移。

      圖13 Walk相似漂移標示圖

      圖14 Girl遮擋漏檢標示圖

      具體給出各個算法在數(shù)據(jù)集中的理論CLE 和OP數(shù)值表,如表1和表2所示。

      由圖10 和表1 可以明顯看出,傳統(tǒng)的跟蹤算法,在目標尺寸發(fā)生變化和目標被遮擋時會產(chǎn)生漂移。在有多個高度相似目標存在的跟蹤場景中,如Bolt 和Basketball,不加時空約束的深度學習算法DL、GradNet 的像素中心偏移(CLE)比使用了時空約束的方法DLSTC高4.8~19倍。

      橫軸重疊率的計算方法為算法運算得出的跟蹤框與標簽框的交集除以兩框的并集,公式為:

      其中Ro為跟蹤框,Rd為標簽框。縱軸為當前重疊率幀數(shù)占總幀數(shù)比值,曲線與兩軸間的面積與算法性能成正比。由圖11和表2可以得出,在一些沒有相似目標的跟蹤場景中,如Walk、Girl、Woman、Person 中,沒有加時空約束的深度學習方法GradNet表現(xiàn)良好,本文提出的DLSTC方法比GradNet略微遜色,但也取得了良好的效果,但在Bolt 和Basketball 這些有相似目標的跟蹤場景中DLSTC 比GradNet 的OP 高了3.5~8.6 倍。本文提出的深度學習加時空約束的方法較好地解決了目標形變、被遮擋以及相似干擾的問題。

      表1 不同算法CLE對比

      表2 不同算法OP對比

      4 結(jié)束語

      在目標跟蹤的場景中,傳統(tǒng)跟蹤算法的難點為目標被遮擋和尺寸變化所導致的特征模板被噪聲所污染而產(chǎn)生漂移,而不加時空約束的深度學習方法容易被相似目標干擾,此處引入深度學習的跟蹤算法,解決目標遮擋和尺寸變化的問題。提出一種時空約束的算法,良好的抑制了相似漂移和漏檢漂移,得到了較好的運行效果,性能超過了傳統(tǒng)算法以及單純的深度學習算法。

      本文提出的時空約束是基于攝像頭不會發(fā)生劇烈抖動和大幅度移動的。下一步工作可以加入圖像防抖算法提高算法的魯棒性,也可以使用更好的行人檢測框架,從根本上提高跟蹤的準確率。

      柳江县| 柏乡县| 白水县| 仪征市| 嘉鱼县| 登封市| 锦屏县| 博兴县| 金昌市| 湾仔区| 榆树市| 南澳县| 云浮市| 阜平县| 英德市| 盖州市| 札达县| 青龙| 兴业县| 宣武区| 察隅县| 深州市| 神池县| 东台市| 邵武市| 潜山县| 曲沃县| 沙田区| 额尔古纳市| 沂水县| 泰州市| 新和县| 吉木萨尔县| 隆尧县| 涿州市| 永安市| 呼伦贝尔市| 鄂托克前旗| 秭归县| 乌拉特中旗| 砚山县|