劉佳榆,余 華,徐 舒
(武漢東湖學(xué)院電子信息工程學(xué)院,湖北 武漢 430200)
視覺目標(biāo)跟蹤是指在視頻序列中利用第一幀目標(biāo)信息和后續(xù)幀中目標(biāo)之間的關(guān)聯(lián)信息來獲得目標(biāo)狀態(tài)和位置的一種計(jì)算機(jī)視覺技術(shù)。其被廣泛應(yīng)用于視頻監(jiān)控、行為分析、人機(jī)交互等諸多領(lǐng)域。
現(xiàn)有的目標(biāo)跟蹤算法包括模板匹配、統(tǒng)計(jì)學(xué)習(xí)、粒子濾波、相關(guān)濾波、深度神經(jīng)網(wǎng)絡(luò)等幾大類,其中相關(guān)濾波跟蹤算法由于在速度和精度上取得了較好的折中,所以受到了目標(biāo)跟蹤領(lǐng)域研究者們的廣泛關(guān)注。Matthias Mueller等[1]提出上下文感知相關(guān)濾波算法,通過將全局環(huán)境上下信息集成到相關(guān)濾波器學(xué)習(xí)過程中使得濾波器能夠結(jié)合環(huán)境上下文信息對(duì)目標(biāo)進(jìn)行判別,極大的提高了跟蹤的精確度;Wang等[2]提出多線索相關(guān)濾波跟蹤算法,通過構(gòu)建特征專家?guī)旌妥顑?yōu)特征評(píng)估準(zhǔn)則的方法選擇最佳特征應(yīng)用于特定幀進(jìn)行目標(biāo)跟蹤,實(shí)現(xiàn)具體到幀的最優(yōu)特征選擇,使得應(yīng)用于目標(biāo)跟蹤的特征針對(duì)針對(duì)性進(jìn)一步加強(qiáng),取得了較好跟蹤效果;孫希延等[3]提出亞像素相關(guān)濾波跟蹤算法,該算法利用拋物線模型對(duì)離散的目標(biāo)響應(yīng)值近似擬合,然后引入泰勒級(jí)數(shù)對(duì)擬合后的連續(xù)二次曲線求解,使得目標(biāo)跟蹤的定位精度達(dá)到亞像素級(jí)別;Huang等[4]提出學(xué)習(xí)畸變抑制的相關(guān)濾波器的無人機(jī)實(shí)時(shí)目標(biāo)跟蹤算法,其通過引入正則化項(xiàng)的方式來抑制由引入的背景噪聲信息引起的相響應(yīng)圖畸變,從而提高了算法在復(fù)雜背景下的跟蹤穩(wěn)健性。
相關(guān)濾波類算法誕生初期,所采用表示目標(biāo)的特征一般為CN特征、HOG特征等人工設(shè)計(jì)特征,隨著深度學(xué)習(xí)的疾速發(fā)展,研究人員發(fā)現(xiàn)深度卷積特征具備強(qiáng)大的特征表征能力,因此深度卷積特征被引入到相關(guān)濾波框架下進(jìn)行目標(biāo)跟蹤,提高算法的精確度與穩(wěn)健性。但是,目前的相關(guān)濾波跟蹤算法在利用深度特征進(jìn)行目標(biāo)跟蹤的時(shí)候,多采用神經(jīng)網(wǎng)絡(luò)最后一層特征進(jìn)行跟蹤,忽略低層卷積特征包含的目標(biāo)輪廓信息對(duì)目標(biāo)定位的有利影響。與此同時(shí)深度卷積特征以多個(gè)通道維度對(duì)目標(biāo)各屬性進(jìn)行表征,可能存在通道特征冗余和特征不相關(guān)問題,這會(huì)導(dǎo)致算法復(fù)雜度過高和跟蹤精度受損。
因此,為了解決上述問題,本文首先通過在通道維度上定義一個(gè)通道正則化項(xiàng)來進(jìn)行通道特征選擇以解決特征冗余和不相關(guān)問題,然后通過多層響應(yīng)圖加權(quán)融合方式以綜合高層語義特征和低層輪廓信息來實(shí)現(xiàn)目標(biāo)定位。
本文算法以傳統(tǒng)相關(guān)濾波算法為基礎(chǔ)框架,因此需要對(duì)基礎(chǔ)算法框架進(jìn)行概要介紹,傳統(tǒng)相關(guān)濾波跟蹤算法通過給定第一幀目標(biāo)外觀信息訓(xùn)練濾波器和利用后續(xù)幀目標(biāo)信息進(jìn)行濾波器更新以實(shí)現(xiàn)目標(biāo)跟蹤,由于其速度快、穩(wěn)健性良好等特點(diǎn)而具備較大應(yīng)用價(jià)值。
相關(guān)濾波通過最小化估計(jì)目標(biāo)狀態(tài)響應(yīng)與期望目標(biāo)狀態(tài)響應(yīng)之間的誤差來實(shí)現(xiàn)濾波器的訓(xùn)練,具體如式(1)所示
(1)
在跟蹤階段,除了第一幀學(xué)習(xí)到的濾波器可以直接在第二幀中用來跟蹤以外,其余幀需要需要結(jié)合前一幀濾波器對(duì)當(dāng)前幀濾波器進(jìn)行更新以提高跟蹤器的自適應(yīng)性,具體如式(2)所示
(2)
式中,α∈[0,1]表示預(yù)定義更新率,ft表示第t幀訓(xùn)練出的濾波器,其目的是將其用在第t+1幀中進(jìn)行目標(biāo)位置預(yù)測(cè)。
在第t+1幀中首先提取該幀中多通道特征,然后將相應(yīng)通道濾波器與對(duì)應(yīng)通道特征分別變換到頻域,并進(jìn)行元素點(diǎn)乘獲得該通道頻域響應(yīng)圖,最后將各通道頻域響應(yīng)圖加和便可得到最終頻域響應(yīng)圖,具體如式(3)所示
(3)
本文算法主干分支框架如圖1所示:首先通過在ImageNet數(shù)據(jù)集[5]上預(yù)訓(xùn)練的VGG-M[6]網(wǎng)絡(luò)提取各層深度特征,由于要考慮到各通道特征的分辨率差異,所以需要對(duì)提取特征進(jìn)行隱式插值;然后由于各通道特征可能存在特征冗余和不相關(guān)問題,因此采用通道特征選擇機(jī)制對(duì)各通道特征進(jìn)行選擇以降低特征冗余和不相關(guān)性,提高特征的表征性能;最后采取低層特征響應(yīng)與高層特征響應(yīng)加權(quán)融合方式提高算法的定位精度和判別能力。
圖1 主干分支框架圖
由于采樣點(diǎn)不同,而又需要將跟蹤問題變換到連續(xù)空間域求解,因此需要對(duì)特征進(jìn)行插值,因此采用式(4)所示隱式插值方式進(jìn)行特征連續(xù)性處理
(4)
式中,[0,T)?R表示特征圖的空間支持范圍,bd∈L2(T),其表示希爾伯特空間中的插值函數(shù),p∈[0,T)表示空間域中像素位置。
完成上述插值后,該卷積層響應(yīng)置信度可定義為多個(gè)通道特征響應(yīng)加和形式,具體如(5)式所示
(5)
式中,fd∈L2(T)表示第d個(gè)通道的濾波器,Sf(x)表示卷積層置信度。
經(jīng)過空間插值操作可得訓(xùn)練濾波器所用到的代價(jià)函數(shù)如(6)式所示
(6)
式中,yj∈L2(T)表示在希爾伯特空間中xj的標(biāo)簽真值,αj表示每個(gè)訓(xùn)練樣本的權(quán)重。
在式(5)中所使用的卷積特征為高維多通道特征,這樣的特征存在特征冗余和不相關(guān)性,因此會(huì)影響所訓(xùn)練濾波器的性能,為了解決這一問題,本文引入文獻(xiàn)[7]中的稀疏組套索方法對(duì)特征進(jìn)行選擇,其具體式如(7)式所示
(7)
式中,λ2為平衡參數(shù),在(7)式中第二項(xiàng)即懲罰項(xiàng)其實(shí)是先對(duì)fd求l2范數(shù),再求加和項(xiàng)的l1范數(shù),這個(gè)是典型的l2,1組套索模型,用這種模型便可實(shí)現(xiàn)對(duì)通道的組特征選擇。
在(7)式中雖然考慮到了通道特征冗余和不相關(guān)問題,但是卻沒有解決高層語義特征與低層結(jié)構(gòu)特征的結(jié)合應(yīng)用問題,因此所提算法采用文獻(xiàn)[8]中多層特征響應(yīng)加權(quán)融合策略提高跟蹤的精度,則(5)式變?yōu)槿缦?8)式所示
(8)
式中,Dconv1表示第一層卷積特征的通道數(shù),Dconv5表示第五層卷積特征的通道數(shù),上下標(biāo)a,b分別表示第a個(gè)通道和第b個(gè)通道。w1表示第一層卷積特征響應(yīng)融合權(quán)重,w2表示第五層特征響應(yīng)融合權(quán)重。
將(8)式代入(7)式可得所提算法最終跟蹤濾波器的最優(yōu)目標(biāo)函數(shù)
(9)
對(duì)于目標(biāo)最佳尺度的選擇傳統(tǒng)相關(guān)濾波器一般采用尺度池策略進(jìn)行估計(jì),但是所提算法由于使用了深度特征進(jìn)行目標(biāo)跟蹤,如果繼續(xù)進(jìn)行尺度池策略進(jìn)行目標(biāo)尺度估計(jì)會(huì)導(dǎo)致算法速度嚴(yán)重下降,因此所提算法采用文獻(xiàn)[ ]中的方法通過利用HOG特征訓(xùn)練一個(gè)專用的尺度估計(jì)模型進(jìn)行尺度估計(jì),從而使得在尺度估計(jì)過程中算法速度不下降。
所提算法的尺度估計(jì)框架如圖2所示,分別訓(xùn)練兩個(gè)相關(guān)濾波器模型,一個(gè)用于目標(biāo)定位,一個(gè)用于目標(biāo)尺度估計(jì)。目標(biāo)定位階段由于考慮到定位準(zhǔn)確度,所以采用上文提出的通道特征選擇和加權(quán)響應(yīng)相結(jié)合訓(xùn)練出的模型進(jìn)行定位,目標(biāo)尺度估計(jì)則利用HOG特征訓(xùn)練出的傳統(tǒng)核相關(guān)濾波器(KCF)模型進(jìn)行尺度估計(jì),ADMM表示的是交替方向乘子法,其用于對(duì)(9)式和尺度估計(jì)模型進(jìn)行參數(shù)優(yōu)化求解。
圖2 尺度估計(jì)框架示意圖
(10)
式中,通過比較各個(gè)尺度的下響應(yīng)圖峰值大小,最大峰值的特征圖所對(duì)應(yīng)的目標(biāo)尺度為最佳尺度。
為分析算法的效果,通過采用表1所示的OTB2015數(shù)據(jù)集中9組測(cè)試視頻序列對(duì)所提算法進(jìn)行性能測(cè)試,并與近幾年性能較為優(yōu)秀的自適應(yīng)空間正則化相關(guān)濾波算法(ASRCF)[9]、學(xué)習(xí)連續(xù)卷積算子跟蹤算法(CCOT)[10]、聯(lián)合群特征選擇和判別濾波算法(GFSDCF)[7]、對(duì)沖深度跟蹤算法(HDT)[11]、多任務(wù)相關(guān)粒子濾波跟蹤算法(MCPF)[12]等算法進(jìn)行定量與定性分析以論證算法的有效性。
表1 9組視頻序列屬性
本文所用實(shí)驗(yàn)環(huán)境為Win10操作系統(tǒng),實(shí)驗(yàn)平臺(tái)為Matlab2020a,硬件配置CPU 12核3.8GHz Intel I7處理器,內(nèi)存(RAM)為32G,顯卡為雙路RTX TITAN。通過經(jīng)驗(yàn)調(diào)優(yōu)對(duì)算法參數(shù)進(jìn)行了設(shè)定,平衡參數(shù)λ2=1.3,權(quán)重參數(shù)w1和w2分別設(shè)置為0.3和0.7。
為了客觀分析所提算法CFSWR的效果,在實(shí)驗(yàn)中通過測(cè)定所提算法的成功率和精確度以量化分析算法性能。通過實(shí)驗(yàn)對(duì)比分析得到如圖3所示成功率圖和圖4所示精確度圖。
在圖3中可知所提算法成功率為0.929,成功率在6種算法中排名第一,相較于CCOT算法提升9.2%;在圖4中可知所提算法精確度為0.929,精確度在6種算法中也排名第一,相較于CCOT算法提升3.2%。根據(jù)成功率和精確度的定量比較可知所提算法CFSWR的準(zhǔn)確性和魯棒性良好。
圖3 成功率圖
圖4 精確度圖
為了更直觀分析本文所提算法效果,實(shí)驗(yàn)中通過分別記錄算法在背景雜亂、運(yùn)動(dòng)模糊、尺度變化等三種情況下的跟蹤結(jié)果框圖以進(jìn)行定性分析。
4.3.1 背景雜亂場(chǎng)景算法性能分析
圖5所示為背景雜亂情況下各算法的跟蹤效果,在carDark視頻序列中由于夜間行車,周圍燈光干擾和相似目標(biāo)導(dǎo)致跟蹤環(huán)境背景比較雜亂,對(duì)跟蹤目標(biāo)汽車產(chǎn)生了較大挑戰(zhàn),在第229幀中HDT算法雖然應(yīng)用了多層卷積特征,但是其沒有考慮到特征冗余問題,所以其產(chǎn)生了跟蹤漂移現(xiàn)象,在第280幀中MCPF也產(chǎn)生了大幅度跟蹤漂移,這是因?yàn)镸CPF算法雖然考慮到多尺度和多層特征相關(guān)性,但其沒有解決特征冗余問題,所以導(dǎo)致算法在較為復(fù)雜環(huán)境下產(chǎn)生跟蹤漂移。
在soccer序列中由于田徑慶祝時(shí)所使用的彩花、人體運(yùn)動(dòng)、服裝相似等情況導(dǎo)致背景非常復(fù)雜,在shaking序列場(chǎng)景為搖滾音樂場(chǎng)景,由于夜間強(qiáng)光閃爍和搖滾歌手的快速運(yùn)動(dòng)等導(dǎo)致所拍攝場(chǎng)景比較混亂,因此在soccer序列第177幀、353幀和shaking序列第193幀、338幀時(shí)不僅HDT、MCPF出現(xiàn)跟蹤漂移,而且CCOT算法也出現(xiàn)了小幅度跟蹤漂移,這是因?yàn)镃COT算法考慮到了多層卷積特征分辨率差異問題,對(duì)其進(jìn)行了空間變換插值處理,所以在背景雜亂場(chǎng)景下跟蹤效果較好,但由于沒有考慮到特征不相關(guān)性和冗余問題,所以仍會(huì)出現(xiàn)產(chǎn)生跟蹤漂移問題。然而,由于CFSWR不僅考慮到多層卷積特征融合問題和特征分辨率不一致問題,還考慮到特征相關(guān)性和冗余性,因此在圖5所示背景雜亂的三個(gè)序列中跟蹤效果較好。
圖5 背景雜亂
4.3.2 運(yùn)動(dòng)模糊場(chǎng)景算法性能分析
圖6所示為運(yùn)動(dòng)模糊情況下各算法的跟蹤效果,在ironman序列中鋼鐵俠運(yùn)動(dòng)速度極快且背景較為復(fù)雜,導(dǎo)致圖片產(chǎn)生運(yùn)動(dòng)模糊效果,在這種環(huán)境下跟蹤目標(biāo)難度極大。在ironman序列第120幀時(shí)只有本文所提算法CFSWR和CCOT算法能夠準(zhǔn)確跟蹤目標(biāo),這是因?yàn)橄嘟挥谄渌惴ㄟ@兩個(gè)算法使用了都使用了多層卷積特征且考慮了各層特征分辨率不一致問題,所以最后使用的特征表征能力較強(qiáng),能在運(yùn)動(dòng)模糊場(chǎng)景下較好跟蹤目標(biāo),但是相比較而言由于所提CFSWR算法考慮了特征不相關(guān)性和冗余性,所以跟蹤更為準(zhǔn)確,這點(diǎn)從ironman序列第120幀中也得到了印證。
blurOwl序列的運(yùn)動(dòng)模糊效果主要是由于錄像過程中相機(jī)快速運(yùn)動(dòng)導(dǎo)致產(chǎn)生運(yùn)動(dòng)模糊效果,而david序列的運(yùn)動(dòng)模糊效果主要由人體相對(duì)于相機(jī)快速移動(dòng)導(dǎo)致,可以發(fā)現(xiàn)在blurOwl序列的第154幀、370幀和david序列的第461幀、770幀時(shí)ASRCF、CCOT、GFSDCF、HDT、MCPF等算法大多發(fā)生一定程度的跟蹤漂移現(xiàn)象,而本文所提算法由于不僅采用了深度特征,而且在進(jìn)行多層特征響應(yīng)融合時(shí)還考慮到分辨率差異和特征不相關(guān)性剔除,所以在3個(gè)運(yùn)動(dòng)模糊挑戰(zhàn)序列中能夠精準(zhǔn)跟蹤目標(biāo)。
圖6 運(yùn)動(dòng)模糊
4.3.3 尺度變化場(chǎng)景算法性能分析
圖7所示為尺度變化情況下各算法的跟蹤效果,在doll序列中由于玩具離相機(jī)遠(yuǎn)近不同導(dǎo)致所錄玩具的尺度差異比較大,這給目標(biāo)尺度估計(jì)帶來了嚴(yán)峻的挑戰(zhàn)。在doll序列的第886幀中所提CFSWR算法的尺度估計(jì)最為準(zhǔn)確,而HDT最差,這是因?yàn)镃FSWR算法采用了一個(gè)尺度估計(jì)專用模型,在不犧牲速度的前提下實(shí)現(xiàn)高精度尺度估計(jì),而HDT算法主要的是使用多層卷積特征融合,對(duì)于尺度估計(jì)方面僅采用單一的尺度因子進(jìn)行控制,所以其尺度估計(jì)效果不佳。
dragonBaby序列的尺度變化挑戰(zhàn)主要是由于小孩在劇烈運(yùn)動(dòng)導(dǎo)致離鏡頭遠(yuǎn)近不一所造成,而rubik序列中人在對(duì)魔方進(jìn)行旋轉(zhuǎn)和相對(duì)鏡頭平移也導(dǎo)致所錄制的魔方的尺度不一致。在dragonBaby序列的第47幀和第85幀ASRCF算法均跟蹤失敗,這是由于ASRCF雖然考慮到多層特征融合但是由于其沒有考慮到特征不相關(guān)性,所以面對(duì)復(fù)雜的場(chǎng)景適應(yīng)性較差。在rubik序列的第1362幀時(shí)由于魔方尺度和旋轉(zhuǎn)變化程度較大,所有目標(biāo)尺度估計(jì)的準(zhǔn)確度均受到較大影響,MCPF的尺度偏差最大,這是由于該算法雖然通過粒子采樣策略處理尺度變化,但沒有使用深度特征,在目標(biāo)定位不準(zhǔn)確情況無法進(jìn)行良好的尺度估計(jì),因此效果較差,而本文所提算法雖然尺度估計(jì)也出現(xiàn)了失誤,但由于其使用多層卷積特征融合且考慮到特征不相關(guān)性,所以其尺度估計(jì)失誤程度比較低。
圖7 尺度變化
在算法設(shè)計(jì)中實(shí)用性評(píng)估是非常關(guān)鍵的環(huán)節(jié),為了評(píng)估算法的實(shí)用性實(shí)驗(yàn)中記錄了幾種算法的平均速度以進(jìn)行算法時(shí)間復(fù)雜度評(píng)估,具體如表2所示。從表中可以看出ASRCF算法速度最快,這是因?yàn)槠涫褂昧穗p路并行模型分別對(duì)算法的位置和尺度進(jìn)行估計(jì),其速度實(shí)時(shí)性得到了保障;CCOT算法于使用了三次樣條函數(shù)進(jìn)行插值且每幀進(jìn)行了五次串行尺度估計(jì),所以其速度比較低,不能實(shí)時(shí)應(yīng)用;MCPF算法雖然使用了傳統(tǒng)特征,但其采用了粒子采樣策略使得算法速度十分受限,也不能實(shí)時(shí)應(yīng)用。而本文所提CFSWR算法既具備了CFSWR的雙路并行模型,又具備GFSDCF算法的特征選擇方法,其速度雖然由于進(jìn)行特征不相關(guān)性和特征冗余處理時(shí)被降低,但最終測(cè)定平均速度也達(dá)到了10.1幀每秒,這個(gè)速度在實(shí)際工程中如果采用視頻抽幀法可以達(dá)到實(shí)時(shí)應(yīng)用要求,因此本文所提算法可以應(yīng)用于工程實(shí)踐。
表2 算法平均運(yùn)行速度對(duì)比
本文針對(duì)傳統(tǒng)核相關(guān)濾波算法采用多卷積特征響應(yīng)融合、通道特征選擇、雙路模型分別進(jìn)行定位和尺度估計(jì)等策略解決目標(biāo)跟蹤過程中特征表征能力不足、特征冗余、尺度估計(jì)導(dǎo)致算法速度慢等問題,提高目標(biāo)跟蹤的準(zhǔn)確性和穩(wěn)健性。本文具體創(chuàng)新點(diǎn)如下:①采用多層特征響應(yīng)融合方式提高特征表征能力。②采用空間插值方法解決卷積層特征分辨率不同問題。③采用通道特征選擇策略解決通道特征不相關(guān)和冗余問題。④采用雙路模型進(jìn)行目標(biāo)定位與尺度估計(jì)使得算法在高精度尺度估計(jì)下速度幾乎不受影響。⑤在公開測(cè)試集上測(cè)試所提算法性能,經(jīng)測(cè)試所提算法的準(zhǔn)確性和穩(wěn)健性良好。