任紅格,梁 晨,史 濤
(1. 華北理工大學(xué)電氣工程學(xué)院,河北 唐山 063210;2. 天津城建大學(xué)控制與機械工程學(xué)院,天津 300384)
視覺目標跟蹤是計算機視覺領(lǐng)域中最重要的部分之一,在機器人視覺,人工智能監(jiān)控,AR等方面有廣泛的應(yīng)用前景[1]。在實際的跟蹤任務(wù)中,一般在第一幀中指定目標區(qū)域并在后續(xù)幀中實現(xiàn)跟蹤。盡管目標跟蹤技術(shù)在過去半個世紀的時間里取得了非常多的成果,但仍然由于光線變化,形變,運動驟變和遮擋等因素,還是具有研究意義。相比較于機器,人類的視覺系統(tǒng)在這方面具有明顯優(yōu)勢。計算機跟蹤器的關(guān)鍵是通過對目標特征的建模分析,而人類視覺通過對三維環(huán)境的感知、對顏色刺激的敏感以及記憶系統(tǒng)來分析環(huán)境和目標[3]。在本文中,通過模擬人類的視覺顏色刺激和短期記憶系統(tǒng)來建立神經(jīng)網(wǎng)絡(luò)模型,進一步克服之前的視覺追蹤挑戰(zhàn)。
一般認為,認知心理記憶模型中,人類記憶系統(tǒng)由三個主要的要素構(gòu)成:感覺記憶,短期記憶和長期記憶。感覺記憶是一個將周圍環(huán)境信息輸入記憶系統(tǒng),記憶系統(tǒng)收到外部刺激后,保持刺激并發(fā)送到短期記憶的過程。在短期記憶過程中,目標信息有一個預(yù)演的過程,之后記憶系統(tǒng)會針對刺激產(chǎn)生相對的反應(yīng),盡管短期記憶不能被長期保存,但其中的信息可以被視作有很高的可塑性,其中對于跟蹤問題的啟發(fā)尤為重要。長期記憶主要是對反復(fù)接受的信息進行整理編碼,容量接近無限,并且可以保持很長一段時間,通過在長期記憶的內(nèi)容中檢索,轉(zhuǎn)到短期記憶中來回憶信息,因而長期記憶能夠一定程度上代表穩(wěn)定性較高的事件信息。
在目標追蹤任務(wù)中,如何在光照、尺度發(fā)生變化時跟蹤器依然保持穩(wěn)定,在面對遮擋時依然能夠不丟失目標,同時保持一定的實時性和魯棒性,依舊是這個領(lǐng)域最大的挑戰(zhàn)。深度神經(jīng)網(wǎng)絡(luò)的發(fā)展一定程度上影響了相關(guān)研究對于跟蹤器的認知,特征的重要性被前所未有的突出。fHOG和深度特征的引入[4]使得跟蹤器在保持實時性能和精確度方面做出了很大突破,更具辨識力的特征設(shè)計和提取成為跟蹤的重點。優(yōu)秀的特征往往能使得算法在跟蹤中面對遮擋以及其它干擾時能保持魯棒。
在這篇文章中,提出了一個基于殘差網(wǎng)絡(luò)的短期記憶視覺矯正模型(SMRN)跟蹤算法來嘗試解決上述問題。與人類認知記憶系統(tǒng)相似,SMRN通過ResNet[5]提取特征,之后使用核相關(guān)濾波器對目標進行建模跟蹤。通過短期視覺記憶模塊來進行尺度矯正。同時提出了一種通過認知記憶機制調(diào)整更新模型外觀的自適應(yīng)學(xué)習(xí)方法。
鑒于殘差網(wǎng)絡(luò)(ResNet)在訓(xùn)練方面的優(yōu)秀性能和強大的泛化性,本文算法將以ResNet為提取特征的方法,通過多通道提取深度特征,配合KCF[6]進行跟蹤定位,之后通過短期記憶尺度矯正模塊進行尺度矯正,得出的算法將在公共數(shù)據(jù)集平臺OTB100上進行結(jié)果測試。
所提算法的結(jié)構(gòu)如圖1所示,大致分為特征提取和目標跟蹤,模型尺度矯正估計等兩個部分,之后根據(jù)跟蹤結(jié)果對尺度模型進行更新。
圖1 算法的總體結(jié)構(gòu)
圖2顯示了基層和殘余層的結(jié)構(gòu)。
圖2 殘差網(wǎng)絡(luò)基本結(jié)構(gòu)
本文將H(X)表示為輸入X的最佳映射,將FB(X)表示為基礎(chǔ)層的輸出。本文不傾向于疊加更多的層來近似H(X),而是希望這些層近似剩余函數(shù):FR(X)=H(X)-FB(X)。因此,預(yù)期網(wǎng)絡(luò)輸出可以表述如下:
F(X)=FB(X)+FR(X)=FB{X,(WB)}+FR{X,(WR)}
(1)
映射FR(X,{WR})表示殘差學(xué)習(xí),而WR是帶有偏差的卷積層的一般形式,為了簡化符號,省略了ReLU。在小濾波器規(guī)模的動態(tài)學(xué)習(xí)中,本文采用了三層結(jié)構(gòu)。它們被設(shè)置為捕獲基層輸出中不存在的殘余。最后,輸入X通過基礎(chǔ)和殘差映射進行回歸,生成輸出響應(yīng)映射。
網(wǎng)絡(luò)層數(shù)的增加和圖像的特征表達效果并不是成正比的,在5層以內(nèi)的淺層網(wǎng)絡(luò)往往能取得不錯的識別效果。經(jīng)過大量實驗證明,ResNet的conv4層及其前層的跟蹤效果優(yōu)于其它層,如表1所示,所以在本文算法中主要采取conv4層用于特征提取。
表1 不同層性能對比
假設(shè)輸入圖像中的感興趣區(qū)域(ROI,region of interest) 大小為m×n×3,經(jīng)過殘差網(wǎng)絡(luò)提取后,得到的特征大小分別為m1×n1×k1、m2×n2×k2和m3×n3×k3,ki表示第i(i=1,2,3)個特征通道數(shù)。其中每個特征分別經(jīng)過相關(guān)濾波器,得到的響應(yīng)圖大小均為s×t,然后對各個響應(yīng)圖進行加權(quán)求和,對應(yīng)權(quán)值為γi,得到位于響應(yīng)圖中響應(yīng)值最大的點為中心位置。想要區(qū)分目標和背景,試圖訓(xùn)練非線性分類器代替之前的濾波框架,引入高斯核,KCF核相關(guān)濾波器α可以表示為
(2)
人類視覺記憶中,感覺記憶時間最短,大約只有0.1秒,長期記憶在一分鐘左右,本算法為應(yīng)對遮擋,光線變化等因素,所選擇的短期記憶方式通常在1-2秒,通過建立短期視覺記憶尺度變化信息庫,以時間長度T為一個周期,取每一幀之前T時間內(nèi)的尺度變化率
(3)
并設(shè)定一個閾值λ,超過λ就啟動尺度矯正
(4)
通過對目標位置進行采樣,建立33個尺度金字塔,提取其HOG特征(d維),經(jīng)過尺度濾波器[9],得到響應(yīng)最大的目標位置,尺度濾波器為
(5)
其中:G為利用高斯函數(shù)構(gòu)建的響應(yīng)值,G*表示G的共軛,F(xiàn)l表示第l維特征的傅里葉變換,d為特征維數(shù)。
尺度濾波器的分子項、部分分母項分別為
Al=G*⊙Fl
(6)
(7)
響應(yīng)值y為
(8)
y中最大值位置對應(yīng)目標最佳尺度.Zl表示輸入圖像第l維特征的傅里葉變換.
在確認第t幀的位置和尺度之后,出于對算法魯棒性的考量,還需要在t+1幀跟蹤前對位置濾波器和尺度濾波器進行更新。位置濾波器更新策略如下
αt=(1-η)αt-1+ηα(t)
(9)
其中:αt-1為對第t幀圖像跟蹤前求得的濾波器模板,α(t)為根據(jù)第t幀圖像求得的濾波器模板η為位置濾波器的學(xué)習(xí)率.對第t幀圖像跟蹤后,尺度模型更新策略為
(10)
(11)
其中η′為尺度濾波器的學(xué)習(xí)率.
在windows10系統(tǒng)下,采用matlab2018作為實驗平臺。硬件配置如下:英特爾1.8GHz的CPU,8GB內(nèi)存,英偉達760m顯示適配器。位置濾波器的學(xué)習(xí)率η=0.03,正則項λ=10-4.尺度濾波器的尺度因子a=1.03,采樣個數(shù)S=30,學(xué)習(xí)率η′=0.025,正則項λ=10-4.
測試數(shù)據(jù)采用當(dāng)下廣泛應(yīng)用的OTB數(shù)據(jù)集,通過選取100個視頻序列中的60個包含光照尺度變化,遮擋等典型跟蹤任務(wù)的挑戰(zhàn)序列來運行算法。表2、表3詳細列出了 11 種普遍挑戰(zhàn)下算法的成功率和精確度數(shù)據(jù),最優(yōu)結(jié)果用粗體標注,次優(yōu)結(jié)果用斜體表示。
如圖所示,由于算法在充分考慮了目標模型尺度變化的基礎(chǔ)上采用了較強特征表征能力的深度殘差網(wǎng)絡(luò)提取特征,所提SMRN框架在幾乎所有挑戰(zhàn)屬性序列上表現(xiàn)都很好,在保證了穩(wěn)定性的前提下實現(xiàn)了準確性和實時性的提升。綜上所述,所提出的算法在具有光照變化,遮擋屬性的視頻序列上表現(xiàn)出較好的跟蹤性能,同時因為記憶矯正的引入使得在形變,目標遮擋等復(fù)雜環(huán)境下仍然保持了一定的魯棒性。
表2 所提算法和其它算法成功率對比(加粗為最優(yōu),斜體為次優(yōu),下同)
表3 所提算法和其它算法精確度對比
在 OTB100 的所有視頻上對相關(guān)算法進行測試,成功率曲線和精確度曲線如圖3,4 所示。除去2016年的頂級算法C-COT[10],與成功率位于第3的 HCF 算法相比,所提算法的成功率和精確度分別提高了 1. 2% 、5.7 %; 與精確度位于第 3的Staple算法相比,所提算法的成功率和精確度分別提高了 2. 9% 、0. 6%。
圖3 精確度
圖4 成功率
因為ROI大小隨著序列尺度的變化而變化,大尺度的目標在進行卷積時不可避免的會拖慢算法運行速度。在以實時性為主要著眼點的相關(guān)濾波算法中,所提SMRN算法達到了基本實現(xiàn)實時性的4 f/s,具體對比如表4所示。
表4 算法速度對比
本文提出了一種基于ResNet和短期記憶尺度變換的視頻跟蹤算法,在通過利用深度殘差網(wǎng)絡(luò)特征提取的基礎(chǔ)上,使用和相關(guān)濾波模板得到響應(yīng)位置并進行尺度采樣,利用短期視覺機制進行尺度矯正估計,并在OTB100數(shù)據(jù)集上測試可行性,與其它算法進行了對比。實驗結(jié)果表明,所提出的算法在具有一定實時性的基礎(chǔ)上能夠較好地面對尺度,光照的變化以及遮擋,在保證精確度的前提下也具有魯棒性,同時也說明深度網(wǎng)絡(luò)在目標跟蹤領(lǐng)域仍具有一定的可挖掘潛力。
實驗的同時也發(fā)現(xiàn)多層次的神經(jīng)網(wǎng)絡(luò)各層的特征提取能力不同,如何在特征提取的基礎(chǔ)上進行多通道特征融合進而實現(xiàn)復(fù)雜情況下的目標識別檢測跟蹤依然是接下來研究的方向。