任紅格,梁晨,史濤
(1.天津城建大學(xué)控制與機(jī)械工程學(xué)院,天津300384;2.華北理工大學(xué)電氣工程學(xué)院,唐山063210)
作為現(xiàn)代計(jì)算機(jī)視覺領(lǐng)域的重要分支,目標(biāo)跟蹤技術(shù)在工業(yè)生產(chǎn)、智能機(jī)器人、智能監(jiān)控等領(lǐng)域有廣泛且深入的應(yīng)用。目標(biāo)跟蹤任務(wù)一般總體上是在的目標(biāo)跟蹤任務(wù)中,通過鎖定第一幀中的目標(biāo)區(qū)域,對(duì)后續(xù)幀的目標(biāo)框進(jìn)行持續(xù)的跟蹤[1]。在過去幾十年的研究開發(fā)過程中,這項(xiàng)技術(shù)獲得了許多令人矚目的成果,跟蹤效果得到了顯著的提升。但隨著研究的深入,研究者們發(fā)現(xiàn)在生活或者生產(chǎn)過程中存在許多的復(fù)雜情況,例如光照變化、目標(biāo)形態(tài)變化、目標(biāo)遮擋以及背景干擾等復(fù)雜因素,目標(biāo)跟蹤技術(shù)仍然存在著一定的改善空間[2]。近年來隨著人工智能技術(shù)和機(jī)器學(xué)習(xí)算法的快速發(fā)展,神經(jīng)網(wǎng)絡(luò)對(duì)于圖像方面的處理優(yōu)勢(shì)啟發(fā)了計(jì)算機(jī)視覺領(lǐng)域,通過模擬人類腦神經(jīng)視覺系統(tǒng)建立模型,分辨出圖像中最感興趣的部分,借此引導(dǎo)計(jì)算機(jī)算法對(duì)目標(biāo)實(shí)施跟蹤過程。在本文中,通過建立視覺顯著性模型和MDNet跟蹤算法結(jié)合,在多重特征提取的基礎(chǔ)上對(duì)原有MD網(wǎng)絡(luò)追蹤過程進(jìn)行改進(jìn),在不損失精度的基礎(chǔ)上盡可能通過視覺選擇機(jī)制來優(yōu)化算法模型,提升算法運(yùn)行速度,以此實(shí)現(xiàn)目標(biāo)跟蹤的實(shí)時(shí)性。
視覺選擇注意機(jī)制和運(yùn)動(dòng)檢測(cè)機(jī)制在人眼視覺系統(tǒng)中至關(guān)重要[3],這關(guān)系到長(zhǎng)期記憶與視覺系統(tǒng)識(shí)別目標(biāo)時(shí)是否判斷識(shí)別準(zhǔn)確,在實(shí)際追蹤目標(biāo)或?qū)δ繕?biāo)進(jìn)行檢測(cè)過程中,調(diào)用長(zhǎng)期記憶便依賴于人眼自身的注意。首先是通過眼部注意到色彩或者強(qiáng)光刺激信息,無意識(shí)的注意機(jī)制會(huì)快速的對(duì)重要信息進(jìn)行篩選,輸入大腦視覺識(shí)別系統(tǒng)的就是初步處理過的感興趣信息了。以此不斷優(yōu)化人腦的視覺記憶庫,如果再次看到記憶中的目標(biāo),通過這個(gè)流程會(huì)很快做出判斷。人腦視覺機(jī)能并不像人類所想的那樣全面,外部世界的信息事實(shí)上通過肉眼實(shí)際傳遞到視覺皮層的只有很少一部分,人腦在實(shí)際工作中會(huì)無意識(shí)的忽略大部分信息,可能是出于對(duì)有限大腦機(jī)能的保護(hù),默認(rèn)排除掉了難以理解的細(xì)節(jié)部分。一般認(rèn)為人眼注意焦點(diǎn)和眼球運(yùn)動(dòng)密不可分,也就是所謂的顯性注意。但在1890年就有學(xué)者指出了眼角同樣能夠注意到目標(biāo)的隱形注意,在這個(gè)過程中實(shí)際上并不需要眼球轉(zhuǎn)動(dòng),映入人眼的信息直接就能為人腦所捕獲,并進(jìn)而實(shí)現(xiàn)后續(xù)的檢測(cè)、識(shí)別和追蹤等任務(wù)。
在大多數(shù)目標(biāo)跟蹤任務(wù)中,如何平衡追蹤器的實(shí)時(shí)性與準(zhǔn)確性,如何在形變、背景等干擾作用下依然保持一定精度的跟蹤而不丟失,仍然是這個(gè)領(lǐng)域所面臨的挑戰(zhàn)。深度網(wǎng)絡(luò)算法的逐漸發(fā)展在相當(dāng)程度上影響了目標(biāo)跟蹤的發(fā)展進(jìn)程,訓(xùn)練能夠?qū)μ卣鬟M(jìn)行較為準(zhǔn)確提取的跟蹤器變得十分重要。MDNet[4]在跟蹤領(lǐng)域?qū)μ卣鞣謩e提取的構(gòu)想以及其網(wǎng)絡(luò)結(jié)構(gòu)都成為精準(zhǔn)跟蹤的重要因素,優(yōu)秀的特征提取性能以及對(duì)跟蹤器的有效訓(xùn)練使得其脫穎而出。
在本文中提出了一個(gè)基于目標(biāo)注意機(jī)制的MDNet目標(biāo)跟蹤方法,通過結(jié)合MD網(wǎng)絡(luò)和視覺系統(tǒng)中的注意機(jī)制兩者的優(yōu)勢(shì),通過特征分別提取過程和建立顯著性注意模型來訓(xùn)練有效的分類器。在盡量不影響原有跟蹤精度的前提下改善MD網(wǎng)絡(luò)面對(duì)復(fù)雜情況是所出現(xiàn)的運(yùn)行速度下降[5]的問題,以期實(shí)現(xiàn)較高精度的實(shí)時(shí)跟蹤過程。
所提算法基于MD網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行正負(fù)樣本分別提取,并分別對(duì)樣本進(jìn)行顯著性建模,對(duì)不同類別的樣本分配各自的權(quán)重,通過提取來的特征樣本對(duì)模型進(jìn)行優(yōu)化,優(yōu)化過的模型再通過DSST分類器訓(xùn)練進(jìn)行追蹤過程,得到的結(jié)果再對(duì)訓(xùn)練過程進(jìn)行反饋調(diào)整。
所提算法的結(jié)構(gòu)如圖1所示,大致分為特征提取和目標(biāo)跟蹤,模型尺度矯正估計(jì)等兩個(gè)部分,之后根據(jù)跟蹤結(jié)果對(duì)尺度模型進(jìn)行更新。
圖1
MD網(wǎng)絡(luò)作為一種基于目標(biāo)跟蹤需要而經(jīng)過特殊調(diào)整的網(wǎng)絡(luò)結(jié)構(gòu),在VGG網(wǎng)絡(luò)[6]的基礎(chǔ)上MDNet作為一個(gè)規(guī)模只有五層的淺層網(wǎng)絡(luò),和應(yīng)用于其他計(jì)算機(jī)視覺任務(wù)的結(jié)構(gòu)相比顯得更輕量化,主要是出于特征提取的辨識(shí)度和運(yùn)算時(shí)效率這兩點(diǎn)的考慮,網(wǎng)絡(luò)深度的增加某種意義上反而不利于實(shí)現(xiàn)實(shí)時(shí)穩(wěn)定的跟蹤過程,因此過多的層數(shù)既無法保證實(shí)時(shí)性也沒有必要。
圖2
通過采集200個(gè)基礎(chǔ)樣本數(shù)據(jù)作為訓(xùn)練需求,定義和目標(biāo)相關(guān)重疊率大于70%的為正樣本,小于50%的為負(fù)樣本。訓(xùn)練過程大致如下:將分別集中了正負(fù)特征和背景特征的各個(gè)多域網(wǎng)絡(luò)分別對(duì)應(yīng)各自的追蹤數(shù)據(jù)進(jìn)行訓(xùn)練,在各個(gè)分支通過梯度下降法進(jìn)行計(jì)算,如果某個(gè)分支達(dá)到了激活臨界值則進(jìn)行激活并繼續(xù)訓(xùn)練,和其他分支不交叉,訓(xùn)練數(shù)據(jù)則會(huì)根據(jù)之后的視頻序列所需進(jìn)行提供,并繼續(xù)依次激活之后的分支,逐漸訓(xùn)練到收斂。
如果P和G誤差控制在一個(gè)相對(duì)較小的區(qū)間內(nèi),則上述變換過程可以視作線性的,這里便可以引入線性回歸的機(jī)器學(xué)習(xí)模型來對(duì)回歸框進(jìn)行校正。
在MDNet中首先輸入的是第一幀圖片的目標(biāo)位置,在回歸模型中輸入不再是P而是通過conv3后的特征向量
得到的是預(yù)測(cè)值P也就是估計(jì)區(qū)域信息,如果要得到和實(shí)際區(qū)域G的相關(guān)關(guān)系還需要經(jīng)過變換詳細(xì)如下:
如果想要讓預(yù)估值無限接近于真實(shí)值,那么就需要把損失函數(shù)Loss盡可能降低,這樣得到的目標(biāo)位置就會(huì)更準(zhǔn)確。
實(shí)際追蹤任務(wù)中,提取的樣本有正有負(fù),但還存在困難例樣本,如果再訓(xùn)練的時(shí)候適當(dāng)?shù)奶砑右欢康睦щy例負(fù)樣本可以在提高算法準(zhǔn)確性的基礎(chǔ)上使網(wǎng)絡(luò)更穩(wěn)定地訓(xùn)練,更快的收斂。在邊界框回歸框架中,只需要尋找少量的對(duì)訓(xùn)練有益的困難負(fù)樣本,以此結(jié)合正樣本一并成為總體的訓(xùn)練數(shù)據(jù)。大體上就是利用初始負(fù)樣本訓(xùn)練出一個(gè)能夠和困難例樣本進(jìn)行結(jié)合的分類器以適用于之后的訓(xùn)練。
當(dāng)C是集合D的子集的時(shí)候,當(dāng)且僅當(dāng)滿足M(?*(D) )?C,則?*(C)=?*(D)。即在D上訓(xùn)練一個(gè)分類器?,使用該分類器?*(D)在D上搜索困難例,所得到的在C上的分類器等價(jià)于D上的分類器;如果存在?*(M(?,D) )=?,那么?=?*(D)。即對(duì)于分類器?,它在D上得到的難例樣本集為M(?,D),用M(?,D)訓(xùn)練一個(gè)分類器?*(M(?,D) ),當(dāng)訓(xùn)練的結(jié)果與?相等,就停止訓(xùn)練,?即為當(dāng)前最優(yōu)分類器。
D的困難和簡(jiǎn)單樣本定義分別如式(4)和(5):
設(shè)?*(D)=arg minLD(?),則可得到模型參數(shù)在D上的表達(dá)。給定一個(gè)大樣本集合得到小樣本集合C,使?jié)M足條件?*(C)=?*(D)。循環(huán)往復(fù)的模型學(xué)習(xí)開始之后,需要在保持正樣本不動(dòng)的情況下對(duì)負(fù)樣本進(jìn)行困難例挖掘,不斷添加樣本最后以實(shí)現(xiàn)模型更新。
如果要使用新訓(xùn)練好的網(wǎng)絡(luò)進(jìn)行目標(biāo)追蹤和任務(wù),出于對(duì)新目標(biāo)適應(yīng)的考量,MDNet中會(huì)新建一個(gè)輸出層,在已訓(xùn)練完成的卷積層數(shù)維持不變的基礎(chǔ)上只對(duì)全連接層和新輸出層進(jìn)行更新[8]。在確定了首幀位置之后,通過采集300個(gè)正樣本和2000個(gè)負(fù)樣本對(duì)網(wǎng)絡(luò)初始化,同時(shí)對(duì)全連接層進(jìn)行微調(diào)。第二幀開始選取用來分別對(duì)長(zhǎng)期和短期網(wǎng)絡(luò)進(jìn)行更新的50個(gè)正樣本和200個(gè)負(fù)樣本。如果出現(xiàn)此處的追蹤結(jié)果不精確的情況,需要通過降低負(fù)樣本的選取重疊標(biāo)準(zhǔn),避免將目標(biāo)歸入負(fù)樣本的情況發(fā)生。
首先對(duì)輸入的原始圖像進(jìn)行線性濾波預(yù)處理,去除噪聲干擾后建立三個(gè)圖像通道,同時(shí)提取方向、顏色和亮度的值進(jìn)行建模,之后一同導(dǎo)入高斯低通濾波器,以此對(duì)輸入信號(hào)進(jìn)行處理和降采樣,產(chǎn)生數(shù)個(gè)不同顏色和亮度的特征輸出,并伴隨著四個(gè)方向向量,然后對(duì)三個(gè)通道不同的尺度特征圖進(jìn)行歸一化,最后得到三個(gè)通道的綜合特征圖。
設(shè)r、g、b和分別代表輸入圖像的紅色、綠色和藍(lán)色通道,亮度信息通過下式獲得:
四個(gè)顏色通道紅、綠、藍(lán)、黃(R,G,B,Y)輸入分別通過以下式子獲?。?/p>
以上顏色通道輸出若有負(fù)值均設(shè)為0。
方向信息是用濾波器來實(shí)現(xiàn)的,用不同尺度的Gabor方向?yàn)V波Wbpf(σ,θ)對(duì)輸入圖像進(jìn)行處理得到輸出為:
其中σ∈{0 ,1,2,…,8}代表不同分辨率大小的對(duì)應(yīng)圖層,θ∈{0°,45°,90°,135°}表示向量方向。而方向檢測(cè)的Gabor濾波器Wbpf通過解調(diào)拉氏金字塔濾波器得到。
訓(xùn)練的目標(biāo)是獲得最后的特征圖,為此需要對(duì)所有通道特征進(jìn)行加權(quán)求和。特征圖中如果現(xiàn)實(shí)輸出值更大則表示相對(duì)應(yīng)的注意值更高,也就是更受算法的注意。另外算法還特意針對(duì)已經(jīng)特別注意的區(qū)域不會(huì)分配更多的權(quán)重,避免注意力集中在某個(gè)地區(qū),如果是階梯性的關(guān)注結(jié)果則是最優(yōu)情況。當(dāng)大部分特征區(qū)域完成對(duì)應(yīng)關(guān)系計(jì)算后得到的特征結(jié)果圖則為最后需要的結(jié)果。
在MDNet進(jìn)行追蹤的基礎(chǔ)上再通過建立尺度濾波器結(jié)合視覺注意機(jī)制進(jìn)行尺度調(diào)整和輔助追蹤。通過建立尺度金字塔來對(duì)特征進(jìn)行選擇性提取,并通過相關(guān)濾波器搜索得出追蹤目標(biāo)位置[10]。
通過設(shè)計(jì)濾波器H,輸入信號(hào)F(f),高斯輸出響應(yīng)在跟蹤目標(biāo)中心位置值最大,離目標(biāo)越遠(yuǎn)值越小,以此思路設(shè):
轉(zhuǎn)換到頻域即為:
最后設(shè)計(jì)濾波器H應(yīng)滿足損失函數(shù):
模型更新策略:
在Windows 10系統(tǒng)下,采用MATLAB 2018作為實(shí)驗(yàn)平臺(tái)。硬件配置如下:Intel Core i5-3337U@1.8GHz CPU,8GBRAM,英偉達(dá)760m顯示適配器。位置濾波器的學(xué)習(xí)率η=0.03,正則項(xiàng)λ=10-4。尺度濾波器的尺度因子a=1.03,采樣個(gè)數(shù)S=30,學(xué)習(xí)率η'=0.025,正則項(xiàng)λ=10-4。所用測(cè)試集為OTB100[11]公開數(shù)據(jù)集。
由于算法在充分考慮了目標(biāo)模型尺度變化的基礎(chǔ)上采用了較強(qiáng)特征表征能力的深度殘差網(wǎng)絡(luò)提取特征,所提框架在幾乎所有挑戰(zhàn)屬性序列上表現(xiàn)都很好,在具有光照變化,遮擋屬性的視頻序列上表現(xiàn)出較好的跟蹤性能,同時(shí)因?yàn)橛洃洺C正的引入使得在形變,目標(biāo)遮擋等復(fù)雜環(huán)境下仍然保持了一定的魯棒性。
追蹤性能精確性和成功率如圖3、圖4所示,由于MDNet在設(shè)計(jì)時(shí)考慮了對(duì)負(fù)樣本進(jìn)行專門提取收集,因而實(shí)際學(xué)習(xí)訓(xùn)練出來的結(jié)果比其他算法都好。在第二名的基礎(chǔ)上準(zhǔn)確率提升了約5.6%,成功率提升了約3.6%。并且在保證不損失太多精度的情況下基本維持了一定的實(shí)時(shí)性,運(yùn)行速度達(dá)到了5fps。
圖3
圖4
算法在具體跟蹤序列上的表現(xiàn)如圖5所示,所提算法在面對(duì)遮擋、形變以及復(fù)雜背景環(huán)境下運(yùn)動(dòng)的挑戰(zhàn)中[12]均獲得了優(yōu)秀的表現(xiàn)。
圖5
因?yàn)镽OI大小隨著序列尺度的變化而變化,大尺度的目標(biāo)在進(jìn)行卷積時(shí)不可避免的會(huì)拖慢算法運(yùn)行速度[13]。在以實(shí)時(shí)性為主要著眼點(diǎn)的相關(guān)濾波算法中,所提算法達(dá)到了基本實(shí)現(xiàn)實(shí)時(shí)性的4 f/s,具體對(duì)比如表1所示。
表1
本文提出了一種基于ResNet和短期記憶尺度變換的視頻跟蹤算法,在通過利用深度殘差網(wǎng)絡(luò)特征提取的基礎(chǔ)上,使用和相關(guān)濾波模板得到響應(yīng)位置并進(jìn)行尺度采樣,利用短期視覺機(jī)制進(jìn)行尺度矯正估計(jì),并在OTB100數(shù)據(jù)集上測(cè)試可行性,與其他算法進(jìn)行了對(duì)比。實(shí)驗(yàn)結(jié)果表明,所提出的算法在具有一定實(shí)時(shí)性的基礎(chǔ)上能夠較好地面對(duì)尺度、光照的變化以及遮擋,在保證精確度的前提下也具有魯棒性。
實(shí)驗(yàn)的同時(shí)也發(fā)現(xiàn)多層次的神經(jīng)網(wǎng)絡(luò)各層的特征提取能力不同,如何在特征提取的基礎(chǔ)上進(jìn)行多通道特征融合進(jìn)而實(shí)現(xiàn)復(fù)雜情況下的目標(biāo)識(shí)別檢測(cè)跟蹤依然是接下來研究的方向。