段范存,張 雄,寧愛平
(太原科技大學(xué)電子信息工程學(xué)院,太原 030024)
視頻目標(biāo)跟蹤廣泛應(yīng)用于智能交通、視頻監(jiān)控、人機(jī)交互和醫(yī)療診斷等各個(gè)方面。目標(biāo)跟蹤[1-2]是使得計(jì)算機(jī)模仿人的視覺機(jī)制感知并穩(wěn)定跟蹤目標(biāo)物體位置。在跟蹤中,物體遮擋、光照變化、形態(tài)變化以及背景雜波是造成跟蹤效果差的常見原因。因此找到一種能夠應(yīng)對(duì)復(fù)雜環(huán)境影響的魯棒、實(shí)時(shí)的目標(biāo)跟蹤算法是目前亟待解決的難題。
Matthews利用圖像灰度值通過(guò)全局模板匹配應(yīng)用于目標(biāo)跟蹤[1-3]。Mei提出用稀疏表示方法處理目標(biāo)遮擋,但是較高的算法復(fù)雜度使得該算法不能實(shí)現(xiàn)實(shí)時(shí)跟蹤[4]。以上視頻目標(biāo)跟蹤算法在運(yùn)行過(guò)程中未利用背景信息,跟蹤的魯棒性和準(zhǔn)確性較低。Babenko提出多示例學(xué)習(xí)(Multiple Instance Learning, MIL)跟蹤算法[5],利用正負(fù)樣本包提取樣本haar-like特征并更新分類器,獲得了較魯棒的效果,但由于計(jì)算量較大而難以得到實(shí)際應(yīng)用。張開華提出壓縮跟蹤(Real-time Compressive Tracking, CT)算法[6]和快速壓縮跟蹤(Fast Compressive Tracking , FCT)算法[7],兩種算法具有較高的有效性、準(zhǔn)確性和魯棒性。以上算法由于特征單一,當(dāng)目標(biāo)遭遇復(fù)雜環(huán)境影響時(shí)容易導(dǎo)致跟蹤失敗。
隨著深度傳感器的出現(xiàn),深度數(shù)據(jù)已應(yīng)用到視覺跟蹤中,Luber提出基于RGB-D的行人跟蹤[8],但是在復(fù)雜環(huán)境下跟蹤效果降低。
本文提出了融合深度信息的視頻目標(biāo)壓縮跟蹤算法。該算法融合灰度圖像和深度圖像的互補(bǔ)特征,豐富了目標(biāo)外觀模型。多弱分類器加權(quán)組合為強(qiáng)分類器,使得目標(biāo)分類結(jié)果更加準(zhǔn)確。實(shí)驗(yàn)證明,融合深度信息的目標(biāo)外觀模型對(duì)復(fù)雜環(huán)境下的目標(biāo)跟蹤結(jié)果更加的魯棒。
CT算法采用多尺度圖像特征建立外觀模型,是一種簡(jiǎn)單且高效的跟蹤算法。外觀模型利用多尺度濾波保存目標(biāo)原始圖像特征空間信息。通過(guò)稀疏測(cè)量矩陣得到的壓縮特征,利用樸素貝葉斯分類器進(jìn)行目標(biāo)和背景的分類識(shí)別,得到最大分類分?jǐn)?shù)的候選目標(biāo)即為跟蹤目標(biāo)。CT算法在時(shí)間、準(zhǔn)確性和魯棒性等方面表現(xiàn)優(yōu)異。算法流程如圖1所示。
壓縮感知理論[9]是一個(gè)K稀疏信號(hào)可以由一個(gè)數(shù)目小的隨機(jī)測(cè)量矩陣重構(gòu)出來(lái)。一個(gè)隨機(jī)矩陣R∈Rn×m(n?m)可以將高維特征空間中向量x∈Rm投影到低維特征空間v∈Rn,即:
v=Rx
(1)
CT算法中采用的稀疏測(cè)量矩陣R定義如公式(2).
(2)
在公式(2)中,s在2~4之間以平均概率取值。p代表rij取某個(gè)值的概率。稀疏測(cè)量矩陣R將高維特征x降為低維特征v.如圖1中,算法僅需儲(chǔ)存矩陣R中的非零條數(shù)和對(duì)應(yīng)輸入圖像矩形濾波器位置。
圖1 CT算法流程圖
Fig.1 The flow chart of CT algorithm
圖2 特征壓縮圖示
Fig.2 Illustration of compressing feature
CT算法提取到目標(biāo)的正負(fù)樣本集,每一個(gè)樣本降維后的特征表示為v=(v1,...,vn)T∈Rn.設(shè)定v中的所有元素獨(dú)立分布,由樸素貝葉斯分類器建立的模型表示如公式(3).
(3)
(4)
(5)
四個(gè)參數(shù)每完成一次跟蹤進(jìn)行增量更新,
(6)
其中λ>0表示學(xué)習(xí)速率,(μ1,σ1)由式(7)得到較好估計(jì)。負(fù)樣本參數(shù)更新方式與正樣本參數(shù)更新方式相同。
(7)
CT算法的優(yōu)勢(shì)在于利用壓縮感知理論降低數(shù)據(jù)維度,以最大概率保持特征不變性的同時(shí)實(shí)現(xiàn)跟蹤的實(shí)時(shí)性。但是,該算法仍存在缺陷:第一,單一特征不足以表示物體外觀,灰度圖像對(duì)光照變化極其敏感;第二,統(tǒng)計(jì)模型基本固定,容易將弱特征引入到分類器中,降低跟蹤的準(zhǔn)確性。
提出的融合深度信息的視頻目標(biāo)壓縮跟蹤算法是基于灰度圖像特征和對(duì)應(yīng)深度圖像特征的多特征融合建立目標(biāo)外觀模型的實(shí)時(shí)壓縮跟蹤算法,算法流程如圖3所示。該算法提取灰度圖像和對(duì)應(yīng)深度圖像的正負(fù)樣本,通過(guò)多尺度濾波得到樣本的多尺度圖像特征,利用稀疏測(cè)量矩陣實(shí)現(xiàn)特征的降維處理,得到正負(fù)樣本壓縮特征,利用馬氏距離賦予弱分類器權(quán)值,近似優(yōu)化似然函數(shù),提高分類器性能,實(shí)現(xiàn)正負(fù)樣本準(zhǔn)確分類,最終將最大分類分?jǐn)?shù)的候選樣本作為目標(biāo)位置。
深度圖像像素值表示目標(biāo)物體與攝像頭之間的距離。深度圖像不易受到光照和陰影的影響,可以很好地解決物體在彩色圖像中亮度、色度和飽和度會(huì)隨著距離的改變而改變的情況。深度信息的加入不僅豐富了目標(biāo)外觀表示,而且獲得了距離信息,降低了目標(biāo)單一灰度特征的不穩(wěn)定性。
深度圖像特征是一系列圖像塊的加權(quán)組合,特征選取的方式為公式(8)所示:
(8)
其中,變量BLOCK為候選目標(biāo)區(qū)域提取到的圖像塊。變量s表示提取到深度圖像塊的數(shù)目。矩陣R的每一行最多有4個(gè)元素的值參與計(jì)算,其余為0的元素不需要存儲(chǔ)和計(jì)算,節(jié)省了計(jì)算量,提高了算法速度。
CT算法中,稀疏測(cè)量矩陣R1內(nèi)元素rij都為1或 -1時(shí),提取特征表現(xiàn)為圖像灰度的均值,當(dāng)rij的取值既有1又有 -1時(shí),特征表現(xiàn)為圖像塊之間的差異,體現(xiàn)目標(biāo)紋理特征。該算法中70%的特征表示為紋理特征,但是,紋理特征易受到環(huán)境或自身紋理變化影響,表現(xiàn)不穩(wěn)定。
圖3 融合深度信息視頻目標(biāo)壓縮跟蹤算法
Fig.3 Video target compressive tracking algorithm with fusion depth information
為了增強(qiáng)算法的魯棒性,結(jié)合文獻(xiàn)[10]中的特征提取矩陣R2的生成方法,如公式(9),提取深度圖像壓縮特征。
(9)
其中,i表示為特征提取矩陣的第i行,k表示為第i行中第k個(gè)非零值。矩陣R2與R1的分布特性正好相反,深度圖像提取的特征中70%為灰度特征,其余為紋理特征,由此形成互補(bǔ)特征。因此,復(fù)雜環(huán)境下融合深度信息的目標(biāo)外觀模型的穩(wěn)定性得到了補(bǔ)充,從而提高了跟蹤的魯棒性。
公式(3)中似然比最大的正樣本即為跟蹤結(jié)果。因此似然比值的大小對(duì)于算法的跟蹤效果起到至關(guān)重要的作用。融合深度信息的視頻目標(biāo)壓縮跟蹤算法對(duì)不同似然比予以不同的權(quán)值w,提高有效弱分類器權(quán)重,增強(qiáng)整體分類器性能。本文算法利用馬氏距離表示權(quán)值。
每個(gè)特征訓(xùn)練一個(gè)弱分類器,分類器權(quán)值如公式(10)所示:
(10)
融合深度信息的視頻目標(biāo)壓縮跟蹤算法設(shè)定特征中的所有元素都是獨(dú)立分布的,算法利用目標(biāo)彩色圖像的灰度特征和深度圖像的空間特征分別構(gòu)建貝葉斯分類器H(v)、H(u),將灰度特征和空間特征進(jìn)行加權(quán)融合得到新的分類器H(V),實(shí)現(xiàn)目標(biāo)外觀模型多特征融合。
(11)
(12)
(13)
(14)
(15)
(16)
分類器參數(shù)(μi,σi)和(ψj,ζj)按公式(6)和(7)進(jìn)行更新。算法在每一幀都進(jìn)行分類器的更新,由此避免錯(cuò)誤累積,影響跟蹤效果。
為了得到準(zhǔn)確、魯棒的跟蹤結(jié)果,算法使用加權(quán)似然比進(jìn)行特征級(jí)融合,融合后的分類器分?jǐn)?shù)為公式(17)所示。
(17)
將得到最大分類分?jǐn)?shù)所確定的候選目標(biāo)作為目標(biāo)的位置。
本節(jié)詳細(xì)介紹了融合深度信息的視頻目標(biāo)壓縮跟蹤算法。具體步驟如下:
步2:從t=2,...,T開始。
步3:在上一幀目標(biāo)位置lt-1移動(dòng)Δc、Δd個(gè)像素選定彩色圖像塊Drc={X|‖l(X)-lt-1‖ 步4:利用公式(11)和(12)建立分類器(H(v),H(u)),計(jì)算馬氏距離得到H(V),定位到目標(biāo)位置lt′. 步5:在上一幀目標(biāo)位置lt′移動(dòng)Δs、Δt個(gè)像素選定彩色圖像塊Drs={X|‖l(X)-lt′‖ 步6:利用公式(11)和(12)建立分類器(H(v),H(u)),計(jì)算馬氏距離得到H(V),定位到目標(biāo)位置lt. 步7:利用公式(6)和(7)更新分類器。 步8:輸出:第t幀跟蹤目標(biāo)位置lt. 步9:若t≤T,重復(fù)步驟2;否則,結(jié)束。 為測(cè)試融合深度信息的視頻目標(biāo)壓縮跟蹤算法在視頻序列中的性能和更好的評(píng)價(jià)算法,與四種流行的跟蹤算法進(jìn)行比較,其中包括均值漂移目標(biāo)跟蹤(Meanshift)算法[11]、CT算法、FCT算法、多特征加權(quán)外觀模型的快速壓縮跟蹤(Fast compressive tracking based on multi-feature weighted appearance model ,MFWCT)算法[12]、和未使用馬氏距離加權(quán)的融合深度信息目標(biāo)跟蹤(Rgb-d)算法。測(cè)試序列來(lái)自文獻(xiàn)[13]中的視頻序列。測(cè)試序列跟蹤難點(diǎn)如表1所示。所有算法均是在配置為Intel(R)Xeon(R) CPU E3-1280 v3 3.60 GHz、32GB RAM的 64位操作系統(tǒng)計(jì)算機(jī)上的MATLAB R2014b平臺(tái)中實(shí)現(xiàn)的。 本文算法的參數(shù)設(shè)置如下:算法實(shí)現(xiàn)中分別選取了45個(gè)正樣本和50個(gè)負(fù)樣本。正樣本選擇范圍是半徑為4個(gè)像素的圓形區(qū)域,負(fù)樣本是遠(yuǎn)離正樣本的內(nèi)外半徑為8和35個(gè)像素的環(huán)形區(qū)域。算法采用由粗略到精細(xì)的搜索策略,粗搜索時(shí)樣本選擇的區(qū)域半徑為25個(gè)像素,步長(zhǎng)為4個(gè)像素;細(xì)搜索時(shí)半徑為10個(gè)像素,步長(zhǎng)為1個(gè)像素。 表1 測(cè)試視頻跟蹤場(chǎng)景 序列跟蹤場(chǎng)景zcup_move目標(biāo)與背景相似、尺度變化child_no1光照變化、姿態(tài)變化、尺度變化br_occ_0遮擋、背景雜亂、外觀形變、突然運(yùn)動(dòng)zball_no1旋轉(zhuǎn)、光照變化、ball2突然運(yùn)動(dòng)、運(yùn)動(dòng)模糊、光照變化 視頻目標(biāo)跟蹤算法性能要從算法速度、準(zhǔn)確性和魯棒性三個(gè)方面來(lái)度量。 3.2.1 算法速度 目標(biāo)跟蹤算法中,能否實(shí)現(xiàn)實(shí)時(shí)跟蹤是算法好壞的指標(biāo)之一。若算法運(yùn)行時(shí)間較長(zhǎng),即造成目標(biāo)跟蹤準(zhǔn)確率下降,甚至發(fā)生漂移和跟丟目標(biāo)等不良效果。 表1 中fps表示不同算法最佳狀態(tài)下的跟蹤速度(幀/s).目標(biāo)跟蹤中,在保證跟蹤精度情況下跟蹤速度值越大越好。在不同測(cè)試序列下,meanshift算法跟蹤速度平均值為11.15 幀/s,CT算法跟蹤速度平均值為8.76 幀/s,F(xiàn)CT算法跟蹤速度為15.29 幀/s,MFWCT算法跟蹤速度平均值為14.80 幀/s,Rgb-d算法跟蹤速度平均值為12.46 幀/s,本文算法跟蹤速度平均值為12.66 幀/s,可以看出,算法運(yùn)行速度居中,滿足算法實(shí)時(shí)性的需求。 3.2.2 算法定性分析 在四個(gè)序列上測(cè)試了六種算法在遭遇背景相似、部分遮擋、姿態(tài)變化和光照變化等方面的跟蹤結(jié)果,如圖5~圖9.跟蹤結(jié)果圖直觀的表現(xiàn)出序列在不同算法下的跟蹤結(jié)果。如圖4所示,藍(lán)色實(shí)線框、亮藍(lán)色虛線框、綠色點(diǎn)線框、黑色點(diǎn)劃線框、粉色實(shí)線框和黃色實(shí)線框分別表示meanshift算法、CT算法、FCT算法、MFWCT算法、Rgb-d算法和本文算法的實(shí)驗(yàn)結(jié)果。 圖4 不同算法跟蹤框表示 圖5中跟蹤目標(biāo)是與背景顏色相似的杯子?;陬伾狈綀D建模的meanshift算法出現(xiàn)漂移現(xiàn)象。CT、FCT和MFWCT算法由于目標(biāo)遠(yuǎn)離鏡頭但目標(biāo)框大小不變時(shí)弱特征的引入使得總體表現(xiàn)不穩(wěn)定。而融合深度信息的目標(biāo)跟蹤算法Rgb-d和本文算法由于引入深度信息,均得到較準(zhǔn)確和魯棒的效果。 圖6中跟蹤目標(biāo)為灰色兔子,目標(biāo)在12~62幀遭遇左側(cè)兔子遮擋。由跟蹤結(jié)果圖直觀看出本文算法在目標(biāo)運(yùn)動(dòng)過(guò)程中表現(xiàn)魯棒。 圖5 不同算法對(duì)zcup_move 序列跟蹤結(jié)果 圖6 不同算法對(duì)br_occ_0序列跟蹤結(jié)果 圖7中目標(biāo)為運(yùn)動(dòng)過(guò)程中產(chǎn)生姿態(tài)變化的小男孩。由跟蹤結(jié)果圖顯示,51幀開始meanshift算法出現(xiàn)漂移現(xiàn)象。84幀后CT和FCT算法表現(xiàn)不穩(wěn)定。本文算法在目標(biāo)運(yùn)動(dòng)過(guò)程中表現(xiàn)良好。 圖8 zball_no1序列中皮球遭遇光照影響,32幀后meanshift算法發(fā)生漂移,61幀后,CT、FCT、Rgb-d和MFWCT算法表現(xiàn)出不同程度的漂移。跟蹤結(jié)果圖顯示本文算法較其他算法表現(xiàn)魯棒。 圖9中跟蹤目標(biāo)為室內(nèi)光照變化下突然運(yùn)動(dòng)的皮球,60幀之前目標(biāo)運(yùn)動(dòng)劇烈,meanshift、CT、FCT和MFWCT算法表現(xiàn)不穩(wěn)定,本文算法通過(guò)多特征加權(quán)融合,外觀模型表現(xiàn)魯棒,算法性能較好。 圖7 不同算法對(duì)child_no1序列跟蹤結(jié)果 圖8 不同算法對(duì)zball_no1序列跟蹤結(jié)果 圖9 不同算法對(duì)ball2序列跟蹤結(jié)果 由各序列在不同算法下的跟蹤結(jié)果圖可以看出,本文算法在復(fù)雜環(huán)境下表現(xiàn)良好。MFWCT算法雖利用灰度特征和紋理特征的多特征融合表示目標(biāo)外觀,但總體表現(xiàn)與本文算法相比較弱。深度特征的加入使得算法不易受到光照影響,同時(shí)目標(biāo)遠(yuǎn)離鏡頭時(shí)多特征融合算法表現(xiàn)穩(wěn)定。未加入權(quán)值的融合深度信息的目標(biāo)跟蹤算法由于弱特征的等權(quán)值引入使得算法總體表現(xiàn)不穩(wěn)定。加權(quán)弱分類器使得目標(biāo)分類更加準(zhǔn)確。實(shí)驗(yàn)結(jié)果表明本文算法的準(zhǔn)確性高,魯棒性好。 3.2.3 算法定量分析 對(duì)目標(biāo)跟蹤算法的定量分析可以更加準(zhǔn)確和客觀的反映跟蹤算法性能。在跟蹤算法的精確度評(píng)估中,本文采用中心位置誤差和成功幀率兩個(gè)指標(biāo)進(jìn)行評(píng)估。 (1)中心位置誤差定義為公式(18)所示: (18) 其中(xT,yT)是跟蹤算法得到的目標(biāo)中心位置,(xG,yG)是人工標(biāo)注的目標(biāo)的準(zhǔn)確位置。中心位置誤差越小,代表算法的準(zhǔn)確性越高;誤差越大,代表算法的準(zhǔn)確性越低。 表2中CLE表示各序列在不同算法下的中心位置誤差值(/像素)。Meanshift算法平均中心位置誤差值為36.63個(gè)像素,CT算法平均中心位置誤差值為20.44個(gè)像素,F(xiàn)CT算法平均中心位置誤差值為18.20個(gè)像素,MFWCT算法平均中心位置誤差值為18.42個(gè)像素,Rgb-d算法平均中心位置誤差為16.44,本文算法中心位置誤差為最小值9.95個(gè)像素,在各算法中表現(xiàn)最優(yōu)。 各序列在不同算法下跟蹤結(jié)果的中心位置誤差圖如圖10~圖14所示。由圖可以看出,本文算法的中心位置誤差值最小,算法表現(xiàn)魯棒。 圖10 zcup_move序列中心位置誤差圖 圖11 br_occ_0序列中心位置誤差圖 圖12 child_no1序列中心位置誤差圖 圖13 zball_no1序列中心位置誤差圖 圖14 ball2序列中心位置誤差圖 (2)成功幀率同樣可以測(cè)試目標(biāo)跟蹤系統(tǒng)的精度,成功幀率定義為公式(19): (19) 其中,ROIT是算法跟蹤框面積,ROIG是目標(biāo)真實(shí)位置跟蹤框面積。本文設(shè)定,成功幀率大于0.5,即為跟蹤成功,算法成功幀率越高,表示算法效果越好。由表1可見,在不同序列測(cè)試下, meanshift算法平均成功幀率為0.77,CT算法平均成功幀率為0.83,F(xiàn)CT算法平均成功幀率為0.87,MFWCT算法平均成功幀率為0.88,Rgb-d算法平均成功幀率為0.89,本文算法跟蹤成功幀率平均值為最高值0.96,在各算法中表現(xiàn)優(yōu)異。 表2 不同算法的跟蹤速率、中心位置誤差和跟蹤成功幀率 zcup_movechild_no1br_occ_0zball_no1ball2fpsCLESRfpsCLESRfpsCLESRfpsCLESRfpsCLESROurs13.407.600.9712.7012.140.9913.2913.650.8912.277.840.9911.668.580.98meanshift7.6095.600.4514.0727.080.9412.8718.580.8810.6322.100.838.6719.790.78CT8.6012.670.898.6021.090.988.1225.820.868.6021.360.829.9221.310.66FCT17.0613.590.8915.4424.070.9714.7717.350.8815.3420.600.8413.8915.410.83MFWCT15.4711.80.9415.8920.010.9914.2626.420.8515.5220.980.8212.8912.910.79Rgb-d12.7510.80.9713.1519.400.9613.0518.710.8811.9820.400.8411.4212.940.83 提出了一種魯棒的融合灰度特征和深度特征的視頻目標(biāo)壓縮跟蹤算法。通過(guò)特征融合,增強(qiáng)了目標(biāo)的外觀描述能力。利用融合后的特征構(gòu)建加權(quán)樸素貝葉斯分類器,提高分類精度。算法利用壓縮感知降低特征維度,提高算法速度。實(shí)驗(yàn)表明算法在實(shí)時(shí)性、準(zhǔn)確性和魯棒性等方面表現(xiàn)優(yōu)異。3 結(jié)果分析
3.1 對(duì)比的跟蹤算法和參數(shù)設(shè)置
Tab.1 The scenes of testing sequences3.2 算法性能分析
Fig.4 Different tracking boxes
Fig.5 Different tracking results on zcup_move
Fig.6 Different tracking results on br_occ_0
Fig.7 Different tracking results on child_no1
Fig.8 Different tracking results on zball_no1
Fig.9 Different tracking results on ball 2
Fig.10 Center location error plots of zcup_move
Fig.11 Center location error plots of br_occ_0
Fig.12 Center location error plots of child_no1
Fig.13 Center location error plots of zball_no1
Fig.14 Center location error plots of ball2
Tab.2 Comparisons ondifferent algorithms in terms of speed, center location error and success rate4 結(jié)束語(yǔ)