侯榮波 康文雄 房育勛 黃榮恩 徐偉釗
摘要:針對(duì)在基于視頻的空中簽名認(rèn)證系統(tǒng)中,現(xiàn)有方法無(wú)法滿足指尖跟蹤的準(zhǔn)確性、實(shí)時(shí)性和魯棒性要求的問(wèn)題,在對(duì)比研究目前常用的多種跟蹤方法的基礎(chǔ)上,提出一種基于時(shí)間上下文的跟蹤學(xué)習(xí)檢測(cè)(TLD)方法。在原始TLD算法的基礎(chǔ)上引入時(shí)間上下文信息,即相鄰兩幀間指尖運(yùn)動(dòng)具有連續(xù)性的先驗(yàn)知識(shí),自適應(yīng)地縮小檢測(cè)和跟蹤的搜索范圍,以提高跟蹤的速度。對(duì)12組公開的1組自錄的視頻序列的實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的TLD算法能夠準(zhǔn)確地跟蹤指尖,并且跟蹤速度達(dá)到43幀/秒;與原始TLD跟蹤算法相比,準(zhǔn)確率提高了15%,跟蹤速度至少提高1倍,達(dá)到了指尖跟蹤的準(zhǔn)確性、實(shí)時(shí)性和魯棒性要求。
關(guān)鍵詞:目標(biāo)跟蹤;指尖跟蹤;跟蹤學(xué)習(xí)檢測(cè)算法;時(shí)間上下文;人機(jī)交互
中圖分類號(hào):TP242.6 文獻(xiàn)標(biāo)志碼:A
Abstract:In the video based inair signature verification system, the existed methods cannot meet the requirement of accuracy, real time, robustness for fingertip tracking. To solve this problem, the TrackingLearningDetection (TLD) method based on temporal context was proposed. Based on the original TLD algorithm, the temporal context massage, namely the prior knowledge that the movement of fingertip is continuity in two adjacent frames, was introduced to narrow the search range of detection and tracking adaptively, thereby improving tracking speed. The experimental results on 12 public and 1 selfmade video sequences show that the improved TLD algorithm can accurately track fingers, and tracking speed can reach 43 frames per secend. Compared with the original TLD tracking algorithm, the accuracy was increased by 15% and the tracking speed was increased more than 100%, which make the proposed method meet the realtime requirements for fingertip tracking.
Key words:object tracking; fingertip tracking; TrackingLearningDetection (TLD) algorithm; temporal context; human computer interaction
0 引言
在廣泛的計(jì)算機(jī)視覺(jué)應(yīng)用的系統(tǒng)中,比如智能監(jiān)控、人機(jī)交互、醫(yī)療診斷、導(dǎo)航制導(dǎo)等,目標(biāo)跟蹤是這些系統(tǒng)的重要組成部分[1]。
雖然目前的文獻(xiàn)提出了許多跟蹤算法,但是目標(biāo)跟蹤仍然是個(gè)尚未解決的極具挑戰(zhàn)性的問(wèn)題。因?yàn)樵谀繕?biāo)運(yùn)動(dòng)過(guò)程中,目標(biāo)姿態(tài)的變化、光照強(qiáng)度的變化、目標(biāo)遮擋等因素會(huì)導(dǎo)致目標(biāo)的外形發(fā)生改變,給跟蹤帶來(lái)了極大的難度。一個(gè)有效的目標(biāo)模型是跟蹤算法極為重要的一部分得到廣泛關(guān)注。按照目標(biāo)的模型,跟蹤算法可以分為生成模型和判別模型兩類。
生成模型的跟蹤算法通常是通過(guò)學(xué)習(xí)來(lái)建立一個(gè)目標(biāo)模型,然后利用它來(lái)計(jì)算圖像中每一點(diǎn)的分?jǐn)?shù),分?jǐn)?shù)最高的則為目標(biāo)。Black等[2]實(shí)現(xiàn)了通過(guò)學(xué)習(xí)一個(gè)離線的子空間模型來(lái)表示跟蹤目標(biāo)。增強(qiáng)視覺(jué)跟蹤(Incremental Visual Tracking, IVT)方法[3]則是通過(guò)利用增量子空間模型來(lái)應(yīng)對(duì)目標(biāo)外觀的變化。L1跟蹤器利用目標(biāo)和簡(jiǎn)單模板的稀疏線性組合來(lái)為目標(biāo)建模,但L1跟蹤器的計(jì)算量相當(dāng)大,從而限制了它在實(shí)時(shí)系統(tǒng)的應(yīng)用。Li等[4]利用正交匹配跟蹤算法來(lái)進(jìn)一步改善L1跟蹤器,有效地解決了優(yōu)化問(wèn)題。胡昭華等[5]利用多種特征聯(lián)合的稀疏表示了跟蹤目標(biāo),克服了單一特征描述目標(biāo)能力較差的缺點(diǎn),充分發(fā)揮了不同特征目標(biāo)能力的優(yōu)點(diǎn)。Zhang等[6]提出的基于時(shí)空上下文的跟蹤算法(SpatioTemporal Context, STC),利用目標(biāo)與其周圍背景的聯(lián)系,包括距離及其方向和像素特征,來(lái)表示目標(biāo),通過(guò)計(jì)算目標(biāo)似然的最大值來(lái)確定目標(biāo)的位置,該算法能夠很好地解決目標(biāo)被遮擋問(wèn)題,但當(dāng)目標(biāo)消失然后出現(xiàn)后,由于缺少檢測(cè)模塊,無(wú)法對(duì)目標(biāo)進(jìn)行跟蹤。
判別模型的跟蹤算法則是把跟蹤問(wèn)題當(dāng)作是一個(gè)二值分類問(wèn)題,通過(guò)利用一個(gè)分類器來(lái)區(qū)分目標(biāo)和背景,這是目前最常用的跟蹤算法。Avidan等[7]通過(guò)利用支持向量機(jī)(Support Vector Machine, SVM)分類器來(lái)改善光流法來(lái)用于對(duì)目標(biāo)的跟蹤,而Collin[8]證明了大多數(shù)判別特征可以通過(guò)在線學(xué)習(xí)來(lái)更好地區(qū)分目標(biāo)與背景。此外,Grabner等[9]提出了一種在線Boosting算法來(lái)選擇特征。但上述三種跟蹤算法只用到了一個(gè)正樣本和少量的負(fù)樣本來(lái)更新分類器,當(dāng)目標(biāo)外觀模型的更新受到噪聲的干擾時(shí),就會(huì)導(dǎo)致目標(biāo)漂移而使得跟蹤失敗。Grabner等[10]提出了一種在線的半監(jiān)督的boosting算法來(lái)解決漂移問(wèn)題,Babenko等[11]運(yùn)用了多示例學(xué)習(xí)(Multiple Instance Learning,MIL)算法來(lái)實(shí)現(xiàn)在線跟蹤,MIL算法采用了密集采樣的方法來(lái)解決更新分類器時(shí)訓(xùn)練樣本少的問(wèn)題,提高了跟蹤器的魯棒性,但是訓(xùn)練如此多的樣本需要消耗大量的計(jì)算時(shí)間。郭鵬宇等[12]提出了在線混合隨機(jī)樸素貝葉斯跟蹤器方法,通過(guò)融合紋理和形狀兩類特征,以及分類器誤差調(diào)整混合系數(shù),實(shí)現(xiàn)分類器的在線學(xué)習(xí)和更新。Zhang等[13]把壓縮感知采樣方法應(yīng)用到跟蹤算法中,該方法將正負(fù)樣本通過(guò)尺度變換,對(duì)樣本量進(jìn)行擴(kuò)充,然后將這個(gè)多尺度的樣本空間的樣本通過(guò)稀疏矩陣投影到低維空間中。如此一來(lái),既保證了樣本的準(zhǔn)確度,又有效地降低了計(jì)算量。Sun等[14]提出了目標(biāo)上下文預(yù)測(cè)的跟蹤算法(Tracking with Context Prediction, TCP),把目標(biāo)附近的物體和目標(biāo)的特別部分當(dāng)作輔助目標(biāo),利用傳統(tǒng)的跟蹤算法跟蹤輔助目標(biāo)來(lái)預(yù)測(cè)目標(biāo)的位置。Zhang等[15]提出的結(jié)構(gòu)保留目標(biāo)跟蹤 (Structure Preserving Object Tracker, SPOT)方法,把單個(gè)目標(biāo)分割成多個(gè)小塊,然后利用個(gè)小塊間的聯(lián)系來(lái)表示目標(biāo),從而很好地解決了由于目標(biāo)遮擋而導(dǎo)致跟蹤失敗的問(wèn)題。
對(duì)于在不確定的環(huán)境下的長(zhǎng)時(shí)間跟蹤問(wèn)題,僅僅通過(guò)學(xué)習(xí)目標(biāo)的描述或判別特征無(wú)法確保跟蹤系統(tǒng)的魯棒性。Yang等[16]提出一種有上下文意識(shí)的跟蹤算法(ContextAware Tracking, CAT)來(lái)跟蹤目標(biāo)周圍區(qū)域而不是目標(biāo)本身。該算法充分利用了有利于跟蹤的一些輔助目標(biāo),使之對(duì)目標(biāo)具有一致的運(yùn)動(dòng)關(guān)聯(lián)性,從而避免了目標(biāo)的漂移問(wèn)題。Saffari等[17]提出了一種多類的增強(qiáng)線性規(guī)劃(Linear Programming Boosting, LPBoost)算法來(lái)解決跟蹤問(wèn)題。該算法把跟蹤問(wèn)題看成是一個(gè)多類的分類問(wèn)題,雖然在簡(jiǎn)單環(huán)境下,它能很好地跟蹤目標(biāo),但是當(dāng)環(huán)境變得復(fù)雜時(shí),包括目標(biāo)遮擋,光照強(qiáng)度變化情況下,跟蹤效果會(huì)變得很差。Grabner等[18]運(yùn)用了一種有用的目標(biāo)特征——支持向量的清晰度來(lái)預(yù)測(cè)目標(biāo)的位置,當(dāng)目標(biāo)不可見(jiàn)時(shí),該算法利用強(qiáng)運(yùn)動(dòng)耦合,運(yùn)用一些相關(guān)聯(lián)的空間上下文信息來(lái)確定目標(biāo),但是,該算法的檢測(cè)需要大量的時(shí)間,并且目標(biāo)的運(yùn)動(dòng)難以預(yù)測(cè)。
本文算法在原始的跟蹤學(xué)習(xí)檢測(cè)(TrackingLearningDetection, TLD)算法[19]的基礎(chǔ)上,提出基于時(shí)間上下文的TLD目標(biāo)跟蹤算法。TLD跟蹤算法是基于跟蹤、檢測(cè)和學(xué)習(xí)的長(zhǎng)時(shí)間跟蹤未知物體的算法,具有強(qiáng)魯棒性,但算法跟蹤速度較慢,無(wú)法滿足應(yīng)用的實(shí)時(shí)跟蹤需求,為此,國(guó)內(nèi)外研究人員在TLD的基礎(chǔ)上進(jìn)行了改進(jìn)算法的設(shè)計(jì)和研究[20-21]。本文則通過(guò)引入時(shí)間上下文信息,利用相鄰兩幀間目標(biāo)運(yùn)動(dòng)連續(xù)性的先驗(yàn)知識(shí),來(lái)縮小檢測(cè)和跟蹤的搜索范圍,由此來(lái)提高跟蹤的速度。實(shí)驗(yàn)表明,改進(jìn)后的TLD算法能夠準(zhǔn)確地跟蹤捏合三指尖等物體,并且跟蹤速度是原始TLD跟蹤算法的至少2倍,能夠達(dá)到指尖跟蹤的實(shí)時(shí)性要求。
1 基于時(shí)間上下文的TLD跟蹤算法
TLD是一種單目標(biāo)長(zhǎng)時(shí)間跟蹤算法。該算法的主要特點(diǎn)在于將傳統(tǒng)的檢測(cè)算法和跟蹤算法相結(jié)合來(lái)解決被跟蹤目標(biāo)在被跟蹤過(guò)程中發(fā)生的形態(tài)變化、尺度變化、部分遮擋等問(wèn)題。同時(shí),通過(guò)PN(Positive constraint、Negative constraint)在線學(xué)習(xí)機(jī)制不斷更新檢測(cè)模塊的目標(biāo)模型及相關(guān)參數(shù)和跟蹤模塊的“顯著特征點(diǎn)”,利用了跟蹤、學(xué)習(xí)、檢測(cè)三個(gè)模塊的優(yōu)勢(shì)互補(bǔ),實(shí)現(xiàn)目標(biāo)的有效跟蹤,但速度上仍然無(wú)法滿足空中簽名過(guò)程中的指尖跟蹤。通過(guò)對(duì)自建系統(tǒng)所采集的空中簽名視頻進(jìn)行分析,本研究發(fā)現(xiàn),盡管在書寫簽名的過(guò)程中指尖運(yùn)動(dòng)速度有時(shí)會(huì)比較快,但通過(guò)高速攝像頭所采集的視頻中連續(xù)兩幀間的指尖運(yùn)動(dòng)距離有限,指尖目標(biāo)相距不會(huì)很遠(yuǎn),因此本文提出了基于時(shí)間上下文的TLD跟蹤算法,適當(dāng)?shù)乜s小檢測(cè)、跟蹤范圍來(lái)避免不必要的檢測(cè)以及部分背景的影響,進(jìn)而提高算法的跟蹤速度和算法的準(zhǔn)確率。算法的具體跟蹤流程如圖1所示。
1.3 目標(biāo)模型更新
采用如下的策略來(lái)將一個(gè)新的已賦予標(biāo)簽的圖像片添加到目標(biāo)模型當(dāng)中:只有當(dāng)最近鄰分類器賦予的標(biāo)簽同學(xué)習(xí)模塊賦予的標(biāo)簽相矛盾時(shí),才將其添加到目標(biāo)模型當(dāng)中。但這樣一來(lái),添加到目標(biāo)模型的樣本就略顯偏少,為了解決這個(gè)問(wèn)題,定義一個(gè)參數(shù)m=Sr-θNN來(lái)代表分類盈余。對(duì)于一個(gè)圖像片p而言,如果其分類盈余m<λ,也將這個(gè)樣本添加到目標(biāo)模型當(dāng)中。顯然,添加到目標(biāo)模型的圖像片隨λ的增大而增多,也就是得到一個(gè)更好的分類決策邊界。為了在目標(biāo)模型的更新速度和精度之間得到一個(gè)很好的平衡,本文將λ設(shè)置為0.1。
1.4 基于時(shí)間上下文的指尖檢測(cè)模塊
如圖2所示,圖(a)中的虛線框?yàn)樗阉鲄^(qū)域,其尺寸為目標(biāo)框的4倍。目標(biāo)檢測(cè)模塊采用掃描窗口對(duì)每個(gè)圖像中的搜索區(qū)域進(jìn)行處理,每次掃描一個(gè)圖像片,并給出其中是否含有待檢測(cè)目標(biāo)。掃描窗口的參數(shù)設(shè)置如下:窗口的尺度縮放系數(shù)為1.2,水平方向的步長(zhǎng)是寬度的10%,垂直方向的步長(zhǎng)是高度的10%,最小的掃描窗口大小為20個(gè)像素。目標(biāo)檢測(cè)模塊的流程如圖2(b)所示。
可見(jiàn)TLD的檢測(cè)模塊采用的分類器是一個(gè)級(jí)聯(lián)分類器。每個(gè)可能出現(xiàn)待檢測(cè)目標(biāo)的區(qū)域,依次經(jīng)過(guò)圖像區(qū)方差檢測(cè)模塊、分類器集合檢測(cè)模塊、最近鄰分類器檢測(cè)模塊三個(gè)部分,任意一個(gè)部分都可以判定當(dāng)前檢測(cè)區(qū)域是否含有檢測(cè)目標(biāo)。只有依次通過(guò)這3部分的檢測(cè)區(qū)域才被認(rèn)定含有檢測(cè)目標(biāo)。
1)圖像片方差檢測(cè)模塊:該模塊是級(jí)聯(lián)分類器檢測(cè)模塊的第一個(gè)子模塊,該模塊首先利用積分圖來(lái)計(jì)算每個(gè)待檢測(cè)圖像片的方差。方差小于某個(gè)閾值的區(qū)域就被認(rèn)定為包含前景目標(biāo)。
2)分類器集合檢測(cè)模塊:該模塊的輸入是方差檢測(cè)模塊判定包含前景目標(biāo)的圖像片。分類器集合含有N個(gè)基本分類器,每個(gè)基本分類器所提取的特征為由像素比較獲得的13位二值碼。對(duì)于每個(gè)圖像片而言,當(dāng)所有基本分類器的后驗(yàn)概率的平均值如果大于50%時(shí),就可認(rèn)定當(dāng)前圖像片含有前景目標(biāo)。
3)最近鄰分類器:對(duì)待檢測(cè)圖像片而言,如果Sr(p,M)>θNN,那么該圖像片就被認(rèn)定為含有前景目標(biāo),本文取θNN=0.6。
1.5 跟蹤模塊
TLD的跟蹤模塊是一種在中值流跟蹤方法的基礎(chǔ)上增加了跟蹤失敗的檢測(cè)算法的新跟蹤方法。中值流跟蹤方法通過(guò)利用目標(biāo)框來(lái)表示被跟蹤目標(biāo),并在連續(xù)的相鄰幀之間估計(jì)目標(biāo)的運(yùn)動(dòng)。中值流跟蹤算法的前提假設(shè)是被跟蹤的目標(biāo)是可見(jiàn)的,這也就意味著,當(dāng)目標(biāo)被完全遮擋或者目標(biāo)離開當(dāng)前場(chǎng)景時(shí),跟蹤肯定失敗??捎萌缦虏呗詠?lái)應(yīng)對(duì)這些情況:di代表中值流跟蹤中某一個(gè)特征點(diǎn)的位移,而dm代表所有特征點(diǎn)位移的中值,可定義位移殘差|di-dm|,如果殘差大于10個(gè)像素,就可認(rèn)為跟蹤失敗。這種方法可以很好地發(fā)現(xiàn)由于被跟蹤目標(biāo)移動(dòng)過(guò)快或者被遮擋而造成的跟蹤失敗。當(dāng)系統(tǒng)跟蹤失敗時(shí),不返回目標(biāo)框。
1.6 學(xué)習(xí)模塊
在第一幀中,學(xué)習(xí)模塊利用下面的方法生成帶標(biāo)簽的樣本來(lái)訓(xùn)練一個(gè)初始的檢測(cè)器。生成帶標(biāo)簽樣本方法是:在目標(biāo)框內(nèi)生成正樣本。首先在距離初始目標(biāo)框最近的掃描窗口中選擇10個(gè)區(qū)域,并且在每個(gè)區(qū)域內(nèi)部利用幾何變換生成20個(gè)仿射的區(qū)域。也就是在每個(gè)區(qū)域內(nèi)部進(jìn)行±1%范圍的偏移、±1%范圍的尺度變化、±10°的平面內(nèi)旋轉(zhuǎn)操作,并且可以在每個(gè)像素上增加方差為5的高斯噪聲。在設(shè)定范圍內(nèi)隨機(jī)地設(shè)置偏移、尺度變化、旋轉(zhuǎn)的大小,對(duì)每個(gè)區(qū)域都進(jìn)行20次這種幾何變化,如此一來(lái),10個(gè)區(qū)域就生成了200個(gè)仿射變化的區(qū)域版本。這200個(gè)區(qū)域可以作為正樣本,而負(fù)樣本則是通過(guò)初始目標(biāo)框的周圍并在搜索范圍內(nèi)選取,由于圖片中大部分區(qū)域都是負(fù)樣本,因此負(fù)樣本無(wú)需進(jìn)行幾何變化。
在跟蹤的第一幀對(duì)目標(biāo)模型進(jìn)行初始化后,利用PN學(xué)習(xí)來(lái)對(duì)模型進(jìn)行不斷的更新。PN學(xué)習(xí)包含四個(gè)部分:1)一個(gè)待學(xué)習(xí)的分類器;2)訓(xùn)練樣本集:一些已知類別標(biāo)簽的樣本;3)監(jiān)督學(xué)習(xí):一種從訓(xùn)練樣本集中訓(xùn)練分類器的方法;4)PN experts:在學(xué)習(xí)過(guò)程中用于產(chǎn)生正樣本和負(fù)樣本的表達(dá)函數(shù)。PN學(xué)習(xí)過(guò)程如圖3所示。
2 指尖的跟蹤效果
為了分析基于時(shí)間上下文的TLD跟蹤算法對(duì)指尖的跟蹤效果,本項(xiàng)目錄制了由14個(gè)同學(xué)書寫的814個(gè)空中簽名視頻進(jìn)行實(shí)驗(yàn)。由于人正常簽名時(shí),指尖的運(yùn)動(dòng)較快,為了能夠跟蹤獲得書寫軌跡足夠的點(diǎn)以便獲得完整的個(gè)人簽名信息,本文采用分辨率為640×480的高速攝像頭錄制手指簽名的視頻。除此之外,對(duì)于視頻的采集,本文還作了以下幾方面的限制:1)簽名者的手腕不可以出現(xiàn)大幅度的擺動(dòng),并且簽名范圍被限定在一個(gè)17cm×25cm的矩形區(qū)域內(nèi);2)背景簡(jiǎn)單,背景顏色統(tǒng)一為棕色。
為了能夠更好地復(fù)現(xiàn)跟蹤算法在各個(gè)測(cè)試視頻上的跟蹤結(jié)果,盡量降低由于初始化指尖跟蹤區(qū)域的差別而導(dǎo)致的跟蹤效果的差異,本文為選取指尖跟蹤區(qū)域定了一個(gè)標(biāo)準(zhǔn),初始化區(qū)域是一個(gè)正方形,它的面積為包含拳頭的矩形區(qū)域面積的1/14,中心為三捏合指尖的中心。
2.1 指尖跟蹤實(shí)驗(yàn)結(jié)果
本文利用成功率和幀率來(lái)分析算法對(duì)指尖的跟蹤效果,其中成功率SR(Success Rate)和幀率FPS(Frames Per Second)的計(jì)算方法如下:
2.2 指尖跟蹤效果分析
通過(guò)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,本研究發(fā)現(xiàn)改進(jìn)后的TLD算法,在光照強(qiáng)度大、環(huán)境簡(jiǎn)單,指尖快速運(yùn)動(dòng)的情況下,對(duì)于指尖的上、下、左、右偏時(shí)都取得較好的效果,具有強(qiáng)魯棒性。對(duì)比與原始的TLD跟蹤算法,不足之處在于,當(dāng)指尖運(yùn)動(dòng)發(fā)生突變時(shí)會(huì)出現(xiàn)跟蹤不準(zhǔn)確甚至是失敗。部分跟蹤效果如圖4所示,為了進(jìn)一步清晰地說(shuō)明跟蹤效果,本文將指尖跟蹤結(jié)果的軌跡顯示在圖5中。從圖中可以看出跟蹤的軌跡能夠完整準(zhǔn)確地展現(xiàn)個(gè)人的空中簽名,這為空中簽名數(shù)據(jù)庫(kù)的構(gòu)建以及后續(xù)空中簽名的認(rèn)證奠定了良好的基礎(chǔ)。
3 與常用跟蹤算法的比較
為了進(jìn)一步評(píng)估基于時(shí)間上下文的TLD跟蹤算法的跟蹤效果,本研究選用13組視頻序列進(jìn)行實(shí)驗(yàn)。這13組視頻序列包括12組公開的以及1組本項(xiàng)目錄制的,它們包含了遮擋、劇烈光照強(qiáng)度變化、姿勢(shì)與尺度的變化、非剛性變換、背景群集、運(yùn)動(dòng)模糊和目標(biāo)運(yùn)動(dòng)速度等影響跟蹤效果的因素,視頻幀的相關(guān)信息見(jiàn)表2。本章將提出的改進(jìn)跟蹤算法與最新的5種主流跟蹤算法進(jìn)行了比較。對(duì)于每一種跟蹤算法,本項(xiàng)目運(yùn)用了作者提供的原始代碼或是二進(jìn)制碼,將其中的參數(shù)設(shè)置到最好的跟蹤結(jié)果進(jìn)行了實(shí)驗(yàn)。這五種跟蹤算法分別是: CSK(Circulant Structure Tracker)[22]、STC、Struck(Structured Output Tracker)[23]、CT(Compressive Tracker)和TLD。由于每種跟蹤算法的跟蹤效果都有一定的隨機(jī)性,因此,對(duì)于每一個(gè)視頻序列,本研究都重復(fù)實(shí)驗(yàn)了10遍并以平均值作為最終的結(jié)果。由于,視頻序列Car、 Jumping中的目標(biāo)分別存在向右、上下快速運(yùn)動(dòng)的情況,搜索區(qū)域的比例系數(shù)K分別取為2.8、5。本文的跟蹤算法是在i53210M 2.50GHz CPU、8GB RAM、Windows 7操作系統(tǒng)的計(jì)算機(jī)上用C++編程實(shí)現(xiàn)。
表3表明,改進(jìn)的TLD跟蹤算法在Car、David、Pedestrian、Fingers、FaceOcc2、Walking測(cè)試視頻上的跟蹤成功率較高,在大多數(shù)的測(cè)試視頻上的跟蹤成功率高于TLD,如,David、Fingers、FaceOcc2、Walking。對(duì)于David測(cè)試視頻,改進(jìn)的TLD的成功率遠(yuǎn)大于TLD的成功率,主要原因在于,David視頻的前部分序列中人臉目標(biāo)和背景都是黑色的,TLD在整張圖像中檢測(cè)目標(biāo),背景對(duì)目標(biāo)模型影響較大,檢測(cè)器逐漸引入了錯(cuò)誤的目標(biāo)模型,最終導(dǎo)致跟蹤失?。欢倪M(jìn)的TLD因?yàn)橄拗屏藱z測(cè)區(qū)域,減少了背景的影響,所以跟蹤成功率有了較大的提高。對(duì)于Jumping視頻,由于人臉模糊且人的快速跳動(dòng),同時(shí)改進(jìn)的TLD縮小了檢測(cè)區(qū)域,其檢測(cè)器的負(fù)樣本較少,因此改進(jìn)的TLD的檢測(cè)模塊的分類效果較TLD差。對(duì)于Skiing測(cè)試視頻,由于視頻中的目標(biāo)較小,特征不明顯并且目標(biāo)快速運(yùn)動(dòng)的同時(shí)發(fā)生旋轉(zhuǎn),目標(biāo)外觀發(fā)生了巨大的變化,導(dǎo)致實(shí)驗(yàn)中的幾種跟蹤算法只能跟蹤視頻的前幾幀,跟蹤成功率較低。
在計(jì)算CLE時(shí),由于算法在一些圖像中判斷為沒(méi)有目標(biāo),因此本文不計(jì)算這種情況的CLE值,表5為跟蹤算法在每一個(gè)標(biāo)準(zhǔn)視頻中有跟蹤到目標(biāo)的幀數(shù),從表中可以得知,只有TLD和改進(jìn)的TLD在跟蹤過(guò)程出現(xiàn)判斷為沒(méi)有目標(biāo)的情況,其他幾種跟蹤算法在每一幀視頻中都會(huì)給出一個(gè)目標(biāo)區(qū)域。在Animal測(cè)試視頻中,由于動(dòng)物以及相機(jī)的運(yùn)動(dòng),導(dǎo)致TLD和改進(jìn)的TLD無(wú)法準(zhǔn)確地跟蹤目標(biāo),在部分視頻幀中丟失了目標(biāo)。在Tiger1測(cè)試視頻中,TLD和改進(jìn)的TLD跟蹤到目標(biāo)少的原因在于視頻中目標(biāo)的遮擋、外觀變化、旋轉(zhuǎn)以及光照強(qiáng)度發(fā)生變化的影響。表4表明,改進(jìn)的TLD的CLE值普遍較小,取得最小的平均CLE值。對(duì)于大部分的測(cè)試視頻,改進(jìn)的TLD的CLE值較TLD的CLE值小。只有在Skiing視頻中,改進(jìn)的TLD的CLE值遠(yuǎn)大于TLD的CLE值,這是因?yàn)楦倪M(jìn)的TLD在視頻中有較多幀是跟蹤錯(cuò)誤的。
表6表明,對(duì)于大部分的測(cè)試視頻,改進(jìn)的TLD的FPS是TLD的2~3倍,其中,對(duì)于Fingers、Girl、Sylvester分別是5、10、8倍。改進(jìn)的TLD的平均速度為43frame/s,達(dá)到了實(shí)時(shí)跟蹤的要求。
3.2 跟蹤算法比較的定性分析
圖6是本文跟蹤算法和常用的5種跟蹤算法的部分跟蹤效果圖。由于CSK沒(méi)有測(cè)試Car視頻,Struck沒(méi)有測(cè)試David視頻,因此,圖6(e)、(f)分別沒(méi)有Car、David的跟蹤效果圖,具體的分析如下(#x表示第x幀)。
1)光照強(qiáng)度、目標(biāo)尺度和姿態(tài)的變化:在這些測(cè)試視頻中存在著大量的光照強(qiáng)度發(fā)生變化的情況。在David視頻中,David由于從黑暗處走向亮處,光照強(qiáng)度發(fā)生巨大的變化,同時(shí)David的臉部尺度和姿態(tài)在一些幀也發(fā)生了變化。大多數(shù)文獻(xiàn)在測(cè)試這個(gè)視頻時(shí)都會(huì)忽略開始時(shí)臉部完全黑暗的一部分,本次實(shí)驗(yàn)對(duì)整個(gè)視頻進(jìn)行測(cè)試。本算法和STC在這6種跟蹤算法中跟蹤效果最好。在Girl視頻中,目標(biāo)在平面外旋轉(zhuǎn),姿態(tài)發(fā)生變化,同時(shí)光照強(qiáng)度和目標(biāo)姿態(tài)也發(fā)生了變化,本算法能夠準(zhǔn)確跟蹤目標(biāo)。
2)目標(biāo)遮擋和姿態(tài)的變化:在FaceOcc2視頻中,人臉受到了嚴(yán)重的遮擋,以及它的姿態(tài)也發(fā)生了極大的改變。CSK、Struck和本算法能夠準(zhǔn)確跟蹤。在Car視頻中,當(dāng)目標(biāo)被遮擋時(shí),TLD、Struck和本文的算法能準(zhǔn)確地跟蹤目標(biāo)。
3)目標(biāo)的快速運(yùn)動(dòng):在Fingers視頻中,由于指尖的快速運(yùn)動(dòng),導(dǎo)致了三捏合指尖的外觀極度模糊,給跟蹤帶來(lái)極大的挑戰(zhàn)。只有TLD和本算法能夠準(zhǔn)確跟蹤,本算法具有最高的成功率,因?yàn)楸舅惴ㄖ械臋z測(cè)模塊是由三個(gè)分類器級(jí)聯(lián)而成的,并且在跟蹤過(guò)程中,借助學(xué)習(xí)模塊有效的更新,能夠準(zhǔn)確地檢測(cè)目標(biāo)。
4 結(jié)語(yǔ)
為了解決TLD算法跟蹤速度慢的問(wèn)題,滿足空中簽名認(rèn)證系統(tǒng)的實(shí)時(shí)性需求,本文提出了基于時(shí)間上下文的TLD跟蹤算法,引入時(shí)空上下文信息,即利用相鄰兩幀間目標(biāo)運(yùn)動(dòng)連續(xù)性的先驗(yàn)知識(shí),縮小搜索范圍以提高跟蹤速度。實(shí)驗(yàn)表明,本文的跟蹤算法能夠準(zhǔn)確跟蹤指尖,跟蹤獲得的簽名字跡能夠完整準(zhǔn)確地反映了個(gè)人的空中簽名。同時(shí),算法的跟蹤成功率和跟蹤速度都優(yōu)于原始的TLD算法,其中平均跟蹤速度達(dá)到了43幀/s,達(dá)到跟蹤的實(shí)時(shí)性標(biāo)準(zhǔn)。但算法仍存在不足,當(dāng)指尖的運(yùn)動(dòng)發(fā)生突變或拐彎時(shí),算法容易跟蹤失敗。今后將會(huì)在檢測(cè)和跟蹤方面結(jié)合目前常有的方法的優(yōu)點(diǎn)來(lái)改善TLD跟蹤算法的性能,使其更好地應(yīng)用在基于視頻的簽名認(rèn)證系統(tǒng)當(dāng)中,乃至其他的與目標(biāo)跟蹤相關(guān)的應(yīng)用系統(tǒng)。
參考文獻(xiàn):
[1]YILMAZ A, JAVED O, SHAH M. Object tracking: a survey[J]. ACM Computing Surveys, 2006, 38(4): Article No. 13.
[2] BLACK M J, JEPSON A D. Eigentracking: robust matching and tracking of articulated objects using a viewbased representation [J]. International Journal of Computer Vision, 1998, 26(1): 63-84.
[3] ROSS D A, LIM J, LIN RS, et al. Incremental learning for robust visual tracking [J]. International Journal of Computer Vision, 2008, 77(1): 125-141.
[4] LI H, SHEN C, SHI Q. Realtime visual tracking using compressive sensing [C]// CVPR 2011: Proceedings of the 2011 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2011: 1305-1312.
[5]胡昭華,徐玉偉,趙孝磊,等.多特征聯(lián)合的稀疏跟蹤方法[J].計(jì)算機(jī)應(yīng)用,2014,34(8):2380-2384. (HU Z H, XU Y W, ZHAO X L, et al. Sparse tracking algorithm based on multifeature fusion [J]. Journal of Computer Applications, 2014, 34(8): 2380-2384.)
[6]ZHANG K, ZHANG L, LIU Q, et al. Fast visual tracking via dense spatiotemporal context learning [C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision, LNCS 8693. Berlin: SpringerVerlag, 2014: 127-141.
[7]AVIDAN S. Support vector tracking [C]// CVPR 2001: Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2001, 1: 184-191.
[8]COLLINS R T, LIU Y, LEORDEANU M. Online selection of discriminative tracking features [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(10): 1631-1643.
[9]GRABNER H, GRABNER M, BISCHOF H. Realtime tracking via online boosting [C]// BMVC 2006: Proceedings of the 2006 British Machine Vision Conference. Nottingham, UK: BMVA Press, 2006, 1: 47-56.
[10]GRABNER H, LEISTNER C, BISCHOF H. Semisupervised online boosting for robust tracking [C]// ECCV 2008: Proceedings of the 10th European Conference on Computer Vision, LNCS 5302. Berlin: SpringerVerlag, 2008:234-247.
[11]BABENKO B, YANG M, BELONGIE S. Robust object tracking with online multiple instance learning [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1619-1632.
[12]郭鵬宇,蘇昂,張紅良,等.結(jié)合紋理和形狀特征的在線混合隨機(jī)樸素貝葉斯視覺(jué)跟蹤器[J].光學(xué)學(xué)報(bào),2015,35(3):0315002. (GUO P Y, SU A, ZHANG H L, et al. Online mixture of random naive Bayes tracker combined texture with shape feature [J]. Acta Optica Sinica,2015,35(3): 0315002.)
[13]ZHANG K, ZHANG L, YANG MH. Realtime compressive tracking [C]// ECCV 2012: Proceedings of the 12th European Conference on Computer Vision, LNCS 7574. Berlin: SpringerVerlag, 2012: 864-877.
[14]SUN Z, YAO H, ZHANG S, et al. Robust visual tracking via context objects computing [C]// Proceedings of the 2011 IEEE International Conference on Image Processing. Piscataway, NJ: IEEE, 2011: 509-512.
[15]ZHANG L,van der MAATEN L J P. Preserving structure in modelfree tracking [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(4): 756-769.
[16]YANG M, WU Y, HUA G. Contextaware visual tracking [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(7): 1195-1209.
[17]SAFFARI A, GODEC M, POCK T, et al. Online multiclass LPBoost [C]// CVPR 2010: Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2010: 3570-3577.
[18]GRABNER H, MATAS J, VAN GOOL L, et al. Tracking the invisible: learning where the object might be [C]// CVPR 2010: Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2010: 1285-1292.
[19]KALAL Z, MIKOLAJCZYK K, MATAS J. Trackinglearning detection [J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(7): 1409-1422.
[20]周鑫,錢秋朦,葉永強(qiáng),等.改進(jìn)后的TLD視頻目標(biāo)跟蹤方法[J].中國(guó)圖象圖形學(xué)報(bào),2013,18(9):1115-1123. (ZHOU X, QIAN Q M, YE Y Q, et al. Improve TLD visual target tracking algorithm [J]. Journal of Image and Graphics, 2013, 18(9):1115-1123.)
[21]金龍,孫涵.TLD視頻目標(biāo)跟蹤方法改進(jìn)[J].計(jì)算機(jī)與現(xiàn)代化,2015(4):42-46. (JIN L, SUN H. An improve TLD visual target tracking method [J]. Computer and Modernization, 2015(4): 42-46.)
[22]HENRIQUES J F, CASEIRO R, MARTINS P, et al. Exploiting the circulant structure of trackingbydetection with kernels [C]// ECCV 2012: Proceedings of the 12th European Conference on Computer Vision, LNCS 7575. Berlin: SpringerVerlag, 2012: 702-715.
[23]HARE S, SAFFARI A, TORR P H S. Struck: structured output tracking with kernels [C]// ICCV 2011: Proceedings of the 2011 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2011: 263-270.