?
自適應(yīng)實(shí)時(shí)壓縮感知跟蹤算法*
0引言
【研究意義】目標(biāo)跟蹤技術(shù)在計(jì)算機(jī)視覺(jué)研究領(lǐng)域中有著非常重要的地位,已被廣泛應(yīng)用在車(chē)輛導(dǎo)航、視頻監(jiān)視以及人機(jī)交互等方面[1]。近幾十年來(lái),學(xué)者們提出了許多有效的目標(biāo)跟蹤算法,并且取得很大的突破[2-9],但是目標(biāo)跟蹤仍然是一個(gè)具有挑戰(zhàn)性的課題,制約跟蹤效果的因素包括目標(biāo)姿態(tài)和形狀等內(nèi)因變化,以及相機(jī)視角、紋理、光照和遮擋等外因變化。理想的目標(biāo)跟蹤算法是指該算法在魯棒性和實(shí)時(shí)性?xún)蓚€(gè)方面達(dá)到平衡?!厩叭搜芯窟M(jìn)展】早期的目標(biāo)跟蹤算法有均值濾波、卡爾曼濾波、粒子濾波、光流法和模板匹配法等。目前實(shí)時(shí)跟蹤的熱點(diǎn)方法是將跟蹤問(wèn)題看成是在線的二值分類(lèi)問(wèn)題,一類(lèi)屬于背景,一類(lèi)屬于目標(biāo),其任務(wù)是將目標(biāo)從背景中分離出來(lái)。在跟蹤的過(guò)程中通過(guò)結(jié)合背景和前景(目標(biāo))信息來(lái)實(shí)時(shí)更新目標(biāo)模型的分類(lèi)器,從而提高跟蹤性能。Aviclan[10]提出的集成跟蹤算法(Ensembl Tracker),是利用Adboost 算法將在線訓(xùn)練得到的多個(gè)弱分類(lèi)器合成一個(gè)強(qiáng)分類(lèi)器,然后用這個(gè)強(qiáng)分類(lèi)器標(biāo)記下一幀的像素,用以對(duì)像素進(jìn)行目標(biāo)和背景分類(lèi)。Grabner等[11]提出的在線提升(Online Boosting)算法,是將當(dāng)前跟蹤結(jié)果作為正樣本,并在跟蹤結(jié)果周?chē)杉?fù)樣本,與上面方法的思想類(lèi)似,利用Adboost算法進(jìn)行在線特征選擇。該方法能有效地解決跟蹤過(guò)程中遇到的目標(biāo)姿態(tài)、紋理及光照變化等問(wèn)題。后來(lái)Grabner等[5]又在上述理論的基礎(chǔ)上進(jìn)一步提出了一種半監(jiān)督學(xué)習(xí)方法,克服了模型更新帶來(lái)的漂移問(wèn)題,但由于該方法是用帶有誤差的次優(yōu)樣板更新訓(xùn)練分類(lèi)器,因此,隨著時(shí)間的推移誤差逐漸積累,最終將會(huì)導(dǎo)致跟蹤失敗。為了解決上述問(wèn)題,Babenko等[12-13]提出在線多實(shí)例學(xué)習(xí)MIL(Multiple Instance Learning) 算法,該方法將多個(gè)樣本放到一個(gè)集合里面,并給它們賦一個(gè)標(biāo)簽。當(dāng)這個(gè)集合里面的樣本存在一個(gè)或者一個(gè)以上的正樣本時(shí),這個(gè)標(biāo)簽就為正,否則為負(fù)。在多實(shí)例學(xué)習(xí)算法中,通過(guò)尋找集合中最正確的示例確定跟蹤目標(biāo),解決了樣本可能使得分類(lèi)器產(chǎn)生迷惑的問(wèn)題。Zhang等[14-15]提出一種簡(jiǎn)單高效的實(shí)時(shí)壓縮感知跟蹤算法,該算法通過(guò)一個(gè)利用符合壓縮感知約束等距性(RIP)條件的、特別稀疏的投影矩陣去提取目標(biāo)和背景的廣義harr-like特征,分別作為在線學(xué)習(xí)更新分類(lèi)器的正、負(fù)樣本,并用樸素貝葉斯分類(lèi)器進(jìn)行背景和目標(biāo)的分類(lèi),該方法的實(shí)時(shí)性很高?!颈狙芯壳腥朦c(diǎn)】但是該方法由于分類(lèi)器更新的過(guò)程中引入了更新程度參數(shù)λ,且在實(shí)際中λ需要提前給定,若給定的值過(guò)大會(huì)使得分類(lèi)器更新過(guò)程無(wú)法適應(yīng)目標(biāo)外觀的變化,過(guò)小則容易使分類(lèi)器“過(guò)學(xué)習(xí)”。因此,必須解決實(shí)時(shí)壓縮感知跟蹤算法分類(lèi)器無(wú)法適應(yīng)目標(biāo)外觀變化及過(guò)更新的問(wèn)題?!緮M解決的關(guān)鍵問(wèn)題】提出一種自適應(yīng)實(shí)時(shí)壓縮感知跟蹤算法,根據(jù)當(dāng)前跟蹤結(jié)果目標(biāo)模型的哈希指紋與上一幀目標(biāo)模型的哈希指紋間的漢明距離(Hamming distance)d,在線實(shí)時(shí)調(diào)整分類(lèi)器更新程度參數(shù)λ。實(shí)驗(yàn)結(jié)果表明,在背景中存在與前景目標(biāo)有一定相似性的物體,且目標(biāo)姿態(tài)、紋理變化和光照變化較大等情況下,自適應(yīng)實(shí)時(shí)壓縮感知跟蹤算法仍然能夠?qū)δ繕?biāo)進(jìn)行實(shí)時(shí)準(zhǔn)確地跟蹤。
1實(shí)時(shí)壓縮感知跟蹤
壓縮感知理論[16]指出:只要信號(hào)是可壓縮的或者在某個(gè)變換域是稀疏的,那么就可以用一個(gè)與變換基不相關(guān)的投影矩陣,將原始的高維信號(hào)投影到一個(gè)低維空間上,然后通過(guò)求解一個(gè)優(yōu)化問(wèn)題就可以從這些少量的投影中以高概率重構(gòu)出原始信號(hào)。在該理論框架下,采樣速率很大程度上取決于兩個(gè)基本準(zhǔn)則:稀疏性和等距約束性,或者稀疏性和非相關(guān)性。文獻(xiàn)[15]中的實(shí)時(shí)壓縮感知跟蹤算法提出了一個(gè)滿(mǎn)足RIP條件非常稀疏的隨機(jī)投影矩陣R,用這個(gè)投影矩陣將高維原始信號(hào)投影到一個(gè)低維壓縮子空間上,該子空間可以很好地保留原始圖像的特征信息,利用基于壓縮感知提取特征,該算法的數(shù)學(xué)表達(dá)式如下:
V=RX,
(1)
其中,X∈Rm×1為原始高維信號(hào),V∈Rm為壓縮后特征,R∈Rn×m(n?m)為稀疏隨機(jī)投影矩陣,滿(mǎn)足RIP條件,其矩陣元素定義如下:
(2)
其中,s隨機(jī)取2或者3,新的特征vi由原始圖像特征通過(guò)rij加權(quán)求和得到,新特征壓縮提取如圖1所示。
圖1特征壓縮提取示意圖
Fig.1Diagram of feature extraction by compression
文獻(xiàn)[15]的跟蹤過(guò)程是在上一幀目標(biāo)區(qū)域的周?chē)蓸觧個(gè)區(qū)域作為候選區(qū)域,然后利用(1)式對(duì)這n個(gè)區(qū)域進(jìn)行特征壓縮提取,得到n個(gè)低維特征向量v=(v1,v2,v3,…,vn)T,最后通過(guò)樸素貝葉斯分類(lèi)器H(v)進(jìn)行前景目標(biāo)和背景目標(biāo)分離,選取n個(gè)區(qū)域中H(v)值最大的區(qū)域作為當(dāng)前幀跟蹤到的目標(biāo),樸素貝葉斯分類(lèi)器H(v)公式如下:
(3)
其中,y=0表示負(fù)樣本,y=1表示正樣本,兩個(gè)類(lèi)先驗(yàn)概率相等p(y=1)=p(y=0)=0.5,分類(lèi)器H(v)中的條件概率p(v1|y=1)和p(vi|y=0)服從高斯分布,其均值和標(biāo)準(zhǔn)差分別為μ1,σ1和μ0,σ0。得到當(dāng)前幀目標(biāo)后,對(duì)這4個(gè)參數(shù)進(jìn)行增量更新:
(4)
式中,λ為更新程度參數(shù),取值范圍是0<λ<1,其取值影響更新速度的學(xué)習(xí)率,λ值越小更新速度越快,反之越慢。
該算法在背景中存在與目標(biāo)有一定相似性的物體,目標(biāo)姿態(tài)、紋理變化和光照變化較大等情況下容易發(fā)生漂移或者跟丟目標(biāo),如圖2中藍(lán)色虛線矩形框所示。
圖2實(shí)時(shí)壓縮感知跟蹤結(jié)果
Fig.2Tracking result of real-time compressive tracking
2感知哈希算法
感知哈希算法[17-18]是哈希算法的一類(lèi),主要用來(lái)做相似圖片的搜索工作。它的原理是對(duì)每張圖片生成一個(gè)“指紋”(fingerprint)字符串,然后比較不同圖片的指紋。結(jié)果越接近說(shuō)明圖片越相似。 下面用最簡(jiǎn)單的步驟來(lái)說(shuō)明感知哈希算法的原理:
1)縮小尺寸:快速去除高頻和細(xì)節(jié),只保留結(jié)構(gòu)、明暗等基本信息的方法。將圖片縮小到8×8的尺寸,總共64個(gè)像素。摒棄不同尺寸、比例帶來(lái)的圖片差異。
2)簡(jiǎn)化色彩:將8×8的小圖片轉(zhuǎn)為64級(jí)灰度,即所有像素點(diǎn)總共只有64種顏色。
3)計(jì)算平均值:計(jì)算所有64個(gè)像素的灰度平均值。
4)比較像素的灰度:將每個(gè)像素的灰度,與平均值進(jìn)行比較,大于或等于平均值,記為1;小于平均值,記為0。
5)計(jì)算哈希值:將上一步比較結(jié)果組合在一起構(gòu)成一個(gè)64位的整數(shù),即為該圖片的指紋。組合的次序不重要,只要保證所有圖片都采用同樣次序即可。
若要比較兩個(gè)圖片的相似性,首先要計(jì)算這兩張圖片的哈希指紋,即64位1或0值,然后計(jì)算出不同位的個(gè)數(shù),理論上,這等同于計(jì)算“漢明距離”。漢明距離等于0,說(shuō)明這兩張圖片非常相似;漢明距離小于5,說(shuō)明圖片略有不同,但比較相似;漢明距離大于10,說(shuō)明兩張圖片完全不同。
3自適應(yīng)實(shí)時(shí)壓縮感知跟蹤算法
本文在實(shí)時(shí)壓縮感知跟蹤的基礎(chǔ)上,利用壓縮感知哈希算法計(jì)算當(dāng)前幀跟蹤結(jié)果目標(biāo)模型的哈希指紋與上一幀目標(biāo)模型的哈希指紋之間的漢明距離,在線實(shí)時(shí)調(diào)整樸素貝葉斯分類(lèi)器,使得分類(lèi)器能夠根據(jù)目標(biāo)外觀變化快慢,自適應(yīng)調(diào)整更新程度參數(shù)λ。具體思想:首先設(shè)置高閾值和低閾值,H=10為高閾值,L=5為低閾值,計(jì)算當(dāng)前一幀跟蹤結(jié)果目標(biāo)模型的哈希指紋與上一幀目標(biāo)模型的哈希指紋間的漢明距離d。當(dāng)d>H時(shí),說(shuō)明背景中存在與前景目標(biāo)有一定相似性的物體或者目標(biāo)姿態(tài)、紋理變化、光照變化較大等,發(fā)生目標(biāo)跟蹤漂移或者跟丟,這時(shí)候,貝葉斯分類(lèi)器的更新主要依賴(lài)于上一幀目標(biāo)模型,若更新程度參數(shù)λ太小,則容易引起分類(lèi)器過(guò)更新,這時(shí)要適當(dāng)調(diào)大λ值;當(dāng)d≤L時(shí),說(shuō)明目標(biāo)外觀變化緩慢,這時(shí)候,貝葉斯分類(lèi)器的更新主要依賴(lài)于當(dāng)前幀的目標(biāo)模型,若更新程度參數(shù)λ太大,會(huì)造成分類(lèi)器更新過(guò)程中無(wú)法適應(yīng)目標(biāo)外觀的變化,這時(shí)要適當(dāng)調(diào)小λ值;當(dāng)L (5) 本文在文獻(xiàn) [15]實(shí)時(shí)壓縮感知跟蹤算法的基礎(chǔ)上,提出自適應(yīng)實(shí)時(shí)壓縮感知跟蹤算法,其流程如下: 輸入:第t幀圖像 1)以t-1幀目標(biāo)位置的lt-1為中心,γ為半徑采集候選目標(biāo)樣本集Dγ={z|‖l(z)-lt‖<γ},然后利用公式(1)對(duì)目標(biāo)樣本集進(jìn)行特征提取,得到集合的特征向量v,計(jì)算t-1幀跟蹤目標(biāo)的哈希指紋Hat-1并保存; 2)使用公式(3)中的H(v)貝葉斯分類(lèi)器對(duì)上述集合的特征向量v進(jìn)行分類(lèi),將目標(biāo)從背景中分離出來(lái),具有最大H(v)值的候選區(qū)即為當(dāng)前幀跟蹤的目標(biāo),其位置記為lt,計(jì)算當(dāng)前幀跟蹤目標(biāo)的哈希指紋Hat并保存; 3)計(jì)算當(dāng)前幀跟蹤目標(biāo)的哈希指紋Hat與上一幀跟蹤目標(biāo)的哈希指紋Hat-1間的漢明距離d,將d與高低閾值進(jìn)行比較,自適應(yīng)調(diào)整更新程度參數(shù)λ;