張波彬,甘宗鑫,陳 偉
1.中國礦業(yè)大學 計算機科學與技術學院,江蘇 徐州 221116
2.河海大學 計算機與信息學院,南京 211100
目標跟蹤作為計算機視覺及圖像處理與識別領域中重要的研究內(nèi)容,廣泛應用于視覺導航、智能交通以及視頻監(jiān)控等。在近年來取得了較多的研究成果[1-10],但仍然面臨著多方面的挑戰(zhàn):(1)諸如在目標移動時可能會產(chǎn)生移動模糊,導致目標區(qū)域的像素強度以及梯度發(fā)生變化,改變了目標區(qū)域的結構信息,使得在對目標進行跟蹤時無法準確識別最佳的位置信息,導致發(fā)生目標的漂移甚至于目標丟失。(2)在對目標進行跟蹤時可能會出現(xiàn)嚴重的遮擋,甚至遮擋物本身與目標極為相似,使得算法將遮擋物當做最佳目標導致目標丟失。
文獻[11]提出加速逼近梯度L1跟蹤(L1APG)算法,能夠有效快速的求解L1范式約束的最小化問題并確保其解二次收斂,但該算法不能有效魯棒的應對目標的嚴重遮擋以及視頻序列中因模糊而導致的目標區(qū)域梯度信息的改變等問題,且當目標區(qū)域的信息被改變時其跟蹤結果有時并不穩(wěn)定。文獻[12]提出了連續(xù)低秩稀疏跟蹤(CLRST)算法,利用時間一致性,自適應的剪切、選擇候選目標粒子,并通過候選粒子與潛在的低秩約束來學習對目標區(qū)域的稀疏表示,該算法能夠較為魯棒的應對目標的形變以及部分遮擋問題,但當目標與背景極為相似,出現(xiàn)移動模糊或者目標區(qū)域被嚴重遮擋,尤其是遮擋者與被遮擋區(qū)域有相似的目標外觀以及形態(tài)時,會產(chǎn)生極為類似的目標信息,該算法無法有效應對。文獻[13]提出多任務反向稀疏表示(MTRSR)模型同時結合對模糊核的估計以及目標的稀疏表示問題于一個聯(lián)合框架中,來應對因模糊而導致的目標區(qū)域梯度信息的改變。為避免引入在去模糊過程中產(chǎn)生的噪聲和振鈴效應,該模糊核k實際上并不用來恢復候選目標模板,而是與清晰目標模板進行卷積得到模糊目標模板,該模糊目標模板集與候選目標模板集進行稀疏匹配得到稀疏編碼矩陣C,由于候選目標模板集遠多于目標模板集,得到的C可以消除與目標模板無關的一些候選目標,再進行目標匹配時可以降低計算代價。該算法首次將模糊核估計與目標的稀疏表示問題結合在一個統(tǒng)一框架內(nèi),通過迭代優(yōu)化可以同時得到單一的模糊核k和稀疏編碼矩陣C,可以有效、快速地排除與目標不相關的候選目標模板。但當物體出現(xiàn)嚴重遮擋以及邊緣梯度的劇烈變化時仍會導致出現(xiàn)跟蹤漂移以及目標丟失現(xiàn)象,難以有效魯棒的對目標進行跟蹤。文獻[14]提出了一個可靠高效的實時壓縮跟蹤算法,該算法使用一個生成式的外觀模型,基于壓縮感知理論保留圖像的特征空間信息,同時使用非自適應降維來選擇特征,并通過一個樸素貝葉斯分類器來區(qū)分目標與背景區(qū)域,但當目標區(qū)域的信息被污染時該算法無法有效應對。文獻[15]提出使用結構化的局部描述符結合強分類器對目標進行跟蹤,考慮到稀疏編碼系數(shù)對遮擋等因素較為敏感,因此在提取目標的描述符時,通過抽取目標局部塊的稀疏編碼系數(shù)進行連接操作得到目標區(qū)域的描述符。同時為了處理在跟蹤時遇到的目標外觀變化,提出了針對目標模板的遮擋感知更新策略。該算法能夠較好的應對目標的局部遮擋等問題,但當目標區(qū)域發(fā)生嚴重模糊或遮擋導致目標區(qū)域信息被嚴重污染時,分類器無法準確區(qū)分目標與背景區(qū)域,最終導致目標的漂移甚至丟失。文獻[16]提出使用一種簡單、有效的基于多尺度圖像特征空間的特征提取算法,同時外觀模型采用非自適應隨機投影,保留圖像特征空間的結構,構造一個稀疏測量矩陣,有效地提取了外觀模型的特征,同時基于相同的稀疏測量矩陣壓縮前景目標和背景的樣本圖像,最終通過樸素貝葉斯分類器將跟蹤任務轉化為二類分類任務。該算法可以較為快速的跟蹤到目標,但當目標快速移動導致目標區(qū)域因移動模糊而受到污染時,該算法難以有效魯棒的應對。因此,本文提出了基于描述性字典的結合生成式與判別式方法的目標跟蹤算法以應對目標區(qū)域梯度信息的改變以及目標的遮擋等因素,能夠很好地應對復雜場景下視頻序列的目標跟蹤任務。
本文主要貢獻如下:
(1)本文使用基于生成式和判別式相結合的目標跟蹤方法,同時采用雙字典,一個由目標區(qū)域抽取局部塊向量化得到D1與候選目標進行稀疏匹配,得到稀疏編碼系數(shù)來訓練AdaBoost分類器,另一個由HOG特征得到的描述性字典D2,能夠更好地依據(jù)目標的外觀梯度等信息判定目標權重。
(2)通過求解MTRSR模型得到目標的模糊核k,以及模糊目標模板集T*,而后計算候選目標的重建誤差,同時根據(jù)跟蹤到的目標抽取正負樣例訓練AdaBoost分類器,通過權值與二者置信度的和得到最佳目標。
(3)為了避免目標跟蹤的漂移和丟失,更新模板集時評估更新模板的噪聲、污染程度,選擇模板模糊程度誤差最大的進行更新,當噪聲、遮擋等污染超過閾值時,終止當前的模板更新,直至滿足閾值要求。
首先通過實時壓縮跟蹤算法[14]得到前8幀的跟蹤結果作為初始的目標模板Ti其中i=1,2,…,m(其大小為32×32)。
馬波等人提出多任務反向稀疏表示(MTRSR)模型[13]同時解決對模糊核k以及目標的稀疏表示問題:
其中k是模糊核,Y是候選目標集,T是目標模板集,*代表卷積操作,而C是稀疏編碼矩陣。該模型包含兩個變量,因此轉化為兩個最優(yōu)化求解的子問題,其中C初始化為:
(1)子問題1對模糊核k的求解:固定C求解模糊核k。
該問題是關于吉洪諾夫正則化的最小二乘問題,其封閉解為[18]:
(2)子問題2求解稀疏矩陣C。通過求得的模糊核k,求解如下目標函數(shù):
C由加速近端梯度算法[17]求解,最終通過反復迭代求解得到模糊核k。
算法1對模糊核k與稀疏矩陣C的求解[13]
1.輸入:模板集合T,候選目標集合Y,參數(shù)ν以及λ
2.輸出:模糊核k以及稀疏編碼矩陣C
3.首先通過(2)初始化稀疏編碼矩陣C
4.Fori=1,2,…,ndo
5.通過(4)求解模糊核k
6.通過(5)求解稀疏編碼矩陣C
7.End
2.目前相關法律法規(guī)中存在的問題??傮w來說,我國現(xiàn)有的與轉基因產(chǎn)品標識制度相關的立法主要有:一部法律、一部行政法規(guī)、四部部門規(guī)章、一條國家標準。雖然法律法規(guī)不少,但其中也存在很大的問題。一是缺少專門的立法,并且法律法規(guī)位階不高。根據(jù)我們對現(xiàn)有法律法規(guī)的梳理可以發(fā)現(xiàn),對于轉基因產(chǎn)品標識制度相關的法律只有《中華人民共和國食品安全法》,而法規(guī)方面,位階稍高的《農(nóng)產(chǎn)品質量安全法》也只是規(guī)定屬于農(nóng)業(yè)轉基因生物的農(nóng)產(chǎn)品,應當按照農(nóng)業(yè)轉基因生物安全管理的有關規(guī)定進行標識。這兩部法律法規(guī)都很籠統(tǒng),而沒有專門詳細的規(guī)定,使得我國目前關于轉基因產(chǎn)品標識方面沒有專門的立法,對轉基因產(chǎn)品的管理缺少法律支持。
前8幀中在每幀跟蹤到的目標附近通過像素擾動采樣得到9個正樣例,同樣通過像素擾動在第8幀得到150個負樣例(均為32×32的塊)。將這些正負樣例以8個像素為步長抽取16×16的子塊,并將每個子塊向量化,得到每個抽樣目標 X={xi∣i=1,2,…,n}∈Rd×n,其中每一個xi都是向量化的局部塊,n表示局部子塊的個數(shù)。目標模板集T={T1,T2,…,Tm}依同理抽取局部子塊,得到字典 D1={d1,d2,…,dn×m}∈Rd×n×m,因此每個抽樣目標區(qū)域X的子塊xi可由字典D1編碼得到:
得到稀疏編碼系數(shù)αi∈Rn×m×1,作為分類器的訓練集,每個目標塊X中抽取n個子塊,并選擇k=3個子塊的稀疏編碼系數(shù)來訓練分類器。因此,針對不同局部子塊可以訓練個弱分類器,并依據(jù)分類誤差最小的作為最佳分類器,依次訓練60個最佳分類器,而后在60個最佳分類器中選擇出45個作為最終的強分類器(每一個弱分類器均為樸素貝葉斯分類器),得到最終的強分類器H(X)。
采用基于生成式與判別式相結合的目標跟蹤方法,通過求得的模糊核k與目標模板集T進行卷積運算得到模糊目標模板集T*,此時依同理抽樣得到字典每一個候選目標Yi都可以抽取局部子塊為,每一個子塊 yk都可以被字典D1與編碼:
此時通過求解目標模板T的HOG特征得到描述性字典 D2∈Re×m,同時得到候選目標Yi,i=1,2,…,N的HOG特征,該候選目標的HOG特征可由字典D2編碼得到:
其中 βi∈Rm×1為關于候選目標與字典D2的稀疏編碼系數(shù),則候選目標與字典D2的重建誤差為:
此時候選目標Yi的權值為:
因此最佳目標為:
這個序列越往后,區(qū)間越大,被選中淘汰的概率也相應增大。產(chǎn)生一個隨機數(shù)r在[0,1]內(nèi)服從均勻分布,被r選中的區(qū)間也就被淘汰。這看起來很合理,但是隨機數(shù)r的選擇可能導致一些不必要的模板因為長期未被選中從而導致對字典的更新不準確,即使初始目標幀對目標跟蹤有著重要作用,但是在目標快速移動的情況下如果不能及時更新,會在目標模板集內(nèi)留下一系列污染的模板,對目標的跟蹤產(chǎn)生不利影響。
在自然場景下,視頻序列的多個幀是一個連續(xù)的過程,即使受到聚焦、移動、光照等影響產(chǎn)生模糊,也不會突然產(chǎn)生非常大的噪聲,事實上大多數(shù)情況下產(chǎn)生的都是均勻模糊,即使有突發(fā)情況產(chǎn)生了較大的噪聲導致目標信息受到污染,在短時間內(nèi)產(chǎn)生的噪聲也不會同時污染多個連續(xù)幀,對模板的更新可以排除這些污染嚴重的幀:
此時即使目標Yj本身的噪聲污染并不嚴重,但跟蹤到的最佳目標與目標模板集的平均誤差超過預定義閾值,那么該跟蹤結果仍然不能加入到目標模板集中:
其中,δ為當前選擇的候選目標Yj與目標模板集T的平均誤差,m為模板個數(shù),δ0為預定義正常數(shù),如果δ<δ0,則模板更新可靠,否則模板更新失敗,該目標區(qū)域不加入模板集。
分類器的更新:當δ<δ0時更新分類器,根據(jù)跟蹤到的目標位置,通過像素擾動采集正樣例(每幀9個),負樣例每5幀后更新一次(每次采樣150個)以訓練分類器。
算法流程的偽代碼如下:
算法2提出的跟蹤算法
輸入:通過實時壓縮跟蹤算法[14]得到o1,o2,…,om為算法在前m幀跟蹤得到的結果并作為目標模板集T,目標模板的個數(shù)m,以及更新的頻率Φ
輸出:追蹤結果st,t=m+1,m+2,…,M
初始化分類器:
1.在前m幀中每幀選擇9個正樣例Np,第m幀選擇150負樣例Nq,結果目標集ψ=0。
2.從正負樣例Np與Nq的稀疏編碼系數(shù)中抽取局部描述符。
3.利用得到的局部描述符訓練強分類器H(x)。
4.Whilet=m+1,…,Mdo
5.產(chǎn)生候選目標集Y=[Y1,Y2,…,YN]
6.通過算法1求解模糊核k
7.使用模糊核k與目標模板集T進行卷積操作得到模糊目標模板集T*
8. 由公式(8)計算得到各候選目標Yi與字典D1與的重建誤差
9. 由公式(9)得到各候選目標的置信度
10.從候選目標集Y的稀疏編碼系數(shù)中抽取局部描述符,并通過分類器H(x)計算對每一個候選目標的分類值。
11. 由公式(12)計算候選目標的權值Wi
12. 由式(13)選擇出最佳的跟蹤結果st。
13. 若誤差小于預定義閾值(δ<δ0):
14.更新目標模板T。
15.依據(jù)跟蹤到的目標選擇9個正樣例?Np。
16.更新結果目標集ψ=[ψ,st]
17.If size(ψ)==Φ
18.更新結果目標集ψ=0
19.采集150個負樣例?Nq
20.從正負樣例Np與Nq的稀疏編碼系數(shù)中抽取局部描述符。
21.再次訓練分類器H(X)
22.End if
23.End while
本實驗在跟蹤過程中保持8個模板,在每個幀中采集800個候選目標,即采用的粒子數(shù)為800,所有的目標模板集、采樣目標集以及候選目標模板集都為32×32像素。同時,以8個像素作為步長在圖片區(qū)域內(nèi)選取9個大小為16×16像素的重疊局部塊,用這些塊的局部稀疏編碼系數(shù)來組建描述符,從9個稀疏編碼系數(shù)中選取3個進行連接操作得到分類器的訓練樣本。固定參數(shù)ν=λ=λ2=λ3=λ4=0.01,ξ0=0.2,θ=0.1,δ0=0.5,k=3,n=40,為評估算法的性能,與6種具有代表性的算法進行對比,分別是:移動模糊跟蹤(MBT)[13]、加速逼近梯度 L1跟蹤(L1APG)[11]、實時壓縮跟蹤(RCT)[14]、快速壓縮跟蹤(FCT)[16]、強分類器追蹤(SCT)[15]、連續(xù)低秩稀疏追蹤(CLRST)[12]。
為確保實驗結果的可靠性和可對比性,以上算法的代碼均由其作者提供,且所有的算法的參數(shù)也使用初始給定值。實驗所使用的視頻取自OTB-100[20]。
圖1展示了7種跟蹤算法在6個公開視頻上(分別是Walking2、BlurCar3、DragonBaby、BlurBody、Jumping、FaceOcc1)的部分跟蹤結果,圖中紅色框標注的是本文算法的跟蹤結果。本文算法具有較為穩(wěn)定的目標跟蹤結果,其他算法在各視頻中均有出現(xiàn)目標丟失現(xiàn)象,表明本文算法能夠在快速移動導致的模糊以及嚴重遮擋的視頻序列中有較好的跟蹤效果。
圖1 目標跟蹤結果
Jumping與BlurCar3兩個序列中主要是移動模糊與快速移動影響視頻質量,本文算法與MBT算法能夠較為準確且穩(wěn)定的對目標進行跟蹤。算法FCT在視頻序列BlurCar3中取得了最佳的跟蹤效果,但在Jumping視頻序列中效果不佳,其余算法也存在一定的目標漂移或者目標丟失的現(xiàn)象,表明本文算法能夠有效應對視頻序列中出現(xiàn)的移動模糊與目標快速移動問題。在Dragon-Baby序列中存在遮擋、移動模糊與尺寸變化等因素,本文算法取得了較好的跟蹤結果,在BlurBody中存在形變、移動模糊以及尺寸變化等因素,本文算法與FCT算法可以較為準確地對目標進行跟蹤,當目標的尺寸發(fā)生較大變化時,L1APG無法準確標記出目標大小。在視頻序列Walking2中,存在形變、遮擋以及低分辨率等問題,本文算法不論是平均覆蓋率還是中心位置誤差均優(yōu)于其余算法。影響FaceOcc1視頻序列質量的因素是目標的嚴重遮擋,本文算法與MBT、RCT、CLRST算法均能較好地應對因目標嚴重遮擋導致的外觀信息的改變。通過上述算法在6個視頻序列中的實驗對比表明,本文算法可以有效應對在視頻序列中產(chǎn)生的移動模糊、尺寸變化以及遮擋等問題,相比較于其他的6種算法,本文算法在不同的應用場景中都有著較好的跟蹤效果。
用平均中心位置誤差和平均覆蓋率兩個標準對實驗結果進行定量分析,以評價各算法的優(yōu)劣,算法的平均中心誤差越小,平均覆蓋率越大,該算法的性能就越優(yōu)異,跟蹤的結果就越精確可靠。中心位置誤差依據(jù)下式計算(目標中心位置(x0,y0),跟蹤到的目標中心位置(x,y)):
若給定的人工標記的跟蹤結果為RG,各算法得到的跟蹤結果為RT,覆蓋率可以依據(jù)下式計算:
覆蓋率越大表明該算法跟蹤到的結果與真實結果越接近,表1給出了7種算法的平均覆蓋率。表2給出了7種算法的平均中心位置誤差,該值越小算法的定位越精準。圖2為平均中心位置誤差對比圖。
表1 平均覆蓋率 %
表2 平均中心位置誤差 像素
表1和表2表明,本文算法在序列Walking2、Blur-Body以及DragonBaby中表現(xiàn)最佳,算法的平均覆蓋率最大,中心位置誤差最小。本文算法的平均覆蓋率為67.0,優(yōu)于第二位MBT的57.2,本文算法的平均中心位置誤差為15.1,優(yōu)于第二位MBT的24.4。實驗結果表明,本文算法能夠更加穩(wěn)定地完成目標跟蹤任務,對復雜場景具有較高的魯棒性。
圖2 平均中心位置誤差
本文針對復雜場景下視頻序列中存在的移動模糊、遮擋等干擾因素,提出了生成式方法與判別式方法相結合的目標跟蹤算法,同時在對最佳目標的選取時考慮到目標的權值,選取權值與目標的置信度乘積最大的作為當前幀的最佳目標,即使目標存在一定程度的污染,也能在目標跟蹤中具有較好的魯棒性。同時結合目標區(qū)域的污染程度,當污染程度高于給定閾值時不使用該幀跟蹤的目標來更新目標模板集與分類器,防止誤差累積導致目標丟失。通過各算法在不同場景視頻序列中目標跟蹤實驗結果的對比,視頻序列目標跟蹤的平均覆蓋率以及中心位置誤差的平均值表明,本文算法有較好的效果與穩(wěn)定性,能夠很好地應對視頻序列中存在的移動模糊、形變以及遮擋等不利因素,在目標跟蹤中有較高的精度與魯棒性。