張 博
(長沙師范學(xué)院信息科學(xué)與工程學(xué)院,湖南 長沙 410100)
隨著科學(xué)技術(shù)的發(fā)展和人民生活水平的提高,各種機(jī)器人廣泛應(yīng)用于人們的日常生活、工作和生產(chǎn)中。20世紀(jì)60年代,一些學(xué)者提出了一種利用從圖像中獲取的信息來控制機(jī)器人動作的方法。但受當(dāng)時計算機(jī)水平的限制,該視覺機(jī)器人在每個動作周期內(nèi)只能獲取一次圖像信息,無法利用圖像信息對其進(jìn)行實時控制。隨著計算機(jī)技術(shù)和模式識別技術(shù)的發(fā)展,20世紀(jì)80年代以后,視覺機(jī)器人可以通過圖像一次動作連續(xù)獲取目標(biāo)的狀態(tài)信息,并利用這些信息對機(jī)器人進(jìn)行實時控制,使機(jī)器人成為一個具有視覺反饋的閉環(huán)系統(tǒng),這種視覺閉環(huán)控制的機(jī)器人稱為視覺伺服。視覺伺服使機(jī)器人具有感知外部環(huán)境的能力。計算機(jī)視覺的目標(biāo)跟蹤技術(shù)被廣泛應(yīng)用在實時監(jiān)控、視頻分析等領(lǐng)域[1]。視頻序列目標(biāo)跟蹤表示在視頻的某一幀中,提供待追蹤目標(biāo)的初始化信息(目標(biāo)方位與尺寸等),利用在線跟蹤器評估目標(biāo)在后續(xù)幀中的狀態(tài)信息[2]。因現(xiàn)實場景的復(fù)雜性與目標(biāo)種類的不確定性,目標(biāo)跟蹤會遇到形態(tài)變化、光照變化、遮擋等問題,無法精準(zhǔn)實現(xiàn)預(yù)期視覺跟蹤任務(wù)。
相關(guān)學(xué)者從不同角度來提升視覺目標(biāo)跟蹤可靠性:文獻(xiàn)[3]在特征提取中融入殘差網(wǎng)絡(luò)的注意力機(jī)制,使用區(qū)域重疊率下?lián)p失函數(shù)優(yōu)化跟蹤定位結(jié)果;文獻(xiàn)[4]通過提取鄰近目標(biāo)標(biāo)記特征,融合特征標(biāo)記的漢明距離獲得標(biāo)記的置信度,使用置信度最高的鄰近標(biāo)記明確目標(biāo)方位;文獻(xiàn)[5]在核相關(guān)濾波算法前提下進(jìn)行目標(biāo)特征融合,采用樹形尺度自適應(yīng)法評估目標(biāo)尺度大小,找出最優(yōu)響應(yīng)方位;文獻(xiàn)[6]通過校正目標(biāo)分割失效結(jié)果獲得目標(biāo)位置,把分割得到的目標(biāo)框作為樣本更新MDNet網(wǎng)絡(luò),增強(qiáng)網(wǎng)絡(luò)分類性能,完成目標(biāo)跟蹤任務(wù);文獻(xiàn)[7]使用量子遺傳算法,把像素點方位看作種群個體,將顏色直方圖擬作特征點,采用相似性度量計算個體適應(yīng)度值,獲取相似度最高的像素點輸出值來實現(xiàn)跟蹤工作;文獻(xiàn)[8]利用變異算子增強(qiáng)種群多樣性,提升蚱蜢優(yōu)化算法全局探索能力,在蚱蜢位置更新時添加非線性動態(tài)權(quán)重,提升方法收斂速率的同時鎖定目標(biāo)所處范圍;文獻(xiàn)[9]運用高斯混合勢概率假設(shè)密度濾波算法降低跟蹤計算量,利用徑向速度跟蹤算法完成目標(biāo)跟蹤;文獻(xiàn)[10]將Mean Shift算法原理應(yīng)用到目標(biāo)跟蹤領(lǐng)域中,提出了一種核函數(shù)帶寬自適應(yīng)變化的Mean Shift跟蹤算法,減少了噪聲和遮擋對跟蹤結(jié)果的影響;文獻(xiàn)[11]提出了Cam Shift算法,Cam Shift算法也是一種使用廣泛的確定性跟蹤算法,它是在MeanShift算法的基礎(chǔ)上發(fā)展而來的,除了在位移空間上對目標(biāo)進(jìn)行搜索外,它還在尺度空間上對目標(biāo)進(jìn)行搜索,并將其成功運用到目標(biāo)跟蹤上,實現(xiàn)人機(jī)交互;文獻(xiàn)[12]在Cam Shift算法框架上提出了一種根據(jù)目標(biāo)的先驗知識的多顏色分布,并設(shè)計了一種價值函數(shù),通過最小化價值函數(shù)對目標(biāo)進(jìn)行跟蹤;文獻(xiàn)[13]提出了一種自適應(yīng)顏色空間跟蹤算法,該算法通過計算目標(biāo)與背景的相似度選擇顏色空間;文獻(xiàn)[14]為了實現(xiàn)對形變目標(biāo)的跟蹤,研究了一種基于卡爾曼濾波的主動輪廓模型,算法融合目標(biāo)的位置和速度信息,同時提出一種基于光流的檢測機(jī),減少復(fù)雜背景和遮擋的影響;文獻(xiàn)[15]在粒子濾波框架下用顏色特征進(jìn)行目標(biāo)跟蹤,設(shè)計了一種自適應(yīng)調(diào)整顏色分布的方法以減少光照變化或干擾對跟蹤結(jié)果的影響。
以上方法進(jìn)行目標(biāo)跟蹤時,均沒有考慮目標(biāo)所處環(huán)境的復(fù)雜性,極易丟失關(guān)鍵數(shù)據(jù),導(dǎo)致跟蹤時效性不高,輸出結(jié)果不盡人意。本文針對以上問題,提出一種基于決策樹分類的視覺目標(biāo)精準(zhǔn)跟蹤算法。
圖像分割是視覺目標(biāo)跟蹤的核心步驟,把初始圖像變換成更加抽象緊湊的表達(dá)模式,劃分圖像背景信息與圖像目標(biāo)信息。這里提出一種均值漂移與模糊C均值聚類下圖像分割方法。模糊C均值聚類方法是使用隸屬度獲得各數(shù)據(jù)點類屬某個聚類,從而進(jìn)行聚類的策略,假設(shè)
X={x1,x2,…,xa},
(1)
式(1)中,X是視覺圖像內(nèi)的像素集合,xj是像素特征值,則目標(biāo)最優(yōu)聚類的函數(shù)解析式為
(2)
式(2)中,eij是第i類內(nèi)樣本xj的隸屬度,hij是樣本與聚類中心之間的歐式距離,n是樣本數(shù)量,d是樣本特征類型總和。
本文引入均值漂移法,綜合考慮圖像像素之間的相鄰位置關(guān)聯(lián),無需預(yù)先劃分聚類個數(shù),參數(shù)的初始化對聚類結(jié)果的影響較低,以提高圖像分割效果,改善參數(shù)初始化誤差較高的問題。均值漂移法是一種自主探尋概率密度局部最大的非參數(shù)密度估計策略,經(jīng)過迭代計算確定目標(biāo)方位。倘若存在一個概率密度函數(shù)f(x),已知在n維空間中涵蓋k個樣本點構(gòu)成的數(shù)據(jù)集,則f(x)的核密度估計值是
(3)
式(3)中,L(x)代表核函數(shù),Hi為帶寬矩陣。
圖像可被劃分成空間數(shù)據(jù)與色彩數(shù)據(jù)兩部分,位置空間與色彩空間互相獨立,實施均值偏移時,核函數(shù)被化解成兩個空間的核函數(shù)乘積,記作
O(x)=Os(xs)·Or(xr),
(4)
式(4)中,xr是色彩特征,xs是空間特征。由此,將均值偏移計算公式定義為
(5)
全方位分析聚類樣本空間不同樣本矢量對聚類成效的影響,代入加權(quán)思想,將模糊C均值聚類問題變換成如式(6)所示的數(shù)學(xué)模型:
(6)
式(6)中,pk代表加權(quán)指數(shù)。
運用拉格朗日乘數(shù)法,獲得優(yōu)化后圖像分割聚類迭代方程如式(7)所示,實現(xiàn)視覺待追蹤圖像分割任務(wù)。
(7)
為明確圖像幀整體屬性,消除冗余物體干擾,預(yù)測視覺目標(biāo)的所屬范圍,使用決策樹分類法融合待跟蹤目標(biāo)特征,提高目標(biāo)跟蹤可靠性。決策樹是一個從上到下的劃分制度,以根節(jié)點為初始點,分析節(jié)點全部屬性特征的信息增益比。把一組視覺圖像數(shù)據(jù)描述成多維數(shù)據(jù)集,倘若包含m個目標(biāo)特征類型,視覺圖像數(shù)據(jù)集類型未知,將數(shù)據(jù)集分類所需的信息熵記作
(8)
式(8)中,s代表圖像數(shù)據(jù)集合。
將屬性變量ck看作目標(biāo)分類屬性,分析目前數(shù)據(jù)集所需要的信息熵數(shù)量為
(9)
式(9)中,
(10)
(11)
利用式(9)計算特征分類并融合信息熵,終止分類后把當(dāng)前節(jié)點變換為葉節(jié)點[16],將數(shù)據(jù)內(nèi)多數(shù)的所屬類型判斷為目標(biāo)類型,計算識別結(jié)果可信度[17],完成精準(zhǔn)的目標(biāo)特征融合。可信度運算公式為
(12)
式(12)中,wi是第i組視覺圖像數(shù)據(jù)的權(quán)重,代表對特征融合結(jié)果的信息程度。
為有效處理復(fù)雜環(huán)境下視覺目標(biāo)的快速運動,增強(qiáng)目標(biāo)跟蹤的抗遮擋性與魯棒性,設(shè)計一種基于混沌粒子濾波的視覺目標(biāo)精準(zhǔn)跟蹤算法。混沌理論很好地解決了非線性動力學(xué)問題[18],將混沌離散系統(tǒng)F′記作
(13)
式(13)中,矢量q為混沌系統(tǒng)當(dāng)前所屬狀態(tài),矢量q0為混沌系統(tǒng)的初始狀態(tài),矢量γ0是混沌離散系統(tǒng)參數(shù)的實際值。
混沌系統(tǒng)參數(shù)估計問題就是探尋最佳的待估計參數(shù),讓待估計系統(tǒng)的狀態(tài)參數(shù)和原始混沌系統(tǒng)狀態(tài)參數(shù)之間的偏差最小[19]。偏差目標(biāo)函數(shù)表示成
(14)
式(14)中,yk表示待估混沌變量,N為參數(shù)估計迭代次數(shù)。
粒子濾波為一種序列蒙特卡羅濾波算法,它的本質(zhì)是通過抽取樣本(粒子)來取代狀態(tài)的后驗分布概率[20]。若粒子數(shù)量變得足夠多,利用隨機(jī)抽樣策略就能獲得近似的狀態(tài)后驗概率。運用粒子濾波實施目標(biāo)跟蹤,要構(gòu)建目標(biāo)跟蹤系統(tǒng)的狀態(tài)模型,將視覺目標(biāo)跟蹤變換成所建狀態(tài)模型的狀態(tài)矢量估計[21],狀態(tài)矢量用于定義目標(biāo)的方位、速率與加速度等數(shù)據(jù)。單個目標(biāo)的狀態(tài)矢量通常取決于自身幾何特征與區(qū)域參數(shù),目標(biāo)狀態(tài)矢量模型為
(15)
視覺圖像目標(biāo)跟蹤時,觀測模型內(nèi)涵蓋紋理特征檢測、色彩特征檢測和運動邊緣特征檢測[22]。各粒子均表示一個目標(biāo)狀態(tài)的可能預(yù)測值,按照此定義,將圖像觀測過程中的似然函數(shù)描述為
(16)
式(16)中,Eki表示第i個粒子觀測值和實際值之間的距離,?表示高斯方差。
小波變換能展現(xiàn)出圖像時域與頻域內(nèi)隱含信息,可作為紋理特征檢測工具,通過多層小波變換[23],把圖像劃分成8個頻率子帶,將第i個子頻帶的紋理信息描述成:
(17)
式(17)中,M、C′依次為子帶圖像的長度與寬度,x(i,j)是像素點(i,j)內(nèi)的小波指數(shù)。
將視覺圖像的全局紋理特征用含有8個元素的特征矢量T來描述,記作
T=[e1e2e3e4e5e6e7e8]。
(18)
色彩特征最直觀地定義視覺目標(biāo)的外觀,在復(fù)雜環(huán)境視頻目標(biāo)跟蹤中具備極強(qiáng)穩(wěn)定性。色彩特征不用采取大量運算,僅需把數(shù)據(jù)圖像內(nèi)的像素值變換為具體的色彩參數(shù)即可。把色彩特征檢測計算公式表示成
(19)
式(19)中,R(p,q)、G(p,q)、B(p,q)依次為圖像內(nèi)的三種顏色通道,p為映射矩陣。
運動邊緣特征有效突出了目標(biāo)輪廓狀態(tài),分析相鄰兩幀圖像序列的絕對差[24],對幀差圖像進(jìn)行梯度運算,獲得視覺目標(biāo)的邊緣數(shù)據(jù)。假設(shè)In、In-1依次為圖像的第n幀和第n-1幀,則二者的絕對差值為
en=|In-In-1|,
(20)
那么t時段的邊緣圖像為
Et=?et。
(21)
采用混沌系統(tǒng)評估下一幀視頻序列內(nèi)的目標(biāo)方位,手動挑選第一幀的初始邊界,運動狀態(tài)通過(x,y,w′,μ)來描述,(x,y)是某時段視覺目標(biāo)的位置坐標(biāo),w'為目標(biāo)寬度,μ表示縱橫比。目標(biāo)跟蹤時,遮擋處理是一個棘手問題,極有可能造成目標(biāo)丟失現(xiàn)象。針對遮擋問題,從以下幾個方面著手處理:
1)遮擋估計。遮擋估計就是探尋全部粒子權(quán)值內(nèi)的最高權(quán)值[25],若該權(quán)值低于臨界值1,證明存在遮擋現(xiàn)象。
2)運動軌跡預(yù)測。評估目標(biāo)處在遮擋狀況后,當(dāng)前圖像追蹤推導(dǎo)結(jié)果錯誤概率較高,所以對目標(biāo)進(jìn)行運動軌跡預(yù)測:維持上一幀的粒子狀態(tài)不變,依照線性經(jīng)驗方程推算目標(biāo)可能處在某個范圍,線性經(jīng)驗方程公式為
(22)
式(22)中,zn表示當(dāng)前預(yù)測值,zn-1、zn-2、zn-3均為前幾幀的位置預(yù)測值。
解決遮擋狀況后,利用自適應(yīng)參照模板算法創(chuàng)建視覺目標(biāo)跟蹤模型,記作
(23)
為驗證本文方法的優(yōu)越性,進(jìn)行定量與定性實驗分析,仿真平臺為Matlab 7.0,實驗使用OTB100開源數(shù)據(jù)集,此數(shù)據(jù)集內(nèi)包含100個公開檢測序列,涵蓋光照、遮擋、旋轉(zhuǎn)、尺度變化等多個視覺跟蹤場景。在實驗中,我們將目標(biāo)跟蹤數(shù)目m從5變化到100,則融合信息熵數(shù)量為:F(Ck)=[0,1 000]×[0,1 000]。由于所有的目標(biāo)跟蹤都被觀測到,因此觀測數(shù)目將隨著目標(biāo)跟蹤數(shù)目的增加而增加。將文獻(xiàn)[3]注意力機(jī)制法、文獻(xiàn)[4]置信度評估法、文獻(xiàn)[5]核相關(guān)濾波算法、文獻(xiàn)[6]校正目標(biāo)分割方法、文獻(xiàn)[7]量子遺傳算法、文獻(xiàn)[8]蚱蜢優(yōu)化算法作為對比方法。
定量分析中將中心位置偏差、跟蹤重疊率和跟蹤耗時作為評估指標(biāo),中心位置偏差表示目標(biāo)中心位置和真實中心位置之間的歐式距離,計算公式為
(24)
式(24)中,(xu,yu)是跟蹤目標(biāo)的坐標(biāo)方位,(xw,yw)是原始圖像內(nèi)目標(biāo)的實際坐標(biāo)方位。
跟蹤重疊率可展現(xiàn)跟蹤算法的正確性,倘若Ra是某視頻幀在t時段所跟蹤到的目標(biāo)像素區(qū)域,Rb為目標(biāo)在此幀內(nèi)的實際像素區(qū)域,將t時段下跟蹤重疊率表示成式(25)。若T值高于50%,認(rèn)定當(dāng)前跟蹤效果滿足預(yù)期精度需求,反之跟蹤失敗。
(25)
在OTB100數(shù)據(jù)集內(nèi)隨機(jī)挑選一個視頻序列進(jìn)行實驗,分析本文方法與其他六種性能的優(yōu)劣,圖1為三種方法視覺目標(biāo)跟蹤中心位置偏差對比結(jié)果。
圖1 視覺目標(biāo)跟蹤中心位置偏差對比Fig.1 Comparison of position deviation of visual target tracking center
觀察圖1看出,本文方法在不同的視頻幀中均具備極好的跟蹤效果,中心位置偏差要遠(yuǎn)遠(yuǎn)小于其他六個對比方法。這是因為本文方法采用決策樹分類策略,快速融合目標(biāo)特征信息,明確跟蹤目標(biāo)的所處范圍,大幅降低跟蹤偏差。
七種方法視覺目標(biāo)跟蹤重疊率實驗結(jié)果如圖2所示。從圖中可知,注意力機(jī)制法和置信度評估法伴隨視頻幀的增多,重疊率逐步減少,最終穩(wěn)定在45%與40%;本文方法目標(biāo)跟蹤時,圖像幀內(nèi)的目標(biāo)像素和實際像素的重疊率都大于70%,證明其跟蹤結(jié)果精度較高,應(yīng)用可靠性優(yōu)于兩個對比方法。
圖2 視覺目標(biāo)跟蹤重疊率對比Fig.2 comparison of visual target tracking overlap rate
跟蹤時間是衡量跟蹤方法性能的重要指標(biāo),分析七種方法目標(biāo)跟蹤的時間大小,結(jié)果如圖3所示。能夠看出,本文方法跟蹤耗時最短,實時性強(qiáng)。
圖3 視覺目標(biāo)跟蹤時間對比Fig.3 comparison of visual target tracking time
針對當(dāng)前視覺目標(biāo)跟蹤算法存在的準(zhǔn)確度不高、效率緩慢等不足,提出一種基于決策樹分類的視覺目標(biāo)精準(zhǔn)跟蹤算法。實施目標(biāo)跟蹤前,使用圖像分割策略劃分圖像目標(biāo)信息與背景信息,大致判斷待跟蹤目標(biāo)的物體狀態(tài);利用決策樹分類法融合待跟蹤目標(biāo)特征,消除多余數(shù)據(jù)干擾;運用粒子濾波器構(gòu)建目標(biāo)跟蹤系統(tǒng)狀態(tài)模型,計算目標(biāo)的位置、活動速度與加速度等情況,使用混沌系統(tǒng)優(yōu)化粒子跟蹤準(zhǔn)確性,通過線性經(jīng)驗方程處理跟蹤遮擋問題,獲得令人滿意的跟蹤結(jié)果。仿真實驗結(jié)果表明所提方法在復(fù)雜環(huán)境下視覺目標(biāo)跟蹤方面的優(yōu)越性。
在接下來的研究中,將低分辨率場景作為重點分析對象,進(jìn)一步提高方法在該環(huán)境下目標(biāo)跟蹤的穩(wěn)定性。