呂增輝,張一三
(1 安徽醫(yī)科大學(xué)人文醫(yī)學(xué)學(xué)院,安徽合肥 230001;2 合肥鑫晟光電科技有限公司,安徽 合肥 230000)
視覺目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域的重要研究方向之一,目標(biāo)跟蹤可有效解決視頻監(jiān)控追蹤、人機(jī)交互、無人駕駛、體育競(jìng)技裁判等問題[1].經(jīng)過長(zhǎng)期研究,目標(biāo)跟蹤取得了較大的技術(shù)成果與應(yīng)用成效,但對(duì)于客觀環(huán)境產(chǎn)生的遮擋、尺度變化、快速運(yùn)動(dòng)等意外因素仍存在一定的跟蹤技術(shù)難題[2].在跟蹤算法高頻應(yīng)用的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)基礎(chǔ)上延伸出圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Networks,GCN),對(duì)于解決復(fù)雜圖結(jié)構(gòu)數(shù)據(jù),具有良好的應(yīng)用效果.圖卷積神經(jīng)網(wǎng)絡(luò)可將CNN 和圖譜理論結(jié)合,是支持在非歐空間對(duì)圖數(shù)據(jù)進(jìn)行編碼和預(yù)測(cè)的深度學(xué)習(xí)算法,解決CNN 在卷積運(yùn)算時(shí)未考慮通道間內(nèi)在聯(lián)系的問題[3].據(jù)此,本次研究提出了一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的體育運(yùn)動(dòng)目標(biāo)跟蹤算法:
(1)采用圖卷積神經(jīng)網(wǎng)絡(luò)搭建一個(gè)端對(duì)端的深度學(xué)習(xí)模型,直接從原始體育運(yùn)動(dòng)圖像中提取對(duì)運(yùn)動(dòng)姿態(tài)有表達(dá)力的特征,并預(yù)測(cè)運(yùn)動(dòng)目標(biāo)的下一次動(dòng)作姿態(tài),實(shí)現(xiàn)目標(biāo)跟蹤.
(2)基于互信息改進(jìn)圖卷積神經(jīng)網(wǎng)絡(luò)的鄰接矩陣,利用變量間互信息值確定變量連接關(guān)系,保障信息相關(guān)性強(qiáng)的變量之間相互連接.
(3)對(duì)于運(yùn)動(dòng)搜索區(qū)域的選擇,結(jié)合目標(biāo)運(yùn)動(dòng)速度估計(jì),設(shè)計(jì)自適應(yīng)調(diào)整搜索區(qū)域的跟蹤策略.
本文采用圖卷積操作中的譜圖卷積,其原理是譜圖卷積將卷積核和圖數(shù)據(jù)都作傅里葉變換轉(zhuǎn)換到頻域后再相乘[4],計(jì)算公式如下:
其中,卷積核、圖卷積運(yùn)算符分別用bα和a°表示;對(duì)運(yùn)動(dòng)目標(biāo)幀圖像數(shù)據(jù)上的隨機(jī)節(jié)點(diǎn)的輸入信號(hào)x作傅里葉變換,得到頻域信號(hào)用UTx表示;映射至頻域的卷積核用Ubα表示.正則化后的拉普拉斯矩陣為W,W的特征向量構(gòu)成U,矩陣W的表達(dá)式如下:
式中,IN表示單位陣;邊權(quán)重構(gòu)成的鄰接矩陣用F表示;D表示一個(gè)角陣,僅對(duì)角線上存在非零元素,F(xiàn)中對(duì)應(yīng)列的和即為D的數(shù)值;W特征值構(gòu)成對(duì)角陣Λ.
圖卷積神經(jīng)網(wǎng)絡(luò)模型基于切比雪夫多項(xiàng)式近似原本卷積核,以減少運(yùn)算的時(shí)間,方法如下式所示:
式中,切比雪夫多項(xiàng)式階數(shù)為R;矩陣W的特征值上限為ηmax,=2W/ηmax-IN,表示經(jīng)過縮放與正則化處理后的拉普拉斯矩陣W,其目的是削弱深度學(xué)習(xí)中高頻出現(xiàn)的梯度消失和爆炸問題.
以切比雪夫卷積核為前提,實(shí)現(xiàn)從單節(jié)點(diǎn)一維特征向量x推廣至多節(jié)點(diǎn)二維特征矩陣X的目的,確定ηmax取值為2,對(duì)譜圖卷積操作進(jìn)一步簡(jiǎn)化,運(yùn)算式如下:
式中,一次譜圖卷積后各節(jié)點(diǎn)的抽象特征向量組成的矩陣Xˊ;卷積核內(nèi)第r階待學(xué)習(xí)參數(shù)矩陣用Θ(r)描述;基于X的第λ階矩陣用Zr(X)表示.假設(shè)第w層的特征向量矩陣為G(w),那么圖卷積神經(jīng)網(wǎng)絡(luò)模型的卷積層計(jì)算公式如下:
式中,w層的第r階權(quán)重矩陣為,若w取值是0則存在輸入層G(0)=X.
1.2.1 基于互信息的鄰接矩陣構(gòu)建
圖構(gòu)建是圖卷積神經(jīng)網(wǎng)絡(luò)的核心,加強(qiáng)信息相關(guān)性強(qiáng)的變量間的相互連接是圖構(gòu)建的第一要義.為此參考劉菡等人[5]的研究,將互信息理論應(yīng)用到鄰接矩陣構(gòu)建中.由熱力學(xué)熵的概念演化獲得信息熵概念,信息論認(rèn)為消息代表來自分布或數(shù)據(jù)流中的事件、樣本、特征.信息論將接收消息中包含信息均量視為熵,則有概率分布為p(x)=P(X=x)的隨機(jī)變量X,其熵用P(X)表示,表達(dá)式如下:
已對(duì)任意的變量平均需要的信息量定義為聯(lián)合熵,如果(X,Y)是一對(duì)離散型隨機(jī)變量,同時(shí)P(X,Y)表示聯(lián)合概率分布,那么H(X,Y)表示其聯(lián)合熵,表達(dá)式如下:
當(dāng)X值為已知時(shí),任意變量Y的隨機(jī)性的量可稱為條件熵,那么已知隨機(jī)變量X和Y的條件熵描述如下式所示:
一個(gè)隨機(jī)變量中包含的關(guān)于另一個(gè)隨機(jī)變量的信息量稱為“互信息”,結(jié)合公式(6)推導(dǎo)得到互信息計(jì)算式如下:
本次采用圖卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)運(yùn)動(dòng)姿態(tài)時(shí),基于變量間互信息值確定變量連接關(guān)系以改進(jìn)圖卷積神經(jīng)網(wǎng)絡(luò)的鄰接矩陣構(gòu)建方式.具體而言,節(jié)點(diǎn)間邊的構(gòu)建依據(jù)節(jié)點(diǎn)間的互信息值的大小而定.首先,選擇影響運(yùn)動(dòng)目標(biāo)姿態(tài)發(fā)展的變量作為構(gòu)建圖A(V,E)的節(jié)點(diǎn)NV=|V|,NV表示節(jié)點(diǎn)數(shù);其次,兩個(gè)節(jié)點(diǎn)間的相關(guān)度用NE=|E|描述;最后,為互信息較大的r個(gè)值建立鄰接關(guān)系得到鄰接矩陣F,改進(jìn)后的鄰接矩陣如下式:
1.2.2 基于改進(jìn)圖卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)動(dòng)目標(biāo)姿態(tài)預(yù)測(cè)模型
基于互信息建立鄰接矩陣,將鄰接矩陣F、特征矩陣X作為圖卷積神經(jīng)網(wǎng)絡(luò)的輸入,特征向量維數(shù)用T描述,即選擇一定時(shí)間內(nèi)采樣點(diǎn)數(shù)量.利用互信息將特征變量構(gòu)建成圖數(shù)據(jù),建立改進(jìn)的圖卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型,其結(jié)構(gòu)如圖1 所示.
圖1 基于圖卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)動(dòng)目標(biāo)姿態(tài)預(yù)測(cè)模型
由圖可見模型包括兩個(gè)圖卷積層、一個(gè)全連接層.為提高模型非線性能力、減少模型過擬合幾率[6,7],為每個(gè)譜圖卷積賦予一個(gè)Relu 激活函數(shù).圖卷積神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)運(yùn)動(dòng)姿態(tài)的步驟如下:
(1)第一層圖卷積輸出矩陣成為第二層圖卷積新的節(jié)點(diǎn)特征矩陣,通過兩層圖卷積網(wǎng)絡(luò)對(duì)特征信息實(shí)施融合,即每個(gè)節(jié)點(diǎn)特征與其鄰接的節(jié)點(diǎn)特征融合.(2)在Flatten 層中實(shí)現(xiàn)特征維度變換,兩次圖卷積完成后在Flatten 層中多個(gè)節(jié)點(diǎn)特征矩陣將轉(zhuǎn)換為一維向量[8].(3)節(jié)點(diǎn)特征與鄰接節(jié)點(diǎn)特征融合后將作為全連接層的輸入,抽象特征映射至樣本標(biāo)記空間的任務(wù)也在全連接層中完成;Softmax 激活函數(shù)得到該樣本屬于每個(gè)標(biāo)簽的概率,反向傳播時(shí)參數(shù)更新依據(jù)交叉熵?fù)p失函數(shù)進(jìn)行判定[9].(4)融合特征輸入全連接層后得到體育場(chǎng)景中運(yùn)動(dòng)目標(biāo)姿態(tài)的預(yù)測(cè)值[10],實(shí)現(xiàn)運(yùn)動(dòng)目標(biāo)的動(dòng)態(tài)跟蹤.
體育場(chǎng)景中運(yùn)動(dòng)目標(biāo)跟蹤過程中,不僅要精準(zhǔn)預(yù)測(cè)運(yùn)動(dòng)姿態(tài)特征,搜索區(qū)域選擇也在很大程度上影響跟蹤精度與效率,本次研究采用自適應(yīng)動(dòng)態(tài)調(diào)整搜索區(qū)域的跟蹤策略.
由于搜索區(qū)域大小影響跟蹤效果,目標(biāo)應(yīng)用頻率較高的一些目標(biāo)跟蹤算法往往采用固定的搜索區(qū)域,即通過對(duì)目標(biāo)尺寸放大一定的倍數(shù)獲得搜索區(qū)域.這種搜索區(qū)域設(shè)定策略導(dǎo)致一些異物遮擋、背景干擾、姿態(tài)變化等場(chǎng)景中的目標(biāo)跟蹤不準(zhǔn)確,適應(yīng)復(fù)雜條件的能力較弱[11];此外,由于體育場(chǎng)景中的目標(biāo)運(yùn)動(dòng)不均勻,跟蹤視角變化較大,過大的搜索區(qū)域包含過多干擾物導(dǎo)致跟蹤漂移,較小的搜索區(qū)域無法適應(yīng)高速運(yùn)動(dòng)目標(biāo)的追蹤.為此,參考王春雷等人[12]的研究采用運(yùn)動(dòng)估計(jì)動(dòng)態(tài)調(diào)整搜索區(qū)域的跟蹤策略.將3作為初始搜索區(qū)域放大倍數(shù)實(shí)施目標(biāo)跟蹤,同時(shí)獲取連續(xù)5幀的目標(biāo)中心點(diǎn)位置,求取相鄰兩幀中心點(diǎn)偏差,計(jì)算式如下:
式中,(xi,yi)、(xi+1,yi+1)、(xi+2,yi+2)、(xi+3,yi+3)、(xi+4,yi+4)分別表示連續(xù)5幀的目標(biāo)中心點(diǎn)位置.采用如下公式分別求取相對(duì)x軸與y軸運(yùn)動(dòng)距離上限值:
采用(15)—(18)公式求取的4 個(gè)相鄰兩幀運(yùn)動(dòng)距離上限值自適應(yīng)調(diào)整搜索區(qū)域的放大倍數(shù),根據(jù)反復(fù)測(cè)試結(jié)果和相關(guān)研究確定運(yùn)動(dòng)距離上限與搜索區(qū)域放大倍數(shù)的關(guān)系,具體公式如下:
本文選取體育運(yùn)動(dòng)場(chǎng)景中的幀圖像作為測(cè)試樣本,進(jìn)行運(yùn)動(dòng)目標(biāo)跟蹤測(cè)試,以驗(yàn)證本文所提方法的優(yōu)越性.采用GCN 模型、MI-GCN 模型進(jìn)行同步跟蹤對(duì)比測(cè)試,以評(píng)估本文方法在運(yùn)動(dòng)目標(biāo)跟蹤方面的優(yōu)勢(shì)與不足.
基于改進(jìn)圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)跟蹤的過程中,圖網(wǎng)絡(luò)的節(jié)點(diǎn)即為篩選的特征變量,圖卷積神經(jīng)網(wǎng)絡(luò)鄰接關(guān)系的需要計(jì)算輸入變量之間的互信息.根據(jù)公式(10)可知,采用互信息較大的λ個(gè)值建立鄰接關(guān)系得到鄰接矩陣F,因此,λ的設(shè)置可能影響鄰接矩陣的構(gòu)建,進(jìn)而影響本文圖卷積神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建,為此為λ選定3、4、5、6 四個(gè)數(shù)值,進(jìn)行鄰接矩陣構(gòu)建測(cè)試,明確λ的選值對(duì)鄰接矩陣構(gòu)建的影響,進(jìn)而為本文改進(jìn)圖卷積神經(jīng)網(wǎng)絡(luò)模型構(gòu)建最佳的鄰接矩陣.圖2為鄰接矩陣構(gòu)建結(jié)果.
圖2 k值變換下的鄰接矩陣
由于節(jié)點(diǎn)自身的互信息值最大,結(jié)合圖1 可知,將最近鄰的λ個(gè)值作為鄰接節(jié)點(diǎn),λ值變化鄰接矩陣呈現(xiàn)的排列方式有所差異.圖2(a)、(b)顯示,選值為3 和4 的情況下,節(jié)點(diǎn)鄰接關(guān)系為稀疏狀態(tài),相關(guān)性節(jié)點(diǎn)之間的特征信息融合水平不高;選值為5 和6 的情況下,節(jié)點(diǎn)鄰接關(guān)系呈現(xiàn)緊密狀態(tài),導(dǎo)致相關(guān)性不強(qiáng)的變量間的特征信息過度融合.可見,鄰接關(guān)系不會(huì)隨著λ值的增加或減少而產(chǎn)生顯著的優(yōu)化排列效果,所以λ選值對(duì)本文改進(jìn)圖卷積神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)運(yùn)動(dòng)目標(biāo)姿態(tài)不產(chǎn)生干擾,不會(huì)影響目標(biāo)跟蹤結(jié)果.
最終,基于互信息構(gòu)建圖網(wǎng)絡(luò)的鄰接關(guān)系,獲取改進(jìn)圖卷積神經(jīng)網(wǎng)絡(luò)的鄰接矩陣,用于預(yù)測(cè)運(yùn)動(dòng)目標(biāo)的姿態(tài).
為展現(xiàn)本文方法跟蹤復(fù)雜條件體育場(chǎng)景中運(yùn)動(dòng)目標(biāo)的良好效果,在光照變化、姿態(tài)變化、物體遮擋的實(shí)驗(yàn)環(huán)境下進(jìn)行目標(biāo)跟蹤測(cè)試,跟蹤結(jié)果如圖3 所示.圖中,采用白色虛線框表示真實(shí)的目標(biāo)跟蹤標(biāo)注結(jié)果,黑色實(shí)線框表示本文方法預(yù)測(cè)的目標(biāo)跟蹤標(biāo)注結(jié)果,兩者重合度較高時(shí),說明本文方法跟蹤效果良好.
圖3 復(fù)雜條件下目標(biāo)跟蹤測(cè)試結(jié)果
分析圖3(a)可知,當(dāng)運(yùn)動(dòng)目標(biāo)被物體遮擋的情況下,本文方法仍然可以較好的識(shí)別出目標(biāo)所在區(qū)域,精準(zhǔn)標(biāo)注目標(biāo),在此過程中本文方法始終穩(wěn)定跟蹤運(yùn)動(dòng)目標(biāo).這是因?yàn)楸疚姆椒ㄌ崛∵\(yùn)動(dòng)目標(biāo)姿態(tài)特征的表達(dá)能力較強(qiáng),可基于目標(biāo)的一部分特征實(shí)現(xiàn)目標(biāo)的整體性跟蹤.此外,本文方法采用自適應(yīng)動(dòng)態(tài)調(diào)整搜索區(qū)域的跟蹤策略,有效調(diào)整搜索區(qū)域,即使干擾物一定程度上遮擋目標(biāo),本文方法可動(dòng)態(tài)調(diào)整搜索區(qū)域,立即標(biāo)注出正確的目標(biāo)姿態(tài).
圖3(b)中,體育場(chǎng)景的光照發(fā)生較大變化,由較為正常的光照條件改變?yōu)檩^暗的光照條件,但是本文方法標(biāo)注結(jié)果與真實(shí)的標(biāo)注結(jié)果高度重合,說明本文方法不受光線條件的干擾,可以精準(zhǔn)實(shí)現(xiàn)目標(biāo)跟蹤.
圖3(c)中,隨著目標(biāo)姿態(tài)變化,本文方法仍然可以精準(zhǔn)跟蹤目標(biāo),尚未出現(xiàn)明顯的跟蹤誤差.這是因?yàn)楸疚姆椒勺赃m應(yīng)動(dòng)態(tài)調(diào)整搜索區(qū)域,當(dāng)目標(biāo)偏離搜索區(qū)域時(shí)自適應(yīng)調(diào)整搜索范圍,沒有因?yàn)檩^大的姿態(tài)變化而產(chǎn)生跟蹤誤差.
綜合上述實(shí)驗(yàn)結(jié)果可知,本文方法在復(fù)雜的體育場(chǎng)景下,具有良好的目標(biāo)跟蹤能力,自適應(yīng)動(dòng)態(tài)調(diào)整搜索區(qū)域的跟蹤策略發(fā)揮了較強(qiáng)的作用.
為進(jìn)一步突出本文方法跟蹤的準(zhǔn)確度優(yōu)勢(shì),在籃球比賽場(chǎng)景、體操場(chǎng)比賽場(chǎng)景、排球比賽場(chǎng)景以及乒乓球比賽場(chǎng)景中進(jìn)行目標(biāo)跟蹤測(cè)試,兩種對(duì)比方法展開同條件同步測(cè)試.將真實(shí)標(biāo)注框跟蹤結(jié)果與本文方法標(biāo)注框的跟蹤結(jié)果對(duì)比,計(jì)算得到跟蹤精準(zhǔn)度,表1為三種方法在體育場(chǎng)景中目標(biāo)跟蹤精準(zhǔn)度的統(tǒng)計(jì)結(jié)果.
表1 中的數(shù)據(jù)顯示,隨著樣本數(shù)量的增加,本文方法的目標(biāo)跟蹤精準(zhǔn)度沒有降低反而有提升的趨勢(shì),而對(duì)比方法的跟蹤精度較低且不穩(wěn)定,GCN模型直至測(cè)試結(jié)束時(shí)跟蹤精度反而降低,該方法采用傳統(tǒng)的圖卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建模式,鄰接矩陣的構(gòu)建與網(wǎng)絡(luò)存在較大的不適應(yīng)性,沒有考慮運(yùn)動(dòng)目標(biāo)特征變量間的關(guān)系,導(dǎo)致模型預(yù)測(cè)能力不足;同時(shí)對(duì)于跟蹤搜索區(qū)域的確定采用了傳統(tǒng)的倍數(shù)放大策略,與體育場(chǎng)景視角變化較大的實(shí)際情形不相適應(yīng),因此最終目標(biāo)跟蹤精準(zhǔn)度不夠理想.本文方法采用互信息設(shè)計(jì)特征變量間的鄰接關(guān)系,構(gòu)建了高性能的圖卷積神經(jīng)網(wǎng)絡(luò)模型,目標(biāo)跟蹤的能力較強(qiáng).
MI-GCN 模型精度雖然呈上升趨勢(shì),但是目標(biāo)跟蹤的總體精準(zhǔn)度與本文方法略有差距,由于MIGCN 模型缺乏有效調(diào)整搜索區(qū)域策略,令干擾物與目標(biāo)同時(shí)出現(xiàn)在搜索區(qū)域中,模型提取到的姿態(tài)特征難以將目標(biāo)與遮擋物區(qū)分開來,致使跟蹤誤差較大,突出了本文方法采用的動(dòng)態(tài)調(diào)整搜索區(qū)域策略的有效性.說明本文方法的搜索策略比固定搜索區(qū)域放大倍數(shù)的策略性能更勝一籌,不僅可以減少大尺寸目標(biāo)圖像不必要的冗余操作,而且提升了推理速度.
本文基于改進(jìn)圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)體育場(chǎng)景中的運(yùn)動(dòng)目標(biāo)進(jìn)行跟蹤.首先,對(duì)圖卷積神經(jīng)網(wǎng)絡(luò)的鄰接矩陣構(gòu)建方式進(jìn)行改進(jìn),基于互信息構(gòu)建鄰接矩陣,采用變量間互信息值確定變量連接關(guān)系以改進(jìn)圖卷積神經(jīng)網(wǎng)絡(luò)的鄰接矩陣構(gòu)建方式.即節(jié)點(diǎn)間的互信息值的大小決定節(jié)點(diǎn)間邊的構(gòu)建,以此精準(zhǔn)預(yù)測(cè)運(yùn)動(dòng)目標(biāo)姿態(tài),實(shí)現(xiàn)目標(biāo)跟蹤.其次,在運(yùn)動(dòng)目標(biāo)區(qū)域搜索方面,使用自適應(yīng)動(dòng)態(tài)調(diào)整搜索區(qū)域的目標(biāo)跟蹤策略,將相鄰兩幀運(yùn)動(dòng)距離上限值自適應(yīng)調(diào)整搜索區(qū)域的放大倍數(shù),比傳統(tǒng)固定放大倍數(shù)更容易獲取有效的目標(biāo)搜索區(qū)域.
本文方法取得了理想的目標(biāo)跟蹤效果,未來關(guān)于圖卷積神經(jīng)網(wǎng)絡(luò)在體育場(chǎng)景目標(biāo)跟蹤中的應(yīng)用研究,需著眼于網(wǎng)絡(luò)速率的提升,保障目標(biāo)準(zhǔn)確跟蹤的同時(shí)快速得到跟蹤結(jié)果.