張淑軍 彭 中 王傳旭
(青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院,青島,266061)
手語(yǔ)是一種重要的人類(lèi)肢體語(yǔ)言表達(dá)方式,包含信息量多,能夠表達(dá)與語(yǔ)音和書(shū)面語(yǔ)等同的語(yǔ)義,也是聾啞人和健聽(tīng)人之間溝通的主要方式。手語(yǔ)識(shí)別涉及到視頻采集和處理、計(jì)算機(jī)視覺(jué)、人機(jī)交互、模式識(shí)別和自然語(yǔ)言處理等多個(gè)研究領(lǐng)域,是一項(xiàng)具有高難度的挑戰(zhàn)性課題。手語(yǔ)識(shí)別技術(shù)的研究具有深遠(yuǎn)的理論意義和廣泛的應(yīng)用價(jià)值,不僅有助于提高計(jì)算機(jī)理解人類(lèi)語(yǔ)言的水平,促進(jìn)更加智能、友好的人機(jī)交互接口的發(fā)展,也能夠推動(dòng)失語(yǔ)者在社會(huì)各層面的交流、融入,促進(jìn)社會(huì)和諧發(fā)展。
對(duì)于手語(yǔ)識(shí)別的信息獲取方法主要有基于傳感器和基于計(jì)算機(jī)視覺(jué)兩種方法?;趥鞲衅鞯姆椒?,需要用戶(hù)穿戴感知設(shè)備,設(shè)備將姿態(tài)及運(yùn)動(dòng)數(shù)據(jù)傳送到系統(tǒng)中,再進(jìn)行處理,該方案對(duì)硬件的依賴(lài)性過(guò)高,使用不便?;谟?jì)算機(jī)視覺(jué)的方案則是從攝像頭獲取的視頻圖像中獲取信息,借助圖像處理技術(shù)來(lái)識(shí)別手語(yǔ),該方案使用戶(hù)擺脫了硬件設(shè)備的束縛,操作更加靈活,但計(jì)算量較大,對(duì)算法要求較高?;谝曈X(jué)的手語(yǔ)識(shí)別方法逐漸受到人們的關(guān)注。其中基于概率統(tǒng)計(jì)模型的方法將隱馬爾可夫模型(Hidden Markov model,HMM)模型引入到手勢(shì)識(shí)別領(lǐng)域,并取得了較好的識(shí)別效果,而單一的HMM模型不適合應(yīng)用于數(shù)據(jù)特征較多的情況,因而限制了手勢(shì)識(shí)別的準(zhǔn)確率。另一方面,貝葉斯網(wǎng)絡(luò)能夠根據(jù)已知的條件來(lái)估算出不確定的知識(shí),已經(jīng)在手語(yǔ)識(shí)別領(lǐng)域有了廣泛的應(yīng)用。Suk等[1]提出一種利用動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(Dynamic Bayesian network,DBN)來(lái)識(shí)別連續(xù)視頻流中的手語(yǔ)的新方法,提出的基于DBN推理的方法是在皮膚提取、建模和運(yùn)動(dòng)跟蹤的基礎(chǔ)上進(jìn)行的,在識(shí)別靜態(tài)和連續(xù)手勢(shì)上有較高的準(zhǔn)確率。Joshi等[2]利用分布式貝葉斯神經(jīng)網(wǎng)絡(luò)對(duì)手勢(shì)進(jìn)行了準(zhǔn)確定位和追蹤,識(shí)別精度較高。
近些年,基于RGB-D圖像的手勢(shì)識(shí)別技術(shù)也逐漸發(fā)展起來(lái),因?yàn)镽GB-D信息獲取簡(jiǎn)單方便、信息量豐富且自由度高等特點(diǎn)逐漸受到人們的關(guān)注。蔡軍等[3]提出了一種基于深度圖像信息利用改進(jìn)的有向無(wú)環(huán)圖支持向量機(jī)(Directed acyclic graph support vector machine,DAGSVM)方法進(jìn)行手勢(shì)識(shí)別。張毅等[4]提出了一種基于深度圖像的三維手勢(shì)軌跡識(shí)別方法,該識(shí)別方法對(duì)視角的變換具有一定的抗干擾性。上述方法都取得了一定的識(shí)別效果,但它們都使用靜態(tài)圖像信息,對(duì)于連續(xù)手語(yǔ)識(shí)別在精度和效率上都難以達(dá)到預(yù)期效果。Wang等[5]提出一種運(yùn)用矩陣低秩相似的快速手語(yǔ)識(shí)別方法,采用方向梯度直方圖(Histogram of gradient,HOG)和骨架對(duì)(Skeleton pair,SP)對(duì)手語(yǔ)進(jìn)行特征描述,計(jì)算出低秩矩陣,構(gòu)建HMM模型對(duì)手語(yǔ)特征進(jìn)行建模。該方法能取得較好的識(shí)別速度和精度,但HMM模型構(gòu)建困難。Wang等[6]又提出了一個(gè)動(dòng)態(tài)手語(yǔ)識(shí)別的稀疏觀測(cè)模型,使用RGB-D信息以及HOG特征描述手勢(shì),構(gòu)建了一個(gè)手勢(shì)關(guān)系圖來(lái)生成不同的低維空間觀測(cè)特征代替HMM模型,加快了匹配速度,同時(shí)結(jié)合3D動(dòng)作軌跡,使系統(tǒng)對(duì)多種手勢(shì)具有魯棒性。但是該模型只考慮了手與手臂的局部動(dòng)作,無(wú)法識(shí)別需要結(jié)合身體其他部分共同識(shí)別的手語(yǔ)。近年來(lái)出現(xiàn)了一些基于深度學(xué)習(xí)的手語(yǔ)識(shí)別工作的研究[7-9],能夠取得較高的準(zhǔn)確率,但是深度卷積神經(jīng)網(wǎng)絡(luò)算法需要大量數(shù)據(jù)長(zhǎng)時(shí)間的訓(xùn)練,且對(duì)硬件的依賴(lài)較高。
線性動(dòng)態(tài)系統(tǒng)(Linear dynamic system,LDS)是一種常用的時(shí)序建模模型,它對(duì)特征之間的相似性測(cè)量[10-11]使其在高維時(shí)間序列數(shù)據(jù)在動(dòng)態(tài)紋理領(lǐng)域有新的發(fā)展。但是在LDS中,轉(zhuǎn)移矩陣不是唯一的,它受到置換、旋轉(zhuǎn)和線性組合的影響,輸出矩陣也是如此。因此,LDS存在生成特征序列與原視頻不完全對(duì)應(yīng)的情況,導(dǎo)致特征描述符之間的距離計(jì)算不夠準(zhǔn)確,因而影響手語(yǔ)或行為識(shí)別精度。文獻(xiàn)[12]提出了復(fù)線性動(dòng)態(tài)系統(tǒng)(Complex linear dynamic system,CLDS)的概念,并將其與LDS,主成分分析(Principal component analysis,PCA),離散傅里葉變換(Discrete Fourier transform,DFT)及其他時(shí)間序列方法進(jìn)行了比較,論證了CLDS在聚類(lèi)時(shí)更具有旋轉(zhuǎn)不變性。
本文將CLDS建模方法引入到手語(yǔ)識(shí)別領(lǐng)域,使生成的手語(yǔ)特征序列可以與原視頻準(zhǔn)確對(duì)應(yīng),保證識(shí)別的準(zhǔn)確率和魯棒性;同時(shí),將RGB視頻和深度視頻分別提取MBH特征后再進(jìn)行融合,去除數(shù)據(jù)干擾,深入挖掘視頻數(shù)據(jù)所蘊(yùn)含的手語(yǔ)行為特征,最終獲得了優(yōu)異的識(shí)別精度。
基于計(jì)算機(jī)視覺(jué)的手語(yǔ)識(shí)別本質(zhì)上是從手語(yǔ)視頻中挖掘和提取不同手語(yǔ)動(dòng)作序列的特征,構(gòu)建較高層的特征描述符,以得到辨析度較好的分類(lèi)結(jié)果。一個(gè)手語(yǔ)動(dòng)作序列可看作一個(gè)時(shí)序系統(tǒng),通過(guò)LDS對(duì)其進(jìn)行時(shí)序建模,可獲得該序列的時(shí)序特征。LDS可以由系統(tǒng)轉(zhuǎn)移矩陣和子空間映射矩陣共同組成的參數(shù)元組M=(A,C)表示為
式中:A∈Rn×n為系統(tǒng)的轉(zhuǎn)移矩陣,n為狀態(tài)空間的維數(shù);C∈Rn×n為子空間的映射矩陣;xt∈Rn為狀態(tài)變量或稱(chēng)為潛變量;yt∈Rp為觀測(cè)的隨機(jī)變量或特征,p為觀測(cè)空間的維數(shù);vt和wt分別為系統(tǒng)噪聲和觀測(cè)噪聲。假設(shè)系統(tǒng)噪聲和觀測(cè)噪聲是均值為0的高斯過(guò)程,則可以得到vt~N(0,Q)以及wt~N(0,R)。這里的Q和R是協(xié)方差矩陣且滿(mǎn)足多元高斯分布。
在式(1)中,隱藏狀態(tài)被建模為一階高斯馬爾可夫過(guò)程,其中xt+1由先前的狀態(tài)xt確定。輸出yt取決于當(dāng)前狀態(tài)。給定視頻序列并學(xué)習(xí)其內(nèi)在動(dòng)態(tài)信息等同于識(shí)別模型參數(shù)M。這通常是典型的系統(tǒng)識(shí)別問(wèn)題,通過(guò)使用最小二乘估計(jì)來(lái)解決。
假設(shè)給定列矩陣 Y1:τ=[y1,y2,…,yτ]和 X1:τ=[ ]x1,x2,…,xτ分別表示觀察序列和狀態(tài)序列,為了得到參數(shù)元組M的準(zhǔn)確估計(jì),需要對(duì)觀察矩陣進(jìn)行奇異值分解Y1:τ=UΣVT。其中U和V是正交的,Σ是正對(duì)角線上沒(méi)有負(fù)值的實(shí)數(shù)對(duì)角矩陣?;A(chǔ)狀態(tài)序列和子空間映射矩陣的估計(jì)值為
然后通過(guò)保留超過(guò)給定閾值的奇異值來(lái)確定模型維數(shù)n的值。則A的最小二乘估計(jì)為
式中:“‖‖F(xiàn)”表示F范數(shù),“+”表示Moore-Penrose逆矩陣。給定上述A?和C?的估計(jì),可以直接從殘差中估計(jì)協(xié)方差矩陣Q?和R?。
根據(jù)式(2)可知,LDS運(yùn)用子空間映射矩陣C和其對(duì)應(yīng)的系數(shù)X1:τ來(lái)隱含的觀測(cè)序列Y1:τ。在手勢(shì)識(shí)別中,子空間矩陣C用來(lái)描述動(dòng)作分量,矩陣A從X1:τ導(dǎo)出并表示運(yùn)動(dòng)狀態(tài)。因此可以用M=(A,C)來(lái)表示運(yùn)動(dòng)序列描述符。
但是,使用M作為描述符存在問(wèn)題。LDS方法通過(guò)將動(dòng)作序列解耦成子空間姿態(tài)和潛在的運(yùn)動(dòng)狀態(tài)來(lái)跟隨時(shí)間變化,但由于轉(zhuǎn)移矩陣A與輸出的子空間映射矩陣C受到排列、旋轉(zhuǎn)和線性組合的限制,輸出矩陣中的每一行都不能唯一地表示相應(yīng)系統(tǒng)的特性。本文使用的時(shí)序模型是基于線性動(dòng)態(tài)系統(tǒng)的改進(jìn),通過(guò)將其擴(kuò)展到復(fù)數(shù)域,依據(jù)復(fù)線性高斯分布的性質(zhì)改進(jìn)的模型稱(chēng)為CLDS模型,CLDS模型可以提取時(shí)間序列的不變特征。
本文提出一種基于RGB-D視頻和CLDS的手語(yǔ)識(shí)別方法,如圖1所示。首先,輸入彩色視頻和深度視頻,分別提取相應(yīng)的運(yùn)動(dòng)邊界直方圖(Motion boundary histograms,MBH)特征。將得到的兩組特征序列進(jìn)行融合,作為CLDS建模的輸入變量。通過(guò)CLDS時(shí)序建模,用特征描述符M=(A,C)對(duì)原始視頻進(jìn)行描述。計(jì)算多個(gè)特征序列M之間的距離,生成子空間角度的距離矩陣;最后將距離矩陣送入改進(jìn)的KNN分類(lèi)器中,輸出分類(lèi)結(jié)果。
圖1 本文方法框架圖Fig.1 Framework of proposed method
MBH專(zhuān)門(mén)描述運(yùn)動(dòng)物體的邊界,實(shí)質(zhì)上就是圖像在x和y方向上光流圖像的HOG。將MBH特征用于手語(yǔ)識(shí)別,對(duì)輸入的每個(gè)彩色視頻和深度視頻計(jì)算光流圖,然后分別沿光流圖的x,y方向提取HOG特征,構(gòu)建運(yùn)動(dòng)邊界直方圖MBH,得到手語(yǔ)識(shí)別的底層特征。MBH特征非常適合于在動(dòng)態(tài)背景下通過(guò)運(yùn)動(dòng)來(lái)進(jìn)行人體檢測(cè)。
MBH專(zhuān)門(mén)描述運(yùn)動(dòng)物體的邊界,實(shí)質(zhì)上就是圖像在x和y方向上光流圖像的HOG。將MBH特征用于手語(yǔ)識(shí)別,對(duì)輸入的每個(gè)彩色視頻和深度視頻計(jì)算光流圖,然后分別沿光流圖的x,y方向提取HOG特征,構(gòu)建運(yùn)動(dòng)邊界直方圖MBH,得到手語(yǔ)識(shí)別的底層特征。MBH特征非常適合于在動(dòng)態(tài)背景下通過(guò)運(yùn)動(dòng)來(lái)進(jìn)行人體檢測(cè)。
MBH特征的計(jì)算方法如下:
(1)對(duì)于運(yùn)動(dòng)邊界描述,通過(guò)求解靜態(tài)圖像標(biāo)準(zhǔn)HOG描述符來(lái)捕獲運(yùn)動(dòng)邊緣的局部方向。
(2)將水平和垂直的光流分量Lx,Ly視為獨(dú)立的圖像,分別取其局部梯度,找到相應(yīng)的梯度幅度和方位。
(3)將這些作為加權(quán)進(jìn)行投票用于局部方向直方圖,方法與求解標(biāo)準(zhǔn)HOG一致。
MBH可以為每個(gè)光流分量建立單獨(dú)的直方圖,或者可以組合兩個(gè)通道。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)單獨(dú)方向的直方圖更具有判別力。與標(biāo)準(zhǔn)HOG一樣,在沒(méi)有任何形式平滑的情況下以盡可能最小的比例[1,0,-1]來(lái)獲取空間導(dǎo)數(shù)的效果最佳。MBH描述符如圖2所示。
圖2 MBH描述符Fig.2 MBH descriptor
圖2(a,b)是時(shí)間t和t+1的參考圖像。圖2(c,d)為計(jì)算的光流量和顯示運(yùn)動(dòng)邊界的流量大小。圖2(e,f)圖像表示圖2(a,b)所產(chǎn)生的光流場(chǎng)Lx,Ly的梯度大小。其中符號(hào)Lx,Ly表示包含光流的水平和垂直分量的圖像。圖2(g,h)反映了光流場(chǎng)Lx,Ly的所有訓(xùn)練圖像上的平均MBH描述符。MBH特征對(duì)提取人體輪廓的效果顯著,計(jì)算簡(jiǎn)單易用,很適合運(yùn)用在手語(yǔ)識(shí)別方面。
以往的LDS可能會(huì)出現(xiàn)生成數(shù)據(jù)與原始數(shù)據(jù)不對(duì)應(yīng)的情況。CLDS噪聲變量遵循復(fù)高斯分布,復(fù)高斯分布的一個(gè)重要特性是“旋轉(zhuǎn)不變性”。因此,可以用它來(lái)獲得相應(yīng)序列的不變特征,該特征對(duì)于分類(lèi)至關(guān)重要。復(fù)線性動(dòng)態(tài)系統(tǒng)模型為
式中:噪聲向量滿(mǎn)足復(fù)高斯正態(tài)分布w1~CN(0,Q0),wi~CN(0,Q0),vj~CN(0,R)。這里滿(mǎn)足的分布與LDS不同,LDS中的分布均為實(shí)數(shù)范圍,而CLDS的分布允許參數(shù)為復(fù)數(shù)值,約束為Q0,Q和R必須是Hermitian正定矩陣。圖3描述了CLDS的圖模型,它可以看作是隱藏變量z和觀測(cè)值x的連續(xù)線性高斯分布,x是實(shí)值觀測(cè)值,z是復(fù)數(shù)隱藏變量,箭頭表示線性高斯分布。
為了解決如何學(xué)習(xí)得到最好的擬合參數(shù)集θ={u0,Q0,A,Q,C,R}問(wèn)題,引入一種帶復(fù)值的最大期望算法——Complex-Fit算法用于最大似然估計(jì)。CLDS的預(yù)期負(fù)對(duì)數(shù)極大似然估計(jì)為
圖3 CLDS的圖模型Fig.3 CLDS model
式中,期望E[]是X對(duì)Z的后驗(yàn)分布的期望。
與LDS不同,這里的對(duì)象是復(fù)數(shù)值,需要在復(fù)數(shù)域中進(jìn)行非標(biāo)準(zhǔn)優(yōu)化。在負(fù)對(duì)數(shù)極大似然估計(jì)中,存在兩組未知數(shù),參數(shù)集和后驗(yàn)分布的值。Complex-Fit算法的實(shí)現(xiàn)分為M-step和E-step兩步,M-step是通過(guò)求得目標(biāo)函數(shù)L(θ)偏導(dǎo)數(shù)并令其等于零,最終得到使用隱變量z和觀測(cè)值x表示的參數(shù)集表達(dá)式,M-step中需要得到隱變量z的統(tǒng)計(jì)分布才可以充分表達(dá)參數(shù)集θ在E-step中,可以計(jì)算出邊緣后驗(yàn)分布P(zn|X)和后驗(yàn)分布P(zn,zn+1|X)均值與協(xié)方差。在E-step中運(yùn)用前后子步驟(對(duì)應(yīng)LDS中的卡爾曼濾波和平滑)來(lái)計(jì)算后驗(yàn)分布,前子步驟用來(lái)計(jì)算部分后驗(yàn)分布zn|x1…xn表達(dá)式,后子步驟可以得到最終的后驗(yàn)分布。Complex-Fit算法的總體思路就是優(yōu)化參數(shù)集設(shè)定初始參數(shù)集,計(jì)算得到后驗(yàn)分布的結(jié)果后更新初始參數(shù)集,再用當(dāng)前參數(shù)估計(jì)后驗(yàn)分布,然后循環(huán)迭代獲得最佳的優(yōu)化方案。
使用Complex-Fit(使用對(duì)角線變換矩陣)來(lái)準(zhǔn)確地估計(jì)這些參數(shù),使得CLDS中的輸出矩陣M=(A,C)作為表示運(yùn)動(dòng)序列描述符的特征,并計(jì)算這些參數(shù)之間的距離,最后使用分類(lèi)器進(jìn)行分類(lèi)。
相對(duì)LDS而言,CLDS可以較好地解決數(shù)據(jù)不對(duì)應(yīng)的問(wèn)題。主要原因有兩方面:(1)在LDS中,轉(zhuǎn)移矩陣和輸出矩陣都會(huì)受到原始輸入數(shù)據(jù)置換、旋轉(zhuǎn)和線性組合的影響,生成的特征序列與原視頻不能完全對(duì)應(yīng),而CLDS模型將轉(zhuǎn)移矩陣A用對(duì)角轉(zhuǎn)換矩陣表示,且通過(guò)復(fù)數(shù)值來(lái)準(zhǔn)確描述隱藏變量,相當(dāng)于尋找最優(yōu)解。(2)LDS模型沒(méi)有對(duì)時(shí)移問(wèn)題做出明確的解釋?zhuān)鳦LDS模型通過(guò)設(shè)定初始狀態(tài)和輸出矩陣C對(duì)時(shí)移問(wèn)題進(jìn)行編碼。
對(duì)于給定運(yùn)動(dòng)的序列,現(xiàn)已得到CLDS模型所輸出參數(shù)M=(A,C)作為其描述符,其中動(dòng)態(tài)矩陣A∈GL(n),GL(n)是所有大小為n×n逆矩陣組,以及映射矩陣C∈ ST(p,n),這里的ST(p,n)是Stiefel流型。由于模型空間具有非歐幾里德結(jié)構(gòu)并且描述符是非矢量形式,如何測(cè)量?jī)蓚€(gè)描述符之間的相似性就是一個(gè)關(guān)鍵問(wèn)題。文獻(xiàn)[13]基于其倒譜系數(shù)的比較后定義了穩(wěn)定自回歸滑動(dòng)平均模型(Autoregres?sive moving average model,ARMA)模型的度量,文獻(xiàn)[14]通過(guò)使用兩個(gè)LDS之間的子空間角度來(lái)改進(jìn)Martin的工作。因此,這里定義子空間角度為無(wú)限可觀測(cè)矩陣的列空間之間的主角度
令M1=(A1,C1),M2=(A2,C2)為兩個(gè)運(yùn)動(dòng)序列的描述符,子空間角度的計(jì)算結(jié)果通過(guò)求解Ly?apunov方程來(lái)得到
式(6)在保證M1,M2為固定值時(shí)才存在,子空間角度的余弦cos2θi作為特征矩陣Q-111Q12Q-122Q21的特征值,其中Qkl=O∞(Mk)TO∞(Ml),k,l=1,2定義子空間角度的距離為
根據(jù)式(7)即可判定兩個(gè)運(yùn)動(dòng)序列M1和M2的相似性。有了相似性計(jì)算準(zhǔn)則,再使用改進(jìn)的KNN算法即可進(jìn)行最終分類(lèi)。由于傳統(tǒng)的K最近鄰(K-nearest neighbors,KNN)算法容易受噪聲的影響,尤其是孤立的噪聲點(diǎn)對(duì)分類(lèi)會(huì)產(chǎn)生很大影響,因此,本文采用一種改進(jìn)的KNN算法[15],根據(jù)距離的遠(yuǎn)近進(jìn)行加權(quán)投票,從而去除干擾項(xiàng),得到更為穩(wěn)定可靠的分類(lèi)結(jié)果。根據(jù)式(7),采用距離平方的倒數(shù)作為加權(quán)值進(jìn)行加權(quán)投票,通過(guò)選取合適的K值,對(duì)CLDS得到的特征矩陣進(jìn)行準(zhǔn)確分類(lèi)。
使用中國(guó)科學(xué)技術(shù)大學(xué)建立的中國(guó)手語(yǔ)(Chinese sign language,CSL)數(shù)據(jù)集[16]對(duì)所提出的方法進(jìn)行實(shí)驗(yàn)驗(yàn)證。此數(shù)據(jù)集中包含500個(gè)手語(yǔ)實(shí)詞,詞匯范圍主要涉及日常用語(yǔ)和教學(xué)用語(yǔ)。每種手語(yǔ)有50人各打5次的視頻數(shù)據(jù)。每個(gè)視頻的時(shí)長(zhǎng)約為2~4 s,手語(yǔ)視頻樣本的平均幀數(shù)為80幀左右。深度視頻和彩色視頻相對(duì)應(yīng)。該數(shù)據(jù)集涉及的手語(yǔ)實(shí)詞滿(mǎn)足了日常生活的正常交流用語(yǔ)。選取彩色和深度視頻中的不同幀如圖4所示。實(shí)驗(yàn)硬件平臺(tái)和軟件環(huán)境為:操作系統(tǒng)Ubuntu 14.04,服務(wù)器處理器Intel(R)Xeon(R)CPU E5-2620 v4(主頻2.1 GHz),軟件平臺(tái) Matlab2016b。
圖4 中國(guó)手語(yǔ)數(shù)據(jù)集的部分圖像Fig.4 Some frames from CSL Data Set
首先對(duì)RGB視頻和深度視頻分別提取連續(xù)的MBH特征。分別計(jì)算x,y光流分量的梯度來(lái)編碼像素之間的相對(duì)運(yùn)動(dòng),其提取的特征可以明顯地突出運(yùn)動(dòng)的前景主體。將視頻幀大小調(diào)整為64像素×128像素,通過(guò)用8像素×8像素單元的2×2塊將方向量化為9個(gè)單元來(lái)計(jì)算MBH。為了提高性能,塊重疊(0.5)也被納入,因此,可以總共獲得7×15個(gè)塊,其中每個(gè)塊由4×9個(gè)直方圖描述。對(duì)于MBH在光流x和y方向上的分量(7×15×36),最終的直方圖大小是3 780。部分手語(yǔ)動(dòng)作幀圖像及提取的MBH圖如圖5所示。
圖5 手語(yǔ)動(dòng)作的原圖和MBH(x,y)圖Fig 5 Illustration of raw and MBH(x,y)images
將提取的MBH特征進(jìn)行特征融合,由CLDS建模得到子空間距離矩陣,將距離矩陣送入KNN分類(lèi)器得到最終的分類(lèi)結(jié)果。采用留一法在CSL數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)測(cè)試來(lái)獲得每次實(shí)驗(yàn)的準(zhǔn)確率。實(shí)驗(yàn)選取500類(lèi)手語(yǔ)實(shí)詞中的300類(lèi)進(jìn)行實(shí)驗(yàn),從第1~300類(lèi)每100類(lèi)進(jìn)行一次識(shí)別驗(yàn)證,將3次結(jié)果進(jìn)行匯總,取平均識(shí)別率作為最終的分類(lèi)準(zhǔn)確率。
選取400~499類(lèi)的分類(lèi)結(jié)果作出圖6。從圖6可以看出視頻的分類(lèi)準(zhǔn)確率達(dá)到99%以上,大部分視頻分類(lèi)準(zhǔn)確率可達(dá)到百分之百。
圖6 視頻分類(lèi)結(jié)果Fig.6 Result of videos classification
在實(shí)現(xiàn)手語(yǔ)識(shí)別等任務(wù)時(shí),通常有兩種整合空間和時(shí)間信息的策略:(1)提取同時(shí)具有時(shí)空特征的高層描述符來(lái)描述手語(yǔ)視頻,并基于這些特征構(gòu)建分類(lèi)器進(jìn)行識(shí)別;(2)只提取圖像的底層空間特征,利用隱馬爾可夫模型等時(shí)間序列對(duì)特征進(jìn)行時(shí)間軸上的建模。本文使用的CLDS有出色的時(shí)間序列構(gòu)建能力,為進(jìn)行對(duì)比分析,選取了4種當(dāng)前的代表性工作在CSL數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),分別是:時(shí)空興趣點(diǎn)(Spatio-temporal interest points,STIPs)、改進(jìn)的密集軌跡(Improved dense trajectories,iDTs)、高斯混合隱馬爾可夫模型(Gaussian mixture model-hidden Markov model,GMM-HMM)以及加入注意力機(jī)制的3D卷積神經(jīng)網(wǎng)絡(luò)(3D-convolutional neural networks,3D-CNN)。
STIPs是常用的時(shí)空特征,iDTs也是目前比較好的人工標(biāo)注特征,3D-CNN是目前提取時(shí)空特征可用的新方法。STIPs是通過(guò)檢測(cè)視頻中的3D Harris角并計(jì)算檢測(cè)點(diǎn)周?chē)腍OG和HOF特征組成?;诠饬鞲櫤偷退教荻戎狈綀D的iDTs則由軌跡,HOG,HOF和MBH特征組成。從視頻中提取出STIPs和iDTs特征后采用Dft_fisher工具箱將這些特征編碼為Fisher Vector[17],最后對(duì)編碼后的特征使用SVM進(jìn)行分類(lèi)。引入注意力機(jī)制的3D-CNN在提取特征后運(yùn)用Atten-pooling方法[7]進(jìn)行分類(lèi)。而GMM-HMM是時(shí)序模式識(shí)別中的傳統(tǒng)方法,可以較好地構(gòu)建手語(yǔ)視頻中的時(shí)序特征,并進(jìn)行分類(lèi)。將上述4類(lèi)模型與本文提出的基于彩色深度視頻和CLDS的識(shí)別方法進(jìn)行比較,得到的結(jié)果如表1所示。
表1 不同方法的平均準(zhǔn)確率Tab.1 Average accuracy of different methods
表1列出了不同模型的平均識(shí)別率,比較發(fā)現(xiàn)本文方法的識(shí)別率要比手動(dòng)的特征分類(lèi)方法準(zhǔn)確率高,比傳統(tǒng)的GMM-HMM手語(yǔ)識(shí)別模型的識(shí)別準(zhǔn)確率要高出40%以上。從第200~499類(lèi)每100類(lèi)的平均識(shí)別準(zhǔn)確率分別為0.997 24,0.994 19,0.999 40,對(duì)應(yīng)標(biāo)準(zhǔn)差為0.002 137 293,識(shí)別準(zhǔn)確率穩(wěn)定,波動(dòng)小。實(shí)驗(yàn)結(jié)果表明本文方法對(duì)手語(yǔ)特征提取的時(shí)序信息更為有效,識(shí)別精度更高。在算法效率方面,實(shí)驗(yàn)中平均每100類(lèi)視頻的識(shí)別時(shí)間為0.554 s,單個(gè)視頻的識(shí)別時(shí)間為0.053 s左右。相對(duì)深度學(xué)習(xí)方法,本文算法無(wú)需依賴(lài)高性能的GPU對(duì)整個(gè)數(shù)據(jù)集進(jìn)行前期訓(xùn)練,處理比較靈活;在數(shù)學(xué)邏輯和時(shí)序分析上更加清晰和嚴(yán)謹(jǐn),對(duì)數(shù)據(jù)的處理過(guò)程都有嚴(yán)格的數(shù)學(xué)邏輯推理。
手語(yǔ)識(shí)別是目前計(jì)算機(jī)領(lǐng)域研究的熱點(diǎn)之一,本文提出了一種基于RGB-D視頻和CLDS的手語(yǔ)識(shí)別方法,通過(guò)將彩色視頻與深度視頻相融合,使用MBH方法,得到特征描述能力更豐富、準(zhǔn)確的底層特征。利用復(fù)線性動(dòng)態(tài)系統(tǒng)對(duì)視頻序列進(jìn)行時(shí)序建模,學(xué)習(xí)其內(nèi)在的狀態(tài)并估計(jì)出最優(yōu)參數(shù),輸出參數(shù)元組M=(A,C)來(lái)唯一表示每個(gè)手語(yǔ)序列。利用線性動(dòng)態(tài)系統(tǒng)的子空間角度來(lái)計(jì)算不同線性動(dòng)態(tài)系統(tǒng)的距離。最后利用改進(jìn)的KNN分類(lèi)方法進(jìn)行分類(lèi)。經(jīng)實(shí)驗(yàn)驗(yàn)證,本文方法可以獲得非常高的準(zhǔn)確率,且具有良好的魯棒性和抗干擾能力。該方法也可用于信號(hào)壓縮等領(lǐng)域中,下一步也將考慮開(kāi)發(fā)一種非線性動(dòng)態(tài)系統(tǒng)模型并用于手語(yǔ)識(shí)別或其他行為識(shí)別中。