梁亞玲 杜明輝
(華南理工大學(xué)電子與信息學(xué)院,廣東廣州510640)
唇讀是指通過(guò)觀察說(shuō)話者的口型變化,讀出全部或者部分所說(shuō)的內(nèi)容[1],它是人工智能研究的一個(gè)新方向,被廣泛應(yīng)用于噪聲環(huán)境下以提高語(yǔ)音識(shí)別率.基于單視覺(jué)通道的語(yǔ)義識(shí)別系統(tǒng)在近幾年迅速發(fā)展起來(lái)[2-5],文中基于單視覺(jué)通道小樣本大詞匯唇讀系統(tǒng)進(jìn)行研究.唇讀系統(tǒng)中待處理的數(shù)據(jù)是表示唇部變化的圖像序列.由于語(yǔ)速的不同或者采集系統(tǒng)的幀率不同,對(duì)于同一個(gè)字或詞在不同時(shí)間或用不同器材采集到的樣本長(zhǎng)度(幀數(shù))是不同的,即每個(gè)樣本的數(shù)據(jù)維數(shù)是不同的.目前解決此類(lèi)時(shí)變信號(hào)樣本數(shù)據(jù)維數(shù)不同的方法主要有兩類(lèi):
(1)對(duì)每幀圖像分別提取特征,利用隱馬爾科夫(HMM)進(jìn)行模型的訓(xùn)練或用動(dòng)態(tài)時(shí)間規(guī)整(DTW)方法進(jìn)行動(dòng)態(tài)匹配識(shí)別.HMM是一種基于統(tǒng)計(jì)的方法,它通過(guò)對(duì)大量的樣本進(jìn)行模型參數(shù)的訓(xùn)練來(lái)獲取每類(lèi)的模型參數(shù).當(dāng)訓(xùn)練樣本數(shù)較大時(shí),模型的識(shí)別率較好;當(dāng)訓(xùn)練樣本數(shù)較小時(shí),模型的識(shí)別率較低.DTW是一種把時(shí)間規(guī)整與距離測(cè)度計(jì)算結(jié)合起來(lái)的非線性規(guī)整技術(shù).該方法通過(guò)計(jì)算給定的模板序列和測(cè)試序列在時(shí)間軸上的距離,將與測(cè)試序列在時(shí)間約束條件下距離最短的模板所對(duì)應(yīng)的類(lèi)判定為該測(cè)試樣本的識(shí)別結(jié)果.DTW是一種簡(jiǎn)單易行的方法,對(duì)于訓(xùn)練樣本的個(gè)數(shù)要求最低,每類(lèi)有一個(gè)樣本作為模板即可,它實(shí)質(zhì)上是一種模板匹配方法,其識(shí)別率與原始模板關(guān)系較大,且總體識(shí)別率相對(duì)大訓(xùn)練樣本的HMM來(lái)說(shuō)不高.這兩種方法是目前進(jìn)行唇讀的典型方法.
(2)在提取特征時(shí)或提取特征前對(duì)輸入數(shù)據(jù)進(jìn)行規(guī)整.如文獻(xiàn)[6]中采用動(dòng)態(tài)時(shí)間規(guī)整核(DTAK)方法獲取等長(zhǎng)特征,再利用支持向量機(jī)(SVM)進(jìn)行分類(lèi).SVM是一種能有效解決小樣本識(shí)別問(wèn)題的方法,一般用于較少類(lèi)別的分類(lèi)問(wèn)題,因?yàn)槠浞诸?lèi)器的個(gè)數(shù)與類(lèi)別數(shù)n的關(guān)系為n(n-1)/2.若類(lèi)別數(shù)較多,則識(shí)別時(shí)間較長(zhǎng).在提取特征前對(duì)非等長(zhǎng)數(shù)據(jù)進(jìn)行規(guī)整的另外一種方法是目前廣泛應(yīng)用于步態(tài)序列圖像識(shí)別的能量圖法,該方法通過(guò)將二值序列圖像投影到步態(tài)能量圖(GEI)[7]或?qū)⒉綉B(tài)序列的輪廓線投影到時(shí)空能量圖[8]上完成數(shù)據(jù)維數(shù)的統(tǒng)一,間接完成數(shù)據(jù)降維.能量圖法具有思路簡(jiǎn)單、特征維數(shù)小、識(shí)別速度快、識(shí)別率高等特點(diǎn),受此啟發(fā),文中提出了基于唇部灰度能量圖(LGEI)的唇讀方法.
步態(tài)能量圖像G(x,y)定義為[7]
式中,Bt(x,y)為步態(tài)側(cè)面二值圖像在像素點(diǎn)(x,y)處的值,N為一個(gè)完整的步態(tài)周期的總幀數(shù).與步態(tài)能量圖類(lèi)似的還有用來(lái)判別動(dòng)作類(lèi)型的運(yùn)動(dòng)能量圖(MEI)、運(yùn)動(dòng)歷史圖像(MHI)等,它們都是將二值化的序列圖像投影到二維的能量圖上,完成數(shù)據(jù)維數(shù)的統(tǒng)一,然后對(duì)能量圖進(jìn)行特征提取,最后將測(cè)試樣本的特征與模板的特征進(jìn)行匹配,從而得到識(shí)別結(jié)果.能量圖法已廣泛應(yīng)用于步態(tài)識(shí)別和動(dòng)作識(shí)別中.
步態(tài)能量圖處理的是二值化的步態(tài)序列圖像.唇部圖像的二值化受人種、光照、個(gè)體等的影響較大,一般來(lái)說(shuō)很難提取到較為理想的輪廓圖像,且早期關(guān)于唇讀的研究結(jié)果表明,基于輪廓的唇部特征提取方法的識(shí)別率低于基于像素的唇部特征提取方法[9].基于像素的唇部特征提取方法就是對(duì)唇部灰度圖像直接提取特征,而不是對(duì)分割后的二值圖像提取特征.該方法的識(shí)別率高于基于輪廓的唇部特征提取方法,主要有兩方面的原因:(1)基于輪廓的方法很難提取到精確的唇部輪廓信息;(2)唇部圖像中牙齒、舌頭等包含了一定的信息量,二值化后的唇部輪廓圖像會(huì)丟失該部分相關(guān)信息.基于以上原因,文中提出了唇部灰度能量圖的定義.(x,y)處的唇部灰度能量圖定義為
式中,I(x,y,i)為第i幀圖像中像素點(diǎn)(x,y)的灰度值,N為一個(gè)完整的樣本中圖像的幀數(shù).圖1給出了唇部序列圖像及其灰度能量圖的示意圖.唇部能量圖將非等長(zhǎng)的唇部序列圖像投影到相同大小的唇部灰度能量圖上,同時(shí)間接地完成了數(shù)據(jù)的降維.
基于唇部灰度能量圖法實(shí)質(zhì)上仍然是模板匹配法,模板匹配方法的識(shí)別率受模板的影響具有一定的隨機(jī)性且識(shí)別率一般不高.當(dāng)有多個(gè)訓(xùn)練樣本時(shí),單樣本模板匹配的方法不能充分利用其它訓(xùn)練樣本的優(yōu)點(diǎn).基于此,文中將單訓(xùn)練樣本推廣到多訓(xùn)練樣本.定義多訓(xùn)練樣本唇部灰度能量圖為
圖1 唇部序列圖像及其灰度能量圖Fig.1 Lip image sequence and its LGEI
式中:M為訓(xùn)練樣本數(shù);Nj為第j個(gè)訓(xùn)練樣本序列中的幀數(shù);Ij(x,y,ij)表示第j個(gè)樣本中第ij幀唇部圖像中像素點(diǎn)(x,y)的灰度值;αj為第j個(gè)訓(xùn)練樣本的系數(shù),滿足α1+α2+…+αM=1且0≤αj≤1,αj用來(lái)反映各訓(xùn)練樣本對(duì)模板的貢獻(xiàn)值,與訓(xùn)練樣本的質(zhì)量有關(guān).對(duì)于圖像清晰、幀率較高的樣本,可給予較大的系數(shù);對(duì)于質(zhì)量較差的樣本則可給予較小的系數(shù).唇部灰度能量圖實(shí)質(zhì)上是唇部序列圖像的平均,由于視頻序列的采樣頻率一般較低,采用多訓(xùn)練樣本生成模板圖就相當(dāng)于提高了視頻序列的采樣頻率,這樣生成的模板更接近其真實(shí)值,從而能提高系統(tǒng)的識(shí)別率.
唇部灰度能量圖擴(kuò)展到多訓(xùn)練樣本,實(shí)際上是指在生成唇部灰度能量圖時(shí)用多個(gè)樣本的能量圖進(jìn)行加權(quán)平均得到唇部灰度能量圖模板.
假設(shè)原樣本第i幀圖像中像素點(diǎn)(x,y)的噪聲為n(x,y,i),噪聲與信號(hào)間相互獨(dú)立且分別獨(dú)立同分布,則受噪聲影響的圖像信號(hào)為
LGEI的均值和方差分別為
式中,I(x,y)和n(x,y)分別為像素點(diǎn)(x,y)的灰度值和噪聲,ˉI(x,y)和ˉn(x,y)分別為點(diǎn)(x,y)的平均灰度值和平均噪聲.
從式(5)、(6)可以看出,受噪聲影響后唇部灰度能量圖的均值與單幅圖像相同,方差為單幅圖像的1/N.與傳統(tǒng)的對(duì)單幀圖像分別提取特征的方法相比,采用DTW進(jìn)行識(shí)別或采用HMM進(jìn)行訓(xùn)練時(shí),在識(shí)別過(guò)程中會(huì)造成噪聲的疊加,導(dǎo)致噪聲的干擾遠(yuǎn)大于單幅圖像噪聲的影響.可見(jiàn),采用唇部灰度能量圖的方法能夠平滑噪聲,避免了對(duì)單幀圖像分別提取特征導(dǎo)致的噪聲疊加效應(yīng),提高了系統(tǒng)的抗噪性.
用唇部灰度能量圖進(jìn)行唇讀識(shí)別的步驟如下:
1)將視頻序列分割為表示具體字或詞的圖像序列;
2)采用文獻(xiàn)[10]中的方法對(duì)圖像序列中的每幅圖像進(jìn)行唇部檢測(cè)和定位,得到大小為48×64的唇部感興趣區(qū)域圖像;
3)運(yùn)用式(2)生成每個(gè)序列的唇部灰度能量圖;
4)對(duì)唇部灰度能量圖進(jìn)行二維DCT變換,用zigzag方法對(duì)DCT系數(shù)進(jìn)行掃描,選取前面部分重要系數(shù)用主成分分析(PCA)進(jìn)行降維得到特征向量;
5)將每類(lèi)中第一個(gè)樣本的特征作為模板,計(jì)算測(cè)試樣本與模板樣本特征的歐式距離,與樣本距離最短的模板所屬的類(lèi)即判定為樣本所屬的類(lèi).
文中實(shí)驗(yàn)采用HIT BiCAV數(shù)據(jù)庫(kù),數(shù)據(jù)采集速率為25 f/s,分辨率為256×256,由200個(gè)句子組成,約合1000個(gè)字,每個(gè)句子錄制3遍.在漢語(yǔ)中,相同的音標(biāo)會(huì)有不同的音調(diào),通過(guò)唇部口形不能區(qū)分不同音調(diào),因此文中將相同音標(biāo)、不同音調(diào)的視為同一個(gè)類(lèi).從該庫(kù)中選取96個(gè)具有不同音標(biāo)的字共288個(gè)樣本進(jìn)行實(shí)驗(yàn).
圖2 唇部垂直精確定位前后的圖像及其投影Fig.2 Images of lips before and after an vertical accurate location and their projections
文中采用的數(shù)據(jù)庫(kù)已完成字與字的序列分割,因此可直接進(jìn)行唇部的檢測(cè)與定位.由于唇部灰度能量圖是將唇部對(duì)應(yīng)位置的灰度值進(jìn)行直接相加的處理,要求唇部圖像精確定位.文獻(xiàn)[10]中通過(guò)檢測(cè)雙眼的位置,然后根據(jù)眼睛與嘴巴的相對(duì)位置分割出唇部圖像.該方法很好地運(yùn)用了基于人的不變特征來(lái)確定唇部的左右位置,且通過(guò)雙眼之間連線將唇部調(diào)整至水平,但對(duì)唇部上下位置的定位效果較差.文中通過(guò)對(duì)由文獻(xiàn)[10]中方法生成的感興趣區(qū)域圖像進(jìn)行研究,發(fā)現(xiàn)嘴角連線處的灰度統(tǒng)計(jì)值最小,如圖2(b)中亮度投影統(tǒng)計(jì)圖所示.根據(jù)唇部的這個(gè)特性,文中在文獻(xiàn)[10]的基礎(chǔ)上,通過(guò)唇部灰度圖像在水平方向的投影來(lái)確定嘴角的位置,將嘴角調(diào)整至統(tǒng)一高度.整個(gè)數(shù)據(jù)的預(yù)處理過(guò)程為:(1)通過(guò)OpenCV檢測(cè)人臉及瞳孔位置;(2)根據(jù)瞳孔之間連線的角度將唇部調(diào)整至水平,并將瞳孔之間距離縮放至統(tǒng)一大小,根據(jù)瞳孔位置確定出唇部的左右邊界,并根據(jù)人臉與唇部的幾何關(guān)系粗步確定唇部上下邊界;(3)對(duì)粗定位唇部圖像進(jìn)行水平方向投影確定嘴角位置,并將嘴角調(diào)整至統(tǒng)一高度,得到精確定位的唇部感興趣區(qū)域圖像.數(shù)據(jù)預(yù)處理的實(shí)現(xiàn)過(guò)程如圖3所示.唇部垂直定位前后的圖像及其投影如圖2所示.
圖3 數(shù)據(jù)預(yù)處理過(guò)程Fig.3 Data preprocessing
考慮到唇部在張開(kāi)時(shí)下唇高度大于上唇高度,因此將嘴角連線的位置定位在整個(gè)唇部感興趣區(qū)域約2/5的位置.文中提取的唇部圖像大小為48×64,將唇部嘴角的連線位置定在20,可保證唇部張開(kāi)時(shí),下唇不會(huì)被分割在唇部區(qū)域之外.
實(shí)驗(yàn)1-5選取前100個(gè)DCT系數(shù)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)6對(duì)DCT系數(shù)的個(gè)數(shù)選取進(jìn)行討論.
實(shí)驗(yàn)1采用文中提出的唇讀識(shí)別方法進(jìn)行實(shí)驗(yàn).對(duì)比方法是傳統(tǒng)的對(duì)單幀圖像分別提取特征的方法(對(duì)樣本序列中單幅圖像采用DCT和PCA提取特征,然后用DTW進(jìn)行識(shí)別).文中沒(méi)有采用HMM作為識(shí)別方法是因?yàn)镠MM是一種基于統(tǒng)計(jì)的建模方法,當(dāng)每類(lèi)訓(xùn)練樣本數(shù)量足夠大時(shí)能得到較好的模型,否則會(huì)影響識(shí)別率.實(shí)驗(yàn)結(jié)果如圖4所示.
圖4(a)中特征維數(shù)表示單幀圖像提取的特征維數(shù).文中方法先將序列圖像投影,然后對(duì)唇部灰度能量圖進(jìn)行特征提取,因此能量圖的特征維數(shù)是單幀圖像時(shí)的1/7.8(文中采用的數(shù)據(jù)庫(kù)中每個(gè)樣本的平均長(zhǎng)度為7.8幀).從圖4(a)中可以看出,若對(duì)單幀圖像提取相同維數(shù)的特征,文中方法的識(shí)別率遠(yuǎn)高于傳統(tǒng)方法.如對(duì)單幀圖像提取特征維數(shù)為1時(shí),傳統(tǒng)方法的識(shí)別率為35.42%,而文中方法的識(shí)別率為63.54%.在單幀圖像提取特征維數(shù)大于10的情況下,文中方法的識(shí)別率比傳統(tǒng)方法提高了4%.這是因?yàn)槲闹蟹椒ㄗ畲笙薅鹊乇A袅藞D像序列的特征,且反應(yīng)了其動(dòng)態(tài)特征.而傳統(tǒng)方法對(duì)單幀圖像分別提取特征,不同幀特征之間的相似性很大,存在較大冗余.因此在特征維數(shù)相同情況下,文中方法的識(shí)別率更高.
圖4 文中方法和傳統(tǒng)方法的識(shí)別率對(duì)比Fig.4 Comparison of recognition rates between proposed and traditionalmethods
如果不考慮特征維數(shù)的對(duì)應(yīng)關(guān)系,即對(duì)傳統(tǒng)的單幀圖像提取的特征維數(shù)與對(duì)唇部灰度能量圖提取的特征維數(shù)相同,則兩種方法的實(shí)驗(yàn)結(jié)果如圖4(b)所示.從圖4(b)中可以看出,當(dāng)特征維數(shù)大于30時(shí),文中方法的識(shí)別率高于傳統(tǒng)方法.這說(shuō)明在總特征維數(shù)為傳統(tǒng)方法的1/7.8的情況下,整個(gè)序列總特征維數(shù)大于30后,文中方法能夠獲得優(yōu)于傳統(tǒng)方法的識(shí)別率.這是因?yàn)閷?duì)單幀圖像分別提取特征,然后用DTW進(jìn)行匹配的方法會(huì)造成序列圖像總誤差的疊加效應(yīng),因此傳統(tǒng)方法的識(shí)別率低于文中方法.
實(shí)驗(yàn)2采用單訓(xùn)練樣本法與雙訓(xùn)練樣本法進(jìn)行實(shí)驗(yàn).雙訓(xùn)練樣本法指用每類(lèi)的前兩個(gè)樣本作為訓(xùn)練樣本生成唇部灰度能量圖,采用DCT和PCA對(duì)唇部灰度能量圖提取特征,并將該特征作為模板,用第3個(gè)樣本唇部灰度能量圖的特征做測(cè)試.單訓(xùn)練樣本法指用第1個(gè)樣本唇部灰度能量圖的特征作為模板,另外兩個(gè)樣本唇部灰度能量圖的特征作為測(cè)試,單訓(xùn)練樣本法的識(shí)別率是指兩次測(cè)試識(shí)別率的平均值.由于文中采用的實(shí)驗(yàn)樣本是在相同的環(huán)境下采集得到的,因此樣本的質(zhì)量大致相同,雙訓(xùn)練樣本的權(quán)重系數(shù)可均勻分配,每個(gè)訓(xùn)練樣本的αj設(shè)為0.5.兩種方法的實(shí)驗(yàn)結(jié)果如圖5所示,圖中的特征維數(shù)是對(duì)能量圖提取的特征維數(shù).
圖5 單訓(xùn)練樣本法和雙訓(xùn)練樣本法的識(shí)別率對(duì)比Fig.5 Comparison of recognition rates between single-training sample and double-training samplemethods
從圖5中可以看出,雙訓(xùn)練樣本法的識(shí)別率遠(yuǎn)遠(yuǎn)高于單訓(xùn)練樣本法,平均識(shí)別率提高了11.29%.這是因?yàn)椴捎秒p訓(xùn)練樣本生成模板能量圖時(shí),可彌補(bǔ)視頻序列數(shù)據(jù)采樣率低的問(wèn)題.如采用雙訓(xùn)練樣本進(jìn)行訓(xùn)練獲取模板特征相當(dāng)于將模板的采樣率提高了2倍,這樣生成的能量模板就更能體現(xiàn)信號(hào)本身的特性.因此隨著訓(xùn)練樣本的增加,識(shí)別率會(huì)有所增加.
實(shí)驗(yàn)3采用雙訓(xùn)練樣本生成唇部灰度能量圖模板的方法,在唇部進(jìn)行精確定位前后的數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn),考察唇部精確定位前后的識(shí)別率,結(jié)果如圖6所示.
從圖6中可以看出,唇部精確定位后,識(shí)別率相比定位前有了很大的提高.尤其是當(dāng)特征維數(shù)較小時(shí),其識(shí)別率提高幅度較大,達(dá)10%以上.當(dāng)特征維數(shù)較大時(shí)識(shí)別率仍然有比較明顯的提高,達(dá)2%以上,系統(tǒng)的最高識(shí)別率達(dá)90.63%.
圖6 唇部精確定位前后識(shí)別率對(duì)比Fig.6 Comparison of recognition rates before and after an accurate lip location
實(shí)驗(yàn)4由于不同文獻(xiàn)采用的特征提取方法及識(shí)別方法不同,對(duì)數(shù)據(jù)庫(kù)的要求也不同,因此無(wú)法得到直接的仿真結(jié)果來(lái)進(jìn)行對(duì)比.故直接將文中方法的實(shí)驗(yàn)結(jié)果與文獻(xiàn)[6,11]中的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,如表1所示.
表1 不同方法的識(shí)別率對(duì)比Table 1 Comparison of recognition rates obtained by different methods
從表1中可以看出:相比文獻(xiàn)[11]中方法對(duì)英文句子的識(shí)別率,文中方法的識(shí)別率有明顯優(yōu)勢(shì);相比文獻(xiàn)[6]中方法對(duì)10個(gè)中文字的識(shí)別,雖然文中方法的識(shí)別率與該方法的最高識(shí)別率相差不多,但文中方法的類(lèi)別數(shù)大很多,且訓(xùn)練樣本數(shù)遠(yuǎn)遠(yuǎn)小于文獻(xiàn)[6]中方法.因此,對(duì)于特定人、大詞匯、小樣本的單視覺(jué)唇讀系統(tǒng)來(lái)說(shuō),文中方法是一種簡(jiǎn)單實(shí)用且識(shí)別率高的方法.
實(shí)驗(yàn)5文中唇部識(shí)別方法將序列圖像轉(zhuǎn)化為能量圖,相對(duì)于DTW方法來(lái)說(shuō),在識(shí)別階段不需要進(jìn)行相應(yīng)的最佳匹配路徑的搜索,直接對(duì)其能量圖提取的特征進(jìn)行距離的求取即可,因此在識(shí)別時(shí)間上有了較大的縮減.在不同特征維數(shù)下文中唇部識(shí)別方法與DTW方法在識(shí)別96個(gè)字所需的時(shí)間對(duì)比如圖7所示.
圖7 文中方法與DTW方法的識(shí)別時(shí)間對(duì)比Fig.7 Comparison of recognition time used in proposed method and DTW method
從圖7中可以看出,文中方法的識(shí)別時(shí)間比DTW方法短得多.這是因?yàn)樽R(shí)別時(shí)間主要包括計(jì)算距離測(cè)度所需時(shí)間及統(tǒng)計(jì)識(shí)別率所需時(shí)間,而計(jì)算距離測(cè)度所需時(shí)間占主要部分.文中方法求取樣本間距離時(shí)只需要進(jìn)行一次向量間距離的運(yùn)算,而DTW方法需要對(duì)樣本中的每幅圖像進(jìn)行距離測(cè)度才能得到兩個(gè)樣本累計(jì)距離的最小值,該過(guò)程需要多個(gè)距離的計(jì)算和比較才能完成.若單獨(dú)考慮求取距離的時(shí)間,則文中方法計(jì)算距離測(cè)度部分所需時(shí)間將小于DTW方法所需時(shí)間的1/7.8.由于識(shí)別時(shí)間不只是計(jì)算距離測(cè)度所需時(shí)間,因此實(shí)驗(yàn)統(tǒng)計(jì)出的實(shí)際識(shí)別時(shí)間之比與該比例有一定偏差.從圖7中可以看出:文中方法所需識(shí)別時(shí)間大約為DTW方法的1/4;隨著特征維數(shù)的增加,識(shí)別時(shí)間有所增加,但增幅并不明顯.
實(shí)驗(yàn)6文獻(xiàn)[2-3]中采用了DCT和PCA的特征提取方法,降維后在特征維數(shù)為60~80時(shí)取得了較好的識(shí)別率,因此選取的DCT系數(shù)個(gè)數(shù)應(yīng)該大于80.據(jù)此,文中采用精確定位后的數(shù)據(jù)和DCT系數(shù)個(gè)數(shù)分別為100、200時(shí)進(jìn)行實(shí)驗(yàn),考察DCT系數(shù)個(gè)數(shù)對(duì)識(shí)別率的影響.實(shí)驗(yàn)結(jié)果如表2所示.
從表2中可以看出,DCT系數(shù)個(gè)數(shù)為200時(shí)的識(shí)別率較DCT系數(shù)個(gè)數(shù)為100時(shí)無(wú)明顯提高,而且在單訓(xùn)練樣本下還有所降低.這主要是因?yàn)樽R(shí)別率與特征維數(shù)不是呈線性的關(guān)系,在一定范圍內(nèi)識(shí)別率隨特征維數(shù)的增加而增加,當(dāng)特征維數(shù)增加到一定程度后,識(shí)別率會(huì)有所下降.若選取的DCT系數(shù)越多,則PCA降維時(shí)將需要更多的運(yùn)算時(shí)間,同時(shí)也增加了選取主成分的干擾.基于以上考慮,文中選取DCT系數(shù)個(gè)數(shù)為100.
表2 DCT系數(shù)個(gè)數(shù)對(duì)識(shí)別率的影響Table 2 Effects of number of DCT coefficients on recognition rate
文中提出了唇部灰度能量圖以及多訓(xùn)練樣本唇部灰度能量圖的概念,并將其用于唇讀中,然后根據(jù)數(shù)據(jù)預(yù)處理的需要提出唇部中心點(diǎn)精確定位方法.實(shí)驗(yàn)結(jié)果表明:與傳統(tǒng)的對(duì)單幀圖像提取特征的方法相比,文中基于唇部灰度能量圖的方法大大地減少了特征維數(shù),提高了識(shí)別速度和識(shí)別率;相比DTW方法,基于唇部灰度能量圖的方法可方便地?cái)U(kuò)展到多訓(xùn)練樣本,能夠充分利用多訓(xùn)練樣本的信息,進(jìn)一步提高識(shí)別率.唇部灰度能量圖的提出,使得人臉識(shí)別的方法可直接用于唇讀識(shí)別,但該方法要求唇部精確定位,且文中只對(duì)基于人的系統(tǒng)進(jìn)行了研究,因此后續(xù)的研究可著力于提高唇部定位的準(zhǔn)確性,以及將唇部灰度能量圖的思想與其它分類(lèi)器結(jié)合起來(lái)以實(shí)現(xiàn)不基于人的唇讀識(shí)別系統(tǒng).
[1]姚鴻勛,高文,王瑞,等.視覺(jué)語(yǔ)言——唇讀綜述[J].電子學(xué)報(bào),2001,29(2):239-246.Yao Hong-xun,Gao Wen,Wang Rui,et al.A survey of lipreading:one of visual languages[J].Acta Electronic Sinica,2001,29(2):239-246.
[2]Hong Xiaopeng,Yao Hongxun,Wan Yuqi,et al.A PCA based visual DCT feature extractionmethod for lip-reading[C]∥Proceedings of International Conference on Intelligent Information Hiding and Multimedia Signal Processing.Pasadena:IEEE,2006:321-326.
[3]萬(wàn)玉奇,姚鴻勛,洪曉鵬.唇讀中基于像素的特征提取方法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(20):197-199.Wan Yu-qi,Yao Hong-xun,Hong Xiao-peng.Research of pixel based feature extraction in lip-reading[J].Computer Engineering and Applications,2007,43(20):197-199.
[4]何俊,張華,劉繼忠.在DCT域進(jìn)行LDA的唇讀特征提取方法[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(32):150-152.He Jun,Zhang Hua,Liu Ji-zhong.LDA based feature extraction method in DCT domain in lipreading[J].Computer Engineering and Applications,2009,45(32):150-152.
[5]He Jun,Zhang Hua.Research on visual speech feature extraction[C]∥Proceedings of International Conference on Computer Engineering and Technology.Singapore:IEEE,2009:499-502.
[6]He Jun,Zhang Hua.Lipreading recognition based on SVM and DTAK[C]∥Proceedings of the 4th International Conference on Bioinformatics and Biomedical Engineering.Chengdu:IEEE,2010:1-4.
[7]Han Ju,Bhanu Bir.Individual recognition using gaitenergy image[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(2):316-322.
[8]韋素媛,馬天駿,寧超,等.用時(shí)空能量圖和小波變換方法表征和識(shí)別步態(tài)[J].電子科技大學(xué)學(xué)報(bào),2009,38(3):431-434.Wei Su-yuan,Ma Tian-jun,Ning Chao,etal.Gait representation and recognition using spatio-temporal energy image and wavelet transformation[J].Journal of University of Electronic Science and Technology of China,2009,38(3):431-434.
[9]Potamianos Gerasimos,Neti Chalapathy,Gravier Guillaume,et al.Recent advances in the automatic recognition of audiovisual speech[J].Proceeding of the IEEE,2003,91(9):1306-1326.
[10]YaoWenjuan,Liang Yaling,Du Minghui.A real-time lip localization and tacking for lip reading[C]∥Proceedings of the 3rd International Conference on Advanced Computer Theory and Engineering.Chengdu:IEEE,2010:363-366.
[11]Zhao Guoying,Barnard Mark,Pietik?inen Matti.Lipreading with local spatiotemporal descriptors[J].IEEE Transactions on Multimedia,2009,11(7):1254-1265.