魯遠耀,周騰鶴,閆 捷
(北方工業(yè)大學電子信息工程學院 北京 石景山區(qū) 100144)
唇語識別(lip reading)是近年來模式識別和人工智能領(lǐng)域的熱門研究問題,是聲學和圖像圖形學的交叉學科。該技術(shù)涉及嘴唇區(qū)域定位、跟蹤、特征提取、音素建模和目標識別等關(guān)鍵技術(shù)。由于圖像序列中嘴唇區(qū)域相對位置不固定,現(xiàn)有的技術(shù)方法尚不能同時在嘴唇區(qū)域的精確分割和實時性方面同時獲得滿意結(jié)果。在唇語識別系統(tǒng)中,最為基礎(chǔ)和關(guān)鍵的步驟是實現(xiàn)嘴唇區(qū)域分割,即利用精確的圖像分割技術(shù)界定變化的嘴唇輪廓,進而挖掘人在說話時的唇動(lip movement)特征,實現(xiàn)利用視覺信息實現(xiàn)話語內(nèi)容的識別。
文獻中現(xiàn)有的嘴唇區(qū)域分割算法可以大致分為3類:基于像素的方法、基于模型的方法和基于統(tǒng)計的方法?;谙袼氐姆椒ɡ米齑絽^(qū)域的灰度圖像來獲得特征向量,或?qū)D像轉(zhuǎn)換為其他顏色空間并采用PCA(principal component analysis)、LDA (linear discriminant analysis)等實現(xiàn)特征提取[1-4]。基于模型的方法借用一定的幾何模型來確定嘴唇的內(nèi)外輪廓,并借用少量參數(shù)來表征該輪廓[5-7]?;诮y(tǒng)計的方法發(fā)掘特征空間中的數(shù)據(jù)分布特征和相鄰像素之間的空間相互作用關(guān)系來進行圖像分割,為嘴唇分割提供了一種新穎方法[8],如利用空間限制的馬爾可夫隨機場圖像分割技術(shù)[9-10]。
早期嘴唇區(qū)域分割通常通過相機來直接捕獲嘴部區(qū)域或手動標定唇部區(qū)域來實現(xiàn)[11]。然而,這并不是理想的分割方法,本文研究的最終目標是要在變化的條件下(例如變化的光照,不同的膚色或非特定人的說話者等)自動地定位和追蹤嘴唇。到目前為止,已經(jīng)有許多研究者從事研究相關(guān)工作。文獻[12]通過使用紅色排除法在一系列圖像上識別嘴唇來找到嘴角,得到了較準確的結(jié)果。文獻[13-14]利用基于模糊聚類的算法在有胡須的情況下分割嘴唇區(qū)域。文獻[15]采用自上而下主動形狀模型來發(fā)現(xiàn)并跟蹤內(nèi)外唇輪廓。然而以上的分割方法在實際的分割過程中會出現(xiàn)一塊塊的、彼此不相互連通的小區(qū)域被分割出來,在顏色對比度較低的情況下,嘴唇邊緣輪廓并不十分明顯,此時分割的準確率和魯棒性有待提高。
本文提出一種新的基于局部模型校準的馬爾科夫隨機場的嘴唇分割方法,考慮了局部空間的約束,使得分割在各自局部模型中獨立進行。采用Kullback-Leiller距離來評估相鄰局部模型的一致性,提出了有助于校準其參數(shù)的模型校正標準。通過實驗與現(xiàn)有的MCM算法比較,證明該方法擁有良好的分割準確性。
馬爾科夫隨機場理論提供了一種方便且穩(wěn)健的方法來建模諸如圖像像素或相關(guān)特征的環(huán)境實體。該模型的應(yīng)用主要是基于馬爾科夫隨機場和吉布斯分布之間的等價性定理,該定理在1971年被提出并于1974年進一步發(fā)展而來。如今馬爾科夫隨機場已被廣泛用于解決各個層面的視覺問題。
目前已有許多研究人員提出了幾種估計標準來實現(xiàn)馬爾科夫隨機場模型的最佳估計。其中,最大后驗估計(maximum a posterior, MAP)是最常用的最佳分割標準,并且表現(xiàn)出較高性能。結(jié)合標記場的先驗分布和觀察隨機場的條件分布的知識可知,最大后驗估計的本質(zhì)是找到最大后驗概率的解f?,可表示為:
對于一幅擁有常規(guī)點陣的圖像,它的坐標集由S=[1,2,…,s]表示,鄰域系統(tǒng)表示為N,根據(jù)Hammersley-Clifford定理,如果作用在S上的隨機場X服從吉布斯分布,則它一定也是一個馬爾科夫隨機場。該理論將馬爾科夫隨機場與吉布斯分布(Gibbs distribution)結(jié)合在一起。先驗概率 ()P f被定義為:
式中,Z為歸一化常數(shù);U(f)是先驗?zāi)芰亢瘮?shù)(energy function),是基團勢能Vc(f)之和,可表示為:
式中,C是在S范圍內(nèi)的所有基團的集合。
對于給定的分割標簽,觀察值應(yīng)是獨立且隨機的。類似地,本文如式(2)一樣定義條件概率P(x|f):
式中,U(x|f)是反映觀察值與標簽值之間相干關(guān)系的條件能量函數(shù)。在大多數(shù)情況下,假設(shè)觀測數(shù)據(jù)的條件概率分布服從高斯分布是合理的,因此U(x|f)可以表示為:
式中,μl和σl2分別表示每個標記觀察變量的均值和方差。
系統(tǒng)能量函數(shù)定義如下:
分割結(jié)果為可使能量函數(shù)最小化的標記結(jié)果f?:
圖1 馬爾科夫隨機場模型流程圖
根據(jù)馬爾科夫隨機場理論,像素之間的相互作用通常被限制在鄰域系統(tǒng)中,并且遠離輪廓線的像素是不相關(guān)的,這可能導致錯誤的分割。從這個觀點來看,本文使用局部化的方法實現(xiàn)分割,有助于避免圖像噪聲或其他干擾因素的干擾。比如陰影下的鼻孔。因此,本文建議使用馬爾科夫隨機場模型來實現(xiàn)特定局部區(qū)域內(nèi)的分割,并且沿著初始輪廓定義該局部區(qū)域的質(zhì)心。
使用馬爾科夫隨機場模型的嘴唇輪廓分割的整個過程如圖1所示。第一步是將包含嘴的圖像即感興趣的區(qū)域變換到指定的色彩空間;然后初始化橢圓輪廓和局部半徑;再指定分割總類數(shù)以及最大迭代次數(shù)。為了使局部分割結(jié)果平滑地結(jié)合在一起,后面的兩步是為了進行模型檢驗和模型校準,此時迭代將繼續(xù),直到收斂。最后,在局部結(jié)果穩(wěn)定之后,本文結(jié)合局部馬爾科夫隨機場模型以形成全局分割結(jié)果。
為了驗證不同光照條件下的魯棒性,本文提出將嘴唇區(qū)域圖像從RGB色彩空間轉(zhuǎn)換為LUX(對數(shù)色調(diào)擴展)色彩空間。如文獻[16]證明的,LUX空間中的對數(shù)化色彩分量U能夠為唇部區(qū)域提供足夠的對比度,區(qū)分唇部和周圍皮膚之間的像素。變換方程如下:
式中,M為圖像的最大灰度值,即M=256。
完成色彩空間轉(zhuǎn)換之后,該模型需要一個圍繞嘴唇輪廓初始化的封閉曲線。根據(jù)觀察和研究,嘴唇是包含在一個橢圓框架內(nèi)的。因此,基于嘴唇的特殊結(jié)構(gòu),本文采用橢圓輪廓模型來逼近嘴唇輪廓。
橢圓輪廓的參數(shù)的中心坐標(xc, yc)、長軸和短軸對輪廓初始化至關(guān)重要。這些參數(shù)的確定直接影響分割過程的效率。本文使用對數(shù)化顏色分量U用于定位唇部區(qū)域在上、下、左、右4個方向的端點。
假設(shè)圖像像素有m行n列。每行的平均值和標準差分別為meani和stdi,每列的平均值和標準差分別為meanj和stdj,計算如下:
式中,U(i,j)表示圖像在坐標(i,j)處的觀測值。設(shè)(xc,yc)為橢圓的中心,A為橢圓的長軸值,B為短軸值,可通過如下等式計算:
式中,yU和yD分別表示標準差stdi在頂部和底部變化最顯著的位置;Lx和Rx分別表示標準差stdi在左邊和右邊變化最顯著的位置。
橢圓可以表示為:
獲得橢圓輪廓后,沿著曲線定義局部區(qū)域。在局部模型中,引入窗口函數(shù)β(x1,x2)定義馬爾科夫隨機場的局部區(qū)域范圍。由半徑參數(shù)r約束的窗口函數(shù)的表達式為:
式中,x1,x2是模型中的像素。局部馬爾科夫隨機場模型如圖2所示,局部區(qū)域即位于虛線以內(nèi)。
圖2 局部馬爾科夫隨機場模型
MRF方法是基于此局部區(qū)域進行的分割。假設(shè)局部區(qū)域坐標集合為SL,CL是SL范圍內(nèi)的所有基團的集合,則局部區(qū)域的先驗?zāi)芰亢瘮?shù)與基團勢能可分別表示為:
式中,是局部區(qū)域內(nèi)的先驗?zāi)芰亢瘮?shù);是局部區(qū)域的基團勢能表示條件能量函數(shù);μ和σ2是局部區(qū)域內(nèi)每個標記觀察變量的均值和方差;表示可以使能量函數(shù)最小化的最終分割結(jié)果,這里
為了使局部MRF模型與其鄰域的分割結(jié)果相協(xié)調(diào),本文提出了一種可實現(xiàn)模型檢驗和模型校準的算法。首先需要為局部MRF定義鄰域系統(tǒng),將此鄰域系統(tǒng)表示為NS(M),M是局部MRF模型,通過下式計算出相對應(yīng)k的平均值及方差:
式中,;t表示類數(shù);c和c'是局部模型與其鄰區(qū)的中心;d(c,c′)表示c和c'之間的歐氏距離;對應(yīng)相應(yīng)的均值和方差。
其次,KL距離Dk用來衡量第k類分割的兩個局部MRF模型之間的差異,有:
經(jīng)校準后的平均值標記為,根據(jù)下式計算:
式中,κ∈ [ 0,1]。定義兩個閾值Tk與Tr(Tk<Tr)用于模型校準,如下所示:
如果Dk≤Tk,局部模型的參數(shù)不需要調(diào)整,因此κ=0。
如果Dk>Tk,局部模型需要調(diào)整,使參數(shù)κ=1。
如果Tk<Dk<Tr,κ= (Dk-Tk)/(Tr-Tk)。
為了驗證該方法的有效性,本文使用了的公開可用的CUAVE數(shù)據(jù)庫[17],該數(shù)據(jù)庫由克萊姆森大學提供使用。人臉區(qū)域的位置可由OpenCV技術(shù)檢測。
OpenCV是一種基于開源協(xié)議BSD((Berkeley software distribution)許可發(fā)行的跨平臺計算機視覺庫。它提供了很多分類、聚類的算法,在人臉檢測的問題中主要是利用它的機器學習模塊(ml)中關(guān)于Boosting算法中的一個應(yīng)用,即Haar分類器進行人臉特征的檢測。
人臉區(qū)域的檢測和定位的具體步驟如下:
1) 選取OpenCV中“haarcsacade-frontface-alt.xml”,將檢測目標的分類信息用該文件保存,之后使用cvLoad函數(shù)將該文件加載,再對圖片格式的類型進行轉(zhuǎn)換;
2) 選取OpenCV中專門用來檢測圖像中是否包含目標的cvHaarDetectObjects函數(shù),調(diào)用該函數(shù),可將人臉區(qū)域位置由矩形標定出;
3) 選取cvHect變量,將步驟2)中標定的人臉區(qū)域返回并保存至cvHect變量中,完成人臉檢測。
包含嘴唇的區(qū)域可由人臉比例計算出來,實驗中,本文認定嘴唇區(qū)域位于的人臉區(qū)域內(nèi),其中Wface代表人臉的寬度,Hface代表人臉的高度,這兩個參數(shù)可由OpenCV技術(shù)直接檢測得到。從圖3中可看出,只要在人臉能夠準確定位的前提下,該方法在定位嘴唇方面切實可行。
圖3 嘴唇區(qū)域
在此基礎(chǔ)上,選取了同一個人說話時的4種不同口型,運用本文提出的方法進行嘴唇分割,得到的結(jié)果如圖4所示。
從圖4中可以觀察到,局部MRF模型分割結(jié)果明顯優(yōu)于傳統(tǒng)的MRF模型,特別是最后一種情況,傳統(tǒng)MRF模型幾乎不能對唇部形成有效的分割,而本文提出的模型則表現(xiàn)出了優(yōu)良性能。
圖4 分割結(jié)果
為了定量研究本文算法的分割性能,本文采用廣泛使用的重疊(overlap,OL)率和分割誤差(segmentation error, SE)率[18]來評測分割效果,OL和SE分別為:
式中,OL為測算本文算法所得嘴唇區(qū)域A1與真實的嘴唇區(qū)域A2之間的重疊率;SE為測算誤分割百分比;OLE表示唇外分割錯誤;ILE表示唇內(nèi)分割錯誤。真實的嘴唇區(qū)域則由人工手工分割所得,可認為是理想的嘴唇區(qū)域。
常規(guī)MRF分割方法應(yīng)用于嘴唇分割的效果不佳,如圖4d所示。將本文分割方法與近年提出且性能較佳的混合輪廓模型分割方法(mixed contour model,MCM)進行比較[19],得到如表1所示的結(jié)果,其中MCM算法得到的OL平均值為87.8%,SE平均值為10.9%,本文算法得到的OL平均值為91.0%,SE平均值為7.9%。可見本文提出的算法在OL和SE性能指標上均優(yōu)于MCM算法。
表1 性能比較
本文實驗均在MATLAB上進行,系統(tǒng)環(huán)境為英特爾酷睿i5-4200H 2.8Ghz,4GB RAM。
本文提出了一種基于局部MRF模型LUX顏色空間中的嘴唇分割方法。通過在一個橢圓輪廓的基礎(chǔ)之上,結(jié)合初始化窗口函數(shù)來指定MRF模型的局部范圍,實現(xiàn)嘴唇區(qū)域的分割。最后,提出了MRF模型的參數(shù)模型檢查和校準方法。實驗表明該方法可對唇部進行有效的分割。
[1]LEE K D, LEE K, LEE S Y. Extraction of frame-difference features based on PCA and ICA for lip-reading[C]//IEEE International Joint Conference on Neural Networks. [S.l.]:[s.n.], 2005.
[2]NATH R, RAHMAN F S, NATH S, et al. Lip contour extraction scheme using morphological reconstruction based segmentation[C]//International Conference on Electrical Engineering and Information and Communication Technology. [S.l.]: IEEE, 2014: 1-4.
[3]YAN Li, YE Hang, WANG Yi-kai, et al. A lip localization method based on HSV transformation in smart phone environment[C]//International Conference on Signal Processing. [S.l.]: IEEE, 2014: 1285-1290.
[4]GRITZMAN A D, RUBIN D M, PANTANOWITZ A.Comparison of colour transforms used in lip segmentation algorithms[J]. Signal, Image and Video Processing, 2015,9(4): 1-11.
[5]KASS M, WITKIN A, TERZOPOULOS D. Snakes: Active contour models[J]. International Journal of Computer Vision,1988, 1(4): 321-331.
[6]NASUHA A, SARDJONO T A, PURNOMO M H. Lip Segmentation and tracking based on Chan-Vese model[C]//International Conference on Information Technology and Electrical Engineering: "Intelligent and Green Technologies for Sustainable Development". [S.l.]:ICITEE, 2013: 155-158.
[7]SUN Chen-yang, LU Hong, ZHANG Wen-qiang, et al. Lip segmentation based on facial complexion template[C]//Advances in Multimedia Information Processing. [S.l.]:Springer International Publishing, 2014.
[8]FU Jian-wen, WANG Shi-lin, LIN Xiang. Robust lip region segmentation based on competitive FCM clustering[C]//International Conference on Digital Image Computing:Techniques and Applications. [S.l.]: IEEE, 2016.
[9]YANG F, JIANG T. Pixon-based image segmentation with Markov random fields[J]. IEEE Transactions on Image Processing, 2003, 12(12): 1552-1559.
[10]CHEUNG Y M, LI M, CAO X. Lip segmentation and tracking under MAP-MRF framework with unknown segment number[J]. Neurocomputing, 2013, 104: 155-169.
[11]榮傳振, 岳振軍, 賈永興, 等. 模糊語言模型在唇讀系統(tǒng)中的應(yīng)用[J]. 數(shù)據(jù)采集與處理, 2012, 27(s2): 277-283.RONG Chuan-zhen, YUE Zhen-jun, JIA Yong-xing, et al.Research advances in key technology of lip-reading[J].Joumal of Data Acquisition & Processing, 2012, 27(s2):277-283.
[12]LEWIS T, POWERS D. Lip feature extraction using red exclusion[C]//Selected Papers from Pan-Sydney Workshop on Visualization. [S.l.]: [s.n.], 2002.
[13]WANG S L, LAU W H, LEUNG S H, et al. Lip segmentation with the presence of beards[C]//International Conference on Acoustics, Speech, & Signal Processing.[S.l.]: IEEE, 2004.
[14]LEUNG S, WANG S, LAU W. Lip image segmentation using fuzzy clustering incorporating an elliptic shape function[J]. IEEE Transactions on Image Processing, 2004,13(1): 51-62.
[15]MATTHEWS I, COOTES T F, BANGHAM J A.Extraction of visual features for lipreading[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2002, 24(2): 198-213.
[16]LIéVIN M, LUTHON F. Nonlinear color space and spatiotemporal MRF for hierarchical segmentation of face features in video[J]. IEEE Transactions on Image Processing, 2004, 13(1): 63-71.
[17]PATTERSON E K, GURBUZ S, TUFEKCI Z, et al.CUAVE: a new audio-visual database for multimodal human-computer interface research[C]//IEEE International Conference on Acoustics, Speech & Signal Processing.[S.l.]: IEEE, 2002.
[18]LIEW W C, LEUNG S H, LAU W H. Segmentation of color lip images by spatial fuzzy clustering[J]. IEEE Transactions on Fuzzy Systems, 2003, 11(4): 542-549.
[19]STILLITTANO S, GIRONDEL V, CAPLIER A. Lip contour segmentation and tracking compliant with lip-reading application constraints[J]. Machine Vision &Applications, 2013, 24(24): 1-18.