朱錚宇 邱華愉 楊春玲 王泳?
(1.華南理工大學(xué) 電子與信息學(xué)院,廣東 廣州 510640;2.廣東技術(shù)師范大學(xué) 電子與信息學(xué)院,廣東 廣州 510665)
語音唇動一致性判決是通過發(fā)音過程中唇部運動與音頻變化之間的聯(lián)系來判斷音視頻是否同時錄制、是否出自同一人、是否為同一句話。這是多模態(tài)信號處理領(lǐng)域的研究熱點,在多說話人視頻中的當前說話人定位[1]、身份認證中的活體檢測[2]、人眼注意機制中的顯著性區(qū)域檢測[3]等方面有著廣泛的應(yīng)用。
當前,音唇一致性判決的方法主要有4類:互信息法(Mutual Information,MI)[4]、多元統(tǒng)計分析法(Multivariate Statistical Analysis,MSA)[5- 6]、相關(guān)系數(shù)法[7- 8]、雙模態(tài)稀疏表示法[9- 10]。其中,前兩類方法通過對句中的音視頻對應(yīng)幀特征建立不同的統(tǒng)計模型來分析音唇間的關(guān)聯(lián)度,并以此判斷兩者的一致性;而相關(guān)系數(shù)法是分析句中各幀音視頻特征各維間的相關(guān)系數(shù),并以此為新特征結(jié)合分類模型等方式進行一致性判決。由于語言由音節(jié)組成,各音節(jié)的音頻及口型序列會在不同語句中反復(fù)出現(xiàn),稀疏表示類方法將移不變稀疏表示中原子的概念引入到表征發(fā)相同音時音唇變化存在的共性及對應(yīng)關(guān)系中,通過聯(lián)合字典學(xué)習(xí)無監(jiān)督地訓(xùn)練出時空移不變的雙模態(tài)字典,作為表征不同音節(jié)音唇同步變化關(guān)系的模板進行一致性判決。但現(xiàn)有判決方法主要對整句(段)話進行分析,并無對分析內(nèi)容加以篩選或限制。如稀疏類方法對字典學(xué)習(xí)內(nèi)容缺乏限制,使得原子表征范圍過大且數(shù)量龐大,并出現(xiàn)無意義原子(如噪聲、靜音),導(dǎo)致字典學(xué)習(xí)及一致性分析過程繁瑣。實際上,句子各部分的重要性有所不同,由統(tǒng)計類算法求音唇相關(guān)度,會發(fā)現(xiàn)靜音、噪音及部分輔音等嘴型變化不明顯的片段,由于音頻幅度和唇寬高的正比關(guān)聯(lián)性[11],其音唇關(guān)聯(lián)度并不顯著,為弱相關(guān)片段,這類似于噪聲成分會給一致性分析帶來一定影響。漢語由聲母、韻母加聲調(diào)構(gòu)成。其中,韻母發(fā)音時長最長,音頻能量高于聲母,即使搭配不同聲母,韻母的唇動規(guī)律也非常穩(wěn)定[12],是句中具有代表性的成分。但漢語39個韻母的音唇相關(guān)度是否也具有一定差異性,它們之中是否存在更有代表性的發(fā)音單元,卻少有文獻報道。同時,現(xiàn)有一致性評分機制往往忽略了兩者在自然時延上的差異,而時延在一致性分析中的重要性逐漸受到關(guān)注[13]。
因此,本研究以漢語韻母為研究重心,尋求以更具代表性的特定韻母單元為分析對象,代替整句分析實現(xiàn)一致性判決,提出基于特定韻母發(fā)音事件分析的音唇一致性判決方法。先根據(jù)多幀口型序列特征對韻母進行聚類,再對各類韻母的音唇相關(guān)度進行分析,選出更具代表性的韻母發(fā)音單元。在一致性判決時,先分割并識別出選定的韻母單元,求出這些韻母事件的音唇相關(guān)度,并對各韻母出現(xiàn)位置的時延分布進行評分,提出特定韻母發(fā)音事件音唇相關(guān)度得分與位置時延分析評分相融合的一致性評分機制,由融合后的最終得分判斷一致性。
不同韻母雖在發(fā)音機理和聽覺上會有所差異,但部分韻母發(fā)音時口型的變化過程相似,因此分析音唇關(guān)聯(lián)度前先根據(jù)口型對韻母進行歸類。現(xiàn)有的發(fā)音口型聚類多數(shù)是以唇形關(guān)鍵幀的靜態(tài)視位為特征,但口型變化是連貫的動態(tài)過程,單幀靜態(tài)視位所能提供的信息量有限,為此引入動態(tài)視位的概念,利用多幀特征組合而成的超向量,通過凝聚法的層次聚類方式[14]對口型序列進行聚類分析。聚類過程中利用類間距離最小的原則將各類兩兩合并,而類間距離以歐氏距離衡量。設(shè)某一唇部特征的樣本矩陣G∈RM×F包含F(xiàn)個待分類動態(tài)口型序列樣本,每個樣本gn(n=1,2,…,F(xiàn))為M維的唇部特征超向量,唇形層次聚類的步驟如下。
(1)將待分類樣本集G的每行視為一類,則共有F類,計算F類中兩兩之間的歐式距離并組成距離矩陣O,矩陣各元素為
(1)
(3)重新計算新類與各舊類之間的歐氏距離,即通過式(1)更新矩陣O中對應(yīng)位置的元素,將矩陣O中之前與k和j相關(guān)的行列刪除,加入與新類相關(guān)的行和列。
(4)重復(fù)步驟(1)-(3)直到所有對象合并為一類停止。
逐次合并項的索引可得描述聚類過程的聚類樹,最終分類數(shù)量可根據(jù)樹結(jié)構(gòu)從枝葉節(jié)點向根節(jié)點方向回溯,并由XiE-Beni指標確定最有效的聚類結(jié)果[15]。唇型數(shù)據(jù)取自公開數(shù)據(jù)庫——漢語聽覺視覺雙模態(tài)語料庫,提取各人(共20人)各韻母發(fā)音序列的單幀口型特征參數(shù)。唇型特征的選取如圖1所示,Ld(d=1,2,…,8)為各對應(yīng)點間的連線距離,加上唇面積可得9維的唇部幾何特征。對選取的韻母視頻序列進行尺寸和時間歸一化,使得各韻母幀數(shù)統(tǒng)一為10幀,再拼接成90維的長時特征。為減少個體發(fā)音差異的影響,通過統(tǒng)計各人各韻母的數(shù)據(jù),得到所有人同一韻母口型特征參數(shù)的均值,并以此進行聚類,聚類結(jié)果如表1所示。
圖1 唇部形狀特征參數(shù)
表1 韻母聚類結(jié)果
Table 1 Vowel clustering result
類別索引韻母1 ai,an,a,ang,ao2e,en,eng,er,ei3o,ou,ong,ü,u,uo4-i(知韻),-i(資韻),i,in,ing5iu類別索引韻母6ua,uai,uan,uang7iou,iong8ia,iang,iao9un,ui,ün,üan,üe10ian,ie
由于韻母的音視頻數(shù)據(jù)時長較短,采用小樣本數(shù)據(jù)分析效果較優(yōu)的CoIA(Co-inertia Analysis)算法[6],對表1各組韻母進行相關(guān)度分析。設(shè)音頻和視頻多元隨機向量a=[a1a2…ap]T∈Rp和v=[v1v2…vq]T∈Rr各有N個樣本,分別組成矩陣A∈Rp×N與V∈Rr×N,CoIA算法從兩類多維異構(gòu)特征中求出使兩者協(xié)方差最大的一對映射向量。一對正交映射向量為ui∈Rp×1和zi∈Rr×1(i=1,2,…,R;R=rank(CAV),rank(·)為秩函數(shù)),分別為映射矩陣U、Z的列向量,則有:
(2)
式中,CAV=E{AVT}=cov(A,V)為協(xié)方差矩陣(CAV∈Rp×r)。求解得映射矩陣U和Z后,將待分析數(shù)據(jù)分別投影到映射向量上以獲得兩者的相關(guān)度,這里分別采用皮爾遜相關(guān)系數(shù)(pci)和RV系數(shù)[16]作為度量:
(3)
(4)
由表2可知,部分組別如第8、9、10組的兩種相關(guān)系數(shù)均值明顯高于其他組別,而且以復(fù)合韻為驗證表3韻母單元的代表性,將包含表中韻母的分段與整句(共110句,包含聲母)的相關(guān)度進行比較。整句統(tǒng)計的pcave平均為0.48,RV平均為 0.24,表3中韻母段統(tǒng)計的pcave平均為0.53,RV平均為0.27。分析以上數(shù)據(jù)可知,特定韻母發(fā)音段的相關(guān)度很多時候均大于或等于整句的相關(guān)度,有時甚至比整句的相關(guān)系數(shù)高出0.15以上。CoIA是統(tǒng)計類分析方法,可見這些韻母在發(fā)音過程中音頻與唇部變化之間呈現(xiàn)更強的關(guān)聯(lián)性,更能體現(xiàn)兩者同步變化的關(guān)系,包含了更為突出和豐富的音唇關(guān)聯(lián)性信息,因此選以上5組韻母為特定發(fā)音單元。
表2 各類韻母相關(guān)度分析結(jié)果
母類居多。表2中所有類別的pcave和RV系數(shù)的均值分別為0.54和0.29,從表中選取相關(guān)度大于以上均值的組別作為特定發(fā)音單元類別作進一步分析,共5組,如表3所示。
表3 特定韻母發(fā)音單元選取結(jié)果
在句子中檢測并切分出包含表3中特定發(fā)音單元的韻母片段,通過分析這些片段代替分析整句話判斷一致性。這里以音頻為參考模態(tài)進行韻母切分與識別。傳統(tǒng)聽覺事件韻母切分法直接在0~400 Hz內(nèi)區(qū)分清濁音,在401~4 000 Hz內(nèi)檢測濁音段內(nèi)的濁輔音,切分結(jié)果易受復(fù)合韻母韻腹或韻尾的音變(如變調(diào)、兒化等)影響。因此本研究采用先檢測濁音段,再在其段前段后進行聽覺事件檢測的方法切分韻母并進行識別,具體步驟如下。
(1)清濁音分類 先通過幅度壓縮基音估計濾波法(Pitch Estimation Filter with Amplitude Compression,PEFAC)削弱語音中的低頻噪聲并提取基音諧波,然后采用基于對稱平均幅度和函數(shù)的脈沖序列加權(quán)算法確定諧波數(shù)量,再由3元素特征建立高斯混合模型對清濁音進行分類[17]。預(yù)處理后第t幀語音信號的對數(shù)頻域功率譜密度為st(q),包含純凈語音xt(q)和噪聲成分wt(q):
st(q)=xt(q)+wt(q)=
(5)
式中,f0為基音頻率,ak為第k(k=1,2,…,K)個諧波的功率,δ為單位沖激函數(shù),歸一化可得:
(6)
(7)
在60~1 250 Hz頻域內(nèi),對φt(q)的幅值從大到小排序,選前3中頻率最大者為基音諧波。最后,以各語音幀的3元素——歸一化后的對數(shù)平均功率譜LPt、φt(q)前3個幅值之和與平均功率譜的比值βt、顯著峰值點寬度的對數(shù)Vt,構(gòu)成特征矢量[LPtEtβt],以此分別建立清音和濁音的高斯混合模型(Gaussian Mixture Model,GMM)進行分類,各GMM均采用6個單高斯模型。由于短非濁音幀不可能出現(xiàn)在連續(xù)的濁音段中[18],可依此對分類中因誤判而出現(xiàn)的孤立幀進行修正,如判決結(jié)果為“…VVVVUVVVV…”(“V”為濁音幀,“U”為清音幀),其中的“U”應(yīng)修正為“V”。
(2)韻母分割 檢測出連續(xù)濁音段后,在當前濁音段的段前段后,以文獻[19]的檢測策略結(jié)合聽覺事件檢測法進行韻母切分。設(shè)索引為c的頻段內(nèi)第t幀語音信號St(n)的正突變聽覺事件eon定義為
(8)
若eon=1,表示出現(xiàn)正突變聽覺事件,閾值θon(c)由下式確定:
θon(c)=μ(c)+para×σ(c)
(9)
其中,para為待定系數(shù),μ(c)和σ(c)分別為第t幀差分信號St(n+1)-St(n)各采樣點幅值的均值和方差。
(3)韻母識別 對切分后的各段韻母提取音頻特征,并由矢量量化器根據(jù)訓(xùn)練生成的碼書進行量化,使得每個韻母信號對應(yīng)一個代碼序列。經(jīng)過預(yù)識別后,比較該代碼序列由各個HMM模型產(chǎn)生的概率分布參數(shù),從而根據(jù)最大后驗概率原則作出識別決策。韻母識別流程如圖2所示。對[ê]音以外的38個韻母分別訓(xùn)練HMM模型,模型狀態(tài)數(shù)為3,每個狀態(tài)8個高斯分量。
圖2 韻母識別流程
(10)
(11)
式中:Tv為視頻幀間間隔,ms。
X個特定韻母發(fā)音事件的時延分布得分α2定義為
(12)
(13)
式(12)合理時延范圍δLeft和δRight均取50 ms。最后,通過基于GMM的貝葉斯融合方法融合兩類得分以獲得最終的判決得分。設(shè)語音唇動事件的狀態(tài)為Λy(y=0,1),其中Λ0表示音唇不一致,Λ1表示一致,而α=(α1,α2)為包含兩種得分的得分向量,由條件概率P{α|Λ0}和P{α|Λ1}結(jié)合貝葉斯準則可得一致性評判標準:
P{α|Λ1}/P{α|Λ0}≥θ, 判為Λ1
(14)
P{α|Λ1}/P{α|Λ0}<θ, 判為Λ0
(15)
分別采用兩個高斯模型描述上述兩個條件分布:
(16)
文中一致性判決方法的流程如圖3所示。
圖3 基于特定韻母發(fā)音事件分析的音唇一致性判決流程圖
Fig.3 Schematic diagram of lip motion and voice consistency recognition method based on specific vowel pronunciation events analysis
其中,時延估計部分以DCT系數(shù)和圖1的9維唇部幾何特征為視覺特征,取Dleft=Dright=100 ms。對定位出的唇部區(qū)域(56*32)進行分塊二維DCT變換,各塊Zig-Zag排序后取最大的系數(shù)并拼接上其一二階差分組成DCT特征。音頻幀長為20 ms,幀間重疊為10 ms。每幀提取對數(shù)能量及13維 MFCC系數(shù)也同樣拼接其一二階差分組成42維特征,韻母識別過程也采用相同的音頻特征。
實驗使用的漢語聽覺視覺雙模態(tài)語料庫,共包含20人的數(shù)據(jù),每人取15句,每句錄音3次。將一致數(shù)據(jù)分為測試集600句和訓(xùn)練集300句,訓(xùn)練集主要用于字典和映射矩陣的訓(xùn)練。通過集內(nèi)數(shù)據(jù)中不同句子的音頻和視頻交叉組合合成出4類不一致數(shù)據(jù)(見表4所示),各類樣本均為1 200句。其中,第三類數(shù)據(jù)由不同錄制者同一語句的音視頻數(shù)據(jù)交叉組合得到;第四類數(shù)據(jù)則由同一錄制者不同次錄制的同一語句的音視頻數(shù)據(jù)交叉組合得到。
表4 語音唇動不一致數(shù)據(jù)類別
對文中方法的結(jié)果、文中方法融合位置時延分析前的結(jié)果、文獻[6]方法(CoIA+ST訓(xùn)練方式整句分析)的結(jié)果,以及文獻[6]方法增加文獻[20]整句時延評分機制后的結(jié)果進行對比,以比較采用不同時延分析方法的識別性能,并驗證特定韻母單元代替整句分析的可行性。同時,也與其他整句分析的方法進行了比較:相關(guān)法中的NCC+SVM[7]和BLPM[8]法,MI類算法中的QMI[4],另一種多元統(tǒng)計分析法CCA[5]結(jié)合時空視覺特征(CCA+STF),還有聯(lián)合字典法[9](原子數(shù)為225)。實驗以等誤識率(Equal Error Rate,EER)作為算法的性能評價指標。
文中方法及各種比較方法的總體錯誤接受率(FRA)和錯誤拒絕率(FRR)的變化曲線如圖4所示,通過原點的45度斜線與各曲線相交處FAR=FRR,此時的FAR或FRR就是EER,不同方法對各類不一致數(shù)據(jù)的總體和獨立統(tǒng)計EER見表5。
圖4 不同算法的FRA和FRR變化曲線
由圖4和表5可知,MSA類和稀疏表示類方法總體上優(yōu)于MI類和相關(guān)系數(shù)類算法,文中方法與聯(lián)合字典算法性能較為接近,稍優(yōu)于后者,總體上優(yōu)于其他比較算法。聯(lián)合字典法對音節(jié)較少的語料有很好的識別性能,但音節(jié)數(shù)量增加時需以增加原子數(shù)量為代價,對大詞匯量數(shù)據(jù)集字典的規(guī)模會很大;同時,實驗發(fā)現(xiàn)不同音節(jié)的出現(xiàn)頻率難以一致,部分音節(jié)可能在訓(xùn)練集中出現(xiàn)過少,沒在原子中得以表達而影響識別性能。文中方法在融合韻母位置時延分布得分前的總體EER為20.7%,與整句分析(CoIA+ST)的性能接近,其中對一到三類不一致數(shù)據(jù)的分析結(jié)果略優(yōu)于采用整句分析的方法,EER分別下降了1.2、0.9、和0.4個百分點。
表5 不同算法各類數(shù)據(jù)EER結(jié)果比較
這表明從韻母中選取特定發(fā)音單元代替整句話進行一致性分析的可行性和有效性。雖然文中方法融合韻母位置時延分布得分前對第四類數(shù)據(jù)的性能稍低于CoIA+ST方法,但融合后對各類不一致數(shù)據(jù)的總體EER較融合前下降了4.8個百分點,其中對第三和第四類數(shù)據(jù)的性能提升較為明顯,分別較融合前下降了4.9個百分點和10.6個百分點。一致性判決方法其總體運算時間受樣本幀數(shù)及圖像尺寸等因素影響,文中算法人臉定位及唇部感興趣區(qū)域提取部分的耗時約為60 ms一幀,與其他主流算法接近。但由于文中方法只分析特定韻母部分的音視頻數(shù)據(jù),而這部分數(shù)據(jù)平均只占整句時長的34%,因此不像整句分析方法那樣須事先對每幀視頻進行唇部定位等預(yù)處理,一定程度上降低了系統(tǒng)的運算量。實驗中文中算法的平均速率約為23幀/s左右,接近實時性的要求。文中方法和表5中第二種方法均考慮了時延的差異,但文中方法通過結(jié)合多個韻母位置的時延分布進行分析稍優(yōu)于采用整句時延進行相關(guān)度得分修訂的方式。本研究中對特定韻母識別的準確率約為84%,雖然會有集外信息的引入,但與整句分析相比這類影響會相對較小。
通過多幀口型序列特征對韻母進行聚類,并深入分析各類韻母的音唇關(guān)聯(lián)度,選出更具代表性的韻母發(fā)音單元為分析對象,結(jié)合韻母出現(xiàn)位置的時延分布分析,提出基于特定韻母發(fā)音事件分析的音唇一致性判決方法。實驗結(jié)果表明,該方法對不同類型不一致數(shù)據(jù)的識別性能與常用的多種整句分析方法相比均有一定提升。同時,融合特定韻母位置時延分析后一定程度上提升了總體識別性能,其中對第三和第四類數(shù)據(jù)的性能提升最為明顯。