何俊 李艷雄 賀前華 李威
(華南理工大學(xué)電子與信息學(xué)院,廣東廣州510640)
說話人識別(SR)是以語音為依據(jù)對說話人進(jìn)行別識,從而達(dá)到身份鑒別和認(rèn)證的技術(shù),已廣泛應(yīng)用于國防、公安的身份鑒定系統(tǒng)、電話銀行及電子商務(wù)的身份確認(rèn)系統(tǒng)及各類門禁系統(tǒng)[1-2].目前各類說話人識別和認(rèn)證系統(tǒng)在實際應(yīng)用時受環(huán)境噪聲和異常語音的影響,識別率急劇下降;同時,現(xiàn)實生活中引起說話人語音變異的因素較多,如感冒、咽喉炎、淋巴炎、反胃酸、情緒波動等.如何解決目前聲紋身份認(rèn)證系統(tǒng)的普適性低、魯棒性差問題及異常語音問題,受到了廣泛的關(guān)注[3-5].
目前,用于提高語音識別系統(tǒng)魯棒性的經(jīng)典方法可分為3類[6]:(1)基于特征的方法,直接去掉說話人特征信息中的噪聲,如倒譜均值歸一化(CMN)、RASTA濾波處理、嵌入方法(WM)和健壯參數(shù);(2)基于打分的方法,如模型打分和特征幀層打分;(3)基于模型的方法,試圖把失真特征合并到說話人本身的模型中,以取得系統(tǒng)的魯棒性,如并行模型組合(PMC).
基于特征的方法主要集中于穩(wěn)健特征的提取和加權(quán)處理.特征加權(quán)就是通過抑制由噪聲引起的特征變化對識別模型分?jǐn)?shù)的影響,提高純凈語音特征對識別模型分?jǐn)?shù)的權(quán)重,從而達(dá)到抑制噪聲語音對說話人識別結(jié)果的影響.然而,在實際應(yīng)用環(huán)境中獲得純凈語音是比較困難的.文獻(xiàn)[7]中使用CMN算法對加性噪聲的語音進(jìn)行識別,相對不進(jìn)行CMN處理的識別率提高了2.6%.文獻(xiàn)[8]中根據(jù)心理聽覺聲學(xué)原理對Mel倒譜特征進(jìn)行加權(quán),用安靜語音進(jìn)行說話人識別,結(jié)果表明通過加權(quán)能使識別率提高1.3%.文獻(xiàn)[9]用統(tǒng)計各階MFCC特征對說話人識別的貢獻(xiàn),根據(jù)貢獻(xiàn)大小進(jìn)行特征加權(quán),用TIMIT語音數(shù)據(jù)庫進(jìn)行說話人識別,識別率比不加權(quán)時提高了0.6%.
對于安靜和正常語音,文獻(xiàn)[8-9]中算法的性能稍有提高.但在實際應(yīng)用中,說話人總是身處復(fù)雜的聲學(xué)環(huán)境中,同時說話人自身的生理因素也是復(fù)雜多變的.實際應(yīng)用的身份認(rèn)證和說話人識別系統(tǒng)的性能不僅要面臨復(fù)雜的環(huán)境噪聲干擾,而且還要面臨因說話人的發(fā)音器官病變引起語音異常的影響.根據(jù)心理聽覺聲學(xué)原理對Mel倒譜進(jìn)行加權(quán)處理,面對復(fù)雜背景噪聲環(huán)境和病變異常語音等情況,該算法表現(xiàn)出較嚴(yán)重的局限性.根據(jù)各階特征對說話人識別的貢獻(xiàn)進(jìn)行加權(quán),對于因說話人發(fā)音器官病變而引起的變異語音,不僅難以統(tǒng)計各階特征對說話人識別的貢獻(xiàn),而且可能出現(xiàn)貢獻(xiàn)大的特征變異嚴(yán)重.如何對它進(jìn)行有效加權(quán)還有待研究.
CMN算法對加性噪聲污染語音的識別效果比較明顯,但對病變異常語音的識別效果較差,因為病變異常語音主要是由于說話人的發(fā)音器官的功能性失調(diào)(表現(xiàn)為發(fā)濁音時聲帶振動不到位或聲帶打開不全及關(guān)閉不嚴(yán)密等),使得語音譜高頻部分出現(xiàn)噪聲.這種噪聲不同于環(huán)境噪聲(如加性噪聲),它表現(xiàn)出不連續(xù)性、隱蔽性強(qiáng),其變化具有非平穩(wěn)性,發(fā)音器官的不同病變對各音素的影響不一樣.
當(dāng)說話人識別認(rèn)證系統(tǒng)面臨說話人異常語音時,常用的特征加權(quán)算法難以統(tǒng)計異常語音各階特征對說話人識別的貢獻(xiàn)并對變異特征進(jìn)行加權(quán),導(dǎo)致識別認(rèn)證系統(tǒng)的性能大幅下降.為此,文中以正常說話人發(fā)音器官病變引起的異常語音為研究對象,提出了一種變異特征加權(quán)的異常語音說話人識別算法.首先通過提取大量不同說話人的不同文本內(nèi)容的正常語音MFCC特征,建立正常語音模板,旨在描述正常語音說話人的各階特征概率分布;然后分別用K-L距離(Kullback-Leibler Divergence)[10]和歐式距離度量變異語音特征與正常語音特征模板之間的差異(變異程度),根據(jù)變異語音各階特征的變異程度對變異語音特征進(jìn)行加權(quán),并將加權(quán)后的MFCC特征送進(jìn)高斯混合模型(GMM)進(jìn)行說話人識別;最后通過實驗驗證算法的有效性.
MFCC是語音信號處理中常用的特征,也是說話人識別中區(qū)分性最好的一個特征.為了刻畫正常語音MFCC特征的概率分布,便于度量異常語音MFCC特征的變異程度,文中首先建立一個正常語音特征模板(NSFT).
設(shè)si表示第i段語音,si的n階MFCC特征可以表示為為第i段語音的第k階MFCC特征表示第i段語音中第r幀的第k階分量.
設(shè)FNSFT為m段正常語音的特征模板,則FNSFT的各階MFCC特征可以表示如下:
圖1 病變異常語音/ɑ/和正常語音/ɑ/的語譜圖Fig.1 Spectra of abnormal speech/ɑ /and normal speech/ɑ /
文中討論的病變異常語音主要是由于說話人發(fā)音器官的功能性失調(diào)而引起,表現(xiàn)為發(fā)濁音時聲帶振動不到位或聲帶打開不完全及關(guān)閉不嚴(yán)密等,而使說話人語音發(fā)聲變異,即輕微的嘶啞聲.從頻譜圖看,變異語音的高頻部分出現(xiàn)噪聲現(xiàn)象.圖1給出了病變異常語音/ɑ/和正常語音/ɑ/的頻譜圖.從圖1(a)可知,頻率大于4.8 kHz的病變異常語音出現(xiàn)能量較大的噪聲成分,頻率大于6.0 kHz時,語音信息非常?。?.6~4.8kHz區(qū)間能量帶間距變大,在0~1.6kHz內(nèi)異常語音的能量帶間距縮小,整體下移,能量帶分布較密.這說明異常語音對高頻部分的影響較大,中頻部分整體下移,對低頻部分的影響較?。畯膱D1(b)可知,在6.0~8.0 kHz內(nèi)正常語音存在表征說話人特征的語音信號,在1.6~4.8 kHz內(nèi)正常語音的能量帶分布明顯比異常語音密,在0~1.6kHz內(nèi)能量帶分布比異常語音稀疏,紋理濃.這說明正常語音的低頻部分分布稀疏,中頻部分有較多的說話人信息能量帶分布,高頻部分還有說話人信息.圖1表明,正常語音和異常語音在頻譜圖上表現(xiàn)出較明顯的差異.
為了尋求異常語音在特征層的差異,文中以MFCC特征為語音特征來分析其特征層的變化,以12階MFCC特征為參考進(jìn)行實驗研究.用3600條時長為3~5s的正常語音建立正常語音特征模板,其各階MFCC特征的概率分布如圖2(a)所示.
圖2 正常語音和單條病變語音的12階MFCC特征概率分布Fig.2 12-order MFCC feature probability distribution of normal speech and one abnormal speech
為了分析發(fā)音器官病變對語音特征層的影響,分別使用1條時長約為17 s的單個病變語音和826條時長為15~20s的異常語音來分析各階特征相對于正常語音特征模板中各階特征的個體差異性和統(tǒng)計差異性,單條病變語音的各階MFCC特征的概率分布如圖2(b)所示.
K-L距離[10]常用來量化兩個概率分布或密度間的差異,是一種非對稱性差異的度量方法,并不是嚴(yán)格上的距離公式.K-L距離廣泛應(yīng)用于語音處理中[11-12].文中用 K-L 距離來度量單條異常語音特征和正常語音特征模板的個體差異性、826條異常語音特征和正常語音特征模板的統(tǒng)計差異性,各階MFCC特征的K-L距離如表1所示.從表1可知:語音變異對其各階特征的影響及影響幅度是不相同的,這是因為產(chǎn)生語音變異的因素很多,有咽喉炎、聲帶發(fā)炎、口腔潰瘍或鼻腔炎癥等;病變語音中第6、9、10、11和12階特征受語音病變的影響較大,而第5、7和8階特征受到的影響相對較?。?/p>
表1 單條異常語音、826條異常語音與NSFT的K-L距離Table 1 K-L distances from one abnormal speech and 826 abnormal speeches to NSFT
設(shè)兩個連續(xù)的概率分布為p(x)和q(x),則它們的K-L距離定義為
如果p(x)、q(x)為離散的概率分布,則式(2)可以改為
設(shè)Fk為FNSFT中第k階MFCC特征分量,pk為Fk的概率密度分布函數(shù).給定測試語音sc,提取其MFCC特征并獲得第k階特征的概率密度分布函數(shù)qk,則測試語音的第k階MFCC特征與FNSFT中第k階特征之間的距離為
式中,N為概率分布中離散點的個數(shù).測試語音各階特征與FNSFT中相應(yīng)特征之間的K-L距離可以表示為
式中:δ(x)為符號函數(shù),
獲得測試語音的加權(quán)因子后按式(7)進(jìn)行加權(quán):
式中,F(xiàn)Nk為加權(quán)后測試語音的第k階MFCC特征,F(xiàn)Ok為加權(quán)前測試語音的第k階特征.
歐氏距離是一種常用的真實距離.m'維空間中兩個點之間的歐氏距離可定義為
式中,M為空間中點的個數(shù).文中使用歐氏距離來度量測試語音的觀測向量和模板的距離,然后根據(jù)這種距離計算加權(quán)因子.
設(shè)測試語音sc的MFCC特征為Fc,F(xiàn)c的第i階特征向量為Ai,F(xiàn)NSFT的第i階特征向量為 Bi,Ai中第j點到Bi的距離dj(Ai(j),Bi)可表示為
式中,M'為向量Bi的元素個數(shù).則兩個不等維向量空間的歐氏距離可計算為
式中,N'為向量Ai的元素個數(shù).測試語音各階特征與FNSFT中相應(yīng)特征之間的歐氏距離表示為
式中,aE為歐氏加權(quán)常數(shù)因子.然后利用式(12)中取代式(7)中的進(jìn)行測試語音特征的歐氏加權(quán).
在病變異常連續(xù)語音研究方面,國內(nèi)外學(xué)術(shù)界沒有統(tǒng)一可用的數(shù)據(jù)庫,本課題組參考國家“863”計劃項目錄制的語音庫和MEEI數(shù)據(jù)錄制標(biāo)準(zhǔn),經(jīng)過長期的取樣錄音,建立了一個病變異常語音數(shù)據(jù)庫(PANSD).PANSD的語料設(shè)計主要包括:
(1)27個漢語拼音的聲韻母;
(2)0~9的10個單數(shù)字和10個長度為10的數(shù)字字符串(隨機(jī)產(chǎn)生,每個數(shù)字分布均勻);
(3)選自“863”連續(xù)語音庫的20句音素和韻律分布均勻的句子(每句含8~16個漢字);
(4)語素和音節(jié)分布均勻的3篇短文,其中2篇選自中國普通話水平測試的短文(分別含1 362和1317個漢字),1篇摘自北京師范大學(xué)于丹教授《婚姻愛情觀》的網(wǎng)絡(luò)片段(含1253個漢字).
PANSD從2010年3月到2011年8月已采集到17名病變(感冒)異常語音(從人耳聽覺上能感覺到明顯的差異)及其對應(yīng)的正常語音,其中男生9名,女生8名,年齡分布在20~35歲,大專以上學(xué)歷,分別來自湖南、湖北、河北、廣東、廣西、江西等地.每位受錄者以普通話方式提供語音并進(jìn)行錄制.語音的采集環(huán)境分別為實驗室、寢室、教室、辦公室等.信噪比(SNR)分布在37~55 dB.分別用三星yep120錄音筆和Toplux TVP208錄音筆錄音,采樣頻率為22.05kHZ,16位量化.語音采集時的語速每秒基本上保持在3~5個漢字,錄音筆到受采集者的距離為5~20cm,一個受采集者的整個語音需要20~25min.PANSD目前已錄制700min左右的語音.經(jīng)統(tǒng)計,本語音庫的字頻和《現(xiàn)代漢語頻率詞典》提供的漢字字頻基本一致.PANSD不僅包含了漢語中的400個不同音節(jié)(參考國家普通話水平測試要求),而且包含漢語中所有的60個音素.
從PANSD中選取9個說話人的3600條正常語音,每條語音在去靜音后時長為3~4 s,作為訓(xùn)練共用特征模板數(shù)據(jù);選取7個說話人的557條正常語音和826條病變異常語音(每條語音在去靜音后時長為15~20s)作為測試數(shù)據(jù),同時取每個說話人時長為1~2min的正常語音用于訓(xùn)練GMM說話人模型.所有的數(shù)據(jù)都是單聲道的 WAV格式,用Cooledit Pro 2.0將采樣頻率調(diào)整為16 kHz,量化精度為16位,幀長為32 ms,幀移為16 ms,提取24階MFCC特征(后12階為差分特征).
826條病變異常語音包括:(1)輕微異常語音394條,受錄者感冒而咽喉不適應(yīng),錄音時不見明顯的咳嗽,但偶爾咳嗽一下,同時有流鼻涕癥狀,語音沒聽出明顯的變化;(2)稍重異常語音154條,受錄者因感冒而咽喉不適應(yīng),錄音時有明顯的咳嗽,一般2~3 min就需要喝水,語音能聽出變化但不明顯;(3)較重異常語音278條,受錄者因感冒而咽喉不適應(yīng),錄音時咳嗽不斷,鼻塞嚴(yán)重,語音能聽出明顯的變化.
選取12階MFCC特征訓(xùn)練正常語音特征模板.整個算法的基本流程如圖3所示.
圖3 文中算法流程圖Fig.3 Flowchart of the proposed algorithm
采用窮盡搜索算法獲得使異常語音說話人識別率最高的加權(quán)常數(shù)因子和加權(quán)系數(shù).不同的加權(quán)常數(shù)因子和加權(quán)系數(shù)對異常語音說話人識別率的影響見圖4.從圖4可知,當(dāng)加權(quán)常數(shù)因子為1.8、加權(quán)系數(shù)ε=0.5時,文中算法的異常語音說話人識別率最高.
圖4 加權(quán)參數(shù)對異常語音說話人識別率的影響Fig.4 Influence of weighting parameter on speaker recognition rate for abnormal speech
把基于K-L加權(quán)和歐式加權(quán)的算法分別簡稱為K-L-W和E-W 算法.首先用測試語音中異常語音進(jìn)行K-L-W、E-W和不加權(quán)的GMM說話人識別,幾種算法的識別率比較如表2所示.
表2 幾種算法的異常語音說話人識別率比較Table 2 Comparison of speaker recognition rates for abnormal speech %
從表2可知,對于輕微異常和稍重異常的語音,K-L-W算法的說話人識別率高于 E-W 算法、文獻(xiàn)[9]算法和不加權(quán)算法.主要原因有:(1)K-L距離用于度量具有統(tǒng)計意義的兩個概率分布間的差異,能較好地描述異常語音相對正常語音的變異情況;(2)歐氏距離是客觀描述兩向量間的距離,不具有統(tǒng)計意義;(3)文獻(xiàn)[9]算法通過大量數(shù)據(jù)統(tǒng)計出各階特征對說話人識別的貢獻(xiàn),再根據(jù)貢獻(xiàn)大小進(jìn)行加權(quán),當(dāng)語音異常時,沒有考慮各階特征的異常程度,也沒有根據(jù)異常程度進(jìn)行加權(quán).對于較重異常語音,4種算法的說話人識別率均很低,K-L-W算法和E-W算法的說話人識別率相對于不加權(quán)算法的說話人識別率沒有明顯的提高,文獻(xiàn)[9]算法表現(xiàn)最好.這因為文獻(xiàn)[9]算法是通過大量數(shù)據(jù)統(tǒng)計出各階特征對說話人識別的貢獻(xiàn),并根據(jù)經(jīng)驗進(jìn)行加權(quán),在語音異常較嚴(yán)重時表現(xiàn)相對好些.K-L-W算法對異常語音的整體識別率為46.61%,相對于不加權(quán)算法對異常語音的整體識別率提高了10.25%,E-W算法和文獻(xiàn)[9]算法對異常語音的整體識別率分別提高了4.36%和6.93%.
為驗證K-L-W和E-W算法對正常語音說話人識別的影響,使用測試語音中的正常語音進(jìn)行實驗.E-W算法的識別率為98.56%,優(yōu)于文獻(xiàn)[9]算法的98.54%、不加權(quán)算法的 98.38% 和 K-L 算法的98.02%.上述研究表明,K-L-W 和 E-W 算法對異常語音和正常語音的說話人識別都是有效可行的.
文中提出了一種變異特征加權(quán)的異常語音說話人識別算法.首先建立正常語音特征模板,根據(jù)測試語音相對正常語音特征模板的距離來分析異常語音的變異程度,然后使用變異程度加權(quán)因子對測試語音進(jìn)行特征加權(quán),并將經(jīng)過加權(quán)后的特征送進(jìn)GMM模型進(jìn)行說話人識別.實驗結(jié)果表明,文中提出的K-L加權(quán)和歐氏加權(quán)的異常語音說話人識別算法的整體識別率分別為46.61%和42.25%,而基于各階特征對說話人識別貢獻(xiàn)的加權(quán)算法和不加權(quán)算法的整體識別率分別為39.68%和36.36%.
[1] Rashid R A,Mahalin N H,Sarijari M A,et al.Security system using biometric technology design and implementation of voice recognition system[C]∥Proceedings of International Conference on Computer and Communication Engineering.Kuala Lumpur:IEEE,2008:898-902.
[2] 楊繼臣,賀前華,潘偉鏘.一種改進(jìn)的BIC說話人改變檢測算法[J].華南理工大學(xué)學(xué)報:自然科學(xué)版,2009,37(9):47-51.Yang Ji-cheng,He Qian-h(huán)ua,Pan Wei-qiang.Modified BIC algorithm of speaker change detection[J].Journal of South China University of Technology:Natural Science Edition,2009,37(9):47-51.
[3] 張磊,韓紀(jì)慶,王承發(fā).變異語音處理的研究進(jìn)展[J].電子學(xué)報,2003,31(3):411-418.Zhang Lei,Han Ji-qing,Wang Cheng-fa.Research progress of stress speech processing[J].Acta Electronic Sinica,2003,31(3):411-418.
[4] Alpan A,Maryn Y,Kacha A,et al.Multi-band dysperiodicity analyses of disordered connected speech[J].Speech Communication,2011,53(1):131-141.
[5] Maciel C D,Pereira J C,Stewart D.Identifying healthy
and pathologically affected voice signals[J].IEEE Signal Processing Magazine,2010,27(1):120-123.
[6] Togneri R,Pullella D.An overview of speaker identification:accuracy and robustness issues[J].Circuits and Systems Magazine,2011,11(2):23-61.
[7] Garner Philip N.Cepstral normalisation and the signal to noise ratio spectrum in automatic speech recognition[J].Speech Communication,2011,53(8):991-1001.
[8] Yang Hong-wu,Liu Ya-li,Huang De-zhi.Speaker recognition based on beighted Mel-cepstrum [C]∥Proceedings of the Fourth International Conference on Computer Sciences and Convergence Information Technology.Seoul:IEEE,2009:200-203.
[9] Weng Zufeng,Li Lin,Guo Donghui.Speaker recognition using weighted dynamic MFCC based on GMM [C]∥Proceedings of International Conference on Anti-Counterfeiting Security and Identification in Communication.Chendu:IEEE,2010:285-288.
[10] Kullback S,Leibler R.On information and sufficiency[J].Annals of Mathematical Statistics,1951,30(3):79-86.
[11] You Chang Huai,Lee Kong Aik,Li Haizhou.GMM-SVM kernel with a bhattacharyya-based distance for speaker recognition [J].IEEE Transactions on Audio,Speech,and Language Processing,2010,18(6):1300-1312.
[12] Ferrante A,Ramponi F,Ticozzi F.On the convergence of an efficient algorithm for kullback-leibler approximation of spectral densities [J].IEEE Transactions on Automatic Control,2011,56(3):506-515.