李 昕, 李 為, 游寒旭, 朱 杰
(上海交通大學 電子信息與電氣工程學院,上海 200240)
?
含語音增強模塊的i-向量說話人識別性能分析
李昕, 李為, 游寒旭, 朱杰
(上海交通大學 電子信息與電氣工程學院,上海 200240)
摘要:為解決文本無關說話人識別中訓練與識別環(huán)境不同導致模式失配的問題,提出了一種采用語音增強模塊進行前端預處理的i-向量說話人識別系統(tǒng),從而提高系統(tǒng)對于環(huán)境噪聲的魯棒性.為評估不同語音增強算法的性能,利用NIST08核心測試集進行仿真實驗.采用IMCRA算法對語音進行噪聲估計后,分別用維納濾波法、MMSE-LSA、傳統(tǒng)譜減法和多頻帶譜減法等4種方法進行語音增強前端處理,在基于i-向量的說話人識別系統(tǒng)下進行實驗.實驗結果表明采用了語音增強的系統(tǒng)具有一定抗噪聲性能,并且在高信噪比條件下,基于多頻帶的譜減法在此系統(tǒng)下性能最佳,而低信噪比情況下MMSE-LSA算法更有優(yōu)勢.
關鍵詞:說話人識別; i-向量; 語音增強; 維納濾波; MMSE; 譜減法
0引言
說話人識別是一種生物識別技術,通過特定說話人的語音信號來對其身份進行識別,可以作為一種身份認證方式,應用于網(wǎng)絡安全、電話偵聽和司法鑒定等領域,具有廣泛的應用前景,并且每兩年美國國家標準技術署(NIST)通過舉辦NIST說話人識別評測,對當前國際上說話人識別的技術水平進行評估.該技術主要通過對語音信號進行分析、提取特征向量后進行數(shù)學建模來實現(xiàn),早期的說話人識別模型有動態(tài)時間彎折(DTW)、矢量量化(VQ)[1]等,而近年來在評測中表現(xiàn)更好的則是以高斯混合模型(GMM)為基礎的GMM-UBM(Universal Background Model)[2],以及利用GMM超向量進行估計建模的聯(lián)合因子分析(JFA)[3]和i-向量[4]模型,并輔以類內(nèi)協(xié)方差規(guī)整(WCCN)[5]、概率線性判別分析(PLDA)[6]等信道補償方法,說話人識別系統(tǒng)的性能在一定的環(huán)境條件下,基本可以達到實際應用要求.
然而在實際應用環(huán)境中,由于外界的噪聲干擾存在,語音質(zhì)量大大降低,會導致識別準確率受到影響,尤其是在訓練和識別的噪聲環(huán)境不匹配的情況下,系統(tǒng)的性能更會顯著降低.為了改善說話人識別系統(tǒng)對噪聲的魯棒性,可以通過語音增強方法消除語音中的噪聲,還原被噪聲破壞的特征向量從而改善說話人識別系統(tǒng)在噪聲失配情況下的識別性能.
通常在說話人識別系統(tǒng)中并不采用語音增強模塊,一方面由于實驗用的測試語料都是干凈語料,一般不包含有噪聲,因而處理時無需考慮該問題.另一方面由于說話人識別技術的特性,其對語音處理帶來的信號失真十分敏感,如果語音增強算法不能保持語音中說話人的個性特征,整體系統(tǒng)的性能反而會下降.為得到最佳的抗噪聲說話人識別系統(tǒng),對各種語音增強算法在識別系統(tǒng)中的應用效果進行評估,本文作者選擇基于最小均方誤差準則和譜減法的兩種語音增強方法及其相應改進算法,在不同噪聲強度下進行測試,得到其對系統(tǒng)識別準確率改善情況的分析和結論,為實際環(huán)境下的系統(tǒng)實現(xiàn)提供理論依據(jù).
1系統(tǒng)組成
抗噪聲說話人識別的整體系統(tǒng)框圖如圖1所示.
圖1 說話人識別系統(tǒng)框圖
在一般的說話人識別系統(tǒng)前端加入語音增強預處理模塊后,進行Mel-scale Frequency Cepstral Coefficients(MFCC)特征提取,之后分別利用訓練和識別語音的特征參數(shù)提取i-向量說話人模型,將兩個模型比較計算得分,最終得到拒絕或接受的判決結果,下面主要就語音增強、i-向量說話人模型和判決模塊進行闡述.
2語音增強
含噪聲的語音信號y(t)可表示為:
(1)
其中s(t)為純凈語音信號,n(t)為加性噪聲,語音增強的目的就是從帶噪信號y(t)中恢復原信號s(t),算法由噪聲估計和語音增強兩個主要部分組成.由于假設語音為短時平穩(wěn)信號,通常將語音分幀后在頻域內(nèi)對帶噪信號幅度譜或功率譜進行恢復.
2.1噪聲估計
單通道語音增強方法需要利用噪聲特性參數(shù),在沒有先驗知識的條件下,噪聲的功率譜需要從帶噪語音中獲得,因而準確的噪聲估計算法是提高語音增強效果的關鍵環(huán)節(jié).傳統(tǒng)的噪聲估計通過語音活性檢測(VAD)檢測噪聲段,對其功率譜進行最優(yōu)平滑,得到最終噪聲估計值,但其對非平穩(wěn)噪聲效果不佳,無法及時跟蹤噪聲能量的變化.因而采用Cohen[7]提出的改進最小控制遞歸平均算法(IMCRA)進行噪聲估計,在計算語音出現(xiàn)概率的基礎上,通過2次平滑和最小值統(tǒng)計來估計噪聲功率譜.
2.2語音增強
根據(jù)估計的噪聲結果,可以通過多種方式計算純凈語音的估計.為尋求最合適的語音增強方法,從維納濾波法、最小均方誤差(MMSE-LSA)、傳統(tǒng)譜減法和多頻帶譜減法4種方法中進行選擇,通過仿真實驗分析各算法的優(yōu)劣.
2.2.1維納濾波法
維納濾波算法是首先通過對先驗信噪比進行估計,基于最小均方誤差(MMSE)的判別方法得出譜增益函數(shù)后,最后根據(jù)式(2)得到純凈語音信號頻譜的估計:
(2)
其中ξk,γk分別為先驗和后驗信噪比,Sk(ω)為純凈語音頻譜,Yk(ω)為帶噪語音頻譜,Gk(ξk,γk)為譜增益函數(shù),由先驗信噪比計算得出:
(3)
估計先驗信噪比可以通過Ephraim和Malah[8]提出的“直接判決法”(decision-directed)得到:
(4)
2.2.2MMSE-LSA
MMSE-LSA是維納濾波的改進算法,在對數(shù)譜幅度域中進行最小均方誤差估計,得到新的譜增益函數(shù),其中v定義為v?ξkγk/(1+ξk):
(5)
在此方法中,采用Cohen在2004年提出的無關聯(lián)估計器對先驗信噪比進行估計,此估計方法相比于直接判決法能更快速地跟蹤噪聲水平的突變,并且估計結果更為平滑,從而降低語音增強帶來的音樂噪聲,詳細的估計算法參考文獻[9].
2.2.3傳統(tǒng)譜減法[10]
譜減法是通過對帶噪語音功率譜減去估計的噪聲功率譜來達到語音增強的效果,基本公式如下:
(6)
其中a是過減因子,b是譜減系數(shù),過減因子a通過后驗信噪比進行自適應的調(diào)整,實驗中a的調(diào)整范圍取1~3,b取0.002.譜減法的優(yōu)勢在于實現(xiàn)十分簡單快速,適合實時語音增強,然而傳統(tǒng)的譜減法缺少對語音頻譜特性進行分析假設,因而處理后會對語音的可懂度損傷較大,并且由于頻譜相減使處理后的語音中產(chǎn)生一種具有節(jié)奏感的殘余噪聲,稱為音樂噪聲,對語音的聽覺效果影響很大,因而常采用非線性譜減法降低語音失真度并去除音樂噪聲.
2.2.4多頻帶譜減法
考慮到噪聲的頻譜在整個頻域上不均勻分布,多頻帶譜減法將頻率劃分為N個頻帶,對每個子頻帶計算后驗信噪比SNRk,以此為基礎調(diào)整過減因子a,并添加控制因子δ以調(diào)整不同頻段的系數(shù),算法公式如下:
(7)
過減因子和控制因子的自適應調(diào)整方法分別表示為:
(8)
(9)
頻帶的劃分也有多種方式,經(jīng)實驗驗證,按照Bark域進行頻帶劃分的方法要優(yōu)于線性劃分方法[11],因而采用Bark帶方式劃分頻帶.
3i-向量說話人模型
i-向量是近年來主流的文本無關說話人建模方法,其基本思想源自JFA中對信道和說話人的子空間估計.Dehak提出的i-向量是利用一個全局變化子空間(Total Variability Space)來表征以上兩種特征,其基本假設是將說話人的GMM超向量表示為:
(10)
其中m是與說話人和信道無關的超向量,通常使用UBM的超向量表示,而T是一個低秩的表征全局變化子空間的矩陣,ω是標準正態(tài)分布的向量,表征特定說話人在全局變化子空間內(nèi)的全局因子,因其作為表征說話人身份的矢量(identityvector),所以簡稱為i-向量.由式(10)可以看出,該建模方式的關鍵在于對全局變化矩陣T的估計,該矩陣起到對GMM超向量進行降維,同時加強對不同說話人和信道之間的區(qū)分性的作用.
全局變化矩陣是通過大量不同說話人語料進行估計的,基本思想與JFA中對說話人子空間和信道子空間的估計相同,通過EM算法對矩陣參數(shù)進行迭代計算,但i-向量將說話人和信道特征作為整體,將同一說話人在不同信道下的語段分別估計,因而不需要對說話人進行標記.在得到了全局變化矩陣后,便可從語音特征向量中得到對應的i-向量.詳細的T估計算法和i-向量提取方法可參考文獻[4].
4判決模塊
系統(tǒng)的判決方式采用余弦距離得分[12]的方式,通過計算分別從訓練和識別語音中提取的i-向量之間的余弦距離,并與固定閾值θ進行比較得出拒絕或接受的判定結果.余弦距離由式(11)所示:
(11)
該判決方法是一種對稱式的核函數(shù)分類器,通過歸一化消除了矢量幅度變化的影響,實現(xiàn)快速簡單,在此系統(tǒng)中能達到與SVM媲美的分類性能.
5測試實驗與性能分析
采用NIST08的核心測試集short2-short3作為測試語料進行實驗,僅取男性語料進行測試,由290段訓練語料和344段識別語料組成共3256個測試.為仿真噪聲失配環(huán)境,設計的系統(tǒng)在訓練端采用原始語音,識別端分別加入不同信噪比的白噪聲.說話人識別系統(tǒng)采用MFCC特征提取方式,語音分幀的參數(shù)為每幀長20ms,幀移10ms,提取20維倒譜系數(shù),加上一階和二階差分共60維作為特征參數(shù),之后用VAD去除非語音幀,用倒譜均值減(CMS)進行特征規(guī)整作為最終的特征參數(shù).模型參數(shù)方面,GMM混合數(shù)為512,i-向量維數(shù)為400,UBM和T用NIST06和08剩余的語料進行訓練得到.在此基線系統(tǒng)中加入語音增強算法,分別用上述4種語音增強算法對語音進行預處理后再進行說話人識別,得到各噪聲條件下的系統(tǒng)等錯誤率(EER)如表1所示.從表1中可以看出,在無噪聲的情況下,i-向量說話人識別系統(tǒng)的EER為2.63%,基本可以滿足實際應用的要求.而在噪聲失配的情況下,系統(tǒng)的識別性能顯著降低,并且隨著信噪比的降低,系統(tǒng)整體識別率也成比例地下降.隨著語音增強前端處理算法的引入,系統(tǒng)的識別性能能夠得到一定的改善,然而不同的語音增強算法帶來的效果也不盡相同.在信噪比相對較高時,即5dB情況下,無增強的系統(tǒng)惡化到18.86%,而加了多頻帶譜減法增強模塊后,可以達到15.32%,盡管還很不理想,但也改善了3.54%的EER.而隨著噪聲能量的不斷增大,噪聲估計的準確率下降,導致以譜減法為基礎的語音增強算法效果愈發(fā)下降,而以最小均方誤差準則的增強方法由于考慮到語音的分布情況,使得抗噪聲效果愈發(fā)明顯,在低信噪比為-5dB條件下,MMSE-LSA算法比起其他算法,有較顯著的性能提升,與無增強系統(tǒng)相比,可以降低6.14%的EER.同時值得注意的是,傳統(tǒng)譜減法由于在語音增強的同時引入了較強的殘留音樂噪聲,并且由于過減因子沒有自適應變化而導致一定的語音失真,其識別率反而比不使用增強算法的系統(tǒng)更低,說明語音增強算法應謹慎選擇,否則會使系統(tǒng)性能進一步退化.
表1 噪聲環(huán)境下各語音增強算法識別結果
6結論
本文作者針對噪聲失配環(huán)境下的說話人識別,利用語音增強模塊結合i-向量說話人模型來改善系統(tǒng)整體性能,同時對常用的四種語音增強算法在系統(tǒng)中的表現(xiàn)進行實驗評估,以求找到最佳的前端處理算法.從實驗結果來看,合適的語音增強算法確實可以改善說話人識別系統(tǒng)的性能,但必需根據(jù)不同的信噪比情況有針對性地選擇.實驗結果表明,在多頻帶譜減法和MMSE-LSA兩種算法中如果能根據(jù)具體環(huán)境合理使用,可以獲得較佳的系統(tǒng)抗噪聲性能.
參考文獻:
[1]Zhang Q.Research on target speaker identification system under noise environment [D].Wuhan:Wuhan Textile University,2012.
[2]Togneri R,Pullella D.An overview of speaker identification:Accuracy and robustness issues [J].Circuits and Systems Magazine IEEE,2011,11(2):23-61.
[3]Kenny P.Joint factor analysis of speaker and session variability:Theory and algorithms [R].Montreal:CRIM,2005.
[4]Dehak N,Kenny P,Dehak R,et al.Front-end factor analysis for speaker verification [J].Audio,Speech,and Language Processing,IEEE Transactions on,2011,19(4):788-798.
[5]Hatch A O,Kajarekar S S,Stolcke A.Within-class covariance normalization for SVM-based speaker recognition [C]//DBLP.INTERSPEECH 2006 and 9th International Conference on Spoken Language Processing-ICSLP.Pittsburgh:DBLP,2006.
[6]Kenny P.Bayesian Speaker Verification with Heavy-Tailed Priors [C]//ISCA.Proceedings of the Odyssey Speaker and Language Recognition Workshop.Bruno:ISCA,2010.
[7]Cohen I.Noise spectrum estimation in adverse environments:Improved minima controlled recursive averaging [J].Speech and Audio Processing IEEE Transactions on,2003,11(5):466-475.
[8]Ephraim Y.A minimum mean square error approach for speech enhancement [C]//IEEE.Acoustics Speech and Signal Processing.Albuquerque:IEEE,1990.
[9]Cohen I.Speech enhancement using a noncausal a priori SNR estimator [J].Signal Processing Letters,IEEE,2004,11(9):725-728.
[10]Berouti M,Schwartz R,Makhoul J.Enhancement of speech corrupted by acoustic noise [C]//IEEE.Acoustics Speech and Signal Processing IEEE International Conference on ICASSP′79.Washington,D.C:IEEE,1979.
[11]Cheng Z,Zhao H M.Speech enhancement based on spectral subtraction of multi-band scale [J].Computer Engineering and Applications,2007,43(36):40-42.
[12]Dehak N,Dehak R,Glass J R,et al.Cosine Similarity Scoring without Score Normalization Techniques [C]//Deleon P,Pucher M,Yamagishi J.Proceedings of the Odyssey Speaker and Language Recognition Workshop,Brno:Odessey,2010.
(責任編輯:包震宇)
Speech enhancement ini-vector speaker verification system
LI Xin,LI Wei, YOU Hanxu, ZHU Jie
(School of Electronic Information and Electrical Engineering,Shanghai Jiao Tong University,Shanghai 200240,China)
Abstract:To solve the model-mismatch problem in text-independent speaker verification system when training environment differs from recognition environment,We propose a i-vector speaker verification system using speech enhancement in front-end preprocessing it can improve the system robustness to additive noise.To estimate the performance of different speech enhancement methods,we used NIST08 core test set in the experiment.Four speech enhancement methods,including wiener filtering,MMSE-LSA,traditional spectral subtraction and multi-band spectral subtraction,combining with IMCRA noise estimation,were evaluated in the speaker verification system based on i-vector.The result shows the proposed system with speech enhancement had some improvement in noise environment and that multi-band spectral subtraction method performed the best when SNR was relatively high and MMSE-LSA performed the best when SNR was low.
Key words:speaker verification; i-vector; speech enhancement; wiener filtering; MMSE; spectral subtraction method
中圖分類號:TN 912.32
文獻標志碼:A
文章編號:1000-5137(2016)02-0237-06
通信作者:朱杰,中國上海市閔行區(qū)東川路800號,上海交通大學電子信息與電氣工程學院,郵編:200240,E-mail:zhujie@sjtu.edu.cn
基金項目:國家自然科學基金(61271349,61371147,11433002);上海交通大學醫(yī)工合作基金(YG2012ZD04)
收稿日期:2016-02-29