馬意彭 王震 董雨楠 鐘雅婷 南京郵電大學(xué)電子與光學(xué)工程學(xué)院
引言:聲紋信息是生物特征的一項(xiàng)重要組成部分,具有數(shù)據(jù)易取性、身份認(rèn)證準(zhǔn)確性等特點(diǎn)。這些特點(diǎn)使得聲紋識(shí)別技術(shù)具有較高的研究?jī)r(jià)值。本文在聲紋識(shí)別算法研究的基礎(chǔ)上,對(duì)已有的聲紋識(shí)別算法進(jìn)行了改進(jìn),并取得良好的識(shí)別效果。
說話人發(fā)出的語音信號(hào)既有聲紋特征又有說話內(nèi)容。,所以為了提高聲紋識(shí)別的準(zhǔn)確性,必須對(duì)說話人發(fā)出的語音信號(hào)進(jìn)行預(yù)處理。其步驟如下:
原始語音信號(hào)為模擬信號(hào),經(jīng)ADC采樣及量化后可轉(zhuǎn)換為離散的數(shù)字信號(hào)。由于語音信號(hào)受聲門激勵(lì)和口鼻輻射的影響,所以800HZ以上的高頻分量會(huì)有所衰減。為了使得頻譜平坦,所以采用預(yù)加重的方法提高高頻分量。
經(jīng)采樣和預(yù)加重處理后的信號(hào)依舊是一個(gè)時(shí)變信號(hào),所以只有在一個(gè)極其短的時(shí)間內(nèi)才能表現(xiàn)出較穩(wěn)定的聲紋特征。故我們將語音信號(hào)在8ms~22ms的短時(shí)間內(nèi)作為一幀,采用漢明窗對(duì)語音信號(hào)進(jìn)行提取。為了提取對(duì)聲紋識(shí)別有效的聲段,我們采用了短時(shí)能量分析的方法。只有當(dāng)某一幀內(nèi)語音信號(hào)的平均幅度高于某一閾值時(shí),才將其作為有效幀進(jìn)行聲紋特征提取,這樣可以提高識(shí)別效率。
美 爾 頻 標(biāo) 倒 譜 系 數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)是基于Mel 頻標(biāo)的非線性譜的倒譜,具有識(shí)別能力強(qiáng)、抗噪能力強(qiáng)等特點(diǎn)。Mel 譜可以由Mel頻率濾波器組獲得。MFCC以傅里葉變換和倒譜分析為基礎(chǔ),對(duì)音頻幀上的每個(gè)頻點(diǎn)進(jìn)行能量計(jì)算,即可得到MFCC。
本設(shè)計(jì)采用壓縮感知-美爾頻標(biāo)倒譜系數(shù)(Compressed sensing- Mel Frequency Cepstrum Coefficient , CS-MFCC)作為語音信號(hào)的特征。由于語音信號(hào)在正交空間具有稀疏性所以可以采用壓縮感知的方法對(duì)信號(hào)進(jìn)行重構(gòu),這樣可以大大降低采樣信號(hào)的頻率,提高采樣效率。
高斯混合模型(Gaussian Mixed Model,GMM)指的是多個(gè)高斯分布函數(shù)的線性組合,理論上GMM可以擬合出任意類型的分布,通常用于解決同一集合下的數(shù)據(jù)包含多個(gè)不同的分布的情況。由于每個(gè)說話人的語音信號(hào)的特征分布是不同的,故可以采用GMM模擬說話人的語音信號(hào)特征分布并作為說話人的識(shí)別依據(jù)。
由于注冊(cè)時(shí)說話人的數(shù)據(jù)具有稀疏性,所以通常使用通用背景模型(Universal Background Model,UBM)和少量的說話人數(shù)據(jù)對(duì)說話人模型進(jìn)行訓(xùn)練,然后通過自適應(yīng)算法得到目標(biāo)說話人模型。一般情況下,當(dāng)GMM-UBM模型的每個(gè)混合對(duì)象得到100幀左右的訓(xùn)練樣本時(shí),就可以得到較高且較穩(wěn)定的識(shí)別率。
圖1 聲紋識(shí)別算法設(shè)計(jì)框圖
本系統(tǒng)采用中、英、法三種語言進(jìn)行測(cè)試,其效果如圖2所示。由圖2可知,CS-MFCC32階GMM具有較好的識(shí)別效果,證明本系統(tǒng)的有效性及實(shí)用性。
圖2 聲紋識(shí)別系統(tǒng)績(jī)效評(píng)估
本文在聲紋識(shí)別算法研究的基礎(chǔ)上,提出了CS-MFCC聲紋特征提取方法及基于GMM-UBM說話人識(shí)別算法,并取得了良好的識(shí)別效果,為聲紋識(shí)別算法的發(fā)展提供了新的思路。