◆馮月春 陳惠娟
基于GFCC與CFC的低信噪比說話人識(shí)別
◆馮月春1陳惠娟2
(1.寧夏理工學(xué)院 寧夏 753000;2.西安工程大學(xué) 陜西 710048)
在全特征矢量集模型CFC和互信息識(shí)別的基礎(chǔ)上,對(duì)不同的語音特征參數(shù)提取方式及不同特征在不同信噪比下的識(shí)別率做了比較,實(shí)驗(yàn)結(jié)果表明基于人耳聽覺特性的穩(wěn)健特征提取方式在高信噪比時(shí)識(shí)別率最高;本文針對(duì)低信噪比情況下說話人識(shí)別系統(tǒng)的識(shí)別率較低的問題,提出了基于多窗譜估計(jì)普減法的能熵比法用于語音的前端降噪處理,結(jié)果表明通過改進(jìn)的端點(diǎn)檢測法在低信噪比下明顯提高說話人識(shí)別的識(shí)別率。
端點(diǎn)檢測;CFC;識(shí)別率
說話人模型是說話人識(shí)別系統(tǒng)的核心,目前常見的說話人模型包括:隱馬爾科夫模型、高斯混合模型、矢量量化、人工神經(jīng)網(wǎng)絡(luò)等。這些方法的運(yùn)用只考慮了語音信號(hào)的時(shí)變分布特征,并沒有考慮語音信號(hào)的統(tǒng)計(jì)分布特征,同時(shí)計(jì)算量比較大。上海大學(xué)的俞教授提出了全特征矢量集模型CFC[1],該模型基于互信息理論和語音信號(hào)分析,對(duì)隨機(jī)變量或隨機(jī)信號(hào)之間所攜帶對(duì)方信息進(jìn)行定量描述,由于該模型同時(shí)考慮了語音信號(hào)的時(shí)變分布特征和統(tǒng)計(jì)分布特征,能有效地提高類間耦合度和類內(nèi)凝聚度,是目前常用的說話人模型匹配方式。該模型對(duì)語音參數(shù)特征敏感,尤其是低信噪比的情況下。因此,語音特征的提取方式是CFC精度的主要影響因素。本文在全特征矢量集模型CFC和互信息識(shí)別的基礎(chǔ)上,對(duì)不同的語音特征參數(shù)提取方式識(shí)別率做了比較,結(jié)果表明基于人耳聽覺特性的穩(wěn)健特征提取方法在高信噪比時(shí)識(shí)別率最高,在低信噪比下識(shí)別率較低,本文采用多窗譜估計(jì)普減法[2]和能熵比相結(jié)合的端點(diǎn)檢測,對(duì)語音信號(hào)進(jìn)行預(yù)處理,使說話人識(shí)別在低信噪比下識(shí)別效果明顯改善。
全特征矢量集模型CFC的基本思想是通過對(duì)一組包含說話人各種語音發(fā)音個(gè)性特征的數(shù)據(jù)進(jìn)行分析處理,提取相應(yīng)的代表性特征矢量表示說話人語音模型,其訓(xùn)練過程如下。
(2)計(jì)算各原始特征矢量與CFC中各特征矢量之間的距離,并將原始特征矢量賦予與其距離最小的CFC特征矢量所在子集,即:
(3)對(duì)每個(gè)CFC特征矢量子集中的原始特征矢量在特征空間計(jì)算其均值,并將其作為新的CFC特征矢量,即
從理論上分析,由于不可能得到嚴(yán)格的語音信號(hào)特征矢量的概率分布密度函數(shù)以及語音模式的條件概率,語音模式之間的互信息計(jì)算只能通過合理的估計(jì)進(jìn)行,即引入了熵的計(jì)算。公式如下:
本文涉及的說話人識(shí)別實(shí)驗(yàn)中訓(xùn)練語音數(shù)據(jù)均在實(shí)驗(yàn)室環(huán)境下用進(jìn)行錄制,采樣率11025Hz,量化精度16 位,每個(gè)人錄制了7 段12 秒的語音,其中,前4 段用于訓(xùn)練,后3 段用于識(shí)別。為了比較各種特征提取方式的魯棒性,分別在原語音數(shù)據(jù)中疊加上固定比例的噪聲。實(shí)驗(yàn)所使用8種噪聲類型,信噪比分別為0dB,10dB,20dB,30dB。實(shí)驗(yàn)結(jié)果如圖1(a)、(b)所示。橫軸代表不同的信噪比,縱軸代表說話人的識(shí)別率;圖中矩形的線條表示為LPCC特征在不同信噪比下的識(shí)別率,圓形的線條為MFCC特征在不同信噪比下的識(shí)別率,三角形的線條為GFCC特征在不同信噪比下的識(shí)別率,星形為組合特征MFCC+GFCC在不同信噪比下識(shí)別率[4]。
圖1(a) 不同信噪比下說話人識(shí)別率
圖1(b) 不同信噪比下說話人識(shí)別率
(1)在純凈語音環(huán)境下,MFCC,GFCC和MFCC+GFCC的識(shí)別率一致,最高可達(dá)到90%,而LPCC的識(shí)別率相對(duì)較低,在70%左右。
(2)在低信噪比下GFCC特征參數(shù)和組合特征MFCC+GFCC的識(shí)別率優(yōu)于MFCC和LPCC的識(shí)別率,說明GFCC具有一定抗噪性能。
從實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),普通的端點(diǎn)檢測只對(duì)有話段檢測和處理,一般用短時(shí)平均能量和短時(shí)平均過零率就可以檢測出語音的端點(diǎn),但實(shí)際處理中語音往往處于復(fù)雜的噪聲環(huán)境中,判別語音段的起始點(diǎn)和終止點(diǎn)的問題主要?dú)w結(jié)為區(qū)別語音和噪聲的問題。因此,采用基于多窗譜估計(jì)普減法的能熵比法用于端點(diǎn)檢測,來提高說話人識(shí)別的正確性。改進(jìn)后說話人識(shí)別工作原理如圖2所示:
圖2 說話人識(shí)別系統(tǒng)
實(shí)驗(yàn)結(jié)果如圖3(a)、(b)所示。其中,圓形表示普通的端點(diǎn)檢測下特征GFCC的識(shí)別率,星形表示改進(jìn)的端點(diǎn)檢測下特征GFCC的識(shí)別率[5]。
從圖3(a)、(b)中可以看出:(1)在8種不同的噪聲環(huán)境下,采用兩種端點(diǎn)檢測法說話人識(shí)別的識(shí)別率均隨著信噪比的增大越來越大。(2)從圖中可以看到,在低信噪比下對(duì)含噪的語音法進(jìn)行預(yù)處理后,對(duì)多數(shù)噪聲識(shí)別率都有所提高。(3)八種噪音下在SNR低于5dB時(shí),我們的抗噪聲說話人識(shí)別系統(tǒng)的識(shí)別率提高明顯。
圖3(a) 不同信噪比下說話人識(shí)別率
圖3(b) 不同信噪比下說話人識(shí)別率
在全特征矢量集模型CFC和互信息識(shí)別的基礎(chǔ)上,通過實(shí)驗(yàn)驗(yàn)證,結(jié)果表明低信噪比下的識(shí)別率較差;然后,針對(duì)此問題,提出了基于多窗譜估計(jì)普減法的能熵比法用于語音的前端降噪處理,通過改進(jìn)的端點(diǎn)檢測法算法使說話人識(shí)別在不同程度上得到了提高。
[1]俞一彪.基于互信息理論的說話人識(shí)別研究[D].上海:上海大學(xué),2004.
[2]武鵬鵬,趙剛,鄒明.基于多窗譜估計(jì)的改進(jìn)普減法[J].現(xiàn)代電子技術(shù),2008(12):151-152.
[3]杜曉青,于風(fēng)芹.基于發(fā)聲機(jī)理與人耳感知特性的說話人識(shí)別[J],計(jì)算機(jī)工程,2013,39(11),197-199.
[4]郭武.復(fù)雜信道下的說話人識(shí)別[D].合肥:中國科學(xué)技術(shù)大學(xué),2007.
[5]余建潮,張瑞林.基于MFCC和LPCC的說話人識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2009(5):1189-1191.
寧夏高等學(xué)??茖W(xué)研究項(xiàng)目(編號(hào):NGY2018-166)