丁冬冬,佘玉梅,江 濤,莊 麗,王米利,劉敬鳳
(云南民族大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,云南 昆明 650031)
在現(xiàn)實(shí)應(yīng)用中,噪聲下語(yǔ)音識(shí)別的研究就變得越來(lái)越重要.語(yǔ)音識(shí)別技術(shù)主要包括特征提取、模式匹配及模型訓(xùn)練等3個(gè)方面.噪音處理有3種常用方法[1-2]:信號(hào)級(jí)抗噪方法、特征參數(shù)級(jí)抗噪方法、模型級(jí)抗噪方法.這3種方法的應(yīng)用都針對(duì)某種特定環(huán)境下的語(yǔ)音去噪,有很大的局限性.本文方法融合了這3種方法,有較強(qiáng)的適應(yīng)環(huán)境的能力,具有更好的實(shí)用性.
信號(hào)級(jí)抗噪處理方法是從帶噪音的語(yǔ)音信號(hào)中提取較純凈的原始語(yǔ)音,也稱為語(yǔ)音信號(hào)處理中的語(yǔ)音增強(qiáng).對(duì)于不同的噪音,必須采取不同的語(yǔ)音處理方法.現(xiàn)在語(yǔ)音識(shí)別系統(tǒng)中運(yùn)用比較多的有最小均方差法(MMSE)、譜減法(SS)及其改進(jìn)形式、維納濾波法、中值濾波法等等.本文重點(diǎn)介紹譜減法.
在譜減法中,假定噪聲是加性的,所以其思想是在頻域上從帶噪語(yǔ)音的功率譜中減去噪聲的功率譜,從而得到比較純凈的語(yǔ)音頻譜.它的實(shí)現(xiàn)過(guò)程是先把語(yǔ)音信號(hào)經(jīng)過(guò)快速FFT變換,然后平方得到語(yǔ)音幅度估計(jì),將其相位恢復(fù)后再采用逆FFT變換恢復(fù)時(shí)域信號(hào)[3].信號(hào)恢復(fù)的模型為:
y(t)=s(t)+n(t).
(1)
其中y(t)表示含噪語(yǔ)音,s(t)表示純語(yǔ)音信號(hào),n(t)表示噪聲信號(hào).
對(duì)上式進(jìn)行FFT變換得到
Yw(w)=Sw(w)+Nw(w).
(2)
其功率譜有
|Yw(w)|2= |Sw(w)|2+ |Nw(w)|2+
Sw(w)N*w(w) +S*w(w)Nw(w).
(3)
由于s(t)和n(t)相互獨(dú)立,所有Sw(w)與Nw(w)也相互獨(dú)立,而Nw(w)為零均值的高斯分布,所以原始語(yǔ)音的估值為
(4)
目前,大部分的語(yǔ)音識(shí)別系統(tǒng)使用的特征參數(shù)為倒譜類參數(shù).如線性預(yù)測(cè)系數(shù)倒譜(LPCC)、Mel倒譜系數(shù)(MFCC)、共振峰、基音周期等.其中LPCC和MFCC的應(yīng)用最為廣泛.
Mel倒譜系數(shù)(MFCC)是基于人耳聽(tīng)覺(jué)特征的,主要思路是把語(yǔ)音信號(hào)的頻譜通過(guò)濾波器轉(zhuǎn)換成基于Mel頻率尺度的非線性頻譜,再對(duì)濾波器的輸出進(jìn)行對(duì)數(shù)和離散余弦變換,就可以得到MFCC系數(shù),它與頻率的關(guān)系可以近似表示為[4]:
(5)
其中頻率f的單位是Hz.MFCC分析是從人耳的聽(tīng)覺(jué)機(jī)理,依據(jù)實(shí)驗(yàn)結(jié)果來(lái)分析語(yǔ)音頻譜,能夠獲得比較高的識(shí)別率和比較好的魯棒性,具體提取步驟見(jiàn)文獻(xiàn)[5-6].
模型級(jí)抗噪處理方法有2類,第1類是用于測(cè)試具有相同環(huán)境的少數(shù)數(shù)據(jù)做模型且快速適應(yīng),即自適應(yīng)方法;第2類是直接在識(shí)別模型中增加對(duì)環(huán)境噪音的處理.目前模型級(jí)抗噪處理方法中,效果比較好的是并行模型結(jié)合處理法(PMC).PMC是基于模型的噪聲補(bǔ)償算法,通過(guò)引入噪聲的統(tǒng)計(jì)知識(shí),調(diào)整用純語(yǔ)音訓(xùn)練出的模型參數(shù),也就是隱馬爾科夫模型(HMM)各個(gè)狀態(tài)的概率密度輸出函數(shù)的均值和方差,使其反映識(shí)別時(shí)實(shí)際遇到的帶噪語(yǔ)音的統(tǒng)計(jì)特征.其過(guò)程圖如圖1[7-10].
圖1中先對(duì)HMM的參數(shù)進(jìn)行IDCT(逆離散余弦變換),從倒譜域轉(zhuǎn)換到對(duì)數(shù)譜域,而此時(shí)它們?cè)趯?duì)數(shù)譜域輸出的概率密度函數(shù)很接近高斯分布,或者疊加的高斯分布,所以這樣就可以降低復(fù)雜度.合并后模型的參數(shù)再通過(guò)DCT(離散余弦變換)轉(zhuǎn)換到倒譜域用于識(shí)別.
以上3種方法對(duì)噪聲處理有一定的效果,但是自身都有不足.其中信號(hào)級(jí)去噪很難區(qū)分清輔音和寬帶噪音等;參數(shù)級(jí)去噪的缺點(diǎn)是噪音的時(shí)變性很強(qiáng),很難直接去除噪音等;模型級(jí)去噪僅限于對(duì)噪音模型的自適應(yīng)等.由于這些方法自身的缺陷,所以單一的去噪方法對(duì)于語(yǔ)音的去噪效果并不能達(dá)到實(shí)際要求的效果.鑒于這3種方法的互補(bǔ),本文提出一種改進(jìn)的去噪方法,對(duì)這3種方法進(jìn)行綜合應(yīng)用,具體操作如下:
1) 首先對(duì)帶噪語(yǔ)音進(jìn)行信號(hào)級(jí)去噪處理,本文選擇其中的譜減法.因?yàn)樽V減法的算法簡(jiǎn)單、運(yùn)算量小,能夠?qū)崿F(xiàn)快速處理,適應(yīng)性比較強(qiáng).普通的譜減法去噪會(huì)出現(xiàn)殘留而呈現(xiàn)出“音樂(lè)噪聲”[11],所以在此方法基礎(chǔ)上進(jìn)行了改進(jìn).通過(guò)頻譜相減時(shí)給噪聲譜乘上一個(gè)大于1的參數(shù),這樣頻譜相減時(shí)減去的值比估計(jì)的噪聲譜多,如式(6).
(6)
其中α和β是調(diào)節(jié)參數(shù),適當(dāng)調(diào)節(jié)它們可以達(dá)到較好的去噪效果.
2) 再對(duì)去噪后的語(yǔ)音進(jìn)行特征參數(shù)級(jí)去噪處理,本文選擇MFCC方法.
對(duì)譜減法處理后的帶噪語(yǔ)音先進(jìn)行MFCC特征提取,經(jīng)過(guò)FFT變換后得到Mel濾波器組,濾波器組的個(gè)數(shù)為M,三角濾波器的中心頻率是f(m),它們之間的間隔隨m的增加而增加.
三角函數(shù)濾波器函數(shù)為:
(7)
3) 最后再對(duì)去噪后的語(yǔ)音進(jìn)行模型級(jí)去噪處理,本文選擇PMC技術(shù).因?yàn)镻MC也是假設(shè)噪音和純凈語(yǔ)音線性疊加,而且此方法能夠適用于非平穩(wěn)特點(diǎn)的噪聲, 并且可以在不重新進(jìn)行訓(xùn)練的條件下接近在噪聲背景下訓(xùn)練得到的語(yǔ)音模型的性能.
對(duì)于上述處理過(guò)的帶噪語(yǔ)音進(jìn)行估計(jì)求解,下面是最大似然估計(jì)方程式:
(8)
然后用PMC技術(shù)與干凈的語(yǔ)音模型進(jìn)行合成,得到一個(gè)干凈語(yǔ)音模型,利用這個(gè)模型進(jìn)行識(shí)別,能夠得到比較好的識(shí)別率.過(guò)程中PMC的處理可以表示為:
(9)
其中λ是模型參數(shù),p-s是偽干凈語(yǔ)音數(shù)據(jù),g是一個(gè)加權(quán)控制因子.處理的參數(shù)是基于高斯分布的均值和方差矢量,參數(shù)的變換方法采用對(duì)數(shù)正態(tài)近似、對(duì)數(shù)求和近似的方法.
實(shí)驗(yàn)中采用的語(yǔ)音材料來(lái)自海天瑞聲科技有限公司的數(shù)據(jù)庫(kù),選擇了其中10人的100個(gè)詞語(yǔ)錄音,實(shí)驗(yàn)添加的噪音信號(hào)為高斯噪音.表1中的不同信噪比(-5 dB,0 dB,5 dB,10 dB,15 dB,20 dB)都是由純凈的語(yǔ)音信號(hào)和噪音信號(hào)線性相加而成的.然后對(duì)噪聲語(yǔ)音信號(hào)采取Hanmming窗進(jìn)行分幀,每幀時(shí)間為25 ms,疊加的時(shí)間為15 ms.再利用Matlab編程對(duì)這幾種不同信噪比的語(yǔ)音信號(hào)進(jìn)行SS、MFCC、PMC處理,幾種聯(lián)合算法及本文算法實(shí)驗(yàn)結(jié)果如表1.
由表1可以看出,在信噪比比較低時(shí),系統(tǒng)的識(shí)別率比較低,在信噪比比較高時(shí),語(yǔ)音增強(qiáng)能有比較好的魯棒性,識(shí)別率比較高.相對(duì)而言,在不同信噪比的情況下,單一的去噪方法及這幾種聯(lián)合算法識(shí)別率都不是很高,而改進(jìn)的算法能夠提高系統(tǒng)的識(shí)別率.因此改進(jìn)的方法能夠強(qiáng)于任何一種單獨(dú)算法及以上的聯(lián)合算法.
表1 幾種方法在不同信噪比下的識(shí)別率 %
語(yǔ)音去噪一直是語(yǔ)音識(shí)別研究中一個(gè)重要的難題,信號(hào)級(jí)抗噪方法、特征參數(shù)級(jí)抗噪方法、模型級(jí)抗噪方法的應(yīng)用都對(duì)于某種特定環(huán)境下的語(yǔ)音去噪,有很大的局限性.本文提出了一種結(jié)合信號(hào)級(jí)去噪方法、參數(shù)級(jí)去噪方法、模型級(jí)去噪方法的綜合方法,實(shí)驗(yàn)仿真表明,本文方法能夠有效地提高系統(tǒng)的識(shí)別率.
參考文獻(xiàn):
[1] 楊大利,徐明星,吳文虎. 噪音環(huán)境下的語(yǔ)音識(shí)別研究[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(20):1-4.
[2] 劉菁華. 一種改進(jìn)的語(yǔ)音識(shí)別抗噪算法[J].華僑大學(xué)學(xué)報(bào):自然科學(xué)版,2009,30(1):117-118.
[3] 肖全寶,徐晨,宋廣為,等.用于語(yǔ)音識(shí)別的基于高譜分辨率的譜減法[J].廣西師范大學(xué)學(xué)報(bào):自然科學(xué)版,2006,24(4):26-29.
[4] 李澤,崔宣,馬雨廷,等. MFCC和LPCC特征參數(shù)在說(shuō)話人識(shí)別中的研究[J].河南工程學(xué)院學(xué)報(bào):自然科學(xué)版,2010,22(2):51-55.
[5] 王華朋,楊洪臣. 聲紋識(shí)別特征MFCC的提取方法研究[J].中國(guó)人民公安大學(xué)學(xué)報(bào):自然科學(xué)版, 2008,14(1):28-30.
[6] 劉順蘭,竇園園,應(yīng)娜. 噪聲背景下語(yǔ)音識(shí)別特征參數(shù)選擇研究[J].杭州電子科技大學(xué)學(xué)報(bào),2011,31(4):73-76.
[7] 金連斌,丁慶海,陳顯治. PMC在噪聲環(huán)境下的語(yǔ)音識(shí)別中的應(yīng)用[J].解放軍理工大學(xué)學(xué)報(bào):自然科學(xué)版,2001,2(2):42-45.
[8] 丁沛,曹志剛. 融合語(yǔ)音增強(qiáng)與后續(xù)補(bǔ)償?shù)目乖肼曊Z(yǔ)音識(shí)別方法[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2003,43(7):919-922.
[9] JANG J S R. Audio signal processing and recognition[EB/OL].(2008-01-23) [2013-09-20]. http://neural.cs.nthu.edu.tw/jang/books/audioSignalProcessing/.
[10] 宗成慶. 統(tǒng)計(jì)自然語(yǔ)音處理[M].北京:清華大學(xué)出版社,2010.
[11] 職振華,馬建芬. 改進(jìn)的譜減法在語(yǔ)音增強(qiáng)中的應(yīng)用[J].電聲技術(shù),2008,32(2):46-48.