李敏杰
摘 要: 在增強語音的過程中,綜合考慮語音特性、噪聲特性以及聽覺特性,既要提高信噪比,也要不失真,所以為去除不同的噪聲,需要不同的語音增強算法?;谏鲜鲈颍疚囊约儍粽Z音和噪聲語音的特性為依據(jù),介紹不同的語音增強方法處理后語音的質(zhì)量好壞。
關(guān)鍵詞: 語音增強;語音特性;噪聲特性
1.前言
在生活中,語音信號往往都帶有噪聲,在對語音信號進行進一步處理(語音識別、語音合成)之前,需要對帶噪語音進行語音增強處理。對帶噪語音進行去噪處理時,要盡可能多的保留有用信號,達到有效傳遞信息,實現(xiàn)語音增強的目的,本文針對不同信噪比的帶噪語音進行語音增強,并對語音增強后質(zhì)量好壞進行評價。
2.語音增強理論依據(jù)
干凈語音和噪聲以及二者結(jié)合的帶噪語音的特征是進行語音增強的理論依據(jù)。根據(jù)上述三類語音的語音特性,需要對其進行多方面分析,其中包括了解其時域特性以及頻域特性。
2.1 純凈語音
語音從人的口腔發(fā)聲出來的瞬間,如果周圍的環(huán)境是安靜的,則發(fā)聲的語音將沒有被周圍的噪聲所污染,我們把它稱作純凈語音信號。語音在不同幀長下服從不同的分布,比如說,進行分幀時,一般取20-30ms的幀長,此時,語音較符合伽馬分布和拉普拉斯分布。對于幀長無窮大時,認為語音此時服從高斯分布。
2.2 噪聲特性
干擾噪聲從疊加方式上可以分為兩種:加性和非加性。研究表明,對于非加性噪聲經(jīng)過變換,能夠?qū)崿F(xiàn)轉(zhuǎn)換為具有加性噪聲的特性。為了便于理論說明,這里僅討論加性噪聲的情況。而加性噪聲里不僅有平穩(wěn)噪聲,還有非常難去除的非平穩(wěn)噪聲。平穩(wěn)噪聲的變化較慢,特性不明顯,而非平穩(wěn)噪聲變化迅速,從含有非平穩(wěn)噪聲的帶噪語音中恢復干凈語音信號相對困難。所以,在研究語音增強之前,一定要了解想要去除的噪聲類型,根據(jù)噪聲的時域和頻域特性研究不同的算法。
3 語音增強技術(shù)
本章重點介紹一些在實際中常用的經(jīng)典的語音增強算法以及關(guān)于它們的改進算法,對結(jié)果進行評價。
3.1 譜減法及其改進算法
譜減法是最常用的語音增強算法,譜減法認為噪聲與語音相互獨立,進而估計出噪聲語音的功率譜,利用已知帶噪語音的功率譜減去和估計出的噪聲語音的功率譜相減,利用經(jīng)過FFT變換得出的相位角,可以恢復出干凈語音信號。譜減法是一種十分經(jīng)典,但是簡單好用的方法。
由于對帶噪信號和噪聲信號譜估計的偏差,經(jīng)過譜減法增強后的語音有明顯的“音樂噪聲”,傳統(tǒng)的譜減法多用的是周期圖法進行譜估計,其只是一個數(shù)據(jù)窗,引入的多窗譜估計用到了同一數(shù)據(jù)序列的多個正交的數(shù)據(jù)窗,對其分別計算出直接譜,最后根據(jù)求到的譜求取平均值,該方法的估計方差更小,故而譜估計更精確。
3.2 最小均方誤差算法及其改進算法
最小均方誤差估計()進行語音增強時也要先估計出噪聲功率譜,此增強方法主要以統(tǒng)計理論為基礎,利用統(tǒng)計特性可以實現(xiàn)初始化統(tǒng)計參數(shù),實現(xiàn)最優(yōu)濾波。經(jīng)由MMSE增強的目的就是為了得到原始語音信號的的估計,利用處理后語音的幅值估計對均方誤差進行計算求取最小值。
對于人耳來說,頻譜分量的幅度才是最重要的,即人耳對語音強度的聽覺感受與幅度譜的對數(shù)成正比關(guān)系。研究表明,基于對數(shù)失真準則可以得到更好的頻譜估計,故而對基本MMSE的估計譜進行對數(shù)修正。
4 實驗仿真及結(jié)果分析
針對本章前面論述的各種語音增強算法,應用MATLAB仿真軟件,對譜減法及其改進算法、最小均方誤差法及其改進算法,進行仿真實驗,從信噪比、分段信噪比兩個方面對增強前后的語音進行對比分析,得出實驗結(jié)論。實驗所用數(shù)據(jù):實驗室環(huán)境下,基于LabVIEW和NI八通道數(shù)據(jù)采集卡NI4472采集的語音,共4男4女,每人9段10秒的中文干凈語音,及噪聲庫noisex-92里的工廠噪聲factory1,語音增強算法通常工作在0~15 dB的SNR環(huán)境中,本文主要對0dB的帶噪語音進行研究,結(jié)果如下所示:
5.結(jié)論
本文介紹了基于氣導語音的語音增強的多種算法,譜減法增強效果明顯,但增強后的語音多含有音樂噪聲。最小均方誤差法達到了語音可懂度和信噪比的折中,但在強背景噪聲環(huán)境下,殘留噪聲和音樂噪聲都很大,且運算量大。每個算法均有其優(yōu)缺點,本文根據(jù)上述各算法的缺點,均有其改進算法,取得了明顯的效果。
參考文獻
[1]朱穎莉. 基于多傳感器的語音增強技術(shù)研究. 碩士學位論文,華南理工大學,2013.
[2]張賢達, 保錚. 非平穩(wěn)信號分析與處理.國防工業(yè)出版社, 北京, 1998.
[3]隋璐瑛, 張雄偉, 黃建軍等. 一種基于非負矩陣分解的語音增強算法[J]. 軍事通信技術(shù).
[4]戴禮榮, 張仕良. 深度語音信號與信息處理:研究進展與展望. 數(shù)據(jù)采集與處理. 2014, 29(2):172-179.
[5]趙力.語音信號處理.北京:機械工業(yè)出版社 2003:272-273,282-283.
[6]余建潮, 張瑞林. 改進增益函數(shù)的 MMSE 語音增強算法[J]. 計算機工程與設計, 2010 (14): 3287-3289.
[7]T. erkmann, M. Krawczyk. MSE-optimal spectral amplitude estimation given the STFT-phase[J]. Signal Processing Letters, IEEE, 2013, 20(2): 129-132.