李真,吳文錦,任慧
(1.中國傳媒大學(xué)理工學(xué)部,北京 100024;2.視聽技術(shù)與智能控制系統(tǒng)文化部重點(diǎn)實(shí)驗(yàn)室,北京 100024;3.現(xiàn)代演藝技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100024)
?
基于短時(shí)譜估計(jì)的語音增強(qiáng)改進(jìn)算法
李真,吳文錦,任慧
(1.中國傳媒大學(xué)理工學(xué)部,北京 100024;2.視聽技術(shù)與智能控制系統(tǒng)文化部重點(diǎn)實(shí)驗(yàn)室,北京 100024;3.現(xiàn)代演藝技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100024)
語音在傳輸過程中受到來自周圍環(huán)境、傳輸媒介等的干擾是不可避免的,這些干擾會(huì)嚴(yán)重影響語音接收時(shí)的質(zhì)量,導(dǎo)致收到的語音信號(hào)不再是原始的純凈語音信號(hào),而是帶有各種干擾噪聲的語音信號(hào),這不僅影響語音的收聽質(zhì)量,也給后續(xù)的語音處理帶來了一定的影響。因此對語音進(jìn)行增強(qiáng)不可或缺。大部分傳統(tǒng)的語音增強(qiáng)算法僅僅只通過改變語音的幅度,再疊加上原始的語音相位或者僅調(diào)整語音的相位再和未改變的幅度疊加來實(shí)現(xiàn)語音信號(hào)重建從而增強(qiáng)語音。本文提出了一個(gè)通過既改變語音信號(hào)的幅度又改變其相位的語音增強(qiáng)算法。通過使用客觀語音質(zhì)量測評(píng)(PESQ)和語譜圖對用不同方法增強(qiáng)后的語音進(jìn)行比較,驗(yàn)證了用本文方法得到的增強(qiáng)語音質(zhì)量更佳。
語音增強(qiáng);幅度譜;相位補(bǔ)償
語音通信是人類最重要、最有效、最便捷的通信方式,語音信號(hào)承載著不同的信息和情感,是人類互相交流和表達(dá)的重要媒介。然而,語音在傳輸過程中不可避免的會(huì)受到不同因素(環(huán)境、傳輸媒介、設(shè)備內(nèi)部結(jié)構(gòu)等)的干擾,使得接收到的語音變成帶噪的語音,大大降低了語音質(zhì)量。為了獲得純凈的語音信號(hào),就需要進(jìn)行語音增強(qiáng)。
對于已有的語音增強(qiáng)算法,根據(jù)接收端所使用的麥克風(fēng)數(shù)目可分為單通道語音增強(qiáng)算法和多通道語音增強(qiáng)算法,本文研究單通道語音增強(qiáng)算法。在單通道語音增強(qiáng)研究領(lǐng)域中目前的研究熱點(diǎn)在于如何去除含噪語音信號(hào)中的噪聲部分,盡力恢復(fù)原始的純凈語音信號(hào),大致可分為基于短時(shí)譜估計(jì)、基于信號(hào)子空間[1][2]、基于語音生成模型[3][4]等語音增強(qiáng)算法。其中基于短時(shí)譜估計(jì)的語音增強(qiáng)算法應(yīng)用最為廣泛,其通過對帶噪語音信號(hào)進(jìn)行短時(shí)傅里葉變換后進(jìn)行純凈語音幅度譜估計(jì),結(jié)合帶噪語音的相位之后進(jìn)行短時(shí)傅里葉反變換,從而得到純凈語音估計(jì)。常用的有譜減法、維納法和基于統(tǒng)計(jì)模型的短時(shí)譜估計(jì)語音增強(qiáng)算法。常用的估計(jì)算法有:最小均方誤差估計(jì)、最大似然估計(jì)和最大后驗(yàn)概率估計(jì)。這些經(jīng)典的語音增強(qiáng)算法是只改變帶噪語音的幅度譜,而保持帶噪語音的相位譜不變,二者生成一個(gè)新的復(fù)合頻譜。Kamil Wójcicki 等提出改變帶噪語音的相位譜,而不改變帶噪語音的幅度譜[5],在所有信噪比情況下取得穩(wěn)定的語音增強(qiáng)效果,在信噪比小于15dB時(shí)效果略差于logMMSE方法,但是在信噪比大于等于15dB時(shí),相比于經(jīng)典的MMSE或者logMMSE能取得更好的語音增強(qiáng)效果。
基于以上算法所存在問題,本文提出一種既改變帶噪語音幅度譜又改變相位譜的語音增強(qiáng)算法。首先用經(jīng)典的logMMSE增強(qiáng)算法進(jìn)行帶噪語音的幅度譜估計(jì),之后再利用相位補(bǔ)償方法估計(jì)帶噪語音的相位譜,最后由二者結(jié)合組成符合頻譜作為純凈語音的頻譜估計(jì)。從而可以在任意信噪比情況下取得較好的語音增強(qiáng)效果。
其中,Xk為帶噪語音輸出頻域譜,νk由下式表示:
ξk指先驗(yàn)信噪比,表達(dá)式如下:
帶噪語音信號(hào)是實(shí)信號(hào),所以其傅里葉變換是共軛對稱的,即Χ(n,k)=Χ*(n,N-k)
相位譜補(bǔ)償函數(shù)定義如下:
(4)
(5)
當(dāng)信號(hào)的短時(shí)傅里葉變換后為非共軛矢量時(shí),Λ(n,k)的值為0(當(dāng)k=0和N為奇數(shù),k=N/2時(shí)),原帶噪語音頻譜與相位補(bǔ)償函數(shù)進(jìn)行補(bǔ)償?shù)玫?/p>
XΛ(n,k)=X(n,k)+Λ(n,k)
(6)
進(jìn)一步得到補(bǔ)償相位譜如下:
∠XΛ(n,k)=ARG[XΛ(N,K)]
(7)
補(bǔ)償?shù)南辔蛔V與含噪語音的振幅譜結(jié)合就組成一個(gè)可調(diào)復(fù)合譜信號(hào),表達(dá)式如下:
(8)
相位補(bǔ)償算法矢量原理如圖1所示。
信號(hào)幅值改變很有限
,信號(hào)幅值發(fā)生明顯改變圖1 相位補(bǔ)償法矢量原理圖
從上述矢量圖可以看出,對于帶噪語音信號(hào)的幅度譜越小則被補(bǔ)償信號(hào)消弱的越明顯,通常情況下,認(rèn)為背景噪聲和語音信號(hào)頻率相比,低振幅的成分更多一些,所以這種算法能有效去除低振幅頻率分量,即能比較好的去除噪聲達(dá)到語音增強(qiáng)的目的。
基于幅度譜估計(jì)的語音增強(qiáng)算法因?yàn)闆]有對相位進(jìn)行改變,仍保持帶噪語音相位,所以增強(qiáng)效果受到一定限制,基于相位補(bǔ)償?shù)乃惴?,因?yàn)橹粚ο辔贿M(jìn)行補(bǔ)償,沒有改變帶噪語音幅值,所以在低信噪比時(shí)增強(qiáng)效果受到限制,本文將兩種算法進(jìn)行結(jié)合,達(dá)到更好的語音增強(qiáng)效果。
首先對帶噪語音進(jìn)行分幀后加窗函數(shù),然后進(jìn)行傅里葉變換,得到其表達(dá)式如下:
(9)
再分別用相應(yīng)算法對所得頻譜的幅度和角度進(jìn)行改進(jìn),用logMMSE算法改進(jìn)幅度,得到改進(jìn)的幅度表達(dá)式如下:
(10)
用相位補(bǔ)償算法對相位進(jìn)行補(bǔ)償,得到新的相位表達(dá)式如下:
XΛ(n,k)=X(n,k)+Λ(n,k)
(11)
進(jìn)一步得到補(bǔ)償相位譜表達(dá)式如下:
∠XΛ(n,k)=ARG[XΛ(N,K)]
(12)
則改進(jìn)后的頻譜表達(dá)式如下:
(13)
上述過程的流程圖如圖2所示。
圖2 幅度譜估計(jì)與相位補(bǔ)償改進(jìn)算法流程圖
實(shí)驗(yàn)所用的素材是NOIZEUS語料庫中的語音,語料庫中有8種不同信噪比的帶噪語音,但是沒有含白噪聲的語音,我們在處理過程中生成了一系列信噪比(0db,5db,10db,20db)的含加性白噪聲的語音(白噪聲來自NIOSEX-92語料庫)。我們使用不同方法對帶噪語音進(jìn)行增強(qiáng)實(shí)驗(yàn),包括譜減法(SSUB),最小均方誤差法(MMSE),相位補(bǔ)償法(PSC)及本文提出的方法。通過客觀語音質(zhì)量測評(píng)(PESQ)和語譜圖對不同方法進(jìn)行比較。
在我們的實(shí)驗(yàn)中,分析窗函數(shù)使用的是漢明窗,幀持續(xù)時(shí)間設(shè)定為32ms,幀轉(zhuǎn)換為4ms,快速傅里葉變換長度為1024個(gè)采樣點(diǎn),不對稱函數(shù)(9)也在實(shí)驗(yàn)中有所應(yīng)用,其中的λ=3.74。
語音增強(qiáng)實(shí)驗(yàn)的客觀語音質(zhì)量測評(píng)(PESQ)結(jié)果比較如下表1所示,語譜圖分析結(jié)果比較如下圖3所示。觀察表1結(jié)果可以看出,相比于其他的增強(qiáng)方法,在四個(gè)信噪比情況下,本文提出的方法得分相較于其他方法要高,擁有最佳的增強(qiáng)效果。從圖3結(jié)果也可以看出,本文提出的方法能更好的抑制噪聲,語音增強(qiáng)效果也最為顯著。
本文提出了一種語音增強(qiáng)的新方法,該方法不再是單一的改變語音的幅度譜或相位譜,而是改變幅度譜的同時(shí)對相位譜進(jìn)行相位補(bǔ)償。從實(shí)驗(yàn)結(jié)果可以看出,本文方法優(yōu)于其他的傳統(tǒng)增強(qiáng)方法。該方法可用于需要抑制噪聲的語音識(shí)別系統(tǒng)、語音通信系統(tǒng)等,能提高語音的質(zhì)量和可懂性。
圖3 不同方法增強(qiáng)NOIZUES語料庫中信噪比為10dB的sp10語音的語譜圖
表1 logMMSE,PSC,SSUB和本文方法對帶白噪聲語音信號(hào)增強(qiáng)后的平均PESQ得分
[1]Dendrinos M,Bakamidis S,Carayannis G. Speech enhancement from noise:A regenerative approach[J]. Speech Communiation,1991,10(1):45-57.
[2]Jensen S H,Hansen P C,Hansen S D,Sorensen J A. Reduction of broadband noise in speech by truncated QSVD[J]. IEEE Transactions on Speech Audio Processing,1995,3(6):439-448.
[3]Lim S,Oppenheim A V. Enhancement and bandwidth compression of noisy speech[J]. Proceedings of IEEE,1979,67(12):1586-1604.
[4]Hansen J H,Clements M A. Constrained iterative speech enhancement with application to automatic speech recognition[D]. IEEE Transactions on Signal Processing,1991,39(4):795-805.
[5] Kamil Wójcicki,Mitar Milacic,Anthony Stark,James Lyons,Kuldip Paliwal. Exploiting Conjugate Symmetry of the Short-Time Fourier Spectrum for Speech Enhancement[A].IEEE Signal Process,Lett,2008,15:461-464..
[6] Ephraim Y,Malah D. Speech enhancement using a minimum mean square error short time spectral amplitude estimator[J]. IEEE Transactions on Acoustics,Speech,Signal Processing,1984,32(6):1109-1121.
[7] Ephraim Y,Malah D. Speech enhancement using a minimum mean square error log-spectral amplitude estimator[J]. IEEE Transactions on Acoustics,Speech,Signal Processing,1985,33(2):443-445.
(責(zé)任編輯:馬玉鳳)
Improved Algorithm of Speech Enhancement Basedon Short-time Spectrum Estimation
LI Zhen,WU Wen-jin,REN Hui
(1. Information Engineering School,Communication University of China,Beijing 100024;2. Key Laboratory of Acoustic Visual Technology and Intelligent Control System,Ministry of Culture,Beijing 100024;3. Beijing Key Laboratory of Modern Entertainment Technology,Beijing 100024)
Speech signals will be disturbed inevitably by environmental factors and transmission media during transmission. It leads to the lower quality of received speech,and the speech turns into noisy speech rather than the original clear speech,which can not only influence the voice receiving quality but also the post processing of speech. Hence,speech enhancement is very essential. Typical speech enhancement algorithms only modify the magnitude spectrum recombined with the unchanged phase spectrum or adjust the phase spectrum recombined with unchanged magnitude spectrum to reconstruct the enhanced speech signal. In this paper,a new method was proposed,which enhanced the speech by the way to change both magnitude spectrum and phase spectrum to get reconstructed speech that enhanced. The objective speech measure PESQ test and spectrogram analysis had proved that the proposed method earns outperformance among the typical algorithms.
speech enhancement;magnitude spectrum;phase spectrum compensation
2016-06-20
“十二五”國家科技支撐計(jì)劃重大項(xiàng)目“演出呈現(xiàn)關(guān)鍵支撐技術(shù)研發(fā)與應(yīng)用示范(項(xiàng)目編號(hào):2012BAH38F00)”資助
李真 (1978- ),女(漢族),河北衡水人,中國傳媒大學(xué)講師. E-mail:lizhen@cuc.edu.cn
TN919
A
1673-4793(2016)04-0065-05