曾金芳 陳達 張鈺 李友明
摘 要:在信號處理領(lǐng)域,室內(nèi)環(huán)境下的混響語音盲分離一直以來都是一個重點與難點,主要是由于混合系統(tǒng)存在的混響和回聲嚴(yán)重影響了語音質(zhì)量,從而降低了算法分離效果。因此,本文提出了一個應(yīng)對算法,由麥克風(fēng)采集到室內(nèi)混響語音混合信號后,對該混合信號進行兩階段去混響處理:首先通過設(shè)計一個逆濾波器來抑制早期混響或增大信號混響能量比,再采用譜減法來消除回聲;然后將處理過的時域卷積混合語音信號通過短時傅里葉變換轉(zhuǎn)化為頻域各個頻點的瞬時混合形式,用IVA算法分離混合語音信號,最終恢復(fù)為時域語音信號。實驗表明,該方法可以有效提高室內(nèi)混響環(huán)境下的語音盲分離效果。
關(guān)鍵詞:去混響;盲源分離;頻域分離;時域卷積
*基金項目:湖南省自然科學(xué)基金(2018JJ3486)
0 引言
盲源分離(blind source separation, BSS)是指當(dāng)源信號參數(shù)和信號混合模型都未知時,基于輸入源信號的統(tǒng)計特性,將源信號從觀測信號分離出來的過程。盲源分離技術(shù)先后應(yīng)用于文本數(shù)據(jù)挖掘、語音信號處理、地球物理信號處理等多個領(lǐng)域[1-3]。
獨立分量分析[4](independent component analysis, ICA)算法是解決盲源分離問題的一個常用且高效的算法。然而,在真實的室內(nèi)環(huán)境中,由于室內(nèi)存在的混響和回聲,接收器接收得到的信號一般都不是線性混合的,而是卷積混合的。因此通常采用頻域ICA算法進行分離。頻域ICA算法是通過短時傅里葉變換(short-time fourier transform, STFT)將混合信號由時域的卷積混合轉(zhuǎn)到頻域各個頻點的瞬時混合,再使用ICA算法進行分離。但傳統(tǒng)的頻域ICA算法通常存在幅度模糊性和排序模糊性問題[5-6],經(jīng)過學(xué)者們的不斷研究,目前已有許多算法被用來解決該問題 [7-8],如獨立向量分析(IVA)算法。
頻域ICA算法另一個需要注意的是混響強弱問題,處理不好會導(dǎo)致分離性能嚴(yán)重下降。在無噪聲條件下,混響語音的質(zhì)量主要依賴于兩個不同的感知成分:早期混響和回聲。它們分別對應(yīng)兩個物理變量:信號混響能量比和混響時間。受此啟發(fā),我們采用一種單麥克風(fēng)雙級語音去混響算法[9]。在第一階段,通過估計一個逆濾波器來抑制早期混響或增大信號混響能量比。在第二階段,采用譜減法來減少回聲的影響。實驗表明,該算法在一定程度上抑制了室內(nèi)的混響和回聲,提高了語音的質(zhì)量。
由于混響和回聲的存在,室內(nèi)混響語音盲分離導(dǎo)致算法性能嚴(yán)重下降。因此,通過結(jié)合兩階段去混響算法和IVA算法,構(gòu)建出一個新的算法模型,來處理真實室內(nèi)環(huán)境下的語音盲分離問題,即先對室內(nèi)混響語音混合信號進行兩階段去混響處理,抑制早期混響和消除回聲,再將目標(biāo)信號轉(zhuǎn)到頻域,用IVA算法分離語音信號,最終恢復(fù)為時域語音信號。
1 語音卷積混合模型
至此,在室內(nèi)混響環(huán)境下,其時域上的卷積混合便轉(zhuǎn)換成為頻域各個頻點上的瞬時混合。
2 一種室內(nèi)混響語音盲分離算法
2.1 本文算法流程
算法流程圖如圖1所示。首先,接收一段室內(nèi)混響語音信號,對該混響混合信號采用兩階段去混響算法,濾除信號中存在的混響和回聲,增大信號混響能量比和減小信號混響時間,再使用STFT變換將信號由時域上的卷積混合轉(zhuǎn)換成為頻域各個頻點上的瞬時混合,采用IVA算法分離語音信號,最后通過STFT逆變換恢復(fù)為時域語音信號。
2.2 兩階段去混響
通常在室內(nèi)環(huán)境中,信號在傳播時會產(chǎn)生混響和回聲。因此,一個麥克風(fēng)接收到的信號分為直達語音和混響成分。直達語音,即直接到達麥克風(fēng)的語音?;祉懗煞忠话惴譃樵缙诨祉懞突芈暎鐖D2所示,室內(nèi)脈沖響應(yīng)的早期部分(t<50 ms)看起來像一連串脈沖,顯示了房間的早期混響。脈沖響應(yīng)的后面部分(t>50 ms)看起來更隨機,則是房間的后期混響,也就是回聲。由于脈沖響應(yīng)的兩個部分的不同性質(zhì),本文用一個兩階段去混響算法分兩階段解決這兩種干擾。在第一階段,我們通過估計一個逆濾波器,以抑制早期混響。第二階段,我們采用譜減法來消除回聲的影響,如圖3所示。
1)抑制早期混響
在單通道去混響算法的第一階段,我們通過估計一個逆濾波器來抑制早期混響效應(yīng)或增大信號混響能量比[11]。
圖4顯示了圖2逆濾波后的室內(nèi)脈沖響應(yīng)波形圖。通過圖2與圖4的對比可以看出,圖2原始脈沖響應(yīng)50 ms之前的混響成分幅度大、多且雜亂,而圖4逆濾波室內(nèi)脈沖響應(yīng)波形圖50 ms之前的早期混響部分在很大程度上被抑制住了。由此可得出,此算法估計的逆濾波器能在一定程度上抑制室內(nèi)脈沖響應(yīng)的早期混響部分,增大信號混響能量比,提高語音質(zhì)量。
3.3 仿真結(jié)果
對兩組信號采用本文提出的基于去混響的室內(nèi)混響語音盲分離算法進行分離,并輸出波形。兩組語音的源信號、混合信號以及分離出來的信號均如圖7所示。為了美觀,本文只列出了一組室內(nèi)混響語音盲分離的波形圖。源信號如圖7所示。將源信號與通過Roomsim生成的混響沖擊響應(yīng)卷積得到混合信號,如圖8所示。再將混合信號經(jīng)過兩階段去混響處理,得到語音去混響波形圖,如圖9所示。最后通過本文提出的算法得到分離信號波形圖,如圖10所示。
通過圖8與圖9之間對比可以看出,經(jīng)過去混響算法后,混合語音細(xì)節(jié)變得更加清晰,且明顯消除了室內(nèi)混響所產(chǎn)生的回聲。因此,兩階段去混響算法效果十分明顯。
通過將圖10和圖7進行對比可以看出,該算法能夠?qū)⒃葱盘栍行Х蛛x出來。但是僅僅通過觀察,并不能準(zhǔn)確評價算法的分離效果。因此本文引入盲源分離工具箱來評估算法的分離效果,并與未進行兩階段去混響的原頻域分離算法進行對比分析。通過實驗仿真,得到兩組數(shù)據(jù)的兩種算法的SIR和SDR性能參數(shù),如圖11和圖12。從圖11中可以看出,改進算法的SIR相對于原算法最高獲得了2.13 dB的提升,SDR最高提升了1.21 dB。
4 結(jié)語
針對室內(nèi)混響環(huán)境下卷積混合語音信號存在混響和回聲而導(dǎo)致頻域盲分離精度低的問題,提出了一種新的室內(nèi)混響語音盲分離方法,可以有效提高室內(nèi)混響語音盲分離的效果。
參考文獻:
[1] LEGLAIVE S, BADEAU R,RICHARD G.Separating Time-Frequency Sources from TimeDomain Convolutive Mixtures Using Non-negative Matrix Factorization[C]. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), Oct 2017, New Paltz, New York, United States.
[2] 張華,馮大政,龐繼勇.卷積混迭語音信號的聯(lián)合塊對角化盲分離方法[J].聲學(xué)學(xué)報(中文版),2009,34(02):167-174.
[3] 季策,姜雨田.基于方向幅值比的欠定盲源分離算法[J].東北大學(xué)學(xué)報(自然科學(xué)版),2019,40(07):920-924.
[4] 陳秀敏,李珊君,董興建.Fast-ICA算法非線性函數(shù)性能的仿真分析[J].計算機應(yīng)用與軟件,2020,37(06):277-282+333.
[5] 李揚,張偉濤,樓順天.基于聯(lián)合對角化的聲信號深度卷積混合盲分離方法[J].電子與信息學(xué)報,2019,41(12):2951-2956.
[6] 張?zhí)祢U,張華偉,劉董華,李群.基于區(qū)域增長校正的頻域盲源分離排序算法[J].電子與信息學(xué)報,2019,41(03):580-587.
[7] 冷艷宏,鄭成詩,李曉東.功率比相關(guān)子帶劃分快速獨立向量分析[J].信號處理,2019,35(08):1314-1323.
[8] 朱堅堅,王惠剛,李虎雄.聯(lián)合頻域盲語音分離排序算法[J].計算機應(yīng)用,2008(06):1552-1554+1562.
[9] WU M, WANG D. A two-stage algorithm for one-microphone reverberant speech enhancement[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(3): 774-784.
[10] 顧凡,王惠剛,李虎雄.一種強混響環(huán)境下的盲語音分離算法[J].信號處理,2011,27(04):534-540.
[11] GILLESPIE B W, MALVAR H S, FLORENCIO D, et al. Speech dereverberation via maximum-kurtosis subband adaptive filtering[C]. international conference on acoustics, speech, and signal processing, 2001: 3701-3704.
[12] HAYKIN S.Adaptive Filter Theory[M].4th ed. Upper Saddle River, N.J.: Prentice-Hall, 2002.
[13] NAKATANI T, MIYOSHI M.Blind dereverberation of single channel speech signal based on harmonic structure[C]. international conference on acoustics, speech, and signal processing, 2003: 92-95.
[14] KIM T,ATTIAS H T,LEE S Y,et al.Blind source separation exploiting higher-order frequency dependencies[J].IEEE Transactions on Audio Speech &Language Processing, 2006,15(1):70–79.
[15] 張?zhí)祢U,徐昕,吳旺軍,等.多反復(fù)結(jié)構(gòu)模型的精確音樂分離方法[J].聲學(xué)學(xué)報, 2016(1): 135-142.