史銀霄,吳禮福,馮濤
(南京信息工程大學(xué) 電子與信息工程學(xué)院,江蘇南京,210044)
在電子產(chǎn)品廣泛普及的互聯(lián)網(wǎng)時(shí)代里,線上的工作和學(xué)習(xí)已經(jīng)成為人們生活中的普遍方式之一,但在封閉空間中,聲源產(chǎn)生的聲波一部分會(huì)直接傳播至傳聲器,另一部分則會(huì)產(chǎn)生混響,語音信號將會(huì)受到混響的較大影響,可懂度和清晰度會(huì)大幅度降低,混響負(fù)面影響嚴(yán)重時(shí),遠(yuǎn)程會(huì)議,移動(dòng)通信等功能會(huì)受到極大的限制,因此對語音去混響的研究就成為國內(nèi)外語音信號處理領(lǐng)域的一個(gè)重要的研究熱點(diǎn),也是聲音信號處理的一個(gè)重要的研究分支。
近幾十年來,國內(nèi)外對于語音去混響的研究從未停止,也不斷有重要的成果的出現(xiàn)。對于此領(lǐng)域的研究思路根據(jù)接收語音信號的麥克風(fēng)數(shù)目通常可分為單通道去混響方法和多通道去混響方法。單通道去混響是傳聲器數(shù)量僅為一個(gè)的去混響方法,其主要有維納濾波方法[1]和復(fù)倒譜域?yàn)V波算法[2]以及麥克風(fēng)陣列語音加強(qiáng)等方法。傳統(tǒng)的單通道去混響的方法帶來的一個(gè)問題就是會(huì)產(chǎn)生信號相位的模糊的問題,然后對信號進(jìn)行重構(gòu)會(huì)遇到較大的困難。
本文考慮一個(gè)簡單的聲學(xué)系統(tǒng),其有一個(gè)靜態(tài)的單語音源和兩個(gè)全向傳聲器。兩個(gè)傳聲器之間相距10cm,傳聲器與聲源相距約為3m。源的位置直接在兩個(gè)麥克風(fēng)的前面。將干凈的語音信號與房間脈沖響應(yīng)卷積得到麥克風(fēng)接收信號,采用圖像法來分析空間聲學(xué)特性,并生成多通道房間脈沖響應(yīng)。在封閉房間和混響時(shí)間為固定值的條件下,選擇長度合適的女性語音作為測試語音數(shù)據(jù),再利用脈沖響應(yīng)發(fā)生器獲得兩通道房間的脈沖響應(yīng)(RIR),從而獲得干凈的單個(gè)語音。
有多通道反卷積的逆濾波器理論模型去混響、基于多通道均衡技術(shù)的去混響和基于譜估計(jì)和空間濾波器相結(jié)合去混響等幾種主流去混響方法,但需要保證對密閉環(huán)境沖激響應(yīng)的估計(jì)要有較高的正確性,同時(shí)這幾種去混響理論的性能往往取決于擴(kuò)散功率譜譜密度估計(jì)的正確性,具有很大的局限性。因此,本文擬采用一種多通道線性預(yù)測(MCLP)基于QR分解的遞歸最小二乘(QR-RLS)自適應(yīng)濾波器,以避免由RLS算法引起的可能的不穩(wěn)定性,并實(shí)現(xiàn)與MCLP相同的語音去混響性能。
設(shè)定一個(gè)常見的有M個(gè)麥克風(fēng)的封閉混響空間環(huán)境,麥克風(fēng)捕獲的語音信號由語音信號和噪聲組成。所以麥克風(fēng)信號可以表示為:
其中,x(n)為語音信號,v(n)為額外不期望產(chǎn)生的噪聲。為了著重研究混響消除的問題,簡化公式的描述以及公式模型,假設(shè)為0v(n)=,設(shè)x(k,n)表示STFT中的混響語音信號,設(shè)定一個(gè)混響室中單個(gè)語音源和M個(gè)麥克風(fēng)的場景麥克風(fēng)信號xm(k,n)可以分解為:
其中所需的組件d m(k,n)包含直接的語音和早期的反射,也被稱為所期望的語音,而不期望的組件u m(k,n)包含后期的反射,例如混響??梢栽诿總€(gè)頻率箱索引中使用MCLP對不期望的語音分量u(k,n)進(jìn)行建模,其在每個(gè)頻率箱指數(shù)中建模如下:
因?yàn)榉匠淌絰(n)=y(n)+v(n) 和x m(k,n)=d m(k,n)+u m(k,n)分別涉及每個(gè)頻率箱的計(jì)算,且信號將在每個(gè)頻率箱中獨(dú)立建模,為了推導(dǎo)清晰而精確,因此省略了頻率指數(shù)k,MC模型可以寫為:
其中,x(n) =[x1(n),...,x M(n)]T和d(n)和u(n)的定義也很相似,可以通過使用MCLP作為濾波(延遲)麥克風(fēng)信號的總和來對不期望的組件u(n)(不期望的混響)進(jìn)行建模。結(jié)合u(k,n)和MC模型(蒙特卡羅模型:對于一個(gè)研究項(xiàng)目實(shí)驗(yàn)的次數(shù)越多,實(shí)驗(yàn)所得結(jié)果越趨于準(zhǔn)確值),所需的語音分量可以估計(jì)為:
基于RLS算法的自適應(yīng)語音去混響可以用來求解預(yù)測濾波器的系數(shù),該方法通過最大化時(shí)頻域內(nèi)期望語音信號的稀疏性來獲得預(yù)測濾波器,從而得到預(yù)測系數(shù)矩陣,但是傳統(tǒng)RLS算法存在一定的問題,其中的一個(gè)問題是其算術(shù)復(fù)雜度相對較高,即自適應(yīng)濾波器中的抽頭數(shù)較多。傳統(tǒng)RLS算法的另一個(gè)問題是其在某些情況下可能不穩(wěn)定,它在有限字長實(shí)現(xiàn)中通常遇到數(shù)值不穩(wěn)定性,特別是對于短的內(nèi)部字長。因此,我們采用了基于QR-RLS的MCLP算法來代替MCLP算法中的加權(quán)RLS部分[3]。
QR分解是一種將矩陣作為兩個(gè)矩陣的乘積來運(yùn)算的方法,其中一個(gè)是正交的,或者至少有正交的列,另一個(gè)是上三角形的,QR分解可以使用經(jīng)典的或改進(jìn)后的算法來完成。QR-RLS利用了三角測量過程的優(yōu)點(diǎn),基于魯棒的QR分解,其中包含Givens變換[5],具有良好的數(shù)學(xué)特性,是一種具有正確定性的數(shù)值穩(wěn)定算法:
估計(jì)誤差e(t)按上述QR-RLS的估計(jì)方程計(jì)算,濾波器根據(jù)方程定期更新其權(quán)值,其中p(n)為相應(yīng)的向量,R(n)為三角形矩陣。
基于QR的RLS算法在數(shù)學(xué)上等價(jià)于傳統(tǒng)的RLS算法,但具有更高的數(shù)值穩(wěn)定性,利用QR-RLS原理對上述方程進(jìn)行重新調(diào)整,可以推導(dǎo)出基于QR-RLS自適應(yīng)濾波器的MCLP去混響算法如下:
(1)給定增強(qiáng)的數(shù)據(jù)矩陣
以及它在幀(n-1)處的QRD(Qualcomm Reference Design,QRD是一套可以完整提供終端參考設(shè)計(jì)的平臺)。
(2)(QRD)形成新的增廣數(shù)據(jù)矩陣
(3)(反解決)解決三角形系統(tǒng)
其中g(shù) i(n)是g(n)的第i個(gè)元素[5]。
濾波器能夠在給定的環(huán)境中的工作過程中獲得必要的信息,從而響應(yīng)信號特性的變化。因此,它可以適應(yīng)和處理非平穩(wěn)過程產(chǎn)生的信號,卻無法獲得這些過程中的時(shí)變參數(shù)。為了實(shí)現(xiàn)自適應(yīng)濾波器的功能,需要通過參考信號向它們提供附加信息[4]。這就需要引入除了觀察到的信號本身之外的額外輸入。參考信號與預(yù)期的輸出信號以某種方式近似相關(guān)。通常它是前面提到的輸出信號。
該算法的目的是計(jì)算濾波器系數(shù)的最佳估計(jì)值,以便輸出信號盡可能接近所需的信號。在尋找濾波器系數(shù)的過程中,誤差函數(shù)通常通過優(yōu)化來求解。
本文以MATLAB信號處理與無線通信工具為核心,設(shè)計(jì)一套基于QR分解遞歸最小二乘(QR-RLS)自適應(yīng)濾波器的多信道線性預(yù)測(MCLP)語音去混響系統(tǒng)。系統(tǒng)整體框圖如圖1所示。
圖1 系統(tǒng)功能框圖
(1)語音信號采集:采樣是將一個(gè)信號(即時(shí)間或空間上的連續(xù)函數(shù))轉(zhuǎn)換成一個(gè)數(shù)值序列(即時(shí)間或空間上的離散函數(shù))。(2)語音信號頻譜分析:首先畫出語音信號的時(shí)域波形,然后對語音信號進(jìn)行頻譜分析。(3)設(shè)計(jì)濾波器:本系統(tǒng)基于Givens旋轉(zhuǎn)的QR-RLS算法和一些穩(wěn)定性考慮,詳細(xì)給出了一種快速算法。(4)濾波器濾波:用QR-RLS算法使信號中特定的頻率成分通過,而極大地衰減混響的頻率成分,濾除干擾噪聲。(5)濾波前后語音信號頻譜分析:在Matlab中,在一個(gè)窗口同時(shí)畫出濾波前后的波形及頻譜,使用相關(guān)聲音函數(shù)對聲音進(jìn)行回放。
麥克風(fēng)陣列傳導(dǎo)人聲,內(nèi)置聲卡對于傳導(dǎo)的人聲進(jìn)行采集與處理,形成對應(yīng)的文件,接著由本項(xiàng)目設(shè)計(jì)的QR-RLS自適應(yīng)濾波器濾波,去除混響與雜音,再播放出清晰的語音人聲,進(jìn)而達(dá)到語音去混響效果。圖2為硬件平臺設(shè)計(jì)框架圖。
圖2 硬件平臺設(shè)計(jì)框架圖
我們應(yīng)用基于加權(quán)RLS算法的MCLP去混響算法來處理模擬混響語音數(shù)據(jù)[6],并測試該算法的性能。本項(xiàng)目采用了一個(gè)簡單的具有靜態(tài)單聲源和兩個(gè)全向麥克風(fēng)的聲學(xué)系統(tǒng)。麥克風(fēng)間的距離為10cm,語音源與麥克風(fēng)之間的距離約為3m。源的位置直接在兩個(gè)麥克風(fēng)的前面。通過對麥克風(fēng)的純凈語音信號和房間脈沖響應(yīng)進(jìn)行卷積,獲得麥克風(fēng)接收的信號。表1是封閉空間的具體參數(shù)。
表1 封閉空間的具體參數(shù)
其 中,RT60(Reverberation Time,指 聲 場 衰 減 60dB 所用的時(shí)間,單位為秒)為房間的混響時(shí)間。
第一個(gè)實(shí)驗(yàn)中選擇了一個(gè)長度為10秒的女性話語作為測試語音數(shù)據(jù),并且單揚(yáng)聲器為90°方向,即正對著信號源。我們基于加權(quán)QR-RLS算法的MCLP去混響算法,采用4種不同遺忘因子值的自適應(yīng)MCLP去噪算法對語音信號進(jìn)行處理,測量的處理語音譜圖如圖3和圖4所示,分別為清晰語音(處理結(jié)果)和混響語音(未經(jīng)處理的錄音)譜圖。
圖3描述了處理后的清晰語音譜圖,其為具有4種不同遺忘因子值的處理后的語音譜圖。圖4未經(jīng)處理的錄音譜圖,與圖1相比,各語音信號經(jīng)過密閉空間墻面的反射,相互影響,重疊到了一起,聽實(shí)際的錄音情況,經(jīng)過去混響處理的語音要比未經(jīng)處理的混響語音清晰得多,可懂度和清晰度也有了明顯的提升。
為了分別對比處理后的語音和參考信號之間的差異以及和混響語音和參考信號之間的差異,我們通過軟件得到無混響的干凈的錄音(參考信號)的譜圖如圖5所示。
經(jīng)過對比,我們顯然可以看出圖3的去混響譜圖與圖5的參考信號譜圖的峰值和波形基本相同,而圖4的混響譜圖與圖5的參考信號譜圖的信號的峰值和波形差異很大。實(shí)際情況下聽三種語音,可以明顯地發(fā)現(xiàn)經(jīng)過去混響處理的語音信號和參考信號的清晰度和可懂度接近,但是,混響輸入信號和參考信號相比,雜音多,混響嚴(yán)重,清晰度與可懂度很低。
圖3 清晰語音(處理結(jié)果)譜圖
圖4 混響語音(未經(jīng)處理的錄音)譜圖
圖5 參考信號的譜圖
另外,我們進(jìn)行了第二個(gè)對比實(shí)驗(yàn),在與實(shí)驗(yàn)1所有的參數(shù)相同的條件下,采用兩個(gè)全向麥克風(fēng)的聲學(xué)系統(tǒng),麥克風(fēng)間的距離為10cm,語音源與麥克風(fēng)之間的距離約為3m,其中第一個(gè)麥克風(fēng)為60°方向,第二個(gè)麥克風(fēng)為90°方向,利用同樣的方法,我們獲得了清晰語音(處理結(jié)果)、混響語音(未經(jīng)處理的錄音)以及參考信號的譜圖,分別為圖6、圖7和圖8所示。
圖6 清晰語音(處理結(jié)果)譜圖
圖7 混響語音(未經(jīng)處理的錄音)譜圖
圖8 參考信號的譜圖
由此我們可以得到與實(shí)驗(yàn)1相同的結(jié)論,經(jīng)過去混響處理的語音信號和參考信號的清晰度和可懂度接近,但是,混響輸入信號和參考信號相比,雜音多,混響嚴(yán)重,清晰度與可懂度很低。
基于加權(quán)QR-RLS算法的MCLP去混響算法是一種不影響去混響性能的基于加權(quán)RLS的算法,其具有極好的去混響應(yīng)用性能。另外,算法的性能與遺忘因子的值有關(guān),QR-RLS算法在遺忘因子較高的情況下可以有效地消除后期混響,其性能與遺忘因子呈正相關(guān)。
QR-RLS算法可以實(shí)現(xiàn)極佳的語音去混響性能,該算法需要復(fù)雜的數(shù)學(xué)運(yùn)算來計(jì)算,但是它有極大的收斂速度和更大的精度,與此同時(shí),其過濾性更好,其數(shù)值穩(wěn)定性相較于基于加權(quán)RLS的MCLP算法要好得多,且提高了對遺忘因子和濾波器長度的魯棒性。為了解決QR-RLS算法的數(shù)學(xué)復(fù)雜性,需要實(shí)現(xiàn)一個(gè)更強(qiáng)大的濾波器系統(tǒng),這會(huì)導(dǎo)致成本的增加,而自適應(yīng)算法可以以相對較低的成本解決任務(wù)量較大的項(xiàng)目。因此,隨著計(jì)算機(jī)和移動(dòng)設(shè)備的硬件性能不斷提高,本項(xiàng)目針對語音的室內(nèi)去混響的完全實(shí)現(xiàn)具有一定的潛力,有助于語音去混響在網(wǎng)絡(luò)會(huì)議與日常通信中廣泛應(yīng)用。