李鴻燕,屈俊玲,張雪英
(太原理工大學(xué) 信息工程學(xué)院,太原030024)
語音在實(shí)際傳輸環(huán)境中,總會(huì)受到各種各樣噪聲的干擾,如機(jī)器噪音、音樂干擾和其他說話者的聲音等。噪聲干擾對(duì)于諸如自動(dòng)語音識(shí)別系統(tǒng)、助聽器、視頻會(huì)議等應(yīng)用領(lǐng)域提出了挑戰(zhàn)[1-3]。針對(duì)這一問題,過去的幾十年里,研究人員做了大量的工作,開發(fā)計(jì)算機(jī)系統(tǒng)來分離目標(biāo)語音或者減弱噪聲干擾。
目前,對(duì)于混合語音信號(hào)分離的研究主要有兩方面:盲信號(hào)分離(Blind source separation,BSS)和計(jì)算聽覺場(chǎng)景分析(Computational auditory scene analysis,CASA)[4-6]。盲信號(hào)分離有一些假設(shè)條件,如要求觀測(cè)信號(hào)的個(gè)數(shù)大于等于源信號(hào)的個(gè)數(shù);假定噪聲不存在或噪聲很小,可以忽略不計(jì)等,這些假設(shè)條件在某種程度上限制了盲信號(hào)分離的應(yīng)用[7]。近年來,CASA 算法由于其不需要假設(shè)信號(hào)的統(tǒng)計(jì)特性和單通道條件下的可實(shí)現(xiàn)性,已受到國(guó)內(nèi)外研究學(xué)者的廣泛關(guān)注。語音由濁音和清音兩部分組成,濁音是語音信號(hào)的主要組成部分,含有語音信號(hào)的大部分信息[8]。對(duì)于單通道濁語音分離的問題,Hu 和Wang等[9]提出的基于諧波和幅度調(diào)制的混合語音分離系統(tǒng)有效地改善了目標(biāo)語音的分離性能,并且優(yōu)于以前的CASA 算法。但是,相比于低頻部分的信號(hào)來說,語音信號(hào)在高頻部分(>1kHz)的能量比較低,容易受到噪聲干擾,因此,當(dāng)混合語音信號(hào)中的噪聲干擾變強(qiáng)時(shí),將會(huì)干擾Hu-Wang算法中對(duì)應(yīng)的聽覺線索,從而影響系統(tǒng)的分離效果[10]。聲學(xué)特性表明,濁語音具有準(zhǔn)周期性,因此,諧波特性成為濁語音的重要特征。同時(shí),在濁語音的諧波上還分布著語音信號(hào)的大部分能量,能量是濁音的一個(gè)重要特征[11]。由于語音信號(hào)的低頻信道上分布了信號(hào)的絕大部分能量信息,而在高頻信道上只占有非常少的能量。因此,對(duì)于混合語音信號(hào),如果某個(gè)高頻信道上分布了足夠多的能量,可以認(rèn)為,目標(biāo)語音信號(hào)在該信道上受到噪聲嚴(yán)重干擾。
基于以上研究,本文提出了一種基于諧波特性[12]和能量特征的計(jì)算聽覺場(chǎng)景分析(CASA)算法,與經(jīng)典的Hu-Wang模型不同之處在于,在語音的聽覺重組部分引入了能量特征來完成目標(biāo)語音的重組,減小噪聲的影響,算法更加穩(wěn)定,重組之后的目標(biāo)語音信號(hào)更接近于原始純凈的語音信號(hào)。實(shí)驗(yàn)結(jié)果顯示,本文提出的改進(jìn)算法與Hu-Wang模型相比,分離性能有明顯提高。
本文提出的單通道濁語音改進(jìn)算法包括混合語音信號(hào)的前端處理、聽覺特征提取、基于諧波特性的聽覺分割、基于能量特征的聽覺重組以及目標(biāo)語音的重構(gòu)5個(gè)部分,如圖1所示。
圖1 濁語音分離改進(jìn)算法框圖Fig.1 Voiced speech separation improved algorithm block diagram
前端處理是將輸入的混合時(shí)域信號(hào)轉(zhuǎn)化成相應(yīng)的時(shí)頻域表示形式。根據(jù)人耳的感知機(jī)理,將輸入混合聲音信號(hào)通過128個(gè)信道的Gammatone濾波器組進(jìn)行帶通濾波,Gammatone濾波器對(duì)于人耳基底膜在不同頻率上的響應(yīng)都能很好地模擬,是一種標(biāo)準(zhǔn)的聽覺濾波模型,該濾波器的中心頻率按照等距寬(Equivalent rectangular bandwidth,ERB)在80~5kHz之間準(zhǔn)對(duì)數(shù)分布[13-14]。將時(shí)頻分解后的每一個(gè)Gammatone濾波器的輸出送入Meddis內(nèi)耳毛細(xì)胞模型,得到神經(jīng)發(fā)放率。然后,在時(shí)域上對(duì)每個(gè)毛細(xì)胞的輸出以幀長(zhǎng)20 ms、50%重疊為幀移進(jìn)行分幀處理。將輸入的混合語音信號(hào)分解成為一系列時(shí)頻單元,即T-F 單元。同時(shí),為了高頻部分的特征提取和聽覺重組,對(duì)毛細(xì)胞輸出進(jìn)行半波整流和低通濾波,從而得到每個(gè)通道的包絡(luò)特征。
經(jīng)過前端處理過程,混合語音信號(hào)在時(shí)域和頻域上被分解成一系列的T-F 單元,在每個(gè)T-F單元中,計(jì)算下列特征函數(shù):自相關(guān)函數(shù)AH、包絡(luò)自相關(guān)函數(shù)AE、主基音周期P(m)、相鄰信道互相關(guān)CH、相鄰信道包絡(luò)互相關(guān)CE。
式中:c 為信道;m 為時(shí)間幀;Nc為采樣點(diǎn)數(shù);h(c,·)為神經(jīng)發(fā)放率;時(shí)延τ∈[0,12.5]ms,表示幀移;hE(c,·)為毛細(xì)胞輸出包絡(luò)。
根據(jù)聽覺特征提取的特征函數(shù),將混合語音信號(hào)經(jīng)過聽覺前端處理后的那些T-F 單元合并成對(duì)應(yīng)的聽覺片段。在時(shí)頻域中,將屬于某一個(gè)聲源的連續(xù)T-F單元的片段區(qū)域定義為段,它是介于時(shí)頻單元和語音聽覺流的中間表示。聽覺分段的目的在于分辨出時(shí)頻域中可以利用的那些連續(xù)T-F單元,并且每個(gè)分段惟一地對(duì)應(yīng)著某一個(gè)聲源。
(1)類型“1”聽覺片段
Gammatone聽覺濾波器組中,由于相鄰的帶通頻率之間表現(xiàn)出明顯的重疊現(xiàn)象,從而多個(gè)鄰近濾波器受到同一個(gè)諧波的激勵(lì),導(dǎo)致相鄰信道的高度相關(guān)性。聽覺濾波器相鄰信道互相關(guān)(CH)程度越高,即其值越接近于1,表明這兩個(gè)相鄰信道來自于同一聲源的可能性越大[14]。因此,對(duì)于頻率信道上的兩個(gè)相鄰T-F 單元,如果其相鄰信道互相關(guān)(CH)滿足式(6),則將這兩個(gè)T-F單元都標(biāo)記為“1”。
語音信號(hào)具有時(shí)域連續(xù)性,通常會(huì)持續(xù)一段時(shí)間(>50ms)。基于語音信號(hào)的這兩個(gè)特性,可以成功地將標(biāo)記是“1”的那些相鄰T-F 單元合并到聽覺片段中,從而得到類型“1”的聽覺片段,segment,完成混合語音信號(hào)低頻部分的聽覺分割。
(2)類型“2”聽覺片段
語音信號(hào)的高頻范圍(>1kHz)內(nèi),聽覺濾波器的頻率通帶較寬,一個(gè)濾波器會(huì)同時(shí)響應(yīng)多個(gè)諧波,以至于這些不確定諧波的濾波響應(yīng)產(chǎn)生幅度調(diào)制(AM)現(xiàn)象,并且相鄰?fù)ǖ赖陌j(luò)具有很強(qiáng)的通道互相關(guān)。相鄰信道包絡(luò)互相關(guān)程度越高,表明高頻范圍內(nèi)的兩個(gè)相鄰信道來自于同一聲源的可能性越大。因此,對(duì)于頻率通道上的兩個(gè)相鄰T-F單元,如果其相鄰信道包絡(luò)互相關(guān)CE滿足式(7),則將這兩個(gè)相鄰T-F 單元標(biāo)記為“2”。
對(duì)于不確定性時(shí)頻單元,根據(jù)幅度調(diào)制現(xiàn)象和時(shí)域連續(xù)性這兩個(gè)特性,可以成功地將標(biāo)記為“2”的相鄰T-F 單元合并到聽覺片段中,從而得到類型“2”的聽覺片段,{chf},完成了高頻區(qū)域連續(xù)T-F 單元的聽覺分割。
(3)對(duì)于不滿足上述條件的那些T-F 單元,不被合并到任何一個(gè)聽覺片段中,并且將其標(biāo)記為“0”,即為噪聲片段。
聽覺重組是混合語音信號(hào)分離算法的重要部分,將上一階段來自同一個(gè)聲源的那些聽覺片段分別重組到對(duì)應(yīng)的目標(biāo)語音流和干擾噪聲流中,從而實(shí)現(xiàn)目標(biāo)語音分離。
對(duì)于一段混合語音信號(hào),如果有足夠多的能量信息分布在某個(gè)高頻信道上,則認(rèn)為目標(biāo)語音信號(hào)在該信道上受到噪聲嚴(yán)重干擾,將該T-F 單元標(biāo)記為噪聲干擾主導(dǎo)?;诖?,在信號(hào)重組過程中,可以去除目標(biāo)聽覺流中由噪聲主導(dǎo)的那些T-F單元,使得重組的目標(biāo)聽覺流更少地受到噪聲干擾,性能更加穩(wěn)定,效果更理想。
基于能量特性的聽覺組織改進(jìn)算法主要集中在語音信號(hào)高頻部分的改進(jìn),具體步驟如下:
(1)T-F單元標(biāo)記
對(duì)于類型“1”聽覺片段中的T-F 單元,利用該T-F單元的自相關(guān)函數(shù)和目標(biāo)語音基音頻率來刻畫諧波關(guān)系,即周期性準(zhǔn)則。如果片段“1”中的時(shí)頻單元滿足:
聽覺片段“2”中主要對(duì)應(yīng)非確定T-F 單元,其濾波響應(yīng)包絡(luò)具有明顯的幅度調(diào)制現(xiàn)象,這里采用幅度調(diào)制(AM)準(zhǔn)則對(duì)其進(jìn)行標(biāo)記。如果片段“2”中的時(shí)頻單元)滿足:
根據(jù)上述標(biāo)記的T-F單元,將混合語音信號(hào)的所有聽覺片段分別重組到對(duì)應(yīng)的目標(biāo)語音聽覺流 stream c,( m) = 1 和 噪 聲 干 擾 流中,為下一階段聽覺流調(diào)整奠定基礎(chǔ)。
(2)最終聽覺流形成
對(duì)于目標(biāo)語音信號(hào)中高頻部分的那些T-F單元,為了估計(jì)其被噪聲干擾的程度,需要計(jì)算混合信號(hào)在各個(gè)頻率信道上的能量,本文通過對(duì)每一個(gè)信道上的信號(hào)提取時(shí)間包絡(luò),進(jìn)而可得到混合 信 號(hào) 在 各 個(gè) 信 道 上 的 能 量E (ci),ci∈
具體步驟如下:
①在混合語音信號(hào)的低頻范圍內(nèi)(低于1 kHz),根據(jù)得到的各個(gè)頻率信道能量E (ci),ci∈,選擇3個(gè)能量最大值,按從小到大排序?yàn)镋0,E1,E2。
②對(duì)高頻范圍內(nèi)的T-F單元進(jìn)行調(diào)整,如果某個(gè)頻率信道上的能量滿足:
則計(jì)算該頻率信道上所有T-F單元的平均能量:
式中:N 為該頻率信道ci中時(shí)間幀的總數(shù)。
③對(duì)于該頻率信道ci上的各個(gè)T-F 單元求取能量值,如果滿足下式:
則認(rèn)為該T-F單元由噪聲干擾主導(dǎo),將其從目標(biāo)語音聽覺流stream)=1中去除掉,并且合并到噪聲干擾流stream)=0中。
圖2 目標(biāo)語音二值掩膜圖Fig.2 Binary mask image of the target speech
利用二值模和Gammatone濾波器結(jié)構(gòu)來合成目標(biāo)語音信號(hào)的時(shí)域波形圖,從而實(shí)現(xiàn)語音信號(hào)的分離。目標(biāo)語音重構(gòu)算法的具體步驟如下:
(1)各個(gè)Gammatone濾波器信道的輸出信號(hào)先進(jìn)行時(shí)間反轉(zhuǎn),并將其結(jié)果再次送入Gammatone濾波器。
(2)由于濾波器頻率信道間存在相位延遲,需要將上一階段每個(gè)濾波輸出的信號(hào)再一次時(shí)間反轉(zhuǎn)來消除濾波器本身的時(shí)延。
(3)利用每幀20 ms,幀移10 ms的分幀原則,采用升余弦函數(shù)作為窗函數(shù),對(duì)各個(gè)濾波信道的輸出信號(hào)分幀處理。
(4)以二值模為權(quán)值(即權(quán)值1和0),在頻率軸上對(duì)T-F單元濾波響應(yīng)進(jìn)行加權(quán)求和,其輸出結(jié)果即為重構(gòu)后的目標(biāo)語音信號(hào)。
實(shí)驗(yàn)采用英國(guó)謝菲爾德大學(xué)提供的Cooke語音庫。它是由10句連續(xù)的濁語音與10種不同的噪聲干擾混合形成100個(gè)混合語音信號(hào),其中,10句目標(biāo)語音是由兩名男性分別朗讀5個(gè)句子,采樣頻率是16kHz,16bit量化。10種不同的噪聲干擾分別是:1kHz的純音調(diào)N0,白噪聲N1,突變?cè)肼昇2,雞尾酒會(huì)噪聲N3,搖滾音樂N4,警報(bào)聲N5,電話鈴聲N6,女生語音N7,男生語音N8,女生語音N9。
為了評(píng)估改進(jìn)算法的語音分離性能,需要采用一種客觀評(píng)價(jià)方法。通常人們根據(jù)信噪比(Signal to noise,SNR)的提高來對(duì)性能進(jìn)行評(píng)估,但是SNR 并不能充分地反映語音信號(hào)的時(shí)變特性,因此,采用分段信噪比(Seg-SNR)作為評(píng)估標(biāo)準(zhǔn),它是基于幀的SNR,計(jì)算公式如下:
式中:M 為語音信號(hào)的幀數(shù);N 為每一語音幀的長(zhǎng)度;s ()n 為純凈的原始語音;為系統(tǒng)分離后的語音。
以N6為干擾噪聲,V0為原始純凈的語音信號(hào),其發(fā)聲內(nèi)容是“I’ll willingly marry Marilyn”,簡(jiǎn)單線性疊加信號(hào)為V0N6。圖3 給出了V0、V0N6以及分離語音的時(shí)域波形圖。
圖3 原始純凈語音和電話鈴聲混合的分離結(jié)果Fig.3 Separation speech of mixture with original speech and the jangle of the telephone
本文通過計(jì)算目標(biāo)語音V0分離前后的Seg-SNR 來分析語音信號(hào)的分離性能,并與經(jīng)典的Hu-Wang算法進(jìn)行比較,如圖4所示。
圖4 本文算法與Hu-Wang算法的Seg-SNR比較Fig.4 Seg-SNR comparison between Hu-Wang and the improved algorithm
從圖4可以看出:在同一個(gè)噪聲干擾條件下,經(jīng)過本文算法分離之后的目標(biāo)語音Seg-SNR 相比于分離之前的Seg-SNR 都有非常明顯的提高,與Hu-Wang 算法相比,本文所提算法的Seg-SNR 平均提高了2.494dB。
為了進(jìn)一步驗(yàn)證算法的有效性和穩(wěn)定性,計(jì)算改進(jìn)算法分離之后的目標(biāo)語音與原始純凈語音之間的相似系數(shù),并且與Hu-Wang 算法進(jìn)行比較,結(jié)果如圖5所示。其中,相似系數(shù)定義為:
圖5 本文算法與Hu-Wang算法分離語音的相似系數(shù)比較Fig.5 Similarity coefficient comparison between Hu-Wang and the improved algorithm
由圖5可以看出:兩種算法分離后目標(biāo)語音與原始純凈語音的相似系數(shù)接近于1,相比于Hu-Wang算法,改進(jìn)算法的相似系數(shù)更接近于1,算法更加穩(wěn)定,分離效果更好。
為進(jìn)一步驗(yàn)證改進(jìn)算法的抗干擾性,本文選用了兩種干擾噪聲(白噪聲N1和雞尾酒會(huì)噪聲N3),在目標(biāo)語音為V0保持不變的情況下,分別改變這兩種干擾噪聲的強(qiáng)度使得混合語音信號(hào)Seg-SNR 在-15~20dB 范圍內(nèi)變化,其輸出Seg-SNR 隨輸入Seg-SNR 的變化情況如圖6所示。
圖6 輸出Seg-SNR隨不同輸入Seg-SNR的變化Fig.6 Output Seg-SNR variation with different input Seg-SNR
由圖6可以看出:輸入Seg-SNR 在小于-10 dB范圍內(nèi),輸出Seg-SNR 幾乎為0,這是因?yàn)椋肼暩蓴_在所有的T-F 單元上幾乎都高于目標(biāo)語音信號(hào),以至于輸入信號(hào)都被噪聲干擾覆蓋。當(dāng)輸入的Seg-SNR 不斷增大時(shí),相應(yīng)的輸出Seg-SNR 有較大的提高。但是,當(dāng)輸入Seg-SNR 足夠大時(shí),即大于15dB時(shí),雖然目標(biāo)語音信號(hào)在大部分時(shí)頻單元都高于噪聲干擾,但是經(jīng)過該算法后仍然丟掉了一些目標(biāo)語音的能量信息,因此,輸出Seg-SNR并沒有很大的提高。
基于語音信號(hào)的諧波特性以及能量特征,提出了一種對(duì)濁語音分離進(jìn)行改進(jìn)的基于語音能量特征的CASA 改進(jìn)算法。該算法在以往算法的基礎(chǔ)上,對(duì)聽覺重組部分進(jìn)行改進(jìn)。算法將語音的能量特征應(yīng)用于聽覺重組部分,通過語音信號(hào)高頻信道的能量信息,對(duì)目標(biāo)聽覺流中的T-F 單元進(jìn)行處理,降低噪聲對(duì)重組后的目標(biāo)聽覺流的干擾,改善了以往純凈語音的大部分信息。實(shí)驗(yàn)結(jié)果表明:相比于以往的方法,本文提出的算法能更好地分離濁語音信號(hào),具有更穩(wěn)定的性能,可以應(yīng)用于語音識(shí)別和語音信號(hào)處理的前端處理設(shè)備。
[1]Hu K,Wang D L.Unvoiced speech segregation from nonspeech interference via CASA and spectral subtraction[J].IEEE Trans on Audio,Speech and Lang Process,2011,19(6):1600-1609.
[2]Hu K,Wang D L.An unsupervised approach to cochannel speech separation[J].IEEE Trans on Audio,Speech and Lang Process,2013,21(1):120-129.
[3]Hu G N,Wang D L.Auditory segmentation based on onset and offset analysis[J].IEEE Trans on Audio,Speech and Lang Process,2007,15(2):396-405.
[4]Narayanan A,Wang D L.A CASA based system for long-term SNR estimation[J].IEEE Trans on Audio,Speech and Lang Process,2012,20(9):2518-2527.
[5]Wang Y,Han K,Wang D L.Exploring monaural features for classification-based speech segregation[J].IEEE Trans on Audio Speech and Lang Process,2013,21(2):270-279.
[6]Hu G N,Wang D L.A tandem algorithm for pitch estimation and voiced speech segregation[J].IEEE Trans on Audio Speech and Lang Process,2010,18(8):2067-2079.
[7]李從清,孫立新,龍東,等.語音分離技術(shù)的研究現(xiàn)狀與展望[J].聲學(xué)技術(shù),2008,27(13):779-785.Li Cong-qing,Sun Li-xin,Long Dong,et al.State and frontiers of research in speech separation[J].Technical Acoustics,2008,27(13):779-785.
[8]馬建芬.語音信號(hào)盲分離與增強(qiáng)算法的研究[M].北京:電子工業(yè)出版社,2012.
[9]Hu G N,Wang D L.Monaural speech segregation based on pitch tracking and amplitude modulation[J].IEEE Trans on Neural Networks,2004,15(5):1135-1150.
[10]趙立恒,汪增福.基于諧波和能量特征的單聲道濁語音分 離 方 法[J].聲 學(xué) 學(xué) 報(bào),2012,37(2):218-224.Zhao Li-h(huán)eng,Wang Zeng-fu.Monaural voiced speech separation based on harmonic and energy features[J].Acta Acustica,2012,37(2):218-224.
[11]Wang D L,Brown G J.Computational Auditory Scene Analysis[M].USA:IEEE Press,2006.
[12]張學(xué)良,劉文舉,李鵬,等.改進(jìn)諧波組織規(guī)則的單通道濁語音分離系統(tǒng)[J].聲學(xué)學(xué)報(bào),2011,36(1):88-96.Zhang Xue-liang,Liu Wen-ju,Li Peng,et al.Monaural voiced speech separation based on improved harmonic grouping rules[J].Acta Acustica,2011,36(1):88-96.
[13]Wang D L,Brown G J.Separation of speech from interfering sounds based on oscillatory correlation[J].IEEE Trans on Neural Networks,1999,10(3):684-697.
[14]蔣毅,梁維謙,周宏.低信噪比下二值掩蔽算法性能分析[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2012,52(5):636-641.Jiang Yi,Liang Wei-qian,Zhou Hong.Performance of binary time-frequency masks in low signal to noise ratio environments[J].Journal of Tsinghua University(Natural science edition),2012,52(5):636-641.