吳 春,梁正友
(廣西大學(xué)計(jì)算機(jī)與電子信息學(xué)院,廣西 南寧 530004)
雙說話人語音分離是在單聲道的情況下,對(duì)包含2個(gè)說話人語音中的目標(biāo)語音進(jìn)行分離??紤]到2個(gè)語音信號(hào)高度重疊在一段混合語音中,這將是一個(gè)非常有難度的任務(wù)。盡管這是一項(xiàng)艱巨的任務(wù),但是人類在這種情況下有選擇性地聽取其中一個(gè)人的說話卻顯示出令人難以置信的能力。這種聽覺現(xiàn)象被Bregman稱之為聽覺場(chǎng)景分析模型[1],主要分為分解和組合2個(gè)過程。在分解過程中,到達(dá)人耳的混合聲音信號(hào)被分解為一組獨(dú)立的單元,稱為時(shí)頻單元。初始信號(hào)是在時(shí)域和頻域上的觀測(cè)量,并且是多個(gè)聲源信號(hào)的混合,而分解過程將混合信號(hào)變換到一個(gè)可以區(qū)分出混合信號(hào)中各個(gè)分量的變換域中[2];在組合過程中通過有選擇性地分離時(shí)頻單元形成各個(gè)聲源的聽覺流。在組合過程中包含同時(shí)組合和序列組合,同時(shí)組合是將同時(shí)存在的不同頻率范圍的聲音分量組合在一起,序列組合則是將一串聲音分量按時(shí)間先后組合到一個(gè)或者多個(gè)聲音流中。本文主要研究如何在序列組合中通過聚類的方法完成對(duì)聲音分量的組合。
目前對(duì)雙說話人語音分離的研究在序列組合過程中主要通過基于訓(xùn)練的語音模型。在Shao和Wang[3]的研究中,通過高斯混合模型(GMM),在序列組合中通過最大化說話人識(shí)別得分獲得一切可能的分組和語音對(duì)來完成分離。另一個(gè)基于訓(xùn)練模型的方法通過隱馬爾科夫模型(HMM)和自動(dòng)語音識(shí)別識(shí)別完成語音分離[4]。最新的語音識(shí)別中基于訓(xùn)練的方法中所使用的模型有HMMs、GMMs,例如文獻(xiàn)[5-6]。目前基于訓(xùn)練模型的分離方法,當(dāng)訓(xùn)練樣本與被分離的語音信號(hào)類似時(shí),可以達(dá)到令人滿意的分離。然而,這種情況在實(shí)際應(yīng)用中往往不現(xiàn)實(shí)。
在本文中,提出一種基于聚類的語音分離方法來處理雙說話人語音分離。這種方法與基于訓(xùn)練模型的方法相比,在序列組合階段不需要對(duì)語音數(shù)據(jù)集進(jìn)行訓(xùn)練獲取先驗(yàn)知識(shí),而是采用特征提取和計(jì)算的聚類方法完成語音流分離。實(shí)際結(jié)果表明,該方法與基于訓(xùn)練模型的方法相比具有更好的語音分離效果。
系統(tǒng)遵循計(jì)算聽覺場(chǎng)景模型的2個(gè)過程:分解和組合。分解階段將語音信號(hào)分解為時(shí)頻單元(T-F),組合階段則有選擇性地形成對(duì)應(yīng)說話人的語音流。系統(tǒng)首先通過外圍處理模塊將語音信號(hào)分解成時(shí)頻單元,然后通過多基音跟蹤算法形成語音的基音段和相應(yīng)的二值掩碼,接著提取混合語音的倒譜特征,最后利用特征進(jìn)行聚類。在聚類中,通過搜索一個(gè)目標(biāo)分類函數(shù)使類間散布矩陣和類內(nèi)散布矩陣的跡有最大值,系統(tǒng)模型如圖1所示。
圖1 系統(tǒng)流程圖
外圍處理和特征提取是語音分離過程中對(duì)混合信號(hào)的分解階段。通過外圍處理的時(shí)頻分解,輸入的時(shí)域信號(hào)被轉(zhuǎn)化為時(shí)頻域的表現(xiàn)形式。再通過特征提取,得到輸入信號(hào)在時(shí)頻域的特征,為后繼的聚類和語音分離提供輸入。
在外圍處理階段,基于人耳的聽覺感知機(jī)制,系統(tǒng)采用128個(gè)gammatone濾波器組成的濾波器組對(duì)輸入聲音信號(hào)進(jìn)行帶通濾波,濾波器的中心頻率以等矩形帶寬的方式分布在80Hz到5000Hz之間。然后,采用交疊分段方法,以20ms為幀長、10ms為幀移,對(duì)每一個(gè)頻率通道的濾波相應(yīng)做時(shí)域分幀處理,得到輸入信號(hào)的時(shí)頻域表示[7]。接著對(duì)128個(gè)濾波通道的輸出在時(shí)間維上降低采樣至100Hz并通過立方根操作壓縮降低采樣后的輸出,得到gammatone特征單元(GF 單元)[8]。
提取特征階段先應(yīng)用多基音跟蹤算法[9]對(duì)輸入信號(hào)進(jìn)行處理。通過基音跟蹤和時(shí)頻單元標(biāo)記,得到輸入信號(hào)的基音軌跡和對(duì)應(yīng)的同時(shí)語音流。其中,同時(shí)語音流用二值掩碼表示,即對(duì)理想二值掩碼(IBM)[10]的估計(jì)值。在理想二值掩碼中,1代表對(duì)應(yīng)時(shí)頻單元被標(biāo)記,0則相反。為了在序列組合階段通過聚類完成語音分離,需要提取語音信號(hào)gammatone頻率倒譜系數(shù)(GFCC)[8]。首先,通過二值掩碼和對(duì)應(yīng)的同時(shí)語音流過濾GF單元,獲得被1標(biāo)記的單元并將沒有被標(biāo)記的單元移除。然后,依次處理每一幀,將獲得的被1標(biāo)記的單元通過離散余弦變換操作轉(zhuǎn)換成GFCC單元,最終形成語音信號(hào)的GFCC特征矩陣。
在雙說話人語音分離中,系統(tǒng)將序列組合過程視為一個(gè)聚類過程,即將同時(shí)流聚集成2個(gè)說話人的語音流。在聚類中通過一個(gè)目標(biāo)函數(shù)來評(píng)價(jià)不同聚類可能性的優(yōu)劣,具有最高目標(biāo)函數(shù)得分的聚類就是最終的結(jié)果。
本文中,聚類的目標(biāo)函數(shù)是基于類內(nèi)和類間距離的比率[11],即:
其中,g代表一種假設(shè)的分類向量,SB(g)和SW(g)分別表示類內(nèi)散布矩陣和類間散布矩陣,它們的計(jì)算公式分別為:
其中,x代表GFCC特征矩陣,Ck(g)代表假設(shè)的分類向量g中第k維分量,Nk(g)和mk(g)分表代表分類向量g中第k維分量的GFCC特征矩陣的元素個(gè)數(shù)及均值,m代表GFCC特征矩陣的均值,T為矩陣的轉(zhuǎn)置操作。
在給定目標(biāo)函數(shù)的情況下,聚類可以轉(zhuǎn)為一個(gè)求最優(yōu)解的問題,即求一個(gè)分類向量使得目標(biāo)函數(shù)O(g)有最大值。要尋找一個(gè)最優(yōu)解,可以通過窮舉的方法,當(dāng)輸入的語音信號(hào)長度較短時(shí)可以得到一個(gè)不錯(cuò)的結(jié)果。但是對(duì)于較長的語音信號(hào),可以使用基于剪枝搜索方法[12]。
系統(tǒng)開始先隨機(jī)挑選同時(shí)語音流中2個(gè)單位,分配到2個(gè)類別中。然后對(duì)未被挑選的同時(shí)語音流中單位進(jìn)行排序,排序的規(guī)則為按照它們第一幀的先后次序,接著將它們一個(gè)一個(gè)的組合。對(duì)于同時(shí)語音流中的每個(gè)單位,先假設(shè)它的分配值(0或1),并且僅僅根據(jù)目標(biāo)函數(shù)的分值保持w條具有較高分值的路徑。在處理完同時(shí)語音流最后一個(gè)單元后,選擇使目標(biāo)函數(shù)具有最高分值的路徑為解決方案。通過實(shí)驗(yàn),可以發(fā)現(xiàn)w=8是一個(gè)好的權(quán)值,在速度和性能方面可以得到一個(gè)不錯(cuò)的結(jié)果。
為了方便比較,系統(tǒng)使用SSC語音數(shù)據(jù)集[13]中的雙說話人混合語音進(jìn)行測(cè)試。SSC語音數(shù)據(jù)集包含34個(gè)不同人的語音,每段語音材料存在一個(gè)目標(biāo)語音以及另一個(gè)不同的說話人的語音,每段語音信號(hào)的信噪比有-6dB、0dB、6dB三種情況。隨機(jī)挑選50個(gè)雙說話人混合語音材料分別在-6dB、0dB、6dB三種信噪比條件下進(jìn)行測(cè)試,并且所有語音材料的采樣頻率為16kHz。
本文通過衡量系統(tǒng)在分離多說話人語音時(shí)信噪比(SNR)的提升程度來評(píng)價(jià)系統(tǒng)的分離性能。信噪比提升由經(jīng)過系統(tǒng)分離得到的輸出語音材料的信噪比減去輸入材料的信噪比得到。輸出語音材料的信噪比計(jì)算公式為:
其中,SI[n]和 SE[n]分別代表從理想二值掩模和評(píng)估的二值掩模重新合成的語音材料。
本文將系統(tǒng)的分離性能與分離中基于訓(xùn)練的背景模型(BM)[14]進(jìn)行比較。在BM模型中,通過訓(xùn)練SSC數(shù)據(jù)集中語音材料,將每個(gè)說話人模擬成64維的GMM模型,并且將SSC數(shù)據(jù)集中34個(gè)說話人語音分為2部分,隨機(jī)挑選10人作為目標(biāo)語音,剩余24人為干擾語音,從而形成目標(biāo)語音的先驗(yàn)知識(shí),使得系統(tǒng)對(duì)于目標(biāo)語音更為熟悉。在分離中,BM模型與本文的方法都是先完成同時(shí)組合,但是在序列組合中BM方法通過最大化語音識(shí)別得分形成目標(biāo)語音,本文則通過聚類完成分類。為了得到系統(tǒng)的最佳分離性能,筆者測(cè)試了在進(jìn)行搜索時(shí),w在不同值下的分離性能。
表1 不同混合信噪比和剪枝過程不同w值下SNR提升(dB)
分解結(jié)果的比較如表1所示,“BM”列表示基于訓(xùn)練的背景模型的方法的分離性能,“Proposed”列表示本文提出的方法,w值表示剪枝過程中保留枝數(shù)不同所得到的分離性能。由表中結(jié)果可知本文提出的方法在3種SNR條件和不同w值下的分離的性能都比BM方法要好,尤其在混合語音材料SNR越高,分離的性能就越好。這得益于基于聚類的序列組合方式在SNR較高或越高時(shí),提取混合語音材料特征的差異就越明顯使得分離效果更好。另外,從表1中可知當(dāng)剪枝過程中保留枝數(shù)為8時(shí),比較適合本文的搜索方法,得到的分離性能優(yōu)于其他w值。
基于計(jì)算機(jī)聽覺場(chǎng)景模型,本文提出一種基于聚類的雙說話人混合語音分離方法。該方法引用計(jì)算聽覺場(chǎng)景分析模型的分離與組合過程,與基于訓(xùn)練的語音分離模型相比,在序列組合階段采用聚類的方法,不需要訓(xùn)練過程以及被分離混合語音材料的先驗(yàn)知識(shí),通過提取特征以及基于剪枝的搜索方法完成語音分離。實(shí)驗(yàn)結(jié)果表明,與基于訓(xùn)練的語音分離模型相比,該方法不僅所需要的前提條件更少,在分離性能上也有所提升,為雙說話人的語音分離提供了一種新的思路。
[1]Bregman A S.Auditory Scene Analysis:The Perceptual Organization of Sound[M].MIT press,1994.
[2]吳鎮(zhèn)揚(yáng),張子喻,李想,等.聽覺場(chǎng)景分析的研究進(jìn)展[J].電路與系統(tǒng)學(xué)報(bào),2001,6(2):68-73.
[3]Shao Y,Wang D L.Model-based sequential organization in cochannel speech[J].IEEE Transactions on Audio,Speech,and Language Processing,2006,14(1):289-298.
[4]Barker J,Coy A,Ma N,et al.Recent advances in speech fragment decoding techniques[C]//Proceedings of Interspeech.2006:85-88.
[5]Hershey J R,Rennie S J,Olsen P A,et al.Super-human multi-talker speech recognition:A graphical modeling approach[J].Computer Speech & Language,2010,24(1):45-66.
[6]Weiss R J,Ellis D P W.Speech separation using speakeradapted eigenvoice speech models[J].Computer Speech& Language,2010,24(1):16-29.
[7]Wang Deliang,Guy J Brown.Computational Auditory Scene Analysis:Principles,Algorithms,and Applications[M].Wiley-IEEE Press,2006.
[8]Shao Y.Sequential Organization in Computational Auditory Scene Analysis[D].The Ohio State University,2007.
[9]Jin Z,Wang D L.Reverberant speech segregation based on multipitch tracking and classification[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(8):2328-2337.
[10]Narayanan A,Wang D L.Robust speech recognition from binary masks[J].The Journal of the Acoustical Society of America,2010,128(5):EL217-EL222.
[11]Xu R,Wunsch D.Clustering[M].Wiley Press,2008.
[12]Shukla Shubhendu S,Vijay J.Applicability of artificial intelligence in different fields of life[J].International Journal of Scientific Engineering and Research,2013,1(1):28-35.
[13]Cooke M,Lee T.Speech Separation Challenge[DB/OL].http://staffwww.dcs.shef.ac.uk/people/M.Cooke/SpeechSeparationChallenge.htm,2006-11-11.
[14]Shao Y,Wang D L.Sequential organization of speech in computational auditory scene analysis[J].Speech Communication,2009,51(8):657-667.