吳君欽,王迎福
(江西理工大學(xué)信息工程學(xué)院,江西 贛州 341000)
雞尾酒會(huì)問題[1-2]是經(jīng)典的盲源分離問題,涉及在現(xiàn)實(shí)環(huán)境中分離并發(fā)語音信號(hào)的混合。改進(jìn)的分離算法將導(dǎo)致更大程度的干擾抑制和更少的偽影,這將提升包括助聽器和人工耳蝸在內(nèi)的助聽設(shè)備的質(zhì)量和魯棒性,以及近年來日益普及的語音識(shí)別系統(tǒng)的性能。盲語音分離問題的主要困難在于混音系統(tǒng)的欠定性、混響環(huán)境、噪聲的存在以及語音的非平穩(wěn)性。但是,隨著包括非負(fù)矩陣分解[3-7](Non-Negative Matrix Factorization,NMF)等機(jī)器學(xué)習(xí)算法的出現(xiàn),不僅提高了算法的計(jì)算能力,而且在該問題上也取得了重大進(jìn)展。
NMF是一種無監(jiān)督的字典學(xué)習(xí)算法,它是引導(dǎo)盲源信號(hào)的各種聲源分離技術(shù)的核心[8]。NMF非常適合于混合聲信號(hào)的成分性質(zhì),可產(chǎn)生基于混合聲譜圖成分的無損表示[9-10]。但是,當(dāng)將其應(yīng)用于復(fù)雜混合語音信號(hào)[11]時(shí),信號(hào)源會(huì)跨多個(gè)詞典原子進(jìn)行編碼,隨后需要對(duì)原子進(jìn)行分組才能實(shí)現(xiàn)分離。盡管許多解決此問題的方法都涉及某種形式的監(jiān)督和無監(jiān)督方法,包括本文介紹的方法。然而利用先驗(yàn)的知識(shí)或信息來解決有監(jiān)督的分割問題。對(duì)于簡單的聲音,可以手動(dòng)對(duì)字典原子進(jìn)行分組,但是隨著聲源復(fù)雜性或聲源數(shù)量的增加,此方法很快變得非常麻煩。一種常見的監(jiān)督方法是使用隔離的源記錄來適應(yīng)特定于源的詞典,然后將這些詞典連接起來以對(duì)混合信號(hào)進(jìn)行編碼。由于每個(gè)源均由其相應(yīng)的字典進(jìn)行編碼,因此編碼過程實(shí)現(xiàn)了分離。另一種常見的方法涉及使用混合信號(hào)中存在的源的種類的先驗(yàn)知識(shí)來約束NMF詞典的各個(gè)部分,以使它們對(duì)應(yīng)于“感興趣”的源。無監(jiān)督解方法通常使用空間分布的麥克風(fēng),將NMF與空間信息結(jié)合起來以實(shí)現(xiàn)分離[12-15]。一類基于模型的方法是學(xué)習(xí)一組特定源信號(hào)的詞典,同時(shí)并行調(diào)整其對(duì)應(yīng)的混合模型?;旌夏P涂梢圆扇】臻g協(xié)方差矩陣的形式,而字典可以通過多層結(jié)構(gòu)變得更復(fù)雜。但是,空間協(xié)方差矩陣方法對(duì)初始化值敏感,并且在實(shí)踐中需要使用受約束的字典才能獲得良好的結(jié)果。另一類方法是將NMF與傳統(tǒng)的波束形成算法結(jié)合起來,但是這些方法是針對(duì)大型麥克風(fēng)陣列開發(fā)的,與本文考慮的雙通道[16-17]情況有很大差異。
目前對(duì)于非負(fù)矩陣的研究主要是對(duì)于特定源信號(hào)的字典以及受約束的字典,對(duì)噪聲的字典以及其他源信號(hào)的字典研究較少。本文利用非負(fù)矩陣和廣義互相關(guān)方法相結(jié)合對(duì)混合信號(hào)的噪聲字典和源信號(hào)字典進(jìn)行深入研究。
非負(fù)矩陣分解算法的輸入由混合信號(hào)的幅度時(shí)頻表示組成,從數(shù)學(xué)的角度可表示為非負(fù)矩陣Vft,其中f和t分別指頻率和時(shí)間。非負(fù)矩陣分解算法是將該輸入混合信號(hào)的頻譜圖分解為2個(gè)非負(fù)矩陣:字典矩陣 Wfd(見圖 1(a))和系數(shù)矩陣 Hdt,以使它們的乘積Λ=WH近似于V。W的d列稱為字典原子(見圖1(b)),它是頻率的非負(fù)函數(shù),可以在每個(gè)時(shí)間點(diǎn)與相應(yīng)的系數(shù)線性組合,從而重構(gòu)輸入頻譜圖的相應(yīng)列。
圖1 NMF在混合語音信號(hào)中學(xué)習(xí)的詞典
非負(fù)矩陣分解方法優(yōu)化了包含重構(gòu)誤差項(xiàng)和可選系數(shù)稀疏性誘導(dǎo)項(xiàng)的代價(jià)函數(shù)。其使用了各種重構(gòu)誤差的度量,其中一些度量泛化為β散度 Dβ(V|Λ),包括歐幾里得距離和廣義Kullback-Leibler散度,l1范數(shù)通常用于系數(shù)稀疏性。然后定義乘法更新規(guī)則,以便通過隨機(jī)初始化W和H并迭代更新它們,該算法收斂到代價(jià)函數(shù)的局部最小值。稀疏性為l0的 Dβ(V|Λ)的更新規(guī)則定義為:
其中,⊙是Hadamard(按元素計(jì)算)乘積,矩陣指數(shù)是矢量形式的,并且α是權(quán)重系數(shù)稀疏性,對(duì)應(yīng)重構(gòu)誤差。為了消除W和H之間的縮放不確定性,通常在每次更新后將字典原子標(biāo)準(zhǔn)化,并相應(yīng)地調(diào)整其系數(shù)。
在研究立體聲音頻信號(hào)的情況下,左輸入頻譜圖和右輸入頻譜圖可以在訓(xùn)練之前及時(shí)合并,即Vft= [Vlft| Vrft],其中得到的系數(shù)相應(yīng)地為Hdt=[Hldt|Hrdt],并且字典保持變。
成對(duì)的空間分布傳感器之間的信號(hào)到達(dá)時(shí)間差[18](Time Difference of Arrival,TDOA)用于波束成形[19]和定位的各種傳感器陣列應(yīng)用中。GCC(Generalized Cross Correlation,GCC)算法是估算任意一組頻率的TDOA的經(jīng)典方法。GCC表示角度頻譜圖,見圖2(a)。時(shí)間延遲τ和時(shí)間t的函數(shù),在數(shù)學(xué)上定義為:
其中,Vlft和Vrft是左右復(fù)譜圖;*是元素復(fù)共軛;ψft是時(shí)變頻率加權(quán)函數(shù)。
在存在干擾聲音和混響的情況下,最穩(wěn)健的定位算法是GCC相變(GCC-PHAT),其頻率加權(quán)函數(shù)是左右幅值頻譜圖的逆積:
將角度頻譜圖隨時(shí)間合并,生成總的角度頻譜,然后將最高峰的位置與源TDOA估計(jì)相對(duì)應(yīng),見圖2(b)。源的數(shù)量可以事先確定,也可以例如通過對(duì)k=2的局部最大幅度進(jìn)行k均值聚類來估計(jì)。對(duì)于較小的麥克風(fēng)間距,必須應(yīng)用非線性來補(bǔ)償所得GCC的寬瓣:
其中,γ=2在實(shí)踐中表現(xiàn)良好。
在本節(jié)中,提出了一種GCC-NMF分離算法。隨后根據(jù)原子的空間定位將原子分組為源,然后分別獨(dú)立地重建每組原子。
首先從標(biāo)準(zhǔn)化NMF字典原子定義一組GCC頻率加權(quán)函數(shù)ψNMFdft:
從而構(gòu)造頻譜函數(shù)使得對(duì)于給定的原子d,頻率可以根據(jù)它們的相對(duì)重要性來加權(quán)。 然后,GCC-NMF是特定于原子的角度頻譜圖的結(jié)果集:
圖2 使用GCC-PHAT進(jìn)行混合信號(hào)的源定位
GCC-NMF角度頻譜圖用于將每個(gè)字典原子每次都與單個(gè)s相關(guān)聯(lián)。如1.2節(jié)所述,首先使用GCC-PHAT估算源到達(dá)時(shí)間差Ts。然后對(duì)于任意時(shí)間t,字典原子都能產(chǎn)生最大值GNMFdτst的源。從而定義了一組特定源的二進(jìn)制系數(shù)掩碼:
將它們與元素的混合系數(shù)相乘以便為每個(gè)源生成掩蔽系數(shù)。
通過使用特定源的掩蔽系數(shù)進(jìn)行反NMF和時(shí)頻函數(shù)[20-24]來實(shí)現(xiàn)源重構(gòu):
圖3給出了分離系統(tǒng)的框圖,然后在表1中描述了系統(tǒng)變量。分離系統(tǒng)始于由短時(shí)傅里葉變換(Short-time Fourier Transform,STFT) 和 NMF組成的編碼解碼塊。然后,系數(shù)掩蔽塊中斷編碼-解碼過程,從而產(chǎn)生編碼-分離-解碼架構(gòu)。粗箭頭強(qiáng)調(diào)編碼-解碼過程。
實(shí)驗(yàn)是使用信號(hào)分離評(píng)估運(yùn)動(dòng)(Signal Separation Evaluation Campaign,SiSEC dev1) 現(xiàn)場語音記錄數(shù)據(jù)集進(jìn)行的,該數(shù)據(jù)集組成是“通過會(huì)議室中的揚(yáng)聲器播放的靜態(tài)源,一次記錄一個(gè)”,每個(gè)錄音長度為10 s,由3個(gè)女性和4個(gè)男性通過16個(gè)揚(yáng)聲器混合錄制而成,其中5個(gè)揚(yáng)聲器的麥克風(fēng)間距為1 cm和1 m,混響時(shí)間為180 ms和250 ms。采用采樣大小為1024個(gè)樣本的Hann窗(64 ms)以及跳數(shù)大小為 16 個(gè)采樣樣本(1 ms),通過STFT從16 kHz混合信號(hào)生成復(fù)頻譜圖。默認(rèn)NMF參數(shù)設(shè)置為1024字典原子,100次迭代,稀疏度 α=0.1,價(jià)函數(shù) β=1。 GCC 非線性適用于 γ=3、間距為5 cm的麥克風(fēng)。
圖3 GCC-NMF源分離系統(tǒng)
表1 變量說明
在圖4、圖5、圖6中,分別探究了非負(fù)矩陣分解方法中字典大小、迭代次數(shù)和稀疏系數(shù)α 3個(gè)因素對(duì)分離性能的影響。對(duì)于信噪比和感知分?jǐn)?shù),增加字典大小會(huì)導(dǎo)致目標(biāo)的 OPS、TPS、APS、SDR、ISR、SAR值提高,不過當(dāng)字典大小超過100時(shí),增長達(dá)到了飽和狀態(tài)。而隨著字典大小的增加,目標(biāo)qGlobal、qTarge、qArtif的 PEMO-Q 值緩慢增大,在字典大小達(dá)到100后,PEMO-Q值幾乎趨于穩(wěn)定;qInterf的PEMO-Q值幾乎沒什么變化。盡管SNR和PEMO-Q的測量值表明干擾抑制與字典大小無關(guān),但是隨著字典大小的增加,Ips感知分?jǐn)?shù)明顯下降。因此,字典大小可控制干擾抑制與總體,目標(biāo)和偽像得分之間的折中。對(duì)于目標(biāo)的感知分?jǐn)?shù)、信噪比、PEMO-Q值,迭代次數(shù)具有與字典大小類似的影響,盡管增加與降低的幅度沒那么明顯,而增加系數(shù)稀疏性 (散度)α則表現(xiàn)出了與前兩種因素相反的效果:目標(biāo),偽像和總體得分隨稀疏度的增加而降低,而干擾抑制則增加。為實(shí)現(xiàn)分離效果的最佳化,默認(rèn)設(shè)置參數(shù)字典大小為100,迭代次數(shù)為1024,稀疏度α為 0.1。
圖4 不同字典大小下,信號(hào)的感知值、信噪比、PEMO-Q的變化趨勢
圖5 不同散度下,信號(hào)的感知值、信噪比、PEMO-Q的變化趨勢
圖6 不同迭代次數(shù)下,信號(hào)的感知值、信噪比、PEMO-Q的變化趨勢
在表2、表3、表4中,分別使用聲源分離的感知評(píng)價(jià)方法(Perceptual Evaluation for Audio Source Separation,PEASS)工具包和盲源分離(Blind Speech Separation,BSS) 評(píng)測工具包進(jìn)行了 PEASS、BSS、PEMO-Q三項(xiàng)性能測評(píng),并將GCC-NMF得到的實(shí)驗(yàn)數(shù)據(jù)與其他基于NMF的語音分離算法的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了比較。
表2 PEASS評(píng)測值單位:dB
表3 BSS評(píng)測值單位:dB
表4 PEMO-Q評(píng)測值 單位:dB
實(shí)驗(yàn)數(shù)據(jù)都是以平均分離分?jǐn)?shù)±標(biāo)準(zhǔn)偏差呈現(xiàn),從而確保實(shí)驗(yàn)結(jié)果的相對(duì)穩(wěn)定,數(shù)據(jù)集取自SiSEC dev1實(shí)時(shí)語音記錄數(shù)據(jù)集。FASST[25]是一種靈活的、開源的、基于模型的方法,它將NMF與空間協(xié)方差混合模型結(jié)合在一起。在單純無監(jiān)督的環(huán)境中,它對(duì)初始化值過于敏感,并且缺乏魯棒性。因此,對(duì)于FASST-init[25],使用oracle混合初始化過程,可以顯著提高性能,但是需要事先混合模型信息。從表中的數(shù)據(jù)可以看到,盡管根據(jù)BSS Eval指標(biāo),這種半監(jiān)督方法的性能優(yōu)于GCC-NMF,但GCC-NMF可以顯著改善總體,基于目標(biāo)和基于干擾的PEASS分?jǐn)?shù),但代價(jià)是增加了偽像值。此外,還對(duì)比了文獻(xiàn)[26-28]中提出的Ozerov、Adiloglu兩種半監(jiān)督和帶約束條件的字典算法的結(jié)果,盡管GCC-NMF是一種非監(jiān)督的方法,不過在PEASS、BSS、PEMO-Q三項(xiàng)性能測評(píng)上所得到的結(jié)果還是相當(dāng)理想的。
OPS、TPS、IPS、APS 分別表示: 總體感知分?jǐn)?shù)(Overall Perceptual Score,OPS)、 與目標(biāo)相關(guān)的感知分?jǐn)?shù)(Target-related Perceptual Score,TPS)、與干擾相關(guān)的感知分?jǐn)?shù)(Interference-related Perceptual Score,IPS),以及與偽像相關(guān)的感知分?jǐn)?shù)(Artifactsrelated Perceptual Score,APS);SDR、ISR、SIR、SAR分別表示:信號(hào)失真率(Source to Distortion Ratio,SDR)、信號(hào)圖像空間失真率 (Source Image-to-Spatial Distortion Ratio,ISR)、信號(hào)干擾率(Source to Interferences Ratio,SIR),以及信號(hào)偽像率(Sources to Artifacts Ratio,SAR);qGlobal、qTarget、qInterf、qArtif分別表示信號(hào)PEMO-Q的全局值、目標(biāo)值、干擾值及偽像值。
本文提出了一種將空間信息與非負(fù)矩陣分解相結(jié)合的無監(jiān)督語音分離方法。通過利用廣義互相關(guān)的源定位方法對(duì)隨時(shí)間變化的單個(gè)字典原子進(jìn)行定位,從而根據(jù)其空間源對(duì)其進(jìn)行分組,最后通過控制變量法研究了NMF參數(shù)對(duì)于分離性能的影響,對(duì)比得出了3個(gè)參數(shù)的最優(yōu)取值,從而實(shí)現(xiàn)了分離性能的最佳化。所提出的基于廣義互相關(guān)的非負(fù)矩陣分解的方法優(yōu)于無監(jiān)督的空間協(xié)方差模型,并且相比需要先驗(yàn)知識(shí)或信息的半監(jiān)督和受限的非負(fù)矩陣分解方法,也頗具優(yōu)勢。盡管簡單的結(jié)合廣義互相關(guān)和非負(fù)矩陣分解表現(xiàn)出較好的性能,同時(shí)需要研究其他更復(fù)雜的非負(fù)矩陣分解模型以及一些特征學(xué)習(xí)方法。