蘭朝鳳 劉 巖 趙宏運(yùn) 劉春東
(哈爾濱理工大學(xué)測(cè)控技術(shù)與通信工程學(xué)院 哈爾濱 150080)
語(yǔ)音信號(hào)分離問(wèn)題最早起源于雞尾酒會(huì)問(wèn)題,該問(wèn)題致力于解決在嘈雜環(huán)境中分離出重點(diǎn)關(guān)注的語(yǔ)音信號(hào)。經(jīng)過(guò)學(xué)者不斷努力,解決該問(wèn)題的方法不斷被創(chuàng)新,語(yǔ)音信號(hào)分離速度和分離質(zhì)量都有所提高[1]。隨著社會(huì)進(jìn)步和智能家居的發(fā)展,語(yǔ)音信號(hào)處理知識(shí)被廣泛應(yīng)用于日常生活之中,對(duì)信號(hào)處理速度和質(zhì)量提出了更高要求[2,3]。語(yǔ)音分離問(wèn)題的解決方法主要可以歸結(jié)為兩個(gè)大類(lèi),分別為基于信號(hào)變換的傳統(tǒng)方式和近年來(lái)流行的深度學(xué)習(xí)方式,傳統(tǒng)分離方法主要是通過(guò)數(shù)字信號(hào)處理方式,對(duì)混合語(yǔ)音信號(hào)矩陣進(jìn)行數(shù)學(xué)變化,使分離后語(yǔ)音信號(hào)彼此之間達(dá)到最大獨(dú)立性來(lái)完成信號(hào)分離[4]。該方法為語(yǔ)音信號(hào)分離領(lǐng)域做出了一定貢獻(xiàn),但是其往往需要對(duì)混合語(yǔ)音信號(hào)施加限制條件,如ICA施加的是弱正交約束,最終得到一個(gè)具有分布式的信號(hào)表征從而實(shí)現(xiàn)數(shù)據(jù)降維目的,矢量量化模型對(duì)觀測(cè)信號(hào)施加一種強(qiáng)約束,將數(shù)據(jù)擬合成兩種彼此相互排斥模型,最終達(dá)到語(yǔ)音數(shù)據(jù)聚類(lèi)目的[5,6]。但是在實(shí)際生活中,這些限制條件并不容易滿(mǎn)足,因而在實(shí)際應(yīng)用過(guò)程中,使用該方法的分離效果還有待提高。
隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,計(jì)算機(jī)運(yùn)算速度逐漸提高,運(yùn)算成本逐漸下降,基于深度學(xué)習(xí)的語(yǔ)音信號(hào)處理方式被眾多學(xué)者提出并加以研究,在語(yǔ)音信號(hào)處理領(lǐng)域取得了一定成果[7–10]。深度學(xué)習(xí)網(wǎng)絡(luò)(Deep Neural Network, DNN)結(jié)構(gòu)是較早用于語(yǔ)音分離的網(wǎng)絡(luò),并且取得了一定進(jìn)展[11]。Wang等人[12]最先提出將DNN應(yīng)用于語(yǔ)音分離領(lǐng)域,并結(jié)合理想軟模板和理想二值模板完成了語(yǔ)音分離任務(wù),并對(duì)兩種模板的分離結(jié)果做出了具體闡述分析。DNN具有多層次結(jié)構(gòu),可以從訓(xùn)練數(shù)據(jù)中抽取出更加抽象的特征并具有非常強(qiáng)大的非線性數(shù)據(jù)處理能力,但是其訓(xùn)練過(guò)程中存在大量參數(shù)計(jì)算,從而導(dǎo)致其模型收斂所需要時(shí)間更長(zhǎng)的問(wèn)題。隨后,有學(xué)者利用卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)模型探究了語(yǔ)音信號(hào)分離問(wèn)題。Huang等人[13]將DNN和RNN模型結(jié)合起來(lái)應(yīng)用于該問(wèn)題,并在模型中加入了模板計(jì)算方法,該方法在模型中被稱(chēng)為確定層,通過(guò)確定層實(shí)現(xiàn)了對(duì)誤差函數(shù)最小化操作,通過(guò)對(duì)誤差函數(shù)優(yōu)化和網(wǎng)絡(luò)模型優(yōu)化得到比DNN更好的語(yǔ)音分離結(jié)果。Hui等人[14]提出一種基于CMNN的結(jié)構(gòu),該結(jié)構(gòu)結(jié)合理想幅值掩蔽(Ideal Ratio Mask, IRM)和maxout激活函數(shù),實(shí)現(xiàn)對(duì)語(yǔ)音分離問(wèn)題的建模,實(shí)驗(yàn)結(jié)果表明,相對(duì)于傳統(tǒng)的CNN語(yǔ)音分離效果具有較大提升。Chandna等人[15]通過(guò)構(gòu)建一種深度卷積網(wǎng)絡(luò)模型,成功分離單通道低延遲的混合語(yǔ)音信號(hào),其分離語(yǔ)音信號(hào)中包含鼓聲、貝斯和隨歌曲變化的其他種類(lèi)樂(lè)器,在實(shí)驗(yàn)中研究人員還對(duì)該提出模型和多層感知器模型進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明該模型無(wú)論從信號(hào)分離效果還是分離速度上都優(yōu)于多層感知器。2014年,有學(xué)者提出了深度堆疊網(wǎng)絡(luò)(Deep Stacking Network,DSN)用于語(yǔ)音信號(hào)分離任務(wù),該網(wǎng)絡(luò)是由多個(gè)神經(jīng)網(wǎng)絡(luò)堆疊而成的,并且后一層網(wǎng)絡(luò)輸入包含上一層網(wǎng)絡(luò)輸出和原始輸入。Nie等人[16]給出了一種層級(jí)堆疊神經(jīng)網(wǎng)絡(luò),并通過(guò)該網(wǎng)絡(luò)對(duì)語(yǔ)音短時(shí)動(dòng)態(tài)信息進(jìn)行分析,此類(lèi)網(wǎng)絡(luò)提高了原始信號(hào)的估計(jì)精確度,但是其對(duì)于語(yǔ)音信號(hào)每一個(gè)頻帶估計(jì)過(guò)程中相互間是獨(dú)立操作,沒(méi)有考慮到頻帶相關(guān)性。其后有學(xué)者將循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)應(yīng)用于語(yǔ)音分離實(shí)踐中,相較于卷積神經(jīng)網(wǎng)絡(luò)只關(guān)心數(shù)據(jù)局部信息特征,而忽略了語(yǔ)音信號(hào)前后聯(lián)系的情況,RNN是一種時(shí)序模型,其在某一時(shí)刻的輸出可以在下一個(gè)時(shí)刻作用其自身,因其結(jié)構(gòu)具有循環(huán)鏈接特性,所以常用于時(shí)序信號(hào)的短時(shí)動(dòng)態(tài)信息建模,并且其更加適用于語(yǔ)音信號(hào)這種與數(shù)據(jù)出現(xiàn)次序有關(guān)的信息處理,在語(yǔ)音分離領(lǐng)域取得了巨大成功。單層RNN因只有單個(gè)隱層,層級(jí)結(jié)構(gòu)的缺乏令其在學(xué)習(xí)語(yǔ)音信號(hào)深層結(jié)構(gòu)信息時(shí)具有缺陷性。隨后有學(xué)者針對(duì)該問(wèn)題提出了基于深層循環(huán)神經(jīng)網(wǎng)絡(luò)(Deep Recurrent Neural Network,DRNN)的語(yǔ)音信號(hào)分離方法,但是DRNN中還存在梯度消失問(wèn)題有待解決[17]。
綜上所述,深度學(xué)習(xí)方式解決語(yǔ)音分離問(wèn)題主要依靠頻域特征,沒(méi)有對(duì)語(yǔ)音信號(hào)空間特征進(jìn)行有效利用。針對(duì)深度學(xué)習(xí)中RNN梯度消失問(wèn)題,本文提出一種基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory networks, LSTM)的語(yǔ)音分離方法,該方法既考慮到了語(yǔ)音信號(hào)時(shí)序相關(guān)性,又克服了傳統(tǒng)RNN算法梯度消失問(wèn)題。當(dāng)前深度學(xué)習(xí)模型都是對(duì)語(yǔ)音信號(hào)進(jìn)行頻域特征提取,之后對(duì)該特征進(jìn)行訓(xùn)練得到輸入特征和關(guān)注語(yǔ)音信號(hào)頻譜特征間非線性映射關(guān)系,從而解決語(yǔ)音分離問(wèn)題,但是該方法的不足之處在于其分離依據(jù)是目標(biāo)語(yǔ)音于干擾語(yǔ)音間頻譜結(jié)構(gòu)差異,若二者結(jié)構(gòu)相似則其分離結(jié)果較差。針對(duì)該問(wèn)題,本文結(jié)合波束形成算法和LSTM網(wǎng)絡(luò),提出了改進(jìn)算法,充分利用了語(yǔ)音信號(hào)的空間特征和頻譜特征并在具體實(shí)驗(yàn)中對(duì)分離結(jié)果進(jìn)行驗(yàn)證。
利用深度學(xué)習(xí)方式更好對(duì)輸入和輸出特征進(jìn)行非線性擬合,相對(duì)于淺層網(wǎng)絡(luò),其更加具有優(yōu)勢(shì)。一般來(lái)說(shuō),監(jiān)督性語(yǔ)音分離系統(tǒng)流程如圖1所示。
圖1給出了監(jiān)督性學(xué)習(xí)實(shí)現(xiàn)步驟,主要分為5個(gè)子模塊,首先通過(guò)時(shí)頻分解模塊將語(yǔ)音時(shí)域信號(hào)轉(zhuǎn)換成2維時(shí)頻信號(hào);而后對(duì)語(yǔ)音信號(hào)進(jìn)行特征提取操作,常用方法包括短時(shí)傅里葉變換譜、梅爾頻率倒譜系數(shù)等;第3個(gè)模塊是確定分離目標(biāo),后續(xù)分離過(guò)程中將利用此分離目標(biāo)并結(jié)合觀測(cè)信號(hào)分離出多路原始信號(hào)。分離目標(biāo)選擇和深度學(xué)習(xí)最終任務(wù)有關(guān),常用分離目標(biāo)有目標(biāo)語(yǔ)音幅度譜估計(jì)和時(shí)頻掩蔽目標(biāo)等;第4個(gè)部分為模型訓(xùn)練過(guò)程,通過(guò)大量觀測(cè)信號(hào)和純凈語(yǔ)音數(shù)據(jù)之間進(jìn)行非線性映射,訓(xùn)練過(guò)程中動(dòng)態(tài)調(diào)整神經(jīng)網(wǎng)絡(luò)參數(shù),使其達(dá)到更好擬合效果;分離系統(tǒng)最后一個(gè)階段是語(yǔ)音信號(hào)波形合成階段,該階段利用訓(xùn)練得到的分離模型對(duì)觀測(cè)信號(hào)進(jìn)行處理,而后通過(guò)傅里葉逆變換得到目標(biāo)語(yǔ)音波形信號(hào)[18]。
圖1 監(jiān)督性語(yǔ)音分離系統(tǒng)流程圖
RNN模型可以利用所有時(shí)刻的輸入信息,并將其映射到不同輸入單元中,對(duì)于語(yǔ)音信號(hào)等具有上下文關(guān)系的信息處理具有積極意義。但是RNN神經(jīng)網(wǎng)絡(luò)存在梯度消失問(wèn)題,即某一時(shí)刻輸出無(wú)法長(zhǎng)時(shí)間對(duì)下一時(shí)刻造成影響,隨著網(wǎng)絡(luò)傳播,作用效果越來(lái)越小,導(dǎo)致網(wǎng)絡(luò)中單元只受到其附近單元影響,因而其并不適合處理具有長(zhǎng)期依賴(lài)性的問(wèn)題。
為解決RNN梯度消失問(wèn)題,有學(xué)者提出了一種LSTM網(wǎng)絡(luò),該網(wǎng)絡(luò)和RNN具有相同組織形式,但是相較于RNN,其神經(jīng)元內(nèi)部結(jié)構(gòu)有所不同。LSTM的一個(gè)標(biāo)準(zhǔn)神經(jīng)元包括了輸出門(mén)、遺忘門(mén)和輸入門(mén)。3個(gè)門(mén)相互配合使得信息可以長(zhǎng)時(shí)間保存在網(wǎng)絡(luò)中并進(jìn)行上下文信息傳遞。當(dāng)網(wǎng)絡(luò)中輸入門(mén)關(guān)閉時(shí),就不會(huì)有新網(wǎng)絡(luò)輸入影響LSTM狀態(tài),那么可以將較為靠前的序列信息傳遞到序列后端,從而解決了梯度消失和梯度爆炸問(wèn)題[19–22]。一個(gè)標(biāo)準(zhǔn)的LSTM網(wǎng)絡(luò)梯度信息保存如圖2所示。
圖2 LSTM梯度信息保存示意圖
如圖2所示,在圖2中每一個(gè)神經(jīng)元左側(cè)代表遺忘門(mén)狀態(tài),下方代表輸入門(mén)狀態(tài),上方代表輸出門(mén)狀態(tài),在圖2中○代表開(kāi)關(guān)打開(kāi), -代表開(kāi)關(guān)關(guān)閉。在時(shí)刻1,網(wǎng)絡(luò)輸入門(mén)打開(kāi),新數(shù)據(jù)信息被輸入到網(wǎng)絡(luò)中,而后在時(shí)刻2, 3, 4輸入門(mén)保持關(guān)閉,遺忘門(mén)保持打開(kāi),前一個(gè)時(shí)刻信息被傳遞到后一個(gè)時(shí)刻中,并且因?yàn)檩斎腴T(mén)關(guān)閉,當(dāng)前LSTM神經(jīng)網(wǎng)絡(luò)狀態(tài)不會(huì)被新網(wǎng)絡(luò)輸入所覆蓋,所以位置較靠前的上下文信息被傳遞到了網(wǎng)絡(luò)后端,解決了RNN梯度消失問(wèn)題,在時(shí)刻3和時(shí)刻4,輸出門(mén)保持打開(kāi)狀態(tài),當(dāng)前網(wǎng)絡(luò)信息反映到輸出層中。
2.1小節(jié)中給出了對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)音分離的具體流程,并介紹了常用于語(yǔ)音分離的神經(jīng)網(wǎng)絡(luò),說(shuō)明了LSTM網(wǎng)絡(luò)相對(duì)于RNN具有的優(yōu)勢(shì),本節(jié)將針對(duì)LSTM網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)給出具體說(shuō)明,并給出一種基于理想二值掩碼的LSTM神經(jīng)網(wǎng)絡(luò)。典型LSTM網(wǎng)絡(luò)記憶塊如圖3所示。
如圖3所示,一個(gè)標(biāo)準(zhǔn)LSTM網(wǎng)絡(luò)記憶塊具有1個(gè)記憶單元和3個(gè)門(mén)控單元,網(wǎng)絡(luò)利用圖3中3個(gè)門(mén)控單元來(lái)控制記憶單元狀態(tài)。門(mén)控單元分別表示輸入門(mén)。輸出門(mén)和遺忘門(mén)。某一時(shí)刻t,LSTM記憶塊利用門(mén)狀態(tài)的改變來(lái)對(duì)記憶塊狀態(tài)進(jìn)行更新。更新過(guò)程由遺忘門(mén)狀態(tài)更新、記憶單元狀態(tài)更新和輸出更新組成。
如圖3中①所示,遺忘門(mén)在t時(shí)刻輸出mt由前一
圖3 LSTM網(wǎng)絡(luò)記憶塊
利用二值掩碼結(jié)合LSTM網(wǎng)絡(luò)來(lái)進(jìn)行語(yǔ)音信號(hào)分離訓(xùn)練有望達(dá)到比RNN更好的分離效果。IBMLSTM網(wǎng)絡(luò)結(jié)果如圖4所示。
圖4中,在訓(xùn)練階段,網(wǎng)絡(luò)輸入是混合語(yǔ)音信號(hào)時(shí)頻譜,通過(guò)與純凈語(yǔ)音信號(hào)時(shí)頻譜進(jìn)行非線性映射,形成一個(gè)通過(guò)LSTM網(wǎng)絡(luò)訓(xùn)練得到的二值掩碼模型;在分離階段通過(guò)該模型估計(jì)出對(duì)應(yīng)語(yǔ)音信號(hào)的二值掩碼,而后通過(guò)短時(shí)傅里葉逆變換得到原始語(yǔ)音信號(hào),完成語(yǔ)音分離任務(wù)。
圖4 波束形成頻域求和結(jié)構(gòu)示意圖
隨著當(dāng)前深度學(xué)習(xí)領(lǐng)域和人工智能快速發(fā)展,通過(guò)語(yǔ)音信號(hào)實(shí)現(xiàn)智能交互過(guò)程已經(jīng)成為現(xiàn)實(shí),其對(duì)語(yǔ)音拾音系統(tǒng)也提出了新要求,利用單個(gè)麥克風(fēng)進(jìn)行信號(hào)采集已經(jīng)無(wú)法適應(yīng)當(dāng)前環(huán)境,通過(guò)麥克風(fēng)陣列進(jìn)行語(yǔ)音信號(hào)采集變成了一種必然趨勢(shì)。相對(duì)于單個(gè)麥克風(fēng)語(yǔ)音采集情況,麥克風(fēng)陣列可以有效采集到發(fā)聲場(chǎng)原始語(yǔ)音信號(hào)空間信息,通過(guò)特定波束形成算法可以實(shí)現(xiàn)盲通道辨識(shí)、語(yǔ)音信號(hào)增強(qiáng)、盲源信號(hào)分離等多種目標(biāo)[23,24]。
波束形成算法是針對(duì)麥克風(fēng)陣列提出的一種信號(hào)處理算法,其可以實(shí)現(xiàn)聲源信號(hào)定位和定向、語(yǔ)音信號(hào)增強(qiáng)和分離等操作[25–27]。其最基本原理是利用麥克風(fēng)陣列得到的語(yǔ)音信號(hào)空間信息,建立一個(gè)增益隨方位角和距離變化的空域?yàn)V波器。常用的波束形成方法有延遲求和波束形成算法、差分波束形成、超指向波束形成算法等[28–31]。本文就波束形成基本原理進(jìn)行敘述,進(jìn)而引出本文中使用的超指向波束形成算法,該算法相對(duì)于其他波束形成算法,對(duì)來(lái)自非導(dǎo)向方向語(yǔ)音信號(hào)抑制作用更強(qiáng),更適用于本文所提出的語(yǔ)音分離模型。
波束形成過(guò)程如圖5所示,其中包含兩個(gè)過(guò)程,分別代表濾波和信號(hào)疊加。波束形成器由不同通道所對(duì)應(yīng)的濾波器共同組成,其大多數(shù)是在頻域進(jìn)行設(shè)計(jì),通過(guò)短時(shí)傅里葉變換方式實(shí)現(xiàn)。
圖5 波束形成頻域求和結(jié)構(gòu)示意圖
為實(shí)現(xiàn)對(duì)非導(dǎo)向方向語(yǔ)音信號(hào)最大抑制效果,需要使波束形成器指向性越高越好。實(shí)現(xiàn)該目標(biāo)最簡(jiǎn)單的方式是極大化指向性因子,通過(guò)這種方式設(shè)計(jì)出來(lái)的波束形成器稱(chēng)為超指向波束形成器,超指向波束形成算法在期望聲源方向無(wú)失真約束條件下,可以將問(wèn)題簡(jiǎn)化為
超指向波束形成實(shí)質(zhì)是在保證期望聲源信號(hào)不失真的前提下,盡量對(duì)來(lái)自其他方向的語(yǔ)音信號(hào)進(jìn)行抑制的過(guò)程,因此將其和上文中提到過(guò)的LSTM神經(jīng)網(wǎng)絡(luò)相結(jié)合,可以在神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上引入語(yǔ)音信號(hào)方向信息,有望進(jìn)一步提高神經(jīng)網(wǎng)絡(luò)模型語(yǔ)音信號(hào)分離效果。
傳統(tǒng)深度學(xué)習(xí)模型僅僅利用觀測(cè)信號(hào)頻譜信息和原始信號(hào)頻譜信息進(jìn)行非線性映射操作,而忽略了語(yǔ)音信號(hào)空間信息。針對(duì)該問(wèn)題,本文利用麥克風(fēng)陣列,提出一種超指向波束形成算法和LSTM網(wǎng)絡(luò)結(jié)合模型,通過(guò)波束形成算法得到3個(gè)不同方向語(yǔ)音波束信號(hào),而后該算法提取的特征是每一個(gè)波束中的頻譜幅度特征,通過(guò)本文構(gòu)建的LSTM網(wǎng)絡(luò)預(yù)測(cè)掩蔽值,通過(guò)掩蔽值得到待分離語(yǔ)音信號(hào)頻譜并重構(gòu)出時(shí)域信號(hào),實(shí)現(xiàn)語(yǔ)音分離。分離算法流程圖如圖6所示。
圖6 分離算法流程圖
由圖6可見(jiàn),利用合適的麥克風(fēng)陣列對(duì)3路語(yǔ)音信號(hào)進(jìn)行采集,通過(guò)超指向波束形成算法,得到3個(gè)不同方向的指向性波束。對(duì)3個(gè)波束信號(hào)進(jìn)行頻譜幅度特征提取進(jìn)而得到聯(lián)合特征,根據(jù)數(shù)據(jù)每個(gè)維度上特征值的平均值和標(biāo)準(zhǔn)差對(duì)聯(lián)合特征進(jìn)行標(biāo)準(zhǔn)化操作。當(dāng)前聯(lián)合特征作為L(zhǎng)STM網(wǎng)絡(luò)輸入,根據(jù)目標(biāo)語(yǔ)音信號(hào)頻譜幅度特征,通過(guò)網(wǎng)絡(luò)訓(xùn)練得到掩蔽值,根據(jù)掩蔽值得到目標(biāo)語(yǔ)音頻譜,進(jìn)行語(yǔ)音信號(hào)重構(gòu)得到原始時(shí)域目標(biāo)語(yǔ)音信號(hào),完成語(yǔ)音信號(hào)分離工作。
實(shí)驗(yàn)過(guò)程中,通過(guò)TIMIT語(yǔ)音庫(kù)隨機(jī)選擇3名說(shuō)話人語(yǔ)音信號(hào),并且說(shuō)話人年齡和性別均保持隨機(jī)抽取,在進(jìn)行語(yǔ)音錄制前將3段語(yǔ)音信號(hào)裁剪成相同時(shí)間長(zhǎng)度并進(jìn)行幅度歸一化操作,陣列布放及聲源位置如圖7所示,本文通過(guò)圖7的布放方式進(jìn)行語(yǔ)音信號(hào)錄制。
圖7 陣列布放及聲源位置
本文所用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)由1層掩蔽層、3層LSTM層和1層全連接層構(gòu)成。其中全連接層中包含600個(gè)節(jié)點(diǎn),訓(xùn)練中用到的損失函數(shù)為mean_squared_error函數(shù),即最小均方誤差(Mean Squared Error, MSE)函數(shù),在訓(xùn)練過(guò)程中,損失函數(shù)值越小,說(shuō)明神經(jīng)網(wǎng)絡(luò)和訓(xùn)練集擬合性越好,匹配度越高。
圖8 LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
實(shí)驗(yàn)中語(yǔ)音信號(hào)采樣頻率統(tǒng)一為16 kHz,幀長(zhǎng)設(shè)置為512點(diǎn),采用3層LSTM網(wǎng)絡(luò)結(jié)構(gòu),每層由600個(gè)神經(jīng)元組成。在 60°, 1 20°, 2 40°方向進(jìn)行超指向波束形成,得到不同方向的語(yǔ)音波束信號(hào),進(jìn)而得到不同波束頻譜幅度特征,將特征拼接起來(lái)得到聯(lián)合特征,將聯(lián)合特征作為網(wǎng)絡(luò)輸入,結(jié)合純凈語(yǔ)音信號(hào)頻譜幅度特征,得到一個(gè)二值掩蔽訓(xùn)練模型。分離階段通過(guò)模型得到混合語(yǔ)音信號(hào)對(duì)應(yīng)的二值掩蔽,將其作用于混合語(yǔ)音信號(hào)幅度譜得到待分離語(yǔ)音信號(hào)幅度譜,重構(gòu)原始語(yǔ)音信號(hào),達(dá)到語(yǔ)音信號(hào)分離的目的。由上文理論分析可知,相對(duì)于傳統(tǒng)LSTM網(wǎng)絡(luò),該方法不僅利用了觀測(cè)信號(hào)頻譜信息,還通過(guò)波束形成算法利用了觀測(cè)信號(hào)空間信息,有望得到較好的分離結(jié)果。
為量化實(shí)驗(yàn)結(jié)果,本文通過(guò)客觀語(yǔ)音質(zhì)量評(píng)估(Perceptual Evaluation of Speech Quality,PESQ)、短時(shí)客觀可懂(Short-Time Objective Intelligibility, STOI)、信噪比(Signal to Noise Ratio, SNR)指標(biāo)對(duì)分離結(jié)果進(jìn)行評(píng)價(jià),對(duì)提出的波束形成LSTM網(wǎng)絡(luò)分離效果進(jìn)行測(cè)試,并將實(shí)驗(yàn)結(jié)果同IBM-LSTM方法進(jìn)行對(duì)比,并將本文結(jié)果同RNN分離結(jié)果對(duì)比,本文以60°, 120°及240°方向語(yǔ)音信號(hào)的分離結(jié)果為例,不同網(wǎng)絡(luò)分離結(jié)果如表1所示。
由表1可知,結(jié)合波束形成算法的LSTM網(wǎng)絡(luò),綜合利用了語(yǔ)音信號(hào)的頻譜信息和空間信息,相較于僅僅應(yīng)用頻譜信息的神經(jīng)網(wǎng)絡(luò)在語(yǔ)音分離效果上有所提高,在60°方向時(shí),波束形成LSTM網(wǎng)絡(luò)與IBM-LSTM網(wǎng)絡(luò)相比,PESQ提高了0.59 dB,STOI指標(biāo)提高了0.06,SNR提高了1.13。與RNN相比,PESQ提高了0.76,STOI指標(biāo)提高了0.09,SNR提高了2.16 dB。在120°方向時(shí),波束形成LSTM網(wǎng)絡(luò)與IBM-LSTM網(wǎng)絡(luò)相比,PESQ提高了0.56,STOI指標(biāo)提高了0.05,SNR提高了1.13 dB。與RNN相比,PESQ提高了0.76,STOI指標(biāo)提高了0.09,SDR提高了2.18 dB。在240°方向時(shí),由表1可得到與上述兩種角度相同的結(jié)論,即波束形成LSTM網(wǎng)絡(luò)相較于另外兩種算法在語(yǔ)音分離評(píng)價(jià)指標(biāo)上均有所提高。實(shí)驗(yàn)結(jié)果表明,結(jié)合超指向波束形成的LSTM網(wǎng)絡(luò)相較于IBM-LSTM, RNN在語(yǔ)音分離領(lǐng)域取得了更好的分離效果,證明了本文所提算法的有效性。
表1 不同網(wǎng)絡(luò)結(jié)構(gòu)分離人聲信號(hào)結(jié)果