鄭昌艷 張雄偉 曹鐵勇 楊吉斌 孫 蒙 邢益搏
(陸軍工程大學(xué),南京,210007)
人體傳聲器(Body-conducted microphone,BCM)[1-2]是一種利用人體骨頭或者組織的振動(dòng)產(chǎn)生語(yǔ)音信號(hào)的設(shè)備?,F(xiàn)有的BCM設(shè)備包括喉振傳聲器(Throat microphone,TM)、頭骨傳聲器(Headset microphone,HM)以及利用耳后組織的非聲耳語(yǔ)傳聲器(Nonaudible murmur microphone,NAM)等。與常見(jiàn)的空氣傳導(dǎo)麥克風(fēng)(Air-conducted microphone,ACM)不同,BCM采集的信號(hào)基本不受環(huán)境噪聲干擾,具有很強(qiáng)的抗噪性能,因此常被應(yīng)用于軍事、工廠、極限運(yùn)動(dòng)、醫(yī)療等強(qiáng)噪聲場(chǎng)合。例如,文獻(xiàn)[2]利用NAM實(shí)現(xiàn)咽喉受損患者語(yǔ)音交流,文獻(xiàn)[3]利用HM協(xié)助戰(zhàn)場(chǎng)士兵通信,文獻(xiàn)[4]利用TM實(shí)現(xiàn)魯棒的語(yǔ)音識(shí)別。
雖然BCM具有很強(qiáng)的抗噪性能,但是由于人體信號(hào)傳導(dǎo)的低通性,其語(yǔ)音高頻成份衰減嚴(yán)重,截止頻率通常在2.5 kHz左右。并且由于聲音不再經(jīng)過(guò)口腔、鼻腔等傳播路徑,爆破音、擦音、鼻音等成份丟失。再加上設(shè)備機(jī)械振動(dòng)的固有特性,語(yǔ)音的中頻成份相比于ACM語(yǔ)音厚重[5-6]。這些問(wèn)題使得BCM語(yǔ)音聽(tīng)起來(lái)比較沉悶,語(yǔ)音質(zhì)量達(dá)不到人耳舒適度需求,從而在一定程度上影響了BCM的進(jìn)一步推廣應(yīng)用。
近年來(lái),諸多學(xué)者開(kāi)展了與BCM語(yǔ)音相關(guān)的語(yǔ)音增強(qiáng)算法的研究,但是在多數(shù)情況下,BCM只是作為ACM語(yǔ)音增強(qiáng)的輔助。例如,文獻(xiàn)[7]通過(guò)設(shè)計(jì)自適應(yīng)的線(xiàn)性與非線(xiàn)性相結(jié)合的濾波,融合BCM語(yǔ)音與帶噪ACM語(yǔ)音,文獻(xiàn)[8]通過(guò)線(xiàn)性融合ACM與TM的聲學(xué)特征來(lái)提高語(yǔ)音識(shí)別率。上述增強(qiáng)算法在增強(qiáng)階段必須同時(shí)具有TM與ACM語(yǔ)音信息,在強(qiáng)噪聲環(huán)境下,帶噪ACM語(yǔ)音可能完全不可用,并且一些BCM設(shè)備并未配置ACM,因此存在較大的應(yīng)用局限性。
BCM語(yǔ)音盲增強(qiáng)(Blind enhancement),原稱(chēng)盲恢復(fù)(Blind restoration)[9],是指在增強(qiáng)階段直接從已有的BCM語(yǔ)音中推斷出純凈ACM語(yǔ)音信號(hào),而不需要ACM語(yǔ)音信息作為輔助?,F(xiàn)有的BCM語(yǔ)音盲增強(qiáng)算法大都是通過(guò)轉(zhuǎn)換語(yǔ)音譜包絡(luò)特征達(dá)到增強(qiáng)目的。例如文獻(xiàn)[10]利用簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)建立BCM到ACM語(yǔ)音加權(quán)線(xiàn)性感知倒譜系數(shù)(Weighted linear predictive cepstrum coefficient,wLPCC)之間的轉(zhuǎn)換關(guān)系;文獻(xiàn)[9]認(rèn)為線(xiàn)譜頻率LSF比LPC特征擁有更好的穩(wěn)定性,并且利用淺層遞歸神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)特征的轉(zhuǎn)換;文獻(xiàn)[11]采用深度玻爾茲曼機(jī)神經(jīng)網(wǎng)絡(luò),建BCM語(yǔ)音到ACM語(yǔ)音的LSF參數(shù)轉(zhuǎn)換關(guān)系;文獻(xiàn)[12]首先利用K-means聚類(lèi)算法將TM語(yǔ)音的梅爾廣義倒譜系數(shù)(Mel generalized cepstral coefficients,MGC)分為10類(lèi),每一類(lèi)分別建立簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)映射MGC特征關(guān)系,以實(shí)現(xiàn)語(yǔ)音特征更精細(xì)的轉(zhuǎn)換;文獻(xiàn)[2]利用語(yǔ)音轉(zhuǎn)換中常用的語(yǔ)音分解合成模型STRAIGHT[13](Speech transformation and representation using adaptive interpolation of weighted spectrum),將語(yǔ)音分解為譜包絡(luò)特征、基音周期和非周期成份,利用GMM建立NAM與ACM語(yǔ)音梅爾倒譜系數(shù)之間的轉(zhuǎn)換關(guān)系。上述增強(qiáng)算法可以較好改善BCM語(yǔ)音譜包絡(luò)特征,但是由于特征維數(shù)較低,譜的細(xì)節(jié)信息不能很好恢復(fù),因此增強(qiáng)效果與人耳舒適度需求仍有較大差距。
本文提出了一種基于特定說(shuō)話(huà)人的喉振傳聲器語(yǔ)音盲增強(qiáng)算法,該算法利用長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)模型[14](Long short term memory recurrent neural networks,LSTM-RNN)直接建模TM語(yǔ)音和ACM語(yǔ)音高維對(duì)數(shù)幅度譜特征之間的映射關(guān)系,這種神經(jīng)網(wǎng)絡(luò)能夠有效利用上下文信息實(shí)現(xiàn)特征學(xué)習(xí),然后針對(duì)神經(jīng)網(wǎng)絡(luò)輸出過(guò)平滑問(wèn)題,利用非負(fù)矩陣分解(Non-negative matrix factorization,NMF)[15]算法對(duì)估計(jì)出的幅度譜進(jìn)行抑制平滑處理。
TM語(yǔ)音和ACM語(yǔ)音可看成由同一激勵(lì)源(人的喉頭)產(chǎn)生的信號(hào),那么TM語(yǔ)音盲增強(qiáng)的關(guān)鍵就是要找TM語(yǔ)音到ACM語(yǔ)音聲道特征之間的轉(zhuǎn)換關(guān)系。顯然,這是一種復(fù)雜的非線(xiàn)性轉(zhuǎn)換關(guān)系,由于TM語(yǔ)音丟失了經(jīng)過(guò)口腔、鼻腔等輻射的語(yǔ)音音素,并且不同人的身體傳導(dǎo)特性也不盡相同,因此這種轉(zhuǎn)換關(guān)系不僅基于語(yǔ)音音素,而且也基于特定說(shuō)話(huà)人。
以往的TM語(yǔ)音盲增強(qiáng)算法均是基于語(yǔ)音源-濾波器模型,將語(yǔ)音分解為激勵(lì)(源)特征和聲道(濾波器)特征,在假定激勵(lì)特征不變的情況下,對(duì)低維的聲道參數(shù)特征(如LSF、MGC)進(jìn)行映射以實(shí)現(xiàn)語(yǔ)音增強(qiáng)。這些低維參數(shù)特征能夠反映出語(yǔ)音譜包絡(luò)的變化趨勢(shì),但對(duì)譜的細(xì)節(jié)信息描述不夠,因而增強(qiáng)效果有限。為獲取更高的增強(qiáng)語(yǔ)音質(zhì)量,本文提出了一種基于高維譜特征轉(zhuǎn)換的TM語(yǔ)音盲增強(qiáng)算法模型,并利用深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)了TM與ACM語(yǔ)音高維特征間的有效轉(zhuǎn)換,算法的總體思路如圖1所示。
圖1 TM語(yǔ)音盲增強(qiáng)總體思路Fig.1 Framework of TM speech blind enhancement algorithm
該算法首先根據(jù)基于信號(hào)的語(yǔ)音分解合成模型,將語(yǔ)音分解為高維幅度譜與相位譜,通過(guò)轉(zhuǎn)換高維幅度譜實(shí)現(xiàn)TM語(yǔ)音盲增強(qiáng)??紤]到對(duì)數(shù)幅度譜能夠?qū)Ψ茸V進(jìn)行有效壓縮,減少動(dòng)態(tài)范圍,易于神經(jīng)網(wǎng)絡(luò)訓(xùn)練,算法最終選取了對(duì)數(shù)幅度譜作為轉(zhuǎn)換特征。
TM與ACM語(yǔ)音在幅度譜上的差異主要表現(xiàn)為高頻成份的嚴(yán)重丟失。從信息丟失嚴(yán)重的TM語(yǔ)音中恢復(fù)出高頻信號(hào)并非易事,也可將這種恢復(fù)視為一種人工頻譜擴(kuò)展(Artificial bandwidth extension),簡(jiǎn)稱(chēng)頻譜擴(kuò)頻。但是傳統(tǒng)的頻譜擴(kuò)頻的目的是將原始語(yǔ)音信號(hào)從0.3~3.7 kHz擴(kuò)展到0.3~8 kHz左右,關(guān)注的是電信網(wǎng)絡(luò)傳輸語(yǔ)音信號(hào)的音質(zhì),而TM語(yǔ)音截止頻率約為2.5 kHz,不僅是人耳的聽(tīng)覺(jué)感知受到了影響,很多與內(nèi)容相關(guān)的信息也丟失了。這種丟失的信息并不能簡(jiǎn)單地從單個(gè)語(yǔ)音幀的低頻信息推斷出,而是必須結(jié)合上下文信息,從語(yǔ)境中“猜測(cè)”丟失的信號(hào)。
深度學(xué)習(xí)強(qiáng)大的非線(xiàn)性映射能力使得高維特征之間的建模成為了可能。遞歸神經(jīng)網(wǎng)絡(luò)模型能夠利用其內(nèi)部的遞歸結(jié)構(gòu)實(shí)現(xiàn)上下文信息的建模,因而更適合建模TM語(yǔ)音的“頻譜擴(kuò)展”問(wèn)題。LSTMRNN引入了精心設(shè)計(jì)的記憶單元結(jié)構(gòu)解決了傳統(tǒng)遞歸神經(jīng)網(wǎng)絡(luò)梯度爆炸和消失的問(wèn)題,使得學(xué)習(xí)序列長(zhǎng)時(shí)信息成為了可能。本文正是利用LSTM-RNN強(qiáng)大的序列學(xué)習(xí)能力,實(shí)現(xiàn)TM語(yǔ)音丟失信息的恢復(fù)。
神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中,會(huì)依據(jù)TM和ACM語(yǔ)音的對(duì)數(shù)幅度譜之間的距離調(diào)整網(wǎng)絡(luò)參數(shù),調(diào)整中默認(rèn)每個(gè)頻點(diǎn)差距對(duì)距離的貢獻(xiàn)是相同的。這種平均貢獻(xiàn)會(huì)產(chǎn)生數(shù)據(jù)過(guò)平滑問(wèn)題,因?yàn)檎Z(yǔ)音數(shù)據(jù)的結(jié)構(gòu)特點(diǎn)并未體現(xiàn)其中。
NMF是一種經(jīng)典的字典學(xué)習(xí)方法,它能夠?qū)⒁粋€(gè)非負(fù)矩陣分解為兩個(gè)非負(fù)矩陣的乘積,其中一個(gè)矩陣反映原矩陣的局部特征(又稱(chēng)為字典矩陣),另一個(gè)則反映這些特征的大小與增益稱(chēng)之為激活矩陣。由于字典基的數(shù)量遠(yuǎn)遠(yuǎn)小于原始數(shù)據(jù)的個(gè)數(shù),為盡可能地還原原始信息,NMF能夠有效地捕捉數(shù)據(jù)的結(jié)構(gòu)特點(diǎn)[16]。本文利用NMF的這一優(yōu)點(diǎn)緩解神經(jīng)網(wǎng)絡(luò)輸出數(shù)據(jù)過(guò)平滑問(wèn)題,這種后處理方法已在語(yǔ)噪分離[17]、頻譜擴(kuò)展[18]中得到成功應(yīng)用。
算法的具體實(shí)現(xiàn)分為訓(xùn)練階段和增強(qiáng)階段。訓(xùn)練階段主要包括:TM與ACM語(yǔ)音的特征抽取、基于LSTM-RNN的特征轉(zhuǎn)換模型訓(xùn)練以及基于NMF的ACM語(yǔ)音特征字典學(xué)習(xí)。增強(qiáng)階段主要包括:TM語(yǔ)音特征的提取、基于LSTM-RNN模型的特征轉(zhuǎn)換、基于NMF的神經(jīng)網(wǎng)絡(luò)輸出過(guò)平滑處理,以及最終的增強(qiáng)語(yǔ)音合成。需指出的是,為使神經(jīng)網(wǎng)絡(luò)更好地收斂,需要對(duì)神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)進(jìn)行高斯歸一化[19]。
算法在訓(xùn)練階段的具體步驟為:
步驟1對(duì)訓(xùn)練集的TM語(yǔ)音x(n)和ACM語(yǔ)音s(n)分幀加窗并進(jìn)行短時(shí)傅里葉變換,分別得到TM與ACM語(yǔ)音幅度譜特征X與S;
步驟2對(duì)幅度譜特征X與S進(jìn)行對(duì)數(shù)變換得到對(duì)數(shù)幅度譜log(X)與log(S),計(jì)算出對(duì)數(shù)幅度譜每一維的均值與方差,記為,σX和ˉ,σS;
步驟3對(duì)數(shù)幅度譜log(X)與log(S)分別進(jìn)行高斯歸一化,計(jì)算公式為
步驟4將logNorm(X)作為輸入,logNorm(S)作為輸出目標(biāo),訓(xùn)練LSTM-RNN模型,得到訓(xùn)練好的模型,記為G;
步驟5利用NMF對(duì)ACM語(yǔ)音幅度譜S進(jìn)行分解,得到字典矢量基DA。
算法在增強(qiáng)階段的具體步驟為:
步驟1對(duì)待增強(qiáng)的TM語(yǔ)音t(n)分幀加窗并進(jìn)行短時(shí)傅里葉變換,得到TM語(yǔ)音幅度譜特征T與相位譜特征P;
步驟2對(duì)幅度譜特征T取對(duì)數(shù)得到對(duì)數(shù)幅度譜log(T),并根據(jù)訓(xùn)練集得到的TM語(yǔ)音對(duì)數(shù)幅度譜均值與方差進(jìn)行高斯歸一化,計(jì)算公式為
步驟3利用訓(xùn)練好的LSTM-RNN模型對(duì)特征進(jìn)行轉(zhuǎn)換,得到輸出log()=G(logNorm(T));
步驟4依據(jù)訓(xùn)練集ACM語(yǔ)音特征的均值、方差進(jìn)行反歸一化,并進(jìn)行指數(shù)計(jì)算,得到估計(jì)的幅度譜為
步驟5根據(jù)訓(xùn)練階段得到的字典DA,對(duì)S^進(jìn)行過(guò)平滑處理,得到最終估計(jì)的幅度譜;
步驟6利用反傅里葉變換(Inverse short time Fourier transform,ISTFT)將與P合成增強(qiáng)語(yǔ)音tE(n)。
整個(gè)算法的具體實(shí)現(xiàn)流程如圖2所示,為簡(jiǎn)練起見(jiàn),數(shù)據(jù)的高斯歸一化與反歸一化過(guò)程未在圖中體現(xiàn)。
設(shè)TM的第i幀語(yǔ)音的對(duì)數(shù)幅度譜特征為Xi,相對(duì)應(yīng)的ACM語(yǔ)音對(duì)數(shù)幅度譜特征為Si,并且均已經(jīng)過(guò)高斯歸一化。LSTM-RNN需聯(lián)立多幀語(yǔ)音信息建模上下文關(guān)系,聯(lián)立的幀數(shù)稱(chēng)為迭代步長(zhǎng),設(shè)為2m+1,其中m為整數(shù),0≤m<N。聯(lián)立形式通常為開(kāi)窗,即連接前后m幀信息推斷中間幀信息。因此,LSTM-RNN的輸入xn可表示為如下形式
式中:n為輸入樣本個(gè)數(shù)索引。對(duì)應(yīng)的目標(biāo)輸出yn=Si,網(wǎng)絡(luò)的訓(xùn)練目標(biāo)函數(shù)為均方誤差函數(shù),如式(5)所示。
圖2 算法實(shí)現(xiàn)流程Fig.2 Flowchart of the proposed algorithm
式中:N為樣本總數(shù)為對(duì)數(shù)幅度譜yn的估計(jì);fW,b指經(jīng)過(guò)LSTM-RNN的非線(xiàn)性轉(zhuǎn)換函數(shù);W為神經(jīng)網(wǎng)絡(luò)的權(quán)值矩陣;b為神經(jīng)網(wǎng)絡(luò)偏置值。LSTM-RNN根據(jù)目標(biāo)函數(shù)計(jì)算出估計(jì)的對(duì)數(shù)幅度譜與目標(biāo)對(duì)數(shù)幅度譜之間的誤差,并根據(jù)此誤差利用基于時(shí)間的反向傳播算法(Back propagation through time)更新神經(jīng)網(wǎng)絡(luò)參數(shù)。
與受限玻爾茲曼機(jī)-深度置信網(wǎng)絡(luò)不同的是,LSTM-RNN輸入信息并不是多幀語(yǔ)音信息的簡(jiǎn)單聯(lián)合,它通過(guò)在激活單元中設(shè)計(jì)了3種門(mén)結(jié)構(gòu)即輸入門(mén)、遺忘門(mén)、輸出門(mén)和一個(gè)記憶狀態(tài),實(shí)現(xiàn)了無(wú)用信息的丟棄和有用信息的保留,從而控制了信息流在神經(jīng)網(wǎng)絡(luò)中的有效流動(dòng)。若沒(méi)有丟棄無(wú)用信息的過(guò)程,則過(guò)多的信息會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)難以擬合,從理論上也可證明語(yǔ)音的前后幀信息對(duì)于推斷當(dāng)前幀信息并非都是有用的。
LSTM-RNN中,輸入門(mén)it、遺忘門(mén)ft和輸出門(mén)ot以及當(dāng)前時(shí)刻記憶單元的狀態(tài)值ct的計(jì)算過(guò)程如下
式中:xt為當(dāng)前時(shí)刻的輸入值,對(duì)應(yīng)的是xn中的一幀;ht是隱藏層輸出;W為權(quán)重矩陣,例如Wxf指輸入xt與遺忘門(mén)f之間的權(quán)重矩陣;b為偏置值,例如bf為遺忘門(mén)偏置值;δ為激活函數(shù)。
上述公式清楚地展現(xiàn)了當(dāng)LSTM-RNN接收到一幀數(shù)據(jù)后,會(huì)保留該幀中的有用信息,丟棄無(wú)用信息,并且更新記憶狀態(tài)值,而此記憶狀態(tài)存儲(chǔ)著該幀之前所有的有用信息,由此上下文信息得到了聯(lián)系。再輸入下一幀數(shù)據(jù),LSTM-RNN重復(fù)同樣的動(dòng)作,直到達(dá)到最大的迭代步長(zhǎng),即完成了上下文所有信息xn的輸入,才可得到最終的輸出。
神經(jīng)網(wǎng)絡(luò)的最終輸出yn需經(jīng)過(guò)以下反歸一化變換得到估計(jì)的對(duì)數(shù)幅度譜
式中:k表示第k維;yn′為重構(gòu)的對(duì)數(shù)幅度譜;v(k)、m(k)分別為ACM語(yǔ)音對(duì)數(shù)幅度譜的第k維的方差與均值。
LSTM-RNN雖然能夠很好地建模高維數(shù)據(jù)之間的相關(guān)關(guān)系,但是其輸出yn′存在過(guò)平滑的問(wèn)題,利用NMF來(lái)緩解這個(gè)問(wèn)題。
首先將訓(xùn)練集的ACM語(yǔ)音幅度譜S經(jīng)過(guò)非負(fù)矩陣分解算法得到字典DA及其激活矩陣HA,選取KL散度距離作為優(yōu)化目標(biāo)函數(shù),如式(13)所示。式(14),(15)分別為字典矩陣和激活矩陣計(jì)算的迭代過(guò)程。
式中:字典矩陣DA大小為K×T,K等于幅度譜特征維度;T為字典基矢量個(gè)數(shù),激活矩陣HA大小為T(mén)×N,N為訓(xùn)練集樣本個(gè)數(shù);i,j分別為矩陣的行、列索引。
在得到DA后,固定字典矩陣對(duì)神經(jīng)網(wǎng)絡(luò)估計(jì)的幅度譜進(jìn)行分解,可得到激活矩陣HT,最終得到抑制平滑后的幅度譜′=DA×HT。
非負(fù)矩陣分解可對(duì)神經(jīng)網(wǎng)絡(luò)輸出的幅度譜特征進(jìn)行稀疏化重構(gòu),因而可以抑制過(guò)平滑問(wèn)題。將經(jīng)過(guò)NMF處理后的幅度譜與TM語(yǔ)音的相位譜經(jīng)過(guò)反傅里葉變換并進(jìn)行去重疊加操作,得到重構(gòu)的增強(qiáng)語(yǔ)音。
目前,國(guó)內(nèi)外沒(méi)有公開(kāi)可用的數(shù)據(jù)庫(kù),本文首先制作了某型號(hào)的TM設(shè)備語(yǔ)音與ACM語(yǔ)音的平行語(yǔ)音數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)包括800個(gè)語(yǔ)句,由2男2女錄制完成。錄制時(shí),每個(gè)人需同時(shí)佩戴喉振傳聲器和普通空氣傳導(dǎo)麥克風(fēng),并在聲暗室中進(jìn)行標(biāo)準(zhǔn)普通話(huà)錄制。采用Cooledit軟件錄制,采樣率為32 kHz,采用16 bit量化。錄音語(yǔ)料來(lái)源于報(bào)紙、網(wǎng)絡(luò)以及一些人為構(gòu)造的音素平衡語(yǔ)句。每人共錄制200句語(yǔ)音,每句話(huà)時(shí)長(zhǎng)約在3~4 s,200句語(yǔ)音被分為160句作為訓(xùn)練集,40句作為測(cè)試集,訓(xùn)練集與測(cè)試集中沒(méi)有重復(fù)語(yǔ)料。
在模型訓(xùn)練前,首先對(duì)TM與ACM語(yǔ)音降采樣到8 kHz,然后進(jìn)行能量歸一化,使得兩者語(yǔ)音能量在相近的動(dòng)態(tài)范圍內(nèi)。語(yǔ)音特征提取時(shí),幀長(zhǎng)設(shè)為32 ms,幀移設(shè)為10 ms,STFT頻點(diǎn)設(shè)為256,即得到的幅度譜維度實(shí)際為129維,幅度譜取對(duì)數(shù)后進(jìn)行高斯歸一化處理。
在評(píng)價(jià)指標(biāo)中,采用了3種客觀評(píng)價(jià)指標(biāo):對(duì)數(shù)譜距離(Log-spectral distance,LSD)、感知語(yǔ)音質(zhì)量評(píng)估方法(Perceptual evaluation of speech quality,PESQ)和對(duì)數(shù)似然比(Log-likelihood ratio,LLR)。LSD反映增強(qiáng)語(yǔ)音與理想ACM語(yǔ)音之間的對(duì)數(shù)幅度譜距離,其值越小表明語(yǔ)音質(zhì)量越高。LLR是衡量語(yǔ)音線(xiàn)性預(yù)測(cè)系數(shù)距離的一種指標(biāo),其值越小表明語(yǔ)音質(zhì)量越好。PESQ是一種能夠很好評(píng)價(jià)語(yǔ)音主觀試聽(tīng)效果的評(píng)價(jià)指標(biāo),其得分越高,表明語(yǔ)音質(zhì)量越好。
通過(guò)參數(shù)調(diào)整實(shí)驗(yàn),本文得到的最優(yōu)LSTM-RNN模型參數(shù)設(shè)置如下:2個(gè)隱層,每個(gè)隱層的單元個(gè)數(shù)為512,隱層的激活函數(shù)為正切(tanh)函數(shù),輸出層激活函數(shù)為線(xiàn)性函數(shù),隱層丟棄正則化比率為0.2,迭代步長(zhǎng)為23幀。
在LSTM-RNN訓(xùn)練過(guò)程中,隨機(jī)選取10%的訓(xùn)練數(shù)據(jù)作為驗(yàn)證集,每批次(Batchsize)送入的數(shù)據(jù)數(shù)量為128,采用均方根傳播(Root mean square propagation,RMSProp)算法更新網(wǎng)絡(luò)參數(shù),初始學(xué)習(xí)率設(shè)為0.01,當(dāng)驗(yàn)證集誤差不再減少時(shí)則學(xué)習(xí)率降為原來(lái)一半,直到驗(yàn)證集誤差連續(xù)2次不再減少,則停止訓(xùn)練。比較不同LSTM-RNN參數(shù)設(shè)置下的驗(yàn)證集誤差值,驗(yàn)證集誤差最小的模型參數(shù)即為本文選取的最優(yōu)LSTM-RNN模型參數(shù)。
圖3 LSTM-RNN不同隱層單元個(gè)數(shù)下的驗(yàn)證集誤差Fig.3 Validation loss of LSTM-RNN with different numbers of hidden units
圖3為女聲1數(shù)據(jù)訓(xùn)練時(shí),固定隱層數(shù)為2,迭代步長(zhǎng)為23,不同的隱層單元個(gè)數(shù)下的驗(yàn)證集誤差值,橫軸為訓(xùn)練的回合數(shù)。從圖3中可看出當(dāng)隱層單元數(shù)為512時(shí),驗(yàn)證集損失函數(shù)值最小。對(duì)比隱層單元數(shù)為129,256時(shí)驗(yàn)證集損失函數(shù)值,可看出,隨著隱層單元數(shù)的增加,驗(yàn)證集損失函數(shù)值降低明顯,說(shuō)明只有隱層單元數(shù)達(dá)到一定個(gè)數(shù)時(shí),才能充分實(shí)現(xiàn)LSTM-RNN的擬合性能。對(duì)比隱層單元數(shù)為512和1 024時(shí)驗(yàn)證集損失函數(shù)值,可看出,隱層單元個(gè)數(shù)并非越大越好,過(guò)大的隱層單元數(shù)會(huì)增加模型復(fù)雜度,也會(huì)影響LSTMRNN的擬合。
本文依據(jù)NMF訓(xùn)練集ACM語(yǔ)音幅度譜分解時(shí)的重構(gòu)誤差值,選取最優(yōu)的NMF字典個(gè)數(shù),實(shí)驗(yàn)結(jié)果如圖4所示。從圖4中可看出,隨著字典個(gè)數(shù)的增加,重構(gòu)誤差值逐漸減小,當(dāng)字典個(gè)數(shù)達(dá)到600時(shí),再增加字典個(gè)數(shù),重構(gòu)誤差值已無(wú)明顯降低,因此,本文選取的最優(yōu)NMF字典個(gè)數(shù)為600。
圖4 NMF不同字典基個(gè)數(shù)下的重構(gòu)誤差Fig.4 Reconstructed error of NMF with different numbers of dictionary atoms
為對(duì)比不同神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)高維特征轉(zhuǎn)換的效果,本文將基于LSTM-RNN的特征轉(zhuǎn)換算法(未經(jīng)過(guò)NMF后處理,記為L(zhǎng)STM)與基于受限玻爾茲曼機(jī)-深度置信神經(jīng)網(wǎng)絡(luò)(記為DNN)的特征轉(zhuǎn)換算法進(jìn)行了比較,將基于DNN、LSTM-RNN的特征轉(zhuǎn)換并且經(jīng)過(guò)NMF后處理的算法分別記為DNNNMF、LSTM-NMF。
實(shí)驗(yàn)結(jié)果如表1—3所示,測(cè)試結(jié)果為每人40句測(cè)試語(yǔ)句的評(píng)價(jià)指標(biāo)平均得分值,其中,TM指原始TM語(yǔ)音與ACM語(yǔ)音的對(duì)比結(jié)果,3種增強(qiáng)算法均為增強(qiáng)后的語(yǔ)音與ACM語(yǔ)音的對(duì)比結(jié)果。
由表1可看出,無(wú)論是經(jīng)過(guò)DNN還是LSTM增強(qiáng),增強(qiáng)后的語(yǔ)音LSD都明顯減小,說(shuō)明神經(jīng)網(wǎng)絡(luò)能夠很好擬合高維特征。LSTM的擬合效果明顯優(yōu)于DNN,說(shuō)明LSTM-RNN的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)更適合于TM語(yǔ)音盲增強(qiáng)。DNN、LSTM的輸出經(jīng)過(guò)NMF處理后LSD進(jìn)一步減小,驗(yàn)證了不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)下,NMF均能夠有效抑制神經(jīng)網(wǎng)絡(luò)輸出過(guò)平滑問(wèn)題。表2的對(duì)數(shù)似然比評(píng)價(jià)指標(biāo)與LSD結(jié)果類(lèi)似。
由表3可知,相比于DNN,LSTM在PESQ值有了較大提升,證明了這種遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能夠有效提高TM語(yǔ)音的感知語(yǔ)音質(zhì)量。男聲數(shù)據(jù)提升效果明顯優(yōu)于女聲,原因是TM語(yǔ)音的高頻成份丟失,而男聲語(yǔ)音高頻成份遠(yuǎn)少于女聲,因此恢復(fù)相對(duì)較為容易。
表1 對(duì)數(shù)譜距離比較(LSD)Tab.1 Comparisons of LSD
表2 對(duì)數(shù)似然比距離比較(LLR)Tab.2 Comparisons of LLR
表3 感知語(yǔ)音質(zhì)量比較(PESQ)Tab.3 Comparisons of PESQ
圖 5,6展示女、男聲的語(yǔ)譜圖,其中圖 5(a),6(a)為 ACM 語(yǔ)音,圖 5(b),6(a)為 TM 語(yǔ)音,圖 5(c),6(c)為經(jīng) LSTM 算法增強(qiáng)后的語(yǔ)音,圖 5(d),6(d)為 LSTM-NMF 算法增強(qiáng)后的語(yǔ)音。對(duì)比圖 5(a),5(b)以及圖 6(a),6(b)可看出,相比于ACM語(yǔ)音,TM語(yǔ)音2.5 kHz以上的能量幾乎已完全衰減,并且中頻諧波能量沒(méi)有起伏,這也就是TM語(yǔ)音聽(tīng)起來(lái)沉悶、不自然的原因;對(duì)比圖 5(a)與圖 6(a)可知,女聲ACM語(yǔ)音高頻成份明顯多于男生ACM語(yǔ)音,在客觀指標(biāo)的分析中指出,這是女聲相對(duì)于男聲較難恢復(fù)的原因。由圖5與圖6的(c)和(d)可 觀 察 出 ,LSTM、LSTM-NMF增強(qiáng)算法都較好恢復(fù)了TM語(yǔ)音高頻丟失的成份,證明了增強(qiáng)算法的有效性;由圖5,6虛線(xiàn)橢圓中的成份可看出,LSTMNMF增強(qiáng)算法相比于LSTM,可獲得更接近ACM語(yǔ)音的數(shù)據(jù),驗(yàn)證了NMF能夠有效抑制神經(jīng)網(wǎng)絡(luò)輸出過(guò)平滑問(wèn)題。
圖5 女聲語(yǔ)譜圖Fig.5 Spectrograms of a female speaker
由以上結(jié)果可得出以下結(jié)論:深度神經(jīng)網(wǎng)絡(luò)可有效建模TM與ACM語(yǔ)音高維特征之間的相關(guān)關(guān)系;相比于DNN,能夠?qū)崿F(xiàn)長(zhǎng)時(shí)序列有效建模的LSTM-RNN可得到更好的TM語(yǔ)音增強(qiáng)效果,NMF能夠有效抑制神經(jīng)網(wǎng)絡(luò)輸出過(guò)平滑問(wèn)題。
圖6 男聲語(yǔ)譜圖Fig.6 Spectrograms of a male speaker
本文提出了一種基于LSTMRNN的喉振傳聲器語(yǔ)音盲增強(qiáng)算法。該算法首先利用LSTMRNN建模喉振傳聲器語(yǔ)音與空氣傳導(dǎo)語(yǔ)音高維對(duì)數(shù)幅度譜特征之間的相關(guān)關(guān)系,然后利用NMF對(duì)估計(jì)出的幅度譜進(jìn)行處理以抑制神經(jīng)網(wǎng)絡(luò)輸出過(guò)平滑問(wèn)題。實(shí)驗(yàn)結(jié)果表明,該算法能有效提高特定說(shuō)話(huà)人的喉振傳聲器語(yǔ)音質(zhì)量,增強(qiáng)效果優(yōu)于受限玻爾茲曼機(jī)-深度置信神經(jīng)網(wǎng)絡(luò)以及單一的長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)。該算法對(duì)男聲的增強(qiáng)效果明顯優(yōu)于女聲,經(jīng)分析是由于該算法生成的高頻成份與真實(shí)數(shù)據(jù)分布間存在偏差,而女聲的高頻成份較多,因此不易恢復(fù)。下一步將針對(duì)高頻成份的生成問(wèn)題,擬通過(guò)生成式對(duì)抗神經(jīng)網(wǎng)絡(luò)[20]進(jìn)一步對(duì)生成的數(shù)據(jù)分布進(jìn)行修正,以縮小生成的高頻成份與真實(shí)數(shù)據(jù)分布間的差異。