趙義正
(合肥電子工程學(xué)院,安徽 合肥 230037)
語音轉(zhuǎn)換是指改變一個說話人(源說話人)的語音個性特征,使之具有另外一個說話人(目標(biāo)說話人)的語音個性特征。語音轉(zhuǎn)換技術(shù)的主要應(yīng)用場合包括計算機語音合成、計算機語音翻譯、語音編輯、廣播及多媒體等方面?,F(xiàn)階段對語音的轉(zhuǎn)換主要包含對韻律和譜包絡(luò)的轉(zhuǎn)換。譜包絡(luò)轉(zhuǎn)換方法有很多種,其中以基于高斯混合模型(GMM)[1]的映射方法效果最好,也是當(dāng)前的主流方法。但是基于GMM的譜包絡(luò)轉(zhuǎn)換存在一個嚴(yán)重缺陷,即導(dǎo)致轉(zhuǎn)換頻譜的過平滑[2-4]。它會造成轉(zhuǎn)換頻譜的共振峰峰值特性下降,造成轉(zhuǎn)換語音的聽覺感知特性下降,影響轉(zhuǎn)換效果。
對于造成過平滑的原因,一種觀點(Toda)[4]認(rèn)為,過平滑是由GMM模型中的統(tǒng)計平均運算造成的,另一種觀點認(rèn)為過平滑是由于轉(zhuǎn)換函數(shù)中GMM的協(xié)方差估計不準(zhǔn)確造成的[5],參考文獻(xiàn)[6]認(rèn)為過平滑主要是由于轉(zhuǎn)換函數(shù)中的相關(guān)項引起的,并針對相關(guān)項進(jìn)行改進(jìn)以抑制過平滑現(xiàn)象。
由于GMM轉(zhuǎn)換的特征可以分為均值項和相關(guān)項兩部分,本文研究發(fā)現(xiàn),過平滑產(chǎn)生是由兩者共同導(dǎo)致的,而且均值項的影響更大。因此提出一種基于修正均值的語音轉(zhuǎn)換方法,可更好地抑制過平滑現(xiàn)象。
基于高斯混合模型的語音轉(zhuǎn)換方法的轉(zhuǎn)換函數(shù)可表示為:
式(1)可以改寫成以下形式:
轉(zhuǎn)換后的頻譜之所以會出現(xiàn)過平滑現(xiàn)象,是因為轉(zhuǎn)換特征的離散程度較低,本文采用標(biāo)準(zhǔn)差來度量語音特征的離散度。為了分析均值項和相關(guān)項對轉(zhuǎn)換特征標(biāo)準(zhǔn)差的影響,圖1給出不同特征維數(shù)的目標(biāo)語音、GMM轉(zhuǎn)換均值項和相關(guān)項的標(biāo)準(zhǔn)差分布,圖中GMM-mu表示均值項,GMM-sigma表示相關(guān)項。
圖1 不同維數(shù)轉(zhuǎn)換特征標(biāo)準(zhǔn)差
從圖1可見,均值項和相關(guān)項的標(biāo)準(zhǔn)差與目標(biāo)語音特征相比都很小,意味著均值項和相關(guān)項都會導(dǎo)致過平滑現(xiàn)象。還可看出,相關(guān)項的標(biāo)準(zhǔn)差比均值項的要小,說明相關(guān)項的離散程度相對更低,以往文獻(xiàn)就此認(rèn)為相關(guān)項是導(dǎo)致過平滑現(xiàn)象的主要原因。而本文認(rèn)為,由于該結(jié)論沒有考慮到相關(guān)項和均值項在轉(zhuǎn)換函數(shù)中所占的比例,因此并不能得出該結(jié)論。事實上,相關(guān)項在轉(zhuǎn)換函數(shù)中的數(shù)值一般都很小[2]。
圖2給出了均值項和相關(guān)項的標(biāo)準(zhǔn)差變化對轉(zhuǎn)換特征標(biāo)準(zhǔn)差的影響。當(dāng)均值項和相關(guān)項各自增加相同比例時,均值項所造成的轉(zhuǎn)換特征標(biāo)準(zhǔn)差的增加量要明顯大于相關(guān)項造成的增加量。而且隨著變化量的增大,差距逐漸增大,這說明均值項標(biāo)準(zhǔn)差的變化對整個轉(zhuǎn)換特征標(biāo)準(zhǔn)差的影響更大。因此若能減小均值項的標(biāo)準(zhǔn)差就能降低整個轉(zhuǎn)換特征的標(biāo)準(zhǔn)差,有效抑制過平滑現(xiàn)象。
本文研究發(fā)現(xiàn),碼本映射法所獲得的特征都是來自特征空間,且轉(zhuǎn)換過程不包含平均化處理,因此轉(zhuǎn)換特征的離散性更好。本文將其與GMM方法結(jié)合起來,先使用碼本映射法對均值項進(jìn)行修正,然后將修正結(jié)果與GMM方法的轉(zhuǎn)換結(jié)果相結(jié)合,得到最終轉(zhuǎn)換結(jié)果。由于是對均值項進(jìn)行修改,所以稱為修正均值法(Rmu-GMM)。整個轉(zhuǎn)換過程分為訓(xùn)練和轉(zhuǎn)換兩個階段。
圖2 均值項和相關(guān)項標(biāo)準(zhǔn)差變化比較
訓(xùn)練階段:
(1)訓(xùn)練 GMM模型,得到模型參數(shù)和式(1)中的轉(zhuǎn)換函數(shù);
(2)根據(jù)模型參數(shù)得到用于碼本訓(xùn)練的均值項,該均值項等于總特征減去它們的相關(guān)部分。對齊的源與目標(biāo)特征 z=[x,y]的均值項為:
(3)對均值項建立碼本映射規(guī)則 Fμ,利用統(tǒng)計直方圖建立兩者的加權(quán)轉(zhuǎn)換關(guān)系。
轉(zhuǎn)換階段:
(1)對于要轉(zhuǎn)換的特征矢量 x,使用 GMM轉(zhuǎn)換函數(shù)式(2)得到轉(zhuǎn)換特征相關(guān)項與均值項如下:
(2)計算得到用于碼本映射的均值項,稱為修正項:
利用訓(xùn)練階段得到 Fμ的重新對 xμ進(jìn)行轉(zhuǎn)換,得到碼本映射法轉(zhuǎn)換后的均值項:
(3)結(jié)合從步驟(1)得到的均值項和相關(guān)項,得到最終的轉(zhuǎn)換函數(shù)為:
其中,參數(shù)λ用于調(diào)節(jié)GMM法與碼本映射法所占比重,λ=0時表示僅使用 GMM法,λ=1時表示均值項全由碼本映射轉(zhuǎn)換所得,且相關(guān)項為GMM轉(zhuǎn)換所得。
采用修正均值法的語音轉(zhuǎn)換原理如圖3所示。整個轉(zhuǎn)換過程分為訓(xùn)練和轉(zhuǎn)換兩個階段,在訓(xùn)練階段除了訓(xùn)練原有轉(zhuǎn)換函數(shù),還需要為碼本映射法訓(xùn)練一個碼本映射準(zhǔn)則。轉(zhuǎn)換階段通過轉(zhuǎn)換函數(shù)首先對特征矢量進(jìn)行轉(zhuǎn)換,得到均值項、相關(guān)項與修正項三部分,利用碼本映射準(zhǔn)則對修正項進(jìn)行轉(zhuǎn)換,最后通過λ的加權(quán)與其他兩部分組成最終的轉(zhuǎn)換特征。
圖3 采用修正均值法的語音轉(zhuǎn)換原理框圖
實驗中采用通用語音庫中的語音數(shù)據(jù),特征參數(shù)為16維LSF矢量,訓(xùn)練特征為19 282幀,GMM階數(shù)為32階,測試特征為4 000幀,協(xié)方差矩陣為對角協(xié)方差陣,采用Kain的訓(xùn)練方法。
采用客觀評價法衡量轉(zhuǎn)換后的譜與目標(biāo)譜之間的相似性,并采用一種常用的相似度評價標(biāo)準(zhǔn):
其中,M是LSF矢量的個數(shù),p是LSF階數(shù)。m和i表示第 m 幀 LSF 矢 量的第 i維,t(n),t?(n),s(n)分別 為目標(biāo)語音、轉(zhuǎn)換后語音和源語音的特征矢量。客觀評測中,PLSF得分越高,表示轉(zhuǎn)換頻譜與目標(biāo)譜越相似。
實驗一:λ的取值
圖4給出了λ的不同取值在各種GMM混合數(shù)目下的性能比較。從圖中可見,各混合數(shù)目下LSF得分先隨λ的增大而提高,然后又隨著λ的增大而降低。而且,混合數(shù)目越少,LSF達(dá)到最大值時對應(yīng)的λ越大。這說明混合數(shù)目較少時GMM法的效果不如碼本映射法,需要較大的λ使得碼本映射轉(zhuǎn)換的部分特征在總體中所占比例較大。隨著GMM階數(shù)的提高,達(dá)到最大值時所需的λ較小。
實驗二:轉(zhuǎn)換方法性能比較
表1給出了GMM法、參考文獻(xiàn)[6]中的混合法(mix-GMM)和本文的修正均值法 (Rmu-GMM)這三種方法LSF得分的比較。從表中可見,在各種混合數(shù)目下,修正均值法的LSF得分都好于GMM法和混合法,說明修正均值法對總體特征的改善更好。從表1中還可看出,混合數(shù)目增加到一定程度后,導(dǎo)致訓(xùn)練數(shù)據(jù)出現(xiàn)過適應(yīng),性能反而下降。因此在實際應(yīng)用中,混合數(shù)目應(yīng)根據(jù)實際情況確定。
圖4 不同λ值對應(yīng)的LSF得分
表1 GMM法、mix-GMM與Rmu-GMM的LSF得分比較
基于GMM的語音轉(zhuǎn)換方法是當(dāng)前語音轉(zhuǎn)換采用的主流方法,但其最大不足是導(dǎo)致轉(zhuǎn)換特征的過平滑,影響轉(zhuǎn)換效果。本文對此進(jìn)行了研究,發(fā)現(xiàn)GMM轉(zhuǎn)換函數(shù)中的均值項與相關(guān)項標(biāo)準(zhǔn)差過小共同導(dǎo)致了過平滑現(xiàn)象,而均值項對轉(zhuǎn)換特征的過平滑有著更大的影響。為改善均值項標(biāo)準(zhǔn)差,本文提出一種修正均值法,實驗結(jié)果表明了該方法相對于其他方法的優(yōu)越性。該方法可應(yīng)用于計算機語音合成、計算機語音翻譯、語音編輯、廣播及多媒體等領(lǐng)域。
[1]BENISTY H,MALAH D.Voice conversion using GMM with enhanced global variance[C].INTERSPEECH 2011:669-672.
[2]HELANDER E, VIRTANENT, NURMINENJ, etal.Voice conversion using partial least squares regression[J].IEEE Transactions on Audio, Speech, and Language Processing, 2010, 18(5): 912-921.
[3]DESAI S, BLACK A W, YEGNANARAYANA B, et al.Voice conversion using artificial neural networks[C].ICASSP 2009:3893-3896.
[4]呂聲,尹俊勛.基于高斯混合模型和殘差預(yù)測的說話人轉(zhuǎn)換系統(tǒng)[J].電聲技術(shù),2004,33(4):3-4.
[5]Chen Yining,Chu Min.Voice conversion with smoothed GMM and MAP adaption[C].Geneva, Switzerland: Proceedings of Eurospeech.2003:2413-2416.
[6]康永國,雙志偉.基于混合映射模型的語音轉(zhuǎn)換算法研究[J].聲學(xué)學(xué)報,2006,31(6):555-562.