唐君 張連海 李嘉欣 李宜亭
(中國人民解放軍戰(zhàn)略支援部隊信息工程大學信息系統(tǒng)工程學院,河南鄭州 450001)
近年來,基于神經(jīng)網(wǎng)絡的語音合成技術得到了迅速發(fā)展,合成語音的質量甚至已接近了人類錄音的水平。這類語音合成系統(tǒng)通常可分為兩個模塊實現(xiàn),第一個模塊,根據(jù)輸入文本預測聲學特征,通常稱為合成器模塊;第二個模塊,根據(jù)預測的聲學特征生成語音波形,該模塊通常稱為聲碼器模塊,本文聚焦于聲碼器模塊的研究。傳統(tǒng)的聲碼器,如STRAIGHT[1]、WORLD[2]等,它們生成語音的質量通常很低并且聽起來很不自然,而基于神經(jīng)網(wǎng)絡的聲碼器(簡稱神經(jīng)聲碼器)在利用梅爾(Mel)譜生成語音波形方面取得了顯著的成績,其生成語音的質量遠遠超過傳統(tǒng)聲碼器生成語音的質量。因此,神經(jīng)聲碼器技術已經(jīng)成為了目前的主流聲碼器技術。
根據(jù)神經(jīng)聲碼器結構的不同,該類聲碼器可分為兩大類:自回歸模型和非自回歸模型。起初,神經(jīng)聲碼器研究主要集中在自回歸模型,如WaveNet[3]、WaveRNN[4]和SampleRNN[5]等。自回歸模型的基本思想是將語音波形的分布分解為多個條件分布的乘積進行建模,即當前的采樣點依賴于先前生成的采樣點來生成,以建模語音波形間的長期相關性。雖然這類模型能夠生成高質量的語音,但這種順序推理過程導致其生成語音的速度非常慢、效率低下,無法滿足實時應用的要求。
為解決自回歸模型因其結構而帶來的局限性,非自回歸模型應運而生。非自回歸模型直接建模語音波形的聯(lián)合分布,因此這類模型具有高度的并行性,其推理速度比自回歸模型快得多。近幾年來,非自回歸聲碼器得到了迅速發(fā)展,根據(jù)其方法,可分為四類:一、基于知識蒸餾的模型,如Parallel WaveNet[6]和ClariNet[7]等。在這個模型框架下,自回歸教師模型的知識被轉移到基于逆自回歸流[8](Inverse Autoregressive Flow,IAF)的學生模型,雖然基于IAF的學生模型能夠快速生成合理感知質量的語音,但是這種方法不僅需要訓練有素的教師模型,而且還需要一些策略來優(yōu)化復雜的概率密度蒸餾過程,如使用基于Kulback-Leiber(KL)散度的概率蒸餾目標以及附加的感知損失項來訓練學生模型。此外,由于學生模型參數(shù)龐大,還需要GPU 進行推理才能達到實時性;二、基于流的模型,如WaveGlow[9]、WaveFlow[10]等,它們由一個可逆網(wǎng)絡實現(xiàn),僅通過最小化訓練數(shù)據(jù)的負對數(shù)似然損失來直接學習,該類方法通常需要龐大的參數(shù)量和繁重的計算量,其生成語音質量才能與自回歸模型相當,雖然它們在GPU 上推理速度很快,但該類方法通常不適用于內存受限、硬件條件不足的場景下;三、基于擴散概率模型,如DiffWave[11]和WaveGrad[12]等。這類模型以迭代的方式利用具有固定步數(shù)的馬爾可夫鏈將白噪聲信號轉換成結構化語音信號,因此它們需要一定的模型參數(shù)和迭代次數(shù)才能生成較高質量的語音。雖然這類模型的推理速度相比自回歸模型快得多,但是相比基于流的模型卻要慢得多,也只是能在GPU 上實現(xiàn)較低的實時性;四、基于生成對抗網(wǎng)絡(Generative Adversarial Network,GAN)的模型,它們是目前最有前景的方法之一。Parallel WaveGAN[13]和MelGAN[14]是GAN 在聲碼器上的早期嘗試,相比于其他模型,它們顯著提高了模型推理速度(Parallel WaveGAN 在GPU 上實現(xiàn)較高的實時性,而MelGAN不僅在GPU上實現(xiàn)了很高的實時性,在CPU 上也能實時生成語音),然而它們生成的語音質量上并不令人滿意。為此,研究者作了進一步的努力,如Multi-Band MelGAN[15]改進了MelGAN,進一步提高了MelGAN 生成語音的質量和速度,VocGAN[16]改善了MelGAN 中存在的生成語音質量不足以及生成語音的Mel 譜與輸入Mel 譜的聲學特征不一致的問題。LVCNet[17]則改進了Parallel WaveGAN,提出了一種位置變量卷積用于建模語音波形序列的長期相關性,在不降低音質和增加參數(shù)的情況下,合成速度相比Parallel WaveGAN 提升了4倍左右。以上基于GAN 的聲碼器研究,雖然實現(xiàn)以較高的實時速度生成語音波形,甚至在CPU 上也能實現(xiàn)實時推理,但是這些模型生成語音的質量始終與自回歸模型有所差距,但HiFi-GAN[18]的出現(xiàn)打破了這種桎梏,它實現(xiàn)了高效和高保真的語音波形生成。從本質上來說,HiFi-GAN的成功主要得益于其不僅有效建模了語音波形的長期相關性,更重要的是其有效建模了語音波形的周期模式,這也是之前基于GAN 的聲碼器所欠缺的。此外,HiFi-GAN 相比于其他模型在端到端語音合成系統(tǒng)中兼容性更好,很多端到端語音合成系統(tǒng)采用HiFi-GAN模型作為聲碼器來將前端預測的Mel 譜轉換為語音波形。HiFi-GAN作為目前最先進的聲碼器網(wǎng)絡之一,但其仍存在一些不足:無法在語音質量和模型參數(shù)、推理速度上進行很好的權衡,通常采用縮減網(wǎng)絡層的通道數(shù)或層數(shù)的方式來減少模型參數(shù)、提高推理速度,但這種方式需要犧牲較大的語音質量去換取模型參數(shù)的減少和推理速度的提升。
為了更好權衡HiFi-GAN 模型在語音質量和模型參數(shù)、推理速度上的關系,本文在HiFi-GAN 的基礎上,引入了多尺度卷積策略和深度可分離卷積,以期望在不明顯降低其生成語音質量的情況下,顯著減少了HiFi-GAN 的參數(shù)量,并進一步提高了其推理速度。
在本節(jié)中,首先介紹一維深度可分離卷積的原理,然后介紹生成器的結構原理并將多尺度卷積策略和一維深度可分離卷積引入其中,接著再介紹判別器的結構原理,最后介紹用于訓練生成器和判別器的損失函數(shù)。
在這一小節(jié)中,先介紹標準一維卷積的原理,再借此引入深度可分離卷積,并對兩者的參數(shù)量和計算量進行了比較。
標準一維卷積的原理如圖1 所示,對于大小為T1×C1的輸入(如Mel 譜,T1代表幀數(shù),C1代表Mel譜的維度,即通道數(shù)),卷積核的尺寸為K(標準一維卷積默認對輸入的所有通道進行處理,因此卷積核的實際參數(shù)大小為K×C1),若共有C2個卷積核(濾波器),則輸出大小為T2×C2,T2的值由卷積核的尺寸、卷積步長、填充等參數(shù)所決定。因此,這里標準一維卷積的參數(shù)量Pstd、乘法計算量Ostd×以及加法計算量Ostd+分別如式(1)、(2)、(3)所示。
圖1 標準一維卷積原理圖Fig.1 Schematic diagram of standard one-dimensional convolution
其中,式(1)、(3)中的+1表示偏置。
深度可分離卷積(Depthwise Separable Convolution,DSC)由兩個過程組成,分別為深度卷積和逐點卷積。
①深度卷積(Depthwise Convolution)
一維深度卷積的原理如圖2 所示,對于大小同樣為T1×C1的輸入,卷積核的尺寸為K(這里每個卷積核只對一個特定的通道進行處理,因此每個卷積核的實際參數(shù)大小為K×1),共有C1個卷積核,即輸出通道與輸入通道相等。由于深度卷積逐通道處理的特性,因此其也被稱為逐通道卷積,這里深度卷積的參數(shù)量Pdw、乘法計算量Odw×以及加法計算量Odw+分別如式(4)、(5)、(6)所示。
圖2 一維深度卷積原理圖Fig.2 Schematic diagram of one-dimensional depthwise convolution
其中,式(4)、(6)中的+1表示偏置。
②逐點卷積(Pointwise Convolution)
一維逐點卷積的原理如圖3 所示,它是標準一維卷積的特例(卷積核的尺寸為1),共有C2個卷積核,由于卷積核的尺寸為1,因此輸出的時間維度與輸入的時間維度保持不變。逐點卷積主要對輸出通道起到升維和降維的作用(通道維度由參數(shù)C2控制),并將各通道之間信息進行了整合。因此由于逐點卷積的存在,深度可分離卷積并沒有丟失通道間的信息,這里逐點卷積的參數(shù)量Ppw、乘法計算量Opw×以及加法計算量Opw+如式(7)、(8)、(9)所示。
圖3 一維逐點卷積的原理圖Fig.3 Schematic diagram of one-dimensional pointwise convolution
其中,式(7)、(9)中的+1表示偏置。
綜上所述,一維深度可分離卷積的總參數(shù)量為Pdw+Ppw,總乘法計算量為Odw×+Opw×,總加法計算量為Odw++Opw+。相比標準一維卷積,兩者參數(shù)量、乘法計算量以及加法計算量的比值分別如式(10)、(11)、(12)所示。
通常情況下C1、C2?1且K≥3,因此一維深度可分離卷積相比標準一維卷積而言,參數(shù)量、乘法計算量以及加法計算量將會得到明顯減少,這將有助于模型的壓縮與加速。
從本質上來講,標準一維卷積將時間相關性和通道相關性進行聯(lián)合映射,而一維深度可分離卷積將時間相關性和通道相關性進行分開映射。從語音波形中提取Mel譜的過程來看,先對語音分段,再對每段語音分別進行計算提取一幀的Mel 譜,因此本文采用一維深度可分離卷積將Mel譜中的時間相關性和通道相關性進行分開學習,這種分而治之的思想更有助于網(wǎng)絡利用Mel 譜還原出語音波形,也相對減輕網(wǎng)絡的學習負擔,有助于網(wǎng)絡的快速學習。
生成器結構如圖4 所示,它使用Mel 譜作為輸入,并通過轉置卷積不斷對其進行上采樣,直到輸出序列的長度與原始波形的時間分辨率相匹配。每個轉置卷積后面都連接一個多接受場融合(Multi-Receptive Field Fusion,MRF)模塊,MRF 的具體結構如圖5所示。
圖4 生成器的結構原理圖(K表示卷積核的尺寸)Fig.4 Schematic diagram of the structure of the generator(K represents the size of the convolution kernel)
圖5 MRF的結構原理圖(右邊為殘差塊的具體結構,當表示第i個殘差塊時,則n= i)Fig.5 The schematic diagram of the structure of the MRF(The right side is the specific structure of the residual block,when the i-th residual block is represented,then n=i)
MRF模塊累積多個殘差塊(ResBlock)的輸出之和,每個殘差塊由一系列的一維卷積構成,這些卷積有著不同大小的卷積核和擴張率,以形成不同大小的接受場,有效建模語音波形的短期和長期相關性。
Mel 譜作為語音的一種低分辨率表示,其幀與幀之間存在著強烈的短期和長期相關性,這些相關性對于建模語音分布是至關重要的。因此,本文為了捕獲Mel 譜的局部特性和遠程相關性,采用一個多尺度卷積(Multi-Scale Convolution,MSC)策略對輸入Mel譜進行處理。
如圖6 所示,MSC 策略是指采用多個不同尺寸的卷積核對輸入Mel譜進行處理并返回這些處理結果之和,卷積核的具體尺寸如圖中所示。這里每個卷積層的輸出通道(channels)是一致,即每個卷積層的輸出的通道維度是相同的,同時為保證每個卷積層的輸出在時間維度上保持不變,將輸入(Mel譜)送入卷積層處理之前,根據(jù)各卷積層的卷積核大小對輸入進行補零填充操作,即在其時間維度上填充一定數(shù)量值為0 的Mel 譜幀。因此,經(jīng)過不同尺寸的卷積核處理后的輸出的縱向和橫向維度大小均相同,這將保證各個輸出結果可以直接相加。
圖6 多尺度卷積策略原理圖Fig.6 Schematic diagram of multi-scale convolution strategy
不同尺寸的卷積核能夠捕獲不同尺度的全局和局部特征,與原生成器網(wǎng)絡采用固定尺寸的卷積核來處理Mel 譜相比,本文提出的多尺度卷積策略能充分表征從Mel 譜中提取的信息,有助于后續(xù)網(wǎng)絡利用這些信息進行學習以建模原始語音的分布。此外,為了不顯著降低生成器生成語音的質量情況下,有效減少模型參數(shù)量并提高模型推理速度,受圖像中的深度可分離卷積[19]啟發(fā),本文采用一維深度可分離卷積去替代生成器中原有的標準一維卷積。在訓練過程中,生成器除了轉置卷積層外,其他所有卷積層均采用權重歸一化[20],值得注意的是深度可分離卷積采用權重歸一化等同于深度卷積和逐點卷積均采用權重歸一化。
對于生成對抗網(wǎng)絡來說,判別器主要對生成器起一個對抗訓練的作用,引導生成器能產生更接近真實的數(shù)據(jù)。這里模型的判別器仍采用HiFi-GAN原有的配置,其包含兩個判別器:多尺度判別器和多周期判別器。
2.3.1 多周期判別器
多周期鑒別器(Multi-Period Discriminator,MPD)的結構如圖7 所示,它由多個網(wǎng)絡結構相同的子鑒別器組成,每個子鑒別器用于捕獲輸入語音的一部分周期信號,以識別語音數(shù)據(jù)中潛在的各種周期模式。
圖7 多周期鑒別器原理圖(左為整體結構,右為子鑒別器的網(wǎng)絡結構,F(xiàn)eature map為每層網(wǎng)絡的特征輸出,用于下節(jié)提到的特征匹配損失)Fig.7 Schematic diagram of the multi-period discriminator(the left is the overall structure,the right is the network structure of the sub-discriminator,and“Feature map”is the feature output of each layer of the network,which is used for the feature matching loss mentioned in the next section)
為實現(xiàn)子鑒別器捕獲語音信號中的周期模式,每個子鑒別器并不直接處理語音波形,而是將語音波形進行填充與整形,如圖8所示,以保證每個子鑒別器只接受輸入語音波形的等間距采樣點,間隔由周期參數(shù)p控制。通過這樣的方式,長度為T的一維原始語音被處理成高度為T/p、寬度為p的二維數(shù)據(jù),因此,MPD 需要采用二維的卷積神經(jīng)網(wǎng)絡來處理這些數(shù)據(jù),除最后一層網(wǎng)絡外,其他層均采用二維跨步卷積(只在高度上進行跨步),并且每層卷積均采用權重歸一化。在MPD的每層卷積層中,卷積核的寬度軸的大小被限制為1,從而獨立處理寬度軸方向的周期語音采樣點。因此,每個子鑒別器可以通過處理語音波形不同的部分來捕獲語音中彼此不同的潛在周期模式。
圖8 語音波形的填充與整形示意圖(周期參數(shù)p=3)Fig.8 Schematic diagram of pad and reshape of speech waveform(period parameter p=3)
2.3.2 多尺度判別器
多尺度鑒別器(Multi-Scale Discriminator,MSD)的結構如圖9 所示,MSD 是三個網(wǎng)絡結構相同但工作在不同尺度上的鑒別器組合,即分別處理原始語音、經(jīng)過×2平均池化的原始語音、經(jīng)過×4平均池化的原始語音。子鑒別器通過采用分組卷積來保證使用較大尺寸的卷積核,同時保持較小的參數(shù)量。除了對原始語音處理的第一個子鑒別器應用譜歸一化[21],其他兩個子鑒別器應用權重歸一化,這里采用譜歸一化有助于穩(wěn)定訓練。
圖9 多尺度鑒別器結構原理圖(左為整體結構,右為子鑒別器的網(wǎng)絡結構,F(xiàn)eature map為每層網(wǎng)絡的特征輸出,用于下節(jié)提到的特征匹配損失)Fig.9 Schematic diagram of the multi-scale discriminator structure(the left is the overall structure,the right is the network structure of the sub-discriminator,and“Feature map”is the feature output of each layer of the network,which is used for the feature matching loss mentioned in the next section)
損失函數(shù)由三部分組成,分別為對抗損失、特征匹配損失以及Mel譜損失。
2.4.1 對抗損失
對于生成器和鑒別器的對抗訓練目標,遵循LSGAN[22]的設置。判別器負責對語音樣本進行分類,即將真實語音分類為1、生成器生成的語音分類為0,而生成器則根據(jù)輸入條件生成語音以欺騙判別器,即判別器錯將生成語音分類為1。最后通過生成器和判別器的相互博弈過程,直至生成器能夠做到以假亂真的效果。因此,生成器和判別器的對抗損失函數(shù)分別如式(13)、(14)所示。
為了簡潔,這里將MSD 和MPD 描述為一個鑒別器,其中x代表真實語音,s表示輸入條件(對應真實語音提取的Mel譜)。
2.4.2 特征匹配損失
為提高生成器的能力,采用了MelGAN 中的特征匹配損失(Feature Matching Loss,F(xiàn)ML),F(xiàn)ML 通過比較真實語音和生成語音在判別器每層網(wǎng)絡的輸出特征之間的差異來提高生成器的偽造能力,采用L1 距離來衡量這種差異,特征匹配損失函數(shù)如式(15)所示。
其中,T表示鑒別器中的卷積層數(shù),Di和Ni分別表示鑒別器的第i層中的特征和特征數(shù)量。
2.4.3 Mel譜損失
Parallel WaveGAN 通過聯(lián)合優(yōu)化多分辨率頻譜損失和對抗損失,有效捕獲了真實語音波形的時頻分布。類似于多分辨率頻譜損失,HiFi-GAN根據(jù)人耳聽覺特性,采用Mel譜損失,以期望提高生成語音的感知質量。具體來說,Mel 譜損失是生成器生成語音的Mel 譜與真實波形的Mel 譜之間的L1 損失,如式(16)所示。
其中,φ(·)表示從語音中提取Mel譜的函數(shù),注意這里提取的Mel譜是全頻帶的(最低頻率為0 Hz,最高頻率為語音采樣率的一半),不同于作為輸入條件的帶限Mel 譜,采用全頻帶的Mel 損失有助于模型學習語音的全頻帶信息。
2.4.4 總損失
特征匹配損失和Mel譜損失作為輔助損失用于穩(wěn)定模型訓練并加速收斂,因此訓練生成器和判別器最終的損失函數(shù)如式(17)、(18)所示。
其中,Dk表示MPD 和MSD 中第k個子鑒別器,λ和μ為超參數(shù)用于控制各項損失的比重,在實驗中其值分別設置為2和45。
實驗數(shù)據(jù)采用公開的LJSpeech 數(shù)據(jù)集,該數(shù)據(jù)集由13100 個英語語音片段和相應的文本組成,語音總時長約為24 個小時,語音格式為16 比特PCM編碼,采樣率為22050 Hz,由一名專業(yè)的美國女性說話者錄制。實驗中將數(shù)據(jù)集隨機分成兩部分:12800個音頻樣本用于訓練集,300個音頻樣本用于測試集。實驗在單個GPU 和CPU(NVIDIA Tesla V100 GPU 用于訓練,Xeon(R)E5-2620 v4 2.10 GHz CPU和NVIDIA GTX 1080Ti GPU用于測試)上進行,模型網(wǎng)絡架構基于PyTorch 搭建,模型采用80 維(0~80 kHz 頻率范圍)的Mel 譜作為輸入,其中FFT長度、幀長和幀移分別設置為1024、1024 和256 個采樣點,并采用漢寧窗減少頻譜能量泄露。
模型采用AdamW[23]優(yōu)化器進行訓練,其中β1=0.8、β2=0.99、ε=1e-6,初始學習率設置為2e-4,每經(jīng)過一個訓練周期(Epoch),學習率衰減為0.999倍。批處理每條語音的長度和批處理大小分別設置為16384 個采樣點和12 個音頻樣本。此外,生成器網(wǎng)絡的具體參數(shù)如表1 所示,部分參數(shù)的表示方式類似數(shù)組形式,如kr[2]=7,dr[3,2,1]=3。為了進行對比實驗,本文也訓練了WaveNet、WaveGlow聲碼器,模型及訓練設置保持與原有設置相同。
表1 生成器的網(wǎng)絡參數(shù)配置Tab.1 Network parameters configuration of the generator
Mel 譜是根據(jù)人耳的聽覺特性設計的,生成語音的Mel 譜與真實語音的Mel 譜之間的差距能夠一定程度上反映生成語音與真實語音在語音質量上的差異。為比較多尺度卷積(MSC)策略和一維深度可分離卷積(DSC)在HiFi-GAN 模型中的有效性,本文首先展示了它們結合HiFi-GAN 模型在不同訓練周期時,測試集上的Mel譜損失情況,如圖10所示。
圖10 不同訓練階段的測試集上的Mel譜損失Fig.10 Mel spectral loss on the test set at different training stages
根據(jù)圖中結果可以看出,MSC 策略的確有助于生成器學習,產生更接近真實語音的生成語音。采用DSC 能使模型的Mel 譜損失快速下降,但是在800 Epochs 左右,其Mel 損失就開始趨于穩(wěn)定,而其他三個模型(包括基線HiFi-GAN)的損失仍有下降的趨勢。不過MSC 解決了這個問題,提高了模型進一步的學習能力,如在1000 Epochs 的時候,HiFi-GAN+MSC+DSC 模型不僅在損失上與HiFi-GAN+DSC 模型基本持平,而且其損失仍有下降的趨勢,模型還有繼續(xù)學習的能力。
綜上所述,DSC 具有加速模型學習的能力,但這種能力是不穩(wěn)定的,即其損失在圖中震蕩比較大(如在950 Epochs 左右,Mel 譜損失甚至跳回基線水平);而MSC 策略能夠有效提高模型學習能力并且穩(wěn)定訓練過程,如采用MSC 的兩個模型在損失上更穩(wěn)定(毛刺較少,浮動幅度較?。绕涫桥cDSC 結合的情況下更明顯。
為比較不同模型間的語音質量(模型均訓練到其損失不再明顯下降),本文采用了一個客觀指標:客觀語音質量評估[24](Perceptual Evaluation of Speech Quality,PESQ)和一個主觀評價:平均主觀意見分(Mean Opinion Score,MOS)。生成器生成的語音是以真實語音的Mel 譜作為輸入條件,因此生成語音有著對應真實語音作為參考,即可以計算兩者的PESQ 值。這里需要注意的是進行PESQ 計算前,需要保證生成語音和原始語音的長度一致,由于生成語音的時間分辨率是輸入Mel 譜的時間分辨率的256(幀移)倍,因此測試集每條語音的長度需要處理成幀移的整數(shù)倍才能計算兩者的PESQ 值,本文是通過丟棄每條語音尾部多余的采樣點(即最多丟棄255個采樣點)來實現(xiàn)的,因為一條語音有幾萬甚至十幾萬個采樣點,其尾部二百多個采樣點基本是語音中的靜音段,截去并不會影響語音質量和內容。隨后則利用處理后的測試集來提取真實Mel譜輸入模型中得到生成語音,生成語音與處理后的測試集中的對應真實語音均被下采樣至16 kHz,并采用python 里面的pypesq 庫進行PESQ 值的計算;而MOS測試是從測試集中隨機選取30條語音作為評估集,由15 位精通英語的聽眾通過耳機試聽并根據(jù)語音的質量,由差(1)到好(5)采用5分制進行打分,MOS得分的置信區(qū)間(Confidence Intervals,CI)為95%。
此外,本文也比較了各模型間的參數(shù)量與分別在GPU、CPU 上的推理速度,這里的推理速度采用實時因子(Real Time Factor,RTF)的倒數(shù)來衡量,RTF 表示模型生成一秒時長的語音波形所需的時間(單位秒),即生成一秒波形需一秒的時長則認為模型剛好達到了實時性。因此,RTF 的倒數(shù)值表示該模型的推理速度是實時的倍數(shù)值。
不同模型間的參數(shù)量、推理速度、MOS 和PESQ得分如表2 所示。根據(jù)表中結果可以看出,DSC 的引入顯著減少了HiFi-GAN 模型的參數(shù)量,提升了模型在GPU、CPU 上的推理速度,并且未對HiFi-GAN 生成語音的質量造成明顯影響。MSC 則僅僅在HiFi-GAN 的基礎上增加了2.65%的參數(shù)量,卻有效提升了HiFi-GAN 生成語音的質量。本文通過將DSC 和MSC 結合,使得改進后的HiFi-GAN 模型不僅參數(shù)量約減少了67.72%,語音質量也略有提升(MOS 提升了0.07,PESQ 提升了0.05),此外在GPU、CPU 上推理速度約分別提升了11.72%和28.98%。與基于流(WaveGlow)和基于自回歸(WaveNet)的模型相比,改進后的HiFi-GAN 在各項指標上均優(yōu)于它們。
表2 不同模型的參數(shù)、推理速度、MOS和PESQ得分Tab.2 Parameters、inference speed、MOS and PESQ scores of different models
為驗證改進后的HiFi-GAN 模型在不可見說話人條件下的通用性,本文另外采用了公開的VCTK數(shù)據(jù)集,該數(shù)據(jù)集包括由109 名說話人錄制約44200 個語音片段,總時長約為44 個小時,語音格式為16 比特PCM 編碼,采樣率為44 kHz,這里為了訓練方便(保持LJSpeech-1.1 數(shù)據(jù)集下的訓練設置),將語音采樣率下降為22 kHz。選取100名說話者的語音片段作為訓練集,剩下9 名說話者的語音片段作為測試集。為了對比實驗,本文也利用該數(shù)據(jù)集訓練了WaveNet、WaveGlow 模型,模型均訓練到損失不再明顯下降。PESQ 評價方式如上節(jié)相同,即計算測試集中真實語音與利用其真實Mel 譜生成語音之間的PESQ 得分。此外,為了進行MOS測試,隨機從測試集中9 個說話人的語音片段中共選取45 個片段作為評估集,即每個說話人選取5 個片段,評價方式和打分規(guī)則與4.2 節(jié)相同。注意這里測試集里面的9個說話人是在模型訓練過程未出現(xiàn)過的,對于模型來說是不可見的。
在不可見說話人條件下,各模型生成語音的PESQ 和MOS 得分如表3 所示,可以看出改進后的HiFi-GAN 聲碼器的MOS 和PESQ 得分均相比于原模型有所提高,與在單說話人數(shù)據(jù)集上的得分結果相似,這表明改進后的模型對于不可見說話人上仍具有不錯的通用性。
表3 不可見說話人條件下的MOS和PESQ得分Tab.3 MOS and PESQ scores in unseen speaker condition
為了驗證改進的HiFi-GAN 模型作為端到端語音合成任務上的聲碼器的有效性,采用相同數(shù)據(jù)集(LJSpeech-1.1)訓練了基于Tacotron 2[25]的聲學特征預測模型作為前端,注意用于訓練聲學特征預測模型的數(shù)據(jù)集切分也與訓練聲碼器網(wǎng)絡的數(shù)據(jù)集切分保持一致,以避免在評估期間泄露測試數(shù)據(jù)而夸大實驗結果?;赥acotron 2 的聲學特征預測模型采用文本序列作為輸出,輸出預測的Mel譜,然后再將其輸入聲碼器中以生成語音波形。采用MOS評估生成語音的質量,方式與4.2節(jié)中保持相同。
不同聲碼器在端到端語音合成條件下的MOS得分如表4所示,改進后的HiFi-GAN 模型在端到端語音合成任務中取得了最好的結果,表明改進后的HiFi-GAN 模型在端到端語音合成任務上有很好的兼容性。
表4 端到端語音合成條件下的MOS得分Tab.4 MOS scores under end-to-end speech synthesis conditions
本文在HiFi-GAN 聲碼器的基礎上,提出一種參數(shù)更少、推理速度更快、語音質量更高的改進型HiFi-GAN聲碼器。具體來說,首先通過多尺度卷積策略來有效表征輸入Mel 譜特征,為后續(xù)網(wǎng)絡提供更充足的信息以生成更高質量的語音,其次利用深度可分離卷積有效地減少了模型參數(shù),提升了推理速度。根據(jù)實驗結果表明,本文的方法在不降低生成語音質量的前提下(示例語音可以在網(wǎng)址:https://pan.baidu.com/s/1rZ4fAuLs65Qz-NlLbp4AWA?pwd=naiv上進行試聽),有效減少了HiFi-GAN模型約67.72%的參數(shù),并提升了模型推理速度(在GPU 上提升了11.72%,在CPU 上提升了28.98%),這對于將模型部署到硬件條件不足、內存受限的應用場景中是十分有意義的,并且改進后的HiFi-GAN 模型在端到端語音合成任務上表現(xiàn)優(yōu)異,有很好的兼容性。