趙立鉉,楊 鑒
(云南大學(xué)信息學(xué)院,云南 昆明 650500)
語(yǔ)音合成技術(shù)作為智能人機(jī)交互的核心技術(shù)之一,是目前研究的一個(gè)熱點(diǎn).語(yǔ)音合成,即根據(jù)文本來(lái)合成語(yǔ)音(Text-To-Speech,TTS),是一種直接將輸入文本信息轉(zhuǎn)換為語(yǔ)音波形輸出的技術(shù).語(yǔ)音合成技術(shù)發(fā)展主要經(jīng)歷了基于波形拼接的語(yǔ)音合成[1-2]、基于統(tǒng)計(jì)參數(shù)的語(yǔ)音合成[3-5]以及基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音合成[6-9]3個(gè)階段.傳統(tǒng)語(yǔ)音合成分為前端和后端兩部分:前端主要對(duì)輸入文本信息進(jìn)行處理,包括分詞、字素轉(zhuǎn)音素、韻律預(yù)測(cè)等,提取合成所需的信息;后端主要將前端提取的信息利用某種技術(shù)轉(zhuǎn)換為語(yǔ)音.傳統(tǒng)的語(yǔ)音合成系統(tǒng)結(jié)構(gòu)相對(duì)復(fù)雜,需要花費(fèi)大量的人力來(lái)完成數(shù)據(jù)準(zhǔn)備工作,系統(tǒng)穩(wěn)定性不高,難以適用于各種復(fù)雜場(chǎng)景.
為簡(jiǎn)化合成系統(tǒng)結(jié)構(gòu)、減少人工干預(yù)和對(duì)語(yǔ)言學(xué)相關(guān)背景知識(shí)的要求,近年來(lái),百度、谷歌以及Yoshua Bengio等機(jī)構(gòu)相繼推出了基于深度神經(jīng)網(wǎng)絡(luò)的端到端語(yǔ)音合成系統(tǒng).例如:Char2wav[6]、Tacotron[7]、Tacotron2[8]、DeepVoice[9]等,真正實(shí)現(xiàn)了直接從文本合成語(yǔ)音,其中谷歌的Tacotron是第一個(gè)相對(duì)成熟的端到端語(yǔ)音合成系統(tǒng),該系統(tǒng)可接收字符或者音素作為系統(tǒng)的輸入,通過一系列處理,直接生成對(duì)應(yīng)音頻的梅爾頻譜,然后利用Griffin-Lim[10]重建算法將梅爾頻譜轉(zhuǎn)換為語(yǔ)音波形.而Tacotron2是Tacotron的改進(jìn)版本,優(yōu)化了模型的編碼器和解碼器結(jié)構(gòu),采用了性能更佳的注意力機(jī)制,顯著提升了系統(tǒng)的合成效果.
隨著深度神經(jīng)網(wǎng)絡(luò)的進(jìn)一步發(fā)展,谷歌、百度等機(jī)構(gòu)也在不斷地對(duì)端到端語(yǔ)音合成系統(tǒng)進(jìn)行改進(jìn)和更新,推出多說話人、多語(yǔ)種、多情感的合成系統(tǒng).但是,目前語(yǔ)音合成系統(tǒng)研究,還是多集中于英語(yǔ)、漢語(yǔ)等通用語(yǔ)言[11],對(duì)于非通用語(yǔ)的研究相對(duì)較少[12-13].同時(shí),端到端語(yǔ)音合成系統(tǒng)需要大量高質(zhì)量〈文本,語(yǔ)音〉數(shù)據(jù)訓(xùn)練模型,以保證得到優(yōu)質(zhì)的合成結(jié)果.但通常情況下,所能獲取的訓(xùn)練數(shù)據(jù)往往無(wú)法滿足端到端語(yǔ)音合成系統(tǒng)要求,因此開發(fā)非通用語(yǔ)語(yǔ)音合成系統(tǒng)常會(huì)遇到各種問題,導(dǎo)致其合成的語(yǔ)音帶有奇怪的韻律甚至是錯(cuò)誤的發(fā)音.
相較于英語(yǔ)和漢語(yǔ),印度尼西亞語(yǔ)(簡(jiǎn)稱印尼語(yǔ))語(yǔ)音合成仍存一些問題,例如對(duì)于該語(yǔ)言的語(yǔ)音合成的研究相對(duì)滯后,電子資源缺乏,可用訓(xùn)練數(shù)據(jù)缺乏等等.針對(duì)以上問題,本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于BERT(Bidirectional Encoder Representation from Transformers)[14]預(yù)訓(xùn)練語(yǔ)言模型的印尼語(yǔ)語(yǔ)音合成系統(tǒng),對(duì)Tacotron2系統(tǒng)做出以下改進(jìn):引入BERT預(yù)訓(xùn)練模型優(yōu)化語(yǔ)音合成系統(tǒng);采用了兩種方法嵌入BERT預(yù)訓(xùn)練詞向量信息;添加信息提取器進(jìn)一步提取預(yù)訓(xùn)練詞向量信息.
1.1 Tacotorn2Tacotron2模型[8]基于序列到序列[15]架構(gòu)實(shí)現(xiàn),其模型結(jié)構(gòu)由一個(gè)編碼器和一個(gè)帶有位置敏感注意力機(jī)制的解碼器構(gòu)成.編碼器包括兩部分:3層卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bidirectional Long-Short Term Memory,Bi-LSTM).解碼器是一個(gè)典型的自回歸網(wǎng)絡(luò),能夠利用上一幀信息來(lái)預(yù)測(cè)下一幀信息,逐幀地預(yù)測(cè)停止符(Stop Token),其結(jié)構(gòu)包括2層的預(yù)處理網(wǎng)絡(luò)(Pre-Net),2層LSTM和5層的后處理網(wǎng)絡(luò)(Post-Net). 如圖1所示,文本信息需要先進(jìn)行嵌入(Embedding)處理,再被送入包含3層CNN和Bi-LSTM的編碼器抽取合成所需的語(yǔ)言學(xué)特征.訓(xùn)練中,聲學(xué)參數(shù)先送入預(yù)處理網(wǎng)絡(luò),預(yù)處理網(wǎng)絡(luò)的輸出會(huì)和上一時(shí)間步生成的上下文特征進(jìn)行拼接;然后和編碼器提取的特征信息一起輸入注意力機(jī)制,輸出當(dāng)前時(shí)間步的上下文特征;最后利用當(dāng)前時(shí)間步的上下文特征和聲學(xué)參數(shù)預(yù)測(cè)下一個(gè)時(shí)間步的聲學(xué)參數(shù).
圖1 Tacot r on2模型結(jié)構(gòu)圖Fig.1 Structure diagram of Tacotron2 model
1.2 BERTBERT[14]是一個(gè)基于雙向Transformer[16]的語(yǔ)言模型.BERT利用大規(guī)模的未標(biāo)記數(shù)據(jù)進(jìn)行無(wú)監(jiān)督學(xué)習(xí),完成模型的預(yù)訓(xùn)練.對(duì)于下游的自然語(yǔ)言處理(Natural Language Processing,NLP)任務(wù),BERT首先利用預(yù)訓(xùn)練得到的參數(shù)對(duì)模型初始化,然后利用各種下游NLP任務(wù)標(biāo)記好的數(shù)據(jù)進(jìn)行有監(jiān)督學(xué)習(xí),并對(duì)所有模型參數(shù)進(jìn)行微調(diào),顯著提高了下游NLP任務(wù)的效果.BERT由多層雙向的Transformer編碼器組成,結(jié)構(gòu)中有12個(gè)Transformer編碼器,每個(gè)編碼器包含一個(gè)多頭注意力機(jī)制(Multi-Head Attention)和一個(gè)前饋網(wǎng)絡(luò)(Feed Forward).其中,各編碼器之間采用殘差連接(Res-Net)[17],采用層歸一化(Layer Normalization),防止由于網(wǎng)絡(luò)過深造成的過擬合問題.注意力機(jī)制包含有12頭,每個(gè)頭能夠提取不同的信息,以保證充分提取序列中包含的信息.
印尼語(yǔ)屬于馬來(lái)-波利尼西亞語(yǔ)族西印度尼西亞語(yǔ)支,廣泛流通于整個(gè)印度尼西亞群島.通用印尼語(yǔ)采用拉丁字母拼寫系統(tǒng),共26個(gè)字母,音素是最小的語(yǔ)音單位,共34個(gè)音素[18].在端到端印尼語(yǔ)語(yǔ)音合成系統(tǒng)中,可以直接將印尼語(yǔ)文本序列作為系統(tǒng)輸入來(lái)合成語(yǔ)音.但是對(duì)于基于深度神經(jīng)網(wǎng)絡(luò)的端到端語(yǔ)音合成系統(tǒng),由于模型訓(xùn)練的信息只由輸入的文本數(shù)據(jù)提供,當(dāng)文本數(shù)量很少時(shí),提取的信息通常不夠豐富,導(dǎo)致系統(tǒng)難以取得好的效果,特別是對(duì)于一些集外數(shù)據(jù).
針對(duì)這一問題,設(shè)計(jì)了一種基于BERT預(yù)訓(xùn)練語(yǔ)言模型的印尼語(yǔ)語(yǔ)音合成系統(tǒng),系統(tǒng)結(jié)構(gòu)如圖2所示,使用了一個(gè)能夠編碼104種語(yǔ)言并可以生成對(duì)應(yīng)詞向量的多語(yǔ)言BERT預(yù)訓(xùn)練語(yǔ)言模型,同時(shí)采用兩種不同的方法將BERT預(yù)訓(xùn)練模型嵌入合成系統(tǒng),并添加編碼器來(lái)充分提取預(yù)訓(xùn)練模型包含的信息.由于BERT利用大規(guī)模的無(wú)標(biāo)記文本采用無(wú)監(jiān)督學(xué)習(xí)方式來(lái)訓(xùn)練模型,其生成的詞向量包含了豐富的語(yǔ)義信息和句法信息.因此,通過提取豐富信息作為系統(tǒng)額外信息輸入,解決訓(xùn)練數(shù)據(jù)不足造成的問題,提高系統(tǒng)的合成效果,使合成結(jié)果具有正確的發(fā)音,更富有韻律.
圖2 基于BERT預(yù)訓(xùn)練語(yǔ)言模型的印尼語(yǔ)語(yǔ)音合成系統(tǒng)結(jié)構(gòu)圖Fig.2 Structure diagram of Indonesian speech synthesis system based on BERT pre-trained language model
2.1 文本信息提取本文使用了兩部分的文本信息用于語(yǔ)音合成:一部分是印尼語(yǔ)字符序列通過Tacotron2的編碼器得到的信息,另一部分是從BERT預(yù)訓(xùn)練模型提取出的信息.Tacotron2模型可以直接將音素序列{p1,p2,···,pn}作為系統(tǒng)輸入,sil表示文本單詞間的空格.在使用BERT預(yù)訓(xùn)練模型生成詞向量時(shí),需要先將文本序列{t1,t2,···,tm},m 圖3 印尼語(yǔ)音素序列和Wor d Pi ece序列示例Fig.3 Example of Indonesia phoneme sequence and WordPiece sequence 2.2 上下文信息拼接上下文拼接方法將印尼語(yǔ)音素序列p={p1,p2,···,pn}和子詞序列w={w1,w2,···,wk} 同時(shí)輸入系統(tǒng),將印尼語(yǔ)的梅爾譜參數(shù)yt作為系統(tǒng)目標(biāo)[19].如圖2(a)所示為上下文信息拼接法的模型結(jié)構(gòu)圖,輸入的文本序列信息分成兩路,分別經(jīng)過相應(yīng)處理,再參與最終解碼過程. 音素序列p經(jīng)過詞嵌入處理生成對(duì)應(yīng)詞向量p′,詞向量輸入編碼器提取出對(duì)應(yīng)的信息ep,其中ep的維度為512,上標(biāo)p代表處理音素序列產(chǎn)生的信息.編碼器輸出的信息ep被送入位置敏感注意力機(jī)制網(wǎng)絡(luò),注意力網(wǎng)絡(luò)根據(jù)編碼器的輸出ep、上一時(shí)刻的解碼輸出qt?1以及上一時(shí)刻的注意力權(quán)重3部分信息,生成當(dāng)前解碼時(shí)刻的注意力上下文信息apt和注意力權(quán)重即注意力的對(duì)齊信息. 其中,Ep和Ap分別表示處理音素序列的編碼器和注意力機(jī)制網(wǎng)絡(luò),n為音素序列的長(zhǎng)度. 在完成音素序列信息的提取后,下一步需要提取BERT預(yù)訓(xùn)練模型所包含的信息.首先將輸入的文本序列轉(zhuǎn)換為子詞序列w,子詞序列的形式見圖3所示;其次將子詞序列w輸入BERT預(yù)訓(xùn)練模型即可生成對(duì)應(yīng)的詞向量信息Bw,其中詞向量Bw的維度是768,上標(biāo)w代表處理字詞序列產(chǎn)生的信息.同時(shí)還需要通過一個(gè)全連接層將Bw的維度映射為512;再次將維度為512的詞向量bw,送入編碼器進(jìn)行可用的信息提??;最后輸出信息ew同樣被送入一個(gè)位置敏感注意力機(jī)制網(wǎng)絡(luò),生成當(dāng)前時(shí)刻的注意力上下文信息和注意力對(duì)齊信息. 其中,B表示BERT預(yù)訓(xùn)練模型,L表示一個(gè)線性層,進(jìn)行維度變換處理,Ew和Aw分別表示處理子詞序列的編碼器和注意力機(jī)制網(wǎng)絡(luò),k為子詞序列的長(zhǎng)度. 將提取的注意力上下文信息和,進(jìn)行拼接處理,將兩種信息進(jìn)行融合得到總的上下文信息at;再參與最終的解碼過程,解碼器根據(jù)上下文信息和上一時(shí)刻的解碼輸出,預(yù)測(cè)當(dāng)前時(shí)刻的聲學(xué)信息qt. 其中,C表示對(duì)兩種信息進(jìn)行拼接處理,即對(duì)兩個(gè)矢量進(jìn)行拼接,D表示一個(gè)解碼器網(wǎng)絡(luò). 印尼語(yǔ)同英語(yǔ)一樣,為拼音文字,文字中包含了發(fā)音信息,Tacotron2系統(tǒng)的編碼器(Ep)所提取的文本信息,實(shí)際上包含了部分發(fā)音信息. 但是BERT模型采用子詞序列的輸入形式,所提取的信息主要是詞與詞之間的語(yǔ)義信息.因此,希望通過加入一個(gè)編碼器(Ew)來(lái)轉(zhuǎn)換BERT預(yù)訓(xùn)練模型所輸出的信息,使這一部分信息可以有助于系統(tǒng)合成優(yōu)質(zhì)語(yǔ)音. 2.3 詞向量拼接如圖2(b)所示,該方法即詞向量拼接法[20].相比于上下文信息融合方法,該方法先將兩種信息進(jìn)行拼接融合,再送入注意力機(jī)制. 其中,U表示進(jìn)行上采樣處理,目的是保證BERT輸出詞向量ew的維度和字符詞向量ep的維度相同,確保兩者正確無(wú)誤的完成信息的拼接融合,C表示對(duì)兩種信息進(jìn)行拼接處理,A表示一個(gè)位置敏感注意力機(jī)制網(wǎng)絡(luò). 上采樣處理方法如圖4所示,例如:?jiǎn)卧~“bicaranya”,中文翻譯為“說話”,其音素形式輸入為“b”,“i”,“c”,“a”,“r”,“a”,“ny”,“a”,子詞形式輸入為“bi”,“##cara”,“##nya”.兩部分輸入信息分別經(jīng)過編碼器處理后,輸出對(duì)應(yīng)的詞向量,然后將“bi”的詞向量分別與“b”和“i”的詞向量進(jìn)行拼接.同理,“##cara”的詞向量則需要分別與“c”,“a”,“r”,“a”的詞向量進(jìn)行拼接.對(duì)于音素序列的詞間空格sil,統(tǒng)一采用拼接全零向量的方法,以保證兩部分的詞向量維度相同. 圖4 詞向量拼接示例Fig.4 Example of word vector concatenation 3.1 實(shí)驗(yàn)數(shù)據(jù)及平臺(tái)實(shí)驗(yàn)中使用的印尼語(yǔ)數(shù)據(jù)集時(shí)長(zhǎng)8 h,為專業(yè)的播音員錄音,播音員口音為純正的印度尼西亞音.平行語(yǔ)料共有4 768對(duì)〈文本,音頻〉,劃分為訓(xùn)練集4 611對(duì),驗(yàn)證集107對(duì),測(cè)試集50對(duì).其中,音頻語(yǔ)料采樣率為22 050 Hz,前后含有50 ms的靜音段,音頻的幀長(zhǎng)和幀移分別設(shè)置為46.4 ms和11.6 ms.整個(gè)實(shí)驗(yàn)基于Pytorch深度學(xué)習(xí)框架搭建模型,使用一塊英偉達(dá)V100顯卡來(lái)訓(xùn)練模型,為防止顯卡內(nèi)存溢出,模型的訓(xùn)練批次(batch)設(shè)置為16.此外,模型采用Adam[21]優(yōu)化器,學(xué)習(xí)率設(shè)為0.000 1.實(shí)驗(yàn)中使用了WaveGlow[22]聲碼器將聲學(xué)參數(shù)轉(zhuǎn)換為語(yǔ)音波形. 3.2 客觀評(píng)測(cè)方法為了衡量系統(tǒng)性能,選取幾個(gè)能夠反映音頻質(zhì)量和韻律的指標(biāo),并對(duì)測(cè)試集的50句印尼語(yǔ)進(jìn)行評(píng)測(cè),同時(shí)選取模型訓(xùn)練15萬(wàn)步時(shí)的結(jié)果進(jìn)行評(píng)測(cè),保證變量一致.為了讓合成音頻和參考音頻能進(jìn)行比較,先對(duì)合成音頻和參考音頻進(jìn)行了對(duì)齊處理,即動(dòng)態(tài)時(shí)間歸整(Dynamic Time Warping,DTW)[23].此外,基頻信息提取,實(shí)驗(yàn)中使用了Yin[24]算法. 梅爾倒譜失真(Mean Cepstral Distortion,MCD)[25]: 其中,ct,k和為第t幀的第k維梅爾頻譜倒譜系數(shù)(Mel-Frequency Cepstral Coefficient,MFCC),ct,k為參考音頻,為合成音頻,參數(shù)k為MFCC的維數(shù),T為所有音頻的總幀數(shù). 音高錯(cuò)誤率(Gross Pitch Error,GPE)[26]: 其中,NVV代表預(yù)測(cè)值和真實(shí)值都為濁音(Voiced)時(shí)的幀數(shù),NFOE表示滿足條件的幀數(shù),δ是一個(gè)閾值,通常設(shè)置為20%. F0幀錯(cuò)誤率(F0 Frame Error,F(xiàn)FE)[27]: 其中,N代表幀的總數(shù),NUV表示真實(shí)值為清音(Unvoiced)被預(yù)測(cè)為濁音時(shí)的幀數(shù),NVU表示濁音被預(yù)測(cè)為清音時(shí)的幀數(shù). 3.3 合成結(jié)果的客觀評(píng)測(cè)與分析BERT模型利用大規(guī)模的無(wú)標(biāo)記文本數(shù)據(jù)進(jìn)行無(wú)監(jiān)督訓(xùn)練,其生成的詞向量包含了豐富的句法和語(yǔ)義信息.本文使用兩種方法將BERT預(yù)訓(xùn)練詞向量作為附加信息輸入,表1給出了實(shí)驗(yàn)結(jié)果,3個(gè)評(píng)測(cè)指標(biāo)數(shù)值越小表示模型效果越佳.此外,本文將結(jié)構(gòu)不作修改、采用印尼語(yǔ)音素序列輸入的Tacotron2系統(tǒng)作為基線語(yǔ)音合成系統(tǒng).3個(gè)實(shí)驗(yàn)?zāi)P?,除結(jié)構(gòu)不同外,其他變量全部保持一致.根據(jù)表1數(shù)據(jù),可以看到,將BERT預(yù)訓(xùn)練模型信息作為系統(tǒng)附加的信息輸入,確實(shí)可以提高系統(tǒng)的合成效果,兩種方法在各個(gè)指標(biāo)上都明顯優(yōu)于基線系統(tǒng),而且3個(gè)指標(biāo)中梅爾倒譜失真值降低了約15%,音高錯(cuò)誤率和F0幀錯(cuò)誤率也有近8%的降低. 表1 基線系統(tǒng)、上下文信息拼接法和詞向量拼接法的評(píng)測(cè)結(jié)果對(duì)比Tab.1 The comparison results of three metrics with different methods% Tacotron系統(tǒng)中采用過兩種結(jié)構(gòu)的編碼器,其中CBHG編碼器應(yīng)用于Tacotron 1代系統(tǒng),CNN編碼器作為CBHG的改進(jìn)被應(yīng)用于Tacotron 2代系統(tǒng).CBHG編碼器由一個(gè)卷積神經(jīng)網(wǎng)絡(luò),一個(gè)高速網(wǎng)絡(luò)(Highway Network)和雙向的門控循環(huán)單元(GRU)組成,采用殘差連接. 而CNN編碼器結(jié)構(gòu)相對(duì)簡(jiǎn)潔,包括一個(gè)卷積神經(jīng)網(wǎng)絡(luò)和一個(gè)雙向LSTM.CBHG編碼器結(jié)構(gòu)相比CNN編碼器更復(fù)雜,其優(yōu)點(diǎn)是在采用字符輸入時(shí),效果要優(yōu)于CNN編碼器.而CNN編碼器學(xué)習(xí)重音、語(yǔ)調(diào)的能力要好于CBHG編碼器.針對(duì)兩種編碼器,本文進(jìn)行了幾組實(shí)驗(yàn),表2給出了對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果.根據(jù)實(shí)驗(yàn)數(shù)據(jù)可以看到,對(duì)印尼語(yǔ)音素序列和BERT預(yù)訓(xùn)練信息的處理,兩路信息同時(shí)采用相同結(jié)構(gòu)編碼器時(shí)系統(tǒng)效果最佳.針對(duì)兩種信息拼接方法,上下文信息拼接法采用兩種編碼器都可以得到較好的結(jié)果,詞向量拼接法采用CNN編碼器效果明顯好于CBHG編碼器.而且通過對(duì)結(jié)果的總體分析,上下文拼接法的效果要優(yōu)于詞向量拼接法,造成這一現(xiàn)象的主要原因?yàn)樯舷挛男畔⑵唇臃ㄊ菍⒔?jīng)過注意力機(jī)制篩選后的上下文信息進(jìn)行融合,系統(tǒng)對(duì)這一部分信息的處理充分,只提取了有助于合成的那一部分信息.而詞向量拼接法是直接將經(jīng)過編碼器處理后的信息進(jìn)行融合,由于上采樣的處理方式以及BERT預(yù)訓(xùn)練模型包含了大量高級(jí)信息,信息篩選不完全,導(dǎo)致系統(tǒng)合成結(jié)果要遜色一些. 表2 采用不同編碼器的上下文信息拼接法和詞向量拼接法的評(píng)測(cè)結(jié)果對(duì)比Tab.2 The comparison results of three metrics with different encoders% 3.4 注意力對(duì)齊結(jié)果與梅爾頻譜結(jié)果分析注意力對(duì)齊結(jié)果的好壞直接影響合成結(jié)果.圖5為可視化注意力對(duì)齊結(jié)果,注意力對(duì)齊結(jié)果呈對(duì)角線狀,表示在生成音頻序列時(shí),解碼器集中在正確的音素上,保證了每個(gè)字符的發(fā)音正確.通過觀察,注意力對(duì)齊結(jié)果與合成音頻質(zhì)量之間密切相關(guān),但是目前暫時(shí)無(wú)法用一種簡(jiǎn)單的方法去量化這種相關(guān)性,未來(lái)會(huì)繼續(xù)進(jìn)行探究.另一方面,如圖5(c)和圖5(d)所示,可以看到兩張結(jié)果圖都有很高的注意力值,呈明顯對(duì)角線,且無(wú)明顯間斷點(diǎn).相比之下,圖5(b)詞向量拼接法的注意力值要低一些,而且對(duì)齊結(jié)果的開頭和結(jié)尾處存在明顯的對(duì)齊錯(cuò)誤.根據(jù)注意力對(duì)齊結(jié)果,也可以得出上下文信息拼接法要優(yōu)于詞向量拼接法的結(jié)論. 此外,實(shí)驗(yàn)中發(fā)現(xiàn)在預(yù)測(cè)停止令牌(Stop Token)時(shí),基于Tacotron2的基線印尼語(yǔ)語(yǔ)音合成系統(tǒng)無(wú)法正確預(yù)測(cè)停止令牌,導(dǎo)致不能結(jié)束解碼過程,最終產(chǎn)生亂碼,特別是在預(yù)測(cè)長(zhǎng)句的時(shí)候.但是文中使用的上下文信息拼接和詞向量拼接方法,在實(shí)驗(yàn)中并沒有出現(xiàn)這一情況,盡管會(huì)出現(xiàn)合成效果不佳情況,但是都能夠正確預(yù)測(cè)出停止令牌. 圖6為上述對(duì)齊結(jié)果對(duì)應(yīng)的合成語(yǔ)音梅爾頻譜圖.相比基線系統(tǒng),上下文信息拼接法和詞向量拼接法合成的語(yǔ)音時(shí)長(zhǎng)更接近原音,對(duì)于停頓和語(yǔ)調(diào)的預(yù)測(cè)更準(zhǔn)確.結(jié)合圖5和圖6,可以明顯看到,本文所闡述的兩種方法相比基線系統(tǒng)性能有所提升,確實(shí)有著更好的合成效果. 圖5 可視化注意力對(duì)齊結(jié)果Fig.5 Results of visual attention mechanism alignment 圖6 合成語(yǔ)音梅爾頻譜圖Fig.6 Synthetic speech Mel-spectrogram diagram 3.5 合成語(yǔ)音主觀評(píng)測(cè)合成語(yǔ)音主觀評(píng)測(cè)采用了語(yǔ)音質(zhì)量評(píng)價(jià)中常用的平均意見得分(Mean Opinion Score,MOS),即依靠人的聽覺印象來(lái)對(duì)聽到的語(yǔ)音進(jìn)行評(píng)價(jià)打分. 評(píng)測(cè)中,邀請(qǐng)了實(shí)驗(yàn)室研究語(yǔ)音信號(hào)處理的10同學(xué)以及2位印尼語(yǔ)專業(yè)的同學(xué)對(duì)合成的測(cè)試集50句語(yǔ)音進(jìn)行了評(píng)測(cè).主觀評(píng)測(cè)的評(píng)分細(xì)則如表3所示. 表3 語(yǔ)音主觀評(píng)測(cè)標(biāo)準(zhǔn)Tab.3 Subjective evaluation criteria for speech 在合成語(yǔ)音主觀評(píng)測(cè)中,對(duì)文中介紹的上下文信息拼接、詞向量拼接以及基線系統(tǒng)分別進(jìn)行了MOS評(píng)分,然后對(duì)獲得的數(shù)據(jù)進(jìn)行了分析處理,得到如表4所示的結(jié)果. 表4 語(yǔ)音主觀評(píng)測(cè)結(jié)果Tab.4 Subjective evaluation results of speech 根據(jù)上述主觀評(píng)測(cè)結(jié)果,相比于基線系統(tǒng),文中介紹方法取得平均意見得分達(dá)到4.15,遠(yuǎn)高于基線系統(tǒng)的3.72,有很大的數(shù)值提升,但該評(píng)測(cè)方法主觀影響過重.所以,綜合主觀和客觀兩方面的評(píng)測(cè)結(jié)果分析,本文介紹的基于BERT預(yù)訓(xùn)練詞信息的方法相比于基線系統(tǒng),有一定的性能提升,但合成語(yǔ)音質(zhì)量與原始音頻仍有較大差距,仍具有很大的優(yōu)化空間. 本文圍繞印尼語(yǔ)語(yǔ)音合成系統(tǒng),提出了基于BERT預(yù)訓(xùn)練語(yǔ)言模型的印尼語(yǔ)語(yǔ)音合成系統(tǒng).該系統(tǒng)將BERT預(yù)訓(xùn)練的詞向量信息作為系統(tǒng)額外輸入,并且使用了兩種方法來(lái)將BERT預(yù)訓(xùn)練信息嵌入原系統(tǒng).在有限語(yǔ)料條件下,該系統(tǒng)可以提高合成語(yǔ)音質(zhì)量,而且該系統(tǒng)也可應(yīng)用于其他低資源語(yǔ)言.通過合成語(yǔ)音的客觀評(píng)測(cè)和主觀評(píng)測(cè)結(jié)果進(jìn)一步證明了該方案的有效性,兩種方法相對(duì)于基線系統(tǒng)都有顯著的性能提升,但合成語(yǔ)音質(zhì)量與原始音頻仍有提升空間.未來(lái)的工作,將繼續(xù)改進(jìn)系統(tǒng),解決合成中出現(xiàn)的不正確停頓問題,以及合成中預(yù)測(cè)停止符不確定造成音頻時(shí)長(zhǎng)變短,語(yǔ)速過快的現(xiàn)象,進(jìn)一步提高合成語(yǔ)音的質(zhì)量.3 實(shí)驗(yàn)結(jié)果與分析
4 總結(jié)
云南大學(xué)學(xué)報(bào)(自然科學(xué)版)2021年6期