李 葵,徐海青,吳立剛,梁 翀
(1.國網(wǎng)安徽省電力有限公司 信息通信分公司,安徽 合肥 230000;2.廈門大學 計算機科學學院,福建 廈門 361005;3.安徽繼遠軟件有限公司,安徽 合肥 230000)
隨著深度學習技術的發(fā)展,基于深度學習的語音合成方法[1-2]也在不斷推陳出新,這使得語音合成的質(zhì)量得到了空前的提高.語音合成的情感部分相比于傳統(tǒng)語音合成的提升雖然巨大,但尚未達到擬人化,所以提高合成語音表現(xiàn)力,將成為未來語音合成研究的重點和難點.20世紀末,隨著基音同步疊加的時域波形修改算法(pitch synchronous over lap add,PSOLA)的提出,語音段之間的拼接問題得到了較好的解決,使得波形拼接語音合成技術的發(fā)展邁出一大步.本文提出了一種基于SAT的情感語音合成方法,該方法以多人多情感的標注語音數(shù)據(jù)作為訓練集,在SAT框架下構(gòu)建并訓練語音平均音模型,最后通過說話人自適應轉(zhuǎn)換生成目標說話人情感的定制模型,實現(xiàn)目標情感語音合成.
語音合成的算法有很多種,大致可以從以下三個維度聚類:(1) 情感參數(shù)樣本[3],如增加情感訓練樣本或進行情感標記的方式[4];(2) 提取的參數(shù)特征或韻律轉(zhuǎn)換[5]等,如將中性語音通過韻律參數(shù)修改進行情感語音轉(zhuǎn)化;(3) 通過自適應模型修正[6]、合成參數(shù)修改[5,7]或?qū)?shù)合成器進行優(yōu)化等.傳統(tǒng)的語音合成系統(tǒng)可分為基于HMM的訓練和基于STRAIGHT的合成[8],流程框架如圖1所示.
在基于統(tǒng)計參數(shù)(HMM)語音合成算法的基礎上,本文提出基于多情感說話人自適應的情感語音合成系統(tǒng),如圖2所示,包括訓練、自適應和合成三個階段.在訓練階段對情感數(shù)據(jù)庫的語音數(shù)據(jù)進行特征提取,獲取基頻、譜參數(shù)等聲學參數(shù)文件,以及標注的文本文件.通過決策樹聚類得到訓練好的HMM模型庫.在自適應階段,基于CMLLR實現(xiàn)多說話人情感語音數(shù)據(jù)模型的SAT操作,獲得訓練集數(shù)據(jù)的平均音模型、自適應模型,對自適應模型通過最大后驗概率進行修正和更新;在合成階段,利用前階段的標注數(shù)據(jù)和模型,結(jié)合STRAIGHT語音合成器,得到目標說話人的情感語音.
平均音模型對多個情感說話人的情感語音數(shù)據(jù)的基元進行訓練,得到多個HMM模型.然后對這些HMM模型進行概率分布統(tǒng)計,得到所有說話人情感語音數(shù)據(jù)的平均分布模型.
SAT算法對說話人差異進行歸一化操作,提高模型的準確度,利用Multi-space-HMM實現(xiàn)漢語清音和元音的基頻建模,并基于上下文相關的MSD-HSMM語音合成單元,結(jié)合CMLLR實現(xiàn)多說話人的SAT,獲得多說話人情感語音的平均音模型.
本文采用具有精確時長分布的半隱HMM模型,對狀態(tài)輸出和時長分布進行控制建模和歸一化處理:
在進行完說話人SAT后,在少量數(shù)據(jù)下,采用CMLLR自適應算法對平均音模型的基頻、頻譜和時長參數(shù)進行變換,特征向量o與狀態(tài)時長d的變換方程:
bi(o)=N(o;Aμi-b,AΣiAT)=|A-1|N(Wξ;μi,Σi),
基于HSMM的自適應變換算法,實現(xiàn)語音聲學特征參數(shù)的歸一化和預處理.時長為T的自適應數(shù)據(jù)O,利用最大似然估計處理變換Λ=(W,X):
式中,λ為HSMM的參數(shù)集.分布共享一個回歸矩陣的綁定[11],實現(xiàn)少數(shù)據(jù)的自適應效果的優(yōu)化,如圖3所示.
最大后驗概率估計描述如下:
本文主要從主觀測評和客觀測評兩個層面對合成語音的效果進行分析與評估.
2.1.1客觀評測下式能夠?qū)铣烧Z音和原始語音在語句時長、基頻、譜質(zhì)心等聲學參數(shù)上進行誤差分析:
式中:語音文件的對比數(shù)為N,參數(shù)誤差Wi反映了合成語音與原始語音之間的差異.W表示基元時長誤差,定義為W=|(T2-T1)-(t2-t1)|,t1為得到的合成語音基元的起始時間,對應的截止時間為t2,T1代表原始語音基元開始時間,其對應的截止時間為T2.語句時長誤差W定義如下:W=|(Te-T0)-(te-t0)|.合成語句的開始時間為t0,截止時間為te;T0為原始語句的開始時間,Te為對應的截止時間.基頻誤差W定義如下:W=|f2-f1|.f1為合成語句的基頻均值,f2為原始語句的基頻均值.
2.1.2主觀評測采用MOS和EMOS分別對合成語音的自然度與情感相似度進行評估,其中MOS為平均意見得分(mean opinion score),EMOS情感相似度平均意見得分(emotional mean opinion score).
表1 MOS評測分值標準表Tab.1 MOS evaluation score standard
表2 EMOS評測分值標準表Tab.2 EMOS evaluation score standard
實驗數(shù)據(jù)為22名評測者的普通話和情感語音合成的語音(220句),評測者根據(jù)合成語音的自然度或情感度,對其進行打分(按5分制),評測標準如表1、表2所示.
2.2.1情感語料庫對16名人員(8男8女)建立情感語音數(shù)據(jù)庫.建立過程為:每人需錄制10種情感語音,每種情感錄制20 min,情感有悲傷、放松、憤怒、輕蔑、溫順、喜悅、厭惡、焦慮、驚奇、恐懼、中性等101種.建立的語音庫共計4 600句語料.
2.2.2實驗方案需要對情感語音合成的好壞進行一個正確評估,本文在SAT1[13]和SAT2兩種模型上進行試驗方案設計,其中,對比實驗方案為SAT1模型,情感語音合成實驗方案為SAT2模型.
SAT1模型:首先,建立訓練集,訓練數(shù)據(jù)為2.2.1介紹的情感語料庫數(shù)據(jù).然后,在訓練集上用STRAIGHT算法提取語音文件的聲學參數(shù)(如基頻等)信息.同時,語料文本文件需要輸入,并且需要對其進行分析,可以得到相關的標注文件.最后,進行HMM訓練,對訓練結(jié)果進行決策樹聚類,得到HMM模型庫.
SAT2模型:訓練前,在16人中隨機選取一人作為目標說話人,并在其錄音中隨機選取每種情感語音2句組成其情感小語料庫.訓練HMM模型庫方法與SAT1模型中的方法一致,但SAT2模型增加了SAT部分,采用被選取人的情感小語料庫,對其平均音模型進行SAT過程,獲得說話人的自適應模型.然后,輸入待合成情感語音文本,進行決策分析,挑選出合適的基元模型,最后合成得到目標情感語音,在SAT1和SAT2兩種模型上合成共計220句情感語句,每種模型各包含每種情感的10句測試語句.
最后,采用 MOS和 EMOS兩種主觀評測方法,對合成的情感語音的自然度和情感相似度進行對比并做出實驗分析.
合成語音參數(shù)的RMSE對比結(jié)果如表3所示.從客觀評測結(jié)果可以看出,本文提出的自適應情感語音合成模型合成的語音在各個參數(shù)方面都明顯優(yōu)于傳統(tǒng)統(tǒng)計參數(shù)語音合成模型,結(jié)果如表3所示.圖4顯示的是兩種模型合成語音在時長、基頻、譜質(zhì)心等聲學特征上的RMSE對比曲線圖.圖4能直觀地顯示本文的方法優(yōu)于傳統(tǒng)統(tǒng)計參數(shù)語音合成模型.
表3 不同模型上合成語音參數(shù)RMSE對比結(jié)果Tab.3 Comparison of synthesized speech parameters RMSE on different models
圖5 所示是SAT1和SAT2不同模型上合成情感語音的MOS得分.很明顯,在SAT2模型上得到合成情感語音的自然度比SAT1模型上得到的要高.如圖6所示為在SAT1和SAT2兩種模型上獲得的合成語音的情感相似度之間的評測對比分析,顯然,在SAT2模型上得到合成語音的情感相似度比SAT1模型上得到的要高.
本文提出了一種基于多情感說話人自適應的情感語音合成方法,搭建了此情感語音合成系統(tǒng)和傳統(tǒng)的基于HMM的語音合成系統(tǒng).實驗證明,與傳統(tǒng)的基于HMM的語音合成系統(tǒng)相比,在訓練階段加入了說話人SAT過程,獲得多個說話人的情感語音平均音模型,減小了語音庫中因不同的說話人而產(chǎn)生的差異帶來的影響,從而使得合成語音的情感相似度得到提升.根據(jù)平均音模型,用少量的待合成情感語料就能通過自適應算法合成出流利度、自然度、情感相似度都很好的情感語音.