胡 克,康世胤,郝 軍
(新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)
在語(yǔ)音合成領(lǐng)域,基于大語(yǔ)料庫(kù)的拼接合成系統(tǒng)的合成質(zhì)量已經(jīng)達(dá)到了相當(dāng)不錯(cuò)的水平,甚至能夠在特定條件下形成產(chǎn)品。但這類(lèi)方法存在的固有弱點(diǎn),如語(yǔ)料庫(kù)構(gòu)建成本高,合成穩(wěn)定性低,靈活性較差等。這些弱點(diǎn)限制了拼接合成方法的進(jìn)一步應(yīng)用。而基于統(tǒng)計(jì)模型的參數(shù)化語(yǔ)音合成技術(shù)恰恰在構(gòu)建成本和合成多樣化方面展現(xiàn)出其獨(dú)特的優(yōu)勢(shì),因此逐漸得到廣泛的應(yīng)用。
在這種背景下,文中以基于HMM的參數(shù)化語(yǔ)音合成系統(tǒng)為基礎(chǔ),針對(duì)中文語(yǔ)音的特點(diǎn),構(gòu)建出中文HMM語(yǔ)音合成系統(tǒng)。
隱馬爾可夫模型是一種時(shí)間序列上的統(tǒng)計(jì)模型,它廣泛的應(yīng)用于多個(gè)領(lǐng)域,尤其是語(yǔ)音識(shí)別[1]。近年來(lái),HMM在語(yǔ)音合成中也有了成功的應(yīng)用。HMM是一個(gè)有限狀態(tài)機(jī),它可以生成一個(gè)離散時(shí)間的觀(guān)察序列。在每一個(gè)時(shí)間點(diǎn),HMM由馬爾可夫原則進(jìn)行狀態(tài)轉(zhuǎn)移,并且產(chǎn)生一個(gè)觀(guān)察值 o。這樣的一個(gè)狀態(tài)轉(zhuǎn)移和輸出包含兩個(gè)概率:
1)狀態(tài)轉(zhuǎn)移概率ija,表示從狀態(tài)i轉(zhuǎn)移到狀態(tài)j的概率。
2)輸出概率 bi(o)。
圖1是典型的HMM模型示意圖。圖1(a) 是一個(gè)3狀態(tài)互聯(lián)的HMM模型,這個(gè)模型中任何一個(gè)狀態(tài)都可以在一定的轉(zhuǎn)移概率下到達(dá)任一個(gè)其他狀態(tài)。圖1(b)是一個(gè)3狀態(tài)由左到右HMM模型,這個(gè)模型里一個(gè)狀態(tài)隨時(shí)間增加,在轉(zhuǎn)移概率的作用下,有可能保持狀態(tài)不變或到達(dá)下一個(gè)狀態(tài)??梢?jiàn),由左到右HMM模型十分適合用來(lái)為隨概率變化的信號(hào)建模,它的這種特性可以很好地應(yīng)用在語(yǔ)音識(shí)別及語(yǔ)音合成領(lǐng)域。
圖1 HMM模型示意
由于觀(guān)察序列 o可能是離散的也可能是連續(xù)的,那么對(duì)它的描述可以用離散的概率,也可以用連續(xù)的概率密度來(lái)表示。一般來(lái)說(shuō),在語(yǔ)音合成中使用的是一個(gè)或者多個(gè)高斯混合密度,表示為:
式中,M是高斯核的個(gè)數(shù),imw 是某一個(gè)高斯核的權(quán)重,imμ為這個(gè)高斯核的均值,imΣ是方差。
基于HMM的參數(shù)化語(yǔ)音合成系統(tǒng)的基本結(jié)構(gòu)如圖2所示。系統(tǒng)可以分為訓(xùn)練和合成兩個(gè)部分。從中不難看出,在訓(xùn)練過(guò)程中,語(yǔ)音信息經(jīng)歷了從原始波形信號(hào)到聲學(xué)參數(shù)序列,再到統(tǒng)計(jì)模型集合的變化過(guò)程;與此相對(duì)應(yīng),在合成過(guò)程中,又經(jīng)歷了從統(tǒng)計(jì)模型集合到聲學(xué)參數(shù)序列,再到合成波形信號(hào)的逆過(guò)程。
在訓(xùn)練部分,首先從語(yǔ)料庫(kù)錄音數(shù)據(jù)中提取頻譜和基頻等聲學(xué)參數(shù)。
然后根據(jù)ML準(zhǔn)則,使用EM算法[2]訓(xùn)練聲學(xué)參數(shù)向量序列的HMM模型。這個(gè)訓(xùn)練過(guò)程與語(yǔ)音識(shí)別種模型的訓(xùn)練過(guò)程非常相似,主要的不同在于語(yǔ)音識(shí)別中,一般只對(duì)譜參數(shù)進(jìn)行建模,而在HMM合成系統(tǒng)中,使用一種多流 HMM為譜參數(shù)和基頻參數(shù)建立統(tǒng)一的語(yǔ)境相關(guān)模型。另一個(gè)不同則是除了語(yǔ)音學(xué)特征之外,HMM合成系統(tǒng)還使用語(yǔ)言學(xué)和韻律學(xué)的特征描述語(yǔ)境。建模過(guò)程中,由于基頻參數(shù)曲線(xiàn)的特殊性,無(wú)法使用離散或者連續(xù)分布描述,HMM合成系統(tǒng)使用多空間概率分布(MSD)[3]作為 HMM的狀態(tài)輸出概率分布。同時(shí),系統(tǒng)使用高斯分布或者伽馬分布建立狀態(tài)時(shí)長(zhǎng)模型來(lái)描述語(yǔ)音的時(shí)間結(jié)構(gòu)。
最后,使用語(yǔ)境決策樹(shù)分別對(duì)譜參數(shù)模型、基頻參數(shù)模型和時(shí)長(zhǎng)模型進(jìn)行聚類(lèi)。這就得到了合成使用的預(yù)測(cè)模型。
在合成部分,首先使用文本分析工具將給定文本轉(zhuǎn)換成包含語(yǔ)境描述信息的發(fā)音標(biāo)注序列,使用前面得到的決策樹(shù)預(yù)測(cè)出每個(gè)發(fā)音的語(yǔ)境相關(guān) HMM模型,并連接成一個(gè)語(yǔ)句的HMM模型。
然后,使用參數(shù)生成算法從語(yǔ)句HMM中生成頻譜和基頻的參數(shù)序列。這個(gè)過(guò)程可以看做語(yǔ)音識(shí)別的逆過(guò)程,是求給定HMM模型的最大概率輸出序列最后使用參數(shù)合成器將聲學(xué)參數(shù)合成為語(yǔ)音信號(hào)。對(duì)于MCEP譜參數(shù),可以使用Mel對(duì)數(shù)譜逼近(MLSA)濾波器[4],作為參數(shù)合成器。
圖2 基于HMM的參數(shù)化語(yǔ)音合成系統(tǒng)結(jié)構(gòu)
訓(xùn)練樣本集是整個(gè)語(yǔ)音合成中參數(shù)訓(xùn)練系統(tǒng)的基礎(chǔ),它質(zhì)量的好壞,對(duì)語(yǔ)音合成系統(tǒng)的最終合成效果有著決定性的影響。在本節(jié)中,首先從原始數(shù)據(jù)庫(kù)中對(duì)語(yǔ)音樣本進(jìn)行篩選,選擇發(fā)音清晰、韻律平衡的樣本作為語(yǔ)料庫(kù)的原始數(shù)據(jù),然后依照一定的策略,從原始數(shù)據(jù)庫(kù)中提取對(duì)應(yīng)樣本的標(biāo)注信息,生成適合于HMM參數(shù)訓(xùn)練的文本標(biāo)注信息,并最終建立適合于中文 HMM參數(shù)化語(yǔ)音合成的語(yǔ)料庫(kù)。
(1)語(yǔ)音樣本的篩選
原始數(shù)據(jù)庫(kù)中包含女聲語(yǔ)音樣本6 445個(gè)。每一個(gè)語(yǔ)音樣本中具體包含如下信息。
1)語(yǔ)音波形數(shù)據(jù)。
2)基于音節(jié)的切分時(shí)長(zhǎng)信息。
3)音節(jié)的有調(diào)拼音。
4)韻律詞和韻律短語(yǔ)的切分信息。一個(gè)典型的音節(jié)和韻律標(biāo)注文件如下所示:
/為臨帖/他還|遠(yuǎn)游|西安|碑林/龍門(mén)|石窟/泰山|摩崖|石刻/./
文件包含兩行,第一行是語(yǔ)音樣本的中文信息和相應(yīng)的韻律詞和韻律短語(yǔ)的切分信息。其中,“/”為韻律短語(yǔ)的切分點(diǎn);“|”為韻律詞的切分點(diǎn)。第二行是語(yǔ)音樣本對(duì)應(yīng)的拼音標(biāo)注。拼音標(biāo)注以漢語(yǔ)拼音方案為基礎(chǔ),用附加在拼音后的數(shù)字表示聲調(diào),其中5表示輕聲。
經(jīng)過(guò)逐條篩選,剔除了錄音不清晰、切分信息丟失和拼音標(biāo)注不正確的樣本,最終選擇了其中的6 429個(gè)完整有效的樣本建立語(yǔ)料庫(kù)。
(2)語(yǔ)境標(biāo)注信息提取
語(yǔ)境標(biāo)注信息的內(nèi)容主要包含當(dāng)前音節(jié)的發(fā)音信息,例如拼音、聲調(diào)、聲母和韻母;語(yǔ)境發(fā)音信息,例如前后音節(jié)的拼音;時(shí)長(zhǎng)信息,例如當(dāng)前音節(jié)在語(yǔ)音波形數(shù)據(jù)中的起止時(shí)間;韻律切分信息,例如韻律詞和韻律短語(yǔ)的劃分。
和波形拼接方案的語(yǔ)音合成系統(tǒng)不同,可訓(xùn)練的參數(shù)化語(yǔ)音合成系統(tǒng)不直接使用原始的波形數(shù)據(jù)建立發(fā)音單元模型,而是使用相應(yīng)的聲學(xué)參數(shù)建模。在文中構(gòu)建的中文HMM參數(shù)化語(yǔ)音合成系統(tǒng)中,使用24階Mel倒譜(MCEP)參數(shù)和基頻F0參數(shù)作為原始語(yǔ)音數(shù)據(jù)的聲學(xué)參數(shù)建立和訓(xùn)練HMM。
相對(duì)于其他聲學(xué)參數(shù),例如LSP參數(shù),STRAIGHT參數(shù),MCEP的主要優(yōu)點(diǎn)在于其提取算法成熟,合成音質(zhì)較高,計(jì)算復(fù)雜度低,能夠?qū)崿F(xiàn)實(shí)時(shí)合成等。
HMM參數(shù)化語(yǔ)音合成系統(tǒng)中,首先要確定發(fā)音單元的尺度。發(fā)音單元作為HMM訓(xùn)練的基本單位,必須有一個(gè)合適的尺度,才能保證良好的訓(xùn)練效果和較短的訓(xùn)練時(shí)間。
英文和其他一些語(yǔ)言的合成系統(tǒng)中,常常使用音素作為基本發(fā)音單元。這是和語(yǔ)種相適應(yīng)的。對(duì)于英語(yǔ)這樣基于單詞的語(yǔ)中,不同單詞的發(fā)音結(jié)構(gòu)和程度變化很大,建立統(tǒng)一的發(fā)音單元模型相當(dāng)困難,因此必須使用較小的發(fā)音單元建模。音素,作為發(fā)音最小的單位,其發(fā)音結(jié)構(gòu)簡(jiǎn)單,總數(shù)較少,比較適合于建立發(fā)音單元模型。
在中文的參數(shù)化語(yǔ)音合成系統(tǒng)中,也可以使用音素建模,但這個(gè)樣做有以下幾個(gè)不足。
1)以音素為單元建模,尺度較小,增加對(duì)原始語(yǔ)料庫(kù)標(biāo)注切分信息的難度。
2)以音素為單元建模,雖然模型的種數(shù)較少,但是在音素級(jí)別上,發(fā)音單元間的連接更加緊密,相互影響作用較強(qiáng),在考慮上下文的訓(xùn)練系統(tǒng)中,需要花費(fèi)大量的時(shí)間考慮音素的相連關(guān)系和相互影響,反而增加了模型的復(fù)雜度?;谝陨蟽牲c(diǎn),文中認(rèn)為中文的HMM建模單元尺度應(yīng)當(dāng)選擇的較大,例如聲韻母單元或音節(jié)單元。對(duì)于漢語(yǔ)語(yǔ)音,無(wú)論是身韻母還是音節(jié),都有較為統(tǒng)一的結(jié)構(gòu):典型的聲母包括3個(gè)部分,典型的韻母包括5個(gè)部分,而絕大多數(shù)音節(jié)可以劃分為8~9個(gè)部分。漢語(yǔ)語(yǔ)音的這種結(jié)構(gòu)相對(duì)固定的特點(diǎn),決定了在設(shè)計(jì)漢語(yǔ)語(yǔ)音的HMM單元時(shí),可以使用聲韻母或者音節(jié)作為基本發(fā)音單元。在進(jìn)一步研究中,文中對(duì)比了使用聲韻母和音節(jié)兩種單位作為基本發(fā)音單元時(shí),對(duì)合成質(zhì)量的影響,如圖3所示。在訓(xùn)練數(shù)據(jù)較少時(shí),由于漢語(yǔ)音節(jié)較多,每個(gè)單元的訓(xùn)練數(shù)據(jù)相對(duì)更少,因此合成音質(zhì)劣于以聲韻母為單元的系統(tǒng)。隨著訓(xùn)練數(shù)據(jù)的增多,音節(jié)級(jí)的系統(tǒng)音質(zhì)迅速提高,而聲韻母級(jí)的系統(tǒng)則因?yàn)榘l(fā)音單元尺寸較小,在韻律方面,尤其是聲韻母時(shí)長(zhǎng)比例上存在較多問(wèn)題,因此總體得分不如音節(jié)級(jí)的系統(tǒng)。
圖3 不同的建模單元對(duì)合成質(zhì)量的影響
在文中的HMM語(yǔ)音合成的訓(xùn)練系統(tǒng)中,使用音節(jié)作為基本的發(fā)音單元建立 HMM,包括描述靜音段的發(fā)音單元模型在內(nèi),共有音節(jié)標(biāo)注775個(gè)。使用音節(jié)作為HMM基本單元,在訓(xùn)練時(shí)只用考慮音節(jié)之間的相互影響,而實(shí)際上,在漢語(yǔ)標(biāo)準(zhǔn)普通話(huà)中,音節(jié)間的相互影響較少,這樣的設(shè)計(jì)也有助于獲得較好的訓(xùn)練結(jié)果,并最終得到高質(zhì)量的合成語(yǔ)音。
如前文所述,HMM拓?fù)浣Y(jié)構(gòu)主要指 HMM中的隱藏狀態(tài)數(shù)目和狀態(tài)之間的跳轉(zhuǎn)關(guān)系。
在以音節(jié)為單位的HMM建模中,音節(jié)內(nèi)部一般不存在發(fā)音相同但間隔排列的音素,以HMM的狀態(tài)轉(zhuǎn)移描述時(shí),就不應(yīng)當(dāng)存在轉(zhuǎn)移至曾經(jīng)經(jīng)歷過(guò)的狀態(tài)這種情況。因此HMM對(duì)語(yǔ)音建模一般使用從左至右各態(tài)經(jīng)歷的結(jié)構(gòu)。
模型的狀態(tài)數(shù)目應(yīng)當(dāng)根據(jù)發(fā)音單元的尺寸來(lái)選擇。狀態(tài)數(shù)目太少,不足以描述相對(duì)變化較為復(fù)雜的發(fā)音單元;狀態(tài)數(shù)目太多,則會(huì)增加不必要的訓(xùn)練時(shí)間。在以音素為HMM單元建模的語(yǔ)音合成系統(tǒng)中,由于音素的時(shí)域結(jié)構(gòu)相對(duì)簡(jiǎn)單,狀態(tài)數(shù)一般取3~5,就能得到不錯(cuò)的結(jié)果。當(dāng)發(fā)音單元尺度增加時(shí),狀態(tài)數(shù)目也應(yīng)當(dāng)相應(yīng)的增加,以便很好的描述更加復(fù)雜的大尺度的發(fā)音單元??紤]到音節(jié)內(nèi)部的劃分情況,文中使用10狀態(tài)HMM對(duì)音節(jié)進(jìn)行建模。
近幾年來(lái),語(yǔ)音合成技術(shù)有了長(zhǎng)足的進(jìn)步和發(fā)展。目前,在一些特定情況下,大語(yǔ)料庫(kù)的拼接合成技術(shù)已經(jīng)能滿(mǎn)足部分應(yīng)用需求。文中分析了基于HMM的參數(shù)化語(yǔ)音合成系統(tǒng)的基本結(jié)構(gòu)和構(gòu)建流程[5-8],并以此為基礎(chǔ),針對(duì)中文語(yǔ)音的特點(diǎn),構(gòu)建了中文HMM語(yǔ)音合成系統(tǒng),并從數(shù)據(jù)準(zhǔn)備,聲學(xué)參數(shù)提取,建模單元和HMM拓?fù)浣Y(jié)構(gòu)選擇等幾個(gè)方面探討并確定了適合于中文系統(tǒng)構(gòu)建的參數(shù),拓廣了可訓(xùn)練化語(yǔ)音合成技術(shù)在中文語(yǔ)種的應(yīng)用。而在韻律建模和時(shí)長(zhǎng)模型方面,仍然需要進(jìn)一步的研究,以提高中文語(yǔ)音合成的自然度和可懂性。
[1] RABINER L. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition[J].Proc. IEEE, 1989,77(02):257-286.
[2] DEMPSTER A, LAIRD N, RUBIN D.Maximum Likelihood from Incomplete Data via the EM Algorithm[J].Journal of Royal Statistics Society,1977(39):1-38.
[3] TOKUDA K,MASUKO T,MIYAZAKI N,et al.Multi-space Probability Distribution HMM[J]. IEICE Trans. Inf.Syst., 2002, E85-D(03):455-464.
[4] IMAI S, SUMITA K, FURUICHI C. Mel Log Spectrum Approximation (MLSA) Filter for Speech Synthesis[J]. Electronics and Communications in Japan, 1983,66(02):10-18.
[5] 卡斯木江·卡迪爾,古麗娜爾·艾力,艾斯卡爾·艾木都拉.基于最對(duì)合成單元的維吾爾音庫(kù)設(shè)計(jì)[J]. 通信技術(shù),2012,45(04):83-85.
[6] 俞一彪,段凱宇,石汝杰.吳語(yǔ)文語(yǔ)轉(zhuǎn)換中的語(yǔ)音韻律控制[J].通信技術(shù),2002(10):1-3,9.
[7] 胡曉荷.周光召和柳傳志對(duì)“語(yǔ)音云”寄予厚望——移動(dòng)互聯(lián)網(wǎng)步入“語(yǔ)音云”時(shí)代[J]. 信息安全與通信保密,2010(12):39-41.
[8] 劉帥,王以剛.VoIP的語(yǔ)音動(dòng)態(tài)加密方法研究[J]. 信息安全與通信保密,2009(02):74-75.