【摘要】語(yǔ)音合成技術(shù)研究是近年來(lái)國(guó)內(nèi)外語(yǔ)音合成爭(zhēng)相研究的熱點(diǎn),隨著計(jì)算機(jī)科學(xué)技術(shù)與網(wǎng)絡(luò)社會(huì)的發(fā)展,語(yǔ)音信息服務(wù)系統(tǒng)得到了廣泛的應(yīng)用,但是語(yǔ)音信息服務(wù)系統(tǒng)需要語(yǔ)音合成技術(shù)的支持,本文介紹了幾種較為常見(jiàn)的語(yǔ)音合成方法,并且分析探討了語(yǔ)音合成的發(fā)展及應(yīng)用方向。
【關(guān)鍵詞】計(jì)算機(jī);語(yǔ)音合成技術(shù);發(fā)展方向
1、引言
語(yǔ)音合成技術(shù)使人們只要通過(guò)“聽(tīng)”就可以聽(tīng)懂、了解信息的內(nèi)容,該技術(shù)的應(yīng)用可以描述為將計(jì)算機(jī)產(chǎn)生的或者外部其他設(shè)備輸入的文字信息,按語(yǔ)音處理設(shè)定好的的規(guī)則轉(zhuǎn)換成語(yǔ)音信號(hào)輸出,這就會(huì)使文本文件內(nèi)容、手機(jī)短信內(nèi)容、WORD文件內(nèi)容等文字信息,能通過(guò)計(jì)算機(jī)流暢順利地讀出文字信息。這種將文字轉(zhuǎn)換成語(yǔ)音的高新技術(shù)稱之為文字語(yǔ)音轉(zhuǎn)換技術(shù),簡(jiǎn)稱TTS (Text to Speech) 技術(shù)。
2、語(yǔ)音合成技術(shù)方法研究
錄音編輯法、波形合成法、參數(shù)合成法和規(guī)則合成法,這四種研究方法是研究語(yǔ)音合成技術(shù)的主要方法,當(dāng)然還有其他方法,我們這里不做介紹。
1)錄音編輯法。此方法是將人的語(yǔ)音通過(guò)某種媒介錄制下來(lái),再適當(dāng)?shù)匕堰@些錄制下來(lái)的語(yǔ)音連接起來(lái),編輯成所需文字,缺點(diǎn)是在計(jì)算機(jī)內(nèi)對(duì)此卻不作任何壓縮及其他技術(shù)處理,而是直接將其輸出,此法需要大容量存儲(chǔ)器。
2)波形合成法我們這里介紹兩種方法。一種方法是波形編輯合成,目前很多專用的語(yǔ)音合成器基本上是采用這種方法,其原理是選取語(yǔ)音庫(kù)采取的自然語(yǔ)言的合成單元波形后,對(duì)這些波形進(jìn)行編輯拼接,最后輸出,簡(jiǎn)單的講是把波形編輯技術(shù)用于語(yǔ)音合成。這種方法比較常見(jiàn),比如我們生活中常見(jiàn)的有自動(dòng)報(bào)時(shí)裝置、公交車語(yǔ)音報(bào)站等。
另一種是波形編碼合成,此方法是直接將要合成的語(yǔ)音發(fā)音波形進(jìn)行存儲(chǔ)或進(jìn)行波形編碼壓縮技術(shù)處理,然后進(jìn)行存儲(chǔ),當(dāng)合成重放時(shí)再譯碼組合輸出語(yǔ)音,這種方法類似于語(yǔ)音編碼中的波形編解碼方法,。但是此方法在技術(shù)上還需進(jìn)一步升級(jí),這種語(yǔ)音合成器只是語(yǔ)音存儲(chǔ)和重放的器件。
3)專家早期的研究主要是采用參數(shù)合成法,這種運(yùn)行方式比較復(fù)雜,下面我們主要介紹發(fā)音器官參數(shù)合成、共振峰合成、LPC合成等幾種方法。
發(fā)音器官參數(shù)合成應(yīng)計(jì)算出語(yǔ)音的聲波,如何得到語(yǔ)音的聲波,應(yīng)首先通過(guò)定義唇、舌、聲帶的相關(guān)參數(shù),再由這些參數(shù)估計(jì)聲道截面積函數(shù),進(jìn)而獲取語(yǔ)音聲波。這種合成方法具有我們希望得到的優(yōu)點(diǎn),即它直接模擬人的發(fā)音過(guò)程,可以產(chǎn)生接近人發(fā)聲的語(yǔ)音,但是,目前要準(zhǔn)確測(cè)定出這些參數(shù)還缺少行之有效的手段,因?yàn)槊總€(gè)人的發(fā)音生理過(guò)程比較復(fù)雜,因此,大家普遍認(rèn)為發(fā)音器官參數(shù)合成技術(shù)研究還不夠成熟,走出實(shí)驗(yàn)室研究還需一段時(shí)間。共振峰合成把人的聲道看作成諧振腔,腔體的諧振特性決定所發(fā)出語(yǔ)音信號(hào)的頻譜特性,它是對(duì)聲源—聲道模型的模擬,我們稱之為共振峰特性。我們可以通過(guò)修改振峰合成參數(shù)獲得不同特性的語(yǔ)音。也能以較低的代價(jià)產(chǎn)生具有高可懂度的合成語(yǔ)音,但是前提是振峰合成的參數(shù)設(shè)置合理。后來(lái)又產(chǎn)生了基于LPC、lSP等聲學(xué)參數(shù)的合成系統(tǒng)。在眾多合成系統(tǒng)中LPC是一線性預(yù)測(cè)編碼法。它采用10~25ms為一幀對(duì)語(yǔ)音波形進(jìn)行采樣,各幀的參數(shù)是時(shí)變的,在一幀內(nèi)則為一線性時(shí)不變系統(tǒng)。在存儲(chǔ)器中存入各幀的參數(shù),參數(shù)獲取方法為在幀中抽取原始語(yǔ)音的音調(diào)周期、清音、濁音若干個(gè)基于最小二乘的預(yù)測(cè)系數(shù),在合成時(shí)以這些參數(shù)綜合語(yǔ)音。LPC法系用3~7 位對(duì)所獲取參數(shù)進(jìn)行編碼處理,在數(shù)值間可以自動(dòng)插補(bǔ)運(yùn)算,因此次方法合成的語(yǔ)音音質(zhì)柔、動(dòng)聽(tīng)[1]。
4)規(guī)則合成法。20世紀(jì)80年代末至今,基音同步疊加(PSOLA)方法問(wèn)世,大大提高了基于時(shí)域波形拼接方法合成的語(yǔ)音的音色和自然度,該基于PSOLA方法的合成器具有結(jié)構(gòu)簡(jiǎn)單、易于實(shí)時(shí)實(shí)現(xiàn)等優(yōu)點(diǎn),此方法的提出標(biāo)志著語(yǔ)言合成技術(shù)研究取得了實(shí)質(zhì)性的進(jìn)展,引起了科學(xué)界的轟動(dòng),具有寬廣的商用價(jià)值。
PSOLA技術(shù)的原理特點(diǎn)是,要想使拼接單元的韻律特征符合上下文的要求,同時(shí)又能使合成波形保持了原發(fā)音的主要音段特征,需要根據(jù)上下文的要求,用PSOLA算法調(diào)整拼接單元的韻律特征,如基頻、音長(zhǎng)、音強(qiáng)等,最后再對(duì)語(yǔ)音波形片斷進(jìn)行拼接,從而獲得具有很高清晰度和自然度的語(yǔ)音。隨著人們對(duì)語(yǔ)音合成的自然度和音質(zhì)的要求越來(lái)越高,研究一種具有音質(zhì)好,對(duì)時(shí)長(zhǎng)和聲調(diào)適應(yīng)性強(qiáng),可以靈活調(diào)節(jié)韻律參數(shù)的語(yǔ)音合成方法被人們又一次的提上來(lái)研究日程,于是一種基于LMA (對(duì)數(shù)振幅近似)聲道模型的語(yǔ)音合成方法被提出來(lái)了,從技術(shù)上講這種新方法克服了PSOLA算法難以處理協(xié)同發(fā)音的缺陷和韻律參數(shù)調(diào)整能力較弱的缺點(diǎn),而且這種新的語(yǔ)音合成方式具有比PSOLA技術(shù)更高的合成音質(zhì)[2]。解決了PSOLA算法難以解決的問(wèn)題,綜上所述,計(jì)算機(jī)語(yǔ)音合成方式有很多種,科學(xué)家們從軟件和硬件的各方面對(duì)比進(jìn)行了研究, 發(fā)現(xiàn)人們可以按不同的使用情況、不同的使用目的選擇適合各自需求的的語(yǔ)音合成方法。
3、語(yǔ)音合成未來(lái)研究方向
目前語(yǔ)音合成的發(fā)展方向及研究熱點(diǎn)主要涉及以下幾方向,它們是:
1)不同語(yǔ)音風(fēng)格的語(yǔ)音技術(shù)合成。一種發(fā)展方向是合成具有獨(dú)特特征的語(yǔ)音,比如某個(gè)名人的語(yǔ)音。另一個(gè)發(fā)展方向是使語(yǔ)音合成系統(tǒng)不但能夠合成標(biāo)準(zhǔn)的朗讀風(fēng)格,而且能完成特定的風(fēng)格,這個(gè)發(fā)展方向?qū)⑹谷藱C(jī)對(duì)話更加智能,比如能產(chǎn)生評(píng)書、RAP、新聞、幽默、警告、以及普通非正式的說(shuō)話等語(yǔ)音效果,區(qū)分度將更大。所以加強(qiáng)不同說(shuō)話風(fēng)格的合成技術(shù)的研究顯得非常必要和關(guān)鍵。這是未來(lái)的研究發(fā)展方向之一。
2)情感語(yǔ)音技術(shù)合成。對(duì)于漢語(yǔ)語(yǔ)音,目前研究出了驚、怒、悲喜四種情感不同的變調(diào)規(guī)律,變調(diào)規(guī)律由科學(xué)家通過(guò)分析情感語(yǔ)句的語(yǔ)調(diào)得出。并對(duì)不同的情感類型確定與之相應(yīng)的元音的變異規(guī)律、基音頻率變化規(guī)律、能量變化規(guī)律、和無(wú)聲時(shí)延比例變化規(guī)則[3]。對(duì)于待合成的語(yǔ)音, 要獲得較好的語(yǔ)音效果,應(yīng)先進(jìn)行文本掃描輸入,再通過(guò)對(duì)相應(yīng)情感的語(yǔ)調(diào)變化規(guī)則的迭加,利用PSOLA技術(shù)進(jìn)行情感語(yǔ)音合成,但是實(shí)現(xiàn)對(duì)人的認(rèn)知的完全理解, 還需要深入研究。
3)發(fā)音器官合成與可視語(yǔ)音。在語(yǔ)音合成系統(tǒng)中,說(shuō)話者的臉可以顯著提高合成語(yǔ)音的可懂度、真實(shí)性、和終端用戶的可接受性。在聲學(xué)語(yǔ)音受到周邊噪聲影響時(shí)或者遇到具有聽(tīng)力障礙的人時(shí),可視語(yǔ)音可以提高語(yǔ)音的可懂度。目前在語(yǔ)音合成技術(shù)研究領(lǐng)域中,人們普遍認(rèn)為如何解決語(yǔ)音合成中自然度的問(wèn)題,無(wú)疑是可視語(yǔ)音合成技術(shù)的亟需解決的關(guān)鍵問(wèn)題,研究人員對(duì)此充滿了信心。
4)文本語(yǔ)音閱讀。當(dāng)我們需要將在屏幕上顯示的文字、已打出的文字稿件或者打出的文字需要用語(yǔ)音讀出來(lái)的時(shí)候,此時(shí)就要對(duì)文本進(jìn)行閱讀,,以釋放用眼疲勞,緩解壓力。當(dāng)前,文本語(yǔ)音閱讀技術(shù)主要應(yīng)用在文稿校對(duì)、計(jì)算機(jī)輔助教學(xué)等工作領(lǐng)域。
綜上所述,我們應(yīng)該加強(qiáng)對(duì)語(yǔ)音合成技術(shù)的深入研究,并把這種高新技術(shù)轉(zhuǎn)化為更加強(qiáng)大的、切實(shí)可用的生產(chǎn)力,創(chuàng)造出更大的社會(huì)經(jīng)濟(jì)效益,推動(dòng)人機(jī)交互方式的革命的到來(lái)。如今,盡快開(kāi)發(fā)出一個(gè)自然度高、可視化高、可懂度高漢語(yǔ)語(yǔ)音合成系統(tǒng),已經(jīng)成為當(dāng)務(wù)之急。
參考文獻(xiàn)
[1]王仁華.中文語(yǔ)音交互技術(shù)標(biāo)準(zhǔn)化工作進(jìn)展[J].信息技術(shù)標(biāo)準(zhǔn)化,2004(3):4-5.
[2]黃南川,鄧振杰等.語(yǔ)音合成技術(shù)的研究與發(fā)展[J].華北航天工業(yè)學(xué)院學(xué)報(bào),2002,9(12)
[3]柳春,于洪志等.語(yǔ)音合成技術(shù)研究[J].現(xiàn)代教育技術(shù),2008(26)