馬英+陳超+賈國(guó)慶
摘 要: 基音周期是語(yǔ)音信號(hào)的重要參數(shù),提取藏語(yǔ)語(yǔ)音基音周期為藏語(yǔ)語(yǔ)音識(shí)別和藏語(yǔ)語(yǔ)音合成奠定很重要的基礎(chǔ)。這里在分析藏語(yǔ)發(fā)音特點(diǎn)的基礎(chǔ)上進(jìn)行基于LPC的藏語(yǔ)語(yǔ)音基音周期提取算法的分析,實(shí)踐表明,該方法更加符合小信噪比藏語(yǔ)音信號(hào)基音周期和提取。在傳統(tǒng)LPC分析方法的基礎(chǔ)上結(jié)合自相關(guān)法和倒譜法,分析計(jì)算平均相對(duì)誤差,總結(jié)出了符合藏語(yǔ)語(yǔ)音特點(diǎn)的特征提取算法。
關(guān)鍵詞: LPC; 藏語(yǔ)語(yǔ)音; 基音周期; 倒譜法
中圖分類號(hào): TN912?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2015)16?0013?03
Analysis of Tibetan speech pitch detection based on LPC
MA Ying, CHEN Chao, JIA Guoqing
(School of Physics and Electronic Information Engineering, Qinghai University for Nationalities, Xining 810007, China)
Abstract: Pitch period is an important parameter of speech signal. It is an important foundation to extract Tibetan pitch period for speech recognition and synthesis of Tibetan language. The Tibetan speech pitch extraction algorithm based on LPC is analyzed based on the analysis on the characteristics of Tibetan language pronunciation. In combination with the autocorrelation method and cepstrum method based on traditional LPC analysis method, the average relative error is analyzed and calculated, and the feature extraction algorithm conforming to the phonetic characteristics of Tibetan is summed.
Keywords: LPC; Tibetan speech; pitch period; cepstrum method
語(yǔ)音信號(hào)特征參數(shù)有很多種,有基音周期,共振峰頻率,增益參數(shù)等,每一個(gè)特征參數(shù)都表征語(yǔ)音信號(hào)不同的信息,不同的語(yǔ)音信號(hào)有著不同的特征參數(shù);因此,語(yǔ)音信號(hào)特征參數(shù)是語(yǔ)音識(shí)別,語(yǔ)音合成中的重要因素。在語(yǔ)音信號(hào)分析中,特征參數(shù)的提取是否準(zhǔn)確決定著語(yǔ)音識(shí)別的識(shí)別率。然而不同的語(yǔ)音信號(hào)有著不同的特征參數(shù)提取方法,同種語(yǔ)言的不同方言在語(yǔ)音上相差懸殊,隨著語(yǔ)言環(huán)境的變化,系統(tǒng)性能會(huì)變得很差。因此文章針對(duì)青海安多藏語(yǔ)語(yǔ)音信號(hào)采用多種提取方法,通過(guò)比對(duì),總結(jié)出符合藏語(yǔ)語(yǔ)音信號(hào)的基音周期提取算法。
1 藏語(yǔ)語(yǔ)音的基本特點(diǎn)
藏語(yǔ)語(yǔ)音發(fā)音機(jī)制有完整的理論體系,與現(xiàn)代語(yǔ)音學(xué)的理論是完全吻合的。藏語(yǔ)語(yǔ)音與西方語(yǔ)言有相似之處,其是一種拼寫(xiě)語(yǔ)音的音素拼音語(yǔ)言,發(fā)音特點(diǎn)有自己獨(dú)特的規(guī)律。藏文有30個(gè)輔音字母,藏文的音節(jié)一般由1~6個(gè)字母組成,藏語(yǔ)主要有3大方言:衛(wèi)藏、康巴、安多[1]。以拉薩為中心向西的高原大部分叫“衛(wèi)藏”;念青唐古拉山至橫斷山以北的藏北,青海,甘南,川西北大草原叫“安多”;“康巴”位于橫斷山區(qū)的大山大河夾峙之中。在3大方言中,衛(wèi)藏和康巴方言有聲調(diào),大量鼻化元音和復(fù)元音,而安多方言沒(méi)有這些特點(diǎn),安多藏語(yǔ)語(yǔ)音的重要特征就是聲母清濁音對(duì)立,復(fù)輔音較多,聲母數(shù)目比衛(wèi)藏和康巴方言多,韻母系統(tǒng)都是單元音,沒(méi)有復(fù)元音韻母[2]。因此,安多方言藏語(yǔ)語(yǔ)音信號(hào)的特征參數(shù)與語(yǔ)音的發(fā)音部位、發(fā)音方法、發(fā)音動(dòng)力和音勢(shì)的強(qiáng)弱等息息相關(guān)。
2 幾種算法存在的問(wèn)題
在語(yǔ)音信號(hào)特征參數(shù)提取中有很多算法,經(jīng)過(guò)多次實(shí)驗(yàn),對(duì)其中LPC法、自相關(guān)法和倒譜法進(jìn)行分析。在實(shí)驗(yàn)中,由于語(yǔ)音樣點(diǎn)之間存在相關(guān)性,LPC分析可以用過(guò)去的樣點(diǎn)值預(yù)測(cè)現(xiàn)在和未來(lái)的樣點(diǎn)值,而采用LPC方法提取藏語(yǔ)語(yǔ)音信號(hào)的特征參數(shù),其算法的運(yùn)算量較大,并且LPC分析中窗長(zhǎng)的選擇不合適會(huì)影響語(yǔ)音信號(hào)特征參數(shù)提取的準(zhǔn)確性;采用CEP分析方法,雖然可以減少算法的運(yùn)算量,但CEP譜只有少部分情況下,基音峰值才會(huì)變得很突出,這也會(huì)使藏語(yǔ)語(yǔ)音基音周期估值的準(zhǔn)確率下降;采用自相關(guān)法,如果窗長(zhǎng)不足夠長(zhǎng),周期數(shù)不足夠多,提取特征參數(shù)會(huì)產(chǎn)生很大的誤差。因此通過(guò)多種方法對(duì)安多藏語(yǔ)語(yǔ)音信號(hào)進(jìn)行多次的實(shí)驗(yàn),解決存在的相關(guān)問(wèn)題,提高特征參數(shù)提取的準(zhǔn)確性,并有效地應(yīng)用于藏語(yǔ)語(yǔ)音識(shí)別中。
3 問(wèn)題的解決
可以采用全極點(diǎn)模型,假設(shè)一個(gè)隨機(jī)過(guò)程用一個(gè)p 階全極點(diǎn)系統(tǒng)受白噪聲激勵(lì)產(chǎn)生的輸出來(lái)模擬,則傳輸函數(shù)為[3]:
[H(z)=S(z)E(z)=G1-k=1pakz-k] (1)
式中:P是預(yù)測(cè)系數(shù);G 聲道濾波器增益;S(z)和E(z)分別為輸出s(n)信號(hào)和輸入信號(hào)e(n)的z變換,那么可以表示為差分方程[3]:
[s(n)=k=1paks(n-k)+G·e(n)] (2)
對(duì)于濁音,激勵(lì)e(n)是基音周期重復(fù)的單位沖激;對(duì)于清音,e(n)是穩(wěn)衡白噪聲。定義線性預(yù)測(cè)器為[3]:
[s(n)=k=1paks(n-k)=G·e(n)] (3)endprint
式(2)表明預(yù)測(cè)誤差序列是s(n)通過(guò)具有如下系統(tǒng)函數(shù)產(chǎn)生的:
[A(z)=1-k=1pakz-k=G·EzS(z)] (4)
式中A(z)也被稱作逆濾波器。由式(4)可得:
[G·E(z)=S(z)·A(z)]
如果將原始語(yǔ)音通過(guò)逆濾波器A(z)進(jìn)行逆濾波,則可獲得預(yù)測(cè)余量信號(hào)[ε(n)](理想情況下[ε(n)=G·e(n)])。理論上講,預(yù)測(cè)余量信號(hào)[ε(n)]中已不包含聲道響應(yīng)信息,但卻包含完整的激勵(lì)信息。對(duì)預(yù)測(cè)余量信號(hào)[ε(n)]進(jìn)行自相關(guān)分析、倒譜分析,將可獲得更為清晰的基音信息。
3.1 LPC?自相關(guān)法
對(duì)輸入藏語(yǔ)語(yǔ)音分幀加窗后,首先對(duì)分幀語(yǔ)音進(jìn)行LPC分析,得到預(yù)測(cè)系數(shù)[ak]并由此構(gòu)成逆濾波器A(z);然后將原分幀語(yǔ)音通過(guò)逆濾波器濾波,獲得預(yù)測(cè)余量信號(hào)[ε(n)];在對(duì)預(yù)測(cè)余量信號(hào)做低通濾波后,將所得信號(hào)作自相關(guān)變換。最終根據(jù)所得自相關(guān)函數(shù)中的基音信息檢測(cè)出藏語(yǔ)基音周期。LPC?自相關(guān)法[3]流程如圖1所示。
3.2 LPC?倒譜法
對(duì)輸入藏語(yǔ)語(yǔ)音分幀加窗后,首先對(duì)分幀語(yǔ)音進(jìn)行LPC分析,得到預(yù)測(cè)系數(shù)[ak]并由此構(gòu)成逆濾波器A(z);然后將原分幀語(yǔ)音通過(guò)逆濾波器濾波,獲得預(yù)測(cè)余量信號(hào)[ε(n)];在對(duì)預(yù)測(cè)余量信號(hào)做DFT、取對(duì)數(shù)后,將所得信號(hào)的高頻分量置零;最后將此信號(hào)作IDFT,得到原信號(hào)的倒譜。最終根據(jù)所得倒譜中的基音信息檢測(cè)出藏語(yǔ)基音周期。LPC?倒譜法[3]流程如圖2所示。
圖1 LPC?自相關(guān)法
圖2 LPC?倒譜法
4 實(shí)驗(yàn)仿真
本文使用單項(xiàng)算法和組合算法進(jìn)行基音周期檢測(cè)分析,基音周期分別使用自相關(guān)法、倒譜法、LPC?自相關(guān)法、LPC?倒譜法4種算法進(jìn)行測(cè)試提取,采用一段藏族男生錄音,采樣頻率為16 kHz。原始語(yǔ)音信號(hào)時(shí)域波形見(jiàn)圖3。
圖3 原始藏語(yǔ)語(yǔ)音信號(hào)時(shí)域波形
5 結(jié)果分析
5.1 準(zhǔn)基音周期的確定
圖4為一幀原始藏語(yǔ)語(yǔ)音信號(hào)s(n)的時(shí)域波形圖,從圖中可看出1幀信號(hào)包括3個(gè)完整的基音周期,且每個(gè)基音周期有細(xì)微差別,在此以3個(gè)基音周期的平均值作為實(shí)際語(yǔ)音的基音周期。[300-523=82.67],即基音周期為82.67個(gè)樣點(diǎn)值,則基音周期為82.67×[116]=5.168 75 ms。
圖4 一幀語(yǔ)音信號(hào)s(n)的時(shí)域波形
5.2 殘差信號(hào)與原始信號(hào)的比較分析
圖5中[ε(n)]為殘差信號(hào),從圖中可看出s(n)的幅度是[ε(n)]幅度的約10倍,但它們的主體波形確有98%的相似,只是相位延時(shí)了4個(gè)樣點(diǎn)值。由此得殘差信號(hào)[ε(n)]的能量要比原信號(hào)s(n)的能量小的多,但殘差信號(hào)確為信號(hào)s(n)的激勵(lì)源。
圖5 語(yǔ)音信號(hào)的殘差信號(hào)[ε(n)]
5.3 自相關(guān)法與LPC?自相關(guān)法的比較分析
圖6為s(n)的自相關(guān)法檢測(cè)結(jié)果,將s(n)進(jìn)行自相關(guān)變換得出。由圖可知P=84,即基音周期為84個(gè)樣點(diǎn)值,則基音周期為84×[116]=5.25 ms。
圖6 自相關(guān)法檢測(cè)分析
圖7為L(zhǎng)PC?自相關(guān)法檢測(cè),對(duì)s(n)的殘差信號(hào)[ε(n)]作自相關(guān)檢測(cè)獲得。由圖可知P=83, 即基音周期為83個(gè)樣點(diǎn)值,則基音周期為83×[116]=5.187 5 ms。由此可得s(n)殘差信號(hào)的自相關(guān)檢測(cè)結(jié)果要比s(n)的直接自相關(guān)檢測(cè)結(jié)果精確的多。
圖7 LPC?自相關(guān)法檢測(cè)分析
5.4 倒譜法與LPC?倒譜法的比較分析
圖8為s(n)的倒譜法檢測(cè),對(duì)s(n)直接進(jìn)行倒譜分析獲得。由圖可知P=84,即基音周期為84個(gè)樣點(diǎn)值,則基音周期為84×[116]=5.25 ms。
圖8 倒譜法檢測(cè)分析
圖9為L(zhǎng)PC?倒譜法檢測(cè), 即對(duì)s(n)的殘差信號(hào)[ε(n)]作倒譜分析獲得。由圖可知P=83, 即基音周期為83個(gè)樣點(diǎn)值,則基音周期為83×[116]=5.187 5 ms。
圖9 LPC?倒譜法檢測(cè)分析
由此可得s(n)殘差信號(hào)的倒譜分析結(jié)果要比s(n)的倒譜分析結(jié)果精確的多。
5.5 LPC?倒譜法與LPC?自相關(guān)法的比較分析
為進(jìn)一步比較LPC?倒譜法與LPC?自相關(guān)法的性能,對(duì)藏語(yǔ)語(yǔ)音錄音進(jìn)行50次實(shí)驗(yàn)。使用2種算法進(jìn)行基音提取,進(jìn)行25次大信噪比藏語(yǔ)語(yǔ)音信號(hào)基音提取和25次小信噪比藏語(yǔ)語(yǔ)音信號(hào)基音提取,并計(jì)算平均相對(duì)誤差。實(shí)驗(yàn)結(jié)果分別見(jiàn)表1和表2。
表1 大信噪比語(yǔ)音信號(hào)平均相對(duì)誤差
表2 小信噪比語(yǔ)音信號(hào)平均相對(duì)誤差
6 結(jié) 語(yǔ)
由以上分析可得,針對(duì)安多藏語(yǔ)語(yǔ)音信號(hào)基音周期的提取,LPC?倒譜法優(yōu)于LPC?自相關(guān)法, LPC?倒譜法更加符合小信噪比藏語(yǔ)語(yǔ)音信號(hào)基音周期的提取,其頑健性更好,準(zhǔn)確性更高,在今后的藏語(yǔ)語(yǔ)音識(shí)別中得到廣泛應(yīng)用。
參考文獻(xiàn)
[1] 頓珠次仁.藏語(yǔ)語(yǔ)音信號(hào)降噪算法研究[J].西藏大學(xué)學(xué)報(bào):自然科學(xué)版,2010,25(2):61?65.
[2] 敏生智,耿顯宗.安多藏語(yǔ)會(huì)話讀本[M].西寧:青海民族出版社,2003.
[3] 趙力.語(yǔ)音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2007.
[4] 李洪波,于洪志.藏語(yǔ)語(yǔ)音識(shí)別的預(yù)處理研究[C]//中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集.北京:中國(guó)中文信息學(xué)會(huì),2006:135?137.
[5] 李勇,于洪志,達(dá)哇彭措.基于關(guān)聯(lián)規(guī)則的藏語(yǔ)語(yǔ)音韻律參數(shù)提取[J].微計(jì)算機(jī)信息,2009(6):255?257.
[6] 姚徐,李永宏,單廣榮,等.藏語(yǔ)孤立詞語(yǔ)音識(shí)別系統(tǒng)[J].西北民族大學(xué)學(xué)報(bào):自然科學(xué)版,2009,30(1):29?36.