摘要:該文提出一種改進(jìn)的在基于Bloomfield模型語音檢測算法,該方法引入數(shù)值濾波器克服了BF模型固有的缺陷。通過實驗分析表明,該方法與傳統(tǒng)方法相比,提高了基音周期提取的準(zhǔn)確性和分辨率,增強(qiáng)了清濁音判決的可靠性。
關(guān)鍵詞:布魯菲爾德模型;數(shù)值濾波;基音檢測;清濁音判決
中圖分類號:TN912文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2009)04-0964-02
A Modified Approach of Pitch Detection Based on Bloomfield Model
WANG Lei, YUE Zhen-jun
(Institute of Communications Engineering, PLA Univ. of Sci. Tech., Nanjing 210007, China)
Abstract: A Modified Approach of Pitch Detection Based on Bloomfield Model was proposed in this paper, and it introduced numerical filter to overcome the inherent flaws of the BF model. The experimental analysis show that the new method has better than that of conventional approach, it may provides a higher accuracy and resolution in speech detection, and improve the reliability of voiced/unvoiced decisions.
Key words: bloomfield model; numerical filter; pitch detection; voiced/unvoiced decision
1 引言
基音周期是語音信號的一個非常重要的特征參數(shù),廣泛地應(yīng)用于語音壓縮編碼、分析合成、語音識別等方面.濁音波形呈現(xiàn)一定的準(zhǔn)周期性.濁音信號的周期稱為基音周期,基音周期的估計稱為基音檢測.基音檢測是語音信號處理中的一個非常重要的問題.但在實現(xiàn)過程中,由于受一系列因素影響,現(xiàn)有的方法在對對象和環(huán)境的適應(yīng)性、準(zhǔn)確性和可靠性方面都或多或少存在不足。
Bloomfield模型有著優(yōu)良的譜估計特性,基于BF模型的基音檢測的方法較傳統(tǒng)的自相關(guān)法相比,提高清、濁音判決率,特別是在處理清、濁音過渡音段改善了基音軌跡,并且其算法簡單、實現(xiàn)容易。本文在文獻(xiàn)[1]的基礎(chǔ)上提出一種改進(jìn)的基音檢測方法,在逆濾波器的前端引入數(shù)值濾波器,增強(qiáng)了濁音語音信號周期性,克服純BF模型無法改進(jìn)基音半頻錯誤的缺點。仿真結(jié)果表明,與基于Bloomfield模型法相比,該方法提高了清、濁音判決率,對清、濁音過渡段的基音判別更為準(zhǔn)確。
2 語音信號的BF模型[2]及其參數(shù)估計
設(shè)X1,X2,…,XN為某語音序列Xt的N個樣本,對它進(jìn)行BF模型預(yù)測擬合,也就是估計參數(shù)γ1, γ2,…, γp,ρ2,當(dāng)階p已知時,可計算出{Xj}1N的周期圖:
(1)
γj的估計為:
(2)
其中N0=[(N-1)/2],而ρ2的估計可取為:
(3)
其中0.57722為尤拉常數(shù)。如果p未知,則可以極小化:
(4)
極小點S0可作為階的一個估計。
3 改進(jìn)的Bloomfield模型的基音檢測
首先對原始信號進(jìn)行分幀等預(yù)處理。將處理后的各幀信號進(jìn)一個800Hz的低通濾波器,濾波的語音信號,去除第三和第四個高頻共振峰及高頻噪聲,將低通濾波后信號送入數(shù)值濾波器,突出濁音語音信號的周期性。由短時自相關(guān)函數(shù)的定義可知,對于準(zhǔn)周期信號,短時自相關(guān)函數(shù)在基音周期的各個整數(shù)倍點上有很大的峰值。再通過基于BF模型的逆濾波器,對信號進(jìn)行自相關(guān)運(yùn)算,求出每幀信號的自相關(guān)函數(shù)R(n),并找出除零點以外的自相關(guān)函數(shù)第一最大峰值點[3],該峰值所在位置即對應(yīng)本幀信號的基音周期。然后對已經(jīng)求出的自相關(guān)函數(shù)進(jìn)行再次運(yùn)算,求出Rmax/R(0),其中Rmax為自相關(guān)函數(shù)除零點外的峰值,根據(jù)判決準(zhǔn)則得出清、濁判決結(jié)果。根據(jù)判決結(jié)果,若為濁音則輸出基音周期,若為清音則將基音周期置零輸出。圖1為基音檢測算法流程圖。
1)去均值處理:信號均值相當(dāng)于一個直流分量,會在頻譜處出現(xiàn)一個沖激,并影響其左右的頻譜形狀,產(chǎn)生較大誤差。原始語音信號通常其均值μ不為零或附帶有低頻噪,必須去掉。
2)語音分幀:觀察時間縮短到十毫秒或幾十毫秒,語言信號認(rèn)為是近似平穩(wěn)的,這是由于人的發(fā)音器官不可能是毫無規(guī)律地快速變化的。每個短時的語音段稱為一個分析幀,對該分析幀進(jìn)行處理就相當(dāng)于對固定特性的持續(xù)語音進(jìn)行處理。本文部分實驗中的幀長為30ms。分析幀既可以是連續(xù)的,也可以采用交疊分幀的方式,采用幀間交混疊是為了解決時域、頻域?qū)L選擇的不同要求而采取的措施。
3)低通濾波:為減少高頻共振峰和外來高頻噪聲的影響,對去均值的語音信號進(jìn)行800Hz低通濾波,這個低通濾波器可以去除大部分共振峰的影響,又可以當(dāng)基音頻率為最高500Hz時,仍能保留其一二次諧波。依據(jù)雙線性變換法[4,5]設(shè)計的800Hz 5階橢圓低通濾波器傳遞函數(shù)為:
(5)
4)數(shù)值濾波的確定:傳統(tǒng)的BF模型在經(jīng)過低通濾波器就直接級聯(lián)逆濾波器的,語音信號的共振峰結(jié)構(gòu)并沒有被破壞,因而共振峰對于基音檢測的結(jié)果影響也沒有被減弱,所以對于處理信號中的倍頻、半頻現(xiàn)象沒有起到一定的抑制作用,產(chǎn)生了錯誤基音估計。實驗發(fā)現(xiàn),若低通濾波器之后級聯(lián)一個寬度N=9的數(shù)值濾波器,第一共振峰幅度已衰減到小于一二次諧波幅度,因而去除了共振峰的影響。突出了濁音語音信號的周期性,使基音估計可靠。數(shù)值濾波器的傳遞函數(shù)為:
(6)
5)逆濾波器的確定:基于BF模型的基音檢測算法中的逆濾波器形式為:
(7)
其中,濾波器的系數(shù)ai為BF模型參數(shù)γ1…γp的變換形式,p為模型階。p確定時,該模型的參數(shù)γj,j=1…p對于特定的信號來說也是確定的。一般來說,逆濾波器的確定準(zhǔn)則要求濾波器輸出與原信號的誤差平方和最小,實驗顯示階p為3時,其誤差平方和值最小。
由于BF模型構(gòu)造的逆濾波器強(qiáng)化了濁音信號的周期性結(jié)構(gòu),經(jīng)過該濾波器后的濁音部分的周期性更加規(guī)則,信號的阻尼正弦波形的包絡(luò)更加平滑,使得語音信號的周期性進(jìn)一步增強(qiáng),更有利于基音檢測
圖2—圖5實驗過程給出了一典型幀語音波形的比較,其中圖2為原始語音波形,圖3為去均值分幀后的一段語音信號的語音波形,圖4為低通濾波的語音波形。為方便觀察,選取一幀開始比較。圖5分別對數(shù)值,逆濾波從波形中可以看到,由經(jīng)數(shù)值濾波后能夠很好地突出濁音信號的周期性結(jié)構(gòu),經(jīng)過該濾波器后的濁音部分的周期性更加規(guī)則。Bloomfield模型構(gòu)造的逆濾波器而的語音波形則顯現(xiàn)出了更強(qiáng)的周期性,信號的阻尼正弦波形的包絡(luò)更加平滑,使得語音信號的周期性進(jìn)一步增強(qiáng)。
圖2 原始語音信號圖3 去均值分幀后的一段語音信號
圖4 低通濾波后的語音信號圖5經(jīng)過數(shù)值和逆濾波后的波形
6)清濁音判決:濁音信號是一種穩(wěn)定的準(zhǔn)周期信號,輕音信號則沒有周期性,呈現(xiàn)出不規(guī)則狀態(tài)。本文沿用了文獻(xiàn)[6]的清、濁音判決方法,該方法不同于傳統(tǒng)的依賴于信號自身能量的判決方法,它注重濁音信號準(zhǔn)周期性的特點,有效排除了沒有平穩(wěn)結(jié)構(gòu)的輕音部分,較為準(zhǔn)確地。對弱濁音進(jìn)行判決。另外該方法在對單個幀進(jìn)行判決時客觀地參考了前后兩幀的判決結(jié)果,盡量減少由于偶然原因?qū)е碌那?、濁音誤判現(xiàn)象。圖6為清、濁音判決算法的流程圖。
圖6 清、濁音判決算法 圖7 自相關(guān)函數(shù)的圖形
圖7為自相關(guān)函數(shù)的圖形,可以看出第一個峰值大約出現(xiàn)在49的滯后點。
4 實驗結(jié)論與評價
選取一段女聲語音。段語音包含明顯的清、濁過渡信號以及弱濁音信號,比較具有代表性。本文實驗所使用的語音是8 kHz抽樣率,16 bit量化精度,并按幀長30ms,取18000個樣點數(shù),即每幀長240個樣本點。
與[1] 中基音檢測準(zhǔn)確性和計算復(fù)雜度比較。基音檢測準(zhǔn)確性由清濁音判決錯誤率(DER):錯誤判斷基頻存在與否的幀數(shù)在語音總幀數(shù)的百分比判定,計算復(fù)雜度由處理相同幀所用時間來度量。實驗選用了20講話人(男女各半)的語音樣本,標(biāo)準(zhǔn)基頻通過手工測量計算獲得。從表中可以看出,本文采用的基音檢測方法的清濁判決錯誤率DER遠(yuǎn)小于傳統(tǒng)自相關(guān)法的錯誤判決率,這說明新方法判別信號周期性的性能更好。
從表1可以看出,較傳統(tǒng)的自相關(guān)法而言,利用新方法提取的基音頻率所合成的語音與原始語音的誤差值普遍較小,從而進(jìn)一步證明了改進(jìn)的基音檢測方法在檢測結(jié)果上比純BF方法有了一定程度的提高。而其計算復(fù)雜度要比原方法大,這也是其不足之處。
參考文獻(xiàn):
[1] 趙小陽,李順華,岳振軍,等.基于Bloomfield 模型的基音檢測方法[J].軍事通信技術(shù),2006,27(4):10-13.
[2] 岳振軍,曹祖平,陳浩球.一類無窮階線形時序模型[J].東南大學(xué)學(xué)報,1994,24(2):54-59.
[3] 趙曉群,劉穎娜,武睿.基于形態(tài)濾波的基音檢測新方法[J].通信學(xué)報,2004,25(5):53-58.
[4] Zverev A I. Handbook of Filter Synthesis[M]. New York:wiley,1967.
[5] Jackson L B. Digital Filters and Signal Processing[M].Springer,1986.
[6] Markel J D. The SIFT algorithm for fundamental frequency estimation[J]. IEEE Trans. Audio Electroacoust,1972,20(8):365-376.