摘要在語音質(zhì)量評價(jià)方法中,與PESQ(語音質(zhì)量感知評價(jià))相比,Mel-CD失真測度計(jì)算量較小,是一種簡便有效的評價(jià)方法。但在某些情況下MFCC未能有效地表現(xiàn)出語音質(zhì)量的真實(shí)情況。針對這種問題,提出了一種新的改進(jìn)算法——美爾Gammatone濾波倒譜系數(shù)。利用Gammatone濾波器組對基底膜進(jìn)行仿真的方法,代替Mel譜中的三角濾波器,提高與主觀評測的相似度,降低對于共振峰的頻移敏感度, 增強(qiáng)了客觀測度在噪聲環(huán)境中提取共振峰參數(shù)的能力。實(shí)驗(yàn)表明,所提算法能有效提高與MOS值的相似度。
關(guān)鍵詞語音質(zhì)量評價(jià) 美爾倒譜 Gammatone濾波
中圖分類號:TN912.3文獻(xiàn)標(biāo)識碼:A
語音質(zhì)量就是指復(fù)制語音的保真度和可理解性,即從對話中提取信息的能力。在通信系統(tǒng)的語音交流系統(tǒng)中,評價(jià)系統(tǒng)性能優(yōu)劣的一個(gè)重要指標(biāo)就是系統(tǒng)傳輸語音的質(zhì)量。為了適應(yīng)通信技術(shù)和服務(wù)發(fā)展的要求,研究靈活、可靠、準(zhǔn)確的語音質(zhì)量評價(jià)系統(tǒng)成為國內(nèi)外學(xué)者努力的目標(biāo)。
國際通行的測量移動通信系統(tǒng)語音質(zhì)量的手段主要有兩種:主觀MOS評價(jià)和客觀評價(jià)。主觀MOS評價(jià)采用ITU-TP.800和P.830建議書,主觀評定成績是語音質(zhì)量最真實(shí)的反映,但不能通過儀表測量得出,測試環(huán)境比較難于構(gòu)建。為了彌補(bǔ)主觀評價(jià)的不足之處,用機(jī)器自動評價(jià)語音質(zhì)量的客觀評價(jià)方法應(yīng)運(yùn)而生。雖然從20世紀(jì)40年代起就開始客觀評價(jià)研究的探索,但直到20世紀(jì)80年代以后,隨著聽覺生理和聽覺心理方面的研究成果逐步應(yīng)用到客觀評價(jià)中,客觀評價(jià)方面的工作才取得突破。
Mel是心理聲學(xué)中音調(diào)的計(jì)量單位。Kubichek將Mel倒譜系數(shù)(Mel frequency cesptral coefficient, MFCC)作為語音特征參數(shù)應(yīng)用于客觀評價(jià),提出Mel-CD測度。與PESQ(語音質(zhì)量感知評價(jià))相比,Mel-CD失真測度計(jì)算量較小,是一種簡便有效的評價(jià)方法。MFCC考慮了人耳對頻率的非線性感知特性,但MFCC本身是同態(tài)解卷積的處理,將其作為語音質(zhì)量客觀評價(jià)中的語音特征描述時(shí)并沒有很好地符合聽覺生理模型以及感知特性。但是,由于在MFCC特征提取方法中,由于通常采用三角形濾波器組進(jìn)行頻域?yàn)V波,相鄰頻帶之間的頻譜能量相互泄露很嚴(yán)重,對于反映共振特性是不利的,而且其頻帶的劃分是基于中心頻率按Mel刻度均勻分布,也不完全符合聽覺特性中臨界帶的概念。
針對Mel-CD存在的問題,本文根據(jù)心理聲學(xué)原理,基于語音頻率和強(qiáng)度非線性感知特性,應(yīng)用Johannesma提出的Gammatone濾波器提取語音特征參數(shù),得到一種新的基于Gammatone濾波的美爾倒譜失真測度,為方便描述,本文將這種測度的譜特征記為美爾Gammatone濾波倒譜系數(shù)(Mel frequency Gammatone filter banks Cesptral Coefficient,MGCC)。并以MGCC作為特征參數(shù)得到一種新的語音質(zhì)量客觀評價(jià)方法——美爾Gammatone濾波倒譜失真測度(Mel Gammatone filter banks Cepstral Distance measure, MG-CD)。
1 美爾倒譜系數(shù)
典型的基于輸入-輸出的語音質(zhì)量客觀評價(jià)主要由語音信號預(yù)處理、特征參數(shù)計(jì)算、失真計(jì)算/判斷模型三部分組成,如圖1所示。核心部分在于特征參數(shù)計(jì)算、失真計(jì)算及判斷模型,不同的客觀測度主要區(qū)別在于這兩個(gè)部分。
音調(diào)是聽覺分辨聲音高低時(shí),用于描述這種感覺的一種特性,客觀上用頻率表示音調(diào),主觀上音調(diào)的單位用Mel標(biāo)度。
Mel-CD是建立在人對聲音信號頻率所產(chǎn)生音調(diào)感知特性的基礎(chǔ)上,對語音信號提取Mel域上的特征描述,得到失真量計(jì)算所需要的特征參數(shù),通過合適的判斷模型,將失真量與MOS值相對應(yīng)。MFCC的實(shí)現(xiàn)流程如圖1所示。
圖1 美爾倒譜系數(shù)計(jì)算
其中,圖1中的頻率彎折、濾波和log|*|和DCT單元為Mel域上語音感知功能的實(shí)現(xiàn),是MFCC計(jì)算中的核心部分。
2 基于Gammatone濾波的美爾倒譜失真測度
Mel-CD算法中所采用的MFCC考慮了人耳對頻率的非線性感知特性,但MFCC本身是同態(tài)解卷積的處理,將其作為語音質(zhì)量客觀評價(jià)中的語音特征描述時(shí)并沒有很好地符合聽覺生理模型以及感知特性,并且在MFCC特征提取方法中,由于通常采用三角形濾波器組進(jìn)行頻域?yàn)V波,相鄰頻帶之間的頻譜能量相互泄露很嚴(yán)重,對于反映共振特性是不利的,而且其頻帶的劃分是基于中心頻率按Mel刻度均勻分布,也不完全符合聽覺特性中臨界帶的概念。
本文采用的MCCG的提取也采用圖1所示算法框架,但在算法的具體處理方法上則對MFCC的提取過程進(jìn)行了針對性的改變。
基于Gammatone濾波的美爾倒譜系數(shù)的具體計(jì)算過程描述如下:
(1)時(shí)頻變換。
對經(jīng)過預(yù)處理后的第幀語音幀做FFT變換獲得頻譜,并計(jì)算短時(shí)能量譜。
(2) 模擬頻率感知的非線性特性。
按式(1),完成從頻率坐標(biāo)到 Mel尺度坐標(biāo)的變換.
(1)
式(1)描述了音調(diào)的 Mel尺度與聲音的物理頻率之間的關(guān)系,其中的單位為 Hz。
(3)模擬基底膜上的頻率響應(yīng)特性。
由于MFCC中通常采用三角形濾波器組進(jìn)行頻域?yàn)V波,相鄰頻帶之間的頻譜能量相互泄露很嚴(yán)重,對于反映共振特性是不利的。對此,本文采用Johannesma提出的Gammatone濾波器來替代MFCC中的三角形濾波器。Gammatone濾波器只需要很少的參數(shù)就能很好地模擬聽覺實(shí)驗(yàn)中的生理數(shù)據(jù),能夠體現(xiàn)基底膜尖銳的濾波特性。
Gammatone濾波器用一個(gè)因果的沖激響應(yīng)函數(shù)Gammatone函數(shù)來描述其濾波器特性,這個(gè)沖激函數(shù)最早用以描述貓的聽神經(jīng)的生理學(xué)沖激響應(yīng)數(shù)據(jù)的特性。Gammatone函數(shù)的時(shí)域表達(dá)式為:
(2)
其中:t<0時(shí)u(t)=0,t>0時(shí)u(t)=1;參數(shù),為Gammatone濾波器的等價(jià)矩形帶寬(等價(jià)矩形帶寬:對于同樣的白噪聲輸入,和指定的濾波器通過一樣能量的矩形濾波器的寬度,簡稱ERB),它同Gammatone濾波器中心頻率的關(guān)系是,參數(shù)是為了讓Gammatone函數(shù)更好地與生理數(shù)據(jù)相符而引入的參數(shù);n為Gammatone濾波器的階數(shù),各種研究表明,n=4的Gammatone濾波器就能很好地模擬基底膜的濾波特性;參數(shù)為Gammatone濾波器的初始相位。
由于Gammatone函數(shù)為沖激響應(yīng)函數(shù),因此直接將Gammatone函數(shù)進(jìn)行Fourier變換,即可得到Gammatone濾波器的頻率響應(yīng)特性。不同中心頻率下的4階Gammatone函數(shù)的時(shí)域波形如圖2(a)所示,對應(yīng)的幅頻響應(yīng)曲線如圖2(b)所示。其中圖2(a)的虛線表示Gammatone函數(shù)的包絡(luò),的值表示t=0到振動包絡(luò)達(dá)到最大值所需要的時(shí)間;圖2(b)的幅頻響應(yīng)曲線采用的是對數(shù)頻率橫坐標(biāo)。
(a) Gammatone函數(shù)的時(shí)域波形
(b) Gammatone函數(shù)的幅頻曲線
圖2 不同中心頻率下的Gammatone函數(shù)時(shí)域波形和幅頻響應(yīng)曲線
觀察圖2(b)可發(fā)現(xiàn)Gammatone函數(shù)的幅頻響應(yīng)曲線具有以下特征:Gammatone函數(shù)是一個(gè)最大幅度出現(xiàn)在中心頻率位置的帶通濾波器,不同中心頻率的Gammatone濾波器具有不同的帶寬;帶通濾波器中心頻率兩側(cè)都具有較陡的邊沿,表明Gammatone濾波器具有尖銳的頻率選擇特性。這些幅頻響應(yīng)特征與基底膜的濾波特性是一致的。更加集中了臨界帶中心頻率附近的語音特征,而且兩邊過渡圓滑。不同的人在發(fā)同一音時(shí),頻譜結(jié)構(gòu)的差異主要表現(xiàn)在共振峰的偏移。采用上述濾波器就有效地補(bǔ)償了這種偏移對話音特征提取的影響,從而增強(qiáng)了其在提取非特定人語音特征時(shí)的頑健性。臨界帶濾波器組中心頻率和帶寬的選擇,
(4) 強(qiáng)度-響度變換模擬。
為使變換函數(shù)既符合聽覺感知特性,對濾波器組輸出進(jìn)行求對數(shù)處理:
(4)
(5) 去相關(guān)
對做離散余弦變換DCT(Discrete Cosine Transform),最終得到美爾譜系數(shù):
(5)
式中, 表示系數(shù)的第階,,一般取 12~15。
經(jīng)過DCT處理后,各個(gè)系數(shù)分量之間不具有相關(guān)性,有利于提高客觀評價(jià)的準(zhǔn)確性和可靠性。
在MGCC特征的實(shí)現(xiàn)過程中,(2),(3)和(4)分別實(shí)現(xiàn)了頻率彎折、帶通濾波和非線性壓縮變換的功能。因此,所得到的MGCC是符合聽覺感知分析的語音特征參數(shù)。
3 實(shí)驗(yàn)與結(jié)果
為了檢驗(yàn)改進(jìn)后算法的性能,本文將MGCC特征參數(shù)取代Mel-CD測度中的MFCC,本文將這種測度方法記為MG-CD。實(shí)驗(yàn)通過將PESQ,Mel-CD和MG-CD用于不同干擾條件下通信系統(tǒng)的語音質(zhì)量的客觀評價(jià),并比較3種客觀評價(jià)的性能。實(shí)驗(yàn)中所使用的原始語音材料為MOS測試用語音數(shù)據(jù)庫(軍用標(biāo)準(zhǔn) SJ 208522 2002)中的語音文件。
實(shí)驗(yàn)中的主觀評價(jià)MOS值則按音質(zhì)MOS評價(jià)法(軍用標(biāo)準(zhǔn) SJ 207712 2000)由一組聽評者給出。失真條件由無線通信中不同調(diào)制方式、不同干擾樣式及不同程度干信比條件決定,共6組測試??陀^評價(jià)的性能一般以客觀 MOS值與主觀 MOS值之間的相關(guān)程度和預(yù)測誤差衡量。主客觀評價(jià)的相關(guān)性采用 Pearson相關(guān)系數(shù)描述,如式 (7)所示,相關(guān)系數(shù)越接近 1,客觀評價(jià)估計(jì)語音質(zhì)量的準(zhǔn)確性越高。
(7)
式中:為某一段原始語音信號在第種實(shí)驗(yàn)條件(噪聲、時(shí)延、誤碼等) 下的MOS;為客觀評分;和分別為二者的算術(shù)平均值。M是數(shù)據(jù)點(diǎn)的數(shù)目。
預(yù)測誤差用標(biāo)準(zhǔn)估計(jì)偏差表示,見式(8)所定義。越小,反映預(yù)測偏差越小,客觀評價(jià)測度的波動越小。
(8)
在不同調(diào)制方式、不同干擾樣式及不同(下轉(zhuǎn)第167頁)(上接第164頁)程度信干比的無線通信測試環(huán)境下進(jìn)行6 組評測實(shí)驗(yàn),并將評分結(jié)果與已知主觀MOS評分值代入式(7) 進(jìn)行計(jì)算,得到PESQ 、Mel-CD和MG-CD與客觀評分的相關(guān)度r,結(jié)果如圖3 所示。
圖3 PESQ,Mel-CD和 MG-CD實(shí)驗(yàn)相關(guān)度比較
從圖3中可以看出,在6組測試中MG-CD的主客觀相關(guān)值一直大于0.9,最高達(dá)0.968,最低為0.905左右,現(xiàn)出相當(dāng)高的評價(jià)準(zhǔn)確性。
表1是它們各自的相關(guān)系數(shù)及標(biāo)準(zhǔn)偏差。從相關(guān)系數(shù)可以看出,MG-CD在與主觀聽覺感知的吻合性上, 高于Mel譜失真測度。其次,MG-CD的標(biāo)準(zhǔn)偏差在這三者中是最小的,這就證實(shí)了提出的MG-CD所采用的Gammatone濾波器所具有的對語音譜結(jié)構(gòu)的差異不敏感的分析。
表1 評價(jià)實(shí)驗(yàn)的平均主客觀相關(guān)值和平均估計(jì)偏差
4 結(jié)論
本文針對Mel-CD中采用的MFCC用于語音質(zhì)量客觀評價(jià)時(shí)出現(xiàn)的問題,提出一種改進(jìn)算法MGCC,在Mel進(jìn)行語音特征參數(shù)提取時(shí)使用Gammatone濾波器來代替美爾倒譜系數(shù)提取過程中的三角濾波器。通過實(shí)驗(yàn)驗(yàn)證,該算法降低由于采用三角濾波器而造成對共振峰的頻移的敏感性,與PESQ和Mel-CD相比有更高的平均主客觀相關(guān)值,相似度更高,能更好地反映語音信號在人耳中的變換特性及聽覺心理的感知特性。
參考文獻(xiàn)
[1]陳國,胡修林,張?zhí)N玉等. 語音質(zhì)量客觀評價(jià)方法研究進(jìn)展[J]. 電子學(xué)報(bào),2001.9(5).
[2] Mean Opinion Score(MOS)terminology ITU-T Recommendation P.800.1 July, 2007
[3] DavissB,MermelsteinP. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences [J]. IEEE Trans. on Acoust, Speech, Sign- al Processing,1980,28(4):3572336.
[4] KUB ICHEK R. Mel-cepstral distance measure for objective speech quail- ty assessment[C], Proc.IEEE Pacific Rim Conference on Communi- cations, Computers, and Signal Pro- cessing. Piscataway: IEEE Press,1993:125~128
[5] ITU2T Rec. P. 862 O2001 , Perceptual evaluation of speech quality( PESQ) : an objective method for end-to-end speech quality assessment of narro- wwband telephone networks and speech codec[S]
[6] Johannesma PIM. The pre-response stimulus ensemble of neurons in the cochlear nucleus[C]// Proc of the Symposium on Hearing Theory. Eind- hoven, Netherlands:IPO, 1972:58~69.
[7] 趙力. 語音信號處理[M]. 北京:機(jī)械工業(yè)出版社,2003:54.
[8] Glasberg BR, Moore BCJ. Derivation of auditory filter shapes from notched noise data [J].Hearing Res- earch,1990,47(1):103-108