師宏慧, 李昊璇, 喬曉艷
(山西大學 物理電子工程學院, 山西 太原 030006)
?
基于殘差信號諧波和的聲門波提取
師宏慧, 李昊璇, 喬曉艷
(山西大學 物理電子工程學院, 山西 太原 030006)
摘要:為了獲取高自然度和高精度的聲門波, 將殘差信號諧波和(SRH)應用到聲門波的提取算法中. 首先, 設計了一種基于小波變換結合SRH的清濁音判別算法W-SRH; 然后, 提出了一種基于SRH的基音同步迭代自適應逆濾波方法SRH-PSIAIF, 提取激勵源聲門波. 結果表明采用W-SRH方法對清濁音的判別準確率更高, 采用SRH-PSIAIF算法提取的聲門波自然度較高. 該研究為情感語音聲門波的分析以及情感語音合成奠定了良好基礎.
關鍵詞:聲門波; 清濁音判別; 小波變換; 殘差信號諧波和; PSIAIF
0引言
為了獲取高自然度和高精度的聲門波, 需要對采集到的語音信號進行清濁音地判別, 并去除不必要的無聲段和清音段. 目前, 判別清濁音方法雖然很多, 但判別效果不是很理想. 傳統(tǒng)的判別方法基于短時能量和短時平均過零率[1], 但該方法清濁音交疊率很大, 會造成較多的誤判, 尤其在一些需要精確研究濁音的實驗中, 會造成一定的損失[2]. 為此, 學者們做了很多改進, 譚麗等設計了一種基于參數(shù)組合的方法對語音信號進行清濁音判別[2]; 胡瑛等在小波域上用Teager能量算子對語音信號進行了清濁音的判別[3]; Thomas Drugman等用SRH算法對語音信號進行了清濁音判別[4], 使清濁音的判別率得到了較大提高. 然而, 在漢語語音特別是情感語音中, 有的清塞音如“k”無周期性, 短時能量以及過零率與濁音段無異, 采用小波變換的清濁音判別算法時, 會將這部分語音判別為濁音, 這種誤判會使提取的濁音信號不太純凈, 對后期的研究造成一定的干擾. SRH算法對這類清塞音的判別率很高, 因此本文設計了一種小波變換結合SRH的清濁音判別算法即W-SRH, 對清濁音的判別具有很高的精準度.
準確提取出一段語音中的濁音信號后, 可以進一步獲取濁音信號的激勵聲門波. 目前比較常用的獲得聲門波的辦法是逆濾波方法, Wong等提出了最小平方相位聲門逆濾波方法[5], Alku提出了迭代自適應逆濾波方法(IAIF), 隨后Alku又提出了基音同步迭代自適應逆濾波方法(PSIAIF)[6], 這些方法都可以進行聲門波的估計, 其基本思想都是逆濾波. 然而, 這些方法都有不足之處, 最小平方相位聲門逆濾波方法只有在聲門波有比較長的閉合相位時效果才好, IAIF算法中用線性預測分析(LPC)對聲道共振峰進行估計時會受到聲源諧波成分的影響, 從而使估計結果不準確[6]. 為了避免這些缺陷, 本文采用PSIAIF算法, 并且在基音同步分析中, 我們采用精確度高并且魯棒性也很強的SRH方法進行基音同步標注, 實現(xiàn)了一種基于SRH的基音同步迭代自適應算法(SRH-PSIAIF). 實驗結果表明該算法提取的聲門波自然度較高.
1算法基本理論
1.1小波變換分析
一般濁音的低頻幅度比清音部分的低頻幅度明顯要高很多[3], 利用這個特征對清濁音判別的準確度較高. 采用時頻分析方法提取語音信號的低頻成分可以進行清濁音的判別, 而小波變換是一種很好的時頻分析方法, 它具有多分辨率、 多尺度的特點. 小波變換定義為:
(1)
時, 稱ψ(t)為一個基本小波或母小波. 將母函數(shù)ψ(t)經伸縮和平移后得
(2)
式中:a為伸縮因子;b為平移因子. 對于任意信號f(t)∈L2(R)的連續(xù)小波, 可變換為
(3)
連續(xù)小波逆變換公式為
(4)
在本實驗中, 需要計算小波變換后低頻重構信號的短時能量, 短時能量定義為
(5)
式中:En表示在信號的第n個點開始加窗函數(shù)時的短時能量;x(n)是重構信號;w(n)是窗函數(shù);N為窗長.
1.2逆濾波原理
如圖 1 所示, 語音信號的產生模型包括3個部分:激勵源模型、 聲道模型和輻射模型[7]. 根據(jù)這個模型, 語音信號S(t)的Z變換S(z)可以用一個統(tǒng)一的公式來計算, 即
(6)
在濁音的情況下,E(z)是一周期沖擊序列的Z變換, 且A=AV,H(z)=G(z)V(z)R(z); 在清音的情況下,E(z)則是一個隨機噪聲的Z變換, 且A=Au,H(z)=V(z)R(z).
圖 1 語音信號產生模型Fig.1 The model of speech signal
逆濾波可以看作是語音產生的逆過程, 設計一個傳輸函數(shù)等于聲道濾波器倒數(shù)的逆濾波器, 然后用該濾波器對語音信號進行濾波, 即在語音信號中消除聲道的影響, 最終得到聲源信號的估計. 通常進行逆濾波處理的語音信號可以是口腔氣流信號, 也可以是語音聲壓信號, 兩者的區(qū)別在于口腔氣流信號沒有唇輻射的影響, 而聲壓信號是經過唇輻射后的信號, 唇輻射相當于一個一階微分濾波器, 所以, 兩者經過逆濾波后分別得到聲門波和聲門波的微分波形[8]. 影響逆濾波后聲門波質量的因素主要是共振峰波紋, 這是因為沒有將聲道共振峰完全濾除. 從波形上, 理想的聲門波比較平滑, 沒有波紋, 而質量不好的聲門波有共振峰波紋.
1.3殘差信號諧波和(SRH)
SRH算法依賴于分析語音信號的殘差信號, 首先從語音信號的頻譜包絡中估計出聲道模型的自回歸模型, 殘差信號可以將語音信號從傳輸函數(shù)為聲道模型倒數(shù)的濾波器逆濾波得到. 對得到的殘差信號e(n)進行傅里葉變換即可得到殘差信號的頻譜E(f). 對于每個范圍在[F0,min,F0,max]的基頻F0,SRH可以由式(7)計算[4]
(7)
2算法仿真實現(xiàn)
2.1W-SRH清濁音判別算法實現(xiàn)
圖 2 W-SRH算法實現(xiàn)框圖Fig.2 Implementation block diagram of W-SRH algorithm
清濁音的判別算法實現(xiàn)框圖如圖 2 所示, 其實現(xiàn)步驟如下:
1) 采集語音信號并對采集到的信號進行預處理, 包括消噪、 預加重、 分幀和加窗等;
2) 對預處理信號進行小波分解, 并用低頻系數(shù)對信號進行重構, 將重構的信號分幀加窗, 并根據(jù)式(5)計算每幀重構信號的短時能量En, 設置一個閾值T1, 當En 3) 對2)中得到的濁音信號分幀加窗, 并根據(jù)式(7) 計算每幀信號的諧波能量和Wn, 設置一個閾值T2, 當Wn 2.2SRH-PSIAIF算法實現(xiàn) 2.2.1迭代自適應逆濾波(IAIF)算法 迭代自適應逆濾波(IAIF)算法的基本思想是從原始語音的頻譜中消除聲門激勵的影響[7], 然后通過線性預測的方法(LPC)精確估計出聲道的模型, 最后通過逆濾波得到聲門波信號. 這個算法的精髓就是對聲門激勵的估計和對聲道傳輸函數(shù)的估計都進行了兩次[10], 使得到的聲門波更加精確, 具體實現(xiàn)流程如圖 3 所示, 其中E1,E2是聲門波LPC參數(shù)估計,H1,H2是聲道LPC參數(shù)估計. 2.2.2 SRH-PSIAIF 圖 4 SRH-PSIAIF算法實現(xiàn)框圖Fig.4 Implementation block diagram of SRH-PSIAIF algorithm SRH-PSIAIF的算法流程圖如圖 4 所示. 首先, 將采集到的信號進行高通濾波, 將濾波后的信號輸入到IAIF-1模塊中可以得到聲源信號g(n), 用SRH算法對聲源信號g(n)進行基頻檢測得到語音信號的基音周期長度值M; 然后, 在聲源信號g(n)上選取聲門脈沖的峰值作為基音同步位置, 位置提取規(guī)則:Ni為[Ni-1+0.5M,Ni-1+1.5M]區(qū)間中聲源信號g(n)波形幅度最大的時刻; 最后, 根據(jù)基音同步位置對高通濾波后的信號選擇基音整數(shù)倍的信號輸入到IAIF-2模塊, 該模塊的輸出為對聲源信號的最終估計[6]. 3結果與分析 3.1清濁音判別結果 在本次實驗中, 以“孫英開飛機”這句語音為例進行清濁音地判別, 這句語音以16 kHz采樣、 16 bits 量化, 判別出的濁音信號值為1, 清音信號和無聲段值為0. 實驗中以20 ms為一幀, 幀疊為10 ms, 分別采用小波變換分析、 SRH算法和W-SRH算法對這句語音進行清濁音判別, 實驗結果如圖 5 所示, (a)為“孫英開飛機”時域圖, (b)為小波變換判別結果, (c)為SRH判別結果, (d)為W-SRH判別結果. 圖 5 清濁音判別結果Fig.5 Voice/unvoiced determination result 由圖 5 可以看出, 小波變換分析算法可以很精確提取出濁音信號, 但對一些清塞音的判別結果卻不是很理想, 如“孫英開飛機”中的“k”這個音, 小波變換分析算法將它誤判為濁音, 這是因為在漢語語音的清塞音中有很大的低頻成分, 所以會被誤判. 相對而言, SRH算法可以很精確的去除清音, 包括不易判別的清塞音, 但在幀長較短的情況下, 會將部分濁音誤判為清音, 幀長較長的時候可以很好的判別出濁音, 但部分清音(不包括清塞音)也被判別為濁音. 由此可以看出, 單獨使用這兩種算法得到的結果并不理想, 而我們設計的W-SRH算法充分結合了這兩種算法的優(yōu)點, 能夠精確的將清濁音分開. 在W-SRH算法中, 小波變換使用較短的幀長, 閾值設置為5, 而SRH算法使用較長的幀(30 ms~40 ms), 閾值設置為0.075. 圖 6 聲門波提取結果Fig.6 The glottal waveform extraction result 3.2聲門波提取結果 在本實驗中, 采用的是語音聲壓信號, 根據(jù)SRH-PSIAIF算法, 對提取出的濁音信號進行逆濾波得到聲門波, 聲門波經過一階微分即可得到聲門波微分波形. 采用8 kHz采樣的語音信號進行聲門波地提取, 根據(jù)語音編碼標準算法中線性預測模型的階數(shù)來確定逆濾波的階數(shù), 對于8 kHz采樣的語音信號, 選用10到12階的濾波器進行LPC估計. 根據(jù)大量的實驗發(fā)現(xiàn), 采用10階濾波器對聲道參數(shù)進行估計效果最佳. 對聲門波以及聲門微分波形的提取結果如圖 6 所示. 如圖 6 中(a)是一幀語音信號的時域圖, (b)是這幀語音的聲門波提取結果, (c)是這幀語音的聲門波微分波形. 由圖可以看出:用SRH-PSIAIF提取出的聲門波波形很平滑, 沒有波紋, 說明能夠有效將聲道共振峰濾除完全, 聲門波自然度較高. 4結論 本文設計了一種小波變換結合SRH的清濁音判別算法W-SRH, 實驗結果表明其比直接采用小波變換或者SRH算法進行清濁音的判別效果要好. 此外, 還設計了基于SRH的基音同步迭代自適應逆濾波算法SRH-PSIAIF, 用此方法逆濾波得到的聲門激勵源很自然, 有效克服了LPC分析的缺陷, 為后期情感語音聲門源參數(shù)的提取以及情感語音合成奠定了較好基礎. 參考文獻: [1]郭英, 李雪嬌, 李宏偉. 一種組合參數(shù)的語音信號清/濁音判決方法[J]. 空軍工程大學學報(自然科學版), 2002, 3(4): 18-20. Guo Ying, Li Xuejiao, Li Hongwei. A simple method of unvoiced/voiced classification of speech signal[J].Journal of Air Force Engineering University(Natural Science Edition), 2002, 3(4): 18-20.(in Chinese) [2]譚麗, 胡雙紅. 語音通信中信號的清濁音判別[J]. 電腦與信息技術, 2010, 18(1): 33-34. Tan Li, Hu Shuanghong. The voice/unvoiced decision in speech communication[J]. Computer and Information Technology, 2010, 18(1): 33-34. (in Chinese) [3]胡瑛, 陳寧. 基于小波變換的清濁音分類及基音周期檢測算法[J]. 電子與信息學報, 2008, 30(2): 353-355. Hu Ying, Chen Ning. Voice/unvoiced classification and pitch period detection algorithm based on wavelet transform[J]. Journal of Electronics & Information Technology, 2008, 30(2): 353-355. (in Chinese) [4] Thomas D, Abeer A. Joint robust voicing detection and pitch estimation based on residual harmonics[C]. Proceedings of the Annual Conference of the International Speech Communication Association.INTERSPEECH 2011-12th Annual Conference of the International Speech Communication Association, 2011: 1973-1976. [5]Wong D, Markel J D, Gray A H. Least squares glottal inverse filtering from the acoustic speech waveform[J]. IEEE Trans. Acoustics, Speech, and Signal Processing, 1979, 27(4): 350-355. [6]Alku P. Glottal wave analysis with pitch synchronous iterative adaptive inverse filtering[J]. Speech Communication, 1992, 11(2/3): 109-118. [7]韓紀慶, 張磊, 鄭鐵然. 語音信號處理[M]. 北京: 清華大學出版社, 2013. [8]Cobl C.The voice source in speech communication production and perception experiments involving inverse filtering and synthesis[D].Stockholm:Department of speech,Music and Hearing, KTH, 2003. [9]Edwards J A, Angus J A S. Using phase-plane plots to assess glottal inverse filtering[J]. Electronics Letters, 1996, 32(3): 192-193. [10]胡瓊, 趙春宇. 利用逆濾波和相平面獲取高自然聲門波的研究[J]. 語音技術, 2011, 35(5): 59-63. Hu Qiong, Zhao Chunyu. Study of improving the quality of glottal flow using inverse filtering and phase plane[J].Voice Technology, 2011, 35(5): 59-63. (in Chinese) Extraction of the Glottal Waveform Based on the Summation of the Residual Harmonics SHI Honghui, LI Haoxuan, QIAO Xiaoyan (College of Physics and Electronic Engineering, Shanxi University, Taiyuan 030006, China) Abstract:Aiming for fetching more natural and accurate glottal waveform, the summation of the residual harmonics (SRH) algorithm was applied to extract the glottal excitation signal. Firstly, a voice/unvoiced determination algorithm, W-SRH, which combines the wavelet transform analysis and the SRH, was designed. Subsequently, the combined SRH and the pitch synchronization iterative adaptive inverse filtering method (SRH-PSIAIF) approach was utilized to extract the voiced glottal waveform. The experimental results show that, the W-SRH algorithm has a more accurate rate for identifying voice/unvoiced segments, also the extracted glottal excitation by the SRH-PSIAIF technique is sufficiently natural which could contribute to the work for glottal source based emotional speech analysis and synthesis. Key words:glottal waveform; voice/unvoiced determination; wavelet transform; SRH; PSIAIF 中圖分類號:TN912 文獻標識碼:A doi:10.3969/j.issn.1671-7449.2016.01.015 作者簡介:師宏慧(1991-), 女, 碩士生, 主要從事語音信號檢測與處理的研究. 收稿日期:2015-09-24 文章編號:1671-7449(2016)01-0080-06
基金資助: 山西省回國留學人員科研資助項目(2014-010); 山西省自然科學基金資助項目(2013011016-2)