王文娟 楊 震
(1.南京郵電大學(xué)通信與信息工程學(xué)院,南京,210003;2.南京郵電大學(xué)寬帶無線通信與傳感技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,南京,210003)
根據(jù)語音信號(hào)是否有準(zhǔn)周期性,可將語音分為濁音和清音,而清濁音的判別,是語音信號(hào)處理的關(guān)鍵部分,準(zhǔn)確的清濁音判別,有助于提高提取基因周期的精確度、語音的識(shí)別與合成效果等。但目前各種清濁音判別的方法(短時(shí)能量、過零率、自相關(guān)函數(shù))都是基于傳統(tǒng)奈奎斯特采樣,對(duì)噪聲敏感,具有運(yùn)算量大和復(fù)雜度高的缺點(diǎn)。而由Donoho等人提出的壓縮感知理論(Compressive sensing,CS)[1-7]是近年來新興的一種采樣技術(shù),該理論認(rèn)為,如果信號(hào)在某個(gè)變換域上是稀疏的,就可以用一個(gè)與變換基不相關(guān)的觀測(cè)矩陣將該信號(hào)投影到低維空間上,然后通過求解優(yōu)化問題來高概率地重構(gòu)原信號(hào)。同時(shí)壓縮理論也指出,任何信號(hào)(包括語音信號(hào))在找到相應(yīng)的稀疏域的前提下都可以壓縮,所以,只要能夠找到或構(gòu)建語音信號(hào)的稀疏基,就滿足壓縮感知理論的應(yīng)用前提,然后可以對(duì)語音信號(hào)進(jìn)行投影來得到樣值個(gè)數(shù)很少的觀測(cè)序列,根據(jù)這些較少觀測(cè)序列所包含的信息同樣可以重構(gòu)原始語音信號(hào)[1-7],于是能夠?qū)嚎s感知理論運(yùn)用于語音信號(hào)處理中,構(gòu)造基于壓縮感知的語音處理系統(tǒng),從而能夠克服奈奎斯特頻率采樣帶來的運(yùn)算量大和復(fù)雜度高的缺點(diǎn)。國內(nèi)外將CS理論運(yùn)用到語音信號(hào)處理領(lǐng)域的研究也很多,但是鮮見針對(duì)獲得的觀察序列如何進(jìn)一步提取語音特征參數(shù)的研究。文獻(xiàn)[8]在語音識(shí)別中運(yùn)用CS理論,能夠很好地改善系統(tǒng)的抗噪性能;文獻(xiàn)[5]將CS理論運(yùn)用到語音編碼進(jìn)行有效編碼;文獻(xiàn)[9]提出了基于自相關(guān)觀測(cè)矩陣的語音信號(hào)壓縮感知。為了進(jìn)一步深入研究CS理論在語音信號(hào)處理中的應(yīng)用,清濁音的判別無疑是關(guān)鍵部分。
原始信號(hào)x=(x1,x2,…,xN)T可以用一組標(biāo)準(zhǔn)正交基Ψ=[φ1,φ2,…,φN]來表示,即
式中:α=[α1,α2,…,αN]T為原始信號(hào)x在正交基Ψ下的系數(shù)向量。嚴(yán)格來說,如果‖α‖0=K?N,則 稱x是K-稀 疏 的[4], ‖α‖p=為向量α中非零元素的個(gè)數(shù)。然后將這種在某正交基下具有K-稀疏性的信號(hào)投影到一個(gè)與正交基不相關(guān)的觀測(cè)矩陣Φ上,得到觀測(cè)向量
式中:觀測(cè)矩陣Φ為M×N(M<N)矩陣,并且滿足受限等距特性(Ristricted isometry property,RIP)[10]。由于M<N,式(2)為欠定方程組,不存在惟一解,但因?yàn)樾盘?hào)x在正交基Ψ下具有稀疏性,可以利用求解L0優(yōu)化問題的方法來求解式(2)欠定方程組的問題
但求解式(3)非常困難,因信號(hào)具有稀疏性,式(3)的求解問題可以轉(zhuǎn)化為L1優(yōu)化問題求解[11],即
然后可通過基追蹤[2]和正交匹配追蹤[12]等算法來求解重構(gòu)原始信號(hào)。
語音在壓縮感知領(lǐng)域的應(yīng)用,大多是關(guān)于一些尋找最優(yōu)稀疏基、觀測(cè)矩陣和重構(gòu)算法等方面,很少有涉及語音特性方面的研究,而此方面的研究又是語音信號(hào)處理領(lǐng)域中比較重要的環(huán)節(jié)。壓縮感知理論的引用,使原始的奈奎斯特采樣序列不能獲取,取而代之的是語音壓縮感知的觀測(cè)序列,此觀測(cè)序列與奈奎斯特采樣序列有較大的區(qū)別。
本文實(shí)驗(yàn)過程中,采用的實(shí)驗(yàn)仿真環(huán)境如下:原始語音采樣頻率為16kHz;根據(jù)語音信號(hào)具有短時(shí)平穩(wěn)性,將語音信號(hào)分幀處理,每幀長度為20 ms,共320個(gè)采樣點(diǎn);根據(jù)語音信號(hào)在DCT基(離散余弦基)上是近似稀疏的,研究中采用DCT基作為正交稀疏基,觀測(cè)矩陣采用隨機(jī)高斯矩陣[3]。本文后續(xù)研究的實(shí)驗(yàn)環(huán)境也同樣設(shè)定。各取語音中清濁音20 000幀壓縮感知序列的波形進(jìn)行特征分析,每幀壓縮感知觀測(cè)序列的樣值為80(即壓縮比為1∶4),如圖1所示。
由圖1可以看出,濁音和清音壓縮感知后觀測(cè)序列的波形都類似白噪聲,不再具有奈氏采樣序列的特征,這無疑加大了語音信號(hào)特征提取的難度,如提取基音周期、清濁音判別等。所以根據(jù)目前的壓縮感知理論,如果要提取原始語音的特性、沿用傳統(tǒng)的奈奎斯特采樣中提取語音信號(hào)特征的方法,必須將壓縮采樣得到的觀測(cè)序列進(jìn)行重構(gòu)得到原始語音信號(hào),而重構(gòu)過程是一個(gè)計(jì)算量大、復(fù)雜度很高的問題,因而需要研究如何針對(duì)語音壓縮感知的觀測(cè)序列、在非重構(gòu)的情況下,直接來提取語音的特性,為此本文給出了一種基于CS觀測(cè)序列的能夠區(qū)分清音和濁音的方法。
圖1 清濁音幀和各自觀測(cè)序列波形
根據(jù)語音產(chǎn)生的數(shù)字模型[13],語音分為清音和濁音,而圖2所示數(shù)字模型可以近似模擬清音和濁音的產(chǎn)生,產(chǎn)生與發(fā)音器官相對(duì)應(yīng)的信號(hào)序列,可利用此模型來近似分析語音的清音和濁音性質(zhì),故將語音分兩部分來分析。
圖2 語音產(chǎn)生的數(shù)字模型
(1)濁音:濁音是由準(zhǔn)周期脈沖串激勵(lì)產(chǎn)生,這一沖激串去激勵(lì)一個(gè)系統(tǒng)函數(shù)G(z)(見式(5))[13]的線性系統(tǒng),時(shí)域表達(dá)式見式(6)[13]
從G(z)系統(tǒng)輸出的信號(hào)為正弦信號(hào)的變換,經(jīng)幅度控制Av后輸出的信號(hào)即為濁音激勵(lì),它是一個(gè)非高斯信號(hào),這個(gè)非高斯信號(hào)經(jīng)過一零極點(diǎn)數(shù)字聲道模型V(z),由式(7,8)[13]可知,經(jīng)過聲道模型的輸出僅僅是由uG(n)和uG(n)的延時(shí)信號(hào)的疊加,即輸入到輻射模型R(z)的信號(hào)仍是一非高斯的信號(hào),式(9)[13]說明R(z)是雙線性變換,最后在模型右端得到的信號(hào)Pl(n)是非高斯信號(hào)。
(2)清音:清音是由隨機(jī)噪聲激勵(lì)產(chǎn)生,可以用均值為0,方差為1的高斯白噪聲激勵(lì)產(chǎn)生,經(jīng)過幅度控制AN得到的是一個(gè)高斯信號(hào),后經(jīng)過聲道模型線性系統(tǒng)V(z)和雙線性輻射模型R(z),得到的Pl(n)信號(hào)是一個(gè)高斯信號(hào)。
綜上分析,可以近似認(rèn)為,對(duì)于語音信號(hào)而言,濁音是一個(gè)非高斯信號(hào),清音是一個(gè)高斯信號(hào)。
壓縮感知中,設(shè)定原始語音信號(hào)x=(x1,x2,…,xN)T,隨機(jī)高斯矩陣
由式(10)可知,y(n)是由原始語音信號(hào)xi和高斯矩陣Φ相對(duì)行相乘求和所得,即觀測(cè)序列y為原始語音信號(hào)的線性組合,所以對(duì)于濁音來說,非高斯信號(hào)的線性過程即觀測(cè)序列仍是非高斯信號(hào),而對(duì)清音而言,高斯信號(hào)的線性過程即觀測(cè)序列仍是高斯信號(hào)。
原始信號(hào)經(jīng)離散余弦變換(Discrete cosine transform,DCT)變換后再進(jìn)行壓縮感知,從而得到觀測(cè)序列,根據(jù)式(2),觀測(cè)序列也是由原始信號(hào)x與矩陣Φ相乘而得,基于上述理論,可以據(jù)此來設(shè)計(jì)新的直接從觀察序列判斷語音清濁音的方法。根據(jù)高階累積量對(duì)零均值的高斯隨機(jī)過程是“盲的”[14],即高斯過程三階及三階以上的累積量為0,所以對(duì)于壓縮感知而言,觀測(cè)序列近似高斯信號(hào)的清音的三階累積量為0,而觀測(cè)序列為非高斯信號(hào)的濁音的三階累積量不為0,當(dāng)然,現(xiàn)實(shí)中由于誤差的存在,在仿真實(shí)驗(yàn)中,可以判別三階累積量絕對(duì)值接近為0的幀為清音幀,這就是三階累積量能夠判別清濁音的理論基礎(chǔ)。
本文仿真實(shí)驗(yàn)中采用標(biāo)準(zhǔn)數(shù)據(jù)庫,實(shí)驗(yàn)采用本文第2節(jié)中的仿真環(huán)境,隨機(jī)選取男聲 “批評(píng)和自我批評(píng)”和女聲 “大規(guī)模集成電路”為例,并將基于語音壓縮感知觀測(cè)序列三階累積量的清濁音判別結(jié)果與傳統(tǒng)的奈奎斯特采樣中的能量判別準(zhǔn)則相比較,判別結(jié)果中會(huì)出現(xiàn)某個(gè)野點(diǎn),即在很多清音幀中間有一個(gè)濁音幀的出現(xiàn),或是很多濁音幀中間有一個(gè)清音幀的出現(xiàn),可以采用平滑的方法去除[15]。具體結(jié)果如圖3,4所示,圖中縱坐標(biāo)“0”代表清音,“1”代表濁音。
圖3 直接基于觀測(cè)序列的清濁音判別法與重構(gòu)語音信號(hào)能量判別法相比較的結(jié)果
由圖3,4可以看出,女聲“大規(guī)模集成電路”共92幀,共11,50,73幀三幀判別結(jié)果不一致,而男聲 “批評(píng)和自我批評(píng)”共79幀,只有5,67兩幀的判別結(jié)果不一致,且這幾幀還是處于清音和濁音分界之處的的混合幀,所以,基于壓縮感知觀測(cè)序列三階累積量來判別清音和濁音的性能幾乎可以與基于壓縮感知重構(gòu)語音信號(hào)的能量判別法相當(dāng)。
現(xiàn)將本文提出的基于非重構(gòu)、壓縮感知觀測(cè)序列三階累積量的清濁音判別方法與基于壓縮感知重構(gòu)語音信號(hào)能量判別方法的運(yùn)行時(shí)間做比較(壓縮比為1∶4,每幀320個(gè)采樣點(diǎn)),同一環(huán)境下,男音“批評(píng)與自我批評(píng)”的運(yùn)行時(shí)間分別為264.83和548.66s,而女音“大規(guī)模集成電路”的仿真運(yùn)行時(shí)間分別為289.55和618.06s,由此可以看出,在清濁音判別的準(zhǔn)確度上,本文提出非重構(gòu)情況下的清濁音判別方法與重構(gòu)語音信號(hào)清濁音判別法幾乎相當(dāng),但在運(yùn)行時(shí)間上,可以縮短一半。
圖4 直接基于觀測(cè)序列的清濁音判別法與重構(gòu)語音信號(hào)能量判別法相比較的結(jié)果
基于三階累積量的清濁音的判別準(zhǔn)則對(duì)于奈氏采樣序列同樣具有適用性,據(jù)3.1節(jié)分析所知,對(duì)于語音信號(hào)而言,濁音是一個(gè)非高斯信號(hào),清音是一個(gè)高斯信號(hào),而高斯信號(hào)的三階及三階以上累積量為0,即清音的三階累積量可以近似為0,濁音是非高斯信號(hào),它的三階累積量不為0,據(jù)此可以判別清音和濁音。
本文采用第2節(jié)的仿真環(huán)境,同樣選取男聲“批評(píng)和自我批評(píng)”和女聲 “大規(guī)模集成電路”為例,并將基于奈氏采樣序列的三階累積量清濁音判別結(jié)果與奈氏采樣序列中的能量判別準(zhǔn)則相比較,具體結(jié)果如圖5,6所示。
由圖5,6分析,基于“原始語音信號(hào)的三階累積量”能夠判別清音和濁音,只不過門限的取值不同。女聲 “大規(guī)模集成電路”共92幀,共50,77幀兩幀判別結(jié)果不一致,而男聲 “批評(píng)和自我批評(píng)”共79幀,只有26,67兩幀的判別結(jié)果不一致,并且這幾幀是混合幀,本身就不能完全判別為清音幀或濁音幀,所以這種判別方法對(duì)奈氏采樣序列同樣是適用的,只不過與傳統(tǒng)奈氏采樣序列中的能量判別法相比較,會(huì)增加運(yùn)算量。
圖5 基于奈氏采樣序列三階累積量清濁音判別法與能量判別法相比較的結(jié)果
圖6 基于奈氏采樣序列三階累積量清濁音判別法與能量判別法的比較結(jié)果
從另一個(gè)角度來看,語音信號(hào)是零均值、實(shí)的隨機(jī)過程,而零均值的隨機(jī)信號(hào)x(t)的三階累積量的表達(dá)式[14]如下
根據(jù)式(11),取τ1=τ2=0,則
濁音的幅度大,清音的幅度小,由式(12),取三階累積量的絕對(duì)值,濁音的三階累積量也大于清音。所以,基于三階累積量的清濁音的判別準(zhǔn)則對(duì)奈氏采樣序列同樣具有適用性,不僅僅體現(xiàn)了“濁音是非高斯信號(hào)、清音是可以近似為高斯信號(hào)”的特點(diǎn),還體現(xiàn)了原始語音“濁音幅度大,清音幅度小”的特點(diǎn)。
壓縮感知技術(shù)具有廣闊的應(yīng)用領(lǐng)域,是信號(hào)處理領(lǐng)域的一次新的改革,將語音信號(hào)處理與壓縮感知相結(jié)合,具有較高的研究價(jià)值,而清濁音的判別是語音信號(hào)處理中必不可少的環(huán)節(jié),針對(duì)這種情況,本文提出了一種基于壓縮感知觀測(cè)序列的清濁音判別方法,它的判別性能好,為壓縮感知理論在語音信號(hào)處理中的應(yīng)用提供了研究基礎(chǔ)。
[1] Donoho D L.Compressed sensing[J].IEEE Transactions on Information Theory,2006,52(4):1289-1306.
[2] Candès E,Romberg J,Tao T.Robust uncertainty principles:exact signal reconstruction from highly incomplete frequency information[J].IEEE Transactions on Information Theory,2006,52(2):489-509.
[3] Baraniuk R G.Compressing sensing[J].IEEE Signal Processing Magazine,2007,24(4):118-121.
[4] 石光明.壓縮感知理論及研究進(jìn)展[J].電子學(xué)報(bào),2009,37(5):1070-1081.Shi Guangming.Advances in theory and application of compressed sensing[J].Chinese Journal of Electronics,2009,37(5):1070-1081(in Chinese)
[5] Giacobello D,Christensen M G,Murthi M N,et al.Retrieving sparse patterns using a compressed sensing framework:applications to speech coding based on sparse linear prediction[J].Signal Processing Letters,2010,17(1):103-106.
[6] PeyrèG.Best basis compressed sensing[J].IEEE Transactions on Signal Processing,2010,58 (5):2613-2622.
[7] Candès E,Tao T.Near optimal signal recovery from random projections:universal encoding strategies[J].IEEE Transactions on Information Theory,2006,52(12):5406-5425.
[8] Gemmeke J F,Cranen B.Using sparse representations for missing data imputation in noise robust speech recognition[C]∥European Signal Processing Conf(EUSIPCO).Lausanne,Switzerland:[s.n.],2008:787-791.
[9] 季云云,楊震.基于自相關(guān)觀測(cè)的語音信號(hào)壓縮感知[J].信號(hào)處理,2011,21(2):207-212.Ji Yunyun,Yang Zhen.Compressed speech signal sensing based on auto-correlative measurement[J].Signal Processing,2011,21(2):207-212.
[10]Ying L,Zou Y M.Linear transformations and restricted isometry property[C]∥IEEE International Conference on Acoustic,Speech and Signal Processing.Taipei,China:[s.n.],2009:2961-2964.
[11]Donoho D L,Huo X M.Uncertainty principles and ideal atomic decomposition[J].IEEE Trans on Information Theory,2001,47(7):2845-2862.
[12]Pati Y C,Razaiifar R,Krishnaprasad P S.Orthogonal matching pursuit:recursive function approximation with applications to wavelet decomposition[C]∥The 27th Asilomar Conference on Signals,Systems and Computers.Pacific Grove,USA:[s.n.],1993:40-44.
[13]王炳錫.語音編碼[M].西安:西安電子科技大學(xué)出版社,1999.Wang Bingxi.Speech coding[M].Xi′an:Xidian University Press,1999.
[14]張賢達(dá).現(xiàn)代信號(hào)處理[M].北京:清華大學(xué)出版社,2002.Zhang Xianda.Modern signal processing[M].Beijing:Tsinghua University Press,2002.
[15]李振起,姜占才,李大筠.一種清濁音判決的參考標(biāo)準(zhǔn)及一種新算法[J].電腦開發(fā)與應(yīng)用,2010,23(12):9-12.Li Zhenqi,Jiang Zhancai,Li Dajun.A kind of reference standard for UV decision and a new algorithm[J].Computer Development and Application,2010,23(12):9-12.