劉豫軍 夏 聰
(珠海多玩信息技術有限公司 廣東 519000)
語音信號是一種時變、非平穩(wěn)的隨機信號,其主要頻帶特征和信號特征如下:
(1)頻帶特征
人說話聲音頻率范圍是 300Hz~3400Hz,男性大約在250Hz~2000 Hz之間,女性則大約在450Hz~4000 Hz之間。
(2)信號特征
清音:沒有周期性,主要在高頻部分,易混于噪音;
濁音:接近周期信號,主要分布在低頻部分;
噪音:語音之間間隙,純噪音的“無聲區(qū)”。
圖1 語音信號特征圖譜
目前,國內(nèi)已有科大訊飛、云之聲等為代表的高新技術企業(yè)以及高校、科研院所等單位,在語音識別技術研究領域取得了不少成果,但是依然面臨著產(chǎn)業(yè)化發(fā)展的技術瓶頸,主要表現(xiàn)在以下幾個方面:
(1)語音識別系統(tǒng)的適應性差;
(2)高噪聲環(huán)境下語音識別進展困難;
(3)如何把語言學、生理學、心理學方面的研究成果量化、建模并用于語音識別,還需深入研究;
(4)我們對人類的聽覺理解、知識積累和學習機制以及大腦神經(jīng)系統(tǒng)的控制機理等分面的認識還很不清楚;
(5)若將語音識別系統(tǒng)商品化,還有識別速度、拒識問題以及關鍵詞/句檢測技術等細節(jié)問題需要解決。
(1)基本原理
小波分析是一種強有力的信號分析工具,它是時間和頻率的局部變換,能有效的從信號中提取信息。例如,在信號的高頻域部分,運用小波分析可以取得較好的時間分辨率;在信號的低頻域部分,則取得較好的頻率分辨率;在提取識別特征前,用小波進行預處理,能夠選取語音信號的有用信息,并且有效抑制無關信息對識別所產(chǎn)生的干擾。
(2)小波分析在語音識別中的應用
小波分析在語音識別中的作用十分突出,尤其對語音數(shù)據(jù)的預處理至關重要,主要應用包括語音信號的降噪處理、語音信號壓縮與重構以及幅度突變信號的檢測等。
1)語音信號的降噪處理
降噪處理的基本過程可分為三個步驟:①一維信號的小波分解;②小波分解高頻系數(shù)的閾值量化;③一維小波重構。
主要特點:①高頻部分所影響的是小波分解的第一層細節(jié);②低頻部分所影響的是小波分解的最深層和最低頻層;③高頻系數(shù)的幅值隨著分解層次的增加而迅速的衰減,且其方差也有同樣的變化趨勢。
2)語音信號壓縮與重構
語音信號壓縮與重構主要包括三個步驟:①信號的小波分解;②對高頻系數(shù)進行閥值量化處理;③對量化后的系數(shù)進行小波重構。
3)幅度突變信號的檢測
小波分析能夠檢測信號幅值變化的準確時間,能夠準確地將正弦信號幅度發(fā)生跳變的時間點檢測出來。
(3)典型技術解決方案
1)利用Matlab消噪
①用ddencmp生成信號的默認閥值,后利用wdencmp進行消噪;②用 wthresh函數(shù)進行給定閥值量化處理,比默認閥值可信度高;③小波分解結構中的高頻系數(shù)全部置 0,強制消噪處理。
圖2 傳統(tǒng)的語音去噪流程方法
傳統(tǒng)的語音去噪流程直接對語音信號進行閾值處理,信號的高頻部分置0,造成去噪后信號的失真等問題。
利用Matlab消噪,是在傳統(tǒng)語音信號去噪技術的基礎上,通過改進算法和閾值函數(shù)來實現(xiàn)的,即先進行清濁音分離,后用不同閾值進行處理。
? 改進算法
①語音信號的清濁音分離(清濁音判定方法:清音在較高的頻率段上能量比較強,而濁音的能量主要分布在較低的頻率上);②對清音段和濁音段分別進行不同的閾值處理;③離散小波反變換,獲得去噪后的語音信號。
圖3 語音信號改進算法
? 改進閾值函數(shù)
常用的幾種閾值函數(shù)主要有:硬閾值函數(shù)、軟閾值函數(shù)、折中閾值函數(shù)和μ律閾值函數(shù)等。
這些閾值函數(shù)使用中的缺點:①硬閾值法,去噪效果不理想,重構產(chǎn)生振蕩;②軟閾值法,重構信號存在較大的失真;③前三種閾值函數(shù),|X|≤T時都等于0,會導致去噪后的信號產(chǎn)生較大失真。
改進的閾值函數(shù),即二次小波分解全局閾值函數(shù),具有以下優(yōu)點:①輸入信噪比較低時:效果和折中閾值法差不多,克服了μ律閾值法去噪效果不佳的缺點;②輸入信噪比較高時:其去噪效果和μ律閾值法差不多,相對折中閾值法而言輸出信噪比有所改善。
圖4 改進的二次小波分解全局閾值函數(shù)
? 采用改進算法進行去噪的具體流程
①首先對信號進行三層小波分解,三個高頻系數(shù)和一個低頻系數(shù);
②其高頻部分由噪聲和信號兩部分混合組成,對高頻部分進行二次小波分解,得到二次分解后的6個高頻系數(shù)和6個低頻系數(shù);
③此時對各高頻部分分解后得到高頻系數(shù)利用全局閾值進行去噪處理,得到處理后的3個高頻部分;
④將處理后高頻系數(shù)和第一次分解的低頻系數(shù)再經(jīng)過小波逆變換,得到去噪后的重構信號。
2)基于小波包分解的語音特征提取
該方法主要是利用小波樹已分解出來的各級系數(shù)來提取某類目標的信號特征,具體操作步驟如下:
①首先對信號進行多尺度小波樹分解,分別提取從低頻到高頻的各個頻段成分的信號特征;
②對小波樹的各級分解系數(shù)重構,提取各頻帶范圍內(nèi)的信號;
③求各頻帶信號的總能量;
④構造特征向量。
該種方法可以使語音信號特征在不同分辨率的不同子空間中顯示出來,得到的各個頻帶內(nèi)的能量信號比原始信號有更好的類別可分性。
上文主要介紹了國內(nèi)外主流的語音識別小波分析技術及其技術路線??梢钥闯?,目前國內(nèi)小波分析技術有了較大進步,主要是通過對算法和函數(shù)的局部改進,有效彌補了傳統(tǒng)語音去噪技術的諸多不足,具有一定的技術推動作用。
隨著神經(jīng)網(wǎng)絡技術的不斷發(fā)展,未來語音識別小波分析技術將會呈現(xiàn)與神經(jīng)網(wǎng)絡相結合的發(fā)展趨勢,目前比較看好的是小波混沌神經(jīng)網(wǎng)絡技術(wavelet chaotic neural network,wcnn)。該技術將小波分析作為神經(jīng)網(wǎng)絡的前置處理,為神經(jīng)網(wǎng)絡隱含層提供輸入特征向量,然后再提供給混沌神經(jīng)元部分進行識別,具有響應速度快、識別精度高等優(yōu)點,是未來小波分析在語音識別領域的技術發(fā)展趨勢之一。
現(xiàn)階段,語音識別正在人們?nèi)粘9ぷ骱蜕畹母鱾€方面愈加廣泛應用。但由于語音環(huán)境的高度復雜性,現(xiàn)有語音識別系統(tǒng)無一例外在噪聲環(huán)境下遭遇識別盲區(qū),為語音產(chǎn)品的大規(guī)模推廣應用制造了障礙。
因此,語音數(shù)據(jù)預處理環(huán)節(jié)的去噪技術研究,對語音識別技術的發(fā)展具有十分重要的理論和現(xiàn)實意義。而小波分析技術的應用則為去噪技術提供了新的解決思路,未來若能與神經(jīng)網(wǎng)絡技術相結合,實現(xiàn)優(yōu)勢互補,必將極大推動語音識別技術的快速發(fā)展,為促進語音產(chǎn)品早日實現(xiàn)產(chǎn)業(yè)化奠定基礎。
[1]袁莉芬等,一種改進型的小波變換語音去噪算法,《現(xiàn)代電子技術》,2009年第18期.
[2]馬道鈞、劉然,小波變換在語音識別中的應用研究,北京,北京電子科技學院學報,2007.
[3]李從清等,小波變換的語音去噪方法,《計算機工程與應用》2009,45(36).
[4]王旭等,基于小波混沌神經(jīng)網(wǎng)絡的語音識別,《計算機應用研究》,2008.7-25卷-7期.