張 恒,周 萍
(桂林電子科技大學 電子工程與自動化學院,廣西 桂林 541000)
車載環(huán)境下語音端點檢測的研究*
張 恒,周 萍
(桂林電子科技大學 電子工程與自動化學院,廣西 桂林 541000)
語音端點檢測直接決定了語音識別的精度和速度。車載環(huán)境是一個非常復雜的環(huán)境,信噪比(SNR)有可能出現(xiàn)很低的情況,對于傳統(tǒng)的時域端點檢測方法來說,在這種環(huán)境下的端點檢測效果很差,而雙門限在高信噪比條件下,端點檢測的效果非常好,識別率很高,這就使得提高車載環(huán)境下語音SNR非常關(guān)鍵。文章提出采用改進的小波去噪和改進的雙門限方法進行端點檢測。實驗結(jié)果表明,綜合改進小波去噪和改進雙門限的方法雖然有一定量的信號失真,但失真在可接受范圍之內(nèi),并且在不增大運算量的情況下端點檢測的效果比傳統(tǒng)的雙門限效果要好,表明了本文算法的有效性。
車載環(huán)境;小波去噪;雙門限;端點檢測
隨著語音識別技術(shù)的研究和發(fā)展,應(yīng)用語音技術(shù)開發(fā)的產(chǎn)品已涉及到人們生活的多個方面,有聲控電話交換、語音撥號系統(tǒng)、聲控智能玩具、醫(yī)療服務(wù)等,促進了整個社會經(jīng)濟的發(fā)展,在未來也將帶來社會科技的變革。目前,語音識別技術(shù)已經(jīng)應(yīng)用在很多玩具車上,很多廠商也正在加快速度研究車載語音系統(tǒng)。經(jīng)過幾十年來人們對語音識別技術(shù)的探索和研究,語音識別技術(shù)以及用于開發(fā)語音的硬件設(shè)備都在不斷地改進更新,語音識別產(chǎn)品已經(jīng)逐步從實驗室走向工廠,各廠商已經(jīng)推出各種系統(tǒng)的汽車產(chǎn)品。
語音端點檢測在語音信號處理中是一個極其重要的環(huán)節(jié),它決定了后面的處理結(jié)果,比如對語音信號的特征提取、模式匹配時的正確率。車載環(huán)境下的語音噪聲非常復雜,車內(nèi)發(fā)動機聲音、輪胎與路面之間的摩擦聲、空氣擾動、窗外嘈雜聲等[1],使得信噪比降低。在低信噪比的條件下,使用傳統(tǒng)的雙門限端點檢測方法,會大大降低識別率,雙門限在信噪比較高時有非常好的效果,而使用頻率或其他模式匹配的檢測方法會增加其運算量,不利于車載環(huán)境下的實時性要求,因此本文提出一種基于改進的小波降噪和改進的基于短時能量與過零率雙門限端點檢測的方法,最大限度地還原語音有效信號,為之后的特征提取和模式匹配提供良好的資源。
小波去噪在處理非平穩(wěn)信號上有很大的優(yōu)勢,其中關(guān)鍵的步驟是閾值的選取,這對于去噪的效果影響較大。
1.1 小波變換
小波變換(Wavelet Transform,WT)是近幾十年發(fā)展起來的一種新的數(shù)學分析方法,特別是近十幾年,在很多領(lǐng)域都有廣泛的應(yīng)用。小波變換的實質(zhì)是由一個低通濾波器和一系列帶通濾波器組成。它是短時傅里葉變換(STFT)的變化形式,繼承和發(fā)展了局部化的思想,具有多頻率分析、能夠聚焦到信號的細節(jié),被稱作是“數(shù)學顯微鏡”[2]。小波變換能隨信號頻率的改變而調(diào)整分析窗口大小,具有一定的自適應(yīng)性,能夠解決很多Fourier不能解決的問題,特別是在非平穩(wěn)信號中,小波變換的優(yōu)勢更加突顯。
1.2 小波去噪原理
基于小波變換的優(yōu)勢,小波去噪成為小波變換重要的應(yīng)用之一。去噪的方法主要有:模具極大值檢測法、相關(guān)性去噪、閾值法、平移不變量小波去噪法[3]。其中閾值法運用較為廣泛,其算法運算量低,易于實現(xiàn),且效果很好。本文主要基于改進的閾值法進行去噪。小波去噪分為3個過程,其步驟可總結(jié)為[4]:(1)小波分解;(2)閾值處理;(3)小波重構(gòu)。
小波閾值去噪主要有軟閾值和硬閾值法,它們都具有自己的優(yōu)缺點,通常采用兩者結(jié)合的方式對小波系數(shù)進行估計。軟閾值和硬閾值法是1994年由Donoho在小波變換的基礎(chǔ)上提出的[5]。下面分別介紹它們以及本文改進的閾值法。
(1)硬閾值法和軟閾值法
硬閾值,當小于等于閾值時將小波系數(shù)置零,當大于閾值時保持小波系數(shù)不變,其閾值函數(shù)如式(1):
(1)
軟閾值,當小于等于閾值時將小波系數(shù)置零,當大于閾值時對小波系數(shù)閾值進行收縮處理,其閾值函數(shù)如式(2)[6]:
(2)
對于上面的軟、硬閾值,要根據(jù)具體的噪聲環(huán)境而做出選擇,因此其閾值法具有一定的局限性,不能很好地適用于強噪聲或復雜噪聲環(huán)境下。基于上面閾值函數(shù)的缺陷,本文提出了以下改進的閾值法,使其能運用到車載環(huán)境中。
(2)本文改進的閾值法
為了克服閾值法的缺點,本文采用如下的閾值函數(shù)進行去噪:
(3)
由于雙門限算法簡單可行、復雜程度低、運算量小、實時性較好等,很多學者或科研人員在其上改進各種算法。
2.1 雙門限算法原理
語音信號一般可分為無聲段(靜音段)、清音段、濁音段,由于他們的能量是有一定區(qū)別的,顯然濁音段能量大于清音段,清音段大于無聲段,但在實際檢測過程中,由于噪聲以及清音段本身能量較低的特點,使得無聲段與清音段難以區(qū)分[7],所以還有一種信號特征用于其檢測,即短時過零率。短時過零率表示信號穿過橫坐標(零電平)的次數(shù)。短時能量和短時過零率函數(shù)定義分別為式(4)、式(5):
(4)
(5)
對于上面式(4)和式(5),x(m)為語音信號,En為能量,h(n-m)為相關(guān)的濾波器,Zn為過零率。
2.2 本文改進的雙門限算法
語音開始和結(jié)尾對于端點檢測至關(guān)重要,因為閾值的設(shè)定要通過靜音段確定,而為了增強檢測的適應(yīng)性,應(yīng)根據(jù)具體的噪聲環(huán)境確定能量閾值,而不能單一運用一個閾值到所有的信噪比環(huán)境下。通常需要通過能量的最大值max和最小值min來確定一個閾值,即采用一種折中的方法選取閾值。參考文獻[7]采用的是當能量的最大值max比上能量的最小值min小于33.33時,閾值下限ITL設(shè)置為0.03max+0.97min,反之ITL設(shè)置為4min;閾值上限ITU設(shè)置為4ITL[8]。
由于低信噪比環(huán)境下以上雙門限算法有一定局限性,端點檢測的效果很差,通過大量的采集數(shù)據(jù)和實驗,本文得出如下的改進門限法。設(shè)置能量閾值的上、下限如式(6)所示:
(6)
IMM為前15幀的能量幅值的平均值。
通過前面改進的小波去噪方法提高了信噪比,使得端點檢測識別率提高,這樣在車載壞境下的特征提取和模式匹配準確度會提高。下面給出實驗結(jié)果。
通過多次采集不同車載環(huán)境下的噪聲,采用sym8小波,分解層數(shù)為5時效果比較明顯。圖1給出了改進小波去噪效果,分別在-5 db、0 db、5 db時的去噪效果比較,其橫坐標為語音的采樣點數(shù),縱坐標為語音信號幅度值。表1是幾種不同噪聲環(huán)境下輸出的SNR和MSE。從表1中可以得出在低信噪比的環(huán)境下小波去噪發(fā)揮了它的優(yōu)勢。
通過小波去噪后,得到了更好的語音資源,此時將去噪后的語音進行端點檢測會得到更好的效果[9],表2列出了不同信噪比情況下幾種不同環(huán)境下車載語音端點檢測結(jié)果,從中可以看出,“我到北京去”這段語音相比于傳統(tǒng)的雙門限,去噪以及改進后的雙門限檢測效果更好,其檢測率高于傳統(tǒng)雙門限檢測率,且沒有增加算法的運算量,使實時性得到保障。
從圖1和表1數(shù)據(jù)分析,小波去噪在車載強噪音環(huán)境下效果較為明顯,改進的雙門限檢測方法也具有一定適應(yīng)性,能夠在車載多變的噪聲環(huán)境下進行檢測。從表1可以看出,在車載高SNR條件下,檢測效果有明顯的提升;在低SNR下,雖然檢測效果有所下降,但相比于傳統(tǒng)的檢測效果還是有所提升。通過信噪比SNR和均方誤差MSE衡量語音去噪的效果,從表中可以看到降噪明顯。通過表2的對比看出,端點檢測率提高了,表明語音檢測的有效性。
對于車載環(huán)境下,噪聲是比較大、比較復雜的,低SNR會使傳統(tǒng)雙門限檢測方法的識別率大大降低[10],對于這一缺點,本文首先采用了改進小波去噪算法提高車載環(huán)境下的SNR,再使用改進的雙門限算法進行端點檢測。從實驗結(jié)果來看,失真不影響檢測效率,且提高了檢測率,證明本文算法切實可行。
[1] 馬龍華,郝燕玲.車載環(huán)境下語音識別方法研究[D].哈爾濱:哈爾濱工程大學,2009.
[2] 吳勇,吳傳生.基于小波去噪研究方法[D].武漢:武漢理工大學,2007.
[3] 金寶龍,李輝,趙乃杰,等.一種新的小波閾值去噪算法[J].彈箭與制導學報,2011,31(1):167-169.
[4] 趙廣超,肖斌,國闖,等.小波分析理論與圖像降噪處理[J].微型機與應(yīng)用.2011,30(19): 35-37.
[5] 段永剛,馬立元,李永軍,等.基于小波分析的改進軟閾值去噪算法[J].科學技術(shù)與工程,2010,10(23):5755-5658.
[6] 楊岳飛,劉輝,譚檢平.帶噪語音信號小波去噪算法研究[J].計算機工程與應(yīng)用,2015,51(14):211-213.
[7] 陳東鈺,周萍.基于雙門限算法的語音端點檢測和聲韻母分離研究[J].桂林電子科技大學學報,2011,31(6):481-482.
[8] 劉慶升,徐霄鵬,黃文浩.一種語音端點檢測的探究[J].計算機工程,2003,29(3):120-121.
[9] 魯遠耀,周妮,肖珂,等.強噪音環(huán)境下改進的語音端點檢測算法[J].計算機應(yīng)用,2014,34(5):1386-1390.
[10] 劉華平,李昕,徐柏齡,等.語音信號端點檢測方法綜述及展望[J].計算機應(yīng)用研究,2008,25(8):2278-2283.
Research on speech endpoint detection under on-board environment
Zhang Heng, Zhou Ping
(Shcool of Electronic Engineering and Automation, Guilin University of Electronic Technology,Guilin 541004, China)
The endpoint detection is an important part in signal processing. Endpoint detection directly determines the accuracy and speed of the voice recognition. Car environment is a very complex environment, the signal-to-noise ratio of the signal possibility is very low, for the traditional time domain endpoint detection method, in this environment the endpoint detection effect is very poor. The double door limit under the condition of high SNR, endpoint detection effect is very good, the recognition rate is very high, this makes the prompt on-board environment voice SNR is critical. In this paper, the improved wavelet denoising and the improved double threshold algorithm is adopted for endpoint detection. The experimental results show that the integrated method of wavelet denoising and double threshold though there is a certain amount of signal distortion, the distortion in the range of acceptable, and in the case of not increase the computational complexity, the endpoint detection effect is better than traditional double threshold effect, which show the effectiveness of the algorithm in this paper.
on-board environment; wavelet denoising; dual-threshold; endpoint dectect
廣西研究生教育創(chuàng)新計劃資助項目(YCSZ2015152)
TN912.34
A
10.19358/j.issn.1674- 7720.2017.05.007
張恒,周萍.車載環(huán)境下語音端點檢測的研究[J].微型機與應(yīng)用,2017,36(5):21-23.
2016-12-01)
張恒(1991-),通信作者,男,碩士研究生,主要研究方向:語音識別、車載語音。E-mail:282078547@qq.com。
周萍(1961-),女,碩士,教授,主要研究方向:語音識別、智能控制。