• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于對數(shù)能量倒譜特征的端點檢測算法

      2014-07-07 03:38:45王民孫廣沈利榮劉利
      計算機工程與應(yīng)用 2014年16期
      關(guān)鍵詞:端點對數(shù)語音

      王民,孫廣,沈利榮,劉利

      1.西安建筑科技大學(xué)信息與控制工程學(xué)院,西安 710055

      2.西安石油大學(xué)光電油氣測井與檢測教育部重點實驗室,西安 710065

      基于對數(shù)能量倒譜特征的端點檢測算法

      王民1,孫廣1,沈利榮2,劉利1

      1.西安建筑科技大學(xué)信息與控制工程學(xué)院,西安 710055

      2.西安石油大學(xué)光電油氣測井與檢測教育部重點實驗室,西安 710065

      端點檢測技術(shù)是語音識別的關(guān)鍵技術(shù)之一,為了克服傳統(tǒng)倒譜距離語音端點檢測算法在低信噪比下檢測效果的不理想,將對數(shù)能量(LE)特征和倒譜(C)特征相結(jié)合,提出了一種新的對數(shù)能量倒譜特征(LEC),采用模糊C均值聚類和貝葉斯信息準(zhǔn)則(BIC)方法估計特征門限,得出了正確的語音端點判斷,在三種典型噪聲下,對信噪比從-5 dB到15 dB的帶噪聲語音進行仿真,結(jié)果表明LEC法的檢測錯誤率僅為20.25%,明顯低于倒譜法和對數(shù)能量法,能有效地確定語音的端點并改善語音識別效果。

      對數(shù)能量;倒譜距離;模糊C均值聚類;貝葉斯信息準(zhǔn)則(BIC);端點檢測

      1 引言

      目前語音識別與說話人識別的研究中,語音端點檢測的準(zhǔn)確率在很大程度上決定著整個系統(tǒng)的識別率。端點檢測的傳統(tǒng)方法是采用語音信號的時域特征,短時能量和短時過零率作為特征參數(shù)[1],該方法在高信噪比時具有很好的檢測效果,而在低信噪比時檢測效果則非常不理想。近年來提出了很多優(yōu)化改進的方法,如基于倒譜距離[2]、譜熵法[3]、對數(shù)能量[4],神經(jīng)網(wǎng)絡(luò)法[5]等,檢測效果上得到了很大的改善,然而上述算法也比較容易受噪聲影響,因此,在實際環(huán)境應(yīng)用中體現(xiàn)不出好的推廣前景。

      文獻[4]提出了對數(shù)能量法,與傳統(tǒng)的線性能量相比,不會出現(xiàn)對數(shù)能量特征中噪聲段特征值過大的問題,能較好地區(qū)分語音信號中不同的部分。基于文獻[4]通過倒譜與對數(shù)能量相結(jié)合,提出對數(shù)能量倒譜(LEC)法,門限估計采用模糊C均值聚類和貝葉斯信息準(zhǔn)則,該方法有好的魯棒性。實驗證明,在低信噪比噪聲環(huán)境中,這種LEC法相比對數(shù)能量法和倒譜法,能取得更好的檢測效果。

      2 基于對數(shù)能量倒譜特征的端點檢測算法

      2.1 倒譜距離的定義

      假定輸入信號s(n),其倒譜變換是c(n)。其中一種信號倒譜的定義是將信號s(n)的倒譜c(n)看作是lgS(w)的傅里葉級數(shù)展開[6],即:

      其中,c(n)是倒譜系數(shù),且c(n)=c(-n)是實數(shù)。根據(jù)帕斯維爾定理,無限階倒譜的系數(shù)可以用p階倒譜的系數(shù)來近似,可以近似如下[2]:

      信號和本身的倒譜是一一對應(yīng)的變換,倒譜距離能作為在端點檢測中的一個判決參數(shù),屬于相似距離范疇。

      2.2 對數(shù)能量倒譜特征

      在語言端點判定方法中,一種好的能量特征應(yīng)該對不同幅度的語音信號都具有好的區(qū)分性。也就是說,既不能使幅度相對較大的語音表征為靜音或噪聲,也不能使幅度小的噪聲表征成語音。在此,本文應(yīng)用一種對數(shù)能量[4]特征LEi,其計算的表達式為:

      式中,E(i)為i幀信號的短時線性能量,a為常數(shù),實驗結(jié)果測得當(dāng)a=5×105時效果最好。首先,對LE和C分別依次進行平移和調(diào)整,再做相乘運算,將其結(jié)果記為P(i),計算公式為:

      其中AveLE和AveC分別為前10幀對應(yīng)的對數(shù)能量和倒譜距離的特征平均值。

      然后,可得LEC的計算公式為:

      其中a取9.5的經(jīng)驗值。

      倒譜特征和對數(shù)能量倒譜特征的比較,可以發(fā)現(xiàn)倒譜特征不能準(zhǔn)確地使語音和噪聲明顯地區(qū)分開來,特別是語音樣本在開始的階段,噪聲也被表征出語音特征。而LE卻具有良好的平滑性和區(qū)分性,計算LEC的算法框圖如圖1。

      圖1 對數(shù)能量倒譜特征框圖

      3 門限估計和端點檢測

      3.1 模糊聚類C均值[7]

      模糊C均值算法如下:

      (1)設(shè)要聚成C個類,由人決定C的個數(shù)。

      (2)在第C次迭代中,樣本數(shù)據(jù)的隸屬度用如下方法計算:

      i=1,2,…,n,j=1,2,…,c。ml(l=1,2,…,c)為每個聚類的中心,μj(xi)是第i個樣本對于第j類的隸屬度函數(shù)。

      (3)用由(2)得到的當(dāng)前的隸屬度函數(shù)更新計算各聚類中心。

      (4)當(dāng)其隸屬度不再變化時,則終止。否則返回到(2)。

      3.2 貝葉斯信息準(zhǔn)則(BIC)

      貝葉斯信息準(zhǔn)則(Bayesian Information Criterion,BIC)可以用來判定語音端點檢測過程中的門限值[8]。BIC模型定義如式(9):

      其中X={xi|i=1,2,…,N}為數(shù)據(jù)的特征集;Φ={φj|j=1,2,…,K}為模型參數(shù);lg(X,φ)是數(shù)據(jù)X和模型參數(shù)φ的似然函數(shù);nφ是模型參數(shù)φ的個數(shù);N是X中數(shù)據(jù)的個數(shù);λp是其懲罰因子。

      由BIC可知,最大化BIC值即為最優(yōu)模型個數(shù)。假設(shè)語音片段和背景噪聲均服從高斯分布N(μi,∑i)模型,其中μi為均值向量,∑i為協(xié)方差矩陣,則可以通過式(10)得到聚類數(shù)為C時的BIC值:

      其中N是總數(shù)據(jù)個數(shù);Ni為第i個聚類中數(shù)據(jù)的個數(shù);d為特征空間的維數(shù)。

      對于黏膜型雞痘,則需要用消毒后的鑷子對病雞咽喉處的假膜進行剝離,之后施用1%高錳酸鉀溶液對患處進行清洗,最后涂抹魚肝油。對于結(jié)膜炎的病雞,可以通過雙氧水進行消毒,采用抗生素眼藥水來進行對癥治療。在發(fā)現(xiàn)雞群中出現(xiàn)雞痘的情況下,應(yīng)及時采用雞痘疫苗的五倍劑量進行刺種,并且每天對雞以及雞舍進行消毒。如果發(fā)病雞較多,可以通過抗病毒以及抗菌消炎的中西藥進行治療,防治發(fā)生感染。

      對于端點檢測,可設(shè)定初始聚類個數(shù)C=2,最優(yōu)聚類數(shù)Cbest可以通過以下進行判決:

      3.3 端點檢測

      本文利用模糊C均值聚類和BIC算法對LEC的門限值進行估計,并完成語音端點檢測,其算法步驟為:

      (1)通過式(6)計算信號每一幀的LEC特征。

      (2)利用模糊C聚類算法對LEC特征分別進行聚類數(shù)目是C=1和C=2時的模糊聚類。

      (3)通過式(11)決定最優(yōu)聚類數(shù)Cbest的值。

      (4)若Cbest=1,通過第二步得其聚類中心為m11,則LEC特征門限的計算公式為:

      此時,LEC特征門限的計算公式為:

      其中γhigh,γlow是經(jīng)驗常數(shù)。

      (5)由以上步驟得到LEC特征雙門限值進行端點檢測。雙門限端點檢測法見文獻[1]。

      4 實驗結(jié)果分析

      實驗測試語音采用TIM IT標(biāo)準(zhǔn)語音庫中的30條連續(xù)語音,16 kHz采樣頻率,16 bit量化,單聲道wav語音格式,采用白噪聲,分別生成-5 dB,5 dB,15 dB的帶噪語音,最后利用NOISEX 92標(biāo)準(zhǔn)噪聲庫中的babble噪聲和pink噪聲,以及實際環(huán)境中的噪聲分別進行了語音檢測分析。

      由于語音信號在一定時間內(nèi)具有短時平穩(wěn)性,本文取幀長為12 ms(每幀包含256個采樣點),幀移為8 m s(每幀包含128個采樣點),F(xiàn)FT點數(shù)為256,門限估計參數(shù)為:

      實驗比較對象為文獻[4]的對數(shù)能量法,首先載入一段干凈的語音信號,如圖2,分別用兩種參數(shù)對語音信號進行分析,用對數(shù)能量檢測的結(jié)果如圖3,用對數(shù)能量倒譜特征的檢測結(jié)果如圖4。

      圖3 語音信號的檢測結(jié)果

      圖4 語音信號的檢測結(jié)果

      圖2 原始語音

      通常在連續(xù)的語音條件差下,不能完全地檢測出端點,因為會有輔音的漏檢和噪音的誤檢造成干擾,因此給出如下式(17)~(19)的評價標(biāo)準(zhǔn)。

      其中l(wèi)eak_num,false_num和F_num分別表示語音被誤檢是噪聲的幀數(shù),噪聲被誤檢是語音的幀數(shù)和總的語音幀數(shù),圖4給出的是本文方法在SNR=15 dB的端點檢測。

      為了進一步檢測本文方法的魯棒性,分別對語音信號進行了pink噪聲分析,如圖5,babble噪聲分析,如圖6。本文為了模擬實際環(huán)境中的噪聲,用采集到的一段道路十字路口的噪聲,進行實際噪聲下的魯棒性分析,如圖7。

      由圖3中的(b)和(c)圖可以看出,在SNR=15 dB時,LE法也可以檢測出語音的起止點位置,但LE法的漏檢率要比LEC法要高,說明LEC法具有更好的語音特征,能正確地區(qū)分語音和噪聲。

      圖5和圖6中可以得出,本文方法分別在pink噪聲和babble噪聲的干擾下,也顯示出了較高的準(zhǔn)確率。在實際噪聲下,如圖7所示,檢測結(jié)果在第一個音的截止點處,有略微的下降,因為道路上會有一定的突然噪聲,但整體的檢測率依然比較準(zhǔn)確,因此可以說明,在不同噪聲情況下,LEC法有著很好的魯棒性。

      同時由表1可知,LEC法在SNR=-5 dB時的總誤檢率僅為20.25%,在信噪比為0~10 dB時,總的錯誤檢測率要明顯低于LE法,并且在pink、babble噪聲條件下,有著良好的抗噪性。

      表1 不同信噪比下不同方法的實驗結(jié)果

      由上述的分析,可以得出結(jié)論,在低信噪比條件,LEC法具有更好的檢測性和穩(wěn)健性。

      5 結(jié)論

      圖5 語音信號的檢測結(jié)果

      圖6 語音信號的檢測結(jié)果

      本文把對數(shù)能量和倒譜相結(jié)合,提出一種新的對數(shù)能量倒譜特征,利用模糊聚類C均值算法和貝葉斯信息判決算法進行門限估計,采用雙門限法進行語音端點檢

      圖7 語音信號的檢測結(jié)果

      測。實驗結(jié)果表明,與對數(shù)能量法比,在連續(xù)語音下,其檢測錯誤率明顯要低,并能夠準(zhǔn)確地檢測出語音的端點,在不同噪聲環(huán)境中表現(xiàn)出了很好的穩(wěn)健性,特別在低信噪比下,具有更好的檢測性能。這主要是對數(shù)能量倒譜結(jié)合了對數(shù)能量和倒譜各自的優(yōu)點,同時克服了一定各自的缺點,從而具有更優(yōu)的檢測性能。這說明多特征相結(jié)合的端點檢測方法是以后研究的熱門方法。

      [1]Shin J W,Kwon H J,Jin S H,et al.Voice activity detection based on conditional MAP criterion[J].IEEE Signal Processing Letters,2008,15:257-260.

      [2]張志敏,郭英,王博.一種基于倒譜特征的語音端點檢測改進算法[J].電聲技術(shù),2006(4):39-42.

      [3]趙歡,王綱金,趙麗霞.一種新的對數(shù)能量譜熵語音端點檢測方法[J].湖南大學(xué)學(xué)報:自然科學(xué)版,2010(7):72-77.

      [4]肖述才,王作英.端點檢測中的一種新的對數(shù)能量特征[J].電聲技術(shù),2004(6):37-41.

      [5]江銘虎,袁保宗,林碧琴.神經(jīng)網(wǎng)絡(luò)語音識別的研究及進展[J].電信科學(xué),1997(7):1-5.

      [6]Haigh J A.Robust voice activity detection using cepstral features[C]//Computer,Communication,Control and Power Engineering,Proceedings of the IEEE Region 10 Conference TENCON,1993,3(3):321-324.

      [7]Tian Y.Fuzzy clustering and bayesian information criterion based threshold estimation for robust voice activity detection[C]//IEEE International Conference on Acoustics,Speech and Signal Processing Proceedings(ICASSP). Hong Kong,China:IEEE,2003(1):444-447.

      [8]Chen S S.Clustering via the Bayesian information criterion with applications in voice recognition[C]//IEEE International Conference on Acoustics Speech and Signal Processing Proceedings(ICASSP).Munich,Germany:IEEE,1998(I):645-648.

      WANG M in1,SUN Guang1,SHEN Lirong2,LIU Li1

      1.School of Information and Control Engineering,Xi’an University of Architecture and Technology,Xi’an 710055,China
      2.Key Laboratory of Photoelectric Logging and Detecting of Oil and Gas,Ministry of Education,Xi’an Shiyou University, Xi’an 710065,China

      Endpoint detection is one of the key technologies of speech recognition,in order to overcome the undesirable detection results of traditional cepstrum distance in speech endpoint detection algorithm under low signal to noise ratio, combined logarithm ic energy feature(LE)with cepstrum features(C)for endpoint detection,proposes a new logarithmic energy cepstrum features(LEC),uses fuzzy C-means clustering and Bayesian information criterion to estimate features threshold,achieves better endpoint judgment,conducts the SNR simulation from-5 dB to 15 dB with noisy speech under three kinds of typical noise.The results indicate that the LEC method’detection error rates is just 20.25%and significantly lower than cepstrum and logarithmic energy method,it also can effectively determine the speech endpoint and improve voice recognition results.

      logarithmic energy;cepstrum distance;Fuzzy C-means clustering;Bayesian Information Criterions(BIC); Endpoint detection

      A

      TP3

      10.3778/j.issn.1002-8331.1209-0255

      WANG M in,SUN Guang,SHEN Lirong,et al.Voice activity detection using logarithmic energy and cepstrum Distance.Computer Engineering and Applications,2014,50(16):198-201.

      國家自然科學(xué)基金(No.61073196)。

      王民(1959—),男,副教授,主要從事智能信息處理研究,主研方向為智能信息處理;孫廣(1986—),男,碩士研究生,主研方向為語音信號處理;沈利榮(1987—),女,碩士研究生,主要從事測井信號檢測研究。E-mail:sunguang216@163.com

      2012-09-23

      2012-11-26

      1002-8331(2014)16-0198-04

      猜你喜歡
      端點對數(shù)語音
      非特征端點條件下PM函數(shù)的迭代根
      含有對數(shù)非線性項Kirchhoff方程多解的存在性
      指數(shù)與對數(shù)
      指數(shù)與對數(shù)
      不等式求解過程中端點的確定
      魔力語音
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      對數(shù)簡史
      八宿县| 阳朔县| 珲春市| 锦屏县| 班戈县| 三明市| 巨鹿县| 马鞍山市| 吉木乃县| 光泽县| 沿河| 百色市| 大港区| 潢川县| 景洪市| 惠水县| 马龙县| 仪征市| 荥阳市| 陵川县| 南漳县| 保靖县| 古交市| 平乡县| 彰武县| 玛曲县| 玉山县| 乡宁县| 澳门| 桑日县| 巨野县| 隆安县| 措美县| 政和县| 凤城市| 宁阳县| 延吉市| 台东县| 鸡泽县| 鹤峰县| 会泽县|