• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于短時(shí)能量過零率和功率譜熵的語(yǔ)音端點(diǎn)檢測(cè)

      2014-11-25 11:00:39葛艷白艷萍胡紅萍
      數(shù)字化用戶 2014年18期
      關(guān)鍵詞:魯棒性

      葛艷  白艷萍  胡紅萍

      【摘 要】隨著語(yǔ)音技術(shù)的發(fā)展,語(yǔ)音識(shí)別技術(shù)應(yīng)用到各個(gè)領(lǐng)域,而端點(diǎn)檢測(cè)是語(yǔ)音識(shí)別系統(tǒng)中至關(guān)重要的一個(gè)環(huán)節(jié),語(yǔ)音端點(diǎn)檢測(cè)的精確度直接影響語(yǔ)音識(shí)別的準(zhǔn)確度.在噪聲環(huán)境下,語(yǔ)音端點(diǎn)檢測(cè)很困難,信噪比下降,本文就基于短時(shí)能量過零率和基于功率譜熵對(duì)所采集的音頻文件進(jìn)行端點(diǎn)檢測(cè),然后對(duì)處理后的音頻進(jìn)行頻譜分析、對(duì)比,得出基于功率譜熵的端點(diǎn)檢測(cè)的魯棒性比較好,識(shí)別效果比較好。

      【關(guān)鍵詞】短時(shí)能量過零率 功率譜熵 端點(diǎn)檢測(cè) 魯棒性

      一、引言

      語(yǔ)音端點(diǎn)檢測(cè)是指從含噪語(yǔ)音中找到語(yǔ)音段的起始點(diǎn),端點(diǎn)檢測(cè)對(duì)孤立詞識(shí)別非常關(guān)鍵,語(yǔ)音識(shí)別一半以上的錯(cuò)誤是由錯(cuò)誤的端點(diǎn)檢測(cè)導(dǎo)致的.準(zhǔn)確的端點(diǎn)檢測(cè)還可以降低后續(xù)處理時(shí)間和存儲(chǔ)空間,使語(yǔ)音識(shí)別系統(tǒng)性能達(dá)到最佳.

      目前,基于能量的方法是目前語(yǔ)音端點(diǎn)檢測(cè)廣泛使用的方法,它在高信噪比條件下效果很好,但是當(dāng)信噪比很低時(shí),純粹的能量參數(shù)效果不再令人滿意。本文就基于短時(shí)能量過零率和基于功率譜熵對(duì)所采集的音頻文件進(jìn)行端點(diǎn)檢測(cè),分析對(duì)比證實(shí)了基于功率譜熵對(duì)語(yǔ)音識(shí)別有比較好的識(shí)別性。

      二、理論概述

      (一)基于短時(shí)能量和過零率的端點(diǎn)檢測(cè)

      1、短時(shí)能量

      由于語(yǔ)音信號(hào)的短時(shí)性,因此對(duì)數(shù)字化后的語(yǔ)音信號(hào)一般進(jìn)行分幀處理,并認(rèn)為1幀內(nèi)信號(hào)的頻譜特征和某些物理特征參量近似看做不變。1幀內(nèi)的信號(hào)能量稱為短時(shí)能量。

      語(yǔ)音和噪聲的區(qū)別可以體現(xiàn)在它們的能量上,語(yǔ)音段的能量比噪聲段能量大,語(yǔ)音段的能量是噪聲段能量疊加語(yǔ)音聲波能量的和。在信噪比很高時(shí),那么只要計(jì)算輸入信號(hào)的短時(shí)能量或短時(shí)平均幅度就能夠把語(yǔ)音段和噪聲背景區(qū)分開。

      設(shè)第n幀語(yǔ)音信號(hào)的短時(shí)能量用En表示,則信號(hào)的短時(shí)能量定義為: 式中,N為信號(hào)幀長(zhǎng)。

      2、過零率

      短時(shí)過零表示一幀語(yǔ)音信號(hào)波形穿過橫軸(零電平)的次數(shù)。過零分析是語(yǔ)音時(shí)域分析中最簡(jiǎn)單的一種。對(duì)于連續(xù)語(yǔ)音信號(hào),過零意味著時(shí)域波形通過時(shí)間軸;而對(duì)于離散信號(hào),如果相鄰的取樣值的改變符號(hào)稱為過零。過零率就是樣本改變符號(hào)次數(shù)。

      定義信號(hào)的短時(shí)平均過零率Zn為:

      式中,為符號(hào)函數(shù),即:

      3、過零率的修正

      為盡可能減少低頻的干擾,在實(shí)際應(yīng)用中往往對(duì)過零率做出簡(jiǎn)單的修正,修正的方法是對(duì)上面的定義做一些修改,即設(shè)定一個(gè)門限T,將過零率的定義修改為穿越該門限的次數(shù)。

      于是,有定義:

      (二)基于熵函數(shù)的語(yǔ)音端點(diǎn)檢測(cè)

      ShenJ L 首先將熵的概念引入到語(yǔ)音信號(hào)處理中,利用幅度譜熵在語(yǔ)音段與非語(yǔ)音段上頻譜的差異達(dá)到檢測(cè)語(yǔ)音端點(diǎn)的目的。在信息論中,用熵來表征信源輸出的平均信息量,假設(shè)信源發(fā)出有限個(gè)符號(hào) ,它們組成的輸出序列前后符號(hào)之間相互統(tǒng)計(jì)獨(dú)立, 分別為 n個(gè)符號(hào)出現(xiàn)的概率,其定義式如下:

      信源熵是概率分布的函數(shù),而且概率分布越平坦熵值就越大。熵函數(shù)語(yǔ)音端點(diǎn)檢測(cè)就是通過檢測(cè)語(yǔ)音頻譜的平坦程度來實(shí)現(xiàn)的。對(duì)于非語(yǔ)音段,其能量比較平穩(wěn)的分布在各個(gè)頻率,因而其頻譜熵比較大。而對(duì)于語(yǔ)音段,聲音的能量主要集中在某幾個(gè)頻段上,因而其頻譜熵比較小。于是可以根據(jù)語(yǔ)音段和非語(yǔ)音段在譜熵上的差異來實(shí)現(xiàn)語(yǔ)音端點(diǎn)的檢測(cè)本文中采用功率譜熵的方法,功率譜熵函數(shù)的構(gòu)造構(gòu)成如下:

      首先對(duì)語(yǔ)音進(jìn)行分幀加漢明窗,幀成為256,幀移128,對(duì)每幀語(yǔ)音信號(hào)計(jì)算其短時(shí)自相關(guān)序列,對(duì)得到的序列進(jìn)行傅里葉變換即可得到功率譜密度。各頻率分量的歸一化功率譜密度函數(shù)可表示為:

      式中表示信號(hào)經(jīng)過FFT變換后的頻譜分量:表示某個(gè)頻率分量i所對(duì)應(yīng)的概率密度函數(shù);N表示FFT變換的長(zhǎng)度(本文取256點(diǎn))??紤]到語(yǔ)音信號(hào)類似于功率信號(hào),同時(shí)根據(jù)功率譜密度的對(duì)稱性,只取FFT一半的點(diǎn)來構(gòu)造以減少計(jì)算量。所以實(shí)際運(yùn)用中采用下式來計(jì)算歸一化功率譜密度函數(shù)

      對(duì)應(yīng)的每一幀語(yǔ)音信號(hào)的信息熵定義為

      H=

      由以上功率譜熵函數(shù)的構(gòu)造過程可以看到熵的大小由功率譜的方差來決定而不是信號(hào)的幅度,幅度的大小不會(huì)影響歸一化功率譜密度函數(shù),語(yǔ)音信號(hào)的譜熵特征分析都是通過檢測(cè)譜的平坦程度,從而達(dá)到語(yǔ)音端點(diǎn)檢測(cè)的目的。對(duì)于無聲段,它的能量在各頻率的分布比較平穩(wěn),反映到信息量上,認(rèn)為其所含的平均信息量即譜熵較大;而對(duì)于語(yǔ)音段,它的能量集中于某幾個(gè)頻段,起伏突變大,那么它所含的平均信息量即譜熵較小,于是可以利用兩者譜熵的差異,進(jìn)行語(yǔ)音段和無聲段的劃分。并且理論上,如果譜的分布保持不變,信號(hào)幅值的大小不會(huì)影響.。因而,功率譜熵對(duì)噪聲有一定的穩(wěn)健性。

      三、MATLAB對(duì)采集到的音頻進(jìn)行端點(diǎn)檢測(cè)實(shí)驗(yàn)

      在本論文所采集的音頻信號(hào)中,撥號(hào)音相當(dāng)于語(yǔ)音段(有聲段),其他的為靜音段(噪聲段),撥號(hào)音段平均能量最高,靜音段平均能量相對(duì)較低,整個(gè)端點(diǎn)檢測(cè)可分為四段:靜音段、過渡段、撥號(hào)段、結(jié)束。使用一個(gè)變量表示當(dāng)前狀態(tài)。靜音段,如果能量或過零率超過低門限,就開始標(biāo)記起始點(diǎn),進(jìn)入過渡段。過渡段當(dāng)兩個(gè)參數(shù)值都回落到低門限以下,就將當(dāng)前狀態(tài)恢復(fù)到靜音狀態(tài)。而如果過渡段中兩個(gè)參數(shù)中的任一個(gè)超過高門限,即被認(rèn)為進(jìn)入撥號(hào)段。處于撥號(hào)段時(shí),如果兩參數(shù)降低到門限以下,而且總的計(jì)時(shí)長(zhǎng)度小于最短時(shí)間門限,則認(rèn)為是一段噪音,繼續(xù)掃描以后的撥號(hào)音數(shù)據(jù),直至標(biāo)記結(jié)束點(diǎn)。從而達(dá)到分離出單個(gè)撥號(hào)音的效果。

      低噪音音頻875417基于短時(shí)能量過零率端點(diǎn)檢測(cè) 低噪音音頻875417基于功率譜熵的端點(diǎn)檢測(cè)。

      四、總結(jié)

      本文分別利用短時(shí)能量過零率和功率譜熵對(duì)銀行卡密碼,手機(jī)號(hào),銀行卡號(hào)所采集的音頻數(shù)據(jù)進(jìn)行端點(diǎn)檢測(cè)實(shí)驗(yàn),此實(shí)驗(yàn)是在適當(dāng)?shù)驮胍粝虏杉?,結(jié)果顯示功率譜熵的檢測(cè)效果會(huì)好點(diǎn),而且魯棒性比較好,但如果噪聲再高點(diǎn),功率譜熵的結(jié)果也不好,故本文有待于進(jìn)一步研究。

      參考文獻(xiàn):

      [1]Dean J,Krusienski.Nvestigations Into Using Matlab For Acoustical Adaptive Filtering[J]. REU PENN STATE Annual Research, 2003, 1: 45-53.

      [2]陳亞勇.MATLAB 信號(hào)處理詳解[M]. 北京:人民郵電出版社,2000.

      [3]程佩青.數(shù)字信號(hào)處理.第三版[M]. 北京:清華大學(xué)出版社,2008.

      [4]Navarro-Mesa, J.An improved speech endpoint detection system in noisy environments by means of third-order spectra[J]. IEEE Signal Processing Letters, 1999, 6(9): 224-226.

      基金項(xiàng)目:

      國(guó)家自然基金(61275120)

      作者簡(jiǎn)介:

      葛艷(1987—),女,山西呂梁,碩士,研究生,研究方向:語(yǔ)音端點(diǎn)檢測(cè)。

      猜你喜歡
      魯棒性
      考慮恒功率負(fù)載的直流微電網(wǎng)穩(wěn)定性與魯棒性控制策略
      武漢軌道交通重點(diǎn)車站識(shí)別及網(wǎng)絡(luò)魯棒性研究
      荒漠綠洲區(qū)潛在生態(tài)網(wǎng)絡(luò)增邊優(yōu)化魯棒性分析
      基于確定性指標(biāo)的弦支結(jié)構(gòu)魯棒性評(píng)價(jià)
      基于時(shí)差效用的雙目標(biāo)資源約束型魯棒性項(xiàng)目調(diào)度優(yōu)化
      一種基于三維小波變換的魯棒視頻水印方案
      一種基于奇異值分解的魯棒水印算法
      基于非支配解集的多模式裝備項(xiàng)目群調(diào)度魯棒性優(yōu)化
      基于遺傳算法的數(shù)字水印嵌入位置的優(yōu)化算法
      西南交通大學(xué)學(xué)報(bào)(2016年6期)2016-05-04 04:13:11
      体育| 泽普县| 乌兰察布市| 建阳市| 周宁县| 邵阳市| 巴塘县| 新田县| 容城县| 沈阳市| 连江县| 长泰县| 晋宁县| 旬邑县| 措勤县| 镇雄县| 灵山县| 临邑县| 临江市| 房产| 汝阳县| 厦门市| 康马县| 阿巴嘎旗| 秀山| 梁平县| 寻乌县| 雷山县| 高碑店市| 专栏| 晋宁县| 房产| 土默特左旗| 彰化市| 修武县| 永宁县| 张家港市| 吴忠市| 博客| 司法| 鹿泉市|