• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于聽覺模型的說話人語音特征提取*

      2012-08-08 02:31:52何朝霞
      關鍵詞:基底膜特征參數(shù)識別率

      何朝霞,潘 平

      (貴州大學 計算機科學與信息學院,貴州 貴陽 550025)

      聲音的感受細胞在內耳的耳蝸部分,而基底膜是耳蝸接收聲音最重要的組織。聲波在外耳腔引起空氣振動,從而引起行波沿基底膜的傳播[1]。基底膜內有許多平行走向的膠原樣纖維,稱為聽弦。聽弦長短不同,靠近蝸底較窄,靠近蝸頂較寬。基底膜約有24 000條聽弦,能夠對不同頻率的聲音產生共鳴,分別反映不同頻率的聲音[2]。不同頻率的聲音產生不同的行波,其峰值出現(xiàn)在基底膜的不同位置上,研究發(fā)現(xiàn),不同的聲音頻率沿著基底膜的分布是對數(shù)型的[3]。

      早在1992年,PATTERSON R就提出了耳蝸模型,該模型是基于一系列帶通濾波器——Gammatone濾波器組[4]實現(xiàn)的,該濾波器組能夠很好地模擬基底膜的分頻特性。本文提出了一種基于Gammatone濾波器組的特征提取方法,該方法能夠很好地提取說話人語音信號的特征,并且具有很高的識別率。

      1 Gammatone濾波器

      Gammatone濾波器的時域表達形式[5]為:

      其中,a為濾波器增益,f為中心頻率,φ為相位,n為濾波器階數(shù)。各種研究表明,n=4時,Gammatone濾波器就有很好的模擬特性。ERB(f)為Gammatone濾波器的等效矩形帶寬[6],它與中心頻率 f的關系[7]為:

      式(2)還可以寫成如下形式:

      其中,EarQ=9.264 49,min BW=24.7,order=1。

      由于在實際應用中,增益a和初始相位φ不會影響濾波器的性能,因此可以忽略,所以只要確定Gammatone濾波器的中心頻率,其性能也就確定了。中心頻率f的計算公式[8]為:

      其中,fH為濾波器的截止頻率,v為濾波器的重疊因子。

      Gammatone濾波器的時域表達式為沖擊響應函數(shù),將其進行傅里葉變換就可以得到其頻率響應特性。不同中心頻率的Gammatone濾波器的幅頻響應曲線如圖1所示。

      取n=4,將式(1)進行拉普拉斯變換得到:

      其中,b=2πERB(f),ω=2πf。

      將 G(s)轉換為 z變換 G(z),再反變換得到:

      將語音信號與g(n)卷積就可以得到濾波器的輸出。

      2 特征提取過程

      從上述Gammatone濾波器的介紹,仿照MFCC參數(shù)提取過程,考慮將Gammatone濾波器組運用到說話人識別中參數(shù)的提取過程,這樣就更加符合人耳的聽覺特性。該提取過程如圖2所示,具體步驟如下。

      圖2 基于Gammatone濾波器組的參數(shù)提取流程

      (1)為了提升高頻部分,使信號的頻譜變得平坦,將語音信號經(jīng)過預加重數(shù)字濾波器H(z)=1-0.937 5z-1。

      (2)將預加重后的信號進行分幀,幀長256點,幀移100點,加漢明窗;再經(jīng)過離散傅里葉變換(DFT)得到頻譜特性,求出頻譜平方,即能量譜。

      (3)設計 Gammatone濾波器組。Gammatone濾波器組的中心頻率在50 Hz~3 000 Hz之間。這里采用的是4階Gammatone濾波器,其通道數(shù)N和帶寬可以調節(jié),根據(jù)式(3),取0

      (4)經(jīng)過Gammatone濾波器組后得到相應頻帶的能量,再進行對數(shù)運算和反離散余弦IDCT變換,就可以得到靜態(tài)特征參數(shù)了。

      3 仿真實驗

      仿真實驗的語料庫來源于貴州省公安廳提供的語料及學校部分學生隨機利用MP4所得的錄音,語料時間各不相同。采用高斯混合模型(GMM)進行與文本相關的說話人確認實驗。

      圖4為 48通道 Gammatone濾波器組(order=1時)的幅頻曲線。

      圖5為某一說話人語音的波形及其經(jīng)過特征提取系統(tǒng)(系統(tǒng)中Gammatone濾波器組為48通道)所得到的GFCC系數(shù)輸出曲線。

      從圖 5(b)可以可以看出,該系數(shù)含有豐富的內容,對識別率的提高有很大的幫助。下面將該特征運用到GMM識別系統(tǒng)中,具體結果如下。

      首先是不同時間長度的語音信號,時間長度分別為5 s、20 s、50 s,將其在 64 通道 Gammatone 濾波器組所得到的靜態(tài)特征參數(shù)(簡稱GFCC)與 MFCC(Mel濾波器組維數(shù)為24)靜態(tài)參數(shù)在識別系統(tǒng)中進行了識別率的對比,其結果如圖6所示。

      從圖6可以看出,64通道的GFCC靜態(tài)特征參數(shù)比MFCC靜態(tài)特征具有更好的識別率。

      同時,將不同order值、不同濾波器組通道數(shù)所得的GFCC參數(shù)在識別系統(tǒng)中進行了識別率比較,如圖7所示。其中,order值分別為 0.1、0.5、1,濾波器組通道數(shù)分別為48、64、128。從圖 7可以看出,濾波器組通道數(shù)越高,識別率越高;order值越小,識別率越高。

      本文介紹了基于人耳聽覺特性的Gammatone濾波器組的特征提取方法,并通過實驗驗證了該特征在濾波器通道數(shù)較多或ERB(f)較小時具有較高的識別率。但是同時也得出只有在濾波器組通道數(shù)較高時才有較高的識別率,增加了數(shù)據(jù)的復雜度。在以后的研究中需要考慮通過降低濾波器組的通道數(shù)提高識別率的方法。

      [1]JOHANNESMA P I M.The pre-response stimulus ensemble of neurons in the cochlear nucleus[C].Proceedings of the Symposium on Hearing Theory, 1972:58-69.

      [2]COOKE M P.Modeling auditory proeessing and organization[M].Cambridge,U.K: Cambridge University Press,1993.

      [3]韓紀慶,張磊,鄭浩然.語音信號處理[M].北京:清華大學出版社,2008.

      [4]SLANEY M.An efficient implementation of the pattersonholdswort auditory filter bank.Apple ComPuter Teehnieal RePort#35 Pereeption GrouP-Advaneed Technology GrouP[R].ComPuter, Inc:Apple, 1993.

      [5]Shao Yang,Wang Deliang.Robust speaker identification using auditory features and computational auditory scene analysis[C].IEEE International Conference on Acoustics,Speech, and Signal Processing,2008,5:1589.

      [6]SRINIVASAN S, Wang Deliang.Transforming Binary uncertainties for robust speech recognition [C].IEEE Transactions on Audio, Speech and Language Processing,2007,15(7):2130-2140.

      [7]Wang Deliang,BROWN G J.Computational auditory scene analysis: principles, algorithms, and applications[M].Hoboken, NJ: Wiley-IEEE Press, 2006.

      [8]王男,錢志鴻,王雪,等.基于伽馬通濾波器組的聽覺特征提取算法研究[J].電子學報,2010,38(3).

      猜你喜歡
      基底膜特征參數(shù)識別率
      新生小鼠耳蝸基底膜的取材培養(yǎng)技術*
      故障診斷中信號特征參數(shù)擇取方法
      基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
      計算機工程(2020年3期)2020-03-19 12:24:50
      基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關系
      提升高速公路MTC二次抓拍車牌識別率方案研究
      豚鼠耳蝸基底膜響應特性的實驗測試與分析
      振動與沖擊(2018年4期)2018-03-05 00:34:24
      基于PSO-VMD的齒輪特征參數(shù)提取方法研究
      Fibulin-2在診斷乳腺基底膜連續(xù)性的準確性研究
      高速公路機電日常維護中車牌識別率分析系統(tǒng)的應用
      宣汉县| 岳阳市| 呈贡县| 扶沟县| 汶上县| 庆阳市| 渝中区| 阳城县| 南汇区| 库尔勒市| 黔江区| 华容县| 南阳市| 彩票| 蒲江县| 洪雅县| 信宜市| 松阳县| 岫岩| 西城区| 镇沅| 富民县| 黑山县| 浏阳市| 开平市| 江永县| 铜山县| 阜宁县| 集贤县| 沧源| 防城港市| 惠州市| 涞源县| 兰坪| 高唐县| 三河市| 文水县| 钦州市| 长沙市| 安塞县| 阳新县|