• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于雙耳語(yǔ)音分離和丟失數(shù)據(jù)技術(shù)的魯棒語(yǔ)音識(shí)別算法

      2019-11-11 12:56:10周琳趙一良朱竑諭湯一彬
      聲學(xué)技術(shù) 2019年5期
      關(guān)鍵詞:雙耳子帶聲源

      周琳,趙一良,朱竑諭,湯一彬

      基于雙耳語(yǔ)音分離和丟失數(shù)據(jù)技術(shù)的魯棒語(yǔ)音識(shí)別算法

      周琳1,趙一良1,朱竑諭1,湯一彬2

      (1. 東南大學(xué)信息與工程學(xué)院水聲信號(hào)處理教育部重點(diǎn)實(shí)驗(yàn)室,江蘇南京 210096;2. 河海大學(xué)物聯(lián)網(wǎng)學(xué)院,江蘇常州 213022)

      魯棒語(yǔ)音識(shí)別技術(shù)在人機(jī)交互、智能家居、語(yǔ)音翻譯系統(tǒng)等方面有重要應(yīng)用。為了提高在噪聲和語(yǔ)音干擾等復(fù)雜聲學(xué)環(huán)境下的語(yǔ)音識(shí)別性能,基于人耳聽覺系統(tǒng)的掩蔽效應(yīng)和雞尾酒效應(yīng),利用不同聲源的空間方位,提出了基于雙耳聲源分離和丟失數(shù)據(jù)技術(shù)的魯棒語(yǔ)音識(shí)別算法。該算法首先根據(jù)目標(biāo)語(yǔ)音的空間方位信息,在雙耳聲信號(hào)的等效矩形帶寬(Equivalent Rectangular Bandwidth, ERB)子帶內(nèi)進(jìn)行混合語(yǔ)音信號(hào)的分離,從而得到目標(biāo)語(yǔ)音的數(shù)據(jù)流。針對(duì)分離后目標(biāo)語(yǔ)音在頻域存在頻譜數(shù)據(jù)丟失的問題,利用丟失數(shù)據(jù)技術(shù)修正基于隱馬爾科夫模型的概率計(jì)算,再進(jìn)行語(yǔ)音識(shí)別。仿真實(shí)驗(yàn)表明,由于雙耳聲源分離方法得到的目標(biāo)語(yǔ)音數(shù)據(jù)去除了噪聲和干擾的影響,所提出的算法顯著提高了復(fù)雜聲學(xué)環(huán)境下的語(yǔ)音識(shí)別性能。

      空間聽覺;雙耳聲源分離;丟失數(shù)據(jù)技術(shù);誤識(shí)率

      0 引言

      魯棒語(yǔ)音信號(hào)處理研究認(rèn)為,實(shí)際應(yīng)用環(huán)境和模型訓(xùn)練環(huán)境的不匹配是造成了識(shí)別系統(tǒng)性能下降的主要原因,因此盡可能減小訓(xùn)練環(huán)境和測(cè)試環(huán)境的失配,是當(dāng)前魯棒語(yǔ)音信號(hào)處理系統(tǒng)的主要研究方向,常用的方法包括魯棒特征參數(shù)提取、特征補(bǔ)償和模型自適應(yīng)等。

      人耳聽覺系統(tǒng)在實(shí)際嘈雜環(huán)境下的感知能力是非常強(qiáng)的,BREGMAN[1]結(jié)合心理和生理聲學(xué)研究,分析人耳聽覺系統(tǒng)的雞尾酒效應(yīng),指出人耳聽覺感知過程可以分為兩個(gè)階段:第一,聲學(xué)信號(hào)的切分(segmentation)過程,第二,屬于同一聲源的感知成分的組合(grouping)過程,從而形成不同聲源連貫的數(shù)據(jù)流(coherent stream)。也就是說聽覺系統(tǒng)的感知過程,實(shí)際上是聽覺場(chǎng)景中不同聲源信號(hào)的重組織過程,混合聲信號(hào)中屬于同一聲源的分量組織到同一個(gè)數(shù)據(jù)流中,得到各個(gè)聲源對(duì)應(yīng)的數(shù)據(jù)流,使得人耳聽覺系統(tǒng)可以區(qū)分不同的聲源。由此可見,包含目標(biāo)聲源、噪聲和干擾的混合聲信號(hào)分離和重構(gòu)是聽覺系統(tǒng)聲學(xué)感知和理解的基礎(chǔ),也為語(yǔ)音信號(hào)和聲學(xué)信號(hào)的魯棒性研究提供了新的方向,因此我們從混合語(yǔ)音分離的角度來研究語(yǔ)音識(shí)別系統(tǒng)的魯棒性。

      目前常用的語(yǔ)音分離方法包括:基于基函數(shù)的分離方法、基于模型的分離方法和基于計(jì)算聽覺場(chǎng)景分析(Computational Auditory Scene Analysis, CASA)的方法。基于模型和基于基函數(shù)的方法,在實(shí)際語(yǔ)音分離中的性能下降都是由于訓(xùn)練環(huán)境和測(cè)試環(huán)境的不匹配導(dǎo)致的。而基于CASA的語(yǔ)音分離是根據(jù)聽覺系統(tǒng)對(duì)聲學(xué)事件的重組織過程實(shí)現(xiàn)不同聲源的分離[2],目前認(rèn)為在CASA框架下,引入基于丟失、不可靠聲學(xué)信息的分類,可以規(guī)避訓(xùn)練和測(cè)試環(huán)境的不匹配問題。通過對(duì)混合信號(hào)的時(shí)頻單元(Time-Frequency, TF)估計(jì)理想二進(jìn)制掩蔽(Ideal Binary Mask, IBM),將其作為各個(gè)源信號(hào)的標(biāo)識(shí)位,從而形成各個(gè)聲源對(duì)應(yīng)的時(shí)頻單元,不僅可以解決欠定語(yǔ)音分離問題,還可以大幅提高噪聲環(huán)境下分離語(yǔ)音的信噪比、可懂度和識(shí)別率,因此基于CASA估計(jì)IBM已經(jīng)成為CASA的主要目標(biāo)。

      CASA的難點(diǎn)是提取具有感知區(qū)分性的分離特征參數(shù)用于估計(jì)IBM,常用的分離特征參數(shù)包括:基音周期、幅度調(diào)制(Amplitude Modulation, AM)、幅度調(diào)制譜(Amplitude Modulation Spectrogram, AMS)、Gammatone頻譜倒譜系數(shù)(Gammatone Frequency Cepstral Coefficients, GFCC)[3]等。但是以上分離特征參數(shù)存在明顯不足,首先在噪聲環(huán)境下,基音周期估計(jì)的準(zhǔn)確性受到影響,同時(shí)基音周期和說話人、說話內(nèi)容關(guān)系密切,因此僅僅依賴于基音、諧波分量來切分和組合感知單元,會(huì)嚴(yán)重影響分離的效果。其次,基音周期、諧波可以用于濁音段的分離,但由于語(yǔ)音信號(hào)中的清音成分沒有諧波結(jié)構(gòu),且能量較小,更容易受到干擾,因此目前的CASA不具備分離清音的能力。

      針對(duì)當(dāng)前CASA的不足,本文對(duì)基于空間方位感知的雙耳語(yǔ)音分離進(jìn)行研究,是基于以下考慮:首先,人耳聽覺系統(tǒng)的雙側(cè)聽覺神經(jīng)系統(tǒng)能夠分析和整合同側(cè)、對(duì)側(cè)聲信號(hào),根據(jù)雙耳聲信號(hào),人耳可以檢測(cè)最多5個(gè)聲源信號(hào);其次聲源的空間方位信息與語(yǔ)音信號(hào)內(nèi)容、說話人無(wú)關(guān),即使待分離的源信號(hào)基音、諧波特征與訓(xùn)練數(shù)據(jù)不同,也能依據(jù)方位信息進(jìn)行有效分離。

      基于方位信息的語(yǔ)音分離具有以上優(yōu)勢(shì),目前有不少該方向的研究工作。YAO等[4]將雙耳聲源定位和盲源分離方法相結(jié)合,用于包含語(yǔ)音和噪聲的混合雙耳聲信號(hào)的語(yǔ)音分離。ANDRESA等[5]則在線性約束最小方差框架下實(shí)現(xiàn)雙耳聲信號(hào)的波束成形。ZOHOURIAN等[6]則利用耳間時(shí)間差(Inter-aural Time Difference, ITD)、耳間強(qiáng)度差(Inter-aural Level Differences, ILD)特征參數(shù),基于最小均方誤差(Minimum Mean Squared Error, MMSE)準(zhǔn)則進(jìn)行雙耳聲源定位,在此基礎(chǔ)上,利用雙耳廣義旁瓣抵消器(Generalized Sidelobe Canceller, GSC)波束形成方法用于分離目標(biāo)說話人語(yǔ)音。基于波束形成的不足就是這些方法沒有充分利用雙耳的空間特征信息。MUROTA等[7]針對(duì)這一問題,提出了對(duì)左、右耳聲信號(hào)利用不同的統(tǒng)計(jì)模型進(jìn)行建模,再基于最小均方誤差譜幅度估計(jì)(Minimum Mean Square Error-Short Time Spectral Amplitude, MMSE STSA)對(duì)混合語(yǔ)音進(jìn)行分離。

      除了基于波束成形的語(yǔ)音分離,基于模式識(shí)別的雙耳語(yǔ)音分離也是主要的研究方向。KIM等[8]基于ITD、ILD的方差對(duì)頻點(diǎn)的掩蔽值進(jìn)行估計(jì),基于頻點(diǎn)進(jìn)行目標(biāo)聲源的分離。由于基于頻點(diǎn)的分離方法,容易受到噪聲和混響的干擾,會(huì)導(dǎo)致頻點(diǎn)分類的錯(cuò)誤。HARDING等[9]在聽覺分析濾波器Gammatone子帶內(nèi)利用ITD和ILD參數(shù),基于直方圖的概率模型實(shí)現(xiàn)子帶分離。但要求測(cè)試聲源的角度設(shè)置,與訓(xùn)練過程保持一致,否則會(huì)造成聲源分類的誤判。KERONEN等[10]、ALINAGHI等[11]利用高斯混合模型(Gaussian Mixed Model, GMM)對(duì)混合矢量(Mixing Vector, MV)、ITD、ILD進(jìn)行建模,用于解決TF單元的分類問題,但混響對(duì)該類算法性能的影響較大。WANG等[12]將深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNN)引入到語(yǔ)音分離中,將雙耳語(yǔ)音分離看成有監(jiān)督的學(xué)習(xí)問題,并將空間特征線索從ITD、ILD擴(kuò)展為雙耳互相關(guān)函數(shù)(Cross Correlation Function, CCF)和波束成形后的頻譜特征參數(shù)[13],用于訓(xùn)練DNN。JIANG等[14]同時(shí)提取雙耳和單耳特征用于訓(xùn)練每一個(gè)頻帶的DNN網(wǎng)絡(luò),從而進(jìn)行二值分類。YU等[15]則利用DNN對(duì)TF單元的雙耳特征線索進(jìn)行建模,并利用雙耳房間脈沖響應(yīng)(Binaural Room Impulse Responses, BRIR)與單聲源信號(hào)的卷積結(jié)果作為訓(xùn)練樣本,這樣DNN對(duì)混響環(huán)境下的雙耳特征線索進(jìn)行建模,但如果訓(xùn)練階段使用的BRIR與測(cè)試的BRIR不匹配,會(huì)造成分離語(yǔ)音質(zhì)量的下降。

      基于GMM、DNN等模型的ITD、ILD子帶分離中,訓(xùn)練和測(cè)試需要設(shè)置一致的目標(biāo)聲源、干擾聲源方位,這一條件限制了算法的應(yīng)用場(chǎng)合。針對(duì)這一不足,本文提出在Gammatone子帶內(nèi)基于雙耳聲信號(hào)的相似度實(shí)現(xiàn)子帶的分離,在此基礎(chǔ)上,利用丟失數(shù)據(jù)技術(shù)實(shí)現(xiàn)分離后目標(biāo)語(yǔ)音數(shù)據(jù)流的識(shí)別。本文利用Gammtone濾波器組首先對(duì)雙耳混合聲信號(hào)進(jìn)行子帶分析,在子帶內(nèi)通過雙耳空間特征參數(shù)ITD、ILD,基于雙耳間聲道的相似度,實(shí)現(xiàn)子帶目標(biāo)聲源的掩蔽值計(jì)算,從而得到了目標(biāo)聲源的數(shù)據(jù)流。分離后的目標(biāo)聲源流在丟失數(shù)據(jù)(missing data)技術(shù)框架下進(jìn)行丟失頻譜的估計(jì)和重建,用于語(yǔ)音識(shí)別。本文算法基于耳間聲信號(hào)的相似度進(jìn)行目標(biāo)聲源分離,避免了對(duì)目標(biāo)聲源、干擾聲源方位角度的限制,同時(shí)本文僅利用雙耳空間特征進(jìn)行目標(biāo)聲源分離時(shí),當(dāng)目標(biāo)聲源、干擾聲源為語(yǔ)音信號(hào)時(shí),也可以實(shí)現(xiàn)準(zhǔn)確的語(yǔ)音分離和識(shí)別。針對(duì)不同類型、不同方位的噪聲環(huán)境下的仿真實(shí)驗(yàn)表明,本文算法的識(shí)別性能均有明顯提升。

      1 基于空間分離和丟失數(shù)據(jù)的語(yǔ)音識(shí)別系統(tǒng)結(jié)構(gòu)

      本文提出的基于雙耳語(yǔ)音分離和丟失數(shù)據(jù)技術(shù)的語(yǔ)音識(shí)別算法結(jié)構(gòu)如圖1所示。針對(duì)雙耳聲信號(hào),算法包括訓(xùn)練和測(cè)試兩部分。測(cè)試階段,雙耳聲信號(hào)經(jīng)過Gammtone濾波后,根據(jù)目標(biāo)語(yǔ)音的方位角,在每個(gè)子帶內(nèi)計(jì)算掩蔽值,用于混合雙耳聲信號(hào)的分離,得到目標(biāo)語(yǔ)音的數(shù)據(jù)流后,通過丟失數(shù)據(jù)技術(shù)進(jìn)行目標(biāo)語(yǔ)音識(shí)別。

      圖1 基于雙耳聲源分離和丟失數(shù)據(jù)的語(yǔ)音識(shí)別算法結(jié)構(gòu)框圖

      1.1 基于空間方位的雙耳語(yǔ)音分離

      根據(jù)圖1的算法結(jié)構(gòu),訓(xùn)練階段利用頭相關(guān)脈沖響應(yīng)函數(shù)(Head Related Impulse Response, HRIR)與單聲道白噪聲信號(hào)進(jìn)行卷積,得到[-90°, 90°]方位角范圍內(nèi)間隔為5°的方向性雙耳聲信號(hào),這里-90°表示正左方,0°表示正前方,90°表示正右方。訓(xùn)練時(shí)采用的方向性雙耳聲信號(hào)只包含特定方位的單個(gè)聲源,用于建立每個(gè)方位角對(duì)應(yīng)的ITD和ILD數(shù)據(jù)庫(kù),其中ITD定義為雙耳聲信號(hào)互相關(guān)函數(shù)最大值對(duì)應(yīng)的延遲:

      由于語(yǔ)音信號(hào)在頻域具有良好的稀疏性,并且人耳聽覺系統(tǒng)具有掩蔽效應(yīng),我們將不同聲源信號(hào)的頻點(diǎn)離散正交性[16]擴(kuò)展到子帶正交性,即用表示第個(gè)聲源、第個(gè)子帶信號(hào)的傅里葉變換,則在第個(gè)子帶內(nèi),不同聲源的聲信號(hào)滿足:

      根據(jù)子帶正交性條件,在任意一個(gè)子帶內(nèi),至多只有一個(gè)聲源信號(hào)占主導(dǎo)。以右耳信號(hào)為例,子帶內(nèi)的混合信號(hào)可做近似為

      對(duì)第個(gè)聲源建立二值掩碼:

      1.2 基于丟失數(shù)據(jù)的語(yǔ)音識(shí)別

      由于本文利用Gammtone濾波組對(duì)雙耳聲信號(hào)進(jìn)行子帶劃分,得到目標(biāo)語(yǔ)音對(duì)應(yīng)各個(gè)Gammtone子帶的頻域信號(hào),因此選擇基于Gammtone子帶頻譜的RateMap參數(shù)作為HMM語(yǔ)音識(shí)別的特征參數(shù),RateMap定義為每個(gè)子帶信號(hào)1(,)的均值組成的向量。

      基于HMM的語(yǔ)音識(shí)別利用GMM模型對(duì)每個(gè)狀態(tài)的RateMap參數(shù)進(jìn)行建模,假設(shè)GMM包含個(gè)高斯分量,協(xié)方差矩陣為對(duì)角陣,則某一狀態(tài)下RateMap的概率密度函數(shù)表示為

      由于RateMap特征參數(shù)存在丟失的問題,直接利用丟失數(shù)據(jù)技術(shù)[17]對(duì)式(10)進(jìn)行修正,其中邊緣概率方法直接忽略丟失的特征參數(shù),則式(10)可改寫為

      根據(jù)Bayes準(zhǔn)則:

      其中:

      將式(13)代入到式(12),得到:

      整體而言,本文算法利用Gammtone濾波器,對(duì)包含干擾信號(hào)的混合雙耳聲信號(hào)進(jìn)行子帶分析,在頻域上根據(jù)目標(biāo)語(yǔ)音的方位信息,基于式(9),獲取目標(biāo)語(yǔ)音的子帶數(shù)據(jù)。根據(jù)目標(biāo)語(yǔ)音的子帶信號(hào),計(jì)算對(duì)應(yīng)的RateMap參數(shù),并針對(duì)RateMap存在特征參數(shù)丟失的情況,根據(jù)式(11)對(duì)HMM的概率計(jì)算進(jìn)行修正,或者利用式(15)對(duì)丟失特征進(jìn)行估計(jì),再通過常規(guī)的HMM方法進(jìn)行識(shí)別,得到最終的識(shí)別結(jié)果。

      2 基于MATLAB平臺(tái)的雙耳聲源分離和丟失數(shù)據(jù)的孤立詞識(shí)別性能分析

      2.1 仿真實(shí)驗(yàn)參數(shù)設(shè)置

      基于HMM的孤立詞識(shí)別系統(tǒng),本節(jié)詳細(xì)分析基于雙耳聲源分離和丟失數(shù)據(jù)技術(shù)的魯棒語(yǔ)音識(shí)別系統(tǒng)性能。本文選擇TIMIT語(yǔ)音庫(kù)[18]中的21個(gè)單詞作為孤立詞,將每個(gè)孤立詞的144個(gè)樣本用于訓(xùn)練,71個(gè)樣本用于測(cè)試,這樣共有3 024個(gè)樣本用于訓(xùn)練,1 491個(gè)樣本用于測(cè)試。樣本采樣率為16 kHz,Gammatone濾波器組通道數(shù)為64,對(duì)應(yīng)的中心頻率取值范圍為50~8 000 Hz,濾波器的階數(shù)取4。每個(gè)孤立詞的RateMap參數(shù)采用對(duì)應(yīng)的HMM模型,狀態(tài)數(shù)為10,每個(gè)狀態(tài)包含8個(gè)高斯分量。

      由于本文算法是基于混合聲信號(hào)中不同聲源的空間方位,實(shí)現(xiàn)目標(biāo)語(yǔ)音的分離,因此需要得到不同空間方位的雙耳聲信號(hào),這里通過將單聲道的源信號(hào)和對(duì)應(yīng)方位的HRIR進(jìn)行卷積,得到對(duì)應(yīng)方位的左、右耳雙耳聲信號(hào),生成過程如圖2所示。

      圖2 方向性雙耳聲信號(hào)生成過程

      基于HMM的孤立詞識(shí)別系統(tǒng)對(duì)方位角為0°的目標(biāo)語(yǔ)音進(jìn)行識(shí)別,這樣測(cè)試聲信號(hào)的特征參數(shù)包含了0°方位角的空間信息。相對(duì)應(yīng)的,圖1中訓(xùn)練階段,HMM模型集采用的同樣是方位角為0°的訓(xùn)練樣本。

      本節(jié)的仿真實(shí)驗(yàn)主要分為兩部分,首先分析干擾聲源為噪聲信號(hào)時(shí),本文基于雙耳聲源分離和數(shù)據(jù)丟失的語(yǔ)音識(shí)別系統(tǒng)性能,采用NoiseX92[19]中的白噪聲、工廠噪聲和粉紅噪聲。其次分析干擾聲源為語(yǔ)音信號(hào)時(shí),本文所提算法的性能,干擾語(yǔ)音選擇了CHAINS Speech Corpus[20]語(yǔ)音庫(kù)SOLO中的一段女聲語(yǔ)音。測(cè)試時(shí)按不同的信噪比將測(cè)試樣本集中的目標(biāo)語(yǔ)音與干擾噪聲、干擾語(yǔ)音進(jìn)行混合,信噪比(Signal Noise Ratio, SNR)取0、5、10、15、20 dB。兩類仿真測(cè)試過程中,目標(biāo)語(yǔ)音的方位角均為0°,干擾噪聲、干擾語(yǔ)音的方位角分別設(shè)置為30°、60°、90°,目標(biāo)語(yǔ)音和干擾信號(hào)的方位角分布如圖3所示。

      圖3 目標(biāo)語(yǔ)音與干擾聲源的方位示意圖

      由于丟失數(shù)據(jù)技術(shù)分為基于邊緣概率的方法和基于數(shù)據(jù)估計(jì)的方法,因此本文分別對(duì)基于雙耳聲源分離和邊緣概率的孤立詞識(shí)別算法、基于雙耳聲源分離和數(shù)據(jù)估計(jì)的孤立詞識(shí)別算法性能進(jìn)行分析,采用誤識(shí)率(Word Error Rate, WER)作為識(shí)別系統(tǒng)性能指標(biāo)。同時(shí)我們?yōu)榱丝紤]系統(tǒng)性能的上限,給出子帶分離的理想掩蔽值(也稱為理想掩膜)。理想掩蔽值直接根據(jù)每個(gè)Gammatone子帶內(nèi)的目標(biāo)語(yǔ)音和干擾聲源的能量,計(jì)算對(duì)應(yīng)的信噪比獲得局部判決值(Local Criterion, LC),通過設(shè)定LC閾值對(duì)每個(gè)子帶進(jìn)行目標(biāo)語(yǔ)音的分類:

      我們將基于MFCC系數(shù)和HMM模型的識(shí)別系統(tǒng)作為基線系統(tǒng),因此本文比較三種識(shí)別算法的性能:基線系統(tǒng)、基于雙耳聲源分離和丟失數(shù)據(jù)技術(shù)的識(shí)別系統(tǒng)、基于理想掩蔽值的雙耳聲源分離和丟失數(shù)據(jù)技術(shù)的識(shí)別系統(tǒng)。

      2.2 實(shí)驗(yàn)一:干擾為噪聲的仿真結(jié)果

      首先給出干擾分別為白噪聲、粉紅噪聲和工廠噪聲時(shí),不同信噪比(Signal Noise Ratio, SNR)時(shí),不同識(shí)別算法的誤識(shí)率結(jié)果,如圖4~6所示。針對(duì)每一類噪聲,圖示自上而下分別表示噪聲在30°、60°、90°的誤識(shí)率WER比較結(jié)果。

      首先根據(jù)圖4~6的仿真結(jié)果,不同類型噪聲條件下,本文算法的WER均低于基線系統(tǒng)。同時(shí),信噪比越低,本文算法的性能改善越明顯,這是由于信噪比越低,基線系統(tǒng)的語(yǔ)音特征參數(shù)受到的噪聲干擾越嚴(yán)重,而本文算法利用方位信息分離出的目標(biāo)語(yǔ)音數(shù)據(jù),受到噪聲的干擾明顯減少。

      (a) 干擾噪聲位于30°

      (b) 干擾噪聲位于60°

      (c) 干擾噪聲位于90°

      其次,對(duì)于同一類型的噪聲,目標(biāo)語(yǔ)音與干擾噪聲的空間方位相隔越大,即干擾噪聲的方位從30°變化到60°、90°時(shí),本文算法的性能改善越明顯。這是由于目標(biāo)語(yǔ)音和干擾噪聲的空間方位間隔越大,各個(gè)子帶內(nèi),不同方位聲源的雙耳聲信號(hào)ITD、ILD的差異性逐步增加,從而提高了子帶分類的正確率,進(jìn)而改善了目標(biāo)語(yǔ)音數(shù)據(jù)流的識(shí)別率。

      再者,不管是基于理想的掩蔽值,還是基于估計(jì)的掩蔽值,掩蔽值分離后的目標(biāo)語(yǔ)音采用邊緣化概率方法和采用數(shù)據(jù)估計(jì)方法,進(jìn)行孤立詞識(shí)別時(shí)的誤識(shí)率基本一致。相比較而言,邊緣化算法略優(yōu)于數(shù)據(jù)估計(jì)算法的識(shí)別性能,這是由于邊緣概率算法避免利用單一估計(jì)值來表示不可靠分量,相反,它只考慮丟失特征參數(shù)的分布,而數(shù)據(jù)估計(jì)技術(shù)更依賴于特征參數(shù)的統(tǒng)計(jì)概率分布而不是數(shù)據(jù)的可靠性,其優(yōu)勢(shì)在于可以得到完整的語(yǔ)音特征向量,從而可以采用常規(guī)的識(shí)別算法。

      在干擾為噪聲時(shí),基于理想掩蔽值的孤立詞識(shí)別性能要優(yōu)于基于估計(jì)掩蔽值的識(shí)別性能。這是由于理想掩蔽值對(duì)目標(biāo)語(yǔ)音子帶的判決更加準(zhǔn)確,分離后的目標(biāo)語(yǔ)音數(shù)據(jù)流基本只包含目標(biāo)語(yǔ)音成分,因此理想掩蔽值對(duì)應(yīng)的識(shí)別系統(tǒng)性能可以作為基于空間分離的識(shí)別系統(tǒng)上限。根據(jù)圖4~6,本文算法的識(shí)別性能和基于理想掩蔽值的識(shí)別系統(tǒng)性能存在一定的差距,根據(jù)我們目前的研究發(fā)現(xiàn),當(dāng)混合雙耳聲信號(hào)中包含了兩個(gè)以上的聲源時(shí),ITD、ILD的聯(lián)合分布與單聲源的ITD、ILD分布有較大的差異,混合雙耳聲信號(hào)僅僅利用歐式距離進(jìn)行分離,其子帶分類的準(zhǔn)確性受到限制。因此提高混合雙耳聲信號(hào)中子帶分類的正確率,可以顯著提高后端識(shí)別系統(tǒng)的性能,即基于雙耳聲源分離和丟失數(shù)據(jù)的孤立詞識(shí)別系統(tǒng)性能還有較大的提升空間。

      (a) 干擾噪聲位于30°

      (b) 干擾噪聲位于60°

      (c) 干擾噪聲位于90°

      (a) 干擾噪聲位于30°

      (b) 干擾噪聲位于60°

      (c) 干擾噪聲位于90°

      2.3 仿真實(shí)驗(yàn)二:干擾為語(yǔ)音的仿真結(jié)果

      目前常用的魯棒語(yǔ)音識(shí)別算法如特征補(bǔ)償、模型自適應(yīng)等,對(duì)提取的純凈語(yǔ)音特征參數(shù)采用HMM、GMM等進(jìn)行建模,測(cè)試環(huán)境中的噪聲影響了HMM、GMM等模型參數(shù)分布,例如概率模型的均值向量和協(xié)方差矩陣,通常采用線性方法對(duì)噪聲干擾后的模型參數(shù)分布進(jìn)行預(yù)測(cè)。但當(dāng)干擾為語(yǔ)音信號(hào)時(shí),例如有兩個(gè)或者多個(gè)說話人時(shí),由于干擾語(yǔ)音的特征參數(shù)與目標(biāo)語(yǔ)音的特征參數(shù)分布相似度高,那么干擾語(yǔ)音對(duì)目標(biāo)語(yǔ)音特征參數(shù)模型的影響就不能簡(jiǎn)單地利用線性模型來模擬,因此常規(guī)的魯棒語(yǔ)音識(shí)別算法對(duì)干擾語(yǔ)音的魯棒性較弱。本文所提算法從空間分離的角度,在空間域進(jìn)行混合雙耳聲信號(hào)的分離,不同聲源的區(qū)分特征更為明顯,因此本文進(jìn)一步分析在干擾為語(yǔ)音時(shí),不同算法的識(shí)別性能差異。

      同樣,目標(biāo)說話人的方位固定在方位0°,另一說話人的方位為30°、60°和90°,語(yǔ)音干擾的信干比取值范圍與噪聲的信噪比取值方位相同,不同算法的誤識(shí)率結(jié)果如圖7所示。

      根據(jù)圖7結(jié)果,相對(duì)于圖4~6的識(shí)別結(jié)果,在干擾語(yǔ)音條件下,基線系統(tǒng)的誤識(shí)率要遠(yuǎn)遠(yuǎn)高于在噪聲環(huán)境下的誤識(shí)率,這是由于在相同的信噪比下,由于語(yǔ)音干擾和目標(biāo)語(yǔ)音特征參數(shù)的相似度較高,從而無(wú)法從混合語(yǔ)音信號(hào)中提取有效的目標(biāo)語(yǔ)音信號(hào)特征參數(shù)。而本文算法利用不同聲源的空間方位,在空間域?qū)崿F(xiàn)不同說話人語(yǔ)音信號(hào)的分離,因此本文算法相對(duì)于基線系統(tǒng)的性能提高,在語(yǔ)音干擾環(huán)境下,要比噪聲環(huán)境下的性能改善明顯。同時(shí)根據(jù)圖7,語(yǔ)音干擾和目標(biāo)語(yǔ)音的角度分隔越大,則本文算法的性能提高越明顯。

      (a) 干擾噪聲位于30°

      (b) 干擾噪聲位于60°

      (c) 干擾噪聲位于90°

      同時(shí),在相同的信噪比下,語(yǔ)音干擾條件下的本文算法識(shí)別性能不如在噪聲環(huán)境下的性能。特別的,理想掩蔽值對(duì)應(yīng)的識(shí)別系統(tǒng)性能在低信噪比下的性能不如圖4~6在噪聲干擾下的識(shí)別性能,這并不是由于理想掩蔽值不能實(shí)現(xiàn)正確的目標(biāo)聲源分離,而是由于式(16)、(17)在進(jìn)行子帶分類時(shí),是基于式(3)給出的兩個(gè)聲源信號(hào)在子帶內(nèi)的正交性,根據(jù)子帶內(nèi)目標(biāo)語(yǔ)音和干擾語(yǔ)音的能量比實(shí)現(xiàn)分類的,這實(shí)際上是從聽覺系統(tǒng)的感知機(jī)制得到的結(jié)論,即在一個(gè)臨界頻帶內(nèi),人耳聽覺系統(tǒng)由于掩蔽效應(yīng),只能感知一個(gè)聲源信號(hào),但該子帶內(nèi)實(shí)際包含兩個(gè)或者兩個(gè)以上聲源信號(hào)。這樣子帶分類后,雖然某一子帶歸為目標(biāo)語(yǔ)音,但該子帶內(nèi)實(shí)際上也包含了干擾語(yǔ)音成分,并且干擾語(yǔ)音對(duì)該子帶內(nèi)占主導(dǎo)的目標(biāo)語(yǔ)音的影響,比噪聲對(duì)目標(biāo)語(yǔ)音的影響大。因此如果要進(jìn)一步提高基于空間分離的識(shí)別系統(tǒng)在干擾語(yǔ)音下的識(shí)別性能,不能簡(jiǎn)單的利用式(5)計(jì)算二進(jìn)制掩蔽值,用于目標(biāo)聲源、干擾聲源的分離,而是可以采用軟判決值的方法用于子帶內(nèi)目標(biāo)語(yǔ)音的分離,這也是我們下一步研究的方向。

      3 結(jié)論

      本文基于人耳聽覺系統(tǒng)的掩蔽效應(yīng)和雞尾酒效應(yīng),利用不同聲源信號(hào)的空間方位進(jìn)行語(yǔ)音信號(hào)的分離,實(shí)現(xiàn)目標(biāo)語(yǔ)音的數(shù)據(jù)重構(gòu),再基于丟失數(shù)據(jù)技術(shù),進(jìn)行語(yǔ)音識(shí)別,從而提高了語(yǔ)音識(shí)別系統(tǒng)的魯棒性。在不同噪聲環(huán)境、不同空間方位條件下的仿真實(shí)驗(yàn)結(jié)果表明,本文算法顯著提高了識(shí)別系統(tǒng)的性能。

      同時(shí)本文研究表明,基于空間分離和丟失數(shù)據(jù)的識(shí)別算法性能取決于子帶分類的準(zhǔn)確性,如果要提高目標(biāo)語(yǔ)音分離的正確率,需要從兩個(gè)方面入手,其一是子帶分類的方法,目前課題組正在進(jìn)行基于深度神經(jīng)網(wǎng)絡(luò)的子帶分離算法研究,初步的仿真結(jié)果表明了該方法的有效性;其二需要對(duì)式(3)的感知正交性進(jìn)行建模,不使用二進(jìn)制進(jìn)行子帶的硬判決方法,而是利用軟判決的方法實(shí)現(xiàn)子帶的分類,從而能夠準(zhǔn)確地重構(gòu)目標(biāo)語(yǔ)音的數(shù)據(jù)流,這也是我們目前正在開展的研究工作。

      [1] BREGMAN S. Auditory scene analysis: The perceptual organization of sound[M]. Cambridge, MA,US: The MIT Press, 1994.

      [2] WANG D L, BROWN G. Computational auditory scene analysis: Principles, algorithms, and applications[M]. New York: Hoboken NJ: Wiley & IEEE Press, 2006.

      [3] WANG Y, HAN K, WANG D L. Exploring monaural features for classification-based speech segregation[J]. IEEE Transactions on Audio, Speech and Language Processing, 2013, 21(2): 270-279.

      [4] YAO J, XIANG Y, QIAN S, et al. Noise source separation of diesel engine by combining binaural sound localization method and blind source separation method[J]. Mechanical Systems & Signal Processing, 2017, 96: 303-320.

      [5] KOUTROUVELIS A I, HENDRIKS R C, HEUSDENS R, et al. Relaxed Binaural LCMV Beamforming[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2017, 25(1): 137-152.

      [6] ZOHOURIAN M, MARTIN R. Binaural speaker localization and separation based on a joint ITD/ILD model and head movement tracking[C]//IEEE International Conference on Acoustics, Speech and Signal Processing, Shanghai, China, 2016: 430-434.

      [7] MUROTA Y, KITAMURA D, KOYAMA S, et al. Statistical modeling of binaural signal and its application to binaural source separation[C]//IEEE International Conference on Acoustics, Speech and Signal Processing, South Brisbane, Queensland, Australia, 2015: 494-498.

      [8] KIM Y I, AN S J, KIL R M. Zero-crossing based binaural mask estimation for missing data speech recognition[C]//IEEE International Conference on Acoustics, Speech and Signal Processing, Toulouse, France, 2006: 89-92.

      [9] HARDING S, BARKER J, BROWN G J. Mask estimation for missing data speech recognition based on statistics of binaural interaction[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(1): 58-67.

      [10] KERONEN S, KALLASJOKI H, REMES U. Mask estimation and imputation methods for missing data speech recognition in a multisource reverberant environment[J]. Computer Speech & Language, 2013, 27(3): 798-819.

      [11] ALINAGHI A, JACKSON P J B, LIU Q, et al. Joint mixing vector and binaural model based stereo source separation[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2014, 22(9): 1434-1448.

      [12] WANG Y, WANG D L. Towards scaling up classification-based speech separation[J]. IEEE Trans. Audio, Speech, Lang. Process. 2013, 21(7): 1381-1390.

      [13] ZHANG X, WANG D L. Deep Learning Based Binaural Speech Separation in Reverberant Environments[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2017, 25(5): 1075-1084.

      [14] JIANG Y, WANG D, LIU R, et al. Binaural classification for reverberant speech segregation using deep neural networks[J]. IEEE/ACM Trans. Audio, Speech, Lang. Process. 2014, 22(12): 2112-2121.

      [15] YU Y, WANG W, HAN P. Localization based stereo speech source separation using probabilistic time-frequency masking and deep neural networks[J]. EURASIP J. Audio Speech Music Proc. 2016(1): 1-18.

      [16] JOURJINE A, RICKARD S, YILMAZ O. Blind separation of disjoint orthogonal signals: Demixing n sources from 2 mixtures[C]//IEEE International Conference on Acoustics, Speech and Signal Processing, Istanbul Turkey, 2000: 2985-2988.

      [17] COOKE M, GREEN P, JOSIFOVSKI L, et al. Robust automatic speech recognition with missing and unreliable acoustic data[J]. Speech Communication, 2001, 34(3): 267-285.

      [18] FISHER W, DODDINGTON G, and GOUDIE-MARSHALL K. The DARPA speech recognition research database: Specifications and status[C]//DARPA Speech Recognition Workshop, Palo Alto, CA, 1986: 93-99.

      [19] VARGA A, STEENEKEN H, TOMLINSON M, et al. The NOISEX-92 study on the effect of additive noise on automatic speech recognition[R]. Speech Research Unit, Defense Research Agency, Malvern, UK, 1992.

      [20] CUMMINS F, GRIMALDI M, LEONARD T, et al. The chains speech corpus: Characterizing individual speakers[C]//11thInternational Conference Speech and Computer, St. Petersburg, Russia, 2006: 1-6.

      Robust speech recognition algorithm based on binaural speech separation and missing data technique

      ZHOU Lin1, ZHAO Yi-liang1, ZHU Hong-yu1, TANG Yi-bin2

      (1. Key Laboratory of Underwater Acoustic Signal Processing of Ministry of Education, School of Information Science and Engineering, Southeast University, Nanjing 210096, Jiangsu, China; 2. College of Internet of Things Engineering, Hohai University, Changzhou 213022, Jiangsu, China)

      Robust speech recognition has an important application in human-computer interaction, smart home, voice translation system and so on. In order to improve the speech recognition performance in complex acoustic environment with noise and speech interference, a robust speech recognition algorithm based on binaural speech separation and missing data technique is proposed in this paper. First, according to the azimuth of the target sound source, the algorithm separates the mixed data in the sub-bands of equivalent rectangular bandwidth (ERB), and obtains the data flow of the target sound source. Then, in order to solve the problem that the target source loses spectral data in some ERB sub-bands, the probability calculation based on hidden Markov model is modified by using the missing data technique, and finally the reconstructed spectrum data is utilized for speech recognition. The simulation results show that the proposed algorithm can improve the performance of speech recognition in complex acoustic environment, because the influence of noise and interference on the target sound source data is neglected after binaural speech separation.

      spatial hearing; binaural speech separation; missing data technique.; speech recognition; word error rate (WER)

      H107

      A

      1000-3630(2019)-05-0545-09

      10.16300/j.cnki.1000-3630.2019.05.011

      2018-09-14;

      2018-10-19

      國(guó)家自然科學(xué)基金(61571106、61501169、61201345)、中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金(2242013K30010)

      周琳(1978-), 女, 江蘇鎮(zhèn)江人, 副教授, 研究方向?yàn)檎Z(yǔ)音、聲學(xué)信號(hào)處理。

      周琳,E-mail: Linzhou@seu.edu.cn

      猜你喜歡
      雙耳子帶聲源
      輕叩雙耳好處多
      虛擬聲源定位的等效源近場(chǎng)聲全息算法
      輕叩雙耳好處多
      一種基于奇偶判斷WPT的多音干擾抑制方法*
      哥窯青釉雙耳彝爐
      紫禁城(2020年5期)2021-01-07 02:13:34
      子帶編碼在圖像壓縮編碼中的應(yīng)用
      電子制作(2019年22期)2020-01-14 03:16:24
      基于GCC-nearest時(shí)延估計(jì)的室內(nèi)聲源定位
      電子制作(2019年23期)2019-02-23 13:21:12
      輕叩雙耳好處多
      運(yùn)用內(nèi)積相關(guān)性結(jié)合迭代相減識(shí)別兩點(diǎn)聲源
      基于虛擬孔徑擴(kuò)展的子帶信息融合寬帶DOA估計(jì)
      黄浦区| 中方县| 台中市| 新乡市| 桦川县| 乌苏市| 陈巴尔虎旗| 大厂| 任丘市| 德惠市| 高陵县| 邢台县| 中宁县| 恩平市| 佛教| 遂昌县| 靖边县| 越西县| 兰考县| 屯昌县| 南开区| 扎赉特旗| 怀集县| 漳州市| 万宁市| 张家界市| 牡丹江市| 内黄县| 佛坪县| 英山县| 漳浦县| 诏安县| 江门市| 沁源县| 柞水县| 兴义市| 蓝田县| 林周县| 黄浦区| 天全县| 田林县|