• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于均值特征和改進(jìn)深度神經(jīng)網(wǎng)絡(luò)的說話人識(shí)別算法

    2021-09-09 01:44:52羅春梅張風(fēng)雷
    聲學(xué)技術(shù) 2021年4期
    關(guān)鍵詞:背景噪聲高斯語音

    羅春梅,張風(fēng)雷

    (遼東學(xué)院化工與機(jī)械學(xué)院,遼寧丹東 118000)

    0 引 言

    說話人識(shí)別是通過分析語音的個(gè)性特征實(shí)現(xiàn)說話人辨識(shí)的技術(shù),已經(jīng)在安全領(lǐng)域、司法鑒定等應(yīng)用中廣泛使用[1]。但由于實(shí)際環(huán)境中各種干擾的存在,實(shí)際環(huán)境中說話人識(shí)別系統(tǒng)失配而性能下降,因此,如何提高系統(tǒng)對(duì)不同背景噪聲的適應(yīng)性,成為近年來該領(lǐng)域的研究熱點(diǎn)[2-3]。

    為減小識(shí)別系統(tǒng)的環(huán)境失配,噪聲信息被融入到純凈語音模型中。牛曉可等[4]借鑒神經(jīng)元時(shí)空濾波機(jī)制對(duì)聽覺尺度-速率圖進(jìn)行二次提取,并與梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)相結(jié)合,提高特征對(duì)環(huán)境噪聲的容忍性能;仲偉峰等[5]通過融合深、淺層級(jí)特征以實(shí)現(xiàn)不同層次特征表達(dá)信息的互補(bǔ),從而提高特征的魯棒性;Zhang等[6]受到干凈幀的啟發(fā),用高斯通用模型推導(dǎo)出基于總變化矩陣的通用加權(quán)背景模型,并進(jìn)行了聯(lián)合估計(jì)規(guī)則更新,有效提升了算法對(duì)背景噪聲的適應(yīng)性。

    隨著深度學(xué)習(xí)技術(shù)的成熟,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)在說話人識(shí)別系統(tǒng)中逐漸展開研究,并取得較好的魯棒性[7]。陳湟康等[8]以深度學(xué)習(xí)的長短期記憶(Long and Short Term Memory, LSTM)網(wǎng)絡(luò)為基礎(chǔ)構(gòu)建多模態(tài)模型,并以深度門對(duì)各層單元進(jìn)行上下連接,以提高層特征聯(lián)系的緊密性和分類性能;Abdelmajid等[9]對(duì)多模態(tài)LSTM網(wǎng)絡(luò)在決策層進(jìn)行分類融合,提高了模型識(shí)別性能,但模型相關(guān)性約束需加強(qiáng);李煦等[10]將深度神經(jīng)網(wǎng)絡(luò)與非負(fù)矩陣分解相結(jié)合來估計(jì)權(quán)值分配,結(jié)合特征字典實(shí)現(xiàn)說話人語音增強(qiáng)和識(shí)別。

    已有DNN算法難以描述語音段的深度信息[11],為此在已有研究基礎(chǔ)上,提出基于自適應(yīng)高斯均值矩陣特征和改進(jìn)深度卷積神經(jīng)網(wǎng)絡(luò)的說話人識(shí)別算法,通過均值矩陣增強(qiáng)信號(hào)的幀間關(guān)聯(lián)和特征,通過幀間信息對(duì)準(zhǔn)提高特征對(duì)背景噪聲環(huán)境的適應(yīng)性,實(shí)驗(yàn)結(jié)果驗(yàn)證了該算法的有效性。

    1 改進(jìn)模型說話人識(shí)別

    說話人語音識(shí)別即為采用一定的方法提取帶有背景噪聲的語音的分類特征,然后根據(jù)分類特征進(jìn)行說話人特征匹配,從而確定說話人身份,文中基于改進(jìn)DNN網(wǎng)絡(luò)的說話人識(shí)別過程如圖1所示,算法結(jié)合了傳統(tǒng)特征提取方法和DNN網(wǎng)絡(luò)的優(yōu)點(diǎn),主要包括特征提取、高斯均值矩陣計(jì)算和DNN網(wǎng)絡(luò)三部分。

    圖1 基于改進(jìn)深度神經(jīng)網(wǎng)絡(luò)的說話人識(shí)別過程Fig.1 Speaker recognition based on improved deep neural network

    1.1 特征提取

    MFCC特征基于人耳聽覺感知特性,其不需要做出前提假設(shè),且其與說話人所說的語音內(nèi)容不相關(guān),能夠較好地反應(yīng)語音信號(hào)特征。

    設(shè)原始含噪信號(hào)為s(n),對(duì)其進(jìn)行時(shí)域分幀,對(duì)幀信號(hào)x(n)進(jìn)行離散余弦變換(Discrete Cosine Transform, DCT)變換,得到頻譜X(k),提取其能量譜P(k)為[2]

    式中:N為DCT變換點(diǎn)數(shù)。采用M階Mel頻率濾波器Hm(k)進(jìn)行濾波處理,得到

    式中:m為濾波器序號(hào),0≤m≤M,對(duì)Pm(k)取對(duì)數(shù)并進(jìn)行離散余弦變換,可得MFCC,即[2]:

    1.2 高斯混合模型均值矩陣

    高斯混合模型(Gaussian Mixture Model, GMM)通過概率密度函數(shù)描述說話人的語音特征,并通過最大期望算法(Expectation Maximization,EM)提取描述語音特征的模型參數(shù)。GMM通過M個(gè)單高斯分布來擬合信號(hào)的不同分量特征,并通過線性組合擬合語音的特征分布,即[7]:

    在計(jì)算高斯模型后,文中采用基于高斯模型的均值矩陣作為識(shí)別特征,其將GMM模型的特征向量分別送入通用背景模型(Universal Background Model, UBM)中,然后經(jīng)過MPA(Message Passing Algorithm)自適應(yīng)后,計(jì)算輸出特征的均值矩陣。

    1.3 特征補(bǔ)償

    由于特征分量對(duì)最終的語音識(shí)別率的影響不同且對(duì)背景噪聲的抗噪性能也不同,文中補(bǔ)償算法采用半升正弦函數(shù)(Half Raised-Sine Function,HRSF)對(duì)特征進(jìn)行非線性提升,對(duì)特征的不同分量分配不同的權(quán)重,以削弱抗噪性能較差的低階分量對(duì)識(shí)別率的貢獻(xiàn)度[8],其補(bǔ)償過程為:

    (1) 對(duì)噪聲及純凈語音信號(hào)的模型參數(shù)進(jìn)行頻譜域變換,得到對(duì)數(shù)譜域參數(shù)和線性頻譜,即:

    式中:C為DCT變換矩陣、L為提升矩陣,其計(jì)算式為L(i) =1+ sin (π (i-1) /N)/2,參數(shù)ux,m和Σx,m為GMM模型的第m個(gè)高斯單元均值矩陣和協(xié)方差矩陣,下標(biāo)x表示純凈語音信號(hào),上標(biāo)ln和lin分別對(duì)數(shù)譜域和線性頻譜域。

    (2) 將語音信號(hào)與噪聲的參數(shù)進(jìn)行非線性合并,得到含噪信號(hào)的GMM模型參數(shù),即:

    式中:G為模型的補(bǔ)償增益因子,下標(biāo)n和y表示噪聲及含噪語音信號(hào)。

    (3) 將式(9)得到的含噪GMM模型參數(shù)變換到對(duì)數(shù)譜域和倒譜域,并優(yōu)化協(xié)方差矩陣,去除非對(duì)角元素,提高運(yùn)算效率,即:

    1.4 DRNN網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

    采用基于多層非線性變換的深度神經(jīng)網(wǎng)絡(luò)模型有助于描述語音特征的結(jié)構(gòu)信息與層次信號(hào),為此,文中設(shè)計(jì)了基于改進(jìn)深度卷積神經(jīng)網(wǎng)絡(luò)(Deep CNN, DCNN)的說話人語音識(shí)別算法,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

    圖2 改進(jìn)的DCNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Improved DCNN network structure

    網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)主要體現(xiàn)在最后的全連接層中用直接目標(biāo)向量計(jì)算替代Softmax層的設(shè)計(jì)上。盡管結(jié)構(gòu)加深、節(jié)點(diǎn)增多或?yàn)V波器增多能有效提高網(wǎng)絡(luò)模型的識(shí)別性能,但同時(shí)也帶來網(wǎng)絡(luò)模型的高復(fù)雜度和訓(xùn)練的不穩(wěn)定性。結(jié)合文中語音識(shí)別特點(diǎn)和數(shù)據(jù)規(guī)模,改進(jìn)模型結(jié)構(gòu)設(shè)計(jì)為3個(gè)卷積層的2個(gè)1024節(jié)點(diǎn)的全連接層,網(wǎng)絡(luò)輸入層為上文提取的特征矩陣,第一層卷積層包含64個(gè)尺寸為7×7的濾波器,第二層和第三層卷積層包含128個(gè)尺寸為3×3的濾波器,濾波器的步長統(tǒng)一設(shè)置為1×1;激活函數(shù)層后面為3個(gè)濾波器尺寸3×3、步長2×2的池化層;輸出層為一個(gè)129點(diǎn)全連接層。

    深度的增加也帶來梯度弱化,反而不利于提高識(shí)別率,深度殘差網(wǎng)絡(luò)以網(wǎng)絡(luò)殘差獲得更穩(wěn)健的特征表達(dá),通過在網(wǎng)絡(luò)層間增加殘差連接避免梯度消失問題,從而提高網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率,其網(wǎng)絡(luò)函數(shù)設(shè)計(jì)為理想映射H(x) =F(x) +x的形式,如圖3所示,其中,F(xiàn)(x)為殘差映射,對(duì)H(x)求偏導(dǎo)可得:

    由圖3和式(11)可以看出,增加殘差連接后,解決了梯度隨網(wǎng)絡(luò)深度消失的問題。

    圖3 殘差網(wǎng)絡(luò)模塊Fig.3 Residual network module

    2 實(shí)驗(yàn)驗(yàn)證與分析

    為驗(yàn)證文中基于改進(jìn)DCNN網(wǎng)絡(luò)的說話人識(shí)別模型的識(shí)別性能,實(shí)驗(yàn)從TIMIT數(shù)據(jù)庫[12]隨機(jī)選取180人共3 600條語音,以Noisex92噪聲庫作為實(shí)驗(yàn)用背景噪聲,所有數(shù)據(jù)采樣率調(diào)整為8 kHz,分幀長度為64 ms(512點(diǎn)),幀移為32 ms,將每一條語音數(shù)據(jù)的前80%作為訓(xùn)練數(shù)據(jù),而后20%作為測試數(shù)據(jù),采用39維MFCC頻譜系數(shù)作為識(shí)別特征,GMM混合度設(shè)置為32[13],特征補(bǔ)償因子初始值為G=0.5,當(dāng)背景噪聲較小或無噪聲時(shí),補(bǔ)償算法會(huì)調(diào)整增益因子G。

    將NoiseX-92數(shù)據(jù)庫中的Factory、Babble及混合Mixed噪聲與純凈訓(xùn)練數(shù)據(jù)按一定的分段信噪比進(jìn)行混合,作為實(shí)驗(yàn)數(shù)據(jù),以文獻(xiàn)中已有的身份認(rèn)證向量(identity vector, i-vector)識(shí)別框架[14]加MFCC和Gammatone頻譜倒譜系數(shù)(Gammatone Frequency Cepstrum Coefficients, GFCC)特征(分別記為IPMFCC和IPGFCC)、GMM-UBM框架[15]加MFCC和補(bǔ)償MFCC特征(分別記為GUMFCC和GUGFCC)及文中改進(jìn)的DCNN識(shí)別網(wǎng)絡(luò)加MFCC和補(bǔ)償MFCC特征(分別記為IDMFCC和IDCMFCC),共6種說話人識(shí)別算法進(jìn)行實(shí)驗(yàn)比較,各算法的說話人識(shí)別正確率實(shí)驗(yàn)結(jié)果如圖4所示,圖中所示為多次實(shí)驗(yàn)結(jié)果的平均值[11]。

    從圖4中的實(shí)驗(yàn)結(jié)果可以看出,隨著信噪比的提高,各算法的識(shí)別準(zhǔn)確率都大幅提高,但在低信噪比情況下,各個(gè)算法的識(shí)別率均不高,但文中模型在各個(gè)信噪比時(shí)均取得較優(yōu)的識(shí)別準(zhǔn)確率,尤其在低信噪比時(shí),優(yōu)勢更加明顯,這主要因?yàn)樽R(shí)別網(wǎng)絡(luò)的改進(jìn),在考慮了語音信號(hào)特征基礎(chǔ)上,兼顧了網(wǎng)絡(luò)性能和訓(xùn)練難度,并通過殘差網(wǎng)絡(luò)增強(qiáng)了層間梯度,而識(shí)別特征的補(bǔ)償,增強(qiáng)了特征對(duì)強(qiáng)背景噪聲的抗干擾能力,從而使算法整體上具有較好的抗背景噪聲干擾性能。

    圖4 不同背景噪聲下各算法的識(shí)別率Fig.4 Recognition rate of each algorithm under different background noises

    如圖5所示為三種識(shí)別框架在不同訓(xùn)練階段的均方誤差(Mean Squared Error, MSE)。從圖5可以看出,文中改進(jìn)DCNN網(wǎng)絡(luò)的均方誤差最小,進(jìn)一步說明該網(wǎng)絡(luò)的優(yōu)勢。

    圖5 各算法訓(xùn)練階段的均方誤差Fig.5 The mean square error in training stage of each algorithm

    3 結(jié) 論

    傳統(tǒng)MFCC等聲學(xué)特征大多基于語音信號(hào)的短時(shí)譜信息,缺乏語音段深度信息,而深度神經(jīng)網(wǎng)絡(luò)缺乏直觀的物理聲學(xué)特征描述。為此,在已有研究基礎(chǔ)上,提出基于高斯增值矩陣特征和改進(jìn)DCNN網(wǎng)絡(luò)的說話人識(shí)別算法。算法通過自適應(yīng)高斯均值矩陣增強(qiáng)語音信號(hào)的幀間關(guān)聯(lián)和說話人特征信息,采用改進(jìn)的DCNN網(wǎng)絡(luò)進(jìn)一步提高說話人識(shí)別的特征學(xué)習(xí)和背景噪聲環(huán)境的適應(yīng)性。實(shí)驗(yàn)結(jié)果表明,相比于i-vector和GMM-UBM等識(shí)別框架及傳統(tǒng)MFCC特征,文中算法取得最優(yōu)的識(shí)別準(zhǔn)確率和識(shí)別均方誤差。

    猜你喜歡
    背景噪聲高斯語音
    小高斯的大發(fā)現(xiàn)
    窄帶電力線通信信道背景噪聲抑制方法
    魔力語音
    基于MATLAB的語音信號(hào)處理
    電子制作(2019年14期)2019-08-20 05:43:38
    天才數(shù)學(xué)家——高斯
    基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
    電子制作(2019年9期)2019-05-30 09:42:10
    對(duì)方正在輸入……
    小說界(2018年5期)2018-11-26 12:43:42
    應(yīng)用背景噪聲成像研究祁連山地區(qū)地殼S波速度結(jié)構(gòu)
    地震研究(2017年3期)2017-11-06 23:38:05
    海上單道地震勘探中船舶等背景噪聲的影響分析及壓制
    有限域上高斯正規(guī)基的一個(gè)注記
    房山区| 泸州市| 惠安县| 济宁市| 扎赉特旗| 新邵县| 岑巩县| 缙云县| 隆安县| 澎湖县| 佛冈县| 洛扎县| 安平县| 宿松县| 安仁县| 湟中县| 卓资县| 正阳县| 文昌市| 宁强县| 三江| 桦川县| 靖江市| 平湖市| 平舆县| 察雅县| 临夏市| 台中市| 武定县| 毕节市| 上思县| 松滋市| 怀仁县| 沙雅县| 古浪县| 若尔盖县| 绥宁县| 邻水| 南召县| 武邑县| 关岭|