• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      注意力機(jī)制對生成對抗網(wǎng)絡(luò)語音增強(qiáng)遷移學(xué)習(xí)模型的影響

      2021-03-10 07:59:18曹中輝黃志華葛文萍
      聲學(xué)技術(shù) 2021年1期
      關(guān)鍵詞:注意力語音卷積

      曹中輝,黃志華,葛文萍,黃 浩

      (新疆大學(xué)信息科學(xué)與工程學(xué)院,信號(hào)檢測與處理新疆維吾爾自治區(qū)重點(diǎn)實(shí)驗(yàn)室,新疆烏魯木齊830001)

      0 引 言

      語音增強(qiáng)[1]是從帶噪信號(hào)中恢復(fù)出原始信號(hào)的一種信號(hào)處理技術(shù)。譜減法、維納濾波等基于統(tǒng)計(jì)模型的方法是語音增強(qiáng)領(lǐng)域中廣泛使用的經(jīng)典方法[2-4],但是傳統(tǒng)語音增強(qiáng)方法對于非平穩(wěn)噪聲的增強(qiáng)效果有限。近些年來,深度學(xué)習(xí)技術(shù)在語音增強(qiáng)領(lǐng)域取得顯著進(jìn)步,基于降噪自編碼器,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)、長短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)的語音增強(qiáng)方法先后被提出[5-8],這些基于深度神經(jīng)網(wǎng)絡(luò)的增強(qiáng)模型能有效抑制非平穩(wěn)噪聲。2014 年,Goodfellow 等[9]提出生成對抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)。2017年,Santiago等[10]將 GAN應(yīng)用在語音增強(qiáng)上,提出一種端到端的GAN語音增強(qiáng)框架(Speech Enhancement GAN,SEGAN),在客觀和主觀測評(píng)指標(biāo)上均優(yōu)于傳統(tǒng)維納濾波方法。Daniel等[11]提出條件GAN (Conditional GAN, cGAN)結(jié)構(gòu)進(jìn)行語音增強(qiáng),測評(píng)結(jié)果在主觀語音質(zhì)量評(píng)估(Perceptual Evaluation of Speech Quality, PESQ)指標(biāo)上優(yōu)于基于最小均方誤差的短時(shí)幅度譜增強(qiáng)方法(Short-time Spectral Amplitude Minimum Mean Square Error, STSA-MMSE)和基于DNN的理想比值掩模(Ideal Ratio Mask, IRM)增強(qiáng)算法。2018年,Li等[12]將GAN應(yīng)用在語音去混響上,與權(quán)重預(yù)測誤差(Weighted Prediction Error,WPE)系統(tǒng)和基于 DNN的去混響方法相比,PESQ和語音混響調(diào)制能量比(Speech to Reverberation Modulation Energy Ratio, SRMR)值更高?,F(xiàn)有增強(qiáng)方法雖然取得有效的增強(qiáng)效果,但均采用單一語言數(shù)據(jù)對增強(qiáng)模型進(jìn)行訓(xùn)練,并未探討單一語言增強(qiáng)模型對新語言語音的增強(qiáng)效果。2014年,Xu等[13]對基于DNN語音增強(qiáng)框架進(jìn)行模型遷移實(shí)現(xiàn)了跨語言語音增強(qiáng),對于低資源新語言語音的增強(qiáng)效果優(yōu)于低資源單語言語音訓(xùn)練出的模型。2017年,Santiago等[14]用SEGAN遷移學(xué)習(xí)模型對新語言帶噪語音進(jìn)行去噪,采用英語單語言增強(qiáng)模型對網(wǎng)絡(luò)進(jìn)行參數(shù)初始化,低資源語音采用韓語和加泰羅尼亞語,以遷移學(xué)習(xí)的方式訓(xùn)練 SEGAN,對低資源帶噪語音的去噪效果與直接用低資源語音數(shù)據(jù)訓(xùn)練的 SEGAN相比,在評(píng)測指標(biāo)分段信噪比(Segmental Signal Noise Ratio, SSNR)上提升了10 dB,PESQ值提升了將近1。

      研究表明,在卷積神經(jīng)網(wǎng)絡(luò)中引入注意力機(jī)制可進(jìn)一步提升網(wǎng)絡(luò)的分類準(zhǔn)確性[15-16]。本文提出一種在生成對抗網(wǎng)絡(luò)中引入注意力機(jī)制的遷移學(xué)習(xí)模型(Attention Transfer Learning Generative adversarial Network, ATGAN),有效提高了低資源語言場景下少量語音的去噪效果。

      1 GAN語音增強(qiáng)

      GAN是一種基于生成對抗思想訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,由生成模型(Generator)G和判別模型(Discriminator)D兩部分組成。GAN的結(jié)構(gòu)圖如圖1所示。

      圖1 生成對抗網(wǎng)絡(luò)(GAN)的結(jié)構(gòu)圖Fig.1 GAN structure diagram

      G將隨機(jī)噪聲生成盡可能符合真實(shí)數(shù)據(jù)分布的數(shù)據(jù),D負(fù)責(zé)區(qū)分輸入數(shù)據(jù)是G生成的數(shù)據(jù)還是真實(shí)數(shù)據(jù)。對于給定的真實(shí)數(shù)據(jù)x,D為其打上標(biāo)簽1;對于給定的生成數(shù)據(jù)G(n),D為其打上標(biāo)簽0。在對抗訓(xùn)練過程中,傳給D的生成數(shù)據(jù)G(n),則盡可能讓D為其打上標(biāo)簽1。D將判決結(jié)果誤差傳遞給G模型,直到D對于給定數(shù)據(jù)預(yù)測為真的概率逼近0.5,達(dá)到納什均衡。這一過程可表示為[10]

      其中:n表示噪聲,x為真實(shí)數(shù)據(jù)。為了更好地控制生成數(shù)據(jù)的質(zhì)量,常在G和D中加入條件y,此時(shí)目標(biāo)函數(shù)為

      GAN語音增強(qiáng)模型中的G即為語音增強(qiáng)部分,可由CNN或者LSTM網(wǎng)絡(luò)構(gòu)成。干凈語音為x,n為帶噪語音,達(dá)到均衡后的G輸出即為增強(qiáng)后的語音。

      2 引入注意力機(jī)制的生成對抗網(wǎng)絡(luò)語音增強(qiáng)遷移學(xué)習(xí)模型

      遷移學(xué)習(xí)是將模型在某一領(lǐng)域?qū)W到的知識(shí)遷移到相近或者不同領(lǐng)域的技術(shù)。遷移學(xué)習(xí)使模型能夠在已有知識(shí)的基礎(chǔ)上快速有效解決新目標(biāo)域的問題,其在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域具有重要研究價(jià)值[17]。本文提出一種在 GAN網(wǎng)絡(luò)中引入注意力機(jī)制的GAN語音增強(qiáng)遷移學(xué)習(xí)模型(ATGAN),進(jìn)一步提高GAN語音增強(qiáng)遷移學(xué)習(xí)模型對低資源帶噪語音的去噪效果。ATGAN語音增強(qiáng)模型注意力機(jī)制示意圖如圖2所示。

      圖2 ATGAN語音增強(qiáng)模型注意力機(jī)制示意圖Fig.2 Attention mechanism in ATGAN speech enhancement model

      給定輸入特征圖F,通過通道注意力模塊,得到通道注意力權(quán)重C(F),然后與輸入特征圖相乘,結(jié)果F1送入空間注意力模塊,得到空間注意力權(quán)重S(F1),與中間輸入F1相乘,得到修正后的特征圖F2,數(shù)學(xué)描述為

      式(3)、(4)中的?表示點(diǎn)乘。C表示通道注意力模塊映射函數(shù),S表示空間和注意力模塊映射函數(shù)。

      生成模型G由22層包含跳躍連接的對稱U型卷積和反卷積層構(gòu)成[18]。網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

      圖3 ATGAN語音增強(qiáng)模型生成模型G的結(jié)構(gòu)Fig.3 Structure of generator G in ATGAN speech enhancement model

      音頻數(shù)據(jù)經(jīng)過預(yù)處理,送入G的維度為16 384×1,卷積操作為一維卷積,激活函數(shù)為Prelu,卷積核寬為31,步長為2。卷積部分結(jié)束輸出維度為 8×1 024,然后從相應(yīng)維度的標(biāo)準(zhǔn)正態(tài)分布中采樣,與卷積結(jié)果拼接,送入與卷積部分對稱的反卷積網(wǎng)絡(luò)。

      D的結(jié)構(gòu)如圖4所示,由編碼和注意力模塊組成,編碼部分為9層下采樣卷積層,由一維反卷積和正則化層構(gòu)成,激活函數(shù)為Lrelu,卷積核大小為31,步長為 2。下采樣結(jié)束得到 8×1 024維度的編碼結(jié)果,送入注意力模塊,經(jīng)過最大池化和平均池化以及sigmoid函數(shù)操作,得到經(jīng)通道注意力權(quán)重修正后的特征圖,然后結(jié)果經(jīng)過最大池化和平均池化處理后進(jìn)行拼接,再送入一維卷積,卷積核大小為 7,個(gè)數(shù)為 1,得到經(jīng)空間注意力權(quán)重修正的特征圖,最后得到更為準(zhǔn)確的分類結(jié)果,流程圖如圖5所示。

      圖4 ATGAN語音增強(qiáng)模型判別模型D的結(jié)構(gòu)Fig.4 Structure of discriminator D in ATGAN speech enhancement model

      圖5 注意力模塊結(jié)構(gòu)流程圖Fig.5 Structure flowchart of attention module

      參考文獻(xiàn)[19],損失函數(shù)(loss)設(shè)計(jì)如下:

      生成對抗網(wǎng)絡(luò)引入注意力機(jī)制后,通過高資源(文中的資源是指訓(xùn)練模型數(shù)據(jù)資源的豐富程度,高資源指訓(xùn)練數(shù)據(jù)充足的場景,低資源是指訓(xùn)練數(shù)據(jù)非常少的場景,直接采用低資源場景下的訓(xùn)練模型無法達(dá)到較好的增強(qiáng)效果)語音數(shù)據(jù)訓(xùn)練得到網(wǎng)絡(luò)權(quán)重參數(shù)更為合理的預(yù)訓(xùn)練模型,然后采用低資源場景下的少量語音數(shù)據(jù),對預(yù)訓(xùn)練模型進(jìn)行權(quán)重遷移,得到引入注意力機(jī)制的GAN語音增強(qiáng)遷移學(xué)習(xí)模型。

      3 實(shí)驗(yàn)與討論

      3.1 數(shù)據(jù)集準(zhǔn)備與網(wǎng)絡(luò)參數(shù)設(shè)置

      為了評(píng)估和分析本文提出的ATGAN語音增強(qiáng)模型對低資源語音的去噪效果,采用英語數(shù)據(jù)訓(xùn)練的模型遷移到對維吾爾語進(jìn)行增強(qiáng)的ATGAN上。英語數(shù)據(jù)集采用Voice Bank語料庫[20],訓(xùn)練集由28位說話人組成,包括14位男性、14位女性;為了獲得帶噪語音數(shù)據(jù)集,從 Demand數(shù)據(jù)集中選擇kitchen,field,washing,station,river,park,hallway,meeting,restaurant,traffic,metro 11 種噪聲[21],分別以0、5、10、15 dB的信噪比與干凈語音合成,得到帶噪語音訓(xùn)練集,共11 572條。維吾爾語數(shù)據(jù)集采用THUYG-20[22],帶噪語音訓(xùn)練集的合成方法及噪聲條件與英語帶噪語音一致,共300條維吾爾語帶噪語音;測試集從Demand數(shù)據(jù)集中選擇bus,cafeteria,square,living,office 5 種噪聲類型(不在訓(xùn)練集內(nèi)),以2.5、7.5、12.5、17.5 dB的信噪比與干凈語音合成得到。

      ATGAN網(wǎng)絡(luò)參數(shù)設(shè)置如下:學(xué)習(xí)率為0.000 2,批大小為 100,迭代期數(shù)(epoch)大小為 340。優(yōu)化算法采用RMSprop算法[23]。

      為了評(píng)估ATGAN語音增強(qiáng)模型的去噪效果,我們采用對數(shù)譜距離(Log Spectral Distance, LSD),PESQ、短時(shí)客觀可懂度(Short-Time Objective Intelligibility, STOI) 3種客觀評(píng)價(jià)指標(biāo),LSD越小,表明增強(qiáng)效果越好,PESQ和STOI越大,表明增強(qiáng)效果越好。

      3.2 ATGAN語音增強(qiáng)模型去噪效果

      為了評(píng)估ATGAN語音增強(qiáng)模型的去噪性能,基線模型采用遷移學(xué)習(xí) SEGAN(TSEGAN)作為對比實(shí)驗(yàn)算法,實(shí)驗(yàn)結(jié)果如表 1~3所示。從表中可看出,ATGAN語音增強(qiáng)模型增強(qiáng)效果均優(yōu)于TSEGAN模型,ATGAN可進(jìn)一步提升對低資源帶噪語音的增強(qiáng)效果,語音的客觀質(zhì)量、感知效果和可懂度均有提高。分析認(rèn)為,在遷移學(xué)習(xí)生成對抗網(wǎng)絡(luò)中引入注意力機(jī)制,經(jīng)語音數(shù)據(jù)訓(xùn)練得到的預(yù)訓(xùn)練模型的權(quán)重參數(shù)更為合理,然后進(jìn)行權(quán)重遷移,注意力機(jī)制有助于生成模型重點(diǎn)關(guān)注和捕獲噪聲與純凈語音之間的關(guān)系,降低語種因素對重建干凈語音的影響。

      表1 ATGAN和TSEGAN的LSD指標(biāo)比較Table 1 LSD comparison between ATGAN and TSEGAN

      表2 ATGAN和TSEGAN的PESQ指標(biāo)比較Table 2 PESQ comparison between ATGAN and TSEGAN

      表3 ATGAN和TSEGAN的STOI指標(biāo)比較Table 3 STOI comparison between ATGAN and TSEGAN

      3.3 ATGAN語音增強(qiáng)模型的噪聲遷移魯棒性能分析

      為了驗(yàn)證ATGAN語音增強(qiáng)模型的增強(qiáng)性能對不同類型、不同信噪比噪聲的遷移魯棒性,分析了五種噪聲在四種信噪比下的增強(qiáng)效果,結(jié)果如圖 6所示,圖中實(shí)線表示ATGAN語音增強(qiáng)模型的去噪結(jié)果,圖注中用(at)表示,虛線表示直接采用SEGAN模型訓(xùn)練的得到的去噪結(jié)果,圖注中用(se)表示。從圖6中的LSD和PESQ指標(biāo)可看出,對于bus,office,square噪聲,模型的增強(qiáng)結(jié)果最優(yōu),而cafe噪聲的遷移效果最差。通過頻譜分析,發(fā)現(xiàn)bus噪聲的能量主要分布在0~1 000 Hz頻率段,而cafe噪聲不僅在0~1 000 Hz的頻率段內(nèi)能量較高,在1 000~2 000 Hz內(nèi)也具有較高的能量,而且分布更為均勻,這可能是兩種噪聲遷移去噪效果有差別的原因之一。從測試曲線圖中還可看出,信噪比越低,模型的提升效果越明顯。

      圖6 ATGAN語音增強(qiáng)模型對不同噪聲的去噪效果Fig.6 Denoising effects of ATGAN speech enhancement model on different noises

      4 結(jié) 論

      本文提出一種引入注意力機(jī)制的GAN語音增強(qiáng)遷移學(xué)習(xí)模型,利用已有語言語音訓(xùn)練的增強(qiáng)模型,再結(jié)合極少量的新語言語音資源對模型進(jìn)行訓(xùn)練,可以對新語言低信噪比語音進(jìn)行有效增強(qiáng),提高增強(qiáng)后語音的質(zhì)量。同時(shí),訓(xùn)練GAN語音增強(qiáng)模型的時(shí)間和所需數(shù)據(jù)量均大大減少。實(shí)驗(yàn)結(jié)果表明,ATGAN語音增強(qiáng)模型相對于 SEGAN遷移學(xué)習(xí)模型,去噪后語音的感知質(zhì)量和可懂度都有進(jìn)一步提升。本文也討論了ATGAN在不同信噪比下對不同噪聲的遷移增強(qiáng)性能,結(jié)果表明,ATGAN對集外噪聲有更好的去噪效果。本文結(jié)論可為建立低資源新語言場景下的語音增強(qiáng)模型提供參考。在今后的工作中,將進(jìn)一步研究采用生成對抗網(wǎng)絡(luò)不同層進(jìn)行權(quán)重遷移對語音增強(qiáng)效果的影響。

      猜你喜歡
      注意力語音卷積
      讓注意力“飛”回來
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      魔力語音
      基于MATLAB的語音信號(hào)處理
      電子制作(2019年14期)2019-08-20 05:43:38
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      巢湖市| 井陉县| 长沙县| 略阳县| 泸西县| 东山县| 杂多县| 松江区| 乐平市| 齐齐哈尔市| 北京市| 兰西县| 大渡口区| 新营市| 甘泉县| 江孜县| 出国| 桂林市| 张北县| 长武县| 澄迈县| 万宁市| 德惠市| 华阴市| 开平市| 孝感市| 沿河| 灌阳县| 鱼台县| 阿合奇县| 阜宁县| 深州市| 剑川县| 都江堰市| 牡丹江市| 阿巴嘎旗| 宣武区| 奉节县| 仙桃市| 垫江县| 修武县|