• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于語音增強(qiáng)方法的語音端點(diǎn)檢測

      2017-11-18 19:57:01包武杰黃浩
      現(xiàn)代電子技術(shù) 2017年22期
      關(guān)鍵詞:信噪比

      包武杰 黃浩

      摘 要: 語音端點(diǎn)檢測的檢測結(jié)果好壞對后續(xù)的語音處理起著決定性的作用。為了解決語音端點(diǎn)在低信噪比情況下檢測率不高的問題,該文提出了基于深度置信網(wǎng)絡(luò)去噪的語音增強(qiáng)方法與傳統(tǒng)的端點(diǎn)檢測方法相結(jié)合的方法。該方法首先由大量的語音數(shù)據(jù)訓(xùn)練深度置信網(wǎng)絡(luò)模型,使其能夠很好地映射帶噪與無噪語音之間的非線性關(guān)系,進(jìn)而使其成為一個(gè)良好的降噪濾波器,再對比帶噪與去噪后語音對端點(diǎn)檢測準(zhǔn)確率的影響,以及不同信噪比的端點(diǎn)檢測的正確率。從該實(shí)驗(yàn)結(jié)果可以得到,該方法在平穩(wěn)噪聲和非平穩(wěn)噪聲的低信噪比情況下都可以提高語音端點(diǎn)檢測的準(zhǔn)確率。

      關(guān)鍵詞: 語音端點(diǎn)檢測; 深層置信網(wǎng)絡(luò); 信噪比; 語音處理

      中圖分類號: TN911.23?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號: 1004?373X(2017)22?0001?04

      Abstract: The test results of voice activity detection (VAD) play a decisive role in the subsequent speech processing. To resolve the problem of low detection rate of speech endpoints at low signal?to?noise ratio (SNR), a method of combing speech enhancement method based on deep belief network denoising with the traditional endpoint detection method is proposed. The deep belief network model is trained by large volumes of speech data to effectively map the nonlinear relationship between noisy speech and noise?free speech, and is made to become a good noise reduction filter. The effects of noisy speech and denoised speech on endpoint detection accuracy, and the correctness of endpoint detection at different SNRs are compared. The experimental results show that the method can improve the accuracy of VAD in the case of both stationary noise and non?stationary noise with low SNR.

      Keywords: voice activity detection; deep belief network; SNR; speech processing

      0 引 言

      語音端點(diǎn)檢測(Voice Activity Detection,VAD)作為語音處理中十分重要的一環(huán),其檢測效果的好壞直接決定著后續(xù)語音處理的結(jié)果的好壞,它是一種區(qū)分語音中的語音段和非語音段的技術(shù)。在語音處理等領(lǐng)域,語音端點(diǎn)檢測技術(shù)是最常用也是最重要的前端技術(shù)之一,它的檢測效果的好壞可以在很大程度上減少后續(xù)信號處理的運(yùn)算量以及提高后續(xù)處理的精度及其通信系統(tǒng)的質(zhì)量。本文著重研究了噪聲環(huán)境下的端點(diǎn)檢測的研究方法,通過將深度學(xué)習(xí)應(yīng)用于語音增強(qiáng)的方法來提高噪聲環(huán)境下的端點(diǎn)檢測正確率。

      語音和噪聲往往有著復(fù)雜的關(guān)系,加性噪聲和乘性噪聲是通常所考慮的。然而在現(xiàn)實(shí)生活中,加性噪聲往往對語音的質(zhì)量影響比較大,假如用[y(t)]表示t時(shí)刻帶噪語音信號,[n(t)]表示t時(shí)刻噪聲信號,[x(t)]表示t時(shí)刻的無噪語音信號,那么加性噪聲模型可以表示如下:

      傳統(tǒng)的去噪方法有能量過零率、倒譜距離以及譜熵法等,但對于非平穩(wěn)噪聲,這些傳統(tǒng)的去噪方法對這些噪聲抑制效果很差,特別是非平穩(wěn)噪聲在低信噪比情況下的語音信號,一般的傳統(tǒng)的方法無法正確區(qū)分無用和有用信息,經(jīng)常會(huì)出現(xiàn)誤判,從而造成有用語音信息的丟失。最近幾年的時(shí)間,由于深度學(xué)習(xí)的廣泛應(yīng)用,在機(jī)器學(xué)習(xí)領(lǐng)域有很好的應(yīng)用,尤其是一種無監(jiān)督的高效的逐層貪婪學(xué)習(xí)算法[1]在2006年被Hinton等人提出之后,構(gòu)造了深度置信網(wǎng)絡(luò)(Deep Belief Network),為以后的深度神經(jīng)網(wǎng)絡(luò)奠定了基礎(chǔ),而深度神經(jīng)網(wǎng)絡(luò)能很好地挖掘數(shù)據(jù)的非線性特征。因此該文將深度學(xué)習(xí)中的深度置信網(wǎng)絡(luò)應(yīng)用于語音增強(qiáng),并提出了一種基于語音增強(qiáng)的端點(diǎn)檢測方法。實(shí)驗(yàn)結(jié)果表明,無論是平穩(wěn)噪聲還是非平穩(wěn)噪聲下,該方法在不同噪聲環(huán)境及不同信噪比情況下,其檢測正確率都要高于傳統(tǒng)的倒譜距離端點(diǎn)檢測算法。

      1 基于深度信念網(wǎng)絡(luò)的語音去噪

      深度置信網(wǎng)絡(luò)由數(shù)個(gè)受限玻爾茲曼機(jī)[2](Restricted Boltzmann Machine,RMB)疊加構(gòu)成。RBM是一種特殊的玻爾茲曼機(jī),只有在顯層(Visible Layer)和隱層(Hidden Layer)之間有權(quán)重連接,顯層和顯層間以及隱層和隱層間都沒有連接。DBN的訓(xùn)練可以分成兩個(gè)階段進(jìn)行,分別為預(yù)訓(xùn)練和參數(shù)優(yōu)化,其訓(xùn)練過程如圖1所示。

      1.1 預(yù)訓(xùn)練階段

      采用逐層貪心算法,將整個(gè)DBN看成一個(gè)個(gè)RMB進(jìn)行訓(xùn)練,前一個(gè)隱層的輸出可以作為下一個(gè)顯層的輸入,見圖1(a)。由于初始化RBM模型時(shí)用帶噪語音去訓(xùn)練,第一個(gè)顯層的輸入為實(shí)數(shù),因此第一個(gè)顯層和隱層為高斯?伯努利RBM,其余RBM為伯努利?伯努利RBM。如果顯層節(jié)點(diǎn)用向量[v]表示,隱層節(jié)點(diǎn)用向量h表示,連接用矩陣W表示;對于已經(jīng)設(shè)定的一組狀態(tài)[v,h],高斯?伯努利RBM顯層服從高斯分布,隱層服從伯努利分布,即[v]∈R,h∈{0,1},由能量模型(Energy?Based Model,EBM)理論[3] 可得其能量函數(shù)定義:endprint

      1.2 參數(shù)優(yōu)化階段

      運(yùn)用后向傳播算法[5](Back Propagation,BP)基于最小均方誤差準(zhǔn)則來更新整個(gè)DBN的網(wǎng)絡(luò)參數(shù),使得無噪語音的對數(shù)功率譜特征和帶噪語音的對數(shù)功率譜特征之間誤差最小。采用隨機(jī)梯度下降算法來加快DBN的學(xué)習(xí)收斂速度,其平均平方誤差為:

      通過不斷地更新調(diào)整,DBN能夠很好地?cái)M合帶噪和無噪語音數(shù)據(jù)之間的非線性映射。

      2 基于倒譜距離的端點(diǎn)檢測方法

      2.1 倒譜距離測量法

      譜密度函數(shù)[S(ω)]和[S′(ω)]的倒譜系數(shù)分別是式(21)中的[cn]和[c′n]。對于檢測是否是語音幀還是噪聲幀,必須需要一個(gè)判決參數(shù),而均方距離就可以作為判別參數(shù),因?yàn)閮蓚€(gè)語音信號譜的差別通常可以用對數(shù)譜的均方距離表示。

      2.2 倒譜距離測量法的檢測流程

      (1) 首先在語音數(shù)據(jù)集中取一抽樣語音信號,并取其前幾幀信號為背景噪聲。那么背景噪聲倒譜系數(shù)的估計(jì)值則能夠用這些已經(jīng)設(shè)定好的前幾幀信號的倒譜系數(shù)的平均值來表示,定義其為向量C。

      (2) 計(jì)算每幀信號的倒譜系數(shù)與噪聲倒譜系數(shù)估計(jì)值的倒譜距離,可以對式(21)進(jìn)行化簡處理,近似可表示為:

      (3) 通過式(22)能夠計(jì)算得到各信號幀倒譜距離的倒譜距離軌跡,然后通過門限判決的方法來確定抽樣語音的語音幀和噪聲幀。

      (4) 由于噪聲的種類是多種多樣并且不斷變化,因此要得到較準(zhǔn)確的檢測,向量C必須與其變化相適應(yīng),本文所采用的自適應(yīng)處理過程能夠解決這個(gè)問題,即將前一信號幀的倒譜向量作為向量C,并按照

      3 實(shí)驗(yàn)過程與結(jié)果分析

      為了檢驗(yàn)該文方法的效果,本實(shí)驗(yàn)仿真平臺(tái)采用Matlab軟件,實(shí)驗(yàn)采用的是微軟的MSRA語音庫,利用深度信念網(wǎng)絡(luò)對語音進(jìn)行去噪[6]。訓(xùn)練數(shù)據(jù)加入-5 dB,0 dB,5 dB,10 dB,15 dB的噪聲。噪聲源選取Noisex 92 中的Babble,Leopard兩種噪聲,其中Babble噪聲是非平穩(wěn)噪聲,Leopard為平穩(wěn)噪聲,DBN采用的是只有一個(gè)隱層的三層神經(jīng)網(wǎng)絡(luò)進(jìn)行降噪,將不同信噪比的MFCC特征作為網(wǎng)絡(luò)的輸入,把干凈的MFCC特征作為目標(biāo)值進(jìn)行訓(xùn)練。之后將去噪后的語音信號的MFCC特征進(jìn)行提取系數(shù)等信息并用于倒譜距離的語音端點(diǎn)檢測,在對比不同信噪比的MFCC直接用于倒譜距離的端點(diǎn)檢測結(jié)果。其實(shí)驗(yàn)結(jié)果如圖2~圖5所示。

      圖2是從微軟語音庫抽取的一條原始語音信號波形;圖3是其加噪語音信號波形;圖4對加噪后的語音波形圖3通過基于傳統(tǒng)的倒譜距離檢測算法得到的結(jié)果;圖5是對圖3通過DBN去噪后再對其進(jìn)行倒譜距離的檢測,其結(jié)果表示了本文方法在平穩(wěn)噪聲和非平穩(wěn)噪聲的低信噪比的情況下都有比傳統(tǒng)算法更高的檢測準(zhǔn)確率。通過實(shí)驗(yàn)可以得到在不同信噪比下端點(diǎn)檢測的準(zhǔn)確率如表1所示。

      由表1可以看出,本文所提的基于語音增強(qiáng)算法的端點(diǎn)檢測在不平穩(wěn)噪聲Babble 和平穩(wěn)噪聲Leopard下都有比傳統(tǒng)的檢測算法更高的準(zhǔn)確率,同時(shí)在不同信噪比下,也有更高的檢測準(zhǔn)確率。本文算法在平穩(wěn)噪聲和不平穩(wěn)噪聲的檢測中,檢測準(zhǔn)確率更加接近,而傳統(tǒng)的檢測算法,在非平穩(wěn)噪聲下,檢測準(zhǔn)確率直線下降,在強(qiáng)噪聲環(huán)境下,檢測正確率更是與本文算法相差較大,達(dá)到16%左右。通過5種信噪比及不同的噪聲環(huán)境下的端點(diǎn)檢測實(shí)驗(yàn),可以得出,在不平穩(wěn)噪聲情況下,傳統(tǒng)的檢測算法在信噪比降低的情況下,檢測正確率下降較快,而本文算法,檢測正確率下降的幅度遠(yuǎn)遠(yuǎn)小于傳統(tǒng)的檢測算法。其結(jié)果如圖6所示。

      4 結(jié) 語

      本文主要是對噪聲條件下的語音端點(diǎn)檢測進(jìn)行研究,以往傳統(tǒng)的語音端點(diǎn)檢測算法在高信噪比下的檢測正確率都比較高,而在低信噪比下的效果則不明顯,尤其是對不同的噪聲情況都沒有一個(gè)統(tǒng)一的解決方法。本文采用的基于深度置信網(wǎng)絡(luò)的語音增強(qiáng)方法,由于其能夠很好地映射帶噪與無噪語音之間的非線性關(guān)系,因此通過對噪聲特性的訓(xùn)練,能夠?qū)δ撤N特定的噪聲情況有較好的去噪效果,因而可以降低平穩(wěn)噪聲和非平穩(wěn)噪聲在語音端點(diǎn)檢測中的影響。然而本文的不足之處是只考慮了一種非平穩(wěn)噪聲Babble和一種平穩(wěn)噪聲Leopard的影響,沒有考慮其他噪聲,但在現(xiàn)實(shí)生活中,噪聲的種類是非常多的,而且是隨機(jī)的。

      注:本文通訊作者為黃浩。

      參考文獻(xiàn)

      [1] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets [J]. Neural computation, 2006, 18(7):1527?1554.

      [2] SALAKHUTDINOV R. Learning deep generative models [D]. Toronto: University of Toronto, 2009.

      [3] LECUN Y, CHOPRA S, HADSELL R, et al. A tutorial on energy?based learning [C]// Predicting structured data.

      Cambridge: MIT press, 2006:191?246.

      [4] HINTON G. Training products of experts by minimizing contrastive divergence [J]. Neural computation, 2002,14(8): 1771?1800.

      [5] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278?2324.endprint

      [6] 徐勇.基于深層神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2015.

      [7] KENNY P, OUELLET P, DEHAK N, et al. A study of interspeaker variability in speaker verification [J]. IEEE transactions on audio speech and language processing, 2008, 16(5): 980?988.

      [8] MARKOVI? I, DOMITROVI? H, PETROVI? I. Comparison of statistical model?based voice activity detectors for mobile robot speech applications [J]. IFAC proceedings volumes, 2012, 45(22): 39?44.

      [9] HUANG S H, CHANG J H. Optimally weighted maximum a posteriori probabilities based on minimum classification error for dual?microphone voice activity detection [J]. Applied acoustics, 2016,113: 221?229.

      [10] MING M, WANG K, JI H. Novel DTD and VAD assisted voice detection algorithm for VoIP systems [J]. Journal of China Universities of Posts and Telecommunications, 2016, 23(4): 9?16.

      [11] KANG S I, CHANG J H. Voice activity detection based on discriminative weight training incorporating a spectral flatness measure [J]. Circuits systems and signal processing, 2010, 29(2): 183?194.

      [12] PARK Y S, LEE S M. Speech enhancement through voice activity detection using speech absence probability based on Teager energy [J]. Journal of Central South University, 2013, 20(2): 424?432.

      [13] YOU D, HAN J, ZHENG G, et al. Sparse representation with optimized learned dictionary for robust voice activity detection [J]. Circuits systems, and signal processing, 2014, 33(7): 2267?2291.

      [14] 張慧,馬建芬.基于語音端點(diǎn)檢測和子空間方法的語音增強(qiáng)算法[J].計(jì)算機(jī)應(yīng)用,2009(z1):340?341.

      [15] 胡光銳,韋曉東.基于倒譜特征的帶噪語音端點(diǎn)檢測[J].電子學(xué)報(bào),2000(10):95?97.

      [16] 陳振鋒,吳蔚瀾,劉加,等.基于Mel倒譜特征順序統(tǒng)計(jì)濾波的語音端點(diǎn)檢測算法[J].中國科學(xué)院大學(xué)學(xué)報(bào),2014(4):524?529.

      [17] 田旺蘭,李加升.改進(jìn)運(yùn)用深度置信網(wǎng)絡(luò)的語音端點(diǎn)檢測方法[J].計(jì)算機(jī)工程與應(yīng)用,2014(20):207?210.

      [18] 王家良.基于深度置信網(wǎng)絡(luò)的說話人識(shí)別研究與實(shí)現(xiàn)[D].南京:南京郵電大學(xué),2015.endprint

      猜你喜歡
      信噪比
      兩種64排GE CT冠脈成像信噪比與劑量對比分析研究
      基于經(jīng)驗(yàn)分布函數(shù)快速收斂的信噪比估計(jì)器
      一種基于2G-ALE中快速信噪比的估計(jì)算法
      無線通信中的信噪比估計(jì)算法研究
      信噪比在AR模型定階方法選擇中的研究
      自跟蹤接收機(jī)互相關(guān)法性能分析
      基于深度學(xué)習(xí)的無人機(jī)數(shù)據(jù)鏈信噪比估計(jì)算法
      低信噪比下LFMCW信號調(diào)頻參數(shù)估計(jì)
      電子測試(2018年11期)2018-06-26 05:56:02
      低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
      不同信噪比下的被動(dòng)相控陣?yán)走_(dá)比幅測角方法研究
      洮南市| 丹巴县| 永新县| 南城县| 永善县| 新营市| 张家川| 吉林省| 大安市| 巴中市| 湘乡市| 辽阳县| 田阳县| 石泉县| 科技| 黔南| 喀什市| 富平县| 息烽县| 剑阁县| 江安县| 湘潭县| 英吉沙县| 曲水县| 涪陵区| 彭泽县| 旅游| 保靖县| 黑河市| 河东区| 万州区| 宁津县| 吴忠市| 克山县| 昂仁县| 青岛市| 正宁县| 慈溪市| 陇西县| 奎屯市| 荣成市|