• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      聯(lián)合稀疏非負(fù)矩陣分解和神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)

      2018-11-13 05:39:54時(shí)文華倪永婧張雄偉
      計(jì)算機(jī)研究與發(fā)展 2018年11期
      關(guān)鍵詞:字典信噪比頻譜

      時(shí)文華 倪永婧 張雄偉 鄒 霞 孫 蒙 閔 剛

      1(陸軍工程大學(xué)指揮信息系統(tǒng)學(xué)院 南京 210007) 2(空軍航空大學(xué)飛行訓(xùn)練基地 遼寧阜新 123100) 3(燕山大學(xué)信息科學(xué)與工程學(xué)院 河北秦皇島 066004) 4(河北科技大學(xué)信息科學(xué)與工程學(xué)院 石家莊 050018) 5 (國防科技大學(xué)信息通信學(xué)院 西安 710106) (whshi0919@163.com)

      語音增強(qiáng)旨在抑制或分離噪聲,盡可能地從被噪聲污染的語音信號(hào)中不失真地恢復(fù)出目標(biāo)語音,改善語音的感知質(zhì)量和可懂度,或作為前端提高識(shí)別準(zhǔn)確率,在語音通信系統(tǒng)、聽覺輔助設(shè)備和自動(dòng)語音識(shí)別系統(tǒng)中得到了廣泛的應(yīng)用,是語音信號(hào)和信息處理領(lǐng)域的重要研究課題.過去的幾十年里,眾多語音增強(qiáng)方法相繼提出,極大地推動(dòng)了語音增強(qiáng)技術(shù)的發(fā)展.但在實(shí)際場景中,特別是在單通道、非平穩(wěn)噪聲環(huán)境下,由于缺乏多通道場景下的時(shí)空域參考信息且難以對(duì)語音在時(shí)頻域上的結(jié)構(gòu)化信息進(jìn)行有效建模和利用[1],單通道語音增強(qiáng)仍是一個(gè)非常具有挑戰(zhàn)性的課題.

      根據(jù)是否需要語音和噪聲的先驗(yàn)信息,現(xiàn)有的語音增強(qiáng)方法可以分為有監(jiān)督和無監(jiān)督兩大類.經(jīng)典的無監(jiān)督增強(qiáng)方法包括譜減法、維納濾波法和基于統(tǒng)計(jì)模型的方法等[2],這類方法一般是基于語音和噪聲不相關(guān)且頻譜系數(shù)服從高斯分布的假設(shè),增強(qiáng)性能依賴于話音活動(dòng)檢測(cè)或噪聲功率譜估計(jì)的準(zhǔn)確性.這類方法在平穩(wěn)噪聲環(huán)境下一般能夠取得較好的噪聲抑制效果,然而在非平穩(wěn)噪聲或低信噪比環(huán)境下,由于對(duì)噪聲的實(shí)時(shí)追蹤和準(zhǔn)確估計(jì)將變得較為困難,將會(huì)嚴(yán)重影響這類方法的增強(qiáng)性能.有監(jiān)督語音增強(qiáng)方法作為數(shù)據(jù)驅(qū)動(dòng)的方法,代表性的有基于字典的方法[3-6]和基于神經(jīng)網(wǎng)絡(luò)的方法[7-11].這類方法直接從數(shù)據(jù)出發(fā),通過訓(xùn)練的方法得到語音和噪聲的模型,或是利用先驗(yàn)信息學(xué)習(xí)帶噪語音到純凈語音之間的非線性映射.由于無需對(duì)語音和噪聲的分布做各種假設(shè),有監(jiān)督增強(qiáng)方法在低信噪比或非平穩(wěn)噪聲環(huán)境下往往能獲得比傳統(tǒng)無監(jiān)督方法更好的增強(qiáng)效果.

      非負(fù)矩陣分解(non-negative matrix factorization, NMF)是字典學(xué)習(xí)中一種典型方法,利用非負(fù)的字典矩陣(也稱作基矩陣)和編碼矩陣(也稱作時(shí)變?cè)鲆婢仃嚮蚣せ钕禂?shù)矩陣)的乘積實(shí)現(xiàn)對(duì)整體非負(fù)矩陣的逼近,由于符合人類對(duì)客觀事物從局部到整體的認(rèn)知過程,且分解結(jié)果具有物理可解釋性,被廣泛應(yīng)用于目標(biāo)識(shí)別、聲信號(hào)檢測(cè)、語音增強(qiáng)和聲源分離等領(lǐng)域[12].利用NMF的聲源分離存在的一個(gè)問題是由于各個(gè)聲源的基向量不是正交的,當(dāng)不同聲源的基向量存在混疊時(shí),即目標(biāo)聲源有可能被其他聲源的基向量和編碼向量表示時(shí),會(huì)出現(xiàn)無法正確分離出各個(gè)聲源的現(xiàn)象(這個(gè)問題也存在于語噪分離問題中).文獻(xiàn)[5]采用對(duì)基向量進(jìn)行區(qū)分性訓(xùn)練,文獻(xiàn)[6]利用深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)學(xué)習(xí)從輸入非負(fù)矩陣表示到編碼矩陣的非線性映射來解決這一問題.另一方面, 對(duì)于語音增強(qiáng)問題,基于NMF的語音增強(qiáng)方法雖然對(duì)噪聲抑制效果明顯,但是在低信噪比情況下和無明顯結(jié)構(gòu)特征的清音部分,增強(qiáng)后的語音存在頻譜結(jié)構(gòu)成分缺失的問題,這將在去除噪聲的同時(shí)不可避免地引入語音失真.

      深度學(xué)習(xí)方法通過模擬人類大腦對(duì)事物逐層抽象的認(rèn)知過程,挖掘潛在的高層特征,受到了學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注[13].語音信號(hào)的產(chǎn)生是一個(gè)典型的復(fù)雜非線性問題,深度學(xué)習(xí)技術(shù)的發(fā)展,極大促進(jìn)了語音識(shí)別、語音合成等語音信號(hào)處理技術(shù)的發(fā)展[1].在語音增強(qiáng)領(lǐng)域,文獻(xiàn)[8]利用DNN建立帶噪語音的對(duì)數(shù)能量譜到純凈語音的對(duì)數(shù)能量譜之間的非線性映射函數(shù),采用全局均衡方差方法來解決經(jīng)DNN增強(qiáng)后語音頻譜出現(xiàn)的過平滑問題.實(shí)驗(yàn)結(jié)果表明,在大規(guī)模訓(xùn)練數(shù)據(jù)集下,該方法對(duì)訓(xùn)練集中不包含的噪聲和真實(shí)場景下的非平穩(wěn)噪聲都有著較好的抑制能力.文獻(xiàn)[9]利用DNN估計(jì)計(jì)算聽覺場景分析(computational auditory scene analysis, CASA)中的理想二值掩蔽,該方法可以有效提高帶噪語音的可懂度.此外,深度循環(huán)神經(jīng)網(wǎng)絡(luò)(deep recurrent neural network, DRNN)、長短時(shí)記憶網(wǎng)絡(luò)(long short-term memory, LSTM)利用循環(huán)連接或者存儲(chǔ)和門結(jié)構(gòu)單元對(duì)語音信號(hào)的長短時(shí)序相關(guān)性進(jìn)行建模,使得語噪分離的性能進(jìn)一步提升[7].文獻(xiàn)[10]把在計(jì)算機(jī)視覺、圖像處理領(lǐng)域得到成功應(yīng)用的生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network, GAN)運(yùn)用到了語音增強(qiáng)領(lǐng)域, 取得了一定效果.文獻(xiàn)[11]提出一種利用增強(qiáng)學(xué)習(xí)(reinforcement learning, RL)對(duì)DNN進(jìn)行自優(yōu)化(self-optimization)的語音增強(qiáng)方法.用反映人類聽覺打分的定量指標(biāo)作為網(wǎng)絡(luò)的獎(jiǎng)賞反饋(reward)訓(xùn)練網(wǎng)絡(luò).主、客觀測(cè)試表明該方法在有限的樣本數(shù)據(jù)下的有效性.

      考慮到語音信號(hào)在時(shí)頻域的稀疏特性和深度神經(jīng)網(wǎng)絡(luò)在語音增強(qiáng)應(yīng)用中表現(xiàn)出的頻譜保持特性,本文提出了一種聯(lián)合稀疏非負(fù)矩陣分解(sparse non-negative matrix factorization, SNMF)和深度神經(jīng)網(wǎng)絡(luò)的單通道語音增強(qiáng)方法.首先對(duì)帶噪語音的幅度譜進(jìn)行非負(fù)矩陣分解得到和語音字典、噪聲字典對(duì)應(yīng)的稀疏編碼矩陣,以維納濾波方式恢復(fù)語音成分的主要結(jié)構(gòu),通過深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)分離語音的對(duì)數(shù)幅度譜和理想純凈語音對(duì)數(shù)幅度譜之間的非線性映射,恢復(fù)出語音結(jié)構(gòu)的缺失成分.實(shí)驗(yàn)結(jié)果表明所提方法可以有效抑制噪聲且較好地保留語音成分,在感知質(zhì)量和對(duì)數(shù)譜失真性能評(píng)價(jià)指標(biāo)上,均優(yōu)于基線方法.

      1 稀疏非負(fù)矩陣分解

      非負(fù)矩陣分解是利用非負(fù)的字典矩陣D∈和編碼矩陣C∈的乘積實(shí)現(xiàn)對(duì)整體非負(fù)矩陣V∈的逼近,即:

      (1)

      式(1)通常通過式(2)的最小化問題來求解:

      mind(V|DC) s.t.Df,k≥0,Ck,n≥0,

      (2)

      其中,d表示刻畫分解矩陣與原始矩陣逼近程度的距離度量,常用的度量有歐氏距離(Euclidean distance)、KL散度(Kullback-Leibler, KL divergence)和板倉散度(Itakura-Saito, IS divergence), 度量函數(shù)的選取會(huì)影響分解的效果.

      對(duì)于語音信號(hào),濁音段的時(shí)域波形具有相似性,呈現(xiàn)出的準(zhǔn)周期特性表征了語音信號(hào)在時(shí)域的冗余度.短時(shí)功率譜具有共振峰結(jié)構(gòu),且能量大部分集中在低頻部分,表征了語音信號(hào)在頻域的冗余性.語音信號(hào)在時(shí)頻域的冗余性使得用稀疏表示方法所得到的模型變得簡單高效,特別是使得模型在應(yīng)對(duì)噪聲方面更加魯棒[14-15].而基于KL散度的目標(biāo)函數(shù)對(duì)低能量觀測(cè)值較為敏感,在目標(biāo)分離任務(wù)中,KL散度往往能取得較好的效果[16].通過對(duì)編碼矩陣C施加稀疏約束(sparse constraint),在KL散度距離度量下,式(2)可以表示為求解一個(gè)帶稀疏約束最小化問題[17]:

      (3)

      其中,λ是控制編碼矩陣C稀疏度的參數(shù),λ取值越大代表編碼矩陣越稀疏.距離度量dKL(·|·)的表達(dá)式為

      (4)

      在KL散度距離度量下,式(3)可以采用梯度下降方法,利用乘性迭代的方式求解[18]:

      (5)

      (6)

      2 語音增強(qiáng)方法

      2.1 基于SNMF的語音增強(qiáng)

      在線性模型下,帶噪語音信號(hào)y(t)可以由純凈語音s(t)及與語音信號(hào)不相關(guān)的加性噪聲n(t)之和表示,且對(duì)應(yīng)的短時(shí)傅里葉變換幅度譜滿足:

      Y=S+N.

      (7)

      將NMF方法用于語音增強(qiáng)時(shí),首先通過對(duì)純凈語音和噪聲數(shù)據(jù)進(jìn)行訓(xùn)練預(yù)先得到語音和噪聲的頻譜基向量DSpeech和DNoise作為先驗(yàn)信息,而后將兩者的基向量組合成聯(lián)合基字典[DSpeechDNoise].通常選取帶噪語音的幅度譜或是能量譜作為整體非負(fù)矩陣表示.利用SNMF方法將帶噪語音信號(hào)的非負(fù)矩陣表示分解為聯(lián)合基字典和稀疏編碼矩陣(由語音和噪聲的編碼向量組成)的乘積:

      Y≈DC=(DSpeechDNoise)(CSpeech;CNoise).

      (8)

      (9)

      2.2 基于DNN的模型訓(xùn)練和增強(qiáng)

      基于SNMF的語音增強(qiáng)方法對(duì)噪聲有較好的抑制能力,但觀察經(jīng)維納濾波后的語譜圖可以發(fā)現(xiàn),在去除噪聲的同時(shí)語音頻譜也受到了破壞,增強(qiáng)后的語譜圖中存在塊狀的缺失、頻譜成分的缺失,會(huì)造成語音的諧波成分破壞,不可避免地引入語音的失真.為了更好地提高增強(qiáng)后語音的感知質(zhì)量和語音的可懂度,考慮到基于DNN的語音增強(qiáng)方法具有有效的頻譜重構(gòu)特性,本文采用DNN網(wǎng)絡(luò)對(duì)經(jīng)SNMF方法增強(qiáng)后的語音進(jìn)行后處理.首先帶噪語音經(jīng)SNMF方法處理后,可以使語音中的噪聲成分得到了抑制;其次,經(jīng)過處理后的語音作為DNN的輸入可能降低網(wǎng)絡(luò)訓(xùn)練的復(fù)雜度.本文提出了的語音增強(qiáng)方法流程圖,如圖1所示:

      Fig. 1 A block diagram of the proposed method圖1 本文所提方法流程圖

      DNN是由輸入層、多個(gè)隱藏層和輸出層組成的神經(jīng)網(wǎng)絡(luò).一個(gè)隱藏層數(shù)量為L的全連接前向DNN的輸入、輸出表達(dá)式為

      y=φL+1(WL+1(φL(WL(…φ1(W1x))))),

      (10)

      其中,x表示網(wǎng)絡(luò)的輸入;y表示網(wǎng)絡(luò)的輸出;Wl表示網(wǎng)絡(luò)從l-1層到第l層的參數(shù)矩陣;φl(·)表示網(wǎng)絡(luò)第l-1層到第l層的激活函數(shù),常用的激活函數(shù)有Sigmoid函數(shù)、雙曲正切函數(shù)和修正線性函數(shù)等.

      (11)

      其中,W和b分別為整個(gè)網(wǎng)絡(luò)的權(quán)重矩陣和偏置矩陣,N為批處理的大小,JMSE代表基于最小均方誤差準(zhǔn)側(cè)的網(wǎng)絡(luò)輸出和目標(biāo)之間的損失函數(shù).利用帶動(dòng)量的隨機(jī)梯度下降方法通過反向傳播損失函數(shù)更新網(wǎng)絡(luò)的權(quán)重和偏置參數(shù):

      (12)

      其中,1≤l≤L+1;λ表示學(xué)習(xí)率;ω為動(dòng)量因子參數(shù),用于加快模型的收斂速度,以減少在局部極值點(diǎn)附近的振蕩.

      在增強(qiáng)階段則是使用維納濾波方法得到經(jīng)NMF方法處理后的語音幅度譜,該幅度譜特征歸一化聯(lián)合相鄰幀的幅度譜特征作為訓(xùn)練好的DNN模型的輸入,網(wǎng)絡(luò)的輸出即為增強(qiáng)語音的對(duì)數(shù)幅度譜.基于語音對(duì)相位信息不敏感的特性,聯(lián)合帶噪語音的相位信息即可通過逆短時(shí)傅里葉變換重構(gòu)出時(shí)域的語音信號(hào).

      3 實(shí)驗(yàn)仿真及性能分析

      3.1 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

      在本實(shí)驗(yàn)中,純凈語音選自IEEE語句[20],噪聲信號(hào)取自于NOISEX-92標(biāo)準(zhǔn)噪聲庫[21].IEEE語句由720句男性說話人組成;NOISEX-92噪聲庫是由15種真實(shí)場景噪聲組成,主要包含多種軍事環(huán)境噪聲和一些常見的環(huán)境噪聲,以非平穩(wěn)噪聲為主,每種噪聲長度在4 min左右.

      為了增加數(shù)據(jù)的多樣性、避免過擬合現(xiàn)象,每種噪聲被分為前、后2段分別用于訓(xùn)練和測(cè)試[8].在訓(xùn)練階段,從IEEE語句庫中隨機(jī)選取200句純凈語音,分別以-9 dB,-6 dB,-3 dB,0 dB,3 dB, 6 dB,9 dB這7種信噪比與NOISEX-92噪聲庫中的4種噪聲的前半段的任意部分隨機(jī)混合.這4種噪聲分別是:F16雙座艙內(nèi)噪聲、Factory工廠噪聲、HF Channel高頻噪聲、White高斯白噪聲,這樣共生成5 600句帶噪語音作為訓(xùn)練數(shù)據(jù)集.選取訓(xùn)練集的10%作為驗(yàn)證集,每個(gè)epoch后,在驗(yàn)證集上測(cè)試網(wǎng)絡(luò)性能,選擇在驗(yàn)證集表現(xiàn)最好的網(wǎng)絡(luò)參數(shù)作為網(wǎng)絡(luò)訓(xùn)練的最終模型.在測(cè)試階段,從IEEE語句庫中選取另外20句純凈語音并分別與訓(xùn)練階段用的4類噪聲的后半段按照 -5 dB,0 dB,5 dB,10 dB 混合,共生成320句帶噪語音作為測(cè)試語句.

      本文選取感知語音質(zhì)量(perceptual evaluation of speech quality, PESQ)[22]和對(duì)數(shù)譜距離(log-spectral distance, LSD)[23]作為指標(biāo)評(píng)價(jià)所提方法的性能.PESQ打分側(cè)重于評(píng)估處理語音的總體質(zhì)量,其得分位于區(qū)間[-0.5 4.5]之間,是廣泛使用的客觀評(píng)價(jià)方法.LSD指標(biāo)衡量純凈語音和增強(qiáng)語音之間的短時(shí)功率譜差異,越小的值表示增強(qiáng)后語音的譜失真越小.

      3.2 基線方法和參數(shù)設(shè)置

      本文選取2種方法作為基線方法:基于DNN的自回歸語音增強(qiáng)方法[8](簡記為DNN)和基于卷積非負(fù)矩陣分解的(convolutive non-negative matrix factorization, CNMF)有監(jiān)督語音增強(qiáng)方法[24].2種方法和本文所提方法使用相同的訓(xùn)練和測(cè)試數(shù)據(jù).在DNN自回歸方法中,網(wǎng)絡(luò)輸入為歸一化的帶噪語音的對(duì)數(shù)幅度譜,輸出為純凈語音的對(duì)數(shù)幅度譜.基于CNMF的語音增強(qiáng)方法利用二維時(shí)頻字典表征語音信號(hào)的時(shí)頻結(jié)構(gòu)特征,可以動(dòng)態(tài)地描述語音和噪聲的信息.語音字典和噪聲字典通過預(yù)先訓(xùn)練得到.語音字典基依經(jīng)驗(yàn)設(shè)為100,噪聲字典基設(shè)為60.字典訓(xùn)練特征選擇用Hamming窗計(jì)算的512維幅度譜,窗長為32 ms,幀移為8 ms.在SNMF方法中,稀疏約束λ取值依經(jīng)驗(yàn)設(shè)為0.1.在CNMF方法中,時(shí)頻原子的大小選為8.在本文所提方法中,經(jīng)維納濾波后的輸出聯(lián)合相鄰2幀(即K=2)的對(duì)數(shù)幅度譜特征組成一個(gè)長度為5幀的長特征向量作為DNN網(wǎng)絡(luò)的輸入,網(wǎng)絡(luò)的輸出目標(biāo)為當(dāng)前幀對(duì)應(yīng)的純凈語音的對(duì)數(shù)幅度譜.網(wǎng)絡(luò)的輸入層為257×5個(gè)節(jié)點(diǎn),輸出層為257個(gè)節(jié)點(diǎn),隱藏層數(shù)設(shè)為3,每層的節(jié)點(diǎn)數(shù)為2 048個(gè),dropout取值為0.2,批處理大小選為1024.300個(gè)epoch后,網(wǎng)絡(luò)參數(shù)不再更新,選擇在驗(yàn)證集上表現(xiàn)最好的網(wǎng)絡(luò)參數(shù)作為訓(xùn)練結(jié)果.在實(shí)驗(yàn)中,我們選取修正線性激活函數(shù)[25]作為隱藏層的激活函數(shù),該激活函數(shù)與Sigmoid函數(shù)和雙曲正切函數(shù)相比更加符合神經(jīng)元的激勵(lì)原理,而且其輸出具有稀疏性.研究表明,當(dāng)網(wǎng)絡(luò)訓(xùn)練采用修正線性單元(rectified linear unit, ReLU)[25]時(shí),在大規(guī)模訓(xùn)練數(shù)據(jù)集下無需對(duì)網(wǎng)絡(luò)進(jìn)行無監(jiān)督的預(yù)訓(xùn)練也能取得較好的效果[9].由于輸出目標(biāo)是純凈語音的對(duì)數(shù)幅度譜,故在DNN網(wǎng)絡(luò)的輸出層選擇線性激活函數(shù).

      3.3 實(shí)驗(yàn)結(jié)果和分析

      為了說明方法的有效性以及更好地體現(xiàn)出噪聲抑制和語音頻譜信息保留的細(xì)節(jié)信息,圖2給出了一段噪聲類型為Factory、輸入信噪比為0 dB的帶噪語音經(jīng)不同有監(jiān)督方法增強(qiáng)后的語譜圖.由圖2可以看出,基于NMF的增強(qiáng)方法對(duì)噪聲的抑制水平要高于CNMF和DNN方法,但是增強(qiáng)后的語音在低頻部分語音的頻譜成分和純凈語音相比存在頻譜結(jié)構(gòu)缺失的現(xiàn)象.經(jīng)過DNN方法能夠較好地恢復(fù)出被噪聲污染的語音成分和語音頻譜結(jié)構(gòu),但是存在著較多的冗余噪聲,我們認(rèn)為主要原因是基于MMSE的損失函數(shù)對(duì)各個(gè)頻帶的權(quán)重相等,然而對(duì)語音信號(hào),在低頻成分的能量要遠(yuǎn)高于高頻成分,所以經(jīng)過DNN方法增強(qiáng)后的語音特別是在高頻部分會(huì)存在噪聲冗余.由圖2可以看出,本文所提方法在抑制噪聲成分的同時(shí)能夠較好地恢復(fù)出語音的頻譜結(jié)構(gòu).

      Fig. 2 Spectrograms of an utterance圖2 語音語譜圖

      表1和表2分別給出了在不同信噪比下,被4種噪聲污染的語音經(jīng)過不同降噪方法處理后的PESQ和LSD指標(biāo)結(jié)果.由表1和表2可以看出,除了在-5 dB HF Channel條件下,本文所提方法的PESQ和LSD得分要略低于DNN基線方法,在其他噪聲和信噪比情況下,本文所提方法在2種評(píng)價(jià)指標(biāo)上都要高于其他4種方法.從表2中可以看出,在F16噪聲類型下,基于NMF或CNMF的方法在低信噪比時(shí)較DNN的方法在性能上效果相差不大,而在White噪聲下性能要低于基于DNN的方法和本文所提方法.我們認(rèn)為主要是F16雙座艙內(nèi)的噪聲(比如說設(shè)備引擎等)具有較強(qiáng)的結(jié)構(gòu)性,這種類型的噪聲用字典中少量的原子組合就可以表示,所以基于NMF的增強(qiáng)方法對(duì)這類結(jié)構(gòu)化噪聲的建模能力較好,而White噪聲不具備明顯的譜結(jié)構(gòu)信息,因此,基于NMF和CNMF的增強(qiáng)方法在此類噪聲類型上的語音失真要高于其他類型的噪聲.

      Table 1 PESQ Score of Different Enhancement Methods表1 不同增強(qiáng)方法和噪聲下的PESQ得分

      Table 2 LSD Score of Different Enhancement Methods表2 不同增強(qiáng)方法和噪聲下的LSD值

      在實(shí)驗(yàn)中訓(xùn)練集和測(cè)試集所選取的噪聲類型相同,但測(cè)試集和訓(xùn)練集用的是語音庫中不同的語句,按不同信噪比添加同一種類型噪聲的不同部分,旨在避免過擬合,測(cè)試所提方法對(duì)不匹配類型的泛化性能.實(shí)驗(yàn)結(jié)果驗(yàn)證了本文所提方法在不匹配情況下,在平穩(wěn)和非平穩(wěn)噪聲環(huán)境下的有效性.由于噪聲字典僅在4種噪聲類型下獲得,因此在完全不匹配數(shù)據(jù)集(完全不匹配一般是指在訓(xùn)練階段沒有見過的噪聲類型、沒有訓(xùn)練過的信噪比和未曾出現(xiàn)過的說話人)上的性能沒有做進(jìn)一步的實(shí)驗(yàn).事實(shí)上,在完全不匹配數(shù)據(jù)集上的泛化性能是基于字典或是基于DNN等有監(jiān)督語音增強(qiáng)方法要面臨的一個(gè)問題.這一問題一方面可以通過增加在字典訓(xùn)練或是網(wǎng)絡(luò)訓(xùn)練中的樣本數(shù)量,即增加訓(xùn)練集中樣本的多樣性來解決.在文獻(xiàn)[8]中,通過選取104種噪聲類型、625 h的語料進(jìn)行訓(xùn)練,驗(yàn)證了基于DNN的自回歸語音增強(qiáng)方法在完全不匹配數(shù)據(jù)集上也具有良好的去噪效果.文獻(xiàn)[26]通過對(duì)訓(xùn)練集中數(shù)據(jù)添加抖動(dòng)的方法來增加數(shù)據(jù)多樣性以提高方法性能.另一方面可以通過半監(jiān)督或者自適應(yīng)字典學(xué)習(xí)的方法,即從樣本和數(shù)據(jù)中在線學(xué)習(xí)字典的方法增加方法的自適應(yīng)性,這也是我們下一步研究的一個(gè)方向.

      4 總 結(jié)

      針對(duì)基于非負(fù)矩陣分解的語音增強(qiáng)方法在低信噪比部分和無結(jié)構(gòu)特征的清音部分會(huì)引入失真這一問題,充分利用語音信號(hào)在時(shí)頻域的稀疏特性和深度神經(jīng)網(wǎng)絡(luò)在語音增強(qiáng)應(yīng)用中表現(xiàn)出的譜重構(gòu)特性,本文提出一種聯(lián)合稀疏非負(fù)矩陣分解和深度神經(jīng)網(wǎng)絡(luò)的單通道語音增強(qiáng)方法.實(shí)驗(yàn)結(jié)果表明:本文所提方法在有效抑制噪聲的同時(shí)能較好地恢復(fù)語音的頻譜結(jié)構(gòu),特別是在非平穩(wěn)噪聲環(huán)境下,也具有較為理想的增強(qiáng)效果.

      猜你喜歡
      字典信噪比頻譜
      開心字典
      家教世界(2023年28期)2023-11-14 10:13:50
      開心字典
      家教世界(2023年25期)2023-10-09 02:11:56
      一種用于深空探測(cè)的Chirp變換頻譜分析儀設(shè)計(jì)與實(shí)現(xiàn)
      基于深度學(xué)習(xí)的無人機(jī)數(shù)據(jù)鏈信噪比估計(jì)算法
      一種基于稀疏度估計(jì)的自適應(yīng)壓縮頻譜感知算法
      低信噪比下LFMCW信號(hào)調(diào)頻參數(shù)估計(jì)
      低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
      我是小字典
      正版字典
      讀者(2016年14期)2016-06-29 17:25:50
      認(rèn)知無線電頻譜感知技術(shù)綜述
      深州市| 亚东县| 定襄县| 枣阳市| 错那县| 克拉玛依市| 社会| 抚宁县| 柯坪县| 桃园市| 莫力| 武山县| 巍山| 麟游县| 阿瓦提县| 大同市| 弥勒县| 工布江达县| 天气| 波密县| 即墨市| 台南县| 青海省| 乐山市| 阳春市| 穆棱市| 吉木萨尔县| 青州市| 大宁县| 西畴县| 上栗县| 隆化县| 南木林县| 凉城县| 双流县| 集安市| 宝兴县| 河津市| 崇左市| 抚松县| 郧西县|