蔡文堅(jiān),王輔忠,張慧春,盧歡歡
(天津工業(yè)大學(xué) 理學(xué)院,天津 300387)
譜減法對(duì)噪聲的估計(jì)值存在不可避免的誤差,從而使輸出的語(yǔ)音信號(hào)伴隨有“音樂(lè)噪聲”。另外譜減法使用含噪語(yǔ)音信號(hào)的相位譜代替噪聲信號(hào)的相位譜,也嚴(yán)重影響了語(yǔ)音信號(hào)的輸出質(zhì)量。近年來(lái),研究人員多次對(duì)譜減法進(jìn)行改進(jìn)[1-3],但在低信噪比環(huán)境下,經(jīng)譜減法輸出的語(yǔ)音信號(hào)質(zhì)量仍沒(méi)有太大改善。
Benzi等提出隨機(jī)共振的概念用以解釋冰川周期古氣象問(wèn)題。近年來(lái)隨機(jī)共振在信號(hào)噪聲處理方面的應(yīng)用得到了迅速的發(fā)展,成為人們?cè)谠擃I(lǐng)域研究的熱點(diǎn)之一。與將噪聲從含噪信號(hào)中分離的常見(jiàn)噪聲處理方法不同,隨機(jī)共振方法能夠利用噪聲能量來(lái)放大微弱信號(hào)[4],從而在低信噪比情況下有效提高信號(hào)質(zhì)量。
為了提高在低信噪比環(huán)境下輸出語(yǔ)音的質(zhì)量,本文提出了一種基于隨機(jī)共振理論與譜減法的復(fù)合型語(yǔ)音增強(qiáng)方法。首先對(duì)含噪語(yǔ)音信號(hào)進(jìn)行二次采樣[5,6]隨機(jī)共振預(yù)處理,將強(qiáng)噪聲的部分能量轉(zhuǎn)移到語(yǔ)音信號(hào)上,再將經(jīng)預(yù)處理的語(yǔ)音信號(hào)進(jìn)行增益平均[7,8]譜減處理。通過(guò)模擬仿真實(shí)驗(yàn),計(jì)算并對(duì)比復(fù)合方法與譜減法降噪處理后語(yǔ)音信號(hào)的信噪比增益以及感知語(yǔ)音質(zhì)量評(píng)估測(cè)度。
1.1 雙穩(wěn)態(tài)隨機(jī)共振理論
非線性雙穩(wěn)隨機(jī)共振系統(tǒng)可以由郎之萬(wàn)方程進(jìn)行描述
(1)
(2)
將輸入的微弱信號(hào)s(t)與噪聲信號(hào)n(t)通過(guò)非線性雙穩(wěn)系統(tǒng)V(x),三者間發(fā)生隨機(jī)共振現(xiàn)象,產(chǎn)生協(xié)同效應(yīng),使噪聲的一部分能量轉(zhuǎn)移到微弱語(yǔ)音信號(hào)。
譜減法是當(dāng)前使用最廣泛的語(yǔ)音增強(qiáng)算法,用y(n)表示待處理的含噪語(yǔ)音輸入信號(hào),其由純凈語(yǔ)音信號(hào)x(n)以及加性噪聲d(n)兩部分組成
y(n)=x(n)+d(n)
(3)
對(duì)式(3)兩邊同時(shí)做離散傅里葉變換可得
Y(ω)=X(ω)+D(ω)
(4)
Y(ω)和D(ω)分別可以表示為
Y(ω)=|Y(ω)|ejφy(ω),D(ω)=|D(ω)|ejφd(ω)
(5)
其中,|Y(ω)|,φy(ω)分別表示含噪語(yǔ)音信號(hào)功率譜和相位譜,|D(ω)|,φd(ω)分別表示噪聲信號(hào)的功率譜和相位譜。譜減法利用含噪語(yǔ)音無(wú)話段信號(hào)的平均功率譜來(lái)近似估計(jì)噪聲信號(hào)的功率譜|D(ω)|,然后將這個(gè)估計(jì)值從含噪信號(hào)的功率譜中減去,獲得輸出語(yǔ)音信號(hào)的功率譜。另外將噪聲的相位譜φd(ω)用含噪語(yǔ)音信號(hào)的相位譜φy(ω)代替,從而得到純凈語(yǔ)音信號(hào)譜的估計(jì)
(6)
對(duì)于隨機(jī)共振模型,信噪比是最重要的測(cè)度指標(biāo)之一。為了更客觀地評(píng)價(jià)輸出語(yǔ)音的質(zhì)量,往往采用分段信噪比對(duì)語(yǔ)音信號(hào)的質(zhì)量進(jìn)行評(píng)估。因此實(shí)驗(yàn)將利用信噪比對(duì)隨機(jī)共振預(yù)處理進(jìn)行自適應(yīng)調(diào)試,采用分段信噪比、分段信噪比增益及感知語(yǔ)音質(zhì)量評(píng)估(PESQ)[10]等測(cè)度數(shù)據(jù)作為語(yǔ)音質(zhì)量的主要分析指標(biāo)。其中分段信噪比的定義為
(7)
式中:N為幀長(zhǎng)(設(shè)置為15 ms-20 ms),M是信號(hào)中的幀數(shù)。另外分段信噪比增益的定義如下
SNRIseg=SNRseg-out-SNRseg-in
(8)
式中:SNRseg-out為輸出信噪比,SNRseg-in為輸入信噪比,SNRIseg較SNRseg而言可以更直觀得表現(xiàn)語(yǔ)音增強(qiáng)系統(tǒng)的提升效果。
而主觀聽(tīng)音測(cè)試與感知語(yǔ)音質(zhì)量評(píng)估測(cè)度的相關(guān)度較高(ρ>0.92),因此實(shí)驗(yàn)將以分段信噪比與感知語(yǔ)音質(zhì)量評(píng)估得分為主要的性能評(píng)估指標(biāo)[12]。
2.2 仿真實(shí)驗(yàn)?zāi)P?/p>
仿真實(shí)驗(yàn)?zāi)P腿鐖D1所示。
圖1 系統(tǒng)模型框架
由于語(yǔ)音信號(hào)的頻率較高(0.3 kHz-3.4 kHz),不滿足絕熱近似條件,無(wú)法發(fā)生隨機(jī)共振現(xiàn)象。因此實(shí)驗(yàn)先對(duì)含噪語(yǔ)音信號(hào)進(jìn)行二次采樣,設(shè)置二次采樣頻率線性壓縮比R=3200,將語(yǔ)音信號(hào)頻率壓縮至0 Hz-1 Hz,從而滿足絕熱近似理論;再利用Runge-Kutta方法求解郎之萬(wàn)方程,并設(shè)置系統(tǒng)參數(shù)a、b搜索范圍為[0,5],自適應(yīng)尋優(yōu)步長(zhǎng)為0.02,以隨機(jī)共振系統(tǒng)輸出信噪比為衡量指標(biāo)[11],進(jìn)行自適應(yīng)隨機(jī)共振預(yù)處理,獲取最佳隨機(jī)共振輸出效果。
(9)
其中,減法因子k=0.7,i對(duì)應(yīng)語(yǔ)音分析幀的編號(hào)。隨后對(duì)增益函數(shù)進(jìn)行時(shí)域平滑處理以減小波動(dòng)。
最后對(duì)下式使用傅里葉逆變換得到增強(qiáng)后的輸出語(yǔ)音信號(hào)
(10)
仿真測(cè)試實(shí)驗(yàn)選用的純凈語(yǔ)音樣本來(lái)自文獻(xiàn)[7]提供的公共數(shù)據(jù)庫(kù),比特率和采樣頻率分別為128 kbps和8000 Hz的純凈語(yǔ)音信號(hào),所需高斯白噪聲來(lái)自NOISEX-92標(biāo)準(zhǔn)噪聲數(shù)據(jù)庫(kù)。
仿真實(shí)驗(yàn)測(cè)試了多組純凈語(yǔ)音樣本,以初始信噪比為-10 dB的“語(yǔ)音樣本1”為例進(jìn)行分析。對(duì)語(yǔ)音樣本1進(jìn)行二次采樣,并輸出其時(shí)域波形圖和頻域幅值譜,如圖2(a)和圖2(b)所示。將高斯白噪聲疊加至二次采樣后的語(yǔ)音信號(hào)上,獲得初始信噪比為-10 dB的含噪語(yǔ)音信號(hào),并輸出含噪信號(hào)的時(shí)域波形圖和頻域幅值譜,如圖2(c)與圖2(d)所示。在時(shí)域上純凈語(yǔ)音被強(qiáng)噪聲徹底淹沒(méi),無(wú)法觀察出其原有的純凈語(yǔ)音波形,且在整個(gè)頻域內(nèi)均存在噪聲信號(hào)能量,而語(yǔ)音信號(hào)的能量主要集中在低頻域。
圖2 純凈語(yǔ)音及含噪語(yǔ)音的時(shí)域波形圖和頻域幅值譜
利用譜減語(yǔ)音增強(qiáng)系統(tǒng)與隨機(jī)共振-譜減法結(jié)合的復(fù)合語(yǔ)音增強(qiáng)系統(tǒng)分別處理含噪語(yǔ)音信號(hào),并將處理后的時(shí)域波形圖與頻域幅值譜歸一化輸出如圖3、圖4所示。
圖3 譜減系統(tǒng)輸出語(yǔ)音的時(shí)域波形圖和頻域幅值譜
圖4 復(fù)合系統(tǒng)輸出語(yǔ)音的時(shí)域波形圖和頻域幅值譜
當(dāng)初始信噪比為-10 dB時(shí),對(duì)比圖3(a)、圖4(a)的時(shí)域波形圖發(fā)現(xiàn),通過(guò)復(fù)合系統(tǒng)的輸出波形則更易觀察出純凈語(yǔ)音的大致波形輪廓。對(duì)比圖3(b)、圖4(b)的輸出頻域幅值譜發(fā)現(xiàn),經(jīng)譜減語(yǔ)音增強(qiáng)系統(tǒng)處理后的輸出信號(hào)高頻區(qū)噪聲能量依舊很大,而經(jīng)復(fù)合系統(tǒng)處理后,高頻噪聲能量被轉(zhuǎn)移到低頻語(yǔ)音信號(hào)上來(lái),印證了隨機(jī)共振將噪聲能量向語(yǔ)音信號(hào)轉(zhuǎn)移的作用。計(jì)算兩次輸出語(yǔ)音信噪比發(fā)現(xiàn),經(jīng)譜減系統(tǒng)處理后的輸出語(yǔ)音信號(hào)信噪比為-2.4134 dB,而經(jīng)復(fù)合系統(tǒng)處理后的輸出語(yǔ)音信號(hào)信噪比為-0.0031 dB,二者的信噪比差值高達(dá)2.4103 dB。
對(duì)語(yǔ)音樣本1設(shè)置初始信噪比為-1 dB到-15 dB,分別通過(guò)譜減系統(tǒng)與復(fù)合系統(tǒng)的分段信噪比增益測(cè)試和感知語(yǔ)音質(zhì)量評(píng)估測(cè)試。如圖5、圖6所示,初始信噪比從-1 dB到-15 dB的語(yǔ)音信號(hào)在通過(guò)復(fù)合系統(tǒng)后輸出語(yǔ)音信號(hào)的SNRIseg與PESQ評(píng)估得分均優(yōu)于通過(guò)譜減系統(tǒng)的輸出語(yǔ)音信號(hào)。觀察信噪比增益曲線,兩者的SNRIseg差值在初始信噪比為-7 dB到-1 dB時(shí)比較穩(wěn)定,約1.58 dB;兩者的SNRIseg差值在初始信噪比為-15 dB到-8 dB范圍內(nèi)隨初始信噪比的降低而增大,最高達(dá)5 dB。此外,觀察感知語(yǔ)音質(zhì)量評(píng)估曲線,隨著初始信噪比降低,經(jīng)復(fù)合系統(tǒng)與經(jīng)譜減系統(tǒng)處理輸出的語(yǔ)音信號(hào)PESQ評(píng)估得分均會(huì)隨之下降,但復(fù)合系統(tǒng)仍可獲得更高的PESQ評(píng)估得分。
此外,實(shí)驗(yàn)設(shè)置初始信噪比為-5 dB、-10 dB、-15 dB對(duì)多組不同的語(yǔ)音樣本進(jìn)行對(duì)比測(cè)試,并將所測(cè)的SNRIseg與PESQ評(píng)估得分?jǐn)?shù)據(jù)記錄于表1。對(duì)比不同語(yǔ)音樣本不同初始信噪比下兩種方法的SNRIseg和PESQ評(píng)估得分發(fā)現(xiàn),復(fù)合系統(tǒng)在處理不同語(yǔ)音樣本時(shí)均具有更好的效果。在不同初始信噪比下,復(fù)合系統(tǒng)對(duì)于不同語(yǔ)音樣本均可獲得更高的分段信噪比增益與感知語(yǔ)音質(zhì)量評(píng)估得分。
圖5 譜減系統(tǒng)和復(fù)合系統(tǒng)輸出的分段信噪比增益
圖6 譜減系統(tǒng)和復(fù)合系統(tǒng)輸出的感知語(yǔ)音質(zhì)量評(píng)估
輸入信號(hào)初始信噪比/dB譜減系統(tǒng)分段信噪比增益/dB譜減系統(tǒng)感知語(yǔ)音質(zhì)量評(píng)估得分復(fù)合系統(tǒng)分段信噪比增益/dB復(fù)合系統(tǒng)感知語(yǔ)音質(zhì)量評(píng)估得分語(yǔ)音樣本2-53.401.455.121.66-107.701.329.971.50-159.771.1514.801.31語(yǔ)音樣本3-54.081.215.381.43-107.501.0210.231.24-159.910.7414.921.05語(yǔ)音樣本4-53.301.474.961.64-107.291.339.931.46-159.711.2014.691.32語(yǔ)音樣本5-53.521.314.881.46-107.801.179.811.28-159.801.0414.591.14
本文基于隨機(jī)共振理論與譜減法提出了一種復(fù)合型的語(yǔ)音增強(qiáng)方法,利用隨機(jī)共振預(yù)處理減小噪聲與純凈信號(hào)間的相位差,降低譜減法中相位噪聲對(duì)語(yǔ)音質(zhì)量影響,優(yōu)化了低信噪比環(huán)境下譜減語(yǔ)音增強(qiáng)方法的效果并具有較強(qiáng)的普適性。通過(guò)與譜減法的對(duì)比實(shí)驗(yàn)發(fā)現(xiàn):在低信噪比(<0 dB)情況下,隨機(jī)共振與譜減法的復(fù)合方法可以得到更高的分段信噪比增益與感知語(yǔ)音質(zhì)量評(píng)估得分,獲得更優(yōu)的語(yǔ)音增強(qiáng)效果,提高語(yǔ)音信號(hào)輸出質(zhì)量。
[1]Miyazaki R,Saruwatari H,Inoue T,et al.Musical-noise-free speech enhancement based on optimized iterative spectral subtraction[J].IEEE Transactions on Audio,Speech,and Language Processing,2012,20(7):2080-2094.
[2]CAO Liang,ZHANG Tianqi,GAO Hongxing,et al.Multi-band spectral subtraction method for speech enhancement based on masking property of human auditory system[J].Computer Engineering and Design,2013,34(1):235-240(in Chinese).[曹亮,張?zhí)祢U,高洪興,等.基于聽(tīng)覺(jué)掩蔽效應(yīng)的多頻帶譜減語(yǔ)音增強(qiáng)方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34(1):235-240.]
[3]Zhang Y,Zhao Y.Real and imaginary modulation spectral subtraction for speech enhancement[J].Speech Communication,2013,55(4):509-522.
[4]LENG Yonggang,LAI Zhihui,FAN Shengbo,et al.Large parameter stochastic resonance of two-dimensional Duffing oscillator and its application on weak signal detection[J].Acta Physica Sinica,2012,61(23):230502(in Chinese).[冷永剛,賴志慧,范勝波,等.二維Duffing振子的大參數(shù)隨機(jī)共振及微弱信號(hào)檢測(cè)研究[J].物理學(xué)報(bào),2012,61(23):230502.]
[5]MING Tingfeng,LONG Jingbing,ZHANG Yongxiang.Three methods of stochastic resonance in weak periodic signal detection with large parameters[J].Journal of Test and Mea-surement Techol,2014,28(6):476-480(in Chinese).[明廷鋒,龍景兵,張永祥.大參數(shù)條件下弱周期信號(hào)的3種隨機(jī)共振檢測(cè)方法[J].測(cè)試技術(shù)學(xué)報(bào),2014,28(6):476-480.]
[6]RENLitong,HUJinhai,XIEShousheng,etal.Vibrationfaultfeatureextractionbasedonstochasticresonancepretreatment[J].JournalofVibrationandShock,2014,33(2):141-146(inChinese).[任立通,胡金海,謝壽生,等.基于隨機(jī)共振預(yù)處理的振動(dòng)故障特征提取研究[J].振動(dòng)與沖擊,2014,33(2):141-146.]
[7]LoizouPC.Speechenhancement:Theoryandpractice[M].CRCPress,2013.
[8]LIANGWeiqian,ZHENGFang,ZHENGJiachun,etal.Sub-bandadaptivenoisereductionalgorithmtoimprovespeechintelligibility[J].JournalofTsinghuaUniversity(ScienceandTechnology),2016,56(11):1173-1178(inChinese).[梁維謙,鄭方,鄭佳春,等.一種改善言語(yǔ)清晰度的子帶自適應(yīng)降噪算法[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,56(11):1173-1178.]
[9]El-FattahMAA,DessoukyMI,AbbasAM,etal.SpeechenhancementwithanadaptiveWienerfilter[J].InternationalJournalofSpeechTechnology,2014,17(1):53-64.
[10]PartilaP,KohutM,VoznakM,etal.Amethodologyformea-suringvoicequalityusingPESQandinteractivevoiceresponseintheGSMchanneldesignedbyopenBTS[J].AdvancesinElectricalandElectronicEngineering,2013,11(5):380.
[11]LUHuanhuan,WANGFuzhong,ZHANGHuichun.Detectionofweakspeechsignalsfromstrongnoisebackgroundbasedonadaptivestochasticresonance[J].JournalofBiomedicalEngineering,2016,33(2):357-361(inChinese).[盧歡歡,王輔忠,張慧春.基于自適應(yīng)隨機(jī)共振理論強(qiáng)噪聲背景下的弱語(yǔ)音信號(hào)檢測(cè)[J].生物醫(yī)學(xué)工程學(xué)雜志,2016,33(2):357-361.]
[12]CAIWenjian.Speechenhancementbasedonstochasticresonanceandspectralsubtractioninlowsignal-to-noiseratio[D].TianjinPolytechnicUniversity,2017(inChinese).[蔡文堅(jiān).低信噪比環(huán)境下基于隨機(jī)共振與譜減法的語(yǔ)音增強(qiáng)[D].天津工業(yè)大學(xué),2017.]