董嫻 邵玉斌 杜慶治 龍華 馬迪南
摘 要: 針對(duì)現(xiàn)有頻譜稀疏化方法在復(fù)雜環(huán)境語(yǔ)音增強(qiáng)上性能不佳的問(wèn)題,提出一種基于主成分分析的迭代頻譜稀疏化方法. 首先,對(duì)輸入信號(hào)的語(yǔ)譜圖進(jìn)行二維中值濾波處理,得到行分量頻譜和列分量頻譜;對(duì)包含語(yǔ)音主音的行分量頻譜序列進(jìn)行主成分分析(PCA),以去除噪聲部分并保留主要語(yǔ)音結(jié)構(gòu);然后聯(lián)合列分量頻譜序列和縮放因子進(jìn)行混合重構(gòu)原信號(hào),并采用動(dòng)態(tài)縮放因子實(shí)現(xiàn)對(duì)列分量頻譜噪聲的有效控制. 在此基礎(chǔ)上,利用稀疏化對(duì)噪聲的抑制作用,對(duì)頻譜進(jìn)行多次稀疏化,以減弱噪聲. 實(shí)驗(yàn)結(jié)果表明,該方法增強(qiáng)了不同類(lèi)型噪聲下語(yǔ)音的信噪比,包括White、Pink、Babble、Volvo 和Factory 等五種噪聲,輸入信噪比為15 dB,所提方法的信噪比分別提升了13. 89 dB,11. 97 dB,5. 65 dB,5. 26 dB 和4. 73 dB,該方法在其他信噪比下也能有效地抑制噪聲和保留有效特征信息,并減少因背景噪聲引起的語(yǔ)音失真.
關(guān)鍵詞: 語(yǔ)音增強(qiáng); 多維度頻譜分析; 譜稀疏化; 主成分分析
中圖分類(lèi)號(hào): TN912. 3 文獻(xiàn)標(biāo)志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 033007
1 引言
在自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR)系統(tǒng)中,語(yǔ)音增強(qiáng)是一個(gè)必不可少的過(guò)程,語(yǔ)音信號(hào)處理在其中發(fā)揮著重要作用. 語(yǔ)音增強(qiáng)是指對(duì)被污染的語(yǔ)音信號(hào)進(jìn)行處理,減少噪聲的干擾,改善噪聲環(huán)境下的語(yǔ)音質(zhì)量,從而增強(qiáng)語(yǔ)音的可懂度和主觀聽(tīng)覺(jué)質(zhì)量[1]. 對(duì)于聽(tīng)覺(jué)受損的人群來(lái)說(shuō),語(yǔ)音增強(qiáng)技術(shù)旨在提升人工耳蝸在噪聲環(huán)境中的語(yǔ)音清晰度,以解決困擾多數(shù)聽(tīng)障人群聽(tīng)不清的難題[2]. 為了提高語(yǔ)音識(shí)別系統(tǒng)在噪聲環(huán)境下的性能,通常在時(shí)域或頻域上進(jìn)行處理,以抑制語(yǔ)音失真和引入的人工噪聲. 譜減法[3]、基于統(tǒng)計(jì)模型的語(yǔ)音增強(qiáng)算法[4]和信號(hào)子空間算法[5]等等都是廣泛使用的幾種經(jīng)典語(yǔ)音增強(qiáng)算法.
在語(yǔ)音增強(qiáng)算法中,基于短時(shí)譜估計(jì)的增強(qiáng)算法[6]因其效率高、計(jì)算簡(jiǎn)單且易于處理而被廣泛使用,比如用含噪信號(hào)的頻譜減去估計(jì)的噪聲頻譜來(lái)得到純凈的語(yǔ)音頻譜的譜減法. 該方法易于實(shí)現(xiàn)的同時(shí)大大削弱了信號(hào)中的噪聲,但是存在一個(gè)明顯的缺點(diǎn)就是譜減法的有效性很大程度上依賴(lài)于準(zhǔn)確的噪聲估計(jì),噪聲的隨機(jī)性增加了噪聲估計(jì)的困難,大多數(shù)情況下當(dāng)噪聲估計(jì)的不夠準(zhǔn)確,就會(huì)引發(fā)“音樂(lè)噪聲”和失真等問(wèn)題. 有關(guān)統(tǒng)計(jì)模型的方法是將語(yǔ)音增強(qiáng)納入基于最優(yōu)準(zhǔn)則的統(tǒng)計(jì)假設(shè)估計(jì)問(wèn)題,比如維納濾波[7]、最小均方誤差方法和最大后驗(yàn)方法. 一般假設(shè)語(yǔ)音信號(hào)和噪聲信號(hào)是統(tǒng)計(jì)獨(dú)立的,且分別服從特定的分布,而統(tǒng)計(jì)模型的難點(diǎn)在于模型參數(shù)的魯棒估計(jì);信號(hào)子空間算法是一種基于語(yǔ)音信號(hào)子空間和噪聲子空間正交假設(shè)的方法,然而在短時(shí)情況下從信號(hào)子空間中估計(jì)純凈語(yǔ)音信號(hào)是非常不精確的[8]. 最近提出的多項(xiàng)式矩陣特征值分解算法(PolynomialMatrix Eigenvalue Decomposition, PEVD)[9]不依賴(lài)于信號(hào)假設(shè)和噪聲估計(jì),在信號(hào)失真較小的情況下顯著提高了可懂度和降噪效果,然而,該方法在非平穩(wěn)噪聲環(huán)境下無(wú)法適應(yīng)聲學(xué)場(chǎng)景的變化.基于迭代約束非負(fù)矩陣分解(Iterative ConstrainedNon-negative Matrix Factorization, ICNMF)[10]的語(yǔ)音增強(qiáng)方法解決了非平穩(wěn)噪聲環(huán)境下語(yǔ)音增強(qiáng)性能不佳的問(wèn)題. 通過(guò)調(diào)整噪聲和語(yǔ)音的基向量權(quán)重最小化維納濾波器估計(jì)誤差,顯著提高語(yǔ)音的質(zhì)量和可懂度,由于需要提供對(duì)語(yǔ)音和噪聲樣本必要統(tǒng)計(jì)的精確估計(jì),算法運(yùn)行時(shí)間較長(zhǎng)且計(jì)算成本較大. 基于壓縮感知矩陣的主列群正交化(Dominant Columns Group Orthogonalization ofthe Sensing Matrix, DCGOSM)[11]語(yǔ)音增強(qiáng)方法通過(guò)計(jì)算噪聲和語(yǔ)音樣本的列貢獻(xiàn),對(duì)感知矩陣中的語(yǔ)音主導(dǎo)列向量進(jìn)行迭代加速信號(hào)重構(gòu)大大減少語(yǔ)音恢復(fù)時(shí)間,有效避免噪聲分量,從而在重構(gòu)信號(hào)中降低了噪聲.
本文針對(duì)復(fù)雜環(huán)境下語(yǔ)音信號(hào)的質(zhì)量和清晰度容易受到噪聲的污染,且難以從噪聲中提取有用的語(yǔ)音信號(hào)等問(wèn)題提出了一種提高語(yǔ)音質(zhì)量的頻譜稀疏化語(yǔ)音增強(qiáng)方法. 該方法首先對(duì)語(yǔ)音信號(hào)的語(yǔ)譜圖進(jìn)行二維中值濾波分析,獲取包含語(yǔ)音主要結(jié)構(gòu)的行分量頻譜和列分量頻譜,然后把基于主成分分析(Principal Component Analysis,PCA)的低秩近似應(yīng)用于行分量頻譜的連續(xù)譜分量. 稀疏化的目的在于強(qiáng)調(diào)頻譜結(jié)構(gòu)中的重要譜分量,例如包含來(lái)自元音的諧波結(jié)構(gòu)和靠近共振峰區(qū)域的主要諧波,并去除頻譜中不太突出的部分,使得背景噪聲和一些更細(xì)微的諧波被衰減. 而清音的結(jié)構(gòu)與噪聲類(lèi)似,在時(shí)頻域中沒(méi)有明顯的差異,對(duì)清音的增強(qiáng)難度較大,因此本文僅對(duì)濁音部分采用稀疏化的方法進(jìn)行增強(qiáng)處理. 實(shí)驗(yàn)結(jié)果表明,本文算法在多種噪聲環(huán)境下的噪聲消除性能優(yōu)于其他語(yǔ)音增強(qiáng)方法的性能,并且不依賴(lài)于噪聲的估計(jì)和原始語(yǔ)音的先驗(yàn)知識(shí).
本文在第2 節(jié)將介紹語(yǔ)音信號(hào)多維頻譜中值濾波分離行分量和列分量的原理、主成分分析,討論頻譜稀疏化對(duì)噪聲的抑制作用以及在此基礎(chǔ)上提出的多次迭代稀疏化方法的有效性;第3 節(jié)解釋語(yǔ)音增強(qiáng)算法輸出的語(yǔ)音質(zhì)量以及噪聲的評(píng)估方法;第4 節(jié)是對(duì)所提算法的實(shí)驗(yàn)總結(jié)以及仿真結(jié)果分析.
2 基于PCA 的頻譜稀疏化方法
2. 1 多維度頻譜分析
輸入信號(hào)x ( t ) 經(jīng)過(guò)采樣并分幀后,由短時(shí)傅里葉變換