茅正沖 龔 熙
(江南大學(xué)輕工過(guò)程先進(jìn)控制教育部重點(diǎn)實(shí)驗(yàn)室 江蘇 無(wú)錫 214122)
?
基于改進(jìn)壓縮感知的說(shuō)話人識(shí)別抗噪算法
茅正沖龔熙
(江南大學(xué)輕工過(guò)程先進(jìn)控制教育部重點(diǎn)實(shí)驗(yàn)室江蘇 無(wú)錫 214122)
摘要壓縮感知CS(compressive sensing)是一種基于信號(hào)稀疏性,有效提取信號(hào)中有用信息的方法。根據(jù)語(yǔ)音信號(hào)和干擾噪聲在離散余弦變換域DCT(discrete cosine transform)稀疏性的不同,提出一種基于改進(jìn)壓縮感知的說(shuō)話人識(shí)別抗噪算法。在用正交匹配追蹤OMP(orthogonal matching pursuit)算法重構(gòu)語(yǔ)音信號(hào)時(shí)設(shè)定相關(guān)度閾值和語(yǔ)音恢復(fù)閾值,不僅有效恢復(fù)了語(yǔ)音信號(hào),而且實(shí)現(xiàn)了語(yǔ)音增強(qiáng)。然后通過(guò)Gammatone濾波器組,對(duì)恢復(fù)語(yǔ)音信號(hào)進(jìn)行處理,提取特征參數(shù)GFCC。仿真實(shí)驗(yàn)在高斯混合模型識(shí)別系統(tǒng)中進(jìn)行,實(shí)驗(yàn)結(jié)果表明,將這種方法應(yīng)用于說(shuō)話人識(shí)別抗噪系統(tǒng),系統(tǒng)的識(shí)別率及魯棒性都有明顯提高。
關(guān)鍵詞壓縮感知正交匹配追蹤GFCC抗噪算法識(shí)別率
0引言
壓縮感知(CS)作為近些年新興的信號(hào)處理技術(shù),是一種在采樣過(guò)程中利用較少數(shù)據(jù)就能有效提取信號(hào)信息,然后通過(guò)重構(gòu)算法從采樣信息中恢復(fù)原信號(hào)的方法[1]。語(yǔ)音增強(qiáng)是指對(duì)帶噪語(yǔ)音信號(hào)進(jìn)行處理,降低噪聲的干擾,恢復(fù)出較純凈的語(yǔ)音。所以,壓縮感知與語(yǔ)音增強(qiáng)的本質(zhì)是類(lèi)似的。CS理論由于其邊采樣邊壓縮的特性使其具有了巨大的吸引力和應(yīng)用前景,研究領(lǐng)域已經(jīng)涉及到了雷達(dá)、無(wú)線傳感、醫(yī)學(xué)等領(lǐng)域。文獻(xiàn)[2]將壓縮感知理論運(yùn)用到了隨機(jī)調(diào)制雷達(dá)信號(hào)處理中,為隨機(jī)調(diào)制雷達(dá)的低旁瓣信號(hào)處理提供了全新思路。文獻(xiàn)[3]將合成聚焦于CS理論結(jié)合,解決了B超成像過(guò)程中數(shù)據(jù)量大的問(wèn)題。
信號(hào)的稀疏性是壓縮感知的前提和基礎(chǔ),但是正如語(yǔ)音和圖像等信號(hào),它們本身并不是稀疏的,但可以通過(guò)某種變換在其變換域中得到一個(gè)稀疏的信號(hào)以此來(lái)適用壓縮感知。對(duì)于語(yǔ)音信號(hào)通常可以轉(zhuǎn)換到DCT域、小波域等變換域來(lái)獲得稀疏信號(hào)。文獻(xiàn)[4]對(duì)語(yǔ)音信號(hào)在DCT域能顯示出的近似稀疏性提出語(yǔ)音信號(hào)DCT域壓縮感知。文獻(xiàn)[5]利用語(yǔ)音信號(hào)自身構(gòu)造了一種自相關(guān)觀測(cè)矩陣,在同等重構(gòu)性能下壓縮率比其他隨機(jī)矩陣更低。文獻(xiàn)[6]在壓縮感知的重構(gòu)階段設(shè)定相似度閾值來(lái)進(jìn)行語(yǔ)音增強(qiáng),該算法對(duì)非人聲噪聲有一定抗干擾作用。文獻(xiàn)[7]提出了離散余弦小波包變換的語(yǔ)音信號(hào)壓縮感知,構(gòu)造出了更加稀疏的變換基,提高了重構(gòu)的性能。
本文根據(jù)語(yǔ)音信號(hào)和干擾噪聲在DCT域稀疏性的不同,在通過(guò)OMP算法重構(gòu)帶噪語(yǔ)音信號(hào)中的有用信息時(shí),設(shè)置相關(guān)度閾值來(lái)限制迭代的次數(shù),讓盡可能少的噪聲分量恢復(fù)出來(lái)。而當(dāng)背景噪聲類(lèi)型于說(shuō)話人信號(hào)時(shí),僅設(shè)置相關(guān)度閾值不能有效恢復(fù)純凈語(yǔ)音信號(hào),因?yàn)檫@時(shí)背景噪聲和純語(yǔ)音信號(hào)擁有相似的稀疏性。所以本文提出設(shè)置第二個(gè)門(mén)限閾值:語(yǔ)音恢復(fù)迭代閾值,以此來(lái)抑制人聲背景噪聲的回復(fù)。在重構(gòu)過(guò)程中,如果低于此閾值,則迭代停止。這種雙門(mén)限閾值的正交匹配追蹤算法能夠很好地應(yīng)對(duì)不同的噪聲環(huán)境場(chǎng)合,有效地實(shí)現(xiàn)語(yǔ)音增強(qiáng)。
1改進(jìn)壓縮感知說(shuō)話人識(shí)別抗噪算法
1.1壓縮感知基本原理
1.2DCT域稀疏性
對(duì)信號(hào)作壓縮感知處理時(shí),信號(hào)自身或者在變換域的稀疏性是對(duì)其進(jìn)一步分析的重要前提。由于語(yǔ)音信號(hào)具有類(lèi)余弦信號(hào)的周期特性,因此可以在DCT域來(lái)對(duì)其進(jìn)行表示:
(1)
此時(shí),Ψ為離散余弦基矩陣。經(jīng)過(guò)DCT變換后的稀疏系數(shù)為Θ=(θ1,θ2,…,θN)T,θi=X(i-1),i=1,2,…,N,本文對(duì)一段語(yǔ)音“發(fā)布”截取一幀(512點(diǎn))作DCT變換,并對(duì)DCT系數(shù)的絕對(duì)值進(jìn)行降序排列,結(jié)果如圖1所示??梢园l(fā)現(xiàn),在200~512之間的DCT系數(shù)都近似為0,說(shuō)明信號(hào)在DCT域是稀疏的,可以采用壓縮感知方法處理。
圖1 DCT域系數(shù)分布及其降序排列
另外,本文對(duì)語(yǔ)音信號(hào)“發(fā)布”、高斯噪聲以及babble噪聲各取一幀作稀疏性對(duì)比,結(jié)果如圖2所示。通過(guò)DCT系數(shù)絕對(duì)值的直方圖發(fā)現(xiàn),語(yǔ)音信號(hào)小幅度系數(shù)占了絕大部分,具有良好的稀疏性;高斯DCT系數(shù)比較均勻,舍棄小系數(shù)后作重構(gòu)恢復(fù),失真會(huì)很大,因而高斯噪聲不具有稀疏性;babble噪聲為一段嘈雜的人聲背景噪音,觀察圖2(f)發(fā)現(xiàn),babble噪聲也具有較好的稀疏性。
圖2 語(yǔ)音信號(hào)和噪聲在DCT域稀疏性對(duì)比
根據(jù)CS理論,對(duì)帶噪語(yǔ)音信號(hào)進(jìn)行低維投影,當(dāng)觀測(cè)矩陣維數(shù)足夠包含語(yǔ)音信息時(shí),投影后將丟失部分不具有稀疏性的噪聲信息,重建時(shí)無(wú)法恢復(fù)。因此利用稀疏性不同的特性可以對(duì)語(yǔ)音信號(hào)進(jìn)行去噪。然而,當(dāng)采集的語(yǔ)音信號(hào)被類(lèi)似于babble這樣的人聲噪聲干擾時(shí),僅根據(jù)稀疏性不同不能很好去噪,因?yàn)楸尘霸肼曂瑯泳哂休^好的稀疏性。
1.3觀測(cè)矩陣
觀測(cè)矩陣Φ的選取對(duì)信號(hào)重構(gòu)的性能有著很大影響,合適的觀測(cè)矩陣應(yīng)該在盡可能低的觀測(cè)維數(shù)下,由一種重構(gòu)算法,恢復(fù)出盡可能純凈的語(yǔ)音信息,同時(shí)又能去掉了大量噪聲。即要在觀測(cè)值M盡可能小的情況下達(dá)到對(duì)原始信號(hào)x較好的去噪效果,以此來(lái)提高最后的識(shí)別率。
觀測(cè)矩陣Φ分為隨機(jī)觀測(cè)矩陣和確定性觀測(cè)矩陣。隨機(jī)觀測(cè)矩陣與大多數(shù)變換基矩陣不相關(guān),很大概率滿足RIP條件,比較容易構(gòu)造。但在實(shí)際應(yīng)用中,存在不確定性。確定性矩陣雖然不存在上述問(wèn)題,但構(gòu)造比較困難。目前在壓縮感知中普遍采用隨機(jī)觀測(cè)矩陣對(duì)信號(hào)進(jìn)行低維投影,常用的有Gauss分布隨機(jī)矩陣,Bernoulli分布隨機(jī)矩陣,F(xiàn)ourier矩陣,Toeplitz矩陣和Hadamard矩陣,文獻(xiàn)[9]討論了這些隨機(jī)矩陣的性能,如圖3所示,從圖中可以看Hadamard矩陣性能最優(yōu)。
圖3 五種隨機(jī)矩陣性能比較
1.4改進(jìn)OMP重構(gòu)算法
(2)
式中ζ為重構(gòu)信號(hào)與帶噪語(yǔ)音信號(hào)x之間的殘差。當(dāng)重構(gòu)信號(hào)越接近x中的純語(yǔ)音信號(hào)時(shí)重構(gòu)性能越好,而不是讓重構(gòu)信號(hào)逼近x。
OMP算法依據(jù)殘余信號(hào)r與原子庫(kù)D=ΦΨ中原子內(nèi)積由大到小恢復(fù)信號(hào)的,其實(shí)也是根據(jù)信號(hào)分量的重要性程度來(lái)決定迭代恢復(fù)的次序??梢园褞г胝Z(yǔ)音信號(hào)分為三個(gè)部分:純凈部分、帶噪部分和噪聲部分,那么,語(yǔ)音信號(hào)的重構(gòu)就可以劃分為以下三個(gè)階段:(1) 純語(yǔ)音信息的迭代恢復(fù);(2) 帶噪語(yǔ)音信息的迭代恢復(fù);(3) 噪聲信息的迭代恢復(fù)。要實(shí)現(xiàn)語(yǔ)音增強(qiáng),需要控制迭代的次數(shù)。
圖4 改進(jìn)OMP算法流程圖
2Gammatone特征提取
Gammatone濾波器能很好地模擬人耳基底膜的分頻特性,本文通過(guò)該濾波器組提取特征參數(shù)GFCC。先對(duì)帶噪信號(hào)作預(yù)處理(預(yù)加重、分幀和加窗)和壓縮重構(gòu),然后將恢復(fù)的信號(hào)通過(guò)一組64通道的Gammatone濾波器組,其中心頻率在50~8000Hz之間[11],時(shí)域表達(dá)形式如式(3):
g(f,t)=kta-1e-2πbtcos(2πft+φ)t≥0
(3)
式中,k為濾波器增益,a為濾波器階數(shù),f為中心頻率,φ為相位,b為衰減因子,該因子決定相應(yīng)的濾波器的帶寬,它與中心頻率f的關(guān)系為:
b=24.7(4.37f/1000+1)
(4)
由于Gammatone濾波器的時(shí)域表達(dá)式為沖擊響應(yīng)函數(shù),所以將其進(jìn)行傅里葉變換就可以得到其頻率響應(yīng)特性。不同中心頻率的Gammatone濾波器幅頻響應(yīng)曲線如圖5所示。
圖5 一組不同中心頻率下Gammatone濾波器的幅頻響應(yīng)曲線
當(dāng)語(yǔ)音信號(hào)通過(guò)該濾波器時(shí),輸出信號(hào)Gm(i)的響應(yīng)表達(dá)式為:
(5)
式中,N=64是濾波器的通道數(shù),M是采樣之后的幀數(shù)。
這樣Gm(i)就構(gòu)成了一個(gè)矩陣,它的每一列稱為Gammatone特征系(GF)[12],一個(gè)GF特征矢量由64個(gè)頻率成分組成。由于相鄰的濾波器通道有重疊的部分,GF特征矢量相互之間存在相關(guān)性。為了減小GF特征矢量的維度及相關(guān)性,這里對(duì)每一個(gè)GF特征矢量進(jìn)行離散余弦變換(DCT),具體表示為:
(6)
將系數(shù)Ci(j)稱為GFCC系數(shù)。圖6為語(yǔ)音段“發(fā)布”的GFCC特征系數(shù),其主要特征體現(xiàn)在低維(前30維)上。在實(shí)際的說(shuō)話人識(shí)別系統(tǒng)中,由于計(jì)算量大,并非取全部維數(shù)的GFCC系數(shù)。文獻(xiàn)[13]證明,主成分分析PCA(principalcomponentsanalysis)技術(shù)可以把64維GFCC系數(shù),按累積貢獻(xiàn)率不小于85%的準(zhǔn)則,降到26維。降維后的GFCC特征參數(shù)表示為:
(7)
圖6 語(yǔ)音段“發(fā)布”的GFCC特征系數(shù)
3實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)所用的語(yǔ)音庫(kù)是用麥克風(fēng)錄制的,語(yǔ)音采用的是單聲道,8KHz的采樣頻率,16bit量化。該語(yǔ)音庫(kù)由20人錄制,每個(gè)人錄制10段語(yǔ)音,時(shí)長(zhǎng)分2~5s不等,將每個(gè)人的4段語(yǔ)音作為訓(xùn)練樣本集,用高斯混合模型對(duì)其訓(xùn)練,另外6段語(yǔ)音作為測(cè)試樣本集?;烊朐肼曔x自NOISEX-92標(biāo)準(zhǔn)噪聲庫(kù)中的white噪聲和babble噪聲,信噪比分別為-10、-5、0、5和10dB。采用的識(shí)別方法是高斯混合模型(GMM),GMM的混合數(shù)是16。仿真結(jié)果如圖7所示。
圖7 仿真實(shí)驗(yàn)結(jié)果
為了獲得經(jīng)本文算法處理后語(yǔ)音的主觀聽(tīng)覺(jué)感受,采用MOS評(píng)分法,接受10位聽(tīng)眾的聽(tīng)覺(jué)感受測(cè)試,聽(tīng)眾根據(jù)處理后語(yǔ)音的清晰度、可懂度和噪聲情況綜合給出評(píng)分,然后記錄不同算法處理后的MOS均分,如表1所示。
表1 主觀MOS評(píng)分比較
從圖7和表1中可以看出,本文算法的識(shí)別率和MOS評(píng)分要高于文獻(xiàn)[6]的壓縮感知方法以及一般的語(yǔ)音去噪增強(qiáng)算法,尤其在人聲背景噪聲環(huán)境下,本文算法抗噪能力并未下降,凸顯出本文算法的優(yōu)越性。
4結(jié)語(yǔ)
語(yǔ)音信號(hào)作為一種典型的非平穩(wěn)性信號(hào),容易受到噪聲的干擾。本文給出了一種基于改進(jìn)壓縮感知的說(shuō)話人識(shí)別抗噪算法,先對(duì)帶噪語(yǔ)音信號(hào)作預(yù)處理,然后壓縮重構(gòu),將重構(gòu)恢復(fù)的語(yǔ)音信號(hào)通過(guò)Gammatone濾波器組提取特征參數(shù)GFCC,最后在GMM模型中識(shí)別。實(shí)驗(yàn)結(jié)果表明,本文算法的識(shí)別率、魯棒性及主觀感受都優(yōu)于傳統(tǒng)的語(yǔ)音增強(qiáng)識(shí)別算法。GFCC特征參數(shù)能很好地模擬人耳基底膜特性,降低加性噪聲的影響;改進(jìn)的壓縮感知能降低人聲背景噪聲的干擾,增加了該算法在更多背景噪聲環(huán)境下的適應(yīng)性。然而,OMP重構(gòu)時(shí)每次迭代都要用最小二乘法估計(jì)殘差,隨著迭代次數(shù)的增加,原子集合矩陣不斷擴(kuò)大,矩陣求逆的運(yùn)算量和重建所需的時(shí)間也相應(yīng)增加。在短時(shí)間內(nèi)進(jìn)行說(shuō)話人識(shí)別時(shí),識(shí)別算法還需進(jìn)一步改進(jìn)。因此,如何優(yōu)化本文算法,減少計(jì)算量,實(shí)現(xiàn)短時(shí)識(shí)別將是下一步研究的重點(diǎn)。
參考文獻(xiàn)
[1]MarcoFDuarte,YoninaCEldar.StructuredCompressedSensing:FromTheorytoApplications[J].Transactiononsignalprocessing,2011, 59(9):4053-4085.
[2] 劉振.基于壓縮感知的隨機(jī)調(diào)制雷達(dá)信號(hào)處理方法與應(yīng)用研究[D].湖南:國(guó)防科技大學(xué)研究生院,2013.
[3] 杜衍震,孫豐榮,李凱一,等.一種合成聚焦的便攜式B型超聲成像方法[J].計(jì)算機(jī)工程,2014,40(1):246-249.
[4]MorenoRG,MauricioMG.DCT-Compressivesamplingappliedtospeechsignals[C]//21stInternationalConferenceonElectricalCommunicationsandComputers.SanAndresCholula,Puebla,Mexico,2011:55-59.
[5] 季云云,楊震.基于自相關(guān)觀測(cè)的語(yǔ)音信號(hào)壓縮感知[J].信號(hào)處理,2011,27(2):207-214.
[6] 周小星,王安娜,孫紅英,等.基于壓縮感知過(guò)程的語(yǔ)音增強(qiáng)[J].清華大學(xué)學(xué)報(bào),2011,51(9):1234-1238.
[7] 張長(zhǎng)青,陳硯圃.離散余弦小波包變換及語(yǔ)音信號(hào)壓縮感知[J].聲學(xué)技術(shù),2014,33(1):35-40.
[8]ThongTDo,LuGan,NamHNguyen,etal.FastandEfficientCompressiveSensingUsingStructurallyRandomMatrices[J].IEEETransactionsonSignalProcessing,2012,60(1):139-154.
[9] 李小波.基于壓縮感知的測(cè)量矩陣研究[D].北京:北京交通大學(xué),2010.
[10]LinghuaChang,JwoyuhWu.AnImprovedRIP-BasedPerformanceGuaranteeforSparseSignalRecoveryviaOrthogonalMatchingPursuit[J].IEEETransactionsonInformationTheory,2014,60(9):5702-5715.
[11] 王玥,錢(qián)志鴻,王雪,等.基于伽馬通濾波器組的聽(tīng)覺(jué)特征提取算法研究[J].電子學(xué)報(bào),2010,38(3):525-528.
[12]XavierValero,FrancescAlias.GammatoneCepstralCoefficients:BiologicallyinspiredFeaturesforNon-SpeechAudioClassification[J].IEEETransactionsonMultimedia,2012,14(6):1684-1689.
[13]HarunUguz.Atwo-stagefeatureselectionmethodfortextcategorizationbyusinginformationgain,principalcomponentanalysisandgeneticalgorithm[J].Knowledge-BasedSystems,2011,24(7):1024-1032.
[14] 茅正沖,王正創(chuàng),龔熙.一種低信噪比下的說(shuō)話人識(shí)別算法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(12):218-220,252.
A SPEAKER RECOGNITION ANTI-NOISE ALGORITHM BASEDONIMPROVEDCOMPRESSIVESENSING
Mao ZhengchongGong Xi
(Key Laboratory of Advanced Process Control for Light Industry,Ministry of Education,Jiangnan University,Wuxi 214122,Jiangsu,China)
AbstractCompressive sensing (CS) is a method based on signal sparseness, and can efficiently extract useful information from signals. In this paper we present a speaker recognition anti-noise algorithm, which is based on improved compressive sensing, according to the different sparseness between speech signal and interfering noises in discrete cosine transform (DCT) area. We set correlation threshold and speech recovery threshold when reconstructing speech signals with orthogonal matching pursuit algorithm, this can not only restore speech signal effectively, but also realises the speech enhancement. Then through Gammatone filter bank we process the restored speech signal and extract feature parameter GFCC. Simulation experiment is conducted in Gaussian mixture model recognition system, experimental result shows that this algorithm obviously improves the recognition rate and robustness when being applied to speaker recognition and anti-noise system.
KeywordsCompressive sensingOMPGFCCAnti-noise algorithmRecognition rate
收稿日期:2015-01-05。國(guó)家自然科學(xué)基金項(xiàng)目(60973095);江蘇省自然科學(xué)基金項(xiàng)目(BK20131107)。茅正沖,副教授,主研領(lǐng)域:機(jī)器人視聽(tīng)覺(jué)識(shí)別。龔熙,碩士生。
中圖分類(lèi)號(hào)TP391.4
文獻(xiàn)標(biāo)識(shí)碼A
DOI:10.3969/j.issn.1000-386x.2016.06.038