李云飛, 全海燕, 肖春梅
(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院, 昆明 650093)
?
基于EMD的ICA語(yǔ)音增強(qiáng)
李云飛, 全海燕*, 肖春梅
(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院, 昆明 650093)
傳統(tǒng)ICA方法是將所有源信號(hào)都從混合信號(hào)中都提取出來(lái),而參考獨(dú)立分量分析(ICA-R)通過(guò)將一些先驗(yàn)信息引入到ICA學(xué)習(xí)算法中,從混合信號(hào)中僅提取期望源信號(hào).本文為了從混合語(yǔ)音信號(hào)中提取出期望的語(yǔ)音信號(hào),采取的是基于經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)方法來(lái)獲取功率譜包絡(luò)作為參考信號(hào),繼而把參考信號(hào)運(yùn)用到ICA-R算法中,達(dá)到語(yǔ)音增強(qiáng)的目的.計(jì)算機(jī)仿真和性能分析結(jié)果表明,此方法在有噪聲干擾的情況下達(dá)到語(yǔ)音增強(qiáng)的目的.
盲源分離; 獨(dú)立分量分析(ICA); 參考獨(dú)立分量分析(ICA-R); 經(jīng)驗(yàn)?zāi)J椒纸?EMD); 語(yǔ)音增強(qiáng)
獨(dú)立分量分析(Independent component analysis,ICA)是一種重要的盲源分解方法,其目的是從多通道測(cè)量所得到的由若干獨(dú)立信源線性組合成的觀測(cè)信號(hào)中,將其中的獨(dú)立成分分解開來(lái)[1-3].參考獨(dú)立分量分析(ICA-R)是一種根據(jù)一些先驗(yàn)信息即參考信號(hào),從諸多的源信號(hào)中提取我們感興趣的源信號(hào)的方法,從而消除傳統(tǒng)ICA輸出順序不確定性和顯著減低運(yùn)算,大大節(jié)省處理時(shí)間等優(yōu)點(diǎn).因此,提供或者構(gòu)造一個(gè)合適的參考信號(hào)對(duì)期望信號(hào)的提取有著至關(guān)重要的影響[4-5].
由于語(yǔ)音的功率譜是不連續(xù)的(主要分布在300 Hz~4 KHz之間),而噪聲的頻譜范圍在300 Hz~4 KHz之間),而噪聲的頻譜范圍分布較寬,分布也比較均勻,與語(yǔ)音的功率譜有明顯的區(qū)別.因此,我們可以利用語(yǔ)音信號(hào)功率譜來(lái)獲得語(yǔ)音信號(hào)近似功率譜包絡(luò)來(lái)作為參考信號(hào),從線性混合噪聲中提取目標(biāo)語(yǔ)音信號(hào).
經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical Mode Decomposition,EMD)是非線性、非平穩(wěn)信號(hào)處理方法,通過(guò)多次移動(dòng)過(guò)程把信號(hào)分解成一系列本征模函數(shù)(IMFs),可以通過(guò)部分IMFs來(lái)重構(gòu)原信號(hào),本文EMD被用作低通濾波器來(lái)獲得語(yǔ)音信號(hào)功率譜包絡(luò),相比于傳統(tǒng)的低通濾波器而言,EMD的方法分解的速度很快,而且EMD得到的包絡(luò)更加細(xì)膩,能夠追蹤語(yǔ)音功率譜短暫急劇變化的邊緣,這對(duì)于精確提出期望語(yǔ)音信號(hào)至關(guān)重要[6-7].因此本文中提出了基于EMD參考信號(hào)的選取,并把EMD提取的功率譜包絡(luò)作為參考信號(hào)運(yùn)用到ICA算法中,實(shí)現(xiàn)了語(yǔ)音信號(hào)增強(qiáng)的目的[8].
ICA-R的基本思路是將輸出信號(hào)與參考信號(hào)的接近性度量引入到ICA算法中的差異函數(shù)中,從而得到一個(gè)約束最優(yōu)化問(wèn)題,再利用拉格朗日乘子算法找到約束優(yōu)化問(wèn)題的最大值,得到解混向量[5].設(shè)分離矩陣為W,使得M維輸出矢量ym(k)滿足:
y(k)=WTx(k)=WTAs(k).
(1)
設(shè)參考信號(hào)為r,那么r與ym(k)接近性度量函數(shù)ε(y,r)當(dāng)且僅當(dāng)輸出信號(hào)是期望源信號(hào)的估計(jì)取到最小值,即應(yīng)滿足一下不等式:
(2)
因此存在一個(gè)閾值δ使得g(w)=ε(y,r)-δ≤0 當(dāng)且僅當(dāng)輸出信號(hào)y(k)=WTx(k) 時(shí)成立,從而在約束獨(dú)立分析的框架內(nèi),將輸出信號(hào)與參考信號(hào)的接近性度量引入到ICA的差異函數(shù)中,可得出一單元ICA-R的約束最優(yōu)化問(wèn)題:
Max:j(y)≈ρ[E{G(y)}-E{G(v)}]2.
(3)
St:g(w)=ε(y,r)-δ≤0,
h(w)=E{y2}-1=0.
(4)
本文選用G(y)=log(cosh(y)/a),ε(y,r)為輸出信號(hào)y和參考信號(hào)r的接近度量,本文選用均方誤差函數(shù)ε(y,r)=E{(y-r)2}-δ作為輸出信號(hào)和相應(yīng)的參考信號(hào)之間的緊密性的量度.利用拉格朗日乘子算法找到上述約束優(yōu)化問(wèn)題的最大值,可以得到ICA-R算法如下:
(5)
(6)
(7)
其中,k是迭代下標(biāo),是學(xué)習(xí)速率,RXX是輸入混合信號(hào)的協(xié)方差陣,最佳乘數(shù)μ和λ可以由以下迭代算法得到:
μk+1=max{0,μk+γg(wk)},
(8)
λk+1=λk+γh(wk).
(9)
其中,γ為標(biāo)量懲罰因子.
2.1EMD分解算法
經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)是非線性,非平穩(wěn)信號(hào)處理方法,是基于信號(hào)的局部變化特征,通過(guò)對(duì)非線性非平穩(wěn)信號(hào)的分解獲得一系列表征信號(hào)特征的時(shí)間尺度固有模態(tài)函數(shù)(intrinsic mode functions,IMFs)[6-7].EMD方法的存在基于以下3個(gè)假設(shè):(1)數(shù)據(jù)中至少有兩個(gè)極值點(diǎn):一個(gè)最小值、一個(gè)最大值;(2)特征時(shí)間尺度由兩個(gè)相鄰極值點(diǎn)的時(shí)間間隔所決定;(3)如果數(shù)據(jù)沒(méi)有極值點(diǎn)只有拐點(diǎn),則通過(guò)一階或多階微分得到極值點(diǎn).下面給出EMD的算法步驟如下:
1)求得信號(hào)x(t)有的所有極值點(diǎn),確定數(shù)據(jù)序列的局部極大值集Xmax和局部極小值集Xmin.
2)在極值點(diǎn)間用3次樣條函數(shù)進(jìn)行插值,得到上下包絡(luò)線emax(t)和emin(t),在上下包絡(luò)之間是原始數(shù)據(jù)x(t).
3)計(jì)算均值線m(t)=[e(t)max+emin(t)]/2和求出原始數(shù)據(jù)x(t)的局部均值m(t),原始信號(hào)與局部極值的差值記為d(t)=x(t)-m(t).
4)檢查d(t)的特性,如果不滿足IMFs定義,則用d(t)代替x(t),重復(fù)以上步驟,直到滿足停止準(zhǔn)則.
5)如果d(t)滿足IMFs的兩個(gè)條件,則得到第一個(gè)IMFs,用參r(t)=x(t)-d(t)取代x(t),重復(fù)上面步驟,直到r(t)=x(t)-d(t)至多有兩個(gè)極值點(diǎn).
2.2 參考信號(hào)的構(gòu)建
語(yǔ)音的功率譜是不連續(xù)的,而噪聲的頻譜分布較寬且較均勻,兩者的功率譜有明顯的區(qū)別,于是依據(jù)期望語(yǔ)音信號(hào)頻譜特性來(lái)構(gòu)建參考信號(hào).下面對(duì)語(yǔ)音信號(hào)的功率譜包絡(luò)進(jìn)行EMD分解,并構(gòu)建參考信號(hào).
圖1 語(yǔ)音信號(hào)波形
圖2 語(yǔ)音信號(hào)的功率譜
圖3 本征模態(tài)函數(shù)c1~c5
圖4 本征模態(tài)函數(shù)c6~c10
圖5 部分IMFs的合成語(yǔ)音功率譜
圖1、2為語(yǔ)音信號(hào)波形及其功率譜,對(duì)圖中的語(yǔ)音信號(hào)的功率譜進(jìn)行EMD分解,得到各IMFs分量,如圖3和4所示.依據(jù)EMD原理,我們分別選擇、、求和得到合成信號(hào),如圖5所示.而對(duì)于基于EMD構(gòu)造的參考信號(hào)不需要準(zhǔn)確的近似功率譜,僅僅只要能夠含有語(yǔ)音信號(hào)的能量分布信息即可,因此小數(shù)量的IMFs,足以包含此類信息[9-10].
為了驗(yàn)證基于EMD構(gòu)建參考信號(hào)方法的混疊語(yǔ)音增強(qiáng)效果,我們做了大量基于EMD的ICA-R語(yǔ)音增強(qiáng)的仿真實(shí)驗(yàn),以其中一些例子進(jìn)行介紹.期望增強(qiáng)的源語(yǔ)音信號(hào)s1及其功率譜,分別如圖6(a)和6(b)所示.四路干擾噪聲信號(hào)依此為:白噪聲(a)、工廠機(jī)械噪聲(b)、雞尾酒會(huì)噪聲(c)、純語(yǔ)音噪聲(d),分別如圖7(a)~(d)所示.實(shí)驗(yàn)中對(duì)于基于EMD構(gòu)造的參考信號(hào)的語(yǔ)音增強(qiáng),我們選用c3~c8本征模態(tài)函數(shù)之和來(lái)近似功率譜,并以此參考信號(hào),如圖8所示.實(shí)驗(yàn)中用到的語(yǔ)音信號(hào)以及噪聲信號(hào)均來(lái)源于Loizou語(yǔ)音實(shí)驗(yàn)室的語(yǔ)音庫(kù),每路信號(hào)的采樣頻率都為8 kHz,采樣點(diǎn)為18 000個(gè).
圖6 目標(biāo)語(yǔ)音信號(hào)s1及其功率譜
圖7 四路噪聲信號(hào)
圖8 基于EMD構(gòu)建的參考信號(hào)
隨機(jī)二維混合矩陣A選取為[0,1]上的隨機(jī)矩陣,源語(yǔ)音信號(hào)和四路干擾噪聲分別經(jīng)過(guò)矩陣A混合得到含噪聲的觀測(cè)信號(hào)及基于EMD參考信號(hào)輸出語(yǔ)音信號(hào)分別如圖9-圖12所示.
從下如圖9~圖12可以直觀的看到基于EMD的語(yǔ)音增強(qiáng)信號(hào)波形與源語(yǔ)音信號(hào)都大體相同,為了定量的評(píng)價(jià)算法分離性能,我們利用PESQ-MOS語(yǔ)音質(zhì)量評(píng)估算法對(duì)得到的結(jié)果進(jìn)行語(yǔ)音質(zhì)量評(píng)估.源信號(hào)s1在四種加性噪聲下ICA語(yǔ)言增強(qiáng)后的SNR和PESQ-MOS分值分別如下表1所示.
圖9 語(yǔ)音與白噪聲兩路混合信號(hào)以及ICA-R恢復(fù)的語(yǔ)音信號(hào)
圖10 語(yǔ)音與工廠機(jī)械噪聲兩路混合信號(hào)及ICA-R恢復(fù)的語(yǔ)音信號(hào)
圖11 語(yǔ)音與雞尾酒會(huì)噪聲兩路混合信號(hào)及ICA-R恢復(fù)的語(yǔ)音信號(hào)
圖12 語(yǔ)音與純語(yǔ)言噪聲兩路混合信號(hào)及ICA-R恢復(fù)語(yǔ)音信號(hào)
表1 SNR、PESQ-MOS性能指標(biāo)結(jié)果
從表1中可以看出,在4種加性噪聲下,得到的PESQ-MOS值還是比較高的.由于在聽覺(jué)上和原語(yǔ)音并無(wú)多大的差異,該實(shí)驗(yàn)還是可行的.因此,基于EMD參考信號(hào)的選取及其在ICA-R中的應(yīng)用是一種可行的語(yǔ)音增強(qiáng)方法.
本文提出了基于EMD構(gòu)建參考信號(hào)的ICA-R語(yǔ)音增強(qiáng)方法,選用小數(shù)量的IMFs求和可以得到原始語(yǔ)音信號(hào)近似功率譜,就可以構(gòu)建合理的ICA-R參考信號(hào),提取期望語(yǔ)音信號(hào).計(jì)算機(jī)仿真和性能分析都表明,此方法在加性噪聲干擾下可以取得比較好的語(yǔ)音增強(qiáng)效果.盡管實(shí)驗(yàn)的結(jié)果還是比較讓人滿意,但是還存在一些不足,比如說(shuō)在和純語(yǔ)音噪聲混合后取得的效果就不是很理想,以及在沒(méi)有加性噪聲的情況下怎么增強(qiáng)語(yǔ)音信號(hào)等等,都值得進(jìn)一步研究.
[1] Zhang Zhilin. Morphological constrained ICA for extracting weak temporally correlated signals [J]. Neurocomputing, 2008.71. 1669-1679.
[2] Hyvarinen A, Oja E. A Fast Fixed-point Algorithm for Independent Component Analysis [J]. Neural Computation, 1997, 9(7):1483-1492.
[3] 黃燦輝. 獨(dú)立分量分析在盲信號(hào)分離中的應(yīng)用研究[D].重慶:重慶大學(xué), 2006.
[4] Lu Wei, Rajapakse J C. ICA with Reference[C]//Proc of the 3rd International Conference on ICA and Blind Source Separation. [S. l.]: Springer, 2001: 120-125.
[5] 鄭永瑞. 參考獨(dú)立分量分析算法及其應(yīng)用研究[D]. 大連:大連理工大學(xué), 2005.
[6] 羅飛雪. 基于EMD與ICA的GPS動(dòng)態(tài)變形檢測(cè)數(shù)據(jù)處理方法研究[D].長(zhǎng)沙:中南大學(xué),2011.
[7] 李寧寧. 基于EMD和ICA的感應(yīng)電動(dòng)機(jī)故障檢測(cè)研究[D].天津:天津理工大學(xué),2011.
[8] 林秋華, 鄭永端, 殷福亮. 基于參考獨(dú)立分量分析的語(yǔ)音增強(qiáng)方法[J].大連理工大學(xué)學(xué)報(bào), 2005, 46(6):915-1000.
[9] 林秋華. 參考獨(dú)立分量分析算法及其應(yīng)用研究[D].大連:大連理工大學(xué), 2005.
[10] Yongrui Zheng, Qiuhua Lin, Fuliang Yin, et al. Speech Enhancement Using ICA with EMD-based reference.[J]. Computer Science, 2006, 3889: 739-746.
Speech enhancement using ICA with EMD
LI Yunfei, QUAN Haiyan, XIAO Chunmei
(Institute of information engineering and automation,Kunming University of Science and Technology, Kunming 650093)
The traditional ICA that recovers all the source signals simultaneously, Independent component analysis with reference( ICA-R) can extract only some desired source signal from mixtures of all source signals by incorporating a prior information into the separation process. In this paper, in order to extract the desired speech signal from the mixed speech signals, is based on empirical mode decomposition (EMD) method to get the power spectrum envelope as a reference signal, and then apply the reference signal in the ICA-R algorithm, achieve the purpose of speech enhancement. Computer simulation and performance analysis results show that this method can achieve the purpose of speech enhancement when in a case with noise interference.
Blind source separation; Independent component analysis(ICA); ICA with reference(ICA-R); empirical mode decomposition(EMD); speech enhancement
2014-05-25.
國(guó)家自然科學(xué)基金項(xiàng)目(41364002),云南省自然科學(xué)基金項(xiàng)目(2009ZC048M).
1000-1190(2015)01-0042-05
TN911.25
A
*通訊聯(lián)系人. E-mail: quanhaniyan@163.com.