岳建杰,趙旦峰,張成
1.哈爾濱工程大學(xué)信息與通信工程學(xué)院,黑龍江哈爾濱 150001
2.哈爾濱工程大學(xué)自動(dòng)化學(xué)院,黑龍江哈爾濱 150001
一種改進(jìn)的自然梯度語(yǔ)音信號(hào)盲分離算法
岳建杰1,趙旦峰1,張成2
1.哈爾濱工程大學(xué)信息與通信工程學(xué)院,黑龍江哈爾濱 150001
2.哈爾濱工程大學(xué)自動(dòng)化學(xué)院,黑龍江哈爾濱 150001
自然梯度算法有較快的收斂速度、良好的分離性能,在盲信號(hào)分離中占有重要地位?;谧匀惶荻鹊拿ぴ捶蛛x算法一般分為固定步長(zhǎng)和變步長(zhǎng)的自然梯度算法,固定步長(zhǎng)的自然梯度算法存在分離速度與穩(wěn)定性之間的矛盾,即步長(zhǎng)越長(zhǎng)時(shí)分離速度快,但是穩(wěn)態(tài)誤差又得不到保障;步長(zhǎng)太小分離速度又達(dá)不到要求。為了改善分離速度與穩(wěn)定性之間的矛盾,提出了一種變步長(zhǎng)的方法來(lái),并用其改進(jìn)了固定步長(zhǎng)的標(biāo)準(zhǔn)自然梯度算法,成功地用于混合語(yǔ)音信號(hào)的分離,該方法取得比標(biāo)準(zhǔn)自然梯度算法更好的分離效果,具有更快的收斂速度。
語(yǔ)音信號(hào)處理;自然梯度算法;收斂速度;盲信號(hào)分離
盲信號(hào)分離起源于雞尾酒會(huì)問(wèn)題[1],在雞尾酒會(huì)場(chǎng)景下,沒(méi)有源信號(hào)的任何先驗(yàn)信息,只知道混合的觀測(cè)信號(hào),這就使得盲信號(hào)分離成為了解決無(wú)源信號(hào)問(wèn)題的最好方法,因?yàn)檫@種估計(jì)源信號(hào)方法無(wú)需知道混合過(guò)程的參數(shù)等信息[2]。盲信號(hào)分離最基本的方法就是獨(dú)立分量分析(independent compo-nent analysis,ICA)的方法,其中Fast ICA算法[3]、隨機(jī)梯度算法[4]、自然梯度算法[5]、EASI算法[6]、迭代求逆等方法都是常用的算法,這些算法都是最小均方(leastmean square,LMS)型的算法。LMS算法有著固有的缺陷,就是穩(wěn)態(tài)誤差和步長(zhǎng)成正相關(guān)性,收斂時(shí)間和步長(zhǎng)成反相關(guān)性,這就使得這一類(lèi)型的算法收斂速度和穩(wěn)態(tài)誤差特性不能同時(shí)得到滿(mǎn)足[7]。為了改善這種狀況,本文對(duì)前人自然梯度算法[8-11]進(jìn)行深入研究,采用文獻(xiàn)[12]中把固定步長(zhǎng)改變成變步長(zhǎng)的思想,不僅大大提高了自然梯度算法分離效率,而且大幅提升了分離的收斂速度。
語(yǔ)音信號(hào)盲分離問(wèn)題瞬時(shí)混合模型通常如圖1所示。
圖1 混合系統(tǒng)
s(t)=[s1(t),s2(t),…,sm(t)]T是n個(gè)說(shuō)話(huà)者聲音信號(hào)組成的n維向量;x(t)=[x1(t),x2(t),…,xm(t)]T是m個(gè)觀測(cè)信號(hào)組成的m維向量,其元素是各個(gè)麥克風(fēng)的輸出;A是m×n維矩陣混合矩陣,其元素aij表示信號(hào)的混合情況,如果為語(yǔ)音信號(hào),取決于第i個(gè)說(shuō)話(huà)者和第j個(gè)麥克風(fēng)之間的距離。即
或者簡(jiǎn)記為
x(t)=As(t)
盲信號(hào)分離問(wèn)題的提法就是只根據(jù)觀測(cè)信號(hào)數(shù)據(jù)x(t)求得分離矩陣W,W是A的逆矩陣,使得變換后的輸出
y(t)=Wx(t)
是源信號(hào)s(t)的一個(gè)估計(jì)或拷貝。
1.1 信號(hào)分離的前提假設(shè)
為了保證ICA模型是可解的,做出如下3個(gè)合理假設(shè),第1個(gè)假設(shè)就是源信號(hào)s t()為平穩(wěn)隨機(jī)向量且各個(gè)源信號(hào)是統(tǒng)計(jì)上相互獨(dú)立的;第2個(gè)假設(shè)就是源信號(hào)中最多只有一個(gè)高斯信號(hào),因?yàn)槎鄠€(gè)高斯信號(hào)的混合還是高斯信號(hào),信號(hào)不可能被分開(kāi);第3個(gè)假設(shè)就是為了簡(jiǎn)化估計(jì),未知的混合矩陣是一個(gè)方陣且混合矩陣是行滿(mǎn)秩的,即獨(dú)立源信號(hào)的數(shù)目和觀測(cè)信號(hào)的數(shù)目是相等的。如果當(dāng)信源的數(shù)目少于觀測(cè)信號(hào)的數(shù)目時(shí),可以利用主原分析(princi-pal component analysis,PCA)的方法降低維數(shù)使混合矩陣為一個(gè)方陣。只有這3個(gè)假設(shè)同時(shí)有效時(shí),源信號(hào)s(t)才能從混合信號(hào)x(t)中被估計(jì)出來(lái)。
圖2 盲信號(hào)分離框圖
此時(shí)盲信號(hào)分離的實(shí)際過(guò)程如圖2所示。
y(t)=Wx(t)=WAs(t)=Cs(t)
式中C=WA。
需要指出的是,對(duì)瞬時(shí)混疊信號(hào)盲分離,在源信號(hào)可以精確恢復(fù)的情況下應(yīng)有W=A-1。然而由于源信號(hào)和混疊矩陣都未知,在以上假設(shè)條件約束下的一般分離方法,盲源分離存在2個(gè)不確定性,即恢復(fù)的信號(hào)的幅度不確定性和信源各分量次序的不確定性。在許多應(yīng)用背景下,絕大多數(shù)信息包含在信號(hào)的波形而不是信號(hào)的幅度和次序中,所以在瞬時(shí)混疊情況下,盲信號(hào)分離的這2個(gè)不確定性是可以接受的。
1.2 信號(hào)的預(yù)處理
混合信號(hào)盲分離前,需要對(duì)信號(hào)進(jìn)行預(yù)處理,可以大大減少計(jì)算和分離效率。最有用的預(yù)處理步驟就是對(duì)觀測(cè)信號(hào)去均值和白化,一些特殊的問(wèn)題,要用低通或高通濾波器去除噪聲信號(hào)或擾動(dòng)[13]。
1.2.1 信號(hào)的零均值處理
盲信號(hào)分離算法中,源信號(hào)的分量變換成零均值,可以大大減少計(jì)算量,并且對(duì)分離結(jié)果無(wú)影響。
假設(shè)x是一個(gè)非零均值的隨機(jī)變量,其去均值過(guò)程可以用x0=x-E(x)來(lái)表示,在真實(shí)的計(jì)算情況下,算術(shù)均值通常由數(shù)學(xué)期望來(lái)估計(jì):
式中:xi(t)是觀測(cè)信號(hào)x(t)=[x1(t),x2(t),…,xn(t)]T的一個(gè)分量,其中i=1,2,…,N,t=1,2,…,N是隨機(jī)變量x的N個(gè)采樣點(diǎn)。
1.2.2 信號(hào)的白化
盲信號(hào)分離中,白化是一個(gè)通用的改善分離性能的信號(hào)預(yù)處理方法,因而白化是非常有必要的。
梯度算法有等變化性等優(yōu)良的性能,應(yīng)用場(chǎng)合廣泛,但存在步長(zhǎng)與穩(wěn)態(tài)誤差間的固有矛盾。
2.1 標(biāo)準(zhǔn)自然梯度算法
在盲信號(hào)分離或ICA問(wèn)題中,輸出y(k)相互獨(dú)立性反應(yīng)了分離的性能,通常情況下使用K-L散度作為獨(dú)立性的度量。文中使用py(y,W)作為隨機(jī)變量y=Wx的概率密度函數(shù)并且創(chuàng)造一個(gè)概率密度函數(shù)q(y),在q(y)中的所有分量都是在統(tǒng)計(jì)意義上獨(dú)立的,并將其作為一個(gè)參考。當(dāng)且僅當(dāng)py(y,W)和q(y)同分布時(shí),K-L散度才會(huì)是零,也不會(huì)隨著變量yi的非線(xiàn)性變換而變化。獨(dú)立性的自然度量表示為
如果K-L散度由輸出y的差分熵H(y)來(lái)表示
由文獻(xiàn)[4]得到K-L散度的互信息和差分熵表示為
把式(1)、(2)代入式(3)得到
通過(guò)文獻(xiàn)[13]中隨機(jī)梯度在線(xiàn)學(xué)習(xí)算法,式(4)的廣義梯度為
式中:η(k)是依賴(lài)于k的學(xué)習(xí)率,并且?ρ/?W是由元素?ρ/?wij組成的n×n的梯度矩陣。通過(guò)差分矩陣的操作,可以得到
式中f(y)=[f1(y1),f2(y2),...,fn(yn)]T是一個(gè)列矢量,其第i個(gè)元素是
式中:(qiyi)是源信號(hào){si}的概率密度函數(shù)的估計(jì),梯度-?ρ/?W是歐幾里得空間中目標(biāo)函數(shù)最速下降方向。
文獻(xiàn)[13]中提到,Amari等人把W引進(jìn)了自然黎曼空間中并證明了參數(shù)W黎曼空間中最速下降的方向并不是標(biāo)準(zhǔn)的負(fù)梯度所指向的方向-?ρ/?W,而是
根據(jù)黎曼空間中參數(shù)的結(jié)構(gòu),這種自然梯度修改了標(biāo)準(zhǔn)梯度的搜索方向,但是并沒(méi)有改變最小值點(diǎn)因而確保了參數(shù)估計(jì)的全局最優(yōu)解。自然梯度有著等變化的性質(zhì),且不用求逆運(yùn)算,不受混合矩陣變化的影響,并且沒(méi)有像牛頓法在目標(biāo)函數(shù)的均方估計(jì),算法阻止了W(k)的畸變[14],很適合目標(biāo)函數(shù)非線(xiàn)性的模型。綜上,推導(dǎo)可以得到自然梯度算法為
W(k+1)=W(k)+η(k)[I-f(y)yT]W(k)文獻(xiàn)[4]詳細(xì)講解了非線(xiàn)性函數(shù)f(y)的選擇。
2.2 改進(jìn)的自然梯度算
標(biāo)準(zhǔn)自然梯度算法有著很好的收斂與分離性能,但是其碼間干擾收斂速度很慢,為了加速碼間干擾的收斂速度,參考文獻(xiàn)[12]將傳統(tǒng)算法中分離矩陣的Frobenius范數(shù)變化情況強(qiáng)加于梯度學(xué)習(xí)算法,將使算法在學(xué)習(xí)過(guò)程中保持相對(duì)穩(wěn)定,采用該思想方法有η(k)迭代調(diào)節(jié)過(guò)程如下:
取
式中tr是求矩陣的跡,此時(shí)有
所以改進(jìn)后的自然梯度算法表現(xiàn)形式仍然為
綜上所述,改進(jìn)的自然梯度算法的步驟如下:
1)對(duì)觀測(cè)信號(hào)去均值、白化,選取非線(xiàn)性函數(shù)f(y)=tan y;
2)初始化系統(tǒng)參數(shù),選取迭代最大步數(shù)為l=100步,ρ=0.001,η(1)=0.05,那么,
3)分別計(jì)算如下各式:
如果1<lp≤100,則反復(fù)執(zhí)行,直到l=100執(zhí)行完。
選用2路純凈的語(yǔ)音信號(hào)進(jìn)行算法的驗(yàn)證性分離試驗(yàn),驗(yàn)證算法的有效性:其中s1內(nèi)容是:“這就是去洛克菲勒中心的地鐵嗎?是”;s2內(nèi)容是:“I’m interesting about education!”。使用MATLAB軟件仿真,得到源信號(hào)s1和s2的波形圖如圖3所示。
圖3 源語(yǔ)音信號(hào)
隨機(jī)產(chǎn)生一個(gè)混合矩陣A,取3位有效數(shù)字得到
源信號(hào)s1和s2在混合矩陣A作用下混合得到混合觀測(cè)信號(hào),其中x1(t)和x2(t)的波形如圖4。
圖4 混合語(yǔ)音信號(hào)
對(duì)觀測(cè)信號(hào)x(t)去均值,白化預(yù)處理后,用標(biāo)準(zhǔn)自然梯度算法和改進(jìn)的自然梯度算法采取相同的參數(shù)和迭代步數(shù),迭代計(jì)算出的分離矩陣分別為W1和W2,其值分別為
在MATLAB軟件仿真環(huán)境下,仿真分離出的波形如圖5、6所示。
圖5 標(biāo)準(zhǔn)自然梯度算法分離的信號(hào)
圖6 改進(jìn)自然梯度算法分離的信號(hào)
2種分離方法分離出的波形和原始語(yǔ)音信號(hào)的波形相比較,直觀上分離結(jié)果波形相似度很高,由于自然梯度算法存在2種不確定性,所以需要引進(jìn)分離性能評(píng)價(jià)指標(biāo)。語(yǔ)音信號(hào)分離性能評(píng)價(jià)指標(biāo)一般使用性能測(cè)度碼間干擾(inter symbol interference,ISI)[13]作為分離性能的評(píng)價(jià)標(biāo)準(zhǔn)。碼間干擾定義為
式中C=WA,cij,cik分別表示矩陣C的i行j列和i行k列的元素。當(dāng)信號(hào)得以精確分離時(shí),指標(biāo)I(C)應(yīng)該為零,實(shí)際上一般為較小的值。文中2種分離方法同取ρ=0.001,碼間干擾曲線(xiàn)如圖7所示。
圖7 2種自然頭分離算法的碼間干擾
從圖7中看到這2種算法在分離的初始階段碼間干擾都很大,隨著分離程度的加深,碼間干擾很快的降低,最后穩(wěn)定在一個(gè)很小的值,說(shuō)明這2種分離算法都能將混合信號(hào)得到精確的分離。從圖7中可以看出第10步迭代后碼間干擾迅速下降,標(biāo)準(zhǔn)自然體算法碼間干擾曲線(xiàn)迭代次數(shù)到了45步才穩(wěn)定到一個(gè)很小的值;改進(jìn)后的自然梯度法碼間干擾曲線(xiàn)迭代到了35步就穩(wěn)定到了一個(gè)很小的值。說(shuō)明改進(jìn)后的自然梯度算法收斂速度比原始的收斂速度有所提高。
選取不同的ρ得到碼間干擾曲線(xiàn)如圖8所示。
圖8 不同ρ下的碼間干擾誤差
圖8中所示,在改進(jìn)的自然梯度算法中使用不同的ρ有著不同收斂速度。ρ=0.0001和ρ=0.00001這2條曲線(xiàn)幾乎重合在一起,所以可以推得,當(dāng)ρ小到一定程度時(shí),碼間干擾曲線(xiàn)幾乎沒(méi)有變化。由圖8知,當(dāng)ρ=0.01時(shí),在迭代次數(shù)20步的時(shí)候碼間干擾都很小了,其他小于0.01的ρ的碼間干擾迭代了30步以后才收斂到一個(gè)很小的數(shù),所以ρ越小碼間干擾收斂的速度越慢,從圖中看出ρ=0.01時(shí)收斂的速度幾乎是直線(xiàn)下降,所以在算法中取ρ相對(duì)大一些更符合實(shí)際要求。
運(yùn)用標(biāo)準(zhǔn)自然梯度和改進(jìn)的自然梯度算法都能將混合的語(yǔ)音信號(hào)分離開(kāi)來(lái),通過(guò)對(duì)比標(biāo)準(zhǔn)自然梯度算法和改進(jìn)的自然梯度算法分離結(jié)果的串音誤差曲線(xiàn),二者都具備很好的分離性能,改進(jìn)后的自然梯度算法具有更快的分離速度,這種更快的分離性能用在實(shí)時(shí)性要求更高的環(huán)境中就能獲得更好的分離效果。在此考慮的都是純凈的語(yǔ)音信號(hào),而在真實(shí)的環(huán)境中不可避免受到噪聲信號(hào)的干擾,今后研究噪聲污染的信號(hào)的分離更具有實(shí)際的意義。
[1]HAYKINS,CHENZ.The cocktail party problem[J].Neu-ral Computation,2011,17(9):1875-1902.
[2]CHOIS,CICHOCKIA,PARK H M,et al.Blind source separation and independent component analysis:a review[J].Neural Information Processing-Letters and Reviews,2005,6(1):1-57.
[3]PRASAD R PR.Fixed-point ICA based speech signal sepa-ration and enhancement with generalized Gaussian model[D].Ikoma:Nara Institute of Science and Technology,2010:89-96.
[4]楊福生,洪波.獨(dú)立分量分析的原理與應(yīng)用[M].北京:清華大學(xué)出版社,2006:15-50.
[5]SANDIKO C M,MAGSINO E R.A blind source separation of instantaneous acoustic mixtures using natural gradient method[C]//2012 IEEE International Conference on Con-trol System,Computing and Engineering(ICCSCE).Mel-bourne,Australia,2012:124-129.
[6]CARDOSO JF,LAHELD BH.Equivariant adaptive source separation[J].IEEE Transactions on Signal Processing,2009,44(12):3017-3030.
[7]裴學(xué)廣.基于變步長(zhǎng)自然梯度算法的盲源分離[J].艦船電子對(duì)抗,2007,30(4):65-68.
[8]馬建倉(cāng),馮冰,程存虎,等.自然梯度盲分離算法在振動(dòng)信號(hào)處理中的應(yīng)用[J].火力與指揮控制,2011,36(4):154-157.
[9]付衛(wèi)紅,楊小牛.改進(jìn)的基于步長(zhǎng)自適應(yīng)的自然梯度盲源分離算法[J].華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2007,35(10):18-20.
[10]李廣彪,張劍云.基于分離度的步長(zhǎng)自適應(yīng)自然梯度算法[J].信號(hào)處理,2009,23(3):429-432.
[11]劉穎超,張紀(jì)元.梯度下降法[J].南京理工大學(xué)學(xué)報(bào):自然科學(xué)版,1993(2):2-5.
[12]張?zhí)祢U,李雪松,夏淑芳,等.梯度自適應(yīng)在線(xiàn)ICA的改進(jìn)[J].北京郵電大學(xué)學(xué)報(bào),2010,33(5):108-111.
[13]史習(xí)智.盲信號(hào)處理——理論與實(shí)踐[M].上海:上海交通大學(xué)出版社,2011:61-85.
[14]BENESTY J.An introduction to blind source separation of speech signals[M].New York:Springer,2000:321-329.
Speech signal blind source separation based on an im proved natural gradient algorithm
YUE Jianjie1,ZHAO Danfeng1,ZHANG Cheng2
1.College of Information and Communication Engineering,Harbin Engineering University,Harbin 150001,China
2.College of Automation,Harbin Engineering University,Harbin 150001,China
A natural gradient algorithm has a fast convergence rate and excellent separation property,and thus plays an important role in blind signal separation.The blind source separation algorithms based on natural gradient are commonly classified into fix-step-size and variable step-size algorithms.The fix-step-size natural gradient algorithm has the inherent contradiction between the speed of separation and the error in steady state.Namely the bigger the step size is,the faster the separation speed is,but the error in steady state cannotmeasure up.Then a small step size would lead to slow separation speed.In order to improve the contradiction,this paper proposes a new method based on variable step-size natural gradient,which is used to improve the fixed-step-size standard natural gradient algorithm and it has been successfully applied to separatemixed speech signals.The new algorithm has gained bet-ter separation performance and faster convergence speed in inter symbol interference than the standard one.
speech signal processing;natural gradient algorithm;convergence rate;bind signal separation
TN971.1
A
1009-671X(2015)03-030-05
10.3969/j.issn.1009-671X.201409015
2014-09-25.
日期:2015-04-20.作者簡(jiǎn)介:岳建杰(1986-),男,碩士研究生;趙旦峰(1961-),男,教授,博士生導(dǎo)師.
岳建杰,E-mail:348274742@qq.com.
http://www.cnki.net/kcms/detail/23.1191.U.20150420.1055.011.html