鄧艷容,景新幸,任華娟
(桂林電子科技大學 信息與通信學院,廣西 桂林 541004)
麥克風陣列的聲源定位是指用麥克風陣列拾取聲音信號,通過對多路聲音信號進行分析與處理,在空間域中定出一個或多個聲源的平面或空間坐標,即得到聲源的位置,以進一步控制攝像機和麥克風陣列波束對準正在說話的人。它在視頻會議、語音識別、說話人識別和助聽設備等領(lǐng)域中都有廣泛的應用。目前,基于麥克風陣列的聲源定位方法大體上可分為三類[1]:(1)基于子空間的定位技術(shù);(2)基于可控波束形成的定位技術(shù);(3)基于到達時延(TDOA)的定位技術(shù)。TDOA方法首先求出聲音到達不同位置麥克風的時延,再利用這些時延求得聲音到達不同位置麥克風的距離差,最后用搜索或幾何知識確定聲源位置。
在現(xiàn)有的麥克風陣列聲源定位方法中,基于到達時間差(TDOA)估計定位法計算量較小,硬件成本較低,定位精度較高,同時也易于實時實現(xiàn),是目前聲源定位法中常用的方法。
基于聲達時間差(TDOA)估計定位法的關(guān)鍵技術(shù)是時延估計,其精確性直接決定了整個定位系統(tǒng)的有效性。目前,時延估計的算法有很多,本文在傳統(tǒng)的LMS自適應時延估計的基礎(chǔ)上,提出一種改進的LMS自適應時延估計法,其主要思想是提取語音的激勵信息來進行時延估計。
1982年Youn等人提出了LMS自適應時延估計算法[2],該算法通過最小均方的準則,在收斂的情況下給出時延估計值,因此不需要信號和噪聲的先驗知識,但對噪聲和混響都比較敏感。
基于Widrow的LMS自適應時延估計算法的原理如圖1所示。
從圖1可以看出,用自適應濾波求時延時,將2個麥克風的接收信號x1(n)和x2(n)分別當作目標信號和輸入信號,用 x2(n)去逼近 x1(n)。對 x1(n)加 z-p是為了保證因果性而加入P個采樣周期的延遲,以保證該結(jié)構(gòu)能適應正延遲和負延遲兩種情況。自適應時延估計法的算法如下:
圖1 LMS自適應時延估計原理圖
根據(jù)最小均方誤差(LMS)準則,當濾波器系數(shù)為:
時,信號 x1(n)和 x2(n)之間的均方誤差 E{e2(n)}取最小值。此時濾波器系數(shù)h(n)收斂,找出h(n)中最大值對應的 m,再減去 P,就求得信號 x1(n)和 x2(n)間的時延 τ12。
傳統(tǒng)的LMS自適應時延估計法很容易受到噪聲和房間混響的影響,本文結(jié)合語音信號的特點,提出了一種利用語音激勵信息的LMS自適應時延估計算法[3]。
1.2.1 語音激勵信息的提取
語音在傳播過程中,激勵信號中的脈沖激勵的位置不會改變,因此利用語音激勵信息的時延估計算法不易受到噪聲和混響的影響。根據(jù)語音的生成模型,線性預測殘留誤差e(n)包含了產(chǎn)生語音的激勵脈沖信息,可以作為語音激勵信號的一個估計[4]。通過線性預測(LPC)分析即可得到殘留誤差e(n)。
其中 ai為預測系數(shù),s(n)表示 n時刻的純凈語音,(n)為其預測值。由于噪聲和混響的影響,殘留誤差e(n)中的脈沖激勵被削弱,為了銳化峰值,利用LPC殘留誤差e(n)的包絡h(n)代替e(n)。為了進一步減少噪聲和混響的影響,可以采用削波的方法對h(n)進行處理。
1.2.2 基于語音激勵信息的自適應時延估計
基于語音激勵信息和LMS自適應時延估計算法的原理,采用語音激勵信息的LMS自適應時延估計(LPCLMS)原理如圖2所示。
圖2 LPC-LMS時延估計原理圖
LPC-LMS時延估計的步驟:
(1)把麥克風1和麥克風2采集的語音信號x1(n)和x2(n)分別通過相應的預測誤差濾波器,得到LPC殘余信號 e1(n)和 e2(n)。
(2)利用 Hilbert變換分別提取 e1(n)、e2(n)的 Hilbert包絡 h1(n)和 h2(n)。
(3)對h1(n)和 h2(n)分別進行削波處理。
(4)將削波處理后的語音激勵脈沖進行LMS自適應時延估計。
基于時延估計的定位技術(shù)是通過麥克風陣列接收聲源發(fā)出的語音信號,再根據(jù)麥克風和聲源的幾何模型,利用語音信號到達不同麥克風的時間差來估計聲源位置。本文采用的是平面四元幾何定位法[5],陣列結(jié)構(gòu)如圖3所示,由4個全向麥克風0、1、2和3組成。設麥克風0為參考麥克風,并以其所處的位置為原點建立直角坐標系。其余3個麥克風與參考麥克風0的距離均為d。
圖3 平面四元陣列定位示意圖
設聲源入射波到達麥克風1、2和3相對于到達參考麥克風 0的時間延遲分別記為 τ10、τ20和 τ30。聲源的方位角為φ,定義為聲源入射方向在xoy平面的投影與x軸正向的夾角;仰角為θ,定義為聲源入射方向與其在xoy平面的投影的夾角。聲源距參考麥克風的距離記為R,空氣聲速為c。由聲源和麥克風陣列的幾何位置關(guān)系,利用余弦定理,可得聲源距參考麥克風0的距離R為:
聲源方位角φ為:
聲源的仰角θ為:
綜上所述,基于時延估計的聲源定位的實現(xiàn)流程如圖4所示。
下面用MATLAB仿真來驗證前面的算法。仿真環(huán)境設定為普通會議室,房間大小為7 m×5 m×3 m。聲源在實驗室錄制完成,采樣頻率為16 kHz,16 bit。采用矩形窗進行分幀,幀長為1 024點,幀移為512點。本文采用短時平均過零率和能量閾值法對每幀數(shù)據(jù)進行有聲無聲檢測,得到的語音幀為209幀,線性預測階數(shù)為12。麥克風陣列和聲源的幾何模型如圖3所示。設以麥克風0為參考麥克風建立直角坐標系,語音源坐標為(2.15,2.15,1.62),噪聲源坐標為(5.00,1.50,1.50),參考麥克風 0的坐標為(1.00,1.00,0.90),其余3個麥克風坐標分別為 mic1(1.25,1.00,0.90),mic2(1.00,1.25,0.90),mic3(0.75,1.00,0.90)。聲源到傳聲器的脈沖響應函數(shù)由IMAGE模型[6]產(chǎn)生。混響時間與反射系數(shù)β的關(guān)系為:
其中 Lx,Ly,Lz表示房間的大小,c 表示聲速(340 m/s)。
圖5從上到下分別為麥克風0接受的語音混響序列、其 LPC誤差信號 e(n)、Hilbert包絡 h(n)、削波處理后的語音激勵信息。從圖5可以看出,經(jīng)過Hilbert變換,削波處理后的信號削弱了無關(guān)峰值,使有用峰值變得更加尖銳,從而抑制了噪聲和混響的影響。
圖5 參考麥克風0采集的語音
圖6和圖7分別為混響時間T=100 ms和T=300 ms時,在不同信噪比情況下的時延估計。由圖可得,無論是在強混響(T=300 ms)還是在弱混響(T=100 ms)的情況下,LPC-LMS法的有效率都要高于傳統(tǒng)的LMS法。特別是在強混響(T=300 ms)、低信噪比(SNR=-10 dB)的環(huán)境下,LMS法的有效率只有3.76%,而LPC-LMS法還能獲得41.04%的有效率。由實驗結(jié)果可見,改進的LPC-LMS法對混響和噪聲都有很好的抑制作用。
實驗采用改進的LPC-LMS方法進行時延估計,結(jié)合平面四元幾何定位法對聲源進行定位。聲源距參考麥克風的真實距離為1.778 6 m,真實仰角為23.880 9°,真實方位角為135°。圖8分別示出了距離、仰角和方位角的定位情況。實驗結(jié)果表明,聲源的定位誤差很小,在實際的聲源定位中是可行的。理論分析和實驗仿真結(jié)果表明,采用本文提出的基于語音激勵信息的LMS自適應時延估計(LPC-LMS)結(jié)合平面四元幾何定位法來進行聲源定位,抗噪聲、抗混響能力強,算法穩(wěn)健,容易實現(xiàn),定位精度高,用該方法實現(xiàn)實時的聲源定位是可行的。
[1]李海成.基于傳聲器陣列的自動聲源定位方法[J].遼寧師范大學學報,2006,29(2):168-171.
[2]YOUN D H,AHMED N,CARTER G C.On using the LMS algorithm for time delay estimation[J].IEEE Transactions on Acoustics,Speech Signal Processing,1982,30(5):798-801.
[3]郭威,曾慶寧,劉慶華,等.基于聲門脈沖的自適應時延估計算法[J].計算機應用研究,2008,25(3):726-728.
[4]MURTHY P S,YEGNANARAYANA B.Robustness of group-delay-based method for extraction of significant instants of excitation from speech signals[J].IEEE Trans.Speech Audio Processing,1999,7(6):609-619.
[5]郭威.基于麥克風陣列的說話人定位技術(shù)研究[D].桂林:桂林電子科技大學,2007.
[6]ALLEN J B,BERKLEY D A.Image method for efficiently simylating small-room acoustics[J].Journal of Acoustical Society of America,1979,65(4):943-950.