梁瑞宇,王國(guó)偉,薛萬里,倪 燁
(南京工程學(xué)院通信工程學(xué)院,南京211167)
?
面向助聽器的語音信號(hào)處理算法開發(fā)平臺(tái)設(shè)計(jì)*
梁瑞宇*,王國(guó)偉,薛萬里,倪燁
(南京工程學(xué)院通信工程學(xué)院,南京211167)
摘要:綜合考慮助聽器體積小,功耗低等特點(diǎn),設(shè)計(jì)了一種基于嵌入式系統(tǒng)的實(shí)時(shí)語音處理算法的開發(fā)平臺(tái)。該平臺(tái)的硬件核心主要由CortexA8嵌入式處理芯片和FPGA芯片綜合構(gòu)成,共包含4個(gè)關(guān)鍵模塊:音頻輸入模塊、內(nèi)部時(shí)鐘模塊、FPGA控制模塊和信號(hào)處理模塊。為了提高系統(tǒng)的處理效率,系統(tǒng)設(shè)計(jì)了基于FPGA的多路語音處理轉(zhuǎn)換模塊。為驗(yàn)證平臺(tái)性能,設(shè)計(jì)并實(shí)現(xiàn)了基于維納濾波的助聽器語音增強(qiáng)算法,并進(jìn)行了主觀測(cè)試,實(shí)驗(yàn)效果良好。
關(guān)鍵詞:助聽器;語音信號(hào);維納濾波;嵌入式系統(tǒng)
聽力損失會(huì)嚴(yán)重影響聽障患者的身心健康,佩戴助聽器是目前聽障患者改善聽力最有效的手段。在中國(guó),龐大的老齡聽損人口、落后的助聽器技術(shù)、以及漢語與英語本身的差異性,都使得漢語數(shù)字助聽器技術(shù)研究面臨嚴(yán)峻的挑戰(zhàn)[1]。因此,研究面向漢語,面向老齡患者的助聽器算法具有急迫的現(xiàn)實(shí)意義。
我國(guó)助聽器研究起步較晚,軟硬件條件都落后于歐美等發(fā)達(dá)國(guó)家。目前從事助聽器算法研究的科研人員多局限在PC機(jī)上的仿真,由于缺少合適的硬件開發(fā)測(cè)試平臺(tái),導(dǎo)致所研究的成果離產(chǎn)業(yè)化仍有不少的距離。為此,面向助聽器需求,在多年助聽器算法研究的基礎(chǔ)上,本文設(shè)計(jì)并實(shí)現(xiàn)了一種基于嵌入式系統(tǒng)的多路麥克風(fēng)語音信號(hào)處理開發(fā)平臺(tái)。平臺(tái)以高性能的Cortex-A8微處理器作為主處理器,利用FPGA設(shè)計(jì)靈活的語音信號(hào)采集與預(yù)處理模塊,以實(shí)現(xiàn)實(shí)時(shí)語音處理算法。相比于基于DSP的硬件平臺(tái)[2],嵌入式系統(tǒng)更靈活,更便于科研人員進(jìn)行算法驗(yàn)證。
在助聽器算法中,降噪算法是最基本的助聽器算法。目前的單通道的降噪算法主要分為4類:小波變換法[3]、模型類語音增強(qiáng)算法[4]、短時(shí)譜估計(jì)類語音增強(qiáng)算法(維納濾波算法[5]等)和基于聽覺掩蔽效應(yīng)的語音增強(qiáng)算法[6]。因此,為了驗(yàn)證平臺(tái)性能,本文研究并設(shè)計(jì)了一種基于維納濾波的語音增強(qiáng)算法。算法采用基于先驗(yàn)信噪比估計(jì)的維納濾波器[7]進(jìn)行語音增強(qiáng)處理,信號(hào)的噪聲功率譜估計(jì)采用最小值統(tǒng)計(jì)算法估計(jì),從而得到增強(qiáng)后的語音。實(shí)驗(yàn)表明,與傳統(tǒng)維納濾波法相比,該方法能更有效地抑制殘留噪聲,提高語音可懂度,具有較高的實(shí)用價(jià)值。
本文語音信號(hào)處理實(shí)驗(yàn)平臺(tái)的硬件平臺(tái)如圖1所示。各模塊具體參數(shù)與指標(biāo)如下:(1)麥克風(fēng):一路駐極體麥克風(fēng)/耳機(jī)接口,用于常規(guī)語音信號(hào)采集、處理和回放實(shí)驗(yàn),8路硅微麥克風(fēng)陣列輸入,用于聲源定位、語音增強(qiáng)等實(shí)驗(yàn); (2)A/D轉(zhuǎn)換模塊:不使用編解碼芯片(CODEC),采用CS5368高速8路音頻AD轉(zhuǎn)換器; (3)D/A轉(zhuǎn)換模塊:采用CS4382芯片將串行數(shù)字信號(hào)轉(zhuǎn)換成8路音頻模擬信號(hào); (4)Cortex-A8微處理器模塊:采用Samsung公司出品,業(yè)界廣泛使用的S5PV210微處理器; (5)計(jì)算機(jī)接口:UART串口、I2S音頻接口以及其他接口; (6)數(shù)據(jù)存儲(chǔ)模塊:FLASH閃存本地存儲(chǔ),或者通過計(jì)算機(jī)接口存儲(chǔ)在計(jì)算機(jī)上; (7)立體聲D/A轉(zhuǎn)換模塊:CS4382; (8)揚(yáng)聲器:將經(jīng)過處理的音頻信號(hào)轉(zhuǎn)換為可以感知的聲信號(hào)。
圖1 系統(tǒng)架構(gòu)框圖
1.1系統(tǒng)關(guān)鍵模塊設(shè)計(jì)與實(shí)現(xiàn)
在平臺(tái)設(shè)計(jì)中,音頻模塊和信號(hào)處理模塊相對(duì)比較重要,本平臺(tái)的關(guān)鍵模塊框圖如圖2所示。系統(tǒng)關(guān)鍵模塊主要包括音頻輸入模塊、內(nèi)部時(shí)鐘模塊、FPGA控制模塊和信號(hào)處理模塊。音頻輸入模塊采用Cirrus Logic公司推出的一款模擬數(shù)字音頻轉(zhuǎn)換器集成芯片,完成8路差分模擬輸入信號(hào)的同步采樣; FPGA控制模塊主要用于實(shí)現(xiàn)模數(shù)轉(zhuǎn)換芯片的采樣控制、采樣數(shù)據(jù)的串并轉(zhuǎn)換處理以及數(shù)據(jù)的緩存和傳輸;信號(hào)處理模塊主要完成采樣數(shù)據(jù)的處理和各種算法的實(shí)現(xiàn);時(shí)鐘模塊則負(fù)責(zé)為各個(gè)模塊提供準(zhǔn)確的時(shí)鐘信號(hào)。設(shè)計(jì)中采用ASIC+FPGA的設(shè)計(jì)理念,其好處在于利用FPGA的并行處理能力,提高數(shù)據(jù)的吞吐率;同時(shí)保證ASIC只負(fù)責(zé)信號(hào)的運(yùn)算處理,提高系統(tǒng)的運(yùn)算效率。
數(shù)據(jù)采集板的核心邏輯控制芯片采用ALTERA公司CycloneII系列的EP2C5,其內(nèi)部功能模塊設(shè)計(jì)主要包括時(shí)鐘控制模塊、串并轉(zhuǎn)換模塊、先入先出(First In,F(xiàn)irst Out,F(xiàn)IFO)模塊和DSP接口模塊,如圖3所示。串并轉(zhuǎn)換模塊也是FPGA與模數(shù)器件的接口模塊,與模數(shù)轉(zhuǎn)換器的采樣時(shí)鐘和FIFO的寫時(shí)鐘同步; DSP接口模塊則與FIFO的讀時(shí)鐘同步。所以,為了實(shí)現(xiàn)數(shù)據(jù)的緩存和傳輸,系統(tǒng)在兩者之間加入異步FIFO。
圖2 數(shù)字助聽器研發(fā)平臺(tái)組成框圖
圖3 FPGA功能模塊設(shè)計(jì)
1.2系統(tǒng)同步設(shè)計(jì)及抗干擾設(shè)計(jì)
在多通道數(shù)據(jù)采集處理系統(tǒng)中,信號(hào)的同步和抗干擾設(shè)計(jì)對(duì)于系統(tǒng)性能起到至關(guān)重要的作用。因此,本系統(tǒng)在硬件電路設(shè)計(jì)上采用以下措施來提高系統(tǒng)性能。(1)為了避免各個(gè)信號(hào)之間的串?dāng)_和保證信號(hào)的完整性,印制電路板設(shè)計(jì)采用4層板結(jié)構(gòu)。大面積的電源和地層使信號(hào)線與地平面或電源平面之間形成一個(gè)緊耦合層,從而減少了信號(hào)線之間的串?dāng)_。同時(shí),電路設(shè)計(jì)根據(jù)元器件位置將電源平面分割為獨(dú)立的模擬區(qū)和數(shù)字區(qū)。模擬和數(shù)字信號(hào)在各自的區(qū)域內(nèi)走線,互不交叉; (2)綜合使用濾波電容、濾波電感,減少電源擾動(dòng); (3)使用淚滴焊盤和圓弧拐角布線技術(shù)減少信號(hào)線的輻射和反射,降低串?dāng)_; (4)保持多路時(shí)鐘和觸發(fā)信號(hào)之間的延遲盡量一致; (5)系統(tǒng)的模擬部分和數(shù)字部分分別采用隔離獨(dú)立電源進(jìn)行供電,而且數(shù)字部分采用低壓差電源,模擬部分則采用低噪聲的線性穩(wěn)壓電源; (6)在去耦降噪設(shè)計(jì)上,每個(gè)芯片的電源引腳,用0.1 μF 和0.01 μF的貼片瓷片電容進(jìn)行去耦。在系統(tǒng)電源的輸入端,使用10 μF~100 μF的電解電容器對(duì)電源進(jìn)行濾波; (7)如圖4所示,采用鏡像法設(shè)計(jì)8通道語音處理電路,使每通道的元件相對(duì)位置與間距相同,從而保證信號(hào)在電氣連接上的同步性。
圖4 八通道語音信號(hào)采集板
2.1算法原理
傳統(tǒng)的維納濾波法需要估計(jì)出純凈語音信號(hào)的功率譜,一般用類似譜減法的方法得到,即用帶噪語音功率譜減去估計(jì)到的噪聲功率譜,這種方法會(huì)存在殘留噪聲大的問題。本文采用改進(jìn)的維納濾波器進(jìn)行子帶語音增強(qiáng),即基于先驗(yàn)信噪比的維納濾波器[8],且子帶噪聲譜的估計(jì)采用最小值統(tǒng)計(jì)方法,算法實(shí)現(xiàn)框圖如圖5所示。
圖5 維納濾波原理框圖
對(duì)于第m幀帶噪語音信號(hào):
式中,sm(n)是第m幀純凈語音信號(hào),nm(n)為第m幀噪聲信號(hào),維納濾波器就是在最小均方誤差準(zhǔn)則(MSE)下實(shí)現(xiàn)對(duì)語音信號(hào)sm(n)的估計(jì)。在sm(n)與nm(n)不相關(guān)且均為平穩(wěn)隨機(jī)過程條件下,對(duì)式(2)進(jìn)行離散傅里葉變換,得:
式中:ξ(m,k)(SNRpriori)為先驗(yàn)信噪比,m為幀號(hào),k為頻點(diǎn)。則第m幀增強(qiáng)語音可表示為:
采用直接判決(Decision-Directed)法來估計(jì)先驗(yàn)信噪比SNRpriori:
譜增益函數(shù)為
式中:SNRpost表示后驗(yàn)信噪比,^S2(m-1,k)表示估計(jì)的第m-1幀純語音功率譜,^N2(m,k)表示估計(jì)的第m幀噪聲功率譜,α一般取0.98。
采用基于先驗(yàn)信噪比的維納濾波算法的關(guān)鍵在于對(duì)噪聲功率譜進(jìn)行估計(jì)。傳統(tǒng)的噪聲譜的準(zhǔn)確估計(jì)。傳統(tǒng)方法是使用語音激活檢測(cè)技術(shù)(VAD)來判斷帶噪語音中的有聲段和無聲段,通過無聲段的功率譜來估計(jì)噪聲功率譜。但實(shí)際應(yīng)用中會(huì)經(jīng)常遇到背景噪聲是非平穩(wěn)的噪聲和低輸入信噪比的情況,此時(shí)的VAD的準(zhǔn)確率會(huì)較低,很難保證估計(jì)出來的噪聲的準(zhǔn)確性。為此,本文采用一種快速的噪聲譜估計(jì)方法[9],該方法基于Doblinger的最小值統(tǒng)計(jì)方法,引入了語音出現(xiàn)的概率,根據(jù)語音出現(xiàn)概率來更新噪聲譜。
2.2實(shí)驗(yàn)與仿真
利用MATLAB對(duì)基于先驗(yàn)信噪比的維納濾波算法進(jìn)行測(cè)試,并與傳統(tǒng)維納濾波法進(jìn)行對(duì)比。實(shí)驗(yàn)語音為錄制的一段語音,噪聲選自NOISEX-92噪聲庫中的White、Speech babble和Destroyer engine噪聲,輸入信噪比分別為0 dB、5 dB、10 dB。實(shí)驗(yàn)中語音信號(hào)的采樣率為8 kHz,幀長(zhǎng)為256點(diǎn),幀移50%。增強(qiáng)后的語音從輸出信噪比和MOS得分兩個(gè)方面來評(píng)價(jià)增強(qiáng)效果(MOS得分在0~5之間,得分越高表示語音質(zhì)量越好)。測(cè)試結(jié)果見表1。
表1 傳統(tǒng)維納濾波法與本文方法的測(cè)試結(jié)果對(duì)比表
受限于助聽器硬件和算法實(shí)用性的特殊性,本文設(shè)計(jì)了一種基于嵌入式系統(tǒng)的語音算法處理平臺(tái)。該硬件平臺(tái)基于多路麥克風(fēng)設(shè)計(jì),并采用高性能的Cortex-A8微處理器實(shí)現(xiàn)語音處理算法。在硬件實(shí)現(xiàn)上,算法綜合考率了硬件的可靠性,并采用FPGA對(duì)硬件性能進(jìn)行了優(yōu)化。最后,基于該平臺(tái),本文實(shí)現(xiàn)了基于先驗(yàn)維納濾波的語音增強(qiáng)算法,并進(jìn)行了主客觀測(cè)試。實(shí)驗(yàn)結(jié)果顯示,同傳統(tǒng)的維納濾波算法相比,該算法的實(shí)際性能更好。
參考文獻(xiàn):
[1]Ruiyu Liang J X,Jian Zhou,Cairong Zou,et al.An Improved Method to Enhance High-Frequency Speech Intelligibility in Noise [J].Applied Acoustics,2013,74(1):71-78.
[2]戴紅霞,王劍,趙力.麥克風(fēng)陣數(shù)字助聽器實(shí)驗(yàn)平臺(tái)研究與設(shè)計(jì)[J].電子器件,2012,34(6):723-726.
[3]Ghamry N.An FPGA Implementation of Hearing Aids based on Wavelet-Packets[J].Journal of Computers,2012,7(3):680-684.
[4]Ma N,Bouchard M,Goubran R A.Speech Enhancement Using a Masking Threshold Constrained Kalman Filter and Its Heuristic Implementations[J].Audio,Speech,and Language Processing,IEEE Transactions on,2006,14(1):19-32.
[5]Spriet A,Moonen M,Wouters J.Robustness Analysis of Multichannel Wiener Filtering and Generalized Sidelobe Cancellation for Multimicrophone Noise Reduction in Hearing Aid Applications[J].Speech and Audio Processing,IEEE Transactions on,2005,13(4):487-503.
[6]Virag N.Single Channel Speech Enhancement Based on Masking Properties of the Human Auditory System[J].Speech and AudioProcessing,IEEE Transactions on,1999,7(2):126-137.
[7]Hasan M K,Salahuddin S,Khan M R.A Modified a Priori SNR for Speech Enhancement Using Spectral Subtraction Rules[J].Signal Processing Letters,IEEE,2004,11(4):450-453.
[8]張亮,龔衛(wèi)國(guó).一種改進(jìn)的維納濾波語音增強(qiáng)算法[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(26):126-131.
[9]焦人杰,侯麗敏.一種快速自適應(yīng)噪聲譜估計(jì)方法[J].聲學(xué)技術(shù),2007,26(4):735-740.
梁瑞宇(1978-),男,南京工程學(xué)院,副教授,研究方向?yàn)檎Z音信號(hào)處理,助聽器信號(hào)處理;
王國(guó)偉(1992-),男,南京工程學(xué)院,本科,研究方向?yàn)檎Z音信號(hào)處理。
Design of Hardware and Software of FXS Voice Gateway Based on CM5000*
HUANG Xueda*,LIN Feng
(Chongqing University of Posts and Telecomminications,Chongqing CYIT Communication Technologies Co.,Ltd.,Chongqing 400065,China)
Abstract:We developed IP telephone voice gateway devices on H.323 protocol and MGCP Protocol,then there are very complicated to do for us,which resulted in a lot of problem.In order to improve design of IP telephone,a portable design of FXS terminal devices is put forward on CM5000,which may be implemented by using simple SIP protocols,not only ensure QoS of telephone operation,but also MOS value of 4.5,so telephone operation interface accorded with correlative criterion; How to design and implement the hardware and software of FXS terminal device on CM5000 was described; Performance testing result of telephone interface indicated the design doing all right on Internet.
Key words:IP Telephone; voice gateway; Session Initiation Protocol; Foreign Exchange Station; Foreign Exchange Office
doi:EEACC:645010.3969/j.issn.1005-9490.2015.04.037
收稿日期:2014-03-24修改日期:2014-04-15
中圖分類號(hào):TN912.34
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1005-9490(2015)04-0898-05
項(xiàng)目來源:國(guó)家自然科學(xué)基金項(xiàng)目(61301219,61375028,61301295);江蘇省自然科學(xué)基金項(xiàng)目(BK20130241);江蘇省大學(xué)生實(shí)踐創(chuàng)新訓(xùn)練計(jì)劃項(xiàng)目(201411276019Z)