曾 光,薛豪杰,毛英磊,毛凱赟
(上海船舶設(shè)備研究所,上海 201108)
VOX(Voice-Operated Transmit)也叫VAS(Voice-Activated Switch)或 VOS(Voice-Operated Switch),廣泛運(yùn)用于對(duì)講機(jī)、潛水系統(tǒng)、戰(zhàn)斗機(jī)飛行員通信、坦克指揮通信等方面,以方便那些需要雙手完成任務(wù)的情況。傳統(tǒng)的對(duì)講機(jī)通信方式是PTT(Push to Talk),每次通信時(shí)都要進(jìn)行手動(dòng)按鍵。這樣通信時(shí)勢(shì)必影響雙手的工作。而應(yīng)用VOX技術(shù)就可無(wú)需手動(dòng)按鍵,釋放雙手進(jìn)行工作,帶來(lái)諸多方便。例如,潛水員水下作業(yè)時(shí),就不太方便在工作的同時(shí)操作PTT開(kāi)關(guān)。在很多情況下他們的雙手已經(jīng)被其他任務(wù)占用。因此,發(fā)展性能可靠的“Hand-free”通信系統(tǒng)在很多情況下是極其需要的[1]。
在移動(dòng)通信中,VOX和噪聲消除技術(shù)的組合能大大延長(zhǎng)電池壽命,這提供了低功耗設(shè)計(jì)的一種可能途徑。
VOX的關(guān)鍵技術(shù)即為如何在包含噪聲的信號(hào)中對(duì)有聲/無(wú)聲(語(yǔ)音/噪聲)進(jìn)行判別。本文應(yīng)用語(yǔ)音信號(hào)數(shù)字處理技術(shù)上的語(yǔ)音信號(hào)端點(diǎn)識(shí)別技術(shù),提出一種穩(wěn)定簡(jiǎn)單的方法實(shí)現(xiàn)VOX功能,并將其應(yīng)用于研發(fā)的水下通信系統(tǒng)中。
語(yǔ)音和噪聲的主要區(qū)別在它們的能量上。如果把一段語(yǔ)音通信過(guò)程,分為無(wú)話(huà)音的噪聲段和包含話(huà)音的語(yǔ)音段,則語(yǔ)音段的能量比噪聲段的大。語(yǔ)音段的能量是噪聲段能量疊加語(yǔ)音聲波能量的和。如果環(huán)境噪聲和系統(tǒng)輸入噪聲比較小,那么只要計(jì)算輸入信號(hào)的短時(shí)能量或短時(shí)平均幅度就能把語(yǔ)音段和噪聲背景區(qū)分開(kāi)。而當(dāng)環(huán)境噪聲和系統(tǒng)輸入噪聲較大時(shí),則需對(duì)信號(hào)過(guò)零率進(jìn)行判斷處理。應(yīng)用語(yǔ)音信號(hào)的短時(shí)能量和短時(shí)過(guò)零率相結(jié)合的方法,使系統(tǒng)簡(jiǎn)單、易于實(shí)現(xiàn)并保證有較高的精確度,穩(wěn)定性。
應(yīng)用短時(shí)分析技術(shù),將語(yǔ)音流分段進(jìn)行處理。每一段稱(chēng)為1幀,其中幀長(zhǎng)為10~30 ms,常見(jiàn)20 ms。幀移為0~1/2幀,幀與幀之間平滑過(guò)渡。如圖1所示。設(shè)定語(yǔ)音波形的時(shí)域信號(hào)為S(n),為了減小語(yǔ)音幀的截?cái)嘈?yīng),通常需加窗處理。經(jīng)過(guò)加窗分幀處理后得到第n幀語(yǔ)音信號(hào)如式(1)所示,其中N為1幀幀長(zhǎng),M為幀間重疊長(zhǎng)度,即幀移。
圖1 語(yǔ)音流的幀圖形Fig.1 The frame map of voice stream
式中:n=0,T,2T…;N為幀長(zhǎng);T為幀移長(zhǎng)度;W(n)為漢明窗表達(dá)式,即
因?yàn)闈h明窗的主瓣最寬,旁瓣高度最低,可以有效克服泄露現(xiàn)象,具有更平滑的低通特性。第n幀語(yǔ)音信號(hào)Sn(m)的短時(shí)能量用En表示,由下式計(jì)算:
En是1個(gè)度量語(yǔ)音信號(hào)幅度值變化的函數(shù),但有個(gè)缺陷,因其在計(jì)算時(shí)用的是信號(hào)的平方,所以對(duì)高電平非常敏感。因此本設(shè)計(jì)采用1個(gè)度量語(yǔ)音信號(hào)幅度值變化的函數(shù),即短時(shí)平均幅度Mn來(lái)代替。它與短時(shí)能量的區(qū)別在于信號(hào)的小取樣值和大取樣值不會(huì)因取平方而造成較大差異[4]。第n幀的語(yǔ)音信號(hào)的短時(shí)平均幅度為:
短時(shí)過(guò)零率表示1幀語(yǔ)音信號(hào)波形穿過(guò)橫軸(零電平)的次數(shù)。過(guò)零分析是語(yǔ)音時(shí)域分析中最常用的一種。對(duì)于連續(xù)語(yǔ)音信號(hào),過(guò)零意味著時(shí)域波形通過(guò)時(shí)間軸;而對(duì)于離散信號(hào),如果相鄰的取樣值的符號(hào)改變稱(chēng)為過(guò)零。過(guò)零率就是樣本改變符號(hào)次數(shù)。
語(yǔ)音信號(hào)Sn(m)的短時(shí)過(guò)零率
一般情況下,采集語(yǔ)音信號(hào)的最初短時(shí)段為無(wú)語(yǔ)音段,僅有均勻分布的噪聲信號(hào)。因此可以用最初的幾幀信號(hào)(一般為10~20幀)來(lái)計(jì)算過(guò)零率閾值ZT及能量閾值ET。并以此為基礎(chǔ)判斷信號(hào)是否為有聲/無(wú)聲。本次設(shè)計(jì)使用最初10幀樣值計(jì)算短時(shí)幅度平均值作為閾值[2]。
因?yàn)檎Z(yǔ)音信號(hào)中的濁音短時(shí)平均能量的值要比清音短時(shí)平均能量值大很多,且能量集中于低頻段內(nèi)且過(guò)零率較低。而清音信號(hào)的頻段較高,能量較低類(lèi)似于噪聲。若采集信號(hào)的計(jì)算值相比于初始噪聲采樣計(jì)算的閾值較大且過(guò)零率比閾值的低[5],可認(rèn)為該信號(hào)含有濁音,判斷其為語(yǔ)音信號(hào)。
圖2 系統(tǒng)原理圖Fig.2 System principle map
根據(jù)上述原理,錄取一段語(yǔ)音信號(hào)進(jìn)行仿真。語(yǔ)音信號(hào)為“船舶研究所”,采樣頻率為Fs=8 000 Hz。如圖3~圖5所示,對(duì)語(yǔ)音信號(hào)加入高斯白噪聲。在不同信噪仿真下,以20 ms為1幀數(shù)據(jù),1/2幀進(jìn)行平滑過(guò)渡處理[6]。
從圖3到圖5的仿真結(jié)果可以看出,在信噪比較大的情況(20 dB)下,短時(shí)過(guò)門(mén)限率和平均幅度能明顯檢測(cè)出語(yǔ)音信號(hào)的起始點(diǎn)。但隨著環(huán)境噪聲增大,傳輸距離加長(zhǎng),信噪比降低。短時(shí)平均幅度的檢測(cè)性能不如短時(shí)過(guò)門(mén)限率有效。仿真測(cè)試中的漏判概率和信噪比如圖6所示。在實(shí)際應(yīng)用中,結(jié)合不同的過(guò)門(mén)限系數(shù),使用短時(shí)過(guò)門(mén)限率結(jié)合短時(shí)平均幅度進(jìn)行語(yǔ)音識(shí)別檢測(cè)。
圖6 信噪比與漏判概率關(guān)系Fig.6 The relation between SNR and misdetection rate
本文介紹了傳統(tǒng)的語(yǔ)音信號(hào)檢測(cè)方法。結(jié)合實(shí)際應(yīng)用,提出一種檢測(cè)方法。在不同噪聲的情況下對(duì)檢測(cè)效果進(jìn)行分析比較。仿真表明短時(shí)過(guò)門(mén)限率有很好的語(yǔ)音識(shí)別效果。以此為基礎(chǔ),應(yīng)用短時(shí)過(guò)門(mén)限率配合短時(shí)平均幅度改進(jìn)語(yǔ)音檢測(cè)方法。
[1]張?zhí)扃鳎顐ィ中⒖?,劉?基于數(shù)字信號(hào)處理的嗓音控制開(kāi)關(guān)(VOX)算法研究[J].應(yīng)用聲學(xué),2005,24(3):157-163.ZHANG Tian-qi,LI Wei,LIN Xiao-kang,LIU Lin.Study on a voice-operated transmit(VOX)algorithm based on digital signal processing[J].Applied Acoustics,2005,24(3):157-163.
[2]張志霞,韓慧蓮,薛宏偉.語(yǔ)音信號(hào)端點(diǎn)檢測(cè)方法研究[J].太原科技,2008,(10):58-59.ZHANG Zhi-xia,HAN Hui-lian,XUE Hong-wei.Research on the endpoint detection methods of speech signals[J].TAIYUAN SCI-TECH,2008,(10):58-59.
[3]沈宏余,李英.語(yǔ)音端點(diǎn)檢測(cè)方法的研究[J].科學(xué)技術(shù)與工程,2008,8(15):4396-4397.SHEN Hong-yu,LIYing.Studyon speech endpoint detection method[J].Science Technology and Engineering,2008,8(15):4396-4397.
[4]王炳錫,屈丹.實(shí)用語(yǔ)音識(shí)別[M].北京:國(guó)防工業(yè)出版社,2005.
[5]劉慶升,徐宵鵬,黃文浩.一種語(yǔ)音端點(diǎn)檢測(cè)的研究[J].計(jì)算機(jī)工程,2003,29(3):120-121.LIU Qing-sheng,XU Xiao-peng,HUANG Wen-hao.Research on a speech endpoint detection method[J].Computer Engineering,2003,29(3):120-121.
[6]趙紅怡,張常年.數(shù)字信號(hào)處理及其 MATLAB實(shí)現(xiàn)[M].北京:化學(xué)工業(yè)出版社,2002.