屈宏峰,于津,羅一平
(同方電子科技有限公司,江西 九江 332000)
在數(shù)字化靜噪控制應(yīng)用領(lǐng)域,由于數(shù)字化增益控制影響下,在有用信號(hào)消失后,噪聲信號(hào)被放大,從而極大地影響收聽者的聽感。所以目前的接收機(jī)電臺(tái)多采用電平靜噪的方式來清除噪聲對(duì)聽感的影響[1-2]。在電平靜噪系統(tǒng)的控制下,可由操作者主動(dòng)下發(fā)靜噪?yún)?shù),并根據(jù)靜噪?yún)?shù)計(jì)算出一定的識(shí)別門限,來區(qū)分有用信號(hào)和無用的噪聲信號(hào),從而將噪聲信號(hào)剔除,只對(duì)外播放有用信號(hào),達(dá)到過濾噪聲的效果[3]。本文針對(duì)數(shù)字化電臺(tái)接收機(jī)中的人聲語音信號(hào),給出一種無需操作員設(shè)置參數(shù)即可達(dá)到自動(dòng)濾除噪聲信號(hào)的自動(dòng)靜噪算法。有計(jì)算量小,無需額外的硬件支持,較好的環(huán)境適應(yīng)度,無人員技術(shù)要求,操作簡(jiǎn)單等優(yōu)點(diǎn)。
人聲語音:人聲語音是指由人通過口腔聲帶震動(dòng)所發(fā)出的聲音,本質(zhì)上是一種機(jī)械波。在一定的期間內(nèi),波長(zhǎng)短則音調(diào)高,反之波長(zhǎng)長(zhǎng)則音調(diào)低。一般男性聲音低,波長(zhǎng)長(zhǎng),女性聲音高,波長(zhǎng)短。被稱為語音音頻,其體現(xiàn)在頻率體系上有其獨(dú)特的音頻特征,和固定的頻率范圍。人聲語音中話音中的大部分能量集在固定的音頻區(qū)間,這和普通的噪聲以及其他物理聲音有明顯的區(qū)別。
如圖1所示:橫坐標(biāo)為時(shí)間軸,縱坐標(biāo)為頻率軸。仔細(xì)觀察該頻譜瀑布圖可以看到在沒有人聲說話的時(shí)間段內(nèi)。0-8K的頻率范圍內(nèi)噪聲的能量分布是基本平滑的,基本是從低頻段向高頻段緩慢下滑的過程,而有人聲語音的時(shí)間段內(nèi),我們可以看到在2000Hz以內(nèi)有大量的突出的黃色色塊,這表示較高的能量凸起,表示在這個(gè)頻段內(nèi)有能量較高的機(jī)械波出現(xiàn),也就是有人聲話音的出現(xiàn)。
圖1 一段人聲的頻譜瀑布能量顯示圖
從這個(gè)瀑布圖中我們可以發(fā)現(xiàn),人聲語音在頻譜的分布上絕大部分能量集中在300Hz~2000Hz的頻譜范圍內(nèi)。這是一個(gè)非常明顯的數(shù)據(jù)特征,在經(jīng)過大量數(shù)據(jù)的對(duì)比之后我們確定。此數(shù)據(jù)圖特征并非為孤例數(shù)據(jù),而是真實(shí)反映出人聲語音特點(diǎn)的統(tǒng)計(jì)結(jié)論。
具有其獨(dú)特的音頻特征,其話音中的大部分能量集在固定的音頻區(qū)間,這和普通的噪聲有明顯的區(qū)別,有這個(gè)特性,我們?cè)趨^(qū)分噪聲和人聲語音的時(shí)候可以不采用復(fù)雜的識(shí)別算法,轉(zhuǎn)而采用簡(jiǎn)單的特征識(shí)別方法,對(duì)輸入的聲音文件進(jìn)行實(shí)時(shí)快速傅里葉變化,根據(jù)在固定區(qū)域內(nèi)聲音能量的占比,通過多次判定,就可以快速的得出信號(hào)是否為語音信號(hào)的判斷[4-5]。
因此我們可以設(shè)計(jì)一個(gè)算法,通過對(duì)聲音信號(hào)的數(shù)字化頻譜的能量分布統(tǒng)計(jì),來識(shí)別人聲語音信號(hào)和其他噪聲。具體的算法流程如圖2所示。
如圖2流程圖所示:算法的起始為數(shù)字化的音頻信號(hào)的輸入,在實(shí)際程序中采用的輸入音頻的頻率為16KHz。在獲得了數(shù)字化的音頻信號(hào)后,我們需要對(duì)輸入的音頻信號(hào)進(jìn)行實(shí)時(shí)的快速傅里葉變化,這就用上了快速傅里葉變化函數(shù)。實(shí)際程序中采用64點(diǎn)的一幀的快速傅里葉變化,針對(duì)16KHz的音頻進(jìn)行頻譜分析,即每次快速傅里葉變化的時(shí)間為:64/1600=4ms。整個(gè)識(shí)別程序建立在每4ms一次的傅里葉變化的頻譜數(shù)據(jù)上。
圖2 算法流程圖
在獲得了傅里葉變化的頻譜數(shù)據(jù)后,就需要用上分布能量統(tǒng)計(jì)函數(shù)對(duì)傅里葉變化后的頻譜數(shù)據(jù)進(jìn)行分布能量統(tǒng)計(jì)計(jì)算,將其結(jié)果送入信號(hào)判定函數(shù)進(jìn)行判定和分辨。由于每幀傅里葉變化的頻譜數(shù)據(jù)占時(shí)較短,誤判的可能性較高,所以在這個(gè)函數(shù)中計(jì)算完成譜數(shù)據(jù)能量統(tǒng)計(jì)后,需要進(jìn)行多次結(jié)果的緩沖平滑工作,用以減少誤判,增加成功率[6]。
判定的結(jié)果送入輸出控制函數(shù),輸出控制函數(shù)需要持續(xù)從信號(hào)判定函數(shù)獲取判定數(shù)值,當(dāng)持續(xù)一段時(shí)間判定值均為某個(gè)信號(hào)時(shí),輸出控制函數(shù)將通過最終判定函數(shù)控制語音信號(hào)的輸出和關(guān)斷。
由于判定結(jié)果需要多次判定才能最終得出結(jié)果,所以輸入的人聲語音持續(xù)的時(shí)間有一定的要求,不能低于200ms,即0.2秒時(shí)長(zhǎng)。時(shí)間過短會(huì)被程序認(rèn)定為突發(fā)噪聲而略過。
此方式的算法可以兼顧識(shí)別的效率和速度,在快速傅里葉變化和緩沖平滑判斷等算法都有成熟的計(jì)算庫的情況下,編程極為簡(jiǎn)單,實(shí)際的調(diào)試的過程需要花費(fèi)一定的時(shí)間,在針對(duì)地設(shè)置好各項(xiàng)參數(shù)后,通過輸出控制函數(shù)的累積判定方式也可以最大限度地降低誤判。
實(shí)際軟件完成后,設(shè)置了各種長(zhǎng)度的人聲語音各100段的數(shù)據(jù)下進(jìn)行測(cè)試,測(cè)試的數(shù)據(jù)包括在各種長(zhǎng)度的人聲語音情況下的提取成功率,以及提取的語音數(shù)據(jù)前后是否完整,提取的語音數(shù)據(jù)前后預(yù)留的緩沖噪聲的時(shí)長(zhǎng)是否穩(wěn)定等等,測(cè)試結(jié)果的簡(jiǎn)表見表1所示。
表1 語音識(shí)別效果表
此算法由于采用的是能量占比的特征識(shí)別,其并不需要人聲語音信號(hào)有太高的信噪比,也不需要較高人聲信號(hào)的清晰度,實(shí)際實(shí)驗(yàn)證明,在較低的信噪比和語音清晰度下,此算法仍然能準(zhǔn)確地提取出語音部分的數(shù)據(jù)。圖3上方為得低信噪比和低語音清晰度的語音在噪聲環(huán)境的頻譜瀑布圖,圖3下方為經(jīng)過算法后中被提取出來的頻譜瀑布圖:
圖3 低信噪比和低清晰度下的人聲語音提取效果
通過各種長(zhǎng)度的人聲語音各100段的識(shí)別效果,和低信噪比和低語音清晰度情況下的識(shí)別效果,可以看出是此算法對(duì)人聲語音的識(shí)別成功率極高,識(shí)別出的人聲語音的前置緩沖保持時(shí)間和后置緩沖保持時(shí)間比較穩(wěn)定,適合作為提取音頻素材。
本文通過對(duì)人聲語音信號(hào)的識(shí)別實(shí)現(xiàn)了數(shù)字化人聲語音的提取算法,能有效的提高監(jiān)聽人員的聽感,降低長(zhǎng)時(shí)間噪聲對(duì)監(jiān)聽人員的聽力損壞,能有效的提高監(jiān)聽的語音識(shí)別度,對(duì)于各種需要在長(zhǎng)時(shí)間的監(jiān)控?cái)?shù)據(jù)中提取人聲語音的場(chǎng)合來說具有相當(dāng)?shù)谋憬?,從?shí)驗(yàn)測(cè)試結(jié)果來看,所設(shè)計(jì)的提取算法,靈敏度高,成功率高,表明用該方法提取數(shù)字人聲語音是可行的。算法具有簡(jiǎn)單、計(jì)算量小的優(yōu)點(diǎn) ,便于程序的實(shí)現(xiàn) 。所使用的算法不需要額外的特征庫和支持庫,可以簡(jiǎn)單便捷地嵌入到各種應(yīng)用程序中。