張戌寶
助聽器技術(shù)面臨的最大挑戰(zhàn)之一是解決輸出噪聲問題。大多數(shù)聽力受損者患有感音神經(jīng)性聽力損失,系外毛細(xì)胞功能受損所致[1],當(dāng)聽音環(huán)境存在噪聲時,他們比聽力正常者更加感到語音模糊,嚴(yán)重影響其對語意的理解。長期以來,助聽器的這一噪聲問題受到聽力康復(fù)工作者的高度關(guān)注。助聽器的降噪技術(shù)分兩大類:單麥克風(fēng)的頻域處理和多麥克風(fēng)的波束形成。在多數(shù)聽音環(huán)境中,后者的降噪效果優(yōu)于前者,但并不能代替前者,因此,主流助聽器廠家一直在對助聽器單麥克風(fēng)降噪技術(shù)進(jìn)行研究并付諸應(yīng)用。Hamacher等[2]較早而又全面地提出了高檔助聽器中的多種降噪技術(shù)。Josef等[3]將瞬態(tài)降噪器、維納(Wiener)濾波器和基于調(diào)制檢測的平穩(wěn)降噪器組合于一體,互補地降低多種不同環(huán)境的噪聲。Francis等[4]提出了語音增強(speech enhancement,SE)技術(shù),將噪聲掩蔽和患者聽力損失同時考慮以使語音的可聽譜域最大化。Mark[5]提出了助聽器聽音環(huán)境中語音優(yōu)先處理(voice-priority processing,VPP)的哲理:語音存在時,增加理解度,語音不存在時,確保聽音舒適,其中的三態(tài)噪聲管理使降噪技術(shù)上了一個臺階。Phonak[6]介紹了助聽器雙側(cè)無線連通(binaural wireless link)技術(shù)及其在非對稱噪聲環(huán)境中的性能改善。Ricketts等[7]對組合的數(shù)字降噪在助聽器中的性能進(jìn)行了評估,表明該DNR對語音識別沒有明顯改善,但可改進(jìn)聲音的舒適度。Elberling[8]較詳細(xì)地介紹了在三態(tài)噪聲管理系統(tǒng)中使用的語音尋找器(voice finder)的語音檢測原理和效果。Ruth等[9]較全面地總結(jié)了當(dāng)前各種降噪算法的理念并對比它們在實際環(huán)境中的性能。Nicole等[10]評估了眾多試聽者使用的助聽器在聚會噪聲中的降噪性能,涉及多種因數(shù)的相互作用,如聽力損失、助聽器類型、混響特性和選擇的聽音目標(biāo)。Anastasios等[11]提出了一種評估助聽器降噪性能的新方法,對語音的復(fù)述響應(yīng)作記錄和對完成指定的視頻操作計時,根據(jù)這兩組數(shù)據(jù)進(jìn)行客觀評估?;诋?dāng)代助聽器領(lǐng)域出現(xiàn)的這些頂尖成就,本文將有關(guān)降噪的單麥克風(fēng)類的最先進(jìn)技術(shù)進(jìn)行分類綜述和性能評估。
已有的多種數(shù)字降噪(digital noise reduction,DNR)技術(shù)各有長處和短處,瞬態(tài)降噪器對付極窄的非平穩(wěn)強噪聲(或加語音)極為有效,基于調(diào)制檢測的多頻道DNR對于平穩(wěn)噪聲最為有效,而維納濾波可與混疊的語音譜加噪聲譜匹配,它們是一些特性大為不同的DNR,如果將他們結(jié)合起來并行處理,則可在多種較為復(fù)雜的噪聲環(huán)境中互補,實現(xiàn)整體最佳聽音的目標(biāo)。
1.1瞬態(tài)降噪器 多數(shù)DNR常常采用慢響應(yīng)的增益下降,對瞬態(tài)噪聲是無效的。瞬態(tài)噪聲的時間區(qū)間小于數(shù)十毫秒,對處理的時間分辨率要求極高,小于1 ms,足以對瞬態(tài)噪聲有可靠的反應(yīng)。計算輸入信號的包絡(luò)峰值和長期均方根值,若它們的比值(稱作斜率)大于語音包絡(luò)的斜率(作為檢測門限),就判定該輸入信號為瞬態(tài)噪聲。根據(jù)瞬態(tài)噪聲包絡(luò)斜率的大小決定放大器的增益下降量;瞬態(tài)噪聲的包絡(luò)斜率可分為三個等級,相應(yīng)的增益下降量也有三個等級,在20~40 dB之間,斜率越大,下降量越大;不同頻道的增益下降量可能不一樣。當(dāng)輸入信號包絡(luò)的斜率低于檢測門限時,就判定輸入信號為非瞬態(tài)噪聲或瞬態(tài)噪聲不存在,增益下降量為零。這種信號可能含有很輕的瞬態(tài)噪聲,仍然可聽見但不是煩人的。瞬態(tài)降噪器僅僅降低含有瞬態(tài)噪聲的那些頻道的增益,這樣處理能保留更多的語音提示信息。在最后的處理級,各頻道的輸出信號被重新合成,如語音存在則使輸出的語音失真降至最低,Josef稱這樣的技術(shù)為聲音平滑處理(sound smoothing)[3]。
圖1 聲音平滑器對碟子聲信號處理前后的波形
圖1上圖顯示碟子發(fā)出的咯咯聲波形,它記錄了許多瞬態(tài)噪聲,被試聽者稱為最煩人的噪聲;圖1下圖顯示該碟子聲經(jīng)聲音平滑器處理后的輸出波形,這些輸出峰值下降達(dá)40 dB,得到的聲音煩人感很弱。這種聲音平滑技術(shù)在現(xiàn)代助聽器中是一種響應(yīng)最快的、應(yīng)對瞬態(tài)噪聲十分有效的降噪技術(shù)。
1.2維納濾波器 助聽器的環(huán)境噪聲和語音在譜域上往往是混疊的,時域上往往是不平穩(wěn)的。維納濾波是自適應(yīng)信號處理中常見的最佳濾波,它要求譜平穩(wěn)的噪聲和語音,但與兩者是否混疊無關(guān)。為了應(yīng)用于助聽器中,應(yīng)要求噪聲和語音具有短期平穩(wěn)的統(tǒng)計特性并且以噪聲的最小均方誤差為準(zhǔn)則[9]。維納濾波處理需借助調(diào)制檢測器來確定噪聲的存在性,在說話暫停時或語句的間隙估計噪聲,在語音加噪聲時減去這一估計噪聲而保留原語音信號。顯然,估計噪聲的誤差就是輸出語音信號的誤差。當(dāng)信噪比(SNR)大于0 dB時,該算法較為穩(wěn)健,復(fù)雜的實際環(huán)境中,準(zhǔn)確估計噪聲的平穩(wěn)條件很難滿足,維納濾波的降噪性能往往不是最佳的。傳統(tǒng)的譜相減法是用噪聲譜的逆濾波器去過濾語音加噪聲的信號,這是維納濾波的特例,僅與噪聲譜匹配。該法對語音的影響取決于噪聲的譜寬,噪聲譜越窄,對語音的影響越小,例如,蒸汽牛奶機的咝咝噪聲中心頻率約3.2 kHz,為窄帶,如果所在頻道的增益下降30 dB,則可以除掉該牛奶機噪聲。這樣的增益下降對整體語音信息損失很少,但若是寬帶噪聲則會降低語音可懂度。
1.3數(shù)字的平穩(wěn)降噪器 語音信號和平穩(wěn)噪聲信號的調(diào)制包絡(luò)特性不相同,即它們的調(diào)制指數(shù)和調(diào)制包絡(luò)頻率都相差較遠(yuǎn)。Ruth表明[9],語音的調(diào)制包絡(luò)頻率范圍從0.1到40 Hz,大多數(shù)情況下約為數(shù)Hz,調(diào)制指數(shù)大于0.9,峰-峰值聲壓級大于30 dB。平穩(wěn)噪聲的調(diào)制包絡(luò)頻率范圍較寬,但多數(shù)情況下接近0,少數(shù)大于數(shù)十Hz;噪聲的峰-峰值聲壓級范圍寬,從數(shù)dB到數(shù)十dB;語音加噪聲的信號的調(diào)制指數(shù)、調(diào)制包絡(luò)頻率分別在語音和噪聲的調(diào)制指數(shù)和調(diào)制包絡(luò)頻率之間。根據(jù)這些知識,分類信號的調(diào)制檢測器的設(shè)計和判定規(guī)則應(yīng)是:①設(shè)置一個調(diào)制包絡(luò)頻率門限,如1到10 Hz,此范圍之外判定輸入為噪聲,反之亦反;②設(shè)置一個調(diào)制指數(shù)門限,如0.9,大于此值判定輸入為語音,反之亦反。若此兩個判定不一致,則要根據(jù)更多的記錄或雙側(cè)助聽器對側(cè)的判定作進(jìn)一步判定[2],也可判定為語音加噪聲。噪聲門限設(shè)置是一個棘手的問題,如果門限設(shè)置不當(dāng),則限制了可聽度或者允許較多的噪聲輸出,還要指出的是,該判定需要在各頻道上進(jìn)行,且各頻道的判定門限不盡相同。該調(diào)制檢測器對平穩(wěn)噪聲的檢測較為敏感而且準(zhǔn)確,根據(jù)估計的噪聲聲級,分檔降低所在頻道的增益,如,6、12或18 dB。在實際中,它們還需要調(diào)整以滿足用戶的最佳舒適感。
調(diào)制檢測器對語音加噪聲的分類與信噪比(SNR)相關(guān)聯(lián),當(dāng)語音低于噪聲5~10 dB時,就判定該信號為噪聲。語音在高頻道的調(diào)制比低頻道的弱,也有可能判定高頻道的語音為噪聲,而造成語音高頻成分的損失。此外,降低增益要有足夠長的時間特性,以確保語音的時域特性不失真。 該技術(shù)的啟動時間約2.5秒,釋放時間小于0.5秒。
傳統(tǒng)的降噪處理以噪聲環(huán)境中語音的可聽度和聽音舒適作為目標(biāo)。SE技術(shù)把寬帶噪聲中用戶個人的語音理解度指數(shù)(speech intelligibility index,SII)最大化作為設(shè)計目標(biāo)。Francis等[4]在助聽器的頻率聲壓曲線圖中,加上患者的聽力閾值曲線和噪聲掩蔽曲線而得到可聽語音的頻譜區(qū)域,作為估計SII的基礎(chǔ)。先假設(shè)助聽器工作符合線性運算,且已知語音譜和噪聲譜的聲壓曲線,則SII可通過下列代數(shù)求和式計算:
i=1, 2, …, N(N頻道數(shù))
Wi為頻道i中的語音提示權(quán)重, Ai為頻道i中的可聽度。圖2顯示了一助聽器的頻率聲壓圖,頻道的劃分未在圖中顯示,該助聽器未使用SE技術(shù),而用了均勻12 dB增益下降的多頻道。實線代表個人的聽力閾值,長虛線代表掩蔽噪聲的聲壓,雙點劃線代表放大后的最低語音譜,即恰能聽見的語音譜;短虛線代表放大后的最高語音譜,超過最低語音譜+30 dB的譜對語音理解沒有更多的提示。在掩蔽噪聲線和聽力閾值線(更高的那段線)之上且在最高語音譜之下的譜域是可聽語音譜域,用散點區(qū)域表示。在該區(qū)域,頻道i中的語音聲壓差值為Ai。單純根據(jù)輸入噪聲的聲級來均勻地下降增益會造成患者的可聽譜域減少,而導(dǎo)致SII降低;各頻道不同的增益設(shè)置將形成不同的SII值。本處理策略不需對SII做歸一化處理,SII越大,越多的語音成分可被試聽者利用。最高SII對應(yīng)的各頻道增益是SE的最佳解值。該N維方程的最佳求解在運算中工作量極大,幾乎不可能實時進(jìn)行;為此,F(xiàn)rancis還介紹了一種實時而可靠的SII比較算法,以使計算量降至最小。實際中,平均語音頻譜隨當(dāng)前環(huán)境的語音譜而變化,與個人的語音音調(diào)和語聲努力(vocal effort,言語者控制的聲量)有關(guān);因此,采集合格的、不斷更新的語音樣本和噪聲樣本要求非常高速的芯片處理器和精細(xì)的人工智能算法。SE利用語音噪聲跟蹤器(speech and noise tracer)來完成語音譜和噪聲譜的估計,噪聲譜用輸入的信號來估計,語音譜則是在當(dāng)前語音的平均聲壓譜上外推。該法對已知背景噪聲的情況是適合的,逼近當(dāng)前的噪聲譜和語音譜,這樣,SII優(yōu)化的效果不可避免地要依賴聽音環(huán)境的特性。
圖2 采用均勻12 dB增益下降后的頻率聲壓圖
圖3顯示了與圖2相同的條件下使用了SE后的頻率聲壓曲線圖,各條曲線的含義與圖2中的相同,可以看出,在較高頻率端(>2 kHz)的可聽語音譜域甚大于圖2均勻增益下降得到的。在噪聲譜和助聽器的初始(默認(rèn))增益的基礎(chǔ)上,SE的增益控制取決于用戶的聽力閾值。初始增益是對多數(shù)聽音環(huán)境的最佳選擇,最佳增益下降量依賴于聽力損失。通常,聽力損失越大,SE的增益下降就越少;當(dāng)輸入是由噪聲主控或SNR很差時,SE使用較大的增益下降,但最多12 dB;SE的增益也與噪聲譜有關(guān),噪聲譜越寬,增益下降越多。增益的優(yōu)化過程需要約20秒以適應(yīng)新的噪聲環(huán)境;但是當(dāng)需要增加增益以提高SII時,SE可用快速處理來完成。顯然,SE對瞬態(tài)噪聲的抑制基本上沒有作用。
圖3 與圖2相同條件下使用語音增強器后的頻率聲壓圖
Mark[5]認(rèn)為,聽音環(huán)境的最佳噪聲管理就是要精確檢測語音的存在性和對不同特性的噪聲給以不同的處理策略,任何算法事前都很難精確得知聽音環(huán)境的具體狀態(tài)而選用相應(yīng)的最佳處理。為此,他將廣泛的聽音環(huán)境分為三種狀態(tài):①僅語音或語音加弱噪聲;②語音加噪聲;③僅噪聲。應(yīng)對這種分類環(huán)境的技術(shù)稱為三態(tài)噪聲管理(tristate noise management),它是VPP系統(tǒng)的一部分。VPP系統(tǒng)對實際的環(huán)境噪聲同時使用三種不同的方向性麥克風(fēng)極性圖作并行處理,最后對它們的全部輸出進(jìn)行語噪比(voice-noise ratio,VNR)計算和比較,將最佳VNR對應(yīng)的麥克風(fēng)極性圖作為最佳模型而選用,為三態(tài)噪聲管理的穩(wěn)健實現(xiàn)創(chuàng)造了條件 。
3.1三態(tài)噪聲管理的策略 應(yīng)對第一種環(huán)境狀態(tài):管理系統(tǒng)的放大提供足夠的增益,確保對輸入的寬動態(tài)語音理解更好;應(yīng)對第二種環(huán)境狀態(tài):增益的下降量取決于調(diào)制指數(shù)和噪聲聲級,調(diào)制指數(shù)越高,而輸入聲級越弱,則增益下降越少。VNR范圍在-3~-6 dB時,該系統(tǒng)仍能檢測出語音[8],這時只降低低頻和高頻的增益,再將輸出送至多頻道壓縮器,以產(chǎn)生清晰度指數(shù)(articulation index)盡可能高而又舒適的聲音。應(yīng)對第三種環(huán)境狀態(tài):當(dāng)調(diào)制指數(shù)最低而噪聲聲級最強時,所在頻道的增益下降取最大值以用戶感到最舒適為目標(biāo);不過,隨著調(diào)制指數(shù)升高和噪聲聲級減弱,增益下降需減少。與第二種環(huán)境狀態(tài)相比,同樣的調(diào)制指數(shù)和噪聲聲級下,該環(huán)境狀態(tài)需更多的增益下降。這三種狀態(tài)的處理是并行的且能快速轉(zhuǎn)換,確保能跟上環(huán)境的變化。
語音環(huán)境的均衡處理是要使三態(tài)管理的狀態(tài)控制按優(yōu)先順序進(jìn)行:在復(fù)雜的聽音環(huán)境中,語音信息的維護(hù)在先,聽音舒適在后,因此, 同步檢測的判定具有優(yōu)先權(quán):只要語音被檢測到,三態(tài)管理系統(tǒng)就迅速進(jìn)入“僅語音”或“語音加噪聲”的狀態(tài)中;反之,當(dāng)調(diào)制檢測器判斷為“僅噪聲”存在時,三態(tài)管理的目標(biāo)才是用戶的聽音舒適。只要判定噪聲存在,增益控制就啟動,增益下降量可以分多個等級以接近最佳的語音理解度和舒適感。
3.2同步檢測和調(diào)制檢測的組合 三態(tài)噪聲管理的挑戰(zhàn)之一是要準(zhǔn)確地知道聽音環(huán)境的狀態(tài)。調(diào)制檢測器在僅噪聲或僅語音存在時,其判斷準(zhǔn)確度和效率都高;但是,如果輸入信號由語音加噪聲構(gòu)成時,特別是VNR低時,調(diào)制檢測器難于分辨出語音的存在。因此,單純地使用調(diào)制檢測器來分類聽音環(huán)境信號可能犧牲語音的可聽范圍。Mark指出,語音的能量分布在全部頻道上,不同頻道的能量模型緊密地與聲帶的周期活動合拍,即基頻的倍頻特性。此外,低、中頻道間的語音波形相關(guān)性較強。一組帶寬較寬(如一個倍頻程)的濾波器可以用來分裂輸入的語音信號并檢測它們之間的同步特性,這類似于耳蝸的濾波處理。圖4顯示了元音/U/在五個頻道中的波形,最上一條曲線代表基波,其下的曲線代表諧波;可以看出,這些波形包絡(luò)之間的相關(guān)性較強。
圖4 元音/U/在五個頻道中的波形
通過計算同時出現(xiàn)在相鄰頻道上的包絡(luò)波形間的相關(guān)系數(shù),同步檢測器可以搜索較高頻道中緊密合拍的同步能量模型。實際應(yīng)用中,這個語音檢測系統(tǒng)已顯示出對寬帶噪聲中語音的敏感,VNR下降至0~-2 dB 時,該檢測器效率仍然高;當(dāng)VNR低于此范圍時,它仍可檢測出語音的存在;相反,環(huán)境的噪聲信號是隨機的,它在較高頻道不具有像語音那樣的諧波同步特性。當(dāng)同步檢測器判定語音不存在且調(diào)制檢測器判定噪聲存在時,管理系統(tǒng)確定噪聲的存在而響應(yīng);這兩個檢測器并行工作,執(zhí)行上述的環(huán)境均衡處理策略,它們的組合能更好地適配三態(tài)環(huán)境信號各自的特殊性。此外,根據(jù)同步檢測中的語音警旗計數(shù)(speech flag-signal,是同步檢測器的中間統(tǒng)計數(shù)據(jù),1代表語音,0代表噪聲)還可估計VNR的大小,為多帶自適應(yīng)方向性處理提供判斷的依據(jù)。
某些音樂信號也會激活同步檢測器。具有特色音質(zhì)的樂器發(fā)出的聲音是由某些泛音的特定模型形成,相當(dāng)于諧波序列。根據(jù)統(tǒng)計數(shù)據(jù)[5],說話時語音信號的同步度可達(dá)30%到50%;而音樂演奏時,信號同步度高達(dá)50%。如果同步度不是很高,語音或音樂就不是輸入信號中的主控成分。同步檢測器的缺點是有時會將音樂、瞬態(tài)干擾或高頻范圍的寬帶聲音誤判為語音,因此,使用判定結(jié)果之前,需先辨別其真?zhèn)?。圖5顯示了一個使用三態(tài)噪聲管理的助聽器的增益特性,頻道增益隨環(huán)境信號類別而變化[9],可以看出,同步檢測器確有語音、音樂優(yōu)先的效果。只要這兩類信號存在,助聽器的增益基本不下降,僅在隨機噪聲輸入時,增益下降了9 dB。
圖5 使用三態(tài)噪聲管理的助聽器增益下降特性