張戌寶
聽力損失患者有兩種基本癥狀:①聽音的響度動態(tài)范圍縮?。虎诼犚舻念l率范圍變窄。十余年來,助聽器已能將聲音響度動態(tài)范圍控制到患者聽力的范圍[1、2]。語音的低、中頻成分是區(qū)分元音的要素,而語音的中、高頻成分是區(qū)分輔音和定位聲源的要素。聽力損失患者的聽力特點(diǎn)是頻率范圍變窄和對高頻聲音缺乏感知;而一些輔音的共振峰主要分布在高頻區(qū),沒有對高頻的感知,他們就沒有理解語音的基礎(chǔ)條件。對于具有聽力損失的兒童,缺乏高頻感知還影響語音發(fā)音的準(zhǔn)確和語法的理解。30年前,高頻下移技術(shù)已設(shè)法在模擬助聽器中應(yīng)用[3],由于制造技術(shù)的局限,其臨床效果較差并因未使聽力障礙患者受益而受到冷落。中度及以上聽力損失患者的可聽頻率范圍上限可以從8 kHz降至4 kHz,甚至更低;而助聽器的大功率受話器頻響范圍,其高頻截止頻率只能到5 kHz,因此傳統(tǒng)放大(指沒有高頻下移功能)的助聽器不能為其提供有益的高頻成分,難以滿足語音識別的需求。在耳蝸死區(qū)主管高頻的某些毛細(xì)胞喪失傳感功能,致無法通過助聽放大器獲益[1]。因此恢復(fù)聽障人士的高頻感音能力再度引起聽力康復(fù)工作者的重視。
頻率下移(frequency-lowering,F(xiàn)L)是將音頻信號的高頻成分移至較低頻區(qū)的技術(shù)。當(dāng)今,幾乎所有的主流助聽器廠家都恢復(fù)了FL的研發(fā),目前FL的策略很多,雖然目的相同但處理策略差別卻很大。Alexander[4]和McDermott[5]較為詳細(xì)地闡述了多種FL的原理、處理策略和特性差別,并經(jīng)效果評估得出的結(jié)論是各種FL在助聽器中的應(yīng)用都有效。Angelo等人[6]介紹了一種性能完善的FL技術(shù),稱為“語音拯救”(speech rescue),該技術(shù)確?;颊攉@得最大的高頻感音能力,又盡可能使輸出語音的整體失真最小。Scollie[7]則介紹了對非線性頻率壓縮助聽器的研究,包括技術(shù)原理、應(yīng)用效果。本文旨在概述高頻下移技術(shù)的基本理念、實(shí)現(xiàn)策略、處理結(jié)構(gòu)和應(yīng)用效果。
通常認(rèn)為語音頻譜的能量主要分布在0.25~6 kHz的范圍[1],實(shí)際上,語音頻譜的準(zhǔn)確范圍超過0.2~10 kHz[8],其中元音的頻譜能量主要分布在低中頻區(qū),而輔音的頻譜能量主要分布在中高頻區(qū)。例如,/oo/的前3個共振峰在300~3260 Hz,能量較高;/s/的頻譜主要能量在3~9 kHz,能量較低,在語音中的出現(xiàn)率很高。由于大功率受話器的固有機(jī)械特性,其輸出功率在5 kHz之后明顯下降,因此不能幫助重度聽力損失患者解決高頻聲音的可聽度問題。而患者的內(nèi)毛細(xì)胞受損,其聽覺可能在中高頻區(qū)出現(xiàn)“死區(qū)”,即在某些頻率上完全喪失感音能力。例如,患者的損失曲線是陡降型,以每倍頻程20 dB或以上的斜率下降,聽力損失在70 dB HL以上,這種類型的聽力損失患者需要很高的高頻增益放大。然而,很高的增益容易使助聽器產(chǎn)生反饋嘯叫。因此依靠傳統(tǒng)的增加功率的做法是徒勞無益的。
圖1顯示了一句英語(children like strawberries)信號的2個頻譜圖,上圖為該語句發(fā)音的原本頻譜,下圖為該語句經(jīng)傳統(tǒng)放大后輸出信號的頻譜,深色表示譜的能量大,淺色反之;兩圖底部的箭頭表示高頻能量較高的輔音位置,如/s/、/ch/等。高功率受話器的頻響在>5 kHz后就明顯下降,從下圖可以看出,帶箭頭輔音在5 kHz以上的能量明顯消失或減少,而元音譜的主要能量在5 kHz以下,基本上沒有衰減。對于在5 kHz有斜坡型聽力損失的患者,其感知語音的頻譜圖在下圖的高頻能量將會加倍衰減。這使得高頻聽力損失患者在噪聲環(huán)境中的語音交流更加困難。聲音的高頻成分下移至中頻可聽頻區(qū)的策略,使助聽器輸出頻響范圍變窄,以適配患者的聽力頻率特性。這樣得到的聲音可能打亂原本的頻譜結(jié)構(gòu)而造成語音失真。特別是譜峰比發(fā)生變化以后,聲音聽起來不自然,也不舒適。
圖1 原本語音的頻譜圖(上)和高頻聽力損失患者等價的感知譜圖(下)
頻率下移(FL)既要保證高頻聽力損失患者能聽見語音中的高頻成分又要使聽音效果盡可能自然,這項嚴(yán)峻的挑戰(zhàn)需要研究FL的策略、處理結(jié)構(gòu)和得益,從而獲得最佳的方案。雖然FL可導(dǎo)致助聽器輸出聲音的頻譜結(jié)構(gòu)畸變,卻不一定會給患者帶來不舒適,這取決于畸變的程度。由于個人的聲帶尺寸、質(zhì)量不同,不同談話者的共振峰頻率是有明顯差別的。男人、女人和兒童發(fā)同一個音素的聲音時,有較大的頻譜差異,但聽者沒有不舒適的感覺并能識別語音含義。例如,發(fā)/i:/時,男人、女人和兒童的F1分別是270、310和370 Hz,F(xiàn)2分別是2290、2790和3200 Hz,F(xiàn)3分別是3010、3310和3730 Hz[8]。F1與F2的譜峰比分別是0.118、0.111和0.116;F2與F3的譜峰比分別是0.090、0.094和0.099。因此,不同性別、年齡的人發(fā)音的共振峰并不相同,但無礙語音的理解;如果FL能使高頻成分按一定的比例下移,語音的共振峰結(jié)構(gòu)仍然是自然的,則含義不會被誤解。從大量的語音譜圖中得知,同一談話者的語音高頻與低頻成分在許多時候不是同時存在的;如有語音頻譜的實(shí)時分析和控制,F(xiàn)L帶來的負(fù)面作用不是想象的那么大。
近年來,助聽器研究人員提出的頻率下移(FL)策略多種,本文將其歸納為以下三大類。
分段記錄輸入的聲音信號,以比進(jìn)入速率慢的速率分段回放記錄的語音信號,再將它們連接在一起輸出,聆聽時不可感知的高頻成分就能聽見了。錄音慢回放也稱等比頻率壓縮(proportional frequency compression)或線性頻率壓縮,見圖2左上圖,輸出頻率與輸入頻率之比稱為換置因子(transposition factor)。例如,換置因子是0.7,5 kHz的調(diào)音就換置成3.5 kHz的。該策略在整個音頻區(qū)上將所有的頻率成分以一固定比率向下壓縮,對輔音和元音信號都有降頻作用。該策略理念較簡單,在換置因子不低的條件下,對所有聲音的頻率成分都保留了它們之間的譜峰比,語音的自然性沒明顯損壞;但元音頻率成分下移可能造成語音識別性能下降。因此,更好的處理策略是時變的,即在需要FL的時間段才開啟。例如,當(dāng)輸入信號由2.5 kHz以上的頻率分量主控時,才啟動該策略,否則就取消FL處理,以保證良好的音質(zhì)。
將指定下移的中高頻區(qū)稱為源頻區(qū),即源頻區(qū)是患者的不可感知中高頻區(qū);將高頻區(qū)下移去的頻區(qū)稱為目的頻區(qū),目的頻區(qū)是患者的可感知中頻區(qū);源頻區(qū)的最低頻率稱為起始頻率(start frequency)。產(chǎn)生與高頻帶包絡(luò)信號相同的中頻帶信號,并與目的頻區(qū)的較高頻帶疊加在一起。這又分兩種做法:①將下移產(chǎn)生的幾個中頻帶信號合到一個頻帶上,再將該頻帶信號疊加到目的頻區(qū)的高端頻帶上,而高頻帶信號仍保留在源頻區(qū),稱為頻率復(fù)合,見圖2右上圖;②將下移產(chǎn)生的幾個中頻帶信號并排疊加至目的頻區(qū)的幾個頻帶上,且源頻區(qū)的那些高頻帶信號不再保留,稱為頻率換置,見圖2右下圖。起始頻率之下的各頻率成分原封不動,保留了低中頻共振峰的原本信息;目標(biāo)頻區(qū)的寬度窄,為了使下移高頻對它的擾動小,就要求下移頻帶作多層疊加。起始頻率之上的信號在中高頻區(qū),換置后高頻共振峰的包絡(luò)沒有發(fā)生變化。無論是源頻區(qū)還是目的頻區(qū),頻帶的劃分要遵循耳蝸的頻率選擇性,即高頻的帶寬較低頻的要寬,服從對數(shù)函數(shù)。頻率復(fù)合的起始頻率可以設(shè)多個選項,最佳選項因人而異。實(shí)際的起始頻率不低于2.4 kHz,如果起始頻率過低,會改變元音在中頻共振峰的信息。頻率復(fù)合/換置策略可以是時變的,時變的頻率復(fù)合有文獻(xiàn)稱之為頻譜包絡(luò)翹曲(spectral envelope warping)。由于高頻成分進(jìn)行線性換置,換置后的高頻譜峰比維護(hù)較好,高音較為自然;下移的高頻頻帶要疊加在元音的前面兩個共振峰之后的頻帶上,以免掩蔽有用的低頻語音提示(cues);還要避免換置的高頻噪聲到可聽中頻區(qū)。
圖2 幾種高頻下移策略的輸入/輸出頻率關(guān)系
在指定的中高頻區(qū)內(nèi),將各頻率成分非線性地壓縮使不可聽的高頻成分進(jìn)入到可聽的頻區(qū),見圖2左下圖。目標(biāo)是①最大化地增加高頻可聽度;②減少對元音線索造成的損壞,維護(hù)譜峰比。進(jìn)行壓縮的中高頻區(qū)的最高頻率稱為最大可聽輸出頻率(maximum audible output frequency,MAOF),進(jìn)行壓縮的中高頻區(qū)的下界稱為截止頻率。該壓縮是非線性的,頻率高的頻帶壓縮比高,頻率低的頻帶壓縮比低。這種壓縮遵循了耳蝸感音的頻率選擇性:對高頻聲音的分辨力低于對低頻聲音的分辨力。截止頻率是劃分壓縮與不壓縮頻區(qū)的分界;截止頻率之下的信號不作處理,完全保留了低中頻聲的原本信息,是可聽頻區(qū);截止頻率之上的中高頻信號被壓縮,但也包括有可聽頻區(qū)。該策略對元音的自然屬性保護(hù)得很好,但輔音的譜峰比發(fā)生了變化,聽起來有高頻失真感。如果截止頻率選得過低,對元音和輔音的分辨都有不利影響;選得過高,有利于感知語音的低頻成分,但語音的高頻成分不能完全壓縮到可聽頻區(qū)。最佳的截止頻率是個性化的,可分幾個檔以適合患者的聽力損失特性。該策略可以是時變的,由語音中主控成分是元音還是輔音來控制啟動和取消。
當(dāng)今的音頻信號處理從理論到實(shí)踐都為新一代的FL實(shí)現(xiàn)創(chuàng)造了條件,本文僅針對上述三種策略相應(yīng)的處理結(jié)構(gòu)作進(jìn)一步概述。
它是一種早期的FL技術(shù),可以用模擬電路來實(shí)現(xiàn);現(xiàn)在通過數(shù)字處理來實(shí)現(xiàn)更簡單可靠[9]。音頻信號經(jīng)模/數(shù)轉(zhuǎn)換器后輸出的采樣率為Fin,稱為原采樣頻率;將此數(shù)字信號分段送入移位寄存器,再以比Fin低的速率Fout輸出,最后將各輸出按順序組合在一起。經(jīng)可變時鐘發(fā)生器和時鐘速率控制器操作,輸出信號的各頻率成分就下移了一個因子Fout/Fin。為了實(shí)現(xiàn)時變的慢回放處理,使輸出語音的失真最小,還需要對輸入語音頻譜作分析,根據(jù)元音和輔音成分的權(quán)重控制換置因子讀出器。語音分析器常常用凹口濾波器實(shí)現(xiàn)。由于分段信號數(shù)據(jù)的銜接,拋棄冗余的擴(kuò)展信號可能會丟失語音信息[9]。
首先用帶通濾波器組將輸入信號分裂為多個頻帶的信號,頻帶越多調(diào)諧越精細(xì)。對指定下移的高頻帶,計算調(diào)制載波的頻率并產(chǎn)生載波振蕩;用乘法器將下移高頻帶的語音調(diào)制,形成中頻邊帶信號并進(jìn)行帶通濾波。輸出的較低頻帶信號與未處理的低中頻帶信號疊加,下移的高頻包絡(luò)就與低中頻區(qū)某頻帶信號復(fù)合了;多個下移高頻帶作并行處理,加快了高頻信息落入可聽的中頻帶中。如果是時變的頻率復(fù)合,還需要語音分析器,判定輸入信號是否由輔音主控,以啟動或取消頻率復(fù)合功能。復(fù)合的頻道數(shù)量和信號強(qiáng)度可以選擇,以最佳化患者個人的需求;頻帶數(shù)越多、頻區(qū)越寬、下移信號強(qiáng)度越大,得到的高頻語音提示越多,但同時也會產(chǎn)生語音模糊的感覺;頻帶的開、關(guān)可能出現(xiàn)處理夾帶信號(artifacts)[10]。
采用快速傅里葉變換(fast fouriertransform,F(xiàn)FT)和逆快速傅里葉變換(inverse FFT,IFFT)將頻率范圍進(jìn)行非線性壓縮。將輸入數(shù)字信號作FFT處理以便獲得很多頻帶的信號,指定截止頻率Fcut后,對Fcut之上的各頻帶信號作非線性壓縮,不同廠家有不同的頻帶轉(zhuǎn)移函數(shù),即中高頻區(qū)的各頻帶信號下移擠進(jìn)中頻區(qū)的算法。FFT的頻帶數(shù)越多,則帶寬越窄,壓縮越精細(xì),但信號處理的延時和功耗較大。FFT頻帶是離散的,轉(zhuǎn)移處理時要作舍入運(yùn)算;各轉(zhuǎn)移頻帶的信號強(qiáng)度是可選的,以使患者獲得最佳的感音能力和音質(zhì)。此外,非線性頻率壓縮可以是時變的,需要語音分析器的輸出來控制頻率壓縮參數(shù),也可關(guān)閉該壓縮功能。非線性頻率壓縮會有咬舌聲的感覺,信號帶的開、關(guān)可能出現(xiàn)處理夾帶信號[11]。
Angelo等人[6]核實(shí)了頻率復(fù)合技術(shù)的“語音拯救”助聽器的效果。測試條件:①12例成年重度~極重度感音神經(jīng)性聽力損失患者,平均年齡54歲。②測試助聽器為dynamo大功率型,它們具有傳統(tǒng)放大和語音拯救兩種模式。③聽音環(huán)境為兩類:Ⅰ在安靜環(huán)境中按音節(jié)發(fā)音,以核實(shí)其輔音分辨的性能,選用9個輔音/b,d,f,g,k,p,s,sh,t/;Ⅱ在噪聲環(huán)境中讀語句,以核實(shí)語句中分辨字詞的性能;目標(biāo)語句的音量是70 dB SPL,淹沒在未調(diào)制的噪聲中。用DantelⅡ測試語句,是陣列結(jié)構(gòu)(matrix)的丹麥語句。④語音救助設(shè)置:源頻區(qū)寬約3.3 kHz,在4~9.5 kHz范圍,起始頻率在4~6 kHz上。源頻區(qū)和目的頻區(qū)各有十個頻帶,對應(yīng)形成十個構(gòu)象(configuration);它們的覆蓋很寬,因此,可以選出一個構(gòu)象滿足患者的聽力損失特性。結(jié)果發(fā)現(xiàn)輔音區(qū)分方面,語音拯救比傳統(tǒng)放大,正確率從56.1%增至58.4%,提高了2.3%;語句識別的性能方面,語音拯救比傳統(tǒng)放大,平均性能(S/N和正確率)從56.5%增至59.6%,提高了3.1%。
FL技術(shù)會導(dǎo)致信號失真,但它能有效改善聽力損失患者的高頻感音效果,在輔音區(qū)分和語句識別方面的性能都明顯比傳統(tǒng)放大技術(shù)好。三類FL技術(shù)各有其特點(diǎn),每種處理策略中又有多個頻率下移參數(shù)可選擇,很難預(yù)先確定哪種更好。大體的評估是:①錄音慢回放的處理、測試和使用較為簡單,語音高音頻率的下移,使聽不見的高頻音能夠被感知;但由于低中頻率也下移,自然性受到影響,女人的聲音可能聽起來像男人的聲音,并會有極少量的信息丟失。②頻率復(fù)合/換置的起始頻率設(shè)在中頻區(qū),保護(hù)了低頻區(qū)聲音的自然性,中高頻區(qū)的譜峰比也得到維持,多參數(shù)選擇提供靈活性;但實(shí)現(xiàn)較為復(fù)雜,因下移頻率成分與原本中頻成分的混疊失真,可能會聽見夾帶聲。③非線性高頻壓縮僅在中高頻區(qū)進(jìn)行,截止頻率較高,有效保護(hù)低頻區(qū)聲音的自然性,但實(shí)現(xiàn)較為復(fù)雜;由于中高頻區(qū)諧振峰之間的緊縮造成了聲音的高頻失真,有時聽起來像咬舌音(lisping)并可能會聽見夾帶聲。
高頻下移技術(shù)可有效解決患者對高頻區(qū)感音能力差的問題。對于輕/中度聽力損失患者,高頻損失一般不嚴(yán)重,為確保更好的音質(zhì)和節(jié)省功耗,一般不選擇這類助聽器。當(dāng)必須選用FL助聽器時,應(yīng)盡可能地保留可聽低中頻成分,僅下移聽不見的中高頻成分。探管麥克風(fēng)測試法可以有助于或得到較為準(zhǔn)確的感音頻率特性。需要注意的是:沒有一種助聽手段是萬能的,更不是完美的,但FL技術(shù)是解決高頻可聽性問題唯一可靠的途徑。專家們認(rèn)為要使聽力障礙患者獲益于這類FL助聽器,大約需要6周~6個月的適應(yīng)期,患者才能體驗到最佳的FL參數(shù)設(shè)置,恢復(fù)對高頻聲音的感知。
[1]Theodore HV,著.張戌寶,田嵐,譯.實(shí)用助聽器原理和技術(shù)(第二版)[M].北京:人民軍醫(yī)出版社,2013.41-45,89.
[2]張戌寶.現(xiàn)代助聽器的動態(tài)范圍控制技術(shù)和性能[J].中國聽力言語康復(fù)科學(xué)雜志,2013,11(2):120-123.
[3]Simpon A.Frequency-lowering devices for managing highfrequency hearing loss:A preview[J].Trends in Amplification,2009,13(2):87-106.
[4]Alexander JM.The highs and lows of frequency lowering amplification[J].www.audiologyonline.com/20Q,Article#11772,Apr.2013.
[5]McDermott HJ.A technical comparison of digital frequencylowering algorithms available in two current hearing aids[J], Plos One,2011,6(7):1-7.
[6]Angelo K,Alexander JM,Christiansen TU,et al.Oticon frequency lowering Access to high-frequency speech sounds with Speech Rescue technology[J].White Paper,Oticon A/S,Denmark,2015.1-16.
[7]Scollie S,Glista D,Bagatto M,et al.Multichannel nonlinear frequency compression:A new technology for children with hearing loss[D].Proceedings of 4th SFTEA International Conference.2007.151-159.
[8]Speech Analysis.www.physis.indiana.edu/courses/p109/p109fa08/11.pdf.Online article.
[9]Nof Haemak VL.Frequency transposing hearing aid[J].USA Patent,5014319,AVR Communications Ltd.,Haifa, Israel,1991.
[10]Andersen HH.Klinkby KT.Hearing aid with enhanced high frequency reproduction and method for processing an audio signal[J].USA Patent,8031892 B2,Widex A/S,Lynge,Denmark,2011.
[11]Silvia A.Method for frequency transposition and use of the method in a hearing device and a communication device[J].European Patent Application,EP1441562 A2,Phonak AG,Stafa,Swaziland,2004.