文錦昌 李可意 郭洋 夏俍 肖麗麗 柳鋮棋 鄭重
言語(yǔ)信號(hào)中包含豐富的信息,可將其分為時(shí)域信息和頻域信息兩種,時(shí)域信息指隨時(shí)間變化不同波動(dòng)速率的言語(yǔ)信號(hào)中的信息。根據(jù)不同的波動(dòng)速率,可將時(shí)域信息分為時(shí)域包絡(luò)(temporal envelope,TE)信息、周期性波動(dòng)信息和時(shí)域精細(xì)結(jié)構(gòu)信息,對(duì)應(yīng)的頻率范圍分別是2~50、50~500及500~10 000 Hz(Rosen等,1992)。既往關(guān)于TE信息的研究報(bào)道了言語(yǔ)識(shí)別主要依賴(lài)于低于16到20 Hz的時(shí)域信息,揭示了TE信息中的調(diào)幅信息對(duì)言語(yǔ)識(shí)別起到了至關(guān)重要的作用(Drullman等,1994;Shannon等,1995)。近年來(lái),許多聽(tīng)力學(xué)家通過(guò)各種方法研究不同頻段TE信息對(duì)言語(yǔ)識(shí)別的相對(duì)重要性,Shannon等[1]通過(guò)去除特定頻段的TE信息來(lái)研究不同頻段TE信息對(duì)安靜時(shí)言語(yǔ)識(shí)別的影響,結(jié)果顯示去除中、高頻段TE信息比去除低頻段TE信息的影響要低,揭示了低頻段TE信息在言語(yǔ)識(shí)別中的重要性;Apoux等[2]采用去除特定頻段和相關(guān)性分析的方法來(lái)研究不同頻段TE信息的相對(duì)權(quán)重,發(fā)現(xiàn)較高頻段(>2 500 Hz)的TE信息對(duì)噪聲環(huán)境中的言語(yǔ)識(shí)別更為重要;Ardoint等[3]通過(guò)高通和低通濾過(guò)的方法對(duì)TE信息進(jìn)行研究,結(jié)果表明1 000~2 000 Hz頻段的TE信息對(duì)于單音節(jié)詞的識(shí)別更為重要。既往關(guān)于TE信息的研究多基于英語(yǔ)等非聲調(diào)語(yǔ)言,而關(guān)于普通話(huà)的研究很少。
目前對(duì)于重度及以上程度感音神經(jīng)性聾的人工耳蝸(CI)言語(yǔ)處理策略是基于英語(yǔ)等非聲調(diào)語(yǔ)言的特點(diǎn)設(shè)計(jì)的,沒(méi)有考慮普通話(huà)言語(yǔ)的特點(diǎn)。Guo等[4]研究發(fā)現(xiàn)頻段1(80~502 Hz)和頻段3(1 022~1 913 Hz)的TE信息對(duì)于普通話(huà)語(yǔ)句識(shí)別比其它頻段更為重要,但這與Ardoint等[5]的研究差異較大,后者的研究認(rèn)為對(duì)英語(yǔ)識(shí)別來(lái)說(shuō),1 800~7 300 Hz頻段的TE信息對(duì)英語(yǔ)識(shí)別較其他頻段更為重要。關(guān)于兩項(xiàng)研究出現(xiàn)差異的原因,除了語(yǔ)言不同之外,還有提取TE信息方式的不同。為揭示提取TE信息的帶寬不同是否會(huì)導(dǎo)致言語(yǔ)識(shí)別差異,本研究在以往研究的基礎(chǔ)上,提取了不同帶寬的TE信息,并將提取的TE信息合成5個(gè)頻段,評(píng)估不同帶寬TE信息的不同頻段在普通話(huà)語(yǔ)句識(shí)別中的相對(duì)權(quán)重。
1.1研究對(duì)象及分組 本研究共招募了20例來(lái)自上海交通大學(xué)的正常聽(tīng)力受試者(男、女各10例),年齡21~28歲,平均24.40±2.07歲;所有受試者均以普通話(huà)為母語(yǔ),既往無(wú)耳科疾病史。所有受試者在入組前均完善了純音聽(tīng)閾測(cè)試,250~8 000 Hz雙耳純音氣導(dǎo)聽(tīng)閾均≤15 dB HL;所有受試者在受試之前均沒(méi)有接觸過(guò)言語(yǔ)測(cè)試的語(yǔ)句材料,每位受試者的測(cè)試時(shí)長(zhǎng)在1.5至2小時(shí)左右。將招募的20例受試者隨機(jī)分成2組,每組10例,分別接受1.5和3個(gè)等效矩形帶寬(equivalent rectangular bandwidth, ERB)提取的TE信息的言語(yǔ)測(cè)試。
本研究獲得上海交通大學(xué)附屬第六人民醫(yī)院倫理委員會(huì)批準(zhǔn)。所有受試者同意參與本次研究并簽署知情同意書(shū)。
1.2言語(yǔ)測(cè)試材料及信號(hào)處理 采用House耳研所研發(fā)的普通話(huà)噪聲下言語(yǔ)測(cè)試詞表(Mandarin hearing in noise test,MHINT)作為言語(yǔ)測(cè)試材料[6],MHINT包含15個(gè)詞表,每個(gè)詞表有20個(gè)語(yǔ)句,每句話(huà)有10個(gè)關(guān)鍵字,每個(gè)詞表的難易度都經(jīng)過(guò)了等效平衡。首先將原始言語(yǔ)信號(hào)經(jīng)過(guò)傅里葉變換,轉(zhuǎn)換后的頻域信息按照1.5和3個(gè)ERB經(jīng)過(guò)帶通濾波器分成不同頻帶,每個(gè)頻帶經(jīng)過(guò)Hilbert轉(zhuǎn)換提取TE信息,將不同頻帶的TE信息按照截止頻率合并組成5個(gè)頻段(表1)。帶通濾波80~7 562 Hz,通過(guò)Hilbert轉(zhuǎn)換提取每個(gè)頻帶的 TE 信息,并將其低通處理,低通濾波器截止頻率設(shè)置在64 Hz,斜率為62 dB/倍頻程。用TE調(diào)制窄帶噪聲重構(gòu)聲音信號(hào),同時(shí)為了防止受試者利用相鄰頻段的TE信息[7],將不含有TE信息的頻段填補(bǔ)信噪比為+16 dB的白噪聲,白噪聲也通過(guò)相同的帶通濾波器,分成對(duì)應(yīng)頻段掩蔽白噪聲,以起到掩蔽作用;例如,頻段1條件的刺激聲包含頻段1的TE信息以及剩余頻段(頻段2~5)的白噪聲;類(lèi)似的,頻段1+2條件的刺激聲包含頻段1和頻段2的TE信息以及剩余頻段(頻段3~5)的白噪聲;頻段1~5條件的刺激聲包含所有頻段的TE信息,沒(méi)有白噪聲。本研究中的測(cè)試條件包括單頻段(5個(gè)測(cè)試條件)、雙頻段(10個(gè)測(cè)試條件)、全頻段(1個(gè)測(cè)試條件),與既往研究[4]相同。在每個(gè)條件下對(duì)受試者進(jìn)行言語(yǔ)識(shí)別測(cè)試,得到每個(gè)測(cè)試條件下的言語(yǔ)識(shí)別率。
因?yàn)镸HINT包含15個(gè)詞表,但測(cè)試需要16個(gè)詞表,練習(xí)需要4個(gè)詞表,研究時(shí)將詞表1~5在一例受試者分別測(cè)試單頻段和雙頻段兩個(gè)不同的條件。預(yù)實(shí)驗(yàn)中分別測(cè)試了2組各10例受試者,一組先使用詞表1~5進(jìn)行單頻段測(cè)試,接著使用詞表1~5進(jìn)行雙頻段測(cè)試;另一組用詞表1~5僅進(jìn)行相鄰雙頻段測(cè)試,使用獨(dú)立樣本t檢驗(yàn)進(jìn)行統(tǒng)計(jì)分析,兩組受試者的相鄰雙頻段的言語(yǔ)識(shí)別率差異無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05),這是因?yàn)閱晤l段所提供的TE信息極少,并不對(duì)同一受試者之后再次使用造成學(xué)習(xí)效應(yīng)。所以使用詞表1~5測(cè)試單頻段的5個(gè)受試條件、詞表1~10測(cè)試雙頻段的10個(gè)受試條件、詞表11測(cè)試全頻段的1個(gè)受試條件,詞表12~15用作正式測(cè)試前的練習(xí)材料。
表1 不同帶寬提取TE信息5個(gè)頻段各頻帶截止頻率
1.3測(cè)試步驟 所有測(cè)試圴在標(biāo)準(zhǔn)隔聲室內(nèi)進(jìn)行,使用森海塞爾HD 205 II耳罩式耳機(jī)播放測(cè)試聲,給聲強(qiáng)度根據(jù)受試者最舒服的聲強(qiáng)而定,一般在65 dB SPL左右。正式測(cè)試前,先進(jìn)行30 min左右的練習(xí),練習(xí)的刺激聲從MHINT的4個(gè)詞表(詞表12~15)中選取,首先讓受試者聽(tīng)取全頻段的聲音,然后播放只含有測(cè)試條件下的聲音;練習(xí)時(shí)給予受試者正確答案的反饋。為了讓受試者更加熟悉測(cè)試材料,可以對(duì)同一句話(huà)反復(fù)多次試聽(tīng),直到覺(jué)得自己進(jìn)入穩(wěn)定狀態(tài)后,再進(jìn)入下一句話(huà)的試聽(tīng)。
正式測(cè)試時(shí),隨機(jī)選取不同條件的測(cè)試聲進(jìn)行測(cè)試,并允許受試者多次聽(tīng)取同一句測(cè)試聲,受試者需要盡可能準(zhǔn)確重復(fù)語(yǔ)句里關(guān)鍵字,可以猜測(cè),不給予受試者任何測(cè)試結(jié)果的反饋。受試者可以隨時(shí)休息,個(gè)體測(cè)試時(shí)長(zhǎng)1.5~2小時(shí)。
1.4統(tǒng)計(jì)學(xué)方法 采用SPSS 22.0對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析,使用單因素方差分析不同帶寬切割下的TE信息的組內(nèi)差異及不同頻段平均權(quán)重的差異,兩兩比較采用Tukey檢驗(yàn)。使用t檢驗(yàn)分析不同帶寬切割下TE信息的組間差異及兩組TE信息的不同頻段在普通話(huà)語(yǔ)句識(shí)別中相對(duì)權(quán)重的差異。使用最小二乘法[8]計(jì)算不同帶寬下不同頻段TE信息在普通話(huà)語(yǔ)句識(shí)別中的相對(duì)權(quán)重。首先,將每個(gè)頻段定義為一個(gè)二進(jìn)制值,該二進(jìn)制值是0或者1取決于該頻段的包絡(luò)信息是否呈現(xiàn)給受試者;然后將每個(gè)頻段進(jìn)行的線(xiàn)性組合來(lái)預(yù)測(cè)受試者言語(yǔ)識(shí)別率,通過(guò)最小化所有預(yù)測(cè)誤差的平方和來(lái)計(jì)算各頻段的權(quán)重。每個(gè)受試者的五個(gè)頻段的原始權(quán)重進(jìn)行歸一化,即每個(gè)頻段的相對(duì)權(quán)重表示為原始權(quán)重除以這個(gè)所有頻段權(quán)重之和,因此,五個(gè)頻段的權(quán)重之和等于1。
2.1不同帶寬下單頻段TE信息的言語(yǔ)識(shí)別率(圖1) 在1.5ERB切割條件下的TE信息以單頻段條件給聲時(shí),言語(yǔ)識(shí)別率為3.90%~4.60%,組間無(wú)顯著差異〔F(4,45)=0.279,P=0.89〕。在3ERB切割條件下的TE信息以單頻段條件給聲時(shí),言語(yǔ)識(shí)別率為4.00%~4.80%,組間無(wú)顯著差異〔F(4,45)=0.781,P=0.54〕。t檢驗(yàn)1.5ERB和3ERB切割提取的TE信息以單頻段呈現(xiàn)時(shí)的言語(yǔ)識(shí)別率均無(wú)顯著差異(P>0.05)。
2.2不同帶寬下雙頻段和全頻段TE信息的言語(yǔ)識(shí)別率(圖2) 在1.5ERB切割條件下的TE信息以雙頻段條件給聲時(shí),言語(yǔ)識(shí)別率為32.50%~85.40%,組間存在顯著性差異[F(9,90)=25.567,P<0.05];進(jìn)一步采用Tukey檢驗(yàn)進(jìn)行組間比較,發(fā)現(xiàn)頻段2+3、頻段2+5得分均顯著小于其它組,頻段1+5、頻段1+3、頻段3+4和頻段1+4得分均顯著高于其它組。在3ERB切割條件下的TE信息以雙頻段條件給聲時(shí),言語(yǔ)識(shí)別率為22.60%~82.50%,組間存在明顯差異[F(9,90)=41.095,P<0.05];進(jìn)一步采用Tukey檢驗(yàn)進(jìn)行組間比較,發(fā)現(xiàn)頻段2+5、頻段4+5和頻段2+4得分均顯著小于其它組,頻段1+3和頻段3+4得分均顯著高于其它組。t檢驗(yàn)示,不同帶寬下的TE信息以雙頻段呈現(xiàn)時(shí)的言語(yǔ)識(shí)別率除了頻段2+3、頻段3+4和頻段3+5無(wú)顯著差異外(P>0.05),其它所有的頻段組合中以1.5ERB切割TE信息的言語(yǔ)識(shí)別率均高于以3ERB切割TE信息的言語(yǔ)識(shí)別率(P<0.05)。當(dāng)測(cè)試聲以全頻段TE信息呈現(xiàn)時(shí),無(wú)論是以1.5ERB切割還是以3ERB切割,言語(yǔ)識(shí)別率均為100%。
圖1 1.5ERB和3ERB切割下單頻段TE信息的言語(yǔ)識(shí)別率
圖2 1.5ERB和3ERB切割下雙頻段和全頻段TE信息的言語(yǔ)識(shí)別率
2.3不同帶寬下不同頻段TE信息在普通話(huà)語(yǔ)句識(shí)別中的相對(duì)權(quán)重(圖3) 在1.5ERB切割TE信息中,頻段1~5的平均權(quán)重分別為0.28、0.08、0.21、0.25和0.18,單因素方差分析提示組間有顯著差異[F(4,45)=57.476,P<0.05],Tukey檢驗(yàn)提示頻帶1、3、4的權(quán)重顯著高于頻帶2和5。在3ERB切割TE信息中,頻段1~5的平均權(quán)重分別為0.29、0.05、0.32、0.21和0.14,單因素方差分析提示組間有顯著差異[F(4,45)=105.037,P<0.05],Tukey檢驗(yàn)提示頻帶1、3、4的權(quán)重顯著高于頻帶2和5。使用t檢驗(yàn)比較兩組TE信息的不同頻段在普通話(huà)語(yǔ)句識(shí)別中的相對(duì)權(quán)重,除了頻段1的權(quán)重?zé)o顯著性差異(P>0.05),其他頻段的權(quán)重均存在顯著性差異(P<0.05)。
圖3 不同帶寬下不同頻段TE信息在普通話(huà)語(yǔ)句識(shí)別中的相對(duì)權(quán)重
本研究測(cè)試了安靜環(huán)境下不同帶寬TE信息在不同條件下的言語(yǔ)識(shí)別率,當(dāng)TE信息以單頻段呈現(xiàn)給受試者時(shí),兩組受試者的言語(yǔ)識(shí)別分?jǐn)?shù)為3.90%~4.80%;然而,當(dāng)雙頻段的TE信息組合在一起呈現(xiàn)給受試者時(shí),其言語(yǔ)識(shí)別率為22.60%~85.40%,這比分別單獨(dú)展現(xiàn)這兩個(gè)頻段的言語(yǔ)識(shí)別率相加之和還要高,這種協(xié)同作用在言語(yǔ)識(shí)別中很早就已經(jīng)被發(fā)現(xiàn)了[4,9],本研究也再次證明在聲調(diào)語(yǔ)言漢語(yǔ)中也存在協(xié)同作用。Healy等[9]發(fā)現(xiàn)結(jié)合兩個(gè)單一頻段的TE信息,會(huì)讓原先不能理解的言語(yǔ)變得可以理解,這種作用與人工耳蝸非常類(lèi)似,當(dāng)人工耳蝸從單通道變成雙通道時(shí),就會(huì)提升其聽(tīng)辨效果。本研究發(fā)現(xiàn)1.5ERB和3ERB切割提取的TE信息以單頻段呈現(xiàn)時(shí)的言語(yǔ)識(shí)別率約為4%,組間均無(wú)顯著性差異,然而當(dāng)TE信息以雙頻段呈現(xiàn)時(shí),隨著切割寬度的增大,言語(yǔ)識(shí)別率呈下降趨勢(shì),可能是由于TE信息的減少導(dǎo)致。當(dāng)TE信息以全頻段的形式呈現(xiàn)給受試者的時(shí)候,所有的受試者在此測(cè)試條件下的語(yǔ)句識(shí)別都非常好。這項(xiàng)結(jié)果與既往研究一致,在安靜環(huán)境下TE信息能幫助聽(tīng)者獲得足夠的言語(yǔ)理解度(Shccnnon等,1995;zeng等,2004)。
本研究通過(guò)最小二乘法計(jì)算了不同頻寬TE信息的對(duì)于漢語(yǔ)普通話(huà)識(shí)別的相對(duì)權(quán)重,結(jié)果示頻段1(80~585 Hz)的權(quán)重顯著高于其他頻段,說(shuō)明低頻段的TE信息對(duì)于漢語(yǔ)普通話(huà)識(shí)別是非常重要的,與Guo等[4]的研究結(jié)果一致。原因是頻段1的TE信息和其他頻段的TE信息結(jié)合時(shí),協(xié)同效應(yīng)最明顯。同時(shí),漢語(yǔ)作為聲調(diào)語(yǔ)言,聲調(diào)在漢語(yǔ)言識(shí)別中貢獻(xiàn)巨大,因?yàn)閱我艄?jié)間的不同聲調(diào)可以包含不同的詞匯意義[10],而聲調(diào)識(shí)別主要依靠的是基頻(F0)信息的變化(Whalen等,1992;Yuan等,2009)。Kuo等[11]發(fā)現(xiàn)F0信息存在時(shí),聽(tīng)者可以連續(xù)獲得大于90%的音調(diào)識(shí)別正確率。考慮到基頻信息的頻率(<180 Hz)主要是在低頻段,其在聲調(diào)識(shí)別中具有重要作用,并且聲調(diào)識(shí)別對(duì)于漢語(yǔ)普通話(huà)的言語(yǔ)識(shí)別也非常重要,因此,低頻段的TE信息在普通話(huà)語(yǔ)句的識(shí)別中應(yīng)該占有更高的權(quán)重。
本研究結(jié)果顯示頻段3(894~1 913 Hz)的TE信息對(duì)于普通話(huà)的言語(yǔ)識(shí)別較為重要,與之前研究結(jié)果也一致,Kasturi等[8]通過(guò)去除特定頻段方法發(fā)現(xiàn)當(dāng)移除中心頻率在1 685 Hz頻段的TE信息時(shí),元音和輔音的識(shí)別都會(huì)下降;一項(xiàng)關(guān)于TE信息交叉頻率的研究發(fā)現(xiàn)男生的交叉頻率在1 421 Hz,女聲的交叉頻率在1 329 Hz,表明1 500 Hz左右頻段的TE信息對(duì)言語(yǔ)識(shí)別更為重要[3]。另外,頻段4(1 913~3 856 Hz)的TE信息對(duì)于普通話(huà)的言語(yǔ)識(shí)別也較為重要。既往研究發(fā)現(xiàn),高頻段(1 800~7 300 Hz)的TE信息對(duì)于輔音的識(shí)別貢獻(xiàn)最大[12],輔音的特點(diǎn)是快速、瞬時(shí)的振幅變化[13]。高頻TE對(duì)于輔音線(xiàn)索識(shí)別可能是特別重要的[14],Ardoint等[5]研究發(fā)現(xiàn)高頻段(1 845~3 726 Hz)與其他頻段TE信息結(jié)合時(shí)的語(yǔ)句識(shí)別率更高,表明高于1 800 Hz頻段的TE信息在言語(yǔ)識(shí)別中起到重要的作用,這可能解釋頻段4對(duì)普通話(huà)語(yǔ)句識(shí)別的重要作用。
Guo等[4]研究發(fā)現(xiàn)在1ERB切割下的TE信息中頻帶1~5的權(quán)重分別是0.25、0.18、0.22、0.20和0.15。本研究中1.5ERB和3ERB切割下的TE信息中頻帶1、3和4對(duì)于言語(yǔ)識(shí)別貢獻(xiàn)均較大;隨著切割寬度增加,頻帶2的權(quán)重逐漸減少,這可能是由于頻帶2所包含的頻率信息比其他帶寬少,切割方式對(duì)其影響最顯著。
知曉不同帶寬提取的低頻、高頻TE信息對(duì)于正常聽(tīng)力人群的言語(yǔ)識(shí)別較為重要,有助于修正人工耳蝸的編碼策略,可以利用這些權(quán)重更高的頻段的言語(yǔ)信號(hào),調(diào)整人工耳蝸的對(duì)應(yīng)電極,在有限電極內(nèi)排布對(duì)言語(yǔ)識(shí)別貢獻(xiàn)最多的頻段,改善其最佳使用效果。本研究存在一定的局限性:僅聚焦于正常聽(tīng)力人群的言語(yǔ)識(shí)別,對(duì)于聽(tīng)力損失人群的TE信息不同頻段的權(quán)重尚未知曉。感音神經(jīng)性聾患者一般都缺乏分辨聲音頻率的能力[15],對(duì)于不同頻段的時(shí)域信息的整合能力有限[16],所以人工耳蝸植入患者與聽(tīng)力正常人群的不同頻段TE信息的相對(duì)權(quán)重可能存在一定的差異,需要進(jìn)一步對(duì)聽(tīng)力受損人群進(jìn)行研究。