余明強(qiáng) 周莉 徐新林 潘晗,2 莊佩耘
?
聲帶息肉患者持續(xù)元音及連貫言語聲的倒頻譜聲學(xué)分析△
余明強(qiáng)1周莉1徐新林1潘晗1,2莊佩耘1
【摘要】目的探討倒頻譜聲學(xué)分析法與連貫言語聲學(xué)信號(hào)用于鑒別病理性聲信號(hào)的價(jià)值。方法分別采集26例成人聲帶息肉患者(息肉組,男10例,女16例)及27例正常嗓音者(正常組,男13例,女14例)持續(xù)元音和連貫言語聲信號(hào),采用MDVP(multi dimensional voice program)軟件分析各組持續(xù)元音頻率微擾(jitter)和振幅微擾(shimmer),采用ADSV(analysis of dysphonia in speech and voice)軟件分析各組持續(xù)元音和連貫言語的倒頻譜參數(shù):倒頻譜峰值突出(cepstral peak prominence,CPP)、低高頻譜能量比(the mean ratio of singnal energy below 4 000 Hz to the energy above 4 000 Hz,L/HSR)、CPP的標(biāo)準(zhǔn)差(STD CPP)、L/HSR的標(biāo)準(zhǔn)差(STD L/HSR)及發(fā)音障礙倒頻譜指數(shù)(the cepstral/spectral index of dysphonia,CSID),分析擾動(dòng)參數(shù)和倒頻譜參數(shù)對(duì)鑒別病理聲學(xué)信號(hào)的敏感性。結(jié)果正常組持續(xù)元音的jitter和shimmer值均小于聲帶息肉組(P<0.05);除STD L/HSR外,正常組持續(xù)元音的倒頻譜參數(shù)值均高于息肉組(P<0.05);連貫言語的倒頻譜參數(shù)中,男性聲帶息肉組的CPP、L/HSR均低于男性正常組(P<0.05),女性聲帶息肉組CPP值明顯低于女性正常組(P<0.05)。男女性持續(xù)元音聲信號(hào)的倒頻譜參數(shù)CPP和CSID在ROC曲線下的面積與參考值0.5相比,差異有統(tǒng)計(jì)學(xué)意義(P<0.05);男性連貫言語聲的CPP及L/HSR、女性CPP ROC曲線下的面積與參考值0.5的差異有統(tǒng)計(jì)學(xué)意義(P<0.05)。結(jié)論連貫言語聲和持續(xù)元音的擾動(dòng)參數(shù)和倒頻譜參數(shù)均可用于區(qū)別正常與聲帶息肉患者的噪音聲學(xué)信號(hào),倒頻譜參數(shù)CPP對(duì)區(qū)別正常和聲帶息肉患者嗓音信號(hào)有較好的特異度和靈敏度。
【關(guān)鍵詞】倒頻譜峰值突出;持續(xù)元音;連貫言語;聲帶息肉
網(wǎng)絡(luò)出版時(shí)間:2015-12-2815:12
網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/42.1391.R.20151228.1512.004.html
聲學(xué)評(píng)估是嗓音客觀評(píng)估中的重要部分,目前嗓音聲學(xué)評(píng)估的聲學(xué)信號(hào)樣本包括持續(xù)元音和連貫言語(句子)。聲學(xué)信號(hào)的分析方法包括基于提取穩(wěn)定頻率的擾動(dòng)方法和基于頻譜二次分析的倒頻譜方法;擾動(dòng)方法主要分析頻率微擾(jitter)、振幅微擾(shimmer),該方法一般只能用于分析持續(xù)元音,而在分析不規(guī)則的聲信號(hào)時(shí),其提取的聲學(xué)特性可能與原信號(hào)不相關(guān),出現(xiàn)較大的偏差[1,2]。倒頻譜方法主要分析:倒頻譜峰值突出(cepstral peak prominence,CPP)、低高頻譜能量比(the mean ratio of singnal energy below 4 000 Hz to the energy above 4 000 Hz,L/HSR)、CPP的標(biāo)準(zhǔn)差(STD CPP)及L/HSR的標(biāo)準(zhǔn)差(STD L/HSR),該方法在分析嗓音信號(hào)的頻譜時(shí),無需識(shí)別信號(hào)的穩(wěn)定周期邊界,對(duì)發(fā)音障礙嚴(yán)重程度的評(píng)估更加可靠,并且可以分析連貫言語聲信號(hào),而連貫言語聲較元音聲信號(hào)更能反映正常的發(fā)聲功能[3]。Awan等[3]發(fā)現(xiàn)嗓音障礙的嚴(yán)重程度和連貫言語的倒頻譜參數(shù)顯著相關(guān),并設(shè)計(jì)發(fā)音障礙倒頻譜指數(shù)(the cepstral/spectral index of dysphonia ,CSID)作為評(píng)估發(fā)音障礙的一個(gè)指標(biāo)[4,5]。本研究的目的在于研究擾動(dòng)方法和倒頻譜方法分析持續(xù)元音和連貫言語聲學(xué)信號(hào)對(duì)于鑒別聲帶息肉和正常嗓音的應(yīng)用價(jià)值,并探索各參數(shù)的敏感性和特異性。
1資料與方法
1.1研究對(duì)象聲帶息肉組選取2011年3月至2013年11月由廈門大學(xué)附屬中山醫(yī)院經(jīng)頻閃喉鏡檢查具有典型體征并最終經(jīng)病理檢查確診為聲帶息肉的患者26例,男10例,女16例,年齡17~60歲,平均35.1±7.8歲。正常嗓音組選取志愿受試者27例,男13例,女14例,年齡20~50歲,平均31.2±5歲,正常組的入選標(biāo)準(zhǔn)為模擬視覺尺度定量評(píng)估(consensus auditory preceptual evaluation-voice,CAPE-V)為無聲音嘶啞,嗓音障礙指數(shù)(voice handicap index-10,VHI-10)≤3分,頻閃喉鏡檢查聲帶形態(tài)及運(yùn)動(dòng)正常,排除了聽力異常、鼻部疾病、咽部疾病、呼吸系統(tǒng)疾病。
1.2研究方法
1.2.1嗓音聲學(xué)信號(hào)采集持續(xù)元音聲學(xué)信號(hào)采集:兩組對(duì)象均于屏蔽室內(nèi),采取站位,口距話筒15 cm左右,麥克風(fēng)與水平線成15°角,采樣頻率為44.1 kHz;囑受試者舒適平穩(wěn)的發(fā)/a/音2次,每次3~5秒,采用視頻反饋控制聲強(qiáng)在75±5 dB,收集聲學(xué)信號(hào)。
連貫言語聲學(xué)信號(hào)收集:兩組對(duì)象在上述環(huán)境中以相同的發(fā)聲方法誦讀句子“我愛北京天安門”收集聲學(xué)信號(hào)。
1.2.2嗓音聲學(xué)信號(hào)的分析采用基于擾動(dòng)方法編制的MDVP(multi dimensional voice program)軟件Model5105分析持續(xù)元音聲學(xué)信號(hào)的擾動(dòng)參數(shù)頻率微擾(jitter)、振幅微擾(shimmer)。
采用基于倒頻譜方法編制的連貫言語(analysis of dysphonia in speech and voice, ADSV) Model 5109系統(tǒng)分析持續(xù)元音聲學(xué)信號(hào)和連貫言語聲學(xué)信號(hào)的倒頻譜參數(shù): CPP、L/HSR、STD CPP、STD L/HSR及CSID。
1.3統(tǒng)計(jì)學(xué)方法使用SPSS18.5版本軟件對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,差異比較采用獨(dú)立樣本t檢驗(yàn)、兩個(gè)獨(dú)立樣本的Mann-Whitney U非參數(shù)檢驗(yàn)分析,各檢測(cè)采用受試者工作特征曲線(receiver operating characteristic curve,ROC曲線)分析參數(shù)的診斷價(jià)值。
2結(jié)果
2.1正常組不同性別受試者持續(xù)元音和連貫言語聲學(xué)信號(hào)分析結(jié)果正常組男性的持續(xù)元音聲學(xué)信號(hào)的擾動(dòng)參數(shù)jitter和shimmer低于女性,男女間shimmer的差異有統(tǒng)計(jì)學(xué)意義(P<0.05)(表1)。
正常組男性的持續(xù)元音聲學(xué)信號(hào)的倒頻譜參數(shù)CPP及L/HSR高于女性(P<0.05),其余各參數(shù)值的男女間差異無統(tǒng)計(jì)學(xué)意義(表1)。
正常組男性的連貫言語信號(hào)的倒頻譜參數(shù)STD CPP高于女性,L/HSR高于女性(均為P<0.05),余參數(shù)值的差異無統(tǒng)計(jì)學(xué)意義(表2)。
2.2聲帶息肉組和正常組間持續(xù)元音和連貫言語分析結(jié)果正常組男性和女性持續(xù)元音聲學(xué)信號(hào)的jitter、shimmer均小于聲帶息肉組(均為P<0.05)(表1)。
持續(xù)元音聲學(xué)信號(hào)倒頻譜聲學(xué)分析顯示正常組CPP、L/HSR值大于聲帶息肉組, STD CPP、STD L/HSR及CSID值小于聲帶息肉組,除STD L/HSR外,兩組間的差異均有統(tǒng)計(jì)學(xué)意義(均為P<0.05)(表1)。
連貫言語聲的倒頻譜聲學(xué)分析可見,男性聲帶息肉組和男性正常嗓音組之間STD CPP及STD L/HSR差異無統(tǒng)計(jì)學(xué)意義(P>0.05),男性聲帶息肉組CPP、L/HSR值均低于正常組(均為P<0.05);女性聲帶息肉組CPP值明顯低于女性正常組(P<0.05)(表2)。
±s)
注:*與同組女性比較,P<0.05;△與聲帶息肉組同性別比較,P<0.05
±s)
注:*與同組女性比較,P<0.05;△與聲帶息肉組同性別比較,P<0.05
2.3持續(xù)元音和連續(xù)言語聲學(xué)信號(hào)倒頻譜參數(shù)ROC曲線分析結(jié)果持續(xù)元音聲學(xué)信號(hào)的倒頻譜參數(shù)ROC曲線分析,可見CPP和CSID在ROC曲線下的面積與參考值0.5相比,差異均有統(tǒng)計(jì)學(xué)意義(P<0.05)(圖1)。
連貫言語聲學(xué)信號(hào)倒頻譜參數(shù)的ROC曲線分析,可見男性CPP及L/HSR曲線下的面積分別為0.22及0.14,女性CPP曲線下的面積為0.79,曲線下的面積與參考值0.5的差異有統(tǒng)計(jì)學(xué)意義,其余參數(shù)的曲線下面積與參考值0.8比較差異無統(tǒng)計(jì)學(xué)意義(圖2)。
3討論
研究認(rèn)為連貫言語符合正常說話的習(xí)慣,在主觀聽感知評(píng)估與聲學(xué)評(píng)估中使用連貫言語優(yōu)于使用元音[6,7]。目前,中文連貫言語聲評(píng)估多運(yùn)用聽感知評(píng)估方法[8~10],其在聲學(xué)客觀評(píng)估中的應(yīng)用研究較少。本研究進(jìn)行了元音及中文連貫言語的聲學(xué)分析,中文連貫言語選擇了中科院提供的句子“我愛北京天安門”,結(jié)果顯示持續(xù)元音與連貫言語聲的倒頻譜聲學(xué)分析參數(shù)可以很好地區(qū)分正常和聲帶息肉患者的嗓音,連貫言語聲的倒頻譜參數(shù)具有較好的敏感性,該結(jié)果與Lowell等[11]研究結(jié)果相似。
嗓音聲學(xué)分析方法有很多,主要含頻域方法、擾動(dòng)方法和非線性方法,其中倒頻譜分析是頻域分析方法中的一種,是指對(duì)嗓音信號(hào)的頻譜進(jìn)行傅里葉逆變換,對(duì)嗓音信號(hào)進(jìn)行兩次分析的結(jié)果[12]。由于倒頻譜是對(duì)嗓音信號(hào)的頻譜進(jìn)行頻譜分析,并計(jì)算頻譜信號(hào)的基頻上的峰值和平均值的差值,因此,倒頻譜分析較擾動(dòng)方法(需要提取穩(wěn)定F0分析對(duì)異常的嗓音信號(hào)進(jìn)行鑒別)更加可靠,適用于分析連貫言語信號(hào)[13,14]。倒頻譜分析參數(shù)主要為倒頻譜峰值突出(CPP)、低頻高頻比值(L/HSR);CPP為倒頻譜峰值的高度與倒頻譜的其余分量的差值,表示除去噪聲信號(hào)后和諧音的振幅幅度,嗓音信號(hào)中噪聲成分越多,CPP值越低[15,16]。正常嗓音具有更多的周期性成分,CPP值較大,而聲帶疾病患者因嘶啞音的存在,嗓音信號(hào)中存在更多的噪聲成分,其倒頻譜的峰值將會(huì)降低[17]。文中研究結(jié)果證實(shí),聲帶息肉組的CPP低于正常組,連貫言語聲的CPP低于元音。L/HSR為嗓音信號(hào)中低于4 000 Hz的能量與高于4 000 Hz的能量的比值,正常嗓音信號(hào)的能量主要集中在4 000 Hz以下,異常嗓音信號(hào)中由于噪聲成分(各個(gè)頻率能量基本相同的聲音信號(hào))的增加,頻率在4 000Hz以下的信號(hào)能量相對(duì)減少,L/HSR值變低,因此,不規(guī)則嗓音信號(hào)的L/HST更低。從文中結(jié)果看,正常組L/HSR高于聲帶息肉組,但差異無統(tǒng)計(jì)學(xué)意義,故L/HSR在嗓音質(zhì)量評(píng)估中須慎重應(yīng)用。
CSID是定量評(píng)估發(fā)音障礙的一個(gè)度量,它是根據(jù)聲學(xué)的四個(gè)變量(CPP、STD CPP、L/HSR和STD L/HSR)的數(shù)值計(jì)算得來的嗓音障礙倒頻譜指數(shù)[3~5]。文中結(jié)果顯示正常組CSID明顯低于聲帶息肉組,差異有統(tǒng)計(jì)學(xué)意義(P<0.05),表明CSID也可用于臨床預(yù)估聲帶息肉患者發(fā)音障礙的嚴(yán)重程度。目前,國(guó)內(nèi)尚沒有根據(jù)中文句子的聲學(xué)特性與主觀評(píng)估相關(guān)性而計(jì)算CSID的公式,可作為下一步研究的方向。
圖1 連續(xù)元音倒頻譜參數(shù)的ROC曲線分析
a為男性,b為女性,其中男性聲帶息肉患者的CPP、STD CPP、CSID及女性聲帶息肉患者的CPP、STD CPP、CSID曲線下的面積與參考面積0.5相比,差異有統(tǒng)計(jì)學(xué)意義(P<0.01)
圖2 連貫言語倒頻譜參數(shù)的ROC曲線分析
a為男性,b為女性,其中男性聲帶息肉患者的CPP及L/HSR參數(shù)曲線下的面積分別為0.22及0.14,女性聲帶息肉患者的STD CPP曲線下的面積為0.79,與參考面積0.5的差異有統(tǒng)計(jì)學(xué)意義
文中結(jié)果顯示正常組女性CPP值低于男性,與Balasubramanium等[18]的研究相似,可能是由于大約80%的女性發(fā)聲時(shí)聲門后端存在縫隙,因而與男性相比,女性發(fā)出的聲音存在更多的氣息音,導(dǎo)致其嗓音具有更低的CPP值[18]。
從文中結(jié)果看,ROC曲線分析顯示元音與連貫言語聲的聲學(xué)分析參數(shù)在區(qū)別正常和聲帶息肉患者嗓音信號(hào)時(shí)都具有較好的特異性和敏感性。然而,與前期研究的擾動(dòng)參數(shù)(jitter、shimmer在ROC曲線下的平均面積為0.96、0.86)[19]相比,倒頻譜參數(shù)在ROC曲線下的面積更小,說明倒頻譜聲學(xué)分析方法并不比擾動(dòng)方法的診斷價(jià)值更大,是否與使用的中文句子的合理性或者樣本量大小有關(guān),需要進(jìn)一步研究,但由于倒頻譜分析法可以分析連貫言語聲信號(hào),仍可以作為擾動(dòng)分析方法的重要補(bǔ)充。
參考文獻(xiàn)4
1Titze IR, Liang H. Comparison of F0 extraction method for high-precision voice perturbation measurements[J]. J Speech Hear Res,1993,36:1120.
2Packard NH, Crutchfield JP, Farmer JD, et al. Geometry from a time series[J]. Phys Rev Lett, 1980, 45: 712.
3Awan SN, Roy N. Toward the development of an objective index of dysphonia sverith: a four-factor acoustic model[J]. Clin linguist phon, 2006, 20:35.
4Awan SN, Roy N, Jette ME, et al. Quantifying dysphonia severity using a spectral/cepstral-based acoustic index:comparisons with auditory-perceptual judgements from the CAPE-V[J]. Clin Linguist Phon, 2010, 24:742.
5Awan SN, Roy N. Outcomes measurement in voice disorders: application of an acoustic index of dysphonia severity[J]. J Speech Lang Hear Res, 2009, 52:482.
6Mors C. Vowel- and text-based cepstral analysis of chronic hoarness[J]. Journal of Voice, 2012, 26:416.
7Lowell SY. The acoustic cssessment of voice in continuous speech[J]. Perspectives on Voice and Voice Disorders, 2012, 22: 57.
8王剛,于萍,徐文,等.嗓音主觀聽感知評(píng)估穩(wěn)定性的研究[J].中華耳鼻咽喉頭頸外科雜志,2011,46:485.
9李進(jìn)讓,孫雁雁,徐文,等.嗓音障礙主觀聽感知評(píng)估中標(biāo)準(zhǔn)化朗讀文本的設(shè)計(jì)[J].中華耳鼻咽喉頭頸外科雜志,2010,45:719.
10趙逸,王偉,鄭宏良,等,嗓音障礙聽感知評(píng)估漢語普通話朗讀文本的設(shè)計(jì)[J],聽力學(xué)及言語疾病雜志,2014,22:130.
11Lowell SY, Colton RH, Kelley RT, et al. Spectral- and cepstral-based measures during continuous speech: capacity to distinguish dysphonia and consistency within a speaker[J]. Journal of Voice,2011, 25: 223.
12韓德民,Sataloff RT. 嗓音醫(yī)學(xué)[M].北京:人民衛(wèi)生出版社,2007.132~136.
13Hillenbrand JM. A methodological study of perturbation and additive noise in synthetically generated voice signals[J]. J Speech Hear Res,1987, 112: 324.
14Watts CR, Awan SN. Use of spectral/cepstral analyses for differentiating normal from hypofunctional voices in sustained vowel and continuous speech contexts[J]. Journal of Speech, Language, and Hearing Research, 2011, 54:1523.
15Adrian F, 張家騄.嗓音質(zhì)量評(píng)價(jià)與測(cè)量(2)[J].聽力學(xué)及言語疾病雜志,2008,16:439.
16Heman-Acka YD, Michael DD, Goding GS. The relationship between cepstral peak prominence and selected parameters of dysphonia[J]. Journal of Voice, 2002,16: 20.
17Zhang Y, Jiang JJ. Nonlinear dynamic analysis in signal typing of pathological human voices[J]. Electronics Letters, 2003,39:1021.
18Balasubramanium RK, Bhat JS, Fahim S, et al. Cepstral analysis of voice in unilateral adductor vocal fold palsy[J]. J Voice, 2011, 25: 326.
19余明強(qiáng),徐新林,張賽,等.非線性動(dòng)力學(xué)方法在分析聲帶息肉、囊腫患者嗓音信號(hào)中的應(yīng)用[J].聽力學(xué)及言語疾病雜志,2013,21:244.
(2015-06-17收稿)
(本文編輯周濤)
·臨床研究·
A Cepstral Analysis of Sustained Vowels and Continuous
Speech in Patients with Vocal Polyps
Yu Mingqiang*, Zhou Li, Xu Xinlin, Pan Han, Zhuang Peiyun
(*Department of Otorhinolaryngology, Zhongshan Hospital Affiliated
Xiamen University, Xiamen, 361004,China)
【Abstract】ObjectiveTo study vowels and related speech cepstral parameters, and to explore the role of identification between the voice of normal and vocal polyps using the vowel and speech cepstral parameters.MethodsMDVP and ADSV software were used to analyze vowels and sustained speech cepstral parameters of patients with vocal fold polyps and subjects with normal voice. The continued vowel acoustic signal disturbance, and sustained speech cepstrum parameters of acoustic signals were studied.ResultsIn the normal group, the continued vowel acoustic signal jitter disturbance parameters and shimmer value were smaller them those of in the vocal fold polyps group. The differences between the two groups had statistical significance (P<0.05). For sustained vowel's acoustic signal cepstrum parameters, the acoustic parameters for males and females, except STDL/H, had statistical significant differences of between the two groups (P<0.05). There were significant differences between the group of
△國(guó)家自然科學(xué)基金(NSFC81371080)、福建省衛(wèi)生系統(tǒng)中青年骨干人才培養(yǎng)項(xiàng)目(2013-ZQN-JC-35)聯(lián)合資助
1廈門大學(xué)附屬中山醫(yī)院耳鼻咽喉科(廈門361004);2廈門大學(xué)
the male vocal fold polyp and the normal males for the sustained speech cepstrum parameters except for the STDCPP and STDL/H parameters. There were differences between the female vocal fold polyp group and normal female group for the sustained speech cepstrum parameters in comparison. Only the CPP parameters had statistically significant differences (P<0.05).ConclusionThe continuous speech cepstrum analysis for vowels could be used to distinguish voices of the normal from patients with vocal polyps with a good degree of specificity and sensitivity.
【Key words】Cepstral peak prominence (CPP);Sustain vowel;Continuous speech;Vocal polyps
通訊作者:莊佩耘(Email:peiyunzhuang@yahoo.com)
作者簡(jiǎn)介:余明強(qiáng),男,福建人,副主任醫(yī)師,主要研究方向?yàn)檠屎砑膊〖吧ひ翎t(yī)學(xué)。
【中圖分類號(hào)】R767.4;R767.92
【文獻(xiàn)標(biāo)識(shí)碼】A
【文章編號(hào)】1006-7299(2016)01-0015-05
DOI:10.3969/j.issn.1006-7299.2016.01.004