舒敏 張毅 蔣家琪
嗓音是言語交流的媒介,是人聲作用于聽覺器官產(chǎn)生的一種主觀感受;靈敏的聽力可能勝過許多精密的儀器,因此,盡管嗓音評估的客觀方法有很多,主觀評估仍被視為最能夠反映嗓音自然特征的方法,并被視作檢驗嗓音客觀評估是否準(zhǔn)確的金標(biāo)準(zhǔn)[1,2]。日本言語醫(yī)學(xué)和嗓音醫(yī)學(xué)學(xué)會提出的GRBAS分級方法(Hirano,1981)是目前臨床上應(yīng)用最廣泛的嗓音主觀感知評價方法,然而,目前許多研究表明,其元音聲樣及離散分級方法需要進(jìn)一步改進(jìn)。美國言語及聽力協(xié)會提出的CAPE-V分級標(biāo)準(zhǔn)使用特定語句,有效激發(fā)病理嗓音,結(jié)合非范疇響應(yīng)技術(shù)進(jìn)行主觀評估,在臨床上具有一定實用價值[3],但其測試語句為英文,并不適用于中文語言者。本研究擬通過對基于CAPE-V設(shè)計原則[4]建立的嗓音評估中文測試文本進(jìn)行信度和效度分析,包括評委自身穩(wěn)定性、評委間一致性以及與客觀聲學(xué)評估的一致性,探討該測試文本臨床應(yīng)用的可行性,以期為建立統(tǒng)一、標(biāo)準(zhǔn)的中文主觀評估系統(tǒng)提供參考。
1.1研究對象及分組 隨機選擇就診于復(fù)旦大學(xué)附屬眼耳鼻喉科醫(yī)院、以聲嘶為主要癥狀就診的患者196例(試驗組),其中,男92例,年齡22~75歲,平均45.6±10.3歲,女104例,年齡18~69歲,平均40.9±9.6歲,具體病種及分布見表1。選擇無嗓音障礙病史、無咽喉疾患、無吸煙飲酒史、喉鏡檢查聲帶無明顯異常者24例作為對照組,其中,男10例,年齡29~58歲,平均33.9±9.0歲,女14例,年齡23~71歲,平均38.0±12.4歲。
表1 不同病理嗓音病種在試驗組男、女性患者中的分布(例)
1.2主觀聽覺評估 通過CSL(Computerized Speech Lab)應(yīng)用MDVP軟件進(jìn)行聲音樣本信號采集。方法:受試者口距麥克風(fēng)10 cm,囑其以舒適、自然的音調(diào)朗讀測試文本;遵照CAPE-V設(shè)計原則:①反映聲帶振動功能;②反映聲門閉合情況;③激發(fā)輕松起聲;④激發(fā)硬起聲;⑤可評估鼻腔共鳴情況。本研究中已建立的中文測試文本如下:①大伯喜愛綠色植物;②湖里的荷花很好看;③我們能去哪里呢;④阿姨支持義務(wù)教育;⑤李麗拉我過馬路。使用Audition3軟件對所有嗓音樣本進(jìn)行歸一化處理,以避免不同聲強對評估者可能造成的判斷上的差異,同時避免評估者在評估過程中不斷調(diào)整音量。10位聽評委為來自不同醫(yī)院的耳鼻喉科高年資醫(yī)生(工作年限>7年),對咽喉科疾病具有豐富的診療經(jīng)驗。正式評估前,每位評委均接受“外部參考模式”培訓(xùn),以消除因“內(nèi)部參考模式”不同而引起的評委間差異性[1,5~8]。嗓音主觀聽覺評估在各自安靜的辦公室環(huán)境中進(jìn)行,聽取錄音過程中,評估者可反復(fù)聽取錄音直至做出認(rèn)為正確的評價,評估維度包括總體嚴(yán)重度、粗糙感、氣息聲和緊張感,評委將評估結(jié)果標(biāo)注在量尺上,量尺采用非范疇響應(yīng)技術(shù)及mVA分級標(biāo)準(zhǔn)[4,9](圖1),量尺全長10 cm,起點為0,代表嗓音正常;1 cm處標(biāo)注MI,代表輕度障礙;5 cm處標(biāo)注MO,代表中度障礙;9 cm處標(biāo)注SE,代表重度障礙;終點為10 cm,代表極重度障礙,計分時不包含單位cm。為便于分組比較,將患者嗓音障礙嚴(yán)重程度按主觀評估得分劃分:0~4分為1級(輕度障礙);4~20分為2級(中度障礙);20~36分為3級(重度障礙);36~40分為4級(極重度障礙)。四個維度得分相加,得分越高則嗓音障礙越嚴(yán)重。
圖1 嗓音主觀評估量尺
1.3嗓音客觀聲學(xué)分析 囑受試者發(fā)元音/a/,每個元音發(fā)聲持續(xù)3秒鐘,共三次;取第二次發(fā)聲的聲音樣本的中間段(以中點為界,左右各取0.5 s,共1 s)用于聲學(xué)客觀分析。分析以下指標(biāo):
頻率微擾(jitter):是聲帶振動周期在時間上差異的度量,結(jié)果用微擾百分?jǐn)?shù)(%)表示;振幅微擾(shimmer):是聲帶振動周期在聲強上差異的度量,結(jié)果用振幅微擾百分?jǐn)?shù)(%)表示;信噪比(SNR):反映聲音波形中噪聲的含量;倒頻譜峰值突出(cepstral peak prominence, CPP):由于周期性聲音的頻譜在頻率上具有周期性,這個頻譜本身就可以被分析,這種對頻率進(jìn)行雙重處理分析的結(jié)果稱為倒頻譜。倒頻譜峰值突出是倒頻譜峰值與回歸線上該峰值點對應(yīng)的振幅值的比值,信號的周期性越高,CPP值亦越高。由于非周期性嗓音信號的倒頻譜圖峰值不突出,較為平坦,因而CPP值也較低。近期研究發(fā)現(xiàn),CPP與主觀分析結(jié)果高度相關(guān)[10~13]。關(guān)聯(lián)維(correlation dimension, D2)和二階墑(second-order entropy, K2):關(guān)聯(lián)維是一個用來測量相空間內(nèi)軌跡上兩點間關(guān)聯(lián)度的幾何參數(shù);二階墑是描述動態(tài)系統(tǒng)隨時間其信息消失速率的參數(shù)。非線性分析相對于傳統(tǒng)的微擾分析,不需要準(zhǔn)確計算基頻,且對嗓音信號的長度、采樣速率及嗓音的要求顯著低于微擾分析,在多項研究中顯示出了較微擾分析更高的有效性、可靠性和診斷效力,是分析病理嗓音信號較理想的工具。D2與K2值越大,表明嗓音信號的不規(guī)則性越高[14~17]。
1.4統(tǒng)計學(xué)方法 數(shù)據(jù)統(tǒng)計采用軟件SPSS 20 (IBM Corp),采用Pearson相關(guān)分析對評委自身穩(wěn)定性進(jìn)行評估;采用組內(nèi)相關(guān)系數(shù)(ICC)對評委間一致性進(jìn)行評估;主觀評估系統(tǒng)對正常與病理嗓音的區(qū)別作用采用受試者工作特征曲線(ROC曲線)下面積(AUC)分析,若AUC>0.5,說明該系統(tǒng)具有一定診斷價值;主觀分析與客觀分析的一致性采用Pearson相關(guān)分析及單因素ANOVA分析,Pearson相關(guān)系數(shù)用r表示,r為0~0.3時,兩者間的相關(guān)性較弱;r為0.3~0.7時,兩者具有中等相關(guān)性;r為0.7~1.0時,兩者強烈相關(guān)。P<0.05為差異具有統(tǒng)計學(xué)意義。
2.1主觀評估中文測試文本的信度分析 信度分析包括評委自身穩(wěn)定性及評委間一致性。共獲得275個聲音樣本,包括正常嗓音樣本24個,病理嗓音樣本196個,重復(fù)嗓音樣本55個。重復(fù)嗓音樣本是在正常嗓音和病理嗓音樣本中隨機選擇的,用于評估評委自身穩(wěn)定性,重復(fù)數(shù)據(jù)的比例占總研究對象的28%,與文獻(xiàn)報道一致[1],在總體嚴(yán)重度、粗糙感、氣息聲和緊張感四個維度中,評委們對粗糙感的評估穩(wěn)定性最高,相關(guān)系數(shù)均值為0.748;對緊張感的評估穩(wěn)定性較差,相關(guān)系數(shù)均值為0.687(表2)。
表2 10位評委4個評估維自身穩(wěn)定性評估Pearson相關(guān)系數(shù)(r值)均值及r>0.7的評委人數(shù)
10位評委對各個維度的評估一致性較高,在總體嚴(yán)重度上,組內(nèi)相關(guān)系數(shù)(ICC)為0.685,粗糙感為0.654,氣息感為0.589,緊張感為0.623。一般認(rèn)為ICC低于0.4表示信度較差,高于0.75表示信度良好。
2.2與既往主觀評估測試文本信度分析研究的結(jié)果比較 與Karnell[18]、Kelchner[19]和Zraick[3]已發(fā)表的研究結(jié)果進(jìn)行對比,各個研究及各個維度間的結(jié)果具有明顯差異 (表3)。
2.3嗓音主觀評估與聲學(xué)分析一致性評估 在10位評委中,除去一個最高值和一個最低值,取剩下值的平均值作為該維度的主觀評估得分,每例樣本的主觀評估得分為4個維度得分的總和。主觀評估與客觀分析一致性比較Pearson相關(guān)系數(shù)分析顯示,jitter(%)、shimmer(%)、SNR、CPP、D2、K2的r值分別為0.343(P<0.01)、0.469(P<0.01)、-0.665(P<0.01)、-0.557(P<0.01)、0.269(P<0.01)、-0.032(P>0.05),可見,除K2之外,jitter(%)、shimmer(%)、SNR、CPP均與主觀評估有一定相關(guān)性,以SNR的相關(guān)性最強。將受試者的嗓音障礙程度按照主觀評估得分分為4級,其聲學(xué)測試結(jié)果以單因素ANOVA進(jìn)行分析,結(jié)果表明,在所有客觀指標(biāo)上,不同等級間的嗓音聲學(xué)分析結(jié)果差異均具有統(tǒng)計學(xué)意義(P<0.01),嗓音障礙程度越重,則jitter(%)、shimmer(%)、D2、K2值越高,SNR、CPP值越低(表4)。
2.4主觀評估中文測試文本對正常嗓音和客觀嗓音的區(qū)別能力 在嗓音主觀評估的總體嚴(yán)重度、粗糙感、氣息聲、緊張感各維度中,總體嚴(yán)重度的ROC曲線下面積(AUC)為0.948,粗糙感為0.96,氣息聲為0.949,緊張感為0.96,均大于0.5,提示該文本對正常嗓音及病理嗓音的鑒別能力良好。
表3 各主觀評估測試文本信度分析研究的結(jié)果比較
注: G=總體嚴(yán)重度; R=粗糙度; B=氣息聲; S=緊張感;rs: Spearman 相關(guān)系數(shù); ICC:組內(nèi)相關(guān)系數(shù);r:Pearson 相關(guān)系數(shù)
表4 主觀評估不同程度嗓音障礙者的嗓音聲學(xué)分析結(jié)果比較
注:*D2和K2值趨向于無窮,無法計算。**G0~G2之間比較
嗓音障礙表現(xiàn)為聲音的音高、音強和音質(zhì)發(fā)生變化,又可表現(xiàn)為嘶啞、粗糙、氣息聲以及共鳴障礙。音高及音強的變化可通過客觀分析儀器定量評估,主觀評估對音質(zhì)障礙的感知更具優(yōu)勢。本研究已建立的測試語句以激發(fā)病理性嗓音、獲取不同的喉部行為和臨床癥狀為目的,語句1“大伯喜愛綠色植物”包括所有常用單元音,且均為一個聲母加一個韻母的二音素單字或僅以雙元音作為一個音節(jié)的單字;該設(shè)計可最大程度的延長元音發(fā)音,使元音發(fā)音清晰可辨;語句2“湖里的荷花很好看”多采用以/h/開頭的漢字,用來評估軟起聲的發(fā)聲方式;語句3“我們能去哪里呢”采用的漢字多包含鼻音/m/或/n/,用于評估鼻腔共鳴的情況;語句4“阿姨支持義務(wù)教育”以元音開頭的漢字易激發(fā)硬起聲,該句用于評估硬起聲方式。另外,采用喉塞音評估聲門閉合情況。喉塞音是通過阻礙空氣在聲腔流動來發(fā)音,由于發(fā)音部位在聲門,因此通過聲門閉塞而發(fā)音。由于日常漢語中缺少獨立的喉塞音漢字,本研究采用第四聲調(diào)的元音模擬喉塞音;語句5“李麗拉我過馬路”由濁輔音和元音組成的漢字,用來考察聲帶振動情況。本研究結(jié)果顯示,評委自身穩(wěn)定性及評委間一致性均較高,但對緊張感的評估穩(wěn)定性與一致性最差,這與Karnell[18]、Kelchner[19]和Zraick[3]等三人的研究結(jié)果一致。Kelchner[19]認(rèn)為造成此結(jié)果的原因在于,發(fā)音緊張的患者除了聲音上具有能被感受到的特征外,更重要的是喉部肌肉在發(fā)音時也具有極大的張力,而這一點是無法通過聲音感知的,使得評估者無法作出正確的判斷。本研究共招募嗓音障礙患者196名,用于主觀分析的嗓音樣本為275個,10位經(jīng)驗豐富的臨床醫(yī)生應(yīng)邀參與了主觀評估工作;而在上述三項研究中,評估者3~21名不等,用于分析的嗓音樣本則均少于60個。一般認(rèn)為,樣本量越大,評估者越多,變異性就越大[20,21],而本研究所檢驗的中文測試文本在評委自身穩(wěn)定性和評委間一致性方面與其他測試文本相近,部分維度甚至優(yōu)于其他量表,表明該評估系統(tǒng)具有較高的可信度。
嗓音的自然特性決定了主觀評估作為檢驗客觀分析有效性的參考方法[22],而從另一方面看,客觀評估指標(biāo)與主觀評估結(jié)果的高度一致性亦在多項研究中被驗證,從這一點來說,客觀評估有助于交叉驗證主觀評估的正確性。本研究結(jié)果顯示,所設(shè)計的中文測試文本主觀評估值與客觀分析值高度相關(guān),具有較高的校標(biāo)效度;主客觀相關(guān)性最高的客觀指標(biāo)為信噪比(r=0.668),其次為倒頻譜分析參數(shù)CPP(r=-0.557),該結(jié)果與文獻(xiàn)報道[12,15]一致。非線性動力學(xué)分析有助于定性定量地描述非周期性信號,然而在本研究中,D2和K2值與嗓音障礙程度相關(guān)性較其他客觀指標(biāo)低;Awan[23]的研究中也得出同樣的結(jié)果??赡艿脑驗?,在非周期性嗓音樣本中,存在一類高隨機性、具有白噪音特征的第四類嗓音信號[24],計算這類信號D2和K2值的曲線無法聚攏,而使得關(guān)聯(lián)維值趨向于無窮,無法量化嗓音的嚴(yán)重程度,從而降低了與主觀評估的關(guān)聯(lián)度。
本研究結(jié)果顯示,對于不同程度嗓音障礙者的嗓音樣本的客觀聲學(xué)分析值也有明顯差異,大多數(shù)指標(biāo)[jitter(%)、 shimmer(%)、SNR、 CPP]在相鄰等級間的差異顯著(P<0.01);在重度障礙的嗓音組中,部分樣本由于高度不規(guī)則,無法定量計算D2和K2值,因此僅在正常嗓音、輕度障礙嗓音和中度障礙嗓音之間進(jìn)行比較,顯示相鄰等級間存在差異(P<0.05)。雖然重度障礙嗓音不能通過測量D2和K2值定量分析,但是從定性分析的角度看,重度嗓音障礙與其他等級的嗓音障礙間存在明顯差異,因此,可以看出,本研究設(shè)計的中文測試文本對不同程度嗓音障礙的分辨率良好,具有較好的區(qū)分效度。
受試者特征曲線(ROC)及曲線下面積(AUC)用來分析量表區(qū)別正常與病理嗓音的能力[25,26],曲線越靠近左上角,說明模型的預(yù)測力越強。在AUC>0.5的情況下,AUC越接近于1,說明診斷效果越好。AUC在0.5~0.7時有較低準(zhǔn)確性,AUC在0.7~0.9時有一定準(zhǔn)確性,AUC在0.9以上時有較高準(zhǔn)確性。本研究中,每個維度的AUC均在0.95左右及以上,說明應(yīng)用該主觀評估測試文本,研究者能夠準(zhǔn)確區(qū)分正常與病理嗓音的概率在95%及以上,結(jié)果令人滿意。
本研究通過對所設(shè)計的主觀評估中文測試文本進(jìn)行信度和效度分析,結(jié)果表明,該測試文本具有較高的信度以及區(qū)分效度和校標(biāo)效度,與國外文獻(xiàn)相比,本測試文本的信度亦優(yōu)于或相似于其他測試文本,具有潛在臨床應(yīng)用價值。不足之處在于,缺乏與國內(nèi)目前使用的朗讀文本及主觀評估量表的比較,有待今后進(jìn)一步研究。