張椏童,何 凌,張 婷,尹 恒,李 楊
(1.四川大學 電氣信息學院,四川 成都610065;2.成都航空職業(yè)技術學院 國有資產(chǎn)管理處,
四川 成都610100;3.四川大學 華西口腔醫(yī)院,四川 成都610041)
腭裂語音的主要表現(xiàn)有共振異常、過高鼻音、鼻漏氣和代償性構音等[1]。臨床上,由結構性腭咽閉合功能不全引起的高鼻音的診斷最為重要。但是,目前高鼻音的診斷主要是針對高鼻音存在與否的判定,沒有對高鼻音等級進行詳細的區(qū)分。此外,判定的方式大部分是通過語音師的主觀評估,這種方式受到語音師的主觀因素和周圍環(huán)境的客觀因素影響,會給判定結果帶來一定的影響。因此,高鼻音自動識別算法的研究在臨床上具有重大意義。
腭裂語音序列治療最早由英國的Copper醫(yī)師提出,此后,唇腭裂的治療及診斷發(fā)展迅速。高鼻音作為腭裂語音評估和輔助治療的主要因素,引起了國內(nèi)外廣泛的關注[2-5]。Talkin等[6-7]從時域和頻域角度對基音頻率的提取進行了一系列研究,發(fā)現(xiàn)基音頻率在語音信號處理方面具有實用意義;Maier等[8]將聲調特征值、24 維Mel倒譜系數(shù) (MFCC)和Teager能量算子作為特征參數(shù),結合隱馬爾科夫模型 (HMM)進行了腭裂兒童的高鼻音識別,獲得了70%的識別率。
本文基于語音發(fā)聲模型,對腭裂語音高鼻音特性進行分析。腭裂語音中高鼻音的產(chǎn)生,是由于腭咽閉合不全,導致口腔氣流溢入鼻腔。因此,高鼻音特性主要來自語音的口鼻腔,即語音信號的輻射模型,故設想包含輻射模型的特征參數(shù)在腭裂語音高鼻音等級的識別中具有優(yōu)勢。針對此,本文分別提出了基于激勵模型、聲道模型和綜合聲學參數(shù) (基于輻射模型)的特征參數(shù),并進行了實驗驗證。實驗結果表明,高鼻音等級識別率最高的是基于綜合聲學參數(shù)的MFCC高鼻音識別算法。
通過對發(fā)音器官和語音產(chǎn)生機理的分析,將語音生成系統(tǒng)分為了3個部分:激勵系統(tǒng)、聲道系統(tǒng)和輻射系統(tǒng)[9]。
該模型由濁音激勵和清音激勵組成。當發(fā)濁音時,聲帶的不斷閉合產(chǎn)生間歇的脈沖波,其數(shù)學表達式如下所示
式中:N1——斜三角波上升部分的時間,N2——下降部分的時間。
單個斜三角波的z變換的表達式如下所示
式中:c——常數(shù)。
整個濁音激勵表示如下所示
由此可以看出,濁音激勵波是一個以基音周期為周期的斜三角脈沖串。
聲道模型常見的有兩種:聲管模型和共振峰模型。共振峰模型把聲道看作一個諧振腔,共振峰即為這個腔體的諧振頻率。諧振腔可以改變原本語音的頻譜特性,在諧振頻率上能量加強,其它頻率上能量衰弱,有一定的濾波作用。能夠決定元音的音質,也反映了聲腔的頻率特性。
一般情況下,元音用前3 個共振峰表示,輔音用前5個共振峰表示。
元音因發(fā)音的口腔相對穩(wěn)定,可以全極點模型來模擬,其傳輸函數(shù)如下所示
式中:N——極點個數(shù),G——幅值因子,ak——常系數(shù)。
輔音因發(fā)音時,口腔有一定的突變,故用零極點模型來模擬,其表示如下所示
該模型與嘴型有關,一般情況下,表達式如下所示
綜上,語音信號的數(shù)學模型可以用激勵模型、聲道模型和輻射模型串聯(lián)起來表示,如圖1所示。
圖1 語音信號數(shù)學模型
其傳輸函數(shù)如下所示
該模型為 “短時模型”,本文利用該模型與人體語音產(chǎn)生的相關性,分別提取了基于該模型特性的腭裂語音高鼻音特征參數(shù),進行高鼻音等級的自動識別。特征參數(shù)分別為基音 (激勵模型);共振峰 (聲道模型);短時能量和Mel倒頻譜系數(shù) (綜合聲學參數(shù))。
本文的腭裂語音高鼻音等級自動識別系統(tǒng)分為訓練階段和識別階段兩部分。訓練階段主要是提取數(shù)據(jù)庫中腭裂語音的基音、共振峰、短時能量、Mel倒頻譜系數(shù)特征參數(shù),分別得到各自的訓練模型參數(shù)集。識別階段,利用K-最近鄰算法進行高鼻音等級的自動識別和判定。本文的系統(tǒng)框架如圖2所示。
圖2 高鼻音自動識別系統(tǒng)流程
腭裂語音信號的預處理是指通過預濾波、A/D 轉換、預加重和分幀加窗等處理,得到干凈的短時平穩(wěn)數(shù)字語音信號。本文實驗數(shù)據(jù)來自于專業(yè)的語音室,通過coolpro2軟件剪輯得到待處理的數(shù)字語音信號,通過漢明窗進行分幀加窗。
腭裂語音高鼻音特征參數(shù)的提取是將不同高鼻音程度的腭裂語音特征信息提取出來,為等級自動識別系統(tǒng)提供級別特征相對穩(wěn)定的識別參數(shù)。其作為腭裂語音高鼻音等級自動識系統(tǒng)中最重要的一環(huán),提取參數(shù)的優(yōu)劣很大程度上決定了系統(tǒng)識別率的高低。本文高鼻音特征參數(shù)分別是基于語音數(shù)學模型的參數(shù)。
2.2.1 基于激勵模型的特征參數(shù)
本文針對語音信號的激勵模型,提取了基音頻率作為高鼻音特征參數(shù)?;纛l率的檢測使用的是倒譜法。首先,對分幀后的腭裂語音信號進行線性預測分析,得到線性預測系數(shù)ai,并將ai構成逆濾波器A(z);然后由逆濾波器對原分幀語音信號譜特征進行處理,便得到預測余量信號ε(n);再對預測余量信號進行DFT 變換、取對數(shù),并將高頻分量置為零;最后進行IDFT 變換,得到原信號的倒譜。即根據(jù)倒譜中的基音信息檢測出基音頻率。
該算法具有較強的魯棒性圖3 為成人 (Female)不同高鼻音等級腭裂患者同一語音段 “吃蛋糕”的基音頻率圖。
2.2.2 基于聲道模型的特征參數(shù)
本文針對語音信號的激勵模型,采用LPC 線性預測法提取共振峰,作為高鼻音特征參數(shù),具體步驟:
(1)對原始信號進行加窗分幀,幀長為20ms,幀移為10ms。再對分幀后的語音信號進行重采樣,減小采樣率,方便對信號的后期處理。
圖3 不同高鼻音等級基音頻率
(2)通過對預處理后信號求取12階線性預測濾波器系數(shù),得到基于聲道模型的全極點濾波器傳遞函數(shù)。其公式如下所示
式中:G——線性系統(tǒng)的增益,ai——線性預測濾波器系數(shù),p 代表線性預測濾波器階數(shù)。
(3)采用牛頓-拉夫遜算法對傳遞函數(shù)的分母多項式求根,得到共振峰的值,如式 (9)所示。再將求得的根從小到大依次排列,依次為F1、F2、F3、F4、F5
式中:θi——極點的相位角,T——采樣周期。
圖4為成人 (Female)不同高鼻音等級腭裂患者同一語音段 “蹺蹺板”的線性預測器頻譜包絡圖,包絡中的極值所對應的頻率即為共振峰頻率。
2.2.3 基于綜合聲學參數(shù)的特征參數(shù)
考慮到腭裂最直接影響的是語音信號的輻射模型,故本文在輻射模型的基礎上,提取了兩種基于綜合聲學參數(shù)的特征參數(shù),即短時能量和Mel倒頻譜系數(shù)。
(1)短時能量:短時能量是語音信號處理中最基本的短時參數(shù),它反映了各個等級下的高鼻音語音信號的時域特性[10]。本文的具體步驟:
1)通過預處理,得到了每20ms一幀的腭裂語音信號x (n)。
2)利用式 (10)求解每一幀的能量
式中:x(n)——加窗分幀后的語音信號,w(m+n)——窗函數(shù),M——幀長。
圖4 不同高鼻音等級共振峰
3)采用補零的方法將不同幀數(shù)的語音進行統(tǒng)一幀數(shù)。
最終,得到了統(tǒng)一幀數(shù)的不同等級的腭裂語音信號的短時能量模型參數(shù)。圖5為成人 (Female)不同高鼻音等級腭裂患者同一段語音 “爬樓梯”的能量圖。
圖5 不同高鼻音等級能量
(2)Mel倒頻譜系數(shù)
Mel頻率倒譜分析基于人耳的聽覺特性[11],在高鼻音等級識別中相對其它特征參數(shù)具有優(yōu)勢。本文的具體步驟:
1)利用漢明窗對腭裂語音信號進行分幀,得到分幀后的語音信號x(n)。
2)將加窗分幀后的語音信號進行離散傅里葉變換。因FFT 變換點數(shù)過大會增大運算復雜度,過小會降低頻譜分辨率,故本文選取882點。即得到每幀語音信號的線性頻譜,如下所示
式中:N——FFT 變換點數(shù)。
3)將上面得到的線性頻譜通過32個具有三角形濾波特性的Mel頻譜濾波器組,得到Mel頻譜S(l),如下所示
每個帶通濾波器的傳遞函數(shù)如下所示
其中,l=1,2,…,L,L 代表濾波器組中濾波器的個數(shù)。k代表頻譜,kbi代表帶通濾波器的邊界頻譜值。
4)對濾波器組的輸出依次作對數(shù)變換、離散余弦變換,最終得到MFCC系數(shù),如下所示
綜上,便得到了不同等級的腭裂語音信號的32階Mel倒頻譜系數(shù)模型參數(shù)。圖6為成人 (Female)不同高鼻音等級腭裂患者同一段語音 “爸爸”的MFCC參數(shù)圖。
圖6 不同高鼻音等級MFCC
K-最近鄰算法是一種經(jīng)典的模式識別方法,它在解決不平衡數(shù)據(jù)集的分類問題方面具有很大優(yōu)勢[12]。其基本思想是:測試樣本 (未知樣本)確定時,在該樣本的模式空間中尋找出最接近本測試樣本的K 個訓練樣本 (已知樣本),然后通過對尋找到的K 個最近的樣本進行統(tǒng)計和分析,找到數(shù)量最多的類或相似度最高的類,即把測試樣本判決給相似度最大的類。
腭裂語音高鼻音數(shù)據(jù)集含有M 類 (本文高鼻音等級只有4類:正常、輕度、中度和重度),每一類分別記作Ci(1≤i≤M),所有樣本都有N 個屬性。
(1)計算測試樣本與所有訓練樣本的距離,如下所示
式中:X——測試樣本,Y——訓練樣本。
(2)在訓練樣本中尋找K 個最近鄰樣本。
(3)利用式 (16)分別計算上面找到的K 個訓練樣本與本測試樣本的相似程度
(4)計算各類最近鄰與測試樣本的總相似度,如下所示
(5)將測試樣本按式 (18)判決為相似度最大的類
實驗數(shù)據(jù)來源于四川大學華西口腔醫(yī)院唇腭裂外科語音治療中心。該中心具有近十年的唇腭裂序列治療經(jīng)驗,收集了大量的腭裂語音數(shù)據(jù),建立了 “四川大學華西口腔醫(yī)院語音矯治室普通話構音測量表”,形成了成熟且完善的評估流程與評估機制。根據(jù)統(tǒng)計學原理,為確保高鼻音等級自動識別的準確性,本次實驗選用數(shù)據(jù)共80個病例,分別為成人 (male)40 人,高鼻音等級正常、輕度、中度、重度各10人;成人 (Female)40人,高鼻音等級正常、輕度、中度、重度各10人。每個病例使用了測量表中的前42個詞匯進行了識別,即21個輔音每個有2個詞匯。
分別對本文的4種腭裂語音高鼻音等級識別算法進行高鼻音等級識別,高鼻音等級分為正常、輕度、中度、重度4個等級。4 種算法腭裂語音高鼻音等級識別結果見表1,識別率見表2。
表1 4種算法腭裂語音高鼻音等級識別結果
通過表2可以看出,高鼻音等級識別率最高的算法是MFCC,依次是能量、共振峰、基音。成人 (Female)MFCC識別率比能量高30.86%,比共振峰高37.11%,比基音高46.95%;成人 (male)MFCC 識別率比能量高26.83%,比共振峰高35.91%,比基音高41.84%?;诰C合聲學參數(shù)的特征參數(shù)MFCC 和能量的識別率均比基于激勵模型和聲道模型的要高。
表2 4種算法高鼻音等級識別率
本文通過對語音信號發(fā)聲模型的分析,提取了基于不同發(fā)聲模型階段的腭裂語音高鼻音特征參數(shù),利用K-最近鄰算法進行高鼻音等級自動識別。實驗結果表明,與臨床意義一致,腭裂語音高鼻音主要影響發(fā)聲的輻射模型,故本文最高的識別參數(shù)是包含輻射模型的短時能量和MFCC特征參數(shù)?;贛FCC 參數(shù)的高鼻音等級識別率高達87.40%,具有重要的臨床實用意義。在以后的研究中,還可以針對多種腭裂語音的病理表現(xiàn),如鼻漏氣、輔音缺省、代償構音等,建立全面的腭裂語音識別系統(tǒng),實現(xiàn)臨床應用。
[1]CHEN Renji.The state and consider about speech therapy of cleft palate in China [J].International Journal of Oral Medicine,2012,39 (1):1-6 (in Chinese). [陳仁吉.中國腭裂語音治療的現(xiàn)狀與思考 [J].國際口腔醫(yī)學雜志,2012,39(1):1-6.]
[2]Orozco JR,Uribe JA,Vargas JF.Operador de everglade Teager para la detección de hipernasalidad en nios con labio y paladar hendido[J].Rev Tecno Lógicas,2011 (2):27-45.
[3]Murillo S,Orozco JR,Vargas JF,et al.Automatic detection of hypernasality in children [G].LNCS 6687:Springer Ber-lin/Heidelberg,2011:167-174.
[4]Little M,Costello D,Harries M.Objective dysphonia quantification in vocal fold paralysis:Comparing nonlinear with classical measures[J].J Voice,2011,25 (1):21-31.
[5]Arias-Londoo JD,Godino-Llorente JI,Sáenz-Lechón N,et al.Automatic detection of pathological voices using complexity measures,noise parameters and mel-cepstral coefficients [J].IEEE Trans Bio-med Eng,2011,58 (2):370-9.
[6]Stephen A Zahorian, Hu Hongbing.A spectral/temporal method for robust fundamental frequency tracking [J].J Acosut Soc Am,2008,123 (6):4559-4571.
[7]Stephen A Zahorian,Princy Dikshit,Hu Hongbing.A spectral-temporal method for pitch tracking [C]//International Conference on Spoken Language Processing,2006.
[8]Maier A K,Honig F,Hacker C,et al.Automatic evaluation of characteristic speech disorders in children with cleft lip and palate[C]//9th Annual Conference on Speech Communication and Association,2008:1757-1760.
[9]ZHONG Linpeng.Studies on the speech signals processing of the speaker recognition system [D].Chengdu:University of Electronic Science and Technology of China,2013:10-12 (in Chinese).[鐘林鵬.說話人識別系統(tǒng)中的語音信號處理技術研究 [D].成都:電子科技大學,2013:10-12.]
[10]LIU Qi.Analysis of short-time energy and amplitude of audio signal[J].Network Security,2011 (9):78-79 (in Chinese).[劉琦.語音信號短時能量及短時幅值對比分析 [J].網(wǎng)絡安全技術與應用,2011 (9):78-79.]
[11]LI Yuding.Discussion for Mel cepstrum coefficient of speech signal feature extraction algorithm [J].Journal of Higher Correspondence Education,2012,25 (4):78-80 (in Chinese).[李玉鼎.語音信號特征提取中Mel倒譜系MFCC算法的討論 [J].高等函授學報,2012,25 (4):78-80.]
[12]Gautam Bhattacharya,Koushik Ghosh,Ananda S Chowdhury.An affinity-based new local distance function and similarity measure for KNN algorithm [J].Pattern Recognition Letters,2012,33 (3):356-363.