朱欣程,伍遠博,趙登煌,張曉俊,陶智
(蘇州大學光電科學與工程學院,江蘇 蘇州 215006)
嗓音疾病直接影響人們的健康和社會交流。由于受工作壓力、環(huán)境影響或長期吸煙等因素的影響,我國有約9%的人患有不同程度的嗓音疾病,其中從事著需要長期用嗓職業(yè)的人群,諸如教師、播音員等,嗓音疾病患病率更高,而聲帶疾病在所有嗓音疾病中占據(jù)很大的比例[1-2]。嗓音疾病的預(yù)防和早期發(fā)現(xiàn)可為患者的治療和康復(fù)提供有益的幫助。目前喉部嗓音疾病診斷方法大都采用諸如肌電圖描記,動態(tài)鏡檢查、喉鏡檢查等,這些均為侵入式的檢測方法,患者會感受一定程度的不適。因此如何采用聲學分析的方法設(shè)計出一種具有無創(chuàng)性,客觀性和便攜性等諸多特點的病理嗓音智能識別系統(tǒng),成為當前一個研究熱點[3]。
病理嗓音識別系統(tǒng)通常由特征提取和模式識別兩部分組成。因此如何有效提高識別系統(tǒng)性能的關(guān)鍵在于特征參數(shù)和分類器的選取。根據(jù)特征所代表的嗓音信號的聲學特征的差異,可分為擾動特征,非線性特征、以及倒譜特征等。擾動特征描述了由嗓音疾病引起的聲帶的不規(guī)則振動所產(chǎn)生的非周期性噪聲(例如基頻微擾百分比、振幅微擾和相對平均擾動)[4]。研究發(fā)現(xiàn)語音產(chǎn)生過程中,當氣流通過聲帶腔體時會產(chǎn)生渦流,并且渦流區(qū)域也會對語音信號有調(diào)制作用,從而會存在非線性現(xiàn)象[5]。然而,非線性特征和擾動特征的計算有賴于窗口長度的適當選擇和對基頻的準確估計[6]。在譜分析特征領(lǐng)域,線性預(yù)測倒譜系數(shù)(Linear Predictive Cepstral Coefficient,LPCC)、梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficient,MFCC)等倒譜特征不依賴于基頻的準確估計,但是它們更傾向于表征聲道系統(tǒng),而不能夠描述直接由嗓音疾病引起的聲帶振動機制的變化。除了上述特征以外,MPEG-7 特征[7]和聲門特征[8]在語音特征提取方面具有廣泛的應(yīng)用前景。Wu 等[9]通過MPEG-7 特征結(jié)合隨機森林分類器的病理嗓音二分類識別率達到了99.12%。聲門波形從信號角度直接反映了正常聲帶振動與病理聲帶振動的差異。近年來,特征融合因其可以獲得不同特征之間的最具有差異性的信息的特點,在病理實驗識別中廣泛應(yīng)用[10-11]。
本文提出了一種融合MPEG-7 和聲門特征的非侵入式病理嗓音檢測方法,通過聲門逆濾波方法獲取語音信號的聲門特征,再融合MPEG-7 特征,以細致地表征病理性聲音與健康聲音之間的差異,最終以TMS320VC5509A 為核心來設(shè)計該病理嗓音識別系統(tǒng)。
大多數(shù)嗓音疾病都會破壞聲帶的組織結(jié)構(gòu),這將直接影響聲帶的靈活性、對稱性和其他物理性質(zhì),從而導(dǎo)致聲門波產(chǎn)生變化,需要采用聲門逆濾波的算法來實驗嗓音聲門波信號的提取。Fant[12]基于發(fā)聲原理,提出了一種聲源濾波理論:發(fā)聲系統(tǒng)由聲門激勵模型、聲道濾波器模型和口唇輻射模型組成。其中聲門波信號提供的體積速度譜用G(z)表示;聲道氣道的傳遞函數(shù)表示為V(z),該傳遞函數(shù)賦予在幅度譜中表現(xiàn)為共振峰的共振影響;口唇輻射效應(yīng)是將嘴唇處的體積速度轉(zhuǎn)換為聲壓的微分器,由L(z)表示。語音信號S(z)通過聲道濾波器模型和口唇輻射模型組成的濾波器進行逆濾波處理,由此可以得到聲門波G(z)。假定語音信號S(z)和濾波器之間是線性無關(guān)的。在Z域中,數(shù)學表達式為[13]:
聲門激勵模型G(z)、聲道濾波器模型V(z)、口唇輻射模型L(z)同時組成語音信號S(z)的頻譜傾斜。LPC 線性預(yù)測在基于聲門激勵源G(z)的頻譜傾斜效應(yīng)消除的情況下可以較為精準地估計聲道。聲門逆濾波的具體過程如圖1 所示。
圖1 聲門逆濾波過程
聲門源信號是由肺部氣流引起的聲帶振動直接產(chǎn)生的,即聲門波形從信號角度直接反映了正常聲帶振動與病理聲帶振動的差異。圖2 顯示了原始正常和病理的語音信號波形和用聲門逆濾波方法得到的正常嗓音和病理嗓音的聲門波波形,上兩張圖是正常聲音和病理聲音的原始語音信號,下兩張圖是正常嗓音和病理嗓音的對應(yīng)聲門波形。對于相應(yīng)的聲門波形,不僅兩個語音樣本的諧波成分不同,而且正常嗓音的歸一化值遠高于病理嗓音的歸一化值。
圖2 正常及病理語音信號波形和聲門波形
1.2.1 MFCC 特征參數(shù)
在人耳聽覺感知實驗中發(fā)現(xiàn),人類的聽覺系統(tǒng)是一個特殊的非線性系統(tǒng),人耳就像一個濾波器組,對不同頻率的聲音具有不同的靈敏度。梅爾頻率倒譜系數(shù)(MFCC)是精確符合人耳聽覺感知特性的特征參數(shù)。其基本原理是把線性頻譜映射到基于人耳聽覺感知特性的梅爾非線性頻譜中,然后再映射到倒譜上。在語音信號中,低頻信號部分包含大多數(shù)信息,高頻信號部分易受到噪聲的干擾。MFCC 系數(shù)加強語音的低頻信息,因此具有一定的魯棒性。MFCC 特征提取具體流程如圖3 所示。
圖3 MFCC 特征提取流程圖
1.2.2 LPCC 特征參數(shù)
線性預(yù)測倒譜系數(shù)(LPCC)是目前倒譜類特征提取應(yīng)用最廣泛的方法之一。首先將預(yù)處理后的語音信號進行線性預(yù)測編碼(Linear Prediction Coding,LPC),隨后進行倒譜運算后便可以得到LPCC。LPC 通過某個采樣時間之前某個時刻采樣值的線性組合進行估計和預(yù)測。首先利用傳統(tǒng)的全極點模型計算LPC,再利用快速傅里葉變換(Fast Fourier Transform,FFT)運算,對結(jié)果進行對數(shù)運算,最后通過傅里葉逆變換便可得到LPCC。LPCC 特征提取具體流程如圖4 所示。
圖4 LPCC 特征提取流程圖
1.2.3 MPEG-7 特征參數(shù)
多媒體內(nèi)容描述接口(MPEG-7)音頻特征參數(shù)[14]來自基于ISO/IEC15938 的國際多媒體內(nèi)容描述標準,該標準由視頻和音頻部分組成。由于MPEG-7 音頻特征在聲學研究中的高度差異性,它們已被用于各種聲學研究中。MPEG-7 特征是低級特征,有兩種類型:標量和矢量。整個MPEG-7 特征集的維數(shù)為45,矢量類型特征包括音頻頻譜包絡(luò)(3維特征),音頻頻譜平坦度(22 維特征),音頻頻譜基礎(chǔ)(2 維特征)和音頻頻譜投影(2 維特征)。其他是標量類型的特征包括音頻波形(2 維特征),音頻功率,音頻頻譜質(zhì)心,音頻頻譜,音頻協(xié)調(diào)性(2 維特征),音頻基頻(2 維特征),對數(shù)起音時間,時間質(zhì)心,頻譜質(zhì)心,諧波頻譜質(zhì)心,諧波頻譜偏差,諧波頻譜擴展和諧波頻譜變化。
1.2.4 聲門特征參數(shù)
當氣流通過聲帶時,聲帶會產(chǎn)生振動。氣流因為聲帶的振動而變成空氣脈沖??諝饷}沖形成的壓力信號是準周期的,稱為聲門波。聲門脈沖是聲門波的一個周期。其聲門波波形的計算公式如下:
式中:函數(shù)?(t)表示直到聲門激發(fā)時刻的聲門脈沖時間導(dǎo)數(shù),tqc表示聲帶碰撞的瞬間,T表示聲門脈沖周期,tr表示最大興奮瞬間之后的時間間隔,稱為返回階段。
根據(jù)文獻[15]中提出的聲門流模型,?(t)可以通過下面的公式計算出來:
式中:Ad指的是聲門脈沖時間導(dǎo)數(shù)的振幅。
用聲門逆濾波方法,從聲源提取出來的聲門特征可以分為兩組:時域特征和頻域特征。時域特征可以是通過使用不同的相位和瞬間來描述。此外,聲門源信號在不同相位的幅度還用于計算基于振幅的聲門源特征。與時域特征不同,頻域特征反映了頻譜傾斜本質(zhì),是從聲門頻譜計算出來的。本文具體所采用的聲門特征描述及公式[16]如表1 所示。
表1 中,tmax為聲門信號幅值最大對應(yīng)的時刻,tc為聲門關(guān)閉時刻;to1和to2分別為聲門主要、次要打開時刻;tqc和tqo定義為聲門波曲線的振幅越過曲線的50%和峰峰值幅度水平的時間數(shù)值。Aac為聲門波峰峰值脈沖幅度,Admax為聲門脈沖時間導(dǎo)數(shù)幅度最大值,Admin為聲門脈沖時間導(dǎo)數(shù)幅度最小值,f0為基音頻率。HW代表第W次諧波的幅值,H1表示基音頻率的幅值。b為聲門波頻譜衰減參數(shù),bmax為DC 函數(shù)衰減參數(shù)。
表1 聲門特征參數(shù)集
病理嗓音識別系統(tǒng)主要包括音頻采集模塊、電源模塊、DSP 處理模塊、邏輯控制模塊、外部儲存模塊和JTAG 操作模塊。系統(tǒng)框圖如圖5 所示。DSP芯片采用的是TMS320VC5509A。語音信號通過音頻采集模塊TLV320AIC23 進行AD 轉(zhuǎn)換和濾波處理,再將濾波后的數(shù)字信號通過 DSP 芯片TMS320VC5509A 進行預(yù)處理、特征提取和識別。
圖5 病理嗓音識別系統(tǒng)
該系統(tǒng)的軟件主要依靠可視化編程的CCS 3.3環(huán)境。DSP 系統(tǒng)運行主程序和信號的數(shù)據(jù)處理、采樣、傳輸控制、訓(xùn)練、識別等部分。采樣、傳輸控制、信號分析處理等采用編程方法來完成。識別系統(tǒng)流程如圖6 所示。語音信號通過聲門逆濾波處理后提取其聲門特征;針對病理嗓音識別,本系統(tǒng)提取病理嗓音識別常用的MFCC、LPCC 和MPEG-7 特征參數(shù)。將聲門特征與這三種特征參數(shù)進行特征融合后進行機器學習,得出識別結(jié)果。
圖6 病理嗓音識別流程圖
實驗采用MEEI 數(shù)據(jù)庫[18],該數(shù)據(jù)庫包含了1 384例病理嗓音/ɑ:/(選擇元音/ɑ:/作為測試集,一方面因為/ɑ:/音較少地受到口腔的影響,二是因為/ɑ:/音會更多地受到聽覺反饋的影響),并給出了專家診斷結(jié)果。從該數(shù)據(jù)庫中選取53 個正常嗓音和149 個病理嗓音作為數(shù)據(jù)子集,選用這個子集是考慮了各種病理嗓音的種類以及正常和病理嗓音庫的性別和年齡分布情況。具體統(tǒng)計表如表2所示。
表2 嗓音情況統(tǒng)計表
實驗采用十折交叉驗證的方法,采用當今主流的機器學習算法:支持向量機(SVM)、貝葉斯網(wǎng)絡(luò)(Bayes Net)、BP 神經(jīng)網(wǎng)絡(luò)(BP)、局部加權(quán)線性回歸(LWL)、簡單邏輯回歸(SL)5 種分類器進行識別實驗。實驗結(jié)果如表3 所示。
表3 聲門融合特征識別率統(tǒng)計表 單位:%
在貝葉斯網(wǎng)絡(luò)(Bayes Net)、BP 神經(jīng)網(wǎng)絡(luò)(BP)、簡單邏輯回歸(SL)、支持向量機(SVM)、局部加權(quán)線性回歸(LWL)5 種機器學習分類器識別下,MFCC、LPCC 及MPEG-7 融合聲門特征的識別率優(yōu)于傳統(tǒng)的MFCC、LPCC 及MPEG-7 特征的識別率。其中MFCC 融合聲門特征的平均識別率比MFCC 特征平均識別率高2.87%,LPCC 融合聲門特征的平均識別率比LPCC 特征平均識別率高1.78%,MPEG-7 融合聲門特征的平均識別率比MPEG-7 特征平均識別率高0.6%。MPEG-7 融合聲門特征結(jié)合SVM 分類器更是達到了100%的識別率。
為了探究聲門特征區(qū)分正常聲音和病理聲音的能力,對MFCC、LPCC、MPEG-7 融合聲門特征的正常和病理嗓音的盒圖進行對比,結(jié)果如圖7 所示。從圖7 可以看出,正常和病理聲音的特征總體分布,三者融合聲門特征的盒圖中正常聲音和病理聲音之間幾乎沒有數(shù)據(jù)重疊,這也意味著融合聲門特征可以更好地區(qū)分正常聲音和病理聲音。
圖7 正常與病理嗓音融合特征的盒圖對比圖
圖8 顯示了聲門特征融合MPEG-7 特征的前三個區(qū)別特征(glottal-MPEG-7 1,2,3)的三維散點圖。從圖中可以看出,雖然正常(圓圈)和病理(十字)樣本有輕微的重疊,但這兩類樣本總體分布的高度分化表明,聲門特征融合MPEG-7 特征能夠有效地將正常聲音與病理聲音分離開來。
圖8 三維散點圖(glottal-MPEG-7 1,2,3)
表4 為MFCC 特征、MFCC 融合聲門特征、LPCC 特征、LPCC 融合聲門、MPEG-7 特征、MPEG-7融合聲門特征在SVM 分類器下的正確率、卡帕統(tǒng)計量、平均絕對誤差和相對絕對誤差指標??梢钥闯鲈赟VM 分類器下,本文所提出特征的正確率和卡帕統(tǒng)計量最高,平均絕對誤差和相對絕對誤差最低,客觀表明本文方法精確度最高,誤差最小,算法性能最佳。
表4 識別結(jié)果指標對比表
為了提高病理嗓音系統(tǒng)檢測的性能,本文采用聲門特征與MPEG-7 特征融合的方法,并且以DSP 芯片TMS320VC5509A 為核心設(shè)計了高精度的非侵入式病理嗓音識別系統(tǒng)。根據(jù)實驗結(jié)果,病理嗓音在5 種主流機器學習方法下的平均識別率為96.6%。其中結(jié)合SVM 分類器可達到100%的識別率,并且卡帕統(tǒng)計量最高,平均絕對誤差和相對絕對誤差最低。充分表明聲門與MPEG-7 的融合特征能更好地刻畫病理性聲音與健康聲音之間的豐富細節(jié)內(nèi)容和差異度。
在今后的實驗中,可通過優(yōu)化SVM 中的核函數(shù)等方法,以進一步提高病理嗓音的識別率。此外,考慮到單一數(shù)據(jù)庫的局限性,未來將采用更多的病理嗓音數(shù)據(jù)庫進行二分類及細分類的研究。