浙江醫(yī)藥高等??茖W校醫(yī)療器械學院 鄒 鋒 趙祥欣
本文選用SVD嗓音數(shù)據(jù)庫中的元音/a/音和連續(xù)語段,提取其的Mel頻域倒譜系數(shù)(MFCC),支持向量機SVM的核函數(shù)采用高斯核函數(shù),分別對各600例的正常者和病理嗓音患者的元音/a/音和連續(xù)語段進行訓練和識別。識別分類結(jié)果表明,連續(xù)語段的結(jié)果優(yōu)于元音/a/音,因此在病理嗓音自動分類研究中可以采用連續(xù)語段作為聲學分析樣本。
隨著社會交往日益頻繁和生活習慣的改變,嗓音疾病的發(fā)病率也逐年增高,嗓音疾病是喉科臨床上的常見病、多發(fā)病,約占耳鼻喉科疾病的5%-10%。嗓音疾病會導致患者嗓音嘶啞、發(fā)聲困難、嚴重可導致完全失聲。更有甚者,聲帶小結(jié)和聲帶息肉若不及時治療,可易造成突發(fā)癌變。
嗓音疾病診斷通過發(fā)音質(zhì)量的主觀、客觀評估、電子頻閃喉鏡、氣流動力學喉部功能評估、喉神經(jīng)肌肉電功能評估等方面進行檢查。其中的儀器檢查都為診斷喉部病變情況、喉部肌肉和聲帶病變情況,屬于侵入性的檢查方式,對患者有一定的痛苦及損傷。正常和病理嗓音的聲學參數(shù)是會有一定的區(qū)別,通過嗓音的聲學參數(shù)分析,形成客觀自動評估技術(shù),為嗓音病理診斷提供了一種明確的、量化的分級方式,是一種快速、非侵入性的自動檢測方法。該方法可去除傳統(tǒng)方法在時間、空間上的限制,能夠在病理早期就能做出診斷該評估方法降低了主觀評估的偶然性,而且方便易用實現(xiàn),降低了醫(yī)生的負擔?;诼晫W分析技術(shù)已成為人工智能醫(yī)療的一個熱點方向。
病理嗓音的客觀自動評估技術(shù)是提取病理嗓音聲學客觀參數(shù),采用機器學習技術(shù)進行分類。提取方面,傳統(tǒng)的擾動參數(shù)和頻譜參數(shù)已廣泛應用于分析病理嗓音的改變和描述嗓音質(zhì)量在聲學分析是嗓音客觀評估中的重要部分,目前嗓音聲學評估的聲學信號樣本包括持續(xù)元音和連貫言語。元音能較好地反映聲帶振動的實質(zhì),因此大多數(shù)的研究都專注于持續(xù)元音,而不是連續(xù)語段,實際上連續(xù)語段更能反映出病理特性。語音信號包含了靜止的持續(xù)的元音,但它是隨著連續(xù)時間變化的,許多嗓音問題在持續(xù)元音中不能完全展現(xiàn)。本研究擬將對持續(xù)元音和連續(xù)語段為聲學樣本的識別進行比較,從而進行嗓音客觀評估中的聲學樣本的探索研究。
本實驗數(shù)據(jù)來源于SVD庫,SVD庫(Saarbruecken Voice Database,德國薩爾布呂肯公開數(shù)據(jù)庫),它是由德國薩爾大學語音學院負責錄制可自由下載的數(shù)據(jù)庫。該數(shù)據(jù)庫包含1-3s持續(xù)的元音[i,a,u]和連續(xù)語段(德語)“Guten Morgen,wie geht es Ihnen?”。數(shù)據(jù)庫中所有錄制的聲音均以50KHz采樣,采用16位分辨率。本實驗從SVD庫挑選正常和病理嗓音的元音/a/音和連續(xù)語段,提取12維Mel頻域倒譜系數(shù)(MFCC)的聲學參數(shù),采用支持向量機(support vector machine,SVM)對正常和病理組進行分類識別。
由于本研究只是比較持續(xù)元音和連貫言語為聲學樣本的識別,本研究采用語音識別中非常重要的音頻特征MFCC作為單一聲學特征參數(shù)。
圖1 MFCC的計算過程
MFCC在一定程度上模擬了人耳對語音的處理特點,應用了人耳聽覺感知方面的研究成果,在有信道噪聲和頻譜失真的情況下具有較好的魯棒。它是Mel標度頻率域提取出來的倒譜參數(shù),在語音識別中有很好的性能,還被用來檢測發(fā)音器官(嘴唇、舌頭)等在運動中微小的變化。
MFCC和實際頻率的轉(zhuǎn)換關系如下:
MFCC的計算過程如圖1所示。
由于支持向量機(SVM)模型在小樣本分類上方便可靠,病理嗓音患者的醫(yī)學樣本屬于小樣本,因此本研究采用支持向量作為分類器。
SVM是主要用于解決模式識別領域中的數(shù)據(jù)分類問題,屬于有監(jiān)督學習算法的一種。是一種典型的二分類模型,其主要思想是通過在特征空間中尋找最大區(qū)間來實現(xiàn)線性分類。當為線性不可分時,核函數(shù)將輸入空間映射到高維特征空間。典型的核函數(shù)有多項式、RBF和Sigmoid。SVM為處理分類問題提供了強有力的機器,而其更好的泛化性能是基于結(jié)構(gòu)風險最小化原則(SRM)。SVM對二分類問題可以得到很好的結(jié)果,病理嗓音客觀識別的研究中,不少研究者都采SVM來區(qū)分正常與病理嗓音者。
本實驗聲音樣本為元音/a/音和連續(xù)語段,其中連續(xù)語段為德語句子“Guten Morgen,wie geht es Ihnen?”。從SVD庫挑選600例正常和600例病理嗓音作為實驗樣本,其中80%的數(shù)據(jù)作為訓練集,20%的數(shù)據(jù)作為測試集。
為了解決樣本長度不一致,采用補零法對齊法使得每個樣本時長一致,其中元音/a/音的每個樣本都為86幀數(shù)據(jù),連續(xù)語段的每個樣本都為117幀數(shù)據(jù)。提取聲學樣本的12維Mel頻域倒譜系數(shù)(MFCC)為聲學特征參數(shù)。支持向量機SVM的核函數(shù)選擇高斯核函數(shù),分別對元音/a/音和連續(xù)語段進行訓練和識別。
從準確率(AC)、準確率(PR)、召回率(RE)和F1分數(shù)四個方面評價分類效果。準確率、精密度和召回率可以直接反映分類的表現(xiàn),F(xiàn)1分數(shù)是精密度和召回率整合在一起的判斷標準。元音/a/音和連續(xù)語段分類性能結(jié)果如表1所示。如表所示,連續(xù)語段較元音/a/音有較好的識別效果。
表1 元音/a/音和連續(xù)語段分類結(jié)果
連續(xù)語段是符合正常會話的模式,其比持續(xù)元音包含更多的嗓音信息,從實驗結(jié)果發(fā)現(xiàn)其識別效果是較高的。然而,連續(xù)語段中間存在聲音開始、結(jié)束、存在聲帶的振動頻率的改變,意味要處理更復雜的聲學參數(shù),這是無意是個挑戰(zhàn)。因此,基于連續(xù)語段的嗓音分類評估是一項在實踐領域更有意義的工作。