張濤,林麗琴,張亞娟,牛曉霞
1.燕山大學 信息科學與工程學院,河北 秦皇島066004
2.燕山大學 河北省信息傳輸與信號處理重點實驗室,河北 秦皇島066004
帕金森?。≒arkinson’s disease,PD)是一種中老年常見的神經(jīng)退行性疾病,其患病人數(shù)僅次于阿爾茲海默癥。到目前為止,針對帕金森病的治療都是控制病情發(fā)展而無法從根本上治愈。因此,對帕金森病的早期診斷研究成為了該領域的研究熱點。基于便于使用、可遠程傳輸?shù)膬?yōu)勢,基于語言障礙的帕金森病早期診斷自2007 年由牛津大學的Little 提出以來便廣受關注,使得帕金森病的語言障礙分析成為了研究熱點。
2009 年,Little 等人利用傳統(tǒng)聲學特征,如Jitter、Shimmer、諧波噪聲比(harmonics to noise ratio,HNR)等提取語音信號中的時域特性和頻域特性,用于分辨受試者是否患有帕金森病,為本領域研究奠定了數(shù)據(jù)基礎;2011 年,張濤等人通過引入多元音分析豐富了語音采樣方法;2013 年,Sakar 等人利用增加了持續(xù)元音不同的音高特征以及周期特征和無聲中斷的特征。此后,不少學者在帕金森語音特征提取方向進行了深入而有效的研究,Benba 等人利用人因子倒譜系數(shù)(human factor cepstral coefficients,HFCC)進行聲紋特征參數(shù)的提取,這種方法相比傳統(tǒng)的倒譜分析方法獲得了更加可靠的性能;Karan 等人利用變分模式分解(variational mode decomposition,VMD)將語音信號分解為模式或子信號以提取語音信號的相關信息;張小恒等人提出了雙邊式混合語音特征選擇的優(yōu)選算法,挖掘語音段和特征的協(xié)同效應;此外還提出分包融合集成算法,該算法通過設計類心距離比值來衡量樣本的混疊程度,有效增加了帕金森語音樣本的利用率。與此同時,隨著深度學習的發(fā)展,卷積神經(jīng)網(wǎng)絡、HR-DCGAN-VGG16 模型與深度置信網(wǎng)絡等方法也相繼被用于帕金森病語音障礙的數(shù)據(jù)表示。與此同時,以Mel域為代表的變換域特征提取方法在帕金森病語音障礙分析中取得了令人矚目的成果:Khan 等人引入倒譜分離干擾(cepstral separation disturbs,CSD)和Mel 倒譜系數(shù)(Mel frequency cepstral coefficients,MFCC)來監(jiān)測帕金森病患者的言語癥狀,利用Mel倒譜系數(shù)表示語音特征的細節(jié),并在3 級UPDRS 量表和2 級UPDRS 量表都具有良好的準確率;Orozco-Arroyave 等人利用Mel倒譜系數(shù)提取清音的能量含量并將其應用于三種不同的語言檢測帕金森病患者;Naranjo 等人提出了一種兩階段的變量選擇和分類方法,增加了不同階數(shù)的MFCC,使結果的可解釋性得到了改善。與此同時,在變換域中進行結構特征提取的研究方法在帕金森語音障礙分析中展現(xiàn)出優(yōu)勢。文獻[17]提出通過統(tǒng)計時頻混合域中能量數(shù)據(jù)的差分值計算其梯度統(tǒng)計特征,以此表示不同時頻域能量值的突變情況,其分類結果明顯優(yōu)于傳統(tǒng)特征。文獻[18]提出一種基于經(jīng)驗模式分解的能量方向特征,強調(diào)了語音信號的高頻成分,提供了更多信息,在帕金森病診斷中具有良好的穩(wěn)定性與分類性能。由此可見,在對帕金森語音障礙分析的研究中,結構特征通過對梯度值的統(tǒng)計能綜合提取語音信號時頻域的變化情況,并且通過對各個方向能量變化值的統(tǒng)計,在一定程度上抑制噪聲,因此相較于傳統(tǒng)特征而言,結構特征在對帕金森語音障礙的分析中具有更加有效的表現(xiàn)效果。同時由于Mel 變換域?qū)τ谂两鹕Z音障礙分析的有效性,近年來相關研究正朝著高階特征提取的方向發(fā)展。這提示在Mel 變換域中提取結構特征可能會在帕金森檢測問題中獲得新的突破,但對Mel變換域進行結構提取的研究方法尚未見報道。
基于當前研究,本文以語音信號的Mel變換域為基礎,從結構角度提取局部梯度特征,并通過統(tǒng)計方法形成Mel頻率譜的局部梯度統(tǒng)計特征(statistical feature of local gradient,SFLG)。該方法從結構角度詳細描述了語音信號在Mel變換域的時頻結合特性,并通過統(tǒng)計方式克服局部噪聲帶來的不穩(wěn)定性。最后,將該帕金森病語音障礙分析方法與分類器相結合,實現(xiàn)對基于語音障礙的帕金森病診斷,提高診斷結果的準確性。
Mel 頻率系統(tǒng)由多個濾波器組成,Mel 域變換流程如圖1 所示。首先對語音信號進行預加重,對高頻部分進行補償;其次對預加重后的語音信號進行分幀加窗,然后通過短時傅里葉變換(short time Fourier transform,STFT)得到頻譜,最后通過Mel 濾波器組對能量譜頻域進行濾波得到Mel 頻譜。對Mel 頻譜進行歸一化,歸一化后的Mel 頻譜能量即為Mel 變換域能量。經(jīng)變換后得到的Mel域能量如式(1)所示。
圖1 Mel頻率域的變換流程圖Fig.1 Flowchart of Mel frequency domain transformation
(,)=Mel(())(1)其中,(,)表示語音信號從時域變換到Mel 域后所得到的Mel 變換域能量數(shù)據(jù);()表示時刻語音信號的強度;Mel 表示對()進行時域到Mel 域的一系列變換。
本文通過Mel 頻率提取方法將語音的時域信息和頻域信息同時轉(zhuǎn)換到Mel變換域,從而獲得符合人類聽覺特性的信號表示,突出相似語音中的聽覺差異部分,為進一步特征分析奠定基礎。健康人和帕金森病患者的Mel變換域能量歸一化后的結果如圖2所示。由圖2 可知,在Mel 變換域中,健康人語音的能量分布更加均勻,更具有規(guī)律性,而患者的能量分布范圍更加集中,Mel 變換域能量譜圖更為清晰直觀地表現(xiàn)出了健康人和帕金森病患者的能量分布情況。因此相對于傳統(tǒng)的頻譜圖,通過分析Mel變換域局部能量變化更能明顯地展現(xiàn)出健康人和帕金森病患者在語音信號中的差異。
圖2 健康人與PD 患者語音時域、頻域及Mel域?qū)Ρ菷ig.2 Comparison of speech in time domain,frequency domain and Mel transform domain between healthy people and patients with PD
在Mel變換域中,局部能量的方向和幅度差值均存在差異,而梯度可將Mel 變換域的時域幅度差值、頻域幅度差值、時頻混合域的幅度差值相結合;梯度變化的角度可展現(xiàn)三維立體空間中的每一個方向。因此Mel 域局部能量變化梯度與角度相結合更能明顯展現(xiàn)Mel 域能量的幅度與方向差異。為了詳細刻畫語音信號在Mel變換域能量譜圖上的特征,本文提出局部梯度統(tǒng)計特征提取方法,通過描述Mel變換域局部能量變化梯度和方向之間的關系完成對帕金森病語音障礙的分析。該方法首先通過檢測窗口選擇Mel 變換域局部能量數(shù)據(jù),然后計算窗口內(nèi)每個能量點的變化角度與梯度值,接著根據(jù)能量變化角度統(tǒng)計窗口內(nèi)能量點的梯度值,最后通過對統(tǒng)計的梯度值進行歸一化得到Mel 變換域全局的SFLG。SFLG的具體提取流程如圖3 所示。
圖3 SFLG 特征提取流程圖Fig.3 Flowchart for SFLG feature extraction
為了將Mel 變換域能量數(shù)據(jù)劃分為不同的局部能量數(shù)據(jù),首先在Mel域中通過檢測窗口檢測出局部能量數(shù)據(jù),變換域的時間范圍[0,],頻率范圍為[0,],變換域檢測窗口內(nèi)能量提取公式如式(2)所示。其中J(,)表示時域第個、頻域第個檢測窗口的局部能量數(shù)據(jù),t表示檢測窗口時間長度,0 <t<,t∈,f表示檢測窗口頻率長度,0 <f<,f∈。
圖4 變換域時頻角度方向示意圖Fig.4 Schematic diagram of timefrequency angle direction in transform domain
則根據(jù)每個能量點的時域變化量Δ、頻域變化量Δ,將偏移角度表示為式(4)。
在局部滑動窗口內(nèi),對于檢測能量點(,),(,)∈(,),對待檢測點不同能量變化方向進行求導,得到能量變化隨不同方向的變化速率。檢測點的能量隨不同方向的變化率計算式如式(5)所示。在變換域中時間變化 |Δ|≥1,頻率變化| Δ|≥1。
在檢測點的能量變化中,計算待檢測點不同方向的導數(shù)。最大的導數(shù)即為該點的梯度值,梯度值對應的角度為該檢測點的能量變化角度。則檢測點的梯度值計算公式如式(9)所示,能量變化角度如式(10)所示。
對于局部窗口內(nèi)的能量數(shù)據(jù)(,),根據(jù)上述方法計算每個局部能量點的梯度值與角度。為了反映局部檢測點能量梯度變化的整體情況,本文采用局部統(tǒng)計的方法統(tǒng)計局部梯度的整體變化情況,根據(jù)角度統(tǒng)計變換域局部能量變化的梯度值,構建包含時頻信息的SFLG。為了便于統(tǒng)計,本文將能量變化角度進行量化,量化公式如式(11)所示。并根據(jù)能量變化角度的量化級別統(tǒng)計檢測窗口內(nèi)局部能量梯度值,局部梯度統(tǒng)計公式如式(12)所示。
在式(11)、式(12)中,b表示角度量化的單位,表示角度量化的級別,()表示不同量化級別的梯度統(tǒng)計特征。為了避免梯度特征的數(shù)值大小對分類的影響,對梯度統(tǒng)計特征進行歸一化,歸一化方法如式(13)所示。為一個極小且不為0 的常數(shù),||·||表示1 范數(shù)。
() 即為一個滑動窗口內(nèi)歸一化后的SFLG。SFLG 包含了不同角度的梯度統(tǒng)計值,SFLG 的可視化提取過程如圖5 所示。
圖5 SFLG 提取可視化示意圖Fig.5 SFLG extraction visualization diagram
為了全面反映變換域局部梯度變化情況,本文對所有檢測窗口的SFLG 進行統(tǒng)計,統(tǒng)計后的結果即為變換域全局的SFLG。變換域全局的SFLG 如式(14)所示,其中H()表示第個檢測窗口的SFLG。
以一個可視化窗口為例,設與待測點相鄰的能量如圖6 所示,則可移動的位置如圖6(a)所示。式(15)對應的可移動方向的角度如式(16)所示。
圖6 待檢測點方向能量分布示意圖Fig.6 Schematic diagram of energy distribution in direction of point to be detected
圖6(b)中待檢測點對應的方向?qū)?shù)如式(17)所示。將圖6(b)示例計算方向?qū)?shù),結果如式(18)所示。
求該檢測點的能量變化角度與梯度。式(19)為待檢測點的梯度,式(20)為該點的角度。
對于窗口內(nèi)的能量數(shù)據(jù)(,),設窗口內(nèi)能量數(shù)據(jù)對應的梯度如式(21)所示,對應的能量變化角度如式(22)所示。
對上述窗口內(nèi)的能量變化梯度和角度進行統(tǒng)計,設量化單位長度b=20°,求得量化級別和統(tǒng)計結果,統(tǒng)計結果如式(23)和式(24)所示。
本文特征提取方法需要在原始語音上進行,使用的數(shù)據(jù)集為2013 年Sakar 等人公布的帕金森病原始語音數(shù)據(jù)集(Sakar’s Parkinson detection dataset,SPDD)以及由本課題組采集、整理的漢語發(fā)音帕金森病語音數(shù)據(jù)集(Chinese pronunciation Parkinson detection dataset,CPPDD)。
SPDD 數(shù)據(jù)集為UCI 公開數(shù)據(jù)集之一,該數(shù)據(jù)集公開了帕金森病語音數(shù)據(jù)的原始語音以及語音特征集,其中包括訓練集和測試集兩個數(shù)據(jù)集。訓練集包括伊斯坦布爾大學Cerrhpasa 醫(yī)學院神經(jīng)病學系的20 名帕金森病患者(6 名女性、14 名男性)和20 名健康受試者(10 名男性、10 名女性),每個受試者采集26個語音樣本片段,每條語音的發(fā)音內(nèi)容包括元音字母發(fā)音(a、o、u)、數(shù)字發(fā)音(1~10)、單詞發(fā)音(指定單詞9 個)和短語句發(fā)音(指定短語句4 個)。測試集中含有28 例帕金森病患者受試者,每個受試者含有6 條語音片段(a、o 的發(fā)音各3 遍)。帕金森病患者的個體年齡在43 歲到77 歲之間(平均值64.86 歲,方差80.46);健康受試者的個體年齡在45 歲到83 歲之間(平均值62.55 歲,方差116.42)。本文使用的是該數(shù)據(jù)集中的元音語音。
CPPDD 是由本課題組與開灤精神衛(wèi)生中心以及唐山市人民醫(yī)院合作采集的,該CPPDD 數(shù)據(jù)集中包含36 名帕金森病患者(19 名男性、17 名女性)和32 名健康受試者(16 名男性、16 名女性),帕金森病患者個體年齡在45 歲到80 歲之間(平均值68.59 歲,方差151.29);健康受試者的個體年齡在44 歲到79 歲之間(平均值68.59 歲,方差151.29)。其中帕金森病患者已被神經(jīng)學專家確診。數(shù)據(jù)集臨床采集以元音方法為主,針對6 個漢語單元音a、o、e、i、u、ü分別錄制語音樣本,每個受試者每個音節(jié)發(fā)音3 次,每次持續(xù)發(fā)音2 s。
為了確保語音數(shù)據(jù)的平穩(wěn)性和完整統(tǒng)一性,本文對SPDD 和CPPDD 的語音數(shù)據(jù)進行了預處理,預處理包括去除語音信號的靜音部分和統(tǒng)一每條語音樣本的時間長度,最終得到Sakar 語音數(shù)據(jù)集中的樣本數(shù)為534 條,包含282 條患病語音樣本,252 條健康語音樣本。CPPDD 語音樣本數(shù)918 條,包括患者語音樣本495 條,健康受試者語音樣本數(shù)423條。
如表1 所示,對比SPDD 和CPPDD 兩個數(shù)據(jù)集,兩個數(shù)據(jù)集的采集方式和采樣頻率均相同。相比之下,CPPDD 數(shù)據(jù)集的樣本量多于SPDD 數(shù)據(jù)集。本文將對SPDD和CPPDD兩個數(shù)據(jù)集進行訓練與測試。
表1 SPDD 和CPPDD 數(shù)據(jù)集對比Table 1 Comparison of SPDD and CPPDD datasets
本文使用準確率、靈敏性、特異性三個指標對分類器的分類性能進行評估。準確率(accuracy,)的值越高表示分類性能越優(yōu)異,其計算公式如式(25)所示。
式中,表示真陽性的數(shù)量,表示真陰性的數(shù)量,表示假陽性的數(shù)量,表示假陰性的數(shù)量。正確分類的陽性和陰性的統(tǒng)計測量值用靈敏性(sensitivity,)和特異性(specificity,)表示,同樣地,靈敏性和特異性的值越高表示分類性能越優(yōu)異,其計算公式如式(26)、式(27)所示。
在實驗方法上,本文采用折交叉驗證與留一樣本法交叉驗證相結合的方法進行測試。其中本文采用留一樣本法而不是留一對象法的原因是復雜的預測因子可以在身份和診斷狀態(tài)之間找到混淆的關系,從而產(chǎn)生不真實的高預測準確率,而留一對象法無法正確避免這種情況。在實驗過程中,首先根據(jù)1.2 節(jié)的介紹提取SFLG 特征,實驗中參數(shù)的選取如下:滑動窗口的大小為8×8,即t=8,f=8,幀移與窗口大小相同為8。在此基礎上對SPDD 和CPPDD 數(shù)據(jù)集進行最優(yōu)參數(shù)的選擇,選擇最優(yōu)參數(shù)的實驗通過5 折交叉驗證(=5)的方法進行。
確定最優(yōu)參數(shù)后,為了說明不同數(shù)據(jù)集在相同模型中的差異性,驗證不同語言對相同模型的敏感性,本文采用數(shù)據(jù)集間交叉驗證的方法對模型進行評估,該驗證方法將數(shù)據(jù)集分為訓練集與測試集。在本文的兩個數(shù)據(jù)集中,以一個數(shù)據(jù)集做訓練集,另一個數(shù)據(jù)集做測試集的方式進行數(shù)據(jù)集間的交叉驗證。由于在數(shù)據(jù)集的采集過程中,對每個受試者的語音記錄有多條。為了避免不同樣本之間帶來的誤差,同時增加測試結果的可信性,本文在SPDD、CPPDD 數(shù)據(jù)集內(nèi)分別采用5 折交叉(=5)、10 折交叉(=10)和留一樣本法進行交叉驗證。由于實驗結果會因數(shù)據(jù)集的劃分不同而不同,本文采用多次實驗求平均值的方法記錄實驗結果,以確保結果的可信度。
為了說明本文方法的有效性和先進性,本文將現(xiàn)有技術與本文方法進行了簡要對比。本文的對比實驗從兩個角度進行,首先將本文提出的SFLG 與經(jīng)典的倒譜特征Mel 倒譜系數(shù)(MFCC)、人類因子倒譜系數(shù)(HFCC)以及本征模函數(shù)倒譜系數(shù)(intrinsic modal function cepstral coefficient,IMFCC)的最優(yōu)結果進行比較。其中HFCC 與MFCC 相似,這兩種倒譜方法在語音識別和說話人識別等語音處理任務中具有廣泛應用;而IMFCC 可以同時提供說話人聲道以及聲帶振動的信息并且有效捕捉語音的非線性特征。此外,近年來深度學習方法也是語音障礙分析的研究熱點之一,因此本文選擇卷積神經(jīng)網(wǎng)絡和VGG16 模型與本文所提出的SFLG 方法進行對比。
由于本文SFLG 提取方法提取的變換域特征維度較大,可能造成過擬合,在進行分類之前,本文采用降維的方法對提取的全局SFLG 進行進一步的轉(zhuǎn)換。降維的方式有很多種,其中主成分分析算法(principal component analysis,PCA)是丟失原始數(shù)據(jù)信息最少的一種線性降維方式,因此為了盡可能地減少信息損失,使得降維之后能夠最大化地保留原數(shù)據(jù)的內(nèi)在信息,本文選擇PCA 對提取的SFLG 進行降維。
降維之后對提取的SFLG 進行分類。在分類階段,根據(jù)分類器在帕金森病語音障礙中的性能表現(xiàn),支持向量機(support vector machine,SVM)的分類性能最佳且在帕金森病的語音診斷中廣泛應用;此外與其他機器學習分類器相比,KNN(K-nearest neighbor)分類器思想簡單、理論成熟且應用較為廣泛。因此本文最終采用SVM 和KNN 兩個分類器實現(xiàn)對本文提取局部統(tǒng)計特征的分類。
為了測試降維后不同維度的特征性能,本文對不同維度的降維后SFLG 進行分類。同時為了測試分類器的參數(shù)對分類準確率的影響,本文設置了不同的分類器參數(shù)。對選擇的SVM 和KNN 兩個分類器,本文設置Gaussian、RBF(radial basis function)、linear、ploynomial 四個核函數(shù);在KNN 分類器中,本文使用歐式距離進行度量,將值分別設置為1、3、5、7、15、31、61。在本次實驗中選擇的最大特征維度為100維。將不同數(shù)據(jù)集、不同分類器參數(shù)、不同降維后特征維度相互組合進行多組實驗。不同變量下的分類準確率結果如圖7、圖8 所示。
圖8 KNN 不同K 值、不同特征維度分類準確率對比Fig.8 Comparison of accuracy of KNN with different K values and feature dimensions
根據(jù)圖7 分析SVM 分類器在不同核函數(shù)與不同數(shù)據(jù)集的準確率變化趨勢。在SVM 分類器中,隨著特征維度的增加,整體上呈現(xiàn)先上升后趨于平穩(wěn)的趨勢。從SVM 不同的核函數(shù)角度觀察,圖7(a)中四個核函數(shù)的分類性能相當,圖7(b)中Gaussian、RBF、polynomial 三個核函數(shù)性能相當,且略高于linear 核函數(shù)。圖7 對應的最優(yōu)參數(shù)如表2 所示。
表2 SVM 分類器SFLG 最優(yōu)參數(shù)Table 2 SFLG optimal parameters of SVM classifier
圖7 SVM 不同核函數(shù)、不同特征維度分類準確率對比Fig.7 Comparison of accuracy of SVM with different kernel functions and feature dimensions
KNN 分類器中的分類準確率如圖8 所示。在KNN 分類中,分類準確率大體上呈現(xiàn)先上升后下降的趨勢。分析圖中不同值與分類準確率之間的關系,Mel變換域中,圖8(a)中當特征維度較小時,值的變化對結果的影響較?。划斁S度較大時,隨著的增加分類準確率下降;圖8(b)中值對分類準確率的影響較小。根據(jù)上述分析選擇參數(shù),圖8 對應的最優(yōu)參數(shù)選擇如表3 所示。
表3 KNN 分類器SFLG 最優(yōu)參數(shù)Table 3 SFLG optimal parameters of KNN classifier
為了說明不同數(shù)據(jù)集、不同分類器對分類性能的影響,本文通過SPDD 和CPPDD 兩個數(shù)據(jù)集、KNN和SVM 兩個分類器兩組變量相結合的方法進行多組對比實驗。同組變量進行多組實驗并記錄平均值,實驗結果如表4 所示。
表4 SPDD、CPPDD 數(shù)據(jù)集分類準確率Table 4 Accuracy for SPDD and CPPDD datasets 單位:%
根據(jù)表4 所述結果,在數(shù)據(jù)集、分類器相同條件下,對比訓練集與測試集的準確率,二者準確率相當,說明了本文提取特征的有效性,也說明降維在一定程度上避免了過擬合風險。從不同數(shù)據(jù)集的角度分析,在提取的SFLG 中,SPDD 數(shù)據(jù)集中的分類準確率要高于CPPDD,這是由于漢語發(fā)音采用的是口腔前部發(fā)音體系,該體系對肌肉的控制力要求比較強,從而導致漢語發(fā)音帕金森病患者的SFLG 變化隨機性更強,因此SPDD 數(shù)據(jù)集的分類準確率要高于CPPDD 數(shù)據(jù)集。
為了進一步評估模型的性能,說明不同語言對模型的差異性,本文通過將兩個數(shù)據(jù)集間交叉驗證的方法進行評估。本文的數(shù)據(jù)集間交叉驗證分為兩組:一組SPDD 為訓練集,CPPDD 為測試集;另一組CPPDD 為訓練集,SPDD 為測試集,并進行多組實驗記錄平均結果。數(shù)據(jù)集間交叉驗證的分類準確率平均結果如表5 所示。
表5 數(shù)據(jù)集間交叉驗證分類準確率結果Table 5 Cross validation classification accuracy between datasets 單位:%
表5 中SPDD 和CPPDD 兩個數(shù)據(jù)集間做交叉驗證,其測試集的準確率均遠遠小于訓練集,該結果與文獻[22]中用Sakar 數(shù)據(jù)集與西班牙語數(shù)據(jù)集進行數(shù)據(jù)集間交叉驗證顯示的訓練集的準確率遠遠高于測試集的實驗結果相似。該實驗結果表明不同記錄條件和不同語言條件下的數(shù)據(jù)集對于模型具有一定的敏感性而導致模型的分類性能不同。為了進一步驗證模型的可靠性,本文通過同一數(shù)據(jù)集內(nèi)交叉驗證的方法對模型進行評估,分別采用5 折、10 折交叉驗證法以及留一樣本法對模型做進一步評估。多次實驗后的平均結果如表6 所示。
表6 SPDD 和CPPDD 數(shù)據(jù)集內(nèi)交叉驗證的分類準確率Table 6 Classification accuracy of cross validation in SPDD and CPPDD datasets 單位:%
在同一數(shù)據(jù)集上進行交叉驗證,分類準確率最小值為90.69%。5 折交叉驗證分類結果和10 折交叉驗證分類結果相比,10 折交叉驗證指標略高于5 折交叉驗證,但二者評價指標變化較?。粚τ诹粢粯颖掘炞C方法,分類準確率與同組最優(yōu)結果相比最大相差1.35 個百分點。數(shù)據(jù)集內(nèi)部的交叉驗證進一步驗證了基于SFLG 的帕金森病語音障礙診斷的可行性。
綜上所述,在SPDD 和CPPDD 兩個數(shù)據(jù)集間的交叉驗證實驗結果顯示,不同的語言對于相同的模型具有一定的敏感性,這一結果說明對于不同記錄條件或不同語言條件下的數(shù)據(jù)集應考慮模型的差異性,采用不同的模型以便在不同環(huán)境下充分發(fā)揮模型的性能。而在SPDD 和CPPDD 數(shù)據(jù)集內(nèi)部分別進行的交叉驗證結果表明,本文提出的SFLG 方法可有效避免過學習現(xiàn)象,具有較高的可行性。
在與其他文獻對比中,為了說明本文提取特征的有效性,首先將本文提出的SFLG 與傳統(tǒng)倒譜特征MFCC、HFCC、IMFCC進行對比,分別選取其最優(yōu)結果進行比較。以上三種特征均為在帕金森語音障礙分析的研究中常用的經(jīng)典倒譜特征,與本文方法均是在變換域的基礎上進行特征提取,以上三種倒譜特征將語音信號映射到不同的變換域后提取其倒譜系數(shù),本文所提方法從結構角度出發(fā)提取語音信號在Mel變換域中的局部梯度統(tǒng)計特征,并且文獻中利用相應特征實現(xiàn)帕金森病診斷所用的分類器與本文相同,因此更加具有對比性。同時為了說明本文方法的先進性,將本文提取的SFLG 與近年來新的研究思路深度學習特征進行對比,其中文獻[10]采用卷積神經(jīng)網(wǎng)絡的方法實現(xiàn)帕金森病的診斷。該方法將語音的時間序列信號轉(zhuǎn)換成頻譜圖,利用訓練集中的頻譜圖及其標簽對卷積神經(jīng)網(wǎng)絡進行訓練并利用語音信號測試集對網(wǎng)絡精度進行測試。文獻[11]采用HR-DC-GAN(high resolution deep convolutional generative adversarial network)網(wǎng)絡進行樣本擴充與構建VGG16 提取聲紋特征和分類的混合模型(表7中將該模型簡寫為VGG16 模型),獲得有效的識別效果。對于以上方法同樣選取最優(yōu)結果進行比較。本文方法與選擇的不同對比方法在訓練集與測試集上的選定均一致,對比結果如表7 所示。
表7 本文方法與現(xiàn)有技術的對比結果Table 7 Comparison results between method in this paper and existing technology 單位:%
如表7 所示,從特征提取方面分析,在與傳統(tǒng)特征的對比中,在SPDD 和CPPDD 數(shù)據(jù)集上,本文提取的SFLG 要高于傳統(tǒng)的經(jīng)典特征,該結果進一步說明了與傳統(tǒng)特征相比,局部梯度統(tǒng)計特征區(qū)分帕金森病患者與健康人的性能更優(yōu)。在與深度學習方法的對比中,本文提取的SFLG 高于HR-DCGAN-VGG16混合模型,低于卷積神經(jīng)網(wǎng)絡,由于深度學習模型往往需要大量的數(shù)據(jù)樣本,目前帕金森病公開數(shù)據(jù)集中語音樣本較少,且與傳統(tǒng)算法相比,深度學習模型的可解釋性較差,本文提取的局部特征有效避免了這一問題,提升了特征的可解釋性。從數(shù)據(jù)集角度對比分析,本文方法在SPDD 數(shù)據(jù)集靈敏性上具有最優(yōu)表現(xiàn)結果,而在CPPDD 數(shù)據(jù)集中三個指標分別具有最優(yōu)結果,這表明本文提出的SFLG 方法對CPPDD 數(shù)據(jù)集具有較好的適用性。
本文提取的SFLG 將變換域能量的差值特征與方向特征相結合,綜合考慮了語音時域、頻域的突變情況,并通過梯度值進行反映,能更加全面地描述局部能量與周圍能量之間的關系。因此相比原始的特征提取方法,本文提出的SFLG 提取方法對于帕金森病患者因其控制發(fā)音的能力弱于正常人而導致的各個域梯度值變化雜亂的情況具有更加優(yōu)越的表現(xiàn)。
本文通過分析語音Mel 變換域局部能量分布特點,將Mel 變換域能量差值特征與方向特征相結合,引出SFLG 提取方法。并進一步地介紹了SFLG 提取流程,通過統(tǒng)計所有SFLG 描述全局SFLG 特征。接著對全局SFLG 進行降維與分類,通過多組實驗選擇合適的特征維度與分類器參數(shù)。然后對CPPDD 和SPDD 兩個帕金森病語音數(shù)據(jù)集進行訓練與測試。在模型評估階段,分別從不同數(shù)據(jù)集、不同驗證方法兩個角度分析了該模型。最后將本文提出的SFLG與其他文獻進行對比,并分析本文提出的SFLG,說明了Mel 譜局部梯度統(tǒng)計特征的有效性與先進性。通過對Mel譜詳細的特征描述,為帕金森語音診斷提供了新思路。同時本文仍然存在不足之處,局部特征提取從每個能量點的角度出發(fā)進行計算統(tǒng)計,導致本文方法的復雜度較高,后期將考慮并行計算的方法提高效率。此外,使用混淆矩陣加強對識別率的分析也是下一步的方向。