孟雨璇 袁 尉 李 雯 鄧麗華 何 凌 李元媛
1(四川大學(xué)電氣工程學(xué)院 四川 成都 610065)2(四川大學(xué)華西心理衛(wèi)生中心 四川 成都 610065)
精神分裂癥是一種行為、思維、情感和認知等出現(xiàn)異常的腦部精神疾病[1],至今其發(fā)病機制及病因還未有公認的解釋,且其發(fā)病率高、病程長、治愈率較低[2],給患者家庭和社會造成嚴(yán)重影響。精神分裂癥陰性癥狀常出現(xiàn)于精神分裂癥前驅(qū)期[3],由于癥狀本身常常表現(xiàn)輕微,較容易被忽略,因此陰性癥狀的評估是精神分裂癥診斷的重點[4]。
精神分裂癥陰性癥狀患者的腦結(jié)構(gòu)異常,大腦功能失調(diào)[5],且腦室結(jié)構(gòu)非特異性變化[6]。同時,其精神功能的減退或缺失導(dǎo)致思維貧乏、意志活動減退、情感淡漠,進而使語言表達的范圍和變化程度受到抑制[7]?;颊咴谡f話時語音音調(diào)變化較小,語調(diào)表達受限。因此,語音信號的音調(diào)參數(shù)可作為精神分裂癥陰性癥狀診斷的客觀生物學(xué)指標(biāo)[8]。
研究證實精神分裂癥陰性癥狀的患者存在獨特語音音調(diào)特征。Leitman等[9]的研究表明,精神分裂癥患者的情緒識別能力與低水平音調(diào)特征有很強的相關(guān)性。Stein[10]對比研究精神分裂癥、躁狂癥、短暫反應(yīng)性精神病患者的語音特征,發(fā)現(xiàn)精神分裂癥患者存在音調(diào)范圍狹窄等方面的變化。Alpert等[7]的研究表明,情感扁平化的精神分裂癥患者在說話時音調(diào)變化較小。Francesco等[11]發(fā)現(xiàn)音調(diào)和共振峰的變化程度降低與陰性癥狀相關(guān)。
目前,基于語音信號聲學(xué)特征分析的精神分裂癥自動檢測算法仍處于起步階段。Püschel等[12]采集45例精神分裂癥患者及45例正常人的自由表達語音樣本,提取基音頻率、平均能量、表達時間長度等6個相關(guān)聲學(xué)參數(shù)來區(qū)分患者及正常人,正確率達到了85.6%。Chakraborty等[13]對52位患者及26位正常人的語音信號進行研究,提取了基音頻率、能量、MFCC等聲學(xué)特征,結(jié)合SVM、隨機森林等多個分類器,實現(xiàn)精神分裂癥自動檢測,正確率達85%。Rapcan等[14]對精神分裂癥患者的語音信號進行聲學(xué)分析,提取音調(diào)、能量、時長特征,結(jié)合LDA分類器實現(xiàn)精神分裂癥自動檢測,準(zhǔn)確率達到79%。目前,國內(nèi)外研究對語音聲學(xué)參數(shù)在精神分裂癥自動診斷的應(yīng)用較少,且在精神分裂癥患者音調(diào)聲學(xué)參數(shù)的研究僅限于基音頻率F0及其簡單統(tǒng)計參數(shù),還需要不斷地深入探討。
近年來,深度學(xué)習(xí)被大量應(yīng)用于語音信號處理領(lǐng)域[15-16],然而深度學(xué)習(xí)在病理語音檢測領(lǐng)域的應(yīng)用難以得到迅速發(fā)展,這主要由于病理語音數(shù)據(jù)庫獲取難度大,使得病理語料庫的數(shù)據(jù)量存在局限[15]。目前部分研究學(xué)者將深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)應(yīng)用在病理語音自動檢測中。Chlasta等[17]從2 568段語音樣本(包括720段抑郁癥患者語音樣本及1 848段正常語音樣本)中提取語譜圖特征,輸入到CNN進行抑郁癥自動檢測,正確率達77%。López-De-Ipia等[18]采集20個阿爾茲海默病患者和50個正常人的訪談記錄(每人錄制8~12小時),從采集到的語音數(shù)據(jù)中提取情感特征,結(jié)合DNN網(wǎng)絡(luò)進行阿爾茲海默病自動檢測,其分類正確率達97%。Warnita等[19]使用Pitt語料庫中的6 267段語音樣本(其中包括3 276段阿爾茲海默病患者語音和2 991段正常語音),提取語音時間相關(guān)特征,使用CNN自動檢測阿爾茲海默病,其正確率達73.6%。Huang等[20]從CPSD數(shù)據(jù)庫的307段自閉癥患者語音和1 651段正常人語音中,提取基頻、能量等基本特征,結(jié)合DNN網(wǎng)絡(luò)實現(xiàn)自閉癥患者語音和正常語音的分類檢測,正確率達92.9%。Harar等[21]針對SVD數(shù)據(jù)庫的687位正常人與1 356位病理嗓音患者的語音數(shù)據(jù),使用DNN和長短時記憶網(wǎng)絡(luò)(Long Short-term Memory Networks,LSTM)進行正常和病理嗓音信號分類,正確率為68.08%。深度學(xué)習(xí)模型需要大量的數(shù)據(jù)用于訓(xùn)練[15],目前阿爾茲海默病[22]、抑郁癥[23]及病理嗓音[24]等語料庫發(fā)展成熟,已較為完善,部分研究學(xué)者逐漸將深度學(xué)習(xí)的分類模型應(yīng)用于該類病理語音的自動檢測[25]。而精神分裂癥臨床樣本獲取難度大,還未形成較為完善的語料庫,無法做到大樣本的訓(xùn)練與學(xué)習(xí)。SVM(Support Vector Machine)是一種典型的適用于二分類問題的分類器[26],它根據(jù)結(jié)構(gòu)風(fēng)險最小化原則,在保證分類間隔最大的條件下尋找最優(yōu)分類面[27]。且SVM分類器在小樣本條件下具有高識別性能和強泛化能力[28],目前SVM分類器仍被大量應(yīng)用于病理語音二分類的識別中[29-31]。
本文基于精神分裂癥患者的語音音調(diào)特點,通過頻率覆蓋度量和子帶編碼模型的基頻提取算法,結(jié)合語音信號的音調(diào)波動曲線及其峰谷值輪廓曲線,提出FDS-set、EVR、PVPD、TFF音調(diào)域動態(tài)特征,結(jié)合SVM分類器,實現(xiàn)精神分裂癥患者語音和正常人語音的自動分類檢測。本文提出的基于語音音調(diào)域動態(tài)特征的精神分裂癥自動檢測算法,為臨床醫(yī)生提供客觀的輔助診斷方法,具有重要的醫(yī)學(xué)臨床意義。
目前已有臨床研究表明,精神分裂癥陰性癥狀患者腦結(jié)構(gòu)異常,導(dǎo)致思維渙散、情感表達淡漠且扁平化[32]?;颊呓涣鲿r話語表達鈍化,語音音調(diào)受到局限,具有平緩的語音音調(diào)特征[33],即音調(diào)單一、音域范圍狹窄且音調(diào)變化較小[34]。語音音調(diào)的聲學(xué)分析能夠為精神分裂癥數(shù)字化輔助診斷提供客觀依據(jù)[14]。漢語是一種有調(diào)語言,音調(diào)是其重要語音特征,研究[35]表明漢語普通話的音調(diào)主要體現(xiàn)在基音頻率曲線上。本實驗基于精神分裂癥患者的語音音調(diào)特征,提出音調(diào)域動態(tài)特征,實現(xiàn)基于語音信號分析的精神分裂癥自動檢測。
如圖1所示,本文提出的基于語音音調(diào)域動態(tài)特征的精神分裂癥自動檢測算法,由三個主要算法模塊組成。首先,基于頻率覆蓋度量和子帶編碼模型進行語音基音頻率提取,即對分幀后的語音信號進行子帶分解,再用子帶編碼模型對子帶信號進行處理,并根據(jù)其歸一化自相關(guān)函數(shù)計算基音頻率;其次,基于每個語音音調(diào)波動曲線的一階、二階差分序列,提出FDS-set、EVR、PVPD、TFF音調(diào)域聲學(xué)動態(tài)特征參數(shù);最后,根據(jù)本實驗計算所得的音調(diào)域動態(tài)特征集,結(jié)合SVM分類器對精神分裂癥患者與正常對照組的語音進行自動分類識別。
圖1 基于語音音調(diào)域動態(tài)特征的精神分裂癥自動檢測算法流程
精神分裂癥陰性患者思維斷裂、話語可變性小、情感的表達受到削弱,導(dǎo)致其語音具有扁平的音調(diào)特點,即患者交流時缺乏音調(diào)多變性且音域狹窄[10]?;纛l率是人發(fā)濁音時聲帶振動的頻率[36],是有調(diào)語音漢語的重要特征參數(shù),基頻隨時間變化的曲線反映音調(diào)變化情況。
目前語音基頻提取的研究集中于時域及頻域方法。其中時域方法基于語音信號的時域波形,計算自相關(guān)函數(shù)、互相關(guān)函數(shù)或平均幅度差函數(shù)等,將其波形峰谷值對應(yīng)的時延作為基音周期估計值[37-39]。而頻域方法基于語音頻譜的諧波結(jié)構(gòu),并且根據(jù)其對應(yīng)的特征來提取基頻,比如諧波乘積頻譜[40]、次諧波求和[41]、基于小波的瞬時頻率[42]或次諧波與諧波比[43]等。然而,大多數(shù)現(xiàn)有方法可以在絕對安靜的環(huán)境中完成可靠的基頻提取,但一些噪聲擾動會破壞時域信號的周期模式或信號頻譜的諧波結(jié)構(gòu),從而顯著降低性能[44]。
本實驗使用文獻[45]中提出的基于頻率覆蓋度量和子帶編碼模型的基音頻率提取算法。該算法能夠數(shù)字化地劃分各子帶頻率及子帶數(shù)目,其中基于子帶編碼模型得到的自相關(guān)系數(shù)具有明顯的峰值,使得基音頻率提取的精度提高,該算法魯棒性好、抗噪性能強,有利于本實驗中語音數(shù)據(jù)的基頻提取,對精神分裂癥患者語音音調(diào)波動特征的進一步分析。該算法具體步驟是首先基于頻率覆蓋度量法則選擇濾波器參數(shù),對每幀語音進行子帶分解,再對各子帶語音數(shù)據(jù)進行編碼,并計算編碼后子帶的歸一化自相關(guān)函數(shù),最終由各子帶自相關(guān)函數(shù)波形得出基音頻率。
1.1.1基于頻率覆蓋度量的子帶分解算法
本實驗使用Gammatone聽覺濾波器組將語音數(shù)據(jù)分解為不同的子帶信號,其中濾波器數(shù)目以及子帶濾波器中心頻率的參數(shù)選擇決定語音信號分解產(chǎn)生的子帶數(shù)目及子帶波形,影響后續(xù)基音頻率的提取范圍[45]。目前基頻提取的研究中使用各種頻率尺度來分解語音信號,包括對數(shù)、Bark、ERB(Equivalent Rectangular Bandwidth)尺度,這些方法沒有明確數(shù)學(xué)公式的經(jīng)驗性選擇。本實驗濾波器組參數(shù)的選取使用頻率覆蓋度量法則[45],能夠數(shù)字化地計算任一采樣頻率下對應(yīng)的濾波器數(shù)目及中心頻率。
(1)
(2)
式中:γ-1(·)為ERBS的逆變換函數(shù);[fmin,fmax]表示基音頻率范圍。根據(jù)子帶濾波器中心頻率及帶寬提出頻率覆蓋度量的定義,其數(shù)學(xué)公式如下:
(3)
圖2 Gammatone濾波器響應(yīng)曲線
子帶數(shù)量Nb可從式(1)-式(3)中推導(dǎo)如式(4)所示,可知頻率覆蓋度量為計算給定頻率范圍內(nèi)的子帶數(shù)量提供了一種數(shù)字化方式。
(4)
1.1.2子帶編碼模型
(5)
(6)
該編碼模型基于聽覺感受器毛細胞突觸間隙的指數(shù)衰減的心理聲學(xué)研究提出[44,47],同時模型的對稱性避免了后續(xù)步驟中自相關(guān)運算的偏差[48]。
1.1.3基頻提取
對編碼后的每幀子帶信號進行自相關(guān)處理,式(7)為第j幀的編碼子帶b信號的歸一化自相關(guān)系數(shù)(Normalized Auto-correlation Coefficients,NAC)。
(7)
dmin=fs/F0max
(8)
dmax=fs/F0min
(9)
(a) 子帶信號x(b)、半波整流后子帶信號及編碼后子帶信號xe (b) 對(a)中各信號計算歸一化自相關(guān)函數(shù)圖3 經(jīng)過不同處理后的子帶信號及其歸一化自相關(guān)函數(shù)
精神分裂癥患者由于腦結(jié)構(gòu)異常導(dǎo)致思維鈍化、渙散,情感較為平緩,語言表達受限,使得患者在講話時音調(diào)受到抑制,音調(diào)擾動的幅度和頻率小且變換緩慢[49]。本文基于精神分裂癥患者語音音調(diào)特點及音調(diào)波動曲線,提出音調(diào)域動態(tài)聲學(xué)特征參數(shù)提取算法,包括FDS-set、EVR、PVPD和TFF特征。音調(diào)域動態(tài)聲學(xué)特征參數(shù)能夠描述音調(diào)波動曲線的變化情況,反映受試者語音音域范圍及音調(diào)波動程度。
1.2.1基頻數(shù)字統(tǒng)計特征集FDS-set
精神分裂癥患者具有扁平音調(diào)的語音特點,本文根據(jù)基頻序列提取FDS-set,該特征集能夠反映基頻曲線的分布情況,提取音調(diào)波動曲線的變化情況及波動范圍。
(10)
式中:N表示基頻序列總個數(shù)。
(2) 基頻中位數(shù)F0median:該統(tǒng)計特征提取基頻數(shù)據(jù)的代表值,反映音調(diào)的中間水平,且該參數(shù)不受極端數(shù)值影響,其計算公式如下:
(11)
式中:F0′表示F0按大小排序后的序列。
(3) 基頻眾數(shù)F0mode:該統(tǒng)計特征為基頻序列中出現(xiàn)概率最大的數(shù)據(jù),是音調(diào)數(shù)據(jù)統(tǒng)計分布上具有明顯集中趨勢點的數(shù)值,反映語音音調(diào)中最普遍出現(xiàn)的標(biāo)志音調(diào)值。
(4) 基頻方差δ(F0):該統(tǒng)計特征度量基頻與其數(shù)學(xué)期望之間的偏離程度,反映語音音調(diào)的離散程度及波動狀況,其計算公式如下:
(12)
(5) 基頻峰度G(F0):該統(tǒng)計特征反映數(shù)據(jù)分布曲線的峰的尖度,度量數(shù)據(jù)分布的陡峭程度。G(F0)值越大說明數(shù)據(jù)越集中,尖頂峰度形態(tài)越明顯,反映音調(diào)分布更陡峭,其計算公式如下:
(13)
式中:μ4為四階中心距;σ為標(biāo)準(zhǔn)差。
(6) 基頻偏度γ(F0):該統(tǒng)計特征度量基頻數(shù)據(jù)分布的偏斜程度和方向。|γ(F0)|越大表示數(shù)據(jù)分布的偏斜程度越大,反映被測者音調(diào)的偏斜及變化更大。其計算公式如下:
(14)
式中:μ3是三階中心距。
(15)
1.2.2EVR特征提取算法
精神分裂癥陰性癥狀患者溝通存在障礙,講話時消極的思維情感導(dǎo)致語音音調(diào)受到抑制,音域范圍狹窄,削弱了音調(diào)的表達[50]。語音音調(diào)范圍即音域[51],反映了說話人在說話過程中的音調(diào)及情感的起伏程度。基于精神分裂癥患者的音域狹窄特征,本文提出EVR特征提取算法,其算法過程如下。
基于頻率覆蓋度量和子帶編碼模型對語音數(shù)據(jù)進行基頻提取,得到音調(diào)波動曲線F0如圖4所示。
圖4 基于頻率覆蓋度量和子帶編碼模型的音調(diào)波動曲線F0
將語音段基于頻率覆蓋度量和子帶編碼模型得到的F0曲線作升序變換,得到升序變換曲線F0sort,并對升序變換后的序列F0sort提取其上下十分位數(shù)。圖5為升序變換序列F0sort,其中虛線標(biāo)記其上下十分位數(shù)。
圖5 音調(diào)波動曲線F0的升序變換序列F0sort
根據(jù)所求音調(diào)曲線的升序變換序列,以及其上下十分位數(shù)間的距離,提出EVR特征參數(shù),其計算公式如下:
(16)
式中:fn為幀數(shù);F0為一段語音數(shù)據(jù)的音調(diào)波動序列;sort{·}為升序變換函數(shù)。
EVR參數(shù)反映了音調(diào)波動曲線中80%的數(shù)據(jù)離散程度,表征受試者音域特征,其數(shù)值越小說明基頻越集中音域越狹窄,使精神分裂癥患者音域狹窄的特點在EVR參數(shù)的比較中得以凸顯。EVR參數(shù)與基頻極差(最大值與最小值之間的差)相比,排除了基頻數(shù)據(jù)上下10%的干擾突變點對計算音調(diào)分布區(qū)域的影響,能夠更穩(wěn)健地反映語音段的音調(diào)分布范圍,表征音域特征。
1.2.3PVPD特征提取算法
研究發(fā)現(xiàn)具有情感扁平化的精神分裂癥患者在交流時多使用單一音調(diào),且患者的情感鈍化使得其在交談時音調(diào)變化程度小,音調(diào)擾動被削弱[11]。基于以上特點,本文提出PVPD特征參數(shù)提取算法,其算法過程如下。
首先,根據(jù)頻率覆蓋度量和子帶編碼模型提取語音音調(diào)波動曲線F0,求出F0曲線上連續(xù)的零交叉點。并在零交叉點集合中提取音調(diào)局部峰值及音調(diào)局部谷值的延遲量kn、km,其計算公式如下:
(17)
(18)
式中:kn-、kn+表示F0(k)的連續(xù)零交叉點。
其次,根據(jù)音調(diào)局部峰谷值的延遲量kn、km,結(jié)合沖激函數(shù)與音調(diào)波動曲線F0,得出音調(diào)峰谷值輪廓F0up、F0down,其計算公式如下:
(19)
(20)
式中:K1{kn|n=0,1,…},K2{km|m=0,1,…};δ(·)表示沖激函數(shù)。圖6為音調(diào)波動曲線F0,其中點劃線及虛線分別表示音調(diào)峰值輪廓F0up、音調(diào)谷值輪廓F0down。
圖6 音調(diào)波動曲線F0及音調(diào)峰谷值輪廓F0up、F0down
最后根據(jù)音調(diào)波動的峰谷值輪廓曲線F0up、F0down,計算兩曲線與基頻均值F0mean的距離,如圖7中虛線所示。PVPD特征即為所求距離的均值,其計算公式如下:
(21)
圖7 音調(diào)峰谷值輪廓F0up、F0down及其與均值的間距
PVPD特征針對精神分裂癥陰性癥狀患者的音調(diào)特征,提取基頻波動的音調(diào)局部峰值曲線及音調(diào)局部谷值曲線,度量音調(diào)整體波動范圍與基頻標(biāo)準(zhǔn)值間距,定量化表征音調(diào)曲線變化的幅度及范圍,突出精神分裂癥患者的語音音調(diào)變化小的特征,使得自動分類時與正常人音調(diào)特征得以區(qū)分。
1.2.4TFF特征提取算法
精神分裂癥陰性癥狀患者情感淡漠思維不連貫、渙散,聲音的表達存在異常,即缺乏語調(diào)變化,音調(diào)的可變性較小[14]?;诰穹至寻Y患者的語音存在音調(diào)波動小的特點,本文提出TFF特征參數(shù)提取算法,其算法過程如下。
首先,基于頻率覆蓋度量和子帶編碼模型提取一段語音數(shù)據(jù)的音調(diào)波動曲線F0,并對語音F0曲線提取音調(diào)局部峰值輪廓F0up。圖8實線表示語音音調(diào)波動曲線F0,虛線表示局部峰值輪廓曲線F0up。
圖8 音調(diào)波動曲線F0及音調(diào)峰值輪廓F0up
根據(jù)語音音調(diào)峰值輪廓曲線F0up的差分序列,計算F0up曲線的連續(xù)零交叉點,得到F0up局部峰值的延遲量,其數(shù)學(xué)公式如下:
(22)
式中:kl-、kl+是F0up(k)的連續(xù)零交叉點。圖9中加粗標(biāo)記部分為音調(diào)峰值輪廓F0up(k)的上升部分,其中每條加粗線段末端即為所求變化點k1處。
圖9 音調(diào)峰值輪廓線F0up的上升及下降部分
最后計算音調(diào)峰值輪廓F0up(k)的變化點出現(xiàn)次數(shù),再根據(jù)語音段樣點數(shù)得出單位時間內(nèi)變化點出現(xiàn)的次數(shù),即為TFF特征,其計算公式如下:
(23)
式中:kl為音調(diào)峰值輪廓峰值的延遲量。
TFF特征參數(shù)是單位時間內(nèi)語音段音調(diào)波動的峰值輪廓曲線的變化次數(shù),該特征基于精神分裂癥陰性癥狀患者語音音調(diào)變化少的特征,定量化地表征音調(diào)曲線的變化頻率,反映受試者交流過程中語音音調(diào)的波動程度。
本文中的數(shù)據(jù)樣本有兩類:正常對照組語音和精神分裂癥患者組語音。SVM是一種適用于二分類問題且具有良好魯棒性的分類器,它通過在特征空間中尋找最優(yōu)超平面,使得樣本分割在平面兩側(cè)且兩類樣本間隔最大化。SVM分類器在進行模型訓(xùn)練時,會不斷根據(jù)輸入的特征參數(shù)進行超平面的調(diào)整,因此SVM分類器在二分類識別中對樣本具有很好的魯棒性,適用于本實驗中基于語音音調(diào)域動態(tài)聲學(xué)特征參數(shù),對精神分裂癥患者與正常人的自動分類檢測。
本文測試語音數(shù)據(jù)來自于四川大學(xué)華西心理衛(wèi)生中心精神科,由28位精神分裂癥患者(18女10男)和28位正常人(18女10男)參與錄制,共448條語音數(shù)據(jù)。本文采集的語音樣本的采樣率為44 100 Hz,采樣精度為16 bit。語音信號在分幀處理時選取的幀長為25 ms,幀移為10 ms。
精神分裂癥患者思維渙散及情感扁平化,多表現(xiàn)為說話時音調(diào)表達受限,語音音調(diào)單一、音域狹窄、音調(diào)變化小且緩慢。本文提出的基于語音音調(diào)域動態(tài)特征的精神分裂癥自動檢測算法,對語音樣本提取了基音頻率序列F0,再根據(jù)F0及音調(diào)局部峰谷值曲線提取FDS-set、EVR、PVPD、TFF特征參數(shù)。最后,將音調(diào)域動態(tài)聲學(xué)特征參數(shù)集結(jié)合SVM分類器,對采集到的實驗語音數(shù)據(jù)集采用留一交叉驗證(leave-one-out cross-validation),實現(xiàn)精神分裂癥患者語音與正常語音的自動分類檢測。
實驗使用識別正確率、MR(Miss Rate)、FAR(False Alarm Rate)、AUC(Area Under Curve)參數(shù)來評估精神分裂癥自動檢測系統(tǒng)性能。其中MR(%)為未命中率,表示被算法誤識別為正常語音的精神分裂語音占所有精神分裂語音的比例,F(xiàn)AR(%)為誤報率,表示被算法誤檢測為精神分裂語音的正常語音占所有正常語音樣本的比例,AUC為ROC曲線(receiver operating characteristic curve)下的面積,是衡量分類器優(yōu)劣的一種評價指標(biāo)。表1為本文提出的基于語音音調(diào)域動態(tài)特征的精神分裂癥自動檢測算法的檢測結(jié)果。
表1 基于語音音調(diào)域動態(tài)特征的精神分裂癥自動檢測算法實驗結(jié)果
可以看出,本文提出的音調(diào)域動態(tài)特征在精神分裂語音自動分類檢測的正確率較高。其中,EVR、PVPD、TFF特征在精神分裂癥患者語音分類識別的正確率比FDS-set的識別正確率高。本實驗將參數(shù)合并后的正確率比應(yīng)用單個特征時的正確率稍有提高,這是由于每個參數(shù)都分別表示了語音音調(diào)的不同特征,合并參數(shù)后能夠更完整、顯著地體現(xiàn)精神分裂癥患者的語音音調(diào)特征。
(d) δ(F0)2 (e) G(F0) (f) γ(F0)圖10 正常語音與精神分裂語音的FDS-set各參數(shù)
圖11為正常語音與精神分裂癥患者語音的EVR參數(shù)值箱型圖??梢钥闯觯颊哒Z音EVR特征值整體上低于正常語音EVR特征值,表明相較于正常人語音音域,精神分裂癥患者的語音音域范圍小,反映了精神分裂癥患者語音音域狹窄且音調(diào)單一的特點。由于EVR參數(shù)穩(wěn)健地反映受試者講話時音調(diào)的波動范圍,與語音音域概念相符,能夠表征精神分裂癥患者語音音域狹窄的特點,適用于精神分裂癥自動檢測。
圖11 正常語音與精神分裂語音的EVR值
圖12為正常人與精神分裂癥患者語音的PVPD參數(shù)值箱型圖。可以看出,相比于正常人的PVPD值,精神分裂癥患者PVPD值在整體上較小,分布范圍較窄,表明音調(diào)曲線的波動較小,曲線偏離均值的程度較小,反映了精神分裂癥陰性癥狀患者在說話時音調(diào)變化少且單一的特點。由于PVPD特征為音調(diào)峰谷值輪廓與基頻均值間的距離,反映音調(diào)曲線的波動程度,進一步表明精神分裂癥患者在說話時音調(diào)變化少的特點。
圖12 正常與精神分裂語音的PVPD值
圖13為正常語音與精神分裂患者語音的TFF值箱型圖,可以看出精神分裂癥患者語音的TFF特征值小于正常語音TFF特征值。TFF特征值越小表明一段語音內(nèi)音調(diào)輪廓曲線變化頻率越低,反映出相較于正常人,精神分裂癥患者音調(diào)變化少。由于TFF特征是單位時間內(nèi)語音音調(diào)曲線的變化次數(shù),反映音調(diào)曲線的變化頻率,能顯著地體現(xiàn)精神分裂癥患者語音音調(diào)單一平淡、變化小的特點。
圖13 正常語音與精神分裂語音的TFF值
近年來深度學(xué)習(xí)分類算法逐漸應(yīng)用于病理語音自動檢測領(lǐng)域,由于病理語音數(shù)據(jù)庫樣本獲取難度的限制,其應(yīng)用發(fā)展較緩[52]。本實驗將本文使用的SVM分類器與DNN、LSTM、CNN多種深度學(xué)習(xí)分類模型進行了對比實驗。其中,SVM、DNN、LSTM分類模型以本文提出的音調(diào)域動態(tài)聲學(xué)特征參數(shù)集作為輸入,CNN分類模型以原始語音數(shù)據(jù)的語譜圖作為輸入,實現(xiàn)精神分裂癥語音的自動檢測,其對比實驗的結(jié)果如表2所示。
表2 不同分類算法在精神分裂癥自動檢測的對比實驗結(jié)果
可以看出,使用SVM進行精神分裂癥患者語音與正常語音分類的正確率為88.39%,使用LSTM、DNN、CNN的分類正確率在81.82%~86.16%。由于精神分裂癥語音數(shù)據(jù)采集的難度限制,精神分裂癥患者語音的臨床樣本較少,尚未有成熟的精神分裂癥患者語料庫,無法做大樣本的訓(xùn)練與學(xué)習(xí),而深度學(xué)習(xí)在大樣本數(shù)據(jù)集上具有較高的識別精度[53],在數(shù)據(jù)集有限的情況下容易過度擬合,影響檢測效果[54]。SVM分類器適用于二分類問題,在特征空間中尋找最優(yōu)分類面,使兩類樣本的分類間隔最大。且SVM分類器計算簡單,在解決小樣本的實際問題中具有良好的魯棒性和強泛化能力[55],SVM分類器更適用于小樣本問題,在本實驗中精神分裂癥自動檢測的正確率高于其余分類模型。
語音聲學(xué)分析在精神分裂癥自動檢測的應(yīng)用仍處于起步階段。目前國內(nèi)外研究采用基頻LLD(low-level descriptors)、短時能量、共振峰及MFCC特征應(yīng)用于精神分裂癥的自動診斷。為了驗證算法的有效性,實驗將本文提出的音調(diào)域動態(tài)特征與國內(nèi)外現(xiàn)有技術(shù)中提出的語音特征進行了對比實驗,其測試結(jié)果如表3所示。
表3 本文算法與國內(nèi)外現(xiàn)有技術(shù)的對比實驗結(jié)果
可以看出,本文算法的檢測正確率為88.39%,國內(nèi)外現(xiàn)有技術(shù)檢測正確率的范圍為64.29%~77.68%?;lLLD為基頻及其差分的最大值、最小值、最大值及最小值的延遲量、均值、極差、標(biāo)準(zhǔn)差、峰度、偏度、四分位數(shù)的集合,而基頻的均值、最大最小值等參數(shù)與個體差異(年齡、性別等)有關(guān),難以表征精神分裂癥患者的音調(diào)特點。共振峰參數(shù)能夠在識別漢語聲調(diào)時起到一定的作用,但單獨依靠共振峰識別漢語聲調(diào)的識別率較低[57],所以共振峰參數(shù)并不能顯著地反映漢語精神分裂癥患者的語音音調(diào)特點。MFCC參數(shù)與語音情感相關(guān),在一定程度上能夠反映說話人情感表達[58],但由于MFCC難以全面描述精神分裂癥陰性癥狀患者的情感特點,所以識別率較低。短時能量能反映語音信號能量的變化和能量分布情況[59],但是因為短時能量是一個存在個體差異的參數(shù),與人的性別、年齡等因素有關(guān),這些不可控因素會影響精神分裂癥語音的檢測結(jié)果。
本文基于精神分裂癥患者發(fā)音過程及聲學(xué)特性,提出基于語音音調(diào)域動態(tài)特征的精神分裂癥自動檢測算法。本文通過對每一段語音數(shù)據(jù)計算音調(diào)波動曲線,并對該曲線提取FDS-set、EVR、PVPD、TFF音調(diào)域動態(tài)聲學(xué)特征參數(shù),突出體現(xiàn)語音信號的音調(diào)波動情況,反映精神分裂語音與正常語音在音調(diào)特征表達的區(qū)別。
為了提供精神分裂癥陰性癥狀臨床診斷的客觀生物學(xué)指標(biāo),實現(xiàn)精神分裂癥自動分類檢測,本文通過計算語音信號的音調(diào)波動曲線,提取語音的FDS-set、EVR、PVPD、TFF音調(diào)域動態(tài)聲學(xué)特征參數(shù),這些特征突出了精神分裂癥語音與正常語音在音調(diào)特征分布上的差異。實驗從精神分裂癥語音與正常語音在音調(diào)上的差異出發(fā),提取音調(diào)域動態(tài)聲學(xué)特征參數(shù),并結(jié)合SVM分類器,實現(xiàn)了精神分裂癥語音的自動檢測。實驗進一步討論了音調(diào)的FDS-set、EVR、PVPD、TFF特征參數(shù)分別對分類結(jié)果的影響,以及國內(nèi)外現(xiàn)有技術(shù)提出的多種語音特征對精神分裂癥語音的自動分類檢測的效果。實驗結(jié)果表明,音調(diào)域動態(tài)聲學(xué)特征參數(shù)在精神分裂癥自動檢測的正確率為88.39%,對精神分裂癥的臨床輔助診斷具有一定的應(yīng)用價值。