潘忠德,蔡偉雄,朱 杰,崔東紅(.上海交通大學醫(yī)學院,上海市精神衛(wèi)生中心,轉(zhuǎn)化醫(yī)學重點實驗室,上海0000; .司法部司法鑒定科學技術(shù)研究所 上海市法醫(yī)學重點實驗室,上海0006; .上海交通大學電子工程學院,上海00040)
情感障礙的語音識別研究進展
潘忠德1,2,蔡偉雄2,朱 杰3,崔東紅1
(1.上海交通大學醫(yī)學院,上海市精神衛(wèi)生中心,轉(zhuǎn)化醫(yī)學重點實驗室,上海200030; 2.司法部司法鑒定科學技術(shù)研究所 上海市法醫(yī)學重點實驗室,上海200063; 3.上海交通大學電子工程學院,上海200040)
隨著語音信號分析與處理技術(shù)的發(fā)展,尤其是線性預(yù)測技術(shù)在語音處理中的應(yīng)用,基音頻率、共振峰、線性預(yù)測系數(shù)、線性預(yù)測倒譜系數(shù)、Mel頻率倒譜系數(shù)等語音特征參數(shù)被證實與情感(尤其是抑郁癥狀)密切相關(guān)。近十年來,隨著一系列基于現(xiàn)代數(shù)理統(tǒng)計理論基礎(chǔ)之上的新型語音建模方法的相繼提出,正常人的情感語音識別取得了良好的識別率。因此,一些學者應(yīng)用現(xiàn)代語音識別技術(shù),探討語音這一客觀生理行為作為情感障礙診斷生物學指標的可行性。通過對現(xiàn)代語言識別技術(shù)的基本原理和方法,以及情感障礙語音識別研究進展進行了介紹。
語音識別;情感障礙;綜述[文獻類型]
語音是語言的聲學表現(xiàn),是聲音和語義的結(jié)合體,語音不僅能傳遞說話者的思想,而且還可傳遞其情感信息,因此語音是研究人類情感的一個重要載體[1]。情感障礙是以顯著而持久的情感高漲或低落為主要特征的一組精神疾病。情感障礙者的語音會隨情感的改變而發(fā)生明顯變化,在情感高漲時,其聲音洪亮、語速快、音調(diào)高;而情感低落時,則聲音低沉、語速慢、音調(diào)低。早在1925年,Isserlin等[2]分析抑郁障礙患者的語音,結(jié)果顯示發(fā)病和緩解階段的語速、語音停頓時間存在差異。其后,一系列的研究證實基音頻率、聲音響度、共振峰、第一共振峰、第二共振峰、第三共振峰、基頻微擾、幅度微擾等聲門和聲道特征參數(shù)與抑郁癥狀相關(guān)[3-5]。20世紀80年代,隨著線性預(yù)測技術(shù)在語音處理中的應(yīng)用,線性預(yù)測系數(shù)、線性預(yù)測倒譜系數(shù)、Mel頻率倒譜系數(shù)等頻譜特征參數(shù)相繼被研究證實與抑郁癥狀密切相關(guān),且能預(yù)測抑郁癥狀的緩解[6-8]。近十年來,隨著一系列現(xiàn)代數(shù)理統(tǒng)計方法在語音識別分析中的應(yīng)用,正常人的情感語音識別取得了良好的識別率[9]。精神疾病診斷的客觀性一直受到垢病和質(zhì)疑,因此近年來有學者試圖利用現(xiàn)代語音識別技術(shù)探討語音這一客觀生理行為作為情感障礙生物學診斷指標的可行性。目前,情感障礙的語音識別研究成為生物醫(yī)學工程的研究熱點,本文擬介紹現(xiàn)代語音識別技術(shù)基本原理,語音特征參數(shù)提取與融合方法及語音識別建模方法的最新進展,并闡述其在情感障礙中的應(yīng)用現(xiàn)狀。
語音識別技術(shù)通俗地講就是讓計算機能聽懂人的語言,理解并執(zhí)行人的語音命令。但計算機并不具有人耳的聽覺功能,要讓計算機能“聽懂”人的語音,需要將人的語音轉(zhuǎn)化為二進制的數(shù)字化編碼,同時運用相關(guān)數(shù)理知識模擬人的語音產(chǎn)生過程和語音感知生理機制,方能實現(xiàn)人機“對話”。因此,語音識別的前提是將語音轉(zhuǎn)化為數(shù)字信號,對數(shù)字化的語音信號預(yù)處理后,提取相應(yīng)的語音特征參數(shù)建立語音識別模型,然后將待測語音與已建立的語音模型匹配,得出判決結(jié)果。語音信號的數(shù)字化和預(yù)處理包括取樣、量化、分幀與加窗、預(yù)加重、端點檢測等過程,其目的是將非平穩(wěn)的語音轉(zhuǎn)化為可以分析的數(shù)字化語音信號[10]。
1.1 語音特征提取與選擇
在完成語音的數(shù)字化和預(yù)處理后,需要提取能反映個體聲門、聲道特性的語音特征參數(shù)。語音特征參數(shù)提取與選擇是語音識別的重要環(huán)節(jié),提取出最能體現(xiàn)語音特征的參數(shù)是提高語音識別率的關(guān)鍵步驟。語音特征參數(shù)可分為兩類:第一類為時域特征參數(shù),如短時平均能量、短時平均幅度、短時平均過零率、共振峰、基音頻率等;第二類為頻域特征參數(shù),如線性預(yù)測系數(shù)(LPC)、線性預(yù)測倒譜系數(shù)(LPCC)、Mel頻率倒譜系數(shù)(MFCC)等?;纛l率反映聲門激勵特征,共振峰體現(xiàn)聲道響應(yīng)的特性,LPC、LPCC則體現(xiàn)了聲門激勵和聲道響應(yīng)的特性。MFCC模擬了人耳的聽覺特性,是語音識別研究中應(yīng)用最多的一種參數(shù)[9]。單個語音特征參數(shù)不能完全體現(xiàn)語音特性,因此需要提取混合參數(shù)構(gòu)成特征向量以盡可能地體現(xiàn)語音特性。研究發(fā)現(xiàn),在建立語音識別模型時,參數(shù)越多反會導(dǎo)致語音識別系統(tǒng)識別率的下降,即維數(shù)災(zāi)難。目前常用的語音特征參數(shù)提取方法包括主成分分析(PCA)、線性判別分析(LDA)、遺傳算法(GA)等[11-12]。
1.2 語音識別建模方法
選取語音特征參數(shù)后,需要根據(jù)語音識別系統(tǒng)的類型和要求,選擇合適數(shù)理統(tǒng)計方法建立語音模型。目前語音識別建模方法主要分為兩大類:(1)基于概率生成模型的方法如高斯混合模型(GMM)和隱馬爾可夫模型(HMM);(2)基于判別模型的方法,主要有支持向量機(SVM)和人工神經(jīng)網(wǎng)絡(luò)(ANN)。基于概率生成模型的方法能夠反映同類數(shù)據(jù)本身的相似度特性,而判別模型的特點是尋找不同類別之間的最優(yōu)化分類面來反映異類數(shù)據(jù)之間的差異。因此,兩類模型在識別機理上有著很大的互補性。近年來,一些學者將兩者結(jié)合起來,用混合模型進行語音識別。混合模型的優(yōu)點是能對不同模型取長補短,在一定程度上使識別率得到提高;缺點是模型復(fù)雜、計算量大,很難獲得全局最優(yōu)混合模型[13-15]。
1.3 語音識別基本原理
語音識別分為兩步。第一步是學習或訓(xùn)練,根據(jù)語音識別系統(tǒng)的類型,選擇可滿足要求的識別方法,分析語音特征參數(shù),形成標準模式庫,第二步就是識別,提取待測語音中的特征參數(shù),按照一定的準則和測度與標準模式庫進行比較,通過判決得出識別結(jié)果。因此,完整的語音識別系統(tǒng)包括特征提取、模式匹配、參考模式庫三個基本單元[10](見圖1)。
圖1 語音識別系統(tǒng)原理框圖
目前國內(nèi)外有關(guān)情感障礙的語音識別研究文獻主要集中于抑郁障礙(MDD),而雙相障礙(BD)的研究文獻報道極少。復(fù)習相關(guān)文獻,情感障礙的語音識別技術(shù)應(yīng)用研究主要集中在以下四個方面:
2.1 語音采集方法
如何采集患者的語音對于語音分析與處理至關(guān)重要,語音采錄環(huán)境對語音信號影響較大。目前,情感障礙患者的語音采集主要有三種方式:一是程序化的語音錄制,即讓患者數(shù)數(shù)字(從1到10,或倒數(shù))、閱讀一段中性情感色彩的文字,或看圖說話[3];第二種是半定式錄音,即患者回答一定個數(shù)的問題,或者在評定抑郁量表時患者回答醫(yī)生的提問[11];第三種是自由交談式錄音,如在與患者商討問題解決辦法、制定計劃時,或臨床查房時自由交談錄音,錄音時間一般為10~20 min[16]。值得注意的是,Karam[17]利用智能手機終端自動錄取患者通話錄音,實現(xiàn)了患者在自然生活狀態(tài)下的語音采集。
2.2 與抑郁障礙相關(guān)的語音特征參數(shù)
1996年,Heiner[18]對11例女性、5例男性MDD患者進行跟蹤隨訪并進行訪談錄音,比較患者在發(fā)病、緩解期的語音速率、平均停頓時間、停頓次數(shù)、平均基頻、最小基頻、基頻帶寬等語音特征參數(shù)差異,結(jié)果顯示隨著情緒的改善,患者的語音速率上升、平均停頓時間減少,提示語音信號可以預(yù)測患者的情緒改善。1998年,Stassen[19]報道基音頻率幅度及平均停頓時間可以預(yù)測MDD患者的病情改善程度。隨后研究者發(fā)現(xiàn)共振峰(平均數(shù)、最小共振峰、第一共振峰、第二共振峰、基頻微擾、幅度微擾)與MDD的嚴重程度及緩解明顯相關(guān)。Lu shih等[16]運用MFCC作為MDD識別的主要特征參數(shù),取得了較高的識別率。目前有關(guān)MDD的研究中提取的語音特征參數(shù)主要有韻律特征(如短時平均能量、短時過零率)、聲門特征(如基頻,共振峰)、頻譜特征(如LPC、LPCC、MFCC)及Teager能量算子(TEO)[20]。
2.3 抑郁障礙語音識別的建模方法及識別率
近幾年來,有學者采用多元分析的方法來探討融合不同特征參數(shù)建立抑郁障礙的語音識別模型,Ozdas[21]選取30例抑郁障礙患者和30例對照組,選取基頻和基頻微擾作為特征參數(shù),采用多元最大似然值的方法建立語音識別模型,識別率為90%。表1總結(jié)了近幾年來選取不同語音特征參數(shù)及語音識別模型時抑郁障礙識別率,需要指出是性別對抑郁障礙語音識別模型的識別率也有影響。
表1 不同的特征參數(shù)和建模方法的抑郁障礙的識別率
2.4 雙相障礙的語音識別研究
目前,有關(guān)雙相障礙的研究報道極少。BD以情感高漲、低落與正常三種情緒的交替變化為主要臨床特征,與MDD及精神分裂癥有著不同情感變化特點,因此BD的語音信號分析與識別研究更有臨床意義。2012年,Nicola V等[25]利用看圖說話和中性文字閱讀(各需5 min)采集雙相障礙患者在躁狂狀態(tài)、抑郁狀態(tài)及平靜時的語音,共6例患者入組(1女,5男),躁狂狀態(tài)和抑郁狀態(tài)各3例,利用波形估計法來檢測基音,選取元音的平均基頻、基頻微擾、基頻標準差作為特征參數(shù),對每位患者在躁狂(或抑郁)、平靜時的基頻特征進行統(tǒng)計分析,結(jié)果顯示抑郁或躁狂與平靜狀態(tài)的基頻特征存在統(tǒng)計差異,提示基頻特征參數(shù)隨著患者的情緒狀態(tài)發(fā)生改變。2014年,Karam等[17]對6 例(4女2男)雙相障礙患者進行一年隨訪,通過手機終端軟件自動錄取患者每次通話語音,以采集其在不同情緒狀態(tài)下的語音,選取短時平均能量、短時過零率、基頻及基頻微擾、共振峰、MFFCC共52個特征參數(shù),建模方法為SVM,躁狂的平均識別率為61%,抑郁的平均識別率為59%,且手機采集的語音與現(xiàn)場訪談錄音的識別率無統(tǒng)計差異,該研究提示通過手機采集的語音信號來判別患者的情緒狀態(tài)具有一定可行性。
綜上所述,目前有關(guān)情感障礙語音識別研究主要存在以下幾個問題:(1)現(xiàn)有的文獻報道中,樣本量偏少(多為10例左右),而語音樣本的大小會影響語音識別系統(tǒng)的識別率;(2)目前國內(nèi)尚未見有關(guān)情感障礙的語音識別研究報道,目前文獻報道主要來自英語國家。今后,以下研究方向值得關(guān)注:(1)建立具有代表性的情感障礙患者漢語語音數(shù)據(jù)庫,比較不同語言的語音特征差異;(2)擴大語音樣本量,提高語音識別器識別率及穩(wěn)定性;(3)研發(fā)高效的情感障礙語音識別系統(tǒng),在臨床診斷、社區(qū)疾病監(jiān)測及司法精神疾病鑒定等領(lǐng)域有著重要的意義和應(yīng)用前景。
[1]韓紀慶,張磊,鄭鐵然.語音信號處理[M].北京:清華大學出版社,2004:105.
[2]Leff J,Abberton E.Voice pitch measurements in schizophrenia and depression[J].Psychological Med,1981,(11):849-852.
[3]Nilsonne A.Acoustic analysis of speech variables during depression and after improvement[J].Acta Psychiatr Scand,1987,(76):235-245.
[4]Scherer K,Zei B.Vocal indicators of affective disorders[J]. Psychotherapy and Psychosomatics,1988,(49):179-186.
[5]France D,Shiavi R,Silverman S,et al.Acoustical properties of speech as indicators of depression and suicidal risk[J].IEEE Trans Biomed Eng,2000,47(7):829-837.
[6]Alpert M,Pouget E,Silva R.Reflections of depression in acoustic measures of the patient’s speech[J].J Affect Disorders,2001,66(1):59-69.
[7]Ozdas A,Shiavi R,Silverman S,et al.Investigation of vocal jitter and glottal flow spectrum as possible cues for depres-sion and near-term suicidal risk[J].IEEE Trans Biomed Eng,2004,51(9):1530-1540.
[8]Moore E,Clements MA,Peifer JW,et al.Critical analysis of the impact of glottal features in the classification of clinical depression in speech[J].IEEE Trans Biomed Eng,2008,55(1): 96-107.
[9]趙臘生,張強.語音情感識別研究進展[J].計算機應(yīng)用研究,2009,(2):428-432
[10]胡航.現(xiàn)代語音信號處理[M].北京:電子工業(yè)出版社,2014: 356.
[11]Morrisn D,Wang Ruili,De Silva LC.Ensemble methods for spoken emotion recognition in call-centres[J].Speech Communication.2007,49(2):98-112.
[12]Elayadim M,Kamel M,Karray F.Speech emotion recognition using Ganssian mixture vector autoregressive models[C]// Proc of IEEE International Conference on Acoustics,Speech,and Signal Processing,2007:957-960.
[13]Mao Xia,Zhang Bing,Luo Yi.Speech emotion recognition based on a hybrid of HMM/ANN[C]//Proc of the 7th WSEAS International Conference on Applied Informatics and Communications.Stevens Point:World Scientific and Engineering Academy and Society,2007:367-370.
[14]Hu Han,Xu Mingxing,Wu Wei.GMM supervector based SVM with spectral features for speech emotion recognition[C]//ProcofIEEE internationalConferenceon Acoustics,Speech,and Signal Processing,2007:413-416.
[15]Lin Yilin,Wei Gang.Speech emotion recognition based on HMM and SVM[C]//Proc of the 4th International Conference on Machine Learning and Cybernetics,2005:4898-4901.
[16]Lu Shih,Alex L,Namunu C,et al.Detection of clinical depression in adolescents’speech duringfamily interactions[J]. IEEE Trans Biome Eng,2011,58(3):4675-4677.
[17]Karam Z,Provost E,Singh S,et al.Ecologically valid longterm mood monitoring of individual with bipolar disorder using speech[C]//IEEE International Conference on Acoustic,Speech and Signal Processing(ICASSP),2014:4858-4862.
[18]Heiner E,Klaus RS.Vocal indicators of mood change in depression[J].Journal of Nonverbal Behavior,1996,20(2): 83-110.
[19]Stassen H,Bomben G,Gunther E.Speech characteristics in depression[J].Psychopathology,1991,(24):88-105.
[20]Sharifa A,Roland G,Michael W,et al.A comparative study of different classifier for detecting depression from spontaneous speech[C]//IEEE conf,2013:88-105.
[21]Ozdas A,Shiavi R,Silverman S,et al.Investigation of vocal jitterand glottalflow spectrum as possible cues for depression and near-term suicidal risk[J].IEEE Trans Biomed Eng,2004,51(9):1530-1540.
[22]Cummins N,Epps J,Breakspear M,et al.An Investigationof Depressed Speech Detection:Features and Normalization[J]. Proc.Interspeech,2011,(7):2997-3000.
[23]Moore E,Clements MA,Peifer JW,et al.Critical analysis of the impact of glottal features in the classification of clinical depression in speech[J].IEEE Trans Biomed Eng,2008,55(1):96-107.
[24]Kuan E,Margaret L,Nicholas B.Multichannel Weighted Speech Classification System for Prediction of major depression in adolescents[J].IEEE Transactions On Biomedical Engineering,2013,60(2):497-506.
[25]Nicola V,Andrea G,Claudio G,et al.Speech analysis for mood state characterization in bipolar patients[C]//34th Annual International Conference of the IEEE EMBS San Diego,California USA,2012:3459.
(本文編輯:張欽廷)
AppIication of Speech Recognition in the Diagnosis of Affective Disorders
PAN Zhang-de1,2,CAI Wei-xiong2,ZHU Jie3,CUI Dong-hong1
(1.Key Laboratory of Translational Psychiatry,Shanghai Mental Health Center,School of Medicine,Shanghai Jiao Tong University,Shanghai 200030,China;2.Institute of Forensic Science,Ministry of Justice,Shanghai 200063,China;3.Department of Electronic Engineering,Shanghai Jiao Tong University,Shanghai 200040,China)
With the development of speech signal analyzing and processing techniques,especially the application of linear prediction in speech processing,speech feature parameters including fundamental frequency,formants and linear prediction coefficient,linear prediction cepstrum coefficient,Mel frequency cepstrum coefficient are confirmed to be closely related to normal emotions(especially depression).Over the past ten years,with the establishment of a series of new speech modeling methods on the basis of modern statistical theory,the emotional speech recognition of normal people has achieved considerable recognition rate.Therefore,some scholars have utilized modern speech recognition technology to explore the feasibility of using speech,the objective physiological behavior,as a biological indicator in the diagnosis of affective disorders. This paper introduces the basic principles and methods of modern language recognition technology,and the research progress of applying speech recognition in the diagnosis of affective disorders.
speech recognition;affective disorders;review[publication type]
DF795.3
A
10.3969/j.issn.1671-2072.2015.06.015
1671-2072-(2015)06-0085-05
2015-10-02
上海交通大學醫(yī)工交叉基金重點項目(YG2012ZD04);上海市法醫(yī)學重點實驗室資助項目(14DZ2270800)
潘忠德(1973-),男,副主任醫(yī)師,博士研究生,主要從事臨床精神病學及法醫(yī)精神病學研究。
E-mail:390092913@qq.com。
崔東紅(1967-),女,研究員,博士研究生導(dǎo)師,主要從事精神疾病遺傳學及醫(yī)工交叉應(yīng)用研究。
E-mail:manyucc@126.com。