葉吉祥,陳 鑫
長(zhǎng)沙理工大學(xué) 計(jì)算機(jī)與通信工程學(xué)院,長(zhǎng)沙 410114
相空間重構(gòu)在語(yǔ)音情感識(shí)別中的研究
葉吉祥,陳 鑫
長(zhǎng)沙理工大學(xué) 計(jì)算機(jī)與通信工程學(xué)院,長(zhǎng)沙 410114
語(yǔ)音情感識(shí)別是情感計(jì)算的重要組成部分,是基于語(yǔ)音信號(hào)產(chǎn)生機(jī)理的基礎(chǔ)上,通過(guò)準(zhǔn)確提取語(yǔ)音信號(hào)中的情感特征參數(shù),并利用這些參數(shù)進(jìn)行模式識(shí)別從而確定被測(cè)試對(duì)象本身的情感狀態(tài)的一門(mén)新興技術(shù)。它反映的是計(jì)算機(jī)通過(guò)獲取的信息判斷操作者或?qū)υ捳叩那楦袪顟B(tài)的能力[1]。
有效的情感特征選擇和提取是語(yǔ)音情感識(shí)別過(guò)程中的重要步驟,目前傳統(tǒng)的情感特征參數(shù),如基頻、能量、速率、倒譜系數(shù)[2]以及基于Teager的能量算子[3]等都能在一定的范圍內(nèi)區(qū)分某些情感狀態(tài),然而人類發(fā)聲系統(tǒng)在產(chǎn)生不同語(yǔ)音時(shí)的生理結(jié)構(gòu)以及激勵(lì)方式都不盡相同,因此語(yǔ)音信號(hào)的產(chǎn)生實(shí)則是一個(gè)相當(dāng)復(fù)雜的非平穩(wěn)、非線性的過(guò)程,其中存在一定的混沌性[4],而傳統(tǒng)的語(yǔ)音特征大都是建立于確定的線性系統(tǒng)理論而提出的,缺少對(duì)語(yǔ)音信號(hào)本身混沌機(jī)制的表征。
相空間重構(gòu)是從混沌時(shí)間序列中提取有效信息的重要手段,已經(jīng)逐漸應(yīng)用于生活中的諸多領(lǐng)域[5-7],文獻(xiàn)[8]通過(guò)主分量分析方法對(duì)重構(gòu)后的語(yǔ)音數(shù)據(jù)進(jìn)行增強(qiáng)處理,本文在現(xiàn)有的研究成果基礎(chǔ)上,將相空間重構(gòu)理論進(jìn)一步引入到語(yǔ)音情感識(shí)別中,分別將喜悅、憤怒、悲傷、平靜四種基本情感的語(yǔ)音信號(hào)進(jìn)行相空間重構(gòu)處理,并提取了Kolmogorov熵和關(guān)聯(lián)維作為新的語(yǔ)音情感特征參數(shù),以此來(lái)分析不同語(yǔ)音情感間的差異。情感識(shí)別的實(shí)驗(yàn)數(shù)據(jù)顯示,新參數(shù)的引入,提高了情感識(shí)別的準(zhǔn)確性和針對(duì)性,為傳統(tǒng)的語(yǔ)音情感識(shí)別性能的改進(jìn)提供了新的參考。
關(guān)聯(lián)維反映的是一個(gè)集合占有的空間的密集程度,Kolmogorov熵則能較好地反應(yīng)系統(tǒng)本身信息產(chǎn)生的頻率和信息損失速率。相空間重構(gòu)是非線性動(dòng)力學(xué)分析的第一步,目前常用的是Takens等提出的坐標(biāo)延遲重構(gòu)法[9],該方法的本質(zhì)在于通過(guò)一維的時(shí)間序列{x(n)}的不同時(shí)間延遲τ來(lái)構(gòu)造m維的相空間矢量:
該方法中嵌入維m和延遲時(shí)間τ是兩個(gè)關(guān)鍵的技術(shù)參數(shù),實(shí)際應(yīng)用中的時(shí)間序列都是有噪的有限長(zhǎng)的序列,參數(shù)不能任意取值,否則會(huì)對(duì)重構(gòu)的相空間的品質(zhì)產(chǎn)生重要影響。
2.1 相空間重構(gòu)時(shí)延遲時(shí)間τ的確定
延遲時(shí)間τ的選取直接關(guān)系到重構(gòu)后的相空間中吸引子的質(zhì)量,如果太小,則矢量 x(i)中的任意兩分量在數(shù)值上會(huì)十分接近,導(dǎo)致辨識(shí)度不高;如果τ的取值過(guò)大,則兩坐標(biāo)又完全獨(dú)立,吸引子的軌跡在兩方向上的投影毫無(wú)相關(guān)性可言,基于此,本文引入信息理論中的互信息的概念求取延遲時(shí)間。定義:
s代表語(yǔ)音信號(hào)時(shí)間序列x(t),q代表延遲時(shí)間序列x(t+τ),根據(jù)互信息的定義,有:
其中,I(Q,S)單位為比特/消息,Psq(si,qi)為si和qi聯(lián)合分布概率。顯然用互相關(guān)的概念將原始序列和延遲后的時(shí)間序列聯(lián)系之后,I(Q,S)則是與延遲時(shí)間τ有關(guān)的函數(shù),它的大小可以表征在確定序列 x(t)的前提下,x(t+τ)的預(yù)測(cè)情況。顯然當(dāng)其值為零時(shí),表示延遲序列完全不可以預(yù)測(cè),即二者毫無(wú)關(guān)系。而其值取最小值時(shí),則表示x(t)和x(t+τ)最大可能上的不相關(guān),因此重構(gòu)時(shí),使用I(Q,S)的第一個(gè)極小值作為最優(yōu)的延遲時(shí)間。
2.2 關(guān)聯(lián)維和Kolmogorov熵測(cè)定方法
本文結(jié)合G-P算法[10]求取語(yǔ)音信號(hào)的Kolmogorov熵和關(guān)聯(lián)維,假定已經(jīng)測(cè)出的如下一組實(shí)驗(yàn)數(shù)據(jù)(時(shí)間序列)為:s1,s2,…,si,…,其中si是第i時(shí)刻測(cè)試的值。
步驟1把實(shí)驗(yàn)測(cè)試到的數(shù)據(jù)進(jìn)行分組,例如,取m= 10為一組,即:S1S2…S10為第一組,記為 y1,以此類推,繼續(xù)劃分下去可以得到 y1y2…
現(xiàn)在將分組后的任意兩者之間的差值的絕對(duì)值記為ri,j=|yi-yj|,yi和 yj分別表示第i和第 j組的數(shù)據(jù)。
步驟2假設(shè)取某定值r為參考標(biāo)準(zhǔn),與在步驟1中求得的一系列r作比對(duì),半徑大于r的ri,j的個(gè)數(shù)記為Nup(r),ri,j的總數(shù)目記為N(r),設(shè)參數(shù)C(r)=Nup(r)/N(r),采用關(guān)聯(lián)積分函數(shù)的表達(dá)方式:
Np是由時(shí)間序列重構(gòu)的相空間矢量個(gè)數(shù),θ(x)為Heaviside函數(shù)。
當(dāng)r足夠小,嵌入維m也趨于穩(wěn)定時(shí)Kolmogorov熵的定義為:
實(shí)驗(yàn)所使用的樣本數(shù)據(jù)來(lái)源于北航情感語(yǔ)音數(shù)據(jù)庫(kù)(http://www.ee.buaa.edu.cn/oldeeweb/html/zykj/teachers/mx/news/22.html),該數(shù)據(jù)庫(kù)是由15人錄制(7男8女),該數(shù)據(jù)庫(kù)主要包含了7種情感和20句錄音腳本,其數(shù)據(jù)庫(kù)的錄制步驟參閱了國(guó)家相關(guān)的發(fā)明專利,具有較好的情感自由度,沒(méi)有包含明顯的特定情感的傾向,根據(jù)情感空間理論,喜悅、憤怒、悲傷和平靜分別在評(píng)估二維坐標(biāo)系中的四個(gè)象限中[11],因此本文選取這四種有代表性的情感進(jìn)行相關(guān)的識(shí)別實(shí)驗(yàn),并從每種情感中選取40句作為訓(xùn)練樣本,30句作為測(cè)試樣本進(jìn)行相關(guān)的識(shí)別實(shí)驗(yàn)。
4.1 語(yǔ)音信號(hào)的相空間重構(gòu)分析
識(shí)別實(shí)驗(yàn)是在Matlab仿真平臺(tái)上進(jìn)行的。按照相空間重構(gòu)的構(gòu)建方法,先對(duì)語(yǔ)音信號(hào)進(jìn)行相關(guān)的預(yù)處理,然后利用互信息的相關(guān)理論求取延遲時(shí)間τ。然后用已求的τ對(duì)語(yǔ)音信號(hào)時(shí)間序列進(jìn)行關(guān)聯(lián)維和Kolmogorov熵的提取。
圖1是根據(jù)互信息的概念求取語(yǔ)音信號(hào)進(jìn)行相空間重構(gòu)時(shí)獲得較為合適的延遲時(shí)間,從圖中可看出當(dāng)延遲時(shí)間大于10后基本趨于穩(wěn)定,說(shuō)明能夠把語(yǔ)音信號(hào)作為混沌信號(hào)進(jìn)行分析并進(jìn)行相關(guān)的相空間重構(gòu)。圖2是根據(jù)GP算法計(jì)算的關(guān)聯(lián)積分雙對(duì)數(shù)曲線擬合圖,圖3是根據(jù)嵌入維數(shù)m不斷增加后關(guān)聯(lián)維的分布圖,從圖中看到當(dāng)m增加到一定值,關(guān)聯(lián)維也趨于一個(gè)穩(wěn)定值,這說(shuō)明語(yǔ)音信號(hào)本身作為混沌信號(hào)進(jìn)行處理時(shí),是可以提取相對(duì)應(yīng)的混沌特性參數(shù)的。因此僅僅用線性特征來(lái)衡量語(yǔ)音信號(hào)顯然是不全面的,最后得到的Kolmogorov熵分布圖如圖4所示。
圖1 互信息法求延遲時(shí)間τ
圖2 lnC(r)~lnC(r,m)關(guān)系圖
圖3 關(guān)聯(lián)維~m關(guān)系圖
圖4 Kolmogorov熵~m關(guān)系圖
4.2 語(yǔ)音信號(hào)情感狀態(tài)的相空間重構(gòu)分析
從以上分析可知,語(yǔ)音信號(hào)是能夠進(jìn)行重構(gòu)并進(jìn)行相關(guān)混沌特征參數(shù)提取的,現(xiàn)研究相空間重構(gòu)后的語(yǔ)音信號(hào)在不同語(yǔ)音情感上的分布特質(zhì)。分別對(duì)情感語(yǔ)音數(shù)據(jù)庫(kù)中20句話在不同情感狀態(tài)下的語(yǔ)音信號(hào)進(jìn)行相空間重構(gòu),并提取相對(duì)應(yīng)的關(guān)聯(lián)維和Kolmogorov熵。通過(guò)比較實(shí)驗(yàn)發(fā)現(xiàn):(1)同類情感狀態(tài)下的不同語(yǔ)句提取出的混沌特征參數(shù)基本類似。(2)20句話中的每一句話在不同情感狀態(tài)下得出的相關(guān)參數(shù)基本相同。基于此,可以先對(duì)同一句話在不同情感狀態(tài)下表現(xiàn)出的特征參數(shù)進(jìn)行研究分析。
圖5為語(yǔ)音庫(kù)中的某一語(yǔ)句(錄音語(yǔ)句編號(hào)8,語(yǔ)句內(nèi)容:AC米蘭贏球了)在不同情感狀態(tài)下的關(guān)聯(lián)維的結(jié)果分布圖。圖中對(duì)關(guān)聯(lián)維進(jìn)行比較發(fā)現(xiàn),憤怒的變化范圍較大,說(shuō)明該狀態(tài)下的語(yǔ)音信號(hào)在單位體積范圍內(nèi)含有的吸引子密集,混沌特性強(qiáng)烈。悲傷和平靜狀態(tài)下關(guān)聯(lián)維區(qū)域穩(wěn)定的速率較快,說(shuō)明這兩種信號(hào)的混沌特性最弱。四類情感的關(guān)聯(lián)維曲線彼此分離,且具有較明顯差異,說(shuō)明這四類情感在含有吸引子的混沌細(xì)節(jié)上具有一定差異。
圖5 同一句話不同情感狀態(tài)下關(guān)聯(lián)維的分布圖
最后得到不同情感狀態(tài)下Kolmogorov熵(以下簡(jiǎn)稱K熵)的分布曲線如圖6所示,從圖中可以看出,同樣的語(yǔ)句在采用不同情感表達(dá)時(shí),K熵的值呈現(xiàn)明顯的不同,K熵是用來(lái)度量信號(hào)損失速率和產(chǎn)生信號(hào)頻率的一個(gè)特征參數(shù)。憤怒和悲傷狀態(tài)下的信號(hào)的熵值較大,說(shuō)明在語(yǔ)句本身相同的情況下,這兩種信號(hào)產(chǎn)生的過(guò)程較為復(fù)雜,且波動(dòng)強(qiáng)烈,信息損失率較大,信號(hào)產(chǎn)生的頻率不連貫。喜悅和平靜狀態(tài)下熵值偏小,說(shuō)明信號(hào)產(chǎn)生相對(duì)連續(xù),這與日常生活中的生活經(jīng)驗(yàn)相契合。
圖6 同一句話在不同情感狀態(tài)下的K熵分布圖
通過(guò)以上分析比較發(fā)現(xiàn),混沌特征參數(shù)的差異與語(yǔ)音情感類別的轉(zhuǎn)換有著較強(qiáng)的聯(lián)系,也的確可以反映不同語(yǔ)音情感產(chǎn)生的非線性機(jī)理,因此可以作為語(yǔ)音情感識(shí)別新的重要特征參數(shù)。
5.1 實(shí)驗(yàn)步驟與方法
為了研究新的混沌特征參數(shù)對(duì)語(yǔ)音情感識(shí)別的效果影響,同時(shí)提取了傳統(tǒng)的語(yǔ)音情感特征(韻律特征、音質(zhì)特征等),如表1所示。
表1 語(yǔ)音情感傳統(tǒng)特征和相空間重構(gòu)特征
情感識(shí)別的分類器采用基于統(tǒng)計(jì)學(xué)習(xí)理論的支持向量機(jī)技術(shù)[12](SVM),使用“一對(duì)一”的多類模式識(shí)別算法,選用的徑向基函數(shù)為:
5.2 實(shí)驗(yàn)結(jié)論及分析
為了檢測(cè)新的特征參數(shù)對(duì)語(yǔ)音情感識(shí)別的效果,進(jìn)行相關(guān)的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)根據(jù)特征選取的組成不同設(shè)計(jì)了以下三種方案:
方案1單獨(dú)使用相空間重構(gòu)特征關(guān)聯(lián)維和K熵進(jìn)行識(shí)別。
方案2單獨(dú)使用傳統(tǒng)的語(yǔ)音特征參數(shù)(基頻、短時(shí)能量、過(guò)零率等)進(jìn)行識(shí)別。
方案3結(jié)合傳統(tǒng)聲學(xué)特征和相空間重構(gòu)特征參數(shù)進(jìn)行識(shí)別。
三種不同方案得到識(shí)別率的結(jié)果如表2和表3所示。
表2 采用關(guān)聯(lián)維和Kolmogorov熵時(shí)各種情感狀態(tài)的識(shí)別率 (%)
表3 采用不同結(jié)合方案的特征參數(shù)時(shí)各種情感狀態(tài)的識(shí)別率 (%)
從表2、表3中可以看到,相空間重構(gòu)后的混沌特征參數(shù)對(duì)識(shí)別憤怒、喜悅的識(shí)別效果都較為滿意,尤其是憤怒狀態(tài),識(shí)別率達(dá)到了88.6%,比僅僅使用聲學(xué)特征進(jìn)行判斷高了15.3個(gè)百分點(diǎn),但悲傷和平靜兩種情感的識(shí)別率偏低,這是因?yàn)檫@兩種情感表征出的混沌特征較為相似,因此在識(shí)別的過(guò)程中,部分悲傷樣本被誤判為平靜。但同時(shí)也可以看出,混沌特征參數(shù)對(duì)區(qū)分感情激烈的狀態(tài)(憤怒和喜悅)有較好的區(qū)分度。
由表3可看出,單獨(dú)使用傳統(tǒng)聲學(xué)特征參數(shù)平均識(shí)別率只有72.5%,使用混沌特征參數(shù)后,識(shí)別率有了小幅提高,說(shuō)明了語(yǔ)音信號(hào)在一定程度上存在著混沌機(jī)制,但暴露出了僅僅依靠混沌特征不能較好區(qū)分某些情感狀態(tài)的弊端。例如對(duì)平靜和悲傷兩種情感進(jìn)行了一些錯(cuò)誤的識(shí)別,方案3則將傳統(tǒng)聲學(xué)特征和兩個(gè)混沌特征參數(shù)進(jìn)行較好融合的工作,平均識(shí)別率達(dá)到了84.8%,與上兩者方案相比,識(shí)別率分別提高了12.3%和9.3%。也說(shuō)明了相對(duì)于用單一混沌特征參數(shù)進(jìn)行識(shí)別,將二者結(jié)合能更好地刻畫(huà)語(yǔ)音信號(hào)的非線性產(chǎn)生機(jī)理,且能夠?qū)⑷菀谆煜那楦羞M(jìn)行較好的區(qū)分。最后將語(yǔ)音混沌特征參數(shù)與傳統(tǒng)語(yǔ)音聲學(xué)特征進(jìn)行相互融合和補(bǔ)充,更能有效完整地刻畫(huà)語(yǔ)音信號(hào)含有的情感信息的本質(zhì)特征。
本文設(shè)計(jì)了一種基于相空間重構(gòu)理論的語(yǔ)音情感識(shí)別方法,提出用關(guān)聯(lián)維和Kolmogorov熵來(lái)表征語(yǔ)音情感特征的新思路,通過(guò)對(duì)語(yǔ)音信號(hào)相空間重構(gòu)來(lái)更為有效而全面地衡量情感狀態(tài),通過(guò)SVM對(duì)提取的特征進(jìn)行訓(xùn)練和識(shí)別表明,重構(gòu)后的語(yǔ)音信號(hào)提取的特征參數(shù),有效地提高了情感識(shí)別率。實(shí)驗(yàn)證明,新的特征參數(shù)針對(duì)憤怒和喜悅兩種不易區(qū)分的情感狀態(tài)有明顯的識(shí)別效果,較好地解決了其他參數(shù)將其混淆的狀況。今后將考慮在關(guān)聯(lián)維和Kolmogorov熵基礎(chǔ)上,更為詳細(xì)地研究重構(gòu)后的語(yǔ)音信號(hào),以期許找尋針對(duì)不同情感更為有區(qū)分度的特征參數(shù)。
[1]林奕琳,韋崗,楊康才.語(yǔ)音情感識(shí)別的研究進(jìn)展[J].電路與系統(tǒng)學(xué)報(bào),2007,12(1):90-96.
[2]蔣丹寧,蔡蓮紅.基于語(yǔ)音聲學(xué)特征的情感信息識(shí)別[J].清華大學(xué)學(xué)報(bào),2006,46(1):86-89.
[3]Gao H,Chen S,Su G.Emotion classification of Mandarin speech based on TEO nonlinear features[C]//Proceedings of the 8th ACIS International Conference on Software Engineering,Artificial Intelligence,Networking,and Parallel/Distributed Computing,2007.
[4]Thompson C,Mulpur A,Mehta V.Transition to chaos in acoustically driven flow(acoustic stream)[J].The Journal of the Acoustical Society of America,1991,90.
[5]Sun Dan,Meng Jun,Guan Yufan,et al.Inverter faults diagnosis in PMSM DTC drive using reconstructive phase space and fuzzy clustering[J].Proceedings of the CSEE,2007,27(16):49-53.
[6]Chiang T C.Times series dynamics of short-time interest:evidence from eurocurrency markets[J].Journal of Intl Financial Markets,Institution and Money,1997(7):201-220.
[7]李銀山,李欣業(yè),劉波.分岔混沌非線性振動(dòng)及其在工程中的應(yīng)用[J].河北工業(yè)大學(xué)學(xué)報(bào),2004,33(2):96-100.
[8]許春卿.基于相空間重構(gòu)的語(yǔ)音增強(qiáng)研究[D].天津:天津大學(xué),2007.
[9]Takens F.Dynamical systems and turbulence[C]//Rand D A,Young L S.Lecture Notes in Mathematics.Berlin:Springer,1981,898:366-381.
[10]Grassberger P.Characterization of strange attractor[J].Physical Review Letters,1983,50(5):346-349.
[11]Russell J A.A circumflex model of affect[J].Personality and Social Psychology,1980,39:1167-1178.
[12]LIBSVM:a library for support vector machines[EB/OL]. [2012-09-20].http://www.csie.ntu.edu.tw/~cjlin/libsvm/index.html.
YE Jixiang,CHEN Xin
College of Computer and Communication Engineering,Changsha University of Science and Technology,Changsha 410114,China
In order to express the sound emotion state totally,make up the inadequate of emotional conventional linear argument at depicting different types of character sentiments,this paper takes the phase space reconstruction theory into the sound emotional identification,by analyzing chaotic features on the different sound emotional states,proposes correlation dimension and Kolmogorov entropy as emotional characteristic parameters,combines with traditional voice acoustic features and uses Support Vector Machine(SVM)for speech emotion recognition.The results show that recognition accuracy is improved through using chaotic characteristic parameters,providing a new research approach for speech emotion recognition.
phase space reconstruction;Kolmogorov entropy;correlation dimension;emotion recognition
為了更為全面地表征語(yǔ)音情感狀態(tài),彌補(bǔ)線性情感特征參數(shù)在刻畫(huà)不同情感類型上的不足,將相空間重構(gòu)理論引入語(yǔ)音情感識(shí)別中來(lái),通過(guò)分析不同情感狀態(tài)下的混沌特征,提取Kolmogorov熵和關(guān)聯(lián)維作為新的情感特征參數(shù),并結(jié)合傳統(tǒng)語(yǔ)音特征使用支持向量機(jī)(SVM)進(jìn)行語(yǔ)音情感識(shí)別。實(shí)驗(yàn)結(jié)果表明,通過(guò)引入混沌參數(shù),與傳統(tǒng)物理特征進(jìn)行識(shí)別的方案相比,準(zhǔn)確率有了一定的提高,為語(yǔ)音情感的識(shí)別提供了一個(gè)新的研究途徑。
相空間重構(gòu);Kolmogorov熵;關(guān)聯(lián)維;情感識(shí)別
A
TP391
10.3778/j.issn.1002-8331.1302-0053
YE Jixiang,CHEN Xin.Speech emotion recognition based on phase space reconstruction.Computer Engineering and Applications,2014,50(24):218-221.
湖南省自然科學(xué)基金重點(diǎn)項(xiàng)目(No.10jj2050)。
葉吉祥(1963—),男,博士,教授,主要研究方向:人工智能、語(yǔ)音情感計(jì)算;陳鑫(1988—),男,碩士研究生,主要研究方向:語(yǔ)音情感識(shí)別。E-mail:huyebowen@163.com
2013-02-06
2013-04-09
1002-8331(2014)24-0218-04
CNKI網(wǎng)絡(luò)優(yōu)先出版:2013-05-21,http∶//www.cnki.net/kcms/detail/11.2127.TP.20130521.1030.011.html