• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于模糊核聚類的多模式情感識(shí)別算法研究

      2016-11-09 11:03:40韓志艷王健
      電子設(shè)計(jì)工程 2016年20期
      關(guān)鍵詞:語音聚類函數(shù)

      韓志艷,王健

      (渤海大學(xué) 遼寧 錦州121000)

      基于模糊核聚類的多模式情感識(shí)別算法研究

      韓志艷,王健

      (渤海大學(xué) 遼寧 錦州121000)

      為了克服單模式情感識(shí)別存在的局限性,該文以語音信號(hào)和面部表情信號(hào)為研究對(duì)象,提出了一種新型的多模式情感識(shí)別算法,實(shí)現(xiàn)對(duì)喜悅、憤怒、驚奇和悲傷4種人類基本情感的識(shí)別。首先,將獲取的信號(hào)進(jìn)行預(yù)處理并提取情感特征參數(shù),然后利用模糊核聚類算法對(duì)其進(jìn)行聚類分析,即利用Mercer核,將原始空間通過非線性映射到高維特征空間,在高維特征空間中對(duì)多模式情感特征進(jìn)行模糊核聚類分析。由于經(jīng)過了核函數(shù)的映射,使原來沒有顯現(xiàn)的特征突現(xiàn)出來。實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的可行性和有效性。

      多模式情感識(shí)別;語音信號(hào);面部表情信號(hào);模糊核聚類

      近年來,情感識(shí)別的研究工作在人機(jī)交互領(lǐng)域中已經(jīng)成為一個(gè)熱點(diǎn)問題。國(guó)內(nèi)外情感識(shí)別的研究主要有兩大類,一類是單模式情感識(shí)別,另一類是多模式情感識(shí)別。所謂單模式情感識(shí)別為只從單一信息通道中獲得當(dāng)前對(duì)象的情感狀態(tài),如從語音信號(hào)、面部表情信號(hào)或生理信號(hào)(血壓、體溫、脈搏、心電、腦電、皮膚電阻等)等。對(duì)于語音情感識(shí)別,1990年麻省理工大學(xué)多媒體實(shí)驗(yàn)室構(gòu)造了一個(gè)“情感編輯器”對(duì)外界各種情感信號(hào)進(jìn)行采樣來識(shí)別各種情感,并讓機(jī)器對(duì)各種情感做出適當(dāng)?shù)姆磻?yīng)。北京航空航天大學(xué)的毛峽[1]通過用相關(guān)密度和分形維數(shù)作為情感特征參數(shù)來進(jìn)行語音情感識(shí)別,獲得了較好的性能。Attabi等[2]將錨模型的思想應(yīng)用到了語音情感識(shí)別中,改進(jìn)了識(shí)別系統(tǒng)的性能。Zheng等[3]通過對(duì)傳統(tǒng)的最小二乘回歸算法進(jìn)行改進(jìn),提出了不完稀疏最小二乘回歸算法,能同時(shí)對(duì)標(biāo)記和未標(biāo)記語音數(shù)據(jù)進(jìn)行情感識(shí)別。Mao等[4]通過使用卷積神經(jīng)網(wǎng)絡(luò)來選擇對(duì)情感有顯著影響的特征,取得了很好的效果。對(duì)于面部表情識(shí)別,1978年開發(fā)出了面部動(dòng)作編碼系統(tǒng)(Facial Action Coding System,F(xiàn)ACS)來檢測(cè)面部表情的細(xì)微變化。1997年提出了基于視頻的動(dòng)態(tài)表情描述方法FACS+,解決了FACS中沒有時(shí)間描述信息的問題。Rahulamathavan等[5]利用局部Fisher判別分析對(duì)加密面部表情信號(hào)進(jìn)行了識(shí)別研究。中國(guó)科學(xué)技術(shù)大學(xué)的文沁等[6]提出一種基于三維數(shù)據(jù)的人臉情感識(shí)別方法,給出了基于三維特征的眼角和嘴角新的提取算法。Zheng等[7]提出了基于組稀疏降秩回歸的多視角面部表情識(shí)別方法,能夠從多尺度子域中自動(dòng)選擇出對(duì)情感識(shí)別貢獻(xiàn)最大的子域。對(duì)于生理信號(hào)情感識(shí)別,Petrantonakis等[8]采用高階過零技術(shù)(Higher order crossing,HOC)提取腦電波信號(hào)中的情感信息來進(jìn)行情感識(shí)別。Zacharatos等[9]分析研究了身體姿勢(shì)和動(dòng)作對(duì)情感識(shí)別的重要性。

      雖然單一地依靠語音信號(hào)、面部表情信號(hào)和生理參數(shù)來進(jìn)行情感識(shí)別的研究取得了一定的成果,但卻存在著很多局限性,因?yàn)槿祟愂峭ㄟ^多模式的方式表達(dá)情感信息的,它具有表達(dá)的復(fù)雜性和文化的相對(duì)性。比如,在噪聲環(huán)境下,當(dāng)某一個(gè)通道的特征受到干擾或缺失時(shí),多模式方法能在某種程度上產(chǎn)生互補(bǔ)的效應(yīng),彌補(bǔ)了單模式的不足,所以研究多模式情感識(shí)別的方法十分必要。如Kim等[10]融合了肌動(dòng)電流、心電、皮膚電導(dǎo)和呼吸4個(gè)通道的生理參數(shù),并采用聽音樂的方式來誘發(fā)情感,實(shí)現(xiàn)了對(duì)積極和消極兩大類情感的高效識(shí)別。東南大學(xué)的趙力、黃程韋等[11]通過融合語音信號(hào)與心電信號(hào)進(jìn)行了多模式情感識(shí)別,獲得較高的融合識(shí)別率。但是上述方法均為與生理信號(hào)相融合,而生理信號(hào)的測(cè)量必須與身體接觸,因此對(duì)于此通道的信號(hào)獲取有一定的困難,所以語音和面部表情作為兩種最為主要的表征情感的方式,得到了廣泛的研究。Hoch等[12]通過融合語音與表情信息,在車載環(huán)境下進(jìn)行了正面(愉快)、負(fù)面(憤怒)與平靜等3種情感狀態(tài)的識(shí)別。Sayedelahl等[13]通過加權(quán)線性組合的方式在決策層對(duì)音視頻信息中的情感特征進(jìn)行融合識(shí)別。從一定意義上說,不同信道信息的融合是多模式情感識(shí)別研究的瓶頸問題,它直接關(guān)系到情感識(shí)別的準(zhǔn)確性。聚類屬于非監(jiān)督模式識(shí)別問題,其特點(diǎn)是輸入空間的樣本沒有期望輸出。比較經(jīng)典的聚類方法有傳統(tǒng)的C-均值方法和模糊C-均值聚類方法,這些方法都沒有對(duì)樣本的特征進(jìn)行優(yōu)化,而是直接利用樣本的特征進(jìn)行聚類,這樣上述這些方法的有效性很大程度上取決于樣本的分布情況。Grolami[14]在結(jié)合核方法和聚類算法方面做了開創(chuàng)性的工作,他通過把模式空間的數(shù)據(jù)非線性映射到高維特征空間,增加了模式的線性可分概率,在高維特征空間達(dá)到線性可聚的目的。

      因此,文中以語音信號(hào)和面部表情信號(hào)為基礎(chǔ),提出了一種基于模糊核聚類的多模式情感識(shí)別算法,對(duì)喜悅、憤怒、驚奇和悲傷4種人類基本情感進(jìn)行識(shí)別。

      1 情感信號(hào)預(yù)處理

      通過噪聲刺激和觀看影視片段等誘發(fā)方式采集相應(yīng)情感狀態(tài)下的語音信號(hào)和面部表情信號(hào),并將二者綁定存儲(chǔ)。對(duì)于語音數(shù)據(jù),在提取特征之前要進(jìn)行一階數(shù)字預(yù)加重、分幀、加漢明窗和端點(diǎn)檢測(cè)等預(yù)處理。對(duì)于面部表情數(shù)據(jù),在提取特征之前要首先用膚色模型進(jìn)行臉部定位,然后進(jìn)行圖像幾何特性歸一化處理和圖像光學(xué)特性的歸一化處理,其中圖像幾何特性歸一化主要以兩眼位置為依據(jù),而圖像光學(xué)特性的歸一化處理包括先用直方圖均衡化方法對(duì)圖像灰度做拉伸,以改善圖像的對(duì)比度,然后對(duì)圖像像素灰度值進(jìn)行歸一化處理,使標(biāo)準(zhǔn)人臉圖像的像素灰度值為0,方差為1,如此可以部分消除光照對(duì)識(shí)別結(jié)果的影響。

      2 參數(shù)提取

      2.1 語音情感參數(shù)提取

      以往對(duì)情感特征參數(shù)的有效提取主要以韻律特征為主,然而近年來通過深入研究發(fā)現(xiàn),音質(zhì)特征和韻律特征相互結(jié)合才能更準(zhǔn)確地識(shí)別情感。研究發(fā)現(xiàn),音質(zhì)類特征對(duì)于區(qū)分激活維接近的情感有較好的效果,證實(shí)了共振峰等音質(zhì)類特征與效價(jià)維度的相關(guān)性較強(qiáng)。

      為了盡可能地利用語音信號(hào)中所包含的有關(guān)情感方面的信息,我們選取了語句發(fā)音持續(xù)時(shí)間與相應(yīng)的平靜語句持續(xù)時(shí)間的比值、基音頻率平均值、基音頻率最大值、基音頻率平均值與相應(yīng)平靜語句的基音頻率平均值的差值、基音頻率最大值與相應(yīng)平靜語句的基音頻率最大值的差值、振幅平均能量、振幅能量的動(dòng)態(tài)范圍、振幅平均能量與相應(yīng)平靜語句的振幅平均能量的差值、振幅能量動(dòng)態(tài)范圍與相應(yīng)平靜語句的振幅能量動(dòng)態(tài)范圍的差值、第一共振峰頻率的平均值、第二共振峰頻率的平均值、第三共振峰頻率的平均值、諧波噪聲比的均值、諧波噪聲比的最大值、諧波噪聲比的最小值、諧波噪聲比的方差作為情感識(shí)別用的特征參數(shù)。

      2.2 面部表情參數(shù)提取

      目前面部表情特征的提取根據(jù)圖像性質(zhì)的不同可分為靜態(tài)圖像特征提取和序列圖像特征提取,靜態(tài)圖像中提取的是表情的形變特征,而序列圖像特征是運(yùn)動(dòng)特征。文中以靜態(tài)圖像為研究對(duì)象,采用Gabor小波變換來提取面部表情參數(shù)。具體過程如下:

      1)將預(yù)處理后的人臉圖像進(jìn)行網(wǎng)格化,網(wǎng)格化為25×25像素,所以每張臉共有4行3列共12個(gè)網(wǎng)格。

      2)將網(wǎng)格化后的圖像和Gabor小波進(jìn)行卷積,其公式如下:

      3)取‖r(x,y)‖的均值和方差作為面部表情參數(shù);

      4)用主成分分析法PCA對(duì)上述特征進(jìn)行降維處理,獲得的面部表情特征參數(shù)作為特征融合的特征參數(shù)。

      3 算法描述

      3.1 核方法

      近年來,核方法已經(jīng)成為機(jī)器學(xué)習(xí)研究的熱點(diǎn)之一。核方法的基本思想是把輸入空間的非線性樣本映射到高維特征空間使之線性化,在高維空間中設(shè)計(jì)線性學(xué)習(xí)算法。但是高維特征空間的映射會(huì)使計(jì)算量成指數(shù)倍增長(zhǎng),因此通常利用Mercer核技巧來解決非線性變換帶來的“維數(shù)災(zāi)難”問題[15]。

      假設(shè)輸入空間的樣本xk,k=1,2,…,N被某種非線性映射Φ(·)映射到某一特征空間H得到Φ(x1),Φ(x2),…,Φ(xN)。那么在特征空間就可以用Mercer核來表示輸入空間的點(diǎn)積形式:

      對(duì)任意的平方可積函數(shù)g(x),都滿足:

      則就可以找到核函數(shù)K的特征函數(shù)和特征值,(Φi(x),λi),相應(yīng)的核函數(shù)可以寫成:

      其中NH是特征空間維數(shù),非線性映射函數(shù)可寫成:

      這樣由式(4)和式(5),就可以得到式(2)。

      常用的Mercer核函數(shù)有sigmoid核函數(shù)、多項(xiàng)式核函數(shù)和高斯核函數(shù)。目前還沒有一個(gè)通用的標(biāo)準(zhǔn)來選擇核函數(shù),但由于高斯核函數(shù)所對(duì)應(yīng)的特征空間是無窮維的,有限的樣本在該特征空間中肯定是線性可分的,因此文中選用高斯核函數(shù):

      其中y(p)為矢量y的第p維分量,z(p)為矢量z的第p維分量,p=1,…,d,d為矢量的維數(shù),σ為高斯核函數(shù)的寬度。通常采用歐式范數(shù)時(shí),取a=2,b=1。

      3.2 模糊核聚類算法

      令X={x1,x2,…,xN}為輸入模式空間Rd中的一個(gè)有限數(shù)據(jù)集,xk是維數(shù)為d的模式矢量。依照核方法的思想,利用非線性映射Φ(·)將輸入模式空間變換到一個(gè)高維特征空間,在該高維特征空間擴(kuò)展模糊C-均值算法,其目標(biāo)函數(shù)為:

      其中U=[uik],i=1,…c;k=1,N為模糊隸屬度函數(shù)矩陣。V={v1,v2,…vc}是第i類的模式原型或聚類中心。m>1是模糊加權(quán)指數(shù)。利用Mercer核的性質(zhì),目標(biāo)函數(shù)中模式矢量xk與vi在特征空間中的Euclid距離表示為:

      則在特征空間中的目標(biāo)函數(shù)就可以寫為:

      特征空間中的隸屬度函數(shù)滿足:

      在特征空間Rq中新的類中心為:

      可計(jì)算得:

      其中xk,xl∈X,j=1,…,N,l=1,…,N為模式矢量。所以在特征空間新隸屬度函數(shù)uik更新為:

      從上式可以看出,可以通過對(duì)兩個(gè)核函數(shù)K(xk,)和K()的更新來完成對(duì)隸屬度函數(shù)的更新,而不需要更新類的中心,因此大大減少了計(jì)算量。

      本算法的具體實(shí)現(xiàn)過程為:

      步驟1:選擇類數(shù)c、迭代終止條件ε∈(0,1)及迭代次數(shù)T;

      步驟2:選擇核函數(shù)K及其參數(shù);

      步驟3:初始化類中心vi,i=1,…,c;

      步驟4:利用式(10)計(jì)算每個(gè)樣本在特征空間的隸屬度函數(shù);

      步驟5:利用式(12)、(13)計(jì)算核函數(shù),并按式(14)更新隸屬度;

      4 仿真實(shí)驗(yàn)及結(jié)果分析

      實(shí)驗(yàn)中獲取的語音信號(hào)采樣頻率是11.025 kHz,量化精度是16 bit;面部表情信號(hào)則是通過攝像機(jī)拍攝,每幅圖像大小為256×256像素。

      4.1 不同高斯核寬度對(duì)系統(tǒng)性能的影響

      在該算法中核函數(shù)的計(jì)算對(duì)系統(tǒng)性能會(huì)有較大的影響。圖1給出了系統(tǒng)錯(cuò)聚率隨高斯核函數(shù)的變化曲線。

      圖1 系統(tǒng)錯(cuò)聚率隨核寬度的變化曲線圖

      從圖1可以看出,當(dāng)高斯核寬度σ<5時(shí),系統(tǒng)錯(cuò)聚率隨σ著的增大而迅速減小。當(dāng)σ=5時(shí),錯(cuò)聚率是最小的。但當(dāng)σ>5時(shí),錯(cuò)聚率卻有所提高,在σ≥7時(shí)錯(cuò)聚率基本保持恒定。這主要是由于隨著σ的增大或減小,就越接近1或0,從而使(xk,vi)就越接近于0,此時(shí)特征空間中矢量之間的可區(qū)分性減少,導(dǎo)致了聚類效果的下降。

      4.2 算法結(jié)果比較

      為了驗(yàn)證該算法的可行性和有效性,我們對(duì)σ=5時(shí)3種聚類算法進(jìn)行了比較研究。同時(shí)為了證明該文方法的識(shí)別效果,將單模式條件下的識(shí)別結(jié)果與多模式條件下的識(shí)別結(jié)果進(jìn)行了對(duì)比。我們對(duì)樣本集進(jìn)行了10次試驗(yàn),表1為僅通過語音信號(hào)進(jìn)行聚類的對(duì)比結(jié)果;表2為僅通過面部表情信號(hào)進(jìn)行聚類的對(duì)比結(jié)果;表3為在多模式條件下,通過用該文方法進(jìn)行聚類的對(duì)比結(jié)果。

      表1 僅通過語音信號(hào)進(jìn)行聚類

      表2 僅通過面部表情信號(hào)進(jìn)行聚類

      表3 通過該文方法

      從表1、表2和表3可以看出,用模糊核聚類的方法收斂速度最快,聚類正確率明顯高于其它兩類。還可以看出僅通過語音信號(hào)特征和僅通過面部表情信號(hào)特征進(jìn)行聚類分析的平均聚類正確率較同時(shí)用語音信號(hào)特征和面部表情特征進(jìn)行聚類分析的平均聚類正確率低。因此,單純依靠語音信號(hào)或面部表情信號(hào)進(jìn)行聚類分析在實(shí)際應(yīng)用中會(huì)遇到一定的困難,因?yàn)槿祟愂峭ㄟ^多模式的方式表達(dá)情感信息的,所以研究多模式情感識(shí)別的方法十分必要。

      5 結(jié) 論

      該文提出了一種基于模糊核聚類的多模式情感識(shí)別方法,而且仿真實(shí)驗(yàn)結(jié)果也證實(shí)了該方法的可行性。但是該文只是針對(duì)特定文本的語音情感進(jìn)行識(shí)別,距離實(shí)用還有一定的距離,所以非特定文本的語音情感識(shí)別將成為我們下一步的研究方向。

      [1]Mao X,Chen L J.Speech emotion recognition based on parametric filter and fractal dimension[J].IEICE Trans on Information and Systems,2010,93(8):2324-2326.

      [2]Attabi Y,Dumouchel P.Anchor models for emotion recognition from speech[J].IEEE Trans on Affective Computing,2013,4(3):280-290.

      [3]Zheng W M,Xin M H,Wang X L et al.A novel speech emotion recognition method via incomplete sparse least square regression[J].IEEE Signal Processing Letters,2014,21(5):569-572.

      [4]Mao Q R,Dong M,Huang Z W et al.Learning salient features for speech emotion recognition using convolutional neural networks[J].IEEE Trans on Multimedia,2014,16(8):2203-2213.

      [5]Rahulamathavan Y,Phan R C-W,Chambers J A et al. Facial expression recognition in the encrypted domain based on local fisherdiscriminant analysis[J].IEEE Trans on Affective Computing,2013,4(1):83-92.

      [6]文沁,汪增福.基于三維數(shù)據(jù)的人臉表情識(shí)別[J].計(jì)算機(jī)仿真,2005,25(7):99-103.

      [7]Zheng W M.Multi-view facial expression recognition based on group sparse reduced-rank regression[J].IEEE Trans on Affective Computing,2014,5(1):71-85.

      [8]Petrantonakis P C,Hadjileontiadis L J.Emotion recognition from EEG using higher order crossings[J].IEEE Trans on Information Technology in Biomedicine,2010,14(2):186-197.

      [9]Zacharatos H,Gatzoulis C,Chrysanthou Y L.Automatic emotion recognition based on body movement analysis:a survey [J].IEEE Computer Graphics and Applications,2014,34(6):35-45.

      [10]Kim J,Andre E.Emotion recognition based on physiological changes in music listening[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2008,30(12):2067-2083.

      [11]黃程韋,金赟,王青云等.基于語音信號(hào)與心電信號(hào)的多模態(tài)情感識(shí)別[J].東南大學(xué)學(xué)報(bào):自然科學(xué)版,2010,40(5): 895-900.

      [12]Hoch S,Althoff F,Mcglaun G et al.Bimodal fusion of emotional data in an automotive environment:IEEE International Conference on Acoustics, Speech, and Signal Processing,2005[C]∥USA:IEEE,2005:1085-1088.

      [13]Sayedelahl A,Araujo R,Kamel M S.Audio-visual featuredecision level fusion for spontaneous emotion estimation in speech conversations:2013 IEEE International Conference on Multimedia and Expo Workshops,2013[C].USA:IEEE,2013:1-6.

      [14]Mao X,Chen L J.Mercer kernel based clustering in feature space[J].IEEE Trans on Neural Networks,2002,13(3): 780-784.

      [15]林琳,王樹勛,郭綱.短語音說話人識(shí)別新方法的研究[J].系統(tǒng)仿真學(xué)報(bào),2007,19(10):2272-2275.

      Research on multimodal emotion recognition algorithm based on fuzzy kernel clustering

      HAN Zhi-yan,WANG Jian
      (BohaiUniversity,Jinzhou 121000,China)

      In order to overcome the limitation of singlemode emotion recognition.This paper described a novelmultimodal emotion recognition algorithm,took speech signal and facial expression signal as the research subjects,and accomplished recognition for six kinds of human emotion(joy,anger,surprise,sadness).First,made some pre-processing and extracted emotion feature for speech signaland facialexpression signal.Second,used the fuzzy kernel clustering for clustering analysis. That is to say,by using Mercer kernel function,the data in original spaceweremapped to a high-dimensional eigen-space,and then used the fuzzy clustering for the speech features in the high-dimensional eigen-space.Because of the kernel mapping,the feature inherent in the emotion signals explores,which improves the discriminations of the different emotion category.Experimental results verify the feasibility and effectivenessof the proposedmethod.

      multimodal emotion recognition;speech signal;facial expression signal;fuzzy kernel clustering

      TN101

      A

      1674-6236(2016)20-0001-04

      2016-03-12 稿件編號(hào):201603150

      國(guó)家自然科學(xué)基金資助(61503038;61403042)

      韓志艷(1982—),女,內(nèi)蒙古赤峰人,博士,副教授。研究方向:情感識(shí)別、情感可視化。

      猜你喜歡
      語音聚類函數(shù)
      二次函數(shù)
      第3講 “函數(shù)”復(fù)習(xí)精講
      二次函數(shù)
      函數(shù)備考精講
      魔力語音
      基于MATLAB的語音信號(hào)處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對(duì)方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      基于DBSACN聚類算法的XML文檔聚類
      基于改進(jìn)的遺傳算法的模糊聚類算法
      江城| 扬州市| 江油市| 长沙市| 稷山县| 年辖:市辖区| 长治市| 富阳市| 武城县| 米林县| 镇赉县| 万载县| 色达县| 马山县| 崇明县| 大冶市| 依兰县| 达州市| 莫力| 天门市| 镇巴县| 盐山县| 颍上县| 松桃| 淅川县| 威信县| 黑水县| 大港区| 中阳县| 凌源市| 昭通市| 乐都县| 泗阳县| 靖州| 镇安县| 凤凰县| 安泽县| 怀柔区| 清远市| 海晏县| 萝北县|