摘要:隨著情感計(jì)算成為人工智能的一個(gè)重要發(fā)展方向,語(yǔ)音情感識(shí)別作為情感計(jì)算的一個(gè)重要組成部分,受到了廣泛關(guān)注。從情感描述模型、語(yǔ)音情感特征、語(yǔ)音情感庫(kù)、語(yǔ)音情感挑戰(zhàn)賽這4個(gè)方面對(duì)語(yǔ)音情感研究現(xiàn)狀進(jìn)行總結(jié),并給出目前語(yǔ)音情感識(shí)別技術(shù)存在的挑戰(zhàn),以及相應(yīng)的研究方法。
關(guān)鍵詞:語(yǔ)音情感識(shí)別;情感描述模型;情感特征;語(yǔ)音情感庫(kù);域適應(yīng)
DOIDOI:10.11907/rjdk.161498
中圖分類(lèi)號(hào):TP391
文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2016)009014303
作者簡(jiǎn)介作者簡(jiǎn)介:薛文韜(1991-),男,江蘇常熟人,江蘇大學(xué)計(jì)算機(jī)科學(xué)與通信工程學(xué)院碩士研究生,研究方向?yàn)檎Z(yǔ)音情感識(shí)別。
0引言
1997年,美國(guó)麻省理工學(xué)院的Picard教授提出了情感計(jì)算(Affective Computing)的概念。情感計(jì)算作為計(jì)算機(jī)科學(xué)、神經(jīng)科學(xué)、心理學(xué)等多學(xué)科交叉的新興研究領(lǐng)域,已成為人工智能的重要發(fā)展方向之一。而語(yǔ)音情感識(shí)別作為情感計(jì)算的一個(gè)重要分支,亦引起了廣泛關(guān)注。
許多國(guó)內(nèi)外知名大學(xué)和科研機(jī)構(gòu)也開(kāi)始語(yǔ)音情感識(shí)別研究,國(guó)外如美國(guó)麻省理工學(xué)院Picard教授領(lǐng)導(dǎo)的情感計(jì)算研究小組,德國(guó)慕尼黑工業(yè)大學(xué)Schuller教授領(lǐng)導(dǎo)的人機(jī)語(yǔ)音交互小組等;國(guó)內(nèi)如清華大學(xué)的人機(jī)交互與媒體集成研究所、西北工業(yè)大學(xué)音頻、語(yǔ)音與語(yǔ)言處理組等。
1語(yǔ)音情感識(shí)別
語(yǔ)音情感識(shí)別系統(tǒng)主要由前端和后端兩部分組成。前端用于提取特征,后端基于這些特征設(shè)計(jì)分類(lèi)器。在語(yǔ)音相關(guān)應(yīng)用中,運(yùn)用比較多的分類(lèi)器是支持向量機(jī)和隱馬爾科夫模型。目前,語(yǔ)音情感識(shí)別的重點(diǎn)主要集中于特征提取。在傳統(tǒng)的語(yǔ)音情感識(shí)別中,如何提取具有判別性的特征已成為研究的重點(diǎn)。隨著數(shù)據(jù)的大規(guī)模增長(zhǎng),傳統(tǒng)語(yǔ)音情感識(shí)別的前提(訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)具有相同的數(shù)據(jù)分布)已不能夠被滿(mǎn)足,研究者提出了遷移學(xué)習(xí)的概念,利用域適應(yīng)方法來(lái)解決跨庫(kù)的語(yǔ)音情感識(shí)別。
本文將從情感描述模型、語(yǔ)音情感特征、語(yǔ)音情感庫(kù)、語(yǔ)音情感挑戰(zhàn)賽這4個(gè)方面對(duì)語(yǔ)音情感研究現(xiàn)狀進(jìn)行總結(jié),并給出現(xiàn)存語(yǔ)音情感識(shí)別的技術(shù)挑戰(zhàn)及相應(yīng)的研究方法。
2情感描述模型
目前主要從離散情感和維度情感兩個(gè)方面來(lái)描述情感狀態(tài)。
離散情感描述,主要把情感描述成離散的形式,是人們?nèi)粘I钪袕V泛使用的幾種情感,也稱(chēng)為基本情感。在當(dāng)前情感相關(guān)研究領(lǐng)域使用最廣泛的六大基本情感是生氣、厭惡、恐懼、高興、悲傷和驚訝。
相對(duì)于離散情感描述,維度情感描述使用連續(xù)的數(shù)值來(lái)描述情感狀態(tài),因此也稱(chēng)作連續(xù)情感描述。它把情感狀態(tài)視作多維情感空間中的點(diǎn),每個(gè)維度都對(duì)應(yīng)情感的不同心理學(xué)屬性。常用的維度情感模型是二維的激活度-效價(jià)(Arousal-Valence)模型,其二維空間如圖1所示。其中橫軸表示效價(jià)屬性(Valence),用于衡量情感的正負(fù)面程度;而縱軸表示激活程度(Arousal),用于描述情感狀態(tài)的喚醒程度。通過(guò)不同的效價(jià)度和激活程度,就能區(qū)分出不同的情感,比如悲傷與生氣兩種負(fù)面情緒雖然效價(jià)相差無(wú)異,但兩者的激活度卻有很大差異。
3語(yǔ)音情感特征
傳統(tǒng)的語(yǔ)音情感特征可粗略地分為基于聲學(xué)的情感特征和基于語(yǔ)義的情感特征?;诼晫W(xué)的情感特征又分為3類(lèi):韻律學(xué)特征、音質(zhì)特征以及頻譜特征[1]。音高、能量、基頻和時(shí)長(zhǎng)等是最為常用的韻律學(xué)特征,由于韻律學(xué)特征具有較強(qiáng)的情感辨別能力,已經(jīng)得到了研究者們的廣泛認(rèn)同。音質(zhì)特征主要有呼吸聲、明亮度特征和共振峰等,語(yǔ)音中所表達(dá)的情感狀態(tài)被認(rèn)為與音質(zhì)有著很大的相關(guān)性。頻譜特征主要包括線(xiàn)性譜特征和倒譜特征,線(xiàn)性譜特征包括Linear predictor cofficient(LPC)、log-frequency power cofficient(LFPC)等,倒譜特征包括mel-frequency cepstral cofficient(MFCC)、linear predictor cepstral cofficient(LPCC)等。此外,基于這3類(lèi)語(yǔ)音特征的不同語(yǔ)段長(zhǎng)度的統(tǒng)計(jì)特征是目前使用最為普遍的特征參數(shù)之一,如特征的平均值、變化率、變化范圍等。然而到底什么特征才最能體現(xiàn)語(yǔ)音情感之間的差異,目前還沒(méi)有統(tǒng)一的說(shuō)法。
在2009年首次舉辦的國(guó)際語(yǔ)音情感挑戰(zhàn)INTERSPEECH 2009 Emotion Challenge(EC)的分類(lèi)器子挑戰(zhàn)中,組織者為參賽者提供了一個(gè)基本特征集,選擇了在韻律學(xué)特征、音質(zhì)特征和頻譜特征中廣泛使用的特征和函數(shù),包括16個(gè)低層描述子(Low-Level Descriptors,LLDs)和12個(gè)函數(shù),構(gòu)建了一個(gè)384維的特征向量[2]。具體的16個(gè)低層描述子和12個(gè)函數(shù)如表1所示。
4語(yǔ)音情感庫(kù)
語(yǔ)音情感庫(kù)作為語(yǔ)音情感識(shí)別的前提條件,影響著最終語(yǔ)音情感識(shí)別系統(tǒng)的性能。目前,在語(yǔ)音情感庫(kù)的建立方面還沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),已構(gòu)建的情感語(yǔ)音庫(kù)多種多樣,在語(yǔ)言、情感表現(xiàn)方式(表演型(acted)、引導(dǎo)型(elicited),自發(fā)型(naturalistic))、情感標(biāo)記方案(離散情感或者維度情感)、聲學(xué)信號(hào)條件、內(nèi)容等方面具有很大差異。從情感表現(xiàn)方式而言,表演型情感一般是讓職業(yè)演員以模仿的方式表現(xiàn)出相應(yīng)的情感狀態(tài),雖然說(shuō)話(huà)人被要求盡量表達(dá)出自然的情感,但刻意模仿的情感還是顯得更加夸大,使得不同情感類(lèi)別之間的差異性比較明顯,這方面的語(yǔ)音情感庫(kù)有Berlin Emotional Speech Database(Emo-DB)、Airplane Behavior Corpus(ABC)等[34]。早期對(duì)語(yǔ)音情感識(shí)別的研究都是基于表演型語(yǔ)料庫(kù),隨著人們意識(shí)到引導(dǎo)型情感具有更加自然的情感表達(dá)之后,研究者們開(kāi)始基于引導(dǎo)型情感庫(kù)進(jìn)行研究,比如eNTERFACE[5]。隨著研究的深入,迫切需要一些自發(fā)的語(yǔ)音情感數(shù)據(jù),目前出現(xiàn)了FAU Aibo Emotion Corpus(FAU AEC)、TUM Aduio-Visual Interest Corpus(TUM AVIC)、Speech Under Simulated and Actual Stress(SUSAS)和Vera am Mittag(VAM)[2,68]。常用的幾個(gè)語(yǔ)音情感庫(kù)如表2所示,描述了他們?cè)谀挲g、語(yǔ)言、情感、樣本個(gè)數(shù)、記錄環(huán)境和采樣率之間的差異。
5語(yǔ)音情感挑戰(zhàn)賽
雖然已經(jīng)有很多研究致力于語(yǔ)音情感識(shí)別,但是相對(duì)于其它語(yǔ)音任務(wù)(如自動(dòng)語(yǔ)音識(shí)別和說(shuō)話(huà)人識(shí)別)而言,語(yǔ)音情感識(shí)別中還不存在標(biāo)準(zhǔn)的語(yǔ)音情感庫(kù)和統(tǒng)一的測(cè)試條件用于在相同條件下進(jìn)行性能比較。同時(shí),為了處理更加現(xiàn)實(shí)的場(chǎng)景,需要獲得自然的語(yǔ)音情感數(shù)據(jù)。國(guó)際語(yǔ)音情感挑戰(zhàn)INTERSPEECH 2009 EC旨在彌補(bǔ)出色的語(yǔ)音情感識(shí)別研究和結(jié)果可比性之間的缺陷,它提供了自然的語(yǔ)音情感庫(kù)FAU AEC,以及開(kāi)源工具包openEAR來(lái)提取基本的384維特征集,保證了特征的透明性,從而使得結(jié)果具有重現(xiàn)性和可比性[9]。FAU AEC庫(kù)包括了德國(guó)兩個(gè)學(xué)校(Ohm和Mont)10~13歲的孩子與索尼公司的機(jī)器狗Aibo進(jìn)行交互的語(yǔ)音數(shù)據(jù)。為了實(shí)現(xiàn)說(shuō)話(huà)人獨(dú)立的語(yǔ)音情感識(shí)別,通常學(xué)校Ohm記錄的數(shù)據(jù)用于訓(xùn)練,而Mont記錄的數(shù)據(jù)用于測(cè)試。INTERSPEECH 2009 EC的情感分類(lèi)任務(wù)主要包括2類(lèi)情感(負(fù)面情感、所有其它情感)分類(lèi)和5類(lèi)情感(生氣、同情、積極、中立和其它)分類(lèi),目前已有很多研究基于FAU AEC庫(kù)進(jìn)行情感分類(lèi)。除了在FAU AEC庫(kù)上進(jìn)行傳統(tǒng)的語(yǔ)音情感識(shí)別外,隨著跨庫(kù)語(yǔ)音情感識(shí)別研究的深入,很多研究者也將FAU AEC作為目標(biāo)域數(shù)據(jù)庫(kù)進(jìn)行域適應(yīng)的研究。
6語(yǔ)音情感識(shí)別的主要挑戰(zhàn)
6.1語(yǔ)音情感特征
在傳統(tǒng)語(yǔ)音情感識(shí)別中,提取具有判別性的特征已經(jīng)成為一個(gè)重要的研究方向。在情感特征提取過(guò)程中,通常存在一些與情感無(wú)關(guān)的因素,如說(shuō)話(huà)內(nèi)容、說(shuō)話(huà)人、環(huán)境等,這些不相關(guān)的因素將會(huì)使得提取到的特征包含這些因素方面的變化,從而影響情感分類(lèi)性能。
目前已有部分研究開(kāi)始考慮這些與情感無(wú)關(guān)因素的影響。同時(shí),隨著深度學(xué)習(xí)的提出與發(fā)展,越來(lái)越多的研究者開(kāi)始使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取。Chao等[10]利用無(wú)監(jiān)督預(yù)訓(xùn)練去噪自動(dòng)編碼器,減少了情感特征中說(shuō)話(huà)人的影響。Mao等[11]提出了半監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)模型,提取情感相關(guān)特征,通過(guò)實(shí)驗(yàn)證明其對(duì)說(shuō)話(huà)人的變化、環(huán)境的滋擾以及語(yǔ)言變化都有很強(qiáng)的魯棒性。Mariooryad 等[12]對(duì)特征構(gòu)建音素層次的彈道模型,從聲學(xué)特征中分解出說(shuō)話(huà)人的特性,從而彌補(bǔ)說(shuō)話(huà)人對(duì)語(yǔ)音情感識(shí)別的影響。
6.2跨庫(kù)的語(yǔ)音情感識(shí)別
在傳統(tǒng)的語(yǔ)音情感識(shí)別中,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)一般來(lái)自同一個(gè)語(yǔ)料庫(kù)或者具有相同的數(shù)據(jù)分布。隨著數(shù)據(jù)的爆炸式增長(zhǎng),從不同設(shè)備和環(huán)境下獲得的語(yǔ)音數(shù)據(jù)通常在語(yǔ)言、情感表現(xiàn)方式、情感標(biāo)記方案、聲學(xué)信號(hào)條件、內(nèi)容等方面存在很大差異,這就造成了訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)分布的不同,傳統(tǒng)的語(yǔ)音情感識(shí)別方法就不再適用。
近年來(lái),遷移學(xué)習(xí)(Transfer Learning)的概念被提出,指從一個(gè)或多個(gè)源域中將有用的信息遷移到相關(guān)的目標(biāo)域,以幫助改善目標(biāo)域的分類(lèi)性能[13]。域適應(yīng)(Domain Adaptation)作為一種特殊的遷移學(xué)習(xí),已成功應(yīng)用于跨庫(kù)的語(yǔ)音情感識(shí)別。Deng等[14]提出一種共享隱藏層自動(dòng)編碼器(shared-hidden-layer autoencoder,SHLA)模型,相較于傳統(tǒng)的自動(dòng)編碼器,SHLA的輸入數(shù)據(jù)包含了源域和目標(biāo)域兩類(lèi)數(shù)據(jù),讓兩個(gè)域的數(shù)據(jù)共用編碼部分而解碼部分不同,目的是誘使兩個(gè)域的數(shù)據(jù)在隱藏層空間具有相似的數(shù)據(jù)分布。Huang等[15]利用PCANet沿著從源域到目標(biāo)域的路徑提取特征,并用目標(biāo)域空間來(lái)調(diào)整路徑上的特征,以此彌補(bǔ)域之間的差異。
參考文獻(xiàn)參考文獻(xiàn):
[1]EL AYADI M,KAMEL M S,KARRAY F.Survey on speech emotion recognition:features,classification schemes and databases[J].Pattern Recognition,2011,44(3): 572587.
[2]SCHULLER B,STEIDL S,BATLINER A.The interspeech 2009 emotion challenge[C].Proceedings INTERSPEECH 2009,10th Annual Conference of the International Speech Communication Association,2009:312315.
[3]BURKHARDT F,PAESCHKE A,ROLFES M,et al.A database of German emotional speech[J].Interspeech,2005(5):15171520.
[4]SCHULLER B,ARSIC D,RIGOLL G,et al.Audiovisual behavior modeling by combined feature spaces[C].IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP),2007:733736.
[5]MARTIN O,KOTSIA I,MACQ B,et al.The eNTERFACE05 audiovisual emotion database[C].22nd International Conference on Data Engineering Workshops,2006.
[6]SCHULLER B,MULLER R,EYBEN F,et al.Being bored recognising natural interest by extensive audiovisual integration for reallife application[J].Image and Vision Computing,2009,27(12): 17601774.
[7]HANSEN J H L,BOUGHAZALE S E,SARIKAYA R,et al.Getting started with SUSAS:a speech under simulated and actual stress database[C].Eurospeech,1997,97(4): 174346.
[8]GRIMM M,KROSCHEL K,NARAYANAN S.The vera am mittag german audiovisual emotional speech database[C].2008 IEEE International Conference on Multimedia and Expo,2008:865868.
[9]EYBEN F,WOLLMER M,SCHULLER B.OpenEAR—introducing the Munich opensource emotion and affect recognition toolkit[C].3rd International Conference on Affective Computing and Intelligent Interaction and Workshops,2009: 16.
[10]CHAO L,TAO J,YANG M,et al. Improving generation performance of speech emotion recognition by denoising autoencoders[C].2014 9th International Symposium on Chinese Spoken Language Processing (ISCSLP),2014: 341344.
[11]MAO Q,DONG M,HUANG Z,et al.Learning salient features for speech emotion recognition using convolutional neural networks[J].IEEE Transactions on Multimedia,2014,16(8):22032213.
[12]MARIOORYAD S,BUSSO C.Compensating for speaker or lexical variabilities in speech for emotion recognition[J].Speech Communication,2014,57(1): 112.
[13]PAN S J,YANG Q.A survey on transfer learning[J].IEEE Transactions on Knowledge & Data Engineering,2010,22(10):13451359.
[14]DENG J,XIA R,ZHANG Z,et al.Introducing sharedhiddenlayer autoencoders for transfer learning and their application in acoustic emotion recognition[C].2014 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2014: 48184822.
[15]HUANG Z,XUE W,MAO Q,et al.Unsupervised domain adaptation for speech emotion recognition using PCANet[J].Multimedia Tools & Applications,2016(2):115.
責(zé)任編輯(責(zé)任編輯:孫娟)