摘 要: 為建立一個真實、自然、豐富的情感語音數(shù)據(jù)庫,研究選擇高興、驚奇、悲傷、生氣四種情感類型,利用截取廣播劇的方式獲得初選階段的情感語音數(shù)據(jù)庫。通過模糊綜合評價與層次分析法、熵權(quán)法相結(jié)合建立情感語音的模糊綜合評價模型,利用該模型對初選階段的數(shù)據(jù)庫進行模糊評價,篩選得到最終高質(zhì)量的情感語音數(shù)據(jù)庫。將三種類型的數(shù)據(jù)庫用于情感語音識別實驗,對比分析了不同類型數(shù)據(jù)庫的差異,同時也驗證了本數(shù)據(jù)庫的有效性。
關(guān)鍵詞: 情感語音數(shù)據(jù)庫; 模糊綜合評價; 層次分析法; 熵權(quán)法; 情感語音識別
中圖分類號: TN912?34 文獻標(biāo)識碼: A 文章編號: 1004?373X(2016)13?0051?04
Abstract: To establish a real, natural and abundant emotional speech database, four emotion types of happy, surprise, sad and angry are chosen. The way of radio drama intercepting is used to obtain the emotional speech database in primary stage. The fuzzy comprehensive evaluation model of emotional speech was established in combination with fuzzy comprehensive evaluation, analytic hierarchy process and entropy weight method. The fuzzy evaluation for the database in primary stage was conducted with the model to obtain the final emotional speech database with high quality. Three kinds of speech databases were applied to the emotional speech recognition experiment. The differences of different databases are compared and analyzed. The effectiveness of this database was verified.
Keywords: emotional speech database; fuzzy comprehensive evaluation; analytic hierarchy process; entropy method; emotional speech recognition
語言是人類交換信息最方便、最快捷的一種方式。在高速發(fā)達的信息社會中,情感語音技術(shù)的發(fā)展為實現(xiàn)人與機器的情感交流提供可能[1]。情感語音數(shù)據(jù)庫是情感語音識別的基礎(chǔ),語音庫的質(zhì)量決定著情感語音識別系統(tǒng)性能的優(yōu)劣。高質(zhì)量的情感語音數(shù)據(jù)庫有利于情感語音特征的分析提取,有利于情感語音識別系統(tǒng)判斷說話人的情感狀態(tài),因此如何構(gòu)建一個真實、自然、可靠的情感語音數(shù)據(jù)庫就顯得尤為重要。而語音數(shù)據(jù)庫質(zhì)量高低要從情感準(zhǔn)確度、噪聲影響、自然度等角度綜合評判。本文利用模糊綜合評價結(jié)合層次分析法(Analytic Hierarchy Process,AHP)、熵權(quán)法構(gòu)建模糊綜合評價模型,將定性分析轉(zhuǎn)化為定量分析,為數(shù)據(jù)庫的有效性提供了保障。最后,本文將表演型數(shù)據(jù)庫、激勵型數(shù)據(jù)庫和摘引型數(shù)據(jù)庫應(yīng)用于情感識別研究中,對比分析不同類型的數(shù)據(jù)庫之間的差異,同時也驗證了本數(shù)據(jù)庫的有效性。
1 初選階段情感語音數(shù)據(jù)庫的建立
目前,在國內(nèi)外語音研究領(lǐng)域,由于研究需求、獲取途徑、情感分類、語種等差異,情感語音數(shù)據(jù)庫種類繁多(如Maribor數(shù)據(jù)庫、CASIA數(shù)據(jù)庫、VAM[2])。按照獲取方式的不同,情感語音數(shù)據(jù)庫大致可分為四類[3]:表演型、激勵型、啟發(fā)型和摘引型。摘引型情感語音數(shù)據(jù)庫有著較高的情感真實度,情感表達直接由心理狀態(tài)觸發(fā)而成,并且在多媒體素材中有上下文內(nèi)容,為以后的研究提供關(guān)聯(lián)信息。因此選擇構(gòu)建摘引型情感語音數(shù)據(jù)庫。為了截取并建立高質(zhì)量的情感語音庫,多媒體素材需要在語種、語義、規(guī)模、情感、信噪比方面符合一定的要求[4]。廣播劇是一種戲劇形式,通過聲音進行傳播,能給聽眾創(chuàng)造無限的想象空間[5]。廣播劇中語料來源于專業(yè)演員,所用語言為標(biāo)準(zhǔn)普通話,貼近生活,符合日常表達習(xí)慣,有著豐富的情感成分,并且對人物語言精確性、表現(xiàn)力要求高,語音質(zhì)量好。基于以上特點,考慮到情感豐富性、人物多樣性、情節(jié)多變性等因素,選取廣播劇作為截取語音庫的媒體素材。
參考Rusell等人運用情感理論構(gòu)建情緒二維模型[6],本文選擇高興、驚奇、悲傷和憤怒四種情感粒度大、混淆度低的情感類別構(gòu)建數(shù)據(jù)庫。使用Cool Edit Pro 2.0從中剪輯屬于上述4類情感的情感語音共837句,保存為單聲道wav文件,建立初選階段的情感語音數(shù)據(jù)庫。
2 情感語音的模糊綜合評價模型
目前,模糊綜合評價被廣泛地應(yīng)用到了各個領(lǐng)域。郭德勇利用模糊綜合評判法建立了煤與瓦斯突出預(yù)測模型[7],預(yù)測結(jié)果與實際突出情況相符,表明該方法具有應(yīng)用價值。劉玉紅提出了模糊綜合評價方法來評估水下機器人的運動性能[8],并通過試驗表明,評價結(jié)果可以客觀、全面地反映水下機器人的性能。金赟利用AHP和模糊綜合評價建立了耳語音情感數(shù)據(jù)庫[9],但是AHP在確定指標(biāo)權(quán)重時并沒有考慮到人的主觀判斷、喜好對決策結(jié)果的影響,因此本文通過AHP和熵權(quán)法主客觀相結(jié)合確定指標(biāo)權(quán)重,建立改進的模糊綜合評價模型,運用該模型對初選階段的情感語音數(shù)據(jù)庫進行模糊評價、篩選建立最終的情感語音數(shù)據(jù)庫。
2.1 建立綜合評價模型
建立合理有效的評價模型是高質(zhì)量情感語音數(shù)據(jù)庫的前提,本文通過模糊綜合評價結(jié)合AHP、熵權(quán)法辨聽篩選情感語音數(shù)據(jù)庫,模糊綜合評價模型如圖1所示[10]。首先構(gòu)造綜合指標(biāo)評價體系,包括被評價語音的指標(biāo)集和評語集;利用AHP和熵權(quán)法確定各個指標(biāo)的綜合權(quán)重,將綜合權(quán)重和模糊評價矩陣進行模糊合成,得到綜合模糊評價矩陣;最后把綜合模糊評價矩陣量化得到語音的綜合得分,這樣就可以判斷情感語音的優(yōu)劣。
2.2 構(gòu)造綜合指標(biāo)評價體系
2.2.1 確定評價指標(biāo)集
根據(jù)廣播劇演播其獨有的特點,建立情感語音數(shù)據(jù)庫評價指標(biāo)體系。評價指標(biāo)集為。其中,分別代表情感準(zhǔn)確度、背景噪聲影響、清晰度、自然度、現(xiàn)場感五個指標(biāo)。
情感準(zhǔn)確度指標(biāo):主要反映該條語音是否為所要求的情感語音,情感把握是否準(zhǔn)確。
背景噪聲影響指標(biāo):由于語音數(shù)據(jù)庫是從廣播劇中截取所得,為避免摻雜背景音、噪聲等其他影響,因此需要從背景噪聲角度對語音庫進行篩選評價。
清晰度指標(biāo):主要反映該條語音咬字是否清晰。
自然度指標(biāo):主要反映該語音的情感表現(xiàn)是否過于夸張,廣播劇中表演出的情感與日常生活中正常流露出的情感是否偏差過大,確保根據(jù)廣播劇所得語音的情感分析方法可用于日常交流中的語音。
現(xiàn)場感指標(biāo):主要反映廣播劇是否達到了聞其聲見其人的藝術(shù)效果,是否具有感染力、表現(xiàn)力。
2.2.2 建立評價評語集
建立情感語音數(shù)據(jù)庫的評價評語集,其中,分別表示優(yōu)、良、中、差、劣。并規(guī)定。
2.3 確定指標(biāo)綜合權(quán)重
為了使模糊評價的結(jié)果更加準(zhǔn)確,克服主觀確定權(quán)重的缺點,通過將主觀賦權(quán)的AHP和客觀賦權(quán)的熵權(quán)法相結(jié)合的方法計算出各個語音指標(biāo)的權(quán)重。
2.3.1 AHP確定主觀權(quán)重
AHP是數(shù)字化表示主觀判斷的一種方法。它把復(fù)雜問題分解為各個組成因素,通過主觀兩兩比較的方式確定各因素的相對重要程度,然后計算得到各因素的權(quán)重,最后通過一致性檢驗得到較為合理的權(quán)重[11]。其具體步驟如下:
(1) 構(gòu)造各指標(biāo)的判斷矩陣:首先利用1~9比例標(biāo)度法,把各項評價指標(biāo)的相對重要性進行定性表示,構(gòu)建兩兩比較的判斷矩陣,其中用表示第個指標(biāo)對第個指標(biāo)的相對重要性,從而求出各個指標(biāo)的權(quán)重。因此5個指標(biāo)相互比較后可以用下面的判斷矩陣表示為:
(2) 計算判斷矩陣的最大特征值及其對應(yīng)的特征向量,經(jīng)過歸一化,得到即為同一子集中的各指標(biāo)的權(quán)重向量[12]。
(3) 根據(jù)表1中隨機性指標(biāo)計算一致性比率:其中為判斷矩陣的最大特征根,為判斷矩陣的階數(shù)。當(dāng)時,可以認為判斷矩陣的一致性滿足要求,可以接受分析結(jié)果,否則需重新構(gòu)建判斷矩陣,直到滿足一致性標(biāo)準(zhǔn)。
2.3.2 熵權(quán)法確定客觀權(quán)重
熵權(quán)法是一種基于信息熵的客觀賦權(quán)法。熵是熱力學(xué)的概念,后被香農(nóng)引入到信息論中,可用來度量信息量的大小。在進行評價時,如果某個指標(biāo)的熵值越大,說明該指標(biāo)對評價結(jié)果提供的信息量越少,則對應(yīng)的指標(biāo)權(quán)重應(yīng)越??;反之,權(quán)重越大[13]。熵權(quán)法能使評價結(jié)果更符合實際情況,避免因主觀賦權(quán)所造成的權(quán)重偏差。其具體方法如下:
2.3.3 主客觀結(jié)合確定綜合權(quán)重
AHP確定的指標(biāo)權(quán)重是查閱大量文獻、結(jié)合實際情況所得,熵權(quán)法得到的指標(biāo)權(quán)重來源于數(shù)據(jù)本身,客觀地反映了實際情況。為了科學(xué)客觀地確定權(quán)重,故將AHP得到的主觀權(quán)重和熵權(quán)法得到的客觀權(quán)重相結(jié)合,得到各情感語音指標(biāo)的綜合權(quán)重本文根據(jù)情感語音的實際情況,將綜合權(quán)重設(shè)定為主觀權(quán)重的40%和客觀權(quán)重的60%,從而得到各個評價指標(biāo)的綜合權(quán)重,即:。
2.4 模糊合成——辨聽篩選
根據(jù)實際情況設(shè)定閾值分?jǐn)?shù)如果語音最終得分大于等于則保留;否則,此條語音不符合要求,刪除該語音。
通過以上步驟,利用改進的模糊綜合評價法,分別從情感準(zhǔn)確度、背景噪聲影響、清晰度、自然度、畫面感五個方面對截取的情感語音庫進行評價篩選,最終建立了情感語音數(shù)據(jù)庫TYUT 2.0共678句,如表2所示。篩選后的情感語音數(shù)據(jù)庫符合以上五個指標(biāo)的研究要求,四種情感表達更加準(zhǔn)確自然,貼近現(xiàn)實生活,無噪聲影響,有利于情感語音的進一步研究。
本文采用截取廣播劇的方式構(gòu)建初選階段的情感語音數(shù)據(jù)庫,利用改進的模糊綜合評價對初選階段的數(shù)據(jù)庫進行了篩選,得到高質(zhì)量的摘引型情感語音數(shù)據(jù)庫。由于是從廣播劇中截取獲得,因此該數(shù)據(jù)庫情感類型豐富,人物多樣(涵蓋多個年齡段),生活場景豐富,情感語音更加貼近現(xiàn)實生活,符合日常表達習(xí)慣,具有較好的實用性。并且本文將AHP和熵權(quán)法主客觀相結(jié)合確定指標(biāo)權(quán)重,建立了改進的模糊綜合評價模型,由10位大學(xué)生對初選階段語音庫的五個指標(biāo)進行打分篩選,確保所得到的語音情感表達自然、清晰,具有較好的表現(xiàn)力。
3 實 驗
3.1 情感語音數(shù)據(jù)庫
本實驗采用表演型、激勵型、摘引型三類情感語音數(shù)據(jù)庫分別進行情感語音識別,對比研究不同類型的情感語音數(shù)據(jù)庫的差異。表演型數(shù)據(jù)庫要求表演者用不同的情感來朗讀指定的內(nèi)容,進行錄制獲取數(shù)據(jù)。激勵型數(shù)據(jù)庫指在錄制前,通過文字、圖片、電影等手段來誘發(fā)說話人特定情感狀態(tài)。本實驗選擇CASIA漢語情感數(shù)據(jù)庫、eNTERFACE′05數(shù)據(jù)庫、TYUT 2.0數(shù)據(jù)庫三種類型的數(shù)據(jù)庫用于情感語音識別。三個情感語音數(shù)據(jù)庫簡介如表3所示。
CASIA漢語情感數(shù)據(jù)庫屬于表演型數(shù)據(jù)庫,該數(shù)據(jù)庫是中科院自動化所錄制,由4位錄音人(2男2女)在6種不同情感狀態(tài)下(高興、悲傷、生氣、驚奇、恐懼、中性)對500句文本進行表演朗讀得到的,總共有9 600句情感語音。
eNTERFACE′05數(shù)據(jù)庫是激勵型數(shù)據(jù)庫。該數(shù)據(jù)庫包含了6段簡短的有情感傾向的場景文本,通過文本的內(nèi)容誘發(fā)表演者的情感狀態(tài)。每個表演者在每段場景中分別帶有情感地朗讀特定文本,分別對應(yīng)6種基本情感(憤怒、厭惡、恐懼、高興、悲傷、驚奇)。最后得到42名表演者的1 166段視頻片段。本實驗通過提取視頻中的語音片段進行情感語音識別。
考慮到樣本平衡性問題,選擇245句TYUT 2.0數(shù)據(jù)庫情感語音、248句CASIA數(shù)據(jù)庫情感語音和248句eNTERFACE′05數(shù)據(jù)庫,每組實驗使用大約的句子訓(xùn)練,的句子測試。
3.2 實驗結(jié)果及分析
將三個數(shù)據(jù)庫用于情感語音識別,提取MFCC前12階的最大值、最小值、平均值、中值、方差共60維統(tǒng)計特征,使用SVM作為識別網(wǎng)絡(luò),所得到的識別結(jié)果如表4所示。
從表4可以得出:
三個情感語音數(shù)據(jù)庫的平均識別率由大到小是:eNTERFACE′05數(shù)據(jù)庫、TYUT 2.0數(shù)據(jù)庫、CASIA數(shù)據(jù)庫。TYUT 2.0數(shù)據(jù)庫的平均識別率為72.15%,略低于eNTERFACE′05數(shù)據(jù)庫的72.50%,高于CASIA數(shù)據(jù)庫的64.56%。這與數(shù)據(jù)庫的構(gòu)建方式有關(guān),不同類型的數(shù)據(jù)庫在情感表達上是有差異的。三種數(shù)據(jù)庫的真實度由高到低依次為:摘引型數(shù)據(jù)庫、激勵型數(shù)據(jù)庫、表演型數(shù)據(jù)庫。CASIA數(shù)據(jù)庫是由錄音人員表演獲得,錄音人員對情感表現(xiàn)的把握不同會影響語音的情感準(zhǔn)確度;eNTERFACE′05數(shù)據(jù)庫屬于激勵型數(shù)據(jù)庫,符合人類情感產(chǎn)生的過程,但是錄音人員對刺激材料存在個體差異性,無法確認環(huán)境對錄音人員刺激的有效性及刺激所起的作用程度;摘引型數(shù)據(jù)庫TYUT 2.0情感表達直接由心理狀態(tài)觸發(fā)獲得,情感表達更加準(zhǔn)確自然,表達方式更加貼近現(xiàn)實生活。此外,CASIA數(shù)據(jù)庫和eNTERFACE′05數(shù)據(jù)庫是由定量人員錄制獲得的情感語音,而TYUT 2.0是從多媒體材料中獲得,語音來源于不定量人員。
從識別結(jié)果來看,TYUT 2.0數(shù)據(jù)庫的平均識別率達到72.15%,可以用于情感語音識別研究中。TYUT 2.0數(shù)據(jù)庫屬于摘引型情感語音數(shù)據(jù)庫,所得到的語音符合現(xiàn)實生活中的表達。而表演型數(shù)據(jù)庫和激勵型數(shù)據(jù)庫中的情感語音與現(xiàn)實生活中的語音還存在偏差,影響以后的研究應(yīng)用。因此將摘引型數(shù)據(jù)庫TYUT 2.0用于情感語音研究所獲得的研究方法可以更好地用于日常的交流中,具有更多的實用價值。
4 結(jié) 語
本研究根據(jù)實驗室的研究需求,通過對廣播劇的截取獲得了包含高興、驚奇、悲傷、憤怒(共678句)4種基本情感類型的TYUT 2.0數(shù)據(jù)庫。將基于主觀的AHP和基于客觀的熵權(quán)法相結(jié)合,科學(xué)地確定指標(biāo)的綜合權(quán)重,建立了改進的模糊綜合評價模型,然后從情感準(zhǔn)確度、背景噪聲影響、清晰度、自然度、現(xiàn)場感五個方面建立情感語音數(shù)據(jù)庫評價指標(biāo)體系,運用該模型對初選階段的情感語音數(shù)據(jù)庫進行模糊評價、篩選出真實可靠的高質(zhì)量情感語音數(shù)據(jù)庫。本文還將表演型數(shù)據(jù)庫、激勵型數(shù)據(jù)庫和摘引型數(shù)據(jù)庫用于情感語音識別,分析對比了不同類型數(shù)據(jù)庫的差異,同時也驗證了本情感語音數(shù)據(jù)庫的有效性,為接下來的情感語音特征、情感語音識別、合成研究奠定了基礎(chǔ)。
參考文獻
[1] 張雪英.數(shù)字語音處理及Matlab仿真[M].北京:電子工業(yè)出版社,2010:1?9.
[2] GRIMM M, KROSCHEL K, NARAYANNAN S. The Vera am Mittag German audio?visual emotional speech database [C]// 2008 International Conference on Multimedia and Expo. Hannover: IEEE, 2008: 865?868.
[3] 趙力,黃程韋.實用語音情感識別中的若干關(guān)鍵技術(shù)[J].數(shù)據(jù)采集與處理,2014,29(2):157?170.
[4] 謝波.普通話語音情感識別關(guān)鍵技術(shù)研究[D].杭州:浙江大學(xué),2006.
[5] 羅莉.文藝作品演播教程[M].北京:北京大學(xué)出版社,2010:113?134.
[6] LIEBERMAN P, MICHAELS S B. Some aspects of fundamental frequency and envelop amplitude as related to the emotional content of speech [J]. Journal of the Acoustical Society of America, 1962, 34(7): 922?927.
[7] 郭德勇,范金志,馬世志,等.煤與瓦斯突出預(yù)測層次分析?模糊綜合評判方法[J].北京科技大學(xué)學(xué)報,2007,29(7):660?664.
[8] LIU Y H, FANG P P, BIAN D D, et al. Fuzzy comprehensive evaluation for the motion performance of autonomous underwater vehicles [J]. Ocean engineering, 2014, 88(5): 568?577.
[9] 金赟,趙艷,黃程韋,等.耳語音情感數(shù)據(jù)庫的設(shè)計與建立[J].聲學(xué)技術(shù),2010,29(1):63?68.
[10] PAUL S, SARKAR B, BOSE P K. Eclectic decision for the selection of tree borne oil (TBO) as alternative fuel for internal combustion engine [J]. Renewable and sustainable energy reviews, 2015, 48: 256?263.
[11] 高平,張延軍,方靜濤,等.淺層巖土室內(nèi)、外熱物性測試的相關(guān)性[J].吉林大學(xué)學(xué)報(地球科學(xué)版),2014,44(1):259?267.
[12] 劉海燕,龐小平.利用GIS和模糊層次分析法的南極考察站選址研究[J].武漢大學(xué)學(xué)報(信息科學(xué)版),2015,40(2):249?252.
[13] 焦松,李偉,楊明,等.基于經(jīng)驗?zāi)B(tài)分解和灰色關(guān)聯(lián)度分析的仿真模型驗證方法[J].系統(tǒng)工程與電子技術(shù),2013,35(12):2613?2618.
[14] 任鵬輝,張雪英,孫穎.面向語音情感計算的數(shù)據(jù)庫的構(gòu)建與應(yīng)用研究[J].電視技術(shù),2012,36(21):89?92.