• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于語音信號與文本信息的雙模態(tài)情感識別

      2017-04-15 06:51:46陳鵬展徐芳萍
      華東交通大學學報 2017年2期
      關鍵詞:單通道分類器語音

      陳鵬展,張 欣,徐芳萍

      (華東交通大學電氣與自動化工程學院,江西 南昌 330013)

      基于語音信號與文本信息的雙模態(tài)情感識別

      陳鵬展,張 欣,徐芳萍

      (華東交通大學電氣與自動化工程學院,江西 南昌 330013)

      情感識別已成為人機交互不可或缺的部分,目前單模態(tài)情感識別具有識別率低、可靠性差的特點,故提出一種融合語音信號與文本信息的雙模態(tài)情感識別方法。首先,采集特定情感狀態(tài)下的語音信號及文本信息;然后提取語音相關特征參數(shù)以及文本情感關鍵詞特征參數(shù)并對其進行優(yōu)化;最后,對兩個單模態(tài)識別器的輸出結果進行加權融合獲得識別結果。針對所提算法進行了相關實驗研究,結果表明雙模態(tài)情感識別技術具有更高識別精度。

      語音信號;文本識別;參數(shù)優(yōu)化;高斯混合模型

      情感是人類交流的具體體現(xiàn),在人機交互中起著重要的作用。而情感識別是情感計算的基礎,能否進行情感識別直接影響情感計算的實現(xiàn)。語音信息作為人類最直接的交流手段,其本身能傳遞豐富的信息資源[1-3],但介于音頻信號本身存在一些固有缺陷,如信號弱、噪聲強等,從單一的模型獲得正確的情感狀態(tài)很難滿足當前情感識別系統(tǒng)的需求。多模態(tài)的融合利用語音、生理信號、面部表情等多個通道的情感信息互補性提高分類器的識別性能,從而提高識別分類器的準確度。多模態(tài)融合的優(yōu)勢在于,當某一個通道的特征或者識別過程受到缺失或者影響時,另一個通道仍能保證較好識別率,使識別系統(tǒng)具有一個良好的魯棒性。

      以語音信號與文本信息為基礎,研究語音信號與文本信息的相應的情感特征分析及融合算法。通過對語音識別與文本識別判決結果進行加權融合,構建基于雙模態(tài)分類器,并比較了基于語音信號與文本信息的單模態(tài)分類器以及基于雙模態(tài)分類器的識別率。

      1 特征提取

      在人機交互中,情感識別技術所面臨的最大挑戰(zhàn)之一是評價說話者的情緒。通常對于說話者情緒的判斷,從音頻中提取特征,而語音信號所表述的文本信息也可以用來被監(jiān)測說話者的情緒。通過音頻信號與文本信息的雙模態(tài)融合,計算機可以識別“誰說”、“說的是什么”、“如何說”,以更正確、更自然的實現(xiàn)與人的互動。同時,該技術具有很高的應用價值,如呼叫中心、電子服務中心、電子學習及娛樂等。

      1.1 語音信號特征提取

      在語音的情感識別中,能夠表示語音的情感相關的特征相對較多[4-6],除一些較為廣泛認同的參數(shù),如能量、共振峰、語速、語調(diào)、基音等,還有其他參數(shù),如能量譜分布、線性預測倒譜系數(shù)(LPCC)、Mel頻率倒譜系數(shù)(MFCC)。

      針對語音信號的時域和頻域特性,經(jīng)過序列浮動前向選擇算法(sequential floating forward selection,SFFS)[7]對特征集進行反復實驗,最終選取了74個全局統(tǒng)計特征,其中,特征1~10為基音及其一階差分的均值、最大值、最小值、中值、方差,特征11~20為短時能量及其差分的均值、最大值、最小值、中值、方差,特征21~25為基因頻率的均值、最大值、最小值、中值、方差,特征26~45為第1~第4共振峰均值、最大值、最小值、中值、方差,特征46~50過零率均值、最大值、最小值、中值、方差,特征51~74為24階MFCC均值。

      圖1 語音信號分析圖Fig.1 Analysis of speech signal

      圖2 同一語句四種情感狀態(tài)下能量波形對比圖Fig.2 Comparison of energy waveforms of four emotional states under the same statement

      1.2 文本信息特征提取

      文本信息的特征分析主要在于文本的預處理和文本向量化表述。文本預處理主要有語句拆分、簡化等。句子拆分是將文本分割成一系列單獨的單詞文本,便于后面的測試,分詞采用的是大連理工信息檢索研究室整理及標注的中文情感詞庫。

      去除停用詞處理在于去除對分類沒有意義的詞語減少文本特征向量的維度和不必要的運算量。根據(jù)創(chuàng)建的停用詞表使用布隆過濾器來去掉所有文本中的停用詞。特征提取采用信息增益(X)[8],名詞Q的X值定義為

      其中:Ak(其中k=1,…,m)表示第k類;p(Ak)是在訓練樣本集中是Ak類的概率;分別是名詞Q在訓練樣本集,不在訓練樣本集中出現(xiàn)的概率;分別是名詞Q出現(xiàn)的前提下樣本是Ak類的概率,及名詞Q不出現(xiàn)的前提下樣本是Ak類的概率。X值越高,對分類預測提供的信息就越多。通過設定閾值,可以將X值小于閾值的名詞刪除掉,從而降低特征空間維度。

      2 分類器模型創(chuàng)建

      2.1 單通道語音情感識別模型

      音頻情感識別模型創(chuàng)建思想是:對原始語音信號進行適當?shù)念A處理獲得有效音頻信號,如分幀、加窗、端點監(jiān)測等,然后運用SFFS算法對語音信號所提取的特征進行選擇獲得獲取最優(yōu)特征子集,總共包含74個特征向量,再通過創(chuàng)建訓練樣本與測試樣本,進行高斯混合模型分類器(gaussian mixture model,GMM)[9]進行樣本比對,獲得語音情感識別結果?;趩瓮ǖ赖恼Z音模型分類器的識別框架如圖3所示。

      2.2 單通道文本情感識別模型

      文本情感識別模型主要是通過對句子中情感關鍵詞的鎖定進行判斷。通過對文本內(nèi)容進行預處理、特征提取及相應向量轉化,然后通過GMM算法進行情感狀態(tài)的測定。而基于單通道文本分類器識別框圖如圖4所示。

      圖3 語音情感識別流程圖Fig.3 Flow chart of speech emotion recognition

      圖4 文本情感識別流程圖Fig.4 Flow chart of text emotion recognition

      2.3 雙模態(tài)融合識別模型創(chuàng)建

      針對語音信號與文本信息的雙模態(tài)融合識別框圖如圖5所示。該方法可使得單通道情感識別效果最大化。兩個單通道識別結果作為融合的輸入,通過行加權融合實現(xiàn)雙模態(tài)情感識別分類。

      圖5 雙模態(tài)情感識別系統(tǒng)框圖Fig.5 Block diagram of double-modal emotion recognition system

      本文對兩種單模態(tài)分類器均采用GMM算法來進行生氣、高興、平靜、悲傷四種情感識別。高斯混合模型是m個單高斯分布的加權和,表示形式如下

      式中:xt為第t個單高斯分布的D維隨機向量;ai為第i個單高斯分布的權值,且為單高斯分布函數(shù),其均值矢量為μi,協(xié)方差矩陣為∑i,即

      式中協(xié)方差矩陣可以用滿矩陣,也可以用簡化對角矩陣。高斯混合分布密度如公式(4)所示。其中,GMM模型的參數(shù)估計采用EM算法來完成,使得GMM能夠最佳的表示樣本的分布概率。

      由于單通道在工作環(huán)境中存在一定干擾,本文采用自適應加權融合算法[10]實現(xiàn)對兩個通道信息進行更新和融合,各分類器加權系數(shù)根據(jù)其對當前樣本可靠性進行動態(tài)調(diào)整,置信度高的分類器所占權重更高,算法以自適應的方式找到每個分類器的最優(yōu)加權因子,利用得到的加權因子實現(xiàn)雙模態(tài)數(shù)據(jù)融合,獲得最終的分類結果。對于待測樣本特征y,假設,兩個子分類器均給出了四種情感類的GMM似然度,分別記為P(y|λk),其中k代表情感類別,取值為1~4。各類別的GMM似然度直接決定該分類器的判決置信度的高低。子分類器融合權值表達式如公式5所示,其中n為分類器編碼,取1,2。

      子分類器的判決置信度的高低與樣本所處概率分布模型的非重疊區(qū)域有關,更直接的表現(xiàn)在分類器給出的似然度值的分散程度,似然值較為分散的分類器,其判決置信度較高,性能則較為可靠。最后,通過對兩個子分類器的判決進行加權融合,獲得最終的分類結果,加權融合表示形式如下

      其中:Y為雙模態(tài)分類器最終識別結果;An表示子分類器分類結果,由公式(7)求得。當I1>I2時,則Y=A1;同理,當I2>I1時,則Y=A1。

      3 試驗結果與分析

      驗證通過3個試驗結果對比來實現(xiàn),分別為采用單模態(tài)語音的情感識別,采用單模態(tài)文本的情感識別以及采用雙模態(tài)融合的情感識別。圖6顯示了單模態(tài)語音情感識別、單模態(tài)文本識別和基于語音與文本的雙模太融合識別對情感的平均識別率。由圖6可見,多模態(tài)的情感識別技術對每類情感的識別精度均有所提高。

      圖6 3種方法識別率對比圖Fig.6 Comparison of the recognition rate of three methods

      表1 雙模態(tài)融合算法分類情況Tab.1 Classification of the dual mode fusion algorithm %

      表1顯示了雙模態(tài)融合方法對每類情感的正確分類數(shù)。由表1可知,通過融合算法減少了每類情感的誤判率,其中生氣,高興,平靜,悲傷的誤判率分別為3%,7%,5%,9%。

      4 結論

      目前的情感識別系統(tǒng)多數(shù)是采用單通道情感數(shù)據(jù)進行識別研究,而本文通過加權融合方法將兩種不同來源的數(shù)據(jù)的分類結果進行再次融合,實現(xiàn)基于語音信號與文本信息的雙模態(tài)情感識別系統(tǒng)的研究,進行了單模態(tài)語音信號、文本信息的分類實驗及雙模態(tài)語音信號與文本信息融合情感識別實驗。實驗結果表明,基于語音信號和文本信息的雙模態(tài)融合相對于單模態(tài)分類器識別率、魯棒性均得到提高。

      參考文獻:

      [1]VINCIARELLI A,PANTIC M,BOURLARD H,et al.Social signal processing survey of an emerging domain[J].Image Vis Comput J,2009,27(12):1743-1759.

      [2]CASALE S,RUSSO A,SCEBBA G,et al.Speech emotion classification using machine learning algorithms[C]//20008 IEEE Internat ional Conference on Semantic Computing.IEEE,Cgnta Clara,CA,USA,2008:158-165.

      [3]ZENG Z,PANTIC M,ROISMAN G I,et al.A survey of affect recognition methods audio,visual and spontaneous expressions[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(1):39-58.

      [4]韓文靜,李海峰,阮華斌,等.語音情感識別研究進展綜述[J].軟件學報,2014,25(1):37-50.

      [5]ZHANG X,SUN Y,DUAN S.Progress in speech emotion recognition[J].TENCON 2015-2015 IEEE Region 10 Conference,2015:1-6.

      [6]張躍進,劉邦桂,謝昕.噪聲背景下語音識別中的端點檢測[J].華東交通大學學報,2007,24(5):135-138.

      [7]OVA B N.Floating search methods in feature selection[J].Pattern Recognition Letters,2010,15(11):1119-1125.

      [8]申紅,呂寶糧,內(nèi)山將夫,等.文本分類的特征提取方法比較與改進[J].計算機仿真,2006,23(3):222-224.

      [9]黃程韋,金赟,王青云,等.基于語音信號與心電信號的多模態(tài)情感識別[J].東南大學學報:自然科學版,2010,40(5):895-900.

      [10]葉云青,王長征,周日貴.基于最佳指數(shù)因子的自適應權值圖像融合[J].華東交通大學學報,2011,28(2):74-79.

      Multimodal Emotion Recognition Based on Speech Signal and Text Information

      Chen Pengzhan,Zhang Xin,Xu Fangping
      (School of electrical and Automation Engineering,East China Jiaotong University,Nanchang 330013,China)

      Emotion recognition has become an indispensable part of human-computer interaction.This paper propsesa fusion method of speech signal and the text information in emotion recognition,because of the low recognition rate and poor reliability of single modal emotion recognition.First of all,collecting specific emotional state of the speech signal and text information;then extracting the speech feature parameters and keywords emotional characteristic parameters of text information and optimize it;finally,recognition results are obtained by weighted fusion of the output results of two single modal identification devices.According to the results of experimaental,it showed that the dualmodal emtoion recognition technology has higher recognition accuracy.

      speech signal;text recognition;parameter optimization;gauss mixture model

      TP391

      A

      1005-0523(2017)02-0100-05

      (責任編輯 姜紅貴)

      2016-10-24

      國家自然科學基金資助項目(61164011);江西省研究生創(chuàng)新專項資金項目(YC2015-S242);江西省博士后科研擇優(yōu)資助項目(2015KY19)

      陳鵬展(1975—),男,副教授,博士,研究方向為傳感網(wǎng)絡、人機交互。

      猜你喜歡
      單通道分類器語音
      基于聯(lián)合聚類分析的單通道腹部心電信號的胎心率提取
      魔力語音
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      BP-GA光照分類器在車道線識別中的應用
      電子測試(2018年1期)2018-04-18 11:52:35
      加權空-譜與最近鄰分類器相結合的高光譜圖像分類
      結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      基于擴頻碼周期性的單通道直擴通信半盲分離抗干擾算法
      采用6.25mm×6.25mm×1.8mm LGA封裝的雙通道2.5A、單通道5A超薄微型模塊穩(wěn)壓器
      枞阳县| 谢通门县| 社会| 印江| 林芝县| 米泉市| 东阳市| 南丹县| 平武县| 潼南县| 永修县| 邵武市| 焦作市| 蓬莱市| 崇仁县| 永春县| 浦城县| 肥西县| 太谷县| 郯城县| 龙南县| 保德县| 开平市| 崇仁县| 理塘县| 青田县| 正定县| 宣威市| 南靖县| 富源县| 穆棱市| 绥阳县| 安吉县| 香格里拉县| 伊宁市| 保德县| 明光市| 武陟县| 北海市| 大化| 扶余县|