• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Transformer-ESIM注意力機(jī)制的多模態(tài)情緒識(shí)別

      2022-05-19 13:28:14徐志京
      關(guān)鍵詞:類(lèi)別注意力語(yǔ)音

      徐志京,高 姍

      上海海事大學(xué) 信息工程學(xué)院,上海 201306

      近年來(lái),隨著人工智能領(lǐng)域的迅速發(fā)展以及深度學(xué)習(xí)的助力,人機(jī)交互領(lǐng)域受到越來(lái)越多研究學(xué)者的關(guān)注。情緒識(shí)別作為人機(jī)交互中一個(gè)重要的分支,也成為了當(dāng)前的熱點(diǎn)研究課題。目前,對(duì)情緒識(shí)別的研究大多集中在語(yǔ)音、面部表情、文本等單模態(tài)領(lǐng)域。語(yǔ)音作為人們交流最直接的手段,其中涵蓋了豐富的情緒信息,人們情緒的變化可以通過(guò)語(yǔ)音特征體現(xiàn)出來(lái)。而語(yǔ)音情緒識(shí)別正是將輸入包含情緒信息的語(yǔ)音信號(hào)轉(zhuǎn)化為可讀的物理特征,并提取其中與情緒表達(dá)相關(guān)的語(yǔ)音特征,再構(gòu)建情緒識(shí)別分類(lèi)器進(jìn)行測(cè)試和訓(xùn)練,最后輸出情緒識(shí)別分類(lèi)結(jié)果。對(duì)于語(yǔ)音情緒識(shí)別,Han等人[1]利用深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)從原始數(shù)據(jù)中提取更深層次的特征,驗(yàn)證了深度神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)音情緒識(shí)別的有效性。然而,這種結(jié)構(gòu)對(duì)長(zhǎng)距離的特征提取存在一些局限性。Lee等人[2]考慮到長(zhǎng)序列的語(yǔ)音特征提取和情感標(biāo)簽表達(dá)的不確定性,提出了基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的情緒識(shí)別框架。Neumann等人[3]提出利用多視角學(xué)習(xí)目標(biāo)函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)對(duì)不同長(zhǎng)度的輸入信號(hào)、不同類(lèi)型的聲學(xué)特征和不同類(lèi)型的情感語(yǔ)音系統(tǒng)性能進(jìn)行比較。Tashev等人[4]提出基于高斯混合模型(Gaussian mixture model,GMM)的低級(jí)特征提取器與基于深度神經(jīng)網(wǎng)絡(luò)的高級(jí)特征提取器相結(jié)合的系統(tǒng)模型來(lái)學(xué)習(xí)語(yǔ)音的情緒特征。Mustaqeem等人[5]提出了一種新的基于徑向基函數(shù)網(wǎng)絡(luò)的聚類(lèi)相似度度量關(guān)鍵序列選擇的SER框架,來(lái)提高語(yǔ)音情緒識(shí)別的準(zhǔn)確率。

      然而,單一語(yǔ)音模態(tài)的情緒識(shí)別易受外界因素影響缺失一些情感信息,如噪音、信號(hào)強(qiáng)弱等,導(dǎo)致語(yǔ)音情緒識(shí)別的效果不夠顯著。鑒于不同模態(tài)間存在互補(bǔ)性,可將文本模態(tài)和語(yǔ)音模態(tài)進(jìn)行融合來(lái)改善單一語(yǔ)音模態(tài)情緒識(shí)別的缺陷,從而提高情緒識(shí)別準(zhǔn)確率。為了利用來(lái)自語(yǔ)音信號(hào)和文本序列的信息,先前大部分的研究都是使用神經(jīng)網(wǎng)絡(luò)分別對(duì)兩個(gè)序列建模,并將兩種模式直接連接進(jìn)行情緒分類(lèi)。然而,這種直接連接的情緒分類(lèi)方法效果并不顯著。Zadeh等人[6]提出了一種張量融合網(wǎng)絡(luò)來(lái)融合不同模態(tài)的特征,并學(xué)習(xí)模態(tài)內(nèi)和模態(tài)間的動(dòng)力學(xué)。Jin等人[7]從聲學(xué)和詞匯兩個(gè)層面生成特征表示,并構(gòu)建情緒識(shí)別系統(tǒng)。Sahay等人[8]提出了一種利用段內(nèi)模態(tài)間相互作用的關(guān)系張量網(wǎng)絡(luò)結(jié)構(gòu),利用更豐富的語(yǔ)音和文本上下文信息生成文本和語(yǔ)音模態(tài)的豐富表示。Akhtar等人[9]提出了一個(gè)同時(shí)預(yù)測(cè)話(huà)語(yǔ)情緒和情緒表達(dá)的語(yǔ)境跨模態(tài)注意框架,將注意力集中在對(duì)相鄰話(huà)語(yǔ)和多模態(tài)表征的貢獻(xiàn)上,有助于網(wǎng)絡(luò)更好地學(xué)習(xí)。Zhang等人[10]提出了一個(gè)利用語(yǔ)音中聲學(xué)和詞匯特性多階段融合的網(wǎng)絡(luò),在IEMOCAP數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明該方法優(yōu)于那些不考慮語(yǔ)音信息影響的系統(tǒng)。Poria等人[11]探索了三種不同的基于深度學(xué)習(xí)的多模態(tài)情感分類(lèi)體系結(jié)構(gòu),并通過(guò)多個(gè)具有固定測(cè)試分區(qū)的數(shù)據(jù)集來(lái)評(píng)估這些體系結(jié)構(gòu)。此外,Gamage等人[12]提出了使用音素序列來(lái)編碼與情緒表達(dá)相關(guān)的語(yǔ)言線(xiàn)索,將文本信息與語(yǔ)音特征相結(jié)合,從而提高情緒識(shí)別的準(zhǔn)確率。

      雖然基于語(yǔ)音和文本的多模態(tài)情緒識(shí)別方法已取得了不錯(cuò)的成果,然而在傳統(tǒng)端到端的神經(jīng)網(wǎng)絡(luò)中,由于提取情感信息特征時(shí)易受模型固有的順序特性限制,導(dǎo)致無(wú)法獲取整個(gè)語(yǔ)句序列前后間的相關(guān)特征信息。因此本文提出基于Transformer-ESIM(Transformerenhanced sequential inference model)注意力機(jī)制的多模態(tài)情緒識(shí)別模型。首先使用多頭注意力機(jī)制對(duì)語(yǔ)音和文本序列進(jìn)行編碼,更好地理解輸入文本和語(yǔ)音序列中前后之間的相關(guān)特征信息,并且通過(guò)對(duì)序列并行化的處理解決序列長(zhǎng)距離限制問(wèn)題。然后建立ESIM交互注意力機(jī)制,獲取語(yǔ)音和文本模態(tài)之間的相似特征,實(shí)現(xiàn)語(yǔ)音和文本模態(tài)在時(shí)域上的對(duì)齊,得到更加準(zhǔn)確的多模態(tài)特征表示。

      1 系統(tǒng)模型

      本文構(gòu)建的語(yǔ)音與文本融合的多模態(tài)情緒識(shí)別模型框架如圖1所示。該識(shí)別模型主要由四部分組成:數(shù)據(jù)預(yù)處理層、Transformer編碼層、ESIM(enhanced sequential inference model)交互注意力層以及分類(lèi)層。

      圖1 多模態(tài)情緒識(shí)別模型框架圖Fig.1 Multi-modal emotional recognition model framework

      在獲取數(shù)據(jù)集之后,分別對(duì)原始數(shù)據(jù)中語(yǔ)音和文本數(shù)據(jù)進(jìn)行預(yù)處理操作;然后將預(yù)處理后的語(yǔ)音和文本序列輸入到Transformer編碼層進(jìn)行編碼提取深層特征,編碼后的序列再輸入到交互注意力層計(jì)算語(yǔ)音和文本特征之間的相似特征,實(shí)現(xiàn)語(yǔ)音和文本模態(tài)在時(shí)域上的對(duì)齊;最后將經(jīng)過(guò)池化后的特征拼接輸入到分類(lèi)層進(jìn)行情緒識(shí)別的分類(lèi),實(shí)現(xiàn)多模態(tài)的情緒識(shí)別。

      1.1 數(shù)據(jù)預(yù)處理

      對(duì)于語(yǔ)音原始數(shù)據(jù),語(yǔ)音情感信號(hào)中的“happy”和“excited”以及“frustration”和“sad”的頻譜圖接近,因此將“excited”歸類(lèi)到“happy”標(biāo)簽中,“frustration”歸類(lèi)到“sad”標(biāo)簽中,并忽略“others”標(biāo)簽。最后只保留“happy”“sad”“neutral”“anger”四類(lèi)情感標(biāo)簽,作為情緒識(shí)別的分類(lèi)類(lèi)別。

      對(duì)于文本原始數(shù)據(jù),首先對(duì)文本中的一些沒(méi)有情感意義的符號(hào)文本進(jìn)行預(yù)處理,去掉與情感無(wú)關(guān)的標(biāo)點(diǎn)符號(hào),其次對(duì)文本中的單詞進(jìn)行嵌入操作,將單詞轉(zhuǎn)換成固定長(zhǎng)度的向量以便后續(xù)進(jìn)行特征提取。

      1.2 Transformer編碼層

      在語(yǔ)音和文本序列進(jìn)行特征提取過(guò)程中,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)RNN、LSTM等存在著長(zhǎng)期依賴(lài)性問(wèn)題,其自身順序?qū)傩詿o(wú)法捕獲長(zhǎng)距離特征。本文設(shè)計(jì)了Transformer編碼層對(duì)語(yǔ)音和文本序列進(jìn)行并行化處理,解決序列距離的限制,從而充分提取序列內(nèi)的情感語(yǔ)義信息,最后對(duì)對(duì)語(yǔ)音和文本序列進(jìn)行深層情感語(yǔ)義編碼。Transformer編碼層結(jié)構(gòu)如圖2所示,主要由多頭自注意力機(jī)制層和前饋神經(jīng)網(wǎng)絡(luò)層構(gòu)成。

      圖2 Transformer編碼層圖Fig.2 Transformer coding layer

      多頭注意力機(jī)制的整體流程如圖3所示,當(dāng)輸入一個(gè)語(yǔ)音/文本序列,首先經(jīng)過(guò)線(xiàn)性變化生成Q、K、V三個(gè)權(quán)重向量,為所有輸入共享。然后進(jìn)行分頭操作,對(duì)每個(gè)頭進(jìn)行自注意力機(jī)制操作,再將完成自注意力機(jī)制的每個(gè)頭進(jìn)行拼接,最后輸出到殘差連接層。

      圖3 多頭注意力機(jī)制流程圖Fig.3 Multi-head self-attention process

      多頭自注意力機(jī)制層可利用多個(gè)查詢(xún)向量Q=[q1,q2,…,q M]并行地計(jì)算輸入信息中的多個(gè)情感信息,每個(gè)自注意力對(duì)輸入情感信息的關(guān)注點(diǎn)不同,因此會(huì)獲取不同的情感特征信息,最后再將這些自注意力頭進(jìn)行拼接。多頭自注意力機(jī)制的計(jì)算如下:

      最后,通過(guò)前饋神經(jīng)網(wǎng)絡(luò)得到句子的特征向量,在前饋神經(jīng)網(wǎng)絡(luò)層中輸入和輸出之間是不存在依賴(lài)關(guān)系的。前饋神經(jīng)網(wǎng)絡(luò)層的計(jì)算公式如下:

      其中,W1、W2為前饋層的權(quán)重矩陣;b1、b2為前饋層的偏置。

      1.3 ESIM交互注意力層

      目前大多對(duì)語(yǔ)音和文本多模態(tài)情緒研究中,都是對(duì)兩個(gè)模態(tài)分別建立單獨(dú)模型提取特征再輸入到一個(gè)特征融合層進(jìn)行特征融合,忽略了語(yǔ)音和文本模態(tài)之間的交互作用。本文采用ESIM的交互注意力機(jī)制來(lái)處理語(yǔ)音和文本,該方法的交互注意力機(jī)制可以計(jì)算出語(yǔ)音和文本序列之間的相似特征,實(shí)現(xiàn)語(yǔ)音和文本模態(tài)在時(shí)域上的對(duì)齊,從而得到更加準(zhǔn)確的多模態(tài)特征表示。ESIM交互注意力層的工作步驟如下:

      (1)計(jì)算語(yǔ)音與文本特征之間的相似度矩陣:

      式(4)中e ij表示語(yǔ)音的第i幀和文本的第j個(gè)詞的相似度矩陣,式(5)中a?i是利用注意力機(jī)制提取文本詞中的相似信息,式(6)中b?j是利用注意力機(jī)制提取語(yǔ)音幀的相似信息,l a、l b分別代表語(yǔ)音幀和文本句的長(zhǎng)度。

      其中,m a、m b表示語(yǔ)音和文本增強(qiáng)后的信息表示。

      (3)對(duì)增強(qiáng)后的語(yǔ)音和文本序列進(jìn)行池化。為了提高模型的魯棒性,同時(shí)對(duì)兩個(gè)序列進(jìn)行平均池化和最大池化操作,最后再把結(jié)果放入一個(gè)定長(zhǎng)向量中。

      其中,v a,ave、v a,max為語(yǔ)音的平均池化向量和最大池化向量,v b,ave、v b,max為文本的平均池化向量和最大池化向量。

      1.4 分類(lèi)層

      對(duì)于一個(gè)完整的多模態(tài)情緒識(shí)別模型,在得到語(yǔ)音和文本的融合特征后則要進(jìn)行情緒識(shí)別分類(lèi)。本文采用兩層全連接層和softmax分類(lèi)器作為四種情緒識(shí)別的分類(lèi)層,如圖4所示。

      圖4 分類(lèi)層流程圖Fig.4 Classification layer process

      研究證明,若采用單一的全連接層往往會(huì)存在非線(xiàn)性問(wèn)題,故本文采用兩個(gè)全連接FC1和FC2以解決可能存在的非線(xiàn)性問(wèn)題。全連接層中選用線(xiàn)性的ReLU函數(shù)作為激活函數(shù),可以有效避免梯度爆炸的問(wèn)題。最后使用softmax函數(shù)進(jìn)行最終的情緒分類(lèi)預(yù)測(cè),通過(guò)softmax函數(shù)為每個(gè)輸出情緒的類(lèi)別都賦予一個(gè)概率值,表示出每個(gè)類(lèi)別輸出的可能性。

      其中,ez i表示第i個(gè)節(jié)點(diǎn)的輸出值,C表示情緒類(lèi)別的個(gè)數(shù)。

      在模型的訓(xùn)練過(guò)程中,本文選取交叉熵作為損失函數(shù)。交叉熵表示模型實(shí)際預(yù)測(cè)類(lèi)別的概率與期望模型預(yù)測(cè)類(lèi)別的概率間的差距,交叉熵的值越小,兩個(gè)類(lèi)別預(yù)測(cè)概率分布就越接近。損失函數(shù)的計(jì)算公式如下:

      其中,y i為期望模型預(yù)測(cè)類(lèi)別的概率,s i為模型實(shí)際預(yù)測(cè)類(lèi)別的概率。

      2 實(shí)驗(yàn)結(jié)果與分析

      2.1 數(shù)據(jù)集

      本文使用的數(shù)據(jù)集是由南加州大學(xué)Sail實(shí)驗(yàn)室收集的多模態(tài)情感數(shù)據(jù)庫(kù)IEMOCAP,主要包含語(yǔ)音、文本、視頻等多個(gè)模態(tài)。由10個(gè)專(zhuān)業(yè)演員在錄音室錄制了約12小時(shí)的5組會(huì)話(huà)視聽(tīng)數(shù)據(jù),每組會(huì)話(huà)都由3個(gè)注釋員注釋成類(lèi)別標(biāo)簽,如憤怒、快樂(lè)、悲傷、中立等標(biāo)簽,以及維度標(biāo)簽,如配價(jià)、激活和支配。本實(shí)驗(yàn)主要使用其中的語(yǔ)音和文本兩個(gè)模態(tài),對(duì)原始數(shù)據(jù)中不平衡的數(shù)據(jù)進(jìn)行簡(jiǎn)單的數(shù)據(jù)篩選處理,最終構(gòu)成由快樂(lè)、悲傷、中性和生氣組成的4類(lèi)情緒識(shí)別數(shù)據(jù)庫(kù),共5 531條數(shù)據(jù)。數(shù)據(jù)集中不同類(lèi)別的情緒數(shù)據(jù)分布情況如表1所示。

      表1 IEMOCAP數(shù)據(jù)集中不同類(lèi)別情緒數(shù)據(jù)分布Table 1 Distribution of different categories of emotional data in IEMOCAP dataset

      2.2 實(shí)驗(yàn)設(shè)置與環(huán)境配置

      本實(shí)驗(yàn)是在TensorFlow1.15.0版本框架下完成的。首先對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。對(duì)于語(yǔ)音數(shù)據(jù)調(diào)用Tensor-Flow里的python_speech_feature庫(kù)進(jìn)行預(yù)處理,將語(yǔ)音轉(zhuǎn)化為300×200的特征矩陣。對(duì)于文本數(shù)據(jù)先對(duì)單詞做預(yù)處理,將每個(gè)單詞映射到一個(gè)唯一的索引,再將文本從單詞的序列轉(zhuǎn)換為索引的序列,每一單詞轉(zhuǎn)換為200維度的向量,文本字符長(zhǎng)度設(shè)置為固定值,當(dāng)長(zhǎng)度不一致時(shí)進(jìn)行截?cái)嗪蚿ad操作。將情緒識(shí)別數(shù)據(jù)集按照4∶1的比例劃分為訓(xùn)練集與測(cè)試集。在訓(xùn)練過(guò)程中,通過(guò)修改神經(jīng)網(wǎng)絡(luò)自身來(lái)提高模型泛化能力,將dropout率設(shè)置為0.5,以防發(fā)生過(guò)擬合。對(duì)模型的優(yōu)化,學(xué)習(xí)率設(shè)置為0.000 1,優(yōu)化器采用Adam算法。實(shí)驗(yàn)的環(huán)境配置如表2所示。

      表2 實(shí)驗(yàn)環(huán)境主要配件及軟件版本Table 2 Main hardware configuration and software version of experimental environment

      2.3 評(píng)價(jià)指標(biāo)

      在多模態(tài)情緒識(shí)別分類(lèi)的任務(wù)中,本文主要采用Accuracy、Recall、Precision、F1-score以及混淆矩陣和ROC曲線(xiàn)作為模型的評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)指標(biāo)的計(jì)算如下:

      其中,TP表示實(shí)際為真實(shí)類(lèi)別并被預(yù)測(cè)為真實(shí)類(lèi)別的個(gè)數(shù),TN表示實(shí)際為錯(cuò)誤類(lèi)別被預(yù)測(cè)為錯(cuò)誤類(lèi)別的個(gè)數(shù),F(xiàn)P表示實(shí)際為錯(cuò)誤類(lèi)別被預(yù)測(cè)為真實(shí)類(lèi)別的個(gè)數(shù),F(xiàn)N表示實(shí)際為正確類(lèi)別卻被預(yù)測(cè)為錯(cuò)誤類(lèi)別的個(gè)數(shù)。

      2.4 結(jié)果和分析

      為了驗(yàn)證本文提出的多模態(tài)情緒識(shí)別模型的有效性,將語(yǔ)音和文本融合后的多模態(tài)情緒識(shí)別結(jié)果,與未經(jīng)融合的語(yǔ)音和文本單模態(tài)情緒識(shí)別結(jié)果以及先前學(xué)者提出的多模態(tài)情緒識(shí)別結(jié)果進(jìn)行對(duì)比。以下為先前研究學(xué)者提出的方法。

      (1)ICON:是由Sebastian等人[13]提出,將跨模態(tài)融合方法應(yīng)用于情緒識(shí)別的深度學(xué)習(xí)網(wǎng)絡(luò)中,通過(guò)將基于LSTM的文本情緒識(shí)別模型的輸出類(lèi)別概率與聯(lián)合CNN模型的輸出類(lèi)別概率根據(jù)不同權(quán)重值進(jìn)行后期融合,得到多模態(tài)情緒分類(lèi)結(jié)果。

      (2)EF-CS:是由Pepino等人[14]提出的將聲學(xué)和文本特征融合的多模態(tài)情緒識(shí)別系統(tǒng),對(duì)于文本特征通過(guò)BERT獲得上下文的單詞嵌入,對(duì)于語(yǔ)音特征采用open SMILE工具提取,最后通過(guò)早期融合實(shí)現(xiàn)多模態(tài)情緒識(shí)別預(yù)測(cè)。

      (3)Bc-LSTM:是由Poria等人[11]提出的一種基于深度學(xué)習(xí)的多模態(tài)情感分類(lèi)體系結(jié)構(gòu)。對(duì)文本特征提取采用CNN,語(yǔ)音特征提取使用open SMILE工具,并通過(guò)Bc-LSTM捕捉話(huà)語(yǔ)中相關(guān)的上下文信息,最后通過(guò)特征層融合將特征向量發(fā)送到分類(lèi)器進(jìn)行分類(lèi)。

      (4)Dual-RNN:是由Yoon等人[15]提出的一種新的深度雙遞歸編碼器模型,可以同時(shí)對(duì)語(yǔ)音和文本序列中的信息進(jìn)行編碼,然后將這些信息結(jié)合起來(lái)預(yù)測(cè)情感類(lèi)別。

      表3給出了單模態(tài)以及上述不同方法在IECOMAP數(shù)據(jù)集上的情緒識(shí)別準(zhǔn)確率。

      表3 單模態(tài)及不同方法在IECOMAP數(shù)據(jù)集上的準(zhǔn)確率Table 3 Accuracy of different models and single mode on IECOMAP dataset %

      同時(shí),本文在實(shí)驗(yàn)過(guò)程中分別計(jì)算了模型中每個(gè)情緒類(lèi)別以及Macro avg和Weighted avg的Precision、Recall和F1-score。其中Precision為精確率,表示模型的查準(zhǔn)效果;Recall為召回率,表示模型的查全效果;F1-score為精確率和召回率的調(diào)和平均,可以較為綜合地表征實(shí)驗(yàn)效果。Macro avg為宏平均,表示對(duì)每個(gè)類(lèi)別的精確率、召回率和F1-score加和求平均;Weighted avg為加權(quán)平均,是對(duì)宏平均的一種改進(jìn),計(jì)算了每個(gè)類(lèi)別樣本數(shù)量在總樣本中的占比。實(shí)驗(yàn)結(jié)果如表4所示。

      表4 不同類(lèi)別在IECOMAP數(shù)據(jù)集上的結(jié)果Table 4 Results for different categories on IECOMAP dataset %

      為了更加直觀(guān)地分析多模態(tài)情緒識(shí)別預(yù)測(cè)的分類(lèi)效果,本文對(duì)不同長(zhǎng)度序列進(jìn)行對(duì)比實(shí)驗(yàn)。表5所示為在不同序列長(zhǎng)度下的識(shí)別準(zhǔn)確率。繪制出在不同序列長(zhǎng)度的最佳預(yù)測(cè)結(jié)果的混淆矩陣圖,如圖5所示,顯示了序列長(zhǎng)度分別為15、20、25的混淆矩陣圖。繪制出模型在實(shí)驗(yàn)中最佳預(yù)測(cè)結(jié)果的ROC(receiver operating characteristic)曲線(xiàn)圖,如圖6所示。

      表5 不同序列長(zhǎng)度在IECOMAP數(shù)據(jù)集上的結(jié)果Table 5 Results for different sequence lengths on IECOMAP dataset

      從表3結(jié)果可以看出,本文提出的基于Transformer-ESIM注意力機(jī)制的多模態(tài)情緒識(shí)別方法取得了相對(duì)最好的情緒識(shí)別結(jié)果。實(shí)驗(yàn)結(jié)果表明,相比于單語(yǔ)音和文本模態(tài)的情緒識(shí)別結(jié)果有較大提升,并與先前提出的ICON模型的63.0%、EF-CS模型的65.5%、Bc-LSTM模型的70.7%以及Dual-RNN的71.8%準(zhǔn)確率分別提高了9.6個(gè)百分點(diǎn)、7.1個(gè)百分點(diǎn)、1.9個(gè)百分點(diǎn)和0.8個(gè)百分點(diǎn)。由此可見(jiàn),本文提出的模型在實(shí)驗(yàn)中比基于RNN、CNN、LSTM改進(jìn)的模型有更好的分類(lèi)效果,說(shuō)明本文提出的基于Transformer-ESIM注意力機(jī)制的多模態(tài)情緒識(shí)別方法可以更加充分地理解網(wǎng)絡(luò)模型中話(huà)語(yǔ)情緒特征信息,從而取得了更好的情緒識(shí)別準(zhǔn)確率。

      從表4中可以看到不同類(lèi)別情緒的精確率、召回率和F1值的表現(xiàn)情況,本文提出的模型在Sad、Happy、Neutral三個(gè)類(lèi)別都取得了比較好的精確率,分別為75.6%、72.5%、74.2%,略微優(yōu)于Anger類(lèi)別的準(zhǔn)確率,并且召回率和F1值也都取得了比較好的結(jié)果。從表5可以看到在不同序列長(zhǎng)度下的識(shí)別準(zhǔn)確率,當(dāng)序列長(zhǎng)度為20時(shí)效果最佳,當(dāng)序列長(zhǎng)度為15時(shí),超出長(zhǎng)度的序列被截?cái)?,?dǎo)致準(zhǔn)確率不高,而當(dāng)序列為25時(shí),雖然涵蓋的序列范圍更廣,但過(guò)多的pad操作使得模型性能不佳,從而準(zhǔn)確率不及序列長(zhǎng)度為20時(shí)。圖5顯示了模型在不同序列長(zhǎng)度下的混淆矩陣,該矩陣縱坐標(biāo)表示原始情緒標(biāo)簽,橫坐標(biāo)表示預(yù)測(cè)情緒標(biāo)簽,對(duì)角線(xiàn)區(qū)域顏色越深代表模型的識(shí)別效果越好。從實(shí)驗(yàn)結(jié)果圖中可以看出該模型在文本序列長(zhǎng)度固定為20時(shí)識(shí)別效果最佳,其主要混淆了悲傷、快樂(lè)和中立情緒,因?yàn)橹辛⑶榫w和其他情緒間的差異較小,所以易與其他情緒混淆。圖6顯示了本文提出模型的ROC曲線(xiàn),從圖中可以直觀(guān)看出曲線(xiàn)的面積接近于1,表明了該模型的分類(lèi)效果突出。綜合可以看出本文提出的基于Transformer-ESIM注意力機(jī)制的多模態(tài)情緒識(shí)別模型性能優(yōu)異且具有較強(qiáng)的泛化能力。

      圖5 不同序列長(zhǎng)度的混淆矩陣對(duì)比圖Fig.5 Comparison of confusion matrices with different sequence lengths

      圖6 情緒識(shí)別模型在IECOMAP數(shù)據(jù)集上的ROC曲線(xiàn)圖Fig.6 ROC curve of emotion recognition model on IECOMAP dataset

      3 總結(jié)

      本文提出了一種基于Transformer-ESIM注意力機(jī)制的多模態(tài)情緒識(shí)別方法。首先,采用Transformer編碼層對(duì)語(yǔ)音和文本序列進(jìn)行編碼,通過(guò)多頭注意力機(jī)制對(duì)序列進(jìn)行并行化提取特征,可以有效消除序列距離的限制,充分提取序列內(nèi)的情感語(yǔ)義信息,從而對(duì)語(yǔ)音和文本序列進(jìn)行深層情感語(yǔ)義編碼,解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)存在的長(zhǎng)期依賴(lài)性以及其自身順序?qū)傩詿o(wú)法捕獲長(zhǎng)距離特征的問(wèn)題,縮短了特征提取時(shí)間;其次,通過(guò)ESIM的交互注意力層獲取語(yǔ)音和文本之間的相似特征,實(shí)現(xiàn)語(yǔ)音和文本序列在時(shí)域上的對(duì)齊,提高了模型對(duì)情感語(yǔ)義的理解和泛化能力。通過(guò)在IEMOCAP數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),本文提出的基于Transformer-ESIM注意力機(jī)制的多模態(tài)情緒識(shí)別模型準(zhǔn)確率可達(dá)到72.6%,召回率和F1值也都取得了較好的結(jié)果,驗(yàn)證了本文方法的有效性。

      猜你喜歡
      類(lèi)別注意力語(yǔ)音
      讓注意力“飛”回來(lái)
      魔力語(yǔ)音
      基于MATLAB的語(yǔ)音信號(hào)處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對(duì)方正在輸入……
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      服務(wù)類(lèi)別
      論類(lèi)別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類(lèi)別全科醫(yī)師培養(yǎng)模式的探討
      富裕县| 绥宁县| 延川县| 靖宇县| 扎赉特旗| 农安县| 柘荣县| 赣州市| 靖安县| 富阳市| 松溪县| 闽清县| 全椒县| 德兴市| 望江县| 杭锦后旗| 嘉义市| 九龙坡区| 湘潭市| 绍兴县| 涿州市| 嘉义县| 碌曲县| 津市市| 泰兴市| 二手房| 水城县| 蓬莱市| 临城县| 蓬溪县| 辽阳市| 渝中区| 方正县| 潢川县| 和平区| 肇庆市| 尉犁县| 铜鼓县| 邹平县| 禄劝| 邳州市|