吳秉坤
實現(xiàn)多模態(tài)情感識別體系的融合需對傳統(tǒng)融合模式進行有效優(yōu)化,構(gòu)建多層次注意力網(wǎng)絡(luò)模型以對模態(tài)內(nèi)和模態(tài)間的特性信息進行學(xué)習(xí),并且要提高情感識別性能。實現(xiàn)上述內(nèi)容,需要我們分別從特征級、決策級、多層次注意力網(wǎng)絡(luò)模型融合三方面進行研究。
融合多模態(tài)信息對于構(gòu)建完整的計算機網(wǎng)絡(luò)體系,實現(xiàn)多種類型信息的快速精準識別有重要作用。在具體實踐過程中,多模態(tài)信息的融合有不同的方式。為取得更好的融合效果,需首先對不同融合方式的原理與流程進行全面了解,確保多模態(tài)信息能夠在融合完成后取得良好的運行應(yīng)用效果,獲得更好的信息識別效率和質(zhì)量。為數(shù)據(jù)計算、信息分析提供重要支持。
(一)特征級融合模式
此融合模式具有簡單易行的特征。在多模態(tài)融合的早期研究中,屬于常用融合方式。在具體實踐中需要把握以下幾方面要點。一是分別針對語音和文本模態(tài)的情感特征信息進行有效提取,完成對語音信息的預(yù)處理工作,對語音中的手工特征MFCC進行提取。提取完成后進一步進入深度學(xué)習(xí)環(huán)節(jié),在這一學(xué)習(xí)過程中,需要借助BiLSTM模型的輔助,對于語音信息中的文字信息依賴時間維度特征進行明確。隨后,引入多頭注意力機制聚合模型中的一部分處在隱藏狀態(tài)下的信息,進一步識別語音的情感特征。由此可見,這種識別方式具有逐步深入的特點,需要在識別過程中對上下文時序信息以及聚合特征信息進行全面了解,最終形成顯著的文本情感特征信息,并且用語音與文本的情感特征向量進行表示。隨后,將其輸入至全連接層,由全連接層實現(xiàn)進一步的線性轉(zhuǎn)換。轉(zhuǎn)換完成后,不同特征之間的相關(guān)性能夠明確顯示。
(二)決策級融合模式
決策級融合模式需要考慮模態(tài)信息之間的差異,對獨立的模態(tài)進行情感維度的建模分析。通過情感分類器這一設(shè)備的輔助,可獲得單模態(tài)情況下的情感識別結(jié)果。隨后,結(jié)合單模態(tài)識別結(jié)果,運用決策方法實現(xiàn)識別結(jié)果的融合,得到情感分類的最終結(jié)果。在具體研究時,還需要引入加權(quán)決策融合方法,搭建多模態(tài)情感識別框架。由于語音和文本特征已經(jīng)實現(xiàn)了初步提取,并且以單模態(tài)形式輸入到了全連接層中完成了映射過程。因此,分類器輔助下能夠得到獨立的情感分類結(jié)果和文本基礎(chǔ)上的情感分類結(jié)果。為取得不同模態(tài)的最優(yōu)值,需要通過加權(quán)分析的方式,利用均方誤差原理最小化原理對加權(quán)決策中的最優(yōu)權(quán)重進行分析。分析過程完成后,可基于分析結(jié)果和數(shù)據(jù)信息完成決策過程。
(三)模型級融合模式
此模式是區(qū)別于傳統(tǒng)模式的一種模型構(gòu)建方式。能夠克服獨立的構(gòu)建模式存在的不足,實現(xiàn)跨模態(tài)交互信息建模。在多模態(tài)情感識別框架中,包含了特征提取、跨模態(tài)注意力、情感分類三個基本模塊。其中,在跨模態(tài)注意力模塊應(yīng)用過程中,需要對多模態(tài)特征的交叉信息進行建模分析。這種分析模式需要優(yōu)化多頭注意力機制,在跨模態(tài)背景下形成新的注意力機制,達到優(yōu)化語音、文字呈現(xiàn)效果的目標。同時,在跨模態(tài)背景下,語音和文字的特征嵌入表示方式也需要得到優(yōu)化。具體來說,在跨模態(tài)機制下,需要通過學(xué)習(xí)不同的語義交互權(quán)重信息,調(diào)整語音文本特征表示方式,對語音和文本模態(tài)中的交互信息進行捕捉分析。通過對交互信息的系統(tǒng)性分析,將其基于轉(zhuǎn)換形成具有一致性的模態(tài)狀態(tài)。
情感分類模塊可用來關(guān)注聯(lián)動后的語音與文字多模態(tài)融合特征,并且將特征信息用系統(tǒng)而明確的方式進行表示。當這些信息進一步輸入到全連接層后,也需要進行線性變換,融合特征之間的相關(guān)性可基于深度學(xué)習(xí),得到預(yù)期結(jié)果,完成學(xué)習(xí)后,進一步進入到映射輸出環(huán)節(jié),繼續(xù)應(yīng)用分類器設(shè)備對語音和文本的多模態(tài)情感識別結(jié)果進行分類呈現(xiàn)。
不同的多模態(tài)模型在數(shù)據(jù)分析時所得的結(jié)果、分析效率、分析精準度都會受到多方面因素的影響。多模態(tài)分析結(jié)果的評價需要基于不同的識別模型和網(wǎng)絡(luò)模型進行精準識別分析。通常情況下,為驗證多層次注意力網(wǎng)絡(luò)模型的多模態(tài)融合框架有效性,需引入IEMOCAP數(shù)據(jù)集進一步通過實驗的方式進行驗證。從具體應(yīng)用效果方面來講,多層次注意力網(wǎng)絡(luò)模型的融合框架可分別基于綜合性指標進行分析,并且獲得最高的分數(shù)水平,較之基準模型有非常顯著的應(yīng)用優(yōu)勢。
在計算機網(wǎng)絡(luò)的多模態(tài)模型構(gòu)件中,基于多層次注意力網(wǎng)絡(luò)構(gòu)建多模態(tài)情感識別模型能夠從多角度實現(xiàn)信息的全方位識別。同時,識別效果也更加完善。識別過程完成后,所得信息在完整性和清晰性上能達到一定水平。因此,可在計算機系統(tǒng)支持下的多模態(tài)構(gòu)建實踐中,優(yōu)先選擇基于多層次注意力網(wǎng)絡(luò)的情感識別模型進行應(yīng)用。
作者單位:福州大學(xué)物理與信息工程學(xué)院