• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      情感分析中的多傳感器數(shù)據(jù)融合研究綜述

      2023-12-11 07:11:00金葉磊古蘭拜爾吐爾洪買日旦吾守爾
      計算機工程與應用 2023年23期
      關(guān)鍵詞:模態(tài)深度傳感器

      金葉磊,古蘭拜爾·吐爾洪,買日旦·吾守爾

      新疆大學 信息科學與工程學院,烏魯木齊 830046

      多傳感器數(shù)據(jù)融合技術(shù)[1]是一種綜合處理和利用來自多個傳感器的不確定數(shù)據(jù)和信息的理論和方法。該技術(shù)并非新概念,自然界中的人類和其他生物系統(tǒng)通過利用多個感官來獲取客觀對象不同質(zhì)的數(shù)據(jù)和信息,以提高生存能力。人類視覺、聽覺、觸覺、嗅覺和味覺等都是從眼、耳、手、鼻和口等多源“傳感器”獲取到的信息[2],或通過同類“傳感器”(如雙目)獲取同樣的信息。人體大腦作為融合中心,協(xié)同不同的“傳感器”獲取客觀對象的各個側(cè)面信息,并通過經(jīng)驗和知識等進行相關(guān)分析,從而綜合更多的數(shù)據(jù)和信息,獲得對周圍環(huán)境做出更精確的判斷和估計[3]。多傳感器數(shù)據(jù)融合技術(shù)用于估計或預測實體狀態(tài),是融合多源信息的綜合處理技術(shù),以此獲得對同一事物或目標的更客觀、更本質(zhì)認識的信息。該技術(shù)匯集了數(shù)字信號處理、統(tǒng)計估計、控制論、計算機通信以及人工智能等多個傳統(tǒng)學科中的技術(shù)[4]。

      情感分析是指利用計算機和自然語言處理技術(shù)來識別人類語言中所表達的情感狀態(tài)[5],它在許多領(lǐng)域中都具有廣泛的應用,例如營銷、廣告、客戶服務(wù)和醫(yī)療保健等。現(xiàn)實生活中,情感表達不僅僅依賴于文本,還包括音頻、視頻和生理信息等多種形式,所以僅僅依靠單一類型或形式的數(shù)據(jù)將無法更全面、更客觀地表達出人類的情感信息,如何利用多種類型的情感數(shù)據(jù)進行多綜合性分析,是當前情感分析領(lǐng)域的一個研究熱點。

      隨著深度學習的發(fā)展,多傳感器數(shù)據(jù)融合技術(shù)已經(jīng)逐漸開始應用于情感分析領(lǐng)域[6]。作為多傳感器數(shù)據(jù)融合的一種,多模態(tài)融合技術(shù)可以用于從多個來源(如音頻、視頻、文本等)中獲取更全面和準確的情感信息,從而提高情感分析和分析的質(zhì)量。

      目前可應用于情感分析的數(shù)據(jù)源主要為音頻、視頻、文本、生理信息等,所以目前可以應用于檢測人體情緒的傳感器主要有電極、圖像傳感器(如攝像頭、紅外傳感器)、音頻傳感器(如麥克風)、視線追蹤傳感器等。通過在人體皮膚表面放置電極,可以檢測到生理信號,如腦電圖(EEG)[7]、心率變異性(HRV)[8]、心率、皮膚電阻[9]和肌肉收縮[10]等,從而推斷情緒狀態(tài)。例如,EEG 可以用來檢測情緒波動[11],HRV 可以用來檢測情緒調(diào)節(jié)能力[12]。使用攝像頭或紅外線傳感器等設(shè)備捕捉人臉表情信息,并通過算法識別出不同的情緒狀態(tài),如微笑、憤怒、悲傷等。通過分析從音頻傳感器收集到的語音信息中的聲音特征,從而推斷出不同的情緒狀態(tài)。通過視線追蹤傳感器監(jiān)測眼球的運動軌跡,可以推斷出人的視覺注意力和情緒狀態(tài)[13]。例如,當人們感到緊張或焦慮時,他們的視線會更傾向于固定在某個特定的區(qū)域。

      隨著多模態(tài)融合情感分析技術(shù)的深入以及傳感器領(lǐng)域的發(fā)展,傳感器將會更加頻繁地組合使用,以獲得更準確和全面的情緒狀態(tài)信息,由此情感分析的應用領(lǐng)域會更廣泛。此外,隨著科技的不斷發(fā)展,新型傳感器不斷涌現(xiàn),例如生物傳感器、環(huán)境傳感器等,也有望被應用于情緒檢測領(lǐng)域。

      1 多傳感器融合

      1.1 融合分類

      針對不同的數(shù)據(jù)類型、目的和應用場景,可以采用多種不同的數(shù)據(jù)融合分類方法。

      (1)按照融合結(jié)構(gòu)

      多傳感器數(shù)據(jù)融合技術(shù)可以分為集中式融合結(jié)構(gòu)和分布式融合結(jié)構(gòu)。

      集中式數(shù)據(jù)融合結(jié)構(gòu)指的是將不同來源的數(shù)據(jù)集中到一個中央位置,并將其進行融合和整合,形成一個統(tǒng)一的數(shù)據(jù)存儲和處理平臺。這種結(jié)構(gòu)通常采用集中式數(shù)據(jù)庫或數(shù)據(jù)倉庫來存儲數(shù)據(jù),并利用ETL(抽取、轉(zhuǎn)換、加載)工具來將不同來源的數(shù)據(jù)進行轉(zhuǎn)換和整合。

      分布式數(shù)據(jù)融合[14]是指每個傳感器都作為一個專家系統(tǒng),先對原始觀測數(shù)據(jù)進行處理,做出本地判決結(jié)論,并與分布在網(wǎng)絡(luò)中其他位置上的傳感器交換結(jié)論,從而更新判決結(jié)論。

      集中式數(shù)據(jù)融合[15]的優(yōu)點是數(shù)據(jù)全面、最終判決結(jié)論置信度高,但數(shù)據(jù)量大、對傳輸網(wǎng)絡(luò)要求苛刻、數(shù)據(jù)處理的時間較長、影響系統(tǒng)響應能力。分布式數(shù)據(jù)融合中所需傳送的數(shù)據(jù)量要相對較少,且數(shù)據(jù)融合中心所需的處理時間較短,響應速度較快。

      (2)按照融合層次

      按照數(shù)據(jù)融合層次來劃分,多傳感器數(shù)據(jù)融合技術(shù)主要可以分為三類,原始數(shù)據(jù)級融合、特征級數(shù)據(jù)融合和決策級數(shù)據(jù)融合。

      原始數(shù)據(jù)級融合是指直接融合同構(gòu)的傳感器數(shù)據(jù),典型的數(shù)據(jù)層融合技術(shù)包括經(jīng)典估計方法,例如卡爾曼濾波。

      特征級融合首先從傳感器數(shù)據(jù)中提取出特征向量,并將特征向量輸入到模式識別過程中,最后利用神經(jīng)網(wǎng)絡(luò)方法、聚類算法或模板方法等模式識別方法進行識別。特征級融合的功能主要是融合分類。

      決策級融合是在每一個傳感器都已經(jīng)初步確定了一個實體的狀態(tài)之后,再將這些信息進行融合決策。決策層融合的主要方法有加權(quán)決策法(表決法)、經(jīng)典推理法、貝葉斯推理法和D-S(dempster-shafer)證據(jù)理論。

      (3)按照傳感器組合方式

      按照傳感器的組合方式可以分為同構(gòu)傳感器和異類傳感器數(shù)據(jù)融合[16-17]。

      同類傳感器組合只處理來自同一類傳感器的數(shù)據(jù),其數(shù)據(jù)格式、信息內(nèi)容等都基本相同,因而處理方法比較簡單。例如處理在不同網(wǎng)絡(luò)位置上同一種入侵檢測系統(tǒng)所產(chǎn)生的報警事件。

      異類傳感器組合同時處理來自不同類型傳感器采集的數(shù)據(jù)。優(yōu)點是信息內(nèi)容廣泛,來自不同傳感器的數(shù)據(jù)具有互補性,因而可以獲得更準確、更全面、更可靠的結(jié)果,但是處理難度相對較為復雜。

      1.2 融合方法

      1.2.1 加權(quán)平均法

      加權(quán)平均法[18]是一種常用的數(shù)據(jù)層融合方法,它將多個數(shù)據(jù)源的值進行加權(quán)平均,其中每個數(shù)據(jù)源的權(quán)重是由融合目標和數(shù)據(jù)源之間的關(guān)系來確定的。加權(quán)平均法的基本思想是,對于不同的數(shù)據(jù)源,根據(jù)其貢獻大小賦予不同的權(quán)重,將它們加權(quán)平均得到最終結(jié)果。在加權(quán)平均法中,數(shù)據(jù)源的權(quán)重可以是固定的,也可以根據(jù)實際情況動態(tài)調(diào)整。

      在上式中,R表示加權(quán)平均數(shù),n表示為數(shù)據(jù)源的個數(shù),f1,f2,…,fn表示權(quán)重。

      1.2.2 多貝葉斯估計法

      多貝葉斯估計法[19]是一種統(tǒng)計學習方法,用于處理多傳感器數(shù)據(jù)的融合問題。它基于貝葉斯定理,將多個模態(tài)的概率分布函數(shù)進行融合,從而得到整個系統(tǒng)的概率分布函數(shù)。多貝葉斯估計方法框架如圖1所示,它可以處理模態(tài)之間的相關(guān)性和非線性關(guān)系,從而提高數(shù)據(jù)融合的精度和魯棒性。

      具體來說,多貝葉斯估計法將不同模態(tài)的數(shù)據(jù)表示為一個多元隨機變量向量,然后基于訓練數(shù)據(jù)集,通過最大后驗概率推斷得到各個模態(tài)的條件概率分布。然后,根據(jù)貝葉斯定理,將各個模態(tài)的概率分布函數(shù)進行融合,得到整個系統(tǒng)的后驗概率分布。在測試階段,將測試數(shù)據(jù)代入后驗概率分布函數(shù)中,根據(jù)貝葉斯準則,可以得到數(shù)據(jù)的分類結(jié)果。

      1.2.3 D-S證據(jù)推理法

      D-S 證據(jù)理論,是一種處理不確定信息的推理理論,通過對相關(guān)命題的主觀概率進行轉(zhuǎn)化,將命題的不確定問題轉(zhuǎn)化為集合的不確定問題。該理論的基本思想是從相關(guān)命題的主觀概率獲取目標命題的信任度,并通過對互相獨立的證據(jù)項的信任度采取Dempster 融合規(guī)則結(jié)合起來。D-S證據(jù)理論能夠區(qū)分“不確定”和“不知道”的差異,可以處理由于隨機性和模糊性帶來的不確定性,特別適用于決策級數(shù)據(jù)融合[20]。

      在D-S證據(jù)理論中,信任函數(shù)用于描述證據(jù)與命題之間的關(guān)系,反映了命題成立的程度。似然度函數(shù)則用于描述證據(jù)的可靠性和權(quán)重。通過將似然度函數(shù)和信任函數(shù)相乘,可以得到證據(jù)的證據(jù)權(quán)重。根據(jù)Dempster融合規(guī)則,可以將多個證據(jù)的證據(jù)權(quán)重進行合并,得到目標命題的證據(jù)權(quán)重。在多傳感器數(shù)據(jù)融合中,可以使用D-S證據(jù)理論對不同傳感器的數(shù)據(jù)進行決策合并,提高決策的準確性和魯棒性[21]。在模式識別中,可以使用D-S證據(jù)理論對多個分類器的結(jié)果進行融合,提高分類的準確性。在機器學習中,可以使用D-S證據(jù)理論處理缺失數(shù)據(jù)和噪聲數(shù)據(jù),提高模型的魯棒性和泛化能力。

      設(shè)n為目標類型數(shù),m為傳感器數(shù)量,Ci(Oi)為傳感器i對識別目標Oi的關(guān)聯(lián)系數(shù),該系數(shù)需要根據(jù)具體情況而定,λi是傳感器i的環(huán)境加權(quán)系數(shù),則可以定義:

      則傳感器i對目標Oi的基本概率賦值為:

      傳感器i的不確定性為:

      1.2.4 模糊聚類法

      模糊聚類(fuzzy clustering)[22]是一種聚類算法,與傳統(tǒng)的硬聚類(hard clustering)算法不同,它允許數(shù)據(jù)點屬于多個聚類中心的概率(或權(quán)重)分配。模糊聚類的主要思想是將數(shù)據(jù)點分配給每個聚類中心的概率(或權(quán)重)相對于其與該聚類中心的距離而言。這樣,在模糊聚類中,數(shù)據(jù)點可以同時屬于多個聚類中心,且每個聚類中心對于每個數(shù)據(jù)點的重要性不同。

      1.2.5 神經(jīng)網(wǎng)絡(luò)方法

      數(shù)據(jù)融合中的神經(jīng)網(wǎng)絡(luò)方法[23]指的是使用人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)來融合多個數(shù)據(jù)源的技術(shù)。這種方法是一種基于模型的數(shù)據(jù)融合技術(shù),旨在將來自不同源的數(shù)據(jù)進行集成,以獲得更精確、更全面的信息。

      具體來說,該方法將來自不同源的數(shù)據(jù)輸入到ANN 中進行訓練,以獲得融合后的結(jié)果。ANN 通常包含多個層次,每個層次包含多個節(jié)點。如圖2為一個簡單的二層ANN 結(jié)構(gòu),在訓練期間,ANN 將根據(jù)給定的輸入和輸出數(shù)據(jù)對其內(nèi)部參數(shù)進行調(diào)整,以最小化標準預測誤差。在訓練完成后,ANN 將可以用于預測新的數(shù)據(jù)輸入。

      1.2.6 深度學習方法

      深度學習(deep learning)是由多層人工神經(jīng)網(wǎng)絡(luò)堆疊而成,所以基于深度學習的數(shù)據(jù)融合本質(zhì)就是基于人工神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)融合方法的一種,但兩者也有一些區(qū)別:基于人工神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)融合通常使用簡單的前饋神經(jīng)網(wǎng)絡(luò),而基于深度學習的數(shù)據(jù)融合則可以使用更復雜的卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等?;谌斯ど窠?jīng)網(wǎng)絡(luò)的數(shù)據(jù)融合通常使用傳統(tǒng)的反向傳播算法進行訓練,而基于深度學習的數(shù)據(jù)融合則可以使用更高級的優(yōu)化算法,如Adam、Adagrad 等。基于深度學習的數(shù)據(jù)融合相對于基于人工神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)融合,具有更強的自動化和抽象能力,可以更好地處理大規(guī)模和高維度的數(shù)據(jù),并且可以學習更復雜的特征和模式。但同時,也需要更多的數(shù)據(jù)和計算資源來進行訓練和調(diào)優(yōu)。

      現(xiàn)有的基于深度學習的數(shù)據(jù)融合方法分為基于深度學習特征提取的數(shù)據(jù)融合方法、基于深度學習融合的數(shù)據(jù)融合方法以及基于深度學習全過程的數(shù)據(jù)融合方法三種[24]。

      (1)基于深度學習特征提取的數(shù)據(jù)融合方法

      在基于深度學習特征提取的數(shù)據(jù)融合方法中,使用深度學習模型對原始數(shù)據(jù)進行特征提取,不應用到融合階段,如圖3 所示。所以,數(shù)據(jù)的融合操作既可以在深度學習模型之前(數(shù)據(jù)級融合),也可以在深度學習模型之后(特征級融合、決策級融合)。

      圖3 數(shù)據(jù)的深度特征融合流程圖Fig.3 Flow chart of deep feature fusion of data

      文獻[25]提出一種基于非下采樣輪廓波變換(nonsubsampled contourlet transform,NSCT)和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的X 射線圖像骨齡評估多尺度數(shù)據(jù)融合框架,并在該框架下提出基于特征級融合的回歸模型和基于決策級融合的分類模型。該方法通過執(zhí)行NSCT 來預先提取輸入圖像的豐富特征集,從而獲得其多尺度和多方向表示,并將在每個尺度上獲得的NSCT系數(shù)圖單獨輸入到卷積網(wǎng)絡(luò)中,然后合并來自不同尺度的信息以實現(xiàn)最終預測。該方法包括兩個CNN 模型:具有特征級融合的回歸模型和具有決策級融合的分類模型。該方法在公共BAA數(shù)據(jù)集數(shù)字手部圖譜上進行了實驗,并顯示出了較高的預測準確率和優(yōu)于其他最先進的BAA方法的表現(xiàn)。

      (2)基于深度學習融合的數(shù)據(jù)融合方法

      在基于深度學習融合的數(shù)據(jù)融合方法,深度學習模型針對數(shù)據(jù)或特征進行融合處理,如圖4所示。該方法中,深度學習模型的輸入可能是原始數(shù)據(jù)集,也可能是經(jīng)過處理后的數(shù)據(jù)特征。

      圖4 基于深度學習融合的流程圖Fig.4 Flow chart based on deep learning fusion

      文獻[26]提出一種基于深度長短時記憶神經(jīng)網(wǎng)絡(luò)(deep long short time memory,DLSTM)數(shù)據(jù)融合預測模型,該模型以長短時記憶網(wǎng)絡(luò)(long short-term memory,LSTM)神經(jīng)單元為基礎(chǔ),多個LSTM神經(jīng)單元構(gòu)成LSTM 層,DLSTM 模型通過多層LSTM 層進行疊加構(gòu)成,通過實驗驗證,DLSTM 數(shù)據(jù)融合預測模型的預測準確率有明顯提高,并且模型的魯棒性也有很大提高,DLSTM 模型可以很好地挖掘多傳感器數(shù)據(jù)之間的長期依賴關(guān)系。

      文獻[27]提出的基于卷積神經(jīng)網(wǎng)絡(luò)的自適應數(shù)據(jù)融合方法主要解決了多源數(shù)據(jù)融合困難的問題。該方法的主要特點是采用自適應卷積核設(shè)計自適應數(shù)據(jù)融合層,然后利用基于空洞卷積的一維卷積神經(jīng)網(wǎng)絡(luò)對融合數(shù)據(jù)特征進行提取。經(jīng)過實驗驗證,基于卷積神經(jīng)網(wǎng)絡(luò)的自適應數(shù)據(jù)融合方法具有較高的實用價值,在多源數(shù)據(jù)融合故障診斷等領(lǐng)域具有廣泛的應用前景。

      (3)基于深度學習全過程的數(shù)據(jù)融合方法

      在該方法中,數(shù)據(jù)特征的提取和數(shù)據(jù)的融合兩個階段均會用到深度學習模型。兩個階段可以使用相同類型的深度學習模型,也可以使用不同類型的深度學習模型。

      (4)總結(jié)

      深度神經(jīng)網(wǎng)絡(luò)既可以自適應地挖掘原始數(shù)據(jù)的深層次特征,也可以在數(shù)據(jù)的融合過程中充分考慮數(shù)據(jù)之間的關(guān)聯(lián)性和互補性,從而提高融合數(shù)據(jù)的有效信息密度。隨著傳感器技術(shù)的發(fā)展,原始數(shù)據(jù)量不斷增加,深度學習常會通過增加網(wǎng)絡(luò)深度和復雜度來提高模型的表達能力,但這樣也會導致模型的參數(shù)數(shù)量和訓練難度增加,同時需要更多的計算資源來進行模型訓練和推理。

      1.3 研究現(xiàn)狀

      多傳感器融合技術(shù)在軍事領(lǐng)域得到了廣泛的應用,特別是在航空目標探測、識別和跟蹤方面,以及戰(zhàn)場監(jiān)視、戰(zhàn)術(shù)態(tài)勢估計和威脅估計等方面。隨著時間的推移,數(shù)據(jù)融合技術(shù)的應用領(lǐng)域已經(jīng)擴展到其他領(lǐng)域,如地質(zhì)科學、機器人技術(shù)、醫(yī)療診斷和復雜工業(yè)過程控制等[28-30]。

      近年來,多源圖像融合作為多傳感器信息融合技術(shù)的重要應用方向,得到了廣泛關(guān)注。多源圖像融合技術(shù)是從多個傳感器中獲取的圖像數(shù)據(jù)中提取有用信息,將它們?nèi)诤铣梢粋€單一的圖像,以提高圖像的質(zhì)量和可用性。該技術(shù)廣泛應用于許多領(lǐng)域,如無人機和衛(wèi)星圖像、醫(yī)學圖像和軍事情報等[30]。多源圖像融合可以提高圖像的清晰度和分辨率,增加圖像的信息量,降低噪聲水平,使圖像更加適合于后續(xù)處理和決策[31]。

      隨著人工智能領(lǐng)域的發(fā)展,多傳感器融合技術(shù)開始逐漸應用在更多的人機交互技術(shù)中,如智能機器人、自動駕駛、智能家居、健康監(jiān)測、情感分析等。多傳感器融合技術(shù)已經(jīng)成為未來機器學習的重要途徑,其可以針對數(shù)據(jù)實現(xiàn)更加智能化、高效化的處理和決策。

      2 情感分析

      情感主要通過多種方式表征出來,因此情感分析的研究也涉及多種數(shù)據(jù)信息的應用。除了語音、圖像和語言數(shù)據(jù)外,還包括生理信號,如心率、皮膚電導、腦電波等。這些數(shù)據(jù)可以通過傳感器或設(shè)備采集,并經(jīng)過處理和分析以獲得有關(guān)情感的信息。所以本章對語音情感分析、圖像情感分析以及生理信號情感分析進行總結(jié)。

      2.1 語音情感分析

      語音情感分析是指通過分析人類語音信號中所蘊含的情感信息,自動地確定說話人的情感狀態(tài),比如憤怒、高興、悲傷、驚訝等。如麥克風等語音傳感器,將收集到的語音信號轉(zhuǎn)換為電信號,然后通過放大和數(shù)字轉(zhuǎn)換等過程轉(zhuǎn)換為計算機可處理的數(shù)字信號。語音情感分析的主要挑戰(zhàn)是如何從語音信號中提取情感信息。

      可以通過對傳感器所收集的語音信號進行處理和分析,將語音信號分割為定長的幀,然后從這些幀中提取情感特征,如基音頻率、聲音強度、語調(diào)、語速等[32]情感特征。常用的音頻特征提取工具有l(wèi)ibrosa[33]、opensmile[34]等。深度學習算法在語音情感特征提取中的應用,包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短時記憶網(wǎng)絡(luò)(LSTM)等。當給定一種將音頻信號映射到二維表示的方法時,CNN 可以學習深度音頻特征,而RNN和LSTM可以對音頻信號進行序列建模,并對序列中的情感信息進行建模和預測。最近,無監(jiān)督的表示學習技術(shù)和結(jié)構(gòu)也在迅速發(fā)展,如SincNet 網(wǎng)絡(luò)和wav2vec 模型等,它們能夠從初始波形中學習音頻表示,提高語音情感分析的性能和魯棒性。需要注意的是,深度學習算法在語音情感分析中需要大量的數(shù)據(jù)和計算資源進行訓練和調(diào)優(yōu),但是它們通常能夠提供比傳統(tǒng)機器學習算法更好的性能和魯棒性。

      目前,常用的語音情感分析技術(shù)包括基于高斯混合模型(GMM)、支持向量機(support vector machine,SVM)、決策樹(DT)以及深度學習等的方法。文獻[35]提出了一種通過學習三個頻道的對數(shù)Mel頻譜圖的高層特征表示來設(shè)計用于語音信號的情感差距的深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network,DCNN)模型,其學習的分段級特征通過判別時間金字塔匹配(DTPM)策略進行聚合,該方法在語音情感分析方面取得了良好的性能。文獻[36]通過STFT算法將所選序列轉(zhuǎn)換為頻譜圖,并使用CNN 模型從語音頻譜圖中提取區(qū)分性和顯著性特征,然后通過對CNN 提取的特征進行標準化處理,再將其輸入深度雙向長短時記憶(BiLSTM)模型中學習時間信息以識別最終情感狀態(tài)。

      近年來,注意力機制(attention mechanism)在深度學習領(lǐng)域得到了廣泛的應用。Mirsamadi等人[37]提出了基于注意力機制的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),有效地提升了語音情感分析的性能。傳統(tǒng)的深度學習方法不能夠?qū)Σ煌恼Z音段進行不同程度的關(guān)注,因而無法有效地處理一段語音中與情感體現(xiàn)無關(guān)的部分。注意力機制可以使深度學習模型更關(guān)注與情感體現(xiàn)相關(guān)的部分,忽視與情感體現(xiàn)無關(guān)的部分,進而有效地提高深度學習模型的性能。Sarma等人[38]將Attention分別用于LSTM和TDNN-LSTM模型,性能均得到了顯著的提升。針對語音在情感特征表示上的不足,文獻[39]對比了直接利用語音提取特征和利用梅爾頻率濾波器組(Mel-frequency filter banks,F(xiàn)Bank)特征進行深度學習語音情感分析的效果,研究表明,利用FBank特征進行語音情感分析可以取得更好的效果。

      2.2 視覺情感分析

      2.2.1 圖像情感分析

      圖像情感分析是一種通過分析和處理從傳感器獲取的靜態(tài)圖像,從中提取出低層次的特征(例如顏色、紋理、形狀等)和高層次的語義特征(例如人臉、動作、場景等),并通過建模和推理,從而獲得關(guān)于圖像所表達的情感信息的方法。圖像情感特征的研究大多是捕捉人臉面部表情。面部表情特征提取會產(chǎn)生更小、更豐富的屬性集,這些屬性集包含臉部邊緣、對角線等特征,以及嘴唇和眼睛之間的距離、兩只眼睛之間的距離等信息。表情特征提取的方法包括基于幾何的特征提取和基于外觀的特征提取。

      近年來,研究人員提出了一系列深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)方法用于視頻序列中面部表情識別任務(wù)的高級特征學習。DCNN能夠有效提取圖像的多種特征,包括低級別特征(如顏色、紋理、形狀等)和高級別語義特征(如物體、場景、情感等)。所以在DCNN中,卷積層通過使用多個卷積核對輸入的人臉圖像進行卷積操作,從而提取出人臉圖像中的局部特征,如邊緣、對角線等低級別特征。池化層則用于對卷積層輸出的特征圖進行降維處理,從而減少模型的參數(shù)數(shù)量和計算量。全連接層則將池化層輸出的特征向量進行分類任務(wù),對特征所蘊含的表情情感信息進行分類。目前,基于深度學習的圖像情感分析發(fā)展迅速,VGG[40]、ResNet[41]、Inception[42]等基于深度卷積神經(jīng)網(wǎng)絡(luò)的模型廣泛應用在圖像情感特征提取。

      文獻[43]提出了一種基于殘差網(wǎng)絡(luò)的深度卷積神經(jīng)網(wǎng)絡(luò),可以用于圖像分類、目標檢測等任務(wù),該方法通過跨層連接(skip connection)來解決深度網(wǎng)絡(luò)中的梯度消失問題,從而提高了網(wǎng)絡(luò)的準確率和收斂速度。文獻[44]提出了一種基于面部關(guān)鍵點的情感分析方法,其利用面部關(guān)鍵點識別不同的情感表達,簡單、高效地對圖像中的表情信息進行提取和分析。文獻[45]采用VGG-16 深度卷積神經(jīng)網(wǎng)絡(luò)模型對FER-2013 人類數(shù)據(jù)集進行情感分類,準確率達到了69.40%,模型如圖5 所示。文獻[46]提出了一種使用深度殘差網(wǎng)絡(luò)ResNet-50的特征提取方法,結(jié)合用于面部情感分析的卷積神經(jīng)網(wǎng)絡(luò),該模型獲得了較好的性能。

      圖5 VGG-16網(wǎng)絡(luò)提取圖像信息Fig.5 Extracting image information of VGG-16 network

      2.2.2 視頻情感分析

      視頻數(shù)據(jù)相比于圖像數(shù)據(jù),其不僅包含了空間信息,還包含了時間屬性信息[47]。視頻的空間屬性是指視頻中每一幀圖像所包含的信息,包括圖像的顏色、形狀、紋理等,可以通過CNN 等方法來提取。CNN 模型通常包括多個卷積層和池化層,能夠有效地捕捉圖像的空間信息。而視頻的時間屬性是指視頻中相鄰的圖像幀之間的相互作用信息,包括運動、動作等。這些信息可以通過卷積神經(jīng)網(wǎng)絡(luò)或LSTM 等方法來提取。卷積神經(jīng)網(wǎng)絡(luò)可以通過卷積操作來捕捉圖像幀之中的空間信息,LSTM則可以捕捉更長時間跨度的運動信息,可以更好地建模視頻序列中的時間信息。

      文獻[48]引入了一種基于樹的增強樸素貝葉斯(tree augmented naive Bayes,TAN)分類器,學習面部特征之間的依賴關(guān)系,還提供了一種用于尋找最佳TAN結(jié)構(gòu)的算法,使用此TAN 結(jié)構(gòu)比使用簡單的樸素貝葉斯分類器提供了顯著更好的結(jié)果。文獻[49]提出了一種采用混合深度學習模型的視頻序列情感分析方法,首先利用兩個獨立的CNN,包括一個處理靜態(tài)面部圖像的空間CNN 和一個處理光流圖像的時間CNN,分別在劃分的視頻段上學習高級空間和時間特征,然后將特征整合到一個由深度置信網(wǎng)絡(luò)(deep confidence network,DBN)模型構(gòu)建的深度融合網(wǎng)絡(luò)中,在視頻序列中對學習的DBN 段級特征進行平均池化,產(chǎn)生一個固定長度的全局視頻特征表示,并使用SVM進行分類,該方法在RML 數(shù)據(jù)集上的準確率可以達到73.73%。文獻[50]提出了一種基于表情片段的視頻流形建模方法,用于解決動態(tài)表情識別中的時間對齊和語義感知動態(tài)表示問題,實驗結(jié)果顯示該方法在CK+、MMI、Oulu-CASIA 和AFEW 數(shù)據(jù)集上均獲得較好的效果。文獻[51]提出了包括一種基于短片段感知情感豐富特征學習網(wǎng)絡(luò)(CEFLNet)的方法,該網(wǎng)絡(luò)一個基于短片段的特征編碼器(CFE)和一個情感強度激活網(wǎng)絡(luò)(EIAN),結(jié)果表示該方法在3DFE、MMI、AFEW和DFEW四種數(shù)據(jù)集上均取得不錯的效果。

      2.3 文本情感分析

      文本情感分析是一種自然語言處理技術(shù),旨在對帶有情感色彩的主觀性文本進行分析和挖掘,以識別和分析文本中表達的情感傾向和態(tài)度。文本情感分析的要過程為數(shù)據(jù)預處理、特征提取、模型訓練和情感分類。

      在文本情感特征提取之前首先需要對原始文本數(shù)據(jù)進行清理和預處理,例如去除停用詞、標點符號、數(shù)字和特殊字符,并進行分詞、詞性標注和詞干提取等操作。將經(jīng)過預處理的文本數(shù)據(jù)轉(zhuǎn)換成有意義的數(shù)值特征向量。文本情感特征常用的傳統(tǒng)提取方法有過濾法、映射法、詞袋模型[52]、tf-idf(term frequency-inverse document frequency(詞頻-逆文檔頻率))[53]和詞嵌入[54]。與傳統(tǒng)方法相比,深度學習可以從訓練數(shù)據(jù)中快速獲得新的有效情感特征,如CNN和RNN。在涉及順序輸入的任務(wù)中,RNN通常更適用于文本處理。此外,GloVe和BERT模型等無監(jiān)督架構(gòu)也被設(shè)計用來學習單詞的向量空間表示,可以用于多模態(tài)情感分析的文本模態(tài)。這些模型通過大量數(shù)據(jù)的預訓練,具有很強的特征表示學習能力,能夠捕捉詞義和上下文。為了方便與基線模型進行比較,大多數(shù)多模態(tài)情感分析模型都采用了GloVe嵌入。

      模型訓練和情感分類是使用已標注的文本情感數(shù)據(jù)集,訓練一個分類器模型,以自動將文本分類為正面、負面或中性。常見的分類器模型包括樸素貝葉斯、SVM、決策樹和深度學習模型等。文獻[55]提出了一種使用CNN 進行短文本情感分類的方法,取得了較好的分類效果。文獻[56]提出了一種基于雙向轉(zhuǎn)換器編碼器(BERT)的預訓練語言模型,可用于各種自然語言處理任務(wù),包括情感分析。BERT 在多個任務(wù)上取得了目前最好的效果。文獻[57]提出了一種基于Transformer模型的文本生成框架,并探究了在情感分類任務(wù)中如何使用預訓練模型進行遷移學習。在多個情感分類任務(wù)上進行實驗,該方法取得了優(yōu)秀的性能。文獻[58]提出了一種層次注意力網(wǎng)絡(luò)模型,用于對整篇文檔的情感進行分類。

      2.4 生理信息情感分析

      生理信息情感分析是指利用人體的生理信號(如心率、腦電波、皮膚電反應等)來推斷人的情感狀態(tài)。這種方法通常涉及到生理信號傳感器設(shè)備的使用,例如心電圖機、腦電圖機、皮膚電導測量儀等。通過傳感器收集這些信號,并從信號的變化可以了解人的情感狀態(tài)和心理反應。生理信號情感分析的主要優(yōu)點是可以實現(xiàn)非侵入式的情感分析,因為這些信號的采集不需要對被試進行任何身體干預。同時,這種方法也不會受到語言和文化差異的影響,因為生理信號是人類本身具有的生理反應。常用的生理信號有腦電、皮膚電、心電以及肌電等。

      蘊含情感信息的特征包括時域特征、頻域特征、小波變換特征及時頻特征等。時域特征是指在時間維度上對信號的統(tǒng)計特征進行提取,如均值、方差、標準差、斜度和峰度等。這些特征可以反映信號的振幅、波形和分布等信息,從而對情感狀態(tài)進行刻畫。頻域特征是指在頻率維度上對信號的頻域特性進行提取,如功率譜密度、頻帶能量比和頻率峰值等。這些特征可以反映信號的頻率分布和能量分布情況。小波變換可以將信號在時域和頻域上進行分解,從而提取信號的局部時頻特征。常用的小波變換特征包括小波包能量、小波包熵和小波包標準差等。時頻特征是指在時域和頻域上同時對信號的特征進行提取,如短時傅里葉變換(STFT)、連續(xù)小波變換(CWT)和離散小波變換(DWT)等。

      所提取的生理信息特征可以使用機器學習算法進行情感分類。常用的機器學習算法包括支持向量機(SVM)、隨機森林(RF)和神經(jīng)網(wǎng)絡(luò)等。文獻[60]分別利用心電圖、肌電信息和皮電信息進行情感分析。先是對心電信息進行預處理和特征提取,再使用隨機森林和神經(jīng)網(wǎng)絡(luò)進行分類,實驗結(jié)果表明心電信息對情感分類最有效。

      2.5 總結(jié)

      情感分析任務(wù)已經(jīng)取得了一定的研究進展,并且在實際應用中具有很高的實用價值。但是情感分析的研究也正面臨了一些挑戰(zhàn),其主要的問題之一則是單一數(shù)據(jù)的局限性。

      使用一種數(shù)據(jù)進行情感分析的局限主要包括數(shù)據(jù)的不平衡性、數(shù)據(jù)質(zhì)量問題和數(shù)據(jù)獲取成本三方面。數(shù)據(jù)的不平衡性是由于不同類型的數(shù)據(jù)信息所涵蓋的情感維度不同,例如語音數(shù)據(jù)可以涵蓋聲音的情感維度,但無法涵蓋面部表情的情感維度,又如不同的生理信號對情感的響應可能存在差異。數(shù)據(jù)質(zhì)量問題則是因為不同類型的數(shù)據(jù)采集方法和設(shè)備會對數(shù)據(jù)的質(zhì)量產(chǎn)生不同程度的影響,如圖像數(shù)據(jù)可能會受到光線、姿態(tài)等因素的影響,且生理信號的采集和處理需要專業(yè)的設(shè)備和技術(shù)。數(shù)據(jù)獲取成本即不同類型的數(shù)據(jù)獲取成本不同,例如語音數(shù)據(jù)可以通過麥克風進行采集,而生理信號需要特殊的傳感器進行采集。

      因此,為了更全面準確地表征情感,研究人員通常會采用多種類型的數(shù)據(jù)進行情感分析,利用從多種類型的傳感器或多個傳感器收集的數(shù)據(jù)進行融合,以提高情感分析算法的準確度和魯棒性。

      3 多模態(tài)情感分析

      作為多傳感器數(shù)據(jù)融合技術(shù)的一種,多模態(tài)融合近幾年開始成為人工智能領(lǐng)域的研究熱點。因為用單模態(tài)進行情感分析存在著識別率低、穩(wěn)定性差等限制,情感分析研究者綜合利用多種模態(tài)的數(shù)據(jù)進行情感分析來提高其準確性和穩(wěn)定性。在多模態(tài)情感分析中,模態(tài)融合的效果直接影響結(jié)果的準確性,因此需要根據(jù)所用模態(tài)的不同和模態(tài)中信息的不同選擇適當?shù)哪B(tài)融合方法。

      3.1 多模態(tài)情感分析方法

      3.1.1 特征級融合

      特征級融合是一種多模態(tài)情感分析方法,其融合框架如圖6所示。它能夠利用多模態(tài)特征之間的相關(guān)性,從而提高情感分析的準確性和可靠性。但是,它也存在一些缺點,例如融合后特征的維度通常較高,這種高維度會增加模型的計算復雜度和訓練難度,導致過擬合和性能下降的風險增加。因此,需要對融合后的特征進行降維或者對情感分析具有顯著影響的特征進行重要性排序和選擇,以減少特征維度并提高模型性能。

      圖6 特征級融合框架Fig.6 Feature-level fusion framework

      多種模態(tài)特征的融合方法有加權(quán)融合、串聯(lián)融合、堆疊融合和交互式融合等。加權(quán)融合是對于每種模態(tài),賦予其一個權(quán)重,然后將不同模態(tài)的特征按照權(quán)重加權(quán)求和。串聯(lián)融合是將不同模態(tài)的特征拼接在一起,然后再輸入到分類器中進行分類或者回歸等任務(wù)。堆疊融合將不同模態(tài)的特征分別輸入到不同的神經(jīng)網(wǎng)絡(luò)中進行特征提取,然后將提取的特征進行堆疊,最后再輸入到分類器中進行分類或者回歸等任務(wù)。交互式融合通過將不同模態(tài)的特征進行交互,從而學習到它們之間的關(guān)聯(lián)性。這種方式常見的方法包括神經(jīng)注意力機制和循環(huán)神經(jīng)網(wǎng)絡(luò)等。

      文獻[59]提出了一種基于自注意力機制的新的特征級融合方法,在文本和語音模態(tài)上進行分析,實驗結(jié)果經(jīng)過與傳統(tǒng)的融合方法(如串聯(lián)、交疊等)進行了對比,在視頻中進行話語級情感分析的情況下,提出的融合方法優(yōu)于其他方法。文獻[60]提出了一種新的基于特征融合表示的阿拉伯語推特表征方法以捕捉多義性、語義/句法信息和傳達的情感知識,且提出了一種基于雙向門控循環(huán)單元(BiGRU)、雙向長短期記憶(BiLSTM)和卷積神經(jīng)網(wǎng)絡(luò)的注意力深度學習模型,有效地學習局部和全局特征,并提供多標簽情感分類,實驗結(jié)果表明該方法取得了良好的效果。文獻[61]利用對權(quán)重進行低秩矩陣分解,將TFN先張量外積再全連接的過程變?yōu)槊總€模態(tài)先單獨線性變換之后再多維度點積,可以看作是多個低秩向量的結(jié)果的和,從而減少了模型中的參數(shù)數(shù)量。文獻[62]所有模態(tài)使用全連接層進行特征提取,即encoder,再用decode 還原特征,最后計算特征之間的損失。文獻[63]同時捕捉時序上和模態(tài)間的交互,以得到更好的多視圖融合。文獻[64]使用aspect-guided attention 機制來指導模型生成文本和圖像的attention向量。

      3.1.2 決策級融合

      決策級融合的優(yōu)點在于,它能夠?qū)⒉煌B(tài)的情感分析結(jié)果進行簡單的整合,產(chǎn)生最終的情感決策結(jié)果。圖7為決策級融合框架。相比于特征級融合,決策級融合更加直接,模型也更加簡單。此外,決策級融合能夠有效地處理各模態(tài)間的差異,提高了模型的穩(wěn)定性和魯棒性。同時,當某個模態(tài)數(shù)據(jù)不可用或者丟失時,決策級融合也可以通過其他模態(tài)的數(shù)據(jù)來做出情感決策,提高了模型的可靠性。然而,決策級融合也存在一些局限性。例如,各模態(tài)之間的相關(guān)性可能會被忽略,導致決策級融合的結(jié)果不夠全面。此外,決策級融合需要對不同模態(tài)的情感分析結(jié)果進行整合,這需要針對不同模態(tài)的分析結(jié)果進行加權(quán)處理,這種加權(quán)處理可能會存在一定的主觀性。因此,在實際應用中,決策級融合需要綜合考慮各種因素,確定最適合的融合方法。

      圖7 決策級融合框架Fig.7 Decision-level fusion framework

      文獻[65]提出了一種可靠的決策級多模態(tài)融合方法,該方法設(shè)置了一個決策規(guī)則,在決策層級上融合了音頻和視覺信息以識別情感,以此可以實現(xiàn)從人類語音和面部表情中以良好的性能自動識別情感狀態(tài)。文獻[66]提出了一種對從眼動儀收集的腦電圖(EEG)信號和瞳孔反應兩種數(shù)據(jù)進行決策級融合方法,該方法證明結(jié)合兩種生理信號進行決策級融合也能夠有效提高情感分析模型的性能。文獻[67]構(gòu)建了一種基于生理信號、均值閾值和決策級融合算法來識別人類情緒狀態(tài)。首先從腦電圖和外圍生理信號中選擇關(guān)鍵特征,并使用平均值方法獲得每個參與者的分類閾值,以區(qū)分個體差異。然后采用高斯樸素貝葉斯(GNB)、線性回歸(LR)、SVM 等分類方法進行情緒識別,實驗結(jié)果表明該算法對情感的分類效果優(yōu)于其他融合方法。文獻[68]提出了一個多模態(tài)情感分類框架,利用多通道生理信號,并引入了兩種關(guān)鍵技術(shù):混合特征提取和自適應決策融合,凸顯了開發(fā)自適應決策融合策略進行情感分類的重要性。

      3.1.3 混合融合

      混合融合方法是特征級融合和決策級融合的結(jié)合,它通過組合多個模型的特征和決策來獲得更好的性能,其流程如圖8所示,其特殊之處在于既包含特征融合也包含決策融合。相比于單一融合方法,混合融合方法可以更好地利用各個模型的優(yōu)勢,從而提高模型的準確性和魯棒性。由于混合融合方法需要考慮不同模型的特征和決策的融合方式,因此它的實現(xiàn)難度和模型復雜度都相對較高。同時,混合融合方法也需要更多的計算資源和時間,因此在實際應用中需要根據(jù)具體情況進行選擇和權(quán)衡。

      圖8 混合融合框架Fig.8 Hybrid fusion framework

      文獻[69]通過特征級融合和決策級融合這兩種多模態(tài)融合策略,實現(xiàn)了包含視頻和音頻信號的多模態(tài)情感分析系統(tǒng),展現(xiàn)了多模態(tài)情感分析系統(tǒng)性能的優(yōu)越性。文獻[70]提出了特征級-決策級融合的方法融合聲學特征和語義特征進行情感分析,首先將聲學特征與語義特征進行特征級融合,然后在結(jié)果之上進行決策級融合。文獻[71]提出了一種基于注意力機制神經(jīng)網(wǎng)絡(luò)的認知腦邊緣系統(tǒng)(HALCB)的層次化Attention-BiLSTM(bidirectional long-short term memory)模型,該模型可以在不同的分析階段使用不同的模態(tài)融合方法。

      3.1.4 模型級融合

      模型級融合[72]是一種不同于特征級融合和決策級融合的多模態(tài)融合方法。該方法通過建立適當?shù)哪P?,?lián)合學習不同模態(tài)之間的相關(guān)信息,而不需要探究各模態(tài)的重要程度。模型級融合可以將不同模態(tài)特征分別輸入到不同模型結(jié)構(gòu)再進行進一步特征提取,從而達到融合不同模態(tài)信息的目的。相比于特征級融合和決策級融合,模型級融合最大的優(yōu)勢在于可以靈活地選擇融合的位置。基于深度學習的數(shù)據(jù)融合便是模型級融合之一。

      一些研究表明,基于深度神經(jīng)網(wǎng)絡(luò)的模型級融合方法能夠顯著提高多模態(tài)數(shù)據(jù)的性能。例如,文獻[73]通過將堆疊的受限玻爾茲曼機展開成深度置信網(wǎng)絡(luò),將手工提取出來的腦電和眼動特征分別作為兩個玻爾茲曼機的輸入并從神經(jīng)網(wǎng)絡(luò)中學習兩種模式的共享表示。實驗結(jié)果表明,該方法能夠提高多模態(tài)數(shù)據(jù)的分類準確率。文獻[74]提出了分別針對音頻和視頻數(shù)據(jù)進行特征提取的新穎特征提取網(wǎng)絡(luò),并通過在模型級別上融合音頻和視頻特征來創(chuàng)建最優(yōu)多模態(tài)情感分析模型,該模型在RAVDESS 和SAVEE 兩種數(shù)據(jù)集上實現(xiàn)了高達99%和86%的預測準確率。

      3.2 模態(tài)對齊

      不同模態(tài)數(shù)據(jù)之間存在時間上的不一致性,導致難以對多模態(tài)數(shù)據(jù)進行有效地整合和利用。例如,在視頻中,一個人的語音和圖像信息是同步的,但是由于處理和傳輸?shù)难舆t,這兩種信息到達計算機的時間可能不同。為了利用多模態(tài)數(shù)據(jù),就需要將它們對齊到同一時間軸上[75],以便進行有效地整合和利用。

      多模態(tài)對齊可以采用多種方法,包括基于時間對齊、基于特征對齊、基于模型對齊等方法。其中,基于時間對齊是最簡單和常見的方法,即將不同模態(tài)的數(shù)據(jù)對齊到同一時間軸上;基于特征對齊是指將不同模態(tài)的特征對齊到同一時間軸上;基于模型對齊是指通過學習模型來對多模態(tài)數(shù)據(jù)進行對齊。

      3.3 多模態(tài)情感數(shù)據(jù)集

      隨著多模態(tài)情感分析的研究不斷深入,越來越多的研究人員開始關(guān)注多模態(tài)數(shù)據(jù)集的構(gòu)建和應用。多模態(tài)情感數(shù)據(jù)集多是來源于社交媒體發(fā)布的視頻、音頻以及評論等內(nèi)容,或是研究人員在實驗室所采集并開放的數(shù)據(jù)集。目前已經(jīng)有很多模態(tài)情感數(shù)據(jù)集被構(gòu)建出來,涵蓋了各種應用場景和語言文化。表1 列舉了當前經(jīng)常用于多模態(tài)情感研究與應用領(lǐng)域的數(shù)據(jù)集。

      表1 多模態(tài)情感數(shù)據(jù)集Table 1 Multimodal emotional datasets

      4 實驗

      為了比較單模態(tài)和多模態(tài)情感分析方法的性能,設(shè)計了一組對比實驗。實驗中,使用了A(音頻)、V(視頻)和T(文本)這3 種不同的模態(tài)數(shù)據(jù),并比較了它們在單模態(tài)和多模態(tài)情感分類任務(wù)上的表現(xiàn)。此實驗使用的是特征級融合。

      4.1 模型建立

      對于文本數(shù)據(jù),使用了一個嵌入層將文本序列轉(zhuǎn)換為向量表示,并通過兩個包含512、256 個隱藏單元的LSTM 層對序列進行建模,以捕捉文本之間的時序關(guān)系。然后,通過全連接層進行特征提取和情感分類。

      對于語音數(shù)據(jù),首先使用兩個LSTM層,兩個LSTM層分別有512、256 個隱藏單元,以對輸入序列進行建模,然后添加了Flatten層將卷積層輸出的特征圖展平成一維向量,以及包含512個神經(jīng)元的全連接層并應用了ReLU 激活函數(shù),最后添加了一個具有4 個神經(jīng)元的輸出層,用于多類別分類任務(wù)。

      對于視覺單模態(tài)數(shù)據(jù)的處理,設(shè)計了5組Block,每組Block 都由一個卷積層、一個Dropout 層以及一個激活函數(shù)層Activation 組成,增加了網(wǎng)絡(luò)的深度和非線性能力。最后一組Block 還添加了Flatten 層將卷積層輸出的特征圖展平成一維向量,以及256個神經(jīng)元的全連接層,最后添加了一個具有4 個神經(jīng)元的輸出層,用于多類別分類任務(wù)。

      特征融合則是將上述模型中全連接層的輸入特征進行concat(串聯(lián)),然后再使用全連接層對特征進行映射和轉(zhuǎn)換。

      4.2 實驗結(jié)果

      實驗所使用的是IEMOCAP數(shù)據(jù)集和RAVDESS數(shù)據(jù)集。分別將IEMOCAP數(shù)據(jù)集中的音頻、文本和表情數(shù)據(jù)作為輸入利用上面建立的模型進行特征提取和情感分類,得到的識別準確率如表2所示。

      表2 IEMOCAP數(shù)據(jù)集的單模態(tài)和多模態(tài)情感分析結(jié)果Table 2 Single modal and multimodal sentiment analysis results of IEMOCAP dataset

      IEMOCAP 和RAVDESS 數(shù)據(jù)集的情感分類實驗指標Accuracy和Recall對比如圖9所示。通過對比實驗的結(jié)果,可以觀察到單模態(tài)和多模態(tài)情感分析的差異。在IEMOCAP和RAVDESS數(shù)據(jù)集的實驗中,3種模態(tài)數(shù)據(jù)的單模態(tài)情感分析指標不論是準確率還是召回率都要低于多模態(tài)融合情感分析,而且3種模態(tài)融合的分類結(jié)果要比兩種模態(tài)融合更準確。

      圖9 情感分類實驗結(jié)果Fig.9 Experimental results of sentiment classification

      從實驗也能看出單模態(tài)數(shù)據(jù)中文本數(shù)據(jù)更能準確表達出情感信息,音頻數(shù)據(jù)次之,而且音頻和視頻兩種模態(tài)數(shù)據(jù)的融合相較于其他兩種模態(tài)數(shù)據(jù)融合更能準確反映出情感信息。不難看出多模態(tài)方法相對于單模態(tài)方法表現(xiàn)出更好的性能。圖10 展示了在IEMOCAP數(shù)據(jù)集上的3 種模態(tài)融合情感分類訓練中訓練和測試準確率的變化曲線圖。圖11 展示了在RAVDESS 數(shù)據(jù)集上的兩種模態(tài)融合情感分類訓練中訓練和測試準確率的變化曲線圖。

      圖10 IEMOCAP三模態(tài)融合情感分類準確率曲線Fig.10 Emotion classification accuracy curve for IEMOCAP dataset with fusion of three modalities

      圖11 RAVDESS雙模態(tài)融合情感分類準確率曲線Fig.11 Emotion classification accuracy curve for RAVDESS dataset with fusion of two modalities

      結(jié)果表明,多模態(tài)方法能夠利用不同模態(tài)之間的互補性,提供更全面和豐富的信息,從而改善情感分類的準確性。模態(tài)的融合可以幫助消除某個單一模態(tài)中的噪聲或缺失信息,并增強不同情感類別之間的對比度。此外,多模態(tài)方法還可以更好地處理數(shù)據(jù)缺失的情況,通過利用其他可用的模態(tài)信息填補缺失模態(tài)的信息。

      5 結(jié)語

      目前,生理信號的采集和分析技術(shù)仍存在一定的局限性,而隨著傳感器技術(shù)的不斷更新和發(fā)展,采集生理信號的傳感器的尺寸和重量將會不斷減小,在日常生活中的應用會更加廣泛,生理信號如腦電、皮膚電等的采集和分析精度和效率將會不斷提高,基于生理信號的情感分析技術(shù)將會迎來較快的發(fā)展,從而為多傳感器融合技術(shù)的發(fā)展提供更好的基礎(chǔ)。

      更多的傳感器數(shù)據(jù)會作為情感數(shù)據(jù)源進行情感分析。目前情感分析領(lǐng)域多數(shù)聚焦于語音、表情、文本以及生理信號的單模態(tài)數(shù)據(jù)或多模態(tài)融合的研究,較少研究會考慮身體姿態(tài)數(shù)據(jù)作為情感分析數(shù)據(jù)源。主要是因為身體姿態(tài)識別傳感器設(shè)備還不具有普適性和實時性,隨著身體姿態(tài)識別技術(shù)的發(fā)展和人體傳感器技術(shù)的進步,更廣泛的場景和設(shè)備應用,例如智能手機、可穿戴設(shè)備、虛擬現(xiàn)實設(shè)備等皆可作為人體姿態(tài)數(shù)據(jù)的采集設(shè)備,數(shù)據(jù)的實時性越來越高,身體姿態(tài)識別技術(shù)將得到更廣泛的應用,身體姿態(tài)作為一種重要的情感分析信息源,將在多模態(tài)情感領(lǐng)域發(fā)揮越來越重要的作用。液體傳感器也將會作為新的情感數(shù)據(jù)源對情感分析技術(shù)的發(fā)展起到一定作用。液體傳感器可以檢測人的汗液中的化學物質(zhì),例如皮質(zhì)醇和多巴胺,這些物質(zhì)與人的情緒狀態(tài)有關(guān)。通過檢測這些物質(zhì)的濃度變化,可以判斷一個人的情緒狀態(tài),例如焦慮、興奮或緊張。液體傳感器可以用于提供情感反饋,例如水的顏色和味道可以影響人的情緒狀態(tài)。液體傳感器可以監(jiān)測液體的化學和物理特性的變化,并調(diào)整水的味道和顏色以提供情感反饋。所以液體傳感器在情感分析中具有廣泛的應用前景,液體的傳感器數(shù)據(jù)也會作為模態(tài)之一豐富情感分析的研究領(lǐng)域。

      多模態(tài)情感分析技術(shù)能夠在多語言情感分析領(lǐng)域發(fā)揮其重要作用。例如,通過使用多個傳感器同時捕捉語音和面部表情數(shù)據(jù),可以更準確地識別多種語言中的情感狀態(tài)。此外,對于一些流行的語言(如英語、漢語、法語等),已經(jīng)存在大量的情感分析研究和數(shù)據(jù)集,這些數(shù)據(jù)可以用于如小語種、方言等多種語言的情感分析的研究和開發(fā)。

      對于多模態(tài)情感分析技術(shù),還有許多問題可以深入研究:(1)為了更好地評估模型的泛化能力,未來的多模態(tài)情感分析模型可以采用跨數(shù)據(jù)集的評估方式進行訓練,以便更好地適應不同的應用場景。(2)為了提高模型的泛化能力,未來的多模態(tài)情感分析模型可以利用無監(jiān)督或有監(jiān)督領(lǐng)域適應方法的能力,從而更好地適應不同的數(shù)據(jù)集和應用場景。(3)為了更好地處理非對齊的多模態(tài)數(shù)據(jù),未來的多模態(tài)情感分析模型應該具有對非對齊數(shù)據(jù)進行推斷的能力,從而更好地理解和識別情感。(4)為了更好地處理有噪聲或缺失模態(tài)的情況,未來的多模態(tài)情感分析模型應該具有對有噪聲或缺失模態(tài)進行推斷的能力,從而更好地識別情感。例如,可以利用多任務(wù)學習的方法,同時識別多個模態(tài)的情感信息,從而提高模型的魯棒性。

      猜你喜歡
      模態(tài)深度傳感器
      康奈爾大學制造出可拉伸傳感器
      深度理解一元一次方程
      簡述傳感器在物聯(lián)網(wǎng)中的應用
      電子制作(2019年22期)2020-01-14 03:16:52
      “傳感器新聞”會帶來什么
      傳媒評論(2019年5期)2019-08-30 03:50:18
      跟蹤導練(三)2
      深度觀察
      深度觀察
      深度觀察
      國內(nèi)多模態(tài)教學研究回顧與展望
      基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
      大庆市| 绥宁县| 南通市| 靖边县| 凤山县| 乌审旗| 翁牛特旗| 齐河县| 育儿| 双柏县| 麟游县| 墨江| 宣汉县| 镇康县| 西和县| 兴海县| 定西市| 祁连县| 布拖县| 正安县| 乐山市| 浏阳市| 庆元县| 石首市| 文水县| 澄迈县| 乡城县| 松原市| 神农架林区| 兰州市| 三原县| 东丰县| 东阳市| 田林县| 遵义县| 罗城| 治多县| 出国| 梁山县| 改则县| 大同市|