摘 要:現(xiàn)有的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在解決基于心電信號(hào)的情緒識(shí)別問題時(shí)主要使用全監(jiān)督的學(xué)習(xí)方法。這種方法的缺點(diǎn)在于需要大量的有標(biāo)簽數(shù)據(jù)和計(jì)算資源。同時(shí),全監(jiān)督方法學(xué)習(xí)到的特征表示通常只能針對(duì)特定任務(wù),泛化性較差。針對(duì)這些問題,提出了一種基于對(duì)比學(xué)習(xí)的心電信號(hào)情緒識(shí)別方法,該方法分為預(yù)訓(xùn)練和微調(diào)兩步。預(yù)訓(xùn)練的目的是從未標(biāo)記的心電數(shù)據(jù)中學(xué)習(xí)特征表示,具體為:設(shè)計(jì)了兩種簡單高效的心電信號(hào)增強(qiáng)方式,將原始數(shù)據(jù)通過這兩種數(shù)據(jù)增強(qiáng)轉(zhuǎn)換成兩個(gè)相關(guān)但不同的視圖;接著這兩種視圖在時(shí)間對(duì)比模塊中學(xué)習(xí)魯棒的時(shí)間特征表示;最后在上下文對(duì)比模塊中學(xué)習(xí)具有判別性的特征表示。微調(diào)階段則使用帶標(biāo)記數(shù)據(jù)來學(xué)習(xí)情緒識(shí)別任務(wù)。在三個(gè)公開數(shù)據(jù)集上的實(shí)驗(yàn)表明,該方法在心電信號(hào)情緒識(shí)別準(zhǔn)確率上與現(xiàn)有方法相比提高了0.21%~3.81%。此外,模型在半監(jiān)督設(shè)定場(chǎng)景中表現(xiàn)出高有效性。
關(guān)鍵詞:心電信號(hào); 情緒識(shí)別; 對(duì)比學(xué)習(xí); 自監(jiān)督學(xué)習(xí); 深度學(xué)習(xí); 生理信號(hào); 數(shù)據(jù)增強(qiáng); 自注意力機(jī)制
中圖分類號(hào):TP391文獻(xiàn)標(biāo)志碼: A文章編號(hào):1001-3695(2024)04-024-1123-08
doi:10.19734/j.issn.1001-3695.2023.07.0354
ECG-based emotion recognition based on contrastive learning
Long Jinyi1a,1b,2, Fang Jinglong1 Liu Siwei1 Wu Hanrui1 Zhang Jia1a
Abstract:The majority of current machine learning and deep learning solutions for ECG-based emotion recognition utilize fully-supervised learning methods. Several limitations of this approach are that large human-annotated datasets and computing resources are required. Furthermore, the feature representations learned by fully supervised methods tend to be task-specific with limited generalization capability. In response to these issues, this paper proposed an approach based on contrastive lear-ning for ECG-based emotion recognition, which consisted of two steps,such as pre-training and fine-tuning. The goal of pre-training was to learn representations from unlabeled EGG data through contrastive learning. Specifically, it designed two simple and efficient ECG signal augmentation methods, and used these two views to learn robust temporal representations in the time contrastive module, followed by learning discriminative feature representations in the context contrastive module. Fine-tuning used labelled data to learn emotion recognition. Experiments show that the proposed method has reached the maximum accuracy on three public ECG-based emotion recognition datasets. Additionally, the proposed method shows high efficiency under the semi-supervised settings.
Key words:electrocardiogram signal; emotion recognition; contrastive learning; self-supervised learning; deep learning; physiological signals; data augmentation; self-attention mechanism
0 引言
情緒是人對(duì)外界客觀事物的態(tài)度體驗(yàn)及其相應(yīng)的行為反映,情緒識(shí)別在許多場(chǎng)景中都非常有用[1]。例如:在醫(yī)學(xué)領(lǐng)域,其用于抑郁病人的壓力評(píng)估;在產(chǎn)品銷售領(lǐng)域,獲取用戶的情緒變化,有利于確定個(gè)人是否真的有興趣購買某種商品;在交通領(lǐng)域中,及時(shí)檢測(cè)司機(jī)的情緒狀態(tài)是避免事故發(fā)生的一種有效手段。
近年來,國內(nèi)外學(xué)者使用各種生理信號(hào)用于情緒識(shí)別,其中有面部表情[2]、心電圖(ECG)[3]、腦電圖(EEG)[4]、眼電圖(EOG)[4]和皮膚電反應(yīng)(GSR)[5]等。研究證明,在上述生理信號(hào)中,心電信號(hào)是用于人類情緒識(shí)別可靠且有效的信息來源,在識(shí)別和預(yù)測(cè)人類情緒方面具有很大的潛力[6]。
通常基于心電信號(hào)來實(shí)現(xiàn)情緒識(shí)別的方法有基于手工提取特征的傳統(tǒng)機(jī)器學(xué)習(xí)方法和基于自動(dòng)提取特征的先進(jìn)深度學(xué)習(xí)方法兩種。
基于手工提取特征和傳統(tǒng)的機(jī)器學(xué)習(xí)方法旨在通過心率變異性(HRV)分析來手工提取特征,然后使用傳統(tǒng)的機(jī)器學(xué)習(xí)方法對(duì)其分類。例如,Xu等人[3]收集了391名被試在不同情緒狀態(tài)下的ECG信號(hào),接著利用小波變換技術(shù)檢測(cè)P-QRS-T波 位置并提取了79個(gè)HRV相關(guān)特征,為了更好地分類,研究人員在分類前對(duì)特征進(jìn)行選擇。Hsu等人[6]利用聲音刺激誘發(fā)被試者的情緒,并收集心電圖數(shù)據(jù),提取時(shí)頻域特征。同時(shí),在逐步前向選擇-基于類別子集的特征選擇算法基礎(chǔ)上,提出了一種順序前向浮動(dòng)選擇內(nèi)核的類可分離性特征選擇算法,最后使用最小二乘支持向量機(jī)來對(duì)喚醒度和效價(jià)分?jǐn)?shù)分類。Healey等人[7]收集參與者完成駕駛?cè)蝿?wù)時(shí)的心電信號(hào)和壓力水平,然后從收集的心電信號(hào)中手動(dòng)提取時(shí)域和頻域特征,最后使用線性判別分析(LDA)進(jìn)行壓力等級(jí)分類。Subramanian等人[8]為了通過生理信號(hào)來實(shí)現(xiàn)情緒識(shí)別,在向被試者展示情感電影剪輯片段的同時(shí)記錄了心電圖數(shù)據(jù),接著計(jì)算HRV特征以及心率和連續(xù)心跳間間隔。使用支持向量機(jī)(SVM)和樸素貝葉斯(NB)來對(duì)這些手動(dòng)提取的特征在喚醒度(arousal)和效價(jià)分?jǐn)?shù)(valence)維度進(jìn)行分類。Sepúlveda等人[9]使用小波散射(wavelet scattering)算法從AMIGOS數(shù)據(jù)庫中提取心電信號(hào)的特征,然后使用分類器線性判別分析、決策樹(DT)、樸素貝葉斯、K最鄰近(KNN)、支持向量機(jī)對(duì)特征進(jìn)行分類以評(píng)估其性能,結(jié)果表明,使用小波變換提高了心電信號(hào)情緒識(shí)別的性能。Khan等人[10]利用從心電圖中獲得的心率變異性相關(guān)特征和特征選擇技術(shù)訓(xùn)練了多層感知器(MLP)、支持向量機(jī)、決策樹、梯度提升決策樹(GBDT)、邏輯回歸、Adaboost和Extra Tree分類器七個(gè)機(jī)器學(xué)習(xí)模型用于對(duì)情感狀態(tài)進(jìn)行分類。在DREAMER[11]和 SWELL[12]兩個(gè)公共數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,沒有特定的機(jī)器學(xué)習(xí)對(duì)所有數(shù)據(jù)效果都好。Extra Tree 分類器能夠在SWELL數(shù)據(jù)集上實(shí)現(xiàn)最佳性能,而對(duì)于DREAMER數(shù)據(jù)集,分類器取決于情感維度。總體來看,對(duì)于這種手工提取特征的傳統(tǒng)機(jī)器學(xué)習(xí)方法,往往需要人工設(shè)計(jì)特征,而這不僅需要領(lǐng)域?qū)I(yè)知識(shí)和經(jīng)驗(yàn),而且容易受到人為偏見的影響,從而限制了模型的泛化能力。
為了應(yīng)對(duì)上述傳統(tǒng)方法的缺點(diǎn),有學(xué)者將先進(jìn)的深度學(xué)習(xí)方法用于心電信號(hào)情緒識(shí)別任務(wù),使其可以端到端地學(xué)習(xí)到情緒分類的特征。例如,Santamaria-Granados等人[13]分別使用了AlexNet[14]和VGGNet[15]兩種深度卷積網(wǎng)絡(luò)(DCNN),直接將心電信號(hào)作為網(wǎng)絡(luò)的輸入對(duì)情感進(jìn)行分類。結(jié)果表明,與傳統(tǒng)的分類器相比,使用深度卷積神經(jīng)網(wǎng)絡(luò)在AGMIGOS數(shù)據(jù)集上取得了更好的效果。Kawde等人[16]提出了一種基于深度置信網(wǎng)絡(luò)和棧式自動(dòng)編碼器的深度學(xué)習(xí)網(wǎng)絡(luò),用于從心電圖信號(hào)等多種生理信號(hào)中提取特征,同時(shí)利用多通道卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征融合和分類,從而實(shí)現(xiàn)情緒識(shí)別。Dar等人[17]利用一維卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)(LSTM)[18]來建立情緒識(shí)別的深度模型,并利用兩個(gè)公開數(shù)據(jù)集中的心電圖等生理信號(hào)完成情緒識(shí)別任務(wù),最終取得了較好的效果。Chen等人[19]在基于生理信號(hào)情緒識(shí)別模型的研究中,使用了雙向長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(BiLSTM)[20]來對(duì)心電信號(hào)作特征提取,實(shí)驗(yàn)結(jié)果證明使用心電信號(hào)有助于準(zhǔn)確地識(shí)別人類情緒。Nita等人[21]為了應(yīng)對(duì)獲取大量且平衡的帶有情感標(biāo)注的心電信號(hào)困難的問題,采取了一種全新的數(shù)據(jù)增強(qiáng)策略,并結(jié)合了七層卷積神經(jīng)網(wǎng)絡(luò)模型。在DREAMER數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法提高了基于心電信號(hào)的情緒識(shí)別準(zhǔn)確率。由此可見,對(duì)于自動(dòng)提取特征的先進(jìn)深度學(xué)習(xí)方法而言,關(guān)鍵在于設(shè)計(jì)一個(gè)合適的特征提取網(wǎng)絡(luò),同時(shí)還需要足夠多的有標(biāo)注數(shù)據(jù)。
綜上所述,雖然這兩種基于心電信號(hào)來實(shí)現(xiàn)情緒識(shí)別的方法已經(jīng)取得了不錯(cuò)的效果,但仍然存在一定的局限性。一方面,現(xiàn)實(shí)生活中,獲取大規(guī)模標(biāo)記的心電情緒數(shù)據(jù)集不僅代價(jià)昂貴,還需要耗費(fèi)大量的時(shí)間和人力。另一方面,全監(jiān)督方法在訓(xùn)練時(shí)往往針對(duì)特定的任務(wù),這會(huì)導(dǎo)致學(xué)習(xí)到的特征表示泛化性差。因此,如何在不依賴標(biāo)簽的情況下從心電數(shù)據(jù)本身學(xué)習(xí)到魯棒性的特征表示,并將其用于情緒識(shí)別任務(wù)成為了迫切需要解決的問題。針對(duì)這些問題,自監(jiān)督對(duì)比學(xué)習(xí)方法被認(rèn)為是一種可行的方案。
近年來,自監(jiān)督學(xué)習(xí)在有效提取數(shù)據(jù)表征方面獲得了廣泛的關(guān)注[22],它可以在不依賴標(biāo)簽的情況下自動(dòng)從數(shù)據(jù)本身學(xué)到數(shù)據(jù)的有效表示。對(duì)比學(xué)習(xí)是自監(jiān)督學(xué)習(xí)的一種實(shí)現(xiàn)方式,它通過對(duì)比正負(fù)樣本的相似度,最小化正樣本對(duì)之間的距離,最大化負(fù)樣本對(duì)之間的距離,構(gòu)建數(shù)據(jù)的有效表示[23]。這在一定程度上可以緩解心電信號(hào)有情緒標(biāo)簽數(shù)據(jù)不足的問題。此外,由于對(duì)比學(xué)習(xí)關(guān)注數(shù)據(jù)之間的相對(duì)關(guān)系,而不是特定任務(wù)的細(xì)節(jié),從而使模型學(xué)習(xí)到的特征通常更具通用性。
受這些研究的啟發(fā),本文提出了一種基于對(duì)比學(xué)習(xí)的心電信號(hào)情緒識(shí)別方法。該方法基于心電信號(hào)的固有特征,在不依賴標(biāo)簽的情況下,心電數(shù)據(jù)本身學(xué)習(xí)到數(shù)據(jù)的高級(jí)有效表示,并將其用于下游情緒識(shí)別任務(wù)。具體而言,本文方法分為兩個(gè)階段。a)預(yù)訓(xùn)練階段設(shè)計(jì)使用了兩種簡單且高效的心電數(shù)據(jù)增強(qiáng)方式,然后使用全卷積神經(jīng)網(wǎng)絡(luò)(FCN)進(jìn)行特征提取,得到輸入樣本的兩個(gè)不同但相關(guān)的視圖。受文獻(xiàn)[24]啟發(fā),這兩個(gè)視圖隨后被用到兩個(gè)不同對(duì)比學(xué)習(xí)模塊。(a)時(shí)間對(duì)比模塊使用了一種交叉視圖預(yù)測(cè)任務(wù)來迫使模型學(xué)習(xí)魯棒的時(shí)間相關(guān)特征表示。具體實(shí)現(xiàn)為,對(duì)于某個(gè)特定的時(shí)間步長,它利用一個(gè)視圖的過去來預(yù)測(cè)另一個(gè)視圖的未來,從而執(zhí)行跨視圖預(yù)測(cè)任務(wù)。(b)在時(shí)間對(duì)比模塊可以分別得到兩個(gè)視圖融合了序列全局信息的上下文特征,這些特征將進(jìn)入上下文對(duì)比模塊,進(jìn)一步學(xué)習(xí)具有判別性的特征。在上下文對(duì)比模塊的目標(biāo)是最大化同一樣本的不同視圖上下文特征之間的相似性,同時(shí)最小化不同樣本之間的相似性。b)在預(yù)訓(xùn)練階段結(jié)束以后,利用有情緒標(biāo)注的數(shù)據(jù)微調(diào)特征提取網(wǎng)絡(luò),使其更適用于下游情緒識(shí)別任務(wù)。在三個(gè)公開數(shù)據(jù)集上的實(shí)驗(yàn)表明,所提方法與現(xiàn)有方法相比,在所有數(shù)據(jù)集上均有提高,證明了方法的有效性。
本文工作的主要貢獻(xiàn)如下:a)首次將對(duì)比學(xué)習(xí)方法引入到心電信號(hào)情緒識(shí)別這一問題中,提出了一種基于對(duì)比學(xué)習(xí)的心電信號(hào)情緒識(shí)別方法,減少了心電信號(hào)情緒識(shí)別任務(wù)中對(duì)標(biāo)簽的依賴程度;b)針對(duì)心電信號(hào)的固有特征,設(shè)計(jì)使用了兩種簡單且高效的心電數(shù)據(jù)增強(qiáng)方式,幫助模型有效地提取更加通用的特征,并用于情緒識(shí)別任務(wù),提高了模型的泛化能力。
1 基于對(duì)比學(xué)習(xí)的心電信號(hào)情緒識(shí)別方法
1.1 總體概述
本文方法主要包括兩個(gè)步驟:a)預(yù)訓(xùn)練階段,從無標(biāo)記心電數(shù)據(jù)中學(xué)習(xí)通用的特征表示;b)微調(diào)階段,使用有標(biāo)注的數(shù)據(jù)微調(diào)特征提取網(wǎng)絡(luò),將學(xué)習(xí)到的表征用于情緒識(shí)別任務(wù)。
方法總體框架如圖1所示,其中預(yù)訓(xùn)練階段主要包括心電數(shù)據(jù)增強(qiáng)(ECG augmentation)、特征提取(feature extraction)、時(shí)間對(duì)比(temporal contrasting)和上下文對(duì)比(contextual contrasting)四個(gè)模塊的訓(xùn)練學(xué)習(xí)。在微調(diào)階段,在特征提取網(wǎng)絡(luò)基礎(chǔ)上加一個(gè)多層感知機(jī)(MLP)和激活層作為分類模型,使用有標(biāo)記心電數(shù)據(jù)對(duì)此模型進(jìn)行全監(jiān)督訓(xùn)練,完成情緒識(shí)別任務(wù)。
1.2 心電數(shù)據(jù)增強(qiáng)與特征提取
首先,心電數(shù)增強(qiáng)模塊利用弱增強(qiáng)和強(qiáng)增強(qiáng)兩種增強(qiáng)方式,從原始心電數(shù)據(jù)中生成兩種不同但相關(guān)的視圖。其次,時(shí)間對(duì)比模塊通過設(shè)計(jì)一個(gè)艱巨的跨視圖預(yù)測(cè)任務(wù)來學(xué)習(xí)魯棒的特征表示,該任務(wù)在某個(gè)時(shí)間步長內(nèi),利用一種增強(qiáng)的過去潛在特征來預(yù)測(cè)另一種增強(qiáng)的未來。最后,為了進(jìn)一步學(xué)習(xí)區(qū)分性特征表示,在上下文對(duì)比模塊中,通過上下文對(duì)比損失來最大化正樣本對(duì)之間的相似度,最小化負(fù)樣本對(duì)之間的相似度。
對(duì)比學(xué)習(xí)的核心思想是最大化同一樣本的不同視圖之間的相似性,同時(shí)最小化它與其他樣本之間的相似性,從而期望模型學(xué)習(xí)到樣本更通用的特征表示。數(shù)據(jù)增強(qiáng)是對(duì)比學(xué)習(xí)方法成功的一個(gè)關(guān)鍵點(diǎn),不同的增強(qiáng)方式可能導(dǎo)致結(jié)果相差巨大[23]。因此選擇合適的數(shù)據(jù)增強(qiáng)方式對(duì)于對(duì)比學(xué)習(xí)非常關(guān)鍵。在計(jì)算機(jī)視覺領(lǐng)域,對(duì)圖像常用的數(shù)據(jù)增強(qiáng)方式有旋轉(zhuǎn)、縮放、修剪、水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)和顏色空間變換(隨機(jī)選擇通道像素失活)等[25,26]。這些簡單的數(shù)據(jù)增強(qiáng)方式往往很有效,然而,由于以下原因,這些基于圖像的數(shù)據(jù)增強(qiáng)方式可能無法很好地處理心電信號(hào)。首先,圖像的特征主要是空間特征不同,而心電信號(hào)是時(shí)間序列數(shù)據(jù),主要以時(shí)間依賴性為特征。因此直接將上述技術(shù)應(yīng)用于心電信號(hào)可能無法有效獲得數(shù)據(jù)的時(shí)間特征。其次,一些用于圖像的增強(qiáng)技術(shù),如顏色空間變換,無法很好地適應(yīng)心電信號(hào)這樣的時(shí)間序列數(shù)據(jù)。
到目前為止,關(guān)于時(shí)間序列數(shù)據(jù)的對(duì)比學(xué)習(xí)工作和時(shí)間序列數(shù)據(jù)增強(qiáng)方式的相關(guān)工作也較少。例如,文獻(xiàn)[27]開發(fā)了針對(duì)腦電信號(hào)的對(duì)比學(xué)習(xí)方法。然而,這種方法是針對(duì)腦電數(shù)據(jù)提出的,無法推廣到心電信號(hào)。因此本文設(shè)計(jì)了弱增強(qiáng)和強(qiáng)增強(qiáng)兩種不同的心電信號(hào)增強(qiáng)方式。使用這兩種增強(qiáng)有助于通過時(shí)間對(duì)比模塊中交叉預(yù)測(cè)任務(wù)更好地學(xué)習(xí)心電數(shù)據(jù)的魯棒特征表示。最終使用的弱增強(qiáng)是為信號(hào)增加高斯噪聲(Gauss noise),該增強(qiáng)方式僅僅只對(duì)信號(hào)的形狀上產(chǎn)生有限的變化,而強(qiáng)增強(qiáng)是一種縮放+排列(scale+permutation)操作,對(duì)信號(hào)的結(jié)構(gòu)和形狀產(chǎn)生較大的變化,更多的增強(qiáng)選擇過程和細(xì)節(jié)見2.6節(jié)。
本文的特征提取網(wǎng)絡(luò)使用的是全卷積網(wǎng)絡(luò),它可以從時(shí)間序列中提取特征并保持輸入數(shù)據(jù)的時(shí)序性。網(wǎng)絡(luò)使用三個(gè)連續(xù)的卷積塊(conv-block)作為特征提取器。每個(gè)卷積塊包括一個(gè)卷積層,后面接著一個(gè)batch normalization層、一個(gè)ReLU激活層和一個(gè)最大池化層。其中過濾器(filter)的數(shù)量分別是32、64、128,卷積核尺寸分別是25、8、8。每個(gè)最大池化層中過濾器和和步長都固定為2。另外,為了防止可能的過擬合,在第一個(gè)卷積塊后引入了10%的dropout。
這里使用余弦相似度來判斷各個(gè)向量之間的相似程度:sim( a,b)=a T b ‖ a‖ /‖ b ‖,其中 a、b 都是向量,τ為可調(diào)節(jié)的溫度系數(shù)。因此網(wǎng)絡(luò)最終的損失函數(shù)Ltotal為兩個(gè)時(shí)間對(duì)比損失和一個(gè)上下文對(duì)比損失的線性組合,公式如下:
其中:m為類別的數(shù)量;yi,c為第i個(gè)樣本屬于類別c的真實(shí)標(biāo)簽; i,c為樣本i屬于類別c的預(yù)測(cè)概率。
在每個(gè)訓(xùn)練批次中,計(jì)算所有樣本的交叉熵?fù)p失,然后使用反向傳播來計(jì)算梯度,并使用Adam[30]優(yōu)化器更新分類模型參數(shù)以最小化分類損失Lce。
綜上所述,本文基于對(duì)比學(xué)習(xí)的心電信號(hào)情緒識(shí)別方法訓(xùn)練過程如圖1,首先計(jì)算樣本在預(yù)訓(xùn)練階段的總損失Ltotal,通過最小化Ltotal來更新網(wǎng)絡(luò)參數(shù),在這個(gè)過程中,模型從心電數(shù)據(jù)中學(xué)會(huì)一般性的特征表示;接著在微調(diào)階段使用預(yù)訓(xùn)練時(shí)的特征提取網(wǎng)絡(luò)作為分類主模型,計(jì)算樣本的分類損失Lce并通過最小化Lce來更新模型參數(shù)。微調(diào)結(jié)束以后得到一個(gè)具有情緒識(shí)別能力的端到端模型。
1.6 算法步驟
2 實(shí)驗(yàn)及結(jié)果分析
2.1 實(shí)驗(yàn)數(shù)據(jù)集及預(yù)處理
本文選用AMIGOS、DREAMER和WESAD數(shù)據(jù)集三個(gè)公開數(shù)據(jù)集來評(píng)估模型性能。
AMIGOS數(shù)據(jù)集是一個(gè)用于個(gè)人和群體的情感、人格特征和情緒多模態(tài)研究的數(shù)據(jù)集[31]。該數(shù)據(jù)集包含40個(gè)參與者在兩個(gè)不同的實(shí)驗(yàn)設(shè)置中收集的包含心電信號(hào)在內(nèi)的其他各種生理信號(hào)。第一組實(shí)驗(yàn)中40名參與者觀看了16個(gè)250 s簡短的情感視頻,第二組實(shí)驗(yàn)中40名參與者觀看了4個(gè)超過14 min的情感視頻。實(shí)驗(yàn)過程中使用可穿戴式傳感器以256 Hz的采樣頻率記錄ECG數(shù)據(jù)。在每次實(shí)驗(yàn)后,每個(gè)被試對(duì)觀看的每個(gè)視頻根據(jù)情感狀態(tài)在連續(xù)的9分制上進(jìn)行自我評(píng)估,包括喚醒度和效價(jià)分?jǐn)?shù),評(píng)估值越大表示各項(xiàng)指標(biāo)越強(qiáng)。本文只選取第一組實(shí)驗(yàn)設(shè)置下的心電數(shù)據(jù),在喚醒度和效價(jià)分?jǐn)?shù)兩個(gè)維度上進(jìn)行二分類。
DREAMER數(shù)據(jù)集是一個(gè)多模式數(shù)據(jù)庫,該數(shù)據(jù)集包含23個(gè)參與者在觀看18個(gè)視頻片段時(shí)的腦電圖和ECG信號(hào)[11],以及參與者在每次刺激后對(duì)觀看的每個(gè)視頻根據(jù)情感狀態(tài)在連續(xù)的5分制上進(jìn)行自我評(píng)估,包括喚醒度和效價(jià)分?jǐn)?shù),評(píng)估值越大表示各項(xiàng)指標(biāo)越強(qiáng)。這些數(shù)據(jù)通過便攜式可穿戴式傳感器以256 Hz的采樣頻率收集,每次記錄時(shí)間為60 s。本文只使用該數(shù)據(jù)集的心電數(shù)據(jù),在喚醒度和效價(jià)分?jǐn)?shù)兩個(gè)維度上進(jìn)行五分類。
WESAD數(shù)據(jù)集是一個(gè)情緒分類多模態(tài)傳感器數(shù)據(jù)集[32],它包含來自15名參與者的心電圖數(shù)據(jù)。目標(biāo)是研究中性、壓力大、愉快和冥想四種不同的情感狀態(tài)。實(shí)驗(yàn)在四個(gè)場(chǎng)景下進(jìn)行。首先是正常階段,在此期間要求參與者進(jìn)行正?;顒?dòng),例如閱讀雜志和坐在/站在桌子旁,此階段持續(xù)20 min。然后是在娛樂場(chǎng)景中,參與者觀看了11個(gè)有趣的視頻片段,總時(shí)長為392 s。接下來,在壓力情景下,參與者完成了總共1 min的公開演講和算術(shù)任務(wù)。最后,參與者在實(shí)驗(yàn)人員的指導(dǎo)下進(jìn)行了7 min的冥想。每次階段實(shí)驗(yàn)完成后,使用正面和負(fù)面影響(PANAS)方案收集每個(gè)階段的標(biāo)簽。實(shí)驗(yàn)過程中使用RespiBAN Professional傳感器以700 Hz的采樣率收集ECG信號(hào)。本文只使用該數(shù)據(jù)集中的心電數(shù)據(jù)對(duì)四種情感狀態(tài)進(jìn)行四分類。
由于上述數(shù)據(jù)集是使用不同的硬件設(shè)備收集的,所以具有不同的屬性,例如數(shù)據(jù)持續(xù)時(shí)長和采樣率等。此外,為了消除采集過程中產(chǎn)生的噪聲和基線漂移,減少數(shù)據(jù)間的差異,對(duì)上述數(shù)據(jù)集采取了如下三個(gè)預(yù)處理步驟。首先,為了統(tǒng)一數(shù)據(jù)集中數(shù)據(jù)的采樣率,對(duì)WESAD數(shù)據(jù)集中數(shù)據(jù)下采樣到256 Hz;其次,為了消除所有三個(gè)數(shù)據(jù)集中的基線漂移,對(duì)所有的數(shù)據(jù)應(yīng)用通帶頻率為0.8 Hz的高通IIR濾波器;最后,對(duì)每個(gè)數(shù)據(jù)集各自采用z-score標(biāo)準(zhǔn)化。
在經(jīng)過上述的預(yù)處理后,處理后的ECG信號(hào)被分割為固定窗口大小為10 s的片段,同時(shí)為了避免訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)之間的數(shù)據(jù)泄漏,每個(gè)段之間沒有重疊。
2.2 參數(shù)設(shè)置和評(píng)價(jià)指標(biāo)
首先,將數(shù)據(jù)集隨機(jī)劃分為兩個(gè)部分,70%為訓(xùn)練集,30%為測(cè)試集,實(shí)驗(yàn)一共進(jìn)行了10次,結(jié)果取平均值。訓(xùn)練任務(wù)分為預(yù)訓(xùn)練和微調(diào)兩部分。預(yù)訓(xùn)練和微調(diào)部分的最大迭代次數(shù)MaxEpoch都設(shè)置為100,batchsize設(shè)置為128,使用初始值為3E-4、權(quán)重衰退為3E-4的Adam優(yōu)化器調(diào)整學(xué)習(xí)率,動(dòng)量因子β1為0.9,動(dòng)量因子β2為0.99。在數(shù)據(jù)增強(qiáng)模塊中,強(qiáng)增強(qiáng)部分,信號(hào)最大分割長度M=10,隨后進(jìn)行信號(hào)幅度放大的比例設(shè)置為0.8;弱增強(qiáng)部分,給原始信號(hào)添加的噪聲信噪比設(shè)置為15。對(duì)于兩種損失函數(shù)的權(quán)重系數(shù),λ1設(shè)置為1,λ2設(shè)置為1。對(duì)于使用的Transformer自回歸模型,encoder層數(shù)設(shè)置為4,多頭注意力頭數(shù)h設(shè)置為4,隱藏層特征維度設(shè)置為64。在上下文對(duì)比模塊中,對(duì)比損失函數(shù)中的溫度系數(shù)τ設(shè)置為0.2。模型使用NVIDIA GeForce RTX 3080 GPU進(jìn)行訓(xùn)練。
本文以分類準(zhǔn)確率(Acc)和F1宏平均(F1)作為評(píng)價(jià)指標(biāo)。Acc和F1的計(jì)算公式分別為
其中:TP是正樣本中分類正確的樣本數(shù);FP是正樣本中分類錯(cuò)誤的樣本數(shù);TN是負(fù)樣本中分類準(zhǔn)確的樣本數(shù);FN是負(fù)樣本中分類錯(cuò)誤的樣本數(shù)。
2.3 對(duì)比實(shí)驗(yàn)結(jié)果
為了測(cè)試模型在基于心電信號(hào)情緒分類上的性能,參考文獻(xiàn)[10,13,33],本文選用了五種傳統(tǒng)的基準(zhǔn)算法,同時(shí)還選取了四種近期效果較好的深度學(xué)習(xí)方法進(jìn)行對(duì)比實(shí)驗(yàn),以驗(yàn)證本文方法的有效性。具體對(duì)比方法如下:
a)傳統(tǒng)機(jī)器學(xué)習(xí)方法。支持向量機(jī)(SVM)[10]、樸素貝葉斯(NB)[33]、決策樹(DT)[10]、隨機(jī)森林(RF)[33]、K最鄰近(KNN)[33]。
b)深度學(xué)習(xí)方法。RNN-FCN[34]結(jié)合時(shí)間序列分類模型和基于循環(huán)神經(jīng)網(wǎng)絡(luò)和全卷積神經(jīng)網(wǎng)絡(luò)兩者之間的優(yōu)點(diǎn)來提高時(shí)間序列分類的準(zhǔn)確率和效率。RNN可以很好地學(xué)習(xí)時(shí)間序列之間的長期依賴關(guān)系,F(xiàn)CN則可以從時(shí)間序列數(shù)據(jù)中提取特征。ALSTM-FCN[34]在LSTM中添加了一個(gè)注意力層,使得模型既保留了LSTM的記憶能力[35],又減少了計(jì)算復(fù)雜度,更好地捕獲時(shí)間序列數(shù)據(jù)中的重要信息。同時(shí)采用了FCN的架構(gòu),從時(shí)間序列數(shù)據(jù)中提取特征,使得模型更具魯棒性。InceptionTime[36]是由Inception模塊和一維卷積組成的。Inception模塊是由多個(gè)不同大小的卷積核組成的,它能夠同時(shí)提取局部和全局的特征,從而提高模型的性能。此外,它還采用了一維卷積處理一維序列數(shù)據(jù),使其具有更少的參數(shù)和更快的計(jì)算速度。TS-TCC[24](基于自監(jiān)督學(xué)習(xí)的時(shí)間序列表示學(xué)習(xí)模型)的核心思想是通過兩種時(shí)間序列增強(qiáng)方法和兩種對(duì)比學(xué)習(xí)模塊從時(shí)間序列中學(xué)習(xí)特征表示。該方法在三個(gè)時(shí)間序列數(shù)據(jù)集上均取得了較好的結(jié)果。
各方法在三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表1所示,表中黑體數(shù)字表示最優(yōu)值。結(jié)果顯示,本文方法的分類性能優(yōu)于目前領(lǐng)先的心電信號(hào)情緒識(shí)別方法。所提方法在三個(gè)數(shù)據(jù)集上的分類準(zhǔn)確率提高了0.21%~3.81%。
從表1可以看出,四種深度學(xué)習(xí)的方法雖然可以在個(gè)別數(shù)據(jù)集上達(dá)到和本文方法相當(dāng)?shù)慕Y(jié)果,如InceptionTime在WESAD數(shù)據(jù)集上的結(jié)果,但在AMIGOS數(shù)據(jù)集上,該方法的性能不如大部分傳統(tǒng)的機(jī)器學(xué)習(xí)方法。說明這些深度學(xué)習(xí)時(shí)間序列分類方法并不能很好地適用于不同的數(shù)據(jù)集。此外可以看出,在數(shù)據(jù)量較小的數(shù)據(jù)集WESAD和AMIGOS上,傳統(tǒng)的機(jī)器學(xué)習(xí)方法往往可以表現(xiàn)出較優(yōu)的結(jié)果,而在數(shù)據(jù)較大的數(shù)據(jù)集DREAMER上,深度學(xué)習(xí)方法往往分類性能更好。最后,從表1可以發(fā)現(xiàn),對(duì)比方法中,機(jī)器學(xué)習(xí)方法的方差往往比深度學(xué)習(xí)要低,這說明了機(jī)器學(xué)習(xí)方法穩(wěn)定性普遍高于深度學(xué)習(xí)方法,而本文方法的方差可以和機(jī)器學(xué)習(xí)方法媲美,表明了方法的穩(wěn)定性。綜上,本文方法可以很好地從心電信號(hào)中學(xué)習(xí)到有用的特征,以用于情緒識(shí)別任務(wù),在分類準(zhǔn)確率上與現(xiàn)有方法對(duì)比都有不同程度的提高,同時(shí)具備高穩(wěn)定性,也說明了模型的泛化性較強(qiáng)。
2.4 消融實(shí)驗(yàn)結(jié)果
為了驗(yàn)證模型中的時(shí)間對(duì)比模塊、上下文對(duì)比模塊和強(qiáng)弱增強(qiáng)模塊對(duì)基于心電信號(hào)的情緒識(shí)別任務(wù)是有效的,在三個(gè)數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),結(jié)果如表2所示。
在表中,baseline表示僅使用上下文對(duì)比模塊中的對(duì)比損失,baseline+CPC表示在basline的基礎(chǔ)上加入時(shí)間對(duì)比模塊中沒有交叉預(yù)測(cè)任務(wù)的對(duì)比預(yù) 測(cè)編碼(contrastive predictive coding,CPC)[37],但此時(shí)每個(gè)視圖只對(duì)自身未來步長進(jìn)行預(yù)測(cè),weak only和strong only表示只使用弱增強(qiáng)和強(qiáng)增強(qiáng)的模型。
結(jié)果表示,相比baseline,在時(shí)間對(duì)比模塊中加入了交叉預(yù)測(cè)任務(wù)以后,模型在所有數(shù)據(jù)集上的性能都有不同程度的提升,這意味著交叉學(xué)習(xí)任務(wù)起到了提高模型分類性能的作用。加入上下文對(duì)比模塊以后,模型的性能進(jìn)一步得到了提升。最后可以證明,只使用一種數(shù)據(jù)增強(qiáng)的模型分類性能都不如同時(shí)使用兩種增強(qiáng),而且可以發(fā)現(xiàn),強(qiáng)增強(qiáng)在AMIGOS和WESAD數(shù)據(jù)集上對(duì)模型的性能提升作用大于弱增強(qiáng)。
2.5 強(qiáng)弱增強(qiáng)的有效性
由于對(duì)比學(xué)習(xí)方法對(duì)數(shù)據(jù)增強(qiáng)方式十分敏感,所以選擇合適的增強(qiáng)方式至關(guān)重要。目標(biāo)是為本文研究的基于對(duì)比學(xué)習(xí)的心電信號(hào)情緒識(shí)別方法選擇合適的增強(qiáng)方式。
為了從原始心電信號(hào)中得到兩種不同的增強(qiáng)視圖,本文的目的是選擇選擇一種合適的弱增強(qiáng)方式和強(qiáng)增強(qiáng)方式。這里本文將弱增強(qiáng)定義為僅僅只對(duì)原始信號(hào)的形狀上產(chǎn)生有限的變化的增強(qiáng)方式,具體實(shí)現(xiàn)為信號(hào)增加一定信噪比(SNR)的高斯噪聲(Gauss noise)、縮放(scale)、垂直翻轉(zhuǎn)(negation)、時(shí)間翻轉(zhuǎn)(time shift)、隨機(jī)時(shí)間拉伸(time warp),而強(qiáng)增強(qiáng)則是對(duì)信號(hào)的結(jié)構(gòu)和形狀產(chǎn)生較大的變化,如隨機(jī)排列(permutation)以及permutation和各種弱增強(qiáng)的組合。
如表3,在WESAD數(shù)據(jù)集上分析了兩種增強(qiáng)方式的選擇過程。首先本文依次使用所有的弱增強(qiáng),一個(gè)視圖上依次使用一種弱增強(qiáng)方式,另一個(gè)視圖則沒有應(yīng)用任何增強(qiáng)。此時(shí)準(zhǔn)確率最高為77.88%,在弱增強(qiáng)為增加Gauss noise時(shí)取得。然后,在僅使用permutation作為強(qiáng)增強(qiáng),不應(yīng)用弱增強(qiáng)時(shí),得到的預(yù)測(cè)準(zhǔn)確率比單獨(dú)只用任何一種弱增強(qiáng)獲得的結(jié)果都要高,此時(shí)為79.14%。接著,在將permutation和增加Gauss noise分別作為強(qiáng)弱增強(qiáng)時(shí),模型的預(yù)測(cè)準(zhǔn)確率進(jìn)一步得到了提升。最后,本文固定增加Gauss noise為弱增強(qiáng),設(shè)計(jì)組合了另外四種強(qiáng)增強(qiáng)方式,以獲得最適用心電信號(hào)的增強(qiáng)方式。最終結(jié)果表明,在使用增加Gauss noise作為弱增強(qiáng),scale+permutation作為強(qiáng)增強(qiáng)時(shí),模型取得了最好的結(jié)果,為83.96%。
如圖3,原始心電信號(hào)在經(jīng)過弱增強(qiáng)以后,得到的心電信號(hào)被加了高斯噪聲,這種變換非常類似在采集心電信號(hào)時(shí),由于環(huán)境影響或者儀器問題加入的噪聲。而強(qiáng)增強(qiáng)對(duì)原始心電信號(hào)進(jìn)行縮放操作,這與傳感器和皮膚導(dǎo)電等影響對(duì)心電信號(hào)的幅度進(jìn)行縮放操作類似。因此,在對(duì)比學(xué)習(xí)中使用這些增強(qiáng)可以幫助模型有效地提取更加通用的特征,并泛化到模型沒有見過的數(shù)據(jù)中[38]。
2.6 半監(jiān)督訓(xùn)練的有效性
為了測(cè)試本文方法在半監(jiān)督條件設(shè)定下的性能,展示對(duì)比學(xué)習(xí)方法在少標(biāo)簽樣本情況下的優(yōu)勢(shì),實(shí)驗(yàn)分別隨機(jī)使用1%、10%、25%、50%、75%的訓(xùn)練集數(shù)據(jù)來微調(diào)預(yù)訓(xùn)練好的模型。圖4是使用半監(jiān)督條件下微調(diào)模型和全監(jiān)督訓(xùn)練下的結(jié)果對(duì)比圖。結(jié)果表明,在使用同樣數(shù)據(jù)量的情況下,本文所使用的自監(jiān)督方法在分類準(zhǔn)確率上都高于全監(jiān)督訓(xùn)練。此外,可以發(fā)現(xiàn),雖然對(duì)比學(xué)習(xí)方法使用有標(biāo)簽的數(shù)據(jù)量少于全監(jiān)督方法,但是模型的分類準(zhǔn)確率依然可以和全監(jiān)督方法相當(dāng)甚至更高。例如在WESAD中,本文方法在利用25%的訓(xùn)練數(shù)據(jù)情況下的分類性能高于使用了75%訓(xùn)練數(shù)據(jù)的全監(jiān)督方法。對(duì)AMIGOS數(shù)據(jù)集的喚醒度和效價(jià)分?jǐn)?shù)進(jìn)行分類時(shí),對(duì)比方法在利用25%的訓(xùn)練數(shù)據(jù)情況下的分類性能和使用了50%訓(xùn)練數(shù)據(jù)的全監(jiān)督方法相當(dāng)。這充分說明了對(duì)比方法在使用有限少量標(biāo)簽數(shù)據(jù)的情況下提高了數(shù)據(jù)效率,降低了標(biāo)簽成本以及方法的通用性等優(yōu)勢(shì)。
2.7 超參分析
本文考慮了一些超參數(shù)對(duì)模型性能的影響,在WESAD數(shù)據(jù)集中分析了時(shí)間對(duì)比模塊中預(yù)測(cè)的未來時(shí)間步長數(shù)K、式(5)中的λ1和λ2、數(shù)據(jù)增強(qiáng)模塊中對(duì)信號(hào)增強(qiáng)噪聲信噪比SNR、信號(hào)縮放程度scale ratio和最大分割長度對(duì)實(shí)驗(yàn)結(jié)果的影響。預(yù)測(cè)的未來時(shí)間步長數(shù)K對(duì)實(shí)驗(yàn)結(jié)果的影響如圖5(a)所示。橫坐標(biāo)表示預(yù)測(cè)的步長數(shù)占特征長度的百分比,可以看到,隨著預(yù)測(cè)的未來時(shí)間步長數(shù)增加,模型的分類性能也在不斷上升,然而達(dá)到40%以后,模型的性能開始直線下降,這說明此時(shí)更長的預(yù)測(cè)步長數(shù)影響了自回歸模型的有效訓(xùn)練。因此將值設(shè)置為特征長度的40%。
λ1和λ2分別影響時(shí)間對(duì)比模塊中的兩個(gè)損失和上下文對(duì)比損失在總損失的占比,圖5(b)(c)中可見模型分類準(zhǔn)確率隨著λ1和λ2在0.001~1 000變化的曲線圖。首先固定λ2值為1,改變?chǔ)?的值。可以發(fā)現(xiàn),在λ1值取1時(shí)模型取得了最優(yōu)性能。接著,固定λ1值為1,對(duì)λ2的值進(jìn)行改變,此時(shí)發(fā)現(xiàn)λ2也在取1時(shí)模型獲得了最優(yōu)性能。因此,將λ1和λ2都設(shè)置為1。除此之外,還發(fā)現(xiàn)λ1在小于1時(shí),參數(shù)的變化對(duì)結(jié)果較大于1時(shí)更加敏感,而λ2對(duì)模型性能的影響與λ1剛好相反。
SNR值為弱增強(qiáng)中加噪信號(hào)的信噪比,值越大說明信號(hào)中加的噪聲越大。如圖5(d),隨著SNR值越來越大,模型通過對(duì)比學(xué)習(xí)到的信息逐漸增加,性能逐漸提高,當(dāng)SNR=15時(shí),模型的分類準(zhǔn)確率達(dá)到最高,而當(dāng)SNR值繼續(xù)增加,增強(qiáng)的信號(hào)和原始信號(hào)相差過大,導(dǎo)致失去了一些有利于模型情緒識(shí)別的信息,使模型的性能開始逐漸下降。同時(shí),在圖5(e)(f)中呈現(xiàn)出與SNR類似的趨勢(shì),分別在取0.8和10時(shí)模型獲取最優(yōu)性能。這再一次說明了選擇合適的數(shù)據(jù)增強(qiáng)方式對(duì)于對(duì)比學(xué)習(xí)模型成功起到了至關(guān)重要的作用。
3 結(jié)束語
在利用心電信號(hào)識(shí)別被試情緒的任務(wù)中,為了解決數(shù)據(jù)中標(biāo)簽稀少的問題,本文實(shí)現(xiàn)了一個(gè)基于對(duì)比學(xué)習(xí)的心電信號(hào)情緒識(shí)別方法。首先,在心電數(shù)據(jù)增強(qiáng)模塊設(shè)計(jì)了兩種簡單且高效的心電信號(hào)增強(qiáng)方法;然后,在時(shí)間對(duì)比模塊中使用了時(shí)間序列預(yù)測(cè)任務(wù)來提取數(shù)據(jù)情緒相關(guān)特征;最后將融合了歷史時(shí)序信息的上下文特征向量映射到一個(gè)可運(yùn)用對(duì)比的空間,使用兩種對(duì)比損失來優(yōu)化模型。實(shí)驗(yàn)結(jié)果表明,本文模型在三個(gè)公開心電信號(hào)情緒識(shí)別數(shù)據(jù)集上都取得了較高的分類準(zhǔn)確率,證明了該方法的有效性。此外,在半監(jiān)督設(shè)定場(chǎng)景中,該方法也表現(xiàn)出了高有效性,這意味著可以通過利用少量的標(biāo)記數(shù)據(jù)和大量的未標(biāo)記數(shù)據(jù)來訓(xùn)練模型,從而在實(shí)踐中更加實(shí)用。綜上,該方法為解決基于心電信號(hào)的情緒識(shí)別問題提供了一種新的思路和解決方案。今后將探索更加簡單高效的自監(jiān)督模型來解決心電信號(hào)情緒識(shí)別任務(wù),提高模型分類性能和速度。
參考文獻(xiàn):
[1]鄧欣, 高峰星, 米建勛, 等. 基于稀疏表示的腦電(EEG)情感分類[J]. 計(jì)算機(jī)應(yīng)用研究, 2019, 36 (3): 801-806. (Deng Xin, Gao Fengxing, Mi Jianxun,et al.Classifying emotional EEG using sparse representation method[J].Application Research of Computers , 2019, 36 (3): 801-806.)
[2]程艷, 蔡壯, 吳剛, 等. 結(jié)合自注意力特征過濾分類器和雙分支GAN的面部表情識(shí)別[J]. 模式識(shí)別與人工智能, 2022, 35 (3): 243-253. (Cheng Yan, Cai Zhuang, Wu Gang,et al.Facial expression recognition combining self-attention feature filtering classifier and two-branch GAN[J].Pattern Recognition and Artificial Intelligence , 2022,35 (3): 243-253.)
[3]Xu Y Liu G Y. A method of emotion recognition based on ECG signal[C]//Proc of International Conference on Computational Intelligence and Natural Computing. Piscataway, NJ: IEEE Press, 2009: 202-205.
[4]Zhang Guangyi, Etemad A. Capsule attention for multimodal EEG and EOG spatiotemporal representation learning with application to driver vigilance estimation[J].IEEE Trans on Neural Systems and Rehabilitation Engineering , 2019,29 : 1138-1149.
[5]Wu Guanghu Liu Guangyuan, Hao Min. The analysis of emotion recognition from GSR based on PSO[C]//Proc of International Symposium on Intelligence Information Processing and Trusted Computing. Piscataway, NJ: IEEE Press, 2010: 360-363.
[6]Hsu Y L, Wang J S, Chiang W C,et al.Automatic ECG-based emotion recognition in music listening[J].IEEE Trans on Affective Computing , 2017, 11 (1): 85-99.
[7]Healey J Picard R W. Detecting stress during real-world driving tasks using physiological sensors[J].IEEE Trans on Intelligent Transportation Systems,2005, 6 (2): 156-166.
[8]Subramanian R, Wache J, Abadi M K,et al.ASCERT-AIN: emotion and personality recognition using commercial sensors[J].IEEE Trans on Affective Computing , 2016, 9 (2): 147-160.
[9]Sepúlveda Castillo F, Palma C,et al.Emotion recognition from ECG signals using wavelet scattering and machine learning[J]. App-lied Sciences , 2021,11 (11): 4945.
[10]Khan C M T, Ab Aziz N Raja J E,et al.Evaluation of machine learning algorithms for emotions recognition using electrocardiogram[J].Emerging Science Journal , 2022, 7 (1): 147-161.
[11]Katsigiannis S, Ramzan N. DREAMER: a database for emotion re-cognition through EEG and ECG signals from wireless low-cost off-the-shelf devices[J].IEEE Journal of Biomedical and Health Informatics,2017,22 (1): 98-107.
[12]Koldijk S, Sappelli M, Verberne S,et al.The swell knowledge work dataset for stress and user modeling research[C]//Procs of the 16th International Conference on Multimodal Interaction. New York: ACM Press, 2014: 291-298.
[13]Santamaria-Granados L, Munoz-Organero M, Ramirez-Gonzalez G,et al.Using deep convolutional neural network for emotion detection on a physiological signals dataset[J].IEEE Access , 2018, 7 : 57-67.
[14]Krizhevsky Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60 (6): 84-90.
[15]Simonyan K, Zisserman A. Very deep convolutional networks for largescale image recognition[EB/OL]. (2014-09-04). https://arxiv.org/abs/1409.1556.
[16]Kawde P, Verma G K. Multimodal affect recognition in VAD space using deep learning[C]//Proc of International Conference on Smart Technologies for Smart Nation. Piscataway, NJ: IEEE Press, 2017: 890-895.
[17]Dar M N, Akram M U, Khawaja S G,et al.CNN and LSTM-based emotion charting using physiological signals[J].Sensors , 2020,20 (16): 4551.
[18]Hochreiter S, Schmidhuber J. Long short-term memory[J].Neural Computation , 1997, 9 (8): 1735-1780.
[19]Chen Tian, Yin Hongfang, Yuan Xiaohui,et al.Emotion recognition based on fusion of long short-term memory networks and SVMs[J].Digital Signal Processing , 202 117 : 103153.
[20]Huang Zhiheng, Xu Wei, Yu Kai. Bidirectional LSTM-CRF models for sequence tagging[EB/OL]. (2015-08-09). https://arxiv.org/abs/1508.01991.
[21]Nita S, Bitam S, Heidet M,et al.A new data augmentation convolutional neural network for human emotion recognition based on ECG signals[J].Biomedical Signal Processing and Control , 2022,75 : 103580.
[22]Liu Xiao, Zhang Fanjin, Hou Zhenyu,et al.Self-supervised lear-ning: generative or contrastive[J].IEEE Trans on Knowledge and Data Engineering,2021,35 (1): 857-876.
[23]Chen Ting, Kornblith S, Norouzi M,et al.A simple framework for contrastive learning of visual representations[C]//Proc of the 37th International Conference on Machine Learning. [S.l.]: JMLR.org, 2020: 1597-1607.
[24]Eldele E, Ragab M, Chen Zhenghua,et al.Time-series representation learning via temporal and contextual contrasting[EB/OL]. (2021-06-26). https://arxiv.org/abs/2106.14112.
[25]Zoph B, Cubuk E D, Ghiasi G,et al.Learning data augmentation strategies for object detection[M]// Vedaldi Bischof H, Brox T, et al. Computer Vision. Cham: Springer, 2020: 566-583.
[26]謝有慶, 何濤, 邱捷. 基于分?jǐn)?shù)階微分的電力系統(tǒng)有霧圖像增強(qiáng)研究[J]. 廣東電力, 2020,33 (9): 129-137. (Xie Youqing, He Tao, Qiu Jie. Research on foggy image enhancement in power system based on fractional differential[J].Guangdong Electric Power , 2020,33 (9): 129-137.)
[27]Mohsenvand M N, Izadi M R, Maes P. Contrastive representation learning for electroencephalogram classification[C]//Proc of Machine Learning for Health NeurIPS Workshop.[S.l.]: PMLR, 2020: 238-253.
[28]Vaswani Shazeer N, Parmar N,et al.Attention is all you need[C]//Advances in Neural Information Processing Systems. Red Hook,NY:Curran Associate Inc., 2017:6000-6010.
[29]Devlin J, Chang Mingwei, Lee K,et al.BERT: pretraining of deep bidirectional transformers for language understanding[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2019: 4171-4186.
[30]Kingma D P, Ba J. Adam: a method for stochastic optimization[EB/OL]. (2014-12-22). https://arxiv.org/abs/1412.6980.
[31]Miranda-Correa J Abadi M K, Sebe N,et al.AMIGOS: a dataset for affect, personality and mood research on individuals and groups[J].IEEE Trans on Affective Computing,2018, 12 (2): 479-493.
[32]Schmidt P, Reiss Duerichen R,et al.Introducing WESAD, a multimodal dataset for wearable stress and affect detection[C]//Proc of the 20th ACM International Conference on Multimodal Interaction. New York: ACM Press, 2018: 400-408.
[33]Ismail S N M S, Aziz N A Ibrahim S Z. A comparison of emotion recognition system using electrocardiogram(ECG) and photoplethysmogram(PPG)[J].Journal of King Saud University-Computer and Information Sciences , 2022,34 (6): 3539-3558.
[34]Karim F, Majumdar S, Darabi H,et al.Multivariate LSTM-FCNs for time series classification[J].Neural Networks , 2019,116 : 237-245.
[35]陸世豪, 祝云, 周振茂. 基于多頭注意力循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的電力設(shè)備缺陷文本分類方法[J]. 廣東電力, 2021,34 (6): 30-38. (Lu Shihao, Zhu Yun, Zhou Zhenmao. Text classification model of power equipment defects based on multi-h(huán)ead attention RCNN[J].Guangdong Electric Power,2021,34 (6): 30-38.)
[36]Ismail Fawaz H, Lucas B, Forestier G,et al.InceptionTime: finding AlexNet for time series classification[J].Data Mining and Know-ledge Discovery,2020,34 (6): 1936-1962.
[37]Oord Li Yazhe, Vinyals O. Representation learning with contrastive predictive coding[EB/OL]. (2018-07-10). https://arxiv.org/abs/1807.03748.
[38]Soltanieh S, Etemad Hashemi J. Analysis of augmentations for contrastive ECG representation learning[C]//Proc of International Joint Conference on Neural Networks. Piscataway, NJ: IEEE Press, 2022: 1-10.
收稿日期:2023-07-25;修回日期:2023-09-28基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(62276115);廣東省中醫(yī)藥信息化重點(diǎn)實(shí)驗(yàn)室資助項(xiàng)目(2021B1212040007)
作者簡介:龍錦益(1983—),男,廣東湛江人,教授,博導(dǎo),博士,CCF會(huì)員,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、腦機(jī)交互與融合、非侵入式神經(jīng)調(diào)控與運(yùn)動(dòng)功能輔助康復(fù);方景龍(1999—),男,安徽銅陵人,碩士研究生,主要研究方向?yàn)榍榫w識(shí)別、生理信號(hào)、深度學(xué)習(xí);劉斯為(1995—),男,廣東廣州人,博士研究生,主要研究方向?yàn)槟X機(jī)接口、深度學(xué)習(xí)、機(jī)器學(xué)習(xí);吳漢瑞(1990—),男,廣東惠來人,副教授,碩導(dǎo),博士,主要研究方向?yàn)檫w移學(xué)習(xí)、圖學(xué)習(xí);張佳(1991—),男(通信作者),湖南衡陽人,講師,碩導(dǎo),博士,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、智能人機(jī)交互(jiazhang@jnu.edu.cn).