摘 要:抑郁癥是一種廣泛而嚴重的心理健康障礙,需要早期檢測以便進行有效的干預(yù)。因為跨模態(tài)之間存在的信息冗余和模態(tài)間的異質(zhì)性,集成音頻和文本模態(tài)的自動化抑郁癥檢測是一個具有挑戰(zhàn)性但重要的問題,先前的研究通常未能充分地明確學(xué)習(xí)音頻-文本模態(tài)的相互作用以用于抑郁癥檢測。為了解決這些問題,提出了基于跨模態(tài)特征重構(gòu)與解耦網(wǎng)絡(luò)的多模態(tài)抑郁癥檢測方法(CFRDN)。該方法以文本作為核心模態(tài),引導(dǎo)模型重構(gòu)音頻特征用于跨模態(tài)特征解耦任務(wù)。該框架旨在從文本引導(dǎo)重構(gòu)的音頻特征中解離共享和私有特征,以供后續(xù)的多模態(tài)融合使用。在DAIC-WoZ和E-DAIC數(shù)據(jù)集上進行了充分的實驗,結(jié)果顯示所提方法在多模態(tài)抑郁癥檢測任務(wù)上優(yōu)于現(xiàn)有技術(shù)。
關(guān)鍵詞:多模態(tài);抑郁癥檢測;特征重構(gòu);特征解耦;特征融合
中圖分類號:TP391"" 文獻標志碼:A
文章編號:1001-3695(2025)01-032-0236-06
doi:10.19734/j.issn.1001-3695.2024.05.0206
Multi-modal depression detection method based on cross-modal feature reconstruction and decoupling network
Abstract:Depression is a widespread and severe mental health disorder,and requires early detection for effective intervention.Automated depression detection that integrates audio and text modalities addresses the challenges posed by information redundancy and modality heterogeneity.Previous studies often fail to capture the interaction between audio and text modalities for effective depression detection.To overcome these limitations,this study proposed a multi-modal depression detection method based on cross-modal feature reconstruction and a decoupling network (CFRDN).The method used text as the core modality,guiding the model to reconstruct audio features for cross-modal feature decoupling tasks.The framework separated shared and private features from the text-guided reconstructed audio features for subsequent multimodal fusion.Extensive experiments on the DAIC-WoZ and E-DAIC datasets demonstrate that the proposed method outperforms state-of-the-art approaches in multimodal depression detection tasks.
Key words:multimodal;depression detection;feature reconstruction;feature decoupling;feature fusion
0 引言
抑郁癥是一種全球性的心理健康問題,嚴重影響了個體的家庭、工作和生活等方面。在嚴重情況下,抑郁癥通常會導(dǎo)致高自殺率[1]。目前,診斷抑郁癥主要依賴于患者自我報告問卷和醫(yī)生訪談的臨床評估,如患者健康問卷(PHQ)[2]和漢密爾頓抑郁量表(HAMD)[3]。然而,這些方法容易受到訪談?wù)叩慕?jīng)驗、所提問題和患者意愿的影響,具有較高的不確定性和主觀性[4]。因此,迫切需要開發(fā)自動和客觀的診斷方法,以便更早地檢測和治療抑郁癥。多模態(tài)抑郁癥檢測是一個新興的研究領(lǐng)域,近年來受到了越來越多的關(guān)注。它旨在利用文本和音頻信號等多種模態(tài)來檢測和評估抑郁癥,通過結(jié)合不同模態(tài)的互補性質(zhì),增強抑郁癥檢測系統(tǒng)的有效性。盡管深度學(xué)習(xí)技術(shù)取得了顯著進展,自動化的多模態(tài)抑郁癥檢測依然面臨挑戰(zhàn),因為各模態(tài)之間存在信息冗余和異質(zhì)性。
早期研究[5]表明,抑郁癥會影響個體在訪談中的語言內(nèi)容。特別是,抑郁患者比健康個體更可能使用帶有負面情感的語言,如“我不應(yīng)該…”和“我想死”等。近年來已經(jīng)探索了基于深度學(xué)習(xí)的文本抑郁分析方法[6,7]。Li等人[7]提出了一種用于檢測臨床訪談記錄中抑郁癥的異構(gòu)圖注意力神經(jīng)網(wǎng)絡(luò)。Ilias等人[6] 開展了首個在社交媒體中進行抑郁和壓力檢測任務(wù)的研究,將額外的語言信息注入到基于Transformer的模型中,即雙向編碼器表示Transformers和MentalBERT。張亞洲等人[8]提出了一種結(jié)合RoBERTa與BiLSTM的模型,通過充分利用上下文特征來提高抑郁癥文本檢測的準確性。
近年來,采用音頻信號作為客觀指標用于抑郁癥的自動診斷,備受研究者關(guān)注。早期的工作[9]集中在提取手工制作的聲學(xué)特征,如低級描述符(LLDs)。典型的聲學(xué)特征包括能量、強度、過零率、共振峰、梅爾頻率倒譜系數(shù)(MFCCs)等。然而,這些常見的手工制作特征并未專門針對抑郁癥障礙進行定制,因此在音頻抑郁癥檢測任務(wù)中應(yīng)用受限[10]。隨著深度學(xué)習(xí)的進展,各種深度學(xué)習(xí)算法已被廣泛用于自動學(xué)習(xí)與抑郁癥檢測高度相關(guān)的音頻特征集。典型的深度學(xué)習(xí)模型包括注意力殘差模型[11]、DepAudioNet[12]、卷積自編碼器[13]、DEPA[14]、DALF[15]、WavDepressionNet[16]、時空特征網(wǎng)絡(luò)(STFN)[17]等。
文本模態(tài)通常比音頻模態(tài)具有更加穩(wěn)定和明確的語義信息[18]。在自然語言處理中,文本的語義信息更容易提取和理解[19],而音頻信號可能會受到各種噪聲和干擾的影響,從而使得特征提取變得更加困難[20]。與單一的文本或音頻分析方法相比,融合多模態(tài)信息可以顯著提高整體抑郁檢測性能[21]。文本和音頻在表達情感和心理狀態(tài)方面具有互補性,文獻[22,23]討論了融合音頻與文本模態(tài)以提高抑郁癥檢測的效果。由于多模態(tài)間存在信息冗余和異質(zhì)性,不同模態(tài)的特征可以分為共享特征和私有特征[24]。首先,多種模態(tài)可能傳達一些共享的語義線索,這些共享特征代表了不同模態(tài)中反映相似情感和心理狀態(tài)的信息,即共享特征。其次,每種模態(tài)都有其獨特的語義線索,這些私有特征是每個模態(tài)獨有的,不會在其他模態(tài)中重復(fù)出現(xiàn),即私有特征。然而,現(xiàn)有研究通常未區(qū)分共享特征和私有特征,而是將每種模態(tài)的語義特征視為一個統(tǒng)一的整體[21,22]。這種方法未能充分學(xué)習(xí)音頻和文本模態(tài)之間的交互關(guān)系,從而影響了抑郁癥檢測的效果。
針對上述問題,本文提出了一種基于跨模態(tài)特征重構(gòu)與解耦網(wǎng)絡(luò)的多模態(tài)抑郁癥檢測方法,稱為CFRDN。該方法將文本模態(tài)作為核心模態(tài),用于引導(dǎo)重構(gòu)音頻特征,從而充分發(fā)揮文本模態(tài)在語義信息提取中的優(yōu)勢,提升抑郁癥檢測的整體性能;設(shè)計了一個跨模態(tài)特征解耦模塊,用于將重構(gòu)的音頻特征分解為共享特征和私有特征,以供后續(xù)的多模態(tài)融合任務(wù)使用;此外,還提供了一個雙向交叉注意力模塊,通過交互地學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián)來增強特征;最后,還提出了一個基于Transformer的特征融合模塊,用于深入融合各模態(tài)的原始特征和解耦特征,接著使用線性全連接層來預(yù)測抑郁評分。本文在DAIC-WoZ[25]和E-DAIC[26]兩個公開數(shù)據(jù)集上進行了實驗。結(jié)果表明,所提方法在多模態(tài)抑郁癥檢測任務(wù)上取得了優(yōu)異的性能。本文的貢獻如下:
a)提出一種基于文本引導(dǎo)的多模態(tài)抑郁癥檢測方法,其中文本模態(tài)被用作核心模態(tài),以指導(dǎo)音頻特征重構(gòu),用于跨模態(tài)特征解耦任務(wù)。
b)提出一個跨模態(tài)特征重構(gòu)和解耦框架,用于從文本引導(dǎo)的重構(gòu)音頻特征中解耦出共享特征和私有特征,以供后續(xù)的音頻-文本模態(tài)的融合使用。該框架提供了一個解決模態(tài)間信息冗余和異質(zhì)性問題的新方法。
c)提出一個簡單但有效的雙向交叉注意力模塊,用于交互地學(xué)習(xí)模態(tài)之間的特征關(guān)聯(lián),以增強跨模態(tài)特征。
d)在兩個公開的臨床訪談數(shù)據(jù)集上的實驗結(jié)果表明,與當前其他方法相比,所提方法在多模態(tài)抑郁癥檢測任務(wù)上表現(xiàn)出更好的性能。
1 提出方法
所提CFRDN方法的總體框架如圖1所示。該方法包括特征提取、雙向交叉注意力、跨模態(tài)特征重構(gòu)和解耦
以及基于Transformer的融合四個關(guān)鍵步驟。具體而言,在特征提取中,采用 BERT和BiLSTM模型來捕獲轉(zhuǎn)錄句子的文本特征表示。同時,提取音頻信號的Mel頻譜圖,生成固定長度的音頻嵌入作為BiLSTM的輸入,用于音頻特征提取。雙向交叉注意力旨在以交互方式學(xué)習(xí)音頻-文本特征之間的關(guān)聯(lián),從而實現(xiàn)跨模態(tài)特征增強??缒B(tài)特征重構(gòu)和解耦旨在根據(jù)文本模態(tài)的指導(dǎo)重構(gòu)出音頻特征,并將其解耦為共享和私有特征,以便進行后續(xù)的多模態(tài)融合。最后,基于Transformer的融合模塊旨在融合所有提取的音頻、文本特征和分解后的特征,并通過線性全連接層來預(yù)測抑郁分數(shù)。
1.1 問題定義
在給定的數(shù)據(jù)集D中,包含了采訪對話的錄音和相應(yīng)的文本轉(zhuǎn)錄,共N個樣本對。每個樣本對由一個音頻和對應(yīng)的文本組成,表示為D={(a1,t1),…,(ai,ti),…,(an,tn)},i ∈ N。本文目標是為每個樣本對預(yù)測抑郁(PHQ-8)分數(shù),并進一步確定受訪者是否存在抑郁癥。通常情況下,當預(yù)測的抑郁分數(shù)大于或等于10時,判斷受訪者具有抑郁傾向。
1.2 特征提取
對于文本特征提取,采用預(yù)訓(xùn)練的BERT對轉(zhuǎn)錄文本進行嵌入編碼,并輸入到一個包含256個單元的BiLSTM中,以捕獲長期的上下文表示,從而得到最終的文本特征表示Xt,其定義如下:
Xt=BiLSTM(BERT(ti))(1)
對于音頻特征提取,從原始音頻信號獲取Mel頻譜圖,將提取的Mel頻譜圖分割成固定長度的音頻嵌入,輸入到一個包含256個單元的BiLSTM中來捕獲長期音頻特征Xa,其定義如下:
Xa=BiLSTM(Spectrogram(ai))(2)
其中:ai與ti是音頻文本對。
1.3 雙向交叉注意力
受Transformer原理的啟發(fā),本文設(shè)計了一個簡單而有效的雙向交叉注意力模塊,以交互方式學(xué)習(xí)音頻和文本模態(tài)之間的相互關(guān)聯(lián),以增強跨模態(tài)特征。具體而言,它由兩個自注意力層(SA)和兩個殘差與歸一化層組成。雙向交叉注意力過程描述如下:
其中:Wq、Wk和Wv是權(quán)重矩陣;Q、K和V分別表示查詢、鍵和值矩陣。當Q=Xt,K=Xa,V=Xa時,本文獲得了增強的音頻特征表示C′a。同樣地,當Q=Xa,K=Xt,V=Xt時,本文得到了增強的文本特征表示C′t。softmax函數(shù)通過使用縮放因子dk對音頻和文本特征表示的點積進行縮放,計算注意力權(quán)重。接著,通過殘差連接操作,將自注意力機制生成的音頻和文本特征與原始音頻和文本特征相結(jié)合,然后進行歸一化操作。該過程定義如下:
Ca=norm(G(Xa,Xt,C′a))(4)
Ct=norm(G(Xt,Xa,C′t))(5)
其中:G(·)代表著特征組合操作。通過這種方式,每個特征(音頻或文本)都能夠雙向增強,融合了來自音頻和文本模態(tài)的原始抑郁線索。因此,雙向交叉注意力能夠同時學(xué)習(xí)音頻和文本特征的關(guān)聯(lián),以增強跨模態(tài)特征。
1.4 跨模態(tài)特征重構(gòu)
為了充分挖掘音頻和文本模態(tài)之間的跨模態(tài)信息,擬在文本模態(tài)的引導(dǎo)下重新構(gòu)建音頻特征,因為文本模態(tài)通常展現(xiàn)出比音頻模態(tài)更豐富的語義線索。為此提出文本重構(gòu)音頻特征的模塊(圖2),包括一個文本編碼器和一個頻譜圖解碼器。
文本編碼器旨在將一系列字符轉(zhuǎn)換為隱藏特征表示。具體來說,從輸入文本中學(xué)習(xí)得到了一個512維的字符嵌入,然后將其輸送到三個包含512個濾波器的卷積層中,以捕獲長期的上下文信息。接著,采用一個包含512個單元的BiLSTM來生成文本編碼特征T。
頻譜圖解碼器首先采用了一個位置敏感注意力結(jié)構(gòu),以將完整的編碼序列總結(jié)為每個解碼器輸出步驟的固定長度上下文向量。然后,使用一個包含1 024個單元的單向LSTM作為循環(huán)激活,隨后進行線性投影操作,以預(yù)測目標頻譜圖幀。最后,將預(yù)測的頻譜圖幀送入了五個包含512個濾波器的卷積層中,以改善整體的重構(gòu)結(jié)果。為了進一步優(yōu)化重構(gòu)的頻譜圖,擬計算原始頻譜圖和重構(gòu)頻譜圖之間的Mel頻譜損失,如下所示。
其中:N是樣本數(shù)量;Ga是重構(gòu)頻譜圖;Ma是原始頻譜圖。
此外,文本編碼器生成的編碼特征T也被輸入到一個簡化的MLP-attention模塊中,用于捕獲文本序列的全局和局部依賴關(guān)系。具體而言,該模塊包括兩個并行分支:一個是用于捕獲局部依賴關(guān)系的多層感知機(MLP)與卷積門控;另一個是用于捕獲長程依賴關(guān)系的多頭注意力。這一過程表示為
XMLP=MLP-attention(T)(7)
將MLP-attention模塊中上述兩個分支的輸出連接起來后,輸送到一個包含256個單元的BiLSTM中,以增強時序信息,從而得到最終的增強文本特征,其定義如下:
Ft=BiLSTM(XMLP)(8)
1.5 跨模態(tài)特征解耦
盡管時間序列特征提取器(如BiLSTM)能夠捕獲多模態(tài)序列的長程上下文依賴關(guān)系,但它們無法有效解決由于模態(tài)差異導(dǎo)致的特征冗余問題。此外,對于存在異構(gòu)性質(zhì)的不同模態(tài),采用分而治之的處理方法也存在局限。因此,本文引入了共享和私有編碼器,如圖3所示,以將重構(gòu)特征和原始音頻特征分別嵌入到共享和私有子空間中。特征解耦的目標是通過利用共享和私有表示,來捕獲異構(gòu)模態(tài)的共性和獨特性。具體而言,共享編碼器和私有編碼器均由兩層感知器組成,并采用GeLU激活函數(shù)。
為了使共享特征更加一致,引入一致性損失作為約束。具體來說,共享特征被歸一化以產(chǎn)生歸一化相似度矩陣Sm,三個共享特征整體一致性損失被定義為
其中:S表示共享特征的歸一化;m1、m2表示三個共享特征的不同組合。為了確保私有表示捕獲音頻文本數(shù)據(jù)的不同方面,并最小化音頻和文本模態(tài)之間的信息冗余,利用希爾伯特-施密特獨立性準則(HSIC)來衡量這些私有特征的獨立性。因此,三個私有特征的總體差異性損失被定義為
其中:P表示共享特征;P1、P2表示三個私有特征的不同組合。
1.6 基于Transformer的特征融合
為了深度融合跨模態(tài)的原始和解耦特征,提出一個基于Transformer的融合模塊,包括兩個Transformer層,如圖4所示。首先,通過第一個Transformer層的多頭注意力機制,將增強的音頻和文本特征(Ca,Ct)作為多頭注意力的查詢部分分別與共享特征合并,得到兩個融合的中間特征(Ya,Yt)。然后,將這兩個融合的中間特征(Ya,Yt)連接為一個整體特征向量,作為第二個Transformer層的多頭注意力的查詢輸入。最后,通過第二個Transformer層的多頭注意力機制,將連接的特征向量與獲得的整體私有特征結(jié)合起來,產(chǎn)生更加全面的融合特征。這一過程表示為
Ya=Transformer(Ca,S)(11)
Yt=Transformer(Ct,S)(12)
Mat=Transformer(concat(Ya,Yt),P)(13)
其中:Ca、Ct是雙向交叉注意力模塊的輸出;S是共享特征;P是私有特征。最終融合的特征Mat被輸送到一個全連接層,以執(zhí)行抑郁預(yù)測任務(wù)。對于分類任務(wù),采用標準的交叉熵損失,定義如下:
其中:N是樣本數(shù)量;yi是第i個樣本的真實標簽;p(yi)是對于第i個樣本標簽預(yù)測正確的概率。
對于回歸任務(wù),使用均方誤差(MSE)損失,定義如下:
1.7 優(yōu)化目標
該模型中用于抑郁檢測任務(wù)的總損失函數(shù)集成了頻譜損失Euclid Math OneLApmel、一致性損失Euclid Math OneLApcon、差異性損失Euclid Math OneLApdis、目標任務(wù)損失Euclid Math OneLAptask,可以表示為
Euclid Math OneLApall=Euclid Math OneLAptask+α×Euclid Math OneLApmel+β×(Euclid Math OneLApcon+Euclid Math OneLApdis)(16)
其中:α與β是超參數(shù)。
算法1詳細描述了跨模態(tài)特征重構(gòu)與解耦的多模態(tài)抑郁癥識別框架。這一框架包含特征提取、雙向交叉注意力、特征重構(gòu)與解耦和特征融合四個關(guān)鍵組件,每個組件都在整個檢測過程中起著至關(guān)重要的作用。
算法1 跨模態(tài)特征重構(gòu)與解耦的多模態(tài)抑郁癥檢測
輸入:訪談數(shù)據(jù)集D={(ai,ti)}Ni=1,ai、ti是音頻和文本。
輸出:每個樣本的預(yù)測抑郁分數(shù)。
Xt=BiLSTM(BERT(ti)) //提取文本特征
Xa=BiLSTM(Spectrogram(ai)) //提取音頻特征
C′a,Ct′=SA(Xt,Xa)//交叉自注意力
Ca=norm(G(Xa,Xt,C′a)) //增強音頻特征
Ct=norm(G(Xt,Xa,C′t)) //增強文本特征
T=textEncoder(ti) //編碼文本特征
Ka=BiLSTM(text-to-speech network(ti)) //重構(gòu)音頻信息
Ft=BiLSTM(MLP-attention(T)) //語義特征增強
m1,m2,m3=commonEncoder(Ka,F(xiàn)t,Ca) //公共編碼器
p1,p2,p3=privateEncoder(Ka,F(xiàn)t,Ca) //私有編碼器
S=concat(m1,m2,m3),P=concat(p1,p2,p3) //公共、私有特征
Mat=TransformerFusion(Ya,Yt,P,S) //特征融合
yi=FC(Mat) //輸出預(yù)測抑郁分數(shù)
2 實驗結(jié)果與分析
2.1 數(shù)據(jù)集
a)DAIC-WoZ[25]。Distress Analysis Interview Corpus-Wizard-of-Oz(DAIC-WoZ)數(shù)據(jù)集包含189個臨床訪談樣本。該數(shù)據(jù)集分為107個用于訓(xùn)練的樣本,35個用于驗證的樣本和47個用于測試的樣本。它包括訪談的音頻記錄、提取的面部特征以及轉(zhuǎn)錄文文本。該數(shù)據(jù)集的主要目標是識別情緒狀態(tài),特別是抑郁、焦慮和壓力。
b)E-DAIC[26]。該數(shù)據(jù)集是DAIC-WoZ數(shù)據(jù)集的擴展,包含163個用于訓(xùn)練的樣本,56個用于驗證的樣本和56個用于測試的樣本。
實驗中,利用這兩個數(shù)據(jù)集中的音頻記錄和轉(zhuǎn)錄文本來檢測參與者的抑郁情緒。
2.2 數(shù)據(jù)增強
在DAIC-WoZ和E-DAIC數(shù)據(jù)集中,抑郁和非抑郁樣本的比例大約是3:1,這導(dǎo)致了類別不平衡的問題。另外,這兩個數(shù)據(jù)集的規(guī)模相對較小,容易引發(fā)過擬合。為了應(yīng)對此問題,采用了滑動窗口策略對每個音頻和文本樣本進行了數(shù)據(jù)增強。具體地,根據(jù)轉(zhuǎn)錄內(nèi)容的時間戳將訪談記錄劃分為一定數(shù)量的重疊區(qū)間,采用了窗口大小為60 s、重疊大小為10 s的分割策略。分段級樣本的標簽與原始整體樣本對應(yīng),這種方法使得原始數(shù)據(jù)集在一定程度上得到了增強。以DAIC-WoZ數(shù)據(jù)集為例,經(jīng)過增強后,樣本數(shù)量增加了大約10倍。這樣處理后的分段級樣本可以用于后續(xù)實驗。最后,通過采用平均池化策略,將分段級結(jié)果合并,得到全局級別的樣本結(jié)果。
2.3 實驗設(shè)置與評價指標
提出方法在PyTorch中實現(xiàn),網(wǎng)絡(luò)優(yōu)化器采用了結(jié)合銳度感知最小化(SAM)和Adam的方法。batch size為240,學(xué)習(xí)率為0.000 5,權(quán)重衰減為0.001。在特征提取模塊中,文本模態(tài)的dropout率為0.4,音頻模態(tài)的dropout率為0.6。
所有深度學(xué)習(xí)模型均使用兩個NVIDIA GeForce GTX 3090 GPU進行訓(xùn)練,訓(xùn)練的輪數(shù)為300。對于DAIC-WoZ數(shù)據(jù)集上的分類任務(wù),采用了精準率、召回率和F1分數(shù)三種典型的性能指標。對于E-DAIC數(shù)據(jù)集上的回歸任務(wù),主要評估指標是一致性相關(guān)系數(shù)(CCC)和均方根誤差(RMSE),平均絕對誤差(MAE)作為額外的評價標準。
2.4 對比實驗
為了評估所提方法的有效性,擬將獲得的報告結(jié)果與這兩個數(shù)據(jù)集上的一些代表性方法進行比較。
基線方法:對于DAIC-WoZ數(shù)據(jù)集上的分類任務(wù),比較方法包括DepAudioNet[12]、STFN[17]、CNN-AE+SVM[13]、DALF[15]、DEPA[14]、BiLSTM+BiGRU[22]、DSE-HGAT[7]和 MDSD-FGPL[27]。
對于E-DAIC數(shù)據(jù)集上的回歸任務(wù),比較的方法包括DepressNet[28]、MMDD[29]、TIDSM[30]、STFN[17]、FPT-Former[31]、MFMAtt[23]和CubeMLP[32]。
結(jié)果分析:表1顯示了不同方法在DAIC-WoZ數(shù)據(jù)集上的抑郁癥分類性能。從表1可以看出,所提方法(CFRDN)在F1分數(shù)、召回率和精準率性能指標上明顯優(yōu)于最新方法。特別是,所提方法獲得了最高的F1分數(shù)為0.90,召回率為0.93,精準率為0.87。這表明了本文方法的優(yōu)勢。這是因為所提方法采用了基于文本引導(dǎo)的跨模態(tài)特征重構(gòu)和解耦框架用于抑郁檢測,從而為音頻文本融合提供了高度綜合的特征。
表2呈現(xiàn)了不同方法在E-DAIC數(shù)據(jù)集上進行回歸任務(wù)的抑郁預(yù)測性能。表2的結(jié)果表明,所提方法在抑郁檢測方面表現(xiàn)最佳,CCC為0.665,RMSE為4.41,MAE為3.92。這再次證明了所提方法是有效的,并優(yōu)于其他使用方法。
2.5 消融實驗
數(shù)據(jù)增強的效果:采用滑動窗口技術(shù)將每個音頻和文本樣本裁剪成幾個局部片段進行數(shù)據(jù)增強。為了展示數(shù)據(jù)增強的效果,將采用或不采用數(shù)據(jù)增強時的性能進行比較,如表3所示。在沒有數(shù)據(jù)增強的情況下,使用原始音頻和文本數(shù)據(jù)進行實驗。表3的結(jié)果表明,沒有數(shù)據(jù)增強的情況下,性能明顯較低,而所提方法在使用數(shù)據(jù)增強時性能更好。特別是,沒有數(shù)據(jù)增強時,F(xiàn)1分數(shù)為0.78,召回率為0.79,精準率為0.78。相比之下,所提方法獲得的性能F1分數(shù)為0.90,召回率為0.93,精準率為0.87。這證明了數(shù)據(jù)增強的有效性。特征解耦模塊的效果:設(shè)計的跨模態(tài)特征解耦模塊旨在從原始音頻特征Xa、增強文本特征Ft和頻譜特征Ka中分解出共享特征和私有特征,用于下游任務(wù)。為了驗證特征解耦模塊的效果,對使用或不使用特征解耦模塊的性能進行了比較。從表3可以觀察到,沒有使用特征解耦時,性能較低,F(xiàn)1分數(shù)為0.82,召回率為0.87,精準率為0.77,比本文方法低。這表明了所設(shè)計的特征解耦模塊的重要性。
特征重構(gòu)模塊的效果:該模塊通過文本進行音頻特征重構(gòu),增強了特征表達的魯棒性和準確性。從表3可以看出,不使用特征重構(gòu)模塊的性能指標為:F1分數(shù)為0.84,召回率為0.89,精準率為0.80。相比之下,使用特征重構(gòu)模塊的設(shè)置表現(xiàn)出更高的檢測性能。這種重構(gòu)不僅提升了文本和音頻模態(tài)各自的特征質(zhì)量,還加強了它們之間的協(xié)同作用,從而在下游任務(wù)中取得更好的性能。
雙向交叉注意力模塊的效果:該模塊通過在文本和音頻特征之間引入雙向注意力機制,使得兩個模態(tài)的信息能夠互相參考和補充,從而提升特征表達的準確性和全面性。從表3的結(jié)果可以明顯看出,不使用雙向交叉注意力模塊的性能指標為:F1分數(shù)為0.88,召回率為0.91,精準率為0.85。相比之下,使用雙向交叉注意力模塊的設(shè)置表現(xiàn)出更高的檢測性能。這表明雙向交叉注意力模塊在抑郁癥檢測任務(wù)中的重要性和有效性,能夠顯著提升檢測性能。
損失函數(shù)的效果:式(16)中的整體損失函數(shù)是四種不同損失的組合。為了評估這些損失函數(shù)的效果,本文對這些損失的不同組合方式進行了性能比較,如表3所示??梢杂^察到,移除Euclid Math OneLApmel會導(dǎo)致性能指標顯著下降。此外,移除Euclid Math OneLApcon和Euclid Math OneLApdis也會顯著降低性能指標。這表明了這些損失函數(shù)及其組合的重要性。
超參數(shù)的效果:為了進一步探討超參數(shù)(α,β)對總體損失函數(shù)的影響,將α與β分別固定為1,然后在[0,1] 以0.1為間隔尋找剩余參數(shù)的最優(yōu)值,如圖5所示。結(jié)果表明,當α=0.6和β=1時,獲得了最佳結(jié)果。
此外,本文比較了刪除單個共享或私有特征對抑郁檢測任務(wù)的性能影響。表3的結(jié)果表明,單個私有特征的性能優(yōu)于單個共享特征,表明了私有特征在音頻文本融合任務(wù)中的重要性。此外,刪除單個共享或私有特征會導(dǎo)致性能指標的顯著下降,這顯示了特征解耦的必要性。
2.6 實驗樣例
為了展示所提方法的優(yōu)勢,擬設(shè)置一個簡單案例來進行分析,如圖6所示。在這個例子中,當抑郁分數(shù)為10時,處于臨界點位置,基線方法通常會將其預(yù)測成非抑郁。然而,所提方法不管是在分類任務(wù)還是回歸任務(wù)上都成功地預(yù)測出被訪者具有抑郁狀態(tài)。另一方面也說明本文的數(shù)據(jù)預(yù)處理操作是有效的,編號為421的樣本被劃分成8段,分別對分片的樣本進行預(yù)測,計算出全局樣本級別的結(jié)果。通過將樣本分割成小片段并對其進行預(yù)測,可以更全面地了解整個樣本的情況,而不僅僅是對整體進行分析。這種分析有助于更好地理解被訪者的抑郁狀態(tài),并為個性化的干預(yù)和治療提供更準確的依據(jù)。
3 結(jié)束語
考慮到文本模態(tài)在抑郁檢測任務(wù)中的核心作用,提出了一種新穎的基于跨模態(tài)特征重構(gòu)與解耦網(wǎng)絡(luò)的多模態(tài)抑郁癥檢測(CFRDN)方法。CFRDN方法由音頻文本特征提取、用于特征增強的雙向交叉注意力、用于分解共享特征和私有特征的跨模態(tài)特征重構(gòu)和解耦,以及基于Transformer的用于音頻和文本特征的深度融合四個關(guān)鍵步驟組成。在DAIC-WoZ和E-DAIC數(shù)據(jù)集上的實驗結(jié)果表明,所提方法在抑郁檢測任務(wù)中取得了優(yōu)異的性能。本文方法可以擴展到各種多模態(tài)臨床應(yīng)用場景,促進抑郁的早期檢測。
參考文獻:
[1]Cai Hong,Jin Yu,Liu Shou,et al.Prevalence of suicidal ideation and planning in patients with major depressive disorder:a meta-analysis of observation studies[J].Journal of Affective Disorders,2021,293:148-158.
[2]Sun Yue,F(xiàn)u Zhaoyan,Bo Qijing,et al.The reliability and validity of PHQ-9 in patients with major depressive disorder in psychiatric hospital[J].BMC Psychiatry,2020,20:article No.474.
[3]Rabinowitz J,Williams J B W,Anderson A,et al.Consistency checks to improve measurement with the Hamilton rating scale for depression (HAM-D)[J].Journal of Affective Disorders,2022,302:273-279.
[4]Cummins N,Sethu V,Epps J,et al.Generalized two-stage rank regression framework for depression score prediction from speech[J].IEEE Trans on Affective Computing,2017,11(2):272-283.
[5]Bathina K C,Ten T M,Lorenzo-Luaces L,et al.Individuals with depression express more distorted thinking on social media[J].Nature Human Behaviour,2021,5(4):458-466.
[6]Ilias L,Mouzakitis S,Askounis D.Calibration of transformer-based models for identifying stress and depression in social media[J].IEEE Trans on Computational Social Systems,2024,11(2):1979-1990.
[7]Li Mingzheng,Sun Xiao,Wang Meng.Detecting depression with hete-rogeneous graph neural network in clinical interview transcript[J].IEEE Trans on Computational Social Systems,2024,11(1):1315-1324.
[8]張亞洲,和玉,戎璐,等.基于上下文知識增強型Transformer網(wǎng)絡(luò)的抑郁檢測[J].計算機工程,2024,50(8):75-85.(Zhang Yazhou,He Yu,Rong Lu,et al.Depression detection based on contextual knowledge-enhanced Transformer network[J].Computer Engineering,2024,50(8):75-85.)
[9]Long Hailiang,Guo Zhenghao,Wu Xia,et al.Detecting depression in speech:comparison and combination between different speech types[C]//Proc of IEEE International Conference on Bioinformatics and Biomedicine.Piscataway,NJ:IEEE Press,2017:1052-1058.
[10]Morales M R.Multimodal depression detection:an investigation of features and fusion techniques for automated systems[D].New York:City University of New York,2018.
[11]魯小勇,石代敏,劉陽,等.注意力殘差模型的語音抑郁傾向識別方法[J].小型微型計算機系統(tǒng),2022,43(8):1602-1608.(Lu Xiaoyong,Shi Daimin,Liu Yang,et al.Speech depression tendency recognition method based on attention residual model[J].Journal of Chinese Computer Systems,2022,43(8):1602-1608.)
[12]Ma Xingchen,Yang Hongyu,Chen Qiang,et al.DepAudioNet:an efficient deep model for audio based depression classification[C]//Proc of the 6th International Workshop on Audio/Visual Emotion Challenge.New York:ACM Press,2016:35-42.
[13]Sardari S,Nakisa B,Rastgoo M N,et al.Audio based depression detection using convolutional autoencoder[J].Expert Systems with Applications,2022,189(C):116076.
[14]Zhang Pingyue,Wu Mengyue,Dinkel H,et al.DEPA:self-supervised audio embedding for depression detection[C]//Proc of the 29th ACM International Conference on Multimedia.New York:ACM Press,2021:135-143.
[15]Yang Wenju,Liu Jiankang,Cao Peng,et al.Attention guided learnable time-domain filter banks for speech depression detection[J].Neural Networks,2023,165:135-149.
[16]Niu Mingyue,Tao Jianhua,Li Yongwei,et al.WavDepressionNet:automatic depression level prediction via raw speech signals[J].IEEE Trans on Affective Computing,2023,15(1):285-296.
[17]Han Zhuojin,Shang Yuanyuan,Shao Zhuhong,et al.Spatial-temporal feature network for speech-based depression recognition[J].IEEE Trans on Cognitive and Developmental Systems,2023,16(1):308-318.
[18]Ma Feipeng,Zhang Yueyi,Sun Xiaoyan.Multimodal sentiment analysis with preferential fusion and distance-aware contrastive learning[C]//Proc of IEEE International Conference on Multimedia and Expo.Piscataway,NJ:IEEE Press,2023:1367-1372.
[19]姜麗梅,李秉龍.面向圖像文本的多模態(tài)處理方法綜述[J].計算機應(yīng)用研究,2024,41(5):1281-1290.(Jiang Limei,Li Binglong.Comprehensive review of multimodal processing methods for image-text[J].Application Research of Computers,2024,41(5):1281-1290.)
[20]Zmolikova K,Delcroix M,Ochiai T,et al.Neural target speech extraction:an overview[J].IEEE Signal Processing Magazine,2023,40(3):8-29.
[21]Ray A,Kumar S,Reddy R,et al.Multi-level attention network using text,audio and video for depression prediction[EB/OL].(2019-09-03).https://arxiv.org/abs/1909.01417.
[22]Shen Ying,Yang Huiyu,Lin Lin.Automatic depression detection:an emotional audio-textual corpus and a GRU/BiLSTM-based model[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2022:6247-6251.
[23]Fang Ming,Peng Siyu,Liang Yujia,et al.A multimodal fusion model with multi-level attention mechanism for depression detection[J].Biomedical Signal Processing and Control,2023,82:104561.
[24]Wu Yang,Lin Zijie,Zhao Yanyan,et al.A text-centered shared-private framework via cross-modal prediction for multimodal sentiment analysis[C]//Proc of Findings of the association for computational linguistics:ACL-IJCNLP 2021.Stroudsburg,PA:Association for Computational Linguistics,2021:4730-4738.
[25]Gratch J,Artstein R,Lucas G M,et al.The distress analysis interview corpus of human and computer interviews[C]//Proc of the 9th International Conference on Language Resources and Evaluation.[S.l.]:European Language Resources Association,2014:3123-3128.
[26]Ringeval F,Schuller B,Valstar M,et al.AVEC 2019 workshop and challenge:state-of-mind,detecting depression with AI,and cross-cultural affect recognition[C]//Proc of the 9th International on Audio/Visual Emotion Challenge and Workshop.Stroudsburg,PA:Association for Computational Linguistics,2019:3-12.
[27]Zhang Jun,Guo Yanrong.Multilevel depression status detection based on fine-grained prompt learning[J].Pattern Recognition Letters,2024,178:167-173.
[28]Saggu G S,Gupta K,Arya K V,et al.DepressNet:a multimodal hierarchical attention mechanism approach for depression detection[J].International Journal of Engineering Science,2022,15(1):24-32.
[29]Teng Shiyu,Chai Shurong,Liu Jiaqing,et al.Multi-modal and multi-task depression detection with sentiment assistance[C]//Proc of IEEE International Conference on Consumer Electronics.Piscataway,NJ:IEEE Press,2024:1-5.
[30]Van Steijn F,Sogancioglu G,Kaya H.Text-based interpretable depression severity modeling via symptom predictions[C]//Proc of International Conference on Multimodal Interaction.New York:ACM Press,2022:139-147.
[31]Li Yifu,Yang Xueping,Zhao Meng,et al.FPT-Former:a flexible pa-rallel Transformer of recognizing depression by using audiovisual expert-knowledge-based multimodal measures[J/OL].International Journal of Intelligent Systems.(2024-01-29).https://doi.org/10.1155/2024/1564574.
[32]Sun Hao,Wang Honyi,Liu Jiaqing,et al.CubeMLP:an MLP-based model for multimodal sentiment analysis and depression estimation[C]//Proc of the 30th ACM International Conference on Multimedia.New York:ACM Press,2022:3722-3729.