薛之芹 張貫虹 王見(jiàn)賢 范義飛
關(guān)鍵詞:文本分類;抑郁識(shí)別;情感分析;注意力機(jī)制;BiLSTM
0 引言
抑郁癥是現(xiàn)代社會(huì)日益嚴(yán)重的公共健康問(wèn)題之一,其特征有顯著且長(zhǎng)期的情緒抑郁、認(rèn)知障礙、思維遲緩等。隨著激烈的社會(huì)競(jìng)爭(zhēng)等因素影響[1],人們所面臨的生活負(fù)擔(dān)和心理壓力日益嚴(yán)重,導(dǎo)致抑郁癥的患病率持續(xù)增長(zhǎng),抑郁癥患者自殺風(fēng)險(xiǎn)也是正常人的25倍以上[2-3]。由此可見(jiàn),目前抑郁識(shí)別仍然是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)。
傳統(tǒng)的抑郁識(shí)別方法主要包括基于詞典和機(jī)器學(xué)習(xí)的情感分析方法。Ran Li等人[4]創(chuàng)建了一個(gè)與抑郁相關(guān)的情感詞典來(lái)研究健康者與抑郁癥患者之間的差異。實(shí)驗(yàn)結(jié)果表明,構(gòu)建的抑郁癥詞匯對(duì)抑郁癥患者有較好的識(shí)別效果。Anu Priya等人[5]采用機(jī)器學(xué)習(xí)算法來(lái)確定五種不同的焦慮、抑郁和壓力的嚴(yán)重程度。數(shù)據(jù)收集采用標(biāo)準(zhǔn)問(wèn)卷,測(cè)量焦慮、抑郁和壓力的常見(jiàn)癥狀(DASS-21)。隨后,應(yīng)用了五種不同的識(shí)別技術(shù)——決策樹(shù)、隨機(jī)森林樹(shù)、樸素貝葉斯、SVM和K-近鄰算法來(lái)進(jìn)行預(yù)測(cè),隨機(jī)森林模型被確定為最佳模型,最終在DAIC-WOZ 數(shù)據(jù)集上的F1 值達(dá)到0.766。但隨著網(wǎng)絡(luò)快速發(fā)展,詞語(yǔ)更替速度飛快,基于情感詞典的方法需要耗費(fèi)大量資源去更新詞典;基于機(jī)器學(xué)習(xí)的方法依賴于人工對(duì)文本進(jìn)行標(biāo)注。相比于以上兩種方法,基于深度學(xué)習(xí)的方法能夠快速高效地處理大量數(shù)據(jù),自動(dòng)提取出文本的情感特征,具有較好的泛化能力。
Heinrich Dinkel等人[6]提出了一個(gè)基于文本的多任務(wù)Bi-GRU網(wǎng)絡(luò),通過(guò)預(yù)訓(xùn)練的詞嵌入來(lái)模擬病人在臨床訪談中的反應(yīng)。使用了一種新的多任務(wù)損失函數(shù),旨在建模抑郁癥的嚴(yán)重程度和二元健康狀態(tài)。將多任務(wù)建模與預(yù)訓(xùn)練句子嵌入相結(jié)合,即Word2Vec、FastText、ELMo 和BERT 用于基于文本的抑郁建模,分類器采用具有注意機(jī)制的Bi-GRU模型。獨(dú)立研究了單詞和句子級(jí)的單詞嵌入以及使用大數(shù)據(jù)預(yù)訓(xùn)練進(jìn)行抑郁檢測(cè)。最終在DAIC-WOZ驗(yàn)證集上的F1值為0.84。M.Niu等人[7]提出了一種基于圖注意網(wǎng)絡(luò)(HCAG) 的層次上下文感知模型進(jìn)行抑郁檢測(cè),所提出的層次上下文感知結(jié)構(gòu)可以捕獲答案中的關(guān)鍵信息,該模型在DAIC-WOZ數(shù)據(jù)集上的F1值為0.77。雖然基于深度學(xué)習(xí)算法進(jìn)行抑郁識(shí)別的方法不需要人工干預(yù),分類精度較高,但是需要使用一個(gè)大規(guī)模的數(shù)據(jù)集來(lái)訓(xùn)練模型,抑郁癥患者臨床對(duì)話這樣的場(chǎng)景研究目前較少,往往很難提取出顯著的特征,識(shí)別效果較差。
針對(duì)上述問(wèn)題,為了提高抑郁識(shí)別的準(zhǔn)確性,本文提出了一種基于Attention-BiLSTM 的抑郁識(shí)別模型。實(shí)驗(yàn)結(jié)果表明,與上述相似文本實(shí)驗(yàn)相比,該模型顯著提高了文本抑郁傾向識(shí)別的準(zhǔn)確率。
1 相關(guān)工作
1.1 Bi-LSTM 模型
LSTM(Long Short-Term Memory)模型[8]是深度學(xué)習(xí)中的一種常見(jiàn)模型,廣泛用于文本分類、圖像處理中。然而,LSTM模型不能全面包含文本的上下文特征依賴信息。在文本抑郁傾向情感識(shí)別研究中,詞語(yǔ)與上下文都有著不同程度的語(yǔ)義關(guān)聯(lián)性,并且抑郁癥正負(fù)樣本量不多,所以雙向處理至關(guān)重要。綜上所述,本文將采用Bi-LSTM (Bi-directional Long Short-TermMemory)[9]模型,用相互獨(dú)立的兩個(gè)隱層,從正反兩個(gè)方向同時(shí)對(duì)文本數(shù)據(jù)進(jìn)行處理,從而捕捉到文本中的雙向語(yǔ)義依賴。
1.2 Attention 機(jī)制
在對(duì)話式文本的抑郁識(shí)別任務(wù)中,Seq2Seq任務(wù)是一項(xiàng)重要的任務(wù)。Seq2Seq任務(wù)包含兩部分:編碼器(Encoder)和解碼器(Decoder)。文本單詞對(duì)應(yīng)的詞向量被輸入編碼器中,產(chǎn)生文本對(duì)應(yīng)的隱含向量表示,然后通過(guò)解碼器對(duì)文本對(duì)應(yīng)的隱含向量進(jìn)行逐個(gè)字符的解碼,生成目標(biāo)文件。然而,對(duì)于較長(zhǎng)的文本,編碼器和解碼器很難做到全部記憶的功能,而且不是所有的單詞對(duì)抑郁識(shí)別都能起到作用,因此在該分類任務(wù)中融入Attention機(jī)制。本文采用的是Bahdanau注意力機(jī)制[10],具體計(jì)算過(guò)程如下:假設(shè)編碼器的輸出向量為si,i = 0,1,2,...,S - 1,其中S是編碼器輸入系列的長(zhǎng)度。解碼器當(dāng)前的隱含層輸出為hj,j = 0,1,2,...,j - 1,其中T是解碼器輸出系列的長(zhǎng)度。首先,將si 和hj 拼接,然后對(duì)拼接之后的向量做線性變換,取Tanh激活函數(shù),并使用vT 做點(diǎn)積,最后輸出score值:
最后,將隱藏層的結(jié)果和歸一化后的結(jié)果在特征方向上做拼接和線性變換,并且使用tanh函數(shù)作為激活函數(shù)輸出最終的注意力值:
Attention機(jī)制通過(guò)引入一個(gè)網(wǎng)絡(luò)能夠在Bi-LSTM 中對(duì)重要的單詞加以不同的權(quán)重,在抑郁識(shí)別分類中,使得文本特征在保留最有效信息的基礎(chǔ)上,最大限度地解決信息冗余的問(wèn)題,從而提高分類的準(zhǔn)確率。
2 對(duì)話式抑郁數(shù)據(jù)集
由于適合使用深度學(xué)習(xí)算法來(lái)研究抑郁傾向的公開(kāi)數(shù)據(jù)集非常有限,目前比較廣泛使用的是精神壓力訪談?wù)Z料庫(kù)DAIC-WOZ (Distress Analysis InterviewCorpus-Wizard of Oz)以及擴(kuò)展版E -DAIC(Extended-DAIC) [11-12]。該系列語(yǔ)料庫(kù)是用于精神壓力狀況診斷的臨床訪談,如焦慮、抑郁和創(chuàng)傷后應(yīng)激障礙。它包含了從總共278次臨床訪談中收集的約74小時(shí)的數(shù)據(jù),并且為每個(gè)參與者提供了兩個(gè)標(biāo)簽:一個(gè)標(biāo)簽是抑郁或者非抑郁的二元診斷,1代表具有抑郁傾向,0 代表不具有抑郁傾向;一個(gè)標(biāo)簽是PHQ-8抑郁量表問(wèn)卷得分。PHQ-8量表是大型臨床研究中抑郁癥的有效診斷和嚴(yán)重程度測(cè)量方法,包含八項(xiàng)患者健康問(wèn)卷抑郁量表的抑郁評(píng)分。PHQ-8總分≥10分的參與者,即被認(rèn)為有抑郁癥狀。本文實(shí)驗(yàn)采用的數(shù)據(jù)為DAIC-WOZ中的對(duì)話語(yǔ)料部分,除去動(dòng)畫(huà)虛擬采訪者Ellie的話語(yǔ),將參與者的對(duì)話語(yǔ)料提取出來(lái)并進(jìn)行拼接,部分?jǐn)?shù)據(jù)格式如圖1所示。
2.1 數(shù)據(jù)預(yù)處理
首先,采用去掉停用詞、標(biāo)點(diǎn)符號(hào)、最常見(jiàn)和最罕見(jiàn)的單詞等技術(shù)。其次,一些參與者的回答過(guò)于口語(yǔ)化,不利于模型訓(xùn)練,所以對(duì)這些話語(yǔ)進(jìn)行了規(guī)范化處理。最后,采用詞形還原技術(shù),把單詞的詞綴部分刪掉,提取主干部分,將每個(gè)任意變形的單詞還原為它的詞根單詞,方便計(jì)算機(jī)進(jìn)行后續(xù)處理。
2.2 數(shù)據(jù)增強(qiáng)
由圖2原始數(shù)據(jù)分布情況可知,由于DAIC系列抑郁數(shù)據(jù)集的樣本量總共只有278條,而且抑郁人群在總樣本的占比較少,所以需要對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng),從而擴(kuò)充樣本。現(xiàn)有NLP的數(shù)據(jù)增強(qiáng)有兩種方法,一種是EDA加噪法[13],另一種是回譯法[14]。根據(jù)對(duì)話式文本的特點(diǎn)以及幾種方法的比對(duì),該實(shí)驗(yàn)最終選擇EDA加噪法中的同義詞替換方法來(lái)進(jìn)行數(shù)據(jù)增強(qiáng)。
為了保證對(duì)話式文本在進(jìn)行同義詞替換后,依舊保持參與者所表達(dá)的語(yǔ)義,本實(shí)驗(yàn)將替換的單詞數(shù)量設(shè)置為20,并且使用Python NLTK模塊中的WordNet 詞匯數(shù)據(jù)庫(kù)來(lái)查找同義詞。此外,為了能夠有效擴(kuò)充樣本的總數(shù)量,本實(shí)驗(yàn)將同義詞替換增強(qiáng)技術(shù)應(yīng)用于整個(gè)訓(xùn)練數(shù)據(jù)集,處理后的初始訓(xùn)練集由175個(gè)訓(xùn)練樣本加倍到350個(gè)樣本。
3 抑郁識(shí)別模型構(gòu)建
本文提出的Attention-BiLSTM模型結(jié)構(gòu)如圖3所示,主要由以下部分組成:
文本嵌入層:實(shí)驗(yàn)選擇預(yù)訓(xùn)練好的FastText語(yǔ)言模型完成對(duì)詞性的向量化表示,詞向量維度設(shè)置為300維。
Attention層:該層為特征權(quán)重學(xué)習(xí)層。采用有效的特征學(xué)習(xí)策略,根據(jù)輸入數(shù)據(jù)計(jì)算不同特征對(duì)下游任務(wù)的不同貢獻(xiàn)程度,使模型不僅能夠全面地表達(dá)語(yǔ)義,也能夠著重于關(guān)注有助于抑郁識(shí)別的文本向量。
Softmax層:使用Softmax 函數(shù)對(duì)已生成的文本向量進(jìn)行歸一化處理,得到文本向量在抑郁或非抑郁類型下的概率分布,具體計(jì)算過(guò)程如下:
其中,i 為1時(shí)表示抑郁狀態(tài),i 為0時(shí)表示非抑郁狀態(tài),ω和b 分別為權(quán)重和偏置量。
4 實(shí)驗(yàn)分析
4.1 實(shí)驗(yàn)環(huán)境
本文實(shí)驗(yàn)基于Windows10 系統(tǒng),采用了Py?Torch1.11.0網(wǎng)絡(luò)框架和Python3.7版本的編程語(yǔ)言進(jìn)行深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練,CUDA版本為11.3,顯卡為GTX 1080Ti,顯存大小為11GB。
4.2 參數(shù)設(shè)置
模型的性能好壞會(huì)受到各種參數(shù)的影響。本文通過(guò)實(shí)驗(yàn),對(duì)比不同Epochs、Dropout和Learning Rate等參數(shù)后,最終篩選出了以下最佳參數(shù):
4.3 對(duì)比實(shí)驗(yàn)
本文采用了以下幾種對(duì)比實(shí)驗(yàn):
FastText:FastText模型將整個(gè)對(duì)話文本作為特征來(lái)預(yù)測(cè)參與者是否具有抑郁傾向[15]。將DAIC-WOZ系列數(shù)據(jù)集經(jīng)過(guò)預(yù)處理后輸入FastText模型中,識(shí)別的準(zhǔn)確率為0.625 0,F(xiàn)1值為0.575 4。由于FastText模型更適合用于大型數(shù)據(jù)集中,DAIC-WOZ系列數(shù)據(jù)集的規(guī)模較小,很容易造成過(guò)擬合,所以訓(xùn)練效果并不理想。
TextCNN:相比于分類方法較為簡(jiǎn)單的FastText 模型,TextCNN 模型通過(guò)使用多個(gè)大小不同的卷積核,可以提煉出句子內(nèi)部及句子之間的相互關(guān)系[16]。將DAIC-WOZ 系列數(shù)據(jù)集經(jīng)過(guò)預(yù)處理后,輸入TextCNN 模型中,識(shí)別的準(zhǔn)確率為0.776 7,F(xiàn)1 值為0.649 8。相較于FastText模型,TextCNN的訓(xùn)練效果優(yōu)于FastText模型,但是其中的卷積和池化操作會(huì)丟失對(duì)話文本間的順序和位置信息等內(nèi)容,不利于對(duì)話式文本的抑郁傾向識(shí)別。
BERT:BERT模型可以獲取動(dòng)態(tài)的編碼詞向量,具有較強(qiáng)的泛化能力[17]。將DAIC-WOZ系列數(shù)據(jù)集輸入BERT模型中,識(shí)別的準(zhǔn)確率為0.642 9,F(xiàn)1值為0.694 8。由此可見(jiàn),BERT模型并不適合用于該數(shù)據(jù)集的分類,因?yàn)锽ERT模型適用于在大規(guī)模語(yǔ)料上進(jìn)行無(wú)監(jiān)督訓(xùn)練,而且BERT模型的時(shí)間和空間復(fù)雜度都非常高,需要大量的算力。
BERT-TextCNN-BiGRU:基于上述模型的不足之處,將BERT、TextCNN和BiGRU模型進(jìn)行融合[18]。首先使用BERT預(yù)訓(xùn)練模型將對(duì)話文本映射為向量表示,然后在情感特征提取層使用TextCNN模型和Bi?GRU模型共同對(duì)向量矩陣提取特征信息。將DAIC-WOZ 系列數(shù)據(jù)集輸入該模型中,識(shí)別的準(zhǔn)確率為0.695 7,F(xiàn)1值為0.722 5,比單模型的BERT有所提升,但并未取得良好的效果。
Attention-BiLSTM:經(jīng)過(guò)上述模型可以得出,BERT模型并不適用于對(duì)話式文本抑郁傾向的識(shí)別研究。所以針對(duì)這種稀疏的文本,在情感特征提取層采用了將Attention機(jī)制與Bi-LSTM進(jìn)行結(jié)合的方法,形成一種新的抑郁情感識(shí)別模型,學(xué)習(xí)對(duì)抑郁檢測(cè)有高度貢獻(xiàn)的顯著單詞的權(quán)重和重要的隱藏特征。最后,采用Softmax分類器對(duì)結(jié)果進(jìn)行分類,識(shí)別的準(zhǔn)確率高達(dá)0.917 5,F(xiàn)1值為0.852 2。
綜上所述,幾種不同的模型對(duì)比結(jié)果如表2所示:
Attention-BiLSTM 模型實(shí)驗(yàn)結(jié)果分析如圖4 所示。初始訓(xùn)練準(zhǔn)確率較高的原因是該抑郁數(shù)據(jù)集的正負(fù)樣本不平衡。在剛開(kāi)始訓(xùn)練時(shí),網(wǎng)絡(luò)中所有的權(quán)重都是隨機(jī)初始化,開(kāi)始幾輪訓(xùn)練基本沒(méi)有將權(quán)重訓(xùn)練好,經(jīng)過(guò)分類器后輸出的標(biāo)簽值更容易趨近于占比較大的抑郁樣本,直到后面權(quán)重訓(xùn)練好后,各項(xiàng)指標(biāo)才慢慢開(kāi)始變化。
5 結(jié)論
目前,深度學(xué)習(xí)模型在情感分析領(lǐng)域非常流行,本文提出了一種基于Attention-BiLSTM模型的對(duì)話式文本識(shí)別抑郁傾向的方法。該模型利用預(yù)訓(xùn)練的FastText模型,將對(duì)話文本中的單詞轉(zhuǎn)換為對(duì)應(yīng)的向量,并使用同義詞替換方法增強(qiáng)向量的情感特征。然后使用BiLSTM網(wǎng)絡(luò)提取正向和反向的上下文信息,并且融入Attention機(jī)制學(xué)習(xí)對(duì)抑郁檢測(cè)有高度貢獻(xiàn)的單詞權(quán)重和重要的隱藏特征。最后,采用Softmax 分類器進(jìn)行分類。本實(shí)驗(yàn)的F1值達(dá)到了0.852 2,相較于其他模型取得了較好的提升。
本文的研究為今后的工作指出了另外一個(gè)方向,將參與者的語(yǔ)音、面部神情以及眼睛注視方向等特征融入模型中訓(xùn)練。因此,下一階段的目標(biāo)是在現(xiàn)有實(shí)驗(yàn)的基礎(chǔ)上,實(shí)現(xiàn)多模態(tài)的情感分析,從而進(jìn)一步提高抑郁識(shí)別的準(zhǔn)確性。