徐東東,蔡肖紅,劉 靜,曹 慧
山東中醫(yī)藥大學(xué) 智能與信息工程學(xué)院,濟(jì)南 250355
抑郁癥是全世界主要致殘?jiān)?,也是造成全球疾病總?fù)擔(dān)的主要因素之一[1],其主要特點(diǎn)有持續(xù)的悲傷、失去興趣或快樂等。抑郁癥會(huì)給患者身心帶來極大的影響且容易復(fù)發(fā),當(dāng)抑郁癥發(fā)展到中度或重度時(shí),將成為一個(gè)嚴(yán)重的健康疾患甚至導(dǎo)致患者自殺[2],從而對(duì)家庭和社會(huì)造成嚴(yán)重的損失。
目前,抑郁癥的診斷主要基于國(guó)際疾病分類標(biāo)準(zhǔn)(international classification of diseases,ICD)和精神疾病診斷統(tǒng)計(jì)手冊(cè)(diagnostic and statistical manual of mental disorders,DSM),這種診斷方式易受患者的主觀信念和醫(yī)師的診斷經(jīng)驗(yàn)影響[3]。此外,現(xiàn)代社會(huì)對(duì)于抑郁癥等精神類疾病的接受程度普遍較低,抑郁癥患者自身也常由于存在病恥感和對(duì)精神疾病缺乏了解等原因而沒有選擇求醫(yī),結(jié)果造成眾多患者因未得到及時(shí)、準(zhǔn)確的診斷而錯(cuò)失最佳治療機(jī)會(huì)[1]。
隨著互聯(lián)網(wǎng)的興起,人們?cè)絹碓絻A向于在社交媒體上分享自己的生活狀態(tài),且患有精神疾病的人也以傾訴自己的精神狀態(tài)作為一種解脫[4]。同時(shí),越來越多的證據(jù)表明,社交媒體平臺(tái)上發(fā)布的特定語(yǔ)言和情緒可能提供了關(guān)于抑郁癥的線索[5-8]。在此背景下,機(jī)器學(xué)習(xí)也逐漸被運(yùn)用到基于社交媒體文本數(shù)據(jù)的抑郁癥檢測(cè)中[9-11]。基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法可以執(zhí)行自動(dòng)、客觀和有效的評(píng)估[12],但是其性能在很大程度上依賴于特征的構(gòu)建和選擇,并且泛化性受到所使用特征和算法的限制。而深度學(xué)習(xí)以理解復(fù)雜自然語(yǔ)言句子的上下文為目標(biāo),徹底改變了潛在特征提取過程。現(xiàn)有的基于深度學(xué)習(xí)的抑郁癥檢測(cè)系統(tǒng)能夠執(zhí)行預(yù)處理、特征提取和抑郁癥檢測(cè)等連續(xù)過程,實(shí)現(xiàn)了端到端的全自動(dòng)化抑郁癥檢測(cè)[13],在抑郁癥的預(yù)防和治療方面具有重大意義。
目前,國(guó)外關(guān)于利用機(jī)器學(xué)習(xí)在基于社交媒體文本數(shù)據(jù)的抑郁癥檢測(cè)研究仍在不斷發(fā)展進(jìn)步,但國(guó)內(nèi)少有關(guān)于此領(lǐng)域的研究和報(bào)告。本文對(duì)在社交媒體文本中運(yùn)用機(jī)器學(xué)習(xí)檢測(cè)抑郁癥進(jìn)行綜述,以期為國(guó)內(nèi)研究提供借鑒。
機(jī)器學(xué)習(xí)(machine learning,ML)是指利用計(jì)算機(jī)通過對(duì)已有數(shù)據(jù)進(jìn)行自主學(xué)習(xí)以改善自身功能,從而能夠在下一次執(zhí)行相同任務(wù)時(shí)做得更好或者效率更高的一種技術(shù)。機(jī)器學(xué)習(xí)可根據(jù)用于學(xué)習(xí)的數(shù)據(jù)性質(zhì)分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí),也可根據(jù)模型結(jié)構(gòu)的深度分為傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)[14]。
利用機(jī)器學(xué)習(xí)方法在基于社交媒體文本數(shù)據(jù)中檢測(cè)抑郁癥的一般流程如圖1 所示,主要分為以下步驟:數(shù)據(jù)采集,數(shù)據(jù)預(yù)處理(基礎(chǔ)預(yù)處理和特征工程),利用機(jī)器學(xué)習(xí)算法對(duì)文本表示進(jìn)行學(xué)習(xí),以及使用測(cè)試數(shù)據(jù)評(píng)估已學(xué)習(xí)好的模型。
圖1 利用機(jī)器學(xué)習(xí)方法檢測(cè)抑郁癥的一般流程Fig.1 General process of detecting depression using machine learning
目前,廣泛使用在社交媒體文本中檢測(cè)抑郁癥的傳統(tǒng)機(jī)器學(xué)習(xí)算法有邏輯回歸(logistic regression,LR)、決策樹(decision tree,DT)、支持向量機(jī)(support vector machine,SVM)、樸素貝葉斯(naive Bayes,NB)和隨機(jī)森林(random forest,RF)等。而隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)和基于Transformers 的雙向編碼器表示(bidirectional encoder representation from transformers,BERT)等算法得以推廣和使用。
衡量抑郁癥檢測(cè)算法性能的常用評(píng)價(jià)指標(biāo)有準(zhǔn)確率(accuracy,Acc)、精確率(precision,P)、召回率(recall,R)和F1 值。而這些評(píng)價(jià)指標(biāo)沒有考慮到時(shí)間因素,對(duì)此Losada 等人[15]提出了早期風(fēng)險(xiǎn)檢測(cè)誤差(early risk detection error,ERDE)指標(biāo)。該指標(biāo)同時(shí)考慮二元決策的正確性和模型做出決策所用的延遲,而延遲通過在模型給出預(yù)測(cè)之前所輸入文章(帖子或評(píng)論)的數(shù)量(k)來衡量。ERDE指標(biāo)的計(jì)算如式(1)所示:
其中,d為模型所做出的決策,gt為黃金真理(golden truth),cfp和cfn分別為假陽(yáng)性和假陰性的代價(jià)。函數(shù)lco(k)(∈[0,1])代表檢測(cè)真陽(yáng)性的延遲的代價(jià),其計(jì)算公式如式(2)所示。o為延遲成本函數(shù)中代價(jià)增長(zhǎng)更快的k軸的位置,也是lco和ERDEo的下標(biāo),決定著延遲做出決定的代價(jià)的高昂程度。圖2為lc5(k)和lc50(k)的函數(shù)圖像。ctp通常被設(shè)置為與cfn相同的值。在抑郁癥數(shù)據(jù)集中,假設(shè)共有p個(gè)不同的個(gè)體,因此模型將做出p個(gè)決定,總體ERDE值將是這p個(gè)ERDE值的平均值。
圖2 延遲成本函數(shù)lc5(k)和lc50(k)Fig.2 Latency cost functions lc5(k)and lc50(k)
社交媒體文本數(shù)據(jù)主要來源于各社交媒體中用戶發(fā)布的帖子和評(píng)論。研究者們用于抑郁癥檢測(cè)的數(shù)據(jù)一般是從Reddit、Twitter和新浪微博等平臺(tái)上爬取或使用API獲取。目前,常用的公開數(shù)據(jù)集較少,主要有RSDD(Reddit self-reported depression diagnosis)數(shù)據(jù)集[16]、ERisk(early risk prediction on the Internet)任務(wù)中的抑郁癥早期檢測(cè)數(shù)據(jù)集ERiskD 2017[17]和ERiskD 2018[18]、CLPsych 2015(computational linguistics and clinical psychology)共享任務(wù)中用于抑郁癥檢測(cè)任務(wù)的數(shù)據(jù)集CLPD[19]和由Shen 等人利用Twitter API 創(chuàng)建的抑郁癥檢測(cè)數(shù)據(jù)集MDDL[1]。上述數(shù)據(jù)集由用戶發(fā)布的帖子集合構(gòu)成,一般根據(jù)用戶自我陳述的診斷(諸如“我已經(jīng)被診斷為抑郁癥”等)和人工審查進(jìn)行標(biāo)注。各數(shù)據(jù)集的統(tǒng)計(jì)信息見表1。
表1 常用公開數(shù)據(jù)集統(tǒng)計(jì)信息Table 1 Statistics of common public datasets
原始數(shù)據(jù)經(jīng)過基礎(chǔ)預(yù)處理和特征工程生成文本表示,然后輸入機(jī)器學(xué)習(xí)模型進(jìn)行分類檢測(cè)。基礎(chǔ)預(yù)處理一般包含數(shù)據(jù)清洗、分詞和標(biāo)準(zhǔn)化等步驟,其意義在于減少詞匯量和非重要信息所帶來的干擾。特征工程旨在從原始語(yǔ)料或經(jīng)過基礎(chǔ)預(yù)處理的文本數(shù)據(jù)中生成計(jì)算機(jī)能夠理解的數(shù)值化數(shù)據(jù)。
自然語(yǔ)言處理中的文本表示可分為基礎(chǔ)特征表示、靜態(tài)詞嵌入和語(yǔ)境詞嵌入,具體如圖3所示?;A(chǔ)特征表示需人工構(gòu)建特征以表示文本,通常與傳統(tǒng)機(jī)器學(xué)習(xí)方法搭配使用,也可以作為深度學(xué)習(xí)的輸入;靜態(tài)詞嵌入和語(yǔ)境詞嵌入則一般與深度學(xué)習(xí)結(jié)合使用。
圖3 文本表示分類Fig.3 Classification of text representation
基礎(chǔ)特征表示能夠提取文本中的關(guān)鍵信息,甚至能夠考慮到單詞出現(xiàn)的次序,但是不能夠結(jié)合上下文語(yǔ)義信息,而上下文語(yǔ)義信息在自然語(yǔ)言理解中至關(guān)重要。靜態(tài)詞嵌入的方法表達(dá)了單詞原本的含義、單詞相似度甚至是上下文關(guān)系,通常與深度神經(jīng)網(wǎng)絡(luò)配合使用,在自然語(yǔ)言處理中具有不錯(cuò)的效果?;谡Z(yǔ)境的詞嵌入盡可能地學(xué)習(xí)單詞的上下文語(yǔ)義,其極大規(guī)模的數(shù)據(jù)量、訓(xùn)練強(qiáng)度和模型容量,以及利用無監(jiān)督模型的訓(xùn)練方式,使得它擁有強(qiáng)大的語(yǔ)言表征能力和特征提取能力,在多項(xiàng)自然語(yǔ)言處理任務(wù)中表現(xiàn)優(yōu)異。
傳統(tǒng)機(jī)器學(xué)習(xí)利用社交媒體文本數(shù)據(jù)對(duì)用戶進(jìn)行抑郁癥檢測(cè)主要分為兩個(gè)研究方向:基于不同特征的研究和基于不同機(jī)器學(xué)習(xí)算法的研究。基于不同特征檢測(cè)抑郁癥專注于發(fā)掘多樣、可靠的特征,其使用的算法通常是諸如支持向量機(jī)等經(jīng)典的單一算法;基于不同機(jī)器學(xué)習(xí)算法的研究則側(cè)重于構(gòu)建更復(fù)雜、綜合的算法。
運(yùn)用傳統(tǒng)機(jī)器學(xué)習(xí)進(jìn)行抑郁癥檢測(cè)前,需要從用戶帖子中人為構(gòu)建特征。不同基礎(chǔ)特征及其特點(diǎn)如表2所示。其中語(yǔ)言特征能夠顯示抑郁癥患者與心理健康者不同的語(yǔ)言風(fēng)格,進(jìn)而揭示兩者不同的心理過程。常用的語(yǔ)言特征是語(yǔ)言探索與字詞計(jì)數(shù)(linguistic inquiryand word count,LIWC)。LIWC將文本中的單詞與特定詞典進(jìn)行比對(duì),從而輸出單詞的類別和詞頻。Nguyen等人[20]證明了LIWC在帖子級(jí)別預(yù)測(cè)抑郁癥時(shí)顯示出強(qiáng)大的指示力。Fatima等人[21]利用LIWC對(duì)抑郁癥帖子和非抑郁癥帖子進(jìn)行了較好的區(qū)分。
表2 不同基礎(chǔ)特征及其特點(diǎn)Table 2 Various basic features and their characteristics
語(yǔ)言特征提供了解釋抑郁的能力,且僅通過分析單詞語(yǔ)義就能夠使用,但是它更適合于新聞或文章等正式文檔,而非社交媒體帖子等非正式或口語(yǔ)文檔。與基于語(yǔ)言模式的方法相比,基于詞袋(bag of words,BOW)和詞頻逆向文件詞頻(term frequency inverse document frequency,TF-IDF)等統(tǒng)計(jì)特征通過統(tǒng)計(jì)單詞頻率,從而充分利用關(guān)鍵字的原始含義[22]且通用性更強(qiáng)。Prieto 等人[23]使用簡(jiǎn)單的詞袋模型,提取N-Gram 特征并應(yīng)用基于相關(guān)性的特征選擇后進(jìn)行抑郁癥的檢測(cè),實(shí)現(xiàn)了較好的分類精度和速度提升。Dos Santos 等人[12]則發(fā)現(xiàn)TF-IDF可以從非常小的數(shù)據(jù)集中做出潛在有用的預(yù)測(cè)。
對(duì)于精神疾病的檢測(cè)而言,諸如主題和情緒等領(lǐng)域知識(shí)特征顯示出良好的有效性。通常,抑郁癥患者與心理健康用戶所感興趣的主題有所不同,因此可根據(jù)談?wù)撝黝}的區(qū)別將兩類人群進(jìn)行有效區(qū)分。例如,Nguyen等人[24]發(fā)現(xiàn)主題和語(yǔ)言心理特征是高度有效的預(yù)測(cè)因子,聯(lián)合兩種特征在帖子級(jí)別檢測(cè)抑郁癥,達(dá)到了很好的效果。基于情緒的特征則能從更抽象的情緒方面提供信息且更具相關(guān)性,同樣可以有效地揭示抑郁癥患者和心理健康用戶之間的差異。例如,Chen等人[25]在LIWC的基礎(chǔ)上加入一組細(xì)粒度情感特征,證明了情感特征的有效性。Leiva 等人[26]引入TF-IDF 的同時(shí),還引入了三情感極性特征(積極、中性、消極情緒),證明包含情感分析的方法比僅利用TF-IDF的方法更準(zhǔn)確。
除了利用語(yǔ)言、統(tǒng)計(jì)和領(lǐng)域知識(shí)特征外,不少學(xué)者對(duì)輔助特征進(jìn)行了探索。輔助特征例如用戶的行為特征和生活模式特征等,通常作為上述特征的補(bǔ)充,能夠從更為現(xiàn)實(shí)和細(xì)致的角度將抑郁癥用戶和健康用戶進(jìn)行對(duì)比,并且可利用的信息也更加全面。Hu 等人[27]在語(yǔ)言特征的基礎(chǔ)上加入行為特征,并比較不同時(shí)間觀察窗口下模型的分類精度,發(fā)現(xiàn)語(yǔ)言和行為特征可以準(zhǔn)確識(shí)別用戶是否抑郁,而在觀察時(shí)間為2 個(gè)月時(shí),效果最好。Chen等人[25]組合LIWC和生活模式特征,證明了組合特征的有效性。
整體看來,在基于社交媒體文本數(shù)據(jù)的抑郁癥檢測(cè)中,最原始的單一特征往往缺乏足夠的信息,因而更多的特征被不斷探索和加入。在綜合的特征下,用戶的各種信息能夠得到利用,但是過多的甚至冗余的特征又會(huì)使模型運(yùn)行效率下降。因此在利用傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行抑郁癥檢測(cè)的領(lǐng)域中,構(gòu)建何種特征以及如何選擇具有代表性的特征仍然是一個(gè)重要問題;此外,如何構(gòu)建合適的學(xué)習(xí)算法以和選擇的特征相匹配,從而使模型發(fā)揮更好的性能,也是值得考慮的問題。
在機(jī)器學(xué)習(xí)中,特征的構(gòu)建和選擇至關(guān)重要,而學(xué)習(xí)算法的選擇和改進(jìn)同樣舉足輕重,二者相輔相成。在基于社交媒體文本數(shù)據(jù)的抑郁癥檢測(cè)中,研究者們對(duì)于算法的研究旨在匹配多種特征以提高檢測(cè)性能,解決標(biāo)記數(shù)據(jù)量少和不支持增量學(xué)習(xí)等現(xiàn)實(shí)問題,以及進(jìn)行抑郁癥的早期檢測(cè)等。
綜合的特征能夠較為全面地包含抑郁癥用戶的信息,但是并不是所有的學(xué)習(xí)算法都能夠與之進(jìn)行匹配而發(fā)揮出良好的效果。為此,許多學(xué)者進(jìn)行了探索。例如,Peng等人[28]基于用戶檔案特征、用戶行為特征和帖子文本特征,提出使用多核支持向量機(jī)進(jìn)行抑郁文本分類。多核支持向量機(jī)能夠針對(duì)不同特征自適應(yīng)選擇最優(yōu)核,因而相比于單一核的支持向量機(jī)性能更好。盡管多核支持向量機(jī)性能表現(xiàn)良好,但仍存在一些限制,比如不適合更大的數(shù)據(jù)集,對(duì)缺失數(shù)據(jù)更敏感等。而集成學(xué)習(xí)能夠克服單一分類器的局限,從而在檢測(cè)性能和泛化性上得到提升。例如,Liu等人[29]使用特征選擇方法,將多個(gè)單一分類器作為基學(xué)習(xí)器,并將邏輯回歸作為組合策略來構(gòu)建堆疊模型。提出的模型既能夠降低數(shù)據(jù)維度,提高模型效率,又克服了單一模型自身的局限性,提升了模型的泛化性,在抑郁癥患者識(shí)別中的準(zhǔn)確率高達(dá)90.27%。
經(jīng)典機(jī)器學(xué)習(xí)在社交媒體上識(shí)別抑郁癥要么需要足夠的歷史數(shù)據(jù),要么不支持增量學(xué)習(xí)。為解決這些問題,Tariq 等人[30]采用聯(lián)合了隨機(jī)森林、支持向量機(jī)和樸素貝葉斯的半監(jiān)督聯(lián)合訓(xùn)練模型。提出的模型只需要少量的標(biāo)記數(shù)據(jù)便可將大量未標(biāo)記的數(shù)據(jù)進(jìn)行標(biāo)記,從而節(jié)省了大量的人力成本。Burdisso等人[31]提出支持在文本流上進(jìn)行增量訓(xùn)練的SS3模型,在抑郁癥早期檢測(cè)方面取得了先進(jìn)的表現(xiàn)。SS3模型雖然表現(xiàn)突出,但是存在的一個(gè)缺陷是模型的輸入部分使用詞袋進(jìn)行處理,因而無法考慮文本詞序等問題。
經(jīng)典的抑郁癥檢測(cè)方法時(shí)效性差,原因在于抑郁癥檢測(cè)需要患者首先能夠意識(shí)到自身的心理問題,其次需要患者克服病恥感去求醫(yī),這一過程往往需要很長(zhǎng)時(shí)間。通?;颊弑淮_診為抑郁癥時(shí),已經(jīng)到達(dá)嚴(yán)重的程度甚至存在自殺的傾向??紤]到這些問題,許多學(xué)者對(duì)抑郁癥的早期檢測(cè)進(jìn)行了研究。Briand 等人[32]認(rèn)為來自新用戶的帖子若在語(yǔ)義上接近風(fēng)險(xiǎn)用戶的帖子,則新用戶也可能處于患抑郁癥的風(fēng)險(xiǎn)中。為此,構(gòu)建了信息檢索子系統(tǒng)和監(jiān)督學(xué)習(xí)子系統(tǒng),每個(gè)子系統(tǒng)的預(yù)測(cè)輸出根據(jù)一種決策算法進(jìn)行合并。提出的模型不僅能夠檢測(cè)現(xiàn)有用戶的患病情況,而且能夠盡早地對(duì)新增用戶進(jìn)行抑郁癥的檢測(cè)。Cacheda等人[10]提出雙例方法進(jìn)行抑郁癥的早期檢測(cè)。雙例方法使用兩個(gè)獨(dú)立的隨機(jī)森林分類器,一個(gè)用于檢測(cè)抑郁個(gè)體,另一個(gè)用于識(shí)別非抑郁個(gè)體,兩個(gè)選項(xiàng)(抑郁和非抑郁)獨(dú)立預(yù)測(cè),從而避免了單例方法中兩選項(xiàng)相互競(jìng)爭(zhēng)所造成的延遲。結(jié)果表明,雙例方法的性能明顯優(yōu)于單例方法,并且能夠?qū)?dāng)前最先進(jìn)的模型檢測(cè)性能提高10%以上。
總體來看,在利用傳統(tǒng)機(jī)器學(xué)習(xí)進(jìn)行抑郁癥檢測(cè)上,特征的構(gòu)建和選擇已經(jīng)較為全面和成熟,并且匹配多特征的算法也取得了良好的成果。但是當(dāng)前研究對(duì)于標(biāo)記數(shù)據(jù)量少等現(xiàn)實(shí)問題的探索較少,這在未來應(yīng)當(dāng)加強(qiáng)。此外,已有部分研究者對(duì)于抑郁癥的早期檢測(cè)進(jìn)行探究,并且提出了新穎的方法,但是總體上,此類算法所取得的效果仍具有一定的提升空間。
抑郁癥檢測(cè)中的傳統(tǒng)機(jī)器學(xué)習(xí)算法總結(jié)如表3所示。
表3 抑郁癥檢測(cè)中的傳統(tǒng)機(jī)器學(xué)習(xí)算法總結(jié)Table 3 Summary of traditional machine learning algorithms for depression detection
傳統(tǒng)機(jī)器學(xué)習(xí)需要人工構(gòu)建大量特征,但是構(gòu)建有效的特征往往會(huì)耗費(fèi)研究者大量的時(shí)間和精力,而深度學(xué)習(xí)能夠基于原始文本向量自動(dòng)進(jìn)行特征提取,并且擁有對(duì)事物進(jìn)行抽象概括的能力。在許多情況尤其是擁有大量數(shù)據(jù)時(shí),深度學(xué)習(xí)表現(xiàn)出優(yōu)秀的性能。在基于社交媒體文本數(shù)據(jù)的抑郁癥檢測(cè)中,常用的深度學(xué)習(xí)算法有CNN、RNN,加入注意力組件的算法和基于Transformers的BERT等。
在基于社交媒體文本數(shù)據(jù)的抑郁癥檢測(cè)中,CNN由于強(qiáng)大的特征抽取能力而被研究和使用。利用CNN進(jìn)行抑郁癥檢測(cè)的基本框架如圖4 所示。文本數(shù)據(jù)通過詞嵌入技術(shù)轉(zhuǎn)化為數(shù)值化數(shù)據(jù),形成詞嵌入矩陣;然后利用多個(gè)不同大小的卷積核進(jìn)行卷積操作;最后通過池化層和全連接層后輸出為二分類結(jié)果。
圖4 基于CNN的抑郁癥檢測(cè)框架Fig.4 Depression detection framework based on CNN
在應(yīng)用中,Trotzek等人[33]將基于維基百科的FastText預(yù)訓(xùn)練詞嵌入輸入CNN,同時(shí)利用邏輯回歸處理用戶級(jí)語(yǔ)言元數(shù)據(jù),最后將兩者的輸出進(jìn)行簡(jiǎn)單融合進(jìn)而分類。結(jié)果顯示,構(gòu)建的模型在抑郁癥的早期檢測(cè)中的綜合性能最好??紤]到現(xiàn)實(shí)數(shù)據(jù)大多存在類別不平衡的問題,Kim 等人[34]在CNN 基礎(chǔ)上加入SMOTE(synthetic minority oversampling technique),從而克服了數(shù)據(jù)的類別不平衡帶來的性能損失。在利用CNN進(jìn)行特征提取過程中,門控單元能夠突出重要信息和剔除不重要信息,找出問題的關(guān)鍵影響因素和減少網(wǎng)絡(luò)的參數(shù)量,使得模型性能進(jìn)一步提升。Rao 等人[35]在CNN 中加入門控單元,結(jié)合門控單元的CNN 擁有強(qiáng)特征抽取能力的同時(shí)可以過濾掉不重要的信息,因而模型能夠選擇性地捕捉用戶帖子中的關(guān)鍵情緒信息,具有較強(qiáng)的檢測(cè)性能和穩(wěn)定性。
CNN 能夠提取文本中的局部信息,且具有良好的并行計(jì)算能力,但是無法捕捉長(zhǎng)距離的文本語(yǔ)義信息。相較于CNN,RNN 由于引入了記憶單元而能夠存儲(chǔ)先前文本的信息,在文本數(shù)據(jù)的處理上具有一定優(yōu)勢(shì)。RNN的基本框架如圖5所示。RNN單元按次序讀取各個(gè)單詞的詞嵌入信息,其中hi為隱藏層的輸出單元,包含了上一時(shí)間步hi-1的信息。傳統(tǒng)的RNN存在梯度消失(gradient vanishing)問題,為此學(xué)者們提出RNN的變體模型LSTM(long short-term memory)和GRU(gated recurrent unit),旨在解決傳統(tǒng)RNN的梯度消失問題。
圖5 RNN基本框架Fig.5 Basic framework of RNN
在利用RNN 及其變體LSTM 進(jìn)行抑郁癥檢測(cè)中,Amanat等人[36]構(gòu)建了RNN-LSTM模型,證明了RNN性能優(yōu)于CNN。而與LSTM相比,BiLSTM增加了對(duì)后文的訓(xùn)練,充分利用了前后文的語(yǔ)義信息,能夠使序列分類問題的模型性能得以提升。Ahmad 等人[37]提出使用BiLSTM進(jìn)行抑郁癥檢測(cè),通過對(duì)比發(fā)現(xiàn),BiLSTM在各項(xiàng)指標(biāo)上都優(yōu)于LSTM,但是未考慮數(shù)據(jù)類別不平衡問題;Cong 等人[38]構(gòu)建了X-A-BiLSTM 模型,發(fā)現(xiàn)在BiLSTM上使用XGBoost能夠緩解數(shù)據(jù)不平衡問題。
理論上,CNN-RNN體系結(jié)構(gòu)擁有CNN優(yōu)秀的特征提取能力和RNN 的序列建模能力,在基于社交媒體文本數(shù)據(jù)的抑郁癥檢測(cè)中,有學(xué)者對(duì)其進(jìn)行了探索。Aragón等人[39]將用戶帖子的內(nèi)容轉(zhuǎn)化為子情緒序列,通過CNN 提取特征后,使用雙向門控循環(huán)單元(BiGRU)捕獲子情緒序列的上下文,最后利用注意力機(jī)制提取句子中的重要子情緒。研究發(fā)現(xiàn),提出的模型相較于單一的CNN 和RNN,精度提升了7%和12%。同時(shí),在數(shù)據(jù)規(guī)模較小時(shí),標(biāo)準(zhǔn)CNN 和RNNN 性能不及傳統(tǒng)機(jī)器學(xué)習(xí)方法。Zogan 等人[40]構(gòu)建由堆疊BiGRU 和CNN 與結(jié)合注意力的BiGRU 組合的DepressionNet 框架,其中堆疊BiGRU 用于處理用戶行為特征,CNN 與結(jié)合注意力的BiGRU 用于提取用戶帖子的摘要,通過將用戶行為和用戶發(fā)帖史進(jìn)行融合來自動(dòng)檢測(cè)抑郁癥。實(shí)驗(yàn)表明,CNN+BiGRU模型已經(jīng)達(dá)到不錯(cuò)的精度,而提出的模型相較于CNN+BiGRU 在各項(xiàng)指標(biāo)中至少提升了2%的性能。
在抑郁癥檢測(cè)中,注意力機(jī)制能夠?qū)π畔⑦M(jìn)行權(quán)重分配,即賦予與抑郁癥相關(guān)的重要信息更高的權(quán)重,從而使模型學(xué)習(xí)到用戶帖子中包含的關(guān)鍵信息,提升檢測(cè)性能。在社交媒體中,許多精神疾病患者傾向于通過隱喻等方式間接表達(dá)自己的感受和情緒[41-42]。鑒于此,Zhang等人[43]提出MAM(metaphor-based attention model)模型,試圖通過發(fā)掘隱喻中的關(guān)鍵信息來更好地檢測(cè)抑郁癥。MAM 模型通過RNN_MHCA(recurrent neural network multi-head contextual attention)[44-45]模塊獲得句子隱喻和文本隱喻特征,然后基于隱喻特征計(jì)算注意權(quán)重。實(shí)驗(yàn)表明,帶有注意力的MAM模型能夠?qū)W習(xí)到用戶隱性情緒信息,并且證實(shí)了隱喻信息在抑郁癥檢測(cè)中的有效性。同樣,Almars[46]提出使用注意機(jī)制來分析與抑郁癥相關(guān)的阿拉伯語(yǔ)文本數(shù)據(jù),在BiLSTM的基礎(chǔ)上加入注意力機(jī)制,從而使模型學(xué)習(xí)到抑郁癥的重要隱藏特征。相較于BiLSTM,提出的模型在準(zhǔn)確率方面提升了3%。Ren 等人[47]提出包含注意力機(jī)制的EAN(emotion-based attention network)模型。實(shí)驗(yàn)中,Ren等人通過模型對(duì)比證明了注意力機(jī)制能夠有效提升模型性能,并且證實(shí)了情感語(yǔ)義信息在抑郁癥檢測(cè)中的有效性。
注意力機(jī)制不僅能夠提高模型性能,而且能通過可視化其權(quán)重分?jǐn)?shù),分析與抑郁癥強(qiáng)相關(guān)的單詞和句子,從而為發(fā)掘抑郁癥的重要關(guān)聯(lián)因素提供線索。Song等人[48]提出的特征注意網(wǎng)絡(luò)(feature attention network,F(xiàn)AN)綜合了用戶的抑郁癥狀、情感、反復(fù)性思考和寫作風(fēng)格特征,能夠模擬專家對(duì)抑郁癥進(jìn)行診斷的過程。FAN模型通過分析注意力權(quán)重來產(chǎn)生解釋性,并證實(shí)了情感信息在抑郁癥檢測(cè)中的重要作用,但是模型的總體性能并不算杰出。Uban等人[49]結(jié)合情感等信息,將層次注意網(wǎng)絡(luò)(hierarchical attention networks,HAN)用于抑郁癥的檢測(cè),最后通過分析網(wǎng)絡(luò)層中數(shù)據(jù)的抽象表示等方法充分解釋了模型預(yù)測(cè)。但是HAN模型更多地是對(duì)文本語(yǔ)言相關(guān)信息的考慮,而忽略了對(duì)用戶行為、時(shí)間等特征的建模。Zogan 等人[50]提出基于HAN 的混合模型MDHAN(multi-aspect depression detection hierarchical attention network)。該模型結(jié)合文本、行為、時(shí)間和語(yǔ)義方面的特征,提高了預(yù)測(cè)性能,并通過分析注意力權(quán)重解釋了模型預(yù)測(cè)方法,但是該模型尚缺乏對(duì)于情感的分析。
Transformer模型利用了自注意力編碼器,能夠自主發(fā)掘同一句子中各單詞之間的相關(guān)性,從而獲得更深層次的編碼信息。此外,Transformer完全拋棄了類似循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的使用,使得運(yùn)算速度和對(duì)于長(zhǎng)句的處理能力大幅提升,而基于兩層雙向Transformers 的BERT預(yù)訓(xùn)練語(yǔ)言模型,更是具有強(qiáng)大的對(duì)語(yǔ)義信息建模的能力,其網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示。BERT 需將句子前后分別加入標(biāo)識(shí)符作為分隔,然后將單詞的位置信息、段落信息和單詞嵌入作為兩層Transformer 編碼器的輸入。BERT 既可以作為一種詞嵌入技術(shù),也可在其后直接加上一個(gè)簡(jiǎn)單的分類器作為分類模型。
圖6 BERT模型結(jié)構(gòu)Fig.6 Structure of BERT model
在抑郁癥檢測(cè)領(lǐng)域,Yadav 等人[51]率先提出一種新的基于BERT 的多任務(wù)學(xué)習(xí)框架FiLaMTL(figurative language enabled multi-task learning framework)。該框架能夠通過檢測(cè)比喻用法的輔助任務(wù)來準(zhǔn)確識(shí)別抑郁癥狀。研究結(jié)果顯示,BERT具有強(qiáng)特征提取能力,但是在通用語(yǔ)料上訓(xùn)練的BERT 不能夠很好地適應(yīng)特定領(lǐng)域。同時(shí),實(shí)驗(yàn)結(jié)果也充分證明了引入比喻用法檢測(cè)對(duì)抑郁癥狀識(shí)別的有效性。相比通用的預(yù)訓(xùn)練模型,領(lǐng)域內(nèi)預(yù)訓(xùn)練能夠?qū)W習(xí)到特定領(lǐng)域中數(shù)據(jù)的分布,往往在特定領(lǐng)域中表現(xiàn)更佳。Wang 等人[52]運(yùn)用BERT 在抑郁癥數(shù)據(jù)集進(jìn)行領(lǐng)域內(nèi)預(yù)訓(xùn)練(in-domain pretraining,IDP),發(fā)現(xiàn)在抑郁癥檢測(cè)和抑郁程度分類任務(wù)中,領(lǐng)域內(nèi)預(yù)訓(xùn)練的BERT在所有提出的基于Transformers的模型中取得最佳性能。為解決經(jīng)典BERT 模型因體量巨大而難以在實(shí)際應(yīng)用中部署等問題,Zeberga 等人[53]提出了一個(gè)新的框架,該框架應(yīng)用將知識(shí)從大型預(yù)訓(xùn)練網(wǎng)絡(luò)(BERT)轉(zhuǎn)移到小型網(wǎng)絡(luò)(Distiled_BERT)的知識(shí)蒸餾技術(shù)。相較于BERT,Distiled_BERT不僅進(jìn)一步提升了檢測(cè)性能,而且模型的體量相對(duì)較小。在對(duì)結(jié)構(gòu)進(jìn)行了改進(jìn)的BERT 的應(yīng)用中,Khan 等人[54]采用DeBERTa(decoding-enhanced BERT with disentangled attention)模型進(jìn)行抑郁癥與其他疾病的區(qū)分。DeBERTa 的改進(jìn)之處在于引入了解耦注意力機(jī)制和增強(qiáng)型掩碼解碼器,因而能夠同時(shí)考慮詞匯的內(nèi)容、相對(duì)位置與絕對(duì)位置信息,即充分地學(xué)習(xí)了單詞的內(nèi)容及其依賴關(guān)系,在與多個(gè)先進(jìn)模型的對(duì)比中,該模型在區(qū)分抑郁癥與其他疾病方面表現(xiàn)最佳。
綜上,在利用深度學(xué)習(xí)模型進(jìn)行抑郁癥檢測(cè)的研究中,研究者們從平衡數(shù)據(jù)類別、特征提取方法和結(jié)合多維度特征等角度進(jìn)行了探索并取得了較好效果??傮w看來,相較于傳統(tǒng)機(jī)器學(xué)習(xí),深度學(xué)習(xí)由于能夠自動(dòng)提取特征而具有更強(qiáng)的穩(wěn)定性和泛化性,且能夠達(dá)到更杰出的檢測(cè)性能。但是深度學(xué)習(xí)模型的參數(shù)量相對(duì)較大,且往往需要大規(guī)模數(shù)據(jù)的支撐,在小數(shù)據(jù)集上深度學(xué)習(xí)的性能可能不及傳統(tǒng)機(jī)器學(xué)習(xí)。在深度學(xué)習(xí)方法上,需要關(guān)注的是注意力機(jī)制和BERT 預(yù)訓(xùn)練模型。注意力機(jī)制能夠提升模型性能,并且能夠?yàn)槟P皖A(yù)測(cè)提供一定的解釋性,具有在臨床進(jìn)行應(yīng)用的潛力。BERT 類模型雖然具有強(qiáng)特征提取能力,能夠提取文本中表示抑郁的關(guān)鍵信息,從而達(dá)到可觀的性能。但是其結(jié)構(gòu)較為復(fù)雜,模型參數(shù)量巨大,不利于進(jìn)行重新訓(xùn)練。而使用通用的預(yù)訓(xùn)練BERT模型又勢(shì)必會(huì)造成性能上的損失,尤其是在抑郁癥這類具有醫(yī)學(xué)特點(diǎn)的領(lǐng)域。
抑郁癥檢測(cè)中的深度學(xué)習(xí)算法總結(jié)如表4所示。
表4 抑郁癥檢測(cè)中的深度學(xué)習(xí)算法總結(jié)Table 4 Summary of deep learning algorithms for depression detection
社交媒體日益成為人們情感表達(dá)的平臺(tái),抑郁癥等心理疾病也逐漸成為人們關(guān)注的焦點(diǎn),從社交媒體用戶發(fā)布的文本信息中尋找抑郁癥的線索,已被諸多學(xué)者探索和研究。本文基于上述文獻(xiàn)總結(jié)當(dāng)前研究的不足并大膽地對(duì)未來研究方向進(jìn)行展望。
(1)缺乏中文數(shù)據(jù)集。數(shù)據(jù)是進(jìn)行科學(xué)研究的基礎(chǔ),而當(dāng)前國(guó)內(nèi)尚缺乏大型公開公認(rèn)的社交媒體中文抑郁癥數(shù)據(jù)集,這在一定程度上限制了國(guó)內(nèi)抑郁癥領(lǐng)域的研究和發(fā)展。
(2)模型對(duì)于抑郁癥的解釋不夠深入。雖然當(dāng)前已有許多研究者致力于研究模型的解釋性,但其是以分析注意力權(quán)重為主。此類分析僅能夠展示與抑郁癥強(qiáng)相關(guān)的單詞和句子,而不能揭示抑郁癥的發(fā)病機(jī)理以及模型的推理過程。
(3)缺乏基于隱喻的抑郁癥檢測(cè)研究?;加幸钟舭Y等精神疾病的人群在隱喻的用詞上與普通人群有所差異,當(dāng)前也有少數(shù)研究證實(shí)了發(fā)掘隱喻等表達(dá)在區(qū)分抑郁癥患者和普通人群中的有效性??傮w來看,目前基于隱喻的檢測(cè)是一種較新的思路和方法,擁有較大的研究空間。
(4)BERT 模型訓(xùn)練成本高。當(dāng)前的BERT 模型普遍存在著參數(shù)量巨大、對(duì)數(shù)據(jù)量要求高和耗費(fèi)資源大等問題,這些缺陷使得研究者只能在公開的、已訓(xùn)練完成的模型上進(jìn)行微調(diào),而沒有充足的資源進(jìn)行從頭訓(xùn)練,從而難以對(duì)模型本身做出改進(jìn)和提出適用于抑郁癥領(lǐng)域的高精度模型。
(1)中文數(shù)據(jù)集的創(chuàng)建可以借鑒國(guó)外數(shù)據(jù)集構(gòu)建的思路,即可以通過在微博等社交媒體平臺(tái)結(jié)合自動(dòng)篩選用戶自我診斷的陳述和人工審查的方式創(chuàng)建中文數(shù)據(jù)集。此外,在數(shù)據(jù)集樣本標(biāo)注較少的情況下,構(gòu)建弱監(jiān)督學(xué)習(xí)方法進(jìn)行抑郁癥檢測(cè)將是重要的研究方向。
(2)當(dāng)前構(gòu)建的模型多以數(shù)據(jù)為驅(qū)動(dòng),這樣的模型難以去深入發(fā)掘內(nèi)部的運(yùn)行過程,而如果將模型嵌入抑郁癥知識(shí),讓模型去學(xué)習(xí)人類進(jìn)行知識(shí)推理的過程,或許能夠清晰地解釋模型及其運(yùn)行結(jié)果。因此,將抑郁癥知識(shí),例如以知識(shí)圖譜的形式與深度學(xué)習(xí)方法進(jìn)行結(jié)合,從而構(gòu)建具有解釋性的抑郁癥檢測(cè)模型,是非常具有現(xiàn)實(shí)意義的方向。
(3)目前基于隱喻的抑郁癥檢測(cè)尚處于起步階段,隱喻特征與抑郁癥等精神疾病的內(nèi)在聯(lián)系還有待進(jìn)一步論證和研究,并且如何構(gòu)建模型以發(fā)掘隱喻特征也應(yīng)當(dāng)予以大量研究。
(4)BERT模型具有強(qiáng)特征提取能力,但是因其訓(xùn)練成本過高而限制了在領(lǐng)域中的應(yīng)用。因此,在保證精度的前提下,探索更精簡(jiǎn)、效率更高的BERT 模型或者其他預(yù)訓(xùn)練模型,是未來應(yīng)繼續(xù)重點(diǎn)關(guān)注的話題。