劉海鷗,姚蘇梅,何旭濤,蘇妍嫄
1(燕山大學(xué) 經(jīng)濟(jì)管理學(xué)院,河北 秦皇島 066004) 2(燕山大學(xué) 互聯(lián)網(wǎng)+與產(chǎn)業(yè)發(fā)展研究中心,河北 秦皇島 066004)
隨著移動(dòng)社交網(wǎng)絡(luò)的發(fā)展和普及,越來(lái)越多的抑郁癥患者傾向于通過(guò)在線健康社區(qū)宣泄情感、表達(dá)自我訴求.在線健康社區(qū)內(nèi)容具有文本長(zhǎng)度短小、形式趨于口語(yǔ)化、語(yǔ)義特征復(fù)雜等特征,傳統(tǒng)機(jī)器學(xué)習(xí)的情感判別方法以及基于詞典的情感判別方法難以精準(zhǔn)有效挖掘在線健康社區(qū)文本的語(yǔ)義特征.因此,如何利用人工智能技術(shù),精準(zhǔn)識(shí)別出在線健康社區(qū)用戶(hù)的情感傾向與抑郁程度,從而輔助抑郁癥患者的有效治療,成為當(dāng)前學(xué)術(shù)界和業(yè)界關(guān)注的熱點(diǎn)問(wèn)題.
部分學(xué)者對(duì)涉及在線健康社區(qū)用戶(hù)參與行為的影響因素、參與行為類(lèi)型、評(píng)論信息挖掘等問(wèn)題進(jìn)行了一定程度的研究.Naslund JA[1]通過(guò)研究證明在線健康社區(qū)中患有精神疾病的用戶(hù)可以通過(guò)與其他人的交流,獲得一定的醫(yī)療保健決策信息.H.Erin Lee等[2]對(duì)韓國(guó)殘障人士使用社交媒體及在線健康社區(qū)進(jìn)行了調(diào)查,通過(guò)研究得出,這些用戶(hù)的在線健康社區(qū)大數(shù)據(jù)可以在一定程度上改善用戶(hù)的心理健康水平,且較高的在線健康社區(qū)使用量可以有效緩解用戶(hù)的抑郁癥狀.Zhao J等[3]從在線健康社區(qū)用戶(hù)評(píng)論分析的角度出發(fā),通過(guò)構(gòu)建用戶(hù)投票采用模型,分析不同因素如何影響在線健康社區(qū)中的用戶(hù)評(píng)論.Smailhodzic[4]等針對(duì)患者使用在線健康社區(qū)的目的將其分為不同類(lèi)型,并對(duì)患者的網(wǎng)絡(luò)信息行為進(jìn)行了分析,發(fā)現(xiàn)在線健康社區(qū)抑郁癥患者在個(gè)人健康信息管理行為水平上存在顯著的高低差異.上述研究均從文本的主題特征或者在線評(píng)論的數(shù)量屬性、時(shí)間屬性進(jìn)行分析,基于文本情感角度對(duì)在線健康社區(qū)用戶(hù)的情感傾向與抑郁程度進(jìn)行深度挖掘的相關(guān)研究很少.
作為機(jī)器學(xué)習(xí)的一個(gè)分支,深度學(xué)習(xí)經(jīng)常用來(lái)處理文本情感信息的深度挖掘,常用的模型主要包括如下3種:①基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的情感分類(lèi)模型.該模型被大量應(yīng)用于圖像識(shí)別、句子匹配、文本分類(lèi)、情感分類(lèi)、智能問(wèn)答等多種領(lǐng)域.如Wang Peng[5]基于CNN模型和詞嵌入聚類(lèi)改善短文本分類(lèi)效果,Er Meng Joo[6]在卷積神經(jīng)網(wǎng)絡(luò)中加入注意力機(jī)制用于文本分類(lèi),實(shí)驗(yàn)證明在一些數(shù)據(jù)集上分類(lèi)效果較好,并且具有魯棒性.②基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的情感分類(lèi)模型.該模型又稱(chēng)為遞歸神經(jīng)網(wǎng)絡(luò),相較于CNN忽略了語(yǔ)言的前后關(guān)系,RNN更注重時(shí)序信息,因此更擅長(zhǎng)處理文本信息.如Tung Tran[7]基于RNN等模型對(duì)患者的病例描述進(jìn)行分析,實(shí)驗(yàn)證明在11種常見(jiàn)精神疾病中分類(lèi)效果有所提升.③卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的混合模型.該模型結(jié)合了CNN和RNN的優(yōu)點(diǎn),能夠捕捉長(zhǎng)距離文本依賴(lài)關(guān)系,更精準(zhǔn)刻畫(huà)詞語(yǔ)含義,如Banerjee I[8]、Tong[9]均在RNN的基礎(chǔ)上加入CNN,形成循環(huán)卷積神經(jīng)網(wǎng)絡(luò)RCNN,實(shí)驗(yàn)結(jié)果比單純的深度學(xué)習(xí)模型要表現(xiàn)優(yōu)異.Hassan Abdalraouf[10]則使用RNN模型替換CNN的池化層,實(shí)驗(yàn)表面,該模型在斯坦福大型電影評(píng)論數(shù)據(jù)集上分類(lèi)效果得到顯著提升.
結(jié)合上述分析可以看出,深度學(xué)習(xí)技術(shù)為準(zhǔn)確識(shí)別在線健康社區(qū)抑郁癥患者特征奠定了基礎(chǔ),因此可以借助深度學(xué)習(xí)模型判定用戶(hù)的抑郁情感傾向.此外,依據(jù)用戶(hù)的評(píng)論進(jìn)行用戶(hù)抑郁狀態(tài)的識(shí)別還需要分析抑郁文本在用戶(hù)所有評(píng)論中的分布狀況.因此,本文將用戶(hù)畫(huà)像理念運(yùn)用到在線健康社區(qū)用戶(hù)的抑郁程度分析中,提出基于深度學(xué)習(xí)的在線健康社區(qū)抑郁癥用戶(hù)畫(huà)像模型,將識(shí)別用戶(hù)的抑郁情感狀態(tài)分為單條文本的抑郁情感傾向判斷和用戶(hù)的抑郁狀態(tài)判斷,以此判斷用戶(hù)的抑郁情感和抑郁狀態(tài).本研究有助于對(duì)抑郁癥患者實(shí)施有針對(duì)性的引導(dǎo)和救助,從而為維護(hù)我國(guó)人民精神健康、踐行“健康中國(guó)”戰(zhàn)略提供參考.
為了準(zhǔn)確識(shí)別出抑郁癥患者,本文提出基于TCNN-GRU深度學(xué)習(xí)的在線健康社區(qū)抑郁癥用戶(hù)畫(huà)像模型,具體流程如圖1所示.
圖1 基于TCNN-GRU的在線健康社區(qū)抑郁癥用戶(hù)畫(huà)像流程Fig.1 User portrait process of depression in online health community based on TCNN-GRU
基于TCNN-GRU深度學(xué)習(xí)的在線健康社區(qū)患者用戶(hù)畫(huà)像模型實(shí)現(xiàn)主要包含以下兩點(diǎn):
1)構(gòu)建基于TCNN-GRU的抑郁情感分類(lèi)模型.首先對(duì)在線健康社區(qū)平臺(tái)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行抑郁情感分類(lèi)標(biāo)注,對(duì)于每條語(yǔ)料進(jìn)行分詞和去停用詞等預(yù)處理工作,然后通過(guò)TCNN-GRU模型進(jìn)行訓(xùn)練,優(yōu)化直至最后得到的模型能夠準(zhǔn)確地判別一條社交評(píng)價(jià)是否含有抑郁癥傾向.
2)構(gòu)建基于TCNN-GRU的在線健康社區(qū)抑郁癥用戶(hù)畫(huà)像.通過(guò)界定用戶(hù)畫(huà)像的標(biāo)簽,提出抑郁指數(shù)的概念,該指數(shù)綜合考慮微博評(píng)論條數(shù)、微博原創(chuàng)和轉(zhuǎn)發(fā)微博條數(shù)情況,用于判斷在抑郁癥方面用戶(hù)的分類(lèi)情況,然后對(duì)抑郁指數(shù)和患者抑郁程度的關(guān)系進(jìn)行分析,構(gòu)建并完成基于社交發(fā)布內(nèi)容數(shù)量的在線健康社區(qū)抑郁癥患者畫(huà)像模型.
2.1.1 模型構(gòu)建
遵循深度神經(jīng)網(wǎng)絡(luò)的一般設(shè)計(jì)原則,本文提出先使用不同尺寸卷積核進(jìn)行卷積后使用門(mén)控循環(huán)單元的TCNN-GRU結(jié)構(gòu),既發(fā)揮TextCNN模型的文本局部特征提取能力,又能發(fā)揮門(mén)控循環(huán)單元(GRU)模型的文本序列信息學(xué)習(xí)能力,克服卷積神經(jīng)網(wǎng)絡(luò)由于卷積核尺寸固定而導(dǎo)致文本局部特征信息粒度固定、死板問(wèn)題,解決了循環(huán)神經(jīng)網(wǎng)絡(luò)長(zhǎng)時(shí)依賴(lài)問(wèn)題,總體實(shí)現(xiàn)文本情感分類(lèi)過(guò)程中兼顧全局特征信息和文本序列信息.TCNN-GRU結(jié)構(gòu)設(shè)計(jì)如圖2所示.
圖2 TCNN-GRU模型內(nèi)部結(jié)構(gòu)圖Fig.2 Internal structure of model TCNN-GRU
圖2中由詞轉(zhuǎn)向?yàn)樵~向量的詞映射過(guò)程采用了word2vec方式,TextCNN層使用3種尺寸的卷積核進(jìn)行卷積操作,RNN模型采用其變體門(mén)控循環(huán)單元(GRU)捕捉文本的序列信息[11].深度學(xué)習(xí)處理文本內(nèi)容的步驟主要包括:
1)輸入層:將微博內(nèi)容文本切分為詞單元,通過(guò)詞映射得到詞向量,進(jìn)一步得到文本矩陣,完成微博內(nèi)容到輸入矩陣的轉(zhuǎn)換.
2)隱藏層(核心層):TextCNN是Kim2014年提出的深度神經(jīng)網(wǎng)絡(luò)模型,將卷積神經(jīng)網(wǎng)絡(luò)處理圖片信息的理論引申至文本分析領(lǐng)域,處理文本時(shí)具有多種局部感知和共享參數(shù)的特點(diǎn),能夠較好捕獲到局部信息,雖然增加了多種尺寸的卷積核進(jìn)行卷積,但仍然具有捕獲到的局部信息粒度固定的缺點(diǎn).因而TextCNN在本模型中的作用為高效處理微博內(nèi)容語(yǔ)句的局部特征信息,輸出結(jié)果為特征向量,并作為下一時(shí)刻GRU模型的輸入,GRU通過(guò)重置門(mén)和更新門(mén)對(duì)序列信息進(jìn)行處理.
3)隱藏層和輸出層:將經(jīng)過(guò)不同卷積核和GRU模型后的結(jié)果進(jìn)行拼接,加入dropout層防止訓(xùn)練過(guò)程中過(guò)擬合,最后進(jìn)行全連接操作,采用softmax分類(lèi)器輸出TCNN-GRU模型預(yù)測(cè)微博內(nèi)容情感類(lèi)別概率向量.
2.1.2 數(shù)據(jù)處理過(guò)程
通過(guò)在keras中搭建函數(shù)化模型的方式,TCNN-GRU模型搭建、編譯和測(cè)試微博內(nèi)容文本的具體過(guò)程如下:
1)輸入層.輸入層將微博內(nèi)容評(píng)論原始數(shù)據(jù)經(jīng)過(guò)預(yù)處理后作為T(mén)CNN-GRU預(yù)測(cè)模型的輸入,即原始微博內(nèi)容經(jīng)過(guò)數(shù)據(jù)清洗、中文分詞、word2vec詞映射轉(zhuǎn)換后輸入到預(yù)測(cè)模型中,處理的過(guò)程可用以下公式表明:
M=v1⊕v2⊕…⊕vi⊕…⊕vn
(1)
其中,⊕表示連接運(yùn)算符,vi表示原始微博內(nèi)容分詞后第i個(gè)詞的詞映射結(jié)果.
2)TextCNN特征提取層.TextCNN特征提取層主要對(duì)輸入的文本矩陣進(jìn)行深度特征提取,本文構(gòu)建由3種不同尺寸的卷積核且彼此并行的卷積結(jié)構(gòu),獲取微博內(nèi)容文本不同粒度的抽象特征信息.根據(jù)卷積神經(jīng)網(wǎng)絡(luò)用于文本分類(lèi)的特點(diǎn),將各并聯(lián)的卷積通道中卷積方式設(shè)置為一維卷積,并使用ReLU激活函數(shù)進(jìn)行激活.經(jīng)過(guò)卷積層處理后原始微博內(nèi)容數(shù)據(jù)被映射到隱層且抽象的特征空間,搭建并聯(lián)的卷積結(jié)構(gòu)將其轉(zhuǎn)換輸出,經(jīng)由激活函數(shù),提取得到特征向量,可表示為:
C1=f(ω1?M+b1)=Relu(ω1?M+b1)
(2)
C2=f(ω2?M+b2)=Relu(ω2?M+b2)
(3)
C3=f(ω3?M+b3)=Relu(ω3?M+b3)
(4)
其中,C1、C2、C3是卷積層1、卷積層2、卷積層3的卷積結(jié)果,w1、w2、w3為對(duì)應(yīng)卷積層的權(quán)重矩陣,b1、b2、b3是為對(duì)應(yīng)卷積層的偏差,?為卷積運(yùn)算符.
在實(shí)際模型設(shè)計(jì)中,同一尺寸的卷積核可以有多個(gè),達(dá)到取得不同特征的目的,然后對(duì)其結(jié)果進(jìn)行拼接.在傳統(tǒng)TextCNN預(yù)測(cè)模型中,經(jīng)由卷積操作后的特征向量需要進(jìn)行最大池化、平均池化等方式的池化過(guò)程,用以達(dá)到減少參數(shù)數(shù)量、選擇代表文本的重要特征等目的.但是池化操作丟失了部分微博內(nèi)容文本重要特征信息.因此,TCNN-GRU預(yù)測(cè)模型選用GRU模型代替池化層進(jìn)一步提取特征的序列信息.
3)GRU序列信息提取層.GRU序列信息提取層對(duì)來(lái)自于上一層卷積操作后的向量進(jìn)行序列信息學(xué)習(xí)和提取.GRU設(shè)置了更新門(mén)和重置門(mén),處理文本序列信息的內(nèi)部流程如下所示
(5)
p(y|s)=softmax(w·v*+b*)
(6)
(7)
用戶(hù)畫(huà)像通過(guò)大量數(shù)據(jù)分析和提取的用戶(hù)特征標(biāo)簽,通過(guò)主動(dòng)或被動(dòng)地收集用戶(hù)在互聯(lián)網(wǎng)上留下的信息,將其加工成一系列的標(biāo)簽,最后用于識(shí)別特定用戶(hù)[12]、個(gè)性化推薦[13]與精準(zhǔn)營(yíng)銷(xiāo)[14]領(lǐng)域.本文所提的基于深度學(xué)習(xí)的在線健康社區(qū)抑郁癥用戶(hù)畫(huà)像模型面向的場(chǎng)景為在線健康社區(qū)用戶(hù)抑郁癥研究,該場(chǎng)景要求模型能夠準(zhǔn)確識(shí)別出在抑郁情緒方面在線健康社區(qū)用戶(hù)的分類(lèi)情況,并識(shí)別出抑郁癥患者.依據(jù)文獻(xiàn)[15]對(duì)在線健康社區(qū)的定義,微博亦屬于在線健康社區(qū)的組成部分.參考臨床上對(duì)抑郁癥患者的界定,該場(chǎng)景下用戶(hù)畫(huà)像的標(biāo)簽設(shè)立為正常用戶(hù)、輕度抑郁、中度抑郁和重度抑郁,并在判定這些標(biāo)簽時(shí)選擇抑郁指數(shù)作為衡量標(biāo)準(zhǔn).
2.2.1 抑郁指數(shù)
抑郁癥是一種明顯的、持續(xù)性的情緒低落狀態(tài),為對(duì)這一狀態(tài)進(jìn)行表征,陶炯[16]在研究中采用SDS抑郁指數(shù)對(duì)癌癥患者的心理健康狀況進(jìn)行測(cè)評(píng).雖然抑郁癥文本分類(lèi)模型能夠?qū)螚l文本判別是否為抑郁癥傾向,但無(wú)法判定發(fā)表該條語(yǔ)句的用戶(hù)一定是抑郁癥患者,因?yàn)榘l(fā)表例如“情緒被攔腰折斷,索性也哭不出來(lái)了”語(yǔ)句的患者很有可能只是受到短暫性刺激做出的沖動(dòng)反應(yīng),短時(shí)間內(nèi)能夠迅速平復(fù)心情,回復(fù)非情緒低落狀態(tài).鑒于此,施志偉[17]從文本分析的角度對(duì)網(wǎng)絡(luò)用戶(hù)的抑郁癥傾向進(jìn)行判斷時(shí),通過(guò)抑郁微博占用戶(hù)總微博數(shù)的比例來(lái)計(jì)算用戶(hù)的抑郁指數(shù),以此來(lái)衡量用戶(hù)個(gè)體在一段時(shí)間內(nèi)的抑郁傾向程度.雖然從文本角度分析抑郁傾向無(wú)需考慮在線視頻社區(qū)用戶(hù)的粉絲數(shù)等特征,但用戶(hù)的文本卻可以分為兩類(lèi),即用戶(hù)于他人賬戶(hù)言論下的評(píng)論以及用戶(hù)個(gè)人主頁(yè)內(nèi)容.因此,本文在設(shè)定抑郁指數(shù)時(shí)參考了一定時(shí)間內(nèi)博文數(shù)量和評(píng)論數(shù)量,提出基于在線健康社區(qū)的抑郁指數(shù),計(jì)算公式如下:
(8)
其中,Ncd指一定時(shí)間內(nèi)用戶(hù)在其他賬戶(hù)下發(fā)布含有抑郁傾向的微博條數(shù),Nct指一定時(shí)間內(nèi)用戶(hù)在其他賬戶(hù)下發(fā)布所有微博條數(shù),Nmd指一定時(shí)間內(nèi)用戶(hù)在個(gè)人賬戶(hù)下發(fā)布和轉(zhuǎn)發(fā)含有抑郁傾向的微博條數(shù),Nmt指一定時(shí)間內(nèi)用戶(hù)在個(gè)人賬戶(hù)下發(fā)布和轉(zhuǎn)發(fā)的所有微博條數(shù),DI是抑郁指數(shù).
2.2.2 抑郁程度
ZUNG氏抑郁自評(píng)量表(SDS)是一種自評(píng)量表,可以有效判別抑郁癥的程度,以0.5、0.7、0.85為閾值分為無(wú)抑郁、輕度抑郁、中度抑郁和重度抑郁.ZUNG氏抑郁自評(píng)量表可信效度高,操作方便等優(yōu)點(diǎn),本文通過(guò)在線健康社交平臺(tái)發(fā)放抑郁癥自測(cè)的鏈接,內(nèi)容為ZUNG氏抑郁自評(píng)量表,并且注意在收集填寫(xiě)人的信息時(shí)用戶(hù)隱私的保密.同時(shí),采用Python爬蟲(chóng)技術(shù)對(duì)用戶(hù)的評(píng)論、博客發(fā)布內(nèi)容等進(jìn)行爬取和標(biāo)注,以此計(jì)算用戶(hù)的抑郁指數(shù).通過(guò)對(duì)獲取的鏈接填寫(xiě)數(shù)據(jù)分析,將用戶(hù)的SDS評(píng)分與指數(shù)進(jìn)行皮爾遜相關(guān)系數(shù)檢驗(yàn),結(jié)果顯示DI指數(shù)和和SDS評(píng)分在0.01水平(雙側(cè))上顯著相關(guān),且r=0.5564,說(shuō)明兩者有較強(qiáng)的相關(guān)性.通過(guò)上述分析,提出抑郁指數(shù)與抑郁程度之間的關(guān)系式如下:
(9)
其中,S(DI)指在線健康社區(qū)用戶(hù)的抑郁狀態(tài),按照抑郁指數(shù)的分布狀況可分為正常、輕度抑郁、中度抑郁和重度抑郁4種.
依據(jù)文獻(xiàn)[15]對(duì)在線健康社區(qū)的定義,滿足信息、用戶(hù)和社區(qū)3個(gè)要素的社區(qū)稱(chēng)為在線健康社區(qū).新浪微博是目前中國(guó)最大和最有價(jià)值的社交平臺(tái),其發(fā)布功能、轉(zhuǎn)發(fā)、關(guān)注、評(píng)論等功能使得中國(guó)用戶(hù)能夠便捷分享事件、表達(dá)情感和交換信息[18].新浪微博賬戶(hù)名為“走飯”的用戶(hù)由于抑郁癥離世,在國(guó)內(nèi)引起巨大轟動(dòng),隨著時(shí)間推移熱度沒(méi)有下降反而該微博賬戶(hù)因此沉淀了一大批抑郁癥患者,成為抑郁癥患者的交流平臺(tái).總之,“走飯”的微博平臺(tái)既傳遞信息,沉淀了用戶(hù),又提供了用戶(hù)線上活動(dòng)的場(chǎng)所和用戶(hù)間的信息交流空間,滿足了形成在線健康社區(qū)的定義.因此,本研究實(shí)驗(yàn)數(shù)據(jù)從“走飯”的微博評(píng)論下進(jìn)行爬取,爬取的內(nèi)容包括用戶(hù)在“走飯”微博下的評(píng)論以及用戶(hù)個(gè)人賬戶(hù)的原創(chuàng)微博和轉(zhuǎn)發(fā)微博文字,并對(duì)獲取的文本內(nèi)容進(jìn)行是否抑郁的標(biāo)注.為盡力保證標(biāo)注的準(zhǔn)確性,本實(shí)驗(yàn)采取的主要措施有:①實(shí)驗(yàn)參與者了解語(yǔ)言學(xué)、熟悉抑郁癥的相關(guān)知識(shí);②設(shè)置標(biāo)注的審核程序,對(duì)于初次標(biāo)注完成的數(shù)據(jù)進(jìn)行交叉審核工作.根據(jù)深度學(xué)習(xí)對(duì)于實(shí)驗(yàn)數(shù)據(jù)的平衡性要求,對(duì)標(biāo)注結(jié)果進(jìn)行篩選和過(guò)濾,過(guò)濾掉話題內(nèi)容、圖片信息、鏈接信息等,最終,本實(shí)驗(yàn)選取一共18萬(wàn)余條正例數(shù)據(jù)(有抑郁傾向的數(shù)據(jù))和18萬(wàn)余條負(fù)例數(shù)據(jù)(非抑郁癥數(shù)據(jù)),其中用戶(hù)主頁(yè)微博文字約20萬(wàn)條形成微博數(shù)據(jù)集,評(píng)論一共約16萬(wàn)條形成評(píng)論數(shù)據(jù)集,兩個(gè)數(shù)據(jù)集均按0.8∶0.2的比例劃分為訓(xùn)練集和測(cè)試集.
1)實(shí)驗(yàn)參數(shù)設(shè)置.對(duì)于實(shí)驗(yàn)設(shè)備條件和本文的網(wǎng)絡(luò)結(jié)構(gòu),相關(guān)參數(shù)設(shè)置如表1所示.
2)評(píng)價(jià)指標(biāo)設(shè)置.準(zhǔn)確率是衡量檢測(cè)正確的真正樣本和真負(fù)樣本在所有樣本中所占的比重,準(zhǔn)確率公式:
(10)
其中,Accuracy為模型準(zhǔn)確率,TP指真正例(模型預(yù)測(cè)結(jié)果和實(shí)際標(biāo)簽均為積極),FP為假正例(模型預(yù)測(cè)結(jié)果為積極,實(shí)際標(biāo)簽卻為消極),TN指真負(fù)例(模型預(yù)測(cè)結(jié)果和實(shí)際標(biāo)簽均為消極),FN指假負(fù)例(模型預(yù)測(cè)結(jié)果為消極,實(shí)際標(biāo)簽卻為積極)[19].實(shí)驗(yàn)過(guò)程采用平衡數(shù)據(jù)集,因此采用以上4種指標(biāo)作為衡量模型訓(xùn)練好壞的標(biāo)準(zhǔn).
表1 實(shí)驗(yàn)環(huán)境和相關(guān)配置Table 1 Experimental environment and related configuration
3)對(duì)比實(shí)驗(yàn)設(shè)置.主要包括:
①機(jī)器學(xué)習(xí)模型.選用在實(shí)踐中驗(yàn)證分類(lèi)效果較好的支持向量機(jī)(Support Vector Machine,SVM)、多層感知機(jī)(Multilayer Perceptron,MLP)、和隨機(jī)森林(Random Forest,RF),文本特征選用TF-IDF.
②TextCNN模型.TextCNN文本分類(lèi)模型是Kim在2014年提出的,論文中說(shuō)明了模型的結(jié)構(gòu)并進(jìn)行了對(duì)應(yīng)的實(shí)驗(yàn).論文的主要關(guān)注點(diǎn)在于使用詞向量時(shí),詞向量的獲取方式以及詞向量是否可以進(jìn)行微調(diào).CNN-rand模型是指詞向量隨機(jī)初始化并跟隨訓(xùn)練進(jìn)行修正,CNN-static模型、CNN-nonstatic模型、CNN-multichanne分別對(duì)應(yīng)于使用預(yù)先訓(xùn)練好的詞向量并且不可微調(diào)、使用預(yù)先訓(xùn)練好的詞向量并且可以進(jìn)行微調(diào)以及前面兩種模型的混合模型.
③RNN模型.作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的最常用的變體,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM,Long Short-Term Memory)在文本分類(lèi)方面取得卓越成就.EBiLST模型結(jié)合了微博文本的特點(diǎn),將表情符蘊(yùn)含的情感向量加入Bi-LSTM模型中用于微博文本分類(lèi).GRU也是RNN網(wǎng)絡(luò)的常用變體之一,設(shè)置了重置門(mén)和更新門(mén)對(duì)信息進(jìn)行控制.
④混合模型.CNN-BiLSTM特征融合模型通過(guò)CNN模型進(jìn)行文本內(nèi)部信息的特征提取,又使用雙向LSTM模型提取文本的上下文信息.層次多注意力網(wǎng)絡(luò)模型(HMAN)主要出于優(yōu)化傳統(tǒng)深度學(xué)習(xí)文本分類(lèi)模型、避免機(jī)器學(xué)習(xí)人工設(shè)計(jì)特征的繁瑣的目的,結(jié)合了HAN和GRU模型的兩種優(yōu)點(diǎn).C-LSTM[20]核心思想是采用卷積操作后,采取LSTM網(wǎng)絡(luò)結(jié)構(gòu)替代原有的池化過(guò)程,既保留了因?yàn)槌鼗瘯?huì)丟失的重要信息,又可以提取文本序列信息.
3.3.1 參數(shù)影響
為了探究不同超參數(shù)對(duì)模型影響,首先分析幾個(gè)重要的影響因素,然后采取Grid Search方法選定模型需要的參數(shù).
1)句子長(zhǎng)度影響因子.不同用戶(hù)發(fā)表的評(píng)論長(zhǎng)度不一,文本在轉(zhuǎn)換為計(jì)算機(jī)可理解的形式時(shí),需要確定固定的文本長(zhǎng)度.當(dāng)這一變量取得過(guò)大,會(huì)對(duì)模型造成干擾從而降低模型的準(zhǔn)確率;而當(dāng)這一變量取得過(guò)小,將會(huì)丟失大部分語(yǔ)義信息,從而降低模型準(zhǔn)確率.對(duì)所選取的抑郁癥文本數(shù)據(jù)集,經(jīng)過(guò)統(tǒng)計(jì)性分析后,確立26、28為兩個(gè)候選值.
2)卷積核高度影響因子.為了獲得最優(yōu)性能時(shí)卷積窗口的尺寸,本文首先確定了在TextCNN模型中使用較多的卷積核寬度為[3,4,5],并選取了一個(gè)對(duì)比實(shí)驗(yàn),其尺寸為[4,5,6].
3)Epoch影響因子.Epoch的大小表示整個(gè)數(shù)據(jù)集在訓(xùn)練時(shí)的總迭代次數(shù),迭代次數(shù)的設(shè)置大小應(yīng)適中,次數(shù)過(guò)小,達(dá)不到訓(xùn)練精度,次數(shù)太大,往往會(huì)導(dǎo)致過(guò)擬合,因此將前兩個(gè)影響因素進(jìn)行組合,探究使用不同參數(shù)組合的模型隨epoch的變化關(guān)系.將前兩個(gè)因素名稱(chēng)設(shè)置為len_text、cornel_height,使用不同參數(shù)組合的模型為4個(gè),則combination(i)表示第i種參數(shù)組合方式,例如combination2(len_text=26,cornel_height=[4,5,6]).準(zhǔn)確率和epoch的關(guān)系如圖3所示.
圖3 模型準(zhǔn)確率隨epoch值變化趨勢(shì)Fig.3 Trend of model accuracy with epoch value
通過(guò)圖3可以看出,不同的參數(shù)組合分別在epoch為7,7,6,7時(shí)達(dá)到模型的最優(yōu),當(dāng)超過(guò)該最優(yōu)epoch時(shí),在測(cè)試集上得到的準(zhǔn)確率較為平穩(wěn),但是測(cè)試集準(zhǔn)確率反而下降.同時(shí),模型準(zhǔn)確率最高的是使用combination1(len_text=26,cornel_height=[3,4,5])的模型,在訓(xùn)練集和測(cè)試集上準(zhǔn)確率分別為94.24%和93.96%.
3.3.2 對(duì)比實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)對(duì)比結(jié)果如表2所示.可以看出,在微博用戶(hù)個(gè)人主頁(yè)內(nèi)容的數(shù)據(jù)集和“走飯”微博的評(píng)論兩個(gè)數(shù)據(jù)集上,本文所提TCNN_GRU模型都要優(yōu)于其他模型,在兩個(gè)數(shù)據(jù)集上準(zhǔn)確率分別高出次高模型1.56%、2.47%,比表現(xiàn)最差的模型提高了14.62%、13.61%的準(zhǔn)確率.整體上而言,傳統(tǒng)機(jī)器學(xué)習(xí)模型在文本分類(lèi)上的效果和表現(xiàn)并不如深度學(xué)習(xí)模型;TextCNN模型中表現(xiàn)最好的是使用預(yù)先訓(xùn)練的詞向量并且設(shè)置參數(shù)可以微調(diào)的模型CNN-nonstatic;EBiLSTM作為RNN模型的改進(jìn),在分類(lèi)效果上并沒(méi)有比LSTM模型好很多;進(jìn)一步分析發(fā)現(xiàn),不同于其他類(lèi)型微博用戶(hù),實(shí)驗(yàn)對(duì)象的“走飯”評(píng)論和用戶(hù)得主頁(yè)微博內(nèi)容中很少出現(xiàn)表情符,因而加入表情信息并不能對(duì)模型提高做出較大的貢獻(xiàn);混合模型中CNN-BiLSTM由于既引入了外部信息,又提高了文本局部信息,使用BiLSTM提取序列信息,準(zhǔn)確率較高.C-LSTM與上述模型思路類(lèi)似,但模型內(nèi)部結(jié)構(gòu)不同.HMAN使用了層次注意力,分類(lèi)效果優(yōu)良但是分類(lèi)效果仍然低于本文所述模型,本模型提高了3.89%和3.60%的準(zhǔn)確率.
3.3.3 用戶(hù)畫(huà)像
1)在線健康社區(qū)用戶(hù)抑郁指數(shù)畫(huà)像
依據(jù)上述模型對(duì)于語(yǔ)句判斷結(jié)果,并獲取“走飯”微博下一定數(shù)量的用戶(hù)評(píng)論情況和發(fā)博情況,計(jì)算其抑郁指數(shù)(DI)和抑郁程度(S(DI)).實(shí)驗(yàn)統(tǒng)計(jì)了在線健康社區(qū)6位用戶(hù)半年的動(dòng)態(tài),以月為單位進(jìn)行統(tǒng)計(jì),在線健康社區(qū)用戶(hù)抑郁指數(shù)畫(huà)像如圖4所示.
表2 對(duì)比實(shí)驗(yàn)結(jié)果Table 2 Comparison of experimental results
圖4中,用戶(hù)1的DI指數(shù)經(jīng)常位于0.5附近,可以成為正常用戶(hù)的代表,生活在快節(jié)奏,帶有壓力的社會(huì)環(huán)境下,除了發(fā)表個(gè)人生活等愉快的內(nèi)容外,也表現(xiàn)了部分消極內(nèi)容;用戶(hù)2的DI指數(shù)經(jīng)常位于0.5-0.7的區(qū)間內(nèi),即經(jīng)常處于輕度抑郁狀態(tài),說(shuō)明時(shí)常感到壓抑,會(huì)在“走飯”微博下傾訴,尋找情感慰藉;用戶(hù)3的DI指數(shù)經(jīng)常位于0.7-0.85的區(qū)間內(nèi),經(jīng)常處于中度抑郁狀態(tài),對(duì)于此類(lèi)用戶(hù)需要積極采取措施予以幫助;用戶(hù)4的DI指數(shù)這一年內(nèi)都處于高于0.85以上,處于重度抑郁狀態(tài),對(duì)于此類(lèi)用戶(hù),生活已經(jīng)很少能給他帶來(lái)愉悅,長(zhǎng)期處于崩潰、孤獨(dú)、想離世的邊緣;而用戶(hù)5和用戶(hù)6的DI指數(shù)經(jīng)常跳脫某一固定區(qū)間,此類(lèi)用戶(hù)可能在某個(gè)單位月內(nèi)受到壓力、刺激,而當(dāng)壓力、刺激等得到排解后,其情緒又從抑郁恢復(fù)正常.
圖4 在線健康社區(qū)用戶(hù)抑郁指數(shù)畫(huà)像Fig.4 Profile of depression in online health community users
2)在線健康社區(qū)抑郁癥用戶(hù)畫(huà)像
不同狀態(tài)和情境下的用戶(hù)言語(yǔ)色彩較為明顯,抑郁癥患者在用詞方面更具有不同于其他群體的特點(diǎn),本文隨機(jī)抽取抑郁用戶(hù)部分“走飯”評(píng)論和個(gè)人微博內(nèi)容(如圖5所示).抑郁用戶(hù)的微博內(nèi)容呈現(xiàn)出一種孤獨(dú)、無(wú)助、脆弱的狀態(tài),其用詞特征主要表現(xiàn)在兩個(gè)方面:更注重第一人稱(chēng)的使用和更喜歡使用極端詞匯.“自己”、“一個(gè)”詞往往表明抑郁癥患者經(jīng)常注重自我的內(nèi)心,相對(duì)于愉快的“追星族”等群體,他們更注重使用第一人稱(chēng),而很少發(fā)表關(guān)于其他人的言論.“什么”和“沒(méi)有”經(jīng)常用于同一句話所形成的“什么都沒(méi)有”和“真的”等顯著的詞匯都是極端的用詞,可見(jiàn)抑郁癥患者用詞較為偏激.
圖5 在線健康社區(qū)抑郁癥用戶(hù)畫(huà)像Fig.5 User portraits of patients with depression
針對(duì)目前在線健康社區(qū)抑郁癥患者識(shí)別面臨的問(wèn)題,本文從文本分析的角度出發(fā),提出基于TCNN-GRU深度學(xué)習(xí)的抑郁情感分類(lèi)模型和在線健康社區(qū)抑郁癥用戶(hù)畫(huà)像模型,將識(shí)別用戶(hù)的抑郁情感狀態(tài)分為單條文本的抑郁情感傾向判斷和用戶(hù)的抑郁狀態(tài)判斷,以此衡量用戶(hù)的抑郁情感和抑郁狀態(tài).實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)方法相比,TCNN-GRU深度學(xué)習(xí)模型在抑郁情感分類(lèi)上能獲得了更優(yōu)的結(jié)果,豐富了人工智能與深度學(xué)習(xí)技術(shù)在信息科學(xué)領(lǐng)域的方法研究;基于TCNN-GRU的在線健康社區(qū)抑郁癥用戶(hù)畫(huà)像模型也能夠從文本分析的角度準(zhǔn)確識(shí)別用戶(hù)的抑郁情感和抑郁狀態(tài),有助于相關(guān)組織、個(gè)體在進(jìn)行抑郁癥患者識(shí)別和治療時(shí)的分析和決策,改善患者心理健康水平,最終推進(jìn)19大“健康中國(guó)”戰(zhàn)略的順利實(shí)施.當(dāng)然,本文所做的工作還相對(duì)有限,存在需要繼續(xù)改進(jìn)的地方.例如基于TCNN-GRU的在線健康社區(qū)抑郁癥用戶(hù)畫(huà)像研究涉及到識(shí)別抑郁癥文本、計(jì)算抑郁指數(shù)和抑郁程度等流程,本文在該方面仍有繼續(xù)提升的空間,希望在今后的研究中進(jìn)一步完善.