鄭州輕工業(yè)學(xué)院 金保華 王 睿 周 兵
近年來(lái),網(wǎng)絡(luò)發(fā)展迅速,信息傳播手段也在更新?lián)Q代。微博平臺(tái)自誕生起便發(fā)展迅猛,逐漸形成一個(gè)很大的網(wǎng)絡(luò)自媒體形式。國(guó)外的微博平臺(tái)Twitter由埃文·威廉姆斯(Evan Williams)正式成立于2006年,從那時(shí)起,微博數(shù)據(jù)時(shí)代的大門(mén)被徹底打開(kāi)。本研究引入深度學(xué)習(xí)方法,本文將對(duì)基于主題融合的深度學(xué)習(xí)模型展開(kāi)研究。首先介紹了兩種融合主題特征的深度學(xué)習(xí)情感分類(lèi)模型--融合主題向量的雙向LSTM情感分類(lèi)模型和融合主題向量的CNN情感分類(lèi)模型。最后通過(guò)設(shè)計(jì)對(duì)比實(shí)驗(yàn),對(duì)本章所提出了兩種模型的中文文本情感分類(lèi)能力進(jìn)行驗(yàn)證,并給出實(shí)驗(yàn)分析。
通常將深度學(xué)習(xí)模型用于情感分類(lèi)時(shí)只考慮詞作為特征,并沒(méi)有考慮到外部知識(shí)(如主題信息)。而外部知識(shí)對(duì)于模型效果的提升是有用的,如文獻(xiàn)[2]在構(gòu)建深度學(xué)習(xí)模型時(shí),將句子語(yǔ)法特征與詞向量特征相融合作為模型輸入,得到了比單一特征更為顯著的效果。文本主題與文本情感往往存在一定的共生性,主題與情感伴隨而生,不同的主題會(huì)表現(xiàn)出不同的情感傾向,那么深度學(xué)習(xí)模型是否能夠通過(guò)融合主題向量產(chǎn)生更好的釋義。進(jìn)而提升中文文本情感分類(lèi)模型準(zhǔn)確率?為此,本文提出了兩種基于主題融合的深度學(xué)習(xí)情感分類(lèi)模型。
LDA主題模型是對(duì)離散文本數(shù)據(jù)集進(jìn)行建模的概率主題模型。它有3層生成式貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),分為文檔集層、主題層及詞層,每層都有對(duì)應(yīng)的參數(shù)控制,基于這樣一種前提假設(shè):文檔集中包含多個(gè)隱含主題,各個(gè)主題是由文檔中多個(gè)詞語(yǔ)構(gòu)成。如圖2.1所示,LDA模型是一種典型的有向概率圖模型。其中TK為主題數(shù),TM為文檔總數(shù),tmN為第tm篇文檔中單詞的總數(shù)。α是每篇文檔主題的多項(xiàng)分布的Dirichlet先驗(yàn)參數(shù),表征的是文檔集合中隱含主題間的相對(duì)強(qiáng)弱;β是每個(gè)主題下詞的多項(xiàng)式分布的Dirichlet先驗(yàn)參數(shù),刻畫(huà)所有隱含主題自身的概率分布;tm,tnz是第tm篇文檔中第tn個(gè)詞的主題;tm,tnw為第tm篇文檔中第tn個(gè)詞。tmθ為文檔主題的概率分布,是維度為T(mén)K的向量;tk表示特定主題下特征詞的概率分布,是維度為v的向量(v為詞典中詞總數(shù))。
圖2.1 LDA概率圖模型
圖2.2 TB_LSTM結(jié)構(gòu)圖
本文考慮到中文輿情文本的復(fù)雜性和海量性,提出了基于主題融合的雙向LSTM情感分類(lèi)算法,其原因有兩點(diǎn):第一,雖然LSTM算法克服了傳統(tǒng)RNN的梯度消失(爆炸)問(wèn)題和歷史信息損失問(wèn)題,但是LSTM中只能較好融合上文信息,缺乏對(duì)下文信息的融合。因此,在面對(duì)復(fù)雜的文本時(shí),LSTM模型的文本表示能力有限,故引入雙向LSTM網(wǎng)絡(luò)實(shí)現(xiàn)詞語(yǔ)的上下文信息融合,以此獲得更為優(yōu)質(zhì)的文本特征。第二,外部特征被證明能夠提升文本分類(lèi)性能,其外部特征通常是句子的結(jié)構(gòu)特征,如詞性特征、詞語(yǔ)權(quán)重等方法。這些特征僅僅只是增加了提升了句子中關(guān)鍵詞的表達(dá)能力,沒(méi)有考慮到文本主題特征對(duì)于文本分類(lèi)的作用。因此,本文通過(guò)融合文本的主題特征,以此獲取更具備中文文本情感分類(lèi)能力的文本特征。最終構(gòu)建了如圖2.2所示的基于主題融合的雙向LSTM情感分類(lèi)模型(TB_LSTM)。
如圖2.2所示,TB_LSTM在輸入時(shí)融合了主題向量,并通過(guò)兩個(gè)單層LSTM模型組合,得帶得到包含上下文信息的高層文本特征向量,并實(shí)現(xiàn)中文文本情感分類(lèi)。TB_LSTM共有6層(如圖2.3所示),F(xiàn)0是模型的輸入層,其輸入詞向量和該詞的主題向量;F5是模型的分類(lèi)層;F1,F(xiàn)2,F(xiàn)3,F(xiàn)4分別對(duì)于模型的四個(gè)隱層,W1、W2、W3、W5分別是層間或者層內(nèi)的連接權(quán)重集合;4ω、6ω、7ω、為模型層間連接權(quán)重。TB_LSTM模型的具體結(jié)構(gòu)如下:
在利用深度學(xué)習(xí)模型進(jìn)行情感分類(lèi)任務(wù)時(shí),其巨大的參數(shù)規(guī)模和節(jié)點(diǎn)數(shù)量會(huì)增強(qiáng)對(duì)數(shù)據(jù)的刻畫(huà)能力,但是同時(shí)會(huì)增加模型訓(xùn)練的復(fù)雜度和訓(xùn)練成本。為了減少模型訓(xùn)練成本,本章提出了基于主題融合的CNN情感分類(lèi)模型(TCNN)。CNN是一種共享權(quán)值的深度學(xué)習(xí)模型,通過(guò)權(quán)重共享和局部連接減少參數(shù)變里,是一種很好的特征提取方法,能夠提取局部上下文信息。但是,當(dāng)句子中信息較少時(shí),需要文本的全局信息作為補(bǔ)充。而主題向量能夠?qū)υ谝欢ǔ潭壬媳碚骶渥拥娜痔卣鳌R虼吮灸P徒Y(jié)合主題向量為全局信息補(bǔ)充句子特征,構(gòu)建了如圖2.3所示的TCNN情感分類(lèi)模型。
圖2.3 TCNN模型結(jié)構(gòu)圖
如圖2.3所示,TCNN主要由四部分組成:模型的輸入層、卷積層、采樣層和模型輸出層。
(1)輸入層
輸入層的功能是將文本的詞向量特征和文本的主題特征融合,并作為輸入數(shù)據(jù)傳入卷積神經(jīng)網(wǎng)絡(luò)模型,同時(shí)與卷積層相連接。卷積神經(jīng)網(wǎng)絡(luò)模型最早是用來(lái)處理圖像數(shù)據(jù),而圖像特有的像素可以直接作為二維數(shù)據(jù)使用。因此,當(dāng)采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)文本數(shù)據(jù)進(jìn)行處理時(shí),需要先將文本通過(guò)CBOW模型轉(zhuǎn)換為詞向量矩陣形式。
如圖2.4所示,設(shè)文本長(zhǎng)度為n,即每條文本中包含n個(gè)詞,分別為第t個(gè)詞的詞向量和主題向量,其維度為m,則卷積神經(jīng)網(wǎng)絡(luò)輸入數(shù)據(jù)應(yīng)為一個(gè)n×2m的二維矩陣,即由文本中n個(gè)詞向量和主題向量連接后縱向堆疊而成。
圖2.4 文本特征組合方式圖
TCNN的輸入向量TCNNHI包括兩部分(見(jiàn)式(4.10)),一個(gè)是詞向量,代表詞語(yǔ)的語(yǔ)義信息;另一個(gè)是主題向量ts,代表文本的主題信息。
(2)卷積層
考慮到計(jì)算的復(fù)雜性,本文只使用一個(gè)輸入特征圖,即只有一個(gè)輸入矩陣。在輸入層后,需由公式(2.7)對(duì)進(jìn)行卷積操作。通常,在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中,每個(gè)卷積層中只有一種類(lèi)型的卷積核,但面對(duì)文本情感分類(lèi)任務(wù)時(shí),為盡可能考慮每個(gè)詞的前后文信息,從而提取多種粒度的文本局部特征,本文使用多種卷積核進(jìn)行卷積操作。設(shè)定有u種規(guī)格卷積核,其規(guī)格分別為,同時(shí)設(shè)定每種卷積核的個(gè)數(shù)相同都為nm。則經(jīng)過(guò)卷積操作將會(huì)得到個(gè)不同的特征圖集合。其中第i種特征圖的規(guī)格為:。
(3)采樣層
(4)全連接層和非線性變換層
經(jīng)采樣層得到的特征圖需在全連接層進(jìn)行向量連接,以得到連接后的特征向量,其計(jì)算過(guò)程見(jiàn)式(2.9)。
(5)Softmax分類(lèi)層
將得到的高層文本特征向量TCNNh輸入一個(gè)Softmax分類(lèi)器中,得到文本情感類(lèi)別向量,其公式為:
本章實(shí)驗(yàn)分為兩組。第一組實(shí)驗(yàn)是當(dāng)輸入詞向量分別為靜態(tài)詞向量(static-w2v)、非靜態(tài)詞向量(non-static-w2v)、字符向量(characher)時(shí)的各個(gè)模型情感分類(lèi)效果對(duì)比,以驗(yàn)證本文提出的TB_LSTM和TCNN的中文文本情感分類(lèi)有效性。第二組實(shí)驗(yàn)是所有模型都融合主題特征作為輸入時(shí)的情感分類(lèi)效果對(duì)比,以驗(yàn)證主題特征對(duì)提升中文文本情感分類(lèi)的有效性。
(1)情感分類(lèi)評(píng)價(jià)標(biāo)準(zhǔn)
目前國(guó)內(nèi)外的研究中,通常是從精度(Precision)、召回率(Recall)、F1值進(jìn)行分析和準(zhǔn)確率(Accuracy)等指標(biāo)對(duì)文本情感分類(lèi)的效果進(jìn)行分析,這三個(gè)指標(biāo)也是信息檢索、人工智能和自然語(yǔ)言處理等領(lǐng)域進(jìn)行分析的主要指標(biāo),其中精度是指檢索出相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)的查準(zhǔn)率;召回率指的是檢索出的相關(guān)文檔數(shù)和文檔庫(kù)中所有的相關(guān)文檔數(shù)的比率,衡量的是查全率;而F1值則是精度和召回率綜合值;準(zhǔn)確率是不同類(lèi)別精度的綜合值,衡量模型在整體樣本下的精確度。
在進(jìn)行情感分類(lèi)任務(wù)評(píng)價(jià)時(shí),針對(duì)情感二元分類(lèi)情形(分類(lèi)結(jié)果為正向情感或負(fù)向情感),可構(gòu)建二元情感分類(lèi)問(wèn)題列聯(lián)表(表3.1所示)。其中,TP為情感分類(lèi)中被正確判斷的正向文本數(shù)量;FN為情感分類(lèi)中被錯(cuò)誤判斷的正向文本數(shù)量;FP為情感分類(lèi)中被錯(cuò)誤判斷的負(fù)向文本數(shù)量;TN為情感分類(lèi)中被正確判斷的負(fù)向文本數(shù)量
表3.1 二元情感分類(lèi)問(wèn)題列聯(lián)表
由此,可以確立相應(yīng)的評(píng)判標(biāo)準(zhǔn)量化計(jì)算方式:
準(zhǔn)確率為:
正向情感精度:
負(fù)向情感精度:
正向情感召回率:
負(fù)向情感召回率:
正向情感F1值:
負(fù)向情感F1值:
(2)詞語(yǔ)向量化
本文隨機(jī)選擇2017年5月新浪微博12,000余篇新聞文章作為語(yǔ)料集,利用Python的gensim工具進(jìn)行詞向量計(jì)算,設(shè)定上下文窗口為10、迭代次數(shù)為5次、詞向量維度設(shè)定為300維,得到了詞向量矩陣。該詞向量矩陣中各詞向量間具有一定的語(yǔ)義相關(guān)性,如以“中國(guó)”為例,得到圖3.2所示的“中國(guó)”語(yǔ)義相似詞表。
表3.2 “中國(guó)”語(yǔ)義相似詞表
隨后經(jīng)過(guò)分詞、停用詞過(guò)濾后,訓(xùn)練集中文本長(zhǎng)度的眾數(shù)為55,因此設(shè)定m=60,對(duì)長(zhǎng)度不足60的短文本在首尾分布增加相應(yīng)數(shù)量的空詞,對(duì)長(zhǎng)度大于60的短文本則在尾部截去相應(yīng)的長(zhǎng)度的詞。將經(jīng)上述中文文本預(yù)處理后的文本數(shù)據(jù)合并、去重,得到26180條訓(xùn)練數(shù)據(jù)集,涉及到四個(gè)主題:“書(shū)籍”、“酒店”、“牛奶”,“手機(jī)”,隨后利用Python編寫(xiě)LDA模型,設(shè)定主題數(shù)為4、α=β=0.1、迭代次數(shù)為200次,訓(xùn)練得到每條文本和詞語(yǔ)的主題類(lèi)別和如表3.3所示的每個(gè)主題下的高頻特征詞。
表3.3 主題特征詞表
在這四個(gè)主題的26180條訓(xùn)練數(shù)據(jù)集中,共有正向情感語(yǔ)料12276條、負(fù)向情感語(yǔ)料13904條。按照9:1的比例,使用正負(fù)向情感語(yǔ)料23562條作為訓(xùn)練集,剩余2618條情感數(shù)據(jù)作為測(cè)試集,實(shí)驗(yàn)數(shù)據(jù)集分布情況如表3.4所示。
表3.4 二元情感分類(lèi)實(shí)驗(yàn)數(shù)據(jù)集分布情況表
(3)實(shí)驗(yàn)配置
在本文實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)的時(shí)候,考慮到實(shí)驗(yàn)室資源不足,沒(méi)有采用GPU方式提高深度學(xué)習(xí)訓(xùn)練效率,而是采用傳統(tǒng)的CPU方式實(shí)現(xiàn)。表3.5展示實(shí)驗(yàn)的軟硬件環(huán)境和工具。
在進(jìn)行基于主題融合的深度學(xué)習(xí)情感分類(lèi)實(shí)驗(yàn)前,對(duì)2000條數(shù)據(jù)集在不同中間層維度的準(zhǔn)確率進(jìn)行研究,以優(yōu)化獲取TB_LSTM的中間層的最佳維度,其結(jié)果如表3.6示。
表3.5 二元情感分類(lèi)對(duì)比實(shí)驗(yàn)軟硬件環(huán)境配置表
表3.6 不同中間層維度的TB_LSTM二元情感分類(lèi)準(zhǔn)確率表
表3.7 二元情感分類(lèi)對(duì)比實(shí)驗(yàn)相關(guān)模型的參數(shù)設(shè)置表
本文設(shè)計(jì)了兩組實(shí)驗(yàn)來(lái)驗(yàn)證基于主題融合的深度學(xué)習(xí)情感分類(lèi)模型的有效性:
第一組實(shí)驗(yàn)對(duì)比了輸入特征為靜態(tài)詞向量(static-w2v)、非靜態(tài)詞向量(non-static-w2v)時(shí)TB_LSTM和TCNN與CNN、LSTM、RAE三個(gè)模型在相同實(shí)驗(yàn)環(huán)境下的二元情感分類(lèi)任務(wù)的精度、召回率和準(zhǔn)確率。表3.8列出了實(shí)驗(yàn)的對(duì)比結(jié)果,其中“本文模型1”代表TB_LSTM、“本文模型2”代表TCNN。
根據(jù)表3.8和表3.9所示的各模型的文本情感分類(lèi)實(shí)驗(yàn)結(jié)果,針對(duì)本文提出的基于主題融合的深度學(xué)習(xí)情感分類(lèi)模型,我們不難得到以下三點(diǎn)結(jié)論:
(1)TB_LSTM和TCNN在靜態(tài)和非靜態(tài)詞向量下相對(duì)于CNN、LSTM、RAE模型在正、負(fù)中文文本情感分類(lèi)上都能達(dá)到最優(yōu)的精度、召回率和準(zhǔn)確率。兩種模型的準(zhǔn)確率比次優(yōu)的CNN模型高出0.4%-2.1%,比最差的RAE模型高出2.3%-4.2%。
(2)采用非靜態(tài)詞向量下中文文本情感分類(lèi)準(zhǔn)確率比靜態(tài)詞向量下的中文文本情感分類(lèi)準(zhǔn)確率平均高出0.2%-1.5%。這說(shuō)明詞向量在模型中通過(guò)不斷的優(yōu)化將會(huì)有助于中文文本情感分類(lèi)。
(3)相同條件下TCNN的各項(xiàng)指標(biāo)整體要優(yōu)于TB_LSTM的各項(xiàng)指標(biāo),并且在時(shí)間復(fù)雜度上TCNN也優(yōu)于TB_LSTM,這表明TCNN能夠有效的提取文本情感分析的關(guān)鍵特征。而TB_LSTM模型的結(jié)構(gòu)相較而言過(guò)于復(fù)雜,需要大量樣本和成本進(jìn)行充分訓(xùn)練。
表3.8 靜態(tài)詞向量下不同模型的二元情感分類(lèi)實(shí)驗(yàn)結(jié)果
表3.9 非靜態(tài)詞向量下不同模型的二元情感分類(lèi)實(shí)驗(yàn)結(jié)果
本文首先給出BLSTM中文分詞模型、停用詞過(guò)濾技術(shù)、詞語(yǔ)向量化技術(shù),以此實(shí)現(xiàn)將非結(jié)構(gòu)化的輿情文本轉(zhuǎn)換為結(jié)構(gòu)化文本向量。而后,提出了兩種基于主題融合的深度學(xué)習(xí)情感分類(lèi)模型:基于主題融合的雙向LSTM情感分類(lèi)模型和基于主題融合的CNN情感分類(lèi)模型,經(jīng)實(shí)驗(yàn)對(duì)比分析,驗(yàn)證兩種模型能在一定程度上提升情感分類(lèi)準(zhǔn)確性。
[1]Whitelaw,C,Garg,N,Argamon,S.Using appraisal groups for sentiment analysis.the 14th ACM International Conference on Information and Knowledge Management,2015.
[2]Ni Xiao-chuan,Xue Gui-rong,Ling Xiao,et al.Exploring in theweblog space by detecting informative and affective articles.The 16th International World Wide Web Conference,2017.
[3]Socher R,Pennington J,Huang E H,et al.Semi-supervised recursive autoencoders for predicting sentiment distributions.Empirical Methods in Natural Language Processing,2011.
[4]Richard Socher,Brody Huval,Christopher D.Manning,et al.Semantic Compositionality through Recursive Matrix-Vector Spaces.Joint Conference on Empirical Methods Computational Natural Language Learning,2012.
[5]Socher R,Perelygin A,Wu J Y,Chuang J,Manning C D,Ng A Y,Potts C.Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank.Conference on Empirical Methods in Natural Language Processing EMNLP,2013.
[6]陳力丹.關(guān)于輿論的基本理念[J].新聞大學(xué),2015(05).
[7]謝耘耕,劉銳,徐穎.當(dāng)前互聯(lián)網(wǎng)管理和輿論引導(dǎo)工作存在的問(wèn)題及對(duì)策建議[J].科學(xué)發(fā)展.2016(08).
[8]賈爽.“一帶一路”∶Twitter網(wǎng)絡(luò)輿情分析與對(duì)策建議[D].南京大學(xué),2016.
[9]巨慧慧.針對(duì)網(wǎng)絡(luò)輿情的情感傾向性研究[D].哈爾濱工業(yè)大學(xué),2015.
[10]謝宜瑾.網(wǎng)絡(luò)輿情分析與管理技術(shù)的研究與實(shí)現(xiàn)[D].廣東工業(yè)大學(xué),2016.