閔 潔,吉秉彧
(信陽(yáng)農(nóng)林學(xué)院 信息工程學(xué)院, 河南 信陽(yáng) 464000)
互聯(lián)網(wǎng)時(shí)代背景下,各種電子商務(wù)平臺(tái)的評(píng)論文本數(shù)據(jù)巨量增長(zhǎng),其中蘊(yùn)含的情感信息對(duì)商家用戶(hù)有著非凡的意義和實(shí)用價(jià)值,如何快速精準(zhǔn)地從其中提取有情感的信息,已經(jīng)成為該領(lǐng)域科學(xué)家和學(xué)者的研究方向,發(fā)展行之有效的理論方法是當(dāng)下亟待解決的問(wèn)題,因此,文本情感分析研究具有廣闊的前景和重大意義。
目前,文本情感分析已經(jīng)廣泛應(yīng)用于新聞傳媒、文化娛樂(lè)、電子商務(wù)、語(yǔ)義相似計(jì)算等領(lǐng)域[1]。早期的研究中,主要采用聚類(lèi)算法對(duì)文本進(jìn)行處理來(lái)實(shí)現(xiàn)特征提取,主題概率統(tǒng)計(jì)模型是常用理論方法,其良好的可移植性和優(yōu)良的性能受到廣大研究者的青睞,所采用的概率統(tǒng)計(jì)理論可以挖掘文本中隱含的主題特征,進(jìn)而將具有相似語(yǔ)義的關(guān)鍵詞進(jìn)行特征歸類(lèi)。
文獻(xiàn)[2]提出了潛在評(píng)級(jí)回歸模型(Latent Rating Regression,LRR),使用基于自舉的文本分割算法對(duì)文本進(jìn)行主題特征分割,并構(gòu)建主題概率統(tǒng)計(jì)模型進(jìn)行情感信息處理,但該方法沒(méi)有考慮到文本語(yǔ)義的連貫性。
文獻(xiàn)[3-4]基于 LDA模型(Latent Dirichlet Allocation,LDA)對(duì)微博文檔進(jìn)行建模和主題提取,在此基礎(chǔ)上實(shí)現(xiàn)微博用戶(hù)劃分和聚類(lèi)。文獻(xiàn)[5]采用LDA模型對(duì)電影評(píng)論文本進(jìn)行情感分析和分類(lèi),在得到電影評(píng)論主題分布的基礎(chǔ)上,結(jié)合TF-IDF方法獲取文本相似度矩陣和評(píng)分,進(jìn)而實(shí)現(xiàn)電影聚類(lèi)和推薦。
主題概率統(tǒng)計(jì)模型的應(yīng)用取得了一定的效果,然而,其所涉及的研究是在主題之間相互獨(dú)立的假設(shè)下實(shí)現(xiàn)的,忽略了文本主題的相關(guān)關(guān)系,不符合文本表述中主題相互關(guān)聯(lián)的現(xiàn)實(shí)情況,進(jìn)而使得詞表示存在缺陷,同時(shí)也存在數(shù)據(jù)維度過(guò)高、計(jì)算復(fù)雜等問(wèn)題。
針對(duì)以上問(wèn)題,相關(guān)主題模型(Correlated Topic Model,CTM)[6]實(shí)現(xiàn)了對(duì)主題特征潛在相關(guān)性地挖掘,因此得到了廣為使用?;谠撃P?文獻(xiàn)[7]提出相關(guān)主題模型-概率矩陣分解(Correlated Topic Model and Probabilistic Matrix Factorization,CTM-PMF)模型,在挖掘出沒(méi)有評(píng)分新物品主題歸類(lèi)和隱含相關(guān)關(guān)系基礎(chǔ)上,實(shí)現(xiàn)了相關(guān)的推薦功能;文獻(xiàn)[8]進(jìn)行了文本情感分析研究,提出基于主題情感混合的CTM模型(Sentiment and Topic hybrid Correlated Topic Model,STCTM),其實(shí)驗(yàn)結(jié)果也驗(yàn)證了CTM模型在相關(guān)性表示方面具有良好的性能。在實(shí)際文本表述中,評(píng)論內(nèi)容中所蘊(yùn)含的主題是相互關(guān)聯(lián)的,因此基于CTM模型的信息處理和情感分析研究具有一定的應(yīng)用價(jià)值和意義,但以上研究均采用機(jī)器學(xué)習(xí)的方法進(jìn)行知識(shí)表示,無(wú)法解決詞表示粒度稀疏的問(wèn)題。
近年來(lái),深度學(xué)習(xí)技術(shù)取得突破性進(jìn)展,大量研究基于該技術(shù)使用神經(jīng)網(wǎng)絡(luò)構(gòu)建情感分析模型,解決了傳統(tǒng)機(jī)器學(xué)習(xí)中詞表示粒度稀疏的問(wèn)題,取得了一些建設(shè)性成果。目前,深度學(xué)習(xí)已經(jīng)成為文本情感分析的主流研究方法和技術(shù)。
文獻(xiàn)[9]中提出了長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行情感分析研究,在詞嵌入層使用固定的詞向量進(jìn)行表示,忽略了詞與詞之間的先后順序,導(dǎo)致情感監(jiān)測(cè)結(jié)果存在偏差。而雙向長(zhǎng)短期記憶 (Bidirectional Long Short-Term Memory,BiLSTM) 網(wǎng)絡(luò)[10]在文本句子表示時(shí),結(jié)合當(dāng)前詞語(yǔ)的前后信息進(jìn)行建模,更好地捕捉句子的位置信息和語(yǔ)境資源。文獻(xiàn)[11]利用多層感知機(jī)抽取情感特征,但該方法在進(jìn)行特征分割時(shí),忽略了主題相關(guān)性對(duì)文本詞句的影響,在句子表示中采用的組合矢量模型不能很好地捕獲句子的位置信息,導(dǎo)致無(wú)法抽取到更深層次的情感信息。
綜合考慮以上優(yōu)缺點(diǎn),本文將基于主題相關(guān)性和深度學(xué)習(xí)理論進(jìn)行文本情感分析研究,在采用CTM模型獲取文本相關(guān)主題信息的基礎(chǔ)上進(jìn)行文本詞表示,并融合word2vec和BiLSTM模型,來(lái)提取文本情感分類(lèi)信息。
綜合考慮以上優(yōu)缺點(diǎn),LRR模型[2]是一個(gè)半監(jiān)督主題概率統(tǒng)計(jì)模型,采用基于自舉的文本分割算法對(duì)在線評(píng)論文本進(jìn)行特征分割,對(duì)每個(gè)特征首先人工給定一組種子關(guān)鍵詞,基于這組初始特征通過(guò)卡方統(tǒng)計(jì)進(jìn)行迭代,最后得到評(píng)論數(shù)據(jù)集的特征分割結(jié)果。該模型需要人工標(biāo)注數(shù)據(jù)集,其精確度過(guò)度依賴(lài)于相關(guān)領(lǐng)域的專(zhuān)業(yè)水平,迭代過(guò)程中也沒(méi)有考慮文本主題特征的相關(guān)性。
CTM模型在主題相關(guān)性表示方面具有良好的性能,本文采用該模型來(lái)獲取文本主題相關(guān)信息,提出基于主題相關(guān)性的特征分割A(yù)STC(Aspect Segmentation based on Topic Correlation)算法,將主題特征相關(guān)性量化后融入深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,實(shí)現(xiàn)基于主題相關(guān)性的文本特征分割。
ASTC算法主要分為兩個(gè)步驟:1、使用CTM模型獲取主題相關(guān)信息;2、文本特征分割。下面對(duì)該算法的處理過(guò)程進(jìn)行詳細(xì)描述。
設(shè)D={d1,d2, …,dM} 是包含M篇文本的數(shù)據(jù)集,所涵蓋的k個(gè)特征為A={A1,A2, …,Ak},所包含的詞匯集為V={w1,w2, …,wN},V中包括N個(gè)互不相同的單詞。
首先,調(diào)用R語(yǔ)言中CTM模型的相關(guān)工具包對(duì)D進(jìn)行聚類(lèi)處理,得到主題與單詞之間的相關(guān)關(guān)系矩陣Q,Q∈Rk×N(k為主題特征個(gè)數(shù),N為語(yǔ)料庫(kù)詞匯集V中單詞個(gè)數(shù));qij∈Q(i=1,…,k;j=1,…,N)表示第j個(gè)單詞屬于主題Ai的相關(guān)程度。
其次,對(duì)D中每篇評(píng)論做文本分割:對(duì)任意的dm∈D(m=1,…,M),將dm中包含的句子按序排列成句子集
S(dm)={sm1, …,smi, …,sml},
對(duì)?smi∈dm(i=1,…,l),對(duì)照矩陣Q為smi中單詞匹配相關(guān)程度最大值的主題,將匹配到主題Aj(j=1,…,k)下所有單詞對(duì)應(yīng)的相關(guān)關(guān)系值相加,進(jìn)而得到smi屬于主題Aj的相關(guān)概率值Pij(i=1,…,l;j=1,…,k),取max{Pij}對(duì)應(yīng)的主題為句子smi所屬主題,得到smi對(duì)應(yīng)的主題特征向量
對(duì)D中所有文本完成特征分割后,可以得到評(píng)論集D中每篇評(píng)論di(i=1,…,M)關(guān)于特征集A的k個(gè)特征的M×k維分割矩陣T:
令wij=tij/ti,則wi=(wi1,…,wij,…,wik)即為評(píng)論di的預(yù)測(cè)特征權(quán)重向量,
為整個(gè)評(píng)論集的預(yù)測(cè)特征權(quán)重向量,αj=(w1j,…,wij,…,wMj)為整個(gè)評(píng)論集D關(guān)于Aj的預(yù)測(cè)特征權(quán)重向量。
常用的傳統(tǒng)情感分類(lèi)存在諸多局限性,具備自動(dòng)學(xué)習(xí)特征能力的深度學(xué)習(xí)在情感分析研究領(lǐng)域中得到越來(lái)越多的關(guān)注。
情感分析任務(wù)中常用的深度神經(jīng)網(wǎng)絡(luò)主要包括多層感知機(jī)[12]、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[13]和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[14], 其中RNN因其對(duì)文本上下文信息的捕獲能力而成為情感分析的常見(jiàn)研究工具,但RNN在訓(xùn)練過(guò)程中存在梯度爆炸和消失的問(wèn)題,研究人員提出了LSTM[15],其每個(gè)單元使用3個(gè)門(mén)調(diào)節(jié)允許進(jìn)入每個(gè)節(jié)點(diǎn)狀態(tài)的信息量,從而更有效地保持長(zhǎng)期依賴(lài),克服了RNN梯度爆炸和消失的問(wèn)題,BiLSTM是LSTM的進(jìn)一步延展,可以從文本序列的前后雙向獲取上下文特征[16]。
在基于主題相關(guān)性的特征分割基礎(chǔ)上,結(jié)合BiLSTM模型,提出基于主題相關(guān)性的BiLSTM情感分析模型(BiLSTM-based on Topic Correlation,BiLSTM-TC)。本文的情感分類(lèi)問(wèn)題為二元分類(lèi),BiLSTM-TC模型主要思想如下:
首先,采用word2vec模型進(jìn)行文本詞表示,將得到的主題特征向量與目標(biāo)詞的word2vec詞向量進(jìn)行交叉拼接,得到預(yù)訓(xùn)練詞向量;接著,使用BiLSTM模型進(jìn)行句子表示;最后,使用全連接層對(duì)語(yǔ)義信息進(jìn)行提取,實(shí)現(xiàn)文本情感分類(lèi)。情感分析模型如圖1所示,共分為4層:輸入層、句子表示層、全連接層和輸出層。
圖1 情感分析神經(jīng)網(wǎng)絡(luò)模型圖Fig. 1 Sentiment analysis neural network model diagram
在輸入層中,輸入樣本數(shù)據(jù),用word2vec模型進(jìn)行文本詞表示,并將文本句子與主題-詞相關(guān)關(guān)系融入詞表示中,充分考慮文本所蘊(yùn)含主題信息的影響,對(duì)情感分析結(jié)果起到優(yōu)化作用。具體處理方法如下:
G=Rmi×Q,
(1)
式中:Rmi∈R1×k,Q∈Rk×N,G∈R1×N(k為主題特征個(gè)數(shù),N為語(yǔ)料庫(kù)詞匯集V中單詞個(gè)數(shù)),將該向量與word2vec詞向量進(jìn)行交叉拼接,得到詞嵌入向量。
句子表示層中,采用BiLSTM進(jìn)行句子表示,將輸入層詞嵌入的輸出作為BiLSTM的輸入來(lái)學(xué)習(xí)文本的語(yǔ)義信息,BiLSTM模型充分考慮文本詞序列的先后順序,從前后雙向獲取上下文特征,這更好地獲取句子位置信息和上下文語(yǔ)境資源。
在全連接層,對(duì)句子表示層學(xué)習(xí)到的信息進(jìn)行提取,使用公式(2)中ReLU函數(shù)進(jìn)行激活:
g(x)=max{0,x}。
(2)
在輸出層,針對(duì)二元情感分類(lèi),該層對(duì)應(yīng)采用的激活函數(shù)為sigmoid函數(shù),如公式(3)所示,所得到的輸出向量為。中每個(gè)元素對(duì)應(yīng)一個(gè)訓(xùn)練批次中的每個(gè)樣本,其值介于0和1之間,越接近1,對(duì)應(yīng)樣本的情感傾向?yàn)榉e極的可能性越大; 反之,元素的值越接近0。計(jì)算樣本標(biāo)簽y與的交叉熵得到損失值loss。
(3)
實(shí)驗(yàn)數(shù)據(jù)來(lái)自Yelp,它是最常用于情感分析的公開(kāi)英文數(shù)據(jù)集之一,包括旅游、酒店、購(gòu)物等領(lǐng)域的評(píng)論,包含560 000條驗(yàn)證集和38 000條測(cè)試集??紤]到總的數(shù)據(jù)集太大,本實(shí)驗(yàn)從Yelp驗(yàn)證集中抽取了200 000條作為訓(xùn)練集、10 000條作為驗(yàn)證集,從Yelp測(cè)試集中抽取了20 000條作為測(cè)試集。
實(shí)驗(yàn)采用的神經(jīng)網(wǎng)絡(luò)框架為tensorflow,它是目前最流行的深度學(xué)習(xí)框架之一。對(duì)于Yelp數(shù)據(jù)集,使用每個(gè)樣本的前200個(gè)詞作為詞嵌入層的輸入,該數(shù)量在情感分析實(shí)驗(yàn)中使用較為普遍,對(duì)于數(shù)量不足的進(jìn)行隨機(jī)填充達(dá)到200個(gè)。
將本文BiLSTM-TC模型與LRR模型、STCTM模型和使用word2vec的 BiLSTM模型進(jìn)行實(shí)驗(yàn)對(duì)比,其中LRR和STCTM是基于機(jī)器學(xué)習(xí)的模型,BiLSTM和BiLSTM-TC是基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型。實(shí)驗(yàn)中使用準(zhǔn)確率和F值作為評(píng)價(jià)指標(biāo),F值是精確率和召回率的調(diào)和平均值,用于綜合反映模型性能的整體指標(biāo),其值越高說(shuō)明實(shí)驗(yàn)方法越有效。實(shí)驗(yàn)結(jié)果如表1所示。
由表1中數(shù)據(jù)可以得出, STCTM的實(shí)驗(yàn)性能指標(biāo)高于LRR,其中分類(lèi)準(zhǔn)確率高出2.28個(gè)百分點(diǎn),F值高出2.28個(gè)百分點(diǎn),說(shuō)明主題相關(guān)性地加入對(duì)情感分析結(jié)果有提升作用;BiLSTM與BiLSTM-TC的準(zhǔn)確率和F值均高于LRR和STCTM,其中分類(lèi)準(zhǔn)確率比LRR模型高出6.39和8.46個(gè)百分點(diǎn),比STCTM模型高出4.11和6.18個(gè)百分點(diǎn),F值比LRR模型高出6.05和8.9個(gè)百分點(diǎn),比STCTM模型高出3.77和6.62個(gè)百分點(diǎn),這說(shuō)明基于深度學(xué)習(xí)的方法明顯優(yōu)于機(jī)器學(xué)習(xí)方法。另外,BiLSTM-TC的實(shí)驗(yàn)性能指標(biāo)超過(guò)BiLSTM,其中分類(lèi)準(zhǔn)確率高出2.07個(gè)百分點(diǎn),F值高出2.85個(gè)百分點(diǎn),這證明了神經(jīng)網(wǎng)絡(luò)模型輸入中融入主題相關(guān)信息,能幫助模型獲得更好的分類(lèi)性能。
為了考評(píng)本文模型在預(yù)測(cè)主題特征情感方面的精確程度,實(shí)驗(yàn)采用類(lèi)似文獻(xiàn)[2]中評(píng)價(jià)方法,用皮爾遜相關(guān)系數(shù)計(jì)算得到評(píng)論集D中每篇評(píng)論di(i=1,…,M)的真實(shí)特征權(quán)重向量和預(yù)測(cè)權(quán)重向量之間的相關(guān)關(guān)系,取均值后用σ1表示,以及整個(gè)評(píng)論集D關(guān)于Aj的真實(shí)特征權(quán)重向量和預(yù)測(cè)特征權(quán)重向量之間的相關(guān)關(guān)系σ2。
(4)
(5)
實(shí)驗(yàn)結(jié)果的對(duì)比結(jié)果如表2所示。
表2 幾種模型相關(guān)關(guān)系性能指標(biāo)對(duì)比Tab. 2 Comparison of performance indicators of several model correlations
從表2的數(shù)據(jù)可以得出,對(duì)于基于機(jī)器學(xué)習(xí)的LRR和STCTM模型,STCTM的σ1和σ2值高于LRR,說(shuō)明主題相關(guān)性的融入能提高模型特征權(quán)重預(yù)測(cè)值的準(zhǔn)確性;基于深度學(xué)習(xí)的模型BiLSTM與BiLSTM-TC的σ1和σ2值均高于LRR和STCTM,這說(shuō)明基于深度學(xué)習(xí)的方法所預(yù)測(cè)特征權(quán)重和真實(shí)特征權(quán)重相關(guān)性更高,更接近真實(shí)值;本文BiLSTM-TC模型的σ1和σ2值高于BiLSTM模型,驗(yàn)證了神經(jīng)網(wǎng)絡(luò)模型輸入中融入主題相關(guān)信息,能幫助模型得到與真實(shí)情況最為吻合的特征權(quán)重值。
本文的情感分析模型結(jié)合相關(guān)性理論和深度學(xué)習(xí)技術(shù),將文本隱含的相關(guān)關(guān)系融入神經(jīng)網(wǎng)絡(luò)模型中,在采用CTM模型實(shí)現(xiàn)文本特征分割的基礎(chǔ)上,構(gòu)造蘊(yùn)含相關(guān)性信息的詞向量,將其作為BiLSTM模型的輸入,實(shí)現(xiàn)文本句子表示和情感特征提取。所采用的深度學(xué)習(xí)技術(shù)解決了機(jī)器學(xué)習(xí)中特征依賴(lài)和詞表示粒度稀疏的問(wèn)題,BiLSTM模型從文本序列的前后雙向獲取上下文特征,可以更好地捕獲句子的位置信息。主題相關(guān)性理論的引入,能幫助模型抽取到更深層次的情感信息,實(shí)現(xiàn)網(wǎng)絡(luò)海量評(píng)論的情感分析,可以推廣到相關(guān)領(lǐng)域,有廣闊的應(yīng)用前景和理論意義。
信陽(yáng)師范學(xué)院學(xué)報(bào)(自然科學(xué)版)2023年3期