胥桂仙 劉蘭寅 王家誠(chéng) 陳哲
摘 要:針對(duì)網(wǎng)絡(luò)短文本存在大量的噪聲和缺乏上下文信息的問(wèn)題,提出一種基于BERT和超圖對(duì)偶注意力機(jī)制的文本情感分析模型。首先利用BERT預(yù)訓(xùn)練模型強(qiáng)大的表征學(xué)習(xí)能力,對(duì)情感文本進(jìn)行動(dòng)態(tài)特征提?。煌瑫r(shí)挖掘文本的上下文順序信息、主題信息和語(yǔ)義依存信息將其建模成超圖,通過(guò)對(duì)偶圖注意力機(jī)制來(lái)對(duì)以上關(guān)聯(lián)信息進(jìn)行聚合;最終將BERT和超圖對(duì)偶注意力網(wǎng)絡(luò)兩個(gè)模塊提取出的特征進(jìn)行拼接,經(jīng)過(guò)softmax層得到對(duì)文本情感傾向的預(yù)測(cè)結(jié)果。該模型在電商評(píng)論二分類數(shù)據(jù)集和微博文本六分類數(shù)據(jù)集上的準(zhǔn)確率分別達(dá)到95.49%和79.83%,相較于基準(zhǔn)模型分別提高2.27%~3.45%和6.97%~11.69%;同時(shí)還設(shè)計(jì)了消融實(shí)驗(yàn)驗(yàn)證模型各部分對(duì)分類結(jié)果的增益。實(shí)驗(yàn)結(jié)果表明,該模型能夠顯著提高針對(duì)中文網(wǎng)絡(luò)短文本情感分析的準(zhǔn)確率。
關(guān)鍵詞:文本情感分析; 超圖; 圖分類; 注意力機(jī)制
中圖分類號(hào):TP311?? 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2024)03-020-0786-08
doi:10.19734/j.issn.1001-3695.2023.07.0311
Text sentiment analysis based on BERT and hypergraph with dual attention network
Xu Guixiana,b, Liu Lanyina,b, Wang Jiachenga,b, Chen Zhea,b
(a.Key Laboratory of Ethnic Language Intelligent Analysis & Security Governance of MOE, b.School of Information Engineering, Minzu University of China, Beijing 100081, China)
Abstract:To address the problems of large amount of noise and lack of contextual information in short texts on the Web, this paper proposed a text sentiment analysis model based on BERT and hypergraph with dual attention mechanism. This method firstly utilized BERT for dynamic feature extraction of sentiment texts. Meanwhile it mined the contextual, topic and semantic dependency information of the text to model it into a hypergraph, and then aggregated the above information through the dual graph attention mechanism. Finally, it spliced the features extracted by BERT and hypergraph with dual attention network, and obtained the prediction result after softmax layer. The accuracy of this model on the e-commerce review dataset and the Microblog text dataset reaches 95.49% and 79.83% respectively, which is 2.27%~3.45% and 6.97%~11.69% higher than the baselines, respectively. The experimental results show that the model can significantly improve the accuracy of sentiment analysis for Chinese Web short texts.
Key words:text sentiment analysis; hypergraph; graph classification; attention mechanism
0 引言
文本情感分析旨在通過(guò)對(duì)文本內(nèi)容進(jìn)行分析和理解,從中提取出表達(dá)者的態(tài)度或情感傾向,如積極、消極或中性[1],在眾多領(lǐng)域中具有廣泛的意義和應(yīng)用價(jià)值。
用戶社交媒體分析、產(chǎn)品評(píng)論挖掘是情感分析任務(wù)中兩個(gè)重要的應(yīng)用場(chǎng)景。微博文本是一種典型的社交媒體文本,承載著用戶的情感、意見(jiàn)和態(tài)度。政府可以通過(guò)分析用戶言論,了解公眾對(duì)熱點(diǎn)話題的情感反應(yīng),及時(shí)掌握社會(huì)輿論動(dòng)態(tài),為決策和輿情管理提供有力支持。電商平臺(tái)上的產(chǎn)品評(píng)論包含了消費(fèi)者的情感傾向和購(gòu)買(mǎi)體驗(yàn)。深入挖掘消費(fèi)者對(duì)產(chǎn)品的反饋文本,能夠幫助商家、企業(yè)了解顧客對(duì)產(chǎn)品和服務(wù)的態(tài)度和喜好,從而更有針對(duì)性地推出高質(zhì)量的商品和服務(wù)。
然而,此類網(wǎng)絡(luò)文本大多字?jǐn)?shù)較少,表達(dá)方式隨意多樣,通常存在大量的噪聲和缺乏上下文信息,如表情符號(hào)、縮寫(xiě)詞、網(wǎng)絡(luò)俚語(yǔ)等,這給情感分析的準(zhǔn)確性帶來(lái)了困難。并且,在處理過(guò)程中需要對(duì)文本進(jìn)行有效的全局建模,捕捉上下文信息和單詞之間的長(zhǎng)距離關(guān)聯(lián)以及相應(yīng)的語(yǔ)義信息,這對(duì)情感分析算法的魯棒性和泛化能力提出了更高的要求。
針對(duì)以上問(wèn)題,本文面向網(wǎng)絡(luò)短文本提出了一種基于BERT和超圖對(duì)偶注意力網(wǎng)絡(luò)的情感分析模型。BERT已學(xué)習(xí)到了大量通用語(yǔ)義知識(shí),具有較強(qiáng)的遷移能力,能夠在一定程度上克服噪聲問(wèn)題,更加準(zhǔn)確和全面地理解文本內(nèi)容。在超圖對(duì)偶注意力網(wǎng)絡(luò)中,挖掘文本的主題、語(yǔ)義依存等多類信息將其建模成超圖,并通過(guò)對(duì)偶注意力機(jī)制來(lái)聚合這些關(guān)聯(lián)信息,使得模型能夠更好地捕捉到全局語(yǔ)義關(guān)系。在電商評(píng)論和微博文本兩個(gè)情感分析數(shù)據(jù)集上,通過(guò)多組對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn)證明了該模型在情感分析任務(wù)上的優(yōu)越性和各組成模塊的有效性。
1 相關(guān)工作
隨著社交媒體和在線評(píng)論等大規(guī)模文本數(shù)據(jù)的不斷涌現(xiàn),準(zhǔn)確地分析和理解文本中蘊(yùn)涵的情感信息變得尤為關(guān)鍵。過(guò)去幾十年間,文本情感分析的發(fā)展經(jīng)歷了從情感詞典匹配、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)到基于深度學(xué)習(xí)模型的過(guò)程。當(dāng)下,社交平臺(tái)的短文本呈現(xiàn)多樣化的語(yǔ)義結(jié)構(gòu)以及需要在更高維度上對(duì)數(shù)據(jù)進(jìn)行處理,基于情感詞典和機(jī)器學(xué)習(xí)等早期方法已不能很好地應(yīng)對(duì)目前研究中存在的問(wèn)題。深度學(xué)習(xí)模型在自動(dòng)學(xué)習(xí)文本特征的同時(shí)又能夠?qū)崿F(xiàn)對(duì)高維稀疏的文本表示降維,因此越來(lái)越多的研究人員采用深度神經(jīng)網(wǎng)絡(luò)對(duì)文本進(jìn)行端到端的情感分析。
基于CNN和RNN的神經(jīng)網(wǎng)絡(luò)是情感分析任務(wù)中最常見(jiàn)的兩類模型,在早期的研究工作中取得了較大的突破[2]。隨著注意力機(jī)制在計(jì)算機(jī)視覺(jué)領(lǐng)域中取得了驚人的成果,許多研究者將其引入到文本情感分類任務(wù)中,證明了其能夠加強(qiáng)神經(jīng)網(wǎng)絡(luò)對(duì)重要特征篩選的能力,降低噪聲干擾[3~5]。
谷歌團(tuán)隊(duì)基于自注意力機(jī)制,先后提出了Transformer[6]和BERT預(yù)訓(xùn)練模型[7],在各類自然語(yǔ)言處理任務(wù)中都取得了較大突破。RoBERTa[8]、ALBERT[9]等均是研究者們?cè)贐ERT的基礎(chǔ)上針對(duì)不同方面進(jìn)行改進(jìn)的預(yù)訓(xùn)練模型。此類模型的思想是:預(yù)先在大規(guī)模的語(yǔ)料上采用自監(jiān)督的方式學(xué)習(xí)到通用的知識(shí),在完成下游特定任務(wù)時(shí),只需要少量相關(guān)領(lǐng)域的標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)就能夠取得較好的性能表現(xiàn)[10~12]。
近年來(lái),圖神經(jīng)網(wǎng)絡(luò)由于能夠有效地處理非歐氏結(jié)構(gòu)數(shù)據(jù),在情感分析領(lǐng)域中取得了顯著的進(jìn)展。Yao等人[13]提出的TextGCN首次將圖卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到文本任務(wù)中,通過(guò)構(gòu)造文本圖的方式對(duì)整個(gè)語(yǔ)料庫(kù)中的詞共現(xiàn)和文檔詞關(guān)系信息進(jìn)行建模,在MR電影評(píng)論情感數(shù)據(jù)集中取得了令人滿意的效果。Lin等人[14]將大規(guī)模預(yù)訓(xùn)練模型與圖卷積神經(jīng)網(wǎng)絡(luò)結(jié)合提出了BertGCN,使用BERT系列模型初始化文本圖中的節(jié)點(diǎn)特征,GCN迭代更新文檔表示,實(shí)驗(yàn)結(jié)果表明圖神經(jīng)網(wǎng)絡(luò)可以從大規(guī)模預(yù)訓(xùn)練中顯著受益。Jin等人[15]考慮詞性和位置關(guān)聯(lián)信息,提出了一種基于句法依賴圖的多特征分層注意力情感分析模型,有效地提高了社交短文本的情感分類性能。Yang等人[16]針對(duì)文本圖中的邊構(gòu)建方法不能很好適應(yīng)長(zhǎng)而復(fù)雜的上下文的問(wèn)題,從多個(gè)角度捕獲情感特征,還利用依賴性解析器分析每個(gè)單詞之間的語(yǔ)法關(guān)系。Chen等人[17]考慮到現(xiàn)有方法忽略了用戶情感取向互動(dòng)的問(wèn)題,使用GCN從社交網(wǎng)絡(luò)中學(xué)習(xí)用戶表示,BERT從用戶意見(jiàn)文本中學(xué)習(xí)情感表示,通過(guò)兩者融合來(lái)判斷社交網(wǎng)絡(luò)中的用戶情感傾向。
然而對(duì)于含有高階語(yǔ)義的文本,這些GNN類模型在構(gòu)建圖時(shí),對(duì)文本信息并不能充分表達(dá),圖中成對(duì)的邊關(guān)系限制了更高質(zhì)量的文本學(xué)習(xí)能力。Ding等人[18]第一次嘗試將超圖運(yùn)用到情感分類任務(wù)中,提出的HyperGAT模型能夠捕獲詞之間的高階交互關(guān)系,并通過(guò)超圖獲取文本語(yǔ)序和語(yǔ)義信息的特征表示,在MR二分類數(shù)據(jù)集中準(zhǔn)確率達(dá)到78.32%。Kao等人[19]將HyperGAT用于多標(biāo)簽幽默文本分類任務(wù)中,性能遠(yuǎn)遠(yuǎn)優(yōu)于其他基線模型。李全鑫等人[20]提出的IBHC(integration of BERT and hypergraph convolution)模型將BERT、超圖卷積網(wǎng)絡(luò)和注意力機(jī)制進(jìn)行結(jié)合,在MR數(shù)據(jù)集上的實(shí)驗(yàn)證明,該模型結(jié)構(gòu)能夠增強(qiáng)全局結(jié)構(gòu)依賴和局部語(yǔ)義兩種特征的協(xié)同表達(dá)能力。
以上研究工作表明,將圖結(jié)構(gòu)應(yīng)用在自然語(yǔ)言處理領(lǐng)域已有了非常大的進(jìn)展和突破,但如何在將文本建模成圖的同時(shí)保留更多內(nèi)部信息仍是許多研究者正在探索的內(nèi)容,而將普通文本圖結(jié)構(gòu)擴(kuò)展為超圖更是處于起步階段,相關(guān)研究較少。大規(guī)模預(yù)訓(xùn)練模型具有強(qiáng)大的表征學(xué)習(xí)能力,超圖結(jié)構(gòu)能夠有效地建模文本的語(yǔ)義關(guān)聯(lián)和情感信息?;诖耍疚脑贖yperGAT的基礎(chǔ)上改進(jìn)超圖的構(gòu)建方法,使其包含更多的語(yǔ)義關(guān)聯(lián)和情感信息,并采用圖注意力機(jī)制來(lái)聚合,同時(shí)與預(yù)訓(xùn)練模型BERT結(jié)合,實(shí)現(xiàn)針對(duì)中文網(wǎng)絡(luò)短文本的情感分析任務(wù),并選取較為成熟的相關(guān)模型進(jìn)行對(duì)比實(shí)驗(yàn),評(píng)估本文模型的性能表現(xiàn)。
2 基于BERT和超圖對(duì)偶注意力網(wǎng)絡(luò)的文本情感分析模型
本文提出的基于BERT和超圖對(duì)偶注意力網(wǎng)絡(luò)的中文短文本情感模型B_HGDAN(BERT and hyper graph with dual attention network)結(jié)構(gòu)如圖1所示。總體分為兩大部分,分別是BERT模塊、基于超圖和對(duì)偶注意力機(jī)制的HGDAN模塊。
2.1 預(yù)訓(xùn)練模型BERT提取情感文本動(dòng)態(tài)向量特征
BERT[7]中的自注意力機(jī)制允許模型在編碼過(guò)程中同時(shí)考慮輸入序列中的所有位置,并分配不同的注意力權(quán)重。這使得其能夠捕捉文本中的全局依賴關(guān)系,可以更好地表達(dá)單詞、句子和上下文之間的關(guān)系。
BERT模型在處理中文時(shí)以字為粒度進(jìn)行,對(duì)于給定的由l個(gè)字符組成的中文文本序列S={s1,s2,…,sl},首先處理成BERT的輸入格式,即S={[CLS],s1,s2,…,sl,[SEP]}。輸入序列在經(jīng)過(guò)N個(gè)Transformer層后,可得到每個(gè)字符對(duì)應(yīng)的BERT向量表示,如式(1)所示。
R=BERT(S)(1)
其中:R={r[CLS],r1,r2,…,rl,r[SEP]},本文將[CLS]字符對(duì)應(yīng)的輸出r[CLS],作為該輸入情感文本序列的特征向量。
2.2 情感文本超圖構(gòu)建
超圖與傳統(tǒng)簡(jiǎn)單圖的區(qū)別在于,超圖的超邊可以連接兩個(gè)或者多個(gè)節(jié)點(diǎn)。超圖被用于描述樣本對(duì)象之間更為復(fù)雜的高階關(guān)系:節(jié)點(diǎn)表示對(duì)象,超邊用來(lái)表示對(duì)象組之間的高階交互[21]。
超圖可以定義為圖G=(V,E),其中集合V={v1,v2,…,vn}表示n個(gè)超節(jié)點(diǎn),集合E={e1,e2,…,em}表示超圖中的m條超邊,使用關(guān)聯(lián)矩陣作為超圖的數(shù)學(xué)表達(dá)。超圖的關(guān)聯(lián)矩陣A∈Euclid ExtraaBpn×m定義如式(2)所示,若超點(diǎn)vi位于超邊ej之上,則Aij為1,否則為0。
Aij=1 vi∈ej0 viej(2)
每條文本都可看作是一個(gè)詞序列,可以構(gòu)建出一張文本超圖。本文將每個(gè)詞視作一個(gè)超節(jié)點(diǎn),分析文本挖掘超節(jié)點(diǎn)之間的關(guān)聯(lián),并通過(guò)超邊表示。設(shè)每個(gè)超節(jié)點(diǎn)vi都具有d維的屬性向量hi,則所有超節(jié)點(diǎn)屬性可以表示為H=[h1,h2,…,hn]T∈Euclid ExtraaBpn×d。
為了對(duì)情感文本中的異構(gòu)高階上下文信息進(jìn)行建模,本文構(gòu)建了三種類型的超邊,下文將以情感句“房間及服務(wù)員的態(tài)度讓人滿意?!睘槔M(jìn)行詳細(xì)說(shuō)明。
2.2.1 上下文順序超邊
在文本情感分析任務(wù)中,準(zhǔn)確地捕捉詞語(yǔ)之間的上下文順序關(guān)系是至關(guān)重要的。情感表達(dá)往往受到上下文環(huán)境的影響,同樣的詞語(yǔ)組成在不同的詞序下可能表達(dá)不同的情感傾向,一些情感詞或修飾詞可能會(huì)影響到其前后的詞語(yǔ)情感表達(dá)。通過(guò)考慮詞語(yǔ)的共現(xiàn)關(guān)系,尤其是它們?cè)诰渥又械南鄬?duì)順序,有助于更準(zhǔn)確地理解詞語(yǔ)之間的關(guān)系。
在超圖的構(gòu)建過(guò)程中,本文使用固定大小的滑動(dòng)窗口來(lái)捕捉情感句中的局部詞共現(xiàn)信息,一個(gè)窗口所覆蓋的詞超點(diǎn)連接起來(lái)構(gòu)成一條超邊。通過(guò)這種方式,每個(gè)窗口都會(huì)生成一條超邊,從而形成多條超邊,反映情感句的上下文語(yǔ)序信息。圖2是滑動(dòng)窗口尺寸為5時(shí),上下文超邊的構(gòu)建示例。
2.2.2 主題超邊
文本的主題信息與情感具有緊密關(guān)系。例如“小”一詞,當(dāng)其出現(xiàn)在關(guān)于“水果”“酒店”等主題的用戶評(píng)論里時(shí),該評(píng)論可能表達(dá)的是負(fù)面情感,表示水果不夠成熟或房間狹窄等意思;而當(dāng)其出現(xiàn)在“電子產(chǎn)品”的評(píng)論里時(shí),可能表示輕便、便于攜帶的意思,傳達(dá)出的是積極情感。因此,本文通過(guò)挖掘情感文本中的主題信息,構(gòu)建主題超邊來(lái)捕捉單詞與主題之間的高階相關(guān)性,提高模型對(duì)文本情感傾向判斷的精度。
本文使用Dieng等人[22]提出的嵌入式主題模型(embedded topic model,ETM)挖掘潛在主題信息。與傳統(tǒng)LDA及其變體等基于詞袋建模的主題模型不同,ETM使用word2vec將詞向量信息融入到主題向量的訓(xùn)練中,在詞向量空間完成主題建模。該模型結(jié)合了主題模型能夠挖掘潛在語(yǔ)義結(jié)構(gòu)與單詞嵌入能夠提供低維稠密表示的優(yōu)勢(shì),考慮詞語(yǔ)間的相互關(guān)系并使擬合出的潛在主題更具可解釋性和可區(qū)分性。
從所有情感句中挖掘出K個(gè)潛在主題構(gòu)成的集合為T(mén)={t1,t2,…,tK},對(duì)于每個(gè)主題,取前十個(gè)概率最大潛在主題詞,表示為ti={tw1,tw2,…,tw10}。將每篇情感文本中同屬于一個(gè)主題的詞連接起來(lái)構(gòu)建主題超邊,如圖3所示。
對(duì)于主題數(shù)K的最佳取值將通過(guò)實(shí)驗(yàn)探究,進(jìn)而完成主題超邊的構(gòu)造,豐富每個(gè)情感句中單詞的高階語(yǔ)義上下文信息。
2.2.3 語(yǔ)義依存超邊
許多研究將依存句法分析引入到文本情感分析任務(wù)中,并取得了令人滿意的效果,證明了解析句子的依賴結(jié)構(gòu)對(duì)于判斷其情感傾向有著重要作用[15,23,24]。但句法分析主要是通過(guò)句子結(jié)構(gòu)識(shí)別其語(yǔ)法成分并分析成分之間的依存關(guān)系,而電商評(píng)論、微博等口語(yǔ)化嚴(yán)重、表達(dá)通俗隨意的網(wǎng)絡(luò)文本大多不符合現(xiàn)代漢語(yǔ)的語(yǔ)法和語(yǔ)用規(guī)定,嚴(yán)重影響句法依存分析結(jié)果的準(zhǔn)確性。而語(yǔ)義依存分析則是對(duì)輸入文本中語(yǔ)言單位間的語(yǔ)義關(guān)聯(lián)進(jìn)行分析,不直接依賴句式語(yǔ)法結(jié)構(gòu),能夠在一定程度上打破這一限制。因此,本文將語(yǔ)義依存分析引入超圖構(gòu)建中,通過(guò)語(yǔ)義超邊來(lái)描述文本中詞之間的語(yǔ)義依存信息。對(duì)文本進(jìn)行語(yǔ)義依存分析可以得到如圖4所示的依存結(jié)構(gòu),連接具有依存關(guān)系的超點(diǎn),構(gòu)建語(yǔ)義超邊,從而捕獲文本中的語(yǔ)義依賴關(guān)系信息。
2.3 對(duì)偶注意力機(jī)制
在圖神經(jīng)網(wǎng)絡(luò)中,信息在節(jié)點(diǎn)之間傳遞,生成依賴于圖結(jié)構(gòu)的節(jié)點(diǎn)表示。而對(duì)于一張超圖而言,一條超邊可能連接了多個(gè)超點(diǎn),一個(gè)超點(diǎn)可能存在于多條超邊之上,節(jié)點(diǎn)間的信息傳遞問(wèn)題則更加復(fù)雜。
為了支持在超圖上的文本特征學(xué)習(xí),本文受HyperGAT[18]中圖注意力模塊的啟發(fā),利用超邊作為媒介,實(shí)現(xiàn)超節(jié)點(diǎn)間的特征傳遞,通過(guò)兩個(gè)聚合函數(shù)學(xué)習(xí)節(jié)點(diǎn)表示,從而捕獲文本超圖上的異構(gòu)高階信息。兩個(gè)聚合函數(shù)的定義如式(3)(4)所示。
其中:flj和hli分別表示超邊ej和超點(diǎn)vi在第l層中的特征表示;Ei表示連接到超點(diǎn)vi的超邊集合;函數(shù)AGGRnode 把一條超邊上的所有超點(diǎn)特征聚合到該超邊;函數(shù)AGGRedge為每一個(gè)超點(diǎn)聚合與其相連的所有超邊特征。由于每個(gè)超點(diǎn)對(duì)其所在的超邊貢獻(xiàn)度都不同,每條超邊對(duì)其連接的各個(gè)超點(diǎn)貢獻(xiàn)度也不同,所以兩個(gè)聚合函數(shù)的功能采用對(duì)偶注意力機(jī)制來(lái)實(shí)現(xiàn)。
2.3.1 超點(diǎn)級(jí)注意力
對(duì)于一條超邊ej,超點(diǎn)級(jí)注意力首先計(jì)算超邊上所有節(jié)點(diǎn)對(duì)該超邊的注意力分?jǐn)?shù),對(duì)每個(gè)超點(diǎn)的重要性加以區(qū)分,以突出對(duì)超邊更重要的信息,通過(guò)注意力系數(shù)加權(quán)聚合得到超邊表示flj,如式(5)(6)所示。
3 實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)集
為驗(yàn)證本文模型的有效性,在兩個(gè)公開(kāi)中文文本情感分析數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。online_shopping_10_cats(簡(jiǎn)稱OS10)為二分類數(shù)據(jù)集(https://github.com/SophonPlus/ChineseN1pCo-rpus),來(lái)源于電商平臺(tái),包含書(shū)籍、酒店、水果等十個(gè)類別的產(chǎn)品評(píng)論共計(jì)6萬(wàn)條,分為積極和消極兩種情感。SMP2020-EWECT(https://smp2020ewect.github.io)微博數(shù)據(jù)集包括開(kāi)心、憤怒、悲傷等六種情感類別,來(lái)源于第九屆全國(guó)社會(huì)媒體處理大會(huì)所發(fā)布的公開(kāi)評(píng)測(cè)任務(wù),包含疫情與通用兩大主題,前者中的內(nèi)容與新冠疫情相關(guān),后者隨機(jī)收集了平臺(tái)上的微博數(shù)據(jù),涉及范圍更廣,更能體現(xiàn)微博平臺(tái)的整體生態(tài),因此本文采用其中的通用微博數(shù)據(jù)集(簡(jiǎn)稱SMP2020)。數(shù)據(jù)樣例如表1所示。
本文后續(xù)實(shí)驗(yàn)中以詞為粒度抽象成節(jié)點(diǎn)構(gòu)建文本超圖,因此首先對(duì)文本進(jìn)行分詞處理。分詞后兩個(gè)數(shù)據(jù)集的句子長(zhǎng)度(詞數(shù))分布如圖5所示。
由圖5可以看出,OS10和SMP2020兩個(gè)數(shù)據(jù)集的文本長(zhǎng)度分別集中分布在[0,125]和[0,100]。經(jīng)分析發(fā)現(xiàn),OS10數(shù)據(jù)集中詞數(shù)過(guò)多的評(píng)論大多是酒店類和書(shū)籍類評(píng)論,用戶常常在評(píng)論中提及自己的出行經(jīng)過(guò)或者摘抄一段書(shū)中的內(nèi)容,這些情況可能會(huì)對(duì)情感傾向的判斷造成干擾。同時(shí),考慮到后續(xù)實(shí)驗(yàn)中需要構(gòu)建文本超圖,當(dāng)超節(jié)點(diǎn)過(guò)少時(shí),超圖可能退化為普通圖,無(wú)法檢驗(yàn)該結(jié)構(gòu)的優(yōu)勢(shì)。因此,在數(shù)據(jù)清洗時(shí)將兩個(gè)數(shù)據(jù)集中句子長(zhǎng)度(詞數(shù))小于3和大于100的評(píng)論舍棄。
經(jīng)預(yù)處理后,OS10數(shù)據(jù)集中共計(jì)5.81萬(wàn)余條用戶評(píng)論,正負(fù)評(píng)論分別為2.87萬(wàn)和2.93萬(wàn)余條,分布較為平均;SMP2020數(shù)據(jù)集中共計(jì)微博文本3.4萬(wàn)余條,類別分布如圖6所示。
由圖6中的統(tǒng)計(jì)數(shù)據(jù)可知,該數(shù)據(jù)集存在數(shù)據(jù)不平衡情況,在六個(gè)情感類別中,angry類數(shù)量最多,占比達(dá)30%,fear和surprise兩類最少,不足10%。
基于上述情況,為了使各子集中的數(shù)據(jù)盡可能與原數(shù)據(jù)集的分布保持一致,以保證實(shí)驗(yàn)結(jié)果的準(zhǔn)確性,本文采用分層重復(fù)隨機(jī)子抽樣驗(yàn)證的方法,按8∶1∶1的比例劃分出訓(xùn)練集、驗(yàn)證集和測(cè)試集,以準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)以及F1值作為實(shí)驗(yàn)的評(píng)價(jià)標(biāo)準(zhǔn),將實(shí)驗(yàn)重復(fù)進(jìn)行五次后取平均值作為最終結(jié)果。
3.2 參數(shù)設(shè)置
在情感句動(dòng)態(tài)向量獲取模塊,本文使用了哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布的基于全詞掩碼技術(shù)的中文預(yù)訓(xùn)練模型BERT-wwm-ext[25]。該模型在預(yù)訓(xùn)練masking階段采取將一個(gè)完整的詞全部覆蓋的策略,與原始BERT模型以字為粒度隨機(jī)掩蓋相比,該策略使得模型能夠更好地學(xué)習(xí)中文構(gòu)詞規(guī)則,對(duì)中文文本的上下文理解能力得到了提高。
在HGDAN部分,為每篇情感文本構(gòu)造出情感超圖,以詞為粒度視作超節(jié)點(diǎn),提取其上下文信息、語(yǔ)義依存信息和主題信息,構(gòu)建出上下文順序超邊、語(yǔ)義依存超邊和主題超邊。對(duì)于超節(jié)點(diǎn)的初始嵌入,采用騰訊AILab開(kāi)源的大規(guī)模word2vec中文詞向量數(shù)據(jù)[26],該數(shù)據(jù)包含了超過(guò)800萬(wàn)的中文詞匯,覆蓋了更多的網(wǎng)絡(luò)用語(yǔ),對(duì)于本文所使用的兩個(gè)內(nèi)容均為網(wǎng)絡(luò)文本的數(shù)據(jù)集而言,能夠在一定程度上減輕未登錄詞問(wèn)題。
由于BERT已經(jīng)在大規(guī)模數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練步驟,其理解能力達(dá)到了一定的水平,在后續(xù)模型訓(xùn)練過(guò)程中進(jìn)行微調(diào)即可;而HGDAN模塊則是從零開(kāi)始擬合數(shù)據(jù),初始需要較高的學(xué)習(xí)率來(lái)提升收斂速度;所以,為了平衡兩者的訓(xùn)練進(jìn)度,本文設(shè)置了分層學(xué)習(xí)率。模型參數(shù)詳細(xì)設(shè)置如表2所示。
在圖神經(jīng)網(wǎng)絡(luò)中,將實(shí)驗(yàn)數(shù)據(jù)抽象成圖是一切工作的基礎(chǔ),圖的構(gòu)建方式極大地影響著后續(xù)結(jié)果。滑動(dòng)窗口的大小直接決定順序超邊的數(shù)量以及一條超邊所能容納的信息;主題挖掘數(shù)目直接決定主題超邊的數(shù)量以及挖掘出的主題質(zhì)量。因此,本文對(duì)超圖模塊中構(gòu)建主題超邊的主題數(shù)目以及構(gòu)建順序超邊的滑動(dòng)窗口的大小進(jìn)行了探究。
3.2.1 主題挖掘數(shù)目
主題個(gè)數(shù)是主題挖掘算法中一個(gè)重要的超參數(shù),會(huì)影響主題發(fā)現(xiàn)的質(zhì)量,當(dāng)主題數(shù)過(guò)少時(shí),會(huì)增大主題內(nèi)部的歧義,反之當(dāng)主題數(shù)過(guò)多時(shí),會(huì)出現(xiàn)主題間語(yǔ)義重疊的情況。因此,為確定抽取的主題數(shù)量,對(duì)數(shù)據(jù)集進(jìn)行不同主題數(shù)量的實(shí)驗(yàn)。
為了客觀評(píng)價(jià)主題挖掘效果,本文采用主題連貫性(topic coherence)對(duì)主題模型生成主題的質(zhì)量進(jìn)行評(píng)估,選擇較為常用的標(biāo)準(zhǔn)化點(diǎn)互信息(normalized pointwise mutual information,NPMI)來(lái)度量。計(jì)算公式如式(14)(15)所示。
其中:K表示挖掘主題數(shù)目;T表示與主題k最相關(guān)的單詞數(shù);p(wi)表示單詞wi出現(xiàn)的概率;p(wi,wj)表示詞對(duì)wi和wj同時(shí)出現(xiàn)在一篇文檔中的聯(lián)合概率;本實(shí)驗(yàn)中T設(shè)置為10。C_NPMI的值越高,說(shuō)明同一個(gè)主題內(nèi)的詞相關(guān)性越大,挖掘出的主題可解釋性越強(qiáng)。
在實(shí)驗(yàn)中,ETM模型的初始詞匯嵌入同樣采用200維的騰訊詞向量,epoch數(shù)默認(rèn)為100,批處理大小設(shè)置為128,學(xué)習(xí)率為0.001。對(duì)于OS10數(shù)據(jù)集,設(shè)定主題數(shù)目K的取值為[10,20],SMP2020數(shù)據(jù)集的主題數(shù)目K的取值為[5,15],步長(zhǎng)均為1進(jìn)行主題挖掘,計(jì)算主題連貫性,確定最優(yōu)主題數(shù)目,實(shí)驗(yàn)結(jié)果如圖7所示。
從圖7顯示的信息可以看出,兩個(gè)數(shù)據(jù)集的主題連貫性曲線呈現(xiàn)了相似的走向。開(kāi)始隨著挖掘主題個(gè)數(shù)的增多,評(píng)分總體呈上升趨勢(shì),在主題數(shù)過(guò)少的情況下,每個(gè)主題內(nèi)部概率最大幾個(gè)單詞之間可能存在較大的歧義。當(dāng)主題數(shù)為K=15和K=11時(shí),分別在OS10和SMP2020數(shù)據(jù)集上的主題一致性評(píng)分達(dá)到峰值。隨后,主題連貫性隨著主題數(shù)目的增加而減小,這是由于當(dāng)抽取的主題數(shù)過(guò)多時(shí),部分主題之間具有較大的相似度,不易區(qū)分。所以,OS10和SMP2020兩個(gè)數(shù)據(jù)集的最優(yōu)主題數(shù)目分別設(shè)置為15和11。
3.2.2 滑動(dòng)窗口尺寸
在上下文順序超邊的構(gòu)建中,本文使用固定大小的滑動(dòng)窗口來(lái)實(shí)現(xiàn)。一個(gè)窗口構(gòu)建一條超邊,連接所有在窗口內(nèi)出現(xiàn)的詞超點(diǎn)。因此,本文通過(guò)實(shí)驗(yàn)探究采用不同尺寸滑動(dòng)窗口時(shí)的分類情況。為了避免其他因素的干擾,實(shí)驗(yàn)?zāi)P蛢H使用超圖和對(duì)偶注意力模塊,并且超圖中僅包含上下文順序超邊。實(shí)驗(yàn)結(jié)果如圖8所示。
從圖8中可以觀察到,當(dāng)滑動(dòng)窗口為3時(shí),模型在兩個(gè)測(cè)試集上的分類準(zhǔn)確率達(dá)到最高,說(shuō)明此時(shí)構(gòu)造出的超圖能夠有效捕捉到文本的語(yǔ)序特征,同時(shí)也證明了利用多個(gè)詞的共現(xiàn)關(guān)系構(gòu)建超邊是有意義的。當(dāng)滑動(dòng)窗口尺寸大于3時(shí),模型在兩個(gè)測(cè)試集上的分類準(zhǔn)確率隨著窗口的增大而呈現(xiàn)下降趨勢(shì)。經(jīng)分析,兩個(gè)數(shù)據(jù)集中情感文本的平均長(zhǎng)度(詞數(shù))均在30以下,屬于短文本,當(dāng)窗口尺寸過(guò)大時(shí),構(gòu)建出的超邊數(shù)量減少,同時(shí)一條超邊內(nèi)連接了過(guò)多的超節(jié)點(diǎn),文本中的上下文語(yǔ)序信息沒(méi)能更大程度地表達(dá)出來(lái)。
基于上述結(jié)果,在后續(xù)實(shí)驗(yàn)構(gòu)建上下文順序超邊時(shí),將滑動(dòng)窗口大小設(shè)置為3。
3.3 對(duì)比實(shí)驗(yàn)
為驗(yàn)證本文模型在中文網(wǎng)絡(luò)文本情感分類任務(wù)中的性能,分別在兩個(gè)數(shù)據(jù)集上對(duì)不同神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比實(shí)驗(yàn)?;鶞?zhǔn)模型的選取從四個(gè)角度考慮,分別是基于序列的神經(jīng)網(wǎng)絡(luò)、基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)、基于序列和注意力結(jié)合的神經(jīng)網(wǎng)絡(luò)以及基于圖結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)。
a)CNN[27]:卷積神經(jīng)網(wǎng)絡(luò),利用卷積和池化操作獲得情感文本表示。
b)BiLSTM[28]:雙向長(zhǎng)短期記憶網(wǎng)絡(luò),把兩個(gè)方向的最后一個(gè)隱藏狀態(tài)進(jìn)行拼接作為整個(gè)文本的全局特征。
c)Transformer[6]:由編碼器和解碼器兩個(gè)部分組成,實(shí)驗(yàn)中僅使用編碼器模塊提取文本特征。
d)BERT[7]:基于BERT預(yù)訓(xùn)練模型得到文本的句向量表示,再經(jīng)過(guò)全連接層與softmax進(jìn)行分類。
e)BERT_CNN:利用BERT模型為情感文本中的每個(gè)單元生成動(dòng)態(tài)向量,輸入卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行情感分析。
f)BERT_BiLSTM:利用BERT模型為情感文本中的每個(gè)單元生成動(dòng)態(tài)向量,輸入雙向長(zhǎng)短期記憶網(wǎng)絡(luò)中進(jìn)行情感分析。
g)TextGCN[13]:圖卷積神經(jīng)網(wǎng)絡(luò),基于整個(gè)語(yǔ)料庫(kù)的數(shù)據(jù)構(gòu)建文檔-單詞異構(gòu)圖,轉(zhuǎn)換為節(jié)點(diǎn)分類任務(wù)。文檔-單詞邊權(quán)重為tf-idf值,單詞-單詞邊權(quán)重為兩者的點(diǎn)互信息值,初始節(jié)點(diǎn)特征采用one-hot編碼。
h)BertGCN[14]:在TextGCN的基礎(chǔ)上,由預(yù)訓(xùn)練BERT模型對(duì)圖節(jié)點(diǎn)特征進(jìn)行初始化,兩者聯(lián)合訓(xùn)練。
i)HyperGAT[18]:超圖注意力網(wǎng)絡(luò),為每篇文本構(gòu)建一張超圖,利用注意力機(jī)制完成超邊和超點(diǎn)的信息聚集,轉(zhuǎn)換成圖分類任務(wù)。在超圖的構(gòu)建中,以句子為單位構(gòu)建順序超邊,使用LDA主題模型構(gòu)建主題超邊,初始節(jié)點(diǎn)特征采用one-hot編碼。
j)IBHC[20]:分別使用譜域超圖卷積網(wǎng)絡(luò)和BERT提取文本特征,并通過(guò)注意力機(jī)制結(jié)合。超圖中僅含順序超邊,節(jié)點(diǎn)特征由GloVe靜態(tài)詞向量進(jìn)行初始化。
表3展示了B_HGDAN模型和以上基準(zhǔn)模型在兩個(gè)中文文本情感分析數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。可以發(fā)現(xiàn),本文提出的B_HGDAN模型在兩個(gè)數(shù)據(jù)集上都取得了最佳的分類效果,且顯著優(yōu)于其他基準(zhǔn)模型,體現(xiàn)了該模型在中文文本情感分類任務(wù)上的有效性。同時(shí)也可以注意到,由于OS10為二分類數(shù)據(jù)集,其任務(wù)難度比六分類的SMP2020低,所以所有基準(zhǔn)模型都取得了比較好的效果,四個(gè)評(píng)價(jià)指標(biāo)均在92%以上。圖9更直觀地展示了各模型的性能差異。
根據(jù)圖9顯示的數(shù)據(jù),基于序列的兩個(gè)模型中,BiLSTM都取得了比CNN更好的效果。CNN只能提取到局部關(guān)鍵特征,而B(niǎo)iLSTM可以捕捉到較長(zhǎng)距離的依賴關(guān)系,同時(shí)又從正反兩個(gè)方向處理輸入序列,提供的信息更豐富。該結(jié)果也說(shuō)明了在情感分析任務(wù)中,文本的語(yǔ)序信息對(duì)于情感傾向的判斷十分重要。Transformer和BERT均在自注意力機(jī)制的基礎(chǔ)上發(fā)展而來(lái),后者由多層雙向Transformer編碼器構(gòu)成,并擁有更多的自注意力頭。同時(shí),BERT在預(yù)訓(xùn)練階段已學(xué)習(xí)到大量通用知識(shí),具有非常強(qiáng)大的遷移能力。BERT_CNN和BERT_BiSLTM均是基于序列和注意力機(jī)制結(jié)合的模型。與單獨(dú)使用CNN和BiLSTM相比,結(jié)合后的模型在兩個(gè)數(shù)據(jù)集上的分類效果均有所提高,說(shuō)明BERT能夠?yàn)閱我荒P蛶?lái)增益。然而與單獨(dú)使用BERT相比,結(jié)合后的模型綜合效果卻更差,并且標(biāo)準(zhǔn)差也更高,說(shuō)明分類性能更加不穩(wěn)定。這可能是由于BERT已經(jīng)能夠提取到足夠多的文本深層語(yǔ)義信息,而后接一個(gè)CNN或是BiLSTM模型無(wú)法容納上游傳遞來(lái)的大量信息,造成了特征的弱化或丟失。
在基于圖結(jié)構(gòu)的四個(gè)模型中,TextGCN和BertGCN均根據(jù)單詞共現(xiàn)信息構(gòu)建數(shù)據(jù)集級(jí)別的普通圖,HyperGAT和IBHC則基于單個(gè)文檔挖掘多方面信息構(gòu)建文檔級(jí)超圖。其中,TextGCN在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)效果在所有基準(zhǔn)模型中表現(xiàn)并不理想,這可能是因?yàn)樵趫D的構(gòu)建中只通過(guò)一個(gè)較大尺寸的滑動(dòng)窗口統(tǒng)計(jì)詞之間的共現(xiàn)情況,忽略了詞序信息,而這類信息在情感分類任務(wù)中恰是極其重要的。BERT和GCN的結(jié)合在SMP2020數(shù)據(jù)集上表現(xiàn)出了極大的增益,甚至優(yōu)于兩個(gè)基于超圖結(jié)構(gòu)的基準(zhǔn)模型,但對(duì)于OS10數(shù)據(jù)集的分類效果提高有限。從表3展示的數(shù)據(jù)可知,HyperGAT在兩個(gè)數(shù)據(jù)集上的總體表現(xiàn)次于BERT、BiLSTM以及兩者結(jié)合的模型。造成這種結(jié)果的原因可能是在構(gòu)建超圖中雖然考慮到語(yǔ)序信息的重要性,按照句子為單位構(gòu)建語(yǔ)序超邊,而在本文針對(duì)網(wǎng)絡(luò)短文本進(jìn)行情感分析的場(chǎng)景下,大部分的文本數(shù)據(jù)可能只由1~3句話構(gòu)成,所以,基于此規(guī)則構(gòu)建的語(yǔ)序超邊沒(méi)有真正反映句子內(nèi)部的語(yǔ)序信息。同時(shí)也可以注意到,在基于圖的基準(zhǔn)模型中,IBHC的表現(xiàn)最優(yōu),HyperGAT次于IBHC和BertGCN,說(shuō)明將BERT與圖神經(jīng)網(wǎng)絡(luò)結(jié)合能夠?qū)崿F(xiàn)優(yōu)勢(shì)互補(bǔ),增強(qiáng)模型的情感特征提取能力。
與以上基線模型相比,本文模型在兩個(gè)數(shù)據(jù)集上都取得了最出色的效果。這是由于其結(jié)合了BERT,能夠充分提取情感文本全局動(dòng)態(tài)特征的優(yōu)勢(shì),同時(shí)在HyperGAT的基礎(chǔ)上改進(jìn)了超圖的構(gòu)建方法,使情感文本建模成超圖后仍保留了豐富的上下文語(yǔ)序、主題和語(yǔ)義依存信息。同時(shí)本文對(duì)以上兩個(gè)模塊采用的是并行結(jié)構(gòu),能夠更好地結(jié)合兩者的優(yōu)勢(shì),一定程度上避免了串行結(jié)構(gòu)中可能存在的下游模型無(wú)法充分使用上游提取到的特征,從而丟失一部分信息的問(wèn)題。另外也可以注意到,在兩個(gè)數(shù)據(jù)集上,五個(gè)基于圖結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型多次實(shí)驗(yàn)的標(biāo)準(zhǔn)差都更小,說(shuō)明將文本建模成圖結(jié)構(gòu)能夠刻畫(huà)單詞節(jié)點(diǎn)之間的高階信息,使得分類性能更加穩(wěn)定。
以上實(shí)驗(yàn)結(jié)果表明,本文提出的B_HGDAN模型在針對(duì)電商評(píng)論、微博等網(wǎng)絡(luò)短文本的情感傾向分析任務(wù)中效果顯著。
3.4 消融實(shí)驗(yàn)
為進(jìn)一步驗(yàn)證本文模型的有效性,探究模型中各個(gè)子模塊對(duì)情感分析效果的增益,分別單獨(dú)去除各個(gè)子模塊進(jìn)行消融實(shí)驗(yàn)。a)w/o BERT:去除原模型中的BERT模塊,僅使用HGDAN;b) w/o HGDAN:去除原模型中的超圖對(duì)偶注意力模塊,僅使用BERT;c)w/o attention:去除原模型中的對(duì)偶注意力模塊。消融實(shí)驗(yàn)結(jié)果如表4和圖10所示。
BERT和HGDAN為本文模型中的兩大模塊,根據(jù)表4展示的數(shù)據(jù),分別單獨(dú)去除一個(gè)模塊進(jìn)行情感分析的效果相近,僅使用BERT在OS10數(shù)據(jù)集上的分類效果平均比僅使用HGDAN高出0.16%,而在SMP2020數(shù)據(jù)集上,后者的總體效果比前者高0.11%。與預(yù)先在大規(guī)模的語(yǔ)料上進(jìn)行了通用知識(shí)學(xué)習(xí)的BERT相比,HGDAN模型在訓(xùn)練過(guò)程中僅僅使用了實(shí)驗(yàn)數(shù)據(jù)集中的信息就達(dá)到了與前者相當(dāng)?shù)男Ч?,說(shuō)明超圖結(jié)構(gòu)和對(duì)偶注意力機(jī)制具有非常強(qiáng)大的學(xué)習(xí)能力。
在OS10數(shù)據(jù)集上,本文模型與單獨(dú)使用BERT和HGDAN相比,平均分類性能分別提高了2.27%和2.24%。在SMP2020數(shù)據(jù)集上,本文模型與單獨(dú)使用BERT和HGDAN相比,總體分類性能分別提高了7.95%和7.85%。說(shuō)明本文模型結(jié)合了兩者優(yōu)勢(shì),在情感分析任務(wù)上的魯棒性和泛化能力得到了提升。
對(duì)比最后兩組消融實(shí)驗(yàn)結(jié)果,在兩個(gè)數(shù)據(jù)集上,本文的原始模型比去除注意力模塊的變體平均性能分別提高1.16%和4.31%,可看出對(duì)偶注意力機(jī)制對(duì)模型整體情感分析效果具有明顯的增益,證明了使用注意力機(jī)制來(lái)提取超圖特征的有效性。
3.5 案例分析
為了進(jìn)一步驗(yàn)證本文模型在情感分析任務(wù)中的有效性,隨機(jī)選取若干條微博情感文本作為樣例,并使用3.3節(jié)中TextGCN、HyperGAT等四個(gè)基于圖結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型對(duì)其進(jìn)行預(yù)測(cè),實(shí)驗(yàn)結(jié)果如表5所示,其中“√”和“×”分別表示判斷正確和錯(cuò)誤。
案例1的文本含有“祝?!薄伴_(kāi)心”“滿足”等多個(gè)傾向明確的情感詞,對(duì)于這一實(shí)例,所有模型都能夠正確判斷其情感。對(duì)于案例2,基于超圖結(jié)構(gòu)的模型均正確預(yù)測(cè)了其情感類別,而基于普通圖的兩個(gè)模型作出了誤判,一方面說(shuō)明了超圖能夠更加有效地提取情感文本特征,另一方面可能是由于TextGCN和BertGCN兩個(gè)模型均是通過(guò)統(tǒng)計(jì)詞語(yǔ)在整個(gè)數(shù)據(jù)集范圍內(nèi)的共現(xiàn)信息來(lái)構(gòu)圖,對(duì)單個(gè)文本的上下文關(guān)注有限。案例3的文本中出現(xiàn)了多個(gè)“感冒”“發(fā)燒”等與生病有關(guān)的詞,大部分模型均判斷為“sad”類別,只有IBHC和本文的B_HGDAN模型預(yù)測(cè)正確。對(duì)于案例4和5,除本文模型外,其余模型均作出了錯(cuò)誤的判斷。案例4中,前半部分更多體現(xiàn)出的是對(duì)事實(shí)的陳述,還有在通常情況下含積極傾向的語(yǔ)氣詞“哈哈”,而綜合后半部分整體來(lái)看,這句話實(shí)際帶有諷刺的意味。在案例5中,同樣也是在句子的最后才體現(xiàn)出了發(fā)帖者真實(shí)的情感。從結(jié)果上看,本文提出的B_HGDAN模型能夠抵抗這些因素的干擾,具有較高的準(zhǔn)確性和較強(qiáng)的魯棒性。
4 結(jié)束語(yǔ)
本文面向中文網(wǎng)絡(luò)短文本,提出一種基于預(yù)訓(xùn)練模型BERT和超圖對(duì)偶注意力機(jī)制的文本情感分析方法,旨在通過(guò)有效結(jié)合預(yù)訓(xùn)練模型、超圖神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制的優(yōu)勢(shì),提升情感分類任務(wù)的性能。該模型首先利用BERT生成具有豐富語(yǔ)義信息的動(dòng)態(tài)文本特征表示,更好地捕捉文本情感表達(dá)和上下文信息;其次從多角度挖掘文本信息,將其建模成超圖,利用對(duì)偶注意力機(jī)制對(duì)超邊和超節(jié)點(diǎn)進(jìn)行信息融合,提高模型對(duì)文本結(jié)構(gòu)的理解能力;最后將兩個(gè)模塊各自提取到的文本特征拼接后判斷其情感傾向。多組實(shí)驗(yàn)結(jié)果表明,本文模型在中文網(wǎng)絡(luò)短文本的情感分類任務(wù)中展現(xiàn)了明顯的優(yōu)勢(shì)。
本文工作的不足之處在于,語(yǔ)義依存分析結(jié)果為有向圖,并且有向邊存在多種類型,在超邊構(gòu)建中本文視為無(wú)向圖處理,僅在有依存關(guān)系的詞之間添加邊,沒(méi)有更好地體現(xiàn)超圖特質(zhì)。在未來(lái)的工作中,筆者將繼續(xù)探究如何將語(yǔ)句中的依賴關(guān)系更準(zhǔn)確地建模成圖;同時(shí),對(duì)于網(wǎng)絡(luò)文本存在大量噪聲的問(wèn)題,本文將探究圖神經(jīng)網(wǎng)絡(luò)與對(duì)比學(xué)習(xí)的結(jié)合,進(jìn)一步提升模型挖掘文本中隱含的復(fù)雜映射關(guān)系的能力,實(shí)現(xiàn)更好的情感分析性能。
參考文獻(xiàn):
[1]Yadav A, Vishwakarma D K. Sentiment analysis using deep learning architectures: a review[J]. Artificial Intelligence Review, 2020,53(6): 4335-4385.
[2]Minaee S, Kalchbrenner N, Cambria E, et al. Deep learning-based text classification: a comprehensive review[J]. ACM Computing Surveys, 2021,54(3): 1-40.
[3]Pan Yaxing, Liang Mingfeng. Chinese text sentiment analysis based on BI-GRU and self-attention[C]//Proc of the 4th IEEE Information Technology, Networking, Electronic and Automation Control Confe-rence. Piscataway, NJ: IEEE Press, 2020: 1983-1988.
[4]Basiri M E, Nemati S, Abdar M, et al. ABCDM: an attention-based bidirectional CNN-RNN deep model for sentiment analysis[J]. Future Generation Computer Systems, 2021,115: 279-294.
[5]周寧, 鐘娜, 靳高雅, 等. 基于混合詞嵌入的雙通道注意力網(wǎng)絡(luò)中文文本情感分析[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2023,7(3): 58-68. (Zhou Ning, Zhong Na, Jin Gaoya, et al. Chinese text sentiment analysis based on dual channel attention network with hybrid word embedding[J]. Data Analysis and Knowledge Discovery, 2023,7(3): 58-68.)
[6]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[EB/OL]. (2017)[2022-07-20]. https://arxiv.org/pdf/1706.03762.pdf.
[7]Devlin J, Chang M, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA:Association for Computational Linguistics, 2019: 4171-4186.
[8]Liu Yinhan, Ott M, Goyal N, et al. RoBERTa: a robustly optimized BERT pretraining approach[EB/OL]. (2019)[2023-04-16]. https://arxiv.org/pdf/1907.11692.pdf.
[9]Lan Zhendong, Chen Mingda, Goodman S, et al. ALBERT: a lite BERT for self-supervised learning of language representations[C]//Proc of the 8th International Conference on Learning Representations. 2023.
[10]胡任遠(yuǎn), 劉建華, 卜冠南, 等. 融合BERT的多層次語(yǔ)義協(xié)同模型情感分析研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2021,57(13): 176-184. (Hu Renyuan, Liu Jianhua, Bu Guannan, et al. Research on sentiment analysis of multi-level semantic collaboration model fused with BERT[J]. Computer Engineering and Applications, 2021,57(13): 176-184.)
[11]Tseng H, Zheng Youzhan, Hsieh C. Sentiment analysis using BERT, LSTM, and cognitive dictionary[C]//Proc of IEEE ICCE-TW. Piscataway, NJ: IEEE Press, 2022: 163-164.
[12]王曙燕, 原柯. 基于RoBERTa-WWM的大學(xué)生論壇情感分析模型[J]. 計(jì)算機(jī)工程, 2022,48(8): 292-298,305. (Wang Shuyan, Yuan Ke. Sentiment analysis model of college student forum based on RoBERTa-WWM[J]. Computer Engineering, 2022,48(8): 292-298,305.)
[13]Yao Liang, Mao Chengsheng, Luo Yuan. Graph convolutional networks for text classification[C]//Proc of the 33rd AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press, 2019: 7370-7377.
[14]Lin Yuxiao, Meng Yuxian, Sun Xiaofei, et al. BertGCN: transductive text classification by combining GNN and BERT[C]//Proc of Findings of the Association for Computational Linguistics. Stroudsburg,PA:Association for Computational Linguistics, 2021:1456-1462.
[15]Jin Zhigang, Tao Manyue, Zhao Xiaofang, et al. Social media sentiment analysis based on dependency graph and co-occurrence graph[J]. Cognitive Computation, 2022,14(3): 1039-1054.
[16]Yang Minqiang, Liu Xinqi, Mao Chengsheng, et al. Graph convolutional networks with dependency parser towards multiview representation learning for sentiment analysis[C]//Proc of IEEE ICDMW. Piscataway, NJ: IEEE Press, 2022: 1-8.
[17]Chen Jie, Song Nan, Su Yansen, et al. Learning user sentiment orientation in social networks for sentiment analysis[J]. Information Sciences, 2022,616: 526-538.
[18]Ding Kaize, Wang Jianling, Li Jundong, et al. Be more with less: hypergraph attention networks for inductive text classification[C]//Proc of Conference on Empirical Methods in Natural Language Processing. 2020: 4927-4936.
[19]Kao Haochuan, Hung M, Lee L, et al. Multi-label classification of Chinese humor texts using hypergraph attention networks[C]//Proc of the 33rd Conference on Computational Linguistics and Speech Processing. 2021: 257-264.
[20]李全鑫, 龐俊, 朱峰冉. 結(jié)合BERT與超圖卷積網(wǎng)絡(luò)的文本分類模型[J]. 計(jì)算機(jī)工程與應(yīng)用, 2023,59(17):107-115. (Li Quanxin, Pang Jun, Zhu Fengran. Text classification method based on the integration of BERT and hypergraph convolutional network[J]. Computer Engineering and Applications, 2023,59(17):107-115.)
[21]Sun Xiangguo, Yin Hongzhi, Liu Bo, et al. Heterogeneous hyper-graph embedding for graph classification[C]//Proc of the 14th ACM International Conference on Web Search and Data Mining. New York:ACM Press, 2021: 725-733.[22]Dieng A B, Ruiz F J R, Blei D M. Topic modeling in embedding spaces[J]. Trans of the Association for Computational Linguistics, 2020,8: 439-453.
[23]Mu Lingling, Li Yida, Zan Hongying. Sentiment classification with syntactic relationship and attention for teaching evaluation texts[C]//Proc of International Conference on Asian Language Processing. Piscataway, NJ: IEEE Press, 2020: 270-275.
[24]杜啟明, 李男, 劉文甫, 等. 結(jié)合上下文和依存句法信息的中文短文本情感分析[J]. 計(jì)算機(jī)科學(xué), 2023, 50(3): 307-314. (Du Qiming, Li Nan, Liu Wenfu, et al. Sentiment analysis of Chinese short text combining context and dependent syntactic information[J]. Computer Science, 2023,50(3): 307-314.)
[25]Cui Yiming, Che Wanxiang, Liu Ting, et al. Pre-training with whole word masking for Chinese BERT[J]. IEEE/ACM Trans on Audio, Speech, and Language Processing, 2021,29: 3504-3514.
[26]Song Yan, Shi Shuming, Li Jing, et al. Directional skip-gram: explicitly distinguishing left and right context for word embeddings[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2018: 175-180.
[27]Kim Y. Convolutional neural networks for sentence classification[C]//Proc of Conference on Empirical Methods in Natural Language Proces-sing. Stroudsburg,PA:Association for Computational Linguistics, 2014:1746-1751.
[28]Xiao Zheng, Liang Pijun. Chinese sentiment analysis using bidirectio-nal LSTM with word embedding[C]//Proc of International Conference on Cloud Computing and Security. Cham: Springer, 2016: 601-610.