宋婷婷 吳賽君 裴頌文
摘要:采用圖神經(jīng)網(wǎng)絡(luò)模型為整個(gè)語(yǔ)料庫(kù)構(gòu)建異構(gòu)圖處理文本分類(lèi)任務(wù)時(shí),存在難以泛化到新樣本和詞序信息缺失的問(wèn)題。針對(duì)上述問(wèn)題,提出了一種融合雙圖特征和上下文語(yǔ)義信息的文本分類(lèi)模型。首先,為每個(gè)文本獨(dú)立構(gòu)建共現(xiàn)圖和句法依存圖,從而實(shí)現(xiàn)對(duì)新樣本的歸納式學(xué)習(xí),從雙圖角度捕獲文本特征,解決忽略單詞間依存關(guān)系的問(wèn)題;其次,利用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)( bi-directional long short-term memory,BiLSTM)編碼文本,解決忽略詞序特征和難以捕捉上下文語(yǔ)義信息的問(wèn)題;最后,融合雙圖特征,增強(qiáng)圖神經(jīng)網(wǎng)絡(luò)模型的分類(lèi)性能。在MR,Ohsumed,R8.R52數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,相較于經(jīng)典的文本分類(lèi)模型,該模型能夠提取更豐富的文本特征,在準(zhǔn)確率上平均提高了2.17%,5.38%,0.61%,2.48%。
關(guān)鍵詞:文本分類(lèi);圖神經(jīng)網(wǎng)絡(luò);雙向長(zhǎng)短期記憶網(wǎng)絡(luò);句法依存圖;共現(xiàn)圖
中圖分類(lèi)號(hào):TP 391
文獻(xiàn)標(biāo)志碼:A
文本分類(lèi)是自然語(yǔ)言處理的重要內(nèi)容,旨在將無(wú)標(biāo)簽的文本分類(lèi)到預(yù)先定義的類(lèi)別中,被廣泛應(yīng)用于情感分析、意圖識(shí)別等領(lǐng)域。傳統(tǒng)的文本分類(lèi)方法使用詞袋模型、詞頻一逆文檔頻率指數(shù)表示文本,忽略了單詞間的語(yǔ)義聯(lián)系,同時(shí)存在數(shù)據(jù)稀疏的問(wèn)題。隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于文本分類(lèi)中,如卷積神經(jīng)網(wǎng)絡(luò)( CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)( ISTM)等。CNN和RNN能夠捕捉文本局部信息,但由于模型的局部性和序列性特點(diǎn),難以有效地捕捉非連續(xù)和遠(yuǎn)距離語(yǔ)義信息。進(jìn)而衍生出一些變體如雙向長(zhǎng)短期記憶網(wǎng)絡(luò)( BiLSTM)、DPCNN模型[1]、雙通道RNN模型[2]等。Devlin等[3]在2018年提出雙向模型BERT,其核心組成是Transformer編碼器[4]。BERT采用多任務(wù)預(yù)訓(xùn)練技術(shù)在大型語(yǔ)料庫(kù)上訓(xùn)練。上述模型在文本分類(lèi)中表現(xiàn)良好,但無(wú)法對(duì)單詞的全局共現(xiàn)關(guān)系建模。
圖神經(jīng)網(wǎng)絡(luò)技術(shù)在圖結(jié)構(gòu)數(shù)據(jù)上具有強(qiáng)大的處理能力,吸引眾多研究者將其應(yīng)用于文本分類(lèi)[5]。2019年Yao等[6]根據(jù)詞共現(xiàn)關(guān)系和單詞文本關(guān)系為整個(gè)語(yǔ)料庫(kù)構(gòu)建一張異構(gòu)圖,之后使用圖卷積神經(jīng)網(wǎng)絡(luò)( graph convolutional network.GCN)[7]提取圖特征。為了豐富圖信息,Hu等[8]在構(gòu)圖時(shí)引入主題節(jié)點(diǎn),Xin等[9]引入了標(biāo)簽信息。2020年Liu等㈠提出構(gòu)建詞共現(xiàn)圖、語(yǔ)義圖、句法圖,從多個(gè)角度捕捉文本信息。但以上研究是轉(zhuǎn)導(dǎo)式學(xué)習(xí),構(gòu)圖時(shí)使用了測(cè)試樣本。當(dāng)有新樣本加入時(shí),就要重新構(gòu)建圖和訓(xùn)練模型,這會(huì)浪費(fèi)時(shí)間且不適用于現(xiàn)實(shí)情況[11]。因此,歸納式文本分類(lèi)模型不斷涌現(xiàn),其能夠解決上述圖神經(jīng)網(wǎng)絡(luò)存在的問(wèn)題。InducT-GCN文本分類(lèi)模型[12]基于訓(xùn)練樣本構(gòu)建圖,在測(cè)試樣本上執(zhí)行一維圖卷積。一些學(xué)者提出為每個(gè)文本構(gòu)建圖。例如:Huang等[13]使用邊共享矩陣捕捉全局信息,采用消息傳遞機(jī)制捕獲文本特征;Zhang等[14]提出為每個(gè)文本構(gòu)建單詞共現(xiàn)圖,并使用門(mén)控圖神經(jīng)網(wǎng)絡(luò)(gatedgraph neural networks,GGNN)[15]傳播信息。上述模型僅使用詞共現(xiàn)信息構(gòu)建文本圖,未考慮語(yǔ)義等其他類(lèi)型信息。Li等[16]提出一種使用語(yǔ)義圖和句法圖的方法,用于方面級(jí)情感分析。Dai等[11]使用共現(xiàn)信息和預(yù)訓(xùn)練詞嵌入構(gòu)建4種不同類(lèi)型的文本圖,在不重構(gòu)整個(gè)文本圖的情況下,學(xué)習(xí)系統(tǒng)也能夠?qū)π挛谋具M(jìn)行推理。為彌補(bǔ)單圖信息不足的缺陷,本文探索多種構(gòu)圖方式,從多維度捕獲文本特征,提升文本分類(lèi)的性能。同時(shí)圖神經(jīng)網(wǎng)絡(luò)文本分類(lèi)模型僅關(guān)注文本的同交互,忽略了文本的詞序信息[14,17],不能充分捕捉上下文語(yǔ)義特征。針對(duì)上述問(wèn)題,本文提出了融合BiLSTM的雙圖神經(jīng)網(wǎng)絡(luò)(dual graph neural networks withBiLSTM,簡(jiǎn)稱(chēng)DGNN-B)模型,通過(guò)結(jié)合不同的語(yǔ)義信息實(shí)現(xiàn)歸納式文本分類(lèi)。
本文通過(guò)DGNN-B模型為每個(gè)文本獨(dú)立構(gòu)圖,將文本分類(lèi)問(wèn)題轉(zhuǎn)換為圖分類(lèi)問(wèn)題,實(shí)現(xiàn)了對(duì)新文本的歸納式學(xué)習(xí)。針對(duì)模型獲取信息不足的問(wèn)題,為文本構(gòu)建共現(xiàn)圖、句法依存圖,從雙圖角度提取文本特征[18]。引入雙向長(zhǎng)短期記憶網(wǎng)絡(luò)( BiLSTM)提高模型捕捉上下文語(yǔ)義信息的能力。在4個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提方法優(yōu)于經(jīng)典模型,在文本分類(lèi)任務(wù)中具有較高的分類(lèi)精度。
1 DGNN-B文本分類(lèi)模型
針對(duì)為整個(gè)語(yǔ)料庫(kù)構(gòu)建異構(gòu)圖的文本分類(lèi)模型無(wú)法輕易泛化到新樣本的問(wèn)題,本文提出了DGNN-B模型,模型架構(gòu)如
所示。通過(guò)DGNN-B模型為每個(gè)文本構(gòu)建詞圖,可以對(duì)新文本進(jìn)行歸納式分類(lèi),無(wú)需從頭訓(xùn)練。為豐富構(gòu)圖質(zhì)量,基于單詞共現(xiàn)和依存關(guān)系構(gòu)建文本圖,充分捕捉共現(xiàn)信息和句法依賴(lài)特征,提高文本分類(lèi)性能。本文模型還利用BiLSTM捕捉文本的詞序信息。
DGNN-B模型的關(guān)鍵部分是:構(gòu)建文本圖、嵌入層、BiLSTM深層特征提取模塊、圖特征提取模塊、融合分類(lèi)層。
1.1 構(gòu)建文本圖
本文為每個(gè)文本獨(dú)立構(gòu)建共現(xiàn)圖和句法依存圖,專(zhuān)注于文本自身結(jié)構(gòu),當(dāng)有新樣本加入時(shí),模型不需要重新訓(xùn)練,同時(shí)有效地利用了文本的多維度語(yǔ)義信息?,F(xiàn)介紹如何基于單詞間的關(guān)系將文本構(gòu)建成圖結(jié)構(gòu)。擁有n個(gè)單詞的文本T={W1,…,wi,…,wn},wi是文本中的第f個(gè)單詞。通過(guò)嵌入層,使用預(yù)訓(xùn)練的Glove詞向量將單詞映射為d維向量。對(duì)于文本丁,以單詞為節(jié)點(diǎn),單詞間的關(guān)系為邊,為其構(gòu)建文本圖Gt- (Vt,Et),Vt,Et為文本圖的節(jié)點(diǎn)集和邊集。文本圖的特征矩陣墨∈Rntd,第f個(gè)節(jié)點(diǎn)的向量表示記作Xi∈L:~d,nt是文本圖Gt的節(jié)點(diǎn)數(shù),nt= |vt|。文本圖的鄰接矩陣At∈Rntnt。本文為每個(gè)文本構(gòu)建2種不同類(lèi)型的圖:共現(xiàn)圖和句法依存圖。現(xiàn)介紹這2種文本圖的構(gòu)建過(guò)程。
1.1.1 共現(xiàn)圖
單詞共現(xiàn)關(guān)系描述單詞局部共現(xiàn)的語(yǔ)言特征,被多位學(xué)者用于文本構(gòu)圖,是一種經(jīng)典的構(gòu)圖方法。共現(xiàn)圖Gi=(V1,E1),將文本中的單詞視作節(jié)點(diǎn),單詞之間的共現(xiàn)關(guān)系視作邊。使用固定尺寸的窗口在文本序列上從左至右滑動(dòng),在同一窗口內(nèi)出現(xiàn)的單詞存在共現(xiàn)關(guān)系,如圖2所示。
局部滑動(dòng)窗口可以在圖構(gòu)建期間有效地捕捉詞與詞的局部共現(xiàn)特征。共現(xiàn)圖構(gòu)建完成后,本文使用GGNN網(wǎng)絡(luò)傳播和融合詞特征。
1.1.2 句法依存圖
基于共現(xiàn)關(guān)系構(gòu)建的文本圖可以捕捉局部關(guān)聯(lián),但缺乏豐富的語(yǔ)義信息。通過(guò)對(duì)文本構(gòu)建句法依存圖,從雙圖角度提取文本特征。依存分析[19-20]深入理解句子內(nèi)部結(jié)構(gòu),分析句子成分,提取單詞間的依存關(guān)系如主謂關(guān)系、定狀關(guān)系等,幫助理解文本語(yǔ)言結(jié)構(gòu)和含義。首先,對(duì)于語(yǔ)料庫(kù)中的文本,使用StanfordNLP工具包[21]提取單詞間的依賴(lài)關(guān)系。對(duì)于給定的文本通過(guò)解析器得到的分析結(jié)果如圖3所示。雖然提取的依賴(lài)關(guān)系是定向的,但本文將其視作無(wú)向關(guān)系,以便后續(xù)文本圖的構(gòu)建和特征提取。對(duì)于一個(gè)文本,其依存關(guān)系解析結(jié)果為:表示文本中單詞wi和wjra-]的依存關(guān)系。依存關(guān)系提取完成之后,以詞為節(jié)點(diǎn)、依存關(guān)系為邊,構(gòu)建句法依存圖,記作G2= (V2,E2),其中,E2={eij rij∈DP},eij為單詞wi和wj之間的邊。由此構(gòu)建的句法依存圖包含豐富的語(yǔ)義和句法特征。
將每個(gè)文本轉(zhuǎn)換為獨(dú)立圖結(jié)構(gòu)進(jìn)行文本分類(lèi)時(shí),模型遇到新樣本不需要從頭訓(xùn)練,能夠?qū)ξ谋具M(jìn)行歸納式學(xué)習(xí)。與構(gòu)建單一文本圖相比,構(gòu)建2種不同類(lèi)型的文本圖,可以捕捉到更加豐富的特征,在圖上進(jìn)行信息傳播和卷積操作時(shí),可以從2個(gè)方面提取特征,相互補(bǔ)充。
1.2 BiLSTM深層特征提取模塊
將文本構(gòu)建成圖結(jié)構(gòu),聚合鄰居可以有效地捕捉遠(yuǎn)距離詞節(jié)點(diǎn),但忽略了文本的詞序信息。因此,利用BiLSTM捕捉文本的雙向上下文語(yǔ)義信息并保留文本的詞序特征。
通過(guò)BiLSTM對(duì)文本序列進(jìn)行雙向編碼表示,然后利用GCN網(wǎng)絡(luò)進(jìn)一步優(yōu)化。不同于共現(xiàn)圖使用Glove詞向量技術(shù)初始化節(jié)點(diǎn)的嵌入表示,句法依存圖通過(guò)BiLSTM捕捉上下文信息,提取更深層次的文本特征。一方面,文本是一種非歐幾里德結(jié)構(gòu)的數(shù)據(jù),BiLSTM可以保留文本的位置信息,捕獲文本的詞序特征;另一方面,BiLSTM的雙向機(jī)制通過(guò)充分考慮上下文,保證每個(gè)單詞獲得豐富的語(yǔ)義信息。
1.3 圖特征提取模塊
為了捕獲單詞之間的依賴(lài)關(guān)系,采用圖卷積神經(jīng)網(wǎng)絡(luò)提取句法依存圖特征。GCN可以出色地捕捉節(jié)點(diǎn)間關(guān)系,被廣泛應(yīng)用于自然語(yǔ)言處理。聚合鄰居時(shí)為了選擇重要的節(jié)點(diǎn)信息、遺忘不重要的信息,并捕捉較遠(yuǎn)距離的節(jié)點(diǎn),使用門(mén)控圖神經(jīng)網(wǎng)絡(luò)提取共現(xiàn)圖的特征。該網(wǎng)絡(luò)采用門(mén)控循環(huán)單元選擇性地聚合或丟失鄰居信息,從而增強(qiáng)了網(wǎng)絡(luò)的長(zhǎng)期記憶能力。
對(duì)于構(gòu)建的句法依存圖,其鄰接矩陣記為A2,BiLSTM捕捉到的節(jié)點(diǎn)表示作為句法依存圖的特征矩陣。在圖上使用經(jīng)典的GCN,具體的卷積過(guò)程見(jiàn)文獻(xiàn)[7]。不同的數(shù)據(jù)集設(shè)置相應(yīng)的卷積層數(shù),最終得到句法依存圖的嵌入表示,記為日d?!蔙n2d2,d2為句法依存圖嵌入表示的維度。
在構(gòu)建的共現(xiàn)圖上,使用GGNN網(wǎng)絡(luò)更新節(jié)點(diǎn)特征。在消息傳遞過(guò)程中,一個(gè)節(jié)點(diǎn)接受來(lái)自鄰域節(jié)點(diǎn)的信息后,與上一時(shí)間點(diǎn)的表示融合起來(lái),更新節(jié)點(diǎn)自身的隱藏表示。GGNN具有長(zhǎng)期記憶的能力,并且不再需要通過(guò)約束參數(shù)的方式來(lái)確保模型的收斂。在t時(shí)刻模型的傳播過(guò)程如下:
設(shè)置HO=X1,X1為共現(xiàn)圖的初始化嵌入矩陣。最終共現(xiàn)圖的嵌入表示記作He?!蔙nIdi,di為共現(xiàn)圖嵌入表示的維度。
1.4 融合分類(lèi)層
詞節(jié)點(diǎn)信息被傳播后,聚合生成圖表示。然后通過(guò)拼接操作融合共現(xiàn)圖和句法依存圖的圖表示,從雙圖角度提取文本特征。
首先,使用軟注意力、最大池化及平均池化聚合句法依存圖、共現(xiàn)圖的節(jié)點(diǎn)生成圖級(jí)表示為
式(6)闡述了采用軟注意力機(jī)制衡量節(jié)點(diǎn)Hv,co對(duì)當(dāng)前文本的重要性。在計(jì)算文本特征時(shí),使用加權(quán)平均詞特征,而不是簡(jiǎn)單的平均詞特征,能夠關(guān)注對(duì)文本重要的單詞,學(xué)習(xí)更精準(zhǔn)的文本表示。此外使用最大池化操作能夠捕捉到節(jié)點(diǎn)集的不同方面。最終得到共現(xiàn)圖的圖表示HG-co。同理,可求得句法依存圖的圖表示HG-dp。
其次,采用拼接方式融合雙圖文本特征,文本的最終表示為
HG= HG-co||HG_dp
(10)
最后,通過(guò)全連接層和softmax函數(shù)對(duì)文本表示HG進(jìn)行分類(lèi)。損失函數(shù)用于量化模型預(yù)測(cè)標(biāo)簽和真實(shí)標(biāo)簽之間的差異[22]。本文使用交叉熵函數(shù)作為損失函數(shù)。通過(guò)反向傳播算法對(duì)模型進(jìn)行訓(xùn)練以最小化損失函數(shù)。式中:WG,bG為權(quán)重和偏差;y為預(yù)測(cè)的標(biāo)簽;gi為第i個(gè)文本真實(shí)標(biāo)簽的one-hot表示;L為交叉熵?fù)p失。
2 實(shí)驗(yàn)結(jié)果和分析
為了驗(yàn)證上述模型的有效性,在4個(gè)基準(zhǔn)數(shù)據(jù)集上評(píng)估DGNN-B模型,并通過(guò)消融實(shí)驗(yàn)驗(yàn)證各模塊對(duì)文本分類(lèi)的作用。
2.1 數(shù)據(jù)集
為了保持一致性,本研究所使用的數(shù)據(jù)集包括MR,Ohsumed,R8,R52[6]。MR是典型的情感二分類(lèi)任務(wù),將電影評(píng)論分為積極或消極;Ohsumed選自MEDLINE數(shù)據(jù)庫(kù),本文僅關(guān)注單標(biāo)簽文本分類(lèi),因此,只使用其中7400篇摘要,進(jìn)行23種疾病分類(lèi);R8和R52是Reuters數(shù)據(jù)集的子集,分別有8個(gè)類(lèi)別和52個(gè)類(lèi)別。數(shù)據(jù)集的信息如表1所示。
2.2 基準(zhǔn)方法
為了評(píng)估本文模型的有效性,選取多個(gè)經(jīng)典文本分類(lèi)模型與本文模型進(jìn)行對(duì)比分析?;陂_(kāi)源代碼重現(xiàn)TextING的實(shí)驗(yàn)結(jié)果,其他模型的結(jié)果取自文獻(xiàn)[6,10,11,13]?,F(xiàn)介紹本文選取的經(jīng)典文本分類(lèi)模型。
a.CNN:在文本序列上執(zhí)行卷積操作和最大池化操作,得到文本的嵌入表示。
b.BiLSTM:由前向LSTM與后向LSTM組合而成。
c.TextGCN:將文檔和單詞作為節(jié)點(diǎn),構(gòu)建一張異構(gòu)圖,利用圖卷積網(wǎng)絡(luò)捕捉文本特征[6]。
d.TensorGCN:提出張量圖卷積網(wǎng)絡(luò),構(gòu)建基于語(yǔ)義的圖、基于句法的圖和基于序列的圖。使用圖內(nèi)傳播、圖間傳播策略協(xié)調(diào)和整合多個(gè)圖的異構(gòu)信息[10]。
e.Text-Ievel:為文本獨(dú)立構(gòu)建圖,圖中參數(shù)取自全局共享矩陣,使用消息傳遞機(jī)制學(xué)習(xí)文本的圖表示[13]。
f.TextNG:提出基于GGNN的文本分類(lèi)模型,為每個(gè)文本構(gòu)建單詞共現(xiàn)圖,實(shí)現(xiàn)新單詞的歸納學(xué)習(xí)[14]。
g.GFN:提出4種不同文本圖的構(gòu)建方式,然后利用多頭融合模塊集成文本表示[11]。
2.3 實(shí)驗(yàn)參數(shù)
針對(duì)上述提及的數(shù)據(jù)集,以9:1的比例將訓(xùn)練集劃分為真實(shí)的訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)。實(shí)驗(yàn)中,通過(guò)Glove初始化詞向量時(shí),將嵌入維度設(shè)置為300。BiLSTM的嵌入維度設(shè)置為100。采用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為0.01。為防止過(guò)擬合,將隨機(jī)激活dropout方法的節(jié)點(diǎn)保留率設(shè)置為0.5。
2.4 實(shí)驗(yàn)結(jié)果和分析
在4個(gè)數(shù)據(jù)集上,對(duì)比分析DGNN-B模型與基準(zhǔn)模型的分類(lèi)性能,結(jié)果如表2所示。
與傳統(tǒng)的CNN和BiLSTM模型相比,本文模型性能顯著。實(shí)驗(yàn)結(jié)果表明,將文本構(gòu)建成圖結(jié)構(gòu),能較好地挖掘出文本中隱藏的結(jié)構(gòu)信息。依據(jù)單詞的共現(xiàn)關(guān)系建立邊,通過(guò)共同鄰居實(shí)現(xiàn)信息傳播,可以捕捉遠(yuǎn)距離詞特征。
相較于TextGCN和TensorGCN,本文利用DGNN-B為每個(gè)文本獨(dú)立構(gòu)圖,實(shí)現(xiàn)對(duì)新樣本的歸納式分類(lèi)。因此,當(dāng)有新樣本加入時(shí),無(wú)需重新訓(xùn)練整個(gè)模型。DGNN-B在4個(gè)數(shù)據(jù)集上的準(zhǔn)確率相較于TextGCN分別提升了2.97%,0.87%,0.63%,1.6%。這是因?yàn)門(mén)extGCN關(guān)注文本的全局特征,忽略了文本中的重要信息如細(xì)粒度詞交互及上下文語(yǔ)義特征,而DGNN-B為文本獨(dú)立構(gòu)圖,關(guān)注文本自身的結(jié)構(gòu)特征,同時(shí)利用BiLSTM學(xué)習(xí)上下文語(yǔ)義特征,保留了詞序信息。在MR數(shù)據(jù)集上,DGNN-B相較于TextGCN模型性能提高幅度最大。由于MR的文本長(zhǎng)度較短,導(dǎo)致TextGCN構(gòu)建的圖密度較低,這限制了文本節(jié)點(diǎn)之間的標(biāo)簽信息傳遞,與之不同的是本文的文本圖專(zhuān)注于自身結(jié)構(gòu),不依賴(lài)于這種標(biāo)簽信息傳遞機(jī)制。
與使用單個(gè)文本圖方法相比,DGNN-B的準(zhǔn)確率有所提升。這是因?yàn)樵撃P蜆?gòu)建雙圖,從多角度捕捉文本信息;同時(shí)使用BiLSTM捕捉文本的雙向上下文語(yǔ)義信息,彌補(bǔ)圖神經(jīng)網(wǎng)絡(luò)忽略文本詞序特征的不足。實(shí)驗(yàn)結(jié)果表明,雙圖特征和語(yǔ)義特征對(duì)文本分類(lèi)具有重要作用,這與GFN[11]的研究一致。相較于GFN,DGNN-B缺少了對(duì)全局特征的捕捉,但亦取得了不錯(cuò)的性能。綜合上述分析,相較于其他模型,DGNN-B模型在文本分類(lèi)中具有優(yōu)越性。
2.5 消融實(shí)驗(yàn)
現(xiàn)通過(guò)消融實(shí)驗(yàn)驗(yàn)證雙圖機(jī)制和BiLSTM對(duì)文本分類(lèi)的有效性。DGNN-B以及移除不同組件的準(zhǔn)確率如表3所示。
a.CoGraph:基于共現(xiàn)圖的文本分類(lèi)模型。
b.DpGraph:基于句法依存圖的文本分類(lèi)模型。
c.BiLSTM(w/o):融合共現(xiàn)圖和句法依存圖的文本分類(lèi)模型。
d.CoGraph(w/o):融合句法依存圖和BiLSTM的文本分類(lèi)模型。
e.DpGraph(w/o):融合共現(xiàn)圖和BiLSTM的文本分類(lèi)模型。
為了驗(yàn)證雙圖機(jī)制在多個(gè)維度上捕捉文本信息的能力,構(gòu)建了單圖模型CoGraph,DpGraph,CoGraph(w/o),DpGraph(w/o)和雙圖神經(jīng)網(wǎng)絡(luò)融合模型BiLSTM(w/o),DGNN-B。如表3所示,雙圖模型在文本分類(lèi)任務(wù)上優(yōu)于各自的基礎(chǔ)模型。DGNN-B模型與單圖模型CoGraph(w/o),DpGraph(w/o)相比,在4個(gè)數(shù)據(jù)集上的準(zhǔn)確率平均提高了0.27%,3.02%,0.22%.0.43%。實(shí)驗(yàn)結(jié)果表明,共現(xiàn)圖特征和句法依存圖特征相互補(bǔ)充,豐富文本信息。
如表3所示,移除共現(xiàn)圖模塊或句法依存圖模塊時(shí),DGNN-B模型的性能不同。根據(jù)數(shù)據(jù)分析得出結(jié)論,2個(gè)模塊在不同的數(shù)據(jù)集上扮演的角色不同。共現(xiàn)圖模塊在Ohsumed.R52數(shù)據(jù)集上表現(xiàn)優(yōu)于句法依存圖模塊,而在MR,R8數(shù)據(jù)集上相反。因?yàn)椋琈R數(shù)據(jù)集文本長(zhǎng)度較短且句式簡(jiǎn)單、句法結(jié)構(gòu)明顯,句法依存圖可以有效地捕捉文本句法特征。Ohsumed文本較長(zhǎng),通過(guò)單詞共現(xiàn)圖可以將不同句子的單詞通過(guò)共同鄰居連接,使用GGNN網(wǎng)絡(luò)可以捕捉跨句上下文概念,獲得更加豐富的表示。CoGraph(w/o)模型在Ohsumed數(shù)據(jù)集上的性能與其他模型差異較大。通過(guò)實(shí)驗(yàn)驗(yàn)證,CoGraph(w/o)模型表現(xiàn)不佳的原因與其使用的圖特征提取器GCN有關(guān)。因此,可以進(jìn)一步從可解釋性方面探索該模型。
為了驗(yàn)證BiLSTM對(duì)文本詞序信息的學(xué)習(xí)能力,對(duì)比移除BiLSTM的模型CoGraph,DpGraph,BiLSTM(w/o)與未移除BiLSTM的模型DpGraph(w/o),CoGraph(w/o),DGNN-B。如表3所示,使用BiLSTM模型在文本分類(lèi)任務(wù)上優(yōu)于各自的基礎(chǔ)模型。與BiLSTM(w/o)模型相比,DGNN-B在MR.Ohsumed.R8,R52數(shù)據(jù)集上的準(zhǔn)確率分別提升0.51%.0.29%,0.29%.0.15%。因?yàn)?,文本理解的關(guān)鍵是語(yǔ)義表示,在一定“作用域”中的詞語(yǔ)對(duì)表達(dá)同一主題具有一定的共性,BiLSTM可以有效地捕捉文本詞序和雙向上下文信息。MR數(shù)據(jù)集是一種典型的短文本情感數(shù)據(jù)集,文本詞序不同,表達(dá)的含義就會(huì)相差甚遠(yuǎn),從而影響文本情感分析的準(zhǔn)確度。Ohsumed,R8,R52的文本較長(zhǎng),BiLSTM可以有效地捕捉雙向上下文語(yǔ)義。實(shí)驗(yàn)結(jié)果表明,通過(guò)BiLSTM使得DGNN-B模型更好地保留文本詞序,捕捉上下文語(yǔ)義信息。
除了將準(zhǔn)確率作為評(píng)價(jià)指標(biāo)之外,在MR,R8數(shù)據(jù)集上進(jìn)一步將精確率、召回率、調(diào)和平均值作為衡量模型優(yōu)劣的評(píng)價(jià)指標(biāo)。模型的多指標(biāo)性能對(duì)比如網(wǎng)4所示。實(shí)驗(yàn)結(jié)果表明,DGNN-B模型在多個(gè)指標(biāo)上都取得了較優(yōu)的效果。在MR數(shù)據(jù)集上,DGNN-B相較于其他模型,精確率、召回率和調(diào)和平均值平均提高了0.5g%,0.56%.0.56%。調(diào)和平均值是精確率和召回率的調(diào)和平均。調(diào)和平均值越高,表示模型的質(zhì)量越好。DGNN-B的調(diào)和平均值相較于其他模型偏大,進(jìn)一步驗(yàn)證了DGNN-B模型的有效性。
經(jīng)過(guò)分析可知,DGNN-B模型的優(yōu)勢(shì)主要表現(xiàn)在以下兩個(gè)方面:通過(guò)構(gòu)建雙圖,該模型能夠捕獲多維度文本信息;利用BiLSTM保留文本詞序,提升模型捕捉上下文信息的能力。
2.6 參數(shù)分析
在4個(gè)數(shù)據(jù)集上,GGNN層數(shù)、GCN層數(shù)對(duì)模型性能的影響如圖5和圖6所示。通過(guò)堆疊圖神經(jīng)網(wǎng)絡(luò)層數(shù),模型能夠接收高階鄰居的特征信息,進(jìn)而獲得更精確的表示。堆疊層數(shù)過(guò)多會(huì)導(dǎo)致過(guò)平滑現(xiàn)象,即不同節(jié)點(diǎn)的特征趨于同質(zhì)化,使得節(jié)點(diǎn)難以區(qū)分,從而影響模型性能。因此,在4個(gè)數(shù)據(jù)集上,隨著層數(shù)的增加,模型的準(zhǔn)確率呈現(xiàn)先增大而后減小的趨勢(shì)。由于R8,R52數(shù)據(jù)集文本分類(lèi)較為簡(jiǎn)單,因此,GCN層數(shù)設(shè)置為1便能較好地捕獲文本特征。
滑動(dòng)窗口的尺寸對(duì)模型性能的影響如圖7所示。太小的滑動(dòng)窗口不能反映單詞間的聯(lián)系,太大的滑動(dòng)窗口導(dǎo)致不必要的節(jié)點(diǎn)連接。適當(dāng)?shù)剡x擇窗口尺寸可以有效地傳播局部語(yǔ)義信息。實(shí)驗(yàn)結(jié)果表明,在MR.Ohsumed,R8,R52數(shù)據(jù)集上,最優(yōu)的滑動(dòng)窗口大小為3,3,7,7。
3 結(jié)束語(yǔ)
提出了融合BiLSTM的雙圖神經(jīng)網(wǎng)絡(luò)模型( DGNN-B)用于文本分類(lèi)。該模型引入BiLSTM捕捉上下文語(yǔ)義信息并保留文本詞序特征。同時(shí)為文本構(gòu)建共現(xiàn)圖、句法依存圖,有效地利用文本的多維度信息。在4個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,DGNN-B的性能優(yōu)于許多先進(jìn)方法。同時(shí)通過(guò)消融實(shí)驗(yàn),驗(yàn)證不同的文本圖是互補(bǔ)的,以及BiLSTM捕捉的語(yǔ)義信息可以進(jìn)一步提高模型性能。本文不足之處在于構(gòu)建的是靜態(tài)文本圖,未來(lái)可以探索構(gòu)建動(dòng)態(tài)文本圖,靈活地捕捉文本特征,以及進(jìn)一步研究在整個(gè)語(yǔ)料庫(kù)上構(gòu)建文本圖并實(shí)現(xiàn)歸納式文本分類(lèi)。
參考文獻(xiàn):
[1] JOffNSON R,ZHANG T.Deep pyramid convolutionalneural networks for text categorization[C]//Proceedings ofthe 55th Annual Meeting of the Association forComputational Linguistics. Vancouver: Association forComputational Linguistics. 2017: 562-570.
[2] XU C,HUANG W R,WANG H W. et al.Modeling localdependence in natural language with multi-channelrecurrent neural networks[C]//Proceedings of the 33rdAAAI Conference on Artificial Intelligence and 3lstInnovative Applications of Artificial IntelligenceConference and Ninth AAAI Symposium on EducationalAdvances in Artificial Intelligence. Honolulu: AAAI Press,2019: 677.
[3] DEVLIN J,CHANG M W. LEE K,et al.BERT: pre-training of deep bidirectional transformers for languageunderstanding[C]//Proceedings of the 2019 Conference ofthe North American Chapter of the Associationfor Computational Linguistics:
Human LanguageTechnologies. Minneapolis: Association for ComputationalLinguistics, 2019: 4171-4186.
[4] VASWANI A,SHAZEER N,PARMAR N,et al.Attentionis all you need[C]//Proceedings of the 3lst IntemationalConference on Neural Information Processing System.Long Beach: Curran Associates Inc., 2017: 6000-6010.
[5] SI Y H,ZHOU Y C.Deep graph neural networks for textclassification task[C]//Proceedings of the 7th IntemationalConference on Cyber Security and InformationEngineering. Brisbane: Association for ComputingMachinery, 2022: 272-275.
[6] YAO L,MAO C S,LUO Y.Graph convolutional networksfor text classification[C]//Proceedings of the 33rd AAAIConference on Artificial Intelligence. Palo Alto: AAAIPress, 2019: 7370-7377.
[7] KIPF T N, WELLING M. Semi-supervised classificationwith graph convolutional networks[C]//Proceedings of theSth Intemational Conference on Leaming Representations.Toulon: OpenReview. net, 2017: 266-285.
[8] HU L M, YANG T C. SHI C. et al. Heterogeneous graphattention networks for semi-supervised short textclassification[C]//Proceedings of 2019 Conference onEmpirical Methods in Natural Language Processing and the9th Intemational Joint Conference on Natural LanguageProcessing. Hong Kong, China: Association forComputational Linguistics, 2019: 482 1-4830.
[9] XIN Y, XU L L, GUO J L, et al. Label incorporated graphneural networks for text classification[C]//Proceedings ofthe 25th International Conference on Pattem Recognition.Milan: IEEE. 2021: 8892-8898.
[10] LIU X E. YOU X X, ZHANG X. et al. Tensor graphconvolutional networks for text classification[C]//Proceedings of the 34th AAAI Conference on ArtificialIntelligence. Palo Alto, CA: AAAI Press, 2020, 34:8409-8416.
[11] DAI Y, SHOU L J. GONG M, et al. Graph fusion networkfor text classification[J]. Knowledge-Based Systems, 2022,236: 107659.
[12] WANG K Z. HAN S C. POON J. InducT-GCN: Inductivegraph convolutional networks for text classification[C]//Proceedings of 2022 26th International Conference onPattern Recognition. Montreal: IEEE, 2022: 1243-1249.
[13] HUANG L Z, MA D H, LI S J. et al. Text level graphneural network for text classification[C]//Proceedings of2019 Conference on Empirical Methods in NaturalLanguage Processing and the 9th Intemational JointConference on Natural Language Processing. Hong Kong,China: Association for Computational Linguistics, 2019:3444-3450.
[14] ZHANG Y F. YU X L, CUI Z Y, et al. Every documentowns its structure: inductive text classification via graphneural networks[C]//Proceedings of the 58th AnnualMeeting of the Association for Computational Linguistics.Stroudsburg: Association for Computational Linguistics,2020: 334-339.
[15] BECK D. HAFFARI G, COHN T. Graph-to-sequenceleaming using gated graph neural networks[C]//Proceedings of the 56th Annual Meeting of the Associationfor Computational Linguistics. Melbourne: Association forComputational Linguistics, 2018 : 273-283.
[16] LI R F,CHEN H,F(xiàn)ENG F X,et al Dual graphconvolutional networks for aspect-based sentimentanalysis[C]//Proceedings of the 59th Annual Meeting of theAssociation for Computational Linguistics and the llthIntemational Joint Conference on Natural LanguageProcessing. Stroudsburg: ACL, 2021: 63 19-6329
[171 WEI X D,HUANG H,MA L X,et al Recurrent graphneural networks for text classification[C]//Proceedings ofthe IEEE llth International Conference on SoftwareEngineering and Service Science. New York: IEEE. 2020:91-97
[18]閆佳丹,賈彩燕.基于雙圖神經(jīng)網(wǎng)絡(luò)信息融合的文本分類(lèi)方法[J]計(jì)算機(jī)科學(xué),2022. 49(8): 230-236
[19]范國(guó)鳳,劉璟,姚紹文,等基于語(yǔ)義依存分析的圖網(wǎng)絡(luò)文本分類(lèi)模型[J].計(jì)算機(jī)應(yīng)用研究,2020, 37(12):3594-3598
[20]邵黨國(guó),張潮,黃初升,等.結(jié)合ONLSTM-GCN和注意力機(jī)制的中文評(píng)論分類(lèi)模型[J]小型微型計(jì)算機(jī)系統(tǒng),2021. 42(7): 1377-1381
[21] QI P,DOZAT T,ZHANG Y H,et al Universaldependency parsing from scratch[C]//Proceedings of theCoNLL 2018 Shared Task: Multilingual Parsing from RawText to Universal Dependencies. Brussels: Association forComputational Linguistics. 2018: 160-170
[22]閆育銘,李峰,羅德名,等.基于深度遷移學(xué)習(xí)的糖尿病視網(wǎng)膜病變的檢測(cè)[J].光學(xué)儀器,2020. 42(5): 33-42.
(編輯:石瑛)