楊世剛,劉勇國
(電子科技大學(xué) 信息與軟件工程學(xué)院,成都 610054)(?通信作者電子郵箱liuyg@uestc.edu.cn)
融合語料庫特征與圖注意力網(wǎng)絡(luò)的短文本分類方法
楊世剛,劉勇國*
(電子科技大學(xué) 信息與軟件工程學(xué)院,成都 610054)(?通信作者電子郵箱liuyg@uestc.edu.cn)
短文本分類是自然語言處理(NLP)中的重要研究問題,廣泛應(yīng)用于新聞分類、情感分析、評論分析等領(lǐng)域。針對短文本分類中存在的數(shù)據(jù)稀疏性問題,通過引入語料庫的節(jié)點和邊權(quán)值特征,基于圖注意力網(wǎng)絡(luò)(GAT),提出了一個融合節(jié)點和邊權(quán)值特征的圖注意力網(wǎng)絡(luò)NE-GAT。首先,針對每個語料庫構(gòu)建異構(gòu)圖,利用引力模型(GM)評估單詞節(jié)點的重要性,并通過節(jié)點間的點互信息(PMI)獲得邊權(quán)重;其次,為每個句子構(gòu)建文本級別圖,并將節(jié)點重要性和邊權(quán)重融入節(jié)點更新過程。實驗結(jié)果表明,所提模型在測試集上的平均準(zhǔn)確率達(dá)到了75.48%,優(yōu)于用于文本分類的圖卷積網(wǎng)絡(luò)(Text-GCN)、TL-GNN、Text-ING等模型;相較原始GAT,所提模型的平均準(zhǔn)確率提升了2.32個百分點,驗證了其有效性。
短文本分類;圖注意力網(wǎng)絡(luò);語料庫特征;引力模型;點互信息
社交網(wǎng)絡(luò)的迅速發(fā)展導(dǎo)致了短文本數(shù)量爆炸式增長[1],微博、電影評論、新聞標(biāo)題等短文本在互聯(lián)網(wǎng)上越來越普遍,如何從海量短文本中挖掘出有效信息日益受到關(guān)注,對于短文本處理的需求日益突顯[2]。短文本分類是自然語言處理(Natural Language Processing, NLP)領(lǐng)域一項重要的基本任務(wù),其旨在為未標(biāo)記文本分配最合適的預(yù)定義標(biāo)簽[3]。短文本分類任務(wù)有著廣泛應(yīng)用,包括新聞標(biāo)題分類、情感分析、問答系統(tǒng)等?,F(xiàn)有研究通常聚焦長文檔分類,但由于短文本中缺乏足夠上下文信息,面臨數(shù)據(jù)稀疏性問題,將這些模型直接應(yīng)用在短文本上的效果較差[4]。
為了提升短文本分類的性能,一些針對短文本設(shè)計的方法被不斷提出。這些方法的思路主要分為兩類:一類是為短文本設(shè)計更優(yōu)的模型結(jié)構(gòu)以挖掘潛藏語義信息,其側(cè)重于改變模型體系結(jié)構(gòu)以適應(yīng)短文本。雖然這些模型性能良好,但仍不能解決短文本中的數(shù)據(jù)稀疏性問題。另一類側(cè)重于引入外部知識豐富短文本的語義,如引入單詞的概念和句子的主題等。這些模型豐富了句子語義特征,取得了很好的效果。但引入外部知識需要更加復(fù)雜的方法來獲取,如通過鏈接知識圖譜獲取單詞的概念、通過主題模型來獲取句子的主題,這增加了模型復(fù)雜度。
為了更加方便簡潔地增加短文本的語義特征,本文考慮將語料庫特征融入到短文本中,而無需引入其他額外知識。在圖注意力網(wǎng)絡(luò)(Graph ATtention network, GAT)[5]的基礎(chǔ)上,本文提出了一個新模型NE-GAT(Node-Edge GAT),其結(jié)合了語料庫的節(jié)點和邊權(quán)值特征,并將其融入到節(jié)點特征信息的更新過程。其中,引力模型(Gravity Model, GM)[6]被用作評估節(jié)點權(quán)重,點互信息(Pointwise Mutual Information, PMI)被用作評估單詞間邊權(quán)重。然后,給每個句子構(gòu)建一個文本級別圖,將文本分類視為圖分類問題,并把節(jié)點權(quán)重和邊權(quán)值融入到節(jié)點特征更新過程中。
現(xiàn)有文本分類模型主要包括兩類:基于傳統(tǒng)的機(jī)器學(xué)習(xí)方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)的機(jī)器學(xué)習(xí)模型訓(xùn)練耗時少,如支持向量機(jī)(Support Vector Machine, SVM)[7]、樸素貝葉斯(Naive Bayesian, NB)等,但需要特征工程,要消耗大量人力物力。隨著計算力的提高,一些基于端到端的深度學(xué)習(xí)方法被接連提出,如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)[8]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)[9]、Transformer[10]等。這些方法不需要特征工程,并且在長文本分類上表現(xiàn)優(yōu)異,但由于短文本面臨數(shù)據(jù)稀疏性問題,將這些模型直接應(yīng)用在短文本上的效果較差[4]。
因此,一些針對短文本設(shè)計的改進(jìn)方法被不斷提出:一類是為短文本設(shè)計更優(yōu)的模型結(jié)構(gòu)。文獻(xiàn)[11]中提出了一種用于短文本分類的主題記憶網(wǎng)絡(luò),它具有一種主題存儲機(jī)制,并利用短文本的潛在主題表示豐富語義信息。文獻(xiàn)[12]中提出了一種聚類門控卷積神經(jīng)網(wǎng)絡(luò)挖掘短文本中隱藏語義信息。文獻(xiàn)[13]中提出了利用多頭注意力記憶網(wǎng)絡(luò)增強(qiáng)短文本語義捕獲能力。文獻(xiàn)[14]中通過長短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)、CNN和Capsule Network進(jìn)行不同層面的特征提取,并將其進(jìn)行融合以增強(qiáng)語義特征。另一類側(cè)重于引入其他知識以緩解短文本的稀疏性問題,如:文獻(xiàn)[4,15]中引入了單詞的概念來豐富句子語義,文獻(xiàn)[16-17]中引入了句子的主題信息。雖然這些模型豐富了句子的語義特征,取得了很好效果,但另一方面也增加了模型復(fù)雜程度。
近年來,圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network, GNN)引起了學(xué)術(shù)界的廣泛關(guān)注,在文本分類任務(wù)上已有許多應(yīng)用。文獻(xiàn)[18]中提出了用于文本分類的圖卷積網(wǎng)絡(luò)(Text Graph Convolution Network, Text-GCN)模型,為每個語料庫構(gòu)建一個異構(gòu)圖,其中每個文本及其包含的單詞作為節(jié)點,單詞間的點互信息和文檔與單詞之間的詞頻逆文檔頻率作為邊權(quán)重,將文本分類作為節(jié)點分類任務(wù)。在Text-GCN的基礎(chǔ)上,文獻(xiàn)[19]中提出了Tensor-GCN(Tensor Graph Convolution Network),基于語義、語法和序列構(gòu)造了三個圖,節(jié)點信息可以在每個圖內(nèi)或圖之間傳輸。但是,上述方法屬于半監(jiān)督分類方法,其構(gòu)建的圖結(jié)構(gòu)和參數(shù)都依賴于語料庫,訓(xùn)練后不能修改,難以在線測試。為解決這個問題,后續(xù)研究主要集中在為每個句子構(gòu)建一個文本級別圖。文獻(xiàn)[20]中提出了一種文本級別的圖神經(jīng)網(wǎng)絡(luò),為每個文本構(gòu)造一個圖,并通過消息傳播機(jī)制更新節(jié)點。文獻(xiàn)[21]中同樣地為每個句子構(gòu)建文本級別圖,然后再使用GGNN(Gated GNN)[22]更新節(jié)點。然而,上述方法都是針對長文檔,短文本中仍然存在數(shù)據(jù)稀疏問題。對于短文本,文獻(xiàn)[17]中提出了HGAT(Heterogeneous GAT),引入主題和實體豐富句子語義。文獻(xiàn)[23]中提出了利用GAT進(jìn)行半監(jiān)督短文本分類。然而,這兩個模型為每個語料庫建立了一個圖,仍然有無法對新樣本進(jìn)行測試的缺點。
現(xiàn)存短文本分類方法未充分利用語料庫特征信息,NE-GAT模型能夠利用無監(jiān)督方法提取的語料庫特征,提升短文本分類效果。本文方法的整體流程如圖1所示,首先利用引力模型(GM)計算節(jié)點重要性評分,利用PMI計算邊權(quán)值,然后為語料庫的每個句子構(gòu)建文本級別圖,并在節(jié)點更新時融入節(jié)點和邊權(quán)重。
圖1 本文方法總體流程Fig. 1 Overall flow chart of proposed method
對于語料庫C,其包含個句子,每個句子可表示為,語料庫句子集合表示為。利用分詞工具NLTK對所有句子進(jìn)行分詞后得到個不重復(fù)單詞,每個單詞表示為wj,語料庫單詞集合表示為。為語料庫C構(gòu)建一個全局無向圖,其中句子集合S和單詞集合W被視作圖GC的節(jié)點集合,句子和單詞之間的包含關(guān)系用來建立圖的邊集合M,即如果句子si包含詞wj,則為節(jié)點si與詞wj構(gòu)建無向邊,并將其加入邊集合M中。圖2給出了利用TREC語料庫構(gòu)建的部分無向圖,其中句子節(jié)點用灰色表示,單詞節(jié)點利用白色表示,如果兩類節(jié)點存在邊,則說明此句子中包含該單詞。為了便于后續(xù)計算,定義直接相連的兩個節(jié)點間的長度為1,兩個節(jié)點間的距離為最短路徑的長度,如單詞節(jié)點“company”到句子節(jié)點“001”和“0126”的距離為1,到單詞節(jié)點“inhabit”和“find”的距離為2。
圖2 文檔-詞語圖示例Fig. 2 Example of document-word graph
在構(gòu)建好圖之后,遵循文獻(xiàn)[18]使用引力模型(GM)計算圖中單詞節(jié)點的重要性權(quán)重。給定節(jié)點,其重要性評分Ir計算式如下:
式中:kr表示節(jié)點ur度數(shù);kt表示節(jié)點ut度數(shù);drt表示節(jié)點ur和ut間的最短距離。GM利用節(jié)點的度和節(jié)點間的距離得到重要性評分,當(dāng)某個單詞節(jié)點的評分高,根據(jù)式(1),該節(jié)點的度數(shù)高,說明該單詞出現(xiàn)在句子中的頻率高。
單詞間越相關(guān),可認(rèn)為詞間邊權(quán)重越大,點互信息用于衡量事物間相關(guān)性,本文利用點互信息PMI計算單詞間邊權(quán)重。給定單詞,點互信息計算式為:
經(jīng)過前面兩個步驟,獲取了語料庫節(jié)點和邊權(quán)值,原始GAT沒有考慮圖中節(jié)點和邊權(quán)值,在NE-GAT更新節(jié)點過程中,將前兩步得到的節(jié)點和邊權(quán)值融入到模型中。給定句子,包含d個單詞,表示為,其中wd表示句子s的第d個單詞。構(gòu)建圖,句子s中的單詞被視作圖G的頂點,單詞的鄰居關(guān)系用于構(gòu)建邊集合E,每個單詞節(jié)點與其周圍q跳鄰居進(jìn)行連接,q跳為語序距離,兩相鄰單詞節(jié)點的距離為1。圖3給出了NE-GAT的處理流程,主要分為3個部分:文本級別圖構(gòu)建、圖節(jié)點更新和圖分類。給定電影評論“It’s tough to watch, but it’s a fantastic movie”,首先將其進(jìn)行分詞獲得單詞節(jié)點,然后根據(jù)語序構(gòu)建節(jié)點間連接,圖中每個節(jié)點與跳鄰居進(jìn)行連接,對于節(jié)點“to”,在語序上,它的1跳鄰居節(jié)點是“tough”和“watch”。為方便顯示,圖3中節(jié)點自環(huán)邊被省略。構(gòu)建好圖G后,對于圖中每個節(jié)點,它通過其鄰居節(jié)點特征來更新。節(jié)點特征學(xué)習(xí)完成后,導(dǎo)出所有節(jié)點信息用于分類。
圖3 NE-GAT模型的處理流程Fig. 3 Processing flow of NE-GAT model
式(3)~(6)描述了NE-GAT模型的節(jié)點信息更新過程。如式(3)所示,節(jié)點wd的特征向量hd由兩部分構(gòu)成:預(yù)訓(xùn)練詞向量xd和節(jié)點重要性評分Id。在原始圖注意力網(wǎng)絡(luò)計算當(dāng)前節(jié)點與鄰居節(jié)點間得分時,將利用PMI計算獲得的邊權(quán)值信息融入,如式(6)所示。
其中:Zd表示節(jié)點wd鄰居節(jié)點集合;βf表示節(jié)點wd與鄰居節(jié)點wf的注意力得分;W1表示參數(shù)矩陣。圖中節(jié)點更新后,其節(jié)點信息匯聚作為句子最終分類特征H,通過線性層獲得類別概率p。
采用交叉熵作為訓(xùn)練損失函數(shù)L,如式(9)所示:
在真實的文本分類數(shù)據(jù)集上評估模型性能,并將本文模型與基線模型進(jìn)行比較。首先詳細(xì)介紹6個短文本數(shù)據(jù)集的基本情況和實驗中的參數(shù)設(shè)置,然后將NE-GAT與7種基線方法進(jìn)行比較以評價其在短文本分類中的性能,最后對NE-GAT進(jìn)行參數(shù)分析。仿真實驗采用Python3.6編寫,通過RTX 2080ti GPU服務(wù)器運(yùn)行。
為了評估模型分類效果,本文在常用短文本數(shù)據(jù)集上進(jìn)行實驗,表1給出了數(shù)據(jù)集的詳細(xì)特征。由于所有數(shù)據(jù)集都沒有標(biāo)準(zhǔn)驗證集,隨機(jī)選擇訓(xùn)練集的10%作為驗證集。
1)Biomedical數(shù)據(jù)集,是BioASQ網(wǎng)站上公布的挑戰(zhàn)數(shù)據(jù)的一個子集,包含了20個類別的19 974篇論文標(biāo)題。
2)Dblp數(shù)據(jù)集,包含6個類別的計算機(jī)科學(xué)的論文標(biāo)題。
3)MR數(shù)據(jù)集,是一個電影評論數(shù)據(jù)集,包含好評和差評2個類別。
4)SST1數(shù)據(jù)集,是MR數(shù)據(jù)集的一個擴(kuò)展版本,其定義了5個標(biāo)簽,包括非常差、差、中性、好和非常好。
5)SST2數(shù)據(jù)集,是MR數(shù)據(jù)集的一個擴(kuò)展版本,其中包含好評和差評2個類別的電影評論。
6)TREC數(shù)據(jù)集,是一個問答系統(tǒng)的問句數(shù)據(jù)集,其定義了6種問題類型。
表1 數(shù)據(jù)集信息Tab. 1 Dataset information
采用Adam優(yōu)化器[24]對參數(shù)進(jìn)行更新,參數(shù)的學(xué)習(xí)率設(shè)置為0.001。批處理大小設(shè)置為256,總訓(xùn)練輪次設(shè)置為100輪。為防止過度擬合,將dropout比率設(shè)置為0.5,L2正則化參數(shù)設(shè)置為0.000 1。如果連續(xù)10輪驗證集的準(zhǔn)確率沒有提升,則停止訓(xùn)練。每個單詞節(jié)點的嵌入維數(shù)為300,用隨機(jī)向量或預(yù)訓(xùn)練GloVe[25]向量進(jìn)行初始化。每個文本級別圖中,單詞只與其語序上距離1跳的鄰居連接。將模型在測試集上的準(zhǔn)確率(Accuracy)作為實驗評估指標(biāo),表示模型分類正確的樣本數(shù)在總測試樣本數(shù)中所占比例,準(zhǔn)確率越高,模型分類能力越強(qiáng),其定義如式(10)所示:
式中:PT表示預(yù)測正確的樣本數(shù);Total表示總的測試樣本數(shù)。
本文將NE-GAT模型與以下文本分類基準(zhǔn)方法進(jìn)行對比,基線模型的參數(shù)設(shè)置為原文獻(xiàn)中提到的參數(shù),單詞表示使用與本文相同的預(yù)訓(xùn)練詞向量:
1)Text-CNN[8],通過多個卷積核抽取文本特征,進(jìn)而實現(xiàn)文本分類。
2)Bi-LSTM[9],利用2個LSTM分別提取句子前向和后向序列特征,并連接起來當(dāng)作文本分類的特征。
3)Text-GCN[18],將每個語料庫視為包含文檔和單詞的異構(gòu)圖,然后采用圖卷積網(wǎng)絡(luò)進(jìn)行文本分類任務(wù)。
4)TL-GNN(Text-level-GNN)[20],為每個輸入文本構(gòu)造一個圖,并利用消息傳遞機(jī)制更新節(jié)點。
5)STCKA[15],一種融合單詞及其概念特征的短文本分類模型,它將每個短文本及其相關(guān)概念分別編碼,并連接這兩種特征進(jìn)行分類。
6)DE-CNN[4],該模型利用卷積神經(jīng)網(wǎng)絡(luò)融合了上下文相關(guān)概念,并用于短文本分類。
7)Text-ING(Text classification method for INductive word representations via Graph neural networks)[21],基于帶門控的圖神經(jīng)網(wǎng)絡(luò)文本分類模型。
首先對模型在不同數(shù)據(jù)集上的測試集準(zhǔn)確率進(jìn)行分析對比,結(jié)果如表2所示。可見,NE-GAT的平均準(zhǔn)確率最高,達(dá)到75.48%,在大部分?jǐn)?shù)據(jù)集上達(dá)到最優(yōu)結(jié)果,表明NE-GAT能夠利用節(jié)點和邊權(quán)值豐富短文本語義。用于對比的圖神經(jīng)網(wǎng)絡(luò)模型均針對長文本設(shè)計,面對短文本遭遇數(shù)據(jù)稀疏性問題,造成效果不佳。傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)Text-CNN在短文本上保持著良好性能,其平均準(zhǔn)確率超過絕大多數(shù)基線方法,說明卷積操作能夠很好地挖掘短文本n-gram特征。與Text-CNN相比,Bi-LSTM平均準(zhǔn)確率較低,原因在于短文本中的單詞數(shù)過少,其語序?qū)渥诱Z義理解沒有太大幫助。盡管STCKA和DE-CNN通過引入單詞的概念解決數(shù)據(jù)稀疏性問題,但其性能表現(xiàn)仍未超越NE-GAT,說明語料庫的全局特征能夠更好地幫助語義特征的理解。
盡管NE-GAT的實驗結(jié)果較好,但不能評估各特征的貢獻(xiàn)程度,故設(shè)計消融實驗分析各模塊對模型精度提升的作用,結(jié)果如表3所示??梢?,單獨(dú)融入節(jié)點或邊權(quán)值,相較原始GAT都有提升,且NE-GAT相較原始GAT,平均精度提升了2.32個百分點,表明融入點和邊權(quán)重能更好地表示語料庫全局特征,指導(dǎo)更新過程。
表4給出了節(jié)點與不同跳數(shù)的鄰居連接時,即q取不同數(shù)值時,測試集的精度變化情況。可見,當(dāng)節(jié)點與跳鄰居進(jìn)行連接時,其平均精度最高,繼續(xù)增大q,平均精度變化不大,表明NE-GAT能通過節(jié)點間連接關(guān)系匯聚不直接相連的節(jié)點信息。
表5給出了不同層數(shù)的NE-GAT在測試集上的精度變化情況,隨著層數(shù)逐漸加深,NE-GAT的平均精度呈現(xiàn)下降趨勢,表明隨著層次的增加,節(jié)點特征變得過于平滑,最終所有節(jié)點學(xué)習(xí)到相同表達(dá),無法學(xué)習(xí)能夠區(qū)分語義的特征。
表2 不同模型的測試集準(zhǔn)確率比較Tab. 2 Comparison of test set accuracy of different methods
表3 各模塊的消融實驗結(jié)果(準(zhǔn)確率)Tab. 3 Ablation experimental results of each module (accuracy)
表4 不同鄰居數(shù)的測試精度比較Tab. 4 Test accuracy comparison of different numbers of neighbors
表5 不同層數(shù)的測試精度比較Tab. 5 Test accuracy comparison of different numbers of layers
針對短文本分類方法不能很好地融入語料庫特征的問題,基于圖注意力網(wǎng)絡(luò),本文提出了一種新的文本分類方法NE-GAT。首先利用無監(jiān)督方法學(xué)習(xí)語料庫特征,為語料庫構(gòu)建無向圖,將句子及其包含的詞語視作圖節(jié)點,根據(jù)句子和詞語間的包含關(guān)系構(gòu)建節(jié)點間的連接邊;然后采用GM計算節(jié)點重要性評分,構(gòu)建詞語與詞語間的PMI為邊權(quán)值,最終將文本分類問題轉(zhuǎn)換為圖分類問題。NE-GAT利用詞語間的順序關(guān)系為文本構(gòu)造文本級別的圖,將語料庫特征融入節(jié)點更新。實現(xiàn)結(jié)果表明,NE-GAT的性能優(yōu)于其他用于對比的方法,同時驗證了語料庫節(jié)點和邊權(quán)值的有效性。另外,由于節(jié)點重要性評估時需為每個語料庫構(gòu)建圖,當(dāng)語料庫過大時,圖中節(jié)點過多,計算節(jié)點重要性得分所需時間將大幅提升,后續(xù)工作將考慮改進(jìn)引力模型(GM)以適應(yīng)語料庫變化,如減少求解節(jié)點間的最短距離。
[1] ALSMADI I M, GAN K H. Review of short-text classification [J]. International Journal of Web Information Systems, 2019, 15(2): 155-182.
[2] 范國鳳,劉璟,姚紹文,等.基于語義依存分析的圖網(wǎng)絡(luò)文本分類模型[J].計算機(jī)應(yīng)用研究,2020,37(12):3594-3598.(FAN G F, LIU J, YAO S W, et al. Text classification model with graph network based on semantic dependency parsing [J]. Application Research of Computers, 2020, 37(12): 3594-3598.)
[3] TAO H Q, TONG S W, ZHAO H K, et al. A radical-aware attention-based model for Chinese text classification [C]// Proceedings of the 2019 33rd AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2019: 5125-5132.
[4] XU J Y, CAI Y, WU X, et al. Incorporating context-relevant concepts into convolutional neural networks for short text classification [J]. Neurocomputing,2020, 386: 42-53.
[5] VELI?KOVI? P, CUCURULL G,CASANOVA A, et al. Graph attention networks [EB/OL].[2021-02-10]. https://arxiv.org/pdf/1710.10903.pdf.
[6] LI Z, REN T, MA X Q, et al. Identifying influential spreaders by gravity model [J]. Scientific Reports, 2019, 9: Article No.8387.
[7] DILRUKSHI I, DE ZOYSA K. A feature selection method for twitter news classification [J]. International Journal of Machine Learning and Computing, 2014, 4(4): 365-370.
[8] KIM Y. Convolutional neural networks for sentence classification [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: ACL, 2014: 1746-1751.
[9] LIU P F, QIU X P, HUANG X J. Recurrent neural network for text classification with multi-task learning [C]// Proceedings of the 2016 25th International Joint Conference on Artificial Intelligence. California: IJCAI Organization, 2016: 2873-2879.
[10] VASWANI A, S HAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 2017 31st International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc., 2017:6000-6010.
[11] ZENG J C, LI J, SONG Y, et al. Topic memory networks for short text classification [C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: ACL,2018: 3120-3131.
[12] ZHANG H D, NI W C, ZHAO M J, et al. Cluster-gated convolutional neural network for short text classification [C]// Proceedings of the 2019 23rd Conference on Computational Natural Language Learning. Stroudsburg: ACL, 2019:1002-1011.
[13] 張小川,戴旭堯,劉璐,等.融合多頭自注意力機(jī)制的中文短文本分類模型[J].計算機(jī)應(yīng)用,2020,40(12):3485-3489.(ZHANG X C, DAI X Y,LIU L, et al. Chinese short text classification model with multi-head self-attention mechanism [J]. Journal of Computer Applications, 2020, 40(12):3485-3489)
[14] 楊朝強(qiáng),邵黨國,楊志豪,等.多特征融合的中文短文本分類模型[J].小型微型計算機(jī)系統(tǒng),2020,41(7):1421-1426.(YANG Z Q, SHAO D G,YANG Z H, et al. Chinese short text classification model with multi-feature fusion [J]. Journal of Chinese Computer Systems, 2020, 41(7): 1421-1426.)
[15] CHEN J D, HU Y Z, LIU J P, et al. Deep short text classification with knowledge powered attention [C]// Proceedings of the 2019 33rd AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2019: 6252-6259.
[16] 鄭誠,董春陽,黃夏炎.基于BTM圖卷積網(wǎng)絡(luò)的短文本分類方法[J].計算機(jī)工程與應(yīng)用,2021,57(4):155-160.(ZHENG C,DONG C Y, HUANG X Y. Short text classification method based on BTM graph convolutional network [J]. Computer Engineering and Applications,2021, 57(4): 155-160.)
[17] HU L M, YANG T C, SHI C, et al. Heterogeneous graph attention networks for semi-supervised short text classification [C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg: ACL, 2019:4821-4830.
[18] YAO L, MAO C S, LUO Y. Graph convolutional networks for text classification [C]// Proceedings of the 2019 33rd AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2019: 7370-7377.
[19] LIU X E, YOU X X, ZHANG X, et al. Tensor graph convolutional networks for text classification [C]// Proceedings of the 2020 34th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2020: 8409-8416.
[20] HUANG L Z, MA D H, LI S J, et al. Text level graph neural network for text classification [C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg: ACL,2019: 3444-3450.
[21] ZHANG Y F, YU X L, CUI Z Y, et al. Every document owns its structure: inductive text classification via graph neural networks [C]// Proceedings of the 2020 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: ACL, 2020: 334-339.
[22] LI Y J, ZEMEL R, BROCKSCHMIDT M, et al. Gated graph sequence neural networks [EB/OL]. [2021-02-20]. https://arxiv.org/pdf/1511.05493.pdf.
[23] 暨南大學(xué).一種基于圖注意力網(wǎng)絡(luò)的中文短文本分類方法:中國,202011141057.5[P].2021-03-02.(Jinan University. A Chinese short text classification method based on graph attention networks: CN, 202011141057.5 [P]. 2021-03-02.)
[24] KINGMA D P, BA J L. Adam: a method for stochastic optimization [EB/OL]. [2021-02-20]. https://arxiv.org/pdf/1412.6980.pdf.
[25] PENNINGTON J, SOCHER R, MANNING C D. GloVe: global vectors for word representation [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: ACL,2014: 1532-1543.
Short text classification method by fusing corpus features and graph attention network
YANG Shigang, LIU Yongguo*
(School of Information and Software Engineering,University of Electronic Science and Technology of China,Chengdu Sichuan610054,China)
Short text classification is an important research problem of Natural Language Processing (NLP), and is widely used in news classification, sentiment analysis, comment analysis and other fields. Aiming at the problem of data sparsity in short text classification, by introducing node and edge weight features of corpora, based on Graph ATtention network (GAT),a new graph attention network named Node-Edge GAT (NE-GAT) by fusing node and edge weight features was proposed. Firstly, a heterogeneous graph was constructed for each corpus, Gravity Model (GM)was used to evaluate the importance of word nodes, and edge weights were obtained through Point Mutual Information (PMI) between nodes. Secondly, a text-level graph was constructed for each sentence, node importance and edge weights were integrated into the update process of nodes. Experimental results show that, the average accuracy of the proposed model on the test sets reaches 75.48%, which is better than those of the models such as Text Graph Convolution Network (Text-GCN),Text-Level-Graph Neural Network (TL-GNN) and Text classification method for INductive word representations via Graph neural networks (Text-ING). Compared with original GAT, the proposed model has the average accuracy improved by 2.32 percentage points, which verifies the effectiveness of the proposed model.
short text classification; Graph Attention Network (GAT); corpus feature; Gravity Model (GM); Pointwise Mutual Information (PMI)
TP391
A
1001-9081(2022)05-1324-06
10.11772/j.issn.1001-9081.2021030508
2021?04?06;
2021?06?18;
2021?06?21。
國家重點研發(fā)計劃項目(2017YFC1703905);國家自然科學(xué)基金資助項目(81803851);四川省重點研發(fā)計劃項目(2020YFS0372);四川省應(yīng)用基礎(chǔ)研究計劃項目(2021YJ0184)。
楊世剛(1998—),男,四川廣安人,碩士研究生,主要研究方向:文本分類; 劉勇國(1974—),男,四川綿陽人,教授,博士,主要研究方向:數(shù)字醫(yī)療、計算健康、人工智能、大數(shù)據(jù)。
This work is partially supported by National Key Research and Development Program of China (2017YFC1703905), National Natural Science Foundation of China (81803851), Key Research and Development Program of Sichuan Province (2020YFS0372), Application Basic Research and Development Program of Sichuan Province (2021YJ0184).
YANG Shigang, born in 1998, M. S. candidate. His research interests include text classification.
LIU Yongguo, born in 1974, Ph. D., professor. His research interests include digital medicine, computing health, artificial intelligence, big data.