張 靈,李榮臻,鄭 蘇
(1.廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院, 廣東 廣州 510006;2.寧夏大學(xué) 教育學(xué)院, 寧夏 銀川 750001)
隨著眾多社交媒體平臺(tái)的蓬勃發(fā)展,如新浪微博和微信等被大量用戶使用。社交平臺(tái)帶來(lái)的便利豐富了用戶生活,但短文本數(shù)據(jù)也在瘋狂地增長(zhǎng)。因?yàn)槎涛谋居兄子陂喿x、內(nèi)容簡(jiǎn)短的特性,能提取的特征也比較稀疏且很容易不準(zhǔn)確,如何更好地處理短文本數(shù)據(jù),挖掘其中存在的商業(yè)價(jià)值是長(zhǎng)期被關(guān)注的焦點(diǎn),因此,對(duì)海量數(shù)據(jù)進(jìn)行正確分類(lèi)有一定必要性。
在文本分類(lèi)任務(wù)中,有很多人為了更好地捕獲文本語(yǔ)義信息,使用循環(huán)神經(jīng)網(wǎng)絡(luò)[1]、長(zhǎng)短期記憶網(wǎng)絡(luò)[2]、門(mén)控循環(huán)單元[3]和卷積神經(jīng)網(wǎng)絡(luò)[4]等結(jié)構(gòu),如長(zhǎng)短期記憶網(wǎng)絡(luò)能夠根據(jù)文本數(shù)據(jù)的序列關(guān)系建模,把生成的新特征作為文本的最終特征投入訓(xùn)練任務(wù)進(jìn)行學(xué)習(xí)。類(lèi)比圖像處理方法,Kim[5]使用卷積來(lái)捕捉文本內(nèi)部單詞間的局部語(yǔ)義關(guān)系,將最后一層網(wǎng)絡(luò)的特征代表整個(gè)文本特征進(jìn)行預(yù)測(cè)分類(lèi)任務(wù)。近年來(lái),圖卷積網(wǎng)絡(luò)(Graph Convolution Network,GCN)[6]在處理文本任務(wù)上的出色能力受到廣泛關(guān)注,是一種可以通過(guò)連接節(jié)點(diǎn)的邊傳遞信息來(lái)捕獲圖節(jié)點(diǎn)之間的全局依賴(lài)關(guān)系[7]的模型。Kipf等[8]提出的基于圖卷積進(jìn)行半監(jiān)督分類(lèi)方法,正式成為GCN的開(kāi)山之作,之后Yao等[9]正式將GCN用于文本分類(lèi),取得了很好的效果。由于圖結(jié)構(gòu)的特性相對(duì)于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型更有利于文本處理,詞節(jié)點(diǎn)能夠通過(guò)不同的搭配來(lái)學(xué)習(xí)更準(zhǔn)確的表示。
雖然圖結(jié)構(gòu)能通過(guò)捕獲長(zhǎng)距離詞節(jié)點(diǎn)交互,但直接應(yīng)用于短文本分類(lèi)時(shí),性能也會(huì)不可避免地下降,這是因?yàn)槎涛谋痉诸?lèi)中的瓶頸問(wèn)題就是文本中的關(guān)鍵詞存在嚴(yán)重的稀疏性和特征表達(dá)模糊。
針對(duì)上述問(wèn)題,本文首先為短文本數(shù)據(jù)集構(gòu)建了一個(gè)包含局部及全局關(guān)系的大型文本圖,其中包含作為節(jié)點(diǎn)的文檔和單詞,考慮到單詞對(duì)整個(gè)數(shù)據(jù)集的重要性,對(duì)于文檔節(jié)點(diǎn)和單詞節(jié)點(diǎn)的關(guān)系權(quán)重,在傳統(tǒng)算法上做了改進(jìn);之后考慮到文本與標(biāo)簽存在的語(yǔ)義相關(guān)性,構(gòu)建了特征空間對(duì)文本進(jìn)行特征選擇,將得到的新特征嵌入到文本圖中的文檔節(jié)點(diǎn),增強(qiáng)了文檔節(jié)點(diǎn)的特征表示,單詞節(jié)點(diǎn)則利用了預(yù)訓(xùn)練模型捕捉上下文語(yǔ)義學(xué)習(xí)得到,有效地緩解了短文本存在的語(yǔ)義表達(dá)不充分、模糊的問(wèn)題。
本文的貢獻(xiàn)概括如下:基于傳統(tǒng)的詞頻統(tǒng)計(jì)(Term Frequency-Inverse Document Frequency,TFIDF)算法,提出了改進(jìn)方法來(lái)定義文本圖中文檔節(jié)點(diǎn)和單詞的關(guān)系,重新考慮了單詞對(duì)所屬文本及全局語(yǔ)料庫(kù)的重要性。提出了融合標(biāo)簽語(yǔ)義嵌入的圖卷積網(wǎng)絡(luò)的方法,利用文檔與標(biāo)簽存在的近義關(guān)系進(jìn)行特征選擇,聯(lián)合標(biāo)簽語(yǔ)義和提取的近義詞嵌入作為文本圖中文檔節(jié)點(diǎn)特征表示。根據(jù)4個(gè)英文短文本數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,本文提出的方法與對(duì)比模型相比,達(dá)到了最好的分類(lèi)效果。
文本分類(lèi)是自然語(yǔ)言處理(Natural Language Processing,NLP) 的一項(xiàng)核心任務(wù),主要體現(xiàn)在文本特征表示和分類(lèi)模型上,已經(jīng)被用于許多現(xiàn)實(shí)應(yīng)用,如垃圾郵件檢測(cè)[10]和意見(jiàn)挖掘[11]。有很多深度學(xué)習(xí)模型被廣泛應(yīng)用于文本分類(lèi),但在長(zhǎng)文本數(shù)據(jù)分類(lèi)領(lǐng)域上效果相對(duì)更好,短文本分類(lèi)上未能得到特別滿意的效果。
針對(duì)短文本特征不足的問(wèn)題,Bouaziz 等[12]用維基百科語(yǔ)料訓(xùn)練主題模型,然后通過(guò)得到主題以及主題在詞語(yǔ)上的分布來(lái)作為擴(kuò)展短文本的語(yǔ)料庫(kù),之后用來(lái)進(jìn)行特征擴(kuò)展的選擇。方澄等[13]為了豐富微博數(shù)據(jù)的特征,將數(shù)據(jù)集中的表情和顏文字等按照設(shè)置的詞表進(jìn)行替換,但是純文字形式的句子存在無(wú)法擴(kuò)展的局限性。崔婉秋等[14]在利用微博數(shù)據(jù)做搜索任務(wù)的研究中,使用了超大型的知識(shí)密集型網(wǎng)絡(luò)倉(cāng)庫(kù),將短文本標(biāo)題生成一些相關(guān)的地點(diǎn)、時(shí)間或事件等關(guān)鍵詞詞集來(lái)擴(kuò)展特征,以達(dá)到用戶能夠搜索到更多相關(guān)話題的目的。Wang等[15]提出了標(biāo)簽嵌入注意模型,該模型將標(biāo)簽和單詞引入到同一個(gè)聯(lián)合空間中,使用注意力機(jī)制[16]作為標(biāo)簽與單詞向量溝通的橋梁進(jìn)行文本分類(lèi)。張萬(wàn)杰[17]用一維卷積取代了Wang等[15]模型中的注意力機(jī)制,并去掉了之后的加權(quán)求和,使文本內(nèi)每個(gè)詞表達(dá)獨(dú)立化,用于多標(biāo)簽文本分類(lèi)的預(yù)測(cè)任務(wù)。
以上方法一定程度上雖能對(duì)短文本的稀疏特征有所優(yōu)化,但其效果主要還是受外部語(yǔ)料庫(kù)質(zhì)量以及只能捕捉到文本局部特征的影響。
最近,圖神經(jīng)網(wǎng)絡(luò)[18]的研究熱潮引起廣泛關(guān)注,在短文本分類(lèi)任務(wù)中,首先將文檔數(shù)據(jù)轉(zhuǎn)為圖數(shù)據(jù),不僅包含著文本局部信息,還包含了多文檔之間的全局信息,獲得了較好的效果。之后鄭誠(chéng)等[19]提出將雙項(xiàng)主題模型應(yīng)用于短文本數(shù)據(jù),把訓(xùn)練出的文檔集潛在主題作為一種節(jié)點(diǎn)嵌入到圖結(jié)構(gòu)中用于輔助分類(lèi)。辛媛[20]根據(jù)數(shù)據(jù)集分別構(gòu)建了包含整個(gè)數(shù)據(jù)集的文本圖和將文本圖拆解后的子圖集兩種文本圖,分別使用同構(gòu)圖神經(jīng)網(wǎng)絡(luò)和異構(gòu)圖神經(jīng)網(wǎng)絡(luò)算法進(jìn)行文本分類(lèi)。申艷光等[21]針對(duì)文本分類(lèi)任務(wù)中標(biāo)注數(shù)量少的問(wèn)題,提出了一種基于詞共現(xiàn)與圖卷積相結(jié)合的半監(jiān)督文本分類(lèi)方法,用詞共現(xiàn)方法統(tǒng)計(jì)語(yǔ)料庫(kù)中單詞的詞共現(xiàn)信息并采用了過(guò)濾。鄭誠(chéng)等[22]針對(duì)文本上下文信息和局部特征不足的問(wèn)題,提出了利用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)提取文本信息豐富圖卷積網(wǎng)絡(luò)的文本表示。除了利用詞共現(xiàn)關(guān)系,為了探索來(lái)自不同類(lèi)型圖的異構(gòu)信息的效果,Liu等[23]提出的文本圖張量模型還引入了語(yǔ)義與句法關(guān)系,由此構(gòu)建了3種規(guī)則下的文本異質(zhì)圖,分別經(jīng)過(guò)圖卷積網(wǎng)絡(luò)學(xué)習(xí)單圖中節(jié)點(diǎn)的信息后再聚合特征,效果相較于只使用共現(xiàn)圖有所提升,但是這種多圖的方式同時(shí)也占用了很大的存儲(chǔ)資源。
隨著圖神經(jīng)網(wǎng)絡(luò)的發(fā)展,陸續(xù)出現(xiàn)了通過(guò)改變網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)和計(jì)算方式的一些圖神經(jīng)網(wǎng)絡(luò)的變種。Wu等[24]提出了簡(jiǎn)化的圖卷積模型,消除了隱藏層之間的激活操作,將中間過(guò)程轉(zhuǎn)換為簡(jiǎn)單的線性變換。Zhang等[25]提出的歸納型圖卷積模型,減少了模型學(xué)習(xí)過(guò)程中的遺忘,將門(mén)控機(jī)制添加進(jìn)圖神經(jīng)網(wǎng)絡(luò)[26]來(lái)學(xué)習(xí)文本圖信息。也有人認(rèn)為不同的節(jié)點(diǎn)具有不同的影響力,提出采用一層前饋神經(jīng)網(wǎng)絡(luò)來(lái)計(jì)算節(jié)點(diǎn)間注意力分?jǐn)?shù)作為節(jié)點(diǎn)間的鄰接權(quán)值的圖注意力網(wǎng)絡(luò)(Graph Attention Networks,GAT) 模型[27],由于單層注意力關(guān)注力度不夠,Ding等[28]提出了超圖注意力網(wǎng)絡(luò)模型,使用雙重注意力機(jī)制的方式學(xué)習(xí)文本圖上的多方面的特征表達(dá),其中,模型使用的歸納型文本圖一定程度上減少了計(jì)算消耗。
以上方法在短文本分類(lèi)上都取得了很不錯(cuò)的效果,但是只考慮短文本自身特征是不夠的。區(qū)別于其他圖神經(jīng)網(wǎng)絡(luò)在文本分類(lèi)上的研究,本文首先在建模數(shù)據(jù)集時(shí),綜合考慮了文檔與單詞之間和單詞在全局語(yǔ)料庫(kù)中的重要性,改進(jìn)了文本圖邊權(quán)值的計(jì)算方式;然后利用文本與所屬標(biāo)簽之間存在的相關(guān)性信息,對(duì)所有訓(xùn)練集對(duì)應(yīng)的文檔節(jié)點(diǎn)做特征增強(qiáng),在更新了文本圖的信息后再送入模型中去;最后,學(xué)習(xí)Lin[29]的做法,結(jié)合預(yù)訓(xùn)練模型和圖卷積網(wǎng)絡(luò)模型學(xué)習(xí)到的特征做分類(lèi)預(yù)測(cè)。
最初定義的圖神經(jīng)網(wǎng)絡(luò),是通過(guò)邊連接來(lái)捕獲圖節(jié)點(diǎn)之間的信息。因此,在圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練工作中,需要將數(shù)據(jù)集轉(zhuǎn)為一種圖數(shù)據(jù)的形式,文本數(shù)據(jù)可以根據(jù)各文檔之間的關(guān)系來(lái)構(gòu)造一個(gè)文本圖。
整體實(shí)現(xiàn)流程主要包括文檔-單詞共現(xiàn)文本圖的構(gòu)造、標(biāo)簽信息的嵌入、短文本特征擴(kuò)展,整體流程如圖1所示。
圖1 融合標(biāo)簽語(yǔ)義嵌入和圖卷積的短文本特征擴(kuò)展與分類(lèi)的整體框架Fig.1 The whole framework of short text feature extension and classification based on semantic embedding and graph convolution
圖神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)輸入是一種圖數(shù)據(jù),因此需要根據(jù)數(shù)據(jù)集構(gòu)造文檔-單詞文本圖,圖中包含文檔節(jié)點(diǎn)和單詞節(jié)點(diǎn),文本構(gòu)圖的方法首先會(huì)參考TF-IDF和正點(diǎn)互信息(Positive Pointwise Mutual Information,PPMI) 算法。
對(duì)于構(gòu)建單詞與單詞之間的關(guān)系,PPMI與點(diǎn)互信息(Pointwise Mutual Information,PMI)都使用詞關(guān)聯(lián)度量來(lái)計(jì)算單詞與單詞之間的相關(guān)程度,并將其作為單詞與單詞之間的邊的權(quán)重,兩個(gè)單詞之間的PMI值越小,說(shuō)明單詞對(duì)的語(yǔ)義關(guān)聯(lián)度就越低。PPMI為避免出現(xiàn)負(fù)無(wú)窮的情況,執(zhí)行判斷最大值的操作,將小于0的PMI值都設(shè)為0。
在構(gòu)建文檔與單詞之間的關(guān)系時(shí),傳統(tǒng)的TFIDF方法中,單詞的重要性會(huì)隨著它在文本中出現(xiàn)的次數(shù)呈正向增加,但也會(huì)隨著它在整個(gè)數(shù)據(jù)集中出現(xiàn)的頻率反向下降,往往不能有效地反映單詞的重要程度和特征詞的分布情況。對(duì)于短文本數(shù)據(jù)來(lái)說(shuō),這種判斷并不是完全正確的,而且還會(huì)存在關(guān)聯(lián)特征丟失的問(wèn)題。因此,為了降低語(yǔ)料庫(kù)中同類(lèi)型文本對(duì)單詞權(quán)重的影響,提出了詞頻統(tǒng)計(jì)加權(quán)(Term Frequency-Inverse Document Frequency- Weighting,TF-IDF-W)方法,一定程度上解決了權(quán)值過(guò)小的問(wèn)題,如式(1) 所示。
在傳統(tǒng)的文本分類(lèi)模型中,標(biāo)簽信息的使用只出現(xiàn)在輸出層之前,構(gòu)建好的文本圖進(jìn)入圖卷積神經(jīng)網(wǎng)絡(luò)之前,文檔節(jié)點(diǎn)使用只含有0和1的one-hot向量作為初始特征,文本圖中的單詞節(jié)點(diǎn)最初沒(méi)有特征表示,之后本文會(huì)通過(guò)預(yù)訓(xùn)練模型賦予其基于上下文的唯一表達(dá)。
在大部分情形下,對(duì)全部特征進(jìn)行采集將會(huì)是極其耗時(shí)耗力高開(kāi)銷(xiāo)的或者是不可能的,而且有些特征判別性并不強(qiáng)且存在冗余,導(dǎo)致選擇的特征不具有較強(qiáng)的代表性,在為節(jié)點(diǎn)增加更多鄰域信息的同時(shí)也會(huì)引入與分類(lèi)無(wú)關(guān)的噪聲信息,影響模型的性能。因而,為了充分利用標(biāo)簽與文本信息,將使用合適的先驗(yàn)數(shù)據(jù)賦予文本及標(biāo)簽初始特征,之后以更合適的相似度閾值進(jìn)行近義詞性質(zhì)上的特征篩選及融合,再將新的特征嵌入到文檔節(jié)點(diǎn)增強(qiáng)特征表達(dá)并參與到后續(xù)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練。這種設(shè)定下,只針對(duì)可選擇的特征進(jìn)行采集,減少待處理的數(shù)據(jù)量的同時(shí)降低冗余特征的影響,有助于進(jìn)一步分析處理數(shù)據(jù)。
為了在相同的向量空間中學(xué)習(xí)單詞和標(biāo)簽,需要得到單詞-標(biāo)簽的相似度,利用單詞和標(biāo)簽之間的相似性構(gòu)建另一個(gè)新的嵌入向量,即由圖1中的每條訓(xùn)練文本所含單詞與對(duì)應(yīng)標(biāo)簽的共同特征空間模塊得到。
圖2 單詞-標(biāo)簽特征空間Fig.2 Feature-space of word-label
圖2中,首先使用大規(guī)模數(shù)據(jù)集下預(yù)訓(xùn)練好的靜態(tài)詞向量包賦予文本內(nèi)所有單詞與標(biāo)簽單詞初始特征,之后將文本和標(biāo)簽特征放入共同的特征空間內(nèi),近義詞性質(zhì)的特征篩選工作采用注意力機(jī)制中余弦相似度的方法。
計(jì)算方式概括如下:如某條訓(xùn)練文本可以表示為一個(gè)向量集合S(J) ={w1,w2,···,wj},J為某條文本的索引,j為文本內(nèi)單詞索引,取值范圍從0到文本長(zhǎng)度-1。賦予文本中單詞預(yù)訓(xùn)練詞向量之后,以同樣的詞嵌入,使用預(yù)先訓(xùn)練的詞向量賦予標(biāo)簽語(yǔ)義信息,作為初始輸入向量集合Y(J) ={Y1,Y2,···,YJ},J的定義同上,wj∈Rd、YJ∈Rd意味著單詞和標(biāo)簽特征都是一個(gè)d維向量。有些標(biāo)簽是多個(gè)單詞組成的,數(shù)據(jù)集“web_snippets”中的一種類(lèi)別標(biāo)簽,如文化藝術(shù)類(lèi)“culture-arts-entertainment”就是由3個(gè)單詞組成,這時(shí)可以先對(duì)3個(gè)單詞的單詞向量取平均值,再作為標(biāo)簽的特征進(jìn)行表示。在相同的向量空間中得到單詞和標(biāo)簽的融合特征的方法如式(2) 所示。
式中:E[c]為第c條文本對(duì)應(yīng)標(biāo)簽的特征向量,Q[c,b]為第c條文本中第b位置的單詞的特征向量,similarity()為計(jì)算向量相似度的函數(shù),文本內(nèi)所有單詞都要與所屬標(biāo)簽向量通過(guò)循環(huán)語(yǔ)句進(jìn)行計(jì)算,k為相似度篩選閾值,取值范圍為[0.5,0.9],超過(guò)所選閾值后融合這些特征。最后還需根據(jù)聚合的關(guān)鍵詞數(shù)目,對(duì)所得的E[c]采取均值之后再嵌入到文本圖中對(duì)應(yīng)的文檔節(jié)點(diǎn)。
在圖神經(jīng)網(wǎng)絡(luò)的應(yīng)用中,文本數(shù)據(jù)是以文本圖的形式進(jìn)入圖卷積神經(jīng)網(wǎng)絡(luò)的。如圖3所示,以D為文檔節(jié)點(diǎn),以W為單詞節(jié)點(diǎn),R(X) 為X經(jīng)過(guò)“hidden layers”的嵌入式表示。為了避免類(lèi)別之間的混亂,選取了不同顏色裝飾。
圖3 圖卷積內(nèi)文本圖消息傳播方式Fig.3 Message propagation mode of text graph in graph volume
第1層GCN的輸出特征矩陣計(jì)算為
式中:L為輸入到圖卷積網(wǎng)絡(luò)的特征矩陣,W(1)為第1層圖卷積的權(quán)值矩陣,A~為式(4) 中歸一化拉普拉斯矩陣,ReLU() 為激活函數(shù)。
房地產(chǎn)金融行業(yè)健康穩(wěn)定的發(fā)展對(duì)整個(gè)金融行業(yè)的穩(wěn)步發(fā)展有著重要作用,房地產(chǎn)行業(yè)的發(fā)展又直接影響著房地產(chǎn)金融行業(yè)的發(fā)展,發(fā)展房地產(chǎn)離不開(kāi)政府的宏觀調(diào)控政策。所以,政府對(duì)房地產(chǎn)行業(yè)有力的宏觀調(diào)控對(duì)房地產(chǎn)金融行業(yè)發(fā)展同樣十分重要。然而,當(dāng)前的政府宏觀調(diào)控政策與當(dāng)前的房地產(chǎn)市場(chǎng)發(fā)展還存在不適應(yīng)的情況。如房地產(chǎn)行業(yè)相關(guān)法規(guī)建設(shè)還不完善,市場(chǎng)資源配置不夠優(yōu)化,供求兩端調(diào)控效果存在差異等。這些都在很大程度上抑制了房地產(chǎn)行業(yè)的發(fā)展,并為其發(fā)展帶來(lái)一定的風(fēng)險(xiǎn)。另外,政府對(duì)于房地產(chǎn)金融行業(yè)的潛在風(fēng)險(xiǎn)的預(yù)判能力還不足,還需要加強(qiáng)對(duì)房地產(chǎn)金融市場(chǎng)的有效監(jiān)管以及其發(fā)展?fàn)顩r和趨勢(shì)的掌握。
式中:A為圖的鄰接矩陣,D為圖的度矩陣,I為單位矩陣,A+I為圖中節(jié)點(diǎn)增加自連接,A~為歸一化拉普拉斯矩陣。
圖4中所示的圖結(jié)構(gòu),A為圖的鄰接矩陣,0和1代表有無(wú)連接關(guān)系,對(duì)應(yīng)所有節(jié)點(diǎn)之間連接信息,D為圖的度矩陣,每個(gè)數(shù)字對(duì)應(yīng)A中行的和,代表著對(duì)應(yīng)頂點(diǎn)的度總數(shù)。
圖4 圖結(jié)構(gòu)、鄰接矩陣及度矩陣示例Fig.4 Examples of graph structure, adjacency matrix and degree matrix
第h層GCN的輸出特征矩陣計(jì)算為
GCN的輸出被視為文檔的最終表示,然后它被輸入到softmax層進(jìn)行分類(lèi)。兩層GCN的相關(guān)計(jì)算為
式中:L包含文本圖所有節(jié)點(diǎn)信息,W(1)為第1層圖卷積的權(quán)值矩陣,W(2)為第2層圖卷積的權(quán)值矩陣,A~為式(4)中歸一化拉普拉斯矩陣。輸入一個(gè)GCN模型得到的最終表示會(huì)被輸入到softmax層,softmax函數(shù)表示如式(7)所示。
式中:Z為一個(gè)矩陣向量,e,p為元素索引,Zp和Ze都是其中的一個(gè)元素,exp() 為指數(shù)函數(shù)。softmax第一步就是將模型的預(yù)測(cè)結(jié)果轉(zhuǎn)化到指數(shù)函數(shù)上,這樣保證了概率的非負(fù)性。為了確保各個(gè)預(yù)測(cè)結(jié)果的概率之和等于1,將轉(zhuǎn)化后的結(jié)果除以所有轉(zhuǎn)化后結(jié)果之和,可以理解為轉(zhuǎn)化后結(jié)果占總數(shù)的百分比,這樣就得到近似的概率。
本文雖然使用了詞頻改進(jìn)算法、嵌入標(biāo)簽信息等方法篩選出最有效的特征,但圖卷積神經(jīng)網(wǎng)絡(luò)在表示文本時(shí)往往會(huì)忽略掉單詞的上下文信息,而經(jīng)過(guò)預(yù)訓(xùn)練模型提取的特征信息,語(yǔ)義上的表達(dá)相對(duì)會(huì)更好,因此,本文參考了Lin等[29]提出的融合不同模型的方法,選擇了Bert風(fēng)格(如Bert和RoBerta)的預(yù)訓(xùn)練模型的輔助分類(lèi)器來(lái)優(yōu)化圖卷積網(wǎng)絡(luò),然后通過(guò)融合多個(gè)特征,使得這種網(wǎng)絡(luò)所提取的特征更具有表征能力,模型也能擁有更好的泛化能力。
最后得到的特征有帶標(biāo)簽嵌入的信息、通過(guò)圖卷積網(wǎng)絡(luò)得到的ZGCN和Bert風(fēng)格的輔助分類(lèi)器獲得的輸出ZB。為了融合這兩個(gè)部分,設(shè)置了一個(gè)平衡參數(shù)ε,用來(lái)平衡兩種特征。
式中:Z'為最終特征,ε=1為只使用結(jié)合了標(biāo)簽信息的圖卷積神經(jīng)網(wǎng)絡(luò)模型,而ε=0為只使用Bert風(fēng)格的預(yù)訓(xùn)練模塊。當(dāng)ε∈(0,1) 時(shí)能夠平衡不同方法的預(yù)測(cè)。最終輸入結(jié)果為經(jīng)過(guò)式(7) 的激活層之后再利用損失函數(shù)計(jì)算的損失,模型所用的損失函數(shù)為交叉熵?fù)p失函數(shù),具體如式(9) 所示。
式中:b'為批次的樣本數(shù),i',j'為序列號(hào),n'為類(lèi)別數(shù),T為相應(yīng)的標(biāo)簽指示矩陣,Z'為來(lái)自式(8) 的結(jié)果,softmax為激活函數(shù)。通過(guò)計(jì)算神經(jīng)網(wǎng)絡(luò)每次迭代的前向計(jì)算結(jié)果與真實(shí)值的差距,指導(dǎo)下一步的訓(xùn)練向正確的方向進(jìn)行。
本文在4個(gè)英文數(shù)據(jù)集上分別進(jìn)行了實(shí)驗(yàn),參數(shù)包括類(lèi)別、總數(shù)、訓(xùn)練集數(shù)、測(cè)試集數(shù)以及平均長(zhǎng)度。詳細(xì)如表1所示。
表1 本文采用的數(shù)據(jù)集Table 1 Datasets in this paper
所有的實(shí)驗(yàn)是在Inter(R) Xeon(R) CPU E5-2690 v4和P40 GPU上運(yùn)行,本實(shí)驗(yàn)基于PyTorch框架實(shí)現(xiàn),基線模型使用的是相應(yīng)的原始論文和復(fù)現(xiàn)中的默認(rèn)參數(shù)設(shè)置。
實(shí)驗(yàn)中,Bert類(lèi)預(yù)訓(xùn)練模型學(xué)習(xí)率為0.00 001,GCN學(xué)習(xí)率為0.001,dropout率為0.5,平衡參數(shù)ε范圍為[0,1],epochs范圍為[30,50],相似度閾值范圍在[0.5,0.9]。
本文所采用的的對(duì)比模型包括:(1) 根據(jù)共現(xiàn)規(guī)則使用圖結(jié)構(gòu)的文本分類(lèi)模型(TextGCN)[9];(2) 基于詞共現(xiàn)并結(jié)合注意力機(jī)制的圖卷積模型(Word Cooccurrence and GCN,WC- GCN)[21];(3) 利用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,BiLSTM) 和卷積(Convolutional Neural Network,CNN) 豐富GCN的文本表示的分類(lèi)方法(BiLSTM+CNN+GCN)[22];(4) 通過(guò)挖掘文檔級(jí)潛在主題特征并結(jié)合圖卷積網(wǎng)絡(luò)的模型(Biterm Topic Model GCN,BTM_GCN)[19];(5) 采用子圖形式的圖卷積模型(InducGCN)[20];(6) 插入了標(biāo)簽節(jié)點(diǎn)的圖卷積網(wǎng)絡(luò)(Label-incorporated GNN)[20];(7) 構(gòu)建了含有句法依賴(lài)、語(yǔ)義與句法關(guān)系的3種異質(zhì)圖的文本分類(lèi)模型(TensorGCN)[23];(8) 隱藏層之間的激活操作轉(zhuǎn)換為簡(jiǎn)單的線性變換的圖卷積網(wǎng)絡(luò)模型(Simple Graph Convolution,SGC)[24];(9) 添加了門(mén)控機(jī)制的圖神經(jīng)網(wǎng)絡(luò)(TextING)[25];(10) 基于雙重注意機(jī)制進(jìn)行歸納分類(lèi)的超圖神經(jīng)網(wǎng)絡(luò)(HyperGAT)[28];(11) 采用靜態(tài)掩碼的Bert預(yù)訓(xùn)練模型輔助的圖卷積網(wǎng)絡(luò)模型(Bert_GCN)[29];(12) 采用動(dòng)態(tài)掩碼的RoBerta輔助圖卷積網(wǎng)絡(luò)模型(RoBerta_GCN)[29];(13) Bert_GAT[29];(14) RoBerta_GAT[29]。
本文提出的融入標(biāo)簽嵌入的圖卷積網(wǎng)絡(luò)模型算法:(1) LBGCN(Label-embedding+Bert Graph Convolution Network) :采用類(lèi)標(biāo)簽嵌入和Bert預(yù)訓(xùn)練模型。(2) LRGCN(Label-embedding+RoBerta Graph Convolution Network) :采用類(lèi)標(biāo)簽嵌入和RoBerta預(yù)訓(xùn)練模型。
表2~表5展示了本文算法與對(duì)比模型在短文本數(shù)據(jù)集上的評(píng)估結(jié)果,分類(lèi)的評(píng)價(jià)標(biāo)準(zhǔn)采用了3種方法:準(zhǔn)確率a、召回率r和F1,表中加粗項(xiàng)表示最優(yōu)結(jié)果。
表2 數(shù)據(jù)集web_snippets測(cè)試集上的結(jié)果Table 2 Result of web_snippets on test set %
從表2 中可以得出如下結(jié)論:(1) 本文提出的模型從3個(gè)評(píng)估指標(biāo)整體來(lái)看性能最佳。(2) 在所有模型中,SGCN結(jié)果表現(xiàn)最差, 可能原因在于激活函數(shù)改為線性后,雖然計(jì)算速度會(huì)有提升,但降低了神經(jīng)網(wǎng)絡(luò)的表達(dá)能力,不能更好地?cái)M合目標(biāo)函數(shù),所以不能達(dá)到很好的效果。(3) 在考慮標(biāo)簽特征的算法中,LBGCN模型的性能優(yōu)于BTM_GCN和Label-incorporated GNN,可以看出圖結(jié)構(gòu)和特征初始化手段的不同因素對(duì)分類(lèi)效果會(huì)有一定程度的影響。(4) 融合了預(yù)訓(xùn)練模型的圖神經(jīng)網(wǎng)絡(luò)的整體性能優(yōu)于其他模型,證實(shí)預(yù)訓(xùn)練模型在提取大規(guī)模數(shù)據(jù)集的特征信息上確實(shí)具有較強(qiáng)的優(yōu)勢(shì)。
表3展示了本文模型和其他對(duì)比模型在MR數(shù)據(jù)集上的表現(xiàn)。從表中可以看出,本文模型通過(guò)捕捉文本與文本標(biāo)簽之間存在的近義關(guān)系得到新的文檔節(jié)點(diǎn)的嵌入以及通過(guò)預(yù)訓(xùn)練模型得到單詞節(jié)點(diǎn)關(guān)系后,再結(jié)合圖卷積網(wǎng)絡(luò)的方法,比其他方法獲得了更好的預(yù)測(cè)性能,也顯示了其在大規(guī)模情感數(shù)據(jù)集的情感標(biāo)簽關(guān)系建模上面也具有一定的優(yōu)勢(shì)。另外,從表3中可以看出,加入了BiLSTM和Bert類(lèi)模型的圖卷積神經(jīng)網(wǎng)絡(luò)的性能整體優(yōu)于Text GCN,其可能原因在于序列型神經(jīng)網(wǎng)絡(luò)在識(shí)別和提取大規(guī)模數(shù)據(jù)集的語(yǔ)義特征上具有較大的優(yōu)勢(shì)。
表3 數(shù)據(jù)集MR測(cè)試集上的結(jié)果Table 3 Result of MR on test set %
表4展示了LBGCN和LRGCN模型與其他對(duì)比模型在R8數(shù)據(jù)集上的表現(xiàn)。從表中可以看出,相對(duì)于前兩個(gè)數(shù)據(jù)集,所有模型算法在這個(gè)較長(zhǎng)的數(shù)據(jù)集上都能發(fā)揮出較大的優(yōu)勢(shì)。其中,TensorGCN模型,不同于其他只使用共現(xiàn)規(guī)則下的文本圖的模型,還基于語(yǔ)義和句法規(guī)則另外構(gòu)建了兩種文本圖,效果相對(duì)于Text GCN較好,但在模型訓(xùn)練上存在內(nèi)存消耗大以及訓(xùn)練效率變慢的問(wèn)題,因此,在這3種規(guī)則文本圖的應(yīng)用方面值得進(jìn)一步優(yōu)化。
表4 數(shù)據(jù)集R8測(cè)試集上的結(jié)果Table 4 Result of R8 on test set %
由表5的數(shù)據(jù)可以看出,本文提出的模型的分類(lèi)結(jié)果均為最高,并且相較于TextGCN模型有著明顯的提升。從評(píng)估方法來(lái)看,可能因?yàn)樵谒袑?shí)驗(yàn)數(shù)據(jù)集中,R52包含的類(lèi)別最多以及各類(lèi)別的數(shù)量存在不太均衡或采用數(shù)據(jù)量較少,雖然數(shù)據(jù)集平均長(zhǎng)度最長(zhǎng),但分類(lèi)準(zhǔn)確率與召回率和F1值一直相差很大。另外,基于圖的歸納式文本分類(lèi)的模型有InducGCN、TextING和HyperGAT等基本都有著不錯(cuò)的結(jié)果,歸納式文本圖在一定程度上減少了內(nèi)存的消耗,但由于欠缺對(duì)詞關(guān)系的進(jìn)一步考慮,性能受到了一些限制。除此之外,HyperGAT使用了基于雙重注意力機(jī)制的方法,只關(guān)注了節(jié)點(diǎn)之間的連接關(guān)系,并沒(méi)有考慮邊權(quán)值初始關(guān)系,很大程度忽視了整體文本中的結(jié)構(gòu)特征。通過(guò)實(shí)驗(yàn)表明,使用了RoBerta模型融合圖卷積網(wǎng)絡(luò)的模型效果普遍比使用了Bert模型的效果要更好,并且在所有的對(duì)比模型中達(dá)到最好的效果。
表5 數(shù)據(jù)集R52測(cè)試集上的結(jié)果Table 5 Result of R52 on test set %
為了進(jìn)一步驗(yàn)證本文所提出的融入了標(biāo)簽嵌入的圖卷積模型的有效性,進(jìn)行了消融實(shí)驗(yàn),其結(jié)果如表6所示,其中“/”表示刪除了模型中的該模塊。
表6 所有數(shù)據(jù)集在測(cè)試集上的準(zhǔn)確率Table 6 Accuracy of all datasets on test set %
由表6可知,刪除相應(yīng)模塊后的模型的實(shí)驗(yàn)效果相較于總模型均存在一定程度的下降,這恰恰說(shuō)明了模塊之間的作用是相輔相成的,從中還可以觀察到不同的模塊在不同的數(shù)據(jù)集中有著不同的作用。例如,在不使用Bert類(lèi)預(yù)訓(xùn)練模型和圖卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)文本進(jìn)行初始化的情況下,基本上都取得了最壞的分類(lèi)結(jié)果。這是因?yàn)锽ert類(lèi)預(yù)訓(xùn)練模型能夠捕獲文本的上下文語(yǔ)義信息進(jìn)而提取到更具體的特征信息,從而幫助模型更好地分類(lèi)預(yù)測(cè)。對(duì)比消融實(shí)驗(yàn)中LRGCN總模型實(shí)驗(yàn)和刪除標(biāo)簽嵌入實(shí)驗(yàn)的結(jié)果,可以看出刪除標(biāo)簽嵌入實(shí)驗(yàn)的準(zhǔn)確率比總模型低,引入標(biāo)簽數(shù)據(jù)模塊,在定義相似度閾值以篩選標(biāo)簽與文本特征融合的設(shè)定下,可為標(biāo)簽節(jié)點(diǎn)選取較優(yōu)的特征表示并嵌入到文本圖中作為網(wǎng)絡(luò)的一部分一起參與訓(xùn)練,說(shuō)明了融合多個(gè)特征可以取得更好的效果,從而說(shuō)明了該模塊的有效性。
為了探究特征擴(kuò)展模塊中兩個(gè)不同模型的融合參數(shù)ε、圖卷積網(wǎng)絡(luò)層數(shù)layer的變化和引入標(biāo)簽特征模塊中相似度閾值k對(duì)分類(lèi)效果的影響,以測(cè)試集準(zhǔn)確率為指標(biāo),在各個(gè)數(shù)據(jù)集上,使用LRGCN模型分別進(jìn)行實(shí)驗(yàn)。
圖5為平衡參數(shù)ε對(duì)測(cè)試準(zhǔn)確率的影響。由圖5可知,本文所用方法在不同數(shù)據(jù)集上,融合參數(shù)的最優(yōu)取值是變化的。例如,對(duì)于R52數(shù)據(jù)集來(lái)說(shuō),ε最優(yōu)值約為0.7,表示式(8)中圖卷積模塊和Bert風(fēng)格的模塊在分類(lèi)決策中的比例約為7:3。而對(duì)于R8數(shù)據(jù)集來(lái)說(shuō),其平衡參數(shù)ε基本保持不變。說(shuō)明不同數(shù)據(jù)集的特征表現(xiàn)不同,但通過(guò)使用雙信息模型,特征之間的相關(guān)性得到了補(bǔ)充,更加具有表征能力。
圖5 基于平衡參數(shù)變化的測(cè)試準(zhǔn)確率Fig.5 Test accuracy based on feature fusion parameter changes
圖6為圖卷積層數(shù)layer對(duì)測(cè)試準(zhǔn)確率的影響。在圖卷積為2層的情況下,所有數(shù)據(jù)集上基本都達(dá)到最好的效果。隨著層數(shù)的增加,有數(shù)據(jù)集的分類(lèi)效果出現(xiàn)一直下降的現(xiàn)象,原因?yàn)橛?xùn)練過(guò)程中出現(xiàn)過(guò)平滑現(xiàn)象,所有節(jié)點(diǎn)與鄰域節(jié)點(diǎn)會(huì)變得特征相似而降低了模型對(duì)文本準(zhǔn)確分類(lèi)的能力。
圖6 基于圖卷積層數(shù)變化的測(cè)試準(zhǔn)確率Fig.6 Test accuracy based on the change of layers number of GCN
圖7為相似度閾值k對(duì)測(cè)試準(zhǔn)確率的影響。數(shù)據(jù)集R8和R52,因?yàn)槲谋緝?nèi)容相對(duì)較長(zhǎng),影響波動(dòng)不大。短文本數(shù)據(jù)集web_snippets在相似度閾值設(shè)為0.7后,模型分類(lèi)效果達(dá)到最好,超過(guò)0.7后,訓(xùn)練結(jié)果和測(cè)試結(jié)果趨于零。
圖7 基于標(biāo)簽數(shù)據(jù)相似度閾值變化的測(cè)試準(zhǔn)確率Fig.7 Test accuracy based on tag similarity threshold
為了增加模型分類(lèi)結(jié)果的可信度,圖8為MR數(shù)據(jù)集在迭代訓(xùn)練過(guò)程中,2種類(lèi)別在測(cè)試集上所得的精確率變化圖。隨著迭代次數(shù)遞增,2種類(lèi)別預(yù)測(cè)結(jié)果不相上下。
圖8 MR測(cè)試集中各類(lèi)別的精確率Fig.8 Precision of two different categories in MR dataset
本文提出了一種融入標(biāo)簽嵌入的圖卷積網(wǎng)絡(luò)模型進(jìn)行文本分類(lèi)的方法,將所用的數(shù)據(jù)集構(gòu)建成一個(gè)文檔-單詞圖,從而使文本分類(lèi)問(wèn)題轉(zhuǎn)化為一個(gè)文檔節(jié)點(diǎn)分類(lèi)問(wèn)題。本文綜合考慮了單詞對(duì)所屬文本及全局語(yǔ)料庫(kù)的重要性,在傳統(tǒng)的TF-IDF 算法基礎(chǔ)上,提出了新的詞頻統(tǒng)計(jì)方法定義文檔-單詞的邊權(quán)值;在不考慮外部資源的情況下,綜合考慮標(biāo)簽的貢獻(xiàn),通過(guò)計(jì)算得到一種近義詞嵌入到文本圖中,解決由于信息傳播導(dǎo)致節(jié)點(diǎn)的特征表達(dá)變?nèi)醯膯?wèn)題,一定程度上減少了節(jié)點(diǎn)特征表達(dá)的語(yǔ)義模糊性,提高最后文本分類(lèi)結(jié)果的質(zhì)量,最后使用圖卷積網(wǎng)絡(luò)并選擇性地融合預(yù)訓(xùn)練模型所得特征,利用有限的有標(biāo)簽文本對(duì)無(wú)標(biāo)簽文本進(jìn)行分類(lèi)預(yù)測(cè)。
總體而言,本文提出的融入標(biāo)簽嵌入的方法在短文本數(shù)據(jù)集web_snippets、MR、R8和R52上優(yōu)于TextGCN、HyperGAT、Bert_GCN、Bert_GAT等分類(lèi)方法?;谄交挠绊懀磥?lái)針對(duì)文本分類(lèi)的研究將會(huì)考慮在語(yǔ)義層面和更深層的圖卷積網(wǎng)絡(luò)上對(duì)文本中更多有價(jià)值的信息進(jìn)一步探索。