孫 紅,陸欣榮,徐廣輝,2,黃雪陽(yáng),任麗博
(1. 上海理工大學(xué) 光電與計(jì)算機(jī)工程學(xué)院,上海 200093;2. 上海第四人民醫(yī)院 脊柱外科,上海 200434)
文本分類是自然語(yǔ)言處理的基礎(chǔ)工作,也是其研究領(lǐng)域的熱點(diǎn)之一。文本分類在信息檢索、輿論分析、主題分類、垃圾郵件篩選和意見挖掘等應(yīng)用領(lǐng)域發(fā)揮著重要作用。傳統(tǒng)的文本分類模型主要基于機(jī)器學(xué)習(xí)算法,如支持向量機(jī)SVM[1]、樸素貝葉斯[2]等。這些算法相對(duì)成熟,但它們也有局限性,如向量高維性、數(shù)據(jù)稀疏性。隨著計(jì)算機(jī)運(yùn)算能力的不斷提升,基于深度學(xué)習(xí)的文本分類方法優(yōu)勢(shì)逐漸體現(xiàn),其通過神經(jīng)網(wǎng)絡(luò)相關(guān)模型自動(dòng)進(jìn)行特征提取,這樣既能減少人工定義的復(fù)雜勞動(dòng),又能夠挖掘出人工無法定義的深層特征。其中典型的深度學(xué)習(xí)模型有卷積神經(jīng)網(wǎng)絡(luò)CNN[3]、遞歸神經(jīng)網(wǎng)絡(luò)RNN[4]、膠囊網(wǎng)絡(luò)[5]、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM[6]、門控遞歸單元GRU[7]。但基于機(jī)器學(xué)習(xí)和傳統(tǒng)深度學(xué)習(xí)的文本分類通常將文本轉(zhuǎn)化為詞向量矩陣,這個(gè)過程就存在文本語(yǔ)義特征的流失,而圖卷積網(wǎng)絡(luò)以圖的形式表示文本,可以單詞為節(jié)點(diǎn)、以單詞間的語(yǔ)義關(guān)系為邊,這樣的構(gòu)圖方式可以有效地保留文本的語(yǔ)義特征。此外,圖卷積文本分類還可以提取傳統(tǒng)深度模型無法提取的全局特征[8],例如,全局詞共現(xiàn)信息、全局句法結(jié)構(gòu)信息,以及其他對(duì)分類效果有幫助的詞之間的關(guān)聯(lián)性信息。盡管基于圖卷積神經(jīng)網(wǎng)絡(luò)[9]的文本分類逐漸成為基于圖的文本分類的一個(gè)不錯(cuò)選擇,但目前的GCN仍存在一些不容忽視的問題。
首先,當(dāng)圖卷積網(wǎng)絡(luò)模型構(gòu)建文本圖時(shí),它們大多使用單詞的共現(xiàn)關(guān)系和文檔與單詞之間的包含關(guān)系,導(dǎo)致輸入文本圖的關(guān)系太過單一,無法很好地保留中文文本復(fù)雜的語(yǔ)義特征,并且單詞同現(xiàn)關(guān)系的度量通常使用逐點(diǎn)互信息(PMI)來計(jì)算兩個(gè)單詞節(jié)點(diǎn)之間的權(quán)重。然而,PMI的計(jì)算取決于語(yǔ)料庫(kù),如果某些單詞在語(yǔ)料庫(kù)中出現(xiàn)的概率很低,則該方法可能會(huì)使PMI的計(jì)算結(jié)果很小,這就可能出現(xiàn)相關(guān)性本來很高的兩個(gè)單詞因?yàn)樵谡Z(yǔ)料庫(kù)中出現(xiàn)的頻率低而導(dǎo)致PMI 值很低,這樣PMI值就會(huì)錯(cuò)誤地反映單詞間的關(guān)系導(dǎo)致圖卷積文本分類效果變差。
此外,基于詞語(yǔ)共現(xiàn)關(guān)系和語(yǔ)義依存分析合成的圖卷積受詞語(yǔ)間物理位置距離的影響較大,不能同時(shí)捕獲句子中詞語(yǔ)的短距離和長(zhǎng)距離依賴關(guān)系。例如,文本圖是由詞語(yǔ)同現(xiàn)關(guān)系和語(yǔ)義關(guān)系的語(yǔ)料庫(kù)構(gòu)建的,如圖1所示。這里的“這場(chǎng)話劇可以用一個(gè)詞來描述: 精彩?!笔钦Z(yǔ)料庫(kù)中的一個(gè)句子?!霸拕 睘橹行脑~,內(nèi)圈代表一級(jí)鄰居節(jié)點(diǎn)信息的聚合,外圈代表兩級(jí)鄰居節(jié)點(diǎn)的信息的聚合。其中,“精彩”用于修飾句子中的“話劇”,從語(yǔ)義理解的角度,“精彩”一詞是對(duì)于“話劇”的高度肯定,影響整個(gè)句子的語(yǔ)義表達(dá)。然而,圖1中的“話劇”和“精彩”兩個(gè)詞節(jié)點(diǎn)沒有直接關(guān)系。圖卷積網(wǎng)絡(luò)僅聚合直接相鄰節(jié)點(diǎn)信息,因此一層GCN只能捕獲句子中詞語(yǔ)的短距離相關(guān)性。雖然通過增加GCN層的數(shù)量,可以解決“話劇”和“精彩”等詞之間的長(zhǎng)期依賴關(guān)系,但文本分類任務(wù)的多層圖卷積網(wǎng)絡(luò)具有較高的空間復(fù)雜性,同時(shí),增加網(wǎng)絡(luò)層的數(shù)量也會(huì)使局部特征收斂到相似的值。
圖1 共現(xiàn)與語(yǔ)義文本圖
最后由于圖卷積構(gòu)圖時(shí)單詞節(jié)點(diǎn)的非連續(xù)性,其缺少捕獲單詞序列特征的能力,導(dǎo)致文本上下文語(yǔ)義信息的丟失,造成圖卷積網(wǎng)絡(luò)不能根據(jù)上下文信息來區(qū)分多義詞的問題,例如,“她喜歡吃蘋果?!薄疤O果是一家偉大的公司?!敝性~語(yǔ)“蘋果”的語(yǔ)義明顯不同,在這種情況下,如果不加以區(qū)分,可能會(huì)影響對(duì)文本的理解,從而影響分類效果。
針對(duì)上述問題,本文將依存關(guān)系分析融入圖卷積再組合深度學(xué)習(xí)模型,提出一種文本分類模型SEB-GCN。本文在4個(gè)新聞數(shù)據(jù)集上的實(shí)驗(yàn)表明,SEB-GCN可有效改進(jìn)當(dāng)前基于GCN文本分類的缺點(diǎn),并獲得更好的結(jié)果。本文主要貢獻(xiàn)如下:
(1) 將語(yǔ)義和句法依存關(guān)系集成到GCN中,增強(qiáng)詞語(yǔ)間本身固有的聯(lián)系,幫助GCN捕獲句子中詞語(yǔ)的長(zhǎng)距離依賴關(guān)系,在提供句法關(guān)系的同時(shí)可以減少GCN層的數(shù)量。
(2) 將ERNIE預(yù)訓(xùn)練的詞向量與GCN提取的特征向量拼接,即將ERNIE的上下文信息與GCN全局信息相結(jié)合,解決了GCN不能區(qū)分多義詞的問題。
(3) 結(jié)合圖形特征和序列特征,使用帶有注意力機(jī)制的殘差雙層BiGRU提取輸入特征,分別捕獲詞語(yǔ)和句子層面的特征信息,從而獲得更全面的文本特征。
傳統(tǒng)的文本分類方法主要基于特征工程,例如,詞袋模型和N-grams等。后來,有研究[10-11]將文本轉(zhuǎn)換為圖形,并對(duì)圖形進(jìn)行特征工程。然而,這些方法無法自動(dòng)學(xué)習(xí)節(jié)點(diǎn)的嵌入表示,傳統(tǒng)的算法缺乏挖掘文本內(nèi)部特征的能力,而深度學(xué)習(xí)模型在學(xué)習(xí)文本特征時(shí),能夠發(fā)掘出比較隱晦的特征信息,更適合做文本分類任務(wù)。在深度學(xué)習(xí)模型方面,Kim使用CNN進(jìn)行文本分類。Tang等人[12]提出了一種門控遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行文本分類。Yang等人[13]提出使用分層注意力網(wǎng)絡(luò)對(duì)文檔進(jìn)行建模和分類。Wang等人[14]將注意力機(jī)制引入LSTM以增強(qiáng)關(guān)鍵詞的權(quán)重來提升分類效果。Dong等人[15]結(jié)合了BERT[16]和自注意力機(jī)制,提升了預(yù)訓(xùn)練模型分類的效果。其中還有BERT的變型ELMo[17]、ERNIE[18]等模型結(jié)合注意力機(jī)制進(jìn)行文本分類。大多數(shù)基于注意力的深度神經(jīng)網(wǎng)絡(luò)主要關(guān)注局部連續(xù)詞序列,這些詞序列雖能提供局部上下文信息,但捕獲全局特征的能力卻不夠。
現(xiàn)在,許多研究試圖將GCN與其他模型相結(jié)合。Zhenbo 等人[22]將GCN和BERT訓(xùn)練的詞向量輸入到BiLSTM分類模型中,結(jié)合了各個(gè)模塊的優(yōu)勢(shì)。Lu等人[23]將詞匯圖嵌入模塊與BERT集成,并在許多公共數(shù)據(jù)集中取得了良好的結(jié)果。
本文通過向GCN引入句法依存關(guān)系,使GCN可以更有效地捕獲句子中詞語(yǔ)的長(zhǎng)距離依賴關(guān)系。引入語(yǔ)義依存關(guān)系增強(qiáng)詞語(yǔ)之間本身固有的聯(lián)系。同時(shí),GCN獲得的全局詞匯信息與預(yù)訓(xùn)練ERNIE獲得的上下文信息相結(jié)合,解決GCN不能區(qū)分多義詞的問題。考慮到文本具有詞語(yǔ)—句子—文檔的分層結(jié)構(gòu),為了獲得更全面的文本特征,使用雙層BiGRU提取特征,以分別捕獲詞語(yǔ)、句子的特征信息。將注意機(jī)制嵌入雙重BiGRU中,提升關(guān)鍵詞的權(quán)重,讓關(guān)鍵詞的特征集合代表整句話的特征。為了防止堆疊多層網(wǎng)絡(luò)模型會(huì)出現(xiàn)神經(jīng)網(wǎng)絡(luò)退化的問題,引入殘差連接ResNet。
在深入研究了基于圖神經(jīng)網(wǎng)絡(luò)的文本分類之后,本文提出了SEB-GCN文本分類模型。SEB-GCN的整個(gè)過程可以分為以下步驟: 文本圖構(gòu)建、圖卷積網(wǎng)絡(luò)、特征提取和最終分類。SEB-GCN的整體架構(gòu)如圖2所示。我們通過在詞語(yǔ)節(jié)點(diǎn)之間建立邊來構(gòu)造三個(gè)文本圖,分別為詞語(yǔ)共現(xiàn)圖、句法依存圖、語(yǔ)義依存圖。然后將ERNIE預(yù)訓(xùn)練好的詞向量用作圖卷積網(wǎng)絡(luò)所需的輸入向量,并將三個(gè)文本圖分別用作圖卷積網(wǎng)絡(luò)所需要的輸入。接下來,將圖卷積網(wǎng)絡(luò)訓(xùn)練好的詞語(yǔ)向量再與ERNIE的特征向量融合,并輸入到第一層BiGRU模型,以提取單個(gè)句子內(nèi)詞語(yǔ)之間的語(yǔ)義依賴信息。為了進(jìn)一步區(qū)分詞語(yǔ)的重要性,我們將注意力機(jī)制添加到BiGRU的第一層,通過分配不同的詞語(yǔ)權(quán)重來區(qū)分詞語(yǔ)的重要程度。BiGRU第一層的輸出與詞語(yǔ)權(quán)重進(jìn)行加權(quán)求和后形成當(dāng)前句子的整體表示,然后將獲得的句子特征輸入到BiGRU的第二層,以提取文本內(nèi)句子之間的語(yǔ)義依賴信息。最后,學(xué)習(xí)到的句子特征經(jīng)過殘差運(yùn)算防止過擬合后再Softmax獲得文本的最終類別。
圖2 SEB-GCN結(jié)構(gòu)圖
構(gòu)建文本圖把每個(gè)單詞當(dāng)作節(jié)點(diǎn),把單詞之間的連線當(dāng)作邊,其是單詞之間的某種關(guān)系,本文利用單詞共現(xiàn)的關(guān)系、語(yǔ)義依存關(guān)系和句法依存關(guān)系來確定單詞節(jié)點(diǎn)之間的邊,以此構(gòu)建了三張文本圖。
2.1.1 文本共現(xiàn)圖
圖3 文本共現(xiàn)圖
2.1.2 句法依存圖
句法依存分析是按照依存關(guān)系對(duì)句子中的詞語(yǔ)進(jìn)行分析,其分析結(jié)果往往作為一種先驗(yàn)知識(shí)來輔助模型更好地理解文本語(yǔ)義。本文使用哈爾濱工業(yè)大學(xué)提供的LTP句法依存分析標(biāo)注集BH-DEP對(duì)文本中的句子進(jìn)行句法依存分析,構(gòu)成句法依存圖。以“張三把錢丟了!”為例,這句話的句法分析圖如圖4所示。具體的句法依賴關(guān)系對(duì)應(yīng)表如表1所示。由圖4可以看出,句法依存主要關(guān)注句子中詞之間的句法關(guān)系,不受詞語(yǔ)間物理位置的影響。通過引入句法分析關(guān)系,可以同時(shí)捕獲短距離依賴關(guān)系和長(zhǎng)距離依賴關(guān)系,還能提供句法約束。
表1 句法依存分析表
圖4 句法依存分析圖
2.1.3 語(yǔ)義依存圖
由于中文十分復(fù)雜,在句法不嚴(yán)格的情況下也能大概表達(dá)出語(yǔ)義,導(dǎo)致光靠句法依存分析輔助文本分類精度始終不高。而語(yǔ)義依存分析是分析句子中各個(gè)詞之間的語(yǔ)義聯(lián)系并將其以語(yǔ)義結(jié)構(gòu)圖的形式表現(xiàn)出來。以“張三把錢丟了!”和“錢被張三丟了”為例,這兩句話的語(yǔ)義分析如圖5所示。從圖中可以看出語(yǔ)義依存分析可以不受句法結(jié)構(gòu)的影響,透過句法結(jié)構(gòu)直接獲取深層語(yǔ)義。本文使用哈爾濱工業(yè)大學(xué)提供的LTP語(yǔ)義依存分析標(biāo)注集BH-SDP對(duì)文本中的句子進(jìn)行語(yǔ)義依存分析,構(gòu)成語(yǔ)義依存圖。由于語(yǔ)義關(guān)系復(fù)雜,所以僅給出圖中出現(xiàn)的語(yǔ)義依賴關(guān)系解釋,具體如表2所示。
表2 語(yǔ)義依存分析表
圖5 語(yǔ)義依存分析圖
圖6為圖卷積文本分類TextGCN的簡(jiǎn)化模型圖,其中輸入層X1與X2代表單詞節(jié)點(diǎn),X3代表文本節(jié)點(diǎn),X1與X2之間的連線代表單詞與單詞之間的共現(xiàn)關(guān)系,單詞節(jié)點(diǎn)之間的權(quán)重由逐點(diǎn)互信息PMI值的正負(fù)確定,PMI值的計(jì)算如式(1)~式(3)所示。X1與X3之間的連線代表文檔與單詞之間的包含關(guān)系。若文檔包含某個(gè)單詞,則構(gòu)建一條連邊,其節(jié)點(diǎn)間的權(quán)重由TF-IDF確定。由此完成圖的構(gòu)建,該圖鄰接矩陣中相應(yīng)位置Aij的計(jì)算如式(4)所示,最后Y1、Y2代表文本最終分類結(jié)果。
圖6 圖卷積文本分類簡(jiǎn)化模型圖
其中,#W表示滑動(dòng)窗口的總數(shù),#W(i)表示包含單詞i的滑動(dòng)窗口數(shù),#W(i,j)表示同時(shí)包含單詞i與單詞j的滑動(dòng)窗口數(shù)。式(4)中,當(dāng)i,j為單詞且PMI值為正時(shí),Aij的計(jì)算方式為PMI(i,j);當(dāng)i表示文檔、j表示單詞時(shí),Aij的計(jì)算方式為TF-IDFij;當(dāng)i=j,即矩陣對(duì)角線上的值都為1,其余情況Aij都為0。
本文使用三個(gè)圖卷積神經(jīng)網(wǎng)絡(luò)來分別學(xué)習(xí)三個(gè)文本圖,依據(jù)三個(gè)文本圖的單詞連接關(guān)系進(jìn)行鄰域聚合操作,從而得到文本單詞的嵌入表示,計(jì)算如式(5)~式(7)所示。
其中,L1(j+1)表示文本共現(xiàn)圖的嵌入矩陣,L2(j+1)表示句法依存圖的嵌入矩陣,L3(j+1)表示語(yǔ)義依存圖的嵌入矩陣,A為圖結(jié)構(gòu)數(shù)據(jù)的歸一化鄰接矩陣,ρ表示激活函數(shù),W表示模型中卷積層的權(quán)重矩陣,L(j)則表示第j層的特征向量。
ERNIE是百度在BERT基礎(chǔ)的改進(jìn)模型,適合進(jìn)行中文的信息處理。使用原始BERT模型做文本分類時(shí),BERT會(huì)隨機(jī)掩碼15%的單個(gè)字,不會(huì)考慮詞語(yǔ)間的聯(lián)系,導(dǎo)致很多詞語(yǔ)被分開,不易推出被掩蓋掉的文字;而ERNIE的掩碼機(jī)制會(huì)考慮文字之間的關(guān)系,會(huì)以詞來進(jìn)行掩碼,這樣更容易推理出被掩蓋的文字。BERT和ERNIE的掩碼機(jī)制對(duì)比如圖7所示。以“我早飯喜歡吃包子和油條”為例,BERT和ERNIE 的掩碼機(jī)制不同,BERT可能隨機(jī)把“喜”和“油”這兩個(gè)字掩碼掉,不會(huì)考慮詞語(yǔ)間的語(yǔ)義聯(lián)系,使得被掩蓋的字比較難推出,而ERNIE會(huì)考慮前后文本的聯(lián)系,把“包子”這個(gè)詞語(yǔ)掩碼掉。因此相比于BERT,ERNIE更適合中文的文本分類。
圖7 BERT與ERNIE掩碼機(jī)制對(duì)比
殘差雙層BiGRU模型的具體結(jié)構(gòu)如圖8所示。該模塊包括輸入層、詞語(yǔ)級(jí)特征提取層、注意力層和句子級(jí)特征提取層。由于詞語(yǔ)被表示為節(jié)點(diǎn),節(jié)點(diǎn)的鄰域信息通過鄰接矩陣聚合,忽略了文本的順序結(jié)構(gòu),導(dǎo)致文本的上下文語(yǔ)義信息丟失。因此,我們將GCN獲得的全局詞匯信息與預(yù)訓(xùn)練ERNIE獲得的上下文信息相結(jié)合。為了更深入地挖掘語(yǔ)義,序列模型GRU可以用于融合兩部分信息,但它只能捕獲從前到后或從后到前的單個(gè)方向上的特征。人類閱讀文本的模式是,當(dāng)遇到不明語(yǔ)義的詞語(yǔ)時(shí),利用前文和后文共同推斷詞語(yǔ)的含義。因此,加入能夠捕捉前后方向的BiGRU模型??紤]到文本具有層次結(jié)構(gòu),從文本到句子再到單詞。因此,我們使用兩層BiGRU分別學(xué)習(xí)詞語(yǔ)特征和句子特征。由于特征詞語(yǔ)對(duì)文本具有不同的重要性,并且BiGRU的輸出向量不區(qū)分詞語(yǔ)的重要性,因此我們?cè)趦蓚€(gè)BiGRU之間添加了注意力機(jī)制, BiGRU第一層的輸出與詞語(yǔ)權(quán)重ai加權(quán)求和得到句子特征。同時(shí),為了防止多模型疊加引起神經(jīng)網(wǎng)絡(luò)發(fā)生退化而影響分類結(jié)果,我們加入殘差運(yùn)算后再進(jìn)行Softmax分類。
圖8 殘差雙層BiGRU結(jié)構(gòu)圖
其中注意力機(jī)制Attention的本質(zhì)是為了給不同的特征賦予權(quán)值,文本分類任務(wù)中權(quán)重越大的詞越關(guān)鍵,將注意力放在關(guān)鍵詞的分類上可以提高分類效果。其計(jì)算過程如下:
首先計(jì)算注意力權(quán)重ai如式(8)所示。
其中,Wi為權(quán)重矩陣;ht為第一個(gè)BiGRU網(wǎng)絡(luò)層的輸出;bi為偏置向量。
然后對(duì)權(quán)重ai進(jìn)行Softmax函數(shù)計(jì)算,得到權(quán)重向量pi如式(9)所示。
最后輸出向量ht與權(quán)重向量pi相乘再累加得到Attention,如式(10)所示。
本文中所有實(shí)驗(yàn)都是基于Pytorch框架,使用的GPU型號(hào)是RTX 3090Ti,表3為模型參數(shù)設(shè)置。
表3 模型參數(shù)
3.1.1 實(shí)驗(yàn)數(shù)據(jù)集
本文使用4個(gè)新聞主題數(shù)據(jù)集進(jìn)行文本分類實(shí)驗(yàn),數(shù)據(jù)集詳情如表4所示。
表4 數(shù)據(jù)集詳情
今日頭條數(shù)據(jù)集: 今日頭條應(yīng)用中抽取約38萬條新聞數(shù)據(jù),包括民生、文化、娛樂、體育、財(cái)經(jīng)、房產(chǎn)、汽車、教育、科技、軍事、旅游、國(guó)際、證券、農(nóng)業(yè)、電競(jìng)共15個(gè)類別。
搜狐新聞數(shù)據(jù)集: 對(duì)搜狐新聞數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,保留新聞主題。數(shù)據(jù)集共包含娛樂、財(cái)經(jīng)、房地產(chǎn)、旅游、科技、體育、健康、教育、汽車、新聞、文化、女人共 12 個(gè)類別。
THUCNews-L(TL)數(shù)據(jù)集[24]: 從新浪新聞的74萬個(gè)新聞文檔中抽取了20萬條新聞數(shù)據(jù),包含經(jīng)濟(jì)、房產(chǎn)、股票、教育、科學(xué)、社會(huì)、時(shí)政、體育、游戲和娛樂這10個(gè)類別,訓(xùn)練集為8 000條數(shù)據(jù),測(cè)試集為1 000條數(shù)據(jù),驗(yàn)證集為1 000條數(shù)據(jù)。
THUCNews-S(TS)數(shù)據(jù)集: 在 THUCNews-L 基礎(chǔ)上清洗數(shù)據(jù)中得到的小型數(shù)據(jù)集,共包含財(cái)經(jīng)、股票、科技、社會(huì)、時(shí)政、娛樂6個(gè)類別,每個(gè)類別數(shù)據(jù)1萬條。
3.1.2 評(píng)價(jià)指標(biāo)
本文分別采用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall) 和F1值作為對(duì)模型分類性能的評(píng)價(jià)指標(biāo)。其中TP(True Positive)為正確的正例;FN(False Negative)為錯(cuò)誤的反例;FP(False Positive)為錯(cuò)誤的正例;TN(True Negative)為正確的反例。
準(zhǔn)確率為所有預(yù)測(cè)中預(yù)測(cè)正確的比例,其計(jì)算如式(11)所示。
精確率為正確預(yù)測(cè)為正的占全部預(yù)測(cè)為正的比例,其計(jì)算如式(12)所示。
召回率為正確預(yù)測(cè)為正的占全部實(shí)際為正的比例,其計(jì)算如式(13)所示。
F1值是精確率和召回率的調(diào)和平均,為了平衡準(zhǔn)確率和召回率的影響,較為全面地評(píng)價(jià)分類效果,其計(jì)算如式(14)所示。
3.2.1 對(duì)比實(shí)驗(yàn)
為了驗(yàn)證本文所提出的SEB-GCN模型的性能,讓其與其他模型進(jìn)行對(duì)比實(shí)驗(yàn)。對(duì)比模型包括BiGRU、ERNIE和TextGCN模型,以及改進(jìn)的GCN模型: GCN-ERNIE[25]、TensorGCN[26]。實(shí)驗(yàn)數(shù)據(jù)集為全部4個(gè)新聞數(shù)據(jù)集。
為了更加直觀地對(duì)各模型的性能進(jìn)行分析,采用折線圖的形式對(duì)各模型的F1值的實(shí)驗(yàn)結(jié)果進(jìn)行展示,從圖9可以看出,SEB-GCN模型在4個(gè)數(shù)據(jù)集上的F1值均高于其他對(duì)比模型。具體看表5中的數(shù)據(jù),觀察F1值,SEB-GCN在比BiGRU、ERNIE、GCN、ERNIE-GCN、TensorGCN模型平均分別提高4.77%、 4.4%、 4.8%、3.4%、3%。表明該模型中的句法依存關(guān)系、語(yǔ)義依存關(guān)系、ERNIE模型、BiGRU模型、注意力機(jī)制和殘差網(wǎng)絡(luò)的引入確實(shí)解決了GCN的缺點(diǎn),使本文的模型與其他模型相比具有更好的分類性能。
表5 多模型分類對(duì)比實(shí)驗(yàn)結(jié)果表 (單位: %)
圖9 各模型分類效果圖
3.2.2 消融實(shí)驗(yàn)
為了研究引入語(yǔ)義文本圖與句法文本圖對(duì)于文本分類的作用,對(duì)融合文本圖后的圖卷積模型進(jìn)行了消融實(shí)驗(yàn),具體實(shí)驗(yàn)結(jié)果如表6所示。
表6 文本圖消融實(shí)驗(yàn)結(jié)果表 (單位: %)
其中GCN為基礎(chǔ)的圖卷積文本分類模型,YGCN為引入了語(yǔ)義依存分析的GCN,JGCN為引入了句法依存分析的GCN,SGCN為語(yǔ)義與句法依存分析都引入的GCN。整理表中的數(shù)據(jù)后,對(duì)比4個(gè)數(shù)據(jù)集上分類效果,YGCN比GCN平均提高0.78%的F1值,JGCN比GCN平均提高1.14%的F1值,SGCN比YGCN平均提高1.1%的F1值,SGCN比JGCN平均提高0.83%的F1值。由此可以看出語(yǔ)義與句法依存關(guān)系都對(duì)圖卷積文本分類效果有明顯提升。句法依存關(guān)系對(duì)于分類效果提升較大,說明本文引入句法依存分析來同時(shí)捕獲短距離依賴關(guān)系和長(zhǎng)距離依賴關(guān)系的方法是正確的。只是引入語(yǔ)義依存對(duì)于長(zhǎng)句子的分類效果并不佳,在新聞數(shù)據(jù)集中常有長(zhǎng)句子出現(xiàn)分類錯(cuò)誤的情況,而句法依存分析可以無視詞語(yǔ)間的物理距離,幫助GCN完成長(zhǎng)句子的文本分類。在實(shí)驗(yàn)中發(fā)現(xiàn),例如“的確,這就是人生的常態(tài),即便拼盡全力,也未必能得償所愿,希望內(nèi)馬爾不要?dú)怵H,未來是屬于你的。”這個(gè)長(zhǎng)句子在文本分類時(shí),在未引入句法依存分析之前常被分類到生活類別中,而引入句法依存分析的JGCN通過句法信息,提前知道 “內(nèi)馬爾”這個(gè)關(guān)鍵詞為主語(yǔ),因此正確分類到體育類別。
為了進(jìn)一步研究SEB-GCN各種組件的作用,本文對(duì)構(gòu)建的模型進(jìn)行了消融實(shí)驗(yàn)。具體實(shí)驗(yàn)結(jié)果如表7所示,其中SEGCN為在SGCN基礎(chǔ)上再引入ERNIE預(yù)訓(xùn)練詞向量的GCN文本分類模型,最后為加上所有模塊的SEB-GCN。由表中的數(shù)據(jù)可以看出,引入語(yǔ)義句法依存和引入雙層殘差BiGRU,這兩個(gè)模塊對(duì)于分類結(jié)果提升較大,在4個(gè)數(shù)據(jù)集上,SGCN比GCN平均提升1.88%,SEB-GCN比SEGCN平均提升 1.94%,說明對(duì)于中文的新聞數(shù)據(jù)集,語(yǔ)義和句法信息的輔助可以更好地完成分類任務(wù)。而雙層殘差BiGRU更是從單詞到句子兩個(gè)層面進(jìn)行特征提取,既彌補(bǔ)了GCN不善于捕獲序列信息的不足,又使得特征向量更加全面地表達(dá)出文本的語(yǔ)義信息,以此提升分類效果。
表7 消融實(shí)驗(yàn)結(jié)果表 (單位: %)
3.2.3 分類收斂時(shí)間對(duì)比實(shí)驗(yàn)
為了進(jìn)一步驗(yàn)證本文提出的SEB-GCN模型,應(yīng)用于大規(guī)模新聞主題文本分類任務(wù)的有效性,后續(xù)實(shí)驗(yàn)主要在于測(cè)試SEB-GCN模型的分類收斂時(shí)長(zhǎng),使用今日頭條與TL這兩個(gè)大數(shù)據(jù)量的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)?zāi)P瓦x擇GCN、ERNIE-GCN、TensorGCN 和本文提出的SEB-GCN模型,實(shí)驗(yàn)結(jié)果如圖10和圖11所示。從圖中可明顯看出,SEB-GCN的F1值最高且收斂速度最快,具體分類數(shù)據(jù)如表8所示。
表8 分類收斂耗時(shí)表
圖11 TL分類收斂時(shí)間圖
從表8中的實(shí)驗(yàn)數(shù)據(jù)可以發(fā)現(xiàn),在大數(shù)據(jù)量分類任務(wù)的測(cè)試下,SEB-GCN模型分類收斂耗時(shí)比其他對(duì)比模型都要短。對(duì)比基礎(chǔ)的GCN模型,SEB-GCN在今日頭條數(shù)據(jù)集上的F1值比其提高了3.94%,收斂耗時(shí)比其縮短了7min 07s,表明SEB-GCN的分類性能超過GCN。特別是SEB-GCN面對(duì)TL這種20萬數(shù)據(jù)的文本分類任務(wù),在10min內(nèi)就能達(dá)到收斂的F1值,說明本文對(duì)GCN、ERNIE、BiGRU進(jìn)行多模型融合的有效性以及帶有注意力機(jī)制的雙層殘差BiGRU模塊,對(duì)于模型實(shí)現(xiàn)快速收斂有極大的幫助。
本文提出了一種新的圖神經(jīng)網(wǎng)絡(luò)分類模型SEB-GCN,該模型引入句法依賴關(guān)系來捕獲上下文依賴,引入語(yǔ)義依存分析增強(qiáng)詞語(yǔ)之間的聯(lián)系,以彌補(bǔ)圖卷積網(wǎng)絡(luò)對(duì)文本自身信息挖掘的不足。同時(shí),使用兩層BiGRU模型組合ERNIE模型獲得的上下文信息和GCN獲得的全局信息,解決GCN不能區(qū)分多義詞與不能捕獲序列特征的缺點(diǎn)。然后在兩個(gè)BiGRU中添加注意力機(jī)制,關(guān)注關(guān)鍵詞特征來代表整個(gè)句子的特征,以此實(shí)現(xiàn)從單詞到句子的特征提取。此外,引入殘差連接,防止多模型堆疊引起過擬合的問題,并讓模型學(xué)習(xí)殘差信息,以便更好地獲得新的特征,提高文本分類的效果。我們對(duì)4個(gè)新聞數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),與其他模型相比,SEB-GCN的分類精確度優(yōu)于其他模型,并且分類收斂速度也明顯快于其他模型,證明其非常適合進(jìn)行大數(shù)據(jù)量新聞主題文本分類的任務(wù)。