施重陽,胡光怡
(北京理工大學(xué) 計(jì)算機(jī)學(xué)院,北京 100081)
近年來,用戶對線上產(chǎn)品的評價(jià)和商家對用戶反饋的響應(yīng)關(guān)乎商家的長期發(fā)展,文本評論情感分析引起了研究者們的廣泛關(guān)注。問答式情感分析是情感分析研究的新興熱點(diǎn)之一,問答式評論文本中問題和回答之間的結(jié)構(gòu)關(guān)聯(lián)至關(guān)重要。傳統(tǒng)的情感分析方法不能直接應(yīng)用于問答式風(fēng)格的情感分析任務(wù)中,且在先前問答式情感分析的研究中,問答式評論文本里的雙向語法依賴關(guān)系、問答結(jié)構(gòu)、多階隱式語義信息等隱式關(guān)聯(lián)沒有得到充分的利用,尤其是擁有特定語法的中文文本。
先前的問答式情感分析研究仍存在以下問題:
(1) 如圖1所示,基于依存語法樹的圖嵌入模型的學(xué)習(xí)訓(xùn)練過程與文本情感特征提取模型是獨(dú)立的,導(dǎo)致兩部分模型無法端到端地進(jìn)行信息提取和情感特征學(xué)習(xí)訓(xùn)練,故而無法通過后期特征提取階段的學(xué)習(xí)來更新前期語法信息的提取過程,導(dǎo)致圖嵌入模型所提取出的語法信息對后期模型的輔助能力十分依賴于前期圖嵌入模型的學(xué)習(xí)效率,在兩部分之間產(chǎn)生的訓(xùn)練誤差無法進(jìn)一步縮小。
圖1 問題圖(a)
(2) 在新的數(shù)據(jù)出現(xiàn)時(shí),兩部分模型無法進(jìn)行統(tǒng)一的權(quán)重更新以適應(yīng)承載更多的信息。
(3) 如圖2所示,Hu等人[1]的研究只考慮了依存語法樹中詞語之間的單向依賴關(guān)系,即從詞語指向其所依賴詞語的方向,沒有考慮所依賴的詞語指向當(dāng)前詞語方向的信息。
圖2 問題圖(b)
為了解決上述問題,實(shí)現(xiàn)端到端的訓(xùn)練,更好地學(xué)習(xí)依存語法樹中的句法結(jié)構(gòu)信息,本文嘗試借助圖神經(jīng)網(wǎng)絡(luò)在依存語法樹基礎(chǔ)上對問答式文本對進(jìn)行建模,并在圖神經(jīng)網(wǎng)絡(luò)中引入卷積操作。與此同時(shí),由于問答文本中問題對應(yīng)答案的這種特點(diǎn),若模型能夠了解自然世界中更多的實(shí)體信息和實(shí)體間的關(guān)聯(lián)信息,便能在擁有知識(shí)背景的前提下,更加明白問題和回答中一些專有名詞的含義,也更能明白用戶的關(guān)注點(diǎn)在哪里。例如,在文本對[Q: ‘這款筆記本怎么樣?’,A: ‘一個(gè)月前購買的,筆記本散熱功能不錯(cuò),但是電池的續(xù)航能力不太行?!痌中,如果能知道“筆記本”是什么、“電池”是什么、“散熱”表達(dá)的是什么內(nèi)容,“續(xù)航”表示什么樣的現(xiàn)象或行為等先驗(yàn)知識(shí),在模型中引入更多語義內(nèi)容,對于文本的內(nèi)容理解和情感傾向分析會(huì)更加簡單。因此本研究結(jié)合實(shí)體和自然知識(shí)信息,為問答文本對引入常識(shí)知識(shí)背景,將自然知識(shí)學(xué)習(xí)模型與圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行融合,這有利于問答式情感分析研究。
本文提出了知識(shí)-圖卷積雙重網(wǎng)絡(luò)模型E-QAGCN(Enhanced Question-Answering Graph Convolution Network),對文本內(nèi)容進(jìn)行雙重初始化,分別進(jìn)行自然語言知識(shí)背景下的特征提取學(xué)習(xí)和依存語法樹中語法信息引導(dǎo)的特征提取學(xué)習(xí),最終進(jìn)行情感信息的匯總。這是首次在問答式情感分析任務(wù)中嘗試?yán)脠D卷積神經(jīng)網(wǎng)絡(luò)對文本進(jìn)行建模,模型的構(gòu)建基于依存語法樹結(jié)構(gòu),同時(shí)考慮到詞語之間的依賴關(guān)系,將與詞語相關(guān)聯(lián)的信息融入向量表示中,并通過多層卷積操作對文本進(jìn)行了深層次的特征提取,在三個(gè)領(lǐng)域的數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了該模型的有效性。
情感分析早期主要以單詞、語句、篇章或?qū)傩詾榱6冗M(jìn)行情感分析,通過機(jī)器學(xué)習(xí)、情感詞典等方法對整個(gè)文本進(jìn)行情感傾向的評定。Wilson等人[2]構(gòu)建了情感詞典,為每一個(gè)詞語都標(biāo)注上先驗(yàn)極性。Li等人[3]關(guān)注兩種評論文本,提出了集成的方法和協(xié)同訓(xùn)練的算法來進(jìn)行情感分類。Kim[4]在語言模型的基礎(chǔ)之上,主體使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),證明了其在語句情感分析任務(wù)上的優(yōu)越性。Wang等人[5]研究帶噪聲標(biāo)簽的句子級情感分類學(xué)習(xí)問題,提出了一種新的DNN模型來處理訓(xùn)練過程中的噪聲標(biāo)簽。Ma等人[6]將常識(shí)知識(shí)集成到循環(huán)編碼器中,解決了面向?qū)ο蟮那楦蟹治龊兔嫦驅(qū)傩缘那楦蟹治鲭y題。Wu等人[7]提出了一種新的用戶和產(chǎn)品信息編碼框架,采用兩個(gè)獨(dú)立的層次神經(jīng)網(wǎng)絡(luò)來生成兩種表。Wang等人[8]搭建了主體為長短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)的網(wǎng)絡(luò)模型,將各種屬性作為輸入,使用注意力機(jī)制判別句子中各個(gè)部分的重要程度。Sun等人[9]提出了一種新的屬性級情感分析的解決方案,將其轉(zhuǎn)化為一個(gè)句子進(jìn)行分類,同時(shí)微調(diào)預(yù)訓(xùn)練的BERT(Bidirectional Encoder Representations from Transformers)模型。Tian等人[10]提出了情感知識(shí)增強(qiáng)的情感分析預(yù)訓(xùn)練方法,為多種情感分析任務(wù)提供了統(tǒng)一的情感表達(dá)方式。
問答式情感分析研究在2018年第一次被Shen等人[11]提出,與傳統(tǒng)的評論情感分析相比,問答式評論文本可以提供更多信息,更具說服力。同時(shí),對問答式評論文本對進(jìn)行分析具備其特殊的挑戰(zhàn)性。Shen等人[11]搭建層級匹配網(wǎng)絡(luò),采用雙向匹配的方法挖掘問題和回答之間的情感信息,并使用自注意力機(jī)制獲取整個(gè)文本對的情感極性。Wang等人[12]提出了一個(gè)新的研究課題即屬性級問答式的情感分析,同時(shí)構(gòu)建了一個(gè)加強(qiáng)的雙向注意網(wǎng)絡(luò)解決問題與回答之間的語義匹配和數(shù)據(jù)噪聲問題。Hu等人[1]搭建了基于語法結(jié)構(gòu)和上下文語義信息的雙重殘差網(wǎng)絡(luò),結(jié)合依存語法樹和圖嵌入對問答式情感分析任務(wù)進(jìn)行建模。
本節(jié)從文本在雙重網(wǎng)絡(luò)模型中的流通過程的角度出發(fā),將著重介紹自然知識(shí)表征學(xué)習(xí)的結(jié)合過程以及聯(lián)合圖卷積的雙重神經(jīng)網(wǎng)絡(luò)架構(gòu)E-QAGCN,模型架構(gòu)圖如圖3所示。
圖3 框架圖
本節(jié)借助預(yù)訓(xùn)練語言模型ERNIE(Enhanced Representation through Knowledge Integration)[18],使用多層Transformer,借助自然界的先驗(yàn)知識(shí)進(jìn)行問答式情感分析研究。在BERT語言模型中,對所使用數(shù)據(jù)的處理只是對單個(gè)字符進(jìn)行屏蔽,沒有考慮字符與字符之間的關(guān)聯(lián),這種方式在英文等單個(gè)單詞為最小表達(dá)粒度的語言中較為適用,但是在中文語言環(huán)境下,會(huì)導(dǎo)致語言模型學(xué)習(xí)到的語義表示出現(xiàn)信息混亂和內(nèi)容匱乏的問題。因此,除了對字符進(jìn)行隨機(jī)屏蔽外,ERNIE模型還采用了短語級和實(shí)體級的屏蔽訓(xùn)練機(jī)制對高級語義知識(shí)內(nèi)容進(jìn)行建模。
首先在字符級別進(jìn)行15%的屏蔽,之后對預(yù)訓(xùn)練模型進(jìn)行更深一步的訓(xùn)練。在短語級屏蔽機(jī)制中,使用依存語法分析工具對文本進(jìn)行詞語提取,在同一文本被工具分割后的詞語中隨機(jī)選取幾個(gè)詞語進(jìn)行屏蔽,預(yù)測同一短語中的所有字符表示,在這一階段,詞語信息被編碼到嵌入向量空間中。在實(shí)體級屏蔽機(jī)制中,對包括著名人物的姓名、地標(biāo)性地點(diǎn)名稱、組織專屬名稱、產(chǎn)品名、產(chǎn)品屬性信息等在內(nèi)的實(shí)體信息進(jìn)行屏蔽。預(yù)訓(xùn)練時(shí)所用到的訓(xùn)練數(shù)據(jù)包括百度百科等百科類數(shù)據(jù)、資訊等中文語料、論壇中的對話類數(shù)據(jù)等。在問答式情感分析研究中,研究形式為文本分類,但究其根本是對話模式的文本數(shù)據(jù),引入額外的對話形式的數(shù)據(jù)信息更有利于問答式情感分析的研究。ERNIE模型進(jìn)一步使用中文對話語言模型對對話類數(shù)據(jù)進(jìn)行建模,采用問題-回答的對話文本結(jié)構(gòu),進(jìn)一步強(qiáng)化對話響應(yīng)和語義表達(dá)能力,適合用于解決當(dāng)前任務(wù)。
文本分詞和屏蔽處理后的結(jié)果會(huì)進(jìn)行隨機(jī)初始化,然后作為多層Transformer編碼器模型的輸入,經(jīng)過多個(gè)Transformer層特征提取得到最終的文本詞語語義表示Xz={Xz1,Xz2,…,Xzk},其中每一個(gè)Transformer層包含一個(gè)多頭自注意力層和一個(gè)前饋神經(jīng)網(wǎng)絡(luò)層。初始輸入層中Q,K,V三者相同,均為文本詞語語義表示Xz={Xz1,Xz2,…,Xzk},隨著層數(shù)的加深和訓(xùn)練的深入會(huì)有所變化。
(1)
經(jīng)過語言模型訓(xùn)練得到整個(gè)文本的輸出和每個(gè)單詞的輸出,作為圖卷積雙重網(wǎng)絡(luò)的語義輸入。
本節(jié)使用圖卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對依存語法樹中的關(guān)聯(lián)信息的提取以輔助完成問答式情感分析,以求能夠在保證實(shí)驗(yàn)效果的前提下實(shí)現(xiàn)端到端的模型訓(xùn)練和更新。在本網(wǎng)絡(luò)模型中,語義知識(shí)表示向量Xv由語言模型得到,帶有語法輔助的語法語義向量表示Xc={Xc1,Xc2,…,Xck}由詞語語義表示Xt={Xt1,Xt2,…,Xtk}經(jīng)過雙向門控循環(huán)單元網(wǎng)絡(luò)(Bidirectional Gated Recurrent Unit,BiGRU)和圖卷積神經(jīng)網(wǎng)絡(luò)編碼得到,語義知識(shí)向量表示和基于依存語法樹得到的語法語義向量表示會(huì)進(jìn)行信息整合,之后經(jīng)過前向壓縮層輸出,進(jìn)而進(jìn)行預(yù)測和分類。
整合問答文本對中的問題文本Xq={Xq1,Xq2,…,Xqm}和回答文本Xa={Xa1,Xa2,…,Xan}并進(jìn)行初始化得到詞語語義表示Xt={Xt1,Xt2,…,Xtk},此處初始化使用的中文預(yù)訓(xùn)練詞向量是Li等人[13]以百度百科數(shù)據(jù)為語料進(jìn)行訓(xùn)練得到的。將前向編碼隱藏層結(jié)果和后向編碼隱藏層結(jié)果進(jìn)行向量維度方向上的相應(yīng)并行拼接,得到BiGRU模擬人類閱讀方式進(jìn)行訓(xùn)練學(xué)習(xí)得到的上下文語義隱藏表示{h01,h02,…,h0k}。
接下來,上述上下文語義隱藏表示{h01,h02,…,h0k}會(huì)經(jīng)過圖卷積神經(jīng)網(wǎng)絡(luò),在此過程中,模型會(huì)對文本進(jìn)行基于依存語法樹的局部強(qiáng)化編碼。文本被解析為一棵依存語法樹后可被看作是一個(gè)連通圖,節(jié)點(diǎn)和邊分別表示文本中的詞語和它們之間的依賴關(guān)系。本節(jié)不再將依存語法樹看成一個(gè)有向圖,而是將依存語法樹看成一個(gè)無向圖。對于依存語法樹中任何一個(gè)詞語來說,無論是依賴于當(dāng)前詞語的詞語,還是當(dāng)前詞語所依賴的詞語,都看作當(dāng)前詞語一階連接詞語,與當(dāng)前詞語有著某種關(guān)聯(lián)關(guān)系。若吸納周圍一階詞語的語義信息,不僅可以利用所依賴的詞語來豐富當(dāng)前詞語的內(nèi)涵,還可以利用依賴于當(dāng)前詞語的所有詞語來增強(qiáng)當(dāng)前詞語的表達(dá)。
從語料中提取的結(jié)構(gòu)不再是三元組,而是利用鄰接矩陣的方式記錄與當(dāng)前詞語的連接關(guān)系,在當(dāng)前文本的所有詞語中,若與當(dāng)前詞語有所關(guān)聯(lián),則標(biāo)記為1,若沒有關(guān)聯(lián),則標(biāo)記為0。結(jié)合依存語法樹和文本序列可以得到k×k的鄰接矩陣Dij,Dij的值為0或1,當(dāng)Dij=1時(shí),表示兩個(gè)節(jié)點(diǎn)之間存在依存關(guān)系。
經(jīng)過多階的圖卷積網(wǎng)絡(luò)信息增強(qiáng)后得到語法語義向量表示Xc={Xc1,Xc2,…,Xck},通過對依存語法樹中路徑傳播的應(yīng)用,集成了句法連接信息和多階語義信息。不僅在依存語法樹中直接關(guān)聯(lián)的詞語間信息得到整合,在語法樹中的多階關(guān)聯(lián)關(guān)系也得到了聚合。
在此之后進(jìn)行了平均池化操作,這一步驟將圖卷積神經(jīng)網(wǎng)絡(luò)的多階信息進(jìn)行了進(jìn)一步的匯總,相當(dāng)于將整個(gè)圖的信息匯聚到一個(gè)節(jié)點(diǎn)。
語義知識(shí)向量表示和得到的語法語義向量表示會(huì)經(jīng)過合并層在向量維度進(jìn)行拼接,期望將在大量語料中訓(xùn)練學(xué)習(xí)得到的結(jié)果Xv與在當(dāng)前特定領(lǐng)域的小語料中得到的結(jié)果進(jìn)行結(jié)合。在此過程中,為語義知識(shí)表示和語法語義表示分配了同樣的權(quán)重,對于最終結(jié)果的貢獻(xiàn)度相同。
本文所使用的中文問答式情感分析數(shù)據(jù)集QASA來自Shen等人[11]的開源數(shù)據(jù)。數(shù)據(jù)集來自三個(gè)領(lǐng)域,分別是美妝、電子產(chǎn)品和鞋類。
采用Li等人[13]提供的中文預(yù)訓(xùn)練詞向量“sgns.baidubaike.bigram-char”進(jìn)行上下文語義表示初始化,所有文本的依存分析均來自于百度的中文文本處理工具Baidu-aip。由于本研究的圖卷積神經(jīng)網(wǎng)絡(luò)取依存語法樹中的節(jié)點(diǎn)作為輸入,因此這部分模型以依存語法分析工具得到的文本分割結(jié)果作為輸入,而預(yù)訓(xùn)練語言模型部分使用其特定的分割形式作為輸入。
本文選擇了以下基線方法來與本研究提出的模型進(jìn)行比較。
(1)LSTM: 長短時(shí)記憶網(wǎng)絡(luò)(LSTM),一種改良后的RNN模型。
(2)BiLSTM: 雙向長短時(shí)記憶網(wǎng)絡(luò)(BiLSTM),一種雙向LSTM模型。
(3)TextCNN[4]: 卷積神經(jīng)網(wǎng)絡(luò)(CNN),傳統(tǒng)深層神經(jīng)網(wǎng)絡(luò)的變種之一。
(4)Transformer[14]: 模型采用了殘差連接、多頭自注意力機(jī)制、位置編碼等機(jī)制。
(5)DPCNN[15]: 深層層次卷積神經(jīng)網(wǎng)絡(luò)模型(Deep Pyramid Convolutional Neural Networks for Text Categorization,DPCNN),采用區(qū)域嵌入編碼、等長卷積機(jī)制、固定特征圖數(shù)量、二分之一池化等機(jī)制。
(6)BM[11]: 雙向匹配模型(Bidirectional-Match,BM),來自Shen等人的研究方法,采用雙向問答匹配機(jī)制,使用注意力機(jī)制與將文本對中的兩個(gè)文本進(jìn)行匹配以互相參考并提取重要信息。
(7)HMN[11]: 層級匹配網(wǎng)絡(luò)模型(Hierarchical Matching Network,HMN),除了雙向問答匹配機(jī)制,還采用了句子分割和層級自注意力機(jī)制,通過自注意力匹配層學(xué)習(xí)隨機(jī)生成的匹配向量的重要程度。
(8)TextGCN[16]: 圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN),一種從圖類數(shù)據(jù)中提取特征的網(wǎng)絡(luò)模型,計(jì)算當(dāng)前詞語和周圍詞語的平均值對文本的局部片段進(jìn)行編碼。
(9)CDT[17]: 卷積依存網(wǎng)絡(luò)模型(Convolution over Dependency Tree Model,CDT),一個(gè)借助依存語法樹解決屬性級情感分析的圖卷積神經(jīng)網(wǎng)絡(luò)模型,使用GCN進(jìn)一步結(jié)合文本句法進(jìn)行多階屬性提取。
(10)ERNIE[18]: 知識(shí)集成的增強(qiáng)語義表示模型,由百度在2019年提出的針對中文的語言模型,通過知識(shí)屏蔽語言模型來增強(qiáng)的語言語義表示。
(11)DepTLCN[1]: 基于語法結(jié)構(gòu)和上下文語義信息的雙重殘差網(wǎng)絡(luò),結(jié)合依存語法樹和圖嵌入對問答式情感分析任務(wù)進(jìn)行建模。
(12)TextINT[19]: 歸納文本圖神經(jīng)網(wǎng)絡(luò)(Inductive Text Classification via Graph Neural Networks),其中包含三個(gè)關(guān)鍵部分,包括文本圖構(gòu)造、基于圖的文字交互和輸出層,基于門控圖神經(jīng)網(wǎng)絡(luò)對文本進(jìn)行整合分類。
(13)RGAT[20]: 關(guān)系注意力圖神經(jīng)網(wǎng)絡(luò)(Relational Graph Attention Network),借助標(biāo)簽特征更好地捕獲詞語與詞語之間的關(guān)系。
在本研究中使用準(zhǔn)確率(Accuracy)和Macro-F1值來對模型在問答式情感分析任務(wù)中的表現(xiàn)進(jìn)行評估。
表1中列出了所有的基線模型和研究所提出的方法模型的實(shí)驗(yàn)結(jié)果,結(jié)果均以百分制的形式給出。
表1 整體實(shí)驗(yàn)結(jié)果 (單位: %)
由表1數(shù)據(jù)可以看出,本文提出的模型優(yōu)于其他基線模型。為實(shí)現(xiàn)圖神經(jīng)網(wǎng)絡(luò)模型的研究,本文選取前沿的圖神經(jīng)網(wǎng)絡(luò),并將其作為額外的基線模型應(yīng)用于情感分析的模型。
TextGCN基于文檔-詞語關(guān)系建圖,而CDT根據(jù)句法關(guān)系建圖,其中鄰接矩陣是根據(jù)依存語法樹中的連接關(guān)系得到的,因此可能導(dǎo)致TextGCN在此問題上表現(xiàn)平平,基于語法樹的CDT效果相對較好,同時(shí)也間接證明了依存語法樹中句法信息在輔助情感分析問題上的有效性。由實(shí)驗(yàn)結(jié)果可見,RGAT對于本問答式情感分析的分類效果要明顯優(yōu)于TextINT,與CDT模型效果相差不大。由于圖卷積神經(jīng)網(wǎng)絡(luò)類模型的訓(xùn)練速度要快于需要大量計(jì)算的圖注意力類模型,在本文研究與擁有自然知識(shí)背景的預(yù)訓(xùn)練模型結(jié)合時(shí),選用了圖卷積神經(jīng)網(wǎng)絡(luò)來對依存語法樹上的內(nèi)容進(jìn)行編碼。從基于圖神經(jīng)網(wǎng)絡(luò)的模型效果來看,基于圖神經(jīng)網(wǎng)絡(luò)的模型在本任務(wù)上的效果參差不齊,不同的模型之間的效果差別很大,因此在研究圖神經(jīng)網(wǎng)絡(luò)時(shí),如何更好地利用圖中的關(guān)聯(lián)信息以及如何更合適地對圖類數(shù)據(jù)進(jìn)行編碼的問題十分關(guān)鍵。
本實(shí)驗(yàn)在問答式情感分析任務(wù)上進(jìn)行了進(jìn)一步的探究,基于圖卷積神經(jīng)網(wǎng)絡(luò),與知識(shí)背景模型相結(jié)合,實(shí)現(xiàn)了以端到端的方式對依存語法樹中的語法信息和語義信息的同時(shí)提取,成功將此種方法應(yīng)用到了問答式情感分析任務(wù)中,達(dá)到了同期業(yè)界最優(yōu)效果。
圖卷積操作的層數(shù)關(guān)系到模型對于依存語法樹中的關(guān)聯(lián)信息的提煉和整合,為了探究在無向圖中是否經(jīng)歷多階的信息流通,保證在其他參數(shù)相同的情況下取不同圖卷積操作層數(shù)進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如折線如圖4所示,圖中橫坐標(biāo)為卷積層數(shù),縱坐標(biāo)顯示的是Macro-F1的變化情況。當(dāng)圖卷積操作有5層時(shí),訓(xùn)練速度較快,同時(shí)較快得到最優(yōu)效果模型。從圖中可以看出,在電子產(chǎn)品類領(lǐng)域中,當(dāng)層數(shù)從2層增加到3層或是4層時(shí),最優(yōu)模型整體出現(xiàn)了下降的趨勢,但是當(dāng)層數(shù)達(dá)到5層時(shí)又呈上漲趨勢;鞋類與電子產(chǎn)品類情況恰恰相反;美妝類呈上升—下降—上升趨勢。
圖4 不同卷積層數(shù)下的Macro-F1值
隨著模型層數(shù)的減少,最優(yōu)效果模型的訓(xùn)練時(shí)間相差不多,最優(yōu)效果模型的準(zhǔn)確率也會(huì)根據(jù)不同數(shù)據(jù)集而變化??傮w來說,最優(yōu)模型結(jié)果相差不大,在一個(gè)較小的范圍內(nèi)波動(dòng),增加層數(shù)時(shí)準(zhǔn)確率有可能上升或下降,故本研究選取2層為最終模型的圖卷積層數(shù)。
除此之外,還對模型內(nèi)部隱藏層維度對實(shí)驗(yàn)的影響進(jìn)行了探究,結(jié)果如圖5所示,其中橫坐標(biāo)為隱藏層層數(shù),左側(cè)縱坐標(biāo)為Macro-F1的變化情況,右側(cè)縱坐標(biāo)為準(zhǔn)確率的變化情況。從數(shù)據(jù)可以看出,對于美妝類數(shù)據(jù)來說,維度取100時(shí)準(zhǔn)確率和Macro-F1效果最佳。隱藏層的維度在一定程度上會(huì)影響模型的效果,其效果會(huì)根據(jù)不同的數(shù)據(jù)而變化。
圖5 不同隱藏層下的變化情況
我們進(jìn)行了消融實(shí)驗(yàn), 以驗(yàn)證模型細(xì)節(jié)的有效性,分別對除去圖卷積模塊的部分模型ERNIE,除去自然知識(shí)和平均池化權(quán)重模塊之外的部分模型QAGCN(-ap),以及基礎(chǔ)模塊Bi-GRU進(jìn)行了實(shí)驗(yàn)對比。由實(shí)驗(yàn)數(shù)據(jù)可以看出,引入圖卷積模塊比單獨(dú)的ERNIE模型效果更好,并且,意外地發(fā)現(xiàn)平均池化權(quán)重層在圖卷積模塊中至關(guān)重要,除去這一部分后模型的效果甚至與BiGRU差不多。除此之外,將預(yù)訓(xùn)練模型與下游任務(wù)結(jié)合的常用方式是將兩者上下聯(lián)通,實(shí)現(xiàn)端到端的訓(xùn)練,同時(shí)更新預(yù)訓(xùn)練模型的模型參數(shù),但本任務(wù)中,在與ERNIE模型進(jìn)行結(jié)合時(shí)發(fā)現(xiàn),直接在ERNIE模型的基礎(chǔ)之上應(yīng)用圖卷積神經(jīng)網(wǎng)絡(luò)需要耗費(fèi)更多的時(shí)間和空間去訓(xùn)練,而將ERNIE模型與GCN進(jìn)行前期并行計(jì)算,可以大大地縮短訓(xùn)練的時(shí)間和節(jié)省訓(xùn)練數(shù)據(jù)所需要的硬件空間。模型本身在整合自然知識(shí)和自然語言后擁有的強(qiáng)大的語言表達(dá)能力,使得本任務(wù)具備提升潛能,同時(shí)訓(xùn)練速度也很快。因此,在本實(shí)驗(yàn)中進(jìn)行了消融實(shí)驗(yàn)以驗(yàn)證GCN在本任務(wù)中的效果,在與單純ERNIE模型進(jìn)行對比時(shí)發(fā)現(xiàn),引入圖卷積神經(jīng)網(wǎng)絡(luò)模塊對于整體的訓(xùn)練是更加有益的,結(jié)果如表2中實(shí)驗(yàn)結(jié)果所示,說明利用圖卷積神經(jīng)網(wǎng)絡(luò)對于依存語法樹中連通信息的學(xué)習(xí)是有效的,利用在圖上進(jìn)行卷積操作的方法是可行的,并且能夠幫助在問答式情感分析任務(wù)中更好地理解問答文本對的內(nèi)涵。實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證了在ERNIE模型的基礎(chǔ)之上增加圖卷積神經(jīng)網(wǎng)絡(luò)部分是有效的。
表2 消融實(shí)驗(yàn)結(jié)果
本文詳細(xì)介紹了基于中文依存語法樹的圖卷積神經(jīng)網(wǎng)絡(luò)對文本進(jìn)行編碼建模的方法,搭建了知識(shí)-圖卷積雙重網(wǎng)絡(luò)E-QAGCN模型。E-QAGCN模型中圖卷積神經(jīng)網(wǎng)絡(luò)結(jié)合依存語法樹得到語法語義表示;同時(shí)借助知識(shí)背景模型的微調(diào)得到知識(shí)語義表示,將知識(shí)信息和語義信息引導(dǎo)得到的語義表示進(jìn)行結(jié)合。在三個(gè)領(lǐng)域的中文問答式情感分析數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證,圖卷積神經(jīng)網(wǎng)絡(luò)和先驗(yàn)自然知識(shí)引入在問答式情感分析研究中具備有效性,并通過將基于圖神經(jīng)網(wǎng)絡(luò)的情感分析的最新模型應(yīng)用到本任務(wù)中進(jìn)行比較,驗(yàn)證本文的實(shí)驗(yàn)?zāi)P瓦_(dá)到了同期任務(wù)的最優(yōu)效果。