賀彥程,徐 冰,朱聰慧
(哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,黑龍江 哈爾濱 150001)
隨著社交網(wǎng)絡(luò)的發(fā)展,人們?cè)絹碓较矚g在網(wǎng)絡(luò)平臺(tái)上瀏覽相關(guān)資訊并發(fā)表自己的觀點(diǎn)。但是社交網(wǎng)絡(luò)的隱匿性和雜亂性使大量的虛假信息得以迅速傳播。對(duì)于網(wǎng)絡(luò)上存在的大量文本信息,人工判定其虛假性耗時(shí)耗力,因此近幾年越來越多的研究者開始關(guān)注虛假信息的自動(dòng)化檢測(cè),該研究對(duì)網(wǎng)絡(luò)輿情的監(jiān)控有重要意義。
自動(dòng)化虛假信息檢測(cè)是指利用用戶行為、外部知識(shí)等特征信息對(duì)網(wǎng)絡(luò)上發(fā)布的文本進(jìn)行虛假性檢測(cè)。其中根據(jù)分析對(duì)象和分析方法的不同可分為事實(shí)核查[1-2]、虛假新聞檢測(cè)[3-4]和謠言檢測(cè)[5]等。事實(shí)核查通常是先收集相應(yīng)的證據(jù)文本,通過證據(jù)文本進(jìn)行核查驗(yàn)證[2],其需要先從大規(guī)模文本語料庫中抽取相關(guān)的證據(jù),并通過推理對(duì)給定的聲明作出真假性判斷[3]。Thorne[6]首次提出事實(shí)核查領(lǐng)域的大型數(shù)據(jù)集FEVER和相應(yīng)的評(píng)測(cè)任務(wù),該任務(wù)旨在根據(jù)從維基百科檢索到的證據(jù)語句,將人工構(gòu)建的聲明自動(dòng)分類為“證實(shí)”“駁斥”或“證據(jù)不足”。
目前大多數(shù)研究都將該任務(wù)分為三個(gè)階段處理:證據(jù)檢索、證據(jù)篩選和虛假性判別。首先,根據(jù)相應(yīng)的聲明在維基百科等知識(shí)庫里檢索與之相關(guān)的證據(jù)文檔;其次,對(duì)證據(jù)文檔進(jìn)行語句級(jí)別的篩選;最后,結(jié)合篩選后的語句推理得到其虛假性判別結(jié)果。如圖1中的數(shù)據(jù)所示,下方是根據(jù)聲明中的關(guān)鍵信息檢索得到的相關(guān)證據(jù),由第一條證據(jù)文本可知《隨愛沉淪》是一部浪漫喜劇電影,驗(yàn)證了聲明中的“comedy film”,又由第三條或第四條證據(jù)文本可知,這部電影在2003年公映,從而可知該聲明的正確性。
圖1 事實(shí)核查數(shù)據(jù)樣例
虛假性判別通常被視為自然語言蘊(yùn)含推理任務(wù)[2,7],其需要判斷提取到的證據(jù)句和聲明在語義上是否存在推理矛盾關(guān)系。該階段是目前事實(shí)核查任務(wù)的主要瓶頸所在[6], 也是本文研究的重點(diǎn)。目前該階段的研究主要存在以下兩個(gè)難點(diǎn):一是需要捕捉證據(jù)文本與聲明之間的細(xì)粒度語義關(guān)聯(lián);二是需要結(jié)合跨語句特征信息做綜合推理。目前有相關(guān)研究提出引入多頭注意力機(jī)制(Multi-head Attention)[8]來捕捉證據(jù)文本包含的細(xì)粒度語義信息[9-11],但這類方法都極易受文本中的噪聲信息影響。同如圖1中的示例,經(jīng)驗(yàn)證,此類模型會(huì)受第二條證據(jù)文本中的其他時(shí)間干擾。同時(shí)直接采用多頭注意力機(jī)制不易捕捉長(zhǎng)距離的語義聯(lián)系。隨后圖神經(jīng)網(wǎng)絡(luò)又受到很多研究者關(guān)注[12-16],因?yàn)槠淇梢越?shù)據(jù)間復(fù)雜的語義關(guān)系,更有效地捕捉遠(yuǎn)距離的語義關(guān)聯(lián),但它們大多直接采用整句的語義表示作為圖節(jié)點(diǎn)[13-14,16],通過全連接的方式連接各個(gè)節(jié)點(diǎn)[14,16]。這類方法都未能在多個(gè)證據(jù)中捕獲豐富的語義關(guān)聯(lián)信息,也未能更深層次地挖掘多個(gè)證據(jù)句之間的關(guān)系。
針對(duì)當(dāng)前事實(shí)核查任務(wù)依然存在的問題,本文從更深一步挖掘聲明和證據(jù)文本之間的關(guān)聯(lián)性的角度出發(fā),提出了基于跨證據(jù)文本實(shí)體關(guān)系的圖卷積網(wǎng)絡(luò)模型,旨在提供對(duì)任務(wù)實(shí)際情境更有效的先驗(yàn)信息,更大程度地發(fā)揮圖神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)。我們對(duì)數(shù)據(jù)的分析發(fā)現(xiàn),各文本中的實(shí)體關(guān)系對(duì)虛假性判別結(jié)果有重要影響,大部分虛假性聲明是由于存在某個(gè)實(shí)體對(duì)象與證據(jù)文本不對(duì)應(yīng)或是實(shí)體關(guān)系錯(cuò)誤等問題,例如時(shí)間節(jié)點(diǎn)錯(cuò)誤、人名錯(cuò)誤等。因此我們認(rèn)為虛假性判別任務(wù)的核心在于實(shí)體本身和實(shí)體之間的關(guān)系,同時(shí)其判別大多是圍繞具體的實(shí)體對(duì)象展開。這與普通的自然蘊(yùn)含推理任務(wù)不同,虛假信息往往存在一個(gè)具體的載體,例如“你今天心情不錯(cuò)”并不傳達(dá)客觀有效信息,不存在真假之分;而對(duì)于“劉翔是一名田徑運(yùn)動(dòng)員”之類的表述就存在對(duì)其中包含的客觀實(shí)體相關(guān)信息的真假性判別。同時(shí),目前主流的證據(jù)檢索方式是依據(jù)聲明中的實(shí)體檢索相關(guān)文檔,因此證據(jù)句與聲明之間的關(guān)聯(lián)同樣建立在實(shí)體之上。研究發(fā)現(xiàn),與推理過程契合的圖節(jié)點(diǎn)設(shè)立方式和連接方式才能更大程度地發(fā)揮圖神經(jīng)網(wǎng)絡(luò)的有效性,使得圖模型性能有實(shí)質(zhì)的提升。
所以針對(duì)該任務(wù)特性,本文提出了基于跨證據(jù)文本實(shí)體關(guān)系的圖卷積神經(jīng)網(wǎng)絡(luò)模型(Cross-EvidenceEntityRelation ReasoningModel,CERM)。不同于以往大多數(shù)研究中圖節(jié)點(diǎn)只依賴于單一類型的語義單元(如語句、詞語),我們引入了實(shí)體和語句兩種不同粒度的語義單元作為圖節(jié)點(diǎn),語句向量作為外層粗粒度語義信息表示,實(shí)體向量作為內(nèi)層細(xì)粒度語義信息表示,模型在不同粒度語義單元的交互中產(chǎn)生不同含義的語義交互。在具體實(shí)現(xiàn)上,首先基于證據(jù)內(nèi)的實(shí)體關(guān)系鏈接建模該條證據(jù)內(nèi)部語義,基于不同證據(jù)文本的相同實(shí)體鏈接獲取同一實(shí)體對(duì)象的屬性信息。經(jīng)驗(yàn)證,這樣可以更準(zhǔn)確地收集與該實(shí)體相關(guān)的信息,同時(shí)在一定程度上減少噪聲信息的干擾。模型再進(jìn)一步通過多層圖卷積網(wǎng)絡(luò)計(jì)算學(xué)習(xí)細(xì)粒度的多維度語義向量,然后在此基礎(chǔ)上通過圖注意力機(jī)制提取與特定聲明相關(guān)的證據(jù)表征,最終結(jié)合聲明文本進(jìn)行虛假性判別。在公開數(shù)據(jù)集FEVER上的實(shí)驗(yàn)結(jié)果表明,本文提出的模型與基線模型相比性能提升明顯,證實(shí)本文所提方法的有效性。
綜上,本文在采用圖神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,在圖的節(jié)點(diǎn)、圖的連接方式和圖計(jì)算上均提出了更深層次的改進(jìn)。本文的主要貢獻(xiàn)如下:
(1) 提出一種基于跨證據(jù)文本實(shí)體關(guān)系的圖卷積神經(jīng)網(wǎng)絡(luò)模型,該模型利用跨證據(jù)句的實(shí)體關(guān)系來聚集同一對(duì)象的關(guān)鍵信息,同時(shí)過濾噪聲,提高虛假性判別的準(zhǔn)確率。
(2) 在證據(jù)篩選階段,采用交互式相似度模型[35],同時(shí)在訓(xùn)練階段構(gòu)建難易負(fù)樣本,采用啟發(fā)式證據(jù)句檢索算法,提高證據(jù)句召回率,減少關(guān)鍵證據(jù)信息的遺漏。
事實(shí)核查是一項(xiàng)具有挑戰(zhàn)性的研究任務(wù),需要根據(jù)多條證據(jù)文本中的信息推理出聲明的虛假性。Thorne等人[1]構(gòu)建了目前最大的事實(shí)核查數(shù)據(jù)集FEVER并發(fā)起評(píng)測(cè)競(jìng)賽引起大批學(xué)者關(guān)注。
現(xiàn)有的事實(shí)核查研究通常沿用FEVER的官方基線[1],分為三個(gè)階段處理:證據(jù)檢索、證據(jù)篩選和虛假性判別。對(duì)于前兩個(gè)階段,大多數(shù)研究沿用Hanselowski等人[17]提出的方法,用成分分析工具提取聲明中包含的實(shí)體,再利用實(shí)體鏈接檢索相關(guān)文檔,然后訓(xùn)練增強(qiáng)的序列推斷模型(Enhanced Sequential Inference Model, ESIM)[18],計(jì)算語句間的語義相似度,從而篩選相關(guān)證據(jù)文本。考慮到實(shí)體的歧義性,Nie等人[19]引入知識(shí)圖譜檢索更多相關(guān)文檔。Bert[20]、Robert[21]等大規(guī)模預(yù)訓(xùn)練模型的出現(xiàn),使得文本理解能力大大提升,所以Liu等人[16]引入Bert預(yù)訓(xùn)練模型計(jì)算語句間的相似度,提升證據(jù)篩選階段的準(zhǔn)確率。另外,Wan等人[22]提出了一種基于強(qiáng)化學(xué)習(xí)的精確證據(jù)檢索方法,通過強(qiáng)化學(xué)習(xí)增強(qiáng)語義學(xué)習(xí)的泛化能力和魯棒性,但是這些方法都是計(jì)算語句級(jí)別的相似度,很容易引入大量噪聲或遺漏一些重要的隱式證據(jù)信息。
第三階段即虛假性判別,是本文研究的重點(diǎn),也是該任務(wù)目前主要的瓶頸所在。其需要模型學(xué)習(xí)豐富的細(xì)粒度語義特征,同時(shí)能夠捕捉跨語句的深度語義關(guān)聯(lián)。為了達(dá)到這一目的,Nie等人[19]和Tymoshenko等人[11]采用多頭注意力機(jī)制來捕捉聲明與證據(jù)文本之間的關(guān)聯(lián)性。但是它們難以學(xué)習(xí)到不同粒度的語義結(jié)構(gòu)信息,所以Kruengkrai等人[10]在此基礎(chǔ)上設(shè)計(jì)了不同層次的句間與句內(nèi)注意力機(jī)制來解析聲明與證據(jù)文本之間的語義信息,Yi[23]和Dun[24]等人引入知識(shí)圖譜擴(kuò)展模型的理解能力。另外也有引入輔助任務(wù)加強(qiáng)模型泛化性的相關(guān)研究,如包含立場(chǎng)判定或情感分類的多任務(wù)學(xué)習(xí)機(jī)制[25]。
此外,圖神經(jīng)網(wǎng)絡(luò)在該任務(wù)上也有較好的性能表現(xiàn)[26-27],其可以建模數(shù)據(jù)間的復(fù)雜關(guān)系,且能更好地捕捉遠(yuǎn)距離的語義關(guān)聯(lián),通過對(duì)鄰居節(jié)點(diǎn)信息的聚集和傳播來學(xué)習(xí)語義特征,比序列模型有更強(qiáng)大的推理能力。事實(shí)核查任務(wù)往往需要結(jié)合多個(gè)證據(jù)文本推理得到聲明的真假性,需要遠(yuǎn)距離的語義交互以及強(qiáng)大的推理能力。Zhou等人[14]首次將圖神經(jīng)網(wǎng)絡(luò)引入事實(shí)核查領(lǐng)域,將聲明與每個(gè)證據(jù)文本句作為圖的節(jié)點(diǎn),同時(shí)節(jié)點(diǎn)之間采用全連接,通過多層圖注意力層融合語義信息。但是考慮個(gè)別證據(jù)語句包含的信息可能與當(dāng)前判定聲明無關(guān),Liu等人[16]提出核圖注意力模型,通過節(jié)點(diǎn)核計(jì)算獲取每個(gè)證據(jù)節(jié)點(diǎn)的重要性,通過邊緣核計(jì)算獲取融合語義特征的證據(jù)節(jié)點(diǎn)表征。Zhong等人[15]又進(jìn)一步探究了圖網(wǎng)絡(luò)中的語義結(jié)構(gòu)單元的影響,提出用更細(xì)粒度的短句作為圖節(jié)點(diǎn)表示,以獲得更細(xì)粒度的語義交互。而Park等人[12]結(jié)合了上述研究方法,提出結(jié)合語義層面的圖推理、語句級(jí)別的選擇性圖推理以及序列推理三種機(jī)制進(jìn)行推理判斷。這些方法都使模型的推理能力獲得一定程度的提升,但是它們都局限于單一節(jié)點(diǎn),而且也并沒有進(jìn)一步分析挖掘聲明與證據(jù)文本之間的潛在關(guān)聯(lián)。
本文從提供對(duì)聲明虛假性判別更有效的先驗(yàn)知識(shí)出發(fā),更深一步挖掘聲明和證據(jù)文本之間的潛在關(guān)聯(lián),構(gòu)建更直接有效的圖神經(jīng)網(wǎng)絡(luò)模型。
本節(jié)將主要介紹本文提出的基于跨證據(jù)文本實(shí)體關(guān)系的圖卷積神經(jīng)網(wǎng)絡(luò)模型。該模型核心思想是通過證據(jù)句整體語義向量與其包含的實(shí)體語義向量相連建模證據(jù)句內(nèi)部語義信息,通過不同證據(jù)句之間的相同實(shí)體鏈接建模證據(jù)句外部語義信息。以實(shí)體作為信息聚集的中心,以實(shí)體之間的關(guān)系作為信息傳播的基礎(chǔ),使模型能準(zhǔn)確收集到與聲明中包含的實(shí)體相關(guān)的屬性信息,同時(shí)在一定程度上減少噪聲信息的干擾,然后利用圖注意力機(jī)制提取與當(dāng)前判別聲明相關(guān)的語義特征,最終獲得虛假性判別結(jié)果。模型整體結(jié)構(gòu)如圖2所示。
圖2 CERM模型結(jié)構(gòu)圖
我們從圖的節(jié)點(diǎn)設(shè)立、圖的節(jié)點(diǎn)連接和圖的計(jì)算等三個(gè)方面進(jìn)行了改進(jìn)。本節(jié)將著重介紹如何利用上述關(guān)鍵思想搭建圖神經(jīng)網(wǎng)絡(luò)并講解初始化邊的方法,同時(shí)說明實(shí)現(xiàn)信息聚集和傳播的計(jì)算方式。
首先對(duì)每個(gè)證據(jù)文本用AllenNLP命名實(shí)體識(shí)別工具標(biāo)注出其包含的實(shí)體,數(shù)據(jù)集中每個(gè)證據(jù)句會(huì)有相應(yīng)的文檔標(biāo)題,我們會(huì)默認(rèn)將其加入到該句實(shí)體集中,然后依次將每個(gè)證據(jù)文本句送入預(yù)訓(xùn)練模型,提取[CLS]對(duì)應(yīng)的隱藏向量Si∈R1×d作為該證據(jù)文本的表示節(jié)點(diǎn), 其中d為預(yù)訓(xùn)練模型隱藏層向量維度,同時(shí)提取實(shí)體處的隱藏向量{hi,hi+1,…,hj},求平均值作為該實(shí)體的表示Ei∈R1xd,然后執(zhí)行以下步驟:
(1) 將提取出的所有證據(jù)句節(jié)點(diǎn)Si和其包含的所有實(shí)體節(jié)點(diǎn)Ei作為圖初始節(jié)點(diǎn);
(2) 每個(gè)證據(jù)句節(jié)點(diǎn)Si指向其包含的實(shí)體節(jié)點(diǎn)Ei;
(3) 同一個(gè)語句包含的實(shí)體節(jié)點(diǎn)之間雙向連接(同一語句的實(shí)體之間存在語義關(guān)聯(lián));
(4) 不同語句的相同實(shí)體節(jié)點(diǎn)相互連接(捕捉跨語句的語義聯(lián)系)。
構(gòu)建示例如圖3所示,證據(jù)文本與實(shí)體之間單向連接,即證據(jù)文本的信息只流向其包含的實(shí)體節(jié)點(diǎn),相同實(shí)體節(jié)點(diǎn)之間雙向連接,即不同證據(jù)文本的相同實(shí)體之間相互交換信息。至此可以得到一個(gè)異構(gòu)圖G,圖中有兩個(gè)類型的節(jié)點(diǎn){S,E},分別是證據(jù)節(jié)點(diǎn)S和實(shí)體節(jié)點(diǎn)E,所有節(jié)點(diǎn)向量的維度相同。
圖3 圖網(wǎng)絡(luò)搭建示例
搭建相應(yīng)的異構(gòu)圖后,需要通過多層圖卷積操作匯集每個(gè)鄰居節(jié)點(diǎn)的重要信息。通過前面步驟可以得到異構(gòu)圖G=(V,E),V表示各個(gè)節(jié)點(diǎn),包括證據(jù)節(jié)點(diǎn)Si∈R1×d和實(shí)體節(jié)點(diǎn)Ei∈R1×d。 首先對(duì)鄰接矩陣進(jìn)行拉普拉斯歸一化,如式(1)所示。
A∈Rn×n為圖的鄰接矩陣,其中Aij表示節(jié)點(diǎn)i與節(jié)點(diǎn)j之間的權(quán)重。D表示度矩陣,其中Dij=∑jAij。
然后通過L層卷積層操作聚集鄰居節(jié)點(diǎn)的信息,同時(shí)傳播自身信息,以此更新每個(gè)節(jié)點(diǎn)的表示,如式(2)所示。
其中,H(l)是第L層節(jié)點(diǎn)的表示,σ表示激活函數(shù)。W是可學(xué)習(xí)的注意力權(quán)重矩陣。受文獻(xiàn)[13]Wang等人提出的用PMI初始化邊權(quán)重的啟發(fā),本文設(shè)置了實(shí)體相關(guān)度I,用兩個(gè)實(shí)體在候選證據(jù)句中的共現(xiàn)頻率來表征兩個(gè)不同實(shí)體之間的相關(guān)度,計(jì)算公式如式(3)~(6)所示。
Ns是候選語句個(gè)數(shù),Nei是包含實(shí)體ei的語句個(gè)數(shù),N(ei,ej)是同時(shí)包含實(shí)體ei和實(shí)體ej的語句數(shù)。所以P(ei)是實(shí)體i在所有證據(jù)文本中出現(xiàn)的頻率,P(ei,ej)是實(shí)體i與實(shí)體j之間的共現(xiàn)頻率。因此I可以反映兩個(gè)實(shí)體之間的關(guān)聯(lián)程度,共現(xiàn)頻率越高,邊權(quán)重越大。另外,證據(jù)節(jié)點(diǎn)與其包含的實(shí)體節(jié)點(diǎn)之間的權(quán)重統(tǒng)一設(shè)為1。通過多層卷積計(jì)算后得到各證據(jù)句實(shí)體節(jié)點(diǎn)集合He={He1,He2,He3,…,Hek}。
在經(jīng)過多層圖卷積操作后可得到最終的圖節(jié)點(diǎn)語義表征,再通過圖注意力機(jī)制提取特定于當(dāng)前聲明的證據(jù)表示。首先將聲明文本經(jīng)過預(yù)訓(xùn)練模型,提取[CLS]對(duì)應(yīng)的隱藏向量Hc作為聲明的語義向量,然后計(jì)算每個(gè)實(shí)體節(jié)點(diǎn)與聲明的權(quán)重。
其中,“||”表示拼接操作,W0∈RH×2,W1∈R1×H,qj表示第j個(gè)實(shí)體節(jié)點(diǎn)對(duì)聲明的重要性。接著對(duì)權(quán)重進(jìn)行歸一化處理,然后計(jì)算各節(jié)點(diǎn)的權(quán)重和,作為與當(dāng)前聲明相關(guān)的綜合證據(jù)表示。
最后將聲明與證據(jù)表示拼接送入分類線性層得到各類別置信度,如式(10)所示。
其中,W2∈RC×2H,b∈RC×1,C為標(biāo)簽類別個(gè)數(shù)。
本節(jié)將簡(jiǎn)要描述證據(jù)檢索和證據(jù)篩選階段所采用的方法。在證據(jù)檢索階段,目前較為常見的方法有基于增強(qiáng)的序列推斷模型和BERT類的預(yù)訓(xùn)練模型的相似度計(jì)算,但這些方法難以學(xué)習(xí)到聲明與證據(jù)文本之間的深層語義關(guān)聯(lián),同時(shí)極易遺漏一些與聲明隱式相關(guān)的證據(jù)句。因此本文在相關(guān)性模型訓(xùn)練階段使用了不同的正負(fù)樣本構(gòu)建策略,在提取階段采用了啟發(fā)式的證據(jù)句提取算法,保證該階段具有較高的召回率,進(jìn)一步提升虛假性判別階段的準(zhǔn)確率。
證據(jù)檢索階段我們主要參照Hanselowski等人[17]的工作。首先通過標(biāo)題匹配來進(jìn)行初步篩選,再逐個(gè)遍歷語料庫文章,若包含聲明中的成分短語,則進(jìn)入候選集。然后進(jìn)行第二階段的匹配篩選,逐個(gè)計(jì)算聲明與候選證據(jù)文本的TF-IDF相似值。最后選取Top-K相似的文檔進(jìn)入證據(jù)篩選階段。
通過證據(jù)檢索獲取的證據(jù)文檔往往篇幅較長(zhǎng),包含大量與聲明無關(guān)的噪聲信息。同時(shí)按句切分會(huì)分割連續(xù)語義,遺漏重要的上下文信息。如圖4中的證據(jù)示例,證據(jù)(2)是驗(yàn)證聲明的重要線索,但該句與聲明無顯式聯(lián)系。為了捕獲更深層次的結(jié)構(gòu)信息,我們采用交互式相似度模型[28]學(xué)習(xí)兩段文本之間的語義關(guān)聯(lián)。同時(shí)為了防止遺漏重要的隱式證據(jù)信息,本文采用啟發(fā)式的證據(jù)提取算法,對(duì)重要證據(jù)線索的上下文進(jìn)行二次低閾值搜索。
圖4 檢索過程中存在的隱式證據(jù)句示例
在交互式相似度模型訓(xùn)練階段,我們從難易樣本兩個(gè)角度構(gòu)建負(fù)樣本,一是從全局文檔庫中隨機(jī)采樣,確保模型學(xué)到更均勻的向量空間;二是采樣正確證據(jù)句所在文檔的其他證據(jù)句,這些語句往往與聲明中的某實(shí)體相關(guān),但不能為其真假性提供證據(jù),該類樣本的加入能讓模型學(xué)到更深層次的語義特征。正樣本則來自數(shù)據(jù)集中給定的正確證據(jù)句。然后將聲明、證據(jù)句所在文檔標(biāo)題以及證據(jù)句在輸入處拼接:[CLS]+Claim+[SEP]+Title+Evidence+[SEP],送入預(yù)訓(xùn)練模型BERT,提取[CLS]向量h[CLS]作為當(dāng)前輸入的語義表示,然后通過激活函數(shù)得到候選證據(jù)的相似度分?jǐn)?shù),如式(11)所示。
然后通過啟發(fā)式提取算法得到最終的證據(jù)集合。該算法的核心思想是計(jì)算聲明與所有候選證據(jù)句的相似度后,對(duì)相似度較高的證據(jù)句的上下文進(jìn)行二次低閾值搜索。若相似度高于低閾值則加入證據(jù)結(jié)果集中,以此避免遺漏重要的隱式證據(jù)信息。將最終生成的證據(jù)句集合作為虛假性判別的證據(jù)文本,具體流程如算法1所示。
算法1 證據(jù)句提取算法過程輸入:Input=(C, D1, D2,…, Dn), Di表示證據(jù)檢索后得到的第i個(gè)文檔,C表示聲明語句。輸出:Output=(S1,…, Sk), Si表示檢索得到的第i條證據(jù)句。1 初始化高閾值θ1和低閾值θ2。證據(jù)文檔按句切分,然后將聲明與每個(gè)證據(jù)語句拼接得到L=[l1,l2,…,ln], li=[CLS]+[claim]+[SEP]+[title]+[sentence]+[SEP],Model:Bert預(yù)訓(xùn)練模型, N:證據(jù)語句總數(shù)量。2 for i=1; i 我們?cè)诠_數(shù)據(jù)集FEVER上進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集共包含185 455條聲明和5 416 537篇維基百科文檔,表1展示了數(shù)據(jù)集具體情況。虛假性類別有三類,分別是證實(shí)(SUPPORTED)、駁斥(REFUTED)和證據(jù)不足(NOT ENOUGH INFO)。 表1 FEVER數(shù)據(jù)集分布 為了更有效地評(píng)估事實(shí)驗(yàn)證模型的性能,主要采用兩個(gè)評(píng)測(cè)指標(biāo),一是標(biāo)簽的準(zhǔn)確率(Label Accuracy,LA),即預(yù)測(cè)正確的標(biāo)簽占比;另一個(gè)評(píng)價(jià)指標(biāo)是FEVER Score(F.S),它同時(shí)考慮了標(biāo)簽的準(zhǔn)確性和證據(jù)文本是否篩選正確。 我們分別基于預(yù)訓(xùn)練模型BERT和RoBERTa進(jìn)行實(shí)驗(yàn),文本最大長(zhǎng)度設(shè)為100,Batch Size均設(shè)為64,采用Adam優(yōu)化器,學(xué)習(xí)率統(tǒng)一初始化為2e-5,同時(shí)使用余弦學(xué)習(xí)率衰減器??紤]訓(xùn)練過程中會(huì)出現(xiàn)過擬合,將Dropout均設(shè)為0.2。語句篩選階段中的θ1設(shè)為0.9,θ2設(shè)為0.7。每一組實(shí)驗(yàn)結(jié)果均為設(shè)置三個(gè)不同隨機(jī)種子結(jié)果的平均值,所有實(shí)驗(yàn)均在NVIDIA 3090上完成。 我們對(duì)比了七個(gè)基線模型,包括評(píng)測(cè)的Top方案[17]和后續(xù)相關(guān)的研究[14-16,29]。 (1) FEVER 1評(píng)測(cè)任務(wù)中的前三名模型: Athene[17]是將證據(jù)文本向量和聲明拼接后通過自注意力機(jī)制獲得最終向量;UCL MRG[9]是預(yù)測(cè)每個(gè)證據(jù)-聲明對(duì)的標(biāo)簽,再綜合計(jì)算最終標(biāo)簽;UNC NLP[19]是用同一語義匹配模型連接三個(gè)階段的任務(wù),同時(shí)考慮了界面的瀏覽頻率等外部信息,在評(píng)測(cè)任務(wù)中取得了最好的結(jié)果。 (2) 基于預(yù)訓(xùn)練模型的方法:BERT-Concat模型是將聲明與獲得的所有證據(jù)文本拼接送入Bert模型;BERT-Pair模型是單獨(dú)將每個(gè)證據(jù)文本與聲明拼接送入BERT模型,然后使用自注意力機(jī)制提取得到最終的隱藏向量。 (3) 其他圖神經(jīng)網(wǎng)絡(luò)模型:GEAR[14]模型將各證據(jù)語句作為節(jié)點(diǎn),建立全連接圖,使用圖注意力機(jī)制匯聚各證據(jù)句信息;KGAT[16]模型提出核圖注意力機(jī)制,邊核注意力機(jī)制傳播證據(jù)信息,頂點(diǎn)核注意力機(jī)制計(jì)算各證據(jù)節(jié)點(diǎn)的重要性;DREAM[15]模型使用SRL解析語句,并以得到的各短語作為節(jié)點(diǎn)構(gòu)建圖神經(jīng)網(wǎng)絡(luò);LOREN[29]模型基于邏輯規(guī)則組合得到各聲明真假性。 我們分別實(shí)驗(yàn)了不同預(yù)訓(xùn)練模型和證據(jù)檢索方法下各模型的效果,表2展示了本文提出的模型與其他基線模型的對(duì)比結(jié)果。 表2 各模型在FEVER數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果 (單位: %) 續(xù)表 可以看到,本文提出的模型CERM在不同預(yù)訓(xùn)練模型基礎(chǔ)上LA和F.S值相比基線模型均提升2%左右。除以邏輯規(guī)則為基礎(chǔ)的LOREN模型,以圖神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的GEAR、KGAT、 DREAM和CERM模型要明顯高于基于預(yù)訓(xùn)練模型的微調(diào)方案和其他序列模型,證明了圖神經(jīng)網(wǎng)絡(luò)模型在該任務(wù)上的有效性,它具有更強(qiáng)的推理能力。其次,在使用相同的證據(jù)篩選方法下,本文提出的CERM模型相比其他模型在各項(xiàng)指標(biāo)上均有較為明顯的提升。可見本文依據(jù)實(shí)體關(guān)系進(jìn)行圖建??梢赃_(dá)到更好的判別效果。最后,在使用本文的證據(jù)篩選方法下,虛假性判定結(jié)果的準(zhǔn)確性得到進(jìn)一步提升,最終結(jié)果優(yōu)于所有對(duì)比模型。 4.2.1 消融實(shí)驗(yàn) 本文從圖的構(gòu)建和圖的計(jì)算方式等多個(gè)方面進(jìn)行了優(yōu)化,為了更全面地評(píng)估模型各部分對(duì)實(shí)驗(yàn)結(jié)果的影響,我們進(jìn)行了一系列的消融實(shí)驗(yàn)。 (1) 圖節(jié)點(diǎn)單元的影響 為了驗(yàn)證本文提出的基于跨證據(jù)文本實(shí)體關(guān)系的圖網(wǎng)絡(luò)構(gòu)建方法的有效性,我們將三種以不同特征粒度作為圖網(wǎng)絡(luò)節(jié)點(diǎn)的方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表3所示。Sentence是以每個(gè)證據(jù)句作為節(jié)點(diǎn)的全連接圖[14],Phrase是將語句中包含的短語作為節(jié)點(diǎn)的全連接圖[15]。本文則是采用以實(shí)體節(jié)點(diǎn)為中心,證據(jù)句節(jié)點(diǎn)輔之的構(gòu)建方式。圖卷積計(jì)算與注意力機(jī)制計(jì)算各模型皆相同。 表3 不同圖節(jié)點(diǎn)設(shè)立方式的實(shí)驗(yàn)結(jié)果 (單位: %) 從表中可以看到,結(jié)合實(shí)體和語句粒度構(gòu)建圖網(wǎng)絡(luò)的效果最好且性能提升顯著,可見以實(shí)體關(guān)系為橋梁連接證據(jù)為模型提供了更充分的先驗(yàn)知識(shí),增強(qiáng)了模型的推理能力。 (2) 圖節(jié)點(diǎn)連接方式的影響 本文基于證據(jù)之間的實(shí)體共現(xiàn)關(guān)系連接各個(gè)實(shí)體節(jié)點(diǎn),以提供更有效的先驗(yàn)知識(shí),讓相同實(shí)體對(duì)象的信息聚集,減少不同實(shí)體對(duì)象信息的干擾。為了驗(yàn)證該結(jié)論,我們?cè)O(shè)計(jì)了相應(yīng)的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。其中,fully connected是將證據(jù)集合所有的實(shí)體對(duì)象進(jìn)行全連接,entity connected是將相同證據(jù)的實(shí)體和不同證據(jù)的相同實(shí)體相連,各邊權(quán)重均為1。可以看到,基于實(shí)體關(guān)系連接的圖網(wǎng)絡(luò)性能更好。 表4 不同節(jié)點(diǎn)連接方式下的實(shí)驗(yàn)結(jié)果 (單位: %) 另外,我們?cè)O(shè)立了關(guān)于邊權(quán)重的消融實(shí)驗(yàn),分別實(shí)驗(yàn)了權(quán)重均設(shè)為1和用實(shí)體之間的共現(xiàn)頻率初始化兩種方式。實(shí)驗(yàn)結(jié)果如表5所示。 表5 不同邊初始化方式下的實(shí)驗(yàn)結(jié)果 (單位: %) 從表5可以看出,使用實(shí)體之間的共現(xiàn)頻率初始化邊權(quán)重的效果略好,在LA和Fever Score兩個(gè)指標(biāo)上均有所提升,可以證實(shí)以實(shí)體之間的共現(xiàn)頻率初始化邊權(quán)重能夠增強(qiáng)圖網(wǎng)絡(luò)的學(xué)習(xí)能力。 4.2.2 樣例分析 我們從實(shí)驗(yàn)結(jié)果中選取了部分預(yù)測(cè)正確的樣例進(jìn)行分析,如表6所示。(a)樣例中,由第一條證據(jù)可知David Beckham與Victoria是夫妻關(guān)系,由第二條證據(jù)可知Brooklyn是David Beckham的兒子,綜合這兩條信息可知聲明是正確的,但KGAT模型預(yù)測(cè)為“駁斥”(虛假聲明),GEAR模型預(yù)測(cè)為“證據(jù)不足”,可見本文模型更好地捕捉到了實(shí)體之間的關(guān)聯(lián)性。再如(b)樣例,由第一條證據(jù)可知聲明是虛假的,但是GEAR和KGAT模型均將其預(yù)測(cè)為“證實(shí)”, 推測(cè)由于二者均是直接將證據(jù)進(jìn)行單詞級(jí)別的融合,從而使第二條證據(jù)對(duì)模型產(chǎn)生了誤導(dǎo)。而本文提出的CERM模型在學(xué)習(xí)過程中不同實(shí)體的信息會(huì)有不同的流向,能更好地學(xué)習(xí)到證據(jù)文本中各個(gè)實(shí)體所包含的信息,同時(shí)減少其他實(shí)體信息的干擾,從而避免了此類錯(cuò)誤。 表6 CERM預(yù)測(cè)正確的例子 本文提出了基于跨證據(jù)文本實(shí)體關(guān)系的圖卷積網(wǎng)絡(luò)模型用于事實(shí)核查任務(wù),旨在基于證據(jù)文本之間的多重實(shí)體關(guān)系構(gòu)建信息交互網(wǎng)絡(luò),提供對(duì)事實(shí)核查任務(wù)更有效的先驗(yàn)知識(shí),提升模型的推理能力。通過實(shí)驗(yàn)發(fā)現(xiàn),本文的方法能有效地捕捉到實(shí)體的相關(guān)屬性信息和實(shí)體間的語義關(guān)系,在事實(shí)核查任務(wù)上效果提升明顯。通過對(duì)現(xiàn)實(shí)數(shù)據(jù)分析發(fā)現(xiàn),事實(shí)核查任務(wù)需要模型具有大量的先驗(yàn)知識(shí),可見在模型中引入外部知識(shí)可以顯著提升模型預(yù)測(cè)效果。同時(shí)隨著社交媒體的發(fā)展,網(wǎng)絡(luò)上傳播的大多數(shù)數(shù)據(jù)包括圖文等多種形態(tài),結(jié)合多模態(tài)數(shù)據(jù)綜合分析將會(huì)是未來的研究方向之一。4 實(shí)驗(yàn)
4.1 實(shí)驗(yàn)設(shè)置
4.2 實(shí)驗(yàn)結(jié)果和分析
5 結(jié)論