摘 要:提出了一種融合對比學(xué)習(xí)與雙流網(wǎng)絡(luò)的新型知識圖譜摘要模型(KGDR-CLSUM),旨在解決現(xiàn)有模型在生成摘要時存在的事實性錯誤和信息提取不足的問題。該模型通過設(shè)計雙流網(wǎng)絡(luò)同時處理文本特征和知識圖譜特征,并采用對比學(xué)習(xí)來強化這兩類特征的有效融合。此外,引入動量蒸餾策略以降低知識圖譜中的數(shù)據(jù)噪聲,從而提升摘要生成的質(zhì)量和準(zhǔn)確性。在CNN/Daily Mail數(shù)據(jù)集上,KGDR-CLSUM相較于基線模型PEGASUSBASE,在ROUGE-1、ROUGE-2和ROUGE-L指標(biāo)上分別提升了3.03%、3.42%和2.56%,在XSum數(shù)據(jù)集上更是達到了7.54%、8.78%和8.51%的顯著提升。此外,人工評分顯著高于ChatGPT,進一步證明了該模型的優(yōu)越性能。結(jié)果表明,KGDR-CLSUM在生成摘要時,尤其在短文本生成任務(wù)中,能夠有效降低錯誤信息,并顯著提高摘要的質(zhì)量。
關(guān)鍵詞:文本摘要; 知識圖譜; 動量蒸餾; 對比學(xué)習(xí); 雙流網(wǎng)絡(luò)
中圖分類號:TP391"" 文獻標(biāo)志碼:A
文章編號:1001-3695(2025)03-010-0720-08
doi:10.19734/j.issn.1001-3695.2024.07.0304
Integrating contrastive learning and dual-stream networksfor knowledge graph summarization models
Zhao Xia, Wang Zhao
(School of Management Sciences amp; Information Engineering, Hebei University of Economics amp; Business, Shijiazhuang 050061, China)
Abstract:This study presented a novel knowledge graph-based summarization model(KGDR-CLSUM) , which integrated contrastive learning with a dual-stream network to address factual errors and improve information extraction in existing summarization models. The model used a dual-stream network to process textual and knowledge graph features simultaneously, while contrastive learning enhanced the integration of these features. Additionally, it introduced a momentum distillation strategy to reduce data noise in the knowledge graph, improving the quality and accuracy of the generated summaries. On the CNN/Daily Mail dataset, KGDR-CLSUM outperforms the baseline model PEGASUSBASE, improving ROUGE-1, ROUGE-2, and ROUGE-L scores by 3.03%, 3.42%, and 2.56%, respectively. On the XSum dataset, it observes even more significant improvements of 7.54%, 8.78%, and 8.51%. Human’s evaluations also report significantly higher scores compared to ChatGPT, further demonstrating the superior performance of our model. These results show that KGDR-CLSUM effectively minimizes factual errors and significantly enhances summary quality, especially for short-text generation tasks.
Key words:text summarization; knowledge graph; momentum distillation; contrastive learning; dual-stream network
0 引言
互聯(lián)網(wǎng)的迅猛發(fā)展導(dǎo)致了信息量的爆炸性增長。在這個信息過載的時代,個人識別和篩選有價值信息的難度逐漸加大。因此,摘要作為一種關(guān)鍵的信息篩選工具,能夠幫助人們迅速判斷文檔或文章的價值,從而決定是否進行深入閱讀。然而,并非所有文本都擁有人工編寫的摘要,這使得自動文摘算法的研究顯得尤為迫切和重要。
文本摘要算法主要分為抽取式和生成式[1]兩大類。抽取式摘要通過從原始文本中提取關(guān)鍵句子或文本單元,并重新組合這些句子或單元以形成摘要。然而,這種方法可能存在的一個潛在問題是,生成的摘要可能會顯得較為生硬,缺乏流暢性。與抽取式相比,生成式摘要(也稱為抽象式摘要)則采用自然語言處理(NLP)中的文本生成技術(shù),以更深層次地理解上下文語義,從而能夠創(chuàng)造出原文章中未出現(xiàn)的表達[2]。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,BERT和GPT等預(yù)訓(xùn)練模型在NLP領(lǐng)域取得了顯著成就。因此,利用這些預(yù)訓(xùn)練模型來處理NLP的下游任務(wù),例如文本摘要,已成為一種日益流行的方法。
在文本摘要領(lǐng)域,預(yù)訓(xùn)練模型的應(yīng)用顯著增強了文本表示的能力,從而使生成的摘要更加精確和精煉。然而,盡管這些模型在文本表示上取得了顯著進步,但它們在挖掘文本信息時仍面臨一些局限。例如,這些模型可能會遺漏關(guān)鍵信息,或在生成的文本中出現(xiàn)主謂不一致等問題,這些問題可能會影響生成摘要的真實性和可靠性[3]。
知識圖譜是一種高效的結(jié)構(gòu)化數(shù)據(jù)表示方法,近年來被廣泛應(yīng)用于自然語言處理任務(wù)中,尤其是在文本摘要生成中。與僅使用文本特征相比,知識圖譜能夠通過挖掘?qū)嶓w及其關(guān)系,提供更豐富的語義信息,使得摘要生成更加精準(zhǔn)[4,5]。例如,通過分析人物之間的關(guān)系、地理位置等關(guān)鍵因素,可以確定摘要的核心內(nèi)容,進而生成準(zhǔn)確且全面的摘要。這種方法不僅增強了摘要的針對性,也提高了信息的可讀性和實用性。
知識圖譜編碼器負(fù)責(zé)將結(jié)構(gòu)化的知識信息轉(zhuǎn)換為實體的特征表示,文本編碼器則專注于處理非結(jié)構(gòu)化的文本數(shù)據(jù),這兩者可以被視為兩個不同的模態(tài)[6]。融合知識圖譜的文本摘要模型致力于通過學(xué)習(xí)文本與知識圖譜的多模態(tài)表示來提升文本摘要任務(wù)的性能。當(dāng)前,基于知識圖譜的多模態(tài)摘要模型普遍采用的策略是使用文本編碼器和知識圖譜編碼器分別對文本內(nèi)容和知識結(jié)構(gòu)信息進行編碼,隨后進行特征融合。
然而,這種知識圖譜-文本多模態(tài)框架面臨以下挑戰(zhàn):a)知識圖譜的實體特征和文本特征分別駐留在它們各自的空間中,這使得后續(xù)兩個模態(tài)的有效融合具有挑戰(zhàn)性。b)知識信息通常通過OpenIE[7]等信息抽取平臺獲取。然而,這些平臺抽取的信息可能與原文的語義存在偏差。例如,對于句子“He prefers to play football”,OpenIE會提取出三元組(He,play,football),提取出的三元組明顯偏離了原文語義。c)當(dāng)知識圖譜實體特征不足時,融合知識圖譜的摘要模型性能會受到限制。
為了解決上述問題,本文提出了一種結(jié)合對比學(xué)習(xí)和雙流網(wǎng)絡(luò)融合知識圖譜摘要模型。具體而言,首先使用單獨的文本編碼器和知識圖譜編碼器對非結(jié)構(gòu)化文本信息和結(jié)構(gòu)化的知識信息進行獨立編碼。然后,通過基于對比學(xué)習(xí)和雙流網(wǎng)絡(luò)的對齊策略對經(jīng)過編碼后的實體特征和文本特征進行對齊。最后,利用多模態(tài)編碼器將實體特征和文本特征充分融合。為了解決結(jié)構(gòu)化的知識信息可能偏離原文的語義,本文引入了動量蒸餾策略。動量蒸餾模型生成的偽目標(biāo)將作為訓(xùn)練時額外的監(jiān)督信號,使得模型在一定程度上克服來自O(shè)penIE等平臺的數(shù)據(jù)噪聲影響。以上文句子“He prefers to play football”為例,動量蒸餾模型生成的偽目標(biāo)可能是(He, enjoys, football),相對于OpenIE的輸出更加貼近原語義。
1 相關(guān)工作
在過去的十年間,生成式文本摘要算法取得了顯著的進展。2015年,Rush等人[8]首次提出了一種基于序列到序列(seq2seq)模型的生成式文本摘要方法,并在Gigaword和DUC-2004數(shù)據(jù)集上對該模型的性能進行了驗證,取得了不錯的效果。該算法為后續(xù)研究奠定了基礎(chǔ),但在處理長文本和復(fù)雜句子結(jié)構(gòu)時,其摘要生成質(zhì)量仍不盡如人意。這一問題凸顯了該模型在捕捉文本深層語義信息方面的不足。為了克服這些局限,Chopra等人[9]引入了注意力機制,并將其與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)相結(jié)合,提出了一種改進的抽象文本摘要模型,該模型在DUC-2004數(shù)據(jù)集上展現(xiàn)出了卓越的性能,顯著提升了摘要生成的流暢性和連貫性。針對先前模型中存在的未登錄詞和重復(fù)詞問題,See等人[10]提出了一種基于指針網(wǎng)絡(luò)和生成機制的seq2seq神經(jīng)網(wǎng)絡(luò)模型生成文本摘要,這一創(chuàng)新使得該模型在CNN/Daily Mail數(shù)據(jù)集上取得了卓越的效果。盡管如此,該模型在處理復(fù)雜語義和長文本時仍存在明顯的局限性,尤其是在保持文本邏輯一致性和生成摘要的準(zhǔn)確性方面。這表明,單純依賴傳統(tǒng)的seq2seq結(jié)構(gòu)可能無法完全滿足復(fù)雜文本生成任務(wù)的需求。
與傳統(tǒng)的seq2seq模型相比,Transformer借助自注意力機制(self-attention)顯著提高了文本摘要生成的效果。自2017年以來,Transformer架構(gòu)被廣泛應(yīng)用于Google的T5模型、BART、PEGASUS等模型。這些模型在眾多自然語言處理任務(wù)中展現(xiàn)了出色的性能,并推動了生成式文本摘要技術(shù)的發(fā)展[11~13]。特別是PEGASUS模型,在文本摘要領(lǐng)域展現(xiàn)出卓越性能。在處理長文本時,PEGASUS生成的摘要更具連貫性和精確性。Transformer架構(gòu)的應(yīng)用,顯著提升了模型在處理長距離依賴、提升并行處理能力以及提高模型解釋性方面的表現(xiàn)。這些模型在生成摘要的流暢性和信息密度上表現(xiàn)出色,但仍面臨生成虛假信息和語義不一致的挑戰(zhàn)[13]。這些不足對能夠有效解決生成虛假信息和語義不一致問題的智能摘要模型提出了需求。
融合知識圖譜的摘要生成模型提供了解決上述挑戰(zhàn)的新途徑。知識圖譜能夠?qū)ξ谋具M行分析和處理,提取其中的實體、關(guān)系等結(jié)構(gòu)化信息。Fernandes等人[14]探索了將圖神經(jīng)網(wǎng)絡(luò)應(yīng)用于結(jié)構(gòu)化文本摘要的方法,并在多個數(shù)據(jù)集上驗證了其對文本摘要任務(wù)的有效性。Kryscinski等人[15]開創(chuàng)性地將Transformer架構(gòu)應(yīng)用于融合知識圖譜摘要,證明了結(jié)構(gòu)化知識信息在文本生成領(lǐng)域的應(yīng)用潛力,為后續(xù)融合知識圖譜的文本摘要研究奠定了基礎(chǔ)。Zhu等人[5]進一步通過圖注意力機制提取知識圖譜中的事實關(guān)系,并將其整合到摘要生成過程中,有效降低了生成虛假信息的風(fēng)險,他們還設(shè)計了一個自動校正摘要事實錯誤的校正器模型,進一步提高了摘要的準(zhǔn)確性。這些模型通過融合知識圖譜,在降低虛假信息生成和提高摘要準(zhǔn)確性方面取得了一定的成果,尤其是文獻[5]通過增強模型對文本結(jié)構(gòu)的理解,提升了摘要的質(zhì)量。
為了進一步提升摘要質(zhì)量,尤其是減少虛構(gòu)內(nèi)容,Huang等人[16]提出了一種知識圖增強的圖摘要框架ASGARD,利用完形填空機制來提高摘要的準(zhǔn)確性和質(zhì)量。賈莉等人[17]提出了一種雙編碼器模型,該模型結(jié)合了基于圖注意力機制的圖結(jié)構(gòu)編碼器和基于BERT預(yù)訓(xùn)練模型的文本編碼器,充分對信息進行編碼。然而,這些方法在將知識圖譜信息與文本語義精確匹配上仍存在不足,導(dǎo)致生成的摘要有時不夠準(zhǔn)確或信息不完整。并且現(xiàn)有研究往往是直接融合知識圖譜特征和文本特征,這也導(dǎo)致兩者難以充分融合。此外,現(xiàn)有模型尚未有效解決在結(jié)構(gòu)化知識信息匱乏的情境下,融合知識圖譜的摘要模型所生成的摘要質(zhì)量下降的問題。這些挑戰(zhàn)構(gòu)成了本文模型的研究基石。
針對這些挑戰(zhàn),本文提出了一個新的模型KGDR-CLSUM,旨在解決現(xiàn)有方法中的不足。與現(xiàn)有模型相比,該模型引入了在多模態(tài)領(lǐng)域得到成功應(yīng)用的動量蒸餾策略,以及特征對齊的概念。動量蒸餾是一種特殊的知識蒸餾技術(shù),它提供了一種解決問題的新思路[18]。知識蒸餾的目標(biāo)是通過從教師模型中學(xué)習(xí)知識來訓(xùn)練一個結(jié)構(gòu)更簡單、參數(shù)更少的學(xué)生模型,這些學(xué)生模型通常是基于預(yù)訓(xùn)練的教師模型進行訓(xùn)練的[19]。Li等人[18]采用動量蒸餾模型成功解決了圖像內(nèi)容與圖像標(biāo)題不匹配的問題,并驗證了動量蒸餾作為一種通用學(xué)習(xí)算法的有效性。文獻[20~22]將其在視覺和多模態(tài)領(lǐng)域成功應(yīng)用,展現(xiàn)了其在降低噪聲和提升模型穩(wěn)定性方面的巨大潛力。
多模態(tài)領(lǐng)域中的特征對齊方法致力于將來自不同模態(tài)(例如文本、圖像、音頻、知識圖譜等)的信息映射至一個共同的表征空間,以實現(xiàn)更有效的信息融合與利用[23]。在對比學(xué)習(xí)的框架下,特征對齊通常涉及最大化正樣本間的相似度,同時最小化負(fù)樣本間的相似度[24]。這種策略還有助于緩解模型在處理輸入特征不足時的局限性[25]。此外,基于注意力機制的特征對齊方法亦被廣泛采用[26,27]。本文KGDR-CLSUM模型中的雙流網(wǎng)絡(luò)即是一種基于注意力機制的對齊策略。然而,在融合知識圖譜的文本摘要領(lǐng)域,動量蒸餾的應(yīng)用尚處于初步探索階段,特征對齊技術(shù)的應(yīng)用也相對較少。
綜上所述,已有研究為本文研究奠定了堅實的理論基礎(chǔ)。通過整合動量蒸餾技術(shù)、Transformer架構(gòu)、圖注意力機制以及特征對齊方法,為克服現(xiàn)有模型不足提供了可能性,展現(xiàn)了在生成高質(zhì)量文本摘要方面的巨大潛力。
2 模型
首先,本文將介紹模型的整體架構(gòu)及選擇依據(jù)(2.1節(jié)),通過圖1直觀展示各組件之間的關(guān)系與數(shù)據(jù)流。接著,深入探討KGDR-CLSUM的編碼器(2.2節(jié)),其核心功能是對不同模態(tài)信息進行編碼并生成特征向量,為后續(xù)雙流網(wǎng)絡(luò)和動量蒸餾模型提供輸入。隨后,描述雙流網(wǎng)絡(luò)與對比學(xué)習(xí)策略(2.3節(jié)),它們確保不同模態(tài)特征的有效融合,減少模態(tài)間的信息不對稱。接著,介紹動量蒸餾模型(2.4節(jié))將優(yōu)化雙流網(wǎng)絡(luò)生成的多模態(tài)特征,以解決知識圖譜實體信息與文本語義不匹配的問題。最后,利用多模態(tài)編碼器和解碼器(2.5節(jié))整合各模塊輸出,生成最終摘要,并詳細(xì)闡述目標(biāo)函數(shù)的計算方式及各損失項的作用。
2.1 模型架構(gòu)及選擇依據(jù)
2.1.1 模型架構(gòu)
如圖1所示,KGDR-CLSUM由知識圖譜編碼器、文本編碼器、多模態(tài)編碼器、解碼器以及動量蒸餾模型構(gòu)成。
知識圖譜編碼器和文本編碼器用來獲取知識圖譜實體特征表示{e1,e2,e3,…,em}和文本特征表示{t1,t2,t3,…,tn}。這兩種特征經(jīng)由雙流網(wǎng)絡(luò)交互,以及對比學(xué)習(xí)KTC-LOSS進行特征對齊。對齊后的實體特征和文本特征通過多模態(tài)編碼器的交叉注意力機制進行融合。融合后的特征作為解碼器的輸入生成摘要。為了克服來自O(shè)penIE平臺的數(shù)據(jù)噪聲,本文在模型訓(xùn)練的過程中,將動量蒸餾模型生成的偽目標(biāo)作為額外的監(jiān)督信號。
除此之外,知識圖譜編碼器的實體初始化嵌入表示部分為離線模塊。這意味著,該模塊在模型訓(xùn)練前完成特征的抽取,不參與模型的訓(xùn)練。
2.1.2 選擇依據(jù)
Transformer編碼器-解碼器結(jié)構(gòu)是KGDR-CLSUM模型的核心架構(gòu),并且知識圖譜編碼器、文本編碼器、多模態(tài)編碼器同樣經(jīng)過精心設(shè)計。
本文選擇Transformer作為核心模型架構(gòu),主要因為它能通過自注意力機制有效捕捉長依賴關(guān)系和全局上下文信息,克服了傳統(tǒng)RNN和LSTM在處理長文本中的局限性,在全局信息捕捉上相較于CNN表現(xiàn)更佳。同時,Transformer的并行計算能力顯著提高了訓(xùn)練效率,這在處理大規(guī)模數(shù)據(jù)時尤為重要。因此,Transformer在自然語言處理領(lǐng)域的機器翻譯和文本摘要等任務(wù)中表現(xiàn)優(yōu)異。特別是基于Transformer編碼器-解碼器結(jié)構(gòu)的BART和PEGASUS模型在文本摘要上的表現(xiàn)明顯優(yōu)于基于自回歸解碼器的GPT2。自此支持了本文選擇Transformer編碼器-解碼器結(jié)構(gòu)的決策。
在圖文多模態(tài)領(lǐng)域,視覺編碼器通常比文本編碼器更為復(fù)雜,同時多模態(tài)編碼器也需要具備足夠的深度。受圖文多模態(tài)領(lǐng)域研究的啟發(fā),本文將知識圖譜編碼器設(shè)計得比文本編碼器層數(shù)更深,同時多模態(tài)編碼器也保證了足夠的深度,以便不同模態(tài)特征可以充分融合。
2.2 知識圖譜實體特征和文本特征表示
2.2.1 文本編碼器
在自然語言處理領(lǐng)域,文本編碼器的作用至關(guān)重要,它能夠?qū)⒆匀徽Z言文本轉(zhuǎn)換成機器能夠理解和處理的數(shù)值形式,即向量序列。這一過程不僅涉及詞匯的映射,更重要的是捕捉文本中的語義信息,從而實現(xiàn)對全文意義的全面理解。
PEGASUS[13]是一個seq2seq的預(yù)訓(xùn)練模型,由一個編碼器和一個解碼器組成。組成PEGASUS的編碼器和解碼器分別由12層Transformer塊堆疊而來。本文使用PEGASUS模型編碼器的前6層作為文本編碼器以獲取文本特征。
具體而言,在輸入文本的開始和結(jié)束位置分別插入特殊符號[CLS]和[SEP]。隨后,取文本編碼器最后一層隱藏狀態(tài)層的[CLS]標(biāo)記作為輸出向量tcls。
2.2.2 知識圖譜編碼器
如圖1所示,知識圖譜編碼器由離線模塊和四層圖注意力網(wǎng)絡(luò)(graph attention networks,GATs)[28]兩個主要部分組成。離線模塊在模型訓(xùn)練前負(fù)責(zé)初始化實體特征表示,為后續(xù)特征學(xué)習(xí)奠定基礎(chǔ)。而注意力網(wǎng)絡(luò)則進一步優(yōu)化實體的表示,使其能夠捕捉更豐富的全局信息。
為了構(gòu)建圖1離線模塊中的知識圖譜,本文采用了斯坦福OpenIE平臺,該平臺用于識別和提取文本中的關(guān)鍵實體關(guān)系。這一過程涉及將原文章轉(zhuǎn)換為一系列三元組,每個三元組都遵循〈主體(subject),關(guān)系(relation),客體(object)〉的結(jié)構(gòu)組成。在這個結(jié)構(gòu)中,主體和客體代表實體,而關(guān)系則描述了它們之間的聯(lián)系。這種方法將非結(jié)構(gòu)化的文本信息轉(zhuǎn)換為結(jié)構(gòu)化實體和關(guān)系集合,從而構(gòu)建出一個知識圖譜。因此,這些三元組提供了一種靈活且富有表現(xiàn)力的方式,用于表示和理解文本中的復(fù)雜關(guān)系。
在通過OpenIE平臺獲取實體和關(guān)系之后,每個實體和關(guān)系都以Levi變換的方法被平等地處理[29]。具體來說,對于任意一個給定的三元組(s,r,o),分別創(chuàng)建了代表實體的節(jié)點s、r和o。通過這種方式,可以構(gòu)建出一個知識圖譜G=(V,E),其中V代表節(jié)點的集合,E代表邊的集合。
離線模塊中的預(yù)訓(xùn)練模型采用了BERT[30]模型。然而,離線模塊中的預(yù)訓(xùn)練模型與文本編碼器的一個重要區(qū)別在于其權(quán)重是凍結(jié)的。這意味著在離線模塊的訓(xùn)練過程中,預(yù)訓(xùn)練模型的參數(shù)不會被更新。為了利用BERT強大的語言表示能力,它被看做為知識圖譜編碼器的詞嵌入層。在將知識圖譜的節(jié)點輸入到詞嵌入層之前,需要對每個節(jié)點進行預(yù)處理,具體做法是在每個節(jié)點的開始位置和結(jié)束位置分別添加特殊符號[CLS]和[SEP]。隨后取BERT模型最后一層隱藏狀態(tài)層的[CLS]標(biāo)記作為輸出向量ncls。
圖注意力網(wǎng)絡(luò)(GATs)通過注意力機制計算節(jié)點之間的相關(guān)性,從而有效地將鄰居節(jié)點的信息整合到目標(biāo)節(jié)點的表示中。這種方法不僅能捕獲知識圖譜的局部特征,還能捕獲全局特征,為每個實體提供豐富的語義信息[25]。本文采用了GATs來處理知識圖譜編碼器詞嵌入層的輸出向量,具體過程如下:
對于每個節(jié)點i,首先計算與其鄰居節(jié)點j的注意力權(quán)重:
(1)
其中:hi和hj分別表示節(jié)點i和j的輸入特征向量;W為學(xué)習(xí)的權(quán)重矩陣;a是用來計算注意力分?jǐn)?shù)的向量;‖表示向量的拼接操作;N(i)是節(jié)點i的鄰居節(jié)點集合。
接著,將每個節(jié)點的注意力權(quán)重應(yīng)用到鄰居節(jié)點的特征表示上,得到更新后的節(jié)點表示:
(2)
其中:σ為非線性激活函數(shù)ReLU。在本次實驗中,知識圖譜編碼器采用了四層GATs,通過多層堆疊來增強節(jié)點表示的質(zhì)量和表達能力。
圖注意力網(wǎng)絡(luò)將知識圖譜編碼器詞嵌入層的輸出向量ni輸出表示為ei。在對所有節(jié)點kf=[eT1,eT2,eT3,…,eTm]進行式(3)平均池化后,獲取知識圖譜的特征表示kcls。
(3)
2.3 知識圖譜-文本特征對齊
不同于現(xiàn)在對知識模態(tài)和文本模態(tài)特征進行的早融合或晚融合,本文在通過多模態(tài)編碼器融合文本特征和實體特征之前,通過雙流網(wǎng)絡(luò)和對比學(xué)習(xí)策略來對齊這兩種特征。
2.3.1 雙流網(wǎng)絡(luò)
雙流網(wǎng)絡(luò)的設(shè)計理念旨在深入挖掘并充分利用文本模態(tài)與知識圖譜模態(tài)之間的交互特征,為后續(xù)的特征融合奠定堅實基礎(chǔ)。該網(wǎng)絡(luò)結(jié)構(gòu)的核心優(yōu)勢在于其能夠同時處理并關(guān)聯(lián)兩種不同類型的數(shù)據(jù)——文本和知識圖譜實體,從而提升模型在多模態(tài)學(xué)習(xí)任務(wù)中的性能。
在圖1所示的雙流交互中,一個關(guān)鍵組件是兩路多頭跨注意力機制。該機制的設(shè)計使得網(wǎng)絡(luò)能夠同時關(guān)注并整合來自兩個不同模態(tài)的信息。具體而言,這兩路跨注意力分別對應(yīng)于圖2(a)中的實體跨注意力和圖2(b)中的文本跨注意力。
每路跨注意力專注于獲取不同模態(tài)引導(dǎo)下的模態(tài)融合特征。這意味著,通過這種雙流交互結(jié)構(gòu),模型能夠從兩個不同的角度和層面理解和關(guān)聯(lián)文本與知識圖譜之間的信息。這種多角度的特征提取和融合有助于增強模型對多模態(tài)數(shù)據(jù)的理解與表達能力。
跨注意力機制與自注意機制的不同之處在于,Q的來源模態(tài)與K和V的不同。實體特征交互旨在獲取實體經(jīng)交互后的融合特征,Q為式(3)所示的全局向量kcls,K和V均為文本特征。與實體特征交互類似,文本特征交互旨在獲取文本經(jīng)交互后的融合特征,Q為文本全局特征tcls,K和V則為對應(yīng)的實體特征。
attention(Q,K,V)=softmax(QKTdk)V
(4)
綜上所述,實體跨注意力與文本跨注意力模塊通過分別引導(dǎo)知識圖譜實體與文本特征的融合,實現(xiàn)了更優(yōu)化的特征表示。隨后,這些經(jīng)過實體跨注意力和文本跨注意力模塊處理的知識圖譜實體特征與文本特征,將被作為輸入傳遞至知識圖譜-文本對比學(xué)習(xí)模塊及動量蒸餾模塊。這兩個模塊同樣是KGDR-CLSUM的核心組成部分,它們將進一步處理并優(yōu)化這些特征,從而提升模型在多模態(tài)學(xué)習(xí)任務(wù)中的性能。
2.3.2 知識圖譜-文本對比學(xué)習(xí)
本文提出的知識圖譜-文本對比學(xué)習(xí)策略核心目標(biāo)在于通過所提出的ktc損失函數(shù),有效提升知識圖譜與文本數(shù)據(jù)之間的相互理解與表達能力。該策略致力于實現(xiàn)兩個關(guān)鍵目標(biāo):a)最大化正樣本間的相似度。當(dāng)知識圖譜中的實體或概念與文本中描述的相應(yīng)信息相匹配時,模型應(yīng)能識別并強化這兩者之間的關(guān)聯(lián)性。b)該策略還致力于最小化負(fù)樣本間的相似度。這意味著,當(dāng)知識圖譜中的實體或概念與文本中的信息不相符時,模型應(yīng)能識別并削弱這兩者之間的關(guān)聯(lián)性。
通過這種對比學(xué)習(xí)策略,能夠獲得更優(yōu)的知識圖譜-文本特征多模態(tài)表示。這種表示不僅能夠更準(zhǔn)確地映射知識圖譜與文本數(shù)據(jù)之間的內(nèi)在聯(lián)系,而且能夠有效解決知識圖譜特征可能存在的局限性。例如,知識圖譜可能缺少某些特定領(lǐng)域的詳細(xì)信息,無法適應(yīng)復(fù)雜多變的文本數(shù)據(jù)。通過對比學(xué)習(xí),得以彌補這些局限性,使得知識圖譜-文本特征表示更加全面且精確。
s(kdcls,tdcls)=gk(kdcls)·gt(tdcls)T
(5)
通過相似度函數(shù)式(5),可以為正確匹配的知識圖譜-文本對分配更高的相似度分?jǐn)?shù)。gk和gt則代表著將768維的實體融合特征kdcls和文本融合特征tdcls線性變換為256維。動量模型編碼器同樣會產(chǎn)生標(biāo)準(zhǔn)化的知識圖譜特征g′k(k′cls)和文本特征g′t(t′cls)。在本文提出的知識圖譜-文本對比學(xué)習(xí)策略中,對于每一個知識圖譜實體特征和文本特征,采用式(6)(7)來分別計算歸一化的knowledge graph-to-text (k2t) 和 text-to-knowledge graph (t2k) 相似度分?jǐn)?shù)。這一步驟是實現(xiàn)知識圖譜與文本數(shù)據(jù)有效關(guān)聯(lián)的關(guān)鍵。
pk2tm(K)=exp(s(K,Tm)/τ)∑Mm=1exp(s(K,Tm)/τ)
(6)
pt2km(T)=exp(s(T,Km)/τ)∑Mm=1exp(s(T,Km)/τ)
(7)
其中:Km和Tm表示來自經(jīng)由動量蒸餾模型加權(quán)融合后的文本特征和知識圖譜實體特征;T和K則是文本編碼器和知識圖譜編碼器生成的文本特征;τ是一個可學(xué)習(xí)的溫度超參數(shù)。本文采用了MoCo[31]中的隊列結(jié)構(gòu)存儲動量模型編碼器的最近M個知識圖譜-文本特征對(bach_size的大小)。在同一個批處理中,對于任意一個樣本的文本特征T,都有一個與之對應(yīng)的、經(jīng)由動量加權(quán)融合后的知識圖譜實體特征Km;反之亦然,對于實體特征K,也存在一個對應(yīng)的文本特征Tm。
Lktc=12
損失函數(shù)Lktc計算方法如式(8)所示,知識圖譜-文本對比學(xué)習(xí)損失的定義為p和y之間的交叉熵H。yk2t和yt2k表示真實標(biāo)簽的獨熱編碼相似度,正樣本對的概率為1,負(fù)樣本對的概率為0。
2.4 動量蒸餾
知識圖譜-文本對的來源是OpenIE信息抽取工具,該工具雖然能夠提供大量的知識信息,但這些信息可能包含噪聲。當(dāng)這些知識信息與文本信息融合時,如果存在噪聲,可能會降低模型對文本內(nèi)容的理解和摘要生成的準(zhǔn)確性。因此,為了提高摘要質(zhì)量,需要采取額外的措施來克服噪聲的負(fù)面影響以確保知識信息的準(zhǔn)確性。
為了解決該問題,本文將動量模型生成的偽標(biāo)簽作為原有特征的補充。動量模型本質(zhì)是一個如圖3所示的持續(xù)更新的教師模型,它是文本編碼器和知識圖譜編碼器的指數(shù)平均移動版本。而學(xué)生模型則是圖1中的文本編碼器和知識圖譜編碼器,在學(xué)生模型完成每次參數(shù)更新后,教師模型也會相應(yīng)地更新。
偽標(biāo)簽的生成過程如下:首先,動量模型會接收與學(xué)生模型相同的輸入數(shù)據(jù),包括文本和知識圖譜信息。動量模型通過其編碼器(即動量文本編碼器和動量知識圖譜編碼器)處理輸入數(shù)據(jù),生成表示向量,即偽標(biāo)簽。偽標(biāo)簽可以看作是教師模型輸出的特征表示,它們代表動量模型在當(dāng)前學(xué)習(xí)狀態(tài)下對輸入數(shù)據(jù)的“目標(biāo)”理解。
動量蒸餾模型的參數(shù)更新策略是指數(shù)平均移動,即該教師模型的參數(shù)會根據(jù)學(xué)生模型參數(shù)的變化而逐漸調(diào)整。這種更新方式有助于平滑學(xué)習(xí)過程,并減少由于一次性大幅度更新帶來的不穩(wěn)定性。式(9)詳細(xì)描述了動量模型參數(shù)的更新方法,這種方法為學(xué)生模型提供了更加穩(wěn)定和可靠的目標(biāo),有助于提高模型整體的魯棒性和性能。
θmodt←mθt+(1-m)θmodt-1
(9)
其中:θt表示學(xué)生模型的t時刻的參數(shù);θmodt-1和θmodt分別代表動量模型(教師模型)在t和t-1時刻的參數(shù),動量系數(shù)m∈[0,1)。
kfcls=(1-β)·kdcls+β·kmodcls
(10)
tfcls=(1-β)·tdcls+β·tmodcls
(11)
其中:tmodcls和kmodcls代表動量模型產(chǎn)生的偽目標(biāo)特征對;tmodcls是動量模型產(chǎn)生的文本特征;kmodcls則代表著知識圖譜特征;最終的結(jié)果kfcls和tfcls是結(jié)合了原始特征和動量模型生成的偽目標(biāo)特征后的加權(quán)結(jié)果; β是一個可調(diào)節(jié)的權(quán)重參數(shù),用于平衡原始特征和動量模型生成的偽目標(biāo)特征之間的影響。在得到加權(quán)后的結(jié)果后,將結(jié)果代入式(5),即可得式(8)的最終KTC損失函數(shù)。并且該特征將同樣作為多模態(tài)編碼器的輸入。
2.5 多模態(tài)編碼器和解碼器
在前文所述的多模態(tài)學(xué)習(xí)框架內(nèi),借助于式(10)(11),本文能夠獲得經(jīng)過加權(quán)的文本特征與知識圖譜實體特征。通過多模態(tài)編碼器內(nèi)部的交叉注意力機制,這些源自不同模態(tài)的數(shù)據(jù)特征能夠被有效地融合,形成一個更為豐富和全面的數(shù)據(jù)表示。在解碼階段,解碼器利用這些融合后的特征以生成相應(yīng)的輸出摘要。該策略使得模型在處理復(fù)雜問題時,能夠更深入地理解和利用多源信息,進而提升任務(wù)的整體性能。
PEGASUS[13]是一個seq2seq的預(yù)訓(xùn)練模型,由一個編碼器和一個解碼器組成。這個模型的核心思想是在預(yù)訓(xùn)練階段就針對摘要任務(wù)進行優(yōu)化,通過從文本中提取關(guān)鍵信息來生成摘要。組成PEGASUS的編碼器和解碼器分別由12層Transfor-mer塊堆疊而來。
本文使用PEGASUS模型的編碼器后六層作為模型的多模態(tài)編碼器,結(jié)合文本特征和知識圖譜實體特征,進行多模態(tài)特征的有效整合。解碼器部分仍然基于PEGASUS模型的架構(gòu),用于生成最終的輸出摘要。多模態(tài)編碼器由先前的self-attention改為與實體特征交互層相同的cross-attention機制,而解碼階段的損失函數(shù)依然是一個如式(12)所示的交叉熵?fù)p失。
L=-∑Tt=1logP(yt|ylt;t,x)
(12)
L′=L+Lktc
(13)
式(12)所示的交叉熵?fù)p失函數(shù)用于生成摘要,使其最大化生成正確單詞的概率。其中:yt是目標(biāo)序列的第t個token;ylt;t是目標(biāo)序列在第t步之前的所有token;x則為原文本。在與對比學(xué)習(xí)KTC損失結(jié)合后,KGDR-CLSUM最終的目標(biāo)函數(shù)如式(13)所示。
3 實驗
3.1 數(shù)據(jù)集與評價指標(biāo)
為了全面評估模型的性能,本文在兩個廣泛認(rèn)可的公開數(shù)據(jù)集——CNN/Daily Mail(https://huggingface.co/datasets/ ccdv/cnn_dailymail)和XSum(https://huggingface.co/datasets/ EdinburghNLP/xsum)上進行了訓(xùn)練與測試。這兩個數(shù)據(jù)集不僅提供了大量的文本數(shù)據(jù),而且為每篇文章配備了相應(yīng)的摘要作為標(biāo)注,是文本摘要領(lǐng)域普遍采用的數(shù)據(jù)集。CNN/Daily Mail的摘要源自文章中的幾個句子,而XSum的摘要則是由人工編寫的。此外,CNN/Daily Mail的文章平均長度為760字,而XSum的文章平均長度為430字。這些差異有助于深入分析模型的優(yōu)缺點,并為進一步改進模型提供依據(jù)。
CNN/Daily Mail和XSum數(shù)據(jù)集被劃分為測試集、驗證集和訓(xùn)練集,具體劃分如表1所示。表中的元組表示使用Open-IE工具從這兩個數(shù)據(jù)集中抽取的知識三元組的平均數(shù)量。
本文的數(shù)據(jù)預(yù)處理主要依賴于BERT和PEGASUS各自的tokenizer組件。tokenizer能夠處理大多數(shù)標(biāo)點符號和特殊字符,將它們分解為子詞或特殊的[UNK]標(biāo)記,并對所有詞匯進行處理,包括停用詞。為了確保文本中不殘留HTML標(biāo)簽,本文在原始數(shù)據(jù)集的處理中增加了去除HTML標(biāo)簽的步驟。
本文采取自動和人工兩種評估相結(jié)合的方式對生成摘要質(zhì)量進行評估。在自動評估方面,本文選用ROUGE作為模型的自動評估指標(biāo),該值通過比較生成的摘要和原始摘要之間的重疊程度判斷生成摘要的質(zhì)量。本文使用了ROUGE-1、ROUGE-2、ROUGE-L這三個不同的變體進行評估,它們分別代表了基于單個詞元、雙詞元以及最長公共子序列的重疊程度衡量生成摘要和參考摘要之間的相似性。在人工評估部分,本文從數(shù)據(jù)集的測試集中隨機選取一定數(shù)量的樣本以評估模型性能。評估人員將根據(jù)生成摘要的準(zhǔn)確性、流暢性進行質(zhì)量評分。通過結(jié)合自動評估的客觀性和人工評估的主觀性,可以更準(zhǔn)確地評估生成摘要的質(zhì)量,并確保評估結(jié)果的全面性和可靠性。
3.2 實驗參數(shù)設(shè)置
KGDR-CLSUM集成了兩個預(yù)訓(xùn)練模型:一個包含123.7M參數(shù)的BERT模型和一個包含223M參數(shù)的PEGASUSBASE模型。這兩個模型的隱藏層維度均為768,為模型提供了強大的表示能力。在訓(xùn)練過程中,本文使用4塊NVIDIA A40 GPU來加速模型的訓(xùn)練,設(shè)置批量大?。╞atch size)為64,迭代輪數(shù)(epoch)為12。所使用的Python版本為3.8。
BERT模型負(fù)責(zé)為知識圖譜中的節(jié)點提供初始的向量表示,這些節(jié)點最終獲得768維的隱藏層狀態(tài)。知識圖譜編碼器進一步由4層GATs構(gòu)成,GATs包含8個注意力頭,同樣擁有768維的隱藏層狀態(tài)。
在優(yōu)化方面,本文選擇Adam優(yōu)化器來更新模型的參數(shù),設(shè)置學(xué)習(xí)率為1E-5。動量模型的參數(shù)更新采用了指數(shù)衰減率m為0.995,動量蒸餾中的權(quán)重參數(shù)β被設(shè)置為0.4,以平衡動量模型和學(xué)生模型之間的信息融合(這兩個參數(shù)設(shè)置參考了ALBEF[18])。
3.3 基線模型
在本次實驗中,本文選取了八個基線模型作為知識圖譜增強的自動文摘模型(KGDR-CLSUM)的對照模型。這八個基線模型可劃分為融合知識圖譜實體信息的模型和傳統(tǒng)文本摘要模型兩大類。
3.3.1 傳統(tǒng)文本摘要模型
在此類別中,本文選取了四個基于Transformer的模型作為基線模型,分別是GPT2、BART、PEGASUSBASE和PEGA-SUSLARGE。其中,GPT2與其他三個模型有顯著差異,它基于自回歸解碼器,而其余三個模型則都基于編碼器-解碼器結(jié)構(gòu)。
a)GPT2[32]。利用了Transformer架構(gòu)中的解碼器部分來生成文本。它通過預(yù)測下一個單詞的方式逐步構(gòu)建文本,并能夠捕捉長距離的依賴關(guān)系。GPT2的自回歸特性允許它在生成新詞后,將新詞添加到原始輸入句子的末尾,形成新的輸入句子以進行下一輪預(yù)測。這種機制確保了生成文本的高度連貫性。
b)BART [12]。融合了BERT(雙向編碼器)和GPT(自回歸解碼器)的特點,既能夠理解文本的雙向上下文,又具備生成連貫文本的能力。此外,在預(yù)訓(xùn)練階段,BART通過引入噪聲并訓(xùn)練模型以重構(gòu)原始文本,從而增強了其文本生成能力。這些設(shè)計特點使得BART在文本生成任務(wù)中取得了顯著的效果。
c)PEGASUSBASE和PEGASUSLARGE[13]。均基于Transformer的編碼器-解碼器架構(gòu)。與BART相比,PEGASUS在預(yù)訓(xùn)練階段采用了一種特殊策略,即將文檔中的關(guān)鍵句子作為遮蔽(MASK)處理,并利用剩余的句子來預(yù)測這些遮蔽的句子,以此模擬摘要生成的過程。此外,相較于PEGASUSBASE,PEGASUSLARGE具有更深的網(wǎng)絡(luò)層數(shù)和更多的參數(shù),這使得它能夠捕捉更復(fù)雜的特征表示,同時它也是一個強基線模型。
3.3.2 融合知識圖譜文本摘要模型
本文同樣選取了四個融合知識圖譜文本摘要模型作為基線模型。FASum和SKGSUM是兩個融合知識圖譜信息的經(jīng)典模型,而RHGNNSumExt和KSDASum則被視為強基線模型。
a)SKGSUM[33]和FASum[5]。SKGSUM和FASum均為融合知識圖譜摘要模型,SKGSUM以句子和實體為節(jié)點,捕捉不同文本層次上單元之間的關(guān)系,聚焦源文檔中的突出內(nèi)容,指導(dǎo)摘要生成過程并且其主要關(guān)注點在于提高文本摘要與原摘要的相似度,而FASum更加注重生成摘要的事實性。
b)KSDASum[15]。在融合知識和文本語義信息的基礎(chǔ)上,引入了指針網(wǎng)絡(luò)和強化學(xué)習(xí)中的自我批判策略,以進一步提高摘要的準(zhǔn)確性和相關(guān)性。
c)RHGNNSumExt[34]。將知識圖譜(KG)和圖神經(jīng)網(wǎng)絡(luò)(GNN)聯(lián)系在一起,形成一個兩步摘要框架。定義一個多任務(wù)選擇器來選擇顯著句子和實體,并使用實體聚焦的抽象器來壓縮句子。通過構(gòu)建句子-實體圖,GNN與KG相連,其中實體-實體邊基于KG構(gòu)建,實體嵌入在KG上初始化,并使用實體-實體邊訓(xùn)練實體嵌入。
3.4 實驗結(jié)果
在模型訓(xùn)練前,KGDR-CLSUM接收的原始文本首先經(jīng)由圖1展示的離線處理模塊提取預(yù)訓(xùn)練的實體特征。在隨后的模型訓(xùn)練階段,知識圖譜編碼器的輸入數(shù)據(jù)源自圖1離線模塊的處理結(jié)果,與此同時,文本編碼器的輸入數(shù)據(jù)則直接采用原始文本。最終,KGDR-CLSUM生成的輸出為文章的摘要形式。此外,KGDR-CLSUM與現(xiàn)有模型的比較實驗分別在CNN/Daily Mail和XSum數(shù)據(jù)集上展開,采用ROUGE-1、ROUGE-2、ROUGE-L作為主要的評價指標(biāo)。
實驗結(jié)果詳見表2、3,充分展示了KGDR-CLSUM在CNN/Daily Mail和XSum數(shù)據(jù)集上的優(yōu)異表現(xiàn)。在ROUGE-1、ROUGE-2和ROUGE-L三項指標(biāo)上,KGDR-CLSUM的得分均超越了所有基線模型。
具體來說,在CNN/Daily Mail數(shù)據(jù)集上,KGDR-CLSUM與PEGASUSBASE相比,在ROUGE-1、ROUGE-2和ROUGE-L指標(biāo)上分別提升了3.03%、3.42%和2.56%。在XSum數(shù)據(jù)集上,性能提升更為顯著,分別達到了7.54%、8.78%和8.51%。這說明本文改進可以有效提高文本摘要的性能。
KGDR-CLSUM可以被視為一個基于PEGASUSBASE的模型。相對于PEGASUSBASE, BART和PEGASUSBASE擁有相同的層數(shù),但它擁有更多的參數(shù)。而PEGASUSLARGE同時擁有更多的層數(shù)和參數(shù)。相較于BART和PEGASUSLARGE,KGDR-CLSUM在兩個數(shù)據(jù)集的多個評價指標(biāo)上達到了超越的效果。這證明了本文提出優(yōu)化策略可以令一個模型達到超越擁有更多參數(shù)和層數(shù)模型的效果。
本文從模型文本輸入長度和文本對應(yīng)摘要是抽取式還是生成式的兩個角度來驗證KGDR-CLSUM模型的魯棒性。
在CNN/Daily Mail數(shù)據(jù)集中,訓(xùn)練集源文本的平均長度為766個詞,這通常被分類為長文本;而XSum數(shù)據(jù)集的平均長度為431個詞,被歸類為短文本。KGDR-CLSUM在這兩種文本長度條件下均表現(xiàn)出穩(wěn)定的性能,這凸顯了其良好的適應(yīng)性和穩(wěn)健性。
此外,CNN/Daily Mail傾向于抽取式摘要,其摘要內(nèi)容主要來源于原文中的句子;相比之下,XSum的摘要則完全由人類撰寫。值得注意的是,盡管本文模型在這兩個數(shù)據(jù)集上均保持了穩(wěn)定的性能,但在XSum數(shù)據(jù)集上的實驗結(jié)果顯著優(yōu)于CNN/Daily Mail數(shù)據(jù)集,這一現(xiàn)象表明KGDR-CLSUM更適用于生成式摘要的數(shù)據(jù)集。
值得注意的是,盡管RHGNNSumExt和KSDASum都是融合了知識信息的模型,但本文模型仍然展現(xiàn)出了更好的性能。這一結(jié)果表明,本文模型在融合知識圖譜信息方面具有優(yōu)勢。
3.5 消融實驗
為了深入探究KGDR-CLSUM中各模塊的功效,本文開展了消融實驗。表4陳列了在CNN/Daily Mail與XSum數(shù)據(jù)集上的實驗結(jié)果。值得注意的是,KGDR-CLSUM-all實質(zhì)上是PEGASUSBASE模型在本文中的別稱,它指的是KGDR-CLSUM模型中所有模塊均被剔除的狀態(tài)。
KGDR-CLSUM-ktc和KGDR-CLSUM-dtn分別代表了移除對比學(xué)習(xí)模塊和雙流網(wǎng)絡(luò)模塊的變體模型。它們都有對齊知識圖譜實體特征的作用,但KGDR-CLSUM-ktc還擁有緩解特征不足導(dǎo)致的生成摘要質(zhì)量問題的作用。KGDR-CLSUM-mom代表移除動量蒸餾模塊的模型,動量蒸餾模塊的設(shè)計旨在克服原始知識信息中存在的噪聲問題。
通過表4數(shù)據(jù)分析可知,在兩個數(shù)據(jù)集上,去除任何一個模塊都會導(dǎo)致模型性能的下降,這一現(xiàn)象證實了三個模塊的有效性。此外,去除對比學(xué)習(xí)模塊對模型的影響最大,而去除動量蒸餾模塊的影響最小。并且雙流網(wǎng)絡(luò)模塊的作用同樣超過了動量蒸餾模塊。這說明在融合知識圖譜摘要任務(wù)中,特征對齊的作用非常重要。
3.6 實例分析
為了全面評估摘要生成的質(zhì)量,本文從CNN/Daily Mail和XSum的測試集中隨機選取了300篇文章。這些文章的摘要由ChatGPT和本文模型分別生成。隨后,三名研究人員對這些摘要進行了盲評審打分。打分的標(biāo)準(zhǔn)主要基于兩個方面:a)事實匹配度。評估生成摘要與原有摘要在內(nèi)容上是否一致,即摘要是否準(zhǔn)確反映了原文的核心信息和細(xì)節(jié)。b)流暢度。評估生成摘要的可讀性,包括語法正確性、句子連貫性以及整體表達的自然性。打分范圍設(shè)定為0~10分,其中分?jǐn)?shù)越高,表示生成的摘要在事實匹配度和流暢度方面的表現(xiàn)越好。
從表5的分析結(jié)果來看,本文模型在人工評分環(huán)節(jié)獲得了8.0分的高分,而ChatGPT的得分為4.2分。這表明,在CNN/Daily Mail和XSum上,本文模型的摘要生成能力顯著優(yōu)于ChatGPT。表6呈現(xiàn)了ChatGPT生成的摘要、本文模型生成的摘要、原文摘要以及原文之間的對比分析。ChatGPT生成的內(nèi)容未能準(zhǔn)確捕捉原文的核心要點,其生成信息與原始摘要存在較大偏差。相較之下,本文模型更有效地提取了原文的關(guān)鍵信息,生成的摘要中包含了更多與原文摘要相關(guān)的關(guān)鍵詞,且更貼近原始摘要的內(nèi)容。此外,本文還在表6中補充了一個中文實例,以進一步闡述KGDR-CLSUM模型的性能優(yōu)勢。
4 結(jié)束語
本文提出了一種階段式的融合知識圖譜摘要模型框架。該模型的編碼器部分由GATs和Transformer結(jié)合而成,從而可以綜合考慮知識和文本信息。并通過引入對比學(xué)習(xí)策略,先對知識圖譜模態(tài)和文本信息模態(tài)進行對齊,再將它們作為多模態(tài)編碼器的輸入解決實體特征和文本信息特征位于不同空間的問題。與此同時,動量模型產(chǎn)生的偽目標(biāo)將作為模型訓(xùn)練時的額外監(jiān)督信號,克服來自O(shè)penIE等平臺的噪聲影響。在CNN/Daily Mail和XSum上的實驗結(jié)果和人工評價結(jié)果表明,本文模型相對于其他對比模型在ROUGE評價指標(biāo)上有著最好的結(jié)果,并且生成的摘要還兼顧了原文的事實性。
未來研究工作計劃在現(xiàn)有成果的基礎(chǔ)上進一步擴展,專注于處理數(shù)據(jù)集偏向抽取式摘要時模型表現(xiàn)不佳的問題,以提升模型在多樣化場景下的表現(xiàn)和性能。
參考文獻:
[1]Gupta S, Gupta S K. Abstractive summarization: an overview of the state of the art[J]. Expert Systems with Applications, 2019, 121: 49-65.
[2]Mridha M F, Lima A A, Nur K, et al. A survey of automatic text summarization: progress, process and challenges[J]. IEEE Access, 2021, 9: 156043-156070.
[3]Wang Shaolei, Che Wangxiang, Liu Qi, et al. Multi-task self-supervised learning for disfluency detection[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 9193-9200.
[4]Camarillo-Ramirez P, Cervantes-Alvarez F, Gutiérrez-Preciado L F. Semantic maps for knowledge graphs: a semantic-based summarization approach[J]. IEEE Access, 2024, 12: 6729-6744.
[5]Zhu Chenguang, Hinthorn W, Xu Ruochen, et al. Enhancing factual consistency of abstractive summarization[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2021: 718-733.
[6]晉艷峰, 黃海來, 林沿錚, 等. 基于知識表示學(xué)習(xí)的KBQA答案推理重排序算法[J]. 計算機應(yīng)用研究, 2024, 41(7): 1983-1991. (Jin Yanfeng, Huang Hailai, Lin Yanzheng, et al. KBQA answer inference re-ranking algorithm based on knowledge representation learning[J]. Application Research of Computers, 2024, 41(7): 1983-1991.)
[7]Manning C, Surdeanu M, Bauer J, et al. The Stanford CoreNLP natural language processing toolkit[C]//Proc of the 52nd Annual Mee-ting of the Association for Computational Linguistics: System Demonstrations. Stroudsburg, PA: Association for Computational Linguistics, 2014: 55-60.
[8]Rush A M, Chopra S, Weston J. A neural attention model for abstractive sentence summarization[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015: 379-389.
[9]Chopra S, Auli M, Rush A M. Abstractive sentence summarization with attentive recurrent neural networks[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2016: 93-98.
[10]See A, Liu P J, Manning C D. Get to the point: summarization with pointer-generator networks[C]//Proc of the 55th Annual Meeting of the Association forComputational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2017: 1073-1083.
[11]Colin R, Noam S, Adam R, et al. Exploring the limits of transfer learning with a unified text-to-text transformer[J]. Journal of Machine Learning Researchm, 2020, 21(140): 1-67.
[12]Lewis M, Liu Yinhan, Goyal N, et al. BART: denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 7871-7880.
[13]Zhang Jingqing, Zhao Yao, Saleh M, et al. PEGASUS: pre-training with extracted gap-sentences for abstractive summarization[C]//Proc of International conference on machine learning.[S.l.]: PMLR, 2020: 11328-11339.
[14]Fernandes P, Allamanis M, Brockschmidt M. Structured neural summarization[EB/OL]. (2018-11-05). https://arxiv.org/abs/1811.01824.
[15]Kryscinski W, McCann B, Xiong Caiming, et al. Evaluating the factual consistency of abstractive text summarization[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2020: 9332-9346.
[16]Huang Luyang, Wu Lingfei, Wang Lu. Knowledge graph-augmented abstractive summarization with semantic-driven cloze reward[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 5094-5107.
[17]賈莉, 馬廷淮, 桑晨揚, 等. 融合知識和語義信息的雙編碼器自動摘要模型[J/OL]. 計算機工程與應(yīng)用. (2024-04-25). https://link.cnki.net/urlid/11.2127.tp.20240423.2008.009. (Jia Li, Ma Tinghua, Sang ChenYang, et al. Dual-encoder automatic summarization model incorporating knowledge and semantic information[J/OL]. Computer Engineering and Applications. (2024-04-25). https://link.cnki.net/urlid/11.2127.tp.20240423.2008.009.)
[18]Li Junnan, Selvaraju R, Gotmare A, et al. Align before fuse: vision and language representation learning with momentum distillation[C]//Proc of the 35th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., Article No.742.
[19]Ma Xinge, Wang Jin, Yu L-C, et al. Knowledge distillation with reptile meta-learning for pretrained language model compression[C]//Proc of the 29th International Conference on Computational Linguistics.[S.l.]: International Committee on Computational Linguistics, 2022: 4907-4917.
[20]Dong Aimei, Liu Jian, Zhang Guodong, et al. Momentum contrast transformer for COVID-19 diagnosis with knowledge distillation[J]. Pattern Recognition, 2023, 143: 109732.
[21]Li Siqi, Deng Weihong, Hu Jiani. Momentum distillation improves multimodal sentiment analysis[M]//Yu Shiqi, Zhang Zhaoxiang, Yuen Pong C, et al. Pattern Recognition and Computer Vision. Cham: Springer, 2022: 423-435.
[22]Wang Maorong, Michel N, Xiao Ling, et al. Improving plasticity in online continual learning via collaborative learning[C]//Proc of the 41st International Conference on Machine Learning.[S.l.]: PMLR, 2024: 23460-23469.
[23]Du Mengfei, Wu Binhao, Zhang Jiwen, et al. DELAN: dual-level alignment for vision-and-language navigation by cross-modal contrastive learning[C]//Proc of Joint International Conference on Language Resources and Evaluation. 2024: 4605-4616.
[24]林潔霞, 朱小棟. CMHICL: 基于跨模態(tài)分層交互網(wǎng)絡(luò)和對比學(xué)習(xí)的多模態(tài)諷刺檢測[J]. 計算機應(yīng)用研究, 2024, 41(9): 2620-2627. (Lin Jiexia, Zhu Xiaodong. CMHICL: multi-modal sarcasm detection with cross-modal hierarchical interaction network and contrastive learning[J]. Application Research of Computers, 2024, 41(9): 2620-2627.)
[25]Kipf T, Van der Pol E, Welling M. Contrastive learning of structured world models[EB/OL]. (2019-11-27). https://arxiv.org/abs/1911.12247.
[26]Han Jiaming, Gong Kaixiong, Zhang Yiyuan, et al. OneLLM: one framework to align all modalities with language[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2024: 26574-26585.
[27]吳運兵, 曾煒森, 高航, 等. 基于雙流殘差融合的多模態(tài)諷刺解釋研究[J/OL]. 小型微型計算機系統(tǒng). (2024-01-31). https://kns.cnki.net/kcms/detail/21.1106.TP.20240130.1521.012.html. (Wu Yunbing, Zeng Weisen, Gao Hang, et al. Multimodal sarcasm explanation survey based on dual-stream residual fusion[J/OL]. Journal of Chinese Computer Systems. (2024-01-31). https://kns.cnki.net/kcms/detail/21.1106.TP.20240130.1521.012.html.)
[28]Velickovic P, Cucurull G, Casanova A, et al. Graph attention networks[EB/OL]. (2017-10-30). https://arxiv.org/abs/1710.10903.
[29]Levi F W, Calcutta U O. Finite geometrical systems; six public lectues delivered in February, 1940, at the University of Calcutta[M]. Calcutta: The University of Calcutta, 1942.
[30]Devlin J, Chang Mingwei, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2019: 4171-4186.
[31]He Kaiming, Fan Haoqi, Wu Yuxin, et al. Momentum contrast for unsupervised visual representation learning[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 9726-9735.
[32]Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[EB/OL]. (2019). https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf.
[33]Ji Xin, Zhao Wen. SKGSUM: abstractive document summarization with semantic knowledge graphs[C]//Proc of International Joint Conference on Neural Networks. Piscataway, NJ: IEEE Press, 2021: 1-8.
[34]Chen Jingqiang. An entity-guided text summarization framework with relational heterogeneous graph neural network[J]. Neural Computing and Applications, 2024, 36(7): 3613-3630.