張 琪,范永勝
(重慶師范大學(xué) 計算機(jī)與信息科學(xué)學(xué)院,重慶 401331)
近年來,互聯(lián)網(wǎng)上各種新聞、論文、法律文件等文本數(shù)據(jù)量大幅增長[1]。隨著移動互聯(lián)網(wǎng)的興起,用戶可從移動設(shè)備上獲取大量文本內(nèi)容,但這些文本內(nèi)容大多存在內(nèi)容冗余、重點模糊等問題,使得用戶在閱讀時出現(xiàn)耗時長、抓不住文本重點等情況。因此,為了讓用戶更快更準(zhǔn)確地從海量互聯(lián)網(wǎng)信息中獲取更有效的核心內(nèi)容,文本摘要算法應(yīng)運而生。
根據(jù)文本摘要的獲取方式可以將其分為抽取式文本摘要和生成式文本摘要[2],前者計算原文中的句子權(quán)重,根據(jù)權(quán)重進(jìn)行排序,選擇權(quán)重高的部分句子組成摘要;后者通過深度學(xué)習(xí)模型根據(jù)文章大致意思生成新的句子,而生成的摘要內(nèi)容可能存在原文中沒有的詞語或句子。
文獻(xiàn)[3]提出詞頻和單詞的相對位置是衡量詞語重要性的兩個指標(biāo),文章中重要的句子是包含詞頻高單詞的句子,摘要將這些重要的句子組合起來。隨著深度學(xué)習(xí)的興起,越來越多的研究人員開始進(jìn)行生成式文本摘要任務(wù)的研究。文獻(xiàn)[4]提出了PEGASUS模型,其基本思想是通過遮擋部分句子連接間隔句子[5],選取文本中與其他句子重合率最高(即公共子序列最長)的某些句子將其作為摘要,從而構(gòu)建可用于訓(xùn)練的摘要語料。文獻(xiàn)[6]在4個數(shù)據(jù)集上比較了T5、BART和PEGASUS模型的零樣本學(xué)習(xí)和小樣本學(xué)習(xí)效果。文獻(xiàn)[7]將PEGASUS模型應(yīng)用在初等數(shù)學(xué)應(yīng)用題中,且通過微調(diào)數(shù)據(jù)集大小來驗證PEGASUS模型的小樣本學(xué)習(xí)能力。文獻(xiàn)[8]在兩個數(shù)據(jù)集上比較TF-IDF、LexRank、TextRank、BertSum和PEGASUS模型的效果。文獻(xiàn)[9]利用自然語言處理自動生成多項選擇題,將PEGASUS模型生成的摘要作為多項選擇題的問題,由KeyBERT確定答案的選項,使用Sense2Vec生成與問題相關(guān)的錯誤選項。
PEGASUS模型適用于英文,無法直接用于中文領(lǐng)域,因此追一科技將PEGASUS和T5模型的多國語言版mT5進(jìn)行整合,開發(fā)出了預(yù)訓(xùn)練的中文生成式模型T5 PEGASUS。文獻(xiàn)[10]通過提示學(xué)習(xí)、數(shù)據(jù)增強(qiáng)以及關(guān)鍵詞提取等技術(shù)構(gòu)建圖書信息語料,將語料輸入T5 PEGASUS模型中生成圖書宣傳語。
由于目前少有研究人員進(jìn)行改進(jìn)T5 PEGASUS模型的相關(guān)研究,因此本文針對該模型的中文分詞方法進(jìn)行改進(jìn),在原有基礎(chǔ)上將Jieba分詞替換為在新聞領(lǐng)域具有更好分詞效果的Pkuseg分詞,并在多個公開新聞數(shù)據(jù)集上驗證了改進(jìn)T5 PEGASUS模型的有效性。
T5模型[11]是Encoder-Decoder結(jié)構(gòu)的Transformer預(yù)訓(xùn)練語言模型,mT5[12]是T5模型的多國語言變體。T5 PEGASUS是一種新的T5模型,其首先將mT5作為基礎(chǔ)架構(gòu)和初始權(quán)重;然后結(jié)合中文的特點將mT5的Tokenizer換為BERT的Tokenizer,并與Jieba分詞相結(jié)合;最后在中文語料上借鑒PEGASUS模型的思路構(gòu)建預(yù)訓(xùn)練任務(wù)。
T5 PEGASUS模型的基本思想是盡可能令文本中約25%的句子與剩余75%的句子重合率最高,即公共子序列最長。隨后將75%的句子組成的文本作為原文,將25%的句子組成的文本作為摘要,從而構(gòu)建可用于訓(xùn)練的摘要語料。
T5 PEGASUS模型在進(jìn)行中文文本摘要生成任務(wù)時,需要先對中文數(shù)據(jù)集進(jìn)行分詞處理,再使用T5模型進(jìn)行數(shù)據(jù)預(yù)處理。原有模型使用Jieba的精確模式進(jìn)行中文分詞,本文針對中文分詞方法進(jìn)行改進(jìn),通過多次實驗發(fā)現(xiàn)北京大學(xué)發(fā)布的Pkuseg分詞方法效果最佳。該分詞方法具有多領(lǐng)域分詞、高分詞準(zhǔn)確率的特性,并支持用戶使用自己的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練[13]。
目前開源的T5 PEGASUS模型有Base版和Small版,本文采用Small版進(jìn)行研究,模型流程如圖1所示。
本文的實驗環(huán)境如表1所示。
表1 實驗環(huán)境
在實驗中需要進(jìn)行多次迭代來調(diào)整超參數(shù)[14],最終的參數(shù)設(shè)置由表2所示。
表2 參數(shù)設(shè)置
本文采用3種新聞文本長度不同的數(shù)據(jù)集進(jìn)行實驗。為了避免數(shù)據(jù)集條數(shù)對結(jié)果產(chǎn)生影響,選取NLPCC2017 Shared Task3評測任務(wù)的數(shù)據(jù)集(NLPCC2017)、LCSTS數(shù)據(jù)集[15]以及搜狗實驗室整理的2012年6月至7月期間18個頻道的新聞數(shù)據(jù)(SogouCS)這3種數(shù)據(jù)集的前50 000條數(shù)據(jù)進(jìn)行研究。
統(tǒng)計NLPCC2017、LCSTS、SogouCS這3種數(shù)據(jù)集的新聞文本和參考摘要的長度,分別如圖2、圖3和圖4所示。
(a)
(a)
(a)
從圖2~圖4可以看出,NLPCC2017屬于長文本數(shù)據(jù)集,其新聞平均長度為991字,摘要平均長度為46字;LCSTS屬于短文本數(shù)據(jù)集,其新聞平均長度為105字,摘要平均長度為18字;SogouCS屬于中長文本數(shù)據(jù)集,其新聞平均長度為487字,摘要平均長度為19字。
本文使用ROUGE[16]指標(biāo)對T5 PEGASUS模型生成的摘要進(jìn)行評估。ROUGE將多位專家撰寫的人工摘要作為參考摘要,統(tǒng)計參考摘要和模型生成摘要之間重疊的基本單元數(shù)量,以衡量參考摘要和模型生成摘要之間的相似程度,從而評價摘要質(zhì)量。ROUGE分別計算準(zhǔn)確率P、召回率R和F值,計算式分別如式(1)~式(3)所示。
(1)
(2)
(3)
其中,{RS}代表參考摘要;gramn代表n-gram的長度;Countmatch(gramn)代表參考摘要和模型生成摘要之間重疊的基本單元數(shù);Countsummary(gramn)代表模型生成摘要中基本單元數(shù);Count(gramn)代表參考摘要中基本單元數(shù)。
本文主要從ROUGE-1(基于1元詞)、ROUGE-2(基于2元詞)和ROUGE-L(基于最長子字串)3方面的結(jié)果來評測實驗效果。
T5 PEGASUS模型在進(jìn)行數(shù)據(jù)預(yù)處理時使用Jieba的精確模式進(jìn)行中文分詞。本文使用北京大學(xué)發(fā)布的Pkuseg和清華大學(xué)發(fā)布的THULAC分詞方法在3種不同公開數(shù)據(jù)集上與Jieba進(jìn)行對比,對比結(jié)果如表3所示。
表3 中文分詞方法對ROUGE值的影響
由表3可知,Pkuseg分詞方法的F值均優(yōu)于Jieba、THULAC分詞方法,多數(shù)R值、P值優(yōu)于Jieba、THULAC分詞方法。其中,Pkuseg分詞方法應(yīng)用在SogouCS數(shù)據(jù)集上的ROUGE值均達(dá)到最佳,并且相關(guān)研究發(fā)現(xiàn)Pkuseg分詞方法針對詞匯的邊界識別問題優(yōu)于Jieba和THULAC[17],因此本文使用Pkuseg替換原有Jieba分詞方法。
本文研究了3種新聞文本長度不同的數(shù)據(jù)集對ROUGE值的影響,實驗結(jié)果如表4所示。
表4 新聞文本長度對ROUGE值的影響
由表4可知,NLPCC2017數(shù)據(jù)集的ROUGE值均最高,其次是SogouCS數(shù)據(jù)集,LCSTS數(shù)據(jù)集的ROUGE值最低,證明改進(jìn)T5 PEGASUS模型生成摘要的ROUGE值與新聞文本長度成正相關(guān),更適用于長文本數(shù)據(jù)集。
本文研究了3種不同數(shù)據(jù)集的訓(xùn)練集損失值與迭代次數(shù)的變化關(guān)系,結(jié)果如圖5所示。
圖5 訓(xùn)練集迭代次數(shù)與損失值的關(guān)系Figure 5. Relationship between the number of iterations of the training set and the loss value
由圖5可以看出,訓(xùn)練集的損失值基本隨著迭代次數(shù)的增加而降低,且收斂速度逐漸變慢[18],其中3個數(shù)據(jù)集均在迭代次數(shù)為8時損失值達(dá)到最低。LCSTS數(shù)據(jù)集的訓(xùn)練集損失值最高且損失值下降速度最快,其次是SogouCS數(shù)據(jù)集,NLPCC2017數(shù)據(jù)集的訓(xùn)練集損失值最低且損失值下降速度最慢,證明訓(xùn)練集的損失值和損失值下降速度均與新聞文本長度成負(fù)相關(guān)。
由于F值受P值和R值的共同影響,因此將F值作為代表分析研究迭代次數(shù)與ROUGE值的關(guān)系,結(jié)果如圖6所示。
圖6 迭代次數(shù)與ROUGE值的關(guān)系Figure 6. Relationship between the number of iterations and ROUGE value
由圖6可以看出,NLPCC2017數(shù)據(jù)集的ROUGE值均隨迭代次數(shù)增加而增大。LCSTS和SogouCS數(shù)據(jù)集的ROUGE值分別在迭代次數(shù)為2和7時達(dá)到最高值,隨后ROUGE值隨迭代次數(shù)的增加呈減少趨勢。從圖6中觀察到每個數(shù)據(jù)集的3條線均呈平行現(xiàn)象,證明隨著迭代次數(shù)的增加,ROUGE值的變化趨勢相同。
本文研究不同新聞數(shù)量對ROUGE值的影響,分別選取NLPCC2017數(shù)據(jù)集中的前10條、50條、100條、500條、1 000條、5 000條以及10 000條數(shù)據(jù)進(jìn)行測試,測試結(jié)果如表5所示。
表5 NLPCC2017數(shù)據(jù)集新聞數(shù)量對ROUGE結(jié)果的影響
由表5可以看出,在新聞數(shù)量達(dá)到100時,仍有部分?jǐn)?shù)值超過新聞數(shù)量為10 000時的結(jié)果,證明改進(jìn)的T5 PEGASUS模型具有較強(qiáng)的小樣本學(xué)習(xí)的能力。使用LCSTS、SogouCS數(shù)據(jù)集佐證模型的小樣本學(xué)習(xí)能力,ROUGE結(jié)果分別如表6和表7所示。
表6 LCSTS數(shù)據(jù)集新聞數(shù)量對ROUGE結(jié)果的影響
表7 SogouCS數(shù)據(jù)集新聞數(shù)量對ROUGE結(jié)果的影響
由表6和表7可以看出,LCSTS、SogouCS兩個數(shù)據(jù)集在新聞數(shù)量為100時,多數(shù)ROUGE值超過新聞數(shù)量為50 000時的結(jié)果,進(jìn)一步證明了改進(jìn)T5 PEGASUS模型具有較強(qiáng)的小樣本學(xué)習(xí)能力。
本文使用T5 PEGASUS模型進(jìn)行摘要生成,在原有模型基礎(chǔ)上使用Pkuseg中文分詞方法替換原有Jieba分詞方法進(jìn)行分詞處理,并使用3種新聞長度不同的公開數(shù)據(jù)集NLPCC2017、LCSTS和SogouCS進(jìn)行摘要生成結(jié)果研究。通過研究發(fā)現(xiàn),改進(jìn)T5 PEGASUS模型生成摘要的ROUGE值與新聞文本長度成正相關(guān),更適用于長文本數(shù)據(jù)集NLPCC2017,并且模型的訓(xùn)練集損失值和損失值下降速度均與新聞文本長度成負(fù)相關(guān),在面對少量訓(xùn)練集時能得到較高的ROUGE分?jǐn)?shù),因此該模型具有較強(qiáng)的小樣本學(xué)習(xí)能力。