全安坤 李紅蓮
關鍵詞:長文本;抽取式摘要;主題關鍵詞;義原;冗余信息處理
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2023)20-0008-05
0 引言
在互聯(lián)網(wǎng)飛速發(fā)展的大數(shù)據(jù)時代,網(wǎng)絡數(shù)據(jù)呈現(xiàn)出爆發(fā)式的增長,通過人工對海量文本數(shù)據(jù)進行重要信息提取的方式成本大、速度慢,已經(jīng)變得不現(xiàn)實,信息過載的問題亟待解決。隨著深度學習技術(shù)的發(fā)展與其在自然語言處理領域的廣泛應用,可以將該技術(shù)應用于自動文本摘要中。
自動文本摘要按照輸出類型,可以分為抽取式摘要和生成式摘要[1]。生成式摘要利用深度學習算法對文本中的句子或者詞組進行語義內(nèi)容提取,達到理解文本信息的目的,生成質(zhì)量較高的摘要,但是其在處理長文本時,仍然存在未登錄詞問題、生成重復問題和長距離依賴問題[2],導致生成的摘要不能準確地表達文章的主要思想,所以生成式摘要方法一般用于短文本摘要生成任務中,而在實際的應用場景中,需要處理的主要為長文本。抽取式摘要適用于長文本摘要生成,該方法是從原文中選擇出能夠代表文章主題的關鍵句組合成摘要,因此該方法生成的摘要在語法方面錯誤率低,但其在保留原文主要內(nèi)容的同時,也會引入過多的冗余信息。
早在20世紀50年代,Luhn[3]就提出了基于統(tǒng)計規(guī)則的抽取式摘要方法,利用詞頻等統(tǒng)計信息給句子進行排序,根據(jù)排序篩選出關鍵句組合成摘要,該方法為文本摘要技術(shù)的發(fā)展奠定了基礎。Lead3是一種基于經(jīng)驗的抽取式摘要方法,該方法取文章的前三句內(nèi)容作為摘要,這種方法簡單直接,取得了一定的效果,由于沒有考慮整篇文章的信息,所以具有一定的局限性。Mihalcea 等人[4]提出了一種基于圖的排序方法TextRank,首先將文章分割成多個句子,每個句子作為圖中的一個頂點,句子之間相互連接,構(gòu)建出一個連接圖,并利用算法獲取句子之間的相似度作為邊的權(quán)重,然后通過TextRank算法進行迭代運算,得到每個句子的分值,最后抽取得分較高的句子組合成文本摘要,TextRank 的出現(xiàn)使抽取式摘要方法進一步發(fā)展,但是該方法在計算句子相似度時,沒有考慮語義層面的信息,而且抽取得到的摘要冗余信息比較多。Sutskever 等人[5] 提出序列到序列(Sequence to Se?quence, Seq2Seq)框架,使生成式摘要變得可行,該框架是一種編碼器-解碼器結(jié)構(gòu)。目前,在生成式摘要方法中,編碼器一般都是基于BERT(Bidirectional En?coder Representation from Transformers)模型[6]構(gòu)建的,該模型擁有強大的文本特征提取能力,能夠挖掘到文本的語義信息,可以讓生成的摘要質(zhì)量進一步提升,但是在進行長文本摘要生成任務時,生成式摘要方法仍然存在長距離依賴等問題。
針對以上抽取式摘要方法存在的語義信息缺失和抽取信息冗余問題,本文提出了一種面向長文本的抽取式摘要生成方法,使用WoBERT(Word-basedBERT)模型[7]獲取融入義原信息的文本特征,并通過MMR[8](Maximal Marginal Relevance)算法減少冗余信息,有效解決了語義信息缺失和信息冗余的問題,提升了抽取得到的摘要質(zhì)量。
1 模型構(gòu)建
本文提出的方法是由句子特征提取、句子打分、摘要抽取三部分組成。第一部分,使用SAT[9](Sememe At?tention over Target Model)模型引入義原得到能夠準確表示語義信息的文本特征,然后將該特征作為嵌入層詞向量輸入WoBERT模型中獲取擁有語義信息的高表征的句子文本特征,第二部分首先是利用余弦相似度算法根據(jù)獲取的高表征文本特征計算句子間相似度,并將該相似度作為TextRank方法中邊的權(quán)重進行迭代運算,得到每個句子的TextRank分數(shù),然后利用LDA(Latent Dirichlet Allocation)主題模型得到文章的主題關鍵詞,并根據(jù)主題關鍵詞在每個句子出現(xiàn)的頻次得到句子的主題關鍵詞得分,最后將這兩種分值進行加權(quán)求和給句子打分。由于TextRank算法依賴句子間的相似度,這就意味著TextRank分值高的句子可能也非常相似,導致抽取出的摘要存在重復的冗余信息,所以在第三部分中引入MMR算法來減少冗余信息,使最終抽取的摘要內(nèi)容豐富且更符合文章主題。
1.1 句子特征提取
1.1.1 文本預處理
使用分詞工具根據(jù)WoBERT模型的詞表對輸入的長文本進行分詞,然后再對其去除特殊字符和無意義詞,示例如表1所示。
1.1.2 融合義原信息的文本特征表示
本文使用SAT模型來獲取融合義原信息的文本特征表示,以增加文本特征中所包含的語義信息。SAT模型是在Skip-Gram[10]模型上改進所得,融入了HowNet[11]義原信息,相比Skip-Gram模型,SAT模型既考慮了詞語的上下文信息又考慮了詞語的義原信息,有效提升了文本特征的語義信息,模型如圖1所示。
1.1.3 文本高表征特征提取
在獲取文本的高表征特征時,本文采用了WoB?ERT模型,該模型是基于BERT模型改進所得,BERT 是谷歌團隊基于Transformer[12]的編碼器堆疊且以無監(jiān)督方式在海量標記文本語料上訓練得到的語言模型,相比于傳統(tǒng)語言模型,它可以同時利用文本序列的正反兩個方向的信息,使得到的文本特征能夠更加準確地對文本進行表示。WoBERT利用了BERT的這一特點及其訓練機制,以詞為單位進行訓練來獲取文本特征,相比于BERT在訓練中文文本特征時以字為單位,WoBERT以詞為單位可以讓輸入序列變短,加快訓練速度,并且在中文文本中詞比字的語義信息更精準。
本文使用融合義原信息的文本特征作為WoBERT 模型嵌入層的單詞嵌入向量進一步抽取文本的高表征特征,使獲取的文本特征包含了豐富的語義信息。使用WoBERT獲取高表征的文本特征框架如圖2所示。
2 實驗及結(jié)果分析
2.1 數(shù)據(jù)集
目前,針對中文長文本進行自動文本摘要任務的數(shù)據(jù)集較少,本文使用的是2017年CCF國際自然語言處理與中文計算會議(NLPCC2017) 提供的數(shù)據(jù)集,該數(shù)據(jù)集是一個中文的中長文本新聞摘要數(shù)據(jù)集,共包含50 000 條數(shù)據(jù),每條數(shù)據(jù)由一篇平均長度約1000字的新聞文本與其對應的平均長度約44字的摘要組成。本文按照8:1:1的比例對數(shù)據(jù)集進行了劃分,選取前40 000條數(shù)據(jù)作為訓練集,驗證集和測試集各5 000條數(shù)據(jù)。
2.2 評估指標
ROUGE[14] (Recall-Oriented Understudy for GistingEvaluation)作為評估文本摘要的指標之一,該指標通過將網(wǎng)絡模型生成的摘要與參考摘要進行比較計算,得到相匹配的基本單元數(shù)目,從而對生成的摘要進行質(zhì)量評價。ROUGE指標又包含了多個評價指標,本文采用標準的ROUGE-1、ROUGE-2和ROUGE-L 對生成的摘要進行質(zhì)量評價。具體的計算方法如公式(14) 所示。
2.3 參數(shù)設置
實驗是在Ubuntu16.04、Tesla V100 的環(huán)境下進行,使用的PyTorch版本為1.6.0,Python版本為3.7.4。實驗中,在給句子打分時,TextRank分值權(quán)重系數(shù)α取值為0.8,關鍵詞分值權(quán)重系數(shù)β 取值為0.2,利用MMR算法控制冗余信息時,調(diào)節(jié)參數(shù)λ 設置為0.7,在使用WoBERT模型獲取高表征文本特征時,最大輸入詞數(shù)限制為512,對超過該長度的文本序列進行截取,不足的使用特殊符號進行補齊,批處理大小取值為16,學習率取值為1e-3,嵌入層詞向量與隱藏層的維度設置為768。
2.4 實驗結(jié)果分析
為了驗證本文提出方法的有效性,在NLPCC2017 數(shù)據(jù)集上將該方法與以下三種方法進行了實驗對比。
Lead3:該算法認為文章的前三句內(nèi)容可以代表整篇文章的主題思想,所以抽取前三句文本組合為原文摘要。
TextRank:該算法將文章中的句子作為頂點,句子間相似度作為邊的權(quán)重來構(gòu)建圖模型,然后進行迭代運算得到每個句子的TextRank值,最終選取值最高的一句或者幾句組合為原文摘要。
PGN:指針生成網(wǎng)絡,是一種生成式摘要方法,該模型采用一個雙向的LSTM作為編碼器對輸入文本進行編碼,并采用一個單向的LSTM作為解碼器。利用指針機制避免生成重復。
以上方法的實驗對比結(jié)果如表2所示。
從表2可以看出,本文提出的方法在NLPCC2017 數(shù)據(jù)集上的結(jié)果,相比于其他摘要生成方法在ROUGE指標上有所提升。Lead3方法抽取文章的前三句作為摘要,沒有考慮文章的全局信息,導致部分重要信息丟失,所以效果不是特別好。TextRank算法在進行抽取式摘要任務時依賴于句子之間的相似度,但是該算法在相似度計算時只考慮了句子間共現(xiàn)詞的出現(xiàn)次數(shù),并未考慮句子語義、句子位置和關鍵詞特征等信息,且利用該算法抽取的摘要句包含了一定的冗余信息,因此使用該方法獲取的摘要質(zhì)量相比于Lead3方法沒有太大的提升。指針生成網(wǎng)絡是一種生成式摘要方法,該方法中的編碼器和解碼器都使用了LSTM,在一定程度緩解了長距離依賴問題,且該方法引入了覆蓋機制,避免了生成摘要中存在大量的重復,因此,該方法的ROUGE分數(shù)提升較大。本文提出的方法相比于指針生成網(wǎng)絡,在ROUGE-1、ROUGE-2和ROUGE-L上分別提升了1.86%、4.35%和2.78%,由于本文利用WoBERT模型提取了融入義原信息的高表征文本特征,且利用余弦相似度算法代替了Tex?tRank算法中原有的相似度計算方法,還考慮了文章的關鍵詞特征,最后使用了MMR算法進行冗余信息處理,使抽取到的摘要更符合文章主題。實驗選取了測試集中的樣本數(shù)據(jù),使用上述四種方法分別得到的摘要實例如表3所示。
為了研究本文方法抽取出的句子數(shù)量對摘要質(zhì)量的影響,選取句子數(shù)量為2、3、4,在NLPCC2017數(shù)據(jù)集上開展了實驗,實驗結(jié)果如表4所示。
從表4中可以看出,當抽取4個句子作為摘要時,摘要質(zhì)量降低了,說明過多的文本引入了冗余信息,因此本文最終選擇抽取三個重要句子組合成文章摘要。
2.5 消融實驗
為了驗證本文方法的有效性,進行了如下的消融實驗,實驗結(jié)果如表5所示。
實驗1:將本文方法中WoBERT模型的嵌入層隨機初始化,不使用融入義原信息的詞向量。
實驗2:在對句子進行TextRank分數(shù)計算時,句子的相似度計算方法使用TextRank中原有算法。
實驗3:不考慮主題關鍵詞特征對摘要質(zhì)量的影響,其他結(jié)構(gòu)與本文方法相同。
實驗4:不使用MMR算法進行冗余信息處理,直接根據(jù)句子打分結(jié)果抽取重要句作為摘要。
從表5可以看出,相比實驗1,本文融入了義原信息提取高表征文本特征,使得到的特征向量能夠更準確地表示對應文本。相比實驗2,本文在計算句子的TextRank分值時,利用余弦相似度進行句子相似度計算,避免了原有算法只考慮句子間共現(xiàn)詞的影響。相比實驗3,本文考慮了文章的主題關鍵詞特征,由于關鍵詞能夠反映一篇文章的主題,所以使用關鍵詞特征可以提升摘要質(zhì)量。相比實驗4,本文使用MMR算法進行冗余度控制,避免摘要中包含大量冗余信息,有助于摘要質(zhì)量的提升。
3 結(jié)束語
本文提出了一種面向長文本的抽取式文摘要生成方法,該方法使用WoBERT模型獲取融入義原信息的文本特征,同時使用TextRank算法與關鍵詞特征對句子進行打分,并利用MMR算法進行冗余信息處理,使得到的摘要質(zhì)量有所提升。由于本文使用的數(shù)據(jù)集來源于新聞領域,所以本文方法的泛化性有待驗證,未來將考慮在其他領域數(shù)據(jù)集上驗證方法的有效性。