鄒 傲 郝文寧 靳大尉 陳 剛
自然語言處理(Natural Language Processing, NLP)領(lǐng)域的研究可分為自然語言理解(Natural Language Understanding, NLU)和自然語言生成(Natural Language Generation, NLG)兩方面.NLU側(cè)重于使計算機理解自然語言并提取有用的信息,以便于下游任務(wù)的使用.常見的NLU任務(wù)包括分詞、詞性標(biāo)注、句法分析等.NLG需要計算機能輸出人類可理解的自然語言文本,常見的NLG任務(wù)有翻譯、文本摘要等.
文本自動摘要(Automatic Text Summarization)是NLG領(lǐng)域中最具挑戰(zhàn)性的任務(wù)之一,根據(jù)Luhn等[1]的定義,文本摘要的形式化表達(dá)如下:輸入為包含n個單詞的原始文檔D,目標(biāo)輸出為包含原始文檔主要內(nèi)容的摘要Y,其中Y由m個單詞組成,滿足m?n.
根據(jù)生成方式的不同,文本自動摘要技術(shù)可分為抽取式自動摘要和生成式自動摘要,涉及的技術(shù)包含特征評分、分類算法、線性規(guī)劃、次模函數(shù)、圖排序、序列標(biāo)注和深度學(xué)習(xí)算法等[2].早期研究大多采用抽取式方法進行自動文本摘要[3-5],這類方法直接從原始文檔中提取關(guān)鍵文本序列,直觀且容易實現(xiàn).然而,抽取式方法生成的摘要文本全部來源于原始文檔中連續(xù)的文本序列,不可避免地帶有大量冗余信息.此外,通過選取原始文檔若干語句組成的文本概括性有限,只能提取原始文檔中的關(guān)鍵語句,并不是在理解原始文本的基礎(chǔ)上進行概括.因此,抽取式方法生成的摘要文本從本質(zhì)上講是受限的,難以生成概括性較強的高質(zhì)量摘要文本.
隨著深度學(xué)習(xí)研究的不斷深入,文本自動摘要領(lǐng)域開始出現(xiàn)一批生成式自動摘要的高質(zhì)量研究[6-10].2018年以后,ELMo(Embeddings from Lan-guage Models)[11]、GPT(Generative Pre-training)[12]及BERT(Bidirectional Encoder Representation from Transformers)[13]相繼出現(xiàn),使預(yù)訓(xùn)練語言模型+微調(diào)的模式成為自然語言處理領(lǐng)域?qū)嵱玫膽?yīng)用模式之一.將經(jīng)過充分預(yù)訓(xùn)練的語言模型應(yīng)用到生成式自動摘要任務(wù)只需少量的模型微調(diào)(Fine-Tune)即可達(dá)到與之前最優(yōu)模型(State-of-the-Art, SOTA)相媲美的性能表現(xiàn),并在GLUE(General Language Under-standing Evaluation)[14]、SQuAD(Stanford Question Answering Dataset)[15]、RACE(Large-Scale Reading Comprehension Dataset)[16]等NLP的多個下游任務(wù)中持續(xù)領(lǐng)先.因此,基于Transformer結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型也成為生成式摘要生成模型中基準(zhǔn)方法之一.
根據(jù)Lebanoff等[17]的總結(jié),生成式文本自動摘要技術(shù)主要通過兩種方法概括原始文檔.1)語句壓縮(Sentence Compression),去除句子中的單詞和短語,減小單個語句的長度[18-21].2)語句融合(Sen-tence Fusion),從若干語句中分別選取部分內(nèi)容并融成一個語句.由于刪除語句中不重要的內(nèi)容,仍能保持原句的語法語義正確,因此語句壓縮的難度相對較小[22].相比之下,語句融合需要對若干輸入語句進行凝練概括,難度較大,是生成式自動文本摘要模型的主要性能瓶頸.
受文獻[23]工作的啟發(fā),Lebanoff等[24]提出語句間信息聯(lián)系點(Points of Correspondence, PoC)的概念,用于研究摘要文本中的語句融合現(xiàn)象.Lebanoff等[17]對Pointer-Generator Networks[6]等方法的生成文本進行定量分析,并與人工生成的參考摘要進行對比,發(fā)現(xiàn)前期方法生成的文本雖然在ROUGE(Recall-Oriented Understudy for Gisting Evalua-tion)[25]等指標(biāo)上能取得不錯成績,但其中通過語句融合方法的使用比例遠(yuǎn)低于人類的平均水平.為了解決該問題,Lebanoff等[26]采用基于預(yù)訓(xùn)練語言模型的思路,設(shè)計兩個定制的模型,試圖提升生成文本中采用語句融合方法的數(shù)量和質(zhì)量,從而提升生成的摘要文本的質(zhì)量.
綜上所述,基于深度神經(jīng)網(wǎng)絡(luò)模型的生成式自動文本摘要模型主要存在如下缺點.1)所有方法基本都是基于序列到序列(Sequence to Sequence, Seq-2Seq)架構(gòu),以生成摘要中含有人類參考摘要文本中單詞重疊的統(tǒng)計學(xué)指標(biāo)進行激勵,并不能較好地引導(dǎo)模型融合語句、概括內(nèi)容,生成的文本中語句融合比例較少,概括性較弱.2)在解決生成式自動摘要中語句融合問題的方面,已有少數(shù)研究取得一定進展,但性能提升較有限,相關(guān)研究尚處于起步階段.
為此,本文對包含語句融合標(biāo)注的文本摘要數(shù)據(jù)集進行深入探究,并添加細(xì)化標(biāo)注,以便于后續(xù)研究的開展.針對利用語句融合進行生成式文本自動摘要任務(wù),提出基于語句融合和自監(jiān)督訓(xùn)練的文本摘要生成模型,設(shè)計類語言模型訓(xùn)練任務(wù),利用數(shù)據(jù)標(biāo)注構(gòu)造一個文本序列級別的置換語言模型(Per-mutation Language Model, PLM)并進行訓(xùn)練.又針對較通用的Seq2Seq結(jié)構(gòu)在處理語句融合方面能力不足的問題,在解碼端(Decoder)設(shè)計基于PoC的掩碼策略,加強生成階段的語句融合能力.在公開數(shù)據(jù)集上的實驗表明,本文模型能取得性能提升.此外,本文還通過模型隱層狀態(tài)可視化的方式進一步探究本文模型的可解釋性.
語句融合在文本自動摘要中起著突出的作用,重要性已得到學(xué)界的共識[27].現(xiàn)有的文本自動摘要數(shù)據(jù)集(如CNN/Daily Mail)[28-29]并未在訓(xùn)練數(shù)據(jù)中標(biāo)注有關(guān)語句融合的信息.Lebanoff等[24]填補這方面的空白,受Halliday等[23]關(guān)于英語文法中信息融合相關(guān)研究的啟發(fā),提出基于PoC信息在CNN/Daily Mail數(shù)據(jù)集上進行標(biāo)注的思路,通過外包方式完成標(biāo)注并公開數(shù)據(jù)集,為后續(xù)有關(guān)語句融合的研究提供便利.
文獻[24]中數(shù)據(jù)集將語句融合所需的PoC分為5種類型:代詞指稱(Pronominal Referencing)、名義指稱(Nominal Referencing)、普通名詞指稱(Com-mon-Noun Referencing),重復(fù)(Repetition)及事件驅(qū)動(Event Triggers).在該數(shù)據(jù)集中,每個樣本由兩個包含PoC的源語句和一個摘要語句構(gòu)成,且標(biāo)注PoC類型及其在源語句和摘要語句中的具體出現(xiàn)位置.
自監(jiān)督訓(xùn)練(Self-Supervised Training)是指模型可直接從無標(biāo)簽數(shù)據(jù)中自行學(xué)習(xí),無需標(biāo)注數(shù)據(jù).作為自監(jiān)督訓(xùn)練的一種,預(yù)訓(xùn)練語言模型(Pre-Trained Models, PTM)是指在大規(guī)模無標(biāo)注文本上學(xué)習(xí)統(tǒng)一的語言表示,方便下游NLP任務(wù)的使用,避免從頭開始為新任務(wù)訓(xùn)練新模型[30].自監(jiān)督訓(xùn)練的核心在于如何自動為數(shù)據(jù)產(chǎn)生標(biāo)簽,預(yù)訓(xùn)練語言模型的訓(xùn)練任務(wù)基本都是語言模型任務(wù)或各種變體,因此不同PTM的訓(xùn)練數(shù)據(jù)標(biāo)注方式也是與其自身的訓(xùn)練任務(wù)特定相關(guān)的.
從訓(xùn)練任務(wù)上分,PTM可分為因果語言模型(Causal Language Model, CLM)和掩碼語言模型(Masked Language Model, MLM)兩種.CLM又被稱作自回歸模型(Autoregressive Model),代表性的模型包括GPT系列模型[12,31-32]、CTRL(Conditional Trans-former Language Model)[33]、Transformer-XL(Attentive Language Models beyond a Fixed-Length Context)[34]、Reformer[35]及XLNet(Generalized Autoregressive Pre-training for Language Understanding)[36]等.訓(xùn)練任務(wù)通過依次輸入文本中的單詞預(yù)測下一個單詞,假設(shè)文本序列
x1∶T=[x1,x2,…,xT],
則在CLM的訓(xùn)練過程中該文本序列的聯(lián)合概率分布
MLM又被稱為自編碼模型(Autoencoding Mo-del),通常采用隨機添加掩碼的方式遮蓋輸入文本序列中的部分單詞,然后根據(jù)輸入文本的剩余部分預(yù)測被遮蓋的單詞,常見的模型包括BERT[13]、AL-BERT(A Lite BERT)[37]、RoBERTa(Robustly Opti-mized BERT Pretraining Approach)[38]、DistilBERT(Distilled Version of BERT)[39]及XLMs(Cross-Lin-gual Language Models)[40]等.
假設(shè)輸入文本序列為
x1∶T=[x1,x2,…,xT],
對輸入語句進行掩碼操作后的m(x)表示被遮蓋的單詞,而xm(x)表示原始文本去除被遮蓋單詞后的其余文本,則在MLM訓(xùn)練過程中,該文本序列的聯(lián)合概率分布為:
深度學(xué)習(xí)流行后,目前主流的文本自動摘要數(shù)據(jù)集上性能較優(yōu)的方案都是基于深度神經(jīng)網(wǎng)絡(luò)的模型,且大多都以Seq2Seq結(jié)構(gòu)作為基本的模型框架.以BERT的發(fā)布為界限,這些方法又可分為前預(yù)訓(xùn)練時代的模型[6-10]及后預(yù)訓(xùn)練時代的模型,即基于預(yù)訓(xùn)練語言模型進行摘要文本生成的各種方法.前預(yù)訓(xùn)練時代的模型大多數(shù)基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN),包括長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)[41]、門限循環(huán)網(wǎng)絡(luò)(Gated Recurrent Unit, GRU)[42]及其它RNN變體.后預(yù)訓(xùn)練時代的各種模型基本都是基于Transformer結(jié)構(gòu)[43].
本文提出基于語句融合和自監(jiān)督訓(xùn)練的文本摘要生成模型,包含兩階段的訓(xùn)練步驟.第一階段在無標(biāo)簽數(shù)據(jù)上執(zhí)行Cohesion-Permutation語言模型自監(jiān)督訓(xùn)練任務(wù),第二階段在有標(biāo)簽的標(biāo)準(zhǔn)“文檔-摘要”數(shù)據(jù)集上執(zhí)行有監(jiān)督訓(xùn)練任務(wù).
本文主要研究方向是利用原文語句間的信息聯(lián)系點(PoC),提升模型在生成摘要文本過程中的語句融合能力,進而提高生成文本的質(zhì)量.因此本文實驗采用Labanoff等[24]在CNN/Daily Mail數(shù)據(jù)集[28]上進行PoC標(biāo)注的數(shù)據(jù)集.該數(shù)據(jù)集全部來自CNN/Daily Mail數(shù)據(jù)集,人工進行細(xì)粒度的PoC標(biāo)注,共包含1 174篇文檔,其中含有1 599個PoC標(biāo)注信息.
由于原數(shù)據(jù)集只標(biāo)注各種關(guān)鍵信息的起止位置,不便于本文實驗的具體開展,因此首先對原始數(shù)據(jù)集進行預(yù)處理和再標(biāo)注,具體做法如下:根據(jù)原數(shù)據(jù)集中的索引標(biāo)注,在每條數(shù)據(jù)中原文檔內(nèi)PoC內(nèi)容部分的前后添加特殊標(biāo)記符號,每出現(xiàn)一組PoC,在這組PoC內(nèi)容的前后添加相同的標(biāo)記符號“[POC-X-START]”和“[POC-X-END]”,其中X的取值為從“0”開始的遞增整數(shù),用于標(biāo)記不同的PoC.以其中一個數(shù)據(jù)項為例,經(jīng)過處理后原文中的PoC標(biāo)注結(jié)果如下.
The President is headed to Panama for a regional summit, and Julie Pace of The Associated Press reports one of the big questions is whether he′ll make history and have a[POC-0-START] face-to-face meeting[POC-0-END] with[POC-1-START] Cuban leader Raul Castro[POC-1-END]. And so what the White House is going to be weighing is whether[POC-0-START] this meeting[POC-0-END] would be a way to ge-nerate more progress or whether it would be a premature reward for[POC-1-START] the Castros[POC-1-END].
從標(biāo)注結(jié)果可看出,第1組PoC內(nèi)容“face-to-face meeting”和“this meeting”都已分別在其前后添加“[POC-0-START]”和“[POC-0-END]”標(biāo)識,同理,第2組PoC內(nèi)容“Cuban leader Raul Castro”和“the Castros”都已分別標(biāo)記“[POC-1-START]”和“[POC-1-END]”.通過這樣的處理方式,方便模型直接捕捉與處理輸入文本中包含的PoC信息.
正如1.2節(jié)所述,預(yù)訓(xùn)練語言模型從廣義上都可歸為自編碼語言模型和自回歸語言模型,以BERT為代表的自編碼語言模型由于引入特殊的掩碼機制,能在訓(xùn)練中同時關(guān)注上下文的文本信息,但掩碼的出現(xiàn)破壞原文結(jié)構(gòu)并造成模型在訓(xùn)練和使用兩個場景下的差異,除此以外,被掩碼單詞之間的獨立性假設(shè)同樣是不可忽視的問題.出于上述原因,本文更傾向于采用自回歸語言模型.相比自編碼語言模型,自回歸語言模型最大優(yōu)勢在于其從左到右的順序訓(xùn)練模式與自然語言按序生成的時序特性相一致,這也解釋自回歸語言模型在文本生成子任務(wù)中優(yōu)于自編碼語言模型的原因.自回歸語言模型的相對劣勢在于其自左向右的訓(xùn)練模式使其只能關(guān)注到一個方向的文本信息,不能像自編碼模型那樣同時獲得前后兩個方向的文本信息.為了解決此問題,XLNet采用PLM的訓(xùn)練方式,通過將文本輸入順序隨機打亂的方式在自回歸語言模型的條件下得以同時關(guān)注前后兩個方向的文本信息.受此啟發(fā),本文提出Cohesion-Permutation語言模型.
為了更直觀地描述Cohesion-Permutation語言模型的運作方式,本文采用如圖1所示的數(shù)據(jù)項作為基本示例.圖1為已經(jīng)過預(yù)處理后的一個數(shù)據(jù)項,在該數(shù)據(jù)項中只包含一組PoC信息,黑字標(biāo)記普通文本,藍(lán)字標(biāo)記PoC文本,紅字標(biāo)記PoC標(biāo)注符號,直觀體現(xiàn)文本中各部分內(nèi)容.
圖1 預(yù)處理后的PoC數(shù)據(jù)項
對應(yīng)于圖1所示的一個數(shù)據(jù)項示例,進一步的抽象如圖2所示.對包含同組PoC信息的同一文檔中的兩個語句,對其內(nèi)容按照其所屬種類進行抽象.首先,分別使用“Seq-POC-1”和“Seq-POC-2”表示PoC部分的文本本身,即對應(yīng)于圖2中的藍(lán)字部分.分別使用“Seq-1-head”、“Seq-2-head”、“Seq-1-tail”、“Seq-2-tail”表示這兩處PoC內(nèi)容在該語句中的前后兩部分文本,即對應(yīng)于圖2中的黑字部分.依舊使用PoC標(biāo)記表示PoC內(nèi)容與其它文本之間的界限,即圖2中的紅字部分.
對于兩個語句中的同一組PoC信息,正如Labanoff等[24]對其的定義,這一組PoC內(nèi)容在語法上基本屬于同一實體,或在少數(shù)情況下表示一對存在因果關(guān)聯(lián)的內(nèi)容.語句融合的目的是將兩個或多個語句融成一個語句,對于包含一組PoC信息的兩個語句,它們分別描述同一實體的兩方面內(nèi)容,而這兩方面內(nèi)容必然在語義上存在相互聯(lián)系或信息冗余.若使用傳統(tǒng)的自回歸語言模型結(jié)構(gòu),模型在生成圖2中“Seq-POC-1”內(nèi)容時,僅能關(guān)注其前面“Seq-1-head”的相關(guān)信息,而無法利用與其有關(guān)的“Seq-1-tail”內(nèi)容及包含與“Seq-POC-1”同一組PoC信息的整個語句2.自編碼語言模型結(jié)構(gòu)在文本生成領(lǐng)域中弱于自回歸語言模型,因此采用以BERT為代表的模型同樣不能較好地解決該問題.XLNet采用的PLM結(jié)構(gòu)在自回歸的框架下實現(xiàn)文本對上下文信息的雙向關(guān)注,為本文方法提供啟示.
圖2 PoC數(shù)據(jù)項的抽象示意圖
對于原始輸入,Cohesion-Permutation語言模型按圖3的方式進行隨機打亂.Cohesion-Permutation語言模型并未選擇類似于傳統(tǒng)PLM將輸入數(shù)據(jù)隨機打亂的方法,原因如下.1)本文解決的主要問題是文本生成中的語句融合問題,XLNet作為代表的PLM模型可看作一種普適性的方法,而Cohesion-Permu-tation語言模型則針對輸入語句中的PoC信息進行特殊設(shè)計.2)為了提高模型生成摘要文本的可讀性和連貫性,Cohesion-Permutation語言模型以文本序列為最小單位進行隨機打亂,保留每個劃分部分的相對位置信息,有別于傳統(tǒng)PLM在單詞(token)級別的隨機打亂.
圖3 Cohesion-permutation語言模型的訓(xùn)練模式
如圖3所示,Cohesion-Permutation語言模型將輸入文本按照fore_part、hind_part、exchange_part、fore_fluent、hind_fluent及unchange這6種方式進行重組.
以第1種處理方式fore_part為例,該操作的目的是為了讓模型在識別同組PoC信息時能同時關(guān)注來自兩個語句的前置文本,相比已有方法能更精準(zhǔn)、高效地將所需信息應(yīng)用到模型的訓(xùn)練中.
在具體實驗中,對輸入文本進行fore_part、hind_part、exchange_part、fore_fluent、hind_fluent操作的概率分別設(shè)為16%,而對輸入文本不進行任何調(diào)整操作,即unchange的概率設(shè)為20%.
圖3中對原數(shù)據(jù)集進行任意打亂操作后的語料集合定義為
ZT={z1,z2,…,zn}.
在實驗中,采用36層堆疊的Transformer Decoder[43]構(gòu)建Cohesion-Permutation語言模型,訓(xùn)練損失函數(shù)
其中,k表示輸入文本范圍的滑動窗口尺寸,條件概率P采用Cohesion-Permutation語言模型進行建模,Θ表示模型的全體參數(shù).由于Cohesion-Permutation語言模型屬于自回歸語言模型的框架,因此避免自編碼語言模型存在的問題.
經(jīng)過自監(jiān)督的Cohesion-Permutation語言模型訓(xùn)練任務(wù)之后,模型已初步具備識別和處理不同語句之間PoC信息的能力,但為了讓模型在文本自動摘要任務(wù)上獲得更優(yōu)性能,還需要對本文模型進行第二階段的有監(jiān)督微調(diào)訓(xùn)練.
本文模型的微調(diào)訓(xùn)練過程如圖4所示,在微調(diào)階段與基于Transformer Decoder結(jié)構(gòu)的語言模型主要區(qū)別在于針對輸入文本的掩碼操作.在原始Trans-former Decoder結(jié)構(gòu)中,采用自掩碼多頭注意力(Masked Multi-head Attention),而本文模型使用基于語句融合的掩碼多頭注意力機制(Cohesion-Masked Multi-head Attention),其目的在于引入不同語句中包含的PoC信息,提高模型進行語句融合的能力.
圖4 本文方法的微調(diào)訓(xùn)練過程
在單個文本
x=[x1,x2,…,xT]
輸入到模型之前,首先通過詞向量和位置向量對其進行向量化,得
其中We表示初始化的詞向量矩陣.輸入文本通過詞索引的方式從詞向量矩陣中提取相應(yīng)的詞向量,再和初始化的位置向量矩陣Wp進行按位相加操作,得到H0.
本文模型由L=36層Transformer Decoder堆疊而成.模型輸入可在第l層獲得對應(yīng)層的嵌入表示:
Hl=TransformerDecoder(Hl-1)=
具體地,對于模型的第l(1≤l≤L)層,任意一個注意力頭的輸出為:
其中,
其中,indexSeq-POC-1和indexSeq-2-head分別表示Seq-POC-1及Seq-2-head的位置索引組成的集合.設(shè)計特殊的掩碼矩陣Mcohesion是為了讓模型能更好地利用來自不同語句的同組PoC含有的文本信息,其與正常Transformer Decoder結(jié)構(gòu)的區(qū)別如圖5所示.
(a)自掩碼多頭注意力
(b)基于語句融合的掩碼多頭注意力
本文實驗首先在訓(xùn)練集上進行微調(diào)訓(xùn)練,然后在測試集上進行評估.訓(xùn)練集包含107 000條樣本,樣本中的PoC信息全部通過spaCy庫中的指代消解方法標(biāo)注.測試集為Labanoff等[24]標(biāo)注的CNN/Daily Mail數(shù)據(jù)集(https://github.com/ucfnlp/sent-fusion-transformers),包含1 494個人工標(biāo)注的測試樣本.
實驗中采用的評價指標(biāo)分為兩類:1)傳統(tǒng)的基于詞語共現(xiàn)頻率統(tǒng)計的生成文本評價指標(biāo)ROUGE[25]、BLEU(Bilingual Evaluation Understudy)[44];2)基于BERT進行語義相似度衡量的生成文本評價指標(biāo)BERTScore[45].
本文模型是由36層Transformer Decoder堆疊而成,本文采用Wolf等[46]提供的開源模型GPT2-large(https://huggingface.co/gpt2-large)進行參數(shù)初始化.每個自注意力層由20個注意力頭構(gòu)成,Transformer Decoder的隱層維度為1 280,模型的最長輸入序列長度為1 024.在訓(xùn)練過程中,選擇Adam(Adaptive Moment Estimation)作為優(yōu)化器,采用帶有總訓(xùn)練步數(shù)15%比例熱身策略及線性衰減的學(xué)習(xí)率動態(tài)調(diào)整方式.在模型的前饋傳播中,采用概率為10%失活參數(shù)的失活機制抑制模型過度擬合.
為了驗證本文模型在文本自動摘要任務(wù)上的有效性,實驗中選擇多個具有代表性的基準(zhǔn)模型進行對比.
1)Pointer-Generator Networks[6].采用一個由循環(huán)神經(jīng)網(wǎng)絡(luò)組成的encoder-decoder結(jié)構(gòu),將輸入語句壓縮成一個向量表示,然后再將其解碼成需要輸出的融合語句.
2)UNILM(Unified Pre-trained Language Model)[47].
采用與BERT基本一致的模型框架,但訓(xùn)練方式不同.通過聯(lián)合訓(xùn)練單向、雙向及Seq2Seq三種不同的語言模型得到UNILM,旨在使模型可同時應(yīng)用于NLU和NLG任務(wù).
3)GPT-2[31].本文模型在結(jié)構(gòu)方面與GPT-2基本一致,因此將GPT-2作為基準(zhǔn)模型之一.在具體實驗中,直接采用經(jīng)過預(yù)訓(xùn)練的模型進行文本輸出.
4)TRANS-LINKING[26].模型結(jié)構(gòu)同樣是堆疊的多層Transformer,不同之處在于其使用特殊標(biāo)記對輸入文本的PoC內(nèi)容的界限進行標(biāo)注,然后直接將經(jīng)過標(biāo)記的數(shù)據(jù)放入模型中進行訓(xùn)練.
5)TRANS-SHARERPER[26].模型結(jié)構(gòu)與TRANS-LINKING類似.受文獻[48]的啟發(fā),單獨使用一個注意力頭捕捉屬于同組PoC的文本信息,并且該PoC包含的所有文本內(nèi)容在這個注意力頭中共享同一組語義表示.
6)Concat-Baseline.借鑒文獻[26]的做法,在一般的基準(zhǔn)模型外添加一個Concat-Baseline,該基準(zhǔn)不包含具體模型,而是直接將包含PoC的兩個或多個句子拼接后作為生成文本并輸出.
除本文模型以外,為與已有的最優(yōu)性能模型TRANS-LINKING和TRANS-SHARERPER進行對比,實驗中還設(shè)計一個參數(shù)縮減版的本文模型,該模型由24個Transformer Decoder層堆疊而成,模型參數(shù)采用經(jīng)過預(yù)訓(xùn)練的GPT-2-medium進行初始化.該模型與TRANS-LINKING和TRANS-SHARERPER擁有同樣大小的參數(shù)量,從而能更直觀地體現(xiàn)模型結(jié)構(gòu)帶來的性能提升.上述對比模型全部統(tǒng)一在自動標(biāo)注的PoC訓(xùn)練集上進行訓(xùn)練,之后在有人工PoC標(biāo)注的測試集上進行最終評估.
各模型在測試集上的指標(biāo)值如表1所示,表中黑體數(shù)字表示最優(yōu)值.為了分別檢驗?zāi)P椭袃呻A段訓(xùn)練任務(wù)的有效性,本文在對比實驗外還進行模型的消融研究.具體來講,在本文模型上,分別只采用第一階段的自監(jiān)督訓(xùn)練及第二階段基于語句融合信息的注意力掩碼策略進行訓(xùn)練,并將得到的模型在測試集上進行評估.
表1 多種文本生成模型在測試集上的實驗結(jié)果
為了直觀展現(xiàn)模型在進行文本生成時的內(nèi)部狀態(tài),實驗中還借助熱力圖對模型內(nèi)的注意力矩陣進行可視化.
普通的Transformer深度模型和本文模型對同段輸入文本的信息捕獲情況如圖6所示.具體來講,兩幅圖都隨機取自模型的任意一層的任意一個注意力頭,并通過熱力圖的形式將該注意力矩陣進行可視化.由圖6可見,輸入文本是總共包含40個單詞的2個語句,這兩句話以第13個索引進行分隔.在輸入的文本中包含一組PoC,分別位于索引4~7的第1句和索引22~24的第2句中.由(a)可看出,基于Transformer的模型并未針對PoC進行特定的關(guān)注,而在(b)中可發(fā)現(xiàn),模型在處理第1句PoC部分內(nèi)容時額外關(guān)注第2句PoC信息之前的文本內(nèi)容,因此能融入更多的語義信息,這也解釋本文模型能獲得優(yōu)異性能表現(xiàn)的原因.
(a)深度模型 (b)本文模型
本文提出基于語句融合和自監(jiān)督訓(xùn)練的文本自動摘要模型.該模型以Transformer Decoder為基本結(jié)構(gòu),設(shè)計自監(jiān)督和有監(jiān)督的兩階段訓(xùn)練任務(wù),使模型在公開的文本自動摘要數(shù)據(jù)集上取得較優(yōu)性能.本文模型在訓(xùn)練過程中充分利用數(shù)據(jù)集上的PoC標(biāo)注,根據(jù)PoC信息在排列語言模型的訓(xùn)練過程及模型在文本生成階段的信息攝入程度進行針對處理,以求在生成摘要文本的過程中盡量采用語句融合技術(shù)而非對冗余重復(fù)信息的簡單去除,進一步增強生成摘要的概括性和流暢性.基于多個公開評測指標(biāo)的評估結(jié)果及模型在應(yīng)用過程中部分參數(shù)的可視化結(jié)果都驗證本文模型的有效性.
然而,本文的工作也存在如下兩點問題:1)雖然針對文本生成過程中的語句融合進行針對性的模型結(jié)構(gòu)修改,但從實驗結(jié)果上看,取得的效果并沒有預(yù)期的明顯,尤其是在屏蔽模型參數(shù)量提升帶來的影響之后.2)實驗數(shù)據(jù)來自對CNN/Daily Mail數(shù)據(jù)集進行特定人工標(biāo)注的公開數(shù)據(jù)集,由于涉及到文本的語義融合現(xiàn)象較復(fù)雜,標(biāo)注成本較高,而該公開數(shù)據(jù)集的總數(shù)據(jù)量相對較小,因此本文模型還需更大、更有針對性的數(shù)據(jù)集進行更進一步的驗證和分析,這也是下一步的研究方向.