鄒 傲 郝文寧 靳大尉 陳 剛
自然語(yǔ)言處理(Natural Language Processing, NLP)領(lǐng)域的研究可分為自然語(yǔ)言理解(Natural Language Understanding, NLU)和自然語(yǔ)言生成(Natural Language Generation, NLG)兩方面.NLU側(cè)重于使計(jì)算機(jī)理解自然語(yǔ)言并提取有用的信息,以便于下游任務(wù)的使用.常見(jiàn)的NLU任務(wù)包括分詞、詞性標(biāo)注、句法分析等.NLG需要計(jì)算機(jī)能輸出人類可理解的自然語(yǔ)言文本,常見(jiàn)的NLG任務(wù)有翻譯、文本摘要等.
文本自動(dòng)摘要(Automatic Text Summarization)是NLG領(lǐng)域中最具挑戰(zhàn)性的任務(wù)之一,根據(jù)Luhn等[1]的定義,文本摘要的形式化表達(dá)如下:輸入為包含n個(gè)單詞的原始文檔D,目標(biāo)輸出為包含原始文檔主要內(nèi)容的摘要Y,其中Y由m個(gè)單詞組成,滿足m?n.
根據(jù)生成方式的不同,文本自動(dòng)摘要技術(shù)可分為抽取式自動(dòng)摘要和生成式自動(dòng)摘要,涉及的技術(shù)包含特征評(píng)分、分類算法、線性規(guī)劃、次模函數(shù)、圖排序、序列標(biāo)注和深度學(xué)習(xí)算法等[2].早期研究大多采用抽取式方法進(jìn)行自動(dòng)文本摘要[3-5],這類方法直接從原始文檔中提取關(guān)鍵文本序列,直觀且容易實(shí)現(xiàn).然而,抽取式方法生成的摘要文本全部來(lái)源于原始文檔中連續(xù)的文本序列,不可避免地帶有大量冗余信息.此外,通過(guò)選取原始文檔若干語(yǔ)句組成的文本概括性有限,只能提取原始文檔中的關(guān)鍵語(yǔ)句,并不是在理解原始文本的基礎(chǔ)上進(jìn)行概括.因此,抽取式方法生成的摘要文本從本質(zhì)上講是受限的,難以生成概括性較強(qiáng)的高質(zhì)量摘要文本.
隨著深度學(xué)習(xí)研究的不斷深入,文本自動(dòng)摘要領(lǐng)域開(kāi)始出現(xiàn)一批生成式自動(dòng)摘要的高質(zhì)量研究[6-10].2018年以后,ELMo(Embeddings from Lan-guage Models)[11]、GPT(Generative Pre-training)[12]及BERT(Bidirectional Encoder Representation from Transformers)[13]相繼出現(xiàn),使預(yù)訓(xùn)練語(yǔ)言模型+微調(diào)的模式成為自然語(yǔ)言處理領(lǐng)域?qū)嵱玫膽?yīng)用模式之一.將經(jīng)過(guò)充分預(yù)訓(xùn)練的語(yǔ)言模型應(yīng)用到生成式自動(dòng)摘要任務(wù)只需少量的模型微調(diào)(Fine-Tune)即可達(dá)到與之前最優(yōu)模型(State-of-the-Art, SOTA)相媲美的性能表現(xiàn),并在GLUE(General Language Under-standing Evaluation)[14]、SQuAD(Stanford Question Answering Dataset)[15]、RACE(Large-Scale Reading Comprehension Dataset)[16]等NLP的多個(gè)下游任務(wù)中持續(xù)領(lǐng)先.因此,基于Transformer結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型也成為生成式摘要生成模型中基準(zhǔn)方法之一.
根據(jù)Lebanoff等[17]的總結(jié),生成式文本自動(dòng)摘要技術(shù)主要通過(guò)兩種方法概括原始文檔.1)語(yǔ)句壓縮(Sentence Compression),去除句子中的單詞和短語(yǔ),減小單個(gè)語(yǔ)句的長(zhǎng)度[18-21].2)語(yǔ)句融合(Sen-tence Fusion),從若干語(yǔ)句中分別選取部分內(nèi)容并融成一個(gè)語(yǔ)句.由于刪除語(yǔ)句中不重要的內(nèi)容,仍能保持原句的語(yǔ)法語(yǔ)義正確,因此語(yǔ)句壓縮的難度相對(duì)較小[22].相比之下,語(yǔ)句融合需要對(duì)若干輸入語(yǔ)句進(jìn)行凝練概括,難度較大,是生成式自動(dòng)文本摘要模型的主要性能瓶頸.
受文獻(xiàn)[23]工作的啟發(fā),Lebanoff等[24]提出語(yǔ)句間信息聯(lián)系點(diǎn)(Points of Correspondence, PoC)的概念,用于研究摘要文本中的語(yǔ)句融合現(xiàn)象.Lebanoff等[17]對(duì)Pointer-Generator Networks[6]等方法的生成文本進(jìn)行定量分析,并與人工生成的參考摘要進(jìn)行對(duì)比,發(fā)現(xiàn)前期方法生成的文本雖然在ROUGE(Recall-Oriented Understudy for Gisting Evalua-tion)[25]等指標(biāo)上能取得不錯(cuò)成績(jī),但其中通過(guò)語(yǔ)句融合方法的使用比例遠(yuǎn)低于人類的平均水平.為了解決該問(wèn)題,Lebanoff等[26]采用基于預(yù)訓(xùn)練語(yǔ)言模型的思路,設(shè)計(jì)兩個(gè)定制的模型,試圖提升生成文本中采用語(yǔ)句融合方法的數(shù)量和質(zhì)量,從而提升生成的摘要文本的質(zhì)量.
綜上所述,基于深度神經(jīng)網(wǎng)絡(luò)模型的生成式自動(dòng)文本摘要模型主要存在如下缺點(diǎn).1)所有方法基本都是基于序列到序列(Sequence to Sequence, Seq-2Seq)架構(gòu),以生成摘要中含有人類參考摘要文本中單詞重疊的統(tǒng)計(jì)學(xué)指標(biāo)進(jìn)行激勵(lì),并不能較好地引導(dǎo)模型融合語(yǔ)句、概括內(nèi)容,生成的文本中語(yǔ)句融合比例較少,概括性較弱.2)在解決生成式自動(dòng)摘要中語(yǔ)句融合問(wèn)題的方面,已有少數(shù)研究取得一定進(jìn)展,但性能提升較有限,相關(guān)研究尚處于起步階段.
為此,本文對(duì)包含語(yǔ)句融合標(biāo)注的文本摘要數(shù)據(jù)集進(jìn)行深入探究,并添加細(xì)化標(biāo)注,以便于后續(xù)研究的開(kāi)展.針對(duì)利用語(yǔ)句融合進(jìn)行生成式文本自動(dòng)摘要任務(wù),提出基于語(yǔ)句融合和自監(jiān)督訓(xùn)練的文本摘要生成模型,設(shè)計(jì)類語(yǔ)言模型訓(xùn)練任務(wù),利用數(shù)據(jù)標(biāo)注構(gòu)造一個(gè)文本序列級(jí)別的置換語(yǔ)言模型(Per-mutation Language Model, PLM)并進(jìn)行訓(xùn)練.又針對(duì)較通用的Seq2Seq結(jié)構(gòu)在處理語(yǔ)句融合方面能力不足的問(wèn)題,在解碼端(Decoder)設(shè)計(jì)基于PoC的掩碼策略,加強(qiáng)生成階段的語(yǔ)句融合能力.在公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文模型能取得性能提升.此外,本文還通過(guò)模型隱層狀態(tài)可視化的方式進(jìn)一步探究本文模型的可解釋性.
語(yǔ)句融合在文本自動(dòng)摘要中起著突出的作用,重要性已得到學(xué)界的共識(shí)[27].現(xiàn)有的文本自動(dòng)摘要數(shù)據(jù)集(如CNN/Daily Mail)[28-29]并未在訓(xùn)練數(shù)據(jù)中標(biāo)注有關(guān)語(yǔ)句融合的信息.Lebanoff等[24]填補(bǔ)這方面的空白,受Halliday等[23]關(guān)于英語(yǔ)文法中信息融合相關(guān)研究的啟發(fā),提出基于PoC信息在CNN/Daily Mail數(shù)據(jù)集上進(jìn)行標(biāo)注的思路,通過(guò)外包方式完成標(biāo)注并公開(kāi)數(shù)據(jù)集,為后續(xù)有關(guān)語(yǔ)句融合的研究提供便利.
文獻(xiàn)[24]中數(shù)據(jù)集將語(yǔ)句融合所需的PoC分為5種類型:代詞指稱(Pronominal Referencing)、名義指稱(Nominal Referencing)、普通名詞指稱(Com-mon-Noun Referencing),重復(fù)(Repetition)及事件驅(qū)動(dòng)(Event Triggers).在該數(shù)據(jù)集中,每個(gè)樣本由兩個(gè)包含PoC的源語(yǔ)句和一個(gè)摘要語(yǔ)句構(gòu)成,且標(biāo)注PoC類型及其在源語(yǔ)句和摘要語(yǔ)句中的具體出現(xiàn)位置.
自監(jiān)督訓(xùn)練(Self-Supervised Training)是指模型可直接從無(wú)標(biāo)簽數(shù)據(jù)中自行學(xué)習(xí),無(wú)需標(biāo)注數(shù)據(jù).作為自監(jiān)督訓(xùn)練的一種,預(yù)訓(xùn)練語(yǔ)言模型(Pre-Trained Models, PTM)是指在大規(guī)模無(wú)標(biāo)注文本上學(xué)習(xí)統(tǒng)一的語(yǔ)言表示,方便下游NLP任務(wù)的使用,避免從頭開(kāi)始為新任務(wù)訓(xùn)練新模型[30].自監(jiān)督訓(xùn)練的核心在于如何自動(dòng)為數(shù)據(jù)產(chǎn)生標(biāo)簽,預(yù)訓(xùn)練語(yǔ)言模型的訓(xùn)練任務(wù)基本都是語(yǔ)言模型任務(wù)或各種變體,因此不同PTM的訓(xùn)練數(shù)據(jù)標(biāo)注方式也是與其自身的訓(xùn)練任務(wù)特定相關(guān)的.
從訓(xùn)練任務(wù)上分,PTM可分為因果語(yǔ)言模型(Causal Language Model, CLM)和掩碼語(yǔ)言模型(Masked Language Model, MLM)兩種.CLM又被稱作自回歸模型(Autoregressive Model),代表性的模型包括GPT系列模型[12,31-32]、CTRL(Conditional Trans-former Language Model)[33]、Transformer-XL(Attentive Language Models beyond a Fixed-Length Context)[34]、Reformer[35]及XLNet(Generalized Autoregressive Pre-training for Language Understanding)[36]等.訓(xùn)練任務(wù)通過(guò)依次輸入文本中的單詞預(yù)測(cè)下一個(gè)單詞,假設(shè)文本序列
x1∶T=[x1,x2,…,xT],
則在CLM的訓(xùn)練過(guò)程中該文本序列的聯(lián)合概率分布
MLM又被稱為自編碼模型(Autoencoding Mo-del),通常采用隨機(jī)添加掩碼的方式遮蓋輸入文本序列中的部分單詞,然后根據(jù)輸入文本的剩余部分預(yù)測(cè)被遮蓋的單詞,常見(jiàn)的模型包括BERT[13]、AL-BERT(A Lite BERT)[37]、RoBERTa(Robustly Opti-mized BERT Pretraining Approach)[38]、DistilBERT(Distilled Version of BERT)[39]及XLMs(Cross-Lin-gual Language Models)[40]等.
假設(shè)輸入文本序列為
x1∶T=[x1,x2,…,xT],
對(duì)輸入語(yǔ)句進(jìn)行掩碼操作后的m(x)表示被遮蓋的單詞,而xm(x)表示原始文本去除被遮蓋單詞后的其余文本,則在MLM訓(xùn)練過(guò)程中,該文本序列的聯(lián)合概率分布為:
深度學(xué)習(xí)流行后,目前主流的文本自動(dòng)摘要數(shù)據(jù)集上性能較優(yōu)的方案都是基于深度神經(jīng)網(wǎng)絡(luò)的模型,且大多都以Seq2Seq結(jié)構(gòu)作為基本的模型框架.以BERT的發(fā)布為界限,這些方法又可分為前預(yù)訓(xùn)練時(shí)代的模型[6-10]及后預(yù)訓(xùn)練時(shí)代的模型,即基于預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行摘要文本生成的各種方法.前預(yù)訓(xùn)練時(shí)代的模型大多數(shù)基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN),包括長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)[41]、門(mén)限循環(huán)網(wǎng)絡(luò)(Gated Recurrent Unit, GRU)[42]及其它RNN變體.后預(yù)訓(xùn)練時(shí)代的各種模型基本都是基于Transformer結(jié)構(gòu)[43].
本文提出基于語(yǔ)句融合和自監(jiān)督訓(xùn)練的文本摘要生成模型,包含兩階段的訓(xùn)練步驟.第一階段在無(wú)標(biāo)簽數(shù)據(jù)上執(zhí)行Cohesion-Permutation語(yǔ)言模型自監(jiān)督訓(xùn)練任務(wù),第二階段在有標(biāo)簽的標(biāo)準(zhǔn)“文檔-摘要”數(shù)據(jù)集上執(zhí)行有監(jiān)督訓(xùn)練任務(wù).
本文主要研究方向是利用原文語(yǔ)句間的信息聯(lián)系點(diǎn)(PoC),提升模型在生成摘要文本過(guò)程中的語(yǔ)句融合能力,進(jìn)而提高生成文本的質(zhì)量.因此本文實(shí)驗(yàn)采用Labanoff等[24]在CNN/Daily Mail數(shù)據(jù)集[28]上進(jìn)行PoC標(biāo)注的數(shù)據(jù)集.該數(shù)據(jù)集全部來(lái)自CNN/Daily Mail數(shù)據(jù)集,人工進(jìn)行細(xì)粒度的PoC標(biāo)注,共包含1 174篇文檔,其中含有1 599個(gè)PoC標(biāo)注信息.
由于原數(shù)據(jù)集只標(biāo)注各種關(guān)鍵信息的起止位置,不便于本文實(shí)驗(yàn)的具體開(kāi)展,因此首先對(duì)原始數(shù)據(jù)集進(jìn)行預(yù)處理和再標(biāo)注,具體做法如下:根據(jù)原數(shù)據(jù)集中的索引標(biāo)注,在每條數(shù)據(jù)中原文檔內(nèi)PoC內(nèi)容部分的前后添加特殊標(biāo)記符號(hào),每出現(xiàn)一組PoC,在這組PoC內(nèi)容的前后添加相同的標(biāo)記符號(hào)“[POC-X-START]”和“[POC-X-END]”,其中X的取值為從“0”開(kāi)始的遞增整數(shù),用于標(biāo)記不同的PoC.以其中一個(gè)數(shù)據(jù)項(xiàng)為例,經(jīng)過(guò)處理后原文中的PoC標(biāo)注結(jié)果如下.
The President is headed to Panama for a regional summit, and Julie Pace of The Associated Press reports one of the big questions is whether he′ll make history and have a[POC-0-START] face-to-face meeting[POC-0-END] with[POC-1-START] Cuban leader Raul Castro[POC-1-END]. And so what the White House is going to be weighing is whether[POC-0-START] this meeting[POC-0-END] would be a way to ge-nerate more progress or whether it would be a premature reward for[POC-1-START] the Castros[POC-1-END].
從標(biāo)注結(jié)果可看出,第1組PoC內(nèi)容“face-to-face meeting”和“this meeting”都已分別在其前后添加“[POC-0-START]”和“[POC-0-END]”標(biāo)識(shí),同理,第2組PoC內(nèi)容“Cuban leader Raul Castro”和“the Castros”都已分別標(biāo)記“[POC-1-START]”和“[POC-1-END]”.通過(guò)這樣的處理方式,方便模型直接捕捉與處理輸入文本中包含的PoC信息.
正如1.2節(jié)所述,預(yù)訓(xùn)練語(yǔ)言模型從廣義上都可歸為自編碼語(yǔ)言模型和自回歸語(yǔ)言模型,以BERT為代表的自編碼語(yǔ)言模型由于引入特殊的掩碼機(jī)制,能在訓(xùn)練中同時(shí)關(guān)注上下文的文本信息,但掩碼的出現(xiàn)破壞原文結(jié)構(gòu)并造成模型在訓(xùn)練和使用兩個(gè)場(chǎng)景下的差異,除此以外,被掩碼單詞之間的獨(dú)立性假設(shè)同樣是不可忽視的問(wèn)題.出于上述原因,本文更傾向于采用自回歸語(yǔ)言模型.相比自編碼語(yǔ)言模型,自回歸語(yǔ)言模型最大優(yōu)勢(shì)在于其從左到右的順序訓(xùn)練模式與自然語(yǔ)言按序生成的時(shí)序特性相一致,這也解釋自回歸語(yǔ)言模型在文本生成子任務(wù)中優(yōu)于自編碼語(yǔ)言模型的原因.自回歸語(yǔ)言模型的相對(duì)劣勢(shì)在于其自左向右的訓(xùn)練模式使其只能關(guān)注到一個(gè)方向的文本信息,不能像自編碼模型那樣同時(shí)獲得前后兩個(gè)方向的文本信息.為了解決此問(wèn)題,XLNet采用PLM的訓(xùn)練方式,通過(guò)將文本輸入順序隨機(jī)打亂的方式在自回歸語(yǔ)言模型的條件下得以同時(shí)關(guān)注前后兩個(gè)方向的文本信息.受此啟發(fā),本文提出Cohesion-Permutation語(yǔ)言模型.
為了更直觀地描述Cohesion-Permutation語(yǔ)言模型的運(yùn)作方式,本文采用如圖1所示的數(shù)據(jù)項(xiàng)作為基本示例.圖1為已經(jīng)過(guò)預(yù)處理后的一個(gè)數(shù)據(jù)項(xiàng),在該數(shù)據(jù)項(xiàng)中只包含一組PoC信息,黑字標(biāo)記普通文本,藍(lán)字標(biāo)記PoC文本,紅字標(biāo)記PoC標(biāo)注符號(hào),直觀體現(xiàn)文本中各部分內(nèi)容.
圖1 預(yù)處理后的PoC數(shù)據(jù)項(xiàng)
對(duì)應(yīng)于圖1所示的一個(gè)數(shù)據(jù)項(xiàng)示例,進(jìn)一步的抽象如圖2所示.對(duì)包含同組PoC信息的同一文檔中的兩個(gè)語(yǔ)句,對(duì)其內(nèi)容按照其所屬種類進(jìn)行抽象.首先,分別使用“Seq-POC-1”和“Seq-POC-2”表示PoC部分的文本本身,即對(duì)應(yīng)于圖2中的藍(lán)字部分.分別使用“Seq-1-head”、“Seq-2-head”、“Seq-1-tail”、“Seq-2-tail”表示這兩處PoC內(nèi)容在該語(yǔ)句中的前后兩部分文本,即對(duì)應(yīng)于圖2中的黑字部分.依舊使用PoC標(biāo)記表示PoC內(nèi)容與其它文本之間的界限,即圖2中的紅字部分.
對(duì)于兩個(gè)語(yǔ)句中的同一組PoC信息,正如Labanoff等[24]對(duì)其的定義,這一組PoC內(nèi)容在語(yǔ)法上基本屬于同一實(shí)體,或在少數(shù)情況下表示一對(duì)存在因果關(guān)聯(lián)的內(nèi)容.語(yǔ)句融合的目的是將兩個(gè)或多個(gè)語(yǔ)句融成一個(gè)語(yǔ)句,對(duì)于包含一組PoC信息的兩個(gè)語(yǔ)句,它們分別描述同一實(shí)體的兩方面內(nèi)容,而這兩方面內(nèi)容必然在語(yǔ)義上存在相互聯(lián)系或信息冗余.若使用傳統(tǒng)的自回歸語(yǔ)言模型結(jié)構(gòu),模型在生成圖2中“Seq-POC-1”內(nèi)容時(shí),僅能關(guān)注其前面“Seq-1-head”的相關(guān)信息,而無(wú)法利用與其有關(guān)的“Seq-1-tail”內(nèi)容及包含與“Seq-POC-1”同一組PoC信息的整個(gè)語(yǔ)句2.自編碼語(yǔ)言模型結(jié)構(gòu)在文本生成領(lǐng)域中弱于自回歸語(yǔ)言模型,因此采用以BERT為代表的模型同樣不能較好地解決該問(wèn)題.XLNet采用的PLM結(jié)構(gòu)在自回歸的框架下實(shí)現(xiàn)文本對(duì)上下文信息的雙向關(guān)注,為本文方法提供啟示.
圖2 PoC數(shù)據(jù)項(xiàng)的抽象示意圖
對(duì)于原始輸入,Cohesion-Permutation語(yǔ)言模型按圖3的方式進(jìn)行隨機(jī)打亂.Cohesion-Permutation語(yǔ)言模型并未選擇類似于傳統(tǒng)PLM將輸入數(shù)據(jù)隨機(jī)打亂的方法,原因如下.1)本文解決的主要問(wèn)題是文本生成中的語(yǔ)句融合問(wèn)題,XLNet作為代表的PLM模型可看作一種普適性的方法,而Cohesion-Permu-tation語(yǔ)言模型則針對(duì)輸入語(yǔ)句中的PoC信息進(jìn)行特殊設(shè)計(jì).2)為了提高模型生成摘要文本的可讀性和連貫性,Cohesion-Permutation語(yǔ)言模型以文本序列為最小單位進(jìn)行隨機(jī)打亂,保留每個(gè)劃分部分的相對(duì)位置信息,有別于傳統(tǒng)PLM在單詞(token)級(jí)別的隨機(jī)打亂.
圖3 Cohesion-permutation語(yǔ)言模型的訓(xùn)練模式
如圖3所示,Cohesion-Permutation語(yǔ)言模型將輸入文本按照f(shuō)ore_part、hind_part、exchange_part、fore_fluent、hind_fluent及unchange這6種方式進(jìn)行重組.
以第1種處理方式fore_part為例,該操作的目的是為了讓模型在識(shí)別同組PoC信息時(shí)能同時(shí)關(guān)注來(lái)自兩個(gè)語(yǔ)句的前置文本,相比已有方法能更精準(zhǔn)、高效地將所需信息應(yīng)用到模型的訓(xùn)練中.
在具體實(shí)驗(yàn)中,對(duì)輸入文本進(jìn)行fore_part、hind_part、exchange_part、fore_fluent、hind_fluent操作的概率分別設(shè)為16%,而對(duì)輸入文本不進(jìn)行任何調(diào)整操作,即unchange的概率設(shè)為20%.
圖3中對(duì)原數(shù)據(jù)集進(jìn)行任意打亂操作后的語(yǔ)料集合定義為
ZT={z1,z2,…,zn}.
在實(shí)驗(yàn)中,采用36層堆疊的Transformer Decoder[43]構(gòu)建Cohesion-Permutation語(yǔ)言模型,訓(xùn)練損失函數(shù)
其中,k表示輸入文本范圍的滑動(dòng)窗口尺寸,條件概率P采用Cohesion-Permutation語(yǔ)言模型進(jìn)行建模,Θ表示模型的全體參數(shù).由于Cohesion-Permutation語(yǔ)言模型屬于自回歸語(yǔ)言模型的框架,因此避免自編碼語(yǔ)言模型存在的問(wèn)題.
經(jīng)過(guò)自監(jiān)督的Cohesion-Permutation語(yǔ)言模型訓(xùn)練任務(wù)之后,模型已初步具備識(shí)別和處理不同語(yǔ)句之間PoC信息的能力,但為了讓模型在文本自動(dòng)摘要任務(wù)上獲得更優(yōu)性能,還需要對(duì)本文模型進(jìn)行第二階段的有監(jiān)督微調(diào)訓(xùn)練.
本文模型的微調(diào)訓(xùn)練過(guò)程如圖4所示,在微調(diào)階段與基于Transformer Decoder結(jié)構(gòu)的語(yǔ)言模型主要區(qū)別在于針對(duì)輸入文本的掩碼操作.在原始Trans-former Decoder結(jié)構(gòu)中,采用自掩碼多頭注意力(Masked Multi-head Attention),而本文模型使用基于語(yǔ)句融合的掩碼多頭注意力機(jī)制(Cohesion-Masked Multi-head Attention),其目的在于引入不同語(yǔ)句中包含的PoC信息,提高模型進(jìn)行語(yǔ)句融合的能力.
圖4 本文方法的微調(diào)訓(xùn)練過(guò)程
在單個(gè)文本
x=[x1,x2,…,xT]
輸入到模型之前,首先通過(guò)詞向量和位置向量對(duì)其進(jìn)行向量化,得
其中We表示初始化的詞向量矩陣.輸入文本通過(guò)詞索引的方式從詞向量矩陣中提取相應(yīng)的詞向量,再和初始化的位置向量矩陣Wp進(jìn)行按位相加操作,得到H0.
本文模型由L=36層Transformer Decoder堆疊而成.模型輸入可在第l層獲得對(duì)應(yīng)層的嵌入表示:
Hl=TransformerDecoder(Hl-1)=
具體地,對(duì)于模型的第l(1≤l≤L)層,任意一個(gè)注意力頭的輸出為:
其中,
其中,indexSeq-POC-1和indexSeq-2-head分別表示Seq-POC-1及Seq-2-head的位置索引組成的集合.設(shè)計(jì)特殊的掩碼矩陣Mcohesion是為了讓模型能更好地利用來(lái)自不同語(yǔ)句的同組PoC含有的文本信息,其與正常Transformer Decoder結(jié)構(gòu)的區(qū)別如圖5所示.
(a)自掩碼多頭注意力
(b)基于語(yǔ)句融合的掩碼多頭注意力
本文實(shí)驗(yàn)首先在訓(xùn)練集上進(jìn)行微調(diào)訓(xùn)練,然后在測(cè)試集上進(jìn)行評(píng)估.訓(xùn)練集包含107 000條樣本,樣本中的PoC信息全部通過(guò)spaCy庫(kù)中的指代消解方法標(biāo)注.測(cè)試集為L(zhǎng)abanoff等[24]標(biāo)注的CNN/Daily Mail數(shù)據(jù)集(https://github.com/ucfnlp/sent-fusion-transformers),包含1 494個(gè)人工標(biāo)注的測(cè)試樣本.
實(shí)驗(yàn)中采用的評(píng)價(jià)指標(biāo)分為兩類:1)傳統(tǒng)的基于詞語(yǔ)共現(xiàn)頻率統(tǒng)計(jì)的生成文本評(píng)價(jià)指標(biāo)ROUGE[25]、BLEU(Bilingual Evaluation Understudy)[44];2)基于BERT進(jìn)行語(yǔ)義相似度衡量的生成文本評(píng)價(jià)指標(biāo)BERTScore[45].
本文模型是由36層Transformer Decoder堆疊而成,本文采用Wolf等[46]提供的開(kāi)源模型GPT2-large(https://huggingface.co/gpt2-large)進(jìn)行參數(shù)初始化.每個(gè)自注意力層由20個(gè)注意力頭構(gòu)成,Transformer Decoder的隱層維度為1 280,模型的最長(zhǎng)輸入序列長(zhǎng)度為1 024.在訓(xùn)練過(guò)程中,選擇Adam(Adaptive Moment Estimation)作為優(yōu)化器,采用帶有總訓(xùn)練步數(shù)15%比例熱身策略及線性衰減的學(xué)習(xí)率動(dòng)態(tài)調(diào)整方式.在模型的前饋傳播中,采用概率為10%失活參數(shù)的失活機(jī)制抑制模型過(guò)度擬合.
為了驗(yàn)證本文模型在文本自動(dòng)摘要任務(wù)上的有效性,實(shí)驗(yàn)中選擇多個(gè)具有代表性的基準(zhǔn)模型進(jìn)行對(duì)比.
1)Pointer-Generator Networks[6].采用一個(gè)由循環(huán)神經(jīng)網(wǎng)絡(luò)組成的encoder-decoder結(jié)構(gòu),將輸入語(yǔ)句壓縮成一個(gè)向量表示,然后再將其解碼成需要輸出的融合語(yǔ)句.
2)UNILM(Unified Pre-trained Language Model)[47].
采用與BERT基本一致的模型框架,但訓(xùn)練方式不同.通過(guò)聯(lián)合訓(xùn)練單向、雙向及Seq2Seq三種不同的語(yǔ)言模型得到UNILM,旨在使模型可同時(shí)應(yīng)用于NLU和NLG任務(wù).
3)GPT-2[31].本文模型在結(jié)構(gòu)方面與GPT-2基本一致,因此將GPT-2作為基準(zhǔn)模型之一.在具體實(shí)驗(yàn)中,直接采用經(jīng)過(guò)預(yù)訓(xùn)練的模型進(jìn)行文本輸出.
4)TRANS-LINKING[26].模型結(jié)構(gòu)同樣是堆疊的多層Transformer,不同之處在于其使用特殊標(biāo)記對(duì)輸入文本的PoC內(nèi)容的界限進(jìn)行標(biāo)注,然后直接將經(jīng)過(guò)標(biāo)記的數(shù)據(jù)放入模型中進(jìn)行訓(xùn)練.
5)TRANS-SHARERPER[26].模型結(jié)構(gòu)與TRANS-LINKING類似.受文獻(xiàn)[48]的啟發(fā),單獨(dú)使用一個(gè)注意力頭捕捉屬于同組PoC的文本信息,并且該P(yáng)oC包含的所有文本內(nèi)容在這個(gè)注意力頭中共享同一組語(yǔ)義表示.
6)Concat-Baseline.借鑒文獻(xiàn)[26]的做法,在一般的基準(zhǔn)模型外添加一個(gè)Concat-Baseline,該基準(zhǔn)不包含具體模型,而是直接將包含PoC的兩個(gè)或多個(gè)句子拼接后作為生成文本并輸出.
除本文模型以外,為與已有的最優(yōu)性能模型TRANS-LINKING和TRANS-SHARERPER進(jìn)行對(duì)比,實(shí)驗(yàn)中還設(shè)計(jì)一個(gè)參數(shù)縮減版的本文模型,該模型由24個(gè)Transformer Decoder層堆疊而成,模型參數(shù)采用經(jīng)過(guò)預(yù)訓(xùn)練的GPT-2-medium進(jìn)行初始化.該模型與TRANS-LINKING和TRANS-SHARERPER擁有同樣大小的參數(shù)量,從而能更直觀地體現(xiàn)模型結(jié)構(gòu)帶來(lái)的性能提升.上述對(duì)比模型全部統(tǒng)一在自動(dòng)標(biāo)注的PoC訓(xùn)練集上進(jìn)行訓(xùn)練,之后在有人工PoC標(biāo)注的測(cè)試集上進(jìn)行最終評(píng)估.
各模型在測(cè)試集上的指標(biāo)值如表1所示,表中黑體數(shù)字表示最優(yōu)值.為了分別檢驗(yàn)?zāi)P椭袃呻A段訓(xùn)練任務(wù)的有效性,本文在對(duì)比實(shí)驗(yàn)外還進(jìn)行模型的消融研究.具體來(lái)講,在本文模型上,分別只采用第一階段的自監(jiān)督訓(xùn)練及第二階段基于語(yǔ)句融合信息的注意力掩碼策略進(jìn)行訓(xùn)練,并將得到的模型在測(cè)試集上進(jìn)行評(píng)估.
表1 多種文本生成模型在測(cè)試集上的實(shí)驗(yàn)結(jié)果
為了直觀展現(xiàn)模型在進(jìn)行文本生成時(shí)的內(nèi)部狀態(tài),實(shí)驗(yàn)中還借助熱力圖對(duì)模型內(nèi)的注意力矩陣進(jìn)行可視化.
普通的Transformer深度模型和本文模型對(duì)同段輸入文本的信息捕獲情況如圖6所示.具體來(lái)講,兩幅圖都隨機(jī)取自模型的任意一層的任意一個(gè)注意力頭,并通過(guò)熱力圖的形式將該注意力矩陣進(jìn)行可視化.由圖6可見(jiàn),輸入文本是總共包含40個(gè)單詞的2個(gè)語(yǔ)句,這兩句話以第13個(gè)索引進(jìn)行分隔.在輸入的文本中包含一組PoC,分別位于索引4~7的第1句和索引22~24的第2句中.由(a)可看出,基于Transformer的模型并未針對(duì)PoC進(jìn)行特定的關(guān)注,而在(b)中可發(fā)現(xiàn),模型在處理第1句PoC部分內(nèi)容時(shí)額外關(guān)注第2句PoC信息之前的文本內(nèi)容,因此能融入更多的語(yǔ)義信息,這也解釋本文模型能獲得優(yōu)異性能表現(xiàn)的原因.
(a)深度模型 (b)本文模型
本文提出基于語(yǔ)句融合和自監(jiān)督訓(xùn)練的文本自動(dòng)摘要模型.該模型以Transformer Decoder為基本結(jié)構(gòu),設(shè)計(jì)自監(jiān)督和有監(jiān)督的兩階段訓(xùn)練任務(wù),使模型在公開(kāi)的文本自動(dòng)摘要數(shù)據(jù)集上取得較優(yōu)性能.本文模型在訓(xùn)練過(guò)程中充分利用數(shù)據(jù)集上的PoC標(biāo)注,根據(jù)PoC信息在排列語(yǔ)言模型的訓(xùn)練過(guò)程及模型在文本生成階段的信息攝入程度進(jìn)行針對(duì)處理,以求在生成摘要文本的過(guò)程中盡量采用語(yǔ)句融合技術(shù)而非對(duì)冗余重復(fù)信息的簡(jiǎn)單去除,進(jìn)一步增強(qiáng)生成摘要的概括性和流暢性.基于多個(gè)公開(kāi)評(píng)測(cè)指標(biāo)的評(píng)估結(jié)果及模型在應(yīng)用過(guò)程中部分參數(shù)的可視化結(jié)果都驗(yàn)證本文模型的有效性.
然而,本文的工作也存在如下兩點(diǎn)問(wèn)題:1)雖然針對(duì)文本生成過(guò)程中的語(yǔ)句融合進(jìn)行針對(duì)性的模型結(jié)構(gòu)修改,但從實(shí)驗(yàn)結(jié)果上看,取得的效果并沒(méi)有預(yù)期的明顯,尤其是在屏蔽模型參數(shù)量提升帶來(lái)的影響之后.2)實(shí)驗(yàn)數(shù)據(jù)來(lái)自對(duì)CNN/Daily Mail數(shù)據(jù)集進(jìn)行特定人工標(biāo)注的公開(kāi)數(shù)據(jù)集,由于涉及到文本的語(yǔ)義融合現(xiàn)象較復(fù)雜,標(biāo)注成本較高,而該公開(kāi)數(shù)據(jù)集的總數(shù)據(jù)量相對(duì)較小,因此本文模型還需更大、更有針對(duì)性的數(shù)據(jù)集進(jìn)行更進(jìn)一步的驗(yàn)證和分析,這也是下一步的研究方向.