• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      自然語言生成綜述

      2021-07-02 00:35:16李雪晴王朱君朱俊武
      計(jì)算機(jī)應(yīng)用 2021年5期
      關(guān)鍵詞:模板神經(jīng)網(wǎng)絡(luò)文本

      李雪晴,王 石,王朱君,朱俊武

      (1.揚(yáng)州大學(xué)信息工程學(xué)院,江蘇揚(yáng)州 225000;2.中國科學(xué)院計(jì)算技術(shù)研究所,北京 100190)

      (*通信作者電子郵箱wangshi@ict.ac.cn)

      0 引言

      自然語言生成(Natural Language Generation,NLG)是自然語言處理領(lǐng)域一個(gè)重要的組成部分,實(shí)現(xiàn)高質(zhì)量的自然語言生成也是人工智能邁向認(rèn)知智能的重要標(biāo)志。作為人工智能和計(jì)算語言學(xué)的子領(lǐng)域,自然語言生成從抽象的概念層次開始來生成文本[1]。NLG 技術(shù)具有極為廣泛的應(yīng)用價(jià)值,應(yīng)用于智能問答對話系統(tǒng)和機(jī)器翻譯系統(tǒng)時(shí),可實(shí)現(xiàn)更為智能便捷的人機(jī)交互;應(yīng)用于機(jī)器新聞寫作[2]、醫(yī)學(xué)診斷報(bào)告生成[3]和天氣預(yù)報(bào)生成[4]等領(lǐng)域時(shí),可實(shí)現(xiàn)文章報(bào)告自動撰寫,有效減輕人工工作;應(yīng)用于文章摘要、文本復(fù)述領(lǐng)域時(shí),可為讀者創(chuàng)造快速閱讀條件等。

      按照輸入信息的類型劃分,自然語言生成可以分為三類:文本到文本生成、數(shù)據(jù)到文本生成和圖像到文本生成。其中,文本到文本生成又可劃分為機(jī)器翻譯[5]、摘要生成、文本簡化、文本復(fù)述等;數(shù)據(jù)到文本生成的任務(wù)常應(yīng)用于基于數(shù)值數(shù)據(jù)生成BI(Business Intelligence)報(bào)告、醫(yī)療診斷報(bào)告等;在圖像到文本的生成的應(yīng)用領(lǐng)域中,常見的是通過新聞圖像生成標(biāo)題、通過醫(yī)學(xué)影像生成病理報(bào)告、兒童教育中看圖講故事等。國際上對上述技術(shù)均進(jìn)行了多年研究,研究成果主要發(fā)表在自然語言處理相關(guān)學(xué)術(shù)會議與期刊上,例如ACL(Annual Meeting of the Association for Computational Linguistics)、EMNLP(conference on Empirical Methods in Natural Language Processing)、NACAL(the North American Chapter of the Association for Computational Linguistic)、CoNLL(Conference on Computational Natural Language Learning)、ICLR(International Conference on Learning Representations)和AAAI(Association for the Advancement of Artificial Intelligence)等。上述每項(xiàng)技術(shù)都極具挑戰(zhàn)性,在學(xué)界和工業(yè)界的研究發(fā)展中,已經(jīng)對人們的生活和工作產(chǎn)生巨大的影響。

      NLG的體系結(jié)構(gòu)可分為傳統(tǒng)的管道模型和基于神經(jīng)網(wǎng)絡(luò)的端到端(End-to-End,End2End)模型兩種。管道模型中的不同模塊中包括多個(gè)獨(dú)立步驟,如文本結(jié)構(gòu)、句子聚合、語法化、參考表達(dá)式生成、語言實(shí)現(xiàn)等。其缺點(diǎn)一是上一步驟結(jié)果的好壞會直接影響到下一步驟,從而影響整個(gè)訓(xùn)練的結(jié)果;二是在于需要耗費(fèi)大量特定領(lǐng)域的手工標(biāo)注,難以擴(kuò)展到新的領(lǐng)域。

      隨著神經(jīng)網(wǎng)絡(luò)研究的發(fā)展,研究人員利用端到端的模型進(jìn)行自然語言處理。端到端的模型處理問題時(shí),不再人為劃分子問題,而是將中間的操作包含在神經(jīng)網(wǎng)絡(luò)中,省去了代價(jià)高而且易出錯(cuò)的數(shù)據(jù)標(biāo)注工作。端到端模型通過縮減人工預(yù)處理,增加模型的整體契合度,提高系統(tǒng)解決問題的效率。

      端到端模型的操作流程:首先,從輸入端輸入原始數(shù)據(jù),然后通過眾多操作層進(jìn)行數(shù)據(jù)加工,輸出端會產(chǎn)生一個(gè)預(yù)測結(jié)果;接著,將預(yù)測結(jié)果與真實(shí)結(jié)果相比較得到誤差,將誤差在端到端模型的每一層反向傳播,每一層的表示會根據(jù)誤差做調(diào)整,直到模型收斂或達(dá)到預(yù)期的效果才結(jié)束。端到端模型還可以與基于模板的方法融合以取得更好的效果。2017年發(fā)布的Task-Completion Bot 方法[6]在End2End 模型的基礎(chǔ)上將基于模板的NLG 和基于模型的NLG 進(jìn)行融合,生成自然語言文本。

      下面,本文將介紹一些生成方法和模型,以及分別介紹文本到文本、數(shù)據(jù)到文本、圖像到文本生成。

      1 生成方法與生成模型

      自然語言生成系統(tǒng)通常在不同階段使用不同的生成技術(shù)達(dá)到生成結(jié)果符合實(shí)際需求的目的。下面介紹幾種常用的文本生成技術(shù)。

      1.1 生成方法

      1.1.1 模板生成方法

      模板生成方法是最早應(yīng)用于自然語言生成領(lǐng)域的一種方法[7]。該技術(shù)通過將詞匯和短句在模板庫中進(jìn)行匹配,匹配后將詞匯和短語填入固定模板,從而生成自然語言文本,其本質(zhì)是系統(tǒng)根據(jù)可能出現(xiàn)的幾種語言情況,事先設(shè)計(jì)并構(gòu)造相應(yīng)的模板,每個(gè)模板都包括一些不變的常量和可變的變量,用戶輸入信息之后,文本生成器將輸入的信息作為字符串嵌入到模板中替代變量。

      模板生成方法的優(yōu)點(diǎn)是思路較簡單、用途較廣泛,但因技術(shù)存在的缺陷使得生成的自然語言文本質(zhì)量不高,且不易維護(hù)。該技術(shù)多應(yīng)用于較簡單的自然語言生成環(huán)境中。

      1.1.2 模式生成方法

      模式生成是一種基于修辭謂語來描述文本結(jié)果的方法。這種方法通過語言學(xué)中修辭謂詞來描述文本結(jié)構(gòu)的規(guī)律,構(gòu)建文本的骨架,從而明確句子中各個(gè)主體的表達(dá)順序。此方法表示的文本結(jié)構(gòu)中一般包括五種類型的節(jié)點(diǎn):Root、Predicate、Schema、Argument 以及Modifier。這五種節(jié)點(diǎn)中,Root 為結(jié)構(gòu)樹的根節(jié)點(diǎn),表示一篇文章位于根節(jié)點(diǎn)下有若干個(gè)Schema 節(jié)點(diǎn),Schema 節(jié)點(diǎn)表示段落或者句群,位于Schema節(jié)點(diǎn)下是Schema 節(jié)點(diǎn)或者Predicate 節(jié)點(diǎn),Predicate 節(jié)點(diǎn)代表一個(gè)句子,句子是文本的基本組成單位。位于Predicate 節(jié)點(diǎn)下的是Argument 節(jié)點(diǎn),每個(gè)Argument 節(jié)點(diǎn)表示句子中的每一個(gè)基本語義成分。如果Argument 節(jié)點(diǎn)有修飾成分,那么子節(jié)點(diǎn)Modifier 就發(fā)揮語義成分的修飾的作用。在結(jié)構(gòu)樹中,樹的葉子節(jié)點(diǎn)是Argument 或Modifier,樹中每個(gè)節(jié)點(diǎn)都含有若干個(gè)槽,槽用來存放標(biāo)志的各種信息以供文本生成使用。

      模式生成技術(shù)的最大優(yōu)點(diǎn)是通過填入不同的語句和詞匯短語即能生成自然語言文本,較易維護(hù),生成的文本質(zhì)量較高。不足是只能用于固定結(jié)構(gòu)類型的自然語言文本,難以滿足多變的需求。

      1.1.3 修辭結(jié)構(gòu)理論方法

      修辭結(jié)構(gòu)理論(Rhetorical Structure Theory,RST)方法來源于修辭結(jié)構(gòu)理論的引申[8],是關(guān)于自然語言文本組織的描述性理論。RST 包含Nucleus Satellite 模式和Multi-Nucleus 模式[9]兩種模式:Nucleus Satellite 模式將自然語言文本分為核心部分和附屬部分,核心部分是自然語言文本表達(dá)的基本命題,而附屬部分表達(dá)附屬命題,多用于描述目的、因果、轉(zhuǎn)折和背景等關(guān)系;Multi-Nucleus 模式涉及一個(gè)或多個(gè)語段,它沒有附屬部分,多用于描述順序、并列等關(guān)系。

      RST 技術(shù)優(yōu)點(diǎn)是表達(dá)的靈活性很強(qiáng),但實(shí)現(xiàn)起來較為困難,且存在不易建立文本結(jié)構(gòu)關(guān)系的缺陷。

      1.1.4 屬性生成方法

      屬性生成是一項(xiàng)較復(fù)雜的自然語言生成方法,其通過屬性特征來反映自然語言的細(xì)微變化。例如,生成的句子是主動語氣還是被動語氣,語氣是疑問、命令還是聲明,都需要屬性特征表示。此方法要求輸出的每一個(gè)單元都要與唯一具體的屬性特征集相連,這項(xiàng)技術(shù)通過屬性特征值與自然語言中的變化對應(yīng),直到所有信息都能被屬性特征值表示為止。

      該方法的優(yōu)點(diǎn)是通過增加新的屬性特征值完成自然語言文本內(nèi)容的擴(kuò)展,但需要細(xì)粒度的語言導(dǎo)致維護(hù)較為困難。

      以上四種方法在NLG 的發(fā)展過程中具有十分重要的作用。雖然這些方法存在一定不足,但仍具有較高的應(yīng)用價(jià)值。

      1.2 生成模型

      1.2.1 馬爾可夫鏈

      在語言生成中,馬爾可夫鏈通過當(dāng)前單詞可以預(yù)測句子中的下一個(gè)單詞,是經(jīng)常用于語言生成的算法。但由于僅注意當(dāng)前單詞,馬爾可夫模型無法探測當(dāng)前單詞與句子中其他單詞的關(guān)系以及句子的結(jié)構(gòu),使得預(yù)測結(jié)果不夠準(zhǔn)確,在許多應(yīng)用場景中受限。

      1.2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)

      循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)通過前饋網(wǎng)絡(luò)傳遞序列的每個(gè)項(xiàng)目信息,并將模型的輸出作為序列中下一項(xiàng)的輸入,每個(gè)項(xiàng)目存儲前面步驟中的信息。RNN 能夠捕捉輸入數(shù)據(jù)的序列特征,但存在兩大缺點(diǎn):第一,RNN 短期記憶無法生成連貫的長句子;第二,因?yàn)镽NN 不能并行計(jì)算,無法適應(yīng)主流趨勢。

      1.2.3 長短期記憶網(wǎng)絡(luò)

      長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)及其變體能夠解決梯度消失問題并生成連貫的句子,旨在更準(zhǔn)確地處理輸入的長序列中的依賴性,但LSTM 也有其局限性:LSTM 處理難以并行化,限制了LSTM 生成系統(tǒng)利用GPU(Graphics Processing Unit)等現(xiàn)代計(jì)算設(shè)備的能力。

      1.2.4 序列到序列模型

      序列到序列(Sequence-to-Sequence,Seq2Seq)模型是由Google 工程師Sutskever 等[10]在2014 年提出,該模型一般是通過Encoder-Decoder 框架實(shí)現(xiàn),目的是解決大部分序列不等長的問題,如機(jī)器翻譯中,源語言和目標(biāo)語言的句子往往并沒有相同的長度。Seq2Seq 模型結(jié)構(gòu)如圖1 所示,該模型更善于利用更長范圍的序列全局的信息,并且綜合序列上下文判斷,推斷出與序列相對應(yīng)的另一種表述序列。

      圖1 Seq2Seq模型示意圖Fig.1 Schematic diagram of Seq2Seq model

      1.2.5 Attention模型

      Attention模型是對人類大腦中的注意力進(jìn)行模擬,旨在從眾多信息中選擇出對當(dāng)前任務(wù)更關(guān)鍵的信息。在Encoder-Decoder框架中,Encoder中的每個(gè)單詞對輸出文本中的每一個(gè)單詞的影響是相同的,導(dǎo)致語義向量無法完全表示整個(gè)序列的信息,隨著輸入的序列長度的增加,解碼后的生成文本的質(zhì)量準(zhǔn)確度下降。Attention模型在處理輸入信息時(shí),對不同的塊或區(qū)域采用不同的權(quán)值,權(quán)重越大越聚焦于其對應(yīng)的內(nèi)容信息,Attention模型示意圖如圖2所示,引入該模型后,能夠使得關(guān)鍵信息對模型的處理結(jié)果影響較大,從而提高輸出的質(zhì)量。

      圖2 注意力模型示意圖Fig.2 Schematic diagram of attention model

      1.2.6 Transformer模型

      Transformer 模型在2017年由Google團(tuán)隊(duì)[11]首次提出。Transformer 是一種基于注意力機(jī)制來加速深度學(xué)習(xí)算法的模型,由一組編碼器和一組解碼器組成,編碼器負(fù)責(zé)處理任意長度的輸入并生成其表達(dá),解碼器負(fù)責(zé)把新表達(dá)轉(zhuǎn)換為目的詞。Transformer 模型利用注意力機(jī)制獲取所有其他單詞之間的關(guān)系,生成每個(gè)單詞的新表示。

      Transformer 的優(yōu)點(diǎn)是注意力機(jī)制能夠在不考慮單詞位置的情況下,直接捕捉句子中所有單詞之間的關(guān)系。模型拋棄之前傳統(tǒng)的Encoder-Decoder 模型必須結(jié)合RNN 或者卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的固有模式,使用全Attention 的結(jié)構(gòu)代替了LSTM,減少計(jì)算量和提高并行效率的同時(shí)不損害最終的實(shí)驗(yàn)結(jié)果;但是此模型也存在缺陷,首先此模型計(jì)算量太大,其次還存在位置信息利用不明顯的問題,無法捕獲長距離的信息。

      1.2.7 ELMo模型

      2018 年,ELMo(Embedding from Language Model)出世。在之前工作中,每個(gè)詞對應(yīng)一個(gè)vector,處理多義詞時(shí)會產(chǎn)生偏差。ELMo不同于以往的一個(gè)詞對應(yīng)一個(gè)固定向量,而是實(shí)現(xiàn)了將一句話或一段話輸入模型,模型根據(jù)上下文來推斷每個(gè)詞對應(yīng)的詞向量。該模型的結(jié)構(gòu)如圖3 所示,其優(yōu)點(diǎn)是利用多層LSTM 和前后向LSTM,實(shí)現(xiàn)結(jié)合前后語境對多義詞準(zhǔn)確理解。

      圖3 ELMo模型示意圖Fig.3 Schematic diagram of the ELMo model

      1.2.8 BERT模型

      BERT(Bidirectional Encoder Representations from Transformers)模型于2018年由Google 團(tuán)隊(duì)首次提出。在自然語言生成任務(wù)中,BERT 模型采用雙向Transformer,模型的表示在所有層中,共同依賴于左右兩側(cè)的上下文。在自然語言生成中,該模通過查詢字向量表將文本中的每個(gè)字轉(zhuǎn)換為一維向量作為模型輸入;模型輸出則是輸入各字對應(yīng)的融合全文語義信息后的向量表示。與最近的其他語言表示模型不同,BERT旨在通過聯(lián)合調(diào)節(jié)所有層中的上下文來預(yù)先訓(xùn)練深度雙向表示。此模型在多種NLP任務(wù)中取得了先進(jìn)結(jié)果。

      1.3 技術(shù)對比

      在NLG 領(lǐng)域中,每種生成方法和模型各具特點(diǎn)?,F(xiàn)按時(shí)間順序整理常見的方法模型及其優(yōu)缺點(diǎn)對比,如表1所示。

      表1 常見方法優(yōu)缺點(diǎn)Tab.1 Advantages and disadvantages of common methods

      2 文本到文本生成

      文本到文本生成技術(shù)主要是指以文本作為輸入,進(jìn)行變換處理后,生成新的文本作為輸出。此技術(shù)包括機(jī)器翻譯、文本摘要、文本更正和文本復(fù)述等。

      2.1 機(jī)器翻譯

      在文本到文本生成領(lǐng)域中,機(jī)器翻譯是使用機(jī)器自動地將一種自然語言文本(源語言)翻譯成另一種自然語言文本(目標(biāo)語言)[12]。在統(tǒng)計(jì)機(jī)器翻譯時(shí)期,Brown 等[13]提出基于信源信道思想的統(tǒng)計(jì)機(jī)器翻譯模型,其基本思想是把機(jī)器翻譯看成是一個(gè)信息傳輸?shù)倪^程,用一種信源信道模型對機(jī)器翻譯進(jìn)行解釋。2005 年,Bannard 等[14]使用雙語并行語料庫來提取和生成釋義,基于雙語平行語料提出了一種復(fù)述模型。該模型設(shè)置了一組手動詞,利用短語e1和短語e2共有的外文翻譯f作為“樞軸”,P(f|e1)表示f是e1的復(fù)述的概率,計(jì)算P(f|e1)和P(f|e2)的乘積來計(jì)算短語e1是e2的復(fù)述的概率P(e1|e2),優(yōu)點(diǎn)是對翻譯內(nèi)容進(jìn)行細(xì)化,并且將上下文信息考慮在內(nèi)。統(tǒng)計(jì)機(jī)器翻譯的優(yōu)點(diǎn)是解決了規(guī)則法中翻譯知識獲取的難題,開發(fā)周期短,實(shí)用性較強(qiáng)。缺陷是模型沒有考慮句子的結(jié)構(gòu)信息,模型在句法結(jié)構(gòu)相差加大的語言對中翻譯效果不理想。

      目前,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯已經(jīng)逐漸成為主流方法。相比傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯而言,使用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)自然語言生成中的機(jī)器翻譯,不僅適合處理變長的線性序列,而且會根據(jù)上下文選擇合適的單詞。Kalchbrenner 等[15]于2013年提出一種用于機(jī)器翻譯的新型編碼器-解碼器結(jié)構(gòu)。該模型使用的數(shù)據(jù)集來自WMT(Workshop on Machine Translation)公布的新聞部分的144 953 對長度小于80 個(gè)單詞的雙語語料庫。使用卷積神經(jīng)網(wǎng)絡(luò)將給定的一段源文本編碼成一個(gè)連續(xù)的向量,然后再使用循環(huán)神經(jīng)網(wǎng)絡(luò)作為解碼器將該狀態(tài)向量轉(zhuǎn)換成目標(biāo)語言。實(shí)驗(yàn)結(jié)果表明,該模型翻譯結(jié)果的困惑度比基于對齊的模型低43%。

      如今機(jī)器翻譯在應(yīng)用中面臨的問題主要是語言數(shù)據(jù)資源稀缺、缺少平行數(shù)據(jù),未來的核心工作是構(gòu)建高質(zhì)量的平行數(shù)據(jù)庫,使翻譯結(jié)果更具有靈活性且貼合語境。

      2.2 文本摘要

      文本摘要通過分析輸入的文本,捕捉原始文本的核心含義,摘取文本中的重要信息,通過提煉壓縮等操作,生成篇幅短小的摘要,為用戶提供閱讀便利。根據(jù)實(shí)現(xiàn)技術(shù)方案的不同,文本摘要可以分為生成式文本摘要和抽取式文本摘要。

      生成式文本摘要是一個(gè)端到端的過程,首先利用自然語言理解對文本進(jìn)行語法語義分析,進(jìn)行信息融合后,再利用自然語言生成技術(shù)生成文本摘要。生成式摘要包含新的詞語或短語,靈活性較高。隨著近幾年神經(jīng)網(wǎng)絡(luò)模型的發(fā)展,帶有注意力的序列到序列模型被廣泛地用于生成式摘要任務(wù)[16]。其優(yōu)點(diǎn)在于突破了傳統(tǒng)模型中固定大小的輸入問題,并能從序列中間抓住重點(diǎn),不丟失重要的信息,從而解決了長距離的信息會被弱化的問題。

      抽取式文本摘要是從文檔或文檔集中抽取其中一句話或幾句話,構(gòu)成摘要。優(yōu)點(diǎn)是簡單實(shí)用,不易產(chǎn)生完全偏離文章主旨的點(diǎn),但是可能伴隨生成摘要不連貫、字?jǐn)?shù)不好控制、目標(biāo)句主旨不明確等缺點(diǎn),其產(chǎn)生的摘要質(zhì)量好壞決定于原文。在抽取式方法中,最簡單的是抽取文章中的前幾句作為文本摘要。常用的方法為Lead-3,即抽取文章的前三句作為文章的摘要。此方法簡單直接,但只適用于單文檔摘要。利用Text Rank 進(jìn)行文本摘要生成時(shí),將句子作為節(jié)點(diǎn),使用句子間相似度,構(gòu)造無向有權(quán)邊。使用邊上的權(quán)值迭代更新節(jié)點(diǎn)值,最后選取N個(gè)得分最高的節(jié)點(diǎn),作為文本摘要。使用聚類方法實(shí)現(xiàn)文本摘要生成時(shí),首先將句子向量化表示,然后利用K均值聚類和Mean-Shift聚類方法進(jìn)行句子聚類,接著從得到K個(gè)類別中,選擇距離質(zhì)心最近的句子,最后得到K個(gè)句子,作為最終摘要[17]。例如Jadhav 等[18]直接使用Seq2Seq 模型來交替生成詞語和句子的索引序列來完成抽取式摘要任務(wù),其模型SWAP-NET(Sentencesand Words from Alternating Pointer NETwork)計(jì)算一個(gè)Switch 概率指示生成詞語或者句子,最后解碼出詞語和句子的混合序列,摘要從產(chǎn)生句子的集合選出。

      抽取式、生成式摘要各有優(yōu)點(diǎn),混合式文本摘要為了結(jié)合兩者優(yōu)點(diǎn),同時(shí)運(yùn)用抽取方式和生成方式進(jìn)行文本摘要生成。在生成式摘要中,生成過程缺少關(guān)鍵信息的控制和指導(dǎo),無法很好地定位關(guān)鍵詞語,因此一些方法首先提取關(guān)鍵內(nèi)容,再進(jìn)行摘要生成。Laha 等[19]將抽取式模型的輸出概率作為句子級別的attention 權(quán)重,用該權(quán)重來調(diào)整生成式模型中的詞語級別的attention 權(quán)重,當(dāng)詞語級別的attention 權(quán)重高時(shí),句子級別的attention 權(quán)重也高。此方法使得模型輸出的句子級別的權(quán)重和詞語級別的權(quán)重盡量一致,有效定位關(guān)鍵信息。

      文本摘要作為傳統(tǒng)的自然語言處理任務(wù),核心問題是如何確定關(guān)鍵信息。研究人員發(fā)現(xiàn)利用外部知識、關(guān)鍵詞信息等方式來更好地輔助摘要的生成,同時(shí)要盡量避免出現(xiàn)重復(fù)、可讀性差這些問題的出現(xiàn)。

      2.3 文本復(fù)述

      文本復(fù)述生成技術(shù)通過對給定文本進(jìn)行改寫,生成全新的復(fù)述文本,要求輸出與原文形式差異、語義相同的文本。文本簡化是文本復(fù)述的一類特殊問題,其目的是將復(fù)雜的長句改寫成簡單、可讀性更好、易于理解的多個(gè)短句,方便用戶快速閱讀。在文本簡化領(lǐng)域的研究中,Siddharthan[20]于2014 年發(fā)表一篇綜述論文,文中使用聯(lián)想詞匯銜接的應(yīng)用來分析文本的復(fù)雜性。在Coster 等[21]提出的關(guān)于句子簡化的研究中,將英語維基百科與簡單的英語維基百科生成一個(gè)平行的簡化語料庫,使用Moses 提供初步的文本簡化結(jié)果,發(fā)現(xiàn)在未簡化的基礎(chǔ)上有0.005 個(gè)BLEU(BiLingual Evaluation Understudy)改善。

      3 數(shù)據(jù)到文本生成

      數(shù)據(jù)到文本生成也是NLG 的重要研究方向,以包含鍵值對的數(shù)據(jù)作為輸入,旨在自動生成流暢的、貼近事實(shí)的文本以描述輸入數(shù)據(jù)。數(shù)據(jù)到文本生成廣泛應(yīng)用于包括基于面向任務(wù)的對話系統(tǒng)中的對話動作、體育比賽報(bào)告和天氣預(yù)報(bào)等?;诹魉€模型的數(shù)據(jù)到文本生成系統(tǒng)框架,目前廣泛應(yīng)用于面向多個(gè)領(lǐng)域的數(shù)據(jù)到文本的生成系統(tǒng)[22]中。

      國內(nèi)關(guān)于數(shù)據(jù)到文本的生成的研究大多是基于模板,通過人工添加數(shù)據(jù)進(jìn)行生成。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,數(shù)據(jù)到文本生成領(lǐng)域中基于神經(jīng)網(wǎng)絡(luò)序列生成的方法逐步成為熱點(diǎn)。

      3.1 基于規(guī)則和模板方法

      基于規(guī)則和模板方法是一種簡單實(shí)用的自然語言文本生成技術(shù)方法[23],其本質(zhì)是系統(tǒng)根據(jù)可能出現(xiàn)的幾種語言情況,事先設(shè)計(jì)并構(gòu)造相應(yīng)的規(guī)則或模板,其中都包括一些不變的常量和可變的變量,用戶輸入信息之后,文本生成器將輸入的信息作為字符串嵌入到模板中替代變量。

      2003年Duboue等[24]提出一種內(nèi)容選擇方法,從文本語料中自動學(xué)習(xí)內(nèi)容選擇規(guī)則和獲取相關(guān)語義,并用于人物傳記的短文本生成。2017 年Gong 等[25]在基于模板技術(shù)的自動生成系統(tǒng)中加以改進(jìn),提出了一種基于知識規(guī)則的模板自動生成方法,用于從模板集中動態(tài)選擇模板,實(shí)現(xiàn)快速有效地生成海量體育新聞。基于模板集的系統(tǒng)生成的文本靈活性強(qiáng)、內(nèi)容更加豐富。

      模板生成技術(shù)是一種簡單實(shí)用的自然語言文本生成技術(shù)[26],該技術(shù)通過將詞匯和短句在模板庫中進(jìn)行匹配,匹配后將詞匯和短語填入固定模板,從而生成自然語言文本,其本質(zhì)是系統(tǒng)根據(jù)可能出現(xiàn)的幾種語言情況,事先設(shè)計(jì)并構(gòu)造相應(yīng)的模板,每個(gè)模板都包括一些不變的常量和可變的變量,用戶輸入信息之后,文本生成器將輸入的信息作為字符串嵌入到模板中替代變量。

      基于規(guī)則和模板方法是工業(yè)應(yīng)用中主流的做法,此方法具備可解釋性與可控制性,保證所輸出文本的正確性;然而方法的劣勢較為明顯,難以實(shí)現(xiàn)端到端的優(yōu)化,損失信息上限也不高,需要依賴人工干預(yù)來抽取優(yōu)質(zhì)模板,生成的內(nèi)容在多樣性、流暢度以及連貫性往往會不盡如人意。

      3.2 基于神經(jīng)網(wǎng)絡(luò)序列生成方法

      近年來,隨著深度學(xué)習(xí)技術(shù)的推進(jìn),研究人員開始使用神經(jīng)網(wǎng)絡(luò)序列生成的方法進(jìn)行數(shù)據(jù)到文本生成,這種方法稱為data-to-seq 模型?;谏窠?jīng)網(wǎng)絡(luò)的方法又分為基于神經(jīng)網(wǎng)絡(luò)語言模型的方法和基于神經(jīng)機(jī)器翻譯的方法。

      3.2.1 基于神經(jīng)機(jī)器翻譯方法

      Mei 等[27]的研究中將數(shù)據(jù)的文本生成任務(wù)視為一個(gè)翻譯任務(wù),即輸入的是結(jié)構(gòu)化數(shù)據(jù),輸出的是文本。在Puduppully等[28]的研究中,為了解決神經(jīng)系統(tǒng)難以捕獲長期結(jié)構(gòu)的問題,提出了一個(gè)神經(jīng)網(wǎng)絡(luò)架構(gòu)模型,如圖4所示。

      圖4 具有內(nèi)容選擇和規(guī)劃的生成模型Fig.4 Generation model with content selection and planning

      模型將任務(wù)分解為兩個(gè)階段:1)內(nèi)容選擇和規(guī)劃對數(shù)據(jù)庫的輸入記錄進(jìn)行操作,并生成一個(gè)內(nèi)容計(jì)劃,指定哪些記錄將在文檔中以及以何種順序進(jìn)行語言描述;2)文本生成產(chǎn)生輸出文本給定內(nèi)容計(jì)劃作為輸入;同時(shí)加入copy 機(jī)制來提升解碼器的效果。實(shí)驗(yàn)結(jié)果表明,在輸出文本中包含的相關(guān)事實(shí)數(shù)量和這些事實(shí)呈現(xiàn)出的順序性,生成質(zhì)量都得到了提高。

      3.2.2 基于神經(jīng)網(wǎng)絡(luò)語言模型方法

      神經(jīng)網(wǎng)絡(luò)語言模型由Bengio 等[29]于2003 年提出,模型解決了n-gram 模型當(dāng)n較大時(shí)會發(fā)生數(shù)據(jù)稀疏的問題。基于神經(jīng)語言模型的方法不需要太多人工干預(yù),易產(chǎn)生豐富流暢的文字描述,不過受限于語料和模型,使用者無法直接控制內(nèi)容生成,難以確保所輸出的文本內(nèi)容同輸入數(shù)據(jù)中的信息吻合,需要優(yōu)化來提高實(shí)用性。2018 年,在Yang 等[30]關(guān)于TEG(Topic to Essay Generation)任務(wù)的研究中,將知識圖譜嵌入當(dāng)作外部知識輔助自然語言生成。過去TEG 工作僅僅基于給定的主題去執(zhí)行文本生成,忽略常識知識所提供的背景知識,常識知識能夠有效提高生成文章的新穎性和多樣性。Yang等[30]的實(shí)驗(yàn)結(jié)果與BLEU 評分的最佳基線相比,取得了11.85%的相對改進(jìn),所以通過知識圖譜嵌入來輔助自然語言生成,生成的文章新穎多樣且主題一致。

      3.3 公開數(shù)據(jù)集

      在不同的應(yīng)用領(lǐng)域,有相關(guān)特定的數(shù)據(jù)到文本生成的數(shù)據(jù)集,如表2 所示。在天氣預(yù)報(bào)生成領(lǐng)域中的數(shù)據(jù)集有SumTime-Meteo[31]和Weather Gov[32];體育比賽領(lǐng)域的數(shù)據(jù)集有RoboCup[33]、NFL(National Football League)[34]、Rotowire[35];航空領(lǐng)域常見的數(shù)據(jù)集有ATIS(Automatic Terminal Information System)[36];人物傳記領(lǐng)域常見的數(shù)據(jù)集有WikiBio[37]。

      表2 數(shù)據(jù)到文本生成常見的數(shù)據(jù)集Tab.2 Data-to-text generated common datasets

      4 圖像到文本生成

      圖像到文本生成是指根據(jù)輸入的圖像信息生成描述圖像的自然語言文本,常應(yīng)用于給新聞圖片生成標(biāo)題、兒童教育中看圖講故事、醫(yī)學(xué)圖像報(bào)告等。此項(xiàng)技術(shù)能夠?yàn)槿狈ο嚓P(guān)知識或閱讀障礙的人群提供便利。

      根據(jù)生成文本的長度和內(nèi)容詳細(xì)程度分類,可以將圖像到文本生成分為圖像標(biāo)題自動生成和圖像說明自動生成。圖像的文本生成技術(shù)主要可分為三類:基于模板的圖像描述、檢索式圖像描述以及生成式圖像描述。

      4.1 基于模板的圖像描述

      早期利用流水線模式實(shí)現(xiàn)圖像到文本生成。在Yao 等[38]的研究中,使用句子模板實(shí)現(xiàn)生成圖像的描述,其模板為四元組形式。此模型在視頻監(jiān)控系統(tǒng)和自動駕駛場景理解系統(tǒng)中解析特定域中的圖像視頻進(jìn)行實(shí)驗(yàn),生成有使用價(jià)值的文本報(bào)告。

      基于模板的圖像描述方法的優(yōu)點(diǎn)是能夠有效保證生成文本語法的正確性以及內(nèi)容的相關(guān)性。該方法由于視覺模型數(shù)量較少,所以存在所生成的句子新穎度和復(fù)雜度不高等問題。

      4.2 檢索式圖像描述

      檢索式圖像描述是根據(jù)待描述圖像,從句子池中檢索出一個(gè)或一組句子來為圖像生成描述[39]。Farhadi 等[40]通過建立的三元組對象,動作,場景實(shí)現(xiàn)圖像與文本意義的相關(guān)聯(lián)。根據(jù)給定的待描述圖像,首先利用求解Markov Random Field 將其映射到三元組,然后通過Lin 相似度來計(jì)算圖像和句子之間的語義距離,最后選擇從句子池中選擇語義最相近的句子來實(shí)現(xiàn)圖像描述的生成。

      基于檢索式圖像到文本的生成方法能夠使得生成文本在語法上具有正確性和流暢性[41],但由于使用句子池中的句子進(jìn)行圖像描述,生成效果欠缺新穎性,在描述復(fù)雜場景或包含新穎事物的圖片中存在局限性。

      4.3 生成式圖像描述

      從視覺空間或多模態(tài)空間中生成圖像描述的做法是,在分析圖像內(nèi)容的基礎(chǔ)上,使用語言模型來生成圖像的描述。因?yàn)榇朔椒ɡ昧松疃葘W(xué)習(xí)技術(shù),所以可以適應(yīng)為多種的圖像生成新的描述的任務(wù)需求,生成文本的相關(guān)性和準(zhǔn)確性較之前方法有所提升。因此,基于深度學(xué)習(xí)的生成式圖像描述是目前研究的熱點(diǎn)。

      4.3.1 基于多模態(tài)空間的圖文生成

      多模態(tài)空間的圖文生成框架包含4 個(gè)部分,框架如圖5所示。

      圖5 基于多模態(tài)空間的圖文生成框架Fig.5 Framework of image text generation based on multimodal space

      圖像編碼器在深度卷積神經(jīng)網(wǎng)絡(luò)的作用下實(shí)現(xiàn)圖像特征的提取。文本編碼器在提取單詞特征的基礎(chǔ)上學(xué)習(xí)并更新單詞的特征表示,并將其按照上下文順序饋送給循環(huán)神經(jīng)網(wǎng)絡(luò)。多模態(tài)空間的作用是將圖像特征和文本特征映射到空間。然后傳至文本解碼器,從而生成圖像描述。Li 等[42]利用知識圖譜技術(shù)實(shí)現(xiàn)醫(yī)學(xué)報(bào)告生成,其流程是根據(jù)輸入的醫(yī)學(xué)圖像,先用預(yù)訓(xùn)練好的CNN 提取出圖像特征;然后經(jīng)過一個(gè)圖像編碼器得到語境向量;接著用句子解碼器對語境向量進(jìn)行解碼得到若干個(gè)topic;對于每個(gè)topic 可以用模板庫或者生成模式進(jìn)行強(qiáng)化學(xué)習(xí),得到診斷報(bào)告。

      4.3.2 基于生成對抗網(wǎng)絡(luò)的圖文生成

      生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)由1個(gè)生成網(wǎng)絡(luò)和1 個(gè)判別網(wǎng)絡(luò)組成,在兩個(gè)神經(jīng)網(wǎng)絡(luò)相互博弈中進(jìn)行學(xué)習(xí)。輸入隨機(jī)噪聲后,生成網(wǎng)絡(luò)會模擬真實(shí)樣本進(jìn)行輸出。生成網(wǎng)絡(luò)的輸出作為判別網(wǎng)絡(luò)的輸入,目的是分辨數(shù)據(jù)來自真實(shí)樣本還是來自網(wǎng)絡(luò)生成。在生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)相互對抗中,通過學(xué)習(xí)調(diào)整參數(shù),直到生成結(jié)果和真實(shí)樣本趨于一致。

      基于GAN 的圖像描述方法與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型相比,生成的文本更加貼近人類的描述,更具有多樣性。

      4.3.3 基于強(qiáng)化學(xué)習(xí)的圖文生成

      強(qiáng)化學(xué)習(xí)是通過Agent與Environment 交互的方式來獲得獎勵,以此來指導(dǎo)Agent的下一步行為。Ren等[43]提出的基于強(qiáng)化學(xué)習(xí)的圖文生成體系結(jié)構(gòu)由“策略網(wǎng)絡(luò)”和“價(jià)值網(wǎng)絡(luò)”構(gòu)成。在每個(gè)時(shí)間步內(nèi),兩個(gè)網(wǎng)絡(luò)共同計(jì)算下一個(gè)最佳生成詞,該方法借助實(shí)際獎勵值來衡量圖像與句子相似性,并以此評估生成的圖像描述文本的正確性。Rennie等[44]提出了一種基于self-critical 思想的強(qiáng)化學(xué)習(xí)方法來訓(xùn)練序列生成模型。此方法沒有直接去估算獎勵,而是使用測試階段的輸出來歸一化獎勵而不是評估一個(gè)baseline歸一化獎勵。

      基于強(qiáng)化學(xué)習(xí)的圖文生成方法可以優(yōu)化序列學(xué)習(xí)中的曝光偏差問題,但也可能存在具有很高方差的問題。

      5 評估方法

      5.1 BLEU

      BLEU是一個(gè)雙語評估輔助工具,主要用來評估機(jī)器翻譯的質(zhì)量。n-gram 在自然語言處理中表示多元精度,可以用來評估一個(gè)句子是否合理,也可以用來評估兩個(gè)字符串之間的差異程度。BLEU 的核心思想是比較候選文本和參考文本里的n-gram 的重合程度,重合程度越高就認(rèn)為譯文質(zhì)量越高。uni-gram 用于衡量單詞翻譯的準(zhǔn)確性,高階n-gram 用于衡量句子翻譯的流暢性[45]。實(shí)踐中,通常是取n=1~4,然后對進(jìn)行加權(quán)平均。它的計(jì)算公式如下:

      其中:n表示n-gram,BP為懲罰因子,Pn為多元精度,Wn為多元精度對應(yīng)的權(quán)重。懲罰因子BP具體計(jì)算方法為:

      其中:c指候選譯文的長度;r指所有參考譯文中,其長度與候選譯文最接近的長度。懲罰因子主要用來懲罰機(jī)器譯文與參考譯文長度差距過大情況。

      5.2 METEOR

      METEOR 又稱顯式排序的翻譯評估指標(biāo)[46],它在基于BLEU 的基礎(chǔ)上進(jìn)行了一些改進(jìn),其目的是克服一些BLEU 標(biāo)準(zhǔn)中的缺陷。使用WordNet 計(jì)算特定的序列匹配,同義詞,詞根和詞綴、釋義之間的匹配關(guān)系,改善了BLEU 的效果,使其跟人工判別有更強(qiáng)的相關(guān)性。計(jì)算公式如下:

      其中:α為可調(diào)控的參數(shù),m為候選翻譯中能夠被匹配的一元組的數(shù)量,c為候選翻譯的長度,r為參考摘要的長度。pen為懲罰因子,懲罰的是候選翻譯中的詞序與參考翻譯中的詞序不同,具體計(jì)算方法為:

      其中:m是候選翻譯中能夠被匹配的一元組的數(shù)量,#chunks指的是chunk 的數(shù)量,chunk 是既在候選翻譯中相鄰又在參考翻譯中相鄰的被匹配的一元組聚集而成的單位。

      METEOR 主要特點(diǎn)是uni-gram 共現(xiàn)統(tǒng)計(jì)、基于F 值和考慮同義詞、詞干,常應(yīng)用于機(jī)器翻譯和圖片說明,因?yàn)槠湟蕾囉贘ava 才能實(shí)現(xiàn),并且參數(shù)較多,需要外部知識源如WebNet的支持,所以它在應(yīng)用起來有一定的局限性。

      5.3 ROUGE

      ROUGE(Recall-Oriented Understudy for Gisting Evaluation)大致分為4 種:ROUGE-N、ROUGE-L、ROUGE-W、ROUGE-S。常用的是前兩種,ROUGE-N 中的“N”指的是ngram,其計(jì)算方式與BLEU 類似,只是BLEU基于精確率,而ROUGE基于召回率。ROUGE-L中的“L”指的是Longest common sub sequence,計(jì)算的是候選摘要與參考摘要的最長公共子序列長度,長度越長得分越高。

      主要介紹ROUGE-N 和ROUGE-L 的計(jì)算公式,ROUGE-N計(jì)算公式如下:

      其中:n表示n-gram,Count(gramn)表示一個(gè)n-gram 的出現(xiàn)次數(shù),Countmatch(gramn)表示一個(gè)n-gram的共現(xiàn)次數(shù)。

      ROUGE-L的計(jì)算公式如下:

      其中:X表示候選摘要,Y表示參考摘要,LCS(X,Y)表示候選摘要與參考摘要的最長公共子序列的長度,m表示參考摘要的長度,n表示候選摘要的長度。

      ROUGE 方法的特點(diǎn)是n-gram 共現(xiàn)統(tǒng)計(jì)、基于召回率(ROUGE-N)和F 值(ROUGE-L),常應(yīng)用于文本摘要。值得注意的是,ROUGE 是基于字的對應(yīng)而非基于語義的對應(yīng),不過可以通過增加參考摘要的數(shù)量來緩解這一問題。

      5.4 Perplexity

      Perplexity 又稱困惑度[47]。它的核心思想是:首先根據(jù)參考句子,學(xué)習(xí)一個(gè)語言模型P;然后根據(jù)語言模型P,計(jì)算候選句子的得分;最后根據(jù)句子長度對上述得分進(jìn)行標(biāo)準(zhǔn)化。計(jì)算公式如下:

      其中:W是候選翻譯,N是候選翻譯的長度,P是根據(jù)參考翻譯得到的語言模型,而P(w1w2…wN)則是語言模型對候選翻譯計(jì)算出的得分。

      Perplexity 這一評估指標(biāo)是基于語言模型的。困惑度越低,翻譯質(zhì)量越好,經(jīng)常應(yīng)用于機(jī)器翻譯、語言模型。它的缺點(diǎn)是:數(shù)據(jù)集越大困惑度下降得越快、數(shù)據(jù)中的標(biāo)點(diǎn)會對模型的PPL產(chǎn)生影響和常用詞干擾。

      5.5 CIDEr

      CIDEr(Consensus-based Image Description Evaluation)是基于共識的圖像描述進(jìn)行評估,核心思想:把每個(gè)句子看成文檔,然后計(jì)算其TF-IDF(Term Frequency-Inverse Document Frequency)向量的余弦夾角,據(jù)此得到候選句子和參考句子的相似度。計(jì)算公式如下:

      其中:c表示候選標(biāo)題,S表示參考標(biāo)題集合,n表示評估的是n-gram,M表示參考標(biāo)題的數(shù)量,gn表示基于n-gram 的TF-IDF向量。

      該評估方法主要運(yùn)用于圖片說明,它與ROUGE 一樣,也只是基于字詞的對應(yīng)而非語義的對應(yīng)。

      5.6 語義命題圖像標(biāo)題評估

      語義命題圖像標(biāo)題評估(Semantic Propositional Image Caption Evaluation,SPICE)的核心思想是使用基于圖的語義表示來編碼文字中的物體、屬性和關(guān)系。它先將候選文本和參考文本用概率上下文無關(guān)法解析成句法依賴關(guān)系樹,然后用規(guī)則法把依存關(guān)系樹映射成場景圖[48],最后計(jì)算候選文本中物體、屬性和關(guān)系中的F-score值。它的計(jì)算公式如下:

      其中:c表示候選文本,S表示參考文本集合,G(·)函數(shù)表示將一段文本轉(zhuǎn)換成一個(gè)場景圖,T(·)函數(shù)表示將一個(gè)場景圖轉(zhuǎn)換成一系列元組的集合;?運(yùn)算類似于交集,與交集不同的地方在于它不是嚴(yán)格匹配,而是類似于METEOR中的匹配。

      SPICE 方法的主要特點(diǎn)是使用基于圖的語義表示,常應(yīng)用于圖片說明。在評估的時(shí)候主要考察名詞的相似度,不適合用于機(jī)器翻譯等任務(wù)。

      6 發(fā)展趨勢

      借助自然語言生成的演變可以看到,從使用簡單的馬爾可夫鏈生成句子到使用注意力機(jī)制模型生成更長距離的連貫文本,如今正處于自然語言生成建模的攻堅(jiān)克難時(shí)期。Transformer 向真正自主文本生成方向邁出了重要的一步,與此同時(shí),還針對其他類型的內(nèi)容(例如圖像、視頻和音頻)開發(fā)了生成模型。目前在自然語言生成評估標(biāo)準(zhǔn)中,缺乏一個(gè)通用的高質(zhì)量的評估標(biāo)準(zhǔn),這也是制約NLG 發(fā)展的一個(gè)重要原因,接下來研究的一個(gè)熱點(diǎn)是整理出一個(gè)更好的業(yè)內(nèi)公認(rèn)的高質(zhì)量的數(shù)據(jù)集來制定高質(zhì)量的評價(jià)標(biāo)準(zhǔn)。

      猜你喜歡
      模板神經(jīng)網(wǎng)絡(luò)文本
      鋁模板在高層建筑施工中的應(yīng)用
      鋁模板在高層建筑施工中的應(yīng)用
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      在808DA上文本顯示的改善
      基于doc2vec和TF-IDF的相似文本識別
      電子制作(2018年18期)2018-11-14 01:48:06
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      鋁模板在高層建筑施工中的應(yīng)用
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      城市綜改 可推廣的模板較少
      榆林市| 崇仁县| 铁岭市| 金沙县| 慈利县| 陆丰市| 交城县| 兰溪市| 天峨县| 山丹县| 独山县| 尉犁县| 和顺县| 福州市| 莱州市| 平远县| 南阳市| 梁山县| 昌宁县| 昆山市| 临夏市| 望谟县| 綦江县| 东阿县| 磐安县| 建平县| 屏东县| 周至县| 肇庆市| 富裕县| 城市| 凤冈县| 信阳市| 娱乐| 犍为县| 连江县| 云林县| 齐河县| 镶黄旗| 象州县| 镇原县|