• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    深度學(xué)習(xí)的表格到文本生成研究綜述

    2022-11-15 16:17:24奚雪峰崔志明周悅堯仇亞進(jìn)
    計(jì)算機(jī)與生活 2022年11期
    關(guān)鍵詞:解碼器編碼器表格

    胡 康,奚雪峰,3+,崔志明,3,周悅堯,仇亞進(jìn)

    1.蘇州科技大學(xué) 電子與信息工程學(xué)院,江蘇 蘇州215000

    2.蘇州市虛擬現(xiàn)實(shí)智能交互及應(yīng)用重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州215000

    3.蘇州智慧城市研究院,江蘇 蘇州215000

    自然語(yǔ)言處理(natural language processing,NLP)是人工智能的主要研究方向之一。自然語(yǔ)言處理領(lǐng)域有眾多研究方向,如文本分類、情感分析、命名實(shí)體識(shí)別、信息抽取、文本摘要、問(wèn)答系統(tǒng)。文本生成,通常被正式稱為自然語(yǔ)言生成(natural language generation,NLG),是自然語(yǔ)言處理中最重要但也是最具挑戰(zhàn)性的任務(wù)之一[1]。文本生成的目標(biāo)是從各種形式的數(shù)據(jù)(如文本、數(shù)字、圖像、結(jié)構(gòu)化知識(shí)庫(kù)和知識(shí)圖)中生成人類語(yǔ)言的可理解文本[2]。

    表格是日常生活中常見(jiàn)的數(shù)據(jù)形式,但在深度學(xué)習(xí)中卻沒(méi)有得到很好地利用。表格含有豐富的信息,但是并不適合人直接獲取信息。由此誕生了新的研究方向“表格到文本生成(table-to-text)”。正因?yàn)楸砀襁@種結(jié)構(gòu)化數(shù)據(jù)在日常生活中常見(jiàn)且蘊(yùn)含大量信息,所以表格到文本生成任務(wù)有重要的研究意義與價(jià)值。

    理解表格含義并描述其內(nèi)容是人工智能中的重要問(wèn)題,它有潛在應(yīng)用,如問(wèn)題回答、構(gòu)建對(duì)話代理和支持搜索引擎[3-10]。隨著近年研究不斷深入,表格到文本生成系統(tǒng)已經(jīng)應(yīng)用于新聞、醫(yī)療診斷、金融、天氣預(yù)報(bào)和體育廣播等領(lǐng)域[11]。

    1 任務(wù)描述

    表格到文本生成,是指語(yǔ)言模型通過(guò)輸入表格并生成描述表格的文本。模型生成的文本應(yīng)該語(yǔ)句流暢,充分表達(dá)表格信息且不能偏離表格事實(shí)。該任務(wù)的訓(xùn)練數(shù)據(jù)中含有屬性、值以及描述表格的文本,表格到文本生成數(shù)據(jù)集實(shí)例如圖1所示。

    圖1 Wikibio數(shù)據(jù)集實(shí)例Fig.1 Example of Wikibio dataset

    1.1 任務(wù)形式化描述

    表T是I個(gè)實(shí)體ei的無(wú)序集合,表示為T:={e1,e2,…,ei,…,eI}。不同實(shí)體ei是一組Ji無(wú)序記錄{ri,1,ri,2,…,ri,j,…,ri,Ji},其中記錄ri,j被定義為一對(duì)鍵ki,j和值vi,j。每個(gè)表與文本描述y相關(guān)聯(lián)。將描述y的前t個(gè)單詞稱為y1:t,因此可以將單詞完整序列記為y1:T。數(shù)據(jù)集D是N個(gè)對(duì)齊對(duì)(表T、描述文本y)的集合[11]。

    RotoWire 數(shù)據(jù)集包含NBA 比賽記錄的一部分(共628場(chǎng)),以及從黃金文檔中選擇的記錄。該文檔只提到比賽記錄的部分信息,但可能會(huì)以復(fù)雜的方式表達(dá)它們。除了捕捉寫作風(fēng)格外,語(yǔ)言模型還應(yīng)該選擇類似記錄內(nèi)容,清晰表達(dá)表格信息并適當(dāng)排序[12]。對(duì)于數(shù)據(jù)集D中的每個(gè)表T,目標(biāo)函數(shù)旨在生成盡可能接近基本表格事實(shí)y的描述文本。該目標(biāo)函數(shù)在整個(gè)數(shù)據(jù)集D上優(yōu)化如下對(duì)數(shù)似然:

    1.2 任務(wù)難點(diǎn)

    目前表格到文本生成模型需要面對(duì)越來(lái)越復(fù)雜的表格,并生成更長(zhǎng)、結(jié)構(gòu)更復(fù)雜的文本描述。模型生成的文本經(jīng)常出現(xiàn)錯(cuò)誤的描述或表格中完全沒(méi)有提到的內(nèi)容[11]。復(fù)雜的句子結(jié)構(gòu)給模型生成流暢且準(zhǔn)確的文本描述帶來(lái)了挑戰(zhàn)。當(dāng)前表格到文本生成模型面對(duì)兩大問(wèn)題:描述什么,如何描述[12]。

    (1)描述什么:表格有著豐富的信息,并不是所有信息都將在文本描述中被提及。如何正確選擇表格中的重要內(nèi)容是該領(lǐng)域研究難點(diǎn)之一。

    (2)如何描述:隨著生成文本長(zhǎng)度的增加,文本變得邏輯混亂,可讀性差。如何準(zhǔn)確且連貫地描述表格內(nèi)容,并在復(fù)雜句子結(jié)構(gòu)中保證正確的前后邏輯關(guān)系,是該領(lǐng)域研究的重點(diǎn)問(wèn)題。

    2 研究方法

    目前主流的表格到文本生成的神經(jīng)網(wǎng)絡(luò)模型,大部分都使用長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[13-14]和編碼器解碼器(encoder-decoder)體系結(jié)構(gòu)[15]。在訓(xùn)練中表格數(shù)據(jù)首先由編碼器(encoder)順序地編碼成固定大小的矢量表示。然后解碼器(decoder)以該矢量表示為條件解碼并生成單詞。隨著注意機(jī)制[16-17]的引入,一方面,在每個(gè)解碼步驟控制計(jì)算聚焦于重要元素的上下文,另一方面,復(fù)制機(jī)制[18-19]處理未知或罕見(jiàn)單詞,這些系統(tǒng)能產(chǎn)生流暢且領(lǐng)域全面的文本描述[11]。在生成階段使用beam search[20-22]來(lái)擴(kuò)大搜索空間以生成更好的文本描述。

    2.1 表格到文本生成的序列到序列架構(gòu)

    在機(jī)器翻譯領(lǐng)域,最經(jīng)典也是最常用的就是序列到序列架構(gòu)(sequence-to-sequence architecture)[23],這種架構(gòu)在表格到文本生成領(lǐng)域也適用。其主要思想是:由編碼器將輸入的表格信息編碼為蘊(yùn)含大量信息的稠密向量,然后讓解碼器利用這個(gè)稠密向量,根據(jù)任務(wù)需求解碼出表格內(nèi)容相應(yīng)的文本描述。其結(jié)構(gòu)如圖2所示。

    圖2 帶有注意力機(jī)制的序列到序列架構(gòu)Fig.2 Sequence-to-sequence architecture with attention mechanism

    2.1.1 LSTM語(yǔ)言模型

    循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[24]是一種用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。與一般的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[25-26]相比,循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏狀態(tài)能更好地處理序列形式數(shù)據(jù)中前后關(guān)聯(lián)的信息,例如同一個(gè)詞語(yǔ)會(huì)因所處上下文不同而有不同的意思。LSTM是一種特殊的RNN,LSTM可以緩解長(zhǎng)序列訓(xùn)練過(guò)程中的梯度消失和梯度爆炸問(wèn)題。表格到文本生成任務(wù)的輸入通常為較長(zhǎng)的序列,這種情況下LSTM 有優(yōu)于RNN 的良好表現(xiàn)。其結(jié)構(gòu)如圖3 所示。其中,遺忘門(forget gate)會(huì)控制LSTM的細(xì)胞單元是否遺忘信息。

    圖3 LSTM結(jié)構(gòu)Fig.3 LSTM structure

    2.1.2 編碼器

    編碼器的目標(biāo)是:將可變長(zhǎng)度的源序列x={x1,x2,…,xn}轉(zhuǎn)換為固定長(zhǎng)度的連續(xù)向量。最基本的編碼器使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)或遞歸神經(jīng)網(wǎng)絡(luò)(RNN),而整個(gè)編碼過(guò)程為:將嵌入(embedding)后的輸入序列壓縮投影到模型需要的維度,而這個(gè)被壓縮的序列蘊(yùn)含輸入序列的全部信息(即語(yǔ)義)。最直接的方式是:將編碼器最后一層最后一個(gè)時(shí)間步的隱藏信息作為整個(gè)輸入的語(yǔ)義信息,也可以對(duì)最后的時(shí)間步的各層隱藏狀態(tài)求平均值作為語(yǔ)義信息。

    2.1.3 解碼器

    解碼器根據(jù)由編碼器編碼得到的語(yǔ)義信息,解碼生成表格的文本表述序列。最基本編碼器也是RNN,而整個(gè)解碼的過(guò)程是:解碼器RNN直接將語(yǔ)義信息作為初始隱藏狀態(tài),在第一個(gè)時(shí)刻以<eos>等特殊標(biāo)識(shí)符作為輸入,在這之后以前一時(shí)刻的輸出作為當(dāng)前時(shí)刻的輸入不斷循環(huán)生成序列,直到生成<eos>特殊標(biāo)識(shí)符為止。

    在訓(xùn)練時(shí)間方面有兩種訓(xùn)練方法:一種是一直使用解碼器的輸出作為下一時(shí)刻的輸入,這樣會(huì)給予模型更大的靈活性,同時(shí)使得模型訓(xùn)練時(shí)間更長(zhǎng);另一種是無(wú)論解碼器生成的是什么,均以正確的下一個(gè)token 作為解碼器的輸入,這樣會(huì)削弱模型的靈活性,但會(huì)加速模型訓(xùn)練。其計(jì)算過(guò)程如下:

    其中,f()是非線性函數(shù),st=f(yt-1,st-1)是RNN 在時(shí)間步t的隱藏狀態(tài)。

    2.2 表格到文本生成的注意力機(jī)制

    雖然基于RNN 和Sequence-to-Sequence 架構(gòu)的模型給予文本生成(NLG)領(lǐng)域巨大幫助。但是它也存在缺陷,如在表格到文本生成任務(wù)中,當(dāng)需要生成的表格描述很長(zhǎng)時(shí),將如此復(fù)雜的語(yǔ)義壓縮到定長(zhǎng)的序列中并且不丟失太多信息,這本身就是個(gè)困難的任務(wù)。與此同時(shí),解碼器還需要從這樣信息高度濃縮的向量中解碼出對(duì)應(yīng)的語(yǔ)義序列,而且RNN 在長(zhǎng)序列時(shí)會(huì)出現(xiàn)梯度消失等問(wèn)題,因此整個(gè)任務(wù)很復(fù)雜。為突破解碼器過(guò)于依賴單一定長(zhǎng)稠密向量去生成序列這一瓶頸,研究人員提出了注意力機(jī)制。

    注意力機(jī)制[16-27]最早起源于計(jì)算機(jī)視覺(jué)模仿人類的視覺(jué)注意力,人類不會(huì)關(guān)注于目光所及的所有事物,而是把注意力聚焦于某一小塊區(qū)域。在自然語(yǔ)言處理領(lǐng)域也是如此。

    如圖2 所示,解碼器在解碼的同時(shí),不僅僅依賴于編碼器所給出的語(yǔ)義向量,同時(shí)也關(guān)注原始輸入序列對(duì)應(yīng)部分。比如翻譯“I like apple”為中文時(shí),當(dāng)解密生成“我”字時(shí),解碼器會(huì)更多地去關(guān)注原始序列中的“I”,而對(duì)“l(fā)ike”和“apple”則會(huì)給予更少的注意力。注意力機(jī)制能避免模型過(guò)度地依賴單一向量,從而出現(xiàn)解碼瓶頸的問(wèn)題。

    2.3 表格到文本生成的指針網(wǎng)絡(luò)

    注意力機(jī)制的出現(xiàn),讓文本生成模型的能力有質(zhì)的飛躍。不過(guò)序列到序列架構(gòu)仍然存在問(wèn)題,在自然語(yǔ)言處理的相關(guān)任務(wù)中如表格到文本生成,輸出序列的詞匯表會(huì)隨著輸入序列的改變而改變,但是序列到序列架構(gòu)并不能很好地解決這一問(wèn)題。因?yàn)檫@類問(wèn)題,輸出的元素往往是輸入元素集合的子集?;谶@一特點(diǎn),研究人員提出指針網(wǎng)絡(luò)(pointer network)[27-28]的模型結(jié)構(gòu),其類似于編程語(yǔ)言中的指針。傳統(tǒng)的注意力機(jī)制是給予輸入序列一系列權(quán)重,而指針網(wǎng)絡(luò)的想法是:有時(shí)需要生成出現(xiàn)在源詞匯表中的單詞,但此時(shí)目標(biāo)詞匯表中沒(méi)有該單詞。既然注意力機(jī)制能重點(diǎn)關(guān)注原始序列某一部分,則選擇注意力權(quán)重最大的那個(gè)元素復(fù)制到生成序列中,這樣就解決了傳統(tǒng)序列到序列架構(gòu)存在的問(wèn)題。原始注意力機(jī)制公式如下:

    其中,j∈(1,2,…,n)。改進(jìn)原始的注意力機(jī)制,從而得到指針網(wǎng)絡(luò)公式:

    傳統(tǒng)的帶有注意力機(jī)制的序列到序列模型在訓(xùn)練時(shí),編碼器先對(duì)輸入序列進(jìn)行編碼,然后對(duì)編碼后的向量做相應(yīng)的關(guān)注,最后解碼器對(duì)施加注意力后的向量進(jìn)行解碼從而得到預(yù)測(cè)結(jié)果。但是指針網(wǎng)絡(luò),得到預(yù)測(cè)結(jié)果的方式是輸出概率分布α,也即所謂的指針。換句話說(shuō),傳統(tǒng)帶有注意力機(jī)制的序列到序列模型輸出的是針對(duì)輸出詞匯表的概率分布,而指針網(wǎng)絡(luò)輸出的則是針對(duì)輸入詞匯表的概率分布。

    2.4 表格到文本生成的集束搜索

    目前表格到文本生成模型已經(jīng)較為完善,但在模型生成文本時(shí),沒(méi)有合適的策略??蛇x的策略有貪心搜索,即每一次都選擇當(dāng)前時(shí)間步在詞匯表中概率最大的詞。但是,目標(biāo)是生成一個(gè)序列,這個(gè)序列在所有由模型生成的序列中概率最大,然而貪心搜索的策略并不能很好地完成任務(wù)。序列到序列模型常使用集束搜索(beam search)進(jìn)行解碼,這種策略減少了貪婪搜索做出的局部最優(yōu)但全局次優(yōu)決策的可能[29]。

    集束搜索是一種啟發(fā)式的策略,可以視作一種特殊的廣度優(yōu)先搜索。在搜索時(shí)會(huì)建立搜索樹(shù),并根據(jù)不同需求選擇不同的排序算法,根據(jù)排序算法對(duì)當(dāng)前層各節(jié)點(diǎn)對(duì)應(yīng)的搜索路徑進(jìn)行排序并裁減掉得分較低的節(jié)點(diǎn),直到剩余預(yù)先指定個(gè)數(shù)(超參數(shù)beamsize),然后繼續(xù)在剩余節(jié)點(diǎn)中進(jìn)行搜索。

    令tn為n時(shí)刻選擇的詞匯,C為編碼器輸出的語(yǔ)義向量,T為最終生成結(jié)果。集束搜索通過(guò)不斷重復(fù)上述步驟使得P(T|C)最大,集束搜索公式如下:

    集束搜索過(guò)程的示例如圖4所示。

    圖4 集束搜索示例Fig.4 Sample diagram of beam search

    3 表格到文本生成模型

    基于上述的研究方法,研究人員提出新穎的深度神經(jīng)網(wǎng)絡(luò)模型。為使得模型能夠提取出表格的結(jié)構(gòu)信息,Liu 等[30]提出表格結(jié)構(gòu)感知模型。表格有大量信息,但是表格的描述一般會(huì)圍繞關(guān)鍵信息進(jìn)行描述,Ma 等人[31]提出以表格關(guān)鍵事實(shí)為中心的模型。表格有多個(gè)維度的信息,而大部分研究卻忽略這個(gè)事實(shí),Gong 等人[32]便提出對(duì)行、列、時(shí)間三個(gè)維度信息進(jìn)行編碼的三維層次編碼器模型。Puduppully等人[33]提出內(nèi)容選擇與計(jì)劃模型,來(lái)解決表格到文本生成模型在內(nèi)容選擇方面表現(xiàn)不佳,模型難以保持句間連貫的問(wèn)題。將數(shù)據(jù)視作線性數(shù)據(jù)的方式會(huì)使得行與行之間的實(shí)體失去區(qū)別,Rebuffel 等人[11]提出基于Transformer的層次編解碼模型。表格到文本生成的困難之一是輸入的數(shù)據(jù)太大,樸素的模型無(wú)法找到在描述中應(yīng)該提到數(shù)據(jù)的哪一部分,Iso 等人[34]提出顯著內(nèi)容選擇、跟蹤和生成模型。預(yù)訓(xùn)練模型在自然語(yǔ)言處理領(lǐng)域有優(yōu)秀的表現(xiàn),但是在表格到文本生成領(lǐng)域,因?yàn)轭A(yù)訓(xùn)練模型通常難以感知表格的結(jié)構(gòu)而不能很好地提取表格信息。為解決這個(gè)問(wèn)題,Gong等[35]基于GPT-2預(yù)訓(xùn)練模型提出Table-GPT。表格到文本生成領(lǐng)域的模型有通病:會(huì)產(chǎn)生不符合表格信息的文本描述,俗稱“幻覺(jué)”。為解決這個(gè)問(wèn)題,Rebuffel等[47]提出多分支解碼器模型,通過(guò)調(diào)整不同分支的權(quán)重來(lái)控制模型產(chǎn)生幻覺(jué)。

    3.1 表格結(jié)構(gòu)感知模型

    表格結(jié)構(gòu)感知模型(structure-aware Seq2seq)[30],通過(guò)模仿人類描述維基百科信息的寫作方法來(lái)構(gòu)建模型。先從宏觀角度來(lái)規(guī)劃整個(gè)文本描述的內(nèi)容結(jié)構(gòu);在描述更加細(xì)節(jié)的信息時(shí)再具體思考選擇表格中哪些信息,摘抄哪些詞語(yǔ),如何連詞成句。該模型采用經(jīng)典的序列到序列架構(gòu),從局部和全局兩種角度來(lái)分別提取表的內(nèi)容信息和結(jié)構(gòu)信息。本地尋址使用內(nèi)容編碼和字級(jí)注意力實(shí)現(xiàn),而全局編碼使用字段級(jí)注意力實(shí)現(xiàn)。本地尋址決定在生成描述時(shí)具體選用哪個(gè)詞,但僅依靠微觀的視角很難生成復(fù)雜而準(zhǔn)確的描述,因?yàn)楸砀竦轿谋镜娜蝿?wù)中,表格有多種結(jié)構(gòu)且表格中關(guān)鍵字的順序也不同。為能夠適應(yīng)不同的表結(jié)構(gòu),模型應(yīng)該具備宏觀角度觀察表的能力。因此Liu等提出全局尋址,來(lái)幫助模型在生成表格描述時(shí)選擇關(guān)注表格中的哪些信息。這樣的兩層結(jié)構(gòu),可以達(dá)到對(duì)表格的內(nèi)容和結(jié)構(gòu)雙重信息進(jìn)行編碼的目的。對(duì)表格信息充分提取后,在解碼階段模型也使用雙重注意力機(jī)制。該雙重注意力機(jī)制分別對(duì)應(yīng)于編碼器的詞級(jí)注意和字段級(jí)注意,這種機(jī)制能對(duì)表信息進(jìn)行充分的還原。

    在Wikibio數(shù)據(jù)集上的實(shí)驗(yàn)表明,模型優(yōu)點(diǎn)在于:能夠利用表內(nèi)容以及表結(jié)構(gòu)信息生成連貫且準(zhǔn)確的表述。模型缺點(diǎn)在于:模型單獨(dú)復(fù)制內(nèi)容的能力和長(zhǎng)文內(nèi)容排序能力有待提高。模型結(jié)構(gòu)如圖5所示。

    圖5 表格結(jié)構(gòu)感知模型Fig.5 Table structure perception model

    3.2 以表格關(guān)鍵事實(shí)為中心模型

    深度學(xué)習(xí)依靠數(shù)據(jù)來(lái)驅(qū)動(dòng)。傳統(tǒng)的序列到序列模型擁有較多參數(shù),在數(shù)據(jù)匱乏時(shí)表現(xiàn)不好。因此Ma等提出新的“小模型”,這種模型可以在數(shù)據(jù)匱乏的情況下有優(yōu)秀的表現(xiàn)。與傳統(tǒng)的表格到文本的工作類似,該模型將表格到文本任務(wù)分為兩個(gè)過(guò)程:關(guān)鍵事實(shí)預(yù)測(cè)與表層實(shí)現(xiàn)。

    在第一階段,使用“表格到重點(diǎn)”的模型,從表格中抽取出關(guān)鍵事實(shí)。關(guān)鍵事實(shí)也可稱為共現(xiàn)事實(shí),即同時(shí)出現(xiàn)在表格和文本表述中的字符。該模型采用BI-LSTM(bi-directional long short-term memory network)以及多層 感知機(jī)(multilayer perceptron,MLP)分類器來(lái)預(yù)測(cè)二進(jìn)制序列,這個(gè)序列決定是否選擇每個(gè)元素作為關(guān)鍵事實(shí)。

    在第二階段,Ma等[31]構(gòu)建一個(gè)序列到序列模型,該模型以第一階段選擇的關(guān)鍵事實(shí)作為輸入并生成描述表信息的文本。其中關(guān)鍵事實(shí)預(yù)測(cè)模型在訓(xùn)練時(shí)所需要數(shù)據(jù)量很少,不像其他模型那樣有著大量數(shù)據(jù)剛需;而表層實(shí)現(xiàn)模型可以用偽并行語(yǔ)料集進(jìn)行訓(xùn)練。這種偽并行數(shù)據(jù)集可以利用Ma 等提出的算法,利用無(wú)標(biāo)記數(shù)據(jù)進(jìn)行構(gòu)造。為能夠充分利用未標(biāo)記的文本語(yǔ)料庫(kù),Ma 等提出一種可以有效降低兩個(gè)任務(wù)階段之間誤差傳播的去噪聲數(shù)據(jù)增強(qiáng)方法。同時(shí)在表層實(shí)現(xiàn)模型的輸入中隨機(jī)增加或刪除某個(gè)詞以增加數(shù)據(jù)噪聲。通過(guò)加入噪聲并將這些數(shù)據(jù)作為對(duì)抗性的例子,可以有效地提高表面實(shí)現(xiàn)模型的魯棒性。通過(guò)實(shí)驗(yàn),該模型可以在只有1 000 個(gè)樣本的情況下在傳記生成數(shù)據(jù)集上取得27.34 BLEU[36]分?jǐn)?shù)。

    模型優(yōu)點(diǎn)在于:利用少量數(shù)據(jù)即可訓(xùn)練出效果不錯(cuò)的模型。模型缺點(diǎn)在于:與使用大量數(shù)據(jù)訓(xùn)練所得的模型相比,表格信息抽取能力不夠優(yōu)秀,有待提升。模型結(jié)構(gòu)如圖6所示。

    圖6 以表格關(guān)鍵事實(shí)為中心模型Fig.6 Model centered on table key facts

    3.3 表格三維層次編碼器模型

    表格所包含的信息十分復(fù)雜,表格也有不同維度。人在寫表格的文本描述時(shí),會(huì)從不同的維度展開(kāi)。但是在以往的表格到文本的相關(guān)研究工作中,并沒(méi)有按照這樣的思路,僅僅將表格視作一維的序列記錄。Gong等[32]發(fā)現(xiàn)這個(gè)問(wèn)題并提出一種從三個(gè)維度對(duì)表格進(jìn)行建模的模型。Gong 等認(rèn)為,表格主要信息來(lái)源于行、列和時(shí)間三個(gè)維度,而不僅僅依賴于行這個(gè)單一維度。表格信息豐富,每一列都包含一種屬性的信息,在人們的日常描述中,通常不會(huì)將所有數(shù)據(jù)全部描述出來(lái),而是在一列中選擇重要的數(shù)據(jù)進(jìn)行描述。與此同時(shí),表格屬性在時(shí)間上有相關(guān)性,比如NBA 比賽數(shù)據(jù)、股市數(shù)據(jù)等,在對(duì)表格的描述中往往會(huì)將一個(gè)時(shí)間段上的信息進(jìn)行橫向?qū)Ρ?,以獲取時(shí)間維度上的信息變化。因此只有從更多維度去提取表格中的信息,模型才能有更好的表現(xiàn)。Gong等將表格到文本分成三個(gè)步驟:

    首先是為更好地學(xué)習(xí)表格中單元格的信息,利用三種自注意力(self-attention)模型分別提取表單元格在行、列、時(shí)間三種維度的信息。例如對(duì)行的信息編碼的計(jì)算方式如下所示:

    然后利用記錄融合門從三個(gè)維度的信息中提取出更為重要的信息,并將它們組合為稠密向量,其計(jì)算方式如下所示:

    為獲得某一行的表示,使用均值池化方法將同一行中的單元格轉(zhuǎn)化為需要的表示,并利用內(nèi)容選擇門[33]來(lái)過(guò)濾掉不重要的信息。在解碼階段,因?yàn)榫幋a器提供記錄級(jí)和行級(jí)兩種表示,所以使用雙重注意力機(jī)制。生成單詞時(shí),模型首先選擇重要的行,然后關(guān)注重要記錄。Gong 等在NBA 籃球比賽的數(shù)據(jù)集RotoWire[12]上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明該模型在BLEU分?jǐn)?shù)上有顯著提升,并且能提取列和時(shí)間維度上的信息,這是其他模型做不到的。

    模型優(yōu)點(diǎn)在于:能從多個(gè)維度充分抽取表格信息。模型缺點(diǎn)在于:生成文本描述時(shí)缺乏宏觀的內(nèi)容計(jì)劃,長(zhǎng)期內(nèi)容排序能力不足。

    3.4 表格內(nèi)容選擇與計(jì)劃模型

    盡管當(dāng)前模型能夠產(chǎn)生較為流暢的文本,但這些模型并不能很好地捕獲到類似于人類寫作中的長(zhǎng)距離關(guān)系,這對(duì)模型生成長(zhǎng)文本不利。神經(jīng)文本生成技術(shù)在內(nèi)容選擇方面表現(xiàn)不佳,難以保持句間連貫,同時(shí)模型也不能很好地組織文本描述的行文順序[12]。為應(yīng)對(duì)以上這些問(wèn)題,Puduppully 等[33]提出一種模型,不同于以往表格到文本的Seq-to-Seq模型直接將表編碼后生成文本,該模型顯式地建模內(nèi)容選擇和內(nèi)容規(guī)劃步驟,從而減輕模型的解碼難度。內(nèi)容選擇和規(guī)劃?rùn)C(jī)制可以根據(jù)輸入的表格內(nèi)容產(chǎn)生內(nèi)容計(jì)劃。內(nèi)容計(jì)劃會(huì)指明表格中哪些記錄需要詳細(xì)描述而哪些信息無(wú)關(guān)緊要,同時(shí)指明重要信息按照什么順序去組織。在文本生成階段,使用雙向LSTM模型將內(nèi)容計(jì)劃編碼,并以此為解碼器的輸入,通過(guò)解碼生成文本描述。同時(shí)模型擁有復(fù)制原文的能力,在每個(gè)時(shí)間步判斷由模型生成新的詞還是從源表中復(fù)制詞。

    一種明確的內(nèi)容規(guī)劃?rùn)C(jī)制對(duì)于生成長(zhǎng)文本有重要幫助,內(nèi)容規(guī)劃可以表示文本的高級(jí)結(jié)構(gòu)。同時(shí)將復(fù)雜任務(wù)拆分成簡(jiǎn)單子任務(wù)也會(huì)降低模型訓(xùn)練難度。傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)會(huì)生成重復(fù)的句子,但內(nèi)容規(guī)劃?rùn)C(jī)制可以解決此問(wèn)題。有宏觀信息的指導(dǎo),模型能清晰地聚焦于當(dāng)前所需要生成的內(nèi)容,降低產(chǎn)生冗余內(nèi)容的可能性。清晰的結(jié)構(gòu)也使模型生成文本的過(guò)程更有解釋性。表格內(nèi)容選擇與計(jì)劃模型在RotoWire 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),利用自動(dòng)評(píng)分和人工評(píng)估的實(shí)驗(yàn)表明,該模型能夠改善RotoWire 數(shù)據(jù)集的模型最優(yōu)水平。

    模型優(yōu)點(diǎn)在于:在文本結(jié)構(gòu)組織、內(nèi)容排序等方面表現(xiàn)優(yōu)秀。模型缺點(diǎn)在于:需要更多細(xì)節(jié)導(dǎo)向的計(jì)劃,對(duì)多個(gè)事實(shí)和實(shí)體的推斷能力不強(qiáng)。模型結(jié)構(gòu)如圖7所示。

    圖7 表格內(nèi)容選擇與計(jì)劃模型Fig.7 Table content selection and planning model

    3.5 表格內(nèi)容層次編解碼模型

    傳統(tǒng)的表格到文本的任務(wù)通常采用序列到序列架構(gòu)的編碼器解碼器模型,這給表格到文本模型提出兩個(gè)挑戰(zhàn):如何更好地理解結(jié)構(gòu)化的數(shù)據(jù),如何生成表格對(duì)應(yīng)的描述。傳統(tǒng)的模型結(jié)構(gòu)中,編碼器將輸入序列編碼為固定大小的線性序列。這種將數(shù)據(jù)視作線性數(shù)據(jù)的方式會(huì)使得行與行之間的實(shí)體失去區(qū)別。而Liu等[37]提出對(duì)單實(shí)體結(jié)構(gòu)進(jìn)行提取。與此同時(shí),大多數(shù)表格到文本的模型使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)作為編碼器,但這需要將待輸入元素按照順序輸入,這種數(shù)據(jù)輸入方式在無(wú)形中對(duì)無(wú)序序列(即表格中的實(shí)體集合)做出了內(nèi)部有順的假設(shè)。Vinyals 等[38]證明,這種默認(rèn)的假設(shè)對(duì)模型的學(xué)習(xí)成績(jī)有顯著影響。

    為彌補(bǔ)上述兩個(gè)問(wèn)題,Rebuffel 等[11]提出分層的模型,通過(guò)分層編碼器來(lái)捕獲數(shù)據(jù)信息以及結(jié)構(gòu)化信息。首先底層編碼器會(huì)對(duì)所有單元格進(jìn)行編碼,接著高層編碼器會(huì)對(duì)表結(jié)構(gòu)進(jìn)行編碼。為了充分利用編碼器的層次化結(jié)構(gòu),解碼器端擁有兩種不同的層次化注意力機(jī)制,以此來(lái)計(jì)算需要饋送給解碼器的上下文向量。為避免對(duì)數(shù)據(jù)內(nèi)部順序進(jìn)行假設(shè),在表格到數(shù)據(jù)的模型中引入Transformer Encoder[39],以確保所有元素或?qū)嶓w無(wú)論它們位置在哪,模型對(duì)每個(gè)元素或?qū)嶓w都可以進(jìn)行良好的編碼。在解碼階段,Rebuffel等同樣提出兩種不同的層次化注意力機(jī)制。一種是關(guān)注整個(gè)表格的所有記錄:首先處理實(shí)體,然后處理與這些實(shí)體相對(duì)應(yīng)的記錄。在描述一場(chǎng)比賽時(shí),通常專家決定提到一個(gè)球員時(shí)都會(huì)自動(dòng)地報(bào)告他的得分,而不考慮其具體的價(jià)值,因此誕生了另一種按鍵來(lái)引導(dǎo)的分層注意力機(jī)制:高層注意力機(jī)制僅僅關(guān)注記錄鍵的表示,而不將注意力分散到整個(gè)記錄表示。在RotoWire基準(zhǔn)測(cè)試上的實(shí)驗(yàn)評(píng)估表明,該模型在BLEU得分方面有優(yōu)秀表現(xiàn)。

    模型優(yōu)點(diǎn)在于:可以通過(guò)比較實(shí)體來(lái)實(shí)現(xiàn)自動(dòng)推理和豐富描述等任務(wù)。模型缺點(diǎn)在于:可能導(dǎo)致錯(cuò)誤的事實(shí),內(nèi)容排序等方面有待提高。模型結(jié)構(gòu)如圖8所示。

    圖8 表格內(nèi)容層次編解碼模型Fig.8 Table content level encoding and decoding model

    3.6 表格顯著內(nèi)容選擇、跟蹤和生成模型

    表格到文本的模型已經(jīng)可以應(yīng)用于天氣、金融和體育等各個(gè)領(lǐng)域。這些模型在結(jié)構(gòu)簡(jiǎn)單的短文本描述中有優(yōu)秀的表現(xiàn),但是在更加復(fù)雜的表格數(shù)據(jù)中生成長(zhǎng)篇的文本描述仍具有挑戰(zhàn)性。困難之一是輸入的數(shù)據(jù)太大,樸素的模型無(wú)法找到它的顯著部分,即確定應(yīng)該描述數(shù)據(jù)哪一部分。此外,在描述表格數(shù)據(jù)時(shí),顯著部分[34]會(huì)移動(dòng),比如提到某位名人的事跡或是某位球員在比賽中的表現(xiàn)時(shí),顯著部分會(huì)移動(dòng)。

    現(xiàn)有的模型不能有效注意到顯著性移動(dòng)這一問(wèn)題,導(dǎo)致在生成文本描述的過(guò)程中,會(huì)出現(xiàn)張冠李戴的現(xiàn)象。通過(guò)避免這樣的錯(cuò)誤并追蹤顯著性,來(lái)幫助模型生成質(zhì)量更高、更可靠的文本描述。Iso 等提出的顯著性追蹤模型由兩個(gè)模塊組成,一個(gè)模塊用于顯著性追蹤,另一個(gè)模塊用于文本生成。跟蹤模塊會(huì)選擇并跟蹤表格中的顯著性信息,并且當(dāng)檢測(cè)到顯著性信息發(fā)生轉(zhuǎn)變時(shí),跟蹤模塊會(huì)選中相應(yīng)的記錄并且及時(shí)更新選擇模塊中的顯著性狀態(tài)變量。顯著性轉(zhuǎn)換計(jì)算公式如下:

    選擇實(shí)體的概率公式如下:

    在生成文本時(shí),模型聚焦于跟蹤模塊選中的文本,這樣有指導(dǎo)信息的生成方式能降低模型生成難度。同時(shí)對(duì)于NBA 球賽這種表格中數(shù)字較多的數(shù)據(jù),提出一種對(duì)數(shù)字的靈活表示方法。通過(guò)模型的學(xué)習(xí),動(dòng)態(tài)選擇數(shù)字是用阿拉伯?dāng)?shù)字表示還是英語(yǔ)單詞表示。

    同時(shí)Iso等還討論了作者信息對(duì)模型生成能力的影響。作者信息通常包括,作者在描述表格時(shí),會(huì)選擇哪些需要提及的數(shù)據(jù)記錄,如何組織語(yǔ)言以及寫作風(fēng)格等。通過(guò)融入作者信息可以幫助模型生成高質(zhì)量文本。在RotoWire-modified 數(shù)據(jù)集上,顯著性追蹤模型有優(yōu)秀表現(xiàn)。

    模型優(yōu)點(diǎn)在于:充分抽取表格信息,準(zhǔn)確描述表格重要信息。模型缺點(diǎn)在于:處理復(fù)雜語(yǔ)言表達(dá)時(shí)會(huì)出現(xiàn)錯(cuò)誤(如平行結(jié)構(gòu)),并且沒(méi)有考慮表結(jié)構(gòu)信息。

    3.7 TableGPT模型

    數(shù)據(jù)對(duì)于表格到文本領(lǐng)域的模型訓(xùn)練很重要,沒(méi)有大量數(shù)據(jù)的支撐很難訓(xùn)練出能力優(yōu)秀的模型。然而,在現(xiàn)實(shí)世界中收集所有領(lǐng)域的大規(guī)模標(biāo)注數(shù)據(jù)集是不現(xiàn)實(shí)的。這就對(duì)模型在少樣本情況下的訓(xùn)練提出更高的要求。最近,預(yù)訓(xùn)練模型在自然語(yǔ)言處理領(lǐng)域的各個(gè)研究方向均有優(yōu)秀的表現(xiàn)。通過(guò)在大規(guī)模未標(biāo)記的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,使得預(yù)訓(xùn)練模型獲得語(yǔ)言知識(shí)[40-42]。并且預(yù)訓(xùn)練模型可以方便地應(yīng)用于較少的數(shù)據(jù)進(jìn)行微調(diào),從而推廣到下游任務(wù),為少樣本情況下的模型訓(xùn)練提供有效的幫助。雖然預(yù)訓(xùn)練模型有優(yōu)點(diǎn),但是在表格到文本領(lǐng)域利用預(yù)訓(xùn)練模型存在一些問(wèn)題。首先,預(yù)訓(xùn)練模型GPT-2 的自然語(yǔ)言輸入與表格到文本的結(jié)構(gòu)化數(shù)據(jù)輸入之間存在較大的差異。其次,表格信息不像自然語(yǔ)言輸入是線性的,表格擁有豐富的結(jié)構(gòu)化信息,而傳統(tǒng)的預(yù)訓(xùn)練模型并沒(méi)有對(duì)應(yīng)方法去理解表格的結(jié)構(gòu)化信息。此外,表格到文本領(lǐng)域模型有通病,模型會(huì)產(chǎn)生不符合表格信息的文本描述,俗稱為“幻覺(jué)”。而預(yù)訓(xùn)練模型并不能解決這個(gè)問(wèn)題。為緩解上述問(wèn)題,Gong等提出TableGPT[35],它可以在少樣本的情況下對(duì)表格到文本的模型進(jìn)行訓(xùn)練。為應(yīng)對(duì)自然語(yǔ)言的線性序列與結(jié)構(gòu)化數(shù)據(jù)表格兩種輸入之間的差距,Gong等提出一種表格轉(zhuǎn)換模塊,即利用模板將結(jié)構(gòu)化表格轉(zhuǎn)化為自然語(yǔ)言。為應(yīng)對(duì)表結(jié)構(gòu)信息提取不充分的問(wèn)題,在多任務(wù)學(xué)習(xí)框架下提出表結(jié)構(gòu)重構(gòu)的輔助任務(wù)。該任務(wù)要求GPT-2 在對(duì)結(jié)構(gòu)化表格進(jìn)行信息提取時(shí),必須將結(jié)構(gòu)化信息嵌入到表示向量中,重建分類器的計(jì)算細(xì)節(jié)如下所示:

    此外,為解決模型的“幻覺(jué)問(wèn)題”,利用內(nèi)容匹配任務(wù)來(lái)幫助模型通過(guò)最優(yōu)傳輸(Chen等人)技術(shù)來(lái)正確地描述表格中的信息。該技術(shù)可以測(cè)量生成的文本信息與表格中的信息之間的距離,并將該距離作為懲罰加入到模型訓(xùn)練中,具體計(jì)算方法如下所示:

    在人、書、歌曲三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)都表明[43],該模型在表格到文本的少樣本情況下有優(yōu)秀的表現(xiàn)。該模型優(yōu)點(diǎn)在于:不需要大量數(shù)據(jù)且可以在多個(gè)領(lǐng)域中快速遷移。該模型缺點(diǎn)在于:文本描述的內(nèi)容組織、宏觀結(jié)構(gòu)有待提高。

    3.8 多分支表格信息解碼器模型

    使用基于深度學(xué)習(xí)的方法來(lái)解決DTG任務(wù)已使技術(shù)性能突飛猛進(jìn)[12,30,33-44],訓(xùn)練所使用數(shù)據(jù)的質(zhì)量直接決定模型的性能,因此研究人員往往使用大型語(yǔ)料庫(kù)來(lái)訓(xùn)練模型并評(píng)估模型在不同任務(wù)上的表現(xiàn)。不過(guò),這些大型語(yǔ)料庫(kù)往往是通過(guò)從互聯(lián)網(wǎng)上的資源以及程序來(lái)構(gòu)建的。雖然互聯(lián)網(wǎng)上的資源很容易獲取,但包括不完全匹配的源目標(biāo)對(duì),模型的輸出經(jīng)常受到過(guò)度生成的影響[45-46],即訓(xùn)練實(shí)例中未對(duì)齊的有歧義片段,在推理過(guò)程中會(huì)導(dǎo)致類似的未對(duì)齊輸出,即所謂的“幻覺(jué)”。實(shí)驗(yàn)調(diào)查顯示,現(xiàn)實(shí)生活中DTG系統(tǒng)的最終用戶,更關(guān)心可靠性而不是可讀性,因此解決表格到文本模型的“幻覺(jué)”問(wèn)題就變得至關(guān)重要[47]。

    為解決“幻覺(jué)”問(wèn)題,Rebuffel 等[48]提出一種多分支加權(quán)解碼器,以及一種詞級(jí)標(biāo)注過(guò)程。這種詞級(jí)標(biāo)注過(guò)程通過(guò)依存分析,基于共現(xiàn)和句子結(jié)構(gòu)以減少單詞匹配過(guò)程的失敗次數(shù),同時(shí)仍然可以在復(fù)雜環(huán)境中產(chǎn)生正確標(biāo)簽。該多分支加權(quán)的解碼器以對(duì)齊標(biāo)簽為指導(dǎo),充當(dāng)詞級(jí)控制因子,在訓(xùn)練過(guò)程中該模型能夠區(qū)分對(duì)齊和未對(duì)齊的單詞,并學(xué)習(xí)生成準(zhǔn)確的描述,而不會(huì)被不真實(shí)的參考信息誤導(dǎo)。該模型在Wikibio數(shù)據(jù)集的實(shí)驗(yàn)上有優(yōu)秀的表現(xiàn)。

    該模型優(yōu)點(diǎn)在于:多分支加權(quán)方法允許在推理時(shí)手動(dòng)控制以此生成低“幻覺(jué)”文本。上述方法使得在噪聲數(shù)據(jù)集上訓(xùn)練神經(jīng)模型成為可能,而不需要手工制作數(shù)據(jù)。該模型缺點(diǎn)在于:生成長(zhǎng)文本的流暢性有待提高。模型結(jié)構(gòu)如圖9所示。

    圖9 多分支表格信息解碼器模型Fig.9 Multi-branch table information decoder model

    4 評(píng)價(jià)方法

    在自然語(yǔ)言生成領(lǐng)域,通過(guò)評(píng)測(cè)模型的生成結(jié)果可以反映出模型能力的好與壞,評(píng)測(cè)方法是模型訓(xùn)練的關(guān)鍵。在表格到文本生成領(lǐng)域常用的評(píng)價(jià)方法有:BLEU(bilingual evaluation understudy)、ROUGE(recall-oriented understudy for gisting evaluation)、關(guān)系生成(relation generation,RG)、內(nèi)容選擇(content selection,CS)、內(nèi)容排序(content ordering,CO)。

    4.1 BLEU

    BLEU[36]得分是文本生成任務(wù)中常用的評(píng)價(jià)指標(biāo),在2002 年被提出。BLEU 以“生成文本與目標(biāo)文本越接近,則生成文本質(zhì)量越高”的核心思想來(lái)設(shè)計(jì)計(jì)算方法。它通過(guò)計(jì)算生成的候選句子和參考文本之間n-gram()n∈1,2,3,4 的共現(xiàn)次數(shù)來(lái)評(píng)估機(jī)器輸出和人輸出之間的對(duì)應(yīng)關(guān)系。

    BLEU 有便捷、快速等優(yōu)點(diǎn),是一種可以在模型訓(xùn)練中快速、準(zhǔn)確給出評(píng)價(jià)的指標(biāo)。但是,BLEU 并沒(méi)有考慮語(yǔ)言表達(dá)的準(zhǔn)確性,評(píng)價(jià)結(jié)果會(huì)受常用詞干擾,生成短句的得分往往比長(zhǎng)句高,并且沒(méi)有考慮到詞語(yǔ)的相似性以及同類型的表達(dá)方式。

    4.2 ROUGE

    ROUGE[49]是BLEU 的改進(jìn)版,專注于召回率而非精度,在2004 年被提出。它會(huì)查看有多少個(gè)參考譯句中的n元詞組出現(xiàn)在輸出之中,這樣能知道模型生成的文本有多少出現(xiàn)在參考文本中,有沒(méi)有缺失信息。

    ROUGE 基于模型輸出和參考文本之間的最長(zhǎng)公共子序列(longest common subsequence,LCS),其中公共子序列要求相同順序的詞,但允許在任一序列的中間添加其他未覆蓋的詞。最終ROUGE-L 評(píng)分是F 度量(F-measure),基于在任何參考文本上達(dá)到的最大精度和最大召回率。其中準(zhǔn)確率、召回率計(jì)算為L(zhǎng)CS 的長(zhǎng)度除以系統(tǒng)輸出和引用的長(zhǎng)度。ROUGE大致分為以下四種,常用的是前兩種。

    4.2.1 ROUGE-N

    ROUGE-N 將BLEU 的精確率優(yōu)化為召回率,最基本的ROUGE的計(jì)算方法如下:

    其中,分母是n-gram的個(gè)數(shù),分子是參考文本和自動(dòng)生成文本公有的n-gram的個(gè)數(shù)。

    4.2.2 ROUGE-L

    ROUGE-L 將BLEU 的n-gram優(yōu)化為公共子序列,ROUGE-L計(jì)算方法如下:

    其中,LCS(X,Y)是X和Y的最長(zhǎng)公共子序列的長(zhǎng)度,m、n分別表示參考文本和模型生成文本的長(zhǎng)度,Rcls、Plcs分別表示召回率和精確率(下文同理)。

    4.2.3 ROUGE-W

    ROUGE-W為改進(jìn)基本的LCS方法,通過(guò)記住到目前為止所遇到的連續(xù)匹配的子序列長(zhǎng)度來(lái)計(jì)算加權(quán)最長(zhǎng)公共子序列(weighted longest common subsequence,WLCS)。ROUGE-W的計(jì)算方法如下:

    4.2.4 ROUGE-S

    ROUGE-S在參考文本和模型生成文本進(jìn)行匹配時(shí),不要求n-gram之間必須是連續(xù)的,可以“跳過(guò)”幾個(gè)單詞。ROUGE-S的計(jì)算方法如下:

    其中,SKIP2(X,Y)是X和Y之間跳躍雙字節(jié)匹配的次數(shù),β控制Rskip2和Pskip2的相對(duì)重要性,C是組合函數(shù),例如C(4,2)=6。

    雖然ROUGE 指標(biāo)改進(jìn)了上面提到的BLEU 的缺點(diǎn),就是不考慮語(yǔ)言表達(dá)(語(yǔ)法)上的準(zhǔn)確性,測(cè)評(píng)精度會(huì)受常用詞的干擾,但是ROUGE指標(biāo)無(wú)法評(píng)價(jià)模型生成文本的流暢性。

    4.3 抽取評(píng)價(jià)

    BLEU 可能是評(píng)估短文本生成的一種相當(dāng)有效的方法,但研究人員發(fā)現(xiàn)它在長(zhǎng)文本生成方面并不令人滿意。并且它主要獎(jiǎng)勵(lì)流暢的文本生成,而不是鼓勵(lì)捕獲表格中最重要信息,也不是鼓勵(lì)以特別連貫的方式描述信息[12]。因此在2017 年,研究人員提出以下三種指標(biāo)來(lái)更好地評(píng)價(jià)表格到文本生成模型的能力好壞。

    4.3.1 關(guān)系生成

    關(guān)系生成(RG)[12]鼓勵(lì)系統(tǒng)更好地生成包含正確信息的文本。該方法通過(guò)測(cè)量,得到同時(shí)出現(xiàn)在生成文本和表格s中的關(guān)系r的精度和絕對(duì)分?jǐn)?shù),分別表示為RG-P和RG-Count。

    4.3.2 內(nèi)容選擇

    內(nèi)容選擇(CS)[12]根據(jù)提到的表格信息衡量生成的文本與參考文本的匹配程度。測(cè)量從生成文本中提取的唯一關(guān)系r的精確度和召回率,分別表示為CSP和CS-R,其中唯一關(guān)系r也是從y1:t中提取的。

    4.3.3 內(nèi)容排序

    內(nèi)容排序(CO)[12]通過(guò)分析生成文本中表格信息的排序情況,測(cè)量從生成文本提取的信息序列與從參考文本y1:t提取的信息序列之間的歸一化Damerau-Levenshtein距離[50]。

    5 實(shí)驗(yàn)

    接下來(lái)介紹RotoWire、Wikibio數(shù)據(jù)集,以及前面提到的模型在這些數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。

    5.1 RotoWire的實(shí)驗(yàn)結(jié)果對(duì)比

    本節(jié)在RotoWire[12]上訓(xùn)練和評(píng)估文中介紹的模型。RotoWire 是籃球比賽總結(jié)的數(shù)據(jù)集,配有相應(yīng)的框和行得分表,摘要寫得很專業(yè),結(jié)構(gòu)也比較好,長(zhǎng)度也比較長(zhǎng)(平均337 個(gè)單詞)。記錄類型的數(shù)量為39 個(gè),記錄的平均數(shù)量為628 個(gè),詞匯表大小為1.13×104個(gè)單詞,token 計(jì)數(shù)為1.6×106。數(shù)據(jù)集非常適合文檔規(guī)模的生成。

    實(shí)驗(yàn)結(jié)果如表1 所示[11-12,33,51]。其中Hierarchical Transformer對(duì)應(yīng)于表格內(nèi)容層次編解碼模型;NCP+CC 對(duì)應(yīng)于表格內(nèi)容選擇與計(jì)劃模型;Three Dimensions Encoder 對(duì)應(yīng)于表格三維層次編碼器模型;STG 對(duì)應(yīng)于表格顯著內(nèi)容選擇、跟蹤和生成模型。其中Count 表示計(jì)數(shù)、P 表示精確度、R 表示召回率、DLD表示Damerau-Levenshtein距離。

    表1 RotoWire實(shí)驗(yàn)結(jié)果Table 1 Experiment results of RotoWire

    5.1.1 各模型特點(diǎn)

    (1)表格內(nèi)容層次編解碼模型(Hierarchical Transformer)獲得最高的BLEU 評(píng)分,但是RG-Count 等指標(biāo)表現(xiàn)一般,即關(guān)系生成的能力有待提高。這是因?yàn)樵撃P蜎](méi)有內(nèi)容計(jì)劃等組件,在生成文本時(shí)模型不能有效組織文本內(nèi)容及結(jié)構(gòu)。

    (2)表格顯著內(nèi)容選擇、跟蹤和生成模型(select,track and generate model,STG)在關(guān)系生成方面表現(xiàn)得很好,獲得了最高的評(píng)分。這歸功于顯著性追蹤模塊能夠辨別顯著性內(nèi)容以及顯著性何時(shí)轉(zhuǎn)移,這對(duì)關(guān)系生成十分重要。

    (3)表格三維層次編碼器模型(Three Dimensions Encoder)整體表現(xiàn)優(yōu)秀,從多個(gè)維度抽取表格信息這是其他模型所沒(méi)有的優(yōu)勢(shì),同時(shí)解碼器的雙重注意力機(jī)制能保證優(yōu)秀的生成效果。并且三個(gè)維度的信息抽取,使得模型生成的文本包含更加豐富多樣的信息。

    (4)表格內(nèi)容選擇與計(jì)劃模型(NCP+CC)的內(nèi)容選擇能力十分優(yōu)秀。因?yàn)樵撃P惋@示建模內(nèi)容選擇以及文本計(jì)劃?rùn)C(jī)制,在模型生成文本時(shí)指導(dǎo)模型選擇正確的內(nèi)容信息。

    5.1.2 性能分析比較

    (1)BLEU

    內(nèi)容層次編解碼模型的BLEU得分最高,這相較于非層次化模型,層次化模型有更優(yōu)秀的編碼能力,可以生成更流暢的文本描述。值得注意的是,內(nèi)容層次編解碼模型性能優(yōu)于內(nèi)容選擇與計(jì)劃模型(NCP+CC),這表明在編碼過(guò)程中,通過(guò)模型去捕獲表格結(jié)構(gòu)信息比預(yù)測(cè)文本計(jì)劃來(lái)指導(dǎo)文本生成更有效。

    (2)關(guān)系生成(RG)

    模型需要理解表格內(nèi)容以及結(jié)構(gòu)化信息,從而生成正確的事件、關(guān)系描述。顯著內(nèi)容選擇、跟蹤和生成模型(STG)和宏觀計(jì)劃模型(Macro)在關(guān)系生成方面都有著非常優(yōu)秀的表現(xiàn),這得益于這兩個(gè)模型有著從宏觀角度觀察表格、生成文本的能力。在描述表格數(shù)據(jù)時(shí),顯著部分[34]會(huì)移動(dòng),比如提到某位名人事跡或是某位球員在比賽中的表現(xiàn)時(shí),顯著部分會(huì)移動(dòng)。一般的模型很難捕獲顯著部分的移動(dòng),而表格顯著內(nèi)容選擇、跟蹤和生成模型通過(guò)顯著內(nèi)容追蹤機(jī)制提取了這種信息,從而在關(guān)系生成方面有著優(yōu)秀的表現(xiàn)。宏觀計(jì)劃模型有著另一種思路,該模型使用先生成宏觀計(jì)劃再生成具體內(nèi)容的兩步策略,這種任務(wù)的解耦合降低了任務(wù)難度,使模型可以更容易地生成宏觀計(jì)劃,以此指導(dǎo)模型文本生成過(guò)程,并促進(jìn)了正確關(guān)系的生成。

    (3)內(nèi)容選擇(CS)

    在內(nèi)容選擇方面,不同模型各具特色。三維層次編碼器模型通過(guò)多個(gè)維度觀察表格,可以抽取到行、列和時(shí)間三個(gè)維度的信息,這種機(jī)制更貼近人類的書寫習(xí)慣,也使得生成的文本描述有更豐富的信息。層次化模型通過(guò)層次化編碼機(jī)制,從表格中抽取了更多的信息。同時(shí)該模型編碼器部分使用Transformer 而不是RNN,Transformer 通過(guò)直接比較表格信息之間的關(guān)系,避免了RNN 對(duì)輸入元素順序的假設(shè),這有利于模型提取正確信息,從而選擇正確的表格內(nèi)容。顯著內(nèi)容選擇、跟蹤和生成模型通過(guò)其獨(dú)特的顯著內(nèi)容追蹤機(jī)制,在顯著內(nèi)容發(fā)生轉(zhuǎn)變時(shí),能及時(shí)感知并選擇新的顯著內(nèi)容,這使得對(duì)內(nèi)容選擇能力有不小提升。

    (4)內(nèi)容排序(CO)

    盡管模型可以生成流暢的文本描述,但文本內(nèi)容的排序可能并不合理。三維層次編碼器模型有著優(yōu)秀的內(nèi)容排序能力。該模型有行級(jí)編碼器,可以從更高層次看待表格數(shù)據(jù),解碼器生成每個(gè)單詞時(shí),首先選擇重要的行再選擇記錄,這樣的機(jī)制對(duì)內(nèi)容排序有著指導(dǎo)意義。顯著內(nèi)容選擇、跟蹤和生成模型在內(nèi)容排序方面同樣有著優(yōu)秀表現(xiàn)。該模型在生成文本的同時(shí)動(dòng)態(tài)更新顯著內(nèi)容編碼信息,這有利于模型產(chǎn)生更好的內(nèi)容排序。

    5.1.3 層次化模型分析比較

    將非層次化模型(Flat)、內(nèi)容層次編解碼模型-k(Hierarchical Transformer-k)和內(nèi)容層次編解碼模型-kv(Hierarchical Transformer-kv)進(jìn)行對(duì)比,結(jié)果如表2 所示。與其他模型相比,非層次化模型的得分較低,這證明了分層編碼器對(duì)表格數(shù)據(jù)結(jié)構(gòu)進(jìn)行編碼的有效性。這是因?yàn)榉菍哟位P驮诰幋a過(guò)程中丟失了區(qū)別不同實(shí)體的邊界信息,所以非層次化編碼器很難對(duì)存在多個(gè)實(shí)體的表格進(jìn)行有效編碼。

    內(nèi)容層次編解碼模型-kv是指在解碼時(shí)模型的注意力關(guān)注每一個(gè)記錄。內(nèi)容層次編解碼模型-k是指在解碼時(shí)模型僅關(guān)注每一個(gè)實(shí)體(一個(gè)實(shí)體有多個(gè)記錄信息),即模仿人類書寫習(xí)慣:以人為單位,提到某人時(shí)會(huì)自動(dòng)報(bào)告其比賽得分,這種宏觀角度的注意力機(jī)制使得該模型有著更好的內(nèi)容選擇能力。

    將三維層次編碼器模型中的三維編碼器分別替換為L(zhǎng)STM、CNN、Self-Attention、Transformer 進(jìn)行對(duì)比,結(jié)果如表2所示??梢园l(fā)現(xiàn)沒(méi)有三維層次編碼器的幫助,所有層次化模型的表現(xiàn)都不好。為了評(píng)估該模型每一個(gè)組件的貢獻(xiàn),分別將行、列、時(shí)間等單維編碼器從模型中移除,所有不完整的模型表現(xiàn)都變差,這說(shuō)明三個(gè)維度的信息和記錄融合門都非常重要。同時(shí)位置編碼也非常重要,它保證了模型能夠提取表格結(jié)構(gòu)信息。結(jié)果表明,該模型中每一個(gè)組件對(duì)整體性能都有貢獻(xiàn)。

    表2 層次化模型實(shí)驗(yàn)結(jié)果對(duì)比Table 2 Comparison of experiment results of hierarchical models

    5.1.4 內(nèi)容選擇模型分析比較

    將表格內(nèi)容選擇與計(jì)劃模型(neural content selection and planning model,NCP)、編碼器-解碼器模型(encoder-decoder,ED)分別結(jié)合聯(lián)合拷貝(joint copy,JC)、條件拷貝(conditional copy,CC)進(jìn)行實(shí)驗(yàn)比較,結(jié)果如表3 所示。其中w是作者信息。表格內(nèi)容選擇與計(jì)劃模型與兩種復(fù)制機(jī)制的結(jié)合都比普通編碼器-解碼器模型優(yōu)秀。表格內(nèi)容選擇與計(jì)劃模型與條件拷貝相結(jié)合(NCP+CC)的整體表現(xiàn)最優(yōu),其生成的文本最流暢。該模型相較于編碼器-解碼器模型(ED+CC)性能有著不小提升,尤其在內(nèi)容選擇方面提升最多,這表明內(nèi)容選擇與計(jì)劃?rùn)C(jī)制有利于提升內(nèi)容選擇能力。

    表3 內(nèi)容選擇模型實(shí)驗(yàn)結(jié)果對(duì)比Table 3 Comparison of experiment results of content selection models

    相較于表格內(nèi)容選擇與計(jì)劃模型,表格顯著內(nèi)容選擇、跟蹤和生成模型(STG)在關(guān)系生成方面性能提升最多。該模型在文本生成過(guò)程中通過(guò)追蹤顯著內(nèi)容的變化情況,動(dòng)態(tài)更新編碼信息,在關(guān)系生成方面這種機(jī)制比模型直接預(yù)測(cè)文本計(jì)劃更有指導(dǎo)意義。

    5.2 Wikibio的實(shí)驗(yàn)結(jié)果對(duì)比

    Wikibio數(shù)據(jù)集包含來(lái)自英國(guó)維基百科的728 321篇文章,分為3個(gè)子部分,分別提供582 659個(gè)訓(xùn)練實(shí)例、72 831個(gè)驗(yàn)證實(shí)例和72 831個(gè)測(cè)試實(shí)例。它使用每篇文章的第一個(gè)句子作為相關(guān)信息框的描述。該數(shù)據(jù)集有數(shù)據(jù)量較大、詞匯豐富等特點(diǎn)。每個(gè)描述中平均有26.1個(gè)單詞,表中也出現(xiàn)9.5個(gè)單詞。表格中平均包含53.1 字和19.7 個(gè)屬性。實(shí)驗(yàn)結(jié)果如表4所示[30,44,48]。其中Structure-aware Seq2seq對(duì)應(yīng)于表格結(jié)構(gòu)感知模型,MBD 對(duì)應(yīng)于多分支表格信息解碼器模型。

    表4 Wikibio實(shí)驗(yàn)結(jié)果Table 4 Experiment results of Wikibio

    5.2.1 各模型特點(diǎn)

    (1)表格結(jié)構(gòu)感知模型表現(xiàn)最好,BLEU 和ROUGE兩項(xiàng)指標(biāo)都取得最高分,這歸功于表內(nèi)容信息、表結(jié)構(gòu)信息的充分抽取,并在解碼階段使用雙重注意力機(jī)制確保生成文本的高質(zhì)量。但是由于數(shù)據(jù)噪聲,該模型生成的文本存在“幻覺(jué)”問(wèn)題。

    (2)多分支表格信息解碼器模型(multi-branch decoder,MBD)雖然得分低于表格結(jié)構(gòu)感知模型,但是由于詞級(jí)標(biāo)注過(guò)程,模型在訓(xùn)練過(guò)程中不會(huì)受到未對(duì)齊數(shù)據(jù)的影響,有效改善了“幻覺(jué)”問(wèn)題。

    5.2.2 性能分析比較

    (1)BLEU

    表格結(jié)構(gòu)感知模型在BLEU指標(biāo)中得分最高,這歸功于該模型的表格結(jié)構(gòu)感知編碼器。傳統(tǒng)的方法只是簡(jiǎn)單地將表格詞編碼與表格字段編碼做拼接,再一起輸入給編碼器進(jìn)行編碼,這種方式忽略了表格的結(jié)構(gòu)信息,使得模型無(wú)法有效地對(duì)表格進(jìn)行編碼。表格結(jié)構(gòu)感知編碼器通過(guò)在LSTM中加入字段控制門,以此對(duì)記憶單元的內(nèi)容以及何時(shí)更新進(jìn)行有效控制,這種機(jī)制有助于模型理解表格的結(jié)構(gòu)信息,從而提高模型生成文本的質(zhì)量。

    (2)ROUGE

    表格結(jié)構(gòu)感知模型生成的文本與參考文本最相似,這得益于雙重注意力機(jī)制。該機(jī)制中詞級(jí)注意力關(guān)注表格記錄之間的關(guān)系,字段級(jí)注意力對(duì)模型生成的描述和表格記錄的信息相關(guān)性進(jìn)行編碼。詞級(jí)注意力和字段級(jí)注意力的聚合可以在表格內(nèi)容與其模型生成的描述間建立更精確的聯(lián)系,這保證了模型生成高質(zhì)量文本描述。

    5.2.3 “幻覺(jué)”情況分析比較

    由于數(shù)據(jù)集通過(guò)程序在互聯(lián)網(wǎng)中收集整理而成,數(shù)據(jù)中存在未對(duì)齊的表格-文本對(duì)。這樣的噪聲將對(duì)模型訓(xùn)練產(chǎn)生影響,導(dǎo)致模型生成表格未提及的內(nèi)容,俗稱“幻覺(jué)”。即使是表現(xiàn)優(yōu)秀的表格結(jié)構(gòu)感知模型也會(huì)出現(xiàn)“幻覺(jué)”。

    將標(biāo)準(zhǔn)編碼器-解碼器模型(Stnd)、多分支編碼器解碼器模型(Hsmm)、分層模型(Hier)、多分支表格信息解碼器模型(MBD)進(jìn)行對(duì)比,結(jié)果如表5 所示??梢园l(fā)現(xiàn),除了多分支表格信息解碼器模型,唯一幻覺(jué)率較低的模型(Stnd_filtered),其使用的訓(xùn)練數(shù)據(jù)是按照幻覺(jué)分?jǐn)?shù)清洗后的數(shù)據(jù),獲取這樣的數(shù)據(jù)成本較高。

    表5 “幻覺(jué)”情況實(shí)驗(yàn)結(jié)果對(duì)比Table 5 Comparison of experiment results of“hallucination”

    在一般的數(shù)據(jù)集中進(jìn)行訓(xùn)練,其他模型很難避免“幻覺(jué)”問(wèn)題。而多分支表格信息解碼器模型可以很好地應(yīng)對(duì)這一問(wèn)題。利用解碼器中內(nèi)容、幻想和流暢度三個(gè)分支,實(shí)現(xiàn)對(duì)文本描述三種要素的控制,并且可以手動(dòng)設(shè)置不同分支的權(quán)重以達(dá)到降低幻覺(jué)的目的,因此多分支表格信息解碼器模型可以生成幻覺(jué)率極低并且十分流暢的文本。

    6 目前挑戰(zhàn)和未來(lái)發(fā)展趨勢(shì)

    6.1 主要的挑戰(zhàn)分析

    (1)內(nèi)容選擇。結(jié)構(gòu)復(fù)雜的表格中存在多種屬性,每種屬性有多個(gè)值,并且表格在不同維度均含有信息,模型不能有效理解表結(jié)構(gòu)及其內(nèi)容,這給模型生成文本描述帶來(lái)困擾。

    (2)內(nèi)容排序。當(dāng)模型生成文本時(shí),沒(méi)有優(yōu)秀的機(jī)制去引導(dǎo)模型描述什么,按照什么順序描述。導(dǎo)致模型盡管可以生成流暢的文本,但很難保持句間連貫,生成文本的排序也不恰當(dāng)。

    (3)“幻覺(jué)”問(wèn)題。當(dāng)前數(shù)據(jù)集中存在不完全對(duì)齊的表格-文本對(duì),這導(dǎo)致即使最優(yōu)模型也會(huì)出現(xiàn)脫離表格內(nèi)容的文本描述,俗稱“幻覺(jué)”。

    (4)理解表格中的數(shù)字。許多數(shù)據(jù)集(如Roto-Wire)中存在大量數(shù)字,普通embedding 方法無(wú)法表示這些數(shù)字在表格中的含義,因此模型很難理解表格中的數(shù)字。

    6.2 未來(lái)發(fā)展趨勢(shì)

    (1)高效的表格編碼器。目前已有多種對(duì)表格編碼的方式,它們分別針對(duì)于內(nèi)容選擇、內(nèi)容排序等問(wèn)題,但都有局限性,不能全方位提取表格信息。因此如何全面地理解表格結(jié)構(gòu)、理解表格中的數(shù)字、抽取表格多維信息,還有較大的研究空間。

    (2)使用預(yù)訓(xùn)練模型。由于預(yù)訓(xùn)練模型輸入與表格到文本輸入之間存在較大差異,在該領(lǐng)域應(yīng)用預(yù)訓(xùn)練模型十分困難。但是預(yù)訓(xùn)練模型有著豐富的語(yǔ)言知識(shí),使用價(jià)值極高。因此如何轉(zhuǎn)換表格輸入形式,表示表格結(jié)構(gòu)信息,從而高效使用預(yù)訓(xùn)練模型是未來(lái)研究中急需解決的問(wèn)題。

    (3)提高文本描述準(zhǔn)確性。對(duì)于文本描述,用戶更關(guān)心其信息的準(zhǔn)確性,因此如何最大程度減少“幻覺(jué)”文本的出現(xiàn)是未來(lái)研究重點(diǎn)之一。

    (4)構(gòu)建高質(zhì)量數(shù)據(jù)集。現(xiàn)有數(shù)據(jù)集主要是通過(guò)程序在互聯(lián)網(wǎng)中收集整理而成,因此存在較大的噪聲。表格到文本生成領(lǐng)域的研究需要更加干凈的數(shù)據(jù)集來(lái)減少噪聲對(duì)模型訓(xùn)練的影響。

    7 總結(jié)

    本文描述了表格到文本的任務(wù)背景、任務(wù)難點(diǎn)以及主流研究方法。同時(shí)介紹了表格結(jié)構(gòu)感知模型等表現(xiàn)優(yōu)秀的表格到文本生成新模型,這些模型在主流數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)中表現(xiàn)優(yōu)秀。與此同時(shí),還介紹了表格到文本領(lǐng)域較為通用的評(píng)價(jià)方法,如BLEU、ROUGE等。對(duì)各種先進(jìn)的模型在Wikibio和RotoWire 等公用數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果進(jìn)行了比較與分析,并分析了各模型在不同指標(biāo)下的優(yōu)勢(shì)與劣勢(shì)。最后總結(jié)了該領(lǐng)域目前的挑戰(zhàn)并展望了未來(lái)的發(fā)展趨勢(shì)。

    猜你喜歡
    解碼器編碼器表格
    《現(xiàn)代臨床醫(yī)學(xué)》來(lái)稿表格要求
    科學(xué)解碼器(一)
    科學(xué)解碼器(二)
    科學(xué)解碼器(三)
    統(tǒng)計(jì)表格的要求
    統(tǒng)計(jì)表格的要求
    統(tǒng)計(jì)表格的要求
    線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
    基于FPGA的同步機(jī)軸角編碼器
    基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
    施甸县| 宜都市| 安溪县| 曲阜市| 老河口市| 乌拉特中旗| 德清县| 长垣县| 宁河县| 建水县| 易门县| 德令哈市| 巴东县| 千阳县| 楚雄市| 当雄县| 乐昌市| 南华县| 平度市| 邹城市| 徐水县| 高雄县| 巴中市| 宿州市| 汽车| 治多县| 句容市| 三都| 湖北省| 红原县| 伊春市| 永清县| 阳泉市| 深水埗区| 龙海市| 仪陇县| 信阳市| 元阳县| 共和县| 汝州市| 泸州市|