符 悅,白 宇,蔡東風
(沈陽航空航天大學 人機智能研究中心,沈陽 110136)
伴隨著大數(shù)據(jù)時代的到來,新聞文本呈現(xiàn)爆炸式的增長,在給人們帶來海量數(shù)據(jù)便利的同時,也帶來了信息過載的困擾。如何從大量的新聞文本中提取出重要的內(nèi)容,已經(jīng)成為一個亟待解決的問題,新聞簡報可以幫助人們在短時間內(nèi)了解大量新聞內(nèi)容,有效解決信息過載的問題。對于新聞簡報生成,形式化定義[1]如式(1)所示。
NS=φ(Q)
(1)
其中Q表示某個領(lǐng)域下的多篇文檔集合,集合Q經(jīng)過φ方法的變換,得到新聞簡報集合NS。多文檔摘要(Multi-document summarization)技術(shù)[2]的出現(xiàn)為簡報生成問題提供了一個高效的解決方案。它利用計算機將同一主題下的多篇文檔描述的主要內(nèi)容通過信息壓縮技術(shù)提煉為一個文本的自然語言處理技術(shù)[3],目的是通過對原文本進行壓縮、提煉,為用戶提供簡明扼要的文字描述。
盡管當前眾多的新聞網(wǎng)站已經(jīng)紛紛推出每日的新聞簡報,以供用戶參考閱讀,但是截止目前,絕大多數(shù)的新聞簡報內(nèi)容來自文中的一句話或標題。這種情況容易使句子出現(xiàn)較多冗余的信息,如何能根據(jù)新聞自動生成新聞簡報,成為近年來NLP領(lǐng)域的研究熱點之一,同時也具有相當大的挑戰(zhàn),其主要表現(xiàn)在以下兩個方面。
第一,每篇新聞報道往往都是圍繞一個主題展開敘述新聞內(nèi)容,在敘述的過程中,往往會出現(xiàn)很多的噪聲。因此,如何從新聞文本中生成“好”的新聞主題句將是需要解決的關(guān)鍵問題之一。
第二,現(xiàn)有的基于多文檔文摘技術(shù)的新聞簡報自動生成研究多數(shù)僅限于考慮句子與句子之間的兩兩關(guān)系來對句子打分,進而通過句子排序羅列形成簡報,這忽略了文本中句子與句子之間在主題層面的邏輯關(guān)系[4],使得新聞簡報缺乏可讀性,用戶閱讀體驗欠佳。
本文提出了一種基于神經(jīng)網(wǎng)絡(luò)Seq2Seq框架和領(lǐng)域知識圖譜結(jié)合的方法來生成新聞簡報,該方法主要用來解決以上出現(xiàn)的兩個問題,使用Seq2Seq的框架來自動生成新聞主題句,使主題句更加簡練易懂。同時考慮到新聞簡報主題的相關(guān)性和簡報之間的連貫性,引入領(lǐng)域知識圖譜,利用圖譜的邏輯結(jié)構(gòu),對主題句進行合理的組織,生成新聞簡報。然后對于主題句生成結(jié)果采用Rouge的評價方法,在新聞簡報生成結(jié)果中,則采用自動評價方法和人工評價的方法來評價新聞簡報的質(zhì)量。
本研究涉及的任務(wù)與多自動文摘密切相關(guān),多自動文摘是自然語言處理中一個傳統(tǒng)的研究領(lǐng)域,其應用對象主要集中于新聞和社交媒體[5]。目前多文檔文摘技術(shù)主要分為兩種,一種是抽取式摘要的生成,另外一種是生成式摘要的生成[6]。
抽取式摘要的一種思路是將原文的句子進行切分、打分、排序,最后選擇排序靠前的句子作為最終的摘要結(jié)果?;趫D模型的研究方法有pageRank[7]和textrank[8],該方法主要是把文本集中的所有句子當成一個節(jié)點構(gòu)建一個拓撲結(jié)構(gòu)圖,然后對圖中的節(jié)點進行迭代得到相應的打分值,最后排序壓縮得到最后的摘要?;跓o監(jiān)督的方法,其中較為典型的是David M.Blei 等人提出的LDA模型[9],應用在多文檔文摘中,通過分析原文中的詞來發(fā)現(xiàn)蘊藏在其中的信息?;诰垲惖恼煞椒ㄊ鞘紫葘ξ恼轮械木渥泳垲悾瑢⑾嗨频木渥泳鄣酵活愔?,每一類代表不同的子主題,然后再將某一類中的句子排序,最后生成摘要[10]?;谟斜O(jiān)督的生成方法主要是將摘要生成問題轉(zhuǎn)變成序列標注和句子分類等問題來進行求解,比如支持向量機[11]、數(shù)學回歸等。這些有監(jiān)督的方法融入很多先驗知識,會比傳統(tǒng)的無監(jiān)督的方法好一些,但是可移植性相對較差?;诮y(tǒng)計的方法,則是利用詞頻、句子長度、句子位置等相關(guān)的特征來抽取重要的句子。巴爾賓等人開發(fā)的TextTeaser[12]就是一個典型的基于統(tǒng)計方法的抽取式多文檔文摘。
生成式摘要是指通過理解文章的內(nèi)容大意,將那些視為重要的信息進行抽取,同時抽象釋義出源文檔的內(nèi)容。這種方法更接近摘要的本質(zhì),更類似于人工提煉的摘要結(jié)果[13]。生成式神經(jīng)網(wǎng)絡(luò)模型采用Seq2Seq框架,基本結(jié)構(gòu)主要由編碼器和解碼器組成,由Google Brain團隊[14]和Yoshua Bengio團隊[15]提出,輸入是一個序列,輸出也是一個序列,最早應用于機器翻譯領(lǐng)域,后來應用于自然語言處理、聲音、圖片,乃至視頻數(shù)據(jù)等領(lǐng)域。例如:使用卷積神經(jīng)網(wǎng)絡(luò)來生成摘要,條件是卷積注意力機制,用來確保每一步生成的詞聚焦核心詞上,模型依賴大規(guī)模的語料來學習特征實現(xiàn)端到端的訓練[16],然而這些使用神經(jīng)網(wǎng)絡(luò)的方法在單文檔摘要生成過程中取得了不錯的效果。但是,由于缺乏大規(guī)模的多文檔摘要語料,這些方法很難適用到多文檔摘要中[17],而且相對來說,目前技術(shù)難度較大,效果欠佳。
引入知識圖譜的新聞簡報的生成方法是對傳統(tǒng)多文檔摘要的延伸。自從2012年谷歌提出知識圖譜的概念[18],利用知識圖譜來描述現(xiàn)實世界中存在的實體或者概念及其關(guān)系。它構(gòu)成一張巨大的語義網(wǎng)絡(luò)圖,節(jié)點表示實體或者概念,邊則由屬性或者關(guān)系構(gòu)成。依賴于知識圖譜強大的語義處理能力和開放的組織能力,能夠有效地將互聯(lián)網(wǎng)中結(jié)構(gòu)松散的數(shù)據(jù)組織起來。李陽等[19]提出一種用于計算知識圖譜中實體相似度通用的方法,能處理實體各種類型的屬性值,從而提高本文分類的準確率。Karidi D P等[20]利用現(xiàn)有的知識圖譜構(gòu)建主題圖,通過主題圖計算用戶興趣愛好的相似度,進而為用戶推送更多信息。
基于前人的研究成果,本文利用Seq2Seq框架生成新聞主題句,然后依據(jù)知識圖譜的邏輯結(jié)構(gòu)建立主題句與知識圖譜之間的映射關(guān)系。然后根據(jù)知識圖譜將信息進行合理的組織,最終形成新聞簡報。
在本文中,我們使用神經(jīng)網(wǎng)絡(luò)端到端的框架Seq2Seq來得到新聞的主題句,同時引入知識圖譜建立新聞主題句與知識圖譜之間的映射關(guān)系,將簡報生成問題轉(zhuǎn)化為對知識圖譜中各個節(jié)點下的新聞主題句的組織問題。除此之外,引入時序維度,以某段時間為單位來生成新聞簡報,TNS(Timeline news Summaries)根據(jù)時間排序的主題句列表組成,其中,新聞簡報都由某段時間內(nèi)描述新聞的主題句集合構(gòu)成。本文的整體模型框架如圖1所示。
圖1 模型框架
在文檔建模和主題句生成的框架中,我們將x=x1,…xTx作為輸入文檔,并且把主題句y=y1,…yTx作為輸出結(jié)果,主題句的生成過程是在給定主題句的情況下,找到最大化的條件概率argmaxyp(y|x),最后輸出y*。
首先,在GRU的設(shè)置中,從左向右讀入文本字符,一個GRU單元通過式(2)學習得到在i時刻的隱藏狀態(tài)hi。
hi=GRU(hi-1,e(xi))
(2)
其中,hi∈Rn,它將i時刻的所有文本進行編碼,hi通過hi-1和e(xi) 計算得到,其中e(xi)∈Rm是當前的字xi的m維向量,GRU內(nèi)部計算方法如式(3)~(6)所示。
(3)
(4)
ri=sigmoid(Wre(xi)+Urhi-1)
(5)
ui=sigmoid(Wue(xi)+Uuhi-1)
(6)
其中Wr,Wu,W∈Rn*m,Ur,Uu,U∈Rn*n是權(quán)重矩陣,n是隱藏單元個數(shù),Θ 表示矩陣相乘。
我們使用BiGRU,正序和逆序組合構(gòu)造一個雙層模型,每一層都是一個單向傳遞的結(jié)構(gòu),正序和逆序組合的GRU模型如圖2所示。
圖2 正序和逆序組合的GRU模型
通過將正序輸入序列和逆序輸入序列輸入到正逆序組合的GRU模型中,分別得到正序語義編碼和逆序語義編碼,其中語義編碼中包含輸出的注意力概率分布信息,然后將正序和逆序的編碼組合在一起,作為最后的語義編碼c,每次的隱藏狀態(tài)都依賴于前一次的語義編碼的隱藏狀態(tài),通過循環(huán)迭代直到遇到結(jié)束的標識符時最后一次編碼完成。
當在生成主題句時,解碼器根據(jù)在編碼器中獲得的語義編碼c,以及前一次輸出序列y1,…yt-1來預測當前的yt。條件概率的計算公式如式(7)和(8)所示。
(7)
(8)
在公式(7)中,y*是通過這個模型所找到的最佳主題句的結(jié)果。把這個條件概率進一步重寫得到式(8),計算輸出時間t時刻的所有合理的輸出詞的概率,其中t時刻的語義編碼ci是輸入序列和隱狀態(tài)h1,h2…h(huán)T的加權(quán)求和,公式如式(9)所示。
(9)
其中αi,j是注意力權(quán)重參數(shù),并不是一個固定的權(quán)重,它是由另一個神經(jīng)網(wǎng)絡(luò)計算得到的,如式(11)所示。
(10)
eij=a(si-1,hj)
(11)
神經(jīng)網(wǎng)絡(luò)a將上一個輸出序列的隱狀態(tài)si-1和輸入序列的隱狀態(tài)hj作為輸入,計算出xj,yi的對齊值eij,對齊越好的詞權(quán)重越大,對生成當前的輸出詞的影響也會越大,然后再歸一化得到權(quán)重αi,j,Seq2Seq模型如圖3所示。
圖3 主題句生成模型
該方法是將知識圖譜與每篇文本中主題關(guān)鍵詞的映射問題轉(zhuǎn)化為圖排序問題,每篇文本中的主題關(guān)鍵詞意味著重點、中心思想等等。在本文中,利用主題詞集T對知識圖譜節(jié)點進行打分,得到每個圖譜節(jié)點的得分值,然后按分數(shù)排名。將分數(shù)最高的圖譜節(jié)點輸出,作為主題詞集的類別,也就是文本映射到圖譜上的結(jié)果。對主題詞集與圖譜的節(jié)點間構(gòu)建圖模型的步驟如下。
步驟1:基于textrank算法,得到文檔中的關(guān)鍵詞以及關(guān)鍵詞的權(quán)重,構(gòu)成主題詞集T=[(s1,w1),(s2,w2),…,(sn,wn)]。
步驟2:構(gòu)建主題詞集與圖譜節(jié)點之間的有向圖G=(T,V,M),其中,T是主題詞集,集合V是知識圖譜中節(jié)點集合,M是邊的集合。對于一個給定的圖譜的頂點Vi,計算該頂點所得到的“打分值”,如式(12)所示。
(12)
式中,等式左邊是表示圖譜節(jié)點Vi的得分ws,wj表示在主題詞集{T}中每個主題詞對應的權(quán)重,mij表示圖譜節(jié)點vj與主題詞ti之間邊的權(quán)重。
該算法應用在主題與知識圖譜映射問題上,核心思想在于“打分”,將圖中的主題詞集{T}中的詞與圖譜中節(jié)點集合{V}計算相似度,相似度的計算公式為
(13)
該相似度是主題詞集{T}和圖譜中節(jié)點的一條邊,也就是主題詞集{T}對圖譜節(jié)點的打分值,在主題詞集中,圖譜{V}中某個節(jié)點得分越高,說明該文章的主題與這個節(jié)點越相關(guān),然后將主題詞集映射到得分值最高的圖譜的節(jié)點上。這里給出主題詞集{T}與圖譜節(jié)點集合{V}的映射圖模型,如圖4所示。
圖4 知識圖譜與主題句的映射模型
本文基于知識圖譜之間強大的語義處理能力和開放的組織能力,將原本松散的新聞數(shù)據(jù)組織起來。通過將主題詞和知識圖譜之間的映射,得到每篇新聞與圖譜之間的關(guān)系,將簡報生成的問題轉(zhuǎn)化為組織知識圖譜中各個節(jié)點下的新聞主題句的問題。圖5為圖譜與新聞主題之間的映射關(guān)系圖。
圖5 新聞簡報生成模型
從圖中可以看出,該知識圖譜由V={V0,r1,r2,a1,a2,a3,a4}構(gòu)成,在知識圖譜V中,v0是根節(jié)點,也是整個圖譜的核心,離根節(jié)點越近的主題事件和圖譜的關(guān)系越緊密,圖的右側(cè)為圖譜中每個實例對應的主題句,如何組織右側(cè)的句子,采用的策略如下。
(1)若某個圖譜節(jié)點下包含事件最多,說明該節(jié)點下的事件是某段時間內(nèi)相對重要的事情,則優(yōu)先考慮輸出該節(jié)點下的事件,而該節(jié)點下事件輸出順序依賴于主題句映射在該節(jié)點上的對應的打分值,分數(shù)越高該主題句與該節(jié)點越相關(guān)。按照打分值從高到低依次將該節(jié)點下的主題句輸出。
(2)若圖譜的節(jié)點下包含的事件同樣多,則依據(jù)深度優(yōu)先遍歷算法遍歷該圖譜,依次輸出各個圖譜節(jié)點下的主題事件。
因此,主題句輸出的最終順序為{s6,s2,s1,s4,s3,s5}。
除此之外,從新聞簡報呈現(xiàn)的形式中可以觀察到,新聞簡報主要包括時間、主題、發(fā)生事件等方面的內(nèi)容。根據(jù)這些條件,我們基于知識圖譜來構(gòu)建新聞簡報的模板,模板由時間、主題、新聞內(nèi)容三部分構(gòu)成,使生成的簡報更連貫,更具有結(jié)構(gòu)化。例如:從圖5的映射關(guān)系中可以看出,圖譜的根節(jié)點為“人才培養(yǎng)”。因此,該圖譜下的主題句主要圍繞“人才培養(yǎng)”來進行闡述,最后得到的新聞簡報如表1所示。
表1 新聞簡報
本文在訓練主題句模型的過程中選擇公開的中文語料庫(LCSTS),這個數(shù)據(jù)集是由Hu.等人[21]構(gòu)建,包含超過兩百萬篇語料,該數(shù)據(jù)來自中國有名的社會媒體網(wǎng)站新浪微博。這些數(shù)據(jù)被分成了三部分,第一部分包含2 400 591篇語料,第二部分包含10 666篇語料,第三部分包括1 106篇語料。其中,第一部分作為訓練集,第二部分作為開發(fā)集,第三部分作為測試集。這些語料中文本長度為100~150個字,主題句長度為20~30個字。在測試的過程中,除了選擇公開的測試集,還在軍民融合官網(wǎng)中爬取了1667篇新聞作為測試語料。為保持測試語料長度的一致性,選擇該新聞的前兩句作為文本,標題作為主題句答案進行測試。
同時,在新聞簡報生成過程中選用軍民融合領(lǐng)域知識圖譜,該圖譜是根據(jù)軍民融合領(lǐng)域語料中包含的內(nèi)容人工梳理構(gòu)建完成,主要涉及交通運輸、信息、科技協(xié)同、人才培養(yǎng)、安全領(lǐng)域、社會保障、國防科工等方面。部分圖譜如圖6所示。
在主題句的生成過程中,通過不斷調(diào)整參數(shù)優(yōu)化模型發(fā)現(xiàn)設(shè)置批量為256時效果最佳,同時采用字模型,詞典設(shè)置為4000,嵌入的維度為500,隱藏層的節(jié)點數(shù)為500,光束搜索大小為5,使用自適應學習率( Adadelta)來學習模型參數(shù)。
在新聞簡報生成的過程中,用到的語料是軍民融合領(lǐng)域的1667篇新聞,先通過textrank工具抽取出每篇新聞中的20個關(guān)鍵詞,然后將知識圖譜的節(jié)點和文章中的關(guān)鍵詞通過Word2vec訓練出詞匯相似度矩陣模型,依據(jù)主題句與知識圖譜之間的映射模型,使主題句映射到知識圖譜的節(jié)點上,進而得到每篇新聞主題句與圖譜之間的關(guān)系,于是,將簡報生成的問題轉(zhuǎn)化為把知識圖譜中各個節(jié)點下的新聞主題句組織的問題。依據(jù)新聞?wù)Z料中的時間數(shù)據(jù)作為時序維度,以“天”為單位生成每日的新聞簡報。
圖6 軍民融合領(lǐng)域部分知識圖譜
在實驗評估中,我們選擇自動評價方法和人工評價方法。自動評價方法中,我們的評估指標選擇ROUGE[22]得分,這種評估方法在摘要評估中很受歡迎,通過計算重疊詞匯單位(包括unigram,bigram,trigram和最長公共子序列(LCS))來比較自動生成的摘要和參考摘要。該種方法同樣可以用于主題句生成的結(jié)果評估中,采用ROUGE-1(unigram),ROUGE-2(bi-gram)和ROUGE-L(LCS)來評估本文的實驗結(jié)果。
對于新聞簡報生成的結(jié)果,我們采取自動評價方法和人工評價方法來評估生成的新聞簡報的語言質(zhì)量,并且和其他的方法對比。在采用人工評價方法時,我們隨機從新聞簡報中抽出100篇進行人工評價,要求十名志愿者從連貫性、非冗余性和可讀性三個方面進行人工評價。評級的格式為1-5個數(shù)字分數(shù)(不一定是整數(shù)),其中較高的分數(shù)表示級別較高的等級。連貫性是指語句前后銜接是否恰當,非冗余性是指語句中不存在重復和多余的信息??勺x性是指語句便于閱讀,吸引讀者的特性。
LexRank[23]基于句子圖形表示中的特征向量中心性的概念來計算句子重要性。在該模型中,基于句子內(nèi)余弦相似度的連通矩陣被用作句子圖形表示的鄰接矩陣。
TextRank(Mihalcea和Tarau,2004)構(gòu)建圖形并將每個句子添加為頂點,兩個句子的重疊被視為連接句子的關(guān)系。 然后應用基于圖形的排序算法直到收斂。 句子根據(jù)其最終得分進行排序,并使用貪婪算法對每個句子施加多樣性懲罰并選擇摘要句子。
SumBasic[24]提出了用一個句子中所有詞在文本集中出現(xiàn)的概率之和來表示句子重要程度的方法,然后選擇最重要的句子組成摘要。
Luhn[25]提出了“詞頻”的方法,通過計算文章中“keywords”的出現(xiàn)頻率來找到文章的中心句子以此來生成文本摘要。
RNN和RNN-cont是具有RNN編碼器和解碼器的兩個序列到序列的基本模型,由Hu等人提出。區(qū)別在于RNN-cont具有注意力機制而RNN沒有注意力機制。
(1)主題句生成模型
在主題句模型訓練的實驗結(jié)果中,對比了我們的模型和以上的其他基礎(chǔ)方法,實驗結(jié)果如表2所示。
表2 在LCSTS語料上實驗對比結(jié)果
從表中可以看出,BiGRU方法優(yōu)于其他方法,主要由于BiGRU在預測語句中缺失的單詞的時候考慮了上下文的信息,因此輸入到網(wǎng)絡(luò)中的信息也更加全面,防止了前后信息的丟失。該方法對比前四個抽取式的摘要生成方法,也有較大的提升,抽取式的摘要方法主要缺點在于抽出的是一句話或者幾句話,而且這些語句中包含的信息并不全面,冗余信息也相對較多。在本文的實驗中,LCTST數(shù)據(jù)集的文本長度相對較短,語言較為精煉,所以抽出的主題句并不理想。因此,我們采用BiGRU模型來生成主題句。
接下來,我們將訓練好的主題句生成模型應用到軍民融合領(lǐng)域的新聞?wù)Z料中來生成主題句。實驗結(jié)果如表3所示。
表3 軍民融合語料上的實驗結(jié)果
從表中可以看出,BiGRU模型應用在軍民融合領(lǐng)域的新聞?wù)Z料中得到的效果比在LCSTS語料上的效果更好。兩種語料實驗結(jié)果對比如表4所示。
表4 對比兩種語料的實驗結(jié)果
對比兩種語料可以發(fā)現(xiàn),LCSTS語料中的重要信息相對分散,而在軍民融合的語料中的重要信息相對集中,多數(shù)重要信息連接在一起。因此,在通過使用神經(jīng)網(wǎng)絡(luò)模型BiGRU得到的結(jié)果也相對較好,在自動評價的結(jié)果中,得到的結(jié)果也優(yōu)于在LCSTS語料中得到的結(jié)果。
(2)新聞簡報生成模型
結(jié)合軍民融合領(lǐng)域的知識圖譜得到328篇新聞簡報,我們先采用自動評價的方法得到如表5所示的結(jié)果。
從該表中可以看出,采用BiGRU+KG的方法得到的效果更好一些,主要是因為在使用BiGRU方法生成主題句的時候,效果優(yōu)于其他的方法。因此在通過知識圖譜對主題句進行組織時,效果同樣優(yōu)于其他的方法。
表5 對新聞簡報自動評價實驗結(jié)果
由于ROUGE自動評價的方法并不考慮文章句子間前后的順序關(guān)系,因此對于本文中基于知識圖譜將主題句進行組織的結(jié)果合理性問題,我們采用了人工評價的方法,對比其他方法結(jié)果如表6所示。
表6 對新聞簡報進行人工評價結(jié)果
表7 新聞簡報結(jié)果
從表格中可以看出,從人工評價的角度來說,BiGRU+KG的方法略優(yōu)于其他傳統(tǒng)的方法,無論是從連貫性上、非冗余性上、還是從可讀性上都得到較好的評價。首先,基于知識圖譜得到的新聞簡報可以將這一天中發(fā)生的相關(guān)事情合并在一起進行闡述,可以幫助讀者快速了解某一天中主要發(fā)生的新聞內(nèi)容。如表7所示,通過使用BiGRU+KG的方法可以得到這一天的新聞簡報中關(guān)于公共安全方面共報道了5篇新聞,關(guān)于社會保障方面報道了1篇,關(guān)于科技協(xié)同方面報道了1篇。因此,首先描述公共安全方面的信息,這5篇報道按照知識圖譜中的邏輯結(jié)構(gòu)進行輸出。這也體現(xiàn)了知識圖譜在本文中的重要作用,使新聞簡報更具有連貫性和可讀性。而其他方法生成的新聞簡報皆是將某一天中的主題句羅列在一起所形成的,因此連貫性相對較差,而且句子中包含的多余信息使句子變得冗長而不簡潔。因此,BiGRU+KG的方法有效提高了新聞簡報的非冗余性、連貫性以及可讀性。
本文研究如何從多篇新聞中自動生成新聞簡報,我們將該問題分解成兩個任務(wù)來進行。第一個任務(wù)是通過使用神經(jīng)網(wǎng)絡(luò)Seq2Seq的框架自動生成新聞主題句,從而解決主題句生成的結(jié)果中包含大量噪聲的問題。從實驗結(jié)果來看,使用Seq2Seq框架在生成新聞主題句時取得了較好的結(jié)果。第二個任務(wù)是基于領(lǐng)域知識圖譜的方法生成新聞簡報,通過知識圖譜使主題句之間更具有邏輯性,然后通過知識圖譜將新聞主題句進行合理的組織。這種方法不僅在自動評價中取得了不錯的效果,而且在人工評價中也得到3.5以上的得分。從而證明基于Seq2Seq框架和領(lǐng)域知識圖譜的方法生成新聞簡報可以提高新聞簡報生成結(jié)果的可讀性、連貫性以及非冗余性。
在未來的工作中,我們將嘗試采用不同的神經(jīng)網(wǎng)絡(luò)模型融入到Seq2Seq的框架中,并且嘗試在神經(jīng)網(wǎng)絡(luò)中加入主題詞等相關(guān)知識來提高新聞主題句的生成效果。