劉茂福,齊喬松,胡慧君
(1. 武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430065;2. 智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430065)
足球賽事直播正處于蓬勃發(fā)展階段。因受限于生活與工作的快節(jié)奏,使得足球愛(ài)好者無(wú)法擁有充足的時(shí)間觀看所有足球賽事直播或重播,取而代之的是通過(guò)閱讀一篇簡(jiǎn)短的足球新聞,獲取比賽中發(fā)生的事情。然而,時(shí)至今日,足球新聞依然由專家或記者手工撰寫,既耗時(shí)又費(fèi)力。因而,采用相關(guān)信息抽取、自然語(yǔ)言處理等技術(shù),從體育賽事直播腳本自動(dòng)生成足球新聞,顯得尤為重要。本文選擇足球領(lǐng)域的網(wǎng)絡(luò)直播腳本作為語(yǔ)料,試圖提出一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)與篇章結(jié)構(gòu)的足球新聞自動(dòng)生成方法,嘗試取代手工撰寫新聞的方式。
本文提出的足球新聞生成方法是從一組網(wǎng)絡(luò)直播腳本中抽取并生成句子。經(jīng)典的單文本摘要方法往往認(rèn)為,文檔里句子或者詞語(yǔ)的重要性與其出現(xiàn)的頻率呈正相關(guān),但是記載著體育賽事流水賬的文字通常與之有所差異。在足球比賽中,人們所理解重要時(shí)刻與多種條件相互依存,描述同樣事件的文字會(huì)因?yàn)闀r(shí)間、位置、主語(yǔ)、比分等多種條件的影響而呈現(xiàn)截然不同的重要性。承載于文字的重要時(shí)刻有多種類型,比如禁區(qū)中的對(duì)抗動(dòng)作、雙方球隊(duì)概述、關(guān)鍵先生、進(jìn)球。因此足球比賽新聞生成方法需要能夠從文本中抽取包含重要信息的句子。由于足球新聞的上述特性,本文即利用這種特性作為評(píng)價(jià)時(shí)的輔助指標(biāo),以期取得更好的摘要效果。
文檔摘要生成技術(shù)在專業(yè)領(lǐng)域發(fā)展迅速。Wang等[1]使用基于統(tǒng)計(jì)模型的單文檔摘要方法生成中文新聞;林莉媛等[2]使用基于評(píng)論的多文檔摘要方法生成情感類文本;李培等[3]基于斯坦納樹(shù)的最小權(quán)重支配集在微博數(shù)據(jù)集上生成故事線;Wan等[4]使用抽取多個(gè)候選句,并對(duì)候選句排序的方法來(lái)生成跨語(yǔ)種的文本摘要;Cao等[5]使用基于神經(jīng)網(wǎng)絡(luò)的抽象摘要方法來(lái)取代抽取式摘要,得到了忠實(shí)原文的摘要結(jié)果;Cao等[6]使用文本分類的方法來(lái)解決多文檔摘要中數(shù)據(jù)匱乏的問(wèn)題。
本文使用基于文本分類模型的句子抽取方法抽取出重要句子。目前,文本分類任務(wù)的相關(guān)研究已經(jīng)日趨完善,段旭磊等[7]使用基于句向量的相似度計(jì)算方法來(lái)查找相似微博文本;在短文本分類任務(wù)研究上,呂超鎮(zhèn)等[8]采用基于文檔主題生成模型與特征擴(kuò)展的方法來(lái)提升分類的準(zhǔn)確率;陳宇等[9]使用基于差分演化優(yōu)化的方法嘗試解決在林業(yè)信息領(lǐng)域的文本分類難題;Sabour等[10]提出了膠囊網(wǎng)絡(luò),并證明了膠囊網(wǎng)絡(luò)在圖片分類任務(wù)上的優(yōu)越性。
如今,企業(yè)也相繼在特定領(lǐng)域研發(fā)并投入使用了自動(dòng)寫作機(jī)器人。特定領(lǐng)域的文章通常因?yàn)槠漕I(lǐng)域特殊性而需要關(guān)注不同的側(cè)重點(diǎn),例如,財(cái)經(jīng)領(lǐng)域的文章主題要求具有較強(qiáng)的數(shù)學(xué)邏輯,以此為代表的是美聯(lián)社半自動(dòng)化寫作機(jī)器人WordSmith[注]https://automatedinsights.com/case-studies/associated-press。洛杉磯時(shí)報(bào)的Quakebot主要用來(lái)實(shí)時(shí)發(fā)布地震消息[注]http://knowledge.wharton.upenn.edu/article/will-robot-journalists-replace-humanl-ones/,Quakebot曾經(jīng)在洛杉磯地震的數(shù)分鐘內(nèi)發(fā)布相關(guān)新聞。Quakebot屬于應(yīng)對(duì)突發(fā)情況的領(lǐng)域,需要保證極高的實(shí)時(shí)性與準(zhǔn)確性,生成的新聞需要簡(jiǎn)明扼要、突出重點(diǎn)。國(guó)內(nèi)同樣有優(yōu)秀的自動(dòng)生成文章產(chǎn)品。如阿里巴巴的DT稿王[注]http://writingmaster.cn/、騰訊的Dreamwriter[注]http://tech.qq.com/dreamwriter.htm、今日頭條的Xiaomingbot[注]http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zgcmkhj201609002等。這些寫作機(jī)器人在特定領(lǐng)域中表現(xiàn)出明顯的差異化,這種差異化也使得領(lǐng)域相關(guān)的文章自動(dòng)生成技術(shù)呈現(xiàn)出百花齊放的局面。
針對(duì)足球新聞,本文提出了一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)與篇章結(jié)構(gòu)的足球新聞自動(dòng)生成方法。首先,人工對(duì)直播文本中的句子進(jìn)行抽取性標(biāo)注,基于統(tǒng)計(jì)結(jié)果抽取文本中含有的人工特征,根據(jù)標(biāo)注結(jié)果與人工特征的性質(zhì)對(duì)特征進(jìn)行處理。使用了詞向量、人工特征與標(biāo)注結(jié)果訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)分類模型,使用分類模型預(yù)測(cè)句子是否應(yīng)該被抽?。涣硪环矫媸褂糜?xùn)練集中的數(shù)據(jù)統(tǒng)計(jì)文件來(lái)生成關(guān)于隊(duì)伍和球員表現(xiàn)總結(jié)的句子。最終這些句子將會(huì)被按照訓(xùn)練集結(jié)果中篇章結(jié)構(gòu)來(lái)重新組合,生成一篇足球新聞。
本文中提出的足球新聞自動(dòng)生成方法主要包含數(shù)據(jù)預(yù)處理、特征與分類、規(guī)則與統(tǒng)計(jì)文件、篇章結(jié)構(gòu)四個(gè)模塊,如圖1所示。
在數(shù)據(jù)預(yù)處理部分,該方法的主要工作是中文分詞以及去停用詞。本文選擇了中科院的中文分詞工具[注]中科院分詞工具: http://ictclas.nlpir.org/downloads和哈爾濱工業(yè)大學(xué)的停用詞表[注]哈工大停用詞表: https://github.com/uk9921/StopWords。
在特征與分類模塊中,本文從測(cè)試集中抽取時(shí)間、標(biāo)點(diǎn)與比分三類句子特征。時(shí)間特征是指一個(gè)句子出現(xiàn)的時(shí)間點(diǎn);標(biāo)點(diǎn)特征反映了一個(gè)句子中包含的標(biāo)點(diǎn)情況;比分特征是指一個(gè)句子是否包含進(jìn)球信息。在詞向量特征模塊中,本文使用一系列的詞向量來(lái)表示一個(gè)句子。隨后,該方法使用卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Networks)模型,對(duì)輸入的人工特征與詞向量特征加以預(yù)測(cè)。CNN的預(yù)測(cè)結(jié)果為Softmax二分類,兩個(gè)結(jié)果分別表示輸入句子應(yīng)該被抽取(label=1)和不應(yīng)該被抽取(label=0)的概率,當(dāng)Plabel=1>Plabel=0時(shí),表示抽取當(dāng)前句子。
圖1 方法框架圖
在規(guī)則與統(tǒng)計(jì)文件模塊中,該方法通過(guò)處理技術(shù)統(tǒng)計(jì)文件和主客隊(duì)球員統(tǒng)計(jì)文件,得到了雙方球隊(duì)和球員有關(guān)進(jìn)攻與防守的數(shù)據(jù)。同時(shí)在句子生成模塊中,本文使用了這些數(shù)據(jù)中的進(jìn)球次數(shù)和控球率來(lái)衡量一個(gè)球隊(duì)的進(jìn)攻和控球能力,并且使用模板為球隊(duì)生成一個(gè)簡(jiǎn)短的比賽評(píng)價(jià);同時(shí),該方法也為有進(jìn)球的球員和撲救次數(shù)較多的守門員生成評(píng)價(jià)。
在篇章結(jié)構(gòu)模塊中,該方法將會(huì)遵照訓(xùn)練集的結(jié)果文件格式,先把生成的句子置于文章的開(kāi)頭部分,再把抽取后篩選出的句子按照時(shí)間順序來(lái)排序,置于文章開(kāi)頭部分之后的位置。本文將得到的句子按照篇章結(jié)構(gòu)重新組合后,最終得到一篇足球新聞。
根據(jù)訓(xùn)練集結(jié)果文件中的足球新聞,本文把一篇足球新聞的篇章結(jié)構(gòu)劃分成如下四個(gè)部分[11]。
(1) 時(shí)間、比賽和隊(duì)伍
足球新聞的第一部分一般會(huì)說(shuō)明比賽時(shí)間、地點(diǎn)、場(chǎng)次以及球隊(duì)雙方歷史對(duì)陣情況等,如例1所示。
例1北京時(shí)間2月3日凌晨3:45,英超第24輪一場(chǎng)焦點(diǎn)戰(zhàn),阿森納主場(chǎng)出戰(zhàn)南普頓。
在直播腳本文件中,比賽時(shí)間與場(chǎng)次可以在其開(kāi)頭部分被找到,球隊(duì)數(shù)據(jù)在其結(jié)尾位置。本文足球新聞第一部分內(nèi)容使用這些數(shù)據(jù)生成。
(2) 球員與比賽的概述
足球新聞的第二個(gè)部分,會(huì)著重展示表現(xiàn)杰出的球員與比賽的概述,第二部分內(nèi)容如例2所示。
例2在本場(chǎng)比賽,雙方在球權(quán)上爭(zhēng)奪激烈。迪烏夫?yàn)樗雇锌顺欠瞰I(xiàn)了1粒進(jìn)球。切爾西隊(duì)門將庫(kù)爾圖瓦表現(xiàn)神勇,全場(chǎng)沒(méi)收了2次射門。聯(lián)賽交鋒中,切爾西在客場(chǎng)0∶1不敵對(duì)手。
例2中,對(duì)比賽的評(píng)價(jià)總結(jié)來(lái)自比賽的技術(shù)統(tǒng)計(jì)文件,對(duì)球員的總結(jié)則生成自記錄了主客隊(duì)球員的統(tǒng)計(jì)文件。表1和表2說(shuō)明了這兩種文件的數(shù)據(jù)格式和內(nèi)容。
表1 技術(shù)統(tǒng)計(jì)文件示例
表2 主客隊(duì)球員統(tǒng)計(jì)文件示例
(3) 直播精彩時(shí)刻
足球新聞中的第三個(gè)部分是比賽中的主體部分,這個(gè)部分記錄了直播中發(fā)生的所有重要時(shí)刻,表3 給出了直播腳本的數(shù)據(jù)格式。
表3 直播腳本的部分內(nèi)容
(4) 對(duì)陣出場(chǎng)名單
對(duì)陣出場(chǎng)名單中包含有雙方球員編號(hào)、出場(chǎng)球員、球員出場(chǎng)時(shí)間等信息。如例3所示。
例3阿森納首發(fā)(4-2-3-1): 33-切赫;24-貝萊林;20-弗拉米尼(85’,科奎林)……
本文在特征的不同垂直領(lǐng)域上,考慮到特征直觀上的合理性,使用了時(shí)間、標(biāo)點(diǎn)與比分三類特征,并且通過(guò)數(shù)據(jù)統(tǒng)計(jì)對(duì)這些特征進(jìn)行了合理性驗(yàn)證。其中,本文統(tǒng)計(jì)了訓(xùn)練集中足球新聞的句子與時(shí)間分布,不同時(shí)間占比如圖2所示。
圖2 足球新聞中句子占比與時(shí)間分布
由圖2可知,時(shí)間與句子重要性呈現(xiàn)出明顯的相關(guān)性,例如,上下半場(chǎng)快結(jié)束的時(shí)候,句子的重要性會(huì)持續(xù)增高?;贑NN的分類沒(méi)有直接使用到時(shí)序信息,引入時(shí)間特征可以一定程度上彌補(bǔ)時(shí)序信息的不足。在訓(xùn)練數(shù)據(jù)中,時(shí)間是連續(xù)的單位,而在同一緯度上,時(shí)間之間的四則運(yùn)算是沒(méi)有含義的(如第10分鐘與第15分鐘是并列時(shí)間點(diǎn),而非“15-10=5”的關(guān)系),因此,本文將時(shí)間特征離散化,并表示為編碼形式[12],如表4所示。
表4 部分時(shí)間特征表
本文統(tǒng)計(jì)了在直播文本中標(biāo)注結(jié)果為“抽取”的句子中標(biāo)點(diǎn)符號(hào)的分布,計(jì)算其TF-IDF值,如式(1)~式(3)所示。
表5 標(biāo)點(diǎn)符號(hào)的TF-IDF值
TF-IDF值在一定程度上衡量了句子中標(biāo)點(diǎn)符號(hào)的重要性。標(biāo)點(diǎn)的TF-IDF值反映了標(biāo)點(diǎn)與句子抽取的相關(guān)程度,相關(guān)程度越高,其TF-IDF值也越高。結(jié)果表明,逗號(hào)、句號(hào)與句子抽取沒(méi)有明顯的相關(guān)性,而感嘆號(hào)與句子抽取的相關(guān)性較為明顯。在常識(shí)中,射失、撲救、進(jìn)球等行為引起的激烈情緒常常用感嘆號(hào)表示,情緒激烈的程度與感嘆號(hào)的數(shù)量也呈現(xiàn)相關(guān)性。本文將句子中感嘆號(hào)的數(shù)量抽象為一維特征,并將特征離散化,如表6所示。
表6 符號(hào)特征表示
在足球領(lǐng)域,進(jìn)球往往是一場(chǎng)比賽中最重要的時(shí)刻。因此,本文使用與上一句相比本句比分是否發(fā)生變化來(lái)表示比分特征,對(duì)其進(jìn)行編碼表示。如表7所示。
表7 比分特征表
為了增強(qiáng)句子的可讀性和連貫性,本文使用了一系列的句子模板,表8在細(xì)節(jié)上描述了本文中的模板匹配策略。
本文使用模板來(lái)生成篇章結(jié)構(gòu)的第一、第二和第四部分;篇章結(jié)構(gòu)的第三部分則使用基于CNN的句子抽取方法,使用CNN主要具有三方面的優(yōu)勢(shì)。
表8 模板匹配的一些例子
(1) CNN可以很好地把以句子為單位的特征與句子在同一個(gè)層次結(jié)合;
(2) 訓(xùn)練集規(guī)模較小的情況下,CNN可以支撐端到端的文本深度生成模型;
(3) 基于排序的句子抽取方法需要指定合理的抽取閾值,而CNN可以將其轉(zhuǎn)換為基于二分類的句子抽取。
在卷積神經(jīng)網(wǎng)絡(luò)模型中,本文的卷積核窗口寬度為2、3、4,每類卷積核的數(shù)量為64個(gè)。本文中的句子是通過(guò)詞向量維度×句子長(zhǎng)度的矩陣表示的。本文中句子長(zhǎng)度被固定為20,長(zhǎng)度少于20句的末尾使用空格符號(hào)詞向量填充,長(zhǎng)度超出20句的句子被截?cái)?。在本文中,卷積層詞向量維度與卷積核緯度都取值300。300×n的卷積矩陣與句子矩陣相乘,結(jié)果緯度為(20-n)。本文將標(biāo)點(diǎn)、得分與時(shí)間這三維特征與池化層結(jié)果拼接,使特征在維度與層次上保持一致。經(jīng)過(guò)全連接層與Softmax輸出分類結(jié)果的概率值。本文的CNN結(jié)構(gòu)與特征輸入如圖3所示。
圖3 CNN結(jié)構(gòu)與特征輸入
在模型超參數(shù)的選擇上,本文嘗試使用多種經(jīng)驗(yàn)范圍內(nèi)的超參數(shù)組合,最終使用的學(xué)習(xí)率為0.001。本文使用RELU激活函數(shù),優(yōu)化器選擇Adam Optimizer,優(yōu)化目標(biāo)方程使用L2正則項(xiàng),正則項(xiàng)系數(shù)為0.005,本文在全連接層設(shè)置dropout設(shè)置為0.4。本文將batch-size設(shè)置為128,訓(xùn)練時(shí)對(duì)全數(shù)據(jù)集循環(huán)10次,訓(xùn)練的終止條件為連續(xù)多輪損失函數(shù)不再下降或者達(dá)到全數(shù)據(jù)集循環(huán)10次。
本文的基于CNN分類抽取句子的算法如下所示。
算法1 基于CNN分類抽取句子的算法輸入: 足球文字直播的句子序列輸出: 抽取的足球文字直播句子序列1.句子序列處理,對(duì)序列中的句子分詞、去停用詞。根據(jù)序列中句子長(zhǎng)度的分布情況,確定句子需要截取的長(zhǎng)度為N;2.截取/填充句子的字符串,控制句子長(zhǎng)度為N;3.將一個(gè)句子表示為詞向量維度×句子長(zhǎng)度的矩陣,將矩陣與窗口大小為2、3、4的卷積核進(jìn)行卷積運(yùn)算;4.使用句子時(shí)間、得分和標(biāo)點(diǎn)當(dāng)作句子的人工特征,離散化并使用one-hot編碼表示時(shí)間、得分和標(biāo)點(diǎn)特征;5.將人工特征向量和卷積向量的最大池化結(jié)果拼接;6.使用Softmax層對(duì)拼接結(jié)果進(jìn)行計(jì)算,輸出為二維向量,代表分類為“抽取”與“不抽取”的概率值;7.若句子預(yù)測(cè)為“抽取”的概率值大于“不抽取”,則標(biāo)記輸出當(dāng)前句子;8.重復(fù)2到7步驟,直至句子序列處理完畢或者句子序列長(zhǎng)度達(dá)到限制。
足球直播文本通常與足球比賽同步滾動(dòng)播放,與之同期更新的還有比賽技術(shù)統(tǒng)計(jì)數(shù)據(jù)。比賽結(jié)束之后,足球比賽門戶網(wǎng)站會(huì)撰寫并發(fā)布一篇相關(guān)新聞對(duì)賽況進(jìn)行更新與總結(jié)。通常來(lái)說(shuō),使用爬蟲(chóng)技術(shù)從足球比賽門戶網(wǎng)站獲取實(shí)驗(yàn)數(shù)據(jù)是可行的,但門戶網(wǎng)站之間,關(guān)于比賽新聞產(chǎn)品定義的差異化導(dǎo)致這些網(wǎng)站給出的數(shù)據(jù),不論在長(zhǎng)度還是文風(fēng)上都有較大的差異。因此通過(guò)網(wǎng)絡(luò)爬蟲(chóng)獲取干凈整齊的高質(zhì)多量數(shù)據(jù)非常困難。本文的實(shí)驗(yàn)語(yǔ)料訓(xùn)練集共有50組,實(shí)驗(yàn)的測(cè)試集共有30組。這些數(shù)據(jù)是由專業(yè)的足球新聞報(bào)道者撰寫,可以認(rèn)為是高質(zhì)量的數(shù)據(jù)。其中,每組數(shù)據(jù)中包含250左右個(gè)句子,訓(xùn)練集共包含了大約12 500個(gè)句子,測(cè)試集共包含了大約7 500個(gè)句子。本文對(duì)這些句子的二分類進(jìn)行了人工標(biāo)注。標(biāo)注后,正負(fù)樣本比例大約為1∶5,為了平衡正負(fù)樣本比例,本文對(duì)正樣本采用了上采樣,采樣后的比例大約為3∶5,采樣后的訓(xùn)練數(shù)據(jù)大約有16 600條句子。
在對(duì)比實(shí)驗(yàn)方面,本文使用了基于規(guī)則的方法[13]作為對(duì)比實(shí)驗(yàn),同時(shí),得到“基于規(guī)則”、“基于規(guī)則與篇章結(jié)構(gòu)”、“基于CNN”與“基于CNN與篇章結(jié)構(gòu)”四種實(shí)驗(yàn)系統(tǒng)結(jié)果。 “基于規(guī)則”匹配句子中表示“禁區(qū)”的關(guān)鍵詞;如果匹配成功,則進(jìn)一步匹配句子中的其他敏感詞,例如,“手球”、“越位”等;如果句子滿足兩次匹配,或者當(dāng)前句子所在的時(shí)間內(nèi)比分發(fā)生變化,則抽取該句子。“基于規(guī)則與篇章結(jié)構(gòu)”的方法綜合了“基于規(guī)則”的抽取結(jié)果與模板匹配生成的句子?!盎贑NN分類與篇章結(jié)構(gòu)”綜合了“基于CNN分類”與模版匹配生成的句子。
本文使用ROUGE作為自動(dòng)評(píng)估方法,使用ROUGE-N、F1作為評(píng)價(jià)指標(biāo)。其基本思想是將模型生成的摘要與參考摘要的n元組貢獻(xiàn)統(tǒng)計(jì)量作為評(píng)判依據(jù),主要考察文本生成結(jié)果的充分性與忠實(shí)性。
在自動(dòng)評(píng)估方面,使用ROUGE工具包,用ROUGE-N的F1作為評(píng)價(jià)指標(biāo)。表9是本文方法在30組測(cè)試集上的評(píng)測(cè)結(jié)果。
表9 評(píng)測(cè)結(jié)果
由表中的ROUGE結(jié)果可知,本文方法得到的結(jié)果精準(zhǔn)率略大于召回率,說(shuō)明本文中的方法在精度上略優(yōu)于覆蓋度。這是因?yàn)楸疚臉?biāo)注的訓(xùn)練數(shù)據(jù)正負(fù)樣本比例不均衡。通常一場(chǎng)足球比賽中,直播腳本中的句子會(huì)有上百條,而足球新聞中需要的句子只有十多條。因此,在標(biāo)注直播腳本中句子時(shí),負(fù)樣本(不抽取)的比例要大于正樣本(抽取),這會(huì)更傾向與預(yù)測(cè)出負(fù)樣本類別,從而導(dǎo)致覆蓋率降低,精準(zhǔn)率升高。
本文對(duì)比基于卷積神經(jīng)網(wǎng)絡(luò)與規(guī)則的抽取模型,在同樣ROUGE環(huán)境下的評(píng)測(cè)結(jié)果如圖4所示。
圖4 評(píng)測(cè)結(jié)果對(duì)比
由圖4可知,本文方法在各項(xiàng)結(jié)果上均優(yōu)于基于規(guī)則的生成方法。這是因?yàn)楸疚暮侠淼厥褂昧宋谋咎卣?,將時(shí)間、標(biāo)點(diǎn)與比分三類特征加入到模型的訓(xùn)練過(guò)程,并且CNN具有較好擬合能力;而本文中使用的規(guī)則方法是從有限的數(shù)據(jù)中加上先驗(yàn)知識(shí)總結(jié)出來(lái)的,僅僅匹配了進(jìn)球、關(guān)鍵詞與敏感詞,難以擬合復(fù)雜的文本句式。所以,本文中使用CNN分類代替規(guī)則的抽取方法是有效的。本文中“基于規(guī)則”、“基于規(guī)則與篇章結(jié)構(gòu)”、“基于CNN”、“基于CNN與篇章結(jié)構(gòu)”的對(duì)比結(jié)果如表10所示。
表10 有無(wú)篇章結(jié)構(gòu)的評(píng)測(cè)結(jié)果對(duì)比
由表10可知,采用篇章結(jié)構(gòu)的實(shí)驗(yàn)結(jié)果略高于不使用篇章結(jié)構(gòu)的結(jié)果。本文在生成方法中使用篇章結(jié)構(gòu)可以讓足球新聞層次鮮明,可閱讀性強(qiáng)。其對(duì)評(píng)測(cè)結(jié)果的提升主要體現(xiàn)在篇章結(jié)構(gòu)上的重復(fù)部分,如“時(shí)間”和“出場(chǎng)陣容”等部分。本文中使用卷積神經(jīng)網(wǎng)絡(luò)與篇章結(jié)構(gòu)方法的生成結(jié)果如例4所示。
例4北京時(shí)間2月6日英超聯(lián)賽第25輪中最重要的一場(chǎng)比賽曼城主場(chǎng)對(duì)陣萊斯特。
本場(chǎng)比賽中,曼城進(jìn)攻意識(shí)強(qiáng)烈,同時(shí)在本場(chǎng)比賽中展現(xiàn)出了驚人的控球能力。胡特、馬赫雷斯為萊斯特奉獻(xiàn)了3粒進(jìn)球……
第2分鐘,鵝卵石左路的傳中,喬哈特飛身雙龍出海將球擊出禁區(qū)。馬赫雷斯右路得球,假動(dòng)作后搓球再加速突向底線被德?tīng)柗蚪O倒。
第3分鐘,萊斯特獲得一個(gè)右肋部的任意球機(jī)會(huì)。瓦爾迪一晃,馬赫雷斯低平球送球門前,搶點(diǎn)的胡特近距離將球打進(jìn)球門!。
第10分鐘,福布斯傳中,費(fèi)爾南迪奧倒地將球破壞出禁區(qū)。瓦爾迪禁區(qū)里一打三,德?tīng)柗驅(qū)⑶蚪鈬?。胡特后?chǎng)得球,被斯特林逼搶下帶球出了邊線。
……
雙方出場(chǎng)名單: 曼城(4231): 1-哈特;5-薩巴萊塔……
從例4中可以看出,本文中的方法成功地抽取出足球新聞第三部分的射門、進(jìn)球以及禁區(qū)內(nèi)的攻防等信息。在第2分鐘時(shí),抽取出禁區(qū)內(nèi)的防守和進(jìn)攻隊(duì)員被絆倒的信息;在第3分鐘,抽取出胡特進(jìn)球得分的信息;第9分鐘,抽取出喬哈特禁區(qū)內(nèi)封球的信息;第10分鐘,抽取出瓦爾迪禁區(qū)里一打三,德?tīng)柗驅(qū)⑶蚪鈬男畔ⅰ?/p>
生成結(jié)果包含了比賽的基本信息、比賽中的精彩片段和雙方的陣容?;谄陆Y(jié)構(gòu)的方法可以使得足球新聞結(jié)構(gòu)更加明顯,重點(diǎn)更為突出,增強(qiáng)了可讀性。
本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)與篇章結(jié)構(gòu)的足球新聞自動(dòng)生成方法。該方法基于卷積神經(jīng)網(wǎng)絡(luò)抽取句子,基于模板生成句子,將獲得的句子按照篇章結(jié)構(gòu)要求來(lái)排列,從而得到最終結(jié)果。實(shí)驗(yàn)結(jié)果表明,本文的足球新聞生成方法具有良好的效果,可以從直播腳本中較精準(zhǔn)地抽取并生成符合大眾常識(shí)的關(guān)鍵句子。
本文中的方法依然有提升的空間,一方面,可以通過(guò)拓寬訓(xùn)練集數(shù)據(jù),加入規(guī)則為不同類型的體育比賽制定不同的足球新聞生成方法;另一方面,隨著網(wǎng)絡(luò)直播腳本規(guī)范化的發(fā)展,可以給每一條直播語(yǔ)句增加標(biāo)簽,從而使得語(yǔ)句所描述事件的特性更加明確。另外,還可以使用遷移學(xué)習(xí)在中小型數(shù)據(jù)量上完成文本生成任務(wù)。