摘 要:針對現(xiàn)有摘要生成模型對審計(jì)新聞理解不充分且易丟失關(guān)鍵信息的問題,提出一種知識(shí)增強(qiáng)與生成式摘要模型相結(jié)合的摘要生成模型(text rank and bart with knowledge enhancement model, TRB-KE)。首先保留新聞前K個(gè)句子以獲取關(guān)鍵信息;其次,利用抽取式摘要模型對剩余新聞?wù)Z句按關(guān)鍵度排序,篩選出高質(zhì)量信息;再次,建立了一套審計(jì)領(lǐng)域知識(shí)庫,并將新聞中包含的術(shù)語與其釋義抽出,作為背景知識(shí)融入到生成式摘要模型中;最后,使用生成式摘要模型對融合背景知識(shí)的高質(zhì)量新聞文本進(jìn)行歸納概括,得到摘要結(jié)果。同時(shí),為提高模型效果,構(gòu)建了一套審計(jì)新聞數(shù)據(jù)集進(jìn)行針對性訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,相較于基準(zhǔn)模型,本文的TRB-KE模型在審計(jì)新聞數(shù)據(jù)集和NLPCC2018數(shù)據(jù)集的Rouge均值分別提升了0.98%和1.02%,證明所提模型可以學(xué)習(xí)新聞的深層信息,提升生成摘要的質(zhì)量。
關(guān)鍵詞:知識(shí)增強(qiáng);生成式摘要模型;審計(jì)領(lǐng)域知識(shí)庫;審計(jì)新聞?wù)?;審?jì)新聞數(shù)據(jù)集
DOI:10.15938/j.jhust.2024.06.004
中圖分類號(hào): TP391.1
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1007-2683(2024)06-0032-13
A Knowledge-enhanced Generative Summary Model for Audit News
ZHU Siwen1, ZHANG Yangsen1, WANG Xuesong3, SUN Longyuan2, XU Ruiyi2, JIA Qilong1
(1.Institute of Intelligent Information Processing, Beijing Information Science and Technology University, Beijing 100101, China;2.College of Information Management, Beijing Information Science and Technology University, Beijing 100192, China;
3.Beijing Municipal Audit Bureau, Beijing 100054, China)
Abstract:To address the problem that existing summary generation models do not fully understand audit news and tend to lose key information, a summary generation model (text rank and bart with knowledge enhancement model, TRB-KE) that combines knowledge enhancement and generative summary model is proposed. Then, a set of audit domain knowledge base is built and the terms contained in the news are extracted with their meanings and incorporated into the generative summary model as background knowledge. Finally, the generative summary model is used to summarize the high-quality news texts with background knowledge and obtain the summary results. At the same time, a set of audit news dataset is constructed for targeted training to improve the model effect. The experimental results show that compared with the benchmark model, the proposed TRB-KE model improves the mean Rouge value by 0.98% and 1.02% in the audit news dataset and the NLPCC2018 dataset, respectively, which proves that the proposed model can learn the deep information of the news and improve the quality of the generated summary.
Keywords:knowledge enhancement; generative summary model; audit domain knowledge base; summary of audit news; audit of news datasets
收稿日期: 2023-06-30
基金項(xiàng)目: 北京社科重點(diǎn)基金(21GLA007).
作者簡介:
朱思文(1998—),男,碩士研究生;
王雪松(1981—),男,碩士,大數(shù)據(jù)分析師.
通信作者:
張仰森(1962—),男,博士,教授,博士研究生導(dǎo)師,E-mail:zhangyangsen@163.com.
0 引 言
隨著審計(jì)信息化的不斷發(fā)展和進(jìn)步,審計(jì)工作者可以通過瀏覽政府官方網(wǎng)站或官方公眾號(hào)來了解政府審計(jì)機(jī)關(guān)的相關(guān)工作和新聞動(dòng)態(tài)[1-2]。其中,“中華人民共和國審計(jì)署”官網(wǎng)(以下簡稱“審計(jì)署官網(wǎng)”)是國家發(fā)布審計(jì)信息最權(quán)威的平臺(tái)[3]。審計(jì)署官網(wǎng)公開透明的信息不僅保證了公民對國家審計(jì)結(jié)果的知情權(quán),而且還能幫助審計(jì)工作者理解審計(jì)制度、增強(qiáng)對政府審計(jì)工作的信任和支持力度。雖然審計(jì)署官網(wǎng)發(fā)布的新聞動(dòng)態(tài)迅速且新聞信息豐富,但面對長篇幅的新聞文本時(shí),審計(jì)工作者往往難以在有限時(shí)間內(nèi)捕捉到新聞中的關(guān)鍵信息。因此,使用現(xiàn)代科學(xué)技術(shù)對審計(jì)新聞進(jìn)行摘要自動(dòng)生成,幫助審計(jì)工作者快速、準(zhǔn)確地獲得審計(jì)新聞動(dòng)態(tài)的核心信息,具有重要意義。
摘要自動(dòng)生成[4]是指使用算法對原始文本內(nèi)容進(jìn)行關(guān)鍵信息提取、壓縮和總結(jié),生成一段能夠代表原文中心思想的流暢文摘。根據(jù)生成方式,摘要可分為抽取式和生成式兩種[5]。抽取式摘要模型以最大邊緣相關(guān)算法、TextRank、聚類算法[6]為代表,雖然能達(dá)到較好的摘要效果,但其生成的摘要存在句子冗余、上下文銜接生硬等問題。而生成式摘要模型以Seq2Seq-Attention、PGN(pointer-generator networks)、BERT-PGN[9]和Bart(bidirectional and auto-regressive transformers)為代表,在處理短文本時(shí)可以生成高質(zhì)量的摘要。然而,面對長篇幅文本數(shù)據(jù)時(shí),這類模型存在不能充分理解全文且易丟失關(guān)鍵信息的缺陷。
因此,本文提出了一種審計(jì)領(lǐng)域知識(shí)增強(qiáng)的審計(jì)新聞?wù)赡P?。該模型由關(guān)鍵信息抽取模塊、知識(shí)增強(qiáng)模塊、摘要生成模塊組成。其中,知識(shí)增強(qiáng)模塊從審計(jì)知識(shí)庫中抽取原文相關(guān)的背景知識(shí);關(guān)鍵信息抽取模塊借助抽取式摘要模型獲取新聞的關(guān)鍵內(nèi)容;摘要生成模塊采用生成式摘要模型對上述兩個(gè)模塊的結(jié)果進(jìn)行歸納總結(jié),生成對應(yīng)摘要。本文主要貢獻(xiàn)如下:①提出了一種審計(jì)領(lǐng)域知識(shí)增強(qiáng)的審計(jì)新聞?wù)赡P停╰ext rank and bart with knowledge enhancement model, TRB-KE)。該模型在綜合利用抽取式和生成式摘要模型優(yōu)勢的基礎(chǔ)上,引入知識(shí)增強(qiáng)的策略,以充分保留和理解審計(jì)新聞關(guān)鍵信息。②構(gòu)建了審計(jì)領(lǐng)域知識(shí)庫和通用新聞知識(shí)庫,用于挖掘新聞原文中的術(shù)語,并以知識(shí)增強(qiáng)的方式引入模型中,以提升生成的摘要質(zhì)量。③構(gòu)建了審計(jì)新聞數(shù)據(jù)集,為審計(jì)新聞?wù)扇蝿?wù)與未來審計(jì)相關(guān)工作提供有力的數(shù)據(jù)支撐。④在審計(jì)新聞數(shù)據(jù)集和NLPCC2018數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果證明了所提TRB-KE模型的有效性,表明知識(shí)增強(qiáng)策略的引入可有效提升摘要質(zhì)量。
1 相關(guān)工作
1.1 審計(jì)新聞研究相關(guān)工作
隨著互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,政府審計(jì)信息和政策制度的宣傳已經(jīng)呈現(xiàn)出多元化的趨勢,政府審計(jì)新聞官網(wǎng)成為了重要的信息傳播渠道[13]。段堯清等[14]使用態(tài)度極性字典、模糊限制語字典和基于word2vec的態(tài)度匹配算法,挖掘政府新聞文本中包含的政府態(tài)度。此外,黃佳佳等[15]應(yīng)用LDA(latent dirichlet allocation)模型對審計(jì)新聞文本進(jìn)行主題挖掘,并利用Themeriver技術(shù)對近年來審計(jì)工作主題的演變進(jìn)行可視化展示,以突出未來審計(jì)工作的重點(diǎn)。在審計(jì)新聞相關(guān)工作迅速發(fā)展的今天,審計(jì)新聞?wù)詣?dòng)生成的研究也變得愈發(fā)重要。
1.2 摘要自動(dòng)生成技術(shù)相關(guān)工作
摘要自動(dòng)生成是自然語言處理領(lǐng)域的一個(gè)重要研究方向,因此吸引眾多研究者的關(guān)注。Rush等[16]是第一個(gè)將序列到序列模型運(yùn)用到文本摘要生成任務(wù)的研究者,該模型在Gigaword和DUC-2004數(shù)據(jù)集上表現(xiàn)出色。Nallapati等[17]使用門控循環(huán)單元(gate recurrent unit, GRU)作為序列到序列模型的核心組件,并加入注意力機(jī)制,提高了生成摘要的質(zhì)量。See等[10]提出的指針生成網(wǎng)絡(luò)(PGN)結(jié)合覆蓋(Coverage)機(jī)制可以將輸入數(shù)據(jù)中出現(xiàn)頻率低但關(guān)鍵的詞匯復(fù)制到生成的摘要中,減緩非登錄詞及重復(fù)詞匯對摘要質(zhì)量的影響。預(yù)訓(xùn)練模型在自然語言處理相關(guān)任務(wù)中大放異彩,也逐漸被運(yùn)用在摘要自動(dòng)生成任務(wù)中。譚金源等[11]提出的BERT-PGN模型借助BERT(bidirectional encoder representation from transformers)[18]模型獲取文本的上下文語義表示,并結(jié)合PGN模型進(jìn)行摘要生成,該方法生成的摘要質(zhì)量較高、可讀性高。Shao等[19]提出的CPT(chinese pre-trained unbalanced transformer)中文預(yù)訓(xùn)練模型在當(dāng)時(shí)取得最先進(jìn)的水平,且具有較快的生成速度和較低的計(jì)算成本。盡管上述生成式摘要模型在摘要生成任務(wù)上取得了重大突破,但在處理長文本數(shù)據(jù)時(shí),仍存在不能充分理解全文和丟失關(guān)鍵信息的問題。
為彌補(bǔ)上述生成式模型不足,出現(xiàn)結(jié)合抽取式和生成式模型的混合式模型。葛斌等[20]通過融合情感特征和TextRank模型抽取文本關(guān)鍵句,并將其送入BERT-PGN中進(jìn)行摘要生成,有效降低摘要中的重復(fù)內(nèi)容。Hsu等[21]引入了不一致性損失作為訓(xùn)練目標(biāo),對混合式模型進(jìn)行訓(xùn)練,促使模型更加注重摘要的抽象概括和連貫性。譚金源等[22]使用EAC損失函數(shù)對抽取式結(jié)構(gòu)化模型和指針生成網(wǎng)絡(luò)進(jìn)行端到端訓(xùn)練。上述混合式模型提升了模型對關(guān)鍵信息的提取能力,但依然存在對原文理解不充分的不足。
1.3 知識(shí)增強(qiáng)的摘要生成技術(shù)相關(guān)工作
為進(jìn)一步提升模型對原文內(nèi)容的理解,知識(shí)融合的策略開始引入到不同領(lǐng)域的摘要生成任務(wù)中。黃于欣[23]提出一種從用戶評論挖掘案件要素作為領(lǐng)域知識(shí)的司法輿情摘要生成方法,相較數(shù)據(jù)驅(qū)動(dòng)模型有著更加良好效果。趙夢夢等[24]提出一種基于BERT科技文獻(xiàn)自動(dòng)綜述模型,將基因知識(shí)融入注意力機(jī)制之中,挖掘文獻(xiàn)核心內(nèi)容。張祥祥[25]提出面向科技政策知識(shí)增強(qiáng)文本摘要模型Knowledge-Tr-PGN,使用拷貝指針獲取實(shí)體信息輔助摘要生成。上述方法雖然有效提升了模型效果,但是并未對輸入信息進(jìn)行篩選,容易將噪聲引入模型,對摘要生成造成干擾。
本文提出了一種審計(jì)領(lǐng)域知識(shí)增強(qiáng)的審計(jì)新聞?wù)煞椒?。該方法將知識(shí)增強(qiáng)、抽取式摘要模型、生成摘要模型三者相結(jié)合,形成優(yōu)勢互補(bǔ),得出本文的TRB-KE模型。該方法保留了新聞開頭的前K個(gè)句子,并借助抽取式模型篩選出文中關(guān)鍵句以提取新聞的重要信息。接著,將與新聞相關(guān)的背景知識(shí)同重要信息一起融入到模型中,使得注意力機(jī)制能夠聚焦于新聞的關(guān)鍵信息,增強(qiáng)模型對新聞的理解,從而提高生成摘要質(zhì)量。
2 審計(jì)新聞?wù)赡P?/p>
2.1 模型總架構(gòu)
融合審計(jì)領(lǐng)域知識(shí)增強(qiáng)的審計(jì)新聞?wù)赡P蚑RB-KE如圖1所示。此摘要生成方法架構(gòu)從新聞?wù)妮斎氲秸晒灿?jì)3個(gè)階段。階段1為知識(shí)增強(qiáng),具體為從審計(jì)知識(shí)庫中抽取與新聞原文相關(guān)的術(shù)語及釋義,作為背景知識(shí)引入模型中;階段2為關(guān)鍵句抽取,在保留新聞前K句的基礎(chǔ)上,借助關(guān)鍵句抽取模塊抽取新聞文本中的關(guān)鍵句,以提取新聞的關(guān)鍵信息;階段3為新聞?wù)桑唇柚鶥art模型編碼器將前兩個(gè)階段的結(jié)果轉(zhuǎn)換為具有準(zhǔn)確語義信息的高質(zhì)量向量,再通過Bart模型的解碼器對輸入的字詞向量依次解碼,得到新聞?wù)?/p>
2.2 知識(shí)增強(qiáng)模塊
知識(shí)增強(qiáng)為本文摘要生成方法的第1階段,旨在從知識(shí)庫中抽取與新聞關(guān)鍵信息相關(guān)的術(shù)語釋義對lt;term,dfgt;,作為背景知識(shí)BK(BK={〈term1,df1〉,…,〈termn,dfn〉})融入模型中,其中term為審計(jì)專業(yè)術(shù)語,df為術(shù)語釋義,n為術(shù)語釋義對的數(shù)量,從而使摘要模型更多地聚焦新聞關(guān)鍵信息、充分理解新聞,引導(dǎo)模型生成更高質(zhì)量的摘要。本文分別了構(gòu)建審計(jì)知識(shí)庫和通用新聞數(shù)據(jù)庫,下面3個(gè)小節(jié)將介紹知識(shí)庫的構(gòu)建及知識(shí)庫的使用。
2.2.1 審計(jì)知識(shí)庫構(gòu)建
為增強(qiáng)模型對審計(jì)新聞的內(nèi)容及背景知識(shí)的理解,本文通過分析審計(jì)新聞中的存在專業(yè)術(shù)語,建立了一套包含1352對術(shù)語釋義的審計(jì)知識(shí)庫,該審計(jì)知識(shí)庫可以為模型的自然語言理解和信息抽取提供有力的支持與幫助。
在本文的審計(jì)知識(shí)庫中,包含了財(cái)務(wù)會(huì)計(jì)類、內(nèi)部控制類、風(fēng)險(xiǎn)管理類、審計(jì)程序類以及其他類等5類實(shí)體,每個(gè)實(shí)體類別都包含了其對應(yīng)的子類及專業(yè)術(shù)語。每個(gè)術(shù)語知識(shí)包含術(shù)語名稱、術(shù)語釋義(一般不超過15個(gè)字)、所屬類別,出現(xiàn)頻率、關(guān)鍵等級等屬性,具體可表示為{term, df, type, freq, level}。
為確保知識(shí)庫的健壯性和實(shí)用性,本文采取了以下措施:首先,從審計(jì)新聞中抽取與新聞核心內(nèi)容關(guān)聯(lián)緊密的術(shù)語。其次,通過專業(yè)的審計(jì)書籍、學(xué)術(shù)論文以及行業(yè)規(guī)范手冊等渠道,擴(kuò)充大量相關(guān)審計(jì)術(shù)語,統(tǒng)計(jì)每個(gè)術(shù)語出現(xiàn)的頻率,并對其進(jìn)行整理和分類。然后,通過專家對知識(shí)庫中的術(shù)語進(jìn)行審核、修改和關(guān)鍵等級評定,確保其專業(yè)性。此外,還通過人工抽樣的方式,對庫中術(shù)語進(jìn)行隨機(jī)抽取,并請專業(yè)人員對其進(jìn)行驗(yàn)證,確保其準(zhǔn)確性。
通過以上方法,本文建立了一個(gè)實(shí)用的審計(jì)知識(shí)庫,可以為模型提供高質(zhì)量的背景知識(shí),使其能夠更好地理解新聞內(nèi)容。未來將繼續(xù)更新和完善知識(shí)庫,以滿足不斷變化的審計(jì)環(huán)境和需求。
2.2.2 通用新聞知識(shí)庫構(gòu)建
為驗(yàn)證提出摘要生成方法的有效性,本文對公開的NLPCC2018數(shù)據(jù)集進(jìn)行了分析。該數(shù)據(jù)集涵蓋領(lǐng)域廣泛,包括財(cái)經(jīng)、體育、社會(huì)、民生、科技、娛樂和時(shí)政等多個(gè)領(lǐng)域。同時(shí)考慮到該數(shù)據(jù)集的時(shí)效性,本文從復(fù)旦團(tuán)隊(duì)在2018年維護(hù)的CN-DBpedia中抽取需要的術(shù)語知識(shí)。CN-DBpedia是由復(fù)旦大學(xué)知識(shí)工廠實(shí)驗(yàn)室研發(fā)并維護(hù)的大規(guī)模通用領(lǐng)域結(jié)構(gòu)化百科,它已經(jīng)從百科領(lǐng)域延伸至法律、工商、金融、文娛、科技、軍事、教育、醫(yī)療等10多個(gè)垂直領(lǐng)域,為各類行業(yè)智能化應(yīng)用提供支撐性知識(shí)服務(wù)。在此基礎(chǔ)上,構(gòu)建了一個(gè)事件、人名、地名、機(jī)構(gòu)名、數(shù)字和時(shí)間的新聞通用知識(shí)庫。該知識(shí)庫的結(jié)構(gòu)與2.2.1小節(jié)中構(gòu)建的審計(jì)知識(shí)庫相同。
同時(shí),為提高該知識(shí)庫的準(zhǔn)確性和可信度,還對抽取出來的實(shí)體和關(guān)系進(jìn)行了人工校驗(yàn)和修正。經(jīng)過多次迭代和優(yōu)化,最終構(gòu)建了一個(gè)包含21733個(gè)實(shí)體的新聞通用知識(shí)庫。該知識(shí)庫不僅具有廣泛的覆蓋領(lǐng)域和豐富的內(nèi)容,還具有高度的準(zhǔn)確性和可信度,可以為新聞?wù)?、信息抽取和智能化?yīng)用提供有力的支持和服務(wù)。
2.2.3 知識(shí)庫的使用
使用知識(shí)庫輔助摘要生成的具體操作如下:首先將知識(shí)庫中包含的專業(yè)術(shù)語導(dǎo)入結(jié)巴分詞詞庫中;然后通過對新聞進(jìn)行分詞,得到分詞列表;再從知識(shí)庫中提取分詞列表存在術(shù)語的對應(yīng)釋義,得到初步背景知識(shí)IBK(IBK={〈term1,df1〉,…,〈termm,dfm〉}),其中m為初步背景知識(shí)包含釋義對的個(gè)數(shù)。
由于上述步驟所得的初步背景知識(shí)IBK可能存在噪聲,為降低噪聲對模型生成摘要的干擾,本文采用雙重規(guī)則對IBK進(jìn)行篩選過濾,控制融入模型中背景知識(shí)的數(shù)量。該規(guī)則包括:①術(shù)語釋義對去重,即去除背景知識(shí)中重復(fù)的釋義對,避免模型過于關(guān)注該知識(shí);②刪除釋義對,基于術(shù)語關(guān)鍵度刪除從背景知識(shí)中關(guān)鍵度較低的釋義對。
經(jīng)過上述規(guī)則過濾后可得到更為精確的背景知識(shí)BK(BK={〈term1,df1〉,…,〈termn,dfn〉}),其中n為篩選后的知識(shí)背景中包含的釋義對個(gè)數(shù)。進(jìn)而將背景知識(shí)與2.3小節(jié)關(guān)鍵信息抽取模塊所得到的結(jié)果同時(shí)融入摘要模型,得到摘要結(jié)果。
以圖2所示的審計(jì)新聞為例,標(biāo)出的內(nèi)容為新聞和知識(shí)庫中同時(shí)存在的專業(yè)術(shù)語,這些術(shù)語經(jīng)過上述的雙重規(guī)則后可得到最終的背景知識(shí)。其中“內(nèi)部審計(jì)體系”的關(guān)鍵度較低,為控制融入模型的背景知識(shí),故將其刪除?!皟?nèi)部控制”重復(fù)多次,將重復(fù)出現(xiàn)的術(shù)語去重。
新聞內(nèi)容:" 經(jīng)過多個(gè)月的審計(jì)工作,某知名互聯(lián)網(wǎng)公司獲得了其年度審計(jì)報(bào)告。審計(jì)報(bào)告確認(rèn)了該公司的財(cái)務(wù)報(bào)表的準(zhǔn)確性和可靠性,并對其內(nèi)部審計(jì)體系進(jìn)行了全面評估。
審計(jì)人員強(qiáng)調(diào)了該公司內(nèi)部控制的有效性和完整性,認(rèn)為公司建立了合理的內(nèi)部控制,并加強(qiáng)了內(nèi)部控制體系的監(jiān)督和改進(jìn)。此外,審計(jì)人員還識(shí)別了一些異常情況,并對這些情況進(jìn)行了詳細(xì)的調(diào)查和分析,最終確定了這些異常情況對公司財(cái)務(wù)報(bào)表的影響。其中,審計(jì)人員發(fā)現(xiàn)公司在一些資產(chǎn)減值方面存在問題,需要在未來加強(qiáng)資產(chǎn)減值的管理和監(jiān)督,以避免對公司財(cái)務(wù)報(bào)表的影響。
在審計(jì)過程中,審計(jì)人員還進(jìn)行了風(fēng)險(xiǎn)評估,以確定公司面臨的潛在風(fēng)險(xiǎn),并提出相應(yīng)的建議。審計(jì)報(bào)告中指出,盡管公司面臨一些潛在的風(fēng)險(xiǎn),但公司已經(jīng)采取了相應(yīng)的風(fēng)險(xiǎn)管理措施,并且這些措施足以減輕風(fēng)險(xiǎn)的影響。其中,審計(jì)人員特別提到了“內(nèi)控風(fēng)險(xiǎn)”和“舞弊風(fēng)險(xiǎn)”,并建議公司應(yīng)當(dāng)加強(qiáng)內(nèi)部控制,防范內(nèi)部舞弊風(fēng)險(xiǎn),提高內(nèi)部控制的完整性和有效性。該公司管理層對審計(jì)報(bào)告表示滿意,并表示將繼續(xù)加強(qiáng)內(nèi)部控制,提高財(cái)務(wù)報(bào)告的透明度和可靠性。此外,公司還將繼續(xù)關(guān)注和管理風(fēng)險(xiǎn),并采取適當(dāng)?shù)拇胧﹣斫档惋L(fēng)險(xiǎn)對公司經(jīng)營的影響。通過本次審計(jì),該公司可以更加全面地了解其內(nèi)部控制和財(cái)務(wù)狀況,為未來的經(jīng)營和管理提供更加準(zhǔn)確的參考和指導(dǎo)。
存在的專業(yè)術(shù)語:審計(jì)報(bào)告;財(cái)務(wù)報(bào)表;內(nèi)部審計(jì)體系;內(nèi)部控制;異常情況;風(fēng)險(xiǎn)評估
經(jīng)篩選所得術(shù)語:審計(jì)報(bào)告;財(cái)務(wù)報(bào)表;內(nèi)部控制;異常情況;風(fēng)險(xiǎn)評估
2.3 關(guān)鍵信息抽取模塊
本節(jié)介紹的關(guān)鍵信息抽取模塊為本文摘要生成方法的第二階段,與2.2小節(jié)介紹的知識(shí)增強(qiáng)模塊共同為摘要生成關(guān)注和理解關(guān)鍵信息奠定基礎(chǔ)。
Baxendale[26]的研究成果表示,人工摘要中以段首句為摘要的比例為85%,以段尾句為摘要的比例為7%。Salton[27]在此基礎(chǔ)上提出了在文章段落中心尋找核心要義作為摘要的思路。
基于此,本文在關(guān)鍵句抽取的第1階段保留新聞原文的前K句(K取值范圍為2~7)。階段二使用TextRank算法對剩余的審計(jì)新聞進(jìn)行關(guān)鍵句篩選。
階段1具體操作為:根據(jù)標(biāo)點(diǎn)符號(hào)[;。?。浚輰徲?jì)新聞進(jìn)行切分,得到句子列表SE={s1,s2,…,sn},n代表句子列表SE中的句子數(shù)量。同時(shí)保留句子列表SE中的前K個(gè)句子,作為關(guān)鍵句抽取第一階段的結(jié)果。剩余的句子組成新的句子列表S={sk+1,…,sn},以在階段2中做關(guān)鍵句篩選。
階段2為使用TextRank[7]算法篩選新聞文本關(guān)鍵句,首先使用分詞工具對句子列表S中句子進(jìn)行分詞,列表中任意一個(gè)句子可表示為Si={wi1,wi2,…,wim},m代表句子Si包含的詞匯數(shù)量。
其次,計(jì)算句子列表S中任意兩個(gè)句子的共現(xiàn)詞(兩個(gè)句子共同擁有的詞匯)數(shù)量,計(jì)算句子之間共現(xiàn)詞數(shù)量的公式如下所示:
Count(si,sj)=|{wh|wh∈siamp;wh∈sj}|(1)
式(1)給出了句子列表S中第i個(gè)句子Si和第j個(gè)句子Sj的共現(xiàn)詞數(shù)量。
然后,計(jì)算句子列表S中任意兩個(gè)句子的語義聯(lián)系程度,計(jì)算語義聯(lián)系程度的公式形式如下:
Sim(si,sj)=Count(si,sj)log(|si|)+log(|sj|)(2)
式中:|Si|和|Sj|分別為句子Si,Sj中包含的詞匯數(shù)量,分母的設(shè)計(jì)是為了降低較長句子在語義聯(lián)系程度計(jì)算上的劣勢,降低對節(jié)點(diǎn)權(quán)重迭代的影響。
最后,構(gòu)建一個(gè)網(wǎng)絡(luò)圖G=(V,E),將句子列表S中每個(gè)句子看成G中的一個(gè)節(jié)點(diǎn),任意兩個(gè)節(jié)點(diǎn)之間都有一條邊,該邊的權(quán)值是兩個(gè)句子之間的語義聯(lián)系程度,E為所有邊的集合。與此同時(shí),賦予圖中所有節(jié)點(diǎn)一個(gè)初始權(quán)重,隨后圖中各節(jié)點(diǎn)權(quán)重被迭代至模型收斂,模型收斂的標(biāo)志為圖G中任意一個(gè)節(jié)點(diǎn)當(dāng)前權(quán)重計(jì)算結(jié)果與上次權(quán)重計(jì)算結(jié)果誤差低于0.0001。節(jié)點(diǎn)權(quán)重計(jì)算公式如下:
UD(Vi)=∑Vj∈Connect(Vi)Sim(sj|si)∑Vk∈Connect(Vj)Sim(sj|sk)WS(Vj)(3)
WS(Vi)=(1-d)+dUD(Vi)(4)
其中:WS(Vi)為節(jié)點(diǎn)Vi的權(quán)重;d為阻尼系數(shù)(取值范圍為0~1,一般取0.85)[7];Connect(Vi)為與節(jié)點(diǎn)Vi相連的節(jié)點(diǎn)集合。
待模型收斂后,按照句子權(quán)重從高至低的順序,將列表S中的句子依次與關(guān)鍵句抽取第一階段所得到的K個(gè)句子相結(jié)合,該結(jié)合文本作為關(guān)鍵句模塊得到的初步摘要,為Bart模型歸納關(guān)鍵信息生成流暢精簡摘要奠定基礎(chǔ)。
2.4 摘要生成模塊
為歸納關(guān)鍵句抽取模塊得到的初步摘要的核心要義,生成一段上下文銜接自然的精簡摘要,本文采用更具噪聲靈活性的Bart模型對其進(jìn)行摘要生成。Bart是一個(gè)基于Transformer[28]的序列到序列去噪預(yù)訓(xùn)練模型,其核心組件是一個(gè)雙向編碼器和一個(gè)自左向右的自回歸解碼器,此模型可看作BERT與GPT(improving language understanding by generative pre-training)[29]的泛化。Bart模型的整體架構(gòu)如圖3所示。
Bart面對關(guān)鍵句抽取模塊得到的亂序文本更具摘要生成的競爭力,得益于5個(gè)富含自然語言理解與生成特色的預(yù)訓(xùn)練任務(wù)和優(yōu)秀的模型架構(gòu)。上述預(yù)訓(xùn)練任務(wù)包括:令牌掩蓋(token masking)、令牌刪除(token deletion)、文本填充(text infilling)、句子重排列(sentence permutation)和文檔旋轉(zhuǎn)(document rotation),Bart通過重構(gòu)原始輸入文本的方式完成模型的預(yù)訓(xùn)練。與此同時(shí),Bart模型的編碼器、解碼器分別由多層Transformer的編碼器、解碼器堆疊而成。Transformer中使用的self-attention機(jī)制、multi-head attention機(jī)制、positional-encoding機(jī)制在幫助模型獲取輸入新聞的深層次語義特征的同時(shí),賦予模型強(qiáng)大的并行計(jì)算能力,大大提升模型的計(jì)算效率和生成摘要的準(zhǔn)確度。
由圖3可知,輸入Bart編碼器中的新聞,先被字詞級別的Tokenization切分成若干token,并在前面添加特殊起始標(biāo)記(lt;sgt;),進(jìn)而得到新聞對應(yīng)的token ID序列,再繼續(xù)送入編碼進(jìn)行編碼,具體編碼過程如下:
1)嵌入表示:使用Token Embedding、Position Embedding嵌入層將各個(gè)token ID轉(zhuǎn)換成固定維度的向量表示,兩個(gè)嵌入層的求和結(jié)果X送入下一步進(jìn)行特征提取。
2)上下文關(guān)系提取:通過多頭注意力機(jī)制捕捉輸入新聞中的全局信息,即計(jì)算每個(gè)token和其他位置token的注意力權(quán)重,然后使用注意力權(quán)重對輸入的嵌入表示進(jìn)行加權(quán)求和,得到每個(gè)token的上下文語義表示。
3)前饋網(wǎng)絡(luò):對上下文語義表示做非線性變換,得到每個(gè)token的隱藏表示,以增強(qiáng)模型的表示能力。
4)編碼器層疊:多次上述步驟的重復(fù)組成Bart編碼器的總體流程,在每個(gè)階段輸入的嵌入表示會(huì)依次經(jīng)過上下文關(guān)系提取和前饋網(wǎng)絡(luò),并經(jīng)由殘差連接和歸一化操作將結(jié)果輸出至下一個(gè)編碼階段。
Bart編碼器的最終輸出為其最后一層的所有token隱藏層表示,該輸出將送至解碼器進(jìn)行摘要生成。解碼器的初始輸入包括:特殊的開始符號(hào)lt;sgt;和編碼器輸出向量c0。解碼器的初始化具體過程為:
h0=ReLU(Linear(c0))(5)
其中Linear為神經(jīng)網(wǎng)絡(luò)中常用的全連接層,通過權(quán)重矩陣的線性變換來實(shí)現(xiàn)信息的傳遞,該過程可使網(wǎng)絡(luò)學(xué)習(xí)特征之間的復(fù)雜關(guān)系。ReLU為一個(gè)激活函數(shù),其作用是引入非線性特性,從而允許網(wǎng)絡(luò)學(xué)習(xí)更復(fù)雜的函數(shù)關(guān)系。
解碼器在每個(gè)時(shí)間步t,都會(huì)生成一個(gè)結(jié)果yt和隱藏層狀態(tài)ht,作為下一個(gè)時(shí)間步的輸入和隱藏層狀態(tài)的更新。為得到該結(jié)果,解碼器在每個(gè)時(shí)間步會(huì)依次進(jìn)行以下步驟:
1)將編碼器當(dāng)前隱藏狀態(tài)ht和編碼器最后一層輸出的所有隱藏狀態(tài)進(jìn)行注意力計(jì)算,得到注意力權(quán)重。再將注意力權(quán)重與編碼器隱藏狀態(tài)進(jìn)行加權(quán)求和得到上下文向量Ct。
2)將上下文向量Ct與當(dāng)前時(shí)間步的解碼器隱藏狀態(tài)ht進(jìn)行拼接,得到inputt:
inputt=concatenate(Ct,ht)(6)
其中concatenate屬于一種連接操作,將輸入的向量或矩陣根據(jù)指定維度連接在一起,以獲得更豐富的上下文信息。
3)使用線性變換和激活函數(shù)將inputt轉(zhuǎn)換成每個(gè)詞語的分?jǐn)?shù)向量st:
st=Linear(ReLU(Linear(inputt)))(7)
4)使用softmax函數(shù)將分?jǐn)?shù)向量st轉(zhuǎn)換成概率分布,得到每個(gè)時(shí)間步每個(gè)詞語的生成概率分布:
Pt=softmax(st)(8)
softmax(sti)=esti∑ni=1esti∈(0,1)(9)
其中softmax是一種常用的激活函數(shù),其作用是將輸入的實(shí)數(shù)向量轉(zhuǎn)換成一個(gè)概率分布向量,使得每個(gè)元素的取值在(0,1)之間,且所有元素之和為1。式(9)為softmax函數(shù)的具體計(jì)算細(xì)節(jié),其中n代表分?jǐn)?shù)向量st的長度。
5)根據(jù)概率分布Pt,選擇概率最高的詞語作為當(dāng)前時(shí)間步的輸出yt:
yt=argmax(Pt)(10)
其中argmax是一個(gè)數(shù)學(xué)函數(shù),常用于找到一個(gè)集合中使得目標(biāo)函數(shù)取得最大值的元素。在這里,目標(biāo)函數(shù)是概率分布Pt,argmax()返回概率最大的元素。
6)判斷當(dāng)前時(shí)間步輸出yt是否為結(jié)束標(biāo)志lt;/sgt;,或達(dá)到模型最大輸出長度,如果滿足上述條件之一,則停止解碼過程。否則,繼續(xù)迭代生成下一個(gè)時(shí)間步的輸出。
3 實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)集
本文在符合摘要生成任務(wù)規(guī)范的審計(jì)新聞數(shù)據(jù)集上進(jìn)行研究。該數(shù)據(jù)集來源于審計(jì)署官網(wǎng)發(fā)布的新聞動(dòng)態(tài),時(shí)間跨度為2004年4月至2022年8月,包含審計(jì)要聞、審計(jì)署動(dòng)態(tài)和審計(jì)署地方動(dòng)態(tài)。
審計(jì)要聞包括審計(jì)工作成果、業(yè)務(wù)動(dòng)態(tài)和重要決策等,旨在向公眾普及審計(jì)相關(guān)知識(shí)和業(yè)務(wù)動(dòng)態(tài)。審計(jì)署動(dòng)態(tài)主要涵蓋審計(jì)署內(nèi)部工作動(dòng)態(tài)、人事任免、組織變動(dòng)和制度改革等,具有官方性和權(quán)威性,是了解審計(jì)署工作動(dòng)態(tài)的重要途徑。審計(jì)署地方動(dòng)態(tài)關(guān)注地方審計(jì)工作的進(jìn)展和成果,包括監(jiān)督檢查、審計(jì)報(bào)告的公開和落實(shí)等,具有區(qū)域性、時(shí)效性和實(shí)用性。
這三個(gè)欄目針對不同受眾群體和內(nèi)容領(lǐng)域,滿足不同信息需求和傳播目的。綜合這三部分?jǐn)?shù)據(jù)可形成全面、深入的新聞報(bào)道和分析,提高信息的價(jià)值和可用性,使讀者更好地了解審計(jì)署的工作和相關(guān)動(dòng)態(tài)。
此審計(jì)數(shù)據(jù)集共有35808條新聞數(shù)據(jù),其中30000條劃分為訓(xùn)練集,4000條為驗(yàn)證集,1808條為測試集。該審計(jì)新聞數(shù)據(jù)集具體信息如表1所示。
其中長新聞指的是新聞字符長度超過512的新聞。長新聞比例則為長新聞數(shù)量在審計(jì)新聞數(shù)據(jù)集中所占的比例。
為驗(yàn)證TRB-KE模型在中文領(lǐng)域的普適性與優(yōu)越性,本文在中文領(lǐng)域廣泛使用的單文檔摘要評測數(shù)據(jù)集——NLPCC2018上進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集的數(shù)據(jù)均來自于今日頭條的新聞動(dòng)態(tài),具體信息如表2所示。
3.2 評估指標(biāo)
本文實(shí)驗(yàn)采用機(jī)器翻譯和摘要自動(dòng)生成任務(wù)常用的Rouge[30]作為評估標(biāo)準(zhǔn)。Rouge于2004年由Lin等提出,其算法思想是將人工生成的標(biāo)準(zhǔn)摘要與算法生成的候選摘要進(jìn)行比較,統(tǒng)計(jì)兩種摘要重疊的單元個(gè)數(shù)(n-gram、字詞序列、字詞對),進(jìn)而計(jì)算摘要之間的相似度,以評判生成的候選摘要質(zhì)量。Rouge是一組評估指標(biāo)的統(tǒng)稱,這些指標(biāo)包括Rouge-N,(N=1,2,3,…,n)、Rouge-L。其中Rouge-N中的N代表n-gram,也就是n元詞,Rouge-L中的L代表標(biāo)準(zhǔn)摘要和候選摘要的最長公共子序列。本文取Rouge-1、Rouge-2、Rouge-L作為本次實(shí)驗(yàn)的評價(jià)指標(biāo)。Rouge-N的計(jì)算公式如下所示:
Rouge-N=∑S∈{Ref Summaries}∑gramn∈SCountmatch(gramn)∑S∈{Ref Summaries}∑gramn∈SCount(gramn)(11)
其中:RefSummaries為模型生成的候選摘要;gramn是一句話中連續(xù)出現(xiàn)的n個(gè)字詞,n為n-gram的長度;Countmatch(gramn)代表標(biāo)準(zhǔn)摘要和候選摘要中同時(shí)出現(xiàn)的n-gram個(gè)數(shù);Count(gramn)是出現(xiàn)在候選摘要中的n-gram個(gè)數(shù)。
公式的分母是人工生成的標(biāo)準(zhǔn)摘要中n-gram的數(shù)量,分子是在標(biāo)準(zhǔn)摘要與候選摘要中共同出現(xiàn)的n-gram的數(shù)量。Rouge-L的計(jì)算公式如下:
Rlcs=LCS(X,Y)m(12)
Plcs=LCS(X,Y)n(13)
Rouge-L=Flcs=(1+β2)RlcsPlcsRlcs+β2Plcs(14)
其中:X、Y分別代表標(biāo)準(zhǔn)摘要、候選摘要;LCS(X,Y)為X和Y最長公共子序列的長度;m、n分別表示標(biāo)準(zhǔn)摘要、候選摘要的長度;Rlcs和Plcs分別代表召回率、準(zhǔn)確率;β通常為一個(gè)很大的數(shù)值;Flcs為最終計(jì)算所得的Rouge-L。
3.3 實(shí)驗(yàn)環(huán)境及參數(shù)配置
本文實(shí)驗(yàn)均在Ubuntu 16.04.7 LTS系統(tǒng)平臺(tái)上部署,所使用的深度學(xué)習(xí)框架為Pytorch 1.10.0,并采用單個(gè)NVIDIA TITAN RTX(GPU)進(jìn)行訓(xùn)練。生成式模型Bart-large的編碼器層數(shù)和解碼器層數(shù)均為12,注意力頭數(shù)為16。具體實(shí)驗(yàn)超參數(shù)配置如表3所示。
本文選擇使用Adam優(yōu)化器旨在提升審計(jì)新聞?wù)扇蝿?wù)的訓(xùn)練效率和模型性能。相對于傳統(tǒng)的優(yōu)化器如SGD,Adam具有自適應(yīng)學(xué)習(xí)率的特性,能夠迅速地調(diào)整學(xué)習(xí)率以更有效地收斂到最佳模型參數(shù)。此外,Adam也能有效地處理稀疏梯度問題,使得模型訓(xùn)練更為穩(wěn)定和高效。
3.4 對比實(shí)驗(yàn)
為驗(yàn)證TRB-KE模型在摘要生成任務(wù)上具有優(yōu)越性,本文實(shí)驗(yàn)采取5種生成式模型與其進(jìn)行摘要生成指標(biāo)對比。所選模型介紹如下:
Seq2Seq+Attention[9]:該模型是一個(gè)經(jīng)典的序列到序列模型。通常,其編碼器部分采用雙向LSTM,而解碼器部分則采用單向LSTM。該模型最初用于機(jī)器翻譯任務(wù),隨后也逐漸在摘要生成任務(wù)中得到應(yīng)用。
PGN[10]:此網(wǎng)絡(luò)可以將新聞?wù)闹械皖l出現(xiàn)但重要的詞復(fù)制到生成的摘要中,緩解摘要存在未登錄詞的問題。
PGN(Coverage)[10]:該模型在原始PGN網(wǎng)絡(luò)的基礎(chǔ)之上加入Coverage機(jī)制,降低重復(fù)詞匯對摘要質(zhì)量的影響。
CPT[19]:該模型采用了序列到序列的預(yù)訓(xùn)練結(jié)構(gòu),包括深層共享編碼器、淺層理解解碼器和淺層生成解碼器。這種特殊的網(wǎng)絡(luò)設(shè)計(jì)降低了計(jì)算和存儲(chǔ)成本,同時(shí)具備較快的解碼速度。
Bart[12]:該模型是一個(gè)序列到序列的去噪預(yù)訓(xùn)練模型,可看作BERT與GPT的泛化,適合完成自然語言生成任務(wù)。
3.5 實(shí)驗(yàn)結(jié)果對比與分析
3.5.1 審計(jì)新聞數(shù)據(jù)集對比實(shí)驗(yàn)
不同模型在審計(jì)新聞數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表4所示。其中TRB為本文提出的基準(zhǔn)模型,TRB-KE為融入知識(shí)增強(qiáng)模塊的摘要模型。
從表4中可以得出:①加入預(yù)訓(xùn)練的模型在該數(shù)據(jù)集上的評估得分整體優(yōu)于未加入預(yù)訓(xùn)練的模型,證明先驗(yàn)知識(shí)的加入和網(wǎng)絡(luò)架構(gòu)的優(yōu)化可以使得模型在處理長文本時(shí)更具優(yōu)勢。②與Seq2Seq+Attention相比,PGN在審計(jì)新聞數(shù)據(jù)集上的3個(gè)Rouge指標(biāo)均高于前者,證明指針生成網(wǎng)絡(luò)可以緩解未登錄詞對生成摘要的影響,對摘要質(zhì)量的提升有較大幫助。③PGN(Coverage)在PGN的基礎(chǔ)之上加入Coverage機(jī)制之后,在一定程度上減緩生成摘要中的重復(fù)詞匯對摘要質(zhì)量的影響。④與CPT和Bart相比,本文提出的TRB在審計(jì)新聞數(shù)據(jù)集測得的3個(gè)Rouge值都取得更優(yōu)成績,證明本文所提模型在面對普遍篇幅較長的審計(jì)新聞時(shí)可以關(guān)注到更多關(guān)鍵信息。⑤本文提出的融入知識(shí)增強(qiáng)的TRB-KE模型相對未融入知識(shí)增強(qiáng)的TRB模型具有更佳性能,證明審計(jì)知識(shí)背景的引入可以加深模型對審計(jì)新聞的理解,生成更高質(zhì)量的摘要。
3.5.2 NLPCC2018數(shù)據(jù)集對比實(shí)驗(yàn)
不同模型在NLPCC2018數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表5所示。
從表5可得:①與其他5個(gè)模型相比,本文提出的TRB-KE在NLPCC2018數(shù)據(jù)集測得的3個(gè)Rouge值都取得最佳成績,證明本文提出的模型在中文摘要生成領(lǐng)域具有較好的普適性與競爭力。②在審計(jì)新聞數(shù)據(jù)集上,本文實(shí)驗(yàn)所涉及的模型表現(xiàn)均優(yōu)于其在NLPCC2018數(shù)據(jù)集上的表現(xiàn)。這一差異可以歸因于審計(jì)新聞的特性:其更傾向于采用正式、技術(shù)性的表達(dá)方式,這使得模型更容易捕捉和理解其中的關(guān)鍵信息。此外,審計(jì)新聞通常注重傳達(dá)特定的審計(jì)信息,相對于其他類型的新聞,其中包含的關(guān)鍵信息更為明確和集中。這種特性使得模型在審計(jì)新聞數(shù)據(jù)集上的性能相對更為突出。綜上所述,審計(jì)新聞數(shù)據(jù)集相對于NLPCC2018數(shù)據(jù)集在語言風(fēng)格和特點(diǎn)、關(guān)鍵信息集中性等方面具有較大的優(yōu)勢,從而共同促使模型在該數(shù)據(jù)集上取得了更為優(yōu)異的表現(xiàn)。
3.5.3 新聞段首K句對比實(shí)驗(yàn)
為探討本文所提出的關(guān)鍵句抽取模塊保留新聞段首句子數(shù)量(K)對實(shí)驗(yàn)結(jié)果的影響,本文對此開展了7組對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖4所示。關(guān)鍵句抽取模塊保留新聞段首5個(gè)句子時(shí),模型在審計(jì)新聞數(shù)據(jù)集上所取得的實(shí)驗(yàn)效果最佳。關(guān)鍵句抽取模塊保留新聞段首5~6個(gè)句子時(shí),模型在NLPCC2018數(shù)據(jù)集上所取得的實(shí)驗(yàn)效果最佳。
3.5.4 術(shù)語數(shù)量S對比實(shí)驗(yàn)
為探討知識(shí)增強(qiáng)模塊引入的知識(shí)數(shù)量對摘要生成質(zhì)量的影響,本文通過融入不同數(shù)量(S)的術(shù)語知識(shí)到模型中,并進(jìn)行了10組對比試驗(yàn),實(shí)驗(yàn)結(jié)果如圖5所示。知識(shí)增強(qiáng)模塊在融合4個(gè)審計(jì)知識(shí)時(shí),在審計(jì)新聞數(shù)據(jù)集表現(xiàn)最佳。
3.5.5 實(shí)驗(yàn)參數(shù)對比試驗(yàn)
為探究不同實(shí)驗(yàn)超參數(shù)設(shè)置對于實(shí)驗(yàn)結(jié)果的影響,本文針對“最大摘要長度”這一參數(shù)進(jìn)行兩組對比試驗(yàn)。首先,通過對審計(jì)新聞?dòng)?xùn)練集和NLPCC2018的訓(xùn)練集進(jìn)行數(shù)據(jù)統(tǒng)計(jì),得到平均摘要長度、90%訓(xùn)練集所達(dá)長度和最大摘要長度的數(shù)值。隨后,使用驗(yàn)證集進(jìn)行實(shí)驗(yàn)驗(yàn)證,最后利用測試集進(jìn)行測試。實(shí)驗(yàn)結(jié)果表明,選取90%訓(xùn)練集所達(dá)長度作為最大長度時(shí),模型性能最佳。具體實(shí)驗(yàn)結(jié)果如表6和表7所示。
從表6實(shí)驗(yàn)結(jié)果可得,較短的最大摘要長度(23)和較長的最大摘要長度(87)在Rouge指標(biāo)上表現(xiàn)相對較差。
綜合實(shí)驗(yàn)結(jié)果和審計(jì)新聞的特點(diǎn)來分析,較短的摘要長度更適合捕捉關(guān)鍵信息和主題,但在捕捉雙詞組合方面略有不足。適度增加摘要長度可以提高Rouge得分,但過長的摘要長度可能導(dǎo)致摘要冗長和重復(fù),從而影響評估指標(biāo)的表現(xiàn)。故本文實(shí)驗(yàn)在審計(jì)新聞數(shù)據(jù)集所設(shè)置的最大摘要長度為40(訓(xùn)練集90%摘要達(dá)到長度),為后續(xù)實(shí)驗(yàn)開展奠定基礎(chǔ)。
從表7實(shí)驗(yàn)結(jié)果可得,平均摘要長度實(shí)驗(yàn)組中Rouge得分相對較低,這意味著較短的摘要長度無法完全捕捉NLPCC2018數(shù)據(jù)集中的關(guān)鍵信息和語義關(guān)聯(lián)。在訓(xùn)練集摘要長度90%實(shí)驗(yàn)組中,Rouge得分有所提高,這顯示出稍微更長的摘要長度有助于更好地捕捉數(shù)據(jù)集中的信息。在最大摘要長度實(shí)驗(yàn)組中,Rouge得分再次下降,這表明過長的摘要長度會(huì)導(dǎo)致信息冗余和語言表達(dá)的模糊性,從而影響評估指標(biāo)的表現(xiàn)。故本文實(shí)驗(yàn)在NLPCC2018數(shù)據(jù)集所設(shè)置的最大摘要長度為64(訓(xùn)練集90%摘要達(dá)到長度),為后續(xù)實(shí)驗(yàn)開展奠定基礎(chǔ)。
3.5.6 消融實(shí)驗(yàn)
為進(jìn)一步探討所提TRB-KE模型中各個(gè)模塊的有效性,本文在審計(jì)新聞數(shù)據(jù)集上展開了如表8所示的消融實(shí)驗(yàn)。其中TRB-KE為本文提出的知識(shí)增強(qiáng)的新聞?wù)赡P停琄E為知識(shí)增強(qiáng)模塊。
通過表8的結(jié)果可見,去除關(guān)鍵信息抽取模塊后,模型的Rouge值普遍下降,表明關(guān)鍵信息抽取模塊可以為模型提供更多關(guān)鍵信息,從而減少噪聲對摘要質(zhì)量的影響。而去除知識(shí)增強(qiáng)模塊(KE)后,模型的Rouge值明顯下降,且下降的Rouge均值為0.8,高于去除關(guān)鍵信息抽取模塊的Rouge下降均值0.42。這充分證明了本文所提出的知識(shí)增強(qiáng)模塊對于模型理解新聞的重要性。
3.6 摘要結(jié)果示例
為直觀比較不同模型生成摘要的效果,本文選取PGN(coverage)、CPT、TRB-KE對同一篇審計(jì)新聞進(jìn)行摘要生成,不同模型生成摘要所圖6所示。
從圖6可知PGN模型生成摘要丟失新聞的關(guān)鍵信息,且生成摘要較為生硬,缺乏邏輯性。CPT模型生成摘要相較于PGN(coverage)更具可讀性且包含更多關(guān)鍵信息,但仍然存在對專業(yè)術(shù)語理解不充分的缺陷。而本文提出的TRB-KE模型生成的摘要更具邏輯性,且包含更多關(guān)鍵信息,對新聞理解更加透徹。
新聞原文:
經(jīng)過多個(gè)月的審計(jì)工作,某知名互聯(lián)網(wǎng)公司獲得了其年度審計(jì)報(bào)告。審計(jì)報(bào)告確認(rèn)了該公司的財(cái)務(wù)報(bào)表的準(zhǔn)確性和可靠性,并對其內(nèi)部審計(jì)體系進(jìn)行了全面評估。
審計(jì)人員強(qiáng)調(diào)了該公司內(nèi)部控制的有效性和完整性,認(rèn)為公司建立了合理的內(nèi)部控制,并加強(qiáng)了內(nèi)部控制體系的監(jiān)督和改進(jìn)。此外,審計(jì)人員還識(shí)別了一些異常情況,并對這些情況進(jìn)行了詳細(xì)的調(diào)查和分析,最終確定了這些異常情況對公司財(cái)務(wù)報(bào)表的影響。其中,審計(jì)人員發(fā)現(xiàn)公司在-一些資產(chǎn)減值方面存在問題,需要在未來加強(qiáng)資產(chǎn)減值的管理和監(jiān)督,以避免對公司財(cái)務(wù)報(bào)表的影響。
在審計(jì)過程中,審計(jì)人員還進(jìn)行了風(fēng)險(xiǎn)評估,以確定公司面臨的潛在風(fēng)險(xiǎn),并提出相應(yīng)的建議。審計(jì)報(bào)告中指出,盡管公司面臨-一些潛在的風(fēng)險(xiǎn),但公司已經(jīng)采取了相應(yīng)的風(fēng)險(xiǎn)管理措施,并且這些措施足以減輕風(fēng)險(xiǎn)的影響。其中,審計(jì)人員特別提到了“內(nèi)控風(fēng)險(xiǎn)”和“舞整風(fēng)險(xiǎn)”,并建議公司應(yīng)當(dāng)加強(qiáng)內(nèi)部控制,防范內(nèi)部舞整風(fēng)險(xiǎn),提高內(nèi)部控制的完整性和有效性。該公司管理層對審計(jì)報(bào)告表示滿意,并表示將繼續(xù)加強(qiáng)內(nèi)部控制,提高財(cái)務(wù)報(bào)告的透明度和可靠性。此外,公司還將繼續(xù)關(guān)注和管理風(fēng)險(xiǎn),并采取適當(dāng)?shù)拇胧﹣斫档惋L(fēng)險(xiǎn)對公司經(jīng)營的影響。通過本次審計(jì),該公司可以更加全面地了解其內(nèi)部控制和財(cái)務(wù)狀況,為未來的經(jīng)營和管理提供更加準(zhǔn)確的參考和指導(dǎo)。
標(biāo)準(zhǔn)摘要:
某知名互聯(lián)網(wǎng)公司獲得年度審計(jì)報(bào)告,經(jīng)多月審計(jì),財(cái)務(wù)報(bào)表準(zhǔn)確可靠。審計(jì)人員稱內(nèi)部控制有效完整,但存在資產(chǎn)減值問題。風(fēng)險(xiǎn)評估顯示潛在風(fēng)險(xiǎn),公司已采取風(fēng)險(xiǎn)管理措施。公司表示滿意,并將加強(qiáng)內(nèi)部控制和管理風(fēng)險(xiǎn)。審計(jì)讓公司更全面了解內(nèi)部控制和財(cái)務(wù)狀況,提供參考和指導(dǎo)。
PGN(Coverage)摘要結(jié)果:
審計(jì)公司發(fā)布報(bào)告,某知名互聯(lián)網(wǎng)公司財(cái)務(wù)報(bào)表準(zhǔn)確。公司體系建立合理,存在資產(chǎn)減值問題。公司采取風(fēng)險(xiǎn)管理措施。
CPT摘要結(jié)果:
審計(jì)報(bào)告指互聯(lián)網(wǎng)公司財(cái)務(wù)報(bào)表準(zhǔn)確可靠,內(nèi)部完整有效。存在資產(chǎn)減值問題,建議加強(qiáng)內(nèi)部控制,防范內(nèi)部舞整風(fēng)險(xiǎn)。
TRB-KE摘要結(jié)果:
某知名互聯(lián)網(wǎng)公司年度審計(jì)報(bào)告公布,財(cái)務(wù)報(bào)表準(zhǔn)確可靠,內(nèi)部控制完整有效。審計(jì)人員建議加強(qiáng)資產(chǎn)減值管理和內(nèi)部控制風(fēng)險(xiǎn)防范,公司將繼續(xù)提高財(cái)務(wù)透明度和管理風(fēng)險(xiǎn)。
4 結(jié) 論
本文針對審計(jì)新聞的摘要生成,提出了一種審計(jì)領(lǐng)域知識(shí)增強(qiáng)的審計(jì)新聞?wù)煞椒?。?shí)驗(yàn)結(jié)果表明,相較于原Bart模型,本文提出的TRB-KE模型在可以更好地關(guān)注到關(guān)鍵信息,減少噪聲對摘要質(zhì)量的影響,引入知識(shí)增強(qiáng)策略可使模型進(jìn)一步理解新聞內(nèi)容,提升模型生成摘要質(zhì)量。
與此同時(shí),值得注意的是,因模型體積龐大,模型解碼速度相對緩慢。知識(shí)庫的知識(shí)量的質(zhì)量也對摘要質(zhì)量產(chǎn)生一定影響。這是需要改進(jìn)的不足之處。
因此,為提高審計(jì)新聞?wù)馁|(zhì)量和效率,未來計(jì)劃在以下兩個(gè)方面努力:一是利用知識(shí)蒸餾技術(shù)壓縮模型參數(shù),加快模型推理速度;二是不斷完善審計(jì)知識(shí)庫,并探究不同的知識(shí)增強(qiáng)方式對摘要質(zhì)量的影響。這些努力都將為提高生成審計(jì)新聞?wù)|(zhì)量做出重要貢獻(xiàn)。
參 考 文 獻(xiàn):
[1] 喬佩利,李明明.一種改進(jìn)的內(nèi)網(wǎng)用戶行為審計(jì)模型研究[J].哈爾濱理工大學(xué)學(xué)報(bào),2011,16(5):57.
QIAO Peili, LI Mingming. A Research on an Improved Intranet Users’Behavior Audit Model[J]. Journal of Harbin University of Science and Technology, 2011,16(5):57.
[2] 鄭小榮, 陳方靈, 何瑞鏵. 審計(jì)署新聞發(fā)布效果及其影響因素研究——基于2003—2018年65場新聞發(fā)布會(huì)的數(shù)據(jù)分析[J]. 財(cái)會(huì)通訊, 2020(5): 108.
[3] 鄭小榮, 王圓圓, 俞馨雅, 等. 中國地方政府審計(jì)新聞發(fā)布會(huì)調(diào)查研究[J]. 會(huì)計(jì)之友, 2017(9): 113.
[4] 連曉瑞. 中文文本摘要自動(dòng)生成方法研究[D]. 太原:山西大學(xué),2020.
[5] GAMBHIR M, GUPTA V. Recent Automatic Text Summarization Techniques: A Survey[J]. Artificial Intelligence Review, 2017, 47(1): 1.
[6] CARBONELL J, GOLDSTEIN J. The Use of MMR, Diversity-based Reranking for Reordering Documents and Producing Summaries[C]//Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 1998: 335.
[7] MIHALCEA R, TARAU P. Textrank: Bringing Order Into Text[C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, 2004: 404.
[8] ZHENG C T, LIU C, SAN Wong H. Corpus-based Topic Diffusion for Short Text Clustering[J]. Neurocomputing, 2018, 275: 2444.
[9] NALLAPATI R, ZHAI F, ZHOU B. Summarunner: A Recurrent Neural Network Based Sequence Model for Extractive Summarization of Documents[C]//Thirty-first AAAI Conference on Artificial Intelligence, 2017: 3075.
[10]SEE A, LIU P J, MANNING C D. Get to the Point: Summarization with Pointer-generator Networks[J]. ACL, 2017, 1:1073.
[11]譚金源, 刁宇峰, 祁瑞華, 等.基于BERT-PGN模型的中文新聞文本自動(dòng)摘要生成 [J]. 計(jì)算機(jī)應(yīng)用, 2021, 41(1): 127.
TAN Jinyuan, DIAO Yufeng, QI Ruihua, et al. Automatic Summary Generation of Chinese News Text Based on BERT-PGN Model[J], Journal of Computer Applications, 2021, 41(1): 127.
[12]LEWIS M, LIU Y, GOYAL N, et al. Bart: Denoising Sequence-to-sequence Pre-training for Natural Language Generation, Translation, and Comprehension[J].ACL,2020, 7871.
[13]鄭小榮, 周琦. 中國政府審計(jì)網(wǎng)絡(luò)媒體報(bào)道實(shí)證研究——基于國內(nèi)主流新聞網(wǎng)站的數(shù)據(jù) [J].會(huì)計(jì)之友, 2018 (15): 146.
[14]段堯清, 何思奇, 林平. 基于新聞文本挖掘的政府態(tài)度識(shí)別實(shí)證研究 [J].情報(bào)理論與實(shí)踐, 2019, 42(9): 86.
DUAN Y Q, HE S Q, LIN P. An Empirical Study on Government Attitude Recognition Based on News Text Mining[J]. Information Theory and Practice, 2019, 42(9): 86.
[15]黃佳佳, 呂捷, 李鵬偉.政府審計(jì)工作動(dòng)態(tài)及趨勢研究——基于審計(jì)署官網(wǎng)新聞數(shù)據(jù)的計(jì)量分析 [J]. 會(huì)計(jì)之友, 2021(13): 119.
[16]RUSH A M, CHOPRA S, WESTON J. A Neural Attention Model for Abstractive Sentence Summarization[J]. EMNLP, 2015: 379.
[17]NALLAPATI R, ZHOU B, GULCEHRE C, et al. Abstractive Text Summarization Using Sequence-to-sequence Rnns and Beyond[J].CoNLL,2016: 280.
[18]DEVLIN J, CHANG M W, LEE K, et al. Bert: Pre-training of Deep Bidirectional Transformers for Language Understanding[J].NAACL-HLT, 2019, (1):4171.
[19]SHAO Y, GENG Z, LIU Y, et al. Cpt: A Pre-trained Unbalanced Transformer for Both Chinese Language Understanding and Generation[J]. 2021.
[20]葛斌, 何春輝, 黃宏斌. 融合關(guān)鍵信息的PGN文本主題句生成方法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2022, 43(6): 1601.
GE B, HE C H, HUANG H B. PGN Text Topic Sentence Generation Method Based on Key Information[J]. Computer Engineering and Design. 2022,43(6):1601.
[21]HSU W T, LIN C K, LEE M Y, et al.A Unified Model for Extractive and Abstractive Summarization Using Inconsistency Loss[J]. ACL, 2018, (1): 132.
[22]譚金源, 刁宇峰, 楊亮, 等. 基于BERT-SUMOPN模型的抽取-生成式文本自動(dòng)摘要[J].山東大學(xué)學(xué)報(bào)(理學(xué)版), 2021, 56(7): 82.
TAN Jinyuan, Diao Yufeng, YANG Liang, et al. Extractive-abstractive Text Automatic Summary Based on BERT-SUMOPN Model[J]. Journal of Shandong University (Natural Science), 2021, 56(7): 82.
[23]黃于欣. 領(lǐng)域知識(shí)增強(qiáng)的司法輿情摘要方法研究[D]. 昆明:昆明理工大學(xué), 2021.
[24]趙夢夢, 白如江, 張玉潔, 等. 基于知識(shí)基因增強(qiáng)的BERT科技文獻(xiàn)自動(dòng)綜述研究[J]. 圖書情報(bào)工作, 2022, 66(23): 125.
ZHAO Mengmeng, BAI Rujiang, ZHANG Yujie, et al. Research on Automatic Summary of BERT Scientific and Technological Literature Based on Knowledge Gene Enhancement[J]. Library and Information Service, 2022,66(23):125.
[25]張祥祥. 面向科技政策的知識(shí)增強(qiáng)文本摘要方法的研究與應(yīng)用[D]. 沈陽:中國科學(xué)院大學(xué)(中國科學(xué)院沈陽計(jì)算技術(shù)研究所), 2022.
[26]BAXENDALE P B. Machine-made Index for Technical Literature-an Experiment[J]. IBM Journal of Research and Development, 1958, 2(4): 354.
[27]SALTON G, WONG A, YANG C S. A Vector Space Model for Automatic Indexing[J]. Communications of the ACM, 1975, 18(11): 613.
[28]VASWANI A, SHAZEER N, PARMAR N, et al. Attention is All You Need[J]. Advances in Neural Information Processing Systems, 2017, 30.
[29]RADFORD A, WU J, CHILD R, et al. Language Models are Unsupervised Multitask Learners[J]. OpenAI Blog, 2019, 1(8): 9.
[30]LIN C Y. Rouge: A Package for Automatic Evaluation of Summaries[C]//Text Summarization Branches Out, 2004: 74.
(編輯:溫澤宇)