習(xí)海旭,何 勝,黃純國(guó)
(1. 江蘇理工學(xué)院計(jì)算機(jī)工程學(xué)院,常州 213001;2. 南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院信息管理系,南京 210094)
隨著以科技論文為代表的科研成果呈現(xiàn)爆炸式增長(zhǎng)[1],科研工作者在文獻(xiàn)調(diào)研和閱讀上需要投入大量時(shí)間,科研工作負(fù)擔(dān)較重,效率不高。信息檢索和推薦技術(shù)能夠快速定位重要論文,提高文獻(xiàn)調(diào)研效率;借助移動(dòng)智能終端能夠?qū)崿F(xiàn)隨時(shí)隨地移動(dòng)閱讀,拓展相關(guān)閱讀并方便同行交流,一定程度上提高了文獻(xiàn)閱讀效率。然而,一方面,檢索或推薦系統(tǒng)僅返回匹配論文列表,缺乏對(duì)論文內(nèi)容的概要總結(jié),科研工作者仍需要花費(fèi)大量時(shí)間通讀論文,并提煉論文的核心內(nèi)容;另一方面,受限于閱讀設(shè)備屏幕和操作限制,用戶專注閱讀文獻(xiàn)的質(zhì)量不高[2]。因此,在海量文獻(xiàn)中抽取關(guān)鍵內(nèi)容并形成摘要,不僅可以適應(yīng)移動(dòng)閱讀的速讀化特點(diǎn)[3],還能夠大幅提高知識(shí)獲取效率,成為提高科研工作者科研效率的重要途徑[4]。
論文的摘要部分是作者對(duì)全文的主觀概括,內(nèi)容簡(jiǎn)潔但不完整[5],而自動(dòng)摘要技術(shù)能夠形成全面、準(zhǔn)確表達(dá)原文中心內(nèi)容的有效簡(jiǎn)短信息[6],提高科研工作者的文獻(xiàn)閱讀效率。目前,生成式摘要方法的最佳模型常生成大量和原文不一致的內(nèi)容,缺乏實(shí)用性[7],因此抽取式摘要得到研究者們的廣泛關(guān)注,尤其是在需確保嚴(yán)格符合原文事實(shí)的法律、醫(yī)學(xué)和科學(xué)文本的摘要研究中[8]。抽取式摘要方法對(duì)單篇文獻(xiàn)或主題相近的文獻(xiàn)集合進(jìn)行概括[9],從文獻(xiàn)的句子分類或引文上下文聚類等角度[10],基于規(guī)則、統(tǒng)計(jì)學(xué)習(xí)或深度學(xué)習(xí)等方法,抽取摘要句形成文獻(xiàn)摘要或文獻(xiàn)綜述[11]。其中,無監(jiān)督的抽取式摘要方法因其易用性成為實(shí)用選擇。在已有研究中,一方面,該方法沒有對(duì)已有文本特征信息進(jìn)行較好的整合,摘要文本的相關(guān)性、多樣性較低且兩者之間平衡性有待提升,連貫性和可讀性不強(qiáng);另一方面,該方法較少關(guān)注科技論文實(shí)現(xiàn)學(xué)術(shù)交流意圖時(shí)采用的不同語(yǔ)步元素(如研究目的、方法、結(jié)果等),使得所形成的摘要文本難以概括和反映論文研究過程的全文細(xì)粒度內(nèi)容,影響用戶對(duì)論文的全面理解。
語(yǔ)步,又稱為修飾功能,是實(shí)現(xiàn)交流功能的修飾單位[12]。與篇章結(jié)構(gòu)不同,語(yǔ)步結(jié)構(gòu)主要是從交際意圖的角度對(duì)科技文本進(jìn)行更細(xì)粒度的結(jié)構(gòu)劃分[13]。例如,可以把論文全文劃分為研究目的、方法、結(jié)果與結(jié)論等語(yǔ)步結(jié)構(gòu)。本文基于科技論文全文的語(yǔ)步結(jié)構(gòu),考慮論文文本的多特征權(quán)重融合和摘要文本的可讀性特征,提出一種面向科技論文移動(dòng)閱讀的結(jié)構(gòu)化摘要改進(jìn)方法。一方面,該方法利用論文的語(yǔ)步文本分別生成摘要,能夠全方位概括論文的細(xì)粒度研究?jī)?nèi)容;另一方面,不同語(yǔ)步文本中句法結(jié)構(gòu)和句子成分信息的多個(gè)特征權(quán)重的累加迭代以及文本的冗余和簡(jiǎn)化處理,提升了摘要文本的相關(guān)性、多樣性和可讀性。
本文旨在研究基于語(yǔ)步的科技結(jié)構(gòu)化摘要生成方法,提高科技論文移動(dòng)閱讀的效率,涉及領(lǐng)域包括科技論文抽取式摘要和科技論文語(yǔ)步識(shí)別。下文對(duì)這兩個(gè)方面的研究現(xiàn)狀進(jìn)行綜述。
科技論文抽取式摘要直接從論文原文、施引文獻(xiàn)的引文上下文中抽取句子、關(guān)鍵詞、主題詞等信息作為摘要文本,或進(jìn)一步按照指定模板形成結(jié)構(gòu)化摘要[14],為科研工作者提供信息服務(wù)。其主要包括基于規(guī)則、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的方法。其中,基于規(guī)則的自動(dòng)摘要方法在研究初期被廣泛使用,該方法根據(jù)文本中的各種統(tǒng)計(jì)特征,按照預(yù)定規(guī)則確定文檔各句子作為摘要句的可能性[15-17]。隨后,基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的自動(dòng)摘要方法通過從文本中學(xué)習(xí)特定的模式來對(duì)句子進(jìn)行分類或排序,選擇成為摘要句概率高的句子形成自動(dòng)摘要,如TextRank 等無監(jiān)督機(jī)器學(xué)習(xí)模型[18]和支持向量機(jī)等有監(jiān)督機(jī)器學(xué)習(xí)模型[19];或者進(jìn)行文本主題建模和關(guān)鍵詞抽取,分別把主題詞或關(guān)鍵詞列表作為自動(dòng)摘要。隨著論文-摘要大規(guī)模數(shù)據(jù)集的增加和現(xiàn)代神經(jīng)網(wǎng)絡(luò)模型的發(fā)展,基于深度學(xué)習(xí)的方法得到了廣泛應(yīng)用,該方法利用多層非線性處理單元的級(jí)聯(lián)從數(shù)據(jù)中學(xué)習(xí)文本特征的高級(jí)別抽象表示,再基于文本的層次化語(yǔ)義特征表示,通過序列到序列和融入注意力機(jī)制等學(xué)習(xí)方式建立模型,抽取摘要句。
在有監(jiān)督的機(jī)器學(xué)習(xí)方法中,摘要模型的訓(xùn)練依賴于不同領(lǐng)域、語(yǔ)言和摘要風(fēng)格下的大規(guī)模高質(zhì)量標(biāo)注數(shù)據(jù),這使得該類方法難以被廣泛應(yīng)用。因此,基于無監(jiān)督的抽取式摘要方法的研究成為更現(xiàn)實(shí)的選擇。提升摘要句的相關(guān)性、多樣性和可讀性是無監(jiān)督抽取式摘要研究關(guān)注的主要問題。其中,相關(guān)性是指摘要所選用的句子最能夠表達(dá)文本的中心思想;多樣性是指生成的摘要包含的冗余信息盡可能地少,每句話盡可能地單獨(dú)表達(dá)文本的一層意思且所有摘要句盡可能包含文本表達(dá)的所有意思;可讀性是指摘要文本敘述的流暢度、簡(jiǎn)潔性和被理解的難易程度。
研究人員利用能夠體現(xiàn)句子重要性的不同特征來提升摘要的相關(guān)性。例如,Zheng 等[20]使用BERT(bidirectional encoder representations from transformers)模型編碼句子語(yǔ)義,將句子位置信息引入TextRank 模型的節(jié)點(diǎn)中心性計(jì)算中,抽取關(guān)鍵句以形成摘要;Dong 等[21]針對(duì)科學(xué)長(zhǎng)文本,使用方向性和層次結(jié)構(gòu)擴(kuò)展了文檔的圖表示,并使用不對(duì)稱的邊緣加權(quán)函數(shù)確定句子重要性;Ju 等[22]提出了一個(gè)多視圖信息壓縮框架,使用多個(gè)引導(dǎo)信號(hào)指導(dǎo)文檔摘要,先通過多信號(hào)檢索文檔的關(guān)鍵內(nèi)容,再使用預(yù)訓(xùn)練模型進(jìn)一步檢索和修改句子以形成摘要。
研究人員加入額外權(quán)重信息或采用結(jié)構(gòu)化自動(dòng)摘要方法提升摘要的覆蓋范圍和多樣性。例如,Liang 等[23]為了避免科學(xué)長(zhǎng)文檔和多文檔中圖節(jié)點(diǎn)中心性計(jì)算方面偏差問題,在句子中心性得分中加入句子-文檔權(quán)重,實(shí)現(xiàn)多面性摘要句的抽??;Gidiotis等[24]分別對(duì)科技論文的IMRD(introduction-methodresults-discussion,引言-方法-結(jié)果-討論)篇章結(jié)構(gòu)文本訓(xùn)練摘要模型,綜合不同部分的摘要內(nèi)容形成結(jié)構(gòu)化摘要;李鯤[25]對(duì)科技文本中的每個(gè)句子進(jìn)行事件要素類別識(shí)別,并計(jì)算其重要程度,選擇各個(gè)事件要素類別下重要程度最高的句子以組成結(jié)構(gòu)化摘要;Xu 等[26]從對(duì)話中抽取所有字段及其內(nèi)在關(guān)系,并按照模板組織生成結(jié)構(gòu)化摘要。其中,文本的結(jié)構(gòu)分類和信息抽取方法直接影響結(jié)構(gòu)化自動(dòng)摘要的質(zhì)量。
研究人員一般使用混合式摘要方法來提升摘要的流暢性、簡(jiǎn)潔性和可讀性,即在精心選擇原文檔的子集上應(yīng)用生成式摘要方法生成摘要文本[27]。例如,Manakul 等[28]使用局部自注意力和內(nèi)容選擇方法,解決了長(zhǎng)文檔摘要生成中的大型模型訓(xùn)練微調(diào)難和長(zhǎng)跨度依賴的問題;Pilault 等[29]在使用Transform 模型生成摘要之前執(zhí)行了一個(gè)簡(jiǎn)單的提取步驟;譚金源等[4]提出了一種基于BERT-SUMOPN 的抽取-生成式摘要方法,對(duì)抽取得到的關(guān)鍵句進(jìn)行端到端訓(xùn)練以生成摘要結(jié)果。
上述研究中,結(jié)構(gòu)化自動(dòng)摘要研究較少關(guān)注科技論文實(shí)現(xiàn)學(xué)術(shù)交流功能時(shí)采用的語(yǔ)步結(jié)構(gòu),而全文的語(yǔ)步文本是實(shí)現(xiàn)知識(shí)交流功能的主要單位,影響用戶對(duì)論文研究過程的全面理解;混合式摘要方法還依賴于有監(jiān)督機(jī)器學(xué)習(xí)模型。已有研究單方面提升了自動(dòng)摘要方法的性能,但在整合已有句子特征、從相關(guān)性和多樣性之間找出最佳平衡并提升可讀性方面仍值得進(jìn)一步研究。
科技論文的語(yǔ)步識(shí)別是指把科技論文中的句子依次分類到不同的語(yǔ)步結(jié)構(gòu)中,形成相比于篇章結(jié)構(gòu)文本更細(xì)粒度的語(yǔ)步文本。已有研究通常采用基于規(guī)則匹配、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的方法,對(duì)科技論文的摘要、引言或全文進(jìn)行語(yǔ)步識(shí)別分類。其中,基于規(guī)則匹配方法通過使用不同語(yǔ)步文本中常采用的詞語(yǔ)和典型句式等詞匯與句法特征構(gòu)建規(guī)則模板來識(shí)別語(yǔ)步[30]。該方法的規(guī)則設(shè)計(jì)過程專業(yè)性強(qiáng),可移植性差。為此,引入基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,以自動(dòng)發(fā)現(xiàn)指定特征的語(yǔ)步文本的識(shí)別模式[31],包括樸素貝葉斯、支持向量機(jī)等各種經(jīng)典分類模型,但該方法需要通過特征工程設(shè)計(jì)大量的特征。受益于深度學(xué)習(xí)的特征自動(dòng)學(xué)習(xí)能力,CNN (convolutional neural network)、LSTM (long short-term memory)等神經(jīng)網(wǎng)絡(luò)模型被應(yīng)用于語(yǔ)步識(shí)別任務(wù)[32],但該方法學(xué)習(xí)到的特征交叉嚴(yán)重且不夠全面,通常使用詞向量嵌入表示,導(dǎo)致難以獲得篇章中句間的上下文特征。預(yù)訓(xùn)練語(yǔ)言模型BERT可以同時(shí)對(duì)詞間關(guān)系和句間關(guān)系進(jìn)行學(xué)習(xí)[13],直接獲得句子向量表示,且可根據(jù)特定任務(wù)進(jìn)行參數(shù)調(diào)優(yōu)[33-34],已成為語(yǔ)步識(shí)別的主流方法。
為了使讀者通過閱讀科技論文的摘要文本就能夠快速了解該研究各個(gè)方面的具體內(nèi)容,本文提出基于語(yǔ)步的科技論文結(jié)構(gòu)化摘要方法。首先,將科技論文全文按照學(xué)術(shù)交流的目的劃分成不同的語(yǔ)步文本;其次,提取不同語(yǔ)步文本上的關(guān)鍵內(nèi)容形成文本摘要;最后,組合不同語(yǔ)步文本的摘要生成流暢的科技論文結(jié)構(gòu)化摘要。
本文基于語(yǔ)步的科技論文結(jié)構(gòu)化摘要研究框架如圖1 所示,主要包括科技論文數(shù)據(jù)處理、語(yǔ)步識(shí)別和文本摘要3 個(gè)部分。其中,在數(shù)據(jù)處理步驟中,清洗論文文本中的噪聲數(shù)據(jù),解釋論文不同區(qū)域的文本內(nèi)容,將正文文本分割成句子,并對(duì)隨機(jī)論文句子所屬語(yǔ)步進(jìn)行人工標(biāo)注;在語(yǔ)步識(shí)別步驟中,使用基于規(guī)則和深度學(xué)習(xí)模型相結(jié)合的語(yǔ)步識(shí)別方法對(duì)論文正文的所有句子進(jìn)行語(yǔ)步分類;在文本摘要步驟中,基于文本多特征融合的無監(jiān)督抽取方法,分別形成不同類別語(yǔ)步文本的文本摘要。最后,將不同語(yǔ)步摘要文本填充到摘要模板中生成結(jié)構(gòu)化摘要。
圖1 基于語(yǔ)步的科技論文結(jié)構(gòu)化摘要研究框架
本文使用生物醫(yī)學(xué)類科技論文作為語(yǔ)料進(jìn)行結(jié)構(gòu)化摘要研究。在數(shù)據(jù)處理階段,需要清除論文噪聲信息并對(duì)正文句子進(jìn)行語(yǔ)步標(biāo)注,包括語(yǔ)料清洗、內(nèi)容解析、內(nèi)容分割和標(biāo)注數(shù)據(jù)4 個(gè)步驟。在語(yǔ)料清洗步驟中,首先,使用GROBID(generation of bibliographic data)①https://grobid.readthedocs.io/en/latest/工具將PDF (portable document format) 格式的論文轉(zhuǎn)換為XML (extensible markup language) 格式。其次,使用Python 規(guī)則庫(kù)②移除圖表、上下標(biāo)等;③刪除論文中的致謝和參 https://tinyurl.com/q5v9p5d清除論文中的非文本內(nèi)容,包括:①把論文中的引用和數(shù)字內(nèi)容分別替換成 表1 生物醫(yī)學(xué)類科技論文語(yǔ)步分類框架 本文將科技論文語(yǔ)步識(shí)別看作句子分類任務(wù),已有研究表明,該任務(wù)需主要關(guān)注整個(gè)句子的特征構(gòu)建和句間上下文信息。本文采用規(guī)則和深度學(xué)習(xí)模型相結(jié)合的語(yǔ)步識(shí)別方法。首先,使用基于規(guī)則匹配的方法識(shí)別具有語(yǔ)步對(duì)應(yīng)詞匯和句法模式的句子,如“目的”語(yǔ)步文本中常有“purpose、objective”等線索詞和“… of … be to, … is to …”等句型。其次,使用BioBERT+Attention-BiLSTM 深度學(xué)習(xí)模型識(shí)別未匹配的句子。 該模型包括7 層:輸入層,特征學(xué)習(xí)層,前、后向LSTM 層,Attension 層,Softmax 層和輸出層。①在輸入層把詞向量、詞位置向量、句子分段向量和句子位置向量進(jìn)行拼接,形成文本的多特征融合表示;②特征學(xué)習(xí)層通過BioBERT 模型[35]訓(xùn)練,獲得整個(gè)句子的語(yǔ)義特征表示;③學(xué)習(xí)到的句子向量被輸入BiLSTM 模型中,以便捕獲句子中的雙向信息,從而體現(xiàn)句子上下文特征;④在輸出層之前增加Attention 層,生成權(quán)重向量對(duì)應(yīng)每個(gè)詞的權(quán)值,以提升句子中重點(diǎn)詞語(yǔ)的權(quán)重;⑤通過Softmax 層輸出句子分類標(biāo)簽。其中,BioBERT 模型的輸入向量矩陣為 其中,詞嵌入是詞向量表示;詞位置嵌入表明詞在論文中的絕對(duì)位置;句子分段嵌入表明詞屬于哪個(gè)句子;句子位置嵌入表明句子在論文中的絕對(duì)位置。 句子位置向量的計(jì)算公式[15]為 其中,pos 為句子在全文的相對(duì)位置,例如,第i個(gè)句子的pos 值為i/m,m為全文句子總數(shù);dmodel為模型輸入向量的維度。 本文對(duì)上述操作識(shí)別出的語(yǔ)步文本分別進(jìn)行文本摘要,提出了一種多特征融合的科技論文無監(jiān)督摘要抽取方法以生成結(jié)構(gòu)化摘要。首先,影響摘要的相關(guān)性存在各種外在因素,包括文本的整體框架結(jié)構(gòu)信息和文本信息內(nèi)容,每種因素在摘要生成過程中帶來了不同的影響,需針對(duì)每種因素在TextRank 算法的累加權(quán)重迭代計(jì)算過程中提出相應(yīng)的改進(jìn)措施。其次,考慮到摘要相關(guān)性和多樣性的平衡,對(duì)獲得的候選摘要句群需做冗余化處理;在摘要的輸出方面需要做相應(yīng)的優(yōu)化,以提升最終輸出的連貫性和可讀性。再其次,可以對(duì)摘要句做依存句法分析,在特定的場(chǎng)景下,通過提取句子主謂賓或其他內(nèi)容實(shí)現(xiàn)對(duì)句子的理解功能,從而對(duì)抽取出的摘要進(jìn)一步精簡(jiǎn)。最后,按照語(yǔ)步元素設(shè)計(jì)模板,分別將不同語(yǔ)步文本的摘要內(nèi)容進(jìn)行組合生成結(jié)構(gòu)化摘要。 2.4.1 多特征融合TextRank改進(jìn)算法 本文在TextRank 算法過程中,綜合考慮文本多特征對(duì)迭代計(jì)算得到的累加權(quán)重WS 進(jìn)行修正,將WS 與句子位置、句子與文檔相似度和句子有效詞占比3 類權(quán)重進(jìn)行運(yùn)算得到修正的累加權(quán)重WS′,以提升摘要句的相關(guān)性,計(jì)算公式為 (1)句子位置權(quán)重 句子位置影響句子的重要性。諸如新聞?lì)惖奈恼峦鶗?huì)在第一句闡明文本的主旨思想,在電商評(píng)論文本中會(huì)在最后一句表明買家對(duì)該商品的態(tài)度。因此,在處理文本時(shí),距離文本開始位置和結(jié)束位置的句子應(yīng)適當(dāng)提高其權(quán)重。另外,有研究結(jié)果表明,人工生成摘要時(shí),選擇段落首句當(dāng)作摘要的概率為85%,選擇段落末句作為摘要的概率為7%[36]。所以,段落首句比段落末句更有可能被選擇成為摘要,可根據(jù)句子的位置信息,賦予不同的句子權(quán)重得分。本文采用LocScore(Si)表示句子Si的位置權(quán)重得分,計(jì)算公式為 (2)句子與文檔相似度權(quán)重 文本內(nèi)容所包含的句子都是圍繞中心思想展開的,因此,在文本中與文本內(nèi)容相似度較高的句子更有可能成為最終的摘要句。本文使用余弦相似度衡量文中句子與整篇文本內(nèi)容的相似性,計(jì)算每個(gè)句子與整段文本之間的相似值,若句子與文本內(nèi)容具有較高的相似度,則對(duì)該句子的權(quán)重進(jìn)行調(diào)整,調(diào)整規(guī)則為 其中,Si(w)為句子Si的最終權(quán)重;similarity(Si,Pi)為句子Si與文本向量Pi的余弦相似度。 (3)句子有效詞占比權(quán)重 句子的有效詞,是指符合一定條件、能夠表達(dá)一定含義的獨(dú)立詞語(yǔ)。在英文中,有效詞需滿足:①詞語(yǔ)是由字母、連字符和/或標(biāo)點(diǎn)組成,不能包含數(shù)字;②至多一個(gè)連字符“-”,且連字符兩側(cè)是字母;③至多一個(gè)標(biāo)點(diǎn)符號(hào),且位于單詞末尾。句子的有效詞占比在一定程度上反映了該句子所包含信息的多少,通過對(duì)句子進(jìn)行分詞、去停用詞來統(tǒng)計(jì)句子中有效詞個(gè)數(shù)占整個(gè)句子詞語(yǔ)總個(gè)數(shù)的分?jǐn)?shù)SProportion,作為調(diào)整句子權(quán)重的調(diào)節(jié)系數(shù)。 2.4.2 基于最大邊緣相關(guān)的摘要冗余處理 摘要相關(guān)性和多樣性的平衡是指原文本表達(dá)的所有意思盡可能在抽取摘要中都有一句話單獨(dú)進(jìn)行表達(dá)。因此,對(duì)于最終獲得的摘要候選句,為了增加其多樣性,將相似度較高的句子進(jìn)行權(quán)重值減分操作或者去除句子操作。本文引入最大邊緣(maximal marginal relevance,MMR)算法思想,在按句子權(quán)重大小排序結(jié)果得到的預(yù)選摘要集中引入懲罰因子,對(duì)所有初次排序后的句子重新打分,計(jì)算公式為 其中,i表示排序后句子的順序;vi表示已初步選中的句子;λ表示調(diào)整系數(shù),表明該句的主題相關(guān)度。第一個(gè)句子不需要進(jìn)行懲罰計(jì)算,從第二個(gè)句子開始,后面的句子依次與前一個(gè)句子的相似度進(jìn)行懲罰。對(duì)于與已選摘要句相似度較大的句子,將其從預(yù)選摘要列表中刪除,以保證提取的摘要句之間差異性較大。同時(shí),如果只是把摘要句機(jī)械地按照句子權(quán)重排序組合在一起,那么不能保證句子間的有效銜接和連貫。為了保證摘要的連貫性和可讀性,本文把選取的摘要句按照原文順序輸出。 2.4.3 基于依存句法分析的摘要文本精簡(jiǎn) 為了進(jìn)一步精簡(jiǎn)摘要文本,本文使用依存句法分析各個(gè)語(yǔ)法成分之間的語(yǔ)義修飾關(guān)系,以獲取距離搭配信息。通過構(gòu)建句法依存樹模型來提取句子的主干,實(shí)現(xiàn)句子語(yǔ)義理解的功能。將句法分析結(jié)果依次寫入列表,遍歷列表內(nèi)容,取出依存關(guān)系為“主謂關(guān)系”的第一個(gè)詞語(yǔ),即該句的主語(yǔ),根據(jù)該詞所對(duì)應(yīng)的“當(dāng)前詞語(yǔ)的中心詞”編號(hào)取出對(duì)應(yīng)的謂語(yǔ)動(dòng)詞,最后根據(jù)找到的謂語(yǔ)下標(biāo)再次遍歷列表尋找和謂語(yǔ)動(dòng)詞構(gòu)成“動(dòng)賓關(guān)系”的詞語(yǔ),即該句的賓語(yǔ)。 2.4.4 結(jié)構(gòu)化摘要生成 為了獲得科技論文全文內(nèi)容的結(jié)構(gòu)化摘要,使移動(dòng)讀者快速了解論文各語(yǔ)步的主要內(nèi)容,本文對(duì)識(shí)別的不同語(yǔ)步文本分別采用多特征融合的摘要生成方法獲得各語(yǔ)步的摘要句,將其分別填入結(jié)構(gòu)化摘要模板中的相應(yīng)位置,完成摘要生成。結(jié)構(gòu)化摘要模板包含論文標(biāo)題、作者等元數(shù)據(jù),以及背景、目的、方法、結(jié)果、結(jié)論等內(nèi)容要素,向讀者展示了論文的研究動(dòng)機(jī)與研究過程、研究結(jié)果與研究新發(fā)現(xiàn)等這些關(guān)鍵內(nèi)容。 為了驗(yàn)證科技論文結(jié)構(gòu)化摘要方法的有效性,本文對(duì)SumPubMed 數(shù)據(jù)集進(jìn)行語(yǔ)步識(shí)別后生成每篇論文的結(jié)構(gòu)化摘要,并將兩個(gè)子任務(wù)的實(shí)驗(yàn)結(jié)果與相關(guān)基準(zhǔn)進(jìn)行對(duì)比與分析。 本文從數(shù)據(jù)來源和數(shù)據(jù)分布兩個(gè)方面介紹實(shí)驗(yàn)數(shù)據(jù)情況。 3.1.1 數(shù)據(jù)來源 SumPubMed 數(shù)據(jù)集來源于PubMed 生物醫(yī)學(xué)研究論文數(shù)據(jù)庫(kù),Gupta 等[37]從BioMed Central(BMC)選取了33772 篇論文并進(jìn)行預(yù)處理,形成了XML、原始文本和名詞短語(yǔ)3 個(gè)版本。論文涉及醫(yī)學(xué)、藥學(xué)、護(hù)理學(xué)、牙科、保健、健康服務(wù)等學(xué)科研究,每篇論文包括摘要和正文,正文部分包含3 個(gè)小節(jié):背景、結(jié)果與結(jié)論。本文使用SumPubMed 數(shù)據(jù)集的原始文本版本,該版本對(duì)摘要和正文的科學(xué)實(shí)體進(jìn)行過一致化處理。 3.1.2 數(shù)據(jù)分布 數(shù)據(jù)總集和已標(biāo)注的數(shù)據(jù)集的數(shù)據(jù)分布情況如表2 所示,總體標(biāo)注的科技論文語(yǔ)步句子數(shù)量及其占比情況如表3 所示。結(jié)果語(yǔ)步的文本明顯多于其他語(yǔ)步文本,表明生物醫(yī)學(xué)類科技論文更加重視研究結(jié)果的描述和分析。 表2 數(shù)據(jù)總集和已標(biāo)注的數(shù)據(jù)集的數(shù)據(jù)分布情況 表3 標(biāo)注的科技論文各語(yǔ)步句子數(shù)量及其占比情況 本文的評(píng)價(jià)指標(biāo)包含語(yǔ)步識(shí)別和文本摘要兩個(gè)子任務(wù)的評(píng)價(jià)指標(biāo)。 3.2.1 語(yǔ)步識(shí)別評(píng)價(jià)指標(biāo) 語(yǔ)步識(shí)別本質(zhì)上是一種經(jīng)典的分類任務(wù),而分類性能常采用查準(zhǔn)率(precision)、召回率(recall)和F1值3 個(gè)指標(biāo)來評(píng)價(jià)。由于不同語(yǔ)步的識(shí)別效果不一定完全相同,故常常采用這3 個(gè)指標(biāo)的宏平均值來對(duì)語(yǔ)步識(shí)別的整體性能進(jìn)行評(píng)估。 3.2.2 文本摘要評(píng)價(jià)指標(biāo) 文本摘要的評(píng)價(jià)包括相關(guān)性、多樣性和可讀性3 個(gè)方面。本文采用ROUGE-1 (R-1)、ROUGE-2(R-2)和ROUGE-L(R-L)的查準(zhǔn)率、召回率和F1值3 個(gè)指標(biāo)的宏平均值來度量摘要整體的相關(guān)性。采用句子語(yǔ)義的不相似性來度量摘要的多樣性,即 其中,n是文本的句子數(shù);MSi是句子Si的詞數(shù);SiWi是句子Si第i個(gè)詞的向量表示;sim()表示句子間的余弦相似度;no_Distinct 值越大,文本多樣性就越高。采用句子概率[38]來度量摘要的可讀性,即 其中,N是文本長(zhǎng)度;p(wi)是第i個(gè)詞的概率;Readable 值越高,文本通順度越好。相關(guān)性一般體現(xiàn)在自動(dòng)摘要包含標(biāo)準(zhǔn)摘要中常見詞與短語(yǔ)的多少,但詞匯重疊少并不代表不好的摘要;多樣性主要體現(xiàn)在語(yǔ)步摘要內(nèi)冗余文本的多少,但不冗余并不代表涉及文本的多個(gè)方面;可讀性主要體現(xiàn)在自動(dòng)摘要是一個(gè)句子的概率,但句子不一定都能清晰表達(dá)文本含義。因此,本文結(jié)合人工評(píng)價(jià),分別對(duì)摘要的相關(guān)性、多樣性和可讀性做主觀評(píng)分。 3.3.1 實(shí)驗(yàn)設(shè)置 按照8∶1∶1 將1000 篇論文標(biāo)注數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。選擇基于Attention BiLSTM(簡(jiǎn)稱“方法一”)、基于BERT 和人工特征結(jié)合深度森林(簡(jiǎn)稱“方法二”)和基于句子位置向量的SciBERT 結(jié)合多層感知機(jī)分類器(簡(jiǎn)稱“方法三”)與本文方法進(jìn)行語(yǔ)步識(shí)別性能對(duì)比。實(shí)驗(yàn)選用Python 3.9.7 版本語(yǔ)言,方法一的模型參數(shù)包括詞向量維度為300,隱藏層神經(jīng)元個(gè)數(shù)為800,激活函數(shù)選擇tanh(),損失函數(shù)選擇交叉熵?fù)p失函數(shù),批訓(xùn)練大小為64;方法二中深度森林算法采用DeepForest 實(shí)現(xiàn);方法三的最佳模型參數(shù)包括批處理大小為32,學(xué)習(xí)率為2e-5,訓(xùn)練期為4,分類器隱含層節(jié)點(diǎn)數(shù)為128。 3.3.2 結(jié)果與分析 不同模型下不同語(yǔ)步的F1值與宏平均F1值如表4 所示。本文提出的規(guī)則匹配+多特征向量+BioBERT+Attention-BiLSTM 模型效果最好,宏平均F1值達(dá)到0.821。其原因可能在于:相比于方法一,本文使用專門面向生物醫(yī)學(xué)文本的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型BioBERT,能夠得到區(qū)分度較高的句子隱含語(yǔ)義特征表示。相比于方法二,本文采用BiLSTM 模型捕獲上下文詞語(yǔ)之間的語(yǔ)義依賴關(guān)系,且Attention 機(jī)制能夠自動(dòng)增加對(duì)語(yǔ)步識(shí)別起關(guān)鍵作用的“線索詞匯”的權(quán)重。由于“目的”“結(jié)論”語(yǔ)步中通常包含“aim to”等線索詞匯,因此,本文方法和方法一對(duì)這兩個(gè)語(yǔ)步識(shí)別的F1指標(biāo)排名高于其他方法。相比于方法三,本文在模型中引入了規(guī)則匹配和預(yù)訓(xùn)練語(yǔ)言模型BioBERT,通過語(yǔ)法規(guī)則、句法表達(dá)習(xí)慣和特定領(lǐng)域的語(yǔ)言模型提升識(shí)別性能,同時(shí),能夠減少模型訓(xùn)練對(duì)語(yǔ)料規(guī)模和質(zhì)量的依賴。使用方法一的宏平均F1值最低,為0.630,其原因可能在于:BERT 模型和方法一一樣,能夠訓(xùn)練單詞的雙向表征并動(dòng)態(tài)調(diào)整詞匯權(quán)重。除此之外,方法二使用了擅于學(xué)習(xí)高維數(shù)據(jù)隱含模式的深度森林分類算法,方法三與本文方法同時(shí)豐富了模型輸入的分類特征。 表4 科技論文語(yǔ)步識(shí)別結(jié)果(F1值) 相同模型下不同語(yǔ)步識(shí)別的F1值存在差別,總體上,所有模型下“結(jié)果”語(yǔ)步最高,其次是“方法”語(yǔ)步,其他語(yǔ)步在不同模型下的排名存在不一致現(xiàn)象。例如,“背景”語(yǔ)步在其他模型中均排名第三,但在帶有Attention-BiLSTM 的模型中排名最后。其原因可能在于:首先,“結(jié)果”語(yǔ)步文本內(nèi)容在論文全文中占比較高,可得到較好的分類效果;其次,在生物醫(yī)學(xué)實(shí)驗(yàn)中,“方法”具有較為規(guī)范的專業(yè)寫作方式,該語(yǔ)步的分類特征較為明顯。 3.4.1 實(shí)驗(yàn)設(shè)置 把標(biāo)注好的1000 篇論文作為文本摘要的實(shí)驗(yàn)語(yǔ)料,將作者撰寫的論文摘要作為自動(dòng)摘要方法評(píng)估的金標(biāo)準(zhǔn),使用評(píng)估包pyrouge①https://pypi.org/project/pyrouge/計(jì)算各語(yǔ)步自動(dòng)摘要文本的ROUGE 值;編碼實(shí)現(xiàn)各語(yǔ)步自動(dòng)摘要文本多樣性和可讀性指標(biāo)值的計(jì)算。選擇經(jīng)典的TextRank 模型[39]、Dong 等提出的HipoRank 模型[21]和Liang 等提出的FAR(functional-coefficient autoregressive)模型[23]這3 種無監(jiān)督抽取式摘要方法進(jìn)行自動(dòng)摘要質(zhì)量對(duì)比。 為了進(jìn)一步客觀地評(píng)估自動(dòng)摘要的質(zhì)量,隨機(jī)抽取50 篇論文并邀請(qǐng)10 位生物信息學(xué)博士對(duì)4 種方法產(chǎn)生的論文自動(dòng)摘要進(jìn)行評(píng)價(jià),每位博士參考15 篇論文的金標(biāo)準(zhǔn)摘要分別對(duì)本文方法生成的摘要進(jìn)行人工評(píng)分,每篇論文由3 位博士評(píng)分。評(píng)分標(biāo)準(zhǔn)包括摘要的相關(guān)性、多樣性和可讀性,得分范圍為1~5 分(1 分為最差,5 分為最好)。 3.4.2 結(jié)果與分析 不同方法下自動(dòng)摘要文本的ROUGE-1、ROUGE-2、ROUGE-L 的F1值如表5 所示,大部分方法在語(yǔ)步上的ROUGEF1值基本遵循“方法>目的>結(jié)論>背景>結(jié)果”的規(guī)律。ROUGE-2 的F1值最低,其原因可能在于:文本長(zhǎng)短對(duì)摘要性能的影響較大,相比于長(zhǎng)文本,短文本更容易生成相關(guān)性大的自動(dòng)摘要,且兩個(gè)單詞組成的詞組被同時(shí)匹配的概率較低。本文方法的ROUGEF1值全面超過TextRank 和FAR 方法,但只在“目的”“方法”語(yǔ)步上高于HipoRank 方法。在其他語(yǔ)步上低于HipoRank 方法。其可能的原因在于:本文方法較關(guān)注句子整體特征,對(duì)句子的分析粒度較粗,忽視了句子的語(yǔ)義特征以及長(zhǎng)距離句子之間的不同關(guān)聯(lián)權(quán)重。本文方法不同語(yǔ)步間的ROUGEF1值差異較大,說明本文方法易受語(yǔ)料文本的長(zhǎng)短和句法表達(dá)方式的影響。 表5 科技論文各語(yǔ)步自動(dòng)摘要相關(guān)性計(jì)算結(jié)果(F1值) 不同方法下自動(dòng)摘要文本的多樣性和可讀性度量值相關(guān)統(tǒng)計(jì)信息如表6 所示。在可讀性得分上,HipoRank 模型得分最高,本文方法位于第二,TextRank 模型最低;在多樣性得分上,本文方法和FAR 模型分別位于第一和第二,且本文方法的得分顯著高于其他模型,HipoRank 模型最低。HipoRank模型在進(jìn)行句子語(yǔ)義表征的同時(shí),考慮了句子位置信息,能夠更為準(zhǔn)確地抽取摘要句;FAR 模型則考慮了句子-文檔權(quán)重,從全局的角度抽取中心度高的句子;本文方法在不同語(yǔ)步文本中使用句子位置以及句子與文檔相似度等多特征,在提升抽取相關(guān)性的同時(shí),也提升了摘要句的多樣性。實(shí)驗(yàn)結(jié)果表明,本文方法所產(chǎn)生的自動(dòng)摘要可讀性和多樣性較為均衡,受益于語(yǔ)步識(shí)別之后再結(jié)合MMR 執(zhí)行自動(dòng)摘要,多樣性得到了顯著提升。 表6 科技論文各語(yǔ)步自動(dòng)摘要多樣性與可讀性計(jì)算結(jié)果 不同方法下自動(dòng)摘要文本的人工評(píng)分均值和方差值結(jié)果如表7 所示。在相關(guān)性評(píng)價(jià)結(jié)果上,本文方法低于HipoRank 模型,比FAR 模型略高;在多樣性上,本文方法顯著高于其他模型;在可讀性上,本文方法接近于HipoRank 模型。由此可見,在語(yǔ)步文本的基礎(chǔ)上,結(jié)合文本多特征進(jìn)行自動(dòng)摘要生成,能夠提升摘要多樣性,并在一定程度上同時(shí)提升了摘要的相關(guān)性和可讀性。 表7 自動(dòng)摘要人工評(píng)分均值(方差)結(jié)果 不同語(yǔ)步識(shí)別模型下自動(dòng)摘要文本的ROUGE-1、ROUGE-2、ROUGE-L 的F1值如表8 所示,各種語(yǔ)步識(shí)別模型融合文本多特征的結(jié)構(gòu)化自動(dòng)摘要方法同樣基本遵循“方法>目的>結(jié)論>背景>結(jié)果”的規(guī)律,且ROUGE-2 的F1值最低。本文提出的語(yǔ)步識(shí)別模型所形成的結(jié)構(gòu)化摘要的ROUGEF1值在“背景”語(yǔ)步以外的其他語(yǔ)步上均表現(xiàn)最優(yōu),且所有語(yǔ)步識(shí)別模型所形成的結(jié)構(gòu)化摘要在所有的語(yǔ)步上均的ROUGE 值均高于TextRank 和FAR 方法,但在“背景”“結(jié)果”和“結(jié)論”語(yǔ)步上低于Hipo-Rank 方法,上述實(shí)驗(yàn)的結(jié)果和分析得到了驗(yàn)證。但不同語(yǔ)步識(shí)別模型的ROUGE 值差異不大,結(jié)合表5可以發(fā)現(xiàn),基于所有語(yǔ)步識(shí)別模型的摘要方法ROUGE 值和其他摘要方法相差較大,且結(jié)合表4 可以發(fā)現(xiàn),不同語(yǔ)步識(shí)別模型的F1值差異較大。由此可見,相比于語(yǔ)步識(shí)別模型,文本特征的選擇和融合在摘要相關(guān)性上具有更重要的影響。 表8 不同語(yǔ)步識(shí)別模型下科技論文各語(yǔ)步自動(dòng)摘要相關(guān)性結(jié)果(F1值) 從科技論文移動(dòng)閱讀的需求出發(fā),針對(duì)現(xiàn)有自動(dòng)化摘要方法存在與論文原文相關(guān)性不高和內(nèi)容涵蓋范圍不廣的問題,本文在對(duì)論文全文進(jìn)行語(yǔ)步識(shí)別的基礎(chǔ)上,綜合考慮句子位置、句子與文檔的相似度等文本多特征實(shí)現(xiàn)不同語(yǔ)步文本的自動(dòng)化摘要,以摘要文本相關(guān)性和多樣性平衡以及可讀性的原則最終生成科技論文的結(jié)構(gòu)化摘要。通過融合語(yǔ)步識(shí)別、無監(jiān)督文本摘要和語(yǔ)義分析等技術(shù),拓展了自動(dòng)結(jié)構(gòu)化摘要的研究思路,豐富了摘要抽取的方法。本文使用規(guī)則匹配結(jié)合特征向量改進(jìn)輸入深度學(xué)習(xí)模型的方法實(shí)現(xiàn)了科技論文全文的語(yǔ)步識(shí)別,采用句子位置、句子與文檔相似度等文本多特征融合的方法優(yōu)化TextRank 算法,使用MMR 算法去除了摘要句的冗余,通過依存句法分析簡(jiǎn)化了摘要句的表述,最終把不同語(yǔ)步的摘要內(nèi)容組合生成了結(jié)構(gòu)化摘要。研究結(jié)果表明,本文方法在不同語(yǔ)步的相關(guān)性、多樣性和可讀性指標(biāo)提升上具有一定的差異;結(jié)合人工評(píng)價(jià)發(fā)現(xiàn),本文方法在顯著提升摘要多樣性的同時(shí),在一定程度上提升了摘要的相關(guān)性和可讀性,能夠自動(dòng)提供科技論文全文的結(jié)構(gòu)化摘要,促進(jìn)移動(dòng)讀者快速了解和掌握論文的核心內(nèi)容,有助于緩解“信息過載”現(xiàn)象。 本文提出的摘要方法忽略了全文中圖和表的內(nèi)容,而這些內(nèi)容往往包含了關(guān)鍵知識(shí)。此外,本文在摘要句抽取任務(wù)中還存在優(yōu)化空間。因此,后續(xù)工作主要包括兩個(gè)方面:首先,在全文語(yǔ)步識(shí)別過程中,提取圖和表的內(nèi)容,以識(shí)別其中重要的知識(shí)實(shí)體,并生成相應(yīng)的摘要;其次,在摘要句抽取過程中,關(guān)注句子語(yǔ)義特征的表示,并考慮句子全局上的關(guān)聯(lián),從而進(jìn)一步提升摘要相關(guān)性,降低摘要受語(yǔ)料文本長(zhǎng)短和表達(dá)方式的影響。2.3 科技論文語(yǔ)步識(shí)別
2.4 多特征融合的科技論文摘要生成
3 實(shí)驗(yàn)與討論
3.1 數(shù) 據(jù)
3.2 評(píng)價(jià)指標(biāo)
3.3 科技論文語(yǔ)步識(shí)別實(shí)驗(yàn)
3.4 科技論文語(yǔ)步文本摘要實(shí)驗(yàn)
4 結(jié)論與展望