毛 進,陳子洋
(1.武漢大學(xué)信息資源研究中心,武漢 430072;2.武漢大學(xué)信息管理學(xué)院,武漢 430072)
近年來,隨著學(xué)術(shù)文獻數(shù)量的急劇增長,掌握一個學(xué)科的研究進展和具體文獻的知識脈絡(luò)已變得越來越困難,信息過載成為一大現(xiàn)實問題。學(xué)術(shù)搜索工具在過去十余年里得到了長足的發(fā)展,但是這類工具仍無法實現(xiàn)對學(xué)術(shù)文本的深度理解??萍嘉墨I摘要提煉了研究人員進行科學(xué)研究和學(xué)術(shù)交流的重要信息,是文獻內(nèi)容的梗概性描述?,F(xiàn)有文獻檢索系統(tǒng)主要能夠?qū)崿F(xiàn)摘要內(nèi)容檢索,而不能對摘要中的“方法” “工具” 等部分進行單獨的檢索,另外現(xiàn)有的研究通常人工提取摘要信息,無法通過自動化手段對摘要的各個功能單元進行識別。摘要功能結(jié)構(gòu)的自動識別可以有效應(yīng)對上述問題,達到從摘要中更有效挖掘知識的目的,因此對摘要內(nèi)容中不同功能單元的識別成為學(xué)術(shù)文獻大數(shù)據(jù)知識挖掘與分析的一項重要內(nèi)容。
摘要的結(jié)構(gòu)功能是摘要的每個結(jié)構(gòu)部分在學(xué)術(shù)論文內(nèi)容層次上的作用,常見的結(jié)構(gòu)功能包括“背景”“目的” “問題” “方法” “工具” “結(jié)果” “局限”等[1],且這些結(jié)構(gòu)功能分別有不同的指向性。摘要功能識別即對摘要中的特定信息進行抽取,對其進行結(jié)構(gòu)化的功能劃分可以更清晰地更細粒度地展示文獻摘要的語義構(gòu)成和邏輯結(jié)構(gòu),便于查閱者在較短時間內(nèi)進行精準檢索定位。若將深度學(xué)習(xí)方法用于該領(lǐng)域進行摘要結(jié)構(gòu)功能特征識別,一方面可做到對非結(jié)構(gòu)化摘要進行自動的結(jié)構(gòu)化,避免人工方式的巨大人力與時間成本;另一方面可用于構(gòu)建基于單個結(jié)構(gòu)功能而非整段內(nèi)容的科技文獻摘要檢索系統(tǒng)。因此,采用深度學(xué)習(xí)方法對科技文獻摘要進行功能識別是有研究必要的。由此,本研究在深度學(xué)習(xí)模型基礎(chǔ)上,利用摘要文本中包含的語義信息,結(jié)合上下文特征構(gòu)建摘要功能識別模型,并對比分析科技文獻摘要的結(jié)構(gòu)功能要素特征。
目前,關(guān)于摘要結(jié)構(gòu)的研究主要圍繞結(jié)構(gòu)要素的數(shù)量和組合開展。曹雁等[2]以“引言-方法-結(jié)果-討論(Introduction-Methods-Results-Discussions,IMRD)” 四要素結(jié)構(gòu)模式作為分析摘要的對象,且證明每個結(jié)構(gòu)要素都存在一些帶有指向性的語料。以GRATEZ[3]為代表的學(xué)者總結(jié)出具有普遍性的“問題-方法-結(jié)果-結(jié)論(Problem-Method-Results-Conclusions,PMRC)” 四要素結(jié)構(gòu)模式。SWALES[4]對GRAETZ 研究數(shù)據(jù)獲取的可靠性和科學(xué)性提出質(zhì)疑,認為摘要的結(jié)構(gòu)應(yīng)與論文的結(jié)構(gòu)一一對應(yīng),主張摘要應(yīng)該由IMRD 四結(jié)構(gòu)要素組成更為合理。然而一些學(xué)者發(fā)現(xiàn)為保證摘要語義信息的完整性,還應(yīng)該增加對“背景” 這一結(jié)構(gòu)功能要素,因此TSENG[5]、李濤[6]和周志超[7]等一批學(xué)者也都在IMRD 模式的基礎(chǔ)上,提出了以“背景-方法-結(jié)果-結(jié)論(Background-Method-Result-Conclusion,BMRC)”為代表的其他幾種四結(jié)構(gòu)要素的變體形式。
在現(xiàn)有的出版規(guī)范中,科技期刊論文摘要可分為結(jié)構(gòu)式摘要與非結(jié)構(gòu)式摘要兩大類型[8]。相較于非結(jié)構(gòu)式摘要,結(jié)構(gòu)式摘要具有便于進行定位閱讀與對所需內(nèi)容進行自動化抽取的優(yōu)點[9]。宋東桓等[10]認為結(jié)構(gòu)式摘要和非結(jié)構(gòu)式摘要在書寫體例、習(xí)慣用語等方面有高度一致性,由此對380 種期刊進行調(diào)查,其中188種為采用結(jié)構(gòu)式摘要的期刊、192 種為采用非結(jié)構(gòu)式摘要的期刊,在此基礎(chǔ)上提出摘要 “(Background-Objective-Method-Result-Conclusion,BOMRC) 背景-目的-方法-結(jié)果-討論” 結(jié)構(gòu)體系和結(jié)構(gòu)式摘要的識別與規(guī)范化標引方法,但因其樣本數(shù)量有限而具有一定局限性。
目前,關(guān)于學(xué)術(shù)文獻的結(jié)構(gòu)功能自動識別已有一定研究。ANTHONY[11]基于樸素貝葉斯算法 (Naive Bayesian,NB),利用少數(shù)的摘要數(shù)據(jù)構(gòu)建出摘要自動識別模型,TUAROB 等[12]則是采用支持向量機(Support Vector Machine,SVM) 和樸素貝葉斯模型進行對比,對學(xué)術(shù)文獻的章節(jié)邊界進行劃分,實現(xiàn)了學(xué)術(shù)文獻的功能識別。KIM 等[13]通過研究發(fā)現(xiàn)條件隨機場算法(Conditional Random Field,CRF) 要比樸素貝葉斯算法和SVM 效果更好,精確度一般在90%以上。在摘要的功能識別方法上,除了CRF、SVM 等傳統(tǒng)模型的基于淺層機器學(xué)習(xí)模型應(yīng)用,近年來關(guān)于使用深度學(xué)習(xí)模型的融合與優(yōu)化也逐步深入,以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN) 為代表的深度學(xué)習(xí)模型,以及在此基礎(chǔ)上創(chuàng)新的長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)、長短期記憶模型和條件隨機場混合模型LSTM-CRF、CNN 與條件隨機場混合模型CNN-CRF 等模型層出不窮。例如王東波等[14]分別利用LSTM、SVM、LSTM-CRF、CNN-CRF等對3 672 篇情報領(lǐng)域期刊摘要文獻進行研究。其另一研究[15]針對CRF、雙向長短期記憶模型(Bidirectional LSTM,Bi-LSTM) 和SVM 三種模型的實驗,其中CRF 模型表現(xiàn)最佳,其F1值達到92.88%。陸偉和黃永等運用多種模型從基于章節(jié)標題[16]、章節(jié)內(nèi)容和標題、段落[17]等層次對學(xué)術(shù)文本的結(jié)構(gòu)功能進行自動分類識別實驗,并取得了令人滿意的效果,但其研究并未涉及對于科技文獻摘要句功能識別。沈思等[1]基于LSTM-CRF 模型針對科技文獻摘要構(gòu)建了結(jié)構(gòu)功能自動識別模型,但其未能在自動識別任務(wù)上嘗試應(yīng)用BERT 等具有更優(yōu)性能的模型。張智雄等將論文摘要中的研究目的、方法、結(jié)果和結(jié)論,這些語言單元定義為摘要中的語步,其運用Masked Sentence Model 來解決語步自動識別問題。通過改造BERT 輸入層,將摘要中句子的內(nèi)容特征與上下文特征有效結(jié)合,在語步識別實驗中取得了較好的效果[18]。上述大部分方法都使用了word2vec 工具來對文本進行預(yù)訓(xùn)練,得到的詞向量輸入神經(jīng)網(wǎng)絡(luò)的第一層以減少人工提取特征的成本。但是由于上下文語境、語序?qū)φ渲性~意有重要影響,而如果使用word2vec 對輸入的語句進行預(yù)訓(xùn)練的話,無論其上下文如何得到的同一個詞的詞向量都是同一個,由此可以產(chǎn)生相關(guān)優(yōu)化思路。隨著研究的不斷深入,BERT、ERNIE 等涌現(xiàn)的深度學(xué)習(xí)模型也被證明在自然語言處理各項任務(wù)中取得了不錯的成績。陸偉等[19]將其應(yīng)用到科技文獻文本分類任務(wù)中,其實驗以計算機領(lǐng)域的學(xué)術(shù)期刊論文為訓(xùn)練語料,利用BERT 及LSTM 方法構(gòu)建分類模型,其準確率比傳統(tǒng)方法更佳。
選取近年來對文獻摘要功能的6 項代表性研究,對其語料語言、功能結(jié)構(gòu)、分類模型等進行了對比,如表1 所示。通過對比可反映出使用模型和結(jié)構(gòu)功能分類的不同將對實驗結(jié)果造成較大的影響,基于機器學(xué)習(xí)模型的現(xiàn)有研究結(jié)果通常準確率有限,且采用此類方法的研究通常選取的文獻較少,在文獻數(shù)量較大的情況下可能存在局限;而基于深度學(xué)習(xí)的方法能夠適用于數(shù)據(jù)量較大的情況且通常具有更高的準確性。因此,本文對深度學(xué)習(xí)方法在該科技文獻摘要結(jié)構(gòu)功能識別的應(yīng)用進行了更加深入的研究。
表1 摘要結(jié)構(gòu)功能識別代表性研究對比Table 1 Comparison of representative studies on structural function identification
科技文獻摘要文本往往由多個結(jié)構(gòu)部分組成,每個結(jié)構(gòu)單元在學(xué)術(shù)論文內(nèi)容敘述上具有不同的作用。本文將摘要文本中的句子理解為最小的摘要文本單元,而承載某種功能的結(jié)構(gòu)單元可以包含多個句子?,F(xiàn)有的結(jié)構(gòu)功能劃分要素并不統(tǒng)一,通過分析結(jié)構(gòu)式摘要的期刊文獻,從通用型角度出發(fā)本文將科技文獻摘要的結(jié)構(gòu)功能歸納為“引言-方法-結(jié)果-結(jié)論(Introduction-Methods-Results-Conclusions,IMRC)” 4 個類型。因此,科技文獻摘要結(jié)構(gòu)功能分類任務(wù)可以表達為:給定摘要文本中的句子,通過文本分類方法識別其具有的摘要結(jié)構(gòu)功能類型。
本研究采用基于深度學(xué)習(xí)的文本分類方法對科技文獻摘要句子預(yù)測其所屬的結(jié)構(gòu)功能類型。該任務(wù)本質(zhì)上是自然語言處理中一項文本分類任務(wù),該分類模型的整體架構(gòu)如圖1 所示,其中輸入為摘要文本中的句子內(nèi)容,并在模型中對輸入的文本內(nèi)容進行特征表示,特征包括詞向量和位置特征,最后將這些特征輸入多層感知器和softmax 分類器,以輸出所預(yù)測的句子結(jié)構(gòu)功能類型標簽。本研究分別實現(xiàn)并對比BERT 模型、BERT-TextCNN 模 型、BERT-LSTM 模 型 及ERNIE 模型在該任務(wù)中的性能。
圖1 數(shù)據(jù)輸入模型、輸出預(yù)測標簽過程Fig.1 Process of data input model and outputing forecast labels
3.2.1 BERT 模型
BERT 模型基于Transformer[23],借鑒完形填空式的語言模型Masked Language Model (MLM)、Quickthoughts[24]中的Next Sentence Prezdiction(NSP)以及GPT[25]中對于輸入層和輸出層的改進,其結(jié)構(gòu)如圖2所示。
圖2 BERT 模型結(jié)構(gòu)圖Fig.2 Structure diagram of a BERT model
其核心是一個多層且多方向的Transformer 網(wǎng)絡(luò)結(jié)構(gòu),通過這個結(jié)構(gòu),每個位置的詞向量都會融入語句中其他各個位置的詞向量信息,因此可以很好地對一詞多義現(xiàn)象進行建模,避免標引意圖模糊和語義功能不明問題。運用其Encoder 中的Self-attention 機制,計算得到Attention 矩陣,其中每一行代表輸入序列中每個字的Attention 向量。
同時,BERT 中使用Masked Language Model 使其提升語境結(jié)合能力的同時避免信息泄露情況的發(fā)生,利用NSP 任務(wù)來判斷識別兩句文本是否是上下文關(guān)系。因此,總體來看BERT 的預(yù)訓(xùn)練階段是一個包括MLM 和NSP 的多任務(wù)學(xué)習(xí)模型.
理論上,對BERT 的輸出層加以改進,就已經(jīng)可以完成文本分類任務(wù)。本實驗中采用的BERT 模型、BERT-TextCNN 模型、BERT-BiLSTM 模型同樣都是先在BERT 層中對摘要文本進行特征向量表示,并進行MLM 和NSP 預(yù)訓(xùn)練任務(wù)。三者區(qū)別主要在于后續(xù)步驟中,BERT 模型在上述輸入層之后直接接線性函數(shù)和輸出層完成文本分類任務(wù)。
3.2.2 BERT-TextCNN 模型
卷積神經(jīng)網(wǎng)絡(luò)(CNN) 設(shè)計之初是對大型圖片進行處理,YOON[26]在論文中提出了TextCNN 將其應(yīng)用到文本分類任務(wù)。TextCNN 由輸入層、卷積層(Convolution)、最大池化層(Max Pooling)、全連接層及輸出層構(gòu)成[27]。其中每個卷積層提取一種特征,經(jīng)過多個卷積操作得到許多有不同值的Feature Map,而池化層的主要作用在于降低維度,并對每類特征集進行最大池化并傳送到全連接層softmax 函數(shù)中根據(jù)特征進行分類,即把所有特征結(jié)合變成全局特征,并最終輸出每個類別對應(yīng)的值,其模型如圖3 所示。
圖3 TextCNN 的網(wǎng)絡(luò)結(jié)構(gòu)[27]Fig.3 Network structure of TextCNN
BERT-TextCNN 模型是在BERT 層獲得向量表示后,將得到的特征向量使用TextCNN 分類器取代線性函數(shù)進行分類(圖4)。采用卷積層提取句子特征并形成注意力矩陣,而后對特征圖進行加權(quán)池化操作,通過全連接層降維和softmax 函數(shù)得到句子分類概率。
圖4 BERT-TextCNN 模型結(jié)構(gòu)圖Fig.4 Structure diagram of BERT-TextCNN model
3.2.3 BERT-BiLSTM 模型
長短時記憶神經(jīng)網(wǎng)絡(luò)(LSTM) 是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),在RNN 的基礎(chǔ)上又加入了記憶單元和門限機制,門限機制通過對狀態(tài)信息進行儲存和修改,實現(xiàn)長距離記憶,解決了長程依賴問題,可以對文本中的長距離信息進行更加有效的利用。其門限機制中包括遺忘門(Forget Gate)、輸入門(Input Gate) 和輸出門(Output Gate),其中遺忘門讓循環(huán)神經(jīng)網(wǎng)絡(luò)忘記之前記憶單元中不重要的信息,輸入門補充最新記憶,輸出門決定該時刻的輸出。
在實現(xiàn)LSTM 后,再增加一個反向的LSTM,實現(xiàn)雙向的LSTM,即BiLSTM。與LSTM 相比,BiLSTM可以獲得更完整的信息。BERT-BiLSTM 模型在BERT層后,通過BiLSTM 層整合文本信息和句子的順序特征,以獲取更完整的語義特征,使語義表示更準確,并在BiLSTM 后連接一個全連接層,最后通過softmax層進行分類輸出,其結(jié)構(gòu)如圖5 所示。
圖5 BERT-BiLSTM 模型結(jié)構(gòu)圖Fig.5 Structure diagram of BERT-BiLSTM model
3.2.4 ERNIE 模型
通過知識集成的增強表示模型(Enhanced Representation Through Knowledge Integration,ERNIE) 于2019 年被SUN 提出[29],這一模型的提出受到BERT 的Masked LM 訓(xùn)練方式的啟發(fā),但相對于BERT 又做出了改進:在Mask LM 訓(xùn)練方式的應(yīng)用中,BERT 只對字進行Masking,而ERNIE 不僅對字,同時也對實體、短語等進行隨機Masking,由此可使模型學(xué)習(xí)到更多高級的語義。
ERNIE 模型與前3 個模型則主要有如下不同之處。首先,其在預(yù)訓(xùn)練中的Masking 分成3 個階段進行,如圖6 所示,第一階段Basic Level Masking 針對字級別,其中使用的模式與BERT 模型相同。第二階段Phrase Level Masking 針對短語級別,即隨機選擇句子中的幾個短語,對同一短語中的所有基本單位進行Masking 和預(yù)測。第三階段是Entity Level Masking 針對命名實體級別,實體指人名、機構(gòu)名、商品名等。雖然ERNIE 模型采用的仍是基于字特征的輸入建模,但Mask 的粒度大小有所變化,可能包括字、詞、實體等不同粒度的切分,并對切分后的數(shù)據(jù)進行向量化處理,使得模型在語義、知識等不同層次上學(xué)習(xí)到相應(yīng)的關(guān)系。
圖6 ENRIN 模型的Mask 方式Fig.6 Mask mode of ENRIN model
本研究整體實驗過程如圖7 所示,實驗流程主要分為4 部分:語料預(yù)處理、訓(xùn)練學(xué)習(xí)、測試數(shù)據(jù)、對比分析。首先,將獲取的科技文獻摘要預(yù)處理為包含“目的” “方法” “結(jié)果” “結(jié)論” 4 種結(jié)構(gòu)要素的數(shù)據(jù)集。第二,在模型構(gòu)建階段采用BERT、BERTTextCNN、BERT-BiLSTM、ERNIE 四種分類模型進行訓(xùn)練學(xué)習(xí)。第三,在測試數(shù)據(jù)階段通過這5 組實驗得到的預(yù)測值與標簽進行損失函數(shù)的計算并進行效果評價;最終獲得優(yōu)化模型,并探究不同結(jié)構(gòu)功能特征對自動識別效果的差異。
圖7 整體實驗流程Fig.7 Overall experimental process
針對本文任務(wù)創(chuàng)建新的數(shù)據(jù)集,要求數(shù)據(jù)量大且標注要足夠準確。為保證準確性一般采用人工標注的方式對摘要中句子所屬結(jié)構(gòu)要素進行標注,但為避免人工標注數(shù)據(jù)的長耗時和低效率,本文希望找到已采用結(jié)構(gòu)式摘要的文獻作為數(shù)據(jù)來源。通過大量對科技文獻摘要的前期調(diào)研發(fā)現(xiàn),相比于其他領(lǐng)域,生物醫(yī)學(xué)領(lǐng)域科技文獻采用結(jié)構(gòu)式摘要的比例較大,據(jù)統(tǒng)計在生物醫(yī)學(xué)領(lǐng)域ESI 高被引期刊中提供結(jié)構(gòu)式摘要的期刊占比高達到29.2%[30]。由此在生物醫(yī)學(xué)領(lǐng)域期刊中最終選取采用結(jié)構(gòu)式摘要的兩本醫(yī)學(xué)領(lǐng)域期刊JMIR mHealth and uHealth和Journal of Medical Internet Research,并獲取Journal of Medical Internet Research1999—2018 年刊載的所有文獻和JMIR mHealth and uHealth2013—2018 年刊載的所有文獻,除去抓取失敗的論文共有3 130 篇。在3 130 篇科技文獻摘要中,共含有1 179 343 個詞,對其進行逐句劃分,得到句子語料共48 107 條,平均句子長度約為25 個詞,并將這些句子存在MySQL 數(shù)據(jù)庫中,由此構(gòu)成實驗的原始語料集。
本研究通過對3 130 篇文獻的結(jié)構(gòu)式摘要采用的11種結(jié)構(gòu)功能標題進行統(tǒng)計發(fā)現(xiàn),所有標簽共出現(xiàn)了48 107 次,平均每個標簽出現(xiàn)在285 篇摘要里,其中Results出現(xiàn)的頻次最高,接下來依次是Conclustions、Methods、Introduction 和Background。由此,發(fā)現(xiàn)Introduction-Methods-Results-Conclusions 四結(jié)構(gòu)化摘要標題組合較為常見。因此將科技文獻摘要的結(jié)構(gòu)功能歸納為“引言-方法-結(jié)果-結(jié)論(IMRC)” 4 個類型可得到驗證。依據(jù)本文的結(jié)構(gòu)功能分類規(guī)則,根據(jù)結(jié)構(gòu)化摘要的標題,將相應(yīng)句子賦予結(jié)構(gòu)功能分類標簽。其中,分類標簽與結(jié)構(gòu)化摘要標題的對應(yīng)關(guān)系如表2 所示。
表2 摘要結(jié)構(gòu)功能及其標記詞匯Table 2 Structural function of summary and its marked vocabulary
為更好地評價實驗結(jié)果,在實驗中選用5 折交叉驗證法,因此將原始數(shù)據(jù)集分為5 份,選取其中4 份作為訓(xùn)練集,1 份作為測試集,以此來作為模型的評價指標。重復(fù)進行5 次上述過程,即選取5 組不同的訓(xùn)練集與測試集并分別進行訓(xùn)練和測試。為保證同一篇文章內(nèi)的所有語料在同一份數(shù)據(jù)集中,首先將文章分為5 等份,每一份中包含626 篇摘要的全部語料,即分別包含8 998 條、9 449 條、9 612 條、9 357 條、10 691 條語料。將上述的語料集每次選出4 份為訓(xùn)練集、一份為測試集,然后再分別在本文使用的模型上進行實驗。
本文實驗在NVIDIA GeForce GTX 1080Ti GPU 上進行,GPU 運存11.0GB,使用Pytorch1.7 和Python3.7作為實驗環(huán)境。在訓(xùn)練超參數(shù)設(shè)定上,訓(xùn)練次數(shù)epoch設(shè)為10 次,Hidden_size 表示隱藏層神經(jīng)元個數(shù)設(shè)置為768,Pad_size 表示最大序列長度設(shè)置為100,F(xiàn)ilter_size 表示卷積核尺寸設(shè)置為(2,3,4),Num_filter 表示卷積層數(shù)量設(shè)置為100。Batch_size 表示每一次訓(xùn)練神經(jīng)網(wǎng)絡(luò)送入模型的樣本數(shù),若Batch_size 過小將使得運行度過慢,數(shù)值過大可能會導(dǎo)致內(nèi)存不夠用而降低準確率??紤]到GPU 算力的限制采用每一次訓(xùn)練神經(jīng)網(wǎng)絡(luò)送入模型的樣本數(shù)batch_size 為32,當(dāng)連續(xù)2個周期的預(yù)測準確率仍然沒有提升時,提前結(jié)束預(yù)測。
在損失函數(shù)設(shè)置上,選取分類問題中常用的交叉熵損失函數(shù),其loss 值隨預(yù)測概率變化如圖8 所示。
圖8 交叉熵函數(shù)的loss 值變化規(guī)律Fig.8 Variation law of loss value of cross entropy function
同時,為避免過擬合現(xiàn)象,將Dropout 值設(shè)置為0.5,并采用Adam 優(yōu)化器 (Adaptive Moment Estimation)[31]與Warmup “熱身” 策略結(jié)合對學(xué)習(xí)率衰減進行優(yōu)化,達到傳入更新的次數(shù)并能返回一個適當(dāng)?shù)膶W(xué)習(xí)率的目的[32]。Learning_rate 隨epoch 的變化如圖9 所示,在Learning_rate 達到初始化設(shè)置的0.000 02 前為預(yù)熱狀態(tài),此階段學(xué)習(xí)率線性增長,并在達到該點后開始衰減。
圖9 learning_rate 優(yōu)化曲線Fig.9 Learning-rate optimization curve
對于模型對數(shù)據(jù)集中實體進行預(yù)測的結(jié)果,當(dāng)其對實體的類型和該實體所擁有的字符數(shù)量都預(yù)測正確時判定模型預(yù)測正確。采用準確率P、召回率R以及F1值作為模型預(yù)測命名實體性能的評價指標,計算公式如下,并引入混淆矩陣進行結(jié)果分析。公式中TP為模型預(yù)測正確的結(jié)構(gòu)功能個數(shù),TN為模型成功預(yù)測出錯誤的結(jié)構(gòu)功能個數(shù),TP為模型預(yù)測錯誤的結(jié)構(gòu)功能個數(shù),F(xiàn)n為未識別到的結(jié)構(gòu)功能個數(shù):
4.4.1 模型性能對比分析
上述各模型在數(shù)據(jù)集下利用五折交叉檢驗的性能指標對比如表3 所示,其中每個模型的實驗中P、R、F1指標最高數(shù)值用加粗進行標識。
表3 各模型實驗結(jié)果 單位:%Table 3 Experimental results of each model
通過對比BERT 模型和BERT-TextCNN 模型結(jié)果發(fā)現(xiàn)將BERT 模型后接TextCNN 層的結(jié)果略高于使用BERT 模型后接線性分類函數(shù)。在前期進行預(yù)實驗時,將一篇文章摘要以一結(jié)構(gòu)功能劃分而不是以句子為單位劃分進行輸入時,使用BERT-TextCNN 模型的平均F1值為87.85%,低于使用BERT 模型的平均F1值為91.12%。在正式實驗中BERT-TextCNN 模型效果比BERT 模型好,但在預(yù)實驗中的效果較差的原因主要在于BERTCNN 的句子對特征提取階段使用的CNN 網(wǎng)絡(luò)只能提取句子局部特征,且卷積之后的池化操作會進一步損失位置信息,同時池化后會更突出某一種語義而削弱句子各個部分的其他語義。由于一篇文章的一個結(jié)構(gòu)功能中通常含有多個句子,因此其長度遠高于分句后,預(yù)實驗中使用的數(shù)據(jù)集語料平均含有74 個詞,遠多于正式實驗中使用的平均長度為25 個詞的語料。因此BERTCNN 模型對于較長的文本尤其是長難句的處理能力顯得較差,因為越長的句子越有可能出現(xiàn)相互依賴的兩個或多個詞之間間隔很長或是語義有轉(zhuǎn)折的情況,由此便可能帶來性能的減弱。由此可以總結(jié)出BERT-TextCNN 模型的優(yōu)點是可以并行計算,缺點是無法捕捉遠距離特征且會損失位置信息,其更適合用于處理短文本相關(guān)任務(wù)。
通過對比BERT 模型和BERT-BiLSTM 模型結(jié)果發(fā)現(xiàn)BERT-BiLSTM 模型F1的最高值、最低值與平均值均高于沒有補充位置信息只使用線性函數(shù)的BERT模型,原因主要為BERT 模型在預(yù)訓(xùn)練過程中使用的是基于Self-attention 的Transformer 編碼單元,即使是有Position Encoding 作為BERT 的一部分輸入,訓(xùn)練過程中也還是弱化了位置信息。而在本文對于摘要文本功能識別任務(wù)中,獲得字詞在語句中的位置信息、方向信息會對提升識別結(jié)果的準確率有很大幫助。
通過對比ERNIE 模型和上述3 模型發(fā)現(xiàn),結(jié)果發(fā)現(xiàn),ERNIE 模型各項數(shù)據(jù)的平均值都領(lǐng)先于其他模型,平均準確率和召回率均超過了86%,最低F1值為84.94%,最高F1值88.98%,平均F1值達到了86.8%。初步證明了其處理文本分類任務(wù)的優(yōu)越性,由于將外部知識引入到模型中,并通過多任務(wù)連續(xù)學(xué)習(xí)機制,因此模型的語義表示能力和自然語言推斷任務(wù)相較BERT 有一定提升。
4.4.2 不同結(jié)構(gòu)功能的識別效果對比分析
為進一步分析深度學(xué)習(xí)模型針對每一結(jié)構(gòu)功能的具體性能,選取了4 模型中各自F值最高的情況,并對比了每個摘要結(jié)構(gòu)功能標記具體的識別情況(表4)。
表4 模型最佳識別情況各結(jié)構(gòu)功能情況 單位:%Table 4 Best identification of model and function of each structure
從具體的結(jié)構(gòu)功能特征識別性能的角度來看實驗結(jié)果,對于引言部分的識別,ERNIE 模型性能最好,BERT-TextCNN 模型較好,BERT 模型與BERT-BiL-STM 模型接近,二者均性能較差。對于方法部分的識別,ERNIE 模型性能最好,BERT-BiLSTM 模型其次,BERT-TextCNN 模型性能最差。對于結(jié)果部分的識別,ERNIE 模型性能最好,BERT 模型性能最差,兩者的F1值相差3.29%,對于結(jié)論部分的識別,ERNIE 模型性能最好,BERT 模型性能最差,兩者的F1值相差8.79%。由此可見,ERNIE 模型在各個功能識別上均有較好的表現(xiàn),其最高F1值“方法” 結(jié)構(gòu)功能識別達到了92.55%。同時,4 類模型中均對“方法” 有較好的功能識別效果,而對“結(jié)論” 的識別效果較差,原因主要是“方法” 部分特征較為明顯且易于區(qū)分,而相對于其他的功能結(jié)構(gòu)“結(jié)論” 部分在文獻摘要中所占篇幅偏少。除此之外,在“方法” 部分,BERT-TextCNN的性能較差而BERT-BiLSTM 模型較好,且二者有較大的差距,其主要原因在于BiLSTM 模型可以使分類模型更好地結(jié)合上下文信息位置信息,而BERTTextCNN 模型捕捉局部信息而模糊位置信息,因此對于平均文本長度更長的“方法” 功能結(jié)構(gòu)識別BERTBiLSTM 模型取得了相對于BERT-TextCNN 模型更好的效果。
在此基礎(chǔ)上選取綜合識別性能最優(yōu)的ERNIE 模型為研究對象,通過構(gòu)建如表5 所示的混淆矩陣,來分析該模型的誤識情況。從結(jié)果中可以看出,“引言”部分主要被誤識為“結(jié)論”,“方法” 部分主要被誤識為“結(jié)果” 和“引言”,“結(jié)果” 部分主要被誤識為“方法” 和“結(jié)論”,“結(jié)論” 部分主要被誤識為“引言” 和“結(jié)果”??偟膩砜?,大部分的誤識情況都是將其誤識為與其相鄰的上下文結(jié)構(gòu)功能,主要原因是緊鄰的結(jié)構(gòu)功能句間可能存在過渡句,使其難以分辨屬性。唯一的例外是“引言” 和“結(jié)論” 這一對結(jié)構(gòu)功能,二者分屬摘要的首尾兩部、并不相鄰,原因主要是這兩部分的內(nèi)容存在較大的相似性,從單句中較難進行準確的識別。
表5 ERNIE 模型混淆矩陣Table 5 Confusion matrix of ERNIE model
本文在前期調(diào)研的基礎(chǔ)上獲得了“IMRC” 這一針對科技文獻較為普適的結(jié)構(gòu)功能要素歸納框架,以便于理解文獻摘要的微觀功能結(jié)構(gòu),同時為實現(xiàn)文獻摘要的語義檢索提供數(shù)據(jù)來源。將科技文獻摘要特征功能識別任務(wù)轉(zhuǎn)換為文本分類問題,以eHealth 領(lǐng)域兩本期刊的論文摘要為語料集,在BERT、BERT-BiLSTM、BERT-TextCNN、ERNIE 等深度學(xué)習(xí)模型上進行應(yīng)用與對比,并按照五折交叉檢驗的方式設(shè)計實驗。實驗結(jié)果表明ERNIE 模型在科技文獻摘要功能識別任務(wù)上性能較好,F(xiàn)1值具有在文本分類領(lǐng)域進一步應(yīng)用拓展的可能性,同時在對比BERT-BiLSTM、BERT-TextCNN 的實驗結(jié)果后發(fā)現(xiàn),在處理較長文本時BERT-TextCNN的性能較差而BERT-BiLSTM 模型較好,因此在針對不同類型的文本時可選擇不同的模型以達到更好的分類效果。在摘要句功能識別任務(wù)中詞語識別起著決定性作用,但剝離語境的單一詞語存在導(dǎo)向不明的問題,可能會導(dǎo)致功能識別的不準確。本文在BERT、ERNIE等深度學(xué)習(xí)模型基礎(chǔ)上,利用摘要文本包含的語義信息,結(jié)合上下文特征構(gòu)建和優(yōu)化摘要功能識別模型,將對后續(xù)類似的短文本結(jié)構(gòu)功能識別任務(wù)提供方法指導(dǎo),有助于基于關(guān)鍵信息語塊的知識挖掘應(yīng)用。
本文實驗中選用的是同一個領(lǐng)域內(nèi)科技文獻的結(jié)構(gòu)式摘要,而不同學(xué)科領(lǐng)域或語言情境下的科技文獻摘要寫作可能存在差異性。同時,現(xiàn)有的摘要中非結(jié)構(gòu)式摘要占比更大且可能會更復(fù)雜,因此未來將在更大規(guī)模、更廣領(lǐng)域的數(shù)據(jù)集上進行工程化應(yīng)用探索,并嘗試構(gòu)建更精細的知識組織。
農(nóng)業(yè)圖書情報學(xué)刊2022年3期