歐石燕 陳嘉文
關(guān)鍵詞:科學(xué)論文;語(yǔ)步識(shí)別;機(jī)器學(xué)習(xí);深度學(xué)習(xí)
科學(xué)論文是科研人員分享研究成果、學(xué)習(xí)他人經(jīng)驗(yàn)的重要媒介。近年來(lái),隨著科學(xué)研究的飛速發(fā)展以及數(shù)字出版的普及,科學(xué)論文數(shù)量急劇增長(zhǎng)。與此同時(shí),科研人員的信息需求也變得越來(lái)越多元化和精細(xì)化。但是科學(xué)論文傳統(tǒng)的線性組織模式并不利于讀者快速理解論文的整體結(jié)構(gòu)和精準(zhǔn)定位論文中的特定信息,降低了讀者的閱讀效率,難以應(yīng)對(duì)海量科學(xué)論文的“轟炸”。在此背景下,一些學(xué)者開(kāi)始對(duì)科學(xué)論文的篇章結(jié)構(gòu)進(jìn)行研究,通過(guò)使用文本信息處理技術(shù)自動(dòng)識(shí)別出論文內(nèi)容的不同功能組成部分,以幫助讀者定位特定信息。但這些研究往往以章節(jié)或段落為單位[1-4],劃分粒度較粗,不能滿足讀者愈發(fā)精細(xì)的信息需求。
1981年,密歇根大學(xué)的著名語(yǔ)言學(xué)家SwalesJM提出了語(yǔ)步分析法,其核心是通過(guò)分析文本局部的交際目的或修辭策略劃分文本的功能層次,并將具有特定交際功能和目的的文本片段稱作語(yǔ)步(Move),將實(shí)現(xiàn)語(yǔ)步的方法稱為步驟(Step)[5]。語(yǔ)步分析法從論文的交際意圖出發(fā)對(duì)科學(xué)論文進(jìn)行拆解,分析得到的語(yǔ)步結(jié)構(gòu)為理解科學(xué)論文的內(nèi)容提供了新的視角,具有提供細(xì)粒度文獻(xiàn)信息服務(wù)的潛能。然而語(yǔ)言學(xué)者們進(jìn)行的語(yǔ)步分析是一個(gè)費(fèi)時(shí)費(fèi)力的手動(dòng)過(guò)程,這限制了語(yǔ)步結(jié)構(gòu)更廣泛、深入的應(yīng)用。
近年來(lái),隨著機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)技術(shù)的不斷發(fā)展與突破,為以句子為單位的科學(xué)論文語(yǔ)步自動(dòng)識(shí)別提供了可能。因此,本文將在前人研究基礎(chǔ)上對(duì)科學(xué)論文正文的語(yǔ)步自動(dòng)識(shí)別方法進(jìn)行探索,采用傳統(tǒng)機(jī)器學(xué)習(xí)與深度學(xué)習(xí)技術(shù)構(gòu)建多種語(yǔ)步自動(dòng)識(shí)別模型并進(jìn)行比較分析,從而發(fā)現(xiàn)有效的語(yǔ)步自動(dòng)識(shí)別方法,并在此基礎(chǔ)上探索語(yǔ)步信息在文獻(xiàn)信息服務(wù)中的應(yīng)用模式。
1相關(guān)研究
科學(xué)論文的價(jià)值主要體現(xiàn)在其正文內(nèi)容上,因此對(duì)論文的內(nèi)容結(jié)構(gòu)進(jìn)行識(shí)別可有助于讀者快速理解論文內(nèi)容,并為進(jìn)一步的知識(shí)抽取及情報(bào)分析做準(zhǔn)備。早期對(duì)論文結(jié)構(gòu)的研究主要側(cè)重于識(shí)別粗粒度的結(jié)構(gòu)功能,即區(qū)分論文主要包含哪幾個(gè)部分,每部分都有著怎樣的語(yǔ)義功能。采用的識(shí)別方法多基于文本分類技術(shù),主要從章節(jié)標(biāo)題、段落結(jié)構(gòu)和文本內(nèi)容3個(gè)角度設(shè)計(jì)分類特征,使用支持向量機(jī)、條件隨機(jī)場(chǎng)等傳統(tǒng)機(jī)器學(xué)習(xí)算法來(lái)實(shí)現(xiàn),如陸偉等[1]、TeufelS等[6]的研究。近年來(lái)隨著深度學(xué)習(xí)的興起,有研究者開(kāi)始嘗試采用深度學(xué)習(xí)技術(shù)進(jìn)行論文結(jié)構(gòu)功能的自動(dòng)識(shí)別。譬如,王東波等采用雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型(Bi-LSTM)進(jìn)行識(shí)別,但可能因?yàn)閿?shù)據(jù)量不足,效果反而弱于傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)[7];王佳敏等使用卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)并結(jié)合章節(jié)標(biāo)題、章節(jié)段落和章節(jié)內(nèi)容等信息進(jìn)行識(shí)別,獲得了較好的識(shí)別效果[8]??茖W(xué)論文的結(jié)構(gòu)功能與語(yǔ)步在目的上有一定的共通之處,都是從語(yǔ)義角度對(duì)論文的內(nèi)容進(jìn)行劃分,但結(jié)構(gòu)功能關(guān)注的主要是論文的宏觀篇章結(jié)構(gòu),結(jié)構(gòu)簡(jiǎn)單且劃分粒度較粗。而且多數(shù)論文的結(jié)構(gòu)功能都是以段落為單位連續(xù)出現(xiàn),不同結(jié)構(gòu)功能極少存在交錯(cuò)出現(xiàn)的現(xiàn)象。相對(duì)而言,科學(xué)論文的語(yǔ)步結(jié)構(gòu)劃分粒度更細(xì)且更為復(fù)雜,語(yǔ)步的循環(huán)與交錯(cuò)在科學(xué)論文寫(xiě)作中經(jīng)常出現(xiàn)。
對(duì)科學(xué)論文語(yǔ)步結(jié)構(gòu)進(jìn)行自動(dòng)識(shí)別的研究相對(duì)較少,且多數(shù)研究都只是針對(duì)論文摘要或者論文正文的引言部分。譬如,WuJC等[9]、SoonklangT[10]、王立非等[11]分別采用馬爾科夫模型、樸素貝葉斯、條件隨機(jī)場(chǎng)等傳統(tǒng)機(jī)器學(xué)習(xí)算法,張智雄等[12]采用全連接神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)算法,對(duì)論文摘要進(jìn)行了語(yǔ)步識(shí)別,取得了良好的識(shí)別效果。相對(duì)于結(jié)構(gòu)簡(jiǎn)單、篇幅短小的論文摘要,對(duì)論文正文進(jìn)行語(yǔ)步識(shí)別則更加困難。有部分學(xué)者首先對(duì)論文引言部分的語(yǔ)步結(jié)構(gòu)進(jìn)行了識(shí)別。譬如,AnthonyL等采用樸素貝葉斯算法識(shí)別出電氣和電子工程學(xué)科論文引言部分的3個(gè)語(yǔ)步[13],PendarN等[14]和CotosE等[15]采用支持向量機(jī)算法識(shí)別多個(gè)學(xué)科領(lǐng)域論文引言部分的語(yǔ)步,識(shí)別結(jié)果的宏平均F1值均達(dá)到65%以上。與摘要和引言這類概括性描述科學(xué)研究過(guò)程的文本相比,科學(xué)論文的全文蘊(yùn)含著更加詳細(xì)的科學(xué)研究信息,語(yǔ)步結(jié)構(gòu)也更加復(fù)雜,不同語(yǔ)步的交錯(cuò)和重復(fù)現(xiàn)象非常明顯。因此,在摘要和引言上效果較好的語(yǔ)步識(shí)別方法在全文中是否適用需要進(jìn)一步地探索。
目前,對(duì)科學(xué)論文的整篇正文進(jìn)行語(yǔ)步識(shí)別的研究還非常少見(jiàn),在國(guó)內(nèi)僅有王末等采用深度學(xué)習(xí)中的BERT模型對(duì)科學(xué)論文中的11種科學(xué)核心概念(即類別)進(jìn)行了識(shí)別[16]。雖然科學(xué)核心概念(CoreScientificConcepts,簡(jiǎn)稱CoreSCs)模型與語(yǔ)步結(jié)構(gòu)有些類似,但并不能完全反映科學(xué)論文的交際功能。因此,科學(xué)論文正文的語(yǔ)步自動(dòng)識(shí)別還有待進(jìn)一步探索。
2科學(xué)論文語(yǔ)步分類框架
為了實(shí)現(xiàn)科學(xué)論文語(yǔ)步結(jié)構(gòu)的自動(dòng)識(shí)別,首先需要確立語(yǔ)步分類框架。鑒于不同學(xué)科領(lǐng)域的論文在語(yǔ)步結(jié)構(gòu)上存在較大差異,本研究只選取化學(xué)領(lǐng)域的英文科學(xué)論文作為語(yǔ)步識(shí)別對(duì)象。作為典型的以實(shí)驗(yàn)為基礎(chǔ)的學(xué)科領(lǐng)域,化學(xué)領(lǐng)域科學(xué)論文的寫(xiě)作通常比較規(guī)范,探索得到的語(yǔ)步自動(dòng)識(shí)別方法對(duì)其他學(xué)科領(lǐng)域?qū)嶒?yàn)型科學(xué)論文也具有較好的參考價(jià)值。
為了確立化學(xué)領(lǐng)域科學(xué)論文的語(yǔ)步分類框架,首先從“英國(guó)皇家化學(xué)學(xué)會(huì)數(shù)據(jù)庫(kù)(TheRoyalSo?cietyofChemistry)”中隨機(jī)選取30篇科學(xué)論文,其中15篇論文作為分析樣本,通過(guò)對(duì)其正文內(nèi)容進(jìn)行歸納分析建立初始的語(yǔ)步分類框架,剩余的15篇論文作為驗(yàn)證樣本,通過(guò)標(biāo)注實(shí)驗(yàn)檢驗(yàn)初始分類框架的可靠性和全面性。在進(jìn)行樣本分析時(shí),嚴(yán)格采用SwalesJM提出的語(yǔ)步分析法[17]并參考了語(yǔ)言學(xué)者們?cè)谙嚓P(guān)領(lǐng)域科學(xué)論文中的語(yǔ)步分析結(jié)果[18],歸納出化學(xué)領(lǐng)域科學(xué)論文的初始語(yǔ)步分類框架。標(biāo)注實(shí)驗(yàn)則由兩名具有化學(xué)專業(yè)背景的編碼人員基于初始的語(yǔ)步分類框架對(duì)另外15篇論文中的每個(gè)句子進(jìn)行語(yǔ)步類別標(biāo)注。標(biāo)注結(jié)果的編碼一致性采用Kappa值衡量,該值達(dá)到0??81,說(shuō)明初始的語(yǔ)步分類框架具有較高的可靠性。此外,兩名標(biāo)注者在標(biāo)注過(guò)程中均沒(méi)有發(fā)現(xiàn)新的類別,說(shuō)明該分類框架較為全面。最終,確立了化學(xué)領(lǐng)域科學(xué)論文的語(yǔ)步分類框架,包含7個(gè)語(yǔ)步,如表1所示。
3科學(xué)論文語(yǔ)步自動(dòng)識(shí)別方法
為了實(shí)現(xiàn)科學(xué)論文語(yǔ)步的自動(dòng)識(shí)別,本研究從兩個(gè)角度來(lái)解決該問(wèn)題:一種是將語(yǔ)步識(shí)別看作是一個(gè)文本分類任務(wù),給論文中的每個(gè)句子賦予一個(gè)語(yǔ)步類別標(biāo)簽;第二種是將語(yǔ)步識(shí)別看作是一個(gè)序列標(biāo)注任務(wù),根據(jù)科學(xué)論文中語(yǔ)步出現(xiàn)的順序性,確定每個(gè)句子的語(yǔ)步類別標(biāo)簽。針對(duì)文本分類,分別采用傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)和深度學(xué)習(xí)技術(shù)來(lái)實(shí)現(xiàn);針對(duì)序列標(biāo)注,則主要采用條件隨機(jī)場(chǎng)(CRF)和雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Bi-LSTM)相結(jié)合的方式來(lái)實(shí)現(xiàn)。
3.1基于傳統(tǒng)機(jī)器學(xué)習(xí)的語(yǔ)步自動(dòng)識(shí)別
基于傳統(tǒng)機(jī)器學(xué)習(xí)的分類算法首先需要將待分類文本(此處指句子)進(jìn)行向量化表示,通?;谙蛄靠臻g模型(VSM)將非結(jié)構(gòu)化的文本字符串轉(zhuǎn)換為結(jié)構(gòu)化的特征向量,這一過(guò)程涉及特征提取和特征選擇,被稱作特征工程。
3.1.1特征提取
在本研究中,根據(jù)語(yǔ)步分類的特點(diǎn),主要探索了詞匯、詞法、句法、位置這4類特征,此外也包括了句子中的引文標(biāo)記、句子所在章節(jié)的標(biāo)題等其他特征。
1)詞匯特征:詞匯特征是指基于N-gram詞袋模型統(tǒng)計(jì)連續(xù)N個(gè)單詞在句子中出現(xiàn)的頻次。在本研究中,將N設(shè)為1~3,統(tǒng)計(jì)了Unigram、Bigram、Trigram3種詞頻。由于采用這種方式抽取的詞匯特征數(shù)量過(guò)多,因此只保留各自詞頻排名前2000的N-gram作為特征。
2)詞法特征:詞法特征是指詞匯的詞性特征以及時(shí)態(tài)和語(yǔ)態(tài)特征,如動(dòng)詞的過(guò)去時(shí)態(tài)、進(jìn)行時(shí)態(tài)和被動(dòng)語(yǔ)態(tài),形容詞和副詞的比較級(jí)和最高級(jí)形式,人稱代詞,情態(tài)動(dòng)詞等。每種詞法特征均采用在句子中的出現(xiàn)頻次來(lái)表示。
3)句法特征:句法特征是指詞與詞之間的依存關(guān)系特征。依存關(guān)系是一個(gè)句子中詞匯之間具有方向性的支配關(guān)系,如主謂關(guān)系、動(dòng)賓關(guān)系等,處于支配地位的詞被稱為核心詞,被支配的詞被稱為依存詞。詞匯之間不同類型依存關(guān)系在句子中出現(xiàn)的頻次可作為句法特征用于語(yǔ)步分類。
4)位置特征:位置特征是指一個(gè)句子在科學(xué)論文中出現(xiàn)的位置,共包括3種:一種是句子在全文中的位置,直接以句子的序數(shù)除以正文中的句子數(shù)來(lái)表示;第二種是句子所屬段落在正文中的位置,以段落的序數(shù)除以正文中的段落數(shù)來(lái)表示;最后一種是句子在段落中的位置,以句子在段落中的序數(shù)除以段落中的句子總數(shù)來(lái)表示。
5)其他補(bǔ)充特征:此外,句子中出現(xiàn)的引用標(biāo)記、圖說(shuō)明詞匯、表說(shuō)明詞匯、句子所屬章節(jié)的標(biāo)題詞匯也被作為補(bǔ)充特征。
上述特征共有6089個(gè),全部采用獨(dú)熱編碼表示,基于向量空間模型表示為句子的特征向量,其中的各種頻次特征均通過(guò)TF-IDF算法進(jìn)行加權(quán)處理,從而更精確地反映其在句子和論文中的重要性。
3.1.2特征選擇
通過(guò)上述方法構(gòu)造的句子特征向量擁有較高的維度,甚至有可能包含噪音,會(huì)影響分類器的訓(xùn)練速度以及分類效果,因此需要對(duì)特征進(jìn)行篩選,對(duì)特征向量做降維處理。在本研究中,使用隨機(jī)森林模型來(lái)發(fā)現(xiàn)特征與類別之間的非線性關(guān)系,從而對(duì)特征重要性進(jìn)行排序[19],以此篩選出重要性較高的特征。其原理如下:采用隨機(jī)森林模型在訓(xùn)練多棵決策樹(shù)期間,針對(duì)每一棵樹(shù)會(huì)進(jìn)行一個(gè)數(shù)據(jù)抽樣,將抽樣的數(shù)據(jù)用于訓(xùn)練,而沒(méi)有被用于訓(xùn)練的數(shù)據(jù)則被稱為袋外數(shù)據(jù)(OutofBag,OOB);然后,對(duì)訓(xùn)練出的每一棵樹(shù)都選取它的袋外數(shù)據(jù)進(jìn)行分類預(yù)測(cè),并計(jì)算產(chǎn)生的數(shù)據(jù)誤差(記為errorOOB1);最后,將袋外數(shù)據(jù)的某一特征X加入決策樹(shù)進(jìn)行干擾,再次計(jì)算袋外數(shù)據(jù)誤差(記為errorOOB2),兩次的數(shù)據(jù)誤差即反映了特征X的重要性,如式(1)所示。
3.1.3傳統(tǒng)機(jī)器學(xué)習(xí)分類算法
在傳統(tǒng)機(jī)器學(xué)習(xí)分類算法中,選擇采用支持向量機(jī)與深度森林兩種算法來(lái)進(jìn)行語(yǔ)步自動(dòng)識(shí)別。支持向量機(jī)是一種在分類任務(wù)中經(jīng)常被使用的算法[20],其主要思想是通過(guò)在數(shù)據(jù)空間中尋找一個(gè)最優(yōu)超平面,使其不僅能將兩類數(shù)據(jù)分開(kāi),而且能使兩類數(shù)據(jù)中距離該超平面最近的點(diǎn)到超平面的距離最大化。深度森林算法是由南京大學(xué)ZhouZH等于2019年提出的一種集成學(xué)習(xí)算法[21],通過(guò)訓(xùn)練出多個(gè)弱分類器(即一系列隨機(jī)森林)并將它們進(jìn)行組合,進(jìn)而獲得一個(gè)更好、更全面的強(qiáng)分類器。
3.2基于深度學(xué)習(xí)的語(yǔ)步自動(dòng)識(shí)別
近年來(lái),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,其被廣泛應(yīng)用于文本分類任務(wù)。深度學(xué)習(xí)復(fù)雜的網(wǎng)絡(luò)模型可以更好的表示文本隱含的語(yǔ)義信息,且省略了繁瑣的特征工程步驟,能夠?qū)崿F(xiàn)更高效、精確的文本分類。
3.2.1文本向量化表示
無(wú)論是傳統(tǒng)機(jī)器學(xué)習(xí)算法還是深度學(xué)習(xí)算法,都需要對(duì)文本進(jìn)行向量化表示。在傳統(tǒng)機(jī)器學(xué)習(xí)中,文本表示通常是基于詞的獨(dú)熱編碼,這種編碼方式有著明顯的缺點(diǎn):一方面,特征維度過(guò)高,向量矩陣太稀疏,不利于分類器的訓(xùn)練;另一方面,難以體現(xiàn)單詞之間的語(yǔ)義相關(guān)性,因此不能精確表示文本的語(yǔ)義。在深度學(xué)習(xí)中,通常采用詞的分布式表示,即將詞表示成一個(gè)定長(zhǎng)的、連續(xù)的稠密向量(即詞向量)。典型的詞向量訓(xùn)練方法是根據(jù)一個(gè)單詞出現(xiàn)的語(yǔ)境(即單詞的上下文)學(xué)習(xí)出該單詞的出現(xiàn)概率。在本研究中,使用Word2vec算法來(lái)訓(xùn)練針對(duì)化學(xué)領(lǐng)域科學(xué)論文的詞向量[22],然后將預(yù)處理后句子中的所有單詞的詞向量進(jìn)行拼接后作為句子的向量表示。
3.2.2深度學(xué)習(xí)分類模型
本研究中,采用3種深度學(xué)習(xí)模型來(lái)實(shí)現(xiàn)語(yǔ)步自動(dòng)識(shí)別,包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)和BERT模型。這3種深度學(xué)習(xí)模型在文本分類任務(wù)中被公認(rèn)具有較好的效果。CNN的核心思想是通過(guò)卷積核來(lái)識(shí)別數(shù)據(jù)在空間上的局部特征,通過(guò)對(duì)多個(gè)局部特征的總結(jié)來(lái)認(rèn)識(shí)數(shù)據(jù)[23]。對(duì)于文本數(shù)據(jù),連續(xù)的單詞便是認(rèn)識(shí)文本的重要局部特征,CNN能夠?qū)@些局部特征進(jìn)行組合和篩選,獲得更深層次的語(yǔ)義信息。但是CNN的局部特征采樣過(guò)程忽略了文本的結(jié)構(gòu)位置信息,而循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)能夠以序列模式處理文本,從而更好地利用這些信息。LSTM是一種特殊結(jié)構(gòu)的RNN,相較于普通RNN可以解決長(zhǎng)期依賴關(guān)系[24]。但是,普通的LSTM只能捕捉由前到后的語(yǔ)義依賴關(guān)系,雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Bi-LSTM)則通過(guò)將兩個(gè)方向相反的LSTM拼接,可以同時(shí)捕捉雙向的語(yǔ)義依賴關(guān)系。BERT模型是谷歌公司于2018年提出的多用途預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,可以在大規(guī)模語(yǔ)料上同時(shí)對(duì)詞間關(guān)系和句間關(guān)系進(jìn)行學(xué)習(xí),得到的模型具有高效表征語(yǔ)言語(yǔ)義的能力,可用于復(fù)雜的自然語(yǔ)言處理任務(wù)[25]。
3.3基于混合模型的語(yǔ)步自動(dòng)識(shí)別
深度學(xué)習(xí)模型使用復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)對(duì)文本內(nèi)容進(jìn)行特征抽取,較傳統(tǒng)機(jī)器學(xué)習(xí)中手工識(shí)別出的分類特征有著更好的語(yǔ)義表征能力。在語(yǔ)步識(shí)別任務(wù)中,除了句子本身的內(nèi)容外,其在論文中的位置、包含的引用標(biāo)簽、所在的章節(jié)標(biāo)題等特征也對(duì)語(yǔ)步識(shí)別有著重要價(jià)值,但這類結(jié)構(gòu)特征通常通過(guò)深度學(xué)習(xí)模型無(wú)法自動(dòng)獲得。因此嘗試將深度學(xué)習(xí)模型與傳統(tǒng)機(jī)器學(xué)習(xí)方法相結(jié)合,提出一個(gè)混合識(shí)別模型,如圖1所示。該模型采用深度學(xué)習(xí)方法獲得句子的深層語(yǔ)義特征,然后將其與傳統(tǒng)機(jī)器學(xué)習(xí)中手工識(shí)別出的句子結(jié)構(gòu)特征進(jìn)行拼接,以此獲得句子新的向量表示,最后采用傳統(tǒng)機(jī)器學(xué)習(xí)分類算法進(jìn)行語(yǔ)步分類。
3.4基于序列標(biāo)注的語(yǔ)步自動(dòng)識(shí)別
通過(guò)手工標(biāo)注,發(fā)現(xiàn)不同語(yǔ)步在一篇科學(xué)論文中的出現(xiàn)具有一定的順序,譬如M1(引出本文研究)語(yǔ)步通常出現(xiàn)在論文的開(kāi)始,M7(重塑研究空間)語(yǔ)步則往往出現(xiàn)在論文結(jié)尾。因此,也可以將語(yǔ)步識(shí)別看作是一個(gè)序列標(biāo)注任務(wù),在整篇科學(xué)論文中以句子為時(shí)間步進(jìn)行序列標(biāo)注。
在本研究中,使用Bi-LSTM+CRF模型來(lái)實(shí)現(xiàn)科學(xué)論文的語(yǔ)步序列標(biāo)注,這是一種在序列標(biāo)注任務(wù)中被廣泛使用的模型。在前述的文本分類模式中,雖然也使用了Bi-LSTM模型,但關(guān)注的是句子中詞間的序列關(guān)系,每一個(gè)時(shí)間步的輸入是句子中每個(gè)詞匯的詞向量;在此處的序列標(biāo)注模式中,Bi-LSTM模型關(guān)注的是論文中句子間的序列關(guān)系,每個(gè)時(shí)間步的輸入是一篇論文中每個(gè)句子的向量表示。條件隨機(jī)場(chǎng)(CRF)是一種判別式概率模型[26],常用于分析序列數(shù)據(jù),主要關(guān)注相鄰數(shù)據(jù)之間的標(biāo)簽信息。通過(guò)在Bi-LSTM模型后連接一個(gè)CRF模型,可以既考慮本句文本與歷史文本信息,也考慮歷史語(yǔ)步信息。
4實(shí)驗(yàn)與結(jié)果分析
4.1數(shù)據(jù)準(zhǔn)備
本研究的實(shí)驗(yàn)數(shù)據(jù)以開(kāi)源的ART數(shù)據(jù)集為來(lái)源[27],基于表1所示的語(yǔ)步分類框架重新進(jìn)行手工標(biāo)注后形成。ART數(shù)據(jù)集是由LiakataM等于2008年構(gòu)建的科學(xué)論文數(shù)據(jù)集,包含了225篇化學(xué)領(lǐng)域的研究性科學(xué)論文,均來(lái)自“英國(guó)皇家化學(xué)學(xué)會(huì)”出版的期刊,每篇論文均以句子為單位,采用科學(xué)核心概念(CoreSCs)模型進(jìn)行了標(biāo)注。Co?reSCs是由英國(guó)威爾士大學(xué)的LiakataM等于2012年提出的一個(gè)針對(duì)科學(xué)論文的篇章結(jié)構(gòu)模型[28],共包含11個(gè)科學(xué)核心概念數(shù)據(jù)(即類別),分別為背景、假設(shè)、模型、動(dòng)機(jī)、目的、對(duì)象、方法、實(shí)驗(yàn)、觀察、結(jié)果和結(jié)論。雖然CoreSCs模型和語(yǔ)步分類框架均是對(duì)科學(xué)論文的篇章結(jié)構(gòu)進(jìn)行劃分,但前者主要是從科學(xué)實(shí)驗(yàn)過(guò)程的角度進(jìn)行劃分,而后者主要是從交際意圖角度進(jìn)行劃分,兩個(gè)模型雖有一定區(qū)別,但兩者的類別在很大程度上存在著映射關(guān)系。因此,根據(jù)CoreSCs模型的標(biāo)注結(jié)果可以大大減輕語(yǔ)步標(biāo)注的難度。本研究邀請(qǐng)兩名編碼人員基于表1所示的語(yǔ)步分類框架對(duì)ART數(shù)據(jù)集重新進(jìn)行了標(biāo)注,在225篇論文的共33057個(gè)句子上獲得了0??86的Kappa值,說(shuō)明標(biāo)注結(jié)果具有很好的可靠性。對(duì)于標(biāo)注結(jié)果中的少量差異,則通過(guò)協(xié)商討論予以校正。最終標(biāo)注數(shù)據(jù)中不同語(yǔ)步的數(shù)量分布如表2所示。
重新進(jìn)行語(yǔ)步標(biāo)注后的ART數(shù)據(jù)集中的句子按照82%∶8%∶10%的比例被劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。訓(xùn)練集的數(shù)據(jù)主要用于分類器的訓(xùn)練;驗(yàn)證集的數(shù)據(jù)用于不同超參數(shù)條件下分類模型效果的比較;測(cè)試集的數(shù)據(jù)用于衡量語(yǔ)步識(shí)別模型最終的識(shí)別效果。
4.2基于傳統(tǒng)機(jī)器學(xué)習(xí)的語(yǔ)步自動(dòng)識(shí)別實(shí)驗(yàn)結(jié)果
在傳統(tǒng)機(jī)器學(xué)習(xí)中,首先需要進(jìn)行特征選擇來(lái)降低句子特征向量的維度。因此,使用基于Python語(yǔ)言的機(jī)器學(xué)習(xí)工具包Scikit-learn來(lái)實(shí)現(xiàn)隨機(jī)森林模型的訓(xùn)練,并基于該模型的結(jié)果對(duì)特征的重要性進(jìn)行排序。圖2展示了重要性排名前30的特征。
由圖2可以看出,句子的相對(duì)位置、章節(jié)標(biāo)題詞匯、特定的詞法與語(yǔ)法組合、引用標(biāo)簽、句子中詞匯的依存關(guān)系等特征對(duì)于分類效果有較大貢獻(xiàn)。此外,一些單詞或短語(yǔ)也是識(shí)別語(yǔ)步的重要特征。
接下來(lái),分別采用深度森林和支持向量機(jī)這兩個(gè)分類算法來(lái)訓(xùn)練語(yǔ)步識(shí)別分類器。深度森林算法采用開(kāi)源工具DeepForest來(lái)實(shí)現(xiàn),支持向量機(jī)算法則仍使用Scikit-learn工具包來(lái)實(shí)現(xiàn)。為了獲得最佳的特征數(shù)量,根據(jù)上述所得的特征重要性排序,以100為單位在句子向量表示中逐漸添加特征。分類效果的測(cè)試則采用常用的查準(zhǔn)率(Precision)、召回率(Recall)和F1值3個(gè)指標(biāo),并以宏平均作為7個(gè)類別(即語(yǔ)步)的整體識(shí)別效果。深度森林算法的超參數(shù)不需要過(guò)多設(shè)置,支持向量機(jī)算法主要調(diào)整的超參數(shù)則包括核函數(shù)、核函數(shù)參數(shù)及懲罰系數(shù)。兩種分類算法在不同特征數(shù)量下的分類效果如圖3所示。
通過(guò)圖3可以看出,當(dāng)特征數(shù)量為100時(shí),兩種分類算法的效果相差不多,宏平均F1值均在59%左右;當(dāng)特征數(shù)量增加到200時(shí),兩個(gè)分類算法的效果都有了相應(yīng)的提高,但深度森林算法的效果此時(shí)已經(jīng)明顯優(yōu)于支持向量機(jī)算法;隨著特征數(shù)量的繼續(xù)增加,支持向量機(jī)算法的分類效果趨于穩(wěn)定,宏平均F1值約為59%,新特征的加入對(duì)于分類效果影響甚微;而深度森林算法的分類效果隨著特征數(shù)增加仍在進(jìn)一步提升,在特征數(shù)量為600左右時(shí),分類效果出現(xiàn)了一些波動(dòng),當(dāng)特征數(shù)量為1100時(shí)效果最好,宏平均F1值約為66%。由此可以看出,深度森林算法的整體分類效果始終優(yōu)于支持向量機(jī)算法,說(shuō)明這種集成學(xué)習(xí)算法在處理高維數(shù)據(jù)時(shí)具有明顯優(yōu)勢(shì)。
4.3基于深度學(xué)習(xí)的語(yǔ)步自動(dòng)識(shí)別實(shí)驗(yàn)結(jié)果
在本研究中,采用Word2vec算法中的Skipgram模型在ART數(shù)據(jù)集中的全部225篇論文上訓(xùn)練詞向量,Word2vec算法使用自然語(yǔ)言處理Py?thon工具包Gensim來(lái)實(shí)現(xiàn),訓(xùn)練時(shí)上下文窗口大小設(shè)置為10,詞向量維度設(shè)置為200。CNN模型則具體使用KimY于2014年提出的專門針對(duì)文本的卷積神經(jīng)網(wǎng)絡(luò)TextCNN模型[29]。TextCNN模型和Bi-LSTM模型均基于神經(jīng)網(wǎng)絡(luò)計(jì)算框架Pytorch來(lái)實(shí)現(xiàn)。BERT模型則使用專為科學(xué)論文訓(xùn)練的SciBERT模型[30],但在語(yǔ)步分類時(shí)需要對(duì)最后幾層網(wǎng)絡(luò)的參數(shù)進(jìn)行重新調(diào)整。3種深度學(xué)習(xí)算法在測(cè)試集上的語(yǔ)步識(shí)別結(jié)果如表3所示。
根據(jù)表3中的實(shí)驗(yàn)結(jié)果可以看出,BERT模型的語(yǔ)步識(shí)別效果最好,宏平均F1值達(dá)到了66%,Bi-LSTM模型次之,宏平均F1值為62%,CNN模型的識(shí)別效果最差,只有59%。
4.4基于混合模型的語(yǔ)步識(shí)別實(shí)驗(yàn)結(jié)果
經(jīng)過(guò)上文實(shí)驗(yàn)發(fā)現(xiàn),在傳統(tǒng)機(jī)器學(xué)習(xí)算法中深度森林模型的識(shí)別效果最好;在深度學(xué)習(xí)算法中BERT模型效果最好。因此,將BERT模型和深度森林算法進(jìn)行融合,利用文本分類模式進(jìn)行語(yǔ)步自動(dòng)識(shí)別。首先,利用BERT模型預(yù)訓(xùn)練得到每個(gè)句子的深層語(yǔ)義特征,然后將其與人工識(shí)別的1100個(gè)分類特征拼接在一起,最后利用深度森林算法進(jìn)行語(yǔ)步分類。該混合模型在7個(gè)語(yǔ)步類別上的分類結(jié)果如表4所示。
根據(jù)表4所示,M1和M3語(yǔ)步的識(shí)別效果最好,F(xiàn)1值達(dá)到90%以上;而M2和M6語(yǔ)步的效果最差,F(xiàn)1值均低于60%;全部7個(gè)語(yǔ)步識(shí)別效果的宏平均F1值為73%。
4.5基于序列標(biāo)注的語(yǔ)步自動(dòng)識(shí)別實(shí)驗(yàn)結(jié)果
在使用序列標(biāo)注模式進(jìn)行語(yǔ)步識(shí)別時(shí),需要以單篇論文為單位作為輸入。因此,隨機(jī)選取ART數(shù)據(jù)集中的203篇論文作為訓(xùn)練數(shù)據(jù),剩余的22篇論文作為測(cè)試數(shù)據(jù)。為了與文本分類模式的識(shí)別效果相比較,在評(píng)價(jià)時(shí)仍以句子為單位衡量識(shí)別效果。每個(gè)時(shí)間步輸入的句子向量由該句所有單詞的詞向量的算數(shù)平均值表示,進(jìn)入Bi-LSTM+CRF網(wǎng)絡(luò)結(jié)構(gòu)后便可結(jié)合序列信息輸出當(dāng)前句子所對(duì)應(yīng)的語(yǔ)步類別。使用序列標(biāo)注模式的語(yǔ)步識(shí)別結(jié)果如表5所示。從該表可以看出,與文本分類模式類似,采用序列標(biāo)注模式時(shí)也是M1和M3語(yǔ)步的識(shí)別效果較好,而M2和M6語(yǔ)步的識(shí)別效果較差,7個(gè)語(yǔ)步的宏平均F1值只有56%。
4.6各模型識(shí)別結(jié)果比較
針對(duì)科學(xué)論文的語(yǔ)步識(shí)別,本研究共采用了文本分類和序列標(biāo)注兩種任務(wù)模式,采用了傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)兩類技術(shù),共構(gòu)建了7個(gè)語(yǔ)步自動(dòng)識(shí)別模型。這7個(gè)模型在測(cè)試集上的測(cè)試結(jié)果如表6所示。
根據(jù)表6中的實(shí)驗(yàn)結(jié)果可以看出,采用文本分類模式進(jìn)行語(yǔ)步自動(dòng)識(shí)別的效果要優(yōu)于序列標(biāo)注模式。其可能的原因在于:一方面,科學(xué)論文中的語(yǔ)步雖然具有一定的順序性,但語(yǔ)步交錯(cuò)和循環(huán)現(xiàn)象也非常普遍,且由于科學(xué)論文中的句子數(shù)量較多,形成的序列結(jié)構(gòu)過(guò)長(zhǎng),導(dǎo)致語(yǔ)步序列規(guī)律并不十分明顯;另一方面,在序列標(biāo)注時(shí),當(dāng)前句的識(shí)別會(huì)使用前面句子的歷史識(shí)別結(jié)果作為參考信息,但在結(jié)構(gòu)復(fù)雜的論文正文中容易出現(xiàn)錯(cuò)誤累積,從而降低序列標(biāo)注模型的性能。
在文本分類模式下,傳統(tǒng)機(jī)器學(xué)習(xí)算法與深度學(xué)習(xí)算法各有優(yōu)勢(shì),兩者中各自最優(yōu)模型的效果差距不大,一個(gè)的F1值是64%(深度森林算法);另一個(gè)也只有66%(BERT模型)。在3種深度學(xué)習(xí)識(shí)別模型中,BERT的效果最好,Bi-LSTM模型次之,而TextCNN的效果最差,這主要是因?yàn)門extC?NN模型在處理文本時(shí)使用的方法與N元語(yǔ)法類似,只能通過(guò)連續(xù)的單詞組合來(lái)學(xué)習(xí)特征,而在語(yǔ)步識(shí)別任務(wù)中需要的深層次語(yǔ)義信息,TextCNN模型則無(wú)法獲得。Bi-LSTM模型雖然能夠?qū)W習(xí)較遠(yuǎn)距離單詞之間的依賴關(guān)系,但對(duì)所有單詞同等對(duì)待,因此會(huì)忽視掉文本中的一些關(guān)鍵信息(如線索詞)。BERT模型使用超大的預(yù)訓(xùn)練語(yǔ)料與超大的模型參數(shù)來(lái)抽取文本中的隱含特征,而且可以根據(jù)注意力機(jī)制動(dòng)態(tài)調(diào)整不同詞匯的權(quán)重,這樣學(xué)習(xí)出的文本特征具有較好的語(yǔ)義區(qū)分能力,從而具有較好的語(yǔ)步識(shí)別效果。
在本研究中,提出的BERT預(yù)訓(xùn)練模型與深度森林分類算法相結(jié)合的混合模型獲得了最佳的語(yǔ)步識(shí)別效果,F(xiàn)1值達(dá)到73%。該模型不但使用了基于大規(guī)模預(yù)訓(xùn)練和復(fù)雜深層神經(jīng)網(wǎng)絡(luò)模型得到的句子隱含語(yǔ)義特征,也使用了人工識(shí)別出的句子結(jié)構(gòu)特征。此外,深度森林分類算法多層次的集成學(xué)習(xí)結(jié)構(gòu)也使其能夠有效學(xué)習(xí)高維數(shù)據(jù)中隱藏的規(guī)律。
5結(jié)論
當(dāng)前對(duì)科學(xué)論文語(yǔ)步結(jié)構(gòu)自動(dòng)識(shí)別的研究主要聚集于論文摘要部分或者引言部分,針對(duì)論文全文的研究還非常少。本文以化學(xué)領(lǐng)域的科學(xué)論文為研究對(duì)象,探索采用文本分類和序列標(biāo)注兩種模式對(duì)科學(xué)論文全文的語(yǔ)步結(jié)構(gòu)進(jìn)行自動(dòng)識(shí)別,采用傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)與深度學(xué)習(xí)技術(shù)構(gòu)建了多種語(yǔ)步自動(dòng)識(shí)別模型,并對(duì)其效果進(jìn)行了實(shí)驗(yàn)測(cè)評(píng)。實(shí)驗(yàn)結(jié)果表明,采用文本分類模式進(jìn)行語(yǔ)步識(shí)別的效果要優(yōu)于序列標(biāo)注模式,尤其是將深度學(xué)習(xí)BERT預(yù)訓(xùn)練模型與傳統(tǒng)機(jī)器學(xué)習(xí)深度森林分類算法相結(jié)合的混合模型,既利用了人工識(shí)別出的句子位置與結(jié)構(gòu)特征,又利用了深度學(xué)習(xí)自動(dòng)識(shí)別出的文本深層語(yǔ)義特征,因此獲得了最佳的識(shí)別效果,在7個(gè)語(yǔ)步上的宏平均F1值達(dá)到73%。
本文只是對(duì)化學(xué)領(lǐng)域英文科學(xué)論文的語(yǔ)步自動(dòng)識(shí)別方法進(jìn)行了探索,但該方法是否適用于其他領(lǐng)域的科學(xué)論文或者中文科學(xué)論文尚未進(jìn)行驗(yàn)證,這將是今后研究的一個(gè)重要方向。此外,科學(xué)論文的語(yǔ)步結(jié)構(gòu)對(duì)于讀者理解科學(xué)論文的主旨大意、快速定位所需信息具有重要的參考價(jià)值,在下一步的研究中,還將探索如何利用識(shí)別出的語(yǔ)步信息更好地為讀者提供文獻(xiàn)信息服務(wù)。