龐 娜 袁 鉞 薛秋紅
(1.北京大學(xué)信息管理系,北京 100871;2.中國(guó)科學(xué)院軟件研究所,北京 100190)
隨著科學(xué)數(shù)據(jù)的指數(shù)級(jí)增長(zhǎng),科學(xué)數(shù)據(jù)已成為科學(xué)研究的關(guān)鍵成果和重要的戰(zhàn)略性資源??茖W(xué)研究的范式也開始在實(shí)驗(yàn)范式、理論范式、仿真范式之外,出現(xiàn)第四科研范式——數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)。該范式由大量已知數(shù)據(jù),通過計(jì)算得出之前未知的可信理論[1]??茖W(xué)論文記錄了驗(yàn)證過程、實(shí)驗(yàn)觀察結(jié)果、研究結(jié)論等科學(xué)實(shí)驗(yàn)研究線索,包含大量高價(jià)值的科學(xué)數(shù)據(jù)。傳統(tǒng)文獻(xiàn)分析方法并沒有對(duì)科學(xué)數(shù)據(jù)進(jìn)行有效的分析,導(dǎo)致大量科學(xué)數(shù)據(jù)湮沒于海量的文獻(xiàn)中,不利于對(duì)科學(xué)數(shù)據(jù)展開深入的、創(chuàng)新性的分析,限制了數(shù)據(jù)密集型的科研發(fā)現(xiàn)。對(duì)論文中的科學(xué)數(shù)據(jù)的重新組織,可加速知識(shí)的再生產(chǎn)和再利用,促進(jìn)科研創(chuàng)新。
以化學(xué)鍵能數(shù)據(jù)為例,國(guó)際上與化學(xué)鍵能數(shù)據(jù)相關(guān)的書籍與著作相對(duì)較少,相關(guān)開放數(shù)據(jù)庫平臺(tái)仍然處于研發(fā)的初級(jí)階段。其中,清華大學(xué)基礎(chǔ)分子科學(xué)中心鍵能研究團(tuán)隊(duì)和南開大學(xué)元素有機(jī)化學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室從2014年起開發(fā)iBond化學(xué)鍵能數(shù)據(jù)庫,并對(duì)學(xué)術(shù)界開放與免費(fèi)使用(http://ibond.chem.tsinghua.edu.cn/或http://ibond.nankai.edu.cn/)。但是,iBond數(shù)據(jù)庫中的科學(xué)數(shù)據(jù)是由領(lǐng)域?qū)<覐拇罅炕瘜W(xué)鍵能相關(guān)的科學(xué)論文中手工抽取,數(shù)據(jù)抽取效率低下[2]。因此,研發(fā)化學(xué)鍵能科學(xué)數(shù)據(jù)的智能抽取工具,能夠幫助領(lǐng)域?qū)<铱焖俑咝У貥?gòu)建化學(xué)鍵能數(shù)據(jù)庫。
本文研究了由較少專家支持的化學(xué)鍵能科學(xué)數(shù)據(jù)抽取方法,實(shí)現(xiàn)對(duì)論文中的化學(xué)鍵能科學(xué)數(shù)據(jù)自動(dòng)抽取。本文提出了一種自動(dòng)抽取化學(xué)鍵能科學(xué)數(shù)據(jù)的方法,該方法首先在自動(dòng)抽取的領(lǐng)域高頻子詞的基礎(chǔ)上構(gòu)建領(lǐng)域子詞詞典,然后構(gòu)建端到端聯(lián)合BERT-CRF模型對(duì)論文中的化學(xué)鍵能科學(xué)數(shù)據(jù)進(jìn)行抽取。
本文的貢獻(xiàn)如下:
1)構(gòu)建了端到端聯(lián)合BERT-CRF抽取模型來抽取化學(xué)鍵能科學(xué)數(shù)據(jù),相比于通過構(gòu)建詞典和規(guī)則并借助機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的手段來抽取實(shí)體關(guān)系的方法,本文提出的方法降低了對(duì)專家的要求。
2)利用領(lǐng)域高頻子詞抽取技術(shù),構(gòu)建了化學(xué)鍵能領(lǐng)域高頻子詞詞典來提取領(lǐng)域特征。在后續(xù)的深度學(xué)習(xí)訓(xùn)練中,將之前構(gòu)建的領(lǐng)域高頻子詞蘊(yùn)含的化學(xué)鍵能特征輸入到深度學(xué)習(xí)模型中,獲得了較為理想的抽取結(jié)果。
3)對(duì)BERT模型中不同下游網(wǎng)絡(luò)的效果進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明,對(duì)于特定的任務(wù),適當(dāng)?shù)粡?fù)雜的下游網(wǎng)絡(luò)可以帶來結(jié)果的提高。
4)本文從化學(xué)領(lǐng)域的自由文本中提取出了微觀的知識(shí)實(shí)體、關(guān)系,是使用智能情報(bào)分析技術(shù)對(duì)化學(xué)鍵能細(xì)粒度的知識(shí)進(jìn)行自動(dòng)抽取的一次重要實(shí)踐,可以有效地促進(jìn)化學(xué)領(lǐng)域的知識(shí)發(fā)現(xiàn)。
近年來,研究者們常使用基于人工手動(dòng)注釋、基于規(guī)則、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)與基于深度學(xué)習(xí)等方法進(jìn)行領(lǐng)域知識(shí)實(shí)體的抽取[3]。其中,有很多學(xué)者對(duì)化學(xué)領(lǐng)域中的科學(xué)數(shù)據(jù)抽取進(jìn)行研究,主要包括化學(xué)命名實(shí)體抽取與對(duì)應(yīng)的關(guān)系抽取兩個(gè)重要的研究方向。
從期刊論文和化學(xué)公司內(nèi)部技術(shù)報(bào)告中抽取化學(xué)實(shí)體一直是信息抽取領(lǐng)域重要的研究方向之一。不同于生物醫(yī)學(xué)領(lǐng)域擁有大量專家標(biāo)注的數(shù)據(jù)可以提供學(xué)習(xí),早期的化學(xué)實(shí)體識(shí)別缺乏人工標(biāo)注的數(shù)據(jù),其使用的數(shù)據(jù)大多來自生物醫(yī)學(xué)領(lǐng)域[4-7]。真正意義上的化學(xué)實(shí)體識(shí)別來自于2015年BioCreative會(huì)議中的CHEMDNER測(cè)評(píng)任務(wù)[8],該任務(wù)需要對(duì)其發(fā)布的語料中包含的化合物與藥物名稱進(jìn)行抽取。目前主流的化學(xué)領(lǐng)域?qū)嶓w抽取方法主要有兩種:基于機(jī)器學(xué)習(xí)的抽取方法與基于深度學(xué)習(xí)的抽取方法。
基于機(jī)器學(xué)習(xí)的抽取方法主要使用馬爾可夫模型、條件隨機(jī)場(chǎng)模型等機(jī)器學(xué)習(xí)模型來對(duì)語料的特征進(jìn)行建模,從而抽取化學(xué)命名實(shí)體。該類方法根據(jù)字符串在語料庫中出現(xiàn)的統(tǒng)計(jì)頻率來決定其是否構(gòu)成一個(gè)實(shí)體,主要的機(jī)器學(xué)習(xí)模型有最大熵馬爾可夫模型、條件隨機(jī)場(chǎng)模型等。Corbett P等[5]構(gòu)建了PubMed語料庫,使用最大熵馬爾可夫模型對(duì)語料中的化合物、化學(xué)反應(yīng)、化學(xué)形容詞、酶、化學(xué)前綴進(jìn)行有效地抽取。類似的,Jessop D M等[9]利用最大熵馬爾可夫模型對(duì)多種類型的化學(xué)實(shí)體進(jìn)行識(shí)別,提出了OSCAR4化學(xué)實(shí)體識(shí)別工具,該工具可以識(shí)別有結(jié)構(gòu)的化學(xué)實(shí)體、反應(yīng)、化學(xué)形容詞、化學(xué)前綴等。Klinger R等[6]構(gòu)建了IUPAC語料庫,使用條件隨機(jī)場(chǎng)模型抽取語料中的化合物與化學(xué)修飾符。Rockt?schel T等[10]提出了ChemSpot化學(xué)物質(zhì)自動(dòng)識(shí)別系統(tǒng),使用條件隨機(jī)場(chǎng)模型與基于詞典相結(jié)合的方法識(shí)別化學(xué)名稱、藥物、縮寫、分子公式等。Khabsa M等[11]提出了ChemXSeer化學(xué)實(shí)體自動(dòng)提取工具,通過向條件隨機(jī)場(chǎng)模型中加入n-grams、詞綴、上下標(biāo)、化學(xué)符號(hào)等一系列新的特征指標(biāo)來識(shí)別化合物、化學(xué)修飾符等。
基于深度學(xué)習(xí)的抽取方法主要使用卷積神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短期記憶網(wǎng)絡(luò)等神經(jīng)網(wǎng)絡(luò)來自動(dòng)化特征工程,實(shí)現(xiàn)對(duì)化學(xué)命名實(shí)體的有效抽取。近年來,隨著深度學(xué)習(xí)的大火,國(guó)外已將深度學(xué)習(xí)廣泛應(yīng)用于化學(xué)物質(zhì)識(shí)別,例如,Gu J H等[12]應(yīng)用最大熵模型與卷積神經(jīng)網(wǎng)絡(luò)來共同識(shí)別生物醫(yī)學(xué)領(lǐng)域中化學(xué)藥物、疾病實(shí)體;Xie J H等[13]使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)識(shí)別電子煙使用反饋意見中的化學(xué)物質(zhì)。在國(guó)內(nèi),馬建紅等[14]從百度百科科學(xué)分類下的化工科技詞條庫的詞條中爬取相關(guān)信息建立語料庫,并采用BiLSTM-CRF方法來識(shí)別相關(guān)化學(xué)物質(zhì)、化學(xué)屬性、化學(xué)參數(shù)及其量值。楊培等[15]采用BiLSTM-CRF結(jié)合注意力機(jī)制的方法進(jìn)行化合物與藥物的識(shí)別。
對(duì)于化學(xué)領(lǐng)域的關(guān)系抽取,相關(guān)研究則較少[12,16],并且大都只基于某一類關(guān)系進(jìn)行抽取。程威等[16]使用基于最短依存路徑和注意力機(jī)制的雙向LSTM模型,從生物醫(yī)學(xué)文獻(xiàn)中自動(dòng)抽取出化學(xué)物質(zhì)和蛋白質(zhì)之間的相互作用關(guān)系,如上調(diào)、下調(diào)、和催化作用等。Gu J H等[12]應(yīng)用最大熵模型與卷積神經(jīng)網(wǎng)絡(luò)來識(shí)別生物醫(yī)學(xué)領(lǐng)域中化學(xué)藥物與疾病之間的關(guān)系。此外,較為有代表性的是Pang N等[17]提出的兩階段聯(lián)合BERT-CRF模型,Pang N等在進(jìn)行化學(xué)鍵能科學(xué)數(shù)據(jù)抽取實(shí)驗(yàn)時(shí),考慮到化學(xué)領(lǐng)域涉及廣泛的子領(lǐng)域,實(shí)體的類型非常復(fù)雜,并且科學(xué)論文中包含若干從句、復(fù)合句等長(zhǎng)難句,機(jī)器學(xué)習(xí)方法在抽取復(fù)雜句子中的實(shí)體和關(guān)系時(shí)效果可能不是很好,因此他們?cè)跇?gòu)建抽取模型時(shí),采用深度學(xué)習(xí)的方法來抽取復(fù)雜的語義關(guān)系。“兩階段”模型首先使用專家構(gòu)建的詞典和規(guī)則來識(shí)別包含許多未知單詞的化合物和化學(xué)鍵實(shí)體。然后用“$”將已識(shí)別的化合物和化學(xué)鍵的標(biāo)識(shí)符(化合物標(biāo)識(shí)符為$CMP$,化學(xué)鍵標(biāo)識(shí)符為$BON$)進(jìn)行封裝,替換未登錄詞,然后將結(jié)果輸入到下一階段的深度學(xué)習(xí)模型中進(jìn)行訓(xùn)練。該模型能夠?qū)瘜W(xué)鍵能語料庫中的化合物、溶液、反應(yīng)、方法、化學(xué)鍵、化學(xué)鍵能指示詞等實(shí)體以及之間的關(guān)系進(jìn)行有效抽取。
可以看出,無論是使用機(jī)器學(xué)習(xí)的方法還是使用深度學(xué)習(xí)的方法進(jìn)行化學(xué)領(lǐng)域?qū)嶓w關(guān)系的抽取,都要依賴于手工標(biāo)注好的語料,且上述研究使用的標(biāo)注語料大多是生物醫(yī)藥領(lǐng)域的數(shù)據(jù),而由于化學(xué)領(lǐng)域中手工標(biāo)注這些專業(yè)程度高的語料需要耗費(fèi)大量的時(shí)間與人力成本,純粹基于化學(xué)領(lǐng)域的標(biāo)注數(shù)據(jù)開展的研究相對(duì)缺乏。雖然有學(xué)者使用BERT等大規(guī)模預(yù)訓(xùn)練模型來解決實(shí)體關(guān)系抽取任務(wù)中標(biāo)注數(shù)據(jù)缺乏的問題,但是由于相關(guān)領(lǐng)域數(shù)據(jù)專業(yè)程度極高,識(shí)別的難度依然較大,需要專家的介入。為了解決該問題,本文提出了一種端到端的化學(xué)鍵能自動(dòng)抽取模型,該模型以Pang N等提出的兩階段聯(lián)合BERT-CRF模型為基礎(chǔ),通過結(jié)合本文構(gòu)建的化學(xué)鍵能知識(shí)庫和提出的領(lǐng)域高頻子詞的抽取方法,來保障模型在不需要專家介入下的識(shí)別準(zhǔn)確性。
本文所抽取的化學(xué)鍵能科學(xué)數(shù)據(jù)來自ChemBE語料庫,該數(shù)據(jù)包含7種類型的實(shí)體以及3種類型的實(shí)體之間的關(guān)系[17]。
7種實(shí)體分別為化合物、溶液、反應(yīng)、方法、化學(xué)鍵、化學(xué)鍵能(pKa)指示詞和化學(xué)鍵能值(pKa值),如圖1所示。3種實(shí)體之間的關(guān)系可以在一個(gè)句子中描述:XX化合物在A溶液中發(fā)生B反應(yīng),使用C方法去研究D化學(xué)鍵,其pKa值為E。上述關(guān)系可簡(jiǎn)化為3種關(guān)系,如圖2所示。本文的研究目標(biāo)是從化學(xué)鍵能相關(guān)的科學(xué)論文中抽取7種實(shí)體和3種關(guān)系。
圖2 3種需要抽取的關(guān)系
本文提出的端到端聯(lián)合BERT-CRF抽取模型在輸入時(shí),使用事先抽取好的領(lǐng)域高頻子詞詞典,將單詞切分成具有領(lǐng)域特征子詞作為后面BERT模型的輸入,從而提高抽取結(jié)果的準(zhǔn)確性。圖3為端到端聯(lián)合BERT-CRF抽取模型整體技術(shù)框架。
圖3 端到端聯(lián)合BERT-CRF抽取模型整體技術(shù)框架
2.2.1 化學(xué)鍵能知識(shí)庫構(gòu)建
通過對(duì)化學(xué)論文(如《JOURNAL OF THE AMERICAN CHEMICAL SOCIETY》等期刊的論文)、權(quán)威化學(xué)詞典(如《Dictionary of Chemistry》等詞典)與權(quán)威化學(xué)網(wǎng)站(如PubChem等網(wǎng)站)中包含的文本數(shù)據(jù)進(jìn)行解析、清洗,本文構(gòu)建了包含化合物、化學(xué)反應(yīng)、化學(xué)形容詞、化學(xué)方法等詞典。
2.2.2 抽取領(lǐng)域高頻子詞
子詞是一個(gè)包含有位置信息的詞綴。而領(lǐng)域高頻子詞則指的是在某一專業(yè)領(lǐng)域內(nèi)被頻繁使用來表達(dá)特定含義的修飾詞綴,一般固定地出現(xiàn)在一些專業(yè)名詞的某一位置(前綴或是非前綴位置)。在抽取領(lǐng)域高頻子詞時(shí),使用高頻字符串抽取的思想從知識(shí)庫中的語料抽取化學(xué)鍵能領(lǐng)域的高頻子詞。因此,該任務(wù)可以轉(zhuǎn)化為抽取帶有位置信息的詞綴的任務(wù)。
在抽取領(lǐng)域高頻子詞時(shí),抽取知識(shí)庫中出現(xiàn)頻率大于5的最長(zhǎng)子串。同時(shí),抽取包含前綴和非前綴這兩個(gè)位置信息。用“0”表示前綴,用“1”表示非前綴。算法1為領(lǐng)域子詞抽取算法。然后根據(jù)抽取的領(lǐng)域子詞結(jié)果,改寫后面的BERT深度學(xué)習(xí)模型詞匯表,并在非前綴子詞前面添加“##”符號(hào)來標(biāo)識(shí)。后續(xù)輸入到BERT模型之前,需要首先根據(jù)改寫的詞匯表,將單詞切分成若干在詞匯表中的領(lǐng)域子詞進(jìn)行表征。
算法1:領(lǐng)域子詞抽取算法
表1給出了典型實(shí)例,說明同一單詞“tetramethylpiperidine”的不同子詞切分后的結(jié)果。在改寫了包含領(lǐng)域子詞詞匯表后,與在公共領(lǐng)域中訓(xùn)練的BERT原始詞匯表相比,該詞被切分后保留了更多的語義信息,具有更多的領(lǐng)域特征,有助于在后續(xù)的深度學(xué)習(xí)任務(wù)中獲得更好的抽取效果。
表1 專業(yè)詞匯切分子詞效果前后對(duì)比
在后續(xù)再訓(xùn)練過程中,使用《Journal of Organic Chemmistry》等期刊中70萬篇化學(xué)論文的摘要,對(duì)谷歌訓(xùn)練的12層transformer的參數(shù)進(jìn)行再預(yù)訓(xùn)練。在對(duì)transformer參數(shù)進(jìn)行訓(xùn)練時(shí),使用由化學(xué)領(lǐng)域高頻子詞構(gòu)成的改寫后的詞匯表。通過對(duì)領(lǐng)域無標(biāo)記語料進(jìn)行再預(yù)訓(xùn)練,使參數(shù)可以更好地表征出化學(xué)領(lǐng)域語義特征,有助于提高后續(xù)抽取任務(wù)的準(zhǔn)確性。
2.2.3 端到端聯(lián)合BERT-CRF模型
端到端的聯(lián)合BERT-CRF模型如圖4所示。
圖4 端到端聯(lián)合BERT-CRF模型
與兩階段聯(lián)合BERT-CRF模型相比,端到端聯(lián)合BERT-CRF模型只使用深度學(xué)習(xí)模型來解決復(fù)雜的專業(yè)術(shù)語問題,因此減少了預(yù)測(cè)的時(shí)間。此外,端到端的聯(lián)合BERT-CRF模型在訓(xùn)練過程中更加簡(jiǎn)單,因?yàn)樗鶕?jù)可以表示領(lǐng)域特征的領(lǐng)域高頻子詞直接進(jìn)行訓(xùn)練,對(duì)專家的要求相對(duì)較少,當(dāng)遷移到其他領(lǐng)域時(shí),再遇到復(fù)雜的專業(yè)術(shù)語問題,僅需要較少的專家支持和較少的領(lǐng)域資源即可以完成領(lǐng)域遷移。
之后使用規(guī)模較小的、基于特定任務(wù)的數(shù)據(jù)進(jìn)行下游NER任務(wù)的微調(diào),在下游的網(wǎng)絡(luò)中,本文使用了BERT內(nèi)置的softmax層和CRF層來訓(xùn)練標(biāo)記的數(shù)據(jù)。首先,使用BERT內(nèi)置的softmax層來預(yù)測(cè)標(biāo)簽[18]。logitsi使用softmax進(jìn)行歸一化之前的全連接層的輸出。i表示所屬類別,類別總數(shù)為C。Softmax常用于多分類問題。
(1)
為了避免概率太小而導(dǎo)致歸一化下溢的問題,本文使用了logSoftmax對(duì)數(shù)函數(shù)。logSoftmax函數(shù)可以寫為:
(2)
然后,在BERT模型后添加CRF層,完成下游實(shí)體識(shí)別與關(guān)系識(shí)別任務(wù)。CRF層由Lafferty J等[19]提出,常用于序列標(biāo)記任務(wù)中。本文使用CRF作為下游網(wǎng)絡(luò),共同抽取實(shí)體和關(guān)系。CRF層中有狀態(tài)轉(zhuǎn)換矩陣,可以使用過去和將來的標(biāo)簽來預(yù)測(cè)當(dāng)前的標(biāo)簽,并可以為可能的標(biāo)簽進(jìn)行打分,以給出標(biāo)簽序列的概率。給定一個(gè)輸入序列x={x1,x2,…,xn},一個(gè)預(yù)測(cè)序列y={y1,y2,…,yn},標(biāo)簽序列如式(3)所示[20]:
(3)
式(3)中tj(yi-1,yi,x,i)是觀察序列的轉(zhuǎn)移特征函數(shù),表示在標(biāo)記序列i和i-1位置的標(biāo)記;sk(yi,x,i)為觀測(cè)序列的位置i處標(biāo)簽的狀態(tài)特征函數(shù);λj是訓(xùn)練數(shù)據(jù)中需要估計(jì)的參數(shù)。在式(3)中,Z(x)為標(biāo)準(zhǔn)化因子[20]:
(4)
最優(yōu)輸出序列為y*:
y*=arg maxp(y|x)
2.2.4 模型聯(lián)合抽取標(biāo)注體系
本文的模型中采用了聯(lián)合抽取標(biāo)注體系,目的是利用一個(gè)模型同時(shí)抽取科學(xué)實(shí)體和科學(xué)關(guān)系。傳統(tǒng)的模型先抽取實(shí)體,再根據(jù)抽取的實(shí)體結(jié)果抽取關(guān)系,準(zhǔn)確性較低。聯(lián)合抽取標(biāo)注體系同時(shí)抽取實(shí)體和關(guān)系,可以同時(shí)使用實(shí)體與關(guān)系的特征表示來支持兩個(gè)抽取任務(wù),減少傳統(tǒng)標(biāo)注方式帶來的二次誤差,提高關(guān)系抽取的準(zhǔn)確率。聯(lián)合抽取標(biāo)注體系包含“<位置信息、實(shí)體信息、關(guān)系信息>”3個(gè)部分。標(biāo)注體系編碼了位置信息、實(shí)體信息和關(guān)系信息這3類信息,標(biāo)簽中蘊(yùn)含了實(shí)體信息和關(guān)系信息,如圖5所示。
圖5 聯(lián)合抽取標(biāo)注體系
位置信息有3種選項(xiàng):B、I、O。其中B代表“Begin”,表示實(shí)體的開始;“I”代表“Inter”,表示實(shí)體的中間部分;O表示“其他”,即非實(shí)體詞。實(shí)體信息有7個(gè)選項(xiàng):化合物CMP、溶液SVN、pKa指示詞ENG、化學(xué)鍵BON、方法MTH、化學(xué)反應(yīng)RCT、pKa值EGVL。關(guān)系信息有4種選擇:“CE”(化合物-pKa指示詞)、“SE”(溶液-pKa指示詞)、“EE”(pKa指示詞-pKa鍵能值)、“NR”(無關(guān)系,不需要考慮)。標(biāo)注體系的標(biāo)簽組成如表2所示。
表2 標(biāo)注體系的標(biāo)簽組成
在上面的標(biāo)注體系中,抽取實(shí)體時(shí),
本文使用的實(shí)驗(yàn)數(shù)據(jù)來自ChemBE(化學(xué)鍵能)語料庫[17]。ChemBE語料庫中的語料來自化學(xué)鍵能相關(guān)學(xué)科的20多本主流學(xué)術(shù)期刊,如《Journal of the American Chemical Society》等。該語料庫標(biāo)注了研究問題陳述中需要抽取的7種實(shí)體和3種關(guān)系,是一個(gè)用于自動(dòng)抽取化學(xué)鍵能科學(xué)數(shù)據(jù)的小型語料庫。本文的實(shí)驗(yàn)數(shù)據(jù)可從https://github.com/quewentian/ChemBE-BERT-CRF中獲取,實(shí)驗(yàn)數(shù)據(jù)的詳細(xì)情況如表3所示。
表3 實(shí)驗(yàn)數(shù)據(jù)詳細(xì)情況
本文的基線模型采用Pang N等提出的兩階段聯(lián)合BERT-CRF模型[17],該模型對(duì)有不同文本特征的實(shí)體關(guān)系采用不同的處理方法。兩階段BERT-CRF模型在第一階段使用了專家構(gòu)建的詞典和規(guī)則來抽取包含大量未知的專業(yè)詞匯的實(shí)體關(guān)系;在第二階段使用了標(biāo)識(shí)符替換第一階段識(shí)別出來的未登錄詞匯(即,沒有在BERT模型的詞表中出現(xiàn)過的詞),并將其輸入到BERT模型中進(jìn)行訓(xùn)練。圖7為兩階段聯(lián)合BERT-CRF模型。
圖7 兩階段聯(lián)合BERT-CRF模型
本文對(duì)不同的端到端聯(lián)合BERT模型設(shè)置進(jìn)行了實(shí)驗(yàn),并且在整體的實(shí)體關(guān)系聯(lián)合標(biāo)注數(shù)據(jù)上設(shè)計(jì)了幾組對(duì)比實(shí)驗(yàn):首先,對(duì)比不同的下游網(wǎng)絡(luò)組合,在BERT后添加不同的下游網(wǎng)絡(luò);其次,對(duì)比不同的BERT模型的輸入,即,對(duì)比是否使用到了領(lǐng)域高頻子詞。
不同的網(wǎng)絡(luò)組合有兩種下游網(wǎng)絡(luò)可以選擇:softmax層和CRF層。這兩個(gè)下游網(wǎng)絡(luò)可以將BERT模型的輸出歸一化為概率。
不同領(lǐng)域高頻子詞也有兩個(gè)選擇:原始的基于全領(lǐng)域訓(xùn)練得到的全領(lǐng)域高頻子詞,以及本文中基于化學(xué)鍵能領(lǐng)域知識(shí)庫訓(xùn)練得到的化學(xué)鍵能領(lǐng)域高頻子詞。使用不同的高頻子詞來切分未登錄單詞,然后將這些單詞切分后的子詞輸入到BERT模型中。
從表4可以看出,端到端模型最佳的識(shí)別結(jié)果可以媲美之前提出的兩階段模型的最佳結(jié)果,端到端BERT-CRF模型與化學(xué)鍵能領(lǐng)域高頻子詞都采用的情況下,相較于之前提出的兩階段BERT-CRF模型的F1值只下降了1.26%。但是考慮到中間不需要針對(duì)領(lǐng)域?qū)I(yè)術(shù)語去人工構(gòu)建規(guī)則,該結(jié)果的準(zhǔn)確性相對(duì)理想,這也證明了可以使用類似的想法以較低的成本遷移到其他領(lǐng)域。
表4 不同模型設(shè)置的實(shí)驗(yàn)結(jié)果
表5和表6顯示了端到端BERT-CRF模型中使用化學(xué)鍵能領(lǐng)域高頻子詞分別在實(shí)體抽取和關(guān)系抽取上的結(jié)果(實(shí)體抽取的結(jié)果,不再考慮標(biāo)注體系中后面的關(guān)系信息),其中大多數(shù)實(shí)體和關(guān)系抽取效果較好。然而,對(duì)于一些實(shí)體和關(guān)系,由于語法結(jié)構(gòu)和構(gòu)詞規(guī)則的復(fù)雜性,準(zhǔn)確性仍有較大的提升空間。圖8展示了部分未準(zhǔn)確抽取的錯(cuò)例,可以看到由于化合物實(shí)體的構(gòu)詞往往較為復(fù)雜,部分化合物難以完整且準(zhǔn)確地識(shí)別。由于語料中參考文獻(xiàn)的引用編號(hào)在預(yù)處理中未完全清除,因此部分?jǐn)?shù)值型實(shí)體會(huì)和參考文獻(xiàn)的編號(hào)混雜在一起,從而干擾數(shù)值型實(shí)體的抽取。此外,長(zhǎng)難句等復(fù)雜的語言結(jié)構(gòu)會(huì)為實(shí)體和關(guān)系的識(shí)別造成一定的困難。因此,未來考慮在預(yù)處理階段盡可能地剔除參考文獻(xiàn)的引用編號(hào)來增加抽取的準(zhǔn)確性;考慮在模型中引入更多的外部知識(shí)來提高語義的表征能力,進(jìn)一步提升復(fù)雜的實(shí)體與關(guān)系抽取準(zhǔn)確性。
表5 端到端BERT-CRF模型+化學(xué)鍵能領(lǐng)域高頻子詞實(shí)體抽取結(jié)果
表6 端到端BERT-CRF模型+化學(xué)鍵能領(lǐng)域高頻子詞關(guān)系抽取結(jié)果
圖8 錯(cuò)例分析
本文將代碼部署為服務(wù),使用不同的顏色來顯示不同的實(shí)體,并使用下劃線來標(biāo)記具有重要關(guān)系的句子,如圖9所示。
圖9 系統(tǒng)部署界面
本文提出了一種端到端的聯(lián)合抽取模型,并提出了自動(dòng)構(gòu)造化學(xué)鍵能領(lǐng)域高頻子詞的方法,利用蘊(yùn)含豐富領(lǐng)域特征的領(lǐng)域高頻子詞對(duì)大量未登錄詞進(jìn)行分解后再輸入深度學(xué)習(xí)模型中進(jìn)行訓(xùn)練,解決了大量的未知專業(yè)詞匯的問題。實(shí)驗(yàn)結(jié)果證明了該方法的有效性。該方法的抽取結(jié)果可以媲美兩階段BERT-CRF模型抽取的結(jié)果[17],但是該方法顯著降低了對(duì)領(lǐng)域?qū)<业囊?,并且可以迅速、低成本地遷移到其他領(lǐng)域。
未來將嘗試在之前構(gòu)建的知識(shí)庫中引入更多的外部知識(shí),并向深度學(xué)習(xí)模型中加入更多的領(lǐng)域特征,例如詞法、句法等外部知識(shí)[21],以解決復(fù)雜的實(shí)體和關(guān)系抽取準(zhǔn)確度低的問題。