23
生物醫(yī)學(xué)領(lǐng)域積累了豐富的數(shù)字化文獻資源。隨著新知識不斷涌現(xiàn),從海量自然語言文本中自動發(fā)現(xiàn)生物醫(yī)學(xué)概念之間的語義關(guān)系,有助于人們快速理解醫(yī)學(xué)文本內(nèi)容、構(gòu)建醫(yī)學(xué)知識網(wǎng)絡(luò)等研究。
傳統(tǒng)的關(guān)系抽取任務(wù)主要面向特定領(lǐng)域,借助自然語言處理工具人工構(gòu)建關(guān)系模板,以識別特定類型的實體及其語義關(guān)系[1]。在生物醫(yī)學(xué)領(lǐng)域,包括美國國家醫(yī)學(xué)圖書館(National Library of Medicine,NLM)、生物整合信息學(xué)基金會(Informatics for Integrating Biology & the Beside,i2b2)等國際組織及評測會議有力推動了生物醫(yī)學(xué)實體關(guān)系抽取研究[2-4]。
近年來,針對互聯(lián)網(wǎng)數(shù)據(jù)包含大量復(fù)雜關(guān)系的特點,開放式信息抽取(Open Information Extraction,Open IE)研究逐漸興起[5]。不同于傳統(tǒng)關(guān)系抽取任務(wù),開放式關(guān)系抽取無需預(yù)先定義關(guān)系類型,而是利用上下文中的關(guān)系短語(Relation Phrases)描述實體或概念之間的語義關(guān)系。如給定句子“吉非替尼對非小細(xì)胞肺癌細(xì)胞的體外抑制作用”,其中關(guān)系短語“體外抑制作用”表示了醫(yī)學(xué)概念“吉非替尼”和“非小細(xì)胞肺癌細(xì)胞”之間的語義關(guān)系。
Banko等于2007年首先提出了Open IE的研究思路[6],之后陸續(xù)涌現(xiàn)出的Text Runner[7]、WOE[8]、ReVerb[9]、R2A2[10]等英文Open IE系統(tǒng),可大規(guī)模抽取以動詞為核心的關(guān)系,但無法有效提取以名詞、形容詞等為核心的關(guān)系元組。如Schmitz等提出的第二代英文開放式關(guān)系抽取系統(tǒng)OLLIE[11],可同時抽取以動詞、名詞、形容詞等為核心的二元開放式關(guān)系元組,并有效融入了上下文信息,其局限是易受依存分析錯誤的影響;Del Corro等提出的一種基于子句的英文開放式關(guān)系抽取方法ClausIE[12],將關(guān)系抽取分為檢測有用信息碎片和抽取關(guān)系表達形式兩個子任務(wù);Akbik等提出了基于句法特征及依存路徑檢測高階n元實體關(guān)系的KRAKEN系統(tǒng)[13];Zhu等提出的StatSnowball[14]和Liu 等提出的EntSum[15]分別通過引入聯(lián)合推理機制[16]抽取深層隱含關(guān)系;卡內(nèi)基梅隆大學(xué)研發(fā)的Never Ending Language Learning(NELL)系統(tǒng)[17-18]是本體推理的代表,基于初始本體類別和種子學(xué)習(xí)規(guī)則,從Web上抽取了超過5 000萬的事實型信息,其中近200萬抽取結(jié)果的可信度為95%;Mausam 等提出了OPENIE4[19]系統(tǒng),基于語義角色標(biāo)注系統(tǒng)SRLIE[20]實現(xiàn)了名詞引導(dǎo)的關(guān)系抽?。籗aha等人提出的OPENIE5[21]系統(tǒng)針對數(shù)字句的提取進行改進,通過切斷連接詞以抽取多個關(guān)系元組;Cui等人[22]提出了一種基于Encoder-Decoder框架的神經(jīng)網(wǎng)絡(luò)開放式信息抽取方法,通過學(xué)習(xí)已有Open IE系統(tǒng)的關(guān)系抽取結(jié)果,進一步獲得高置信度的開放式關(guān)系元組。同期出現(xiàn)的還有Stanford OPENIE[23]、PropS[24]等系統(tǒng),并已成功應(yīng)用于不同任務(wù)場景。
由于中文和英文之間存在語言學(xué)差異,已有的英文開放式關(guān)系抽取方法不能直接移植到中文領(lǐng)域。有研究者嘗試研究面向通用領(lǐng)域的中文開放式關(guān)系抽取任務(wù)。如劉安安[25]提出了面向大規(guī)模網(wǎng)絡(luò)文本的無監(jiān)督開放式中文實體關(guān)系抽取方法(UnCORE);王明印[26]提出的結(jié)合條件隨機場(Conditional Random Fields,CRF)與Bootstrap自舉框架的半監(jiān)督開放式中文實體關(guān)系抽取方法(SCOERE),在新聞網(wǎng)頁語料上實驗取得0.732的F值;Tseng[27]等提出的中文開放式關(guān)系抽取系統(tǒng)CORE,從自由文本中抽取了超過1 300萬條中文實體關(guān)系,并應(yīng)用于開放領(lǐng)域自動問答任務(wù)。當(dāng)前中文生物醫(yī)學(xué)領(lǐng)域主要集中在限定類型的傳統(tǒng)實體關(guān)系抽取研究[28-29],而尚無深入探討中文生物醫(yī)學(xué)文本的開放式概念關(guān)系抽取方法的報道。
本文針對生物醫(yī)學(xué)領(lǐng)域概念數(shù)量多、概念之間關(guān)系類型復(fù)雜等特點,提出了一種基于BiLSTM-CRF模型的中文生物醫(yī)學(xué)開放式概念關(guān)系抽取方法,將中文生物醫(yī)學(xué)開放式概念關(guān)系抽取轉(zhuǎn)換為詞序列到關(guān)系標(biāo)簽序列的生成問題。BiLSTM-CRF模型是當(dāng)前序列標(biāo)注任務(wù)中的主流深度學(xué)習(xí)框架[30]。在中文生物醫(yī)學(xué)文獻數(shù)據(jù)集上的實驗結(jié)果表明,基于BiLSTM-CRF的中文開放式概念關(guān)系抽取方法具有較好的魯棒性和泛化性。
實驗數(shù)據(jù)源自中國生物醫(yī)學(xué)文獻數(shù)據(jù)庫(China Biology Medicine disc,CBM)。以“肺腫瘤”為檢索主題,于2018年1月通過中國生物醫(yī)學(xué)文獻服務(wù)系統(tǒng)(SinoMed)檢索2011-2017年出版的中文文獻,共遴選出4 913篇中文生物醫(yī)學(xué)文獻題錄信息,包括流水號、中文標(biāo)題、中文摘要、中文關(guān)鍵詞等。經(jīng)觀察發(fā)現(xiàn)實驗語料中的摘要結(jié)構(gòu)主要有3類:第一類是無摘要文獻,即摘要內(nèi)容實際為文獻正文的第一段;第二類是結(jié)構(gòu)式摘要,包括目的、方法、結(jié)果、結(jié)論等;第三類是常規(guī)綜述性摘要。經(jīng)統(tǒng)計第一類文獻1 246篇,第二類文獻3 075篇,第三類文獻592篇。
為正確識別生物醫(yī)學(xué)文本中出現(xiàn)的專業(yè)概念,選取了2015版CMeSH詞表的部分內(nèi)容作為實驗用生物醫(yī)學(xué)詞表。遴選范圍包括解剖學(xué)、疾病、藥物等主題(A-G類)的中英文主題詞及術(shù)語(款目詞),共計50 477條生物醫(yī)學(xué)術(shù)語。經(jīng)統(tǒng)計實驗詞表中術(shù)語的字長在1~45字之間,其中包含2~12字的術(shù)語約占總量的95%。
首先,分別對不同類型文獻進行清洗及分句處理。其中,第一類文獻摘要去除末尾的[第一段]標(biāo)識,并根據(jù)標(biāo)點符號進行分句;第二類文獻根據(jù)摘要內(nèi)容標(biāo)記(即“目的”“方法”“結(jié)果”“結(jié)論”)進行分塊,提取句子的同時標(biāo)注對應(yīng)的標(biāo)記;第三類文獻直接根據(jù)標(biāo)點符號進行分句。
其次,選取領(lǐng)域泛化性能較好的自然語言處理工具(Language Technology Platform,LTP)語言技術(shù)平臺[31]作為文本預(yù)處理工具,并利用實驗詞表及少量人工標(biāo)注的生物醫(yī)學(xué)文本語料對其進行領(lǐng)域優(yōu)化,進而對分句結(jié)果進行中文分詞及詞性標(biāo)注等預(yù)處理。
本文關(guān)注同一句子中的二元開放式概念關(guān)系。基于Pipeline思想,設(shè)計了中文生物醫(yī)學(xué)開放式概念關(guān)系抽取框架(圖1)。
首先從中文生物醫(yī)學(xué)文本中自動識別生物醫(yī)學(xué)概念,并篩選包含兩個及以上概念的句子作為候選關(guān)系句;其次從候選關(guān)系句中抽取非限定類型的中文生物醫(yī)學(xué)開放式概念關(guān)系元組,并與人工標(biāo)注結(jié)果進行對比評價。
圖1 中文生物醫(yī)學(xué)開放式概念關(guān)系抽取框架
針對生物醫(yī)學(xué)文本中概念數(shù)量龐大且類型多樣的特點,采用結(jié)合詞典及規(guī)則匹配的方法從中文生物醫(yī)學(xué)文本中自動識別生物醫(yī)學(xué)概念,流程如圖2所示。
其中,詞典匹配方法是基于實驗詞表對句子中的短語進行正向最大字符串匹配,保留最大匹配短語及其位置信息。該方法對長術(shù)語的匹配精度較高,但無法覆蓋未登錄概念。
圖2中文生物醫(yī)學(xué)概念識別
規(guī)則匹配方法是通過分析實驗詞表、文獻標(biāo)題及關(guān)鍵詞中的術(shù)語詞性組合及頻次分布規(guī)律,對生物醫(yī)學(xué)術(shù)語的構(gòu)詞規(guī)則進行總結(jié),再基于構(gòu)詞規(guī)則對句子短語進行正則匹配。該方法有助于發(fā)現(xiàn)未登錄術(shù)語。經(jīng)分析發(fā)現(xiàn),實驗詞表中99%的術(shù)語包含名詞、動詞或形容詞,組合形式有“名詞+名詞”(如“淋巴組織”)、“形容詞+名詞”(如“小細(xì)胞癌”)、“名詞+動詞”(如“喉頭痙攣”)等。此外,組合中常見英文字符和標(biāo)點符號(如括號“()”),而語氣詞、狀態(tài)詞、嘆詞、擬聲詞和代詞等很少見。選取頻次大于5的詞性規(guī)則形成正則表達式,共生成無重復(fù)的術(shù)語構(gòu)詞規(guī)則3 248條,由此對句子短語進行正則匹配。
利用上述兩種方法對實驗語料中的每個句子進行術(shù)語匹配后合并去重,篩選包含兩個以上生物醫(yī)學(xué)概念的句子作為候選關(guān)系句子。
BiLSTM-CRF模型結(jié)合了BiLSTM網(wǎng)絡(luò)(Bidirectional LSTM Network)與CRF模型的優(yōu)點。其中,BiLSTM層融合了兩組方向相反的長短時記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò),可同時學(xué)習(xí)過去和將來的信息;CRF層能夠?qū)W習(xí)句子級標(biāo)簽的上下文信息,在BiLSTM層上增加CRF層可以輸出更加合理的標(biāo)簽。BiLSTM-CRF的網(wǎng)絡(luò)結(jié)構(gòu)包括輸入層(詞/字向量表示)、BiLSTM層以及CRF層(圖3)。
圖3 BiLSTM-CRF網(wǎng)絡(luò)結(jié)構(gòu)
(1)
(2)
(3)
結(jié)合詞典匹配與規(guī)則匹配方法,從4 913篇實驗文獻的41 733條原始句子中識別了97 373個生物醫(yī)學(xué)概念(術(shù)語)。隨機選取200篇文獻的概念識別結(jié)果進行人工評價,初步評價結(jié)果見表1。其中,合并兩種匹配方法的概念識別綜合F1值為0.7604。從原始句子中遴選包含2個以上概念的句子,共獲得20 838條候選關(guān)系句子。
表1 中文生物醫(yī)學(xué)概念識別結(jié)果
由3位有醫(yī)學(xué)專業(yè)背景的標(biāo)注人員對上述候選關(guān)系句子進行人工標(biāo)注,采用以下標(biāo)簽對關(guān)系短語進行標(biāo)識:REL_S表示概念間的關(guān)系短語為單一詞;REL_B表示關(guān)系短語為多個詞,當(dāng)前詞為首詞;REL_I表示關(guān)系短語為多個詞,當(dāng)前詞非首詞;REL_E表示關(guān)系詞為多個詞,當(dāng)前詞為結(jié)尾詞;REL_O表示當(dāng)前詞不屬于關(guān)系詞。
實驗平臺配置如下:使用Windows Server 2012 R2 Datacenter為服務(wù)器操作系統(tǒng)、 Intel Xeon Gold 6130 CPU 2.10GHz為處理器,內(nèi)存512GB。利用PyTorch 0.4.0實現(xiàn)了基于BiLSTM-CRF的中文生物醫(yī)學(xué)開放式概念關(guān)系抽取模型,參數(shù)設(shè)置為學(xué)習(xí)率0.001、批量大小為32、訓(xùn)練步數(shù)為10 000。對比實驗為基于CRF模型的概念關(guān)系抽取方法和基于LSTM網(wǎng)絡(luò)的概念關(guān)系抽取方法。其中,CRF模型利用CRF++ 0.58實現(xiàn),訓(xùn)練特征包括詞、詞長、POS、依存分析等;利用Tensorflow1.8.0實現(xiàn)基于LSTM的關(guān)系抽取模型,參數(shù)設(shè)置為學(xué)習(xí)率0.001、批量大小為20、訓(xùn)練步數(shù)為10 000。以上每種方法均進行了10倍交叉驗證。
以準(zhǔn)確率(Precision)、召回率(Recall)和F1(Micro F1 score)值作為實驗評價指標(biāo),實驗結(jié)果如表2所示。從表2可以看出,基于BiLSTM-CRF的中文生物醫(yī)學(xué)開放式概念關(guān)系抽取方法的準(zhǔn)確率、召回率及F1值均明顯高于其他方法,說明該方法對關(guān)系短語序列的標(biāo)注效果較好,并具備更強的魯棒性和泛化能力。
表2 中文生物醫(yī)學(xué)開放式概念關(guān)系抽取結(jié)果
基于不同方法的關(guān)系抽取結(jié)果樣例見表3。與人工標(biāo)注的概念關(guān)系元組對比,可以看出對于句法結(jié)構(gòu)較清晰的句子(樣例1),說明3種方法的關(guān)系短語提取效果普遍較好。對于包含并列、嵌套等復(fù)雜結(jié)構(gòu)的句子(樣例3),往往提取到不完整或錯誤的關(guān)系詞。此外,由于概念識別階段錯誤的影響,也會導(dǎo)致關(guān)系元組提取錯誤。
總體而言,基于BiLSTM-CRF的關(guān)系抽取方法對于關(guān)系語義塊的邊界識別更準(zhǔn)確,從而能夠提取更多關(guān)系元組。
通過對實驗結(jié)果的定量和定性分析發(fā)現(xiàn),影響中文開放式概念關(guān)系抽取效果的因素主要包括以下方面:一是生物醫(yī)學(xué)文本中常見省略句子謂語的現(xiàn)象,不利于提取以動詞為核心的關(guān)系短語;二是對于過長或結(jié)構(gòu)復(fù)雜的句子,如并列結(jié)構(gòu)、嵌套子句等,正確提取關(guān)系詞的難度較大;三是不同類別概念之間的關(guān)系描述有很大差異;四是概念識別階段的錯誤也會影響關(guān)系詞識別的準(zhǔn)確性。
表3 中文生物醫(yī)學(xué)開放式概念關(guān)系抽取樣例
面向中文生物醫(yī)學(xué)開放式概念關(guān)系抽取任務(wù),實現(xiàn)了基于BiLSTM-CRF模型的開放式概念關(guān)系抽取模型。在中文生物醫(yī)學(xué)文獻數(shù)據(jù)集上的實驗結(jié)果表明,得益于雙向LSTM組件,基于BiLSTM-CRF模型的中文生物醫(yī)學(xué)開放式概念關(guān)系抽取方法可以有效利用過去和未來的輸入特性,并結(jié)合CRF層的句子級標(biāo)簽信息,F(xiàn)1值達到0.5221,對關(guān)系短語序列的標(biāo)注效果優(yōu)于傳統(tǒng)的CRF模型和LSTM網(wǎng)絡(luò),具備更強的魯棒性和泛化性。
當(dāng)前研究采用Pipeline兩階段框架,先識別句子中的概念,再預(yù)測概念之間的關(guān)系。其局限是需要遍歷所有概念對,時間長,復(fù)雜度較高,而且在概念識別階段產(chǎn)生的錯誤會傳播到關(guān)系抽取階段。鑒于目前有研究探討概念與關(guān)系的聯(lián)合抽取方法,我們將在后續(xù)研究中嘗試?yán)寐?lián)合學(xué)習(xí)的方法抽取中文生物醫(yī)學(xué)概念及其開放式關(guān)系短語。此外,針對并列及嵌套關(guān)系的抽取問題,也將嘗試結(jié)合領(lǐng)域知識并引入深層子句分析等策略。