趙丹丹 張俊朋 孟佳娜 張志浩 蘇文
北京大學(xué)學(xué)報(自然科學(xué)版) 第59卷 第1期 2023年1月
Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 59, No. 1 (Jan. 2023)
10.13209/j.0479-8023.2022.065
國家自然科學(xué)基金(61876031)和國家科技創(chuàng)新2030—“新一代人工智能”重大項目(2020AAA08000)資助
2022?05?09;
2022?07?26
基于預(yù)訓(xùn)練模型和混合神經(jīng)網(wǎng)絡(luò)的醫(yī)療實體關(guān)系抽取
趙丹丹 張俊朋 孟佳娜?張志浩 蘇文
大連民族大學(xué)計算機科學(xué)與工程學(xué)院, 大連 116600; ? 通信作者, E-mail: mengjn@dlnu.edu.cn
醫(yī)療文本具有實體密度高、句式冗長等特點, 簡單的神經(jīng)網(wǎng)絡(luò)方法不能很好地捕獲其語義特征, 因此提出一種基于預(yù)訓(xùn)練模型的混合神經(jīng)網(wǎng)絡(luò)方法。首先使用預(yù)訓(xùn)練模型獲取動態(tài)詞向量, 并提取實體標(biāo)記特征; 然后通過雙向長短期記憶網(wǎng)絡(luò)獲取醫(yī)療文本的上下文特征, 同時使用卷積神經(jīng)網(wǎng)絡(luò)獲取文本的局部特征; 再使用注意力機制對序列特征進行加權(quán), 獲取文本全局語義特征; 最后將實體標(biāo)記特征與全局語義特征融合, 并通過分類器得到抽取結(jié)果。在醫(yī)療領(lǐng)域數(shù)據(jù)集上的實體關(guān)系抽取實驗結(jié)果表明, 新提出的混合神經(jīng)網(wǎng)絡(luò)模型的性能比主流模型均有提升, 說明這種多特征融合的方式可以提升實體關(guān)系抽取的效果。
醫(yī)療文本; 關(guān)系抽取; 混合神經(jīng)網(wǎng)絡(luò); 預(yù)訓(xùn)練模型
隨著醫(yī)療信息化的推進, 醫(yī)療領(lǐng)域產(chǎn)生大量非結(jié)構(gòu)化的文本, 如醫(yī)學(xué)文獻和臨床記錄等。這些文本包含豐富的醫(yī)療信息, 如藥物和疾病等醫(yī)療實體以及臨床表現(xiàn)和藥物治療等實體關(guān)系。在非結(jié)構(gòu)化的醫(yī)療文本中挖掘有用信息, 構(gòu)建高水平的醫(yī)療知識庫, 能夠促進醫(yī)療信息化的發(fā)展, 也是自然語言處理(natural language processing, NLP)領(lǐng)域重要的研究方向。
實體關(guān)系抽取是信息抽取[1]的重要任務(wù)之一, 旨在從非結(jié)構(gòu)化的文本中抽取出不同實體之間的語義關(guān)系, 從而提取有用的信息, 這是構(gòu)建知識圖譜時一個非常重要的過程[2]。在 1998 年的信息理解會議(message understanding conference, MCU)上首次提出實體關(guān)系抽取任務(wù), 經(jīng)過多年的發(fā)展, 通用領(lǐng)域的關(guān)系抽取任務(wù)已經(jīng)較好地完成。醫(yī)療領(lǐng)域的實體關(guān)系抽取發(fā)展較晚, 早期的生物醫(yī)療關(guān)系任務(wù)有蛋白質(zhì)?蛋白質(zhì)關(guān)系抽取(protein-protein interaction, PPI)[3]、化合物?疾病關(guān)系抽取(chemical-disease re-lation, CDR)[4]以及藥物?藥物關(guān)系抽取(drug-drug interaction, DDI)[5]等。后來, 醫(yī)療領(lǐng)域的實體關(guān)系抽取逐漸成為研究熱點。
早期醫(yī)療領(lǐng)域的實體關(guān)系抽取方法均基于詞典和規(guī)則層面, 需要由醫(yī)療領(lǐng)域的專家制定專業(yè)的醫(yī)療詞典和醫(yī)療知識庫, 再設(shè)計制定規(guī)則模板來進行醫(yī)療實體關(guān)系的抽取[6]?;谠~典和規(guī)則的方法有一定的效果, 但是需要醫(yī)療專家的專業(yè)知識, 其準確率依賴于詞典和規(guī)則的質(zhì)量, 在大規(guī)模醫(yī)療文本數(shù)據(jù)集上的泛化能力和效果很差。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展, 神經(jīng)網(wǎng)絡(luò)方法被用于醫(yī)療實體關(guān)系抽取, 減少了對人工的依賴, 可以穩(wěn)定并準確地從醫(yī)療文本中學(xué)習(xí)特征。卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)[7]可以獲取文本的局部特征, 但忽略了文本的長距離依賴。循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)[8]可以獲取文本的上下文語義特征, 但不能提取局部信息, 且忽略了句法和語義層面的特征。注意力機制(atten-tion mechanism, ATT)[9]可以加權(quán)序列特征, 增強模型捕獲文本特征的能力。Google 團隊 2018 年發(fā)布以 Transformers 為基礎(chǔ)的預(yù)訓(xùn)練語言模型(bidirec-tional encoder representations from transformers, BE-RT)[10], 能夠獲取結(jié)合上下文語境的動態(tài)詞向量, 在自然語言處理領(lǐng)域取得良好的效果。
不同于通用領(lǐng)域的文本, 醫(yī)療領(lǐng)域的文本中存在大量分布密集的專業(yè)領(lǐng)域?qū)嶓w, 實體之間關(guān)系交錯復(fù)雜, 簡單的神經(jīng)網(wǎng)絡(luò)方法無法有效地獲取文本中的語義特征。如在“胰腺癌首次治療 4 個月后, 上腹部超聲檢查顯示胰腺腫塊與肝轉(zhuǎn)移?!边@個醫(yī)療文本實例中存在 3 種類型(疾病、檢查和癥狀)的 4個實體(胰腺癌、上腹部超聲檢查、胰腺腫塊和肝轉(zhuǎn)移), 并存在(胰腺癌, 影像學(xué)檢查, 上腹部超聲檢查)、(胰腺癌, 臨床表現(xiàn), 胰腺腫塊)和(胰腺癌, 臨床表現(xiàn), 肝轉(zhuǎn)移)3 組關(guān)系。醫(yī)療領(lǐng)域文本中常見類似的實體密度高、句式冗長、實體關(guān)系交錯互聯(lián)的現(xiàn)象。
針對上述問題, 本文提出基于預(yù)訓(xùn)練模型和混合神經(jīng)網(wǎng)絡(luò)的醫(yī)療實體關(guān)系抽取模型。該模型采用預(yù)訓(xùn)練語言模型 BERT 動態(tài)地獲取文本的詞向量, 并提取實體標(biāo)記(entity tagging)特征, 用雙向長短期記憶網(wǎng)絡(luò)(bidirectional long-short term memory, BiL-STM)獲取醫(yī)療文本的全局上下文語義, 用 CNN 對醫(yī)療文本的局部信息特征進行抽象提取和表示, 最后通過注意力機制加權(quán), 結(jié)合實體標(biāo)記特征, 對文本關(guān)系進行分類。模型采用 BiLSTM 和 CNN 并行獲取上下文語義, 兼具兩類神經(jīng)網(wǎng)絡(luò)的優(yōu)點, 兼顧全局和局部特征, 可以有效地減少醫(yī)療領(lǐng)域?qū)嶓w密集和句式冗長對關(guān)系抽取結(jié)果的影響。
早期的實體關(guān)系抽取大多在通用領(lǐng)域進行, 主要有基于詞典的方法、基于規(guī)則的方法和基于模式匹配的方法。Miller 等[11]采用對實體信息詞匯化的, 概率分布與上下文無關(guān)的語法解析器來生成規(guī)則, 進行實體關(guān)系抽取?;谠~典和規(guī)則的方法依賴于詞典和規(guī)則的質(zhì)量, 并且遷移難度大, 無法應(yīng)用到其他領(lǐng)域。傳統(tǒng)的機器學(xué)習(xí)方法中有基于特征向量(feature-based)的方法, 通過自然語言處理工具提取文本中的重要特征(如依存關(guān)系和詞塊等), 進而描述實體之間的關(guān)系, 再采用機器學(xué)習(xí)模型(如最大熵和條件隨機場)進行實體關(guān)系抽取。Zelenko 等[12]通過淺層句法分析設(shè)計樹核函數(shù), Culotta 等[13]通過依存句法捕獲對象間的相似性來構(gòu)造樹核函數(shù), Kim 等[14]采用基于特征的線性核函數(shù)方法抽取藥物之間的關(guān)系。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展, 神經(jīng)網(wǎng)絡(luò)方法在通用領(lǐng)域的實體關(guān)系抽取中也有所突破。經(jīng)典的實體關(guān)系抽取有基于 CNN 的方法、基于 RNN 的方法和基于 LSTM[15]的方法?;?CNN 的方法通過卷積核對輸入文本進行卷積操作, 編碼文本信息, 提取文本的局部特征。Zeng 等[16]提出采用卷積神經(jīng)網(wǎng)絡(luò)來提取詞匯和句子特征, 將這兩級特征拼接作為特征向量進行關(guān)系抽取, 解決了預(yù)處理提取特征可能造成錯誤傳播的問題。基于 RNN 的方法通過RNN 處理單元內(nèi)部的前饋連接和反饋連接, 可以學(xué)習(xí)文本序列的上下文依賴特征。Socher 等[17]使用RNN 獲取語句的內(nèi)部特征和相鄰短語信息特征進行關(guān)系抽取。基于 LSTM 的方法通過門控機制來提取文本的語義特征, 解決了 RNN 易出現(xiàn)梯度消失以及梯度爆炸的問題。注意力機制可以對輸入特征進行加權(quán), 通常結(jié)合神經(jīng)網(wǎng)絡(luò)進行關(guān)系抽取。閆雄等[18]將注意力機制與 CNN 相結(jié)合進行關(guān)系抽取, 使用注意力機制獲取原始詞向量之間的相互關(guān)系, 彌補了 CNN 提取特征能力不足的問題。
深度學(xué)習(xí)方法在醫(yī)療領(lǐng)域的實體關(guān)系抽取中也取得良好的效果。Liu 等[19]將 Text-CNN 與生物醫(yī)學(xué)領(lǐng)域預(yù)訓(xùn)練詞向量和位置向量相結(jié)合, 進行藥物之間關(guān)系的提取, 緩解了生物醫(yī)學(xué)文本中實體對分布密集的問題。關(guān)鵬舉等[20]將 BiLSTM 網(wǎng)絡(luò)的輸出進行平均池化處理, 然后使用 Softmax 在臨床醫(yī)療文本上進行關(guān)系分類, 取得良好的效果。Wei 等[21]將 BERT 預(yù)訓(xùn)練模型用于臨床關(guān)系抽取, 也取得良好的效果, 證明了 BERT 在醫(yī)療關(guān)系抽取任務(wù)中的有效性。
本文提出的基于預(yù)訓(xùn)練模型與混合神經(jīng)網(wǎng)絡(luò)相結(jié)合的醫(yī)療實體關(guān)系抽取模型總體結(jié)構(gòu)如圖 1 所示, 分為 5 個步驟。
1)文本表示: 對于輸入的醫(yī)療文本序列, 通過預(yù)訓(xùn)練模型 BERT 獲取包含上下文特征的字向量, 作為混合神經(jīng)網(wǎng)絡(luò)的輸入。
2)上下文信息建模: 采用雙向的 LSTM, 獲取文本中結(jié)合上下文信息的長期依賴特征。
3)局部特征建模: 對獲得的字向量序列進行卷積和池化, 提取文本的局部特征。
4)特征加權(quán): 利用注意力機制對序列重新加權(quán), 給予較重要的特征向量較大的權(quán)重。
5)關(guān)系預(yù)測: 融合多種特征, 并且使用 Soft-Max 分類器計算每個關(guān)系的置信度, 進行關(guān)系類別 預(yù)測。
為獲取輸入序列文本的位置特征, 突出實體特征與實體關(guān)系抽取任務(wù)的相關(guān)性, 本文模型用的形式, 將輸入序列中的實體對進行實體標(biāo)記, 模型可以由此學(xué)習(xí)到輸入序列中每個字符與各個實體之間的距離特征以及針對提及實體的語義信息。使用實體標(biāo)記可以突出表示頭實體和尾實體的特征, 減弱非提及實體的影響, 降低醫(yī)療關(guān)系抽取中實體密度高對關(guān)系抽取性能的影響。例如, 輸入文本“胰腺癌首次治療 4 個月后, 上腹部超聲檢查顯示胰腺腫塊與肝轉(zhuǎn)移。”經(jīng)過上述處理之后, 轉(zhuǎn)換為“首次治療 4 個月后, 上腹部超聲檢查顯示胰腺腫塊與?!? 最后使用 BERT 獲取動態(tài)字向量, 其流程如圖 2 所示, 其中1,2, …,37和1,2, …,37為 BERT 的隱藏狀態(tài)向量表示。BERT 獲取的動態(tài)詞向量能夠獲取文本的深層次語義信息, 并解決一詞多義問題, 針對醫(yī)療文本中的醫(yī)療領(lǐng)域?qū)I(yè)詞匯, 能夠獲取更加豐富的語義表示, 提升模型對醫(yī)療文本特征的捕獲 能力。
使用 BERT 獲取文本的詞向量, 將長度為的文本序列表示為= (1,2, …,)。在文本序列首尾分別添加“[CLS]”和“[SEP]”標(biāo)志, 則 BERT 輸出的文本序列向量可以表示為
= BERT([CLS],1,2, …,, [ SEP])
= (1,2, …,), (1)
其中,表示輸入序列的第個文字,為輸入序列的向量化表示。
醫(yī)療文本的句式冗長問題導(dǎo)致提及實體在句子中的分布較為分散, 采用 BiLSTM 可以提取文本的上下文信息和深層語義信息。BiLSTM 對序列特征進行前向和后向兩次 LSTM 訓(xùn)練優(yōu)化, 捕獲前后字詞之間的語義關(guān)系, 增強語義信息, 保證提取特征的全局性和完整性, 緩解句式冗長的問題。作為一種特殊的 RNN 模型, LSTM 可以很好地提取文本序列信息, 其門控機制解決了用 RNN 提取長期依賴時梯度爆炸和梯度消失的問題。
在醫(yī)療關(guān)系抽取中, 頭實體和尾實體的順序不一定是前后順序, 且序列后面的特征可能對序列前面的特征有影響。因此, 我們將前向 LSTM 和后向LSTM 拼接為 BiLSTM, 用來獲取序列的上下文依賴信息, 提高模型對序列長期依賴特征的捕獲能力。對于 BERT 文本表示層輸出的序列特征=(1,2, …,)使用 LSTM 單元進行處理, 計算過程如下:
(3)
圖2 文本向量化流程
其中,為隱藏單元個數(shù), 大小為 2。
在實體關(guān)系抽取任務(wù)中, 文本中每個實體的特征對模型預(yù)測最后的關(guān)系標(biāo)簽都非常重要, 因此提取文本局部的特征, 即不同字符、不同實體的特征非常必要, 而 CNN 是提取及合并局部特征的有效方法。醫(yī)療文本中存在較多的專業(yè)領(lǐng)域詞匯, 關(guān)系抽取模型需要具有識別此類詞匯的能力。與詞級特征相比, 字符級特征表示有助于在關(guān)系抽取任務(wù)中識別未知術(shù)語。通過字符級特征表示, 可以有效地解決詞語不規(guī)范問題。本文使用 CNN 提取字符級別的局部特征, 對 BERT 文本表示層輸出的序列特征=(1,2, …,)進行卷積操作, 提取特征序列中每個實體的局部特征。卷積特征的卷積操作計算過程如下:
其中,為 Relu 激活函數(shù),為輸入的向量特征,表示輸入序列的第個特征,為卷積核的數(shù)量,表示卷積核的可訓(xùn)練權(quán)重參數(shù),為卷積核的長度,為偏置參數(shù)。在進行卷積操作時, 在矩陣的邊緣, 卷積核的長度可能會超出矩陣范圍, 因此需要進行填充操作, 使矩陣的邊緣可以作為卷積操作的中心, 獲取更全面的局部特征。對卷積操作得到的特征向量, 需要進行降維, 常用的方式有最大池化和平均池化等。最大池化的過程就是提取卷積特征向量中固定范圍內(nèi)的最大值, 作為池化后的特征表示, 對于卷積特征, 其池化特征可以由下式表示:
則用 CNN 提取序列局部向量后的特征向量可以表示為= (1,2, …,)。
醫(yī)療文本中存在醫(yī)療實體分布密集的問題, 對于提及實體的關(guān)系分類, 每個實體的重要性不同。注意力機制能關(guān)注對任務(wù)結(jié)果影響較大的特征, 考慮輸入特征與結(jié)果的相關(guān)性。
對于輸入長度為的特征序列= [1,2, …,], 有注意力概率分布。使用對輸入特征進行加權(quán)求和, 計算公式如下:
其中,(,)為注意力評分機制。注意力評分機制通常有加性模型、點積模型、縮放點積模型和雙線性模型。本文采用點積模型, 計算公式如下:
對于長度為的特征序列= [1,2, …,], 引入注意力機制后的輸出為, 計算公式如下:
其中,為可訓(xùn)練的權(quán)重參數(shù)。注意力層的輸出結(jié)果*為特征加權(quán)求和的結(jié)果, 計算公式如下:
*= sum()。 (13)
其中,(X)為權(quán)重參數(shù),(X)為偏置參數(shù)。損失函數(shù)為多分類交叉熵。計算真實關(guān)系標(biāo)簽與預(yù)測關(guān)系標(biāo)簽的交叉熵, 作為損失函數(shù), 計算公式如下:
我們分別在中、英文醫(yī)學(xué)文本實體關(guān)系抽取數(shù)據(jù)集上進行實驗。
中文數(shù)據(jù)集來自 CHIP2020 的評測任務(wù) 2 (http: //www.cips-chip.org.cn/2020/eval2), 由鄭州大學(xué)自然語言處理實驗室和北京大學(xué)計算語言學(xué)教育部重點實驗室聯(lián)合構(gòu)建, 包含兒科訓(xùn)練語料和百種常見疾病訓(xùn)練語料。兒科訓(xùn)練語料包含 518種兒科疾病; 百種常見疾病訓(xùn)練語料包含 109 種常見疾病, 其中包含 44 種關(guān)系類型, 其數(shù)量如表 1 所示。經(jīng)去除停用詞和文本字符正則化處理, 得到訓(xùn)練數(shù)據(jù) 43624條, 測試數(shù)據(jù) 10613 條。
英文醫(yī)學(xué)數(shù)據(jù)集來自 SemEval2013 task9 的 DDI醫(yī)學(xué)數(shù)據(jù)集, 由標(biāo)注了藥物與藥物之間相互作用的文檔組成, 其中 Medline 數(shù)據(jù)集由 Medline 和 Pub-Med 的文章摘要組成, 相互作用藥物對中包含 232對正例和 1555 對負例。訓(xùn)練集包含 142 篇文檔, 共有 1301 個句子和 1787 對相互作用藥物對, 按照 8:2的比例劃分, 得到訓(xùn)練數(shù)據(jù) 1430 條, 驗證數(shù)據(jù) 375條。數(shù)據(jù)集定義的 4 種藥物交互標(biāo)簽如表 2 所示。
本文將準確率(precision)、召回率(recall)和F1 值作為醫(yī)療實體關(guān)系抽取任務(wù)的評價指標(biāo)。設(shè)r為關(guān)系類別集合中的關(guān)系類型, 其,和 F1 值的計算公式如下:
其中, TP表示預(yù)測關(guān)系類型和真實關(guān)系類型均為r的關(guān)系類型數(shù)量, FP表示預(yù)測關(guān)系類型為r但真實關(guān)系類型不為r的關(guān)系類型數(shù)量, FN表示預(yù)測關(guān)系類型不為r但真實關(guān)系類別為r的關(guān)系類型數(shù)量, TP+FP表示預(yù)測關(guān)系類型為r的總數(shù)量, TP+FN表示真實關(guān)系類型為r的總數(shù)量。
表1 CHIP2020數(shù)據(jù)集關(guān)系類型及數(shù)量[22]
表2 DDI數(shù)據(jù)集藥物交互標(biāo)簽[23]
在 CHIP2020 數(shù)據(jù)集上使用權(quán)重平均(weighted average)的評價方式, 計算方法如下: 將P,R和 F1分別與各關(guān)系類型的占比相乘, 再對所有關(guān)系類型的數(shù)值求和, 得到最終結(jié)果。
在 DDI 數(shù)據(jù)集上使用微平均(micro average)的評價方式, 計算方法如下: 在分類結(jié)果中, 對各關(guān)系類型的 TP, FP和 FN求平均值, 再計算總的P,R和 F1, 得到最終結(jié)果。
本文中, 設(shè)置實驗?zāi)P偷牡啍?shù)為 50。如果模型的指標(biāo)在 10 輪之內(nèi)沒有得到優(yōu)化, 則停止模型的訓(xùn)練。其他超參數(shù)設(shè)置如表 3 所示。
表3 超參數(shù)設(shè)置
說明: CHIP2020數(shù)據(jù)集的句子長度為150, DDI數(shù)據(jù)集的句子長度為50。
為評估本文模型的有效性, 將本文模型與醫(yī)療領(lǐng)域先進的實體關(guān)系抽取基準模型進行對比。
在 CHIP2020 數(shù)據(jù)集上進行實驗時, 與下述基準模型進行對比, 結(jié)果見表 4。
表4 CHIP2020 數(shù)據(jù)集實驗結(jié)果(%)
說明: 粗體數(shù)字表示最好的結(jié)果, 下同。
BiLSTM 和 ABLSTM[24]: 使用雙向 LSTM 網(wǎng)絡(luò)提取文本的上下文信息, 進行實體關(guān)系抽取。
CRNN-max 和 CRNN-att[25]: 結(jié)合 BiLSTM 與CNN, 分別提取上下文信息和局部特征, 然后進行最大池化和注意力池化, 再進行實體關(guān)系抽取。
CBiGRU[26]: 使用 CNN 和雙向 GRU 提取局部特征和上下文信息, 進行實體關(guān)系抽取。
BMCm[27]: 使用 BiLSTM 來提取上下文語義信息, 并結(jié)合多通道注意力機制和 CNN 進行實體關(guān)系抽取。
實驗結(jié)果顯示, 在中文醫(yī)療實體關(guān)系抽取任務(wù)中, 本文模型的性能比基準模型好。本文模型能夠利用 BiLSTM 提取醫(yī)療文本中的實體相關(guān)長期依賴關(guān)系, CNN 能夠提取文本中實體相關(guān)的局部特征, 注意力機制能夠針對不同特征進行加權(quán)來減弱噪聲的影響。將不同特征進行融合, 可以有效地提高醫(yī)療實體關(guān)系抽取任務(wù)的性能。在對比的基線模型中, BiLSTM 和 ABLSTM 的性能一般, 因為該模型只利用上下文信息, 缺少局部特征的輔助, 降低了模型對醫(yī)療實體關(guān)系抽取的性能; CRNN-att 使用注意力池化對最終的特征進行加權(quán), 忽略了模型誤差在 BiLSTM 與 CNN 之間的傳播, 降低了模型區(qū)分不同關(guān)系類型的性能; BMCm 模型使用 BiLSTM, CNN 和注意力機制, 但更側(cè)重上下文依賴特征的提取。實驗結(jié)果證明本文模型在網(wǎng)絡(luò)結(jié)構(gòu)上具有一定的優(yōu)越性。
我們在 DDI 數(shù)據(jù)集上進行實驗時, 與下述基準模型進行對比, 預(yù)訓(xùn)練模型 BERT 采用醫(yī)療領(lǐng)域的SciBERT[28]。除句子長度外, 模型的超參數(shù)均與在CHIP2020 中文數(shù)據(jù)集上的實驗相同。表 5 展示實驗結(jié)果中 4 種交互類型的 F1 值以及總體微平均的,和 F1 值。
PM-BLSTM[29]: 基于位置感知的深度多任務(wù)學(xué)習(xí)方法, 使用 BiLSTM 對醫(yī)學(xué)文本進行編碼。
RHCNN[30]: 獲取文本中實體的語義嵌入和位置嵌入, 使用循環(huán)混合卷積神經(jīng)網(wǎng)絡(luò)獲取特征, 抽取 DDI。
AGGCN[31]: 使用基于注意力機制的圖卷積網(wǎng)絡(luò), 結(jié)合基于循環(huán)網(wǎng)絡(luò)的編碼器進行 DDI 抽取。
MEAA[32]: 基于多實體感知以及實體信息的DDI 提取模型, 采用 BioBERT 和 BiGRU 獲取文本的特征。
DDMS[33]: 將藥物的描述信息和藥物的分子結(jié)構(gòu)信息作為額外的輔助信息, 使用 sciBERT 獲取文本向量表示, 使用圖神經(jīng)網(wǎng)絡(luò)編碼分子結(jié)構(gòu)信息進行 DDI 抽取。
實驗結(jié)果顯示, 在英文醫(yī)學(xué)實體關(guān)系抽取任務(wù)中, 本文所提模型依然有較好的性能, 交互類型中Effect 和 Interaction 取得最佳性能, 總體準確率也最高, 證明本文模型在英文醫(yī)學(xué)關(guān)系抽取任務(wù)中能發(fā)揮較好的作用。與使用句法依存樹信息的 AGGCN模型以及使用額外輔助信息的 DDMS 模型相比, 本文模型的總體性能超越 AGGCN, F1 值提高 6.69%,4 種交互類型中有 3 種的性能超越 AGGCN; 本文模型的總體性能逼近 DDMS, 交互類型中 Effect 和Interaction 的 F1 值超越 DDMS, 總體準確率超過DDMS, 證明本文模型不使用額外的外部信息就能達到較好的性能。
表5 DDI數(shù)據(jù)集實驗結(jié)果(%)
為驗證本文模型中各部分的作用, 進行各個模塊的消融實驗, 結(jié)果如表 6 所示。
通過移除本文模型中的上下文信息來建模層(BiLSTM), 驗證其在醫(yī)學(xué)關(guān)系抽取中的有效性。移除 BiLSTM 后, 在 CHIP2020 和 DDI 兩個數(shù)據(jù)集上的 F1 值分別下降 2.4%和 1.42%, 表明移除 BiLSTM會降低模型預(yù)測實體關(guān)系的性能。使用 BiLSTM 提取文本的上下文信息, 能獲取醫(yī)學(xué)文本的長期依賴特征, 有助于模型去理解醫(yī)學(xué)文本中的實體關(guān)系。在 DDI 數(shù)據(jù)集的實驗結(jié)果中, 去除 BiLSTM 后, 交互類型中 Mechanism 和 Interaction 的 F1 值并未下降, 表明針對不同的交互類型, 不同的特征信息有不同的增益效果, 甚至?xí)碡撁嬗绊憽?/p>
為驗證本文模型中局部特征在醫(yī)學(xué)關(guān)系抽取任務(wù)中的有效性, 我們在醫(yī)療關(guān)系數(shù)據(jù)集上進行局部特征提取層(CNN)的消融實驗。移除 CNN 后, 模型預(yù)測醫(yī)學(xué)實體關(guān)系的性能明顯下降, 在 CHIP2020和 DDI 這兩個數(shù)據(jù)集上的 F1 值分別降低 1.04%和1.23%, 表明在預(yù)測醫(yī)學(xué)實體關(guān)系時, CNN能夠提取實體的局部特征。這些局部特征能夠幫助模型理解實體之間的關(guān)系, 有助于模型預(yù)測醫(yī)學(xué)實體之間的關(guān)系。
注意力機制(ATT)能夠?qū)斎氲奶卣鬟M行加權(quán)處理, 使得模型能夠?qū)Σ煌奶卣鹘o予不同的關(guān)注, 減少對預(yù)測關(guān)系類型作用較小的特征的影響。為驗證本文模型中 ATT 的作用, 我們在不同的數(shù)據(jù)集上進行 ATT 的消融實驗。移除 ATT 后, 在 CHIP2020和 DDI 兩個數(shù)據(jù)集上的 F1 值分別下降 1.81%和1.36%。實驗結(jié)果表明, 注意力機制可以針對不同的特征進行加權(quán), 減少特征中噪聲的影響, 提高模型對醫(yī)學(xué)實體關(guān)系預(yù)測的性能。
同時去除 BiLSTM 和 ATT, 或同時去除 CNN 和ATT 后, 模型的性能進一步下降, 表明本文模型的所有組件對模型都有積極的貢獻。
實體標(biāo)記能夠標(biāo)記實體對在文本中的位置, 將實體的位置特征注入模型中。為驗證實體標(biāo)記特征在本文模型中的有效性, 我們進行實體標(biāo)記特征的消融實驗。移除實體標(biāo)記特征后, 在 CHIP2020 和DDI 兩個數(shù)據(jù)集上的 F1 值分別下降 4.39%和 1.37%, 證明實體標(biāo)記特征能夠?qū)嶓w位置信息添加到模型中, 提升模型的性能。
從醫(yī)學(xué)實體關(guān)系抽取數(shù)據(jù)集的測試集中選取部分實例, 將其在注意力層的權(quán)重進行可視化。圖 3顯示, 注意力權(quán)重可以很好地集中到提及實體附近; 描述實體之間關(guān)系的字詞也有一定的權(quán)重; 在文本中添加的實體標(biāo)識符可以標(biāo)識實體的位置, 在注意力層中標(biāo)識符也被分配較高的權(quán)重; 使用預(yù)訓(xùn)練模型 BERT 處理的文本被添加特殊的標(biāo)識符, 標(biāo)識符中的“[CLS]”蘊含文本整體的語義特征, “[SEP]”標(biāo)識出文本句子的結(jié)束位置, 這兩個標(biāo)識符在注意力層也被分配部分權(quán)重。
圖 4 顯示本文模型在醫(yī)學(xué)關(guān)系抽取測試數(shù)據(jù)集DDI 上的混淆矩陣, 從中可以看到以下錯誤: 1)4 種交互類型中, Mechanism, Effect 和 Advice 這 3 種經(jīng)常被錯誤地劃分劃到無類別的負面實例(Negati-ve)類型; 2) Interaction 的實例經(jīng)常被錯誤地劃分到Effect 類型。
表6 不同數(shù)據(jù)集的消融實驗結(jié)果(%)
顏色越深, 注意力權(quán)重越大
歸一化數(shù)值; 顏色越深, 占比越大
第一類錯誤主要由 DDI 關(guān)系抽取數(shù)據(jù)集中數(shù)據(jù)類型分布不平衡造成。DDI 訓(xùn)練數(shù)據(jù)集中共存在1787 個樣本, 無類別的負例為 1555 條。數(shù)據(jù)標(biāo)簽數(shù)量的不平衡, 會造成將小數(shù)量的實例分類為大數(shù)量的實例。第一類錯誤的存在導(dǎo)致模型在進行關(guān)系抽取時, Mechanism, Effect 和 Advice 這 3 種類型的分類結(jié)果會得到較多的假負例(false negative, FN), 而假正例(false positive, FP)較少。例如, 在 Advice類型的測試結(jié)果中, FP 的占比為 0, FN 的占比為0.46667, 準確率為 1, 召回率為 0.5333。因此, DDI數(shù)據(jù)集上全部交互類型的微平均評價指標(biāo)中, 準確率較高, 召回率較低。
第二類錯誤產(chǎn)生的主要原因是 Interaction 類型的數(shù)量較少, 且在部分實例中具有與 Effect 類型相似的語義。例如, 實例“Treatment with antidep-ressant drugs can directly interfere with blood glucoselevels or may interact with hypoglycemic agents .”為 Interaction 類型, 實例“Similarly, diazepam dec-reased the antinociceptive effect of metamizole (onlyin the tail-flick test) and indomethacin .”為 Effect 類型, 這兩個實例都描述藥物之間的關(guān)系, 且擁有相同的語義關(guān)系, 這兩種交互類型文本之間語義的相似導(dǎo)致第二類錯誤分類。
本文提出一種面向醫(yī)療實體關(guān)系抽取任務(wù)的混合神經(jīng)網(wǎng)模型, 使用預(yù)訓(xùn)練 BERT 獲取文本的動態(tài)詞向量, 解決靜態(tài)詞向量的一詞多義問題。利用CNN 捕獲句子的局部特征信息, 使用 BiLSTM 獲取句子的上下文信息和長期依賴特征, 再分別經(jīng)過加權(quán)的注意力機制獲取全局的語義特征, 實現(xiàn)對醫(yī)療文本深層語義特征的獲取。在中、英文實體關(guān)系抽取數(shù)據(jù)集上的對比試驗和消融實驗證明了模型的有效性。
后續(xù)工作中考慮將外部醫(yī)學(xué)知識作為輔助信息添加到模型中, 以便獲取更豐富的醫(yī)學(xué)知識來輔助模型理解醫(yī)療文本。
[1]Grishman R. Information extraction: techniques and challenges // Information Extraction, International Summer School. Frascati: Springer, 1997: 10?27
[2]Liu Qiao, Li Yang, Duan Hong, et al. Knowledge graph construction techniques. Computer Research and Development, 2016, 53(3): 582?600
[3]Pyysalo S, Airola A, Heimonen J, et al. Comparative analysis of five protein-protein interaction corpora. BMC Bioinformatics, 2008, 9(3): S3?S6
[4]Wei C, Peng Y, Leaman R, et al. Assessing the state of the art in biomedical relation extraction: overview of the BioCreative V chemical-disease relation (CDR) task. Database: the Journal of Biological Databases and Curation, 2016, 64: baw032
[5]Segura-Bedmar I, Martínez P, Herrero-Zazo M. Les-sons learnt from the DDIExtraction-2013 shared task. Journal of Biomedical Informatics, 2014, 51: 152? 164
[6]Blaschke C, Valencia A. The frame-based module of the SUISEKI information extraction system. IEEE Intelligent Systems, 2002, 17(2): 14?20
[7]LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition. Procee-dings of the IEEE, 1998, 86(11): 2278?2324
[8]Elman J L. Finding structure in time. Cognitive Sci-ence, 1990, 14(2): 179?211
[9]Cho K, Merrienboer B, Gulcehre C, et al. Learning phrase representations using RNN Encoder-Decoder for statistical machine translation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha: Association for Computational Linguistics, 2014: 1724?1734
[10]Devlin J, Chang M, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language un-derstanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Tech-nologies. Minneapolis, 2019: 4171?4186
[11]Miller S, Fox H, Ramshaw L, et al. A novel use of statistical parsing to extract information from text // Proceedings of the 1st North American Chapter of the Association for Computational Linguistics Confern-ce. Seattle, 2000: 226–233
[12]Zelenko D, Aone C, Richardella A. Kernel methods for relation extraction. J Mach Learn Res, 2003, 3: 1083–1106
[13]Culotta A, Sorensen J S. Dependency tree kernels for relation extraction // Proceedings of the 42nd Annual Meeting of the Association for Computational Lingui-tics. Barcelona: ACL, 2004: 423?429
[14]Kim S, Liu H, Yeganova L, et al. Extracting drug-drug interactions from literature using a rich feature-based linear kernel approach. J Biomed Informatics, 2015, 55: 23?30
[15]Hochreiter S, Schmidhuber J. Long short-term me-mory. Neural Comput, 1997, 9(8): 1735?1780
[16]Zeng Daojian, Liu Kang, Lai Siwei, et al. Relation classification via convolutional deep neural network // 25th International Conference on Computational Lin-guistics. Dublin: ACL, 2014: 2335?2344
[17]Socher R, Huval B, Manning C D, et al. Seman- tic compositionality through recursive matrix-vector spaces // Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Jeju Island: ACL, 2012: 1201?1211
[18]閆雄, 段躍興, 張澤華. 采用自注意力機制和CNN融合的實體關(guān)系抽取. 計算機工程與科學(xué), 2020, 42(11): 2059?2066
[19]Liu Shengyu, Tang Buzhou, Chen Qingcai, et al. Drug-drug interaction extraction via convolutional neural networks. [EB/OL]. (2016?01?31) [2021?12? 0]. https://www.hindawi.com/journals/cmmm/2016/69 18381/
[20]關(guān)鵬舉, 曹春萍. 基于BLSTM的臨床文本實體關(guān)系抽取. 軟件, 2019, 40(5): 159?162
[21]Wei Qiang, Ji Zongcheng, Si Yuqi, et al. Relation extraction from clinical narratives using pre-trained language models // AMIA Annual Symposium procee-dings. Washington, DC, 2019: 1236–1245
[22]Guan Tongfeng, Zan Hongying, Zhou Xiabing, et al. CMeIE: construction and evaluation of chinese med-cal information extraction dataset // Natural Language Processing and Chinese Computing, 9th CCF Interna-ional Conference (NLPCC 2020). Zhengzhou: Spri-ner, 2020: 270?282
[23]Segura-Bedmar I, Martinez P, Herrero-Zazo M. SemEval-2013 task 9?: extraction of drug-drug inte-racions from biomedical texts (DDIExtraction 2013) // Proceedings of the 7th International Workshop on Semantic Evaluation. Atlanta: The Association for Computer Linguistics, 2013: 341?350
[24]Sahu S K, Anand A. Drug-drug interaction extraction from biomedical texts using long short-term memory network. J Biomed Informatics, 2018, 86: 15?24
[25]Raj D, Sahu S, Anand A. Learning local and global contexts using a convolutional recurrent network model for relation classification in biomedical tex // Proceedings of the 21st Conference on Computational Natural Language Learning (CoNLL 2017). Vanco-ver: Association for Computational Linguistics, 2017: 311?321
[26]He Bin, Guan Yi, Dai Rui. Convolutional gated recurrent units for medical relation classification // IEEE International Conference on Bioinformatics and Biomedicine (BIBM 2018). Madrid: IEEE Computer Society, 2018: 646?650
[27]張世豪, 杜圣東, 賈真, 等. 基于深度神經(jīng)網(wǎng)絡(luò)和自注意力機制的醫(yī)學(xué)實體關(guān)系抽取. 計算機科學(xué), 2021, 48(10): 77?84
[28]Beltagy I, Lo Ke, Cohan A. SciBERT: a pretrained language model for scientific text // Proceedings of the 2019 Conference on Empirical Methods in Na-tural Language Processing and the 9th International Joint Conference on Natural Language Processing 9EMNLP-IJCNLP 2019). Hong Kong: Association for Computational Linguistics, 2019: 3613?3618
[29]Zhou Deyu, Miao Lei, He Yulan. Position-aware deep multi-task learning for drug-drug interaction extrac-tion. Artif Intell Medicine, 2018, 87: 1?8
[30]Sun Xia, Dong Ke, Ma Long, et al. Drug-drug inte-raction extraction via recurrent hybrid convolutio- nal neural networks with an improved focal loss [EB/OL]. (2019?01?08) [2021?12?15]. https://www. mdpi.com/1099-4300/21/1/37
[31]Park C, Park J, Park S. AGCN: attention-based graph convolutional networks for drug-drug interaction ex-traction. Expert Syst Appl, 2020, 159: 113538
[32]Zhu Yu, Li Lishuang, Lu Hongbin, et al. Extracting drug-drug interactions from texts with BioBERT and multiple entity-aware attentions. J Biomed Informa-tics, 2020, 106: 103451
[33]Asada M, Miwa M, Sasaki Y. Using drug descriptions and molecular structures for drug-drug interaction extraction from literature. Bioinform, 2021, 37(12): 1739?1746
Medical Entity Relation Extraction Based on Pre-trained Model and Hybrid Neural Network
ZHAO Dandan, ZHANG Junpeng, MENG Jiana?, ZHANG Zhihao, SU Wen
School of Computer Science and Engineering, Dalian Minzu University, Dalian 116600; ? Corresponding author, E-mail: mengjn@dlnu.edu.cn
Medical text has high entity density and verbose sentence structure, which makes the simple neural network methods unable to capture its semantic features. Therefore, a hybrid neural network method based on pre-trained model is proposed. Firstly, a pre-trained model is used to obtain the dynamic word vector and the entity tagging features are extracted. Secondly, the contextual features of the medical text are obtained through a bidirectional long and short-term memory network. Simultaneously, the local features of the text are obtained using the convolutional neural network. Then the global semantic features of the text are obtained by weighting the sequence features through the attention mechanism. Finally, the entity tagging features are fused with the global semantic features and the extraction results are obtained through the classifier. The experimental results of entity relation extraction on the medical domain dataset show that the performance of the proposed hybrid neural network model is improved compared with the mainstream models, which indicates that this multi-feature fusion method can improve the effect of entity relation extraction.
medical text; relation extraction; hybrid neural network; pre-trained model