王旭陽,趙麗婕,張繼遠(yuǎn)
蘭州理工大學(xué) 計(jì)算機(jī)與通信學(xué)院,蘭州 730050
隨著醫(yī)學(xué)信息化的穩(wěn)步建設(shè),尤其是新冠疫情暴發(fā)以來,包括文本數(shù)據(jù)在內(nèi)的醫(yī)學(xué)數(shù)據(jù)規(guī)模不斷上漲[1],中文電子病歷和醫(yī)學(xué)科研文獻(xiàn)是醫(yī)學(xué)大數(shù)據(jù)的主要來源之一,將這些數(shù)據(jù)應(yīng)用于臨床決策支持等高層應(yīng)用,提高我國(guó)整體醫(yī)學(xué)水平的首要工作是中文醫(yī)學(xué)命名實(shí)體識(shí)別(Chinese biomedical named entity recognition,CBio-NER)。
相比于一般領(lǐng)域的命名實(shí)體,中文醫(yī)學(xué)實(shí)體結(jié)構(gòu)更加復(fù)雜、領(lǐng)域特征更強(qiáng),使CBio-NER任務(wù)更具挑戰(zhàn)性[2]。本文將中文醫(yī)學(xué)命名實(shí)體的特征總結(jié)如下:(1)實(shí)體嵌套的現(xiàn)象廣泛,如圖1所示,疾病類型的實(shí)體中又嵌套著兩個(gè)屬于解剖部位類型的實(shí)體。(2)專業(yè)領(lǐng)域縮寫使多個(gè)同類型的實(shí)體共用同一個(gè)后綴(前綴),導(dǎo)致中文醫(yī)學(xué)文本中不連續(xù)性長(zhǎng)實(shí)體的普遍存在,并且實(shí)體結(jié)構(gòu)為嵌套結(jié)構(gòu),因此,這些不連續(xù)性長(zhǎng)實(shí)體成為中文醫(yī)學(xué)嵌套結(jié)構(gòu)實(shí)體的重要組成部分。如圖1所示,“結(jié)締組織增生”“淋巴組織增生”縮寫成為“結(jié)締組織、淋巴組織增生”這個(gè)不連續(xù)性長(zhǎng)實(shí)體,該實(shí)體內(nèi)部嵌套著“結(jié)締組織”和“淋巴組織”兩個(gè)解剖部位實(shí)體。(3)每一個(gè)命名實(shí)體都由若干屬于該實(shí)體的字符組成,即"BIOE”標(biāo)注數(shù)據(jù)中的實(shí)體跨度內(nèi)不含位置標(biāo)簽為“O”的字符(非實(shí)體字)。(4)中文醫(yī)學(xué)實(shí)體的觸發(fā)語素位于實(shí)體的結(jié)束位置[3],比如,糖尿病、慢性腎臟病等疾病類實(shí)體的觸發(fā)語素為實(shí)體結(jié)束字符“病”,腰部、腹部等身體部位實(shí)體的觸發(fā)語素為實(shí)體結(jié)束字符“部”。
圖1 嵌套實(shí)體、不連續(xù)長(zhǎng)實(shí)體圖Fig.1 Nested entity,discontinuous long entity diagram
由于中文醫(yī)學(xué)文本結(jié)構(gòu)復(fù)雜,專業(yè)性強(qiáng),一般領(lǐng)域的命名實(shí)體識(shí)別方法不能直接用于中文醫(yī)學(xué)命名實(shí)體的識(shí)別。目前大多數(shù)相關(guān)研究都只專注于英文文本和扁平結(jié)構(gòu)的醫(yī)學(xué)實(shí)體識(shí)別[4],沒有充分考慮中文醫(yī)學(xué)命名實(shí)體的專業(yè)語義及結(jié)構(gòu)特點(diǎn)。
為了解決以上問題,本文提出了一種面向中文醫(yī)學(xué)命名實(shí)體的位置標(biāo)簽增強(qiáng)的級(jí)聯(lián)識(shí)別方法(enhanced cascading named entity recognition with positionlabels,ECRP),將字符的位置標(biāo)簽嵌入候選實(shí)體的語義表示中,使模型對(duì)實(shí)體的長(zhǎng)度和非實(shí)體字敏感;在實(shí)體融合表示時(shí)加強(qiáng)結(jié)束字符的權(quán)重,使得實(shí)體的融合表示更加切合中文醫(yī)學(xué)實(shí)體的實(shí)際特點(diǎn);同時(shí)識(shí)別中文醫(yī)學(xué)扁平實(shí)體和包括不連續(xù)性長(zhǎng)實(shí)體在內(nèi)的嵌套實(shí)體。該方法首先基于有限的中文醫(yī)學(xué)文本數(shù)據(jù)對(duì)word2vec預(yù)訓(xùn)練模型進(jìn)行微調(diào),得到具有專業(yè)領(lǐng)域語義的詞向量表示;然后通過序列標(biāo)注方法檢測(cè)出每個(gè)字符相對(duì)于實(shí)體的位置標(biāo)簽,并將其嵌入模型;之后利用字符位置標(biāo)簽指導(dǎo)生成候選實(shí)體;最后結(jié)合中文醫(yī)學(xué)實(shí)體觸發(fā)語素的位置進(jìn)行實(shí)體融合表示和實(shí)體語義分類。
現(xiàn)有的命名實(shí)體識(shí)別方法可以分為僅識(shí)別扁平結(jié)構(gòu)實(shí)體和同時(shí)識(shí)別嵌套結(jié)構(gòu)實(shí)體的方法[5]。前者主要使用序列標(biāo)注方法,序列標(biāo)注方法仍是近些年命名實(shí)體識(shí)別的主流方法,比如,Cui等人[6]提出標(biāo)簽嵌入的注意力序列標(biāo)注模型,Zheng等人[7]提出的聯(lián)合抽取實(shí)體及實(shí)體間關(guān)系的序列標(biāo)注方法。針對(duì)醫(yī)學(xué)文本,研究人員先后提出條件隨機(jī)場(chǎng)[8](conditional random field,CRF)、基于注意力的長(zhǎng)短期記憶網(wǎng)絡(luò)模型條件隨機(jī)場(chǎng)[9](bidirectional long short-term memory with conditional random field,BiLSTM-CRF)和用于實(shí)體識(shí)別與規(guī)范化的多任務(wù)模型[10],將醫(yī)學(xué)實(shí)體識(shí)別視為單層序列標(biāo)注任務(wù)。然而,對(duì)于中文醫(yī)學(xué)命名實(shí)體復(fù)雜性的研究較少,尤其是針對(duì)中文醫(yī)學(xué)文本中嵌套實(shí)體的研究,中文醫(yī)學(xué)專業(yè)縮寫導(dǎo)致嵌套結(jié)構(gòu)的實(shí)體中普遍存在著不連續(xù)性長(zhǎng)實(shí)體。因此,中文醫(yī)學(xué)嵌套實(shí)體的識(shí)別對(duì)模型來說具有很大的挑戰(zhàn),也是近些年實(shí)體識(shí)別領(lǐng)域的研究熱點(diǎn)[11]。近年來,基于一般領(lǐng)域的嵌套實(shí)體識(shí)別方法有動(dòng)態(tài)堆疊扁平的實(shí)體識(shí)別方法[12]和窮舉區(qū)域分類模型[13],可以有效識(shí)別嵌套結(jié)構(gòu)的實(shí)體。針對(duì)上述兩種方法中內(nèi)層實(shí)體誤差傳播和計(jì)算成本高的問題,研究者提出兩階段嵌套實(shí)體識(shí)別[14]、邊界增強(qiáng)的嵌套實(shí)體識(shí)別[15]及實(shí)體識(shí)別邊界感知神經(jīng)網(wǎng)絡(luò)[16]等方法,利用實(shí)體邊界信息識(shí)別實(shí)體。但是這些方法都是基于一般領(lǐng)域的研究,不能直接用于中文醫(yī)學(xué)命名實(shí)體的識(shí)別,而且這些方法忽略了實(shí)體跨度內(nèi)的元素都是實(shí)體字(不含位置標(biāo)簽為“O”的字符)的特點(diǎn)。
經(jīng)典的醫(yī)學(xué)命名實(shí)體識(shí)別方法(Liu[17]和Unanue[18])只專注于英文文本及扁平的醫(yī)學(xué)實(shí)體。但是,包含不連續(xù)性長(zhǎng)實(shí)體在內(nèi)的中文醫(yī)學(xué)嵌套實(shí)體中,每個(gè)字符可能會(huì)有多個(gè)不同的分類標(biāo)簽,因此,字符間的位置關(guān)系更加復(fù)雜,傳統(tǒng)的序列標(biāo)注模型對(duì)于實(shí)體的標(biāo)簽約束在中文醫(yī)學(xué)嵌套實(shí)體中不適用;中文醫(yī)學(xué)文本結(jié)構(gòu)復(fù)雜,專業(yè)術(shù)語多,基于一般領(lǐng)域的嵌套實(shí)體識(shí)別方法不能直接用于中文醫(yī)學(xué)命名實(shí)體的識(shí)別。本文結(jié)合中文醫(yī)學(xué)實(shí)體的特點(diǎn)提出了ECRP實(shí)體識(shí)別方法,通過嵌入字符位置標(biāo)簽,強(qiáng)調(diào)實(shí)體跨度內(nèi)不包含非實(shí)體字,使模型對(duì)實(shí)體的長(zhǎng)度和非實(shí)體字敏感;通過在實(shí)體融合表示時(shí)加強(qiáng)結(jié)束字符的權(quán)重,使模型學(xué)習(xí)到中文醫(yī)學(xué)實(shí)體結(jié)束字符的規(guī)律性。與為每個(gè)位置分配實(shí)體分類標(biāo)簽的方法不同,該方法對(duì)整個(gè)候選實(shí)體跨度分配實(shí)體分類標(biāo)簽,將中文醫(yī)學(xué)實(shí)體識(shí)別任務(wù)處理成字符位置信息檢測(cè)、位置標(biāo)簽嵌入和實(shí)體的融合表示并預(yù)測(cè)實(shí)體分類標(biāo)簽等線性級(jí)聯(lián)過程,模型整體架構(gòu)如圖2所示。
圖2 模型整體架構(gòu)圖Fig.2 Model structure diagram
中文醫(yī)學(xué)文本專業(yè)性強(qiáng),與一般的語料庫存在很大差異[19]。ECRP方法通過實(shí)驗(yàn)所用的語料庫和領(lǐng)域增強(qiáng)語料庫對(duì)Word2Vec預(yù)訓(xùn)練模型進(jìn)行微調(diào),獲得含有專業(yè)領(lǐng)域知識(shí)的詞向量表示。對(duì)于給定的由n個(gè)字符組成的句子(t1,t2,…,tn),第i個(gè)字符ti的詞嵌入表示的計(jì)算過程如下:
其中,et是預(yù)訓(xùn)練詞向量初始化的詞向量查找表。
將2.1節(jié)得到的詞嵌入向量送入Dropout層防止過擬合,之后底層BiLSTM作為共享特征提取器自動(dòng)提取特征,構(gòu)建隱藏狀態(tài)表示。第i個(gè)時(shí)間步的共享特征的計(jì)算過程如下:
其中,是第i個(gè)字符的詞嵌入向量和分別表示底層BiLSTM第i個(gè)時(shí)間步的前向和后向隱藏狀態(tài),分別表示底層BiLSTM第i-1個(gè)時(shí)間步的前向和后向隱藏狀態(tài)。使用以下條目代表中文醫(yī)學(xué)語句的共享特征向量ht:
其中,n表示批處理文本中句子的最大長(zhǎng)度,對(duì)于長(zhǎng)度較小的句子,該模型使用相應(yīng)長(zhǎng)度的空向量進(jìn)行虛擬填充。Dt表示特征維度,經(jīng)過多次實(shí)驗(yàn)得到Dt=400時(shí)本文模型性能表現(xiàn)最好。
ECRP方法的第一個(gè)步驟是采用序列標(biāo)注方法檢測(cè)每個(gè)字符相對(duì)于實(shí)體的位置標(biāo)簽。
給定一個(gè)句子(t1,t2,…,tn)和其中一個(gè)實(shí)體跨度r(i,j),表示實(shí)體由連續(xù)的序列(ti,ti+1,…,tj)構(gòu)成。將邊界ti標(biāo)記為“B”,tj標(biāo)記為“E”,實(shí)體中的字符標(biāo)記為“I”,非實(shí)體字符標(biāo)記為“O”。特別的,出現(xiàn)嵌套結(jié)構(gòu)時(shí),標(biāo)簽“B”與“E”的優(yōu)先級(jí)高于標(biāo)簽“I”。字符位置標(biāo)簽檢測(cè)模塊如圖3所示。
圖3 字符位置標(biāo)簽檢測(cè)模塊圖Fig.3 Character position label detection diagram
中文醫(yī)學(xué)實(shí)體跨度內(nèi)每個(gè)字符都有可能被包含在不同的實(shí)體中,所以選擇softmax作為位置標(biāo)簽檢測(cè)的輸出層而不是CRF,得到位置標(biāo)簽的概率分布,降低模型訓(xùn)練代價(jià)。位置標(biāo)簽分布的計(jì)算過程如下:
其中,是BiLSTM所提取的第i個(gè)字符的共享特征,和是激活函數(shù)的權(quán)重和偏置。位置標(biāo)簽檢測(cè)階段的多標(biāo)簽損失計(jì)算過程如下:
其中,為真實(shí)的位置標(biāo)簽,為模型預(yù)測(cè)的位置標(biāo)簽概率分布。
由于中文醫(yī)學(xué)文本中存在大量嵌套結(jié)構(gòu)的實(shí)體,所以字符位置標(biāo)簽指導(dǎo)生成的中文醫(yī)學(xué)候選實(shí)體中出現(xiàn)非實(shí)體字的可能性相對(duì)較大。如圖4所示,嵌套結(jié)構(gòu)中的外層候選實(shí)體R(0,11)跨度內(nèi)包含了位置標(biāo)簽為“O”的非實(shí)體元素。因此,ECRP方法將檢測(cè)到的字符位置標(biāo)簽嵌入第二層BiLSTM,使模型對(duì)實(shí)體長(zhǎng)度和非實(shí)體字敏感。
圖4 包含非實(shí)體字的候選實(shí)體例子Fig.4 Example of candidate entities contained non entity character
2.4.1 位置標(biāo)簽嵌入表示
給定序列位置標(biāo)簽L={l1,l2,…,ln},第i個(gè)字符位置標(biāo)簽li的嵌入表示的計(jì)算過程如下:
其中,el代表隨機(jī)初始化的標(biāo)簽向量查找表。使用以下條目代表句子序列位置標(biāo)簽的嵌入向量xl:
其中,n表示批處理文本中句子的最大長(zhǎng)度。Dl表示標(biāo)簽嵌入維度,經(jīng)過多次實(shí)驗(yàn)得到Dl=200時(shí),本文模型性能表現(xiàn)最好。
2.4.2 位置特征提取
將位置信息與2.2節(jié)的共享特征進(jìn)行向量拼接,拼接向量的計(jì)算過程如下:
其中,表示第i個(gè)字符的共享特征,表示第i個(gè)字符的位置標(biāo)簽嵌入向量,W為線性映射參數(shù)。使用以下條目代表中文醫(yī)學(xué)語句的拼接向量xlt:
其中,n表示批處理文本中句子的最大長(zhǎng)度。D表示拼接向量的維度,本文D=Dt+Dl=400+200。
將xlt作為第二層BiLSTM的輸入,進(jìn)一步提取實(shí)體語義與長(zhǎng)度及實(shí)體字的位置特征,第i個(gè)時(shí)間步的隱藏狀態(tài)的計(jì)算過程如下:
其中,n表示批處理文本中句子的最大長(zhǎng)度。Dlt表示含有位置信息的特征維度,經(jīng)過多次實(shí)驗(yàn)得到Dlt=400時(shí),本文模型性能表現(xiàn)最好。
中文醫(yī)學(xué)實(shí)體跨度內(nèi)的觸發(fā)語素位于實(shí)體的結(jié)束位置[3]。因此,ECRP方法在實(shí)體的融合表示中,加強(qiáng)實(shí)體結(jié)束字符的權(quán)重。
2.5.1 確定候選實(shí)體
給定句子序列X=(t1,t2,…,tn)和相應(yīng)的位置標(biāo)簽序列L=(l1,l2,…,ln)。首先,通過貪心算法匹配位置標(biāo)簽“B”和“E”,生成候選實(shí)體。特別是,考慮到單字符實(shí)體,首先將位置標(biāo)簽為“B”的字符與其自身進(jìn)行匹配。如圖5所示,句子序列“患有周圍神經(jīng)病”中,定位到“周”“周圍神經(jīng)”“周圍神經(jīng)病”三個(gè)候選實(shí)體。
圖5 候選實(shí)體生成圖Fig.5 Candidate entity generation diagram
2.5.2 實(shí)體融合表示
根據(jù)候選實(shí)體跨度,對(duì)實(shí)體跨度內(nèi)除了結(jié)束字符以外的其他字符使用逐位相加再平均的方法融合,融合結(jié)果與結(jié)束字符進(jìn)行向量拼接,最后使用線性映射進(jìn)行維度變換,得到實(shí)體的融合表示。候選實(shí)體r(i,j)的融合表示ri,j的計(jì)算過程如下:
2.5.3 實(shí)體語義分類
將實(shí)體的融合表示ri,j送入softmax層,預(yù)測(cè)實(shí)體分類標(biāo)簽。如圖6所示,候選實(shí)體“周”不屬于任何實(shí)體,“周圍神經(jīng)”被預(yù)測(cè)為身體部位,“周圍神經(jīng)病”被預(yù)測(cè)為疾病。語義分類標(biāo)簽計(jì)算過程如下:
圖6 實(shí)體語義分類圖Fig.6 Entity semantic classification diagram
其中,ri,j是候選實(shí)體的融合表示,是激活函數(shù)的權(quán)重和偏置。實(shí)體語義分類階段的多標(biāo)簽損失計(jì)算過程如下:
由于ECRP方法中各個(gè)級(jí)聯(lián)任務(wù)間共享特征,所以采用多任務(wù)損失同時(shí)訓(xùn)練模型。多任務(wù)損失函數(shù)的計(jì)算過程如下所示:
其中,Lbcls和Lecls分別表示字符位置標(biāo)簽檢測(cè)模塊和實(shí)體分類標(biāo)簽預(yù)測(cè)模塊的分類交叉熵?fù)p失。α是一個(gè)超參數(shù),用于控制每個(gè)模塊的重要程度。
在模型訓(xùn)練階段,利用字符的真實(shí)位置標(biāo)簽指導(dǎo)候選實(shí)體生成;實(shí)體的融合表示中融入元素的真實(shí)位置信息。使模型在不受位置標(biāo)簽檢測(cè)階段誤差影響的情況下訓(xùn)練中文醫(yī)學(xué)命名實(shí)體分類器。
實(shí)驗(yàn)使用中文醫(yī)學(xué)相關(guān)數(shù)據(jù)集證明模型的有效性,數(shù)據(jù)集概況統(tǒng)計(jì)如表1所示。數(shù)據(jù)集分別是“2018年全國(guó)知識(shí)圖譜與語義大會(huì)”公開的電子病歷扁平實(shí)體數(shù)據(jù)集(CCKS2018),該數(shù)據(jù)集包含600份電子病歷文本,涵蓋了一般項(xiàng)目、出院項(xiàng)目、病史特點(diǎn)、診療經(jīng)過等四個(gè)目錄;“2018年瑞金醫(yī)院MMC人工智能輔助構(gòu)建知識(shí)圖譜大賽”公開的中文糖尿病科研文獻(xiàn)嵌套實(shí)體數(shù)據(jù)集(MMC-2TNB)以及只保留其最外層實(shí)體的扁平實(shí)體數(shù)據(jù)集(MMC-1TNB),數(shù)據(jù)包括基礎(chǔ)研究、臨床研究、藥物使用、臨床病例、治療方法等多個(gè)方面;2020年中國(guó)健康信息處理大會(huì)發(fā)布的臨床嵌套實(shí)體數(shù)據(jù)集(CMeEE),該數(shù)據(jù)集共包含504種常見兒科疾病、7 085個(gè)身體部位、12 907種臨床癥狀和4 354種醫(yī)療程序;只保留嵌套實(shí)體數(shù)據(jù)集(MMC-2TNB、CMeEE)中不連續(xù)性長(zhǎng)實(shí)體相關(guān)的數(shù)據(jù)作為不連續(xù)性長(zhǎng)實(shí)體數(shù)據(jù)集(MMC-CME),驗(yàn)證ECRP方法對(duì)中文醫(yī)學(xué)不連續(xù)性長(zhǎng)實(shí)體的識(shí)別效果。數(shù)據(jù)集均采用“BIOE”方式標(biāo)注,按8∶1∶1進(jìn)行劃分。
表1 數(shù)據(jù)集介紹Table 1 Dataset introduction
實(shí)驗(yàn)代碼基于Pytorch框架,使用python3.7編寫。在Google colab服務(wù)器,顯卡為Tesla T4,16 GB顯存的實(shí)驗(yàn)環(huán)境下進(jìn)行模型的訓(xùn)練和測(cè)試。實(shí)驗(yàn)參數(shù)設(shè)置如表2所示。
表2 實(shí)驗(yàn)參數(shù)設(shè)置Table 2 Experimental parameter setting
本文選取F1分?jǐn)?shù)、精確度(Precision)和召回率(Recall)作為模型性能的評(píng)價(jià)指標(biāo)。
為了驗(yàn)證ECRP模型的有效性,本文設(shè)計(jì)了對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn)進(jìn)行比較。
3.3.1 對(duì)比實(shí)驗(yàn)
ECRP模型在各個(gè)數(shù)據(jù)集上的字符位置標(biāo)簽檢測(cè)結(jié)果如表3所示。
表3 ECRP模型在字符位置標(biāo)簽檢測(cè)階段的結(jié)果Table 3 Experimental results of ECRP in character position label detection stage 單位:%
為了證明本文方法的有效性,選擇目前主流的嵌套實(shí)體識(shí)別模型(Two-stage[14](TS)、layered model[12](L)、boundary-aware model[16](BA))分別在五個(gè)實(shí)驗(yàn)數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn);經(jīng)典的扁平實(shí)體識(shí)別模型(MC-BERT+CRF[19]、BiLSTM+CRF[20]、CNN+BiLSTM+CRF[21]、BERT+CRF[22]、BERT+BiLSTM+CRF[23])在扁平實(shí)體實(shí)驗(yàn)數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)。不同模型在嵌套實(shí)體和扁平實(shí)體數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果分別如表4和表5所示,表6為對(duì)比模型在不連續(xù)性長(zhǎng)實(shí)體上的實(shí)驗(yàn)結(jié)果。
表6 不同模型在MMC-CME上的實(shí)驗(yàn)對(duì)比結(jié)果Table 6 Experimental comparison results of different models on MMC-CME 單位:%
ECRP模型與當(dāng)前主流的嵌套實(shí)體識(shí)別模型(TS、BA)分別在嵌套實(shí)體(包括不連續(xù)性長(zhǎng)實(shí)體)和扁平實(shí)體數(shù)據(jù)集中不同實(shí)體類別上的結(jié)果對(duì)比如表7和表8所示。
表8 在各個(gè)扁平實(shí)體類別上的F1值對(duì)比Table 8 Comparison of F1 on different entity categories in flat entity datasets 單位:%
由表3的實(shí)驗(yàn)結(jié)果看出ECRP模型在位置標(biāo)簽檢測(cè)階段可以準(zhǔn)確檢測(cè)出字符的位置標(biāo)簽,進(jìn)而可以更加準(zhǔn)確地定位實(shí)體字和候選實(shí)體跨度。
表4和表6表明ECRP方法在兩個(gè)嵌套結(jié)構(gòu)醫(yī)學(xué)實(shí)體數(shù)據(jù)集和其中的不連續(xù)性長(zhǎng)實(shí)體上的F1值與精確度評(píng)價(jià)指標(biāo)都優(yōu)于一般領(lǐng)域的主流嵌套實(shí)體識(shí)別模型。尤其是相比于two-stage[14]模型,在MMC-2TNB數(shù)據(jù)集上的F1值和精確度分別提升了1.52個(gè)百分點(diǎn)和4.74個(gè)百分點(diǎn),在CMeEE數(shù)據(jù)集上的F1值和精確度分別提升了1.08個(gè)百分點(diǎn)和5.08個(gè)百分點(diǎn),在MMC-CME數(shù)據(jù)集上的F1值和精確度分別提升了0.88個(gè)百分點(diǎn)和2.55個(gè)百分點(diǎn)。這是由于包括不連續(xù)性長(zhǎng)實(shí)體在內(nèi)的嵌套結(jié)構(gòu)實(shí)體跨度內(nèi),每個(gè)字符可能會(huì)被包含在多個(gè)不同的實(shí)體中,句子元素間的位置關(guān)系更復(fù)雜,尤其是不連續(xù)性長(zhǎng)實(shí)體通常嵌套著多個(gè)其他類型的實(shí)體,候選實(shí)體中出現(xiàn)非實(shí)體字的概率更大,而傳統(tǒng)序列標(biāo)注模型對(duì)于實(shí)體的標(biāo)簽約束在中文醫(yī)學(xué)嵌套結(jié)構(gòu)的實(shí)體上不適用,因此,ECRP方法通過在實(shí)體的語義表示中嵌入字符位置標(biāo)簽,使模型對(duì)實(shí)體的長(zhǎng)度和非實(shí)體字更加敏感;對(duì)于嵌套結(jié)構(gòu)的中文醫(yī)學(xué)實(shí)體,外層實(shí)體跨度內(nèi)的非邊界字符可能是內(nèi)層實(shí)體的邊界字符,尤其考慮到其中的不連續(xù)性長(zhǎng)實(shí)體是多個(gè)同類型的實(shí)體共用同一個(gè)后綴(前綴)組成的,實(shí)體結(jié)束位置更加重要,因此,ECRP方法在實(shí)體融合表示時(shí)分別加強(qiáng)內(nèi)外層實(shí)體結(jié)束字符的權(quán)重,使得模型通過實(shí)體的觸發(fā)語素更容易識(shí)別出嵌套結(jié)構(gòu)中的外層實(shí)體,區(qū)分出嵌套在內(nèi)層的實(shí)體。
表5表明ECRP方法在兩個(gè)扁平結(jié)構(gòu)醫(yī)學(xué)實(shí)體數(shù)據(jù)集上的F1值和精確度評(píng)價(jià)指標(biāo)與主流的扁平實(shí)體識(shí)別模型的效果相當(dāng)。這是由于扁平結(jié)構(gòu)的中文醫(yī)學(xué)實(shí)體跨度內(nèi)字符間的位置關(guān)系符合傳統(tǒng)的實(shí)體標(biāo)簽約束規(guī)則,而ECRP方法將字符的位置標(biāo)簽嵌入實(shí)體的語義表示中,對(duì)實(shí)體起到標(biāo)簽約束作用,并在實(shí)體融合表示時(shí)結(jié)合了中文醫(yī)學(xué)實(shí)體特點(diǎn),使扁平結(jié)構(gòu)的中文醫(yī)學(xué)實(shí)體的表示更加切合實(shí)際中文醫(yī)學(xué)實(shí)體的特點(diǎn)。
但是,分析各個(gè)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果,可知,ECRP方法在各個(gè)數(shù)據(jù)集上的召回率有一定程度的降低,主要由于詞嵌入微調(diào)階段是基于極小量的中文醫(yī)學(xué)文本數(shù)據(jù)集,不能充分表達(dá)專業(yè)領(lǐng)域?qū)嶓w的語義;位置標(biāo)簽嵌入和結(jié)合中文醫(yī)學(xué)實(shí)體特點(diǎn)的實(shí)體融合表示會(huì)對(duì)候選實(shí)體起到一定的過濾作用,對(duì)送入實(shí)體語義標(biāo)簽分類模塊的候選實(shí)體的選擇更加嚴(yán)謹(jǐn);位置標(biāo)簽檢測(cè)階段的誤差可能會(huì)導(dǎo)致一部分真正的實(shí)體未被檢測(cè)為候選實(shí)體,或者導(dǎo)致模型過濾掉真正的實(shí)體。因此,影響到級(jí)聯(lián)識(shí)別方法的查全率。
對(duì)比表4和表5中ECRP方法分別在MMC-2TNB和MMC-1TNB數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果可知,ECRP模型在MMC-2TNB數(shù)據(jù)集上的三個(gè)評(píng)價(jià)指標(biāo)值均高于MMC-1TNB數(shù)據(jù)集,并進(jìn)一步分析表4和表5中ECRP方法分別在扁平實(shí)體與嵌套實(shí)體上的總體效果可知,該方法對(duì)中文醫(yī)學(xué)嵌套實(shí)體的識(shí)別效果更好,這符合中文醫(yī)學(xué)文本中存在大量嵌套結(jié)構(gòu)實(shí)體的特點(diǎn)。
分析表7與表8可知,ECRP方法在“疾病”“藥物”“治療方法”“醫(yī)院檢查和檢驗(yàn)”等重要的中文醫(yī)學(xué)實(shí)體上表現(xiàn)出良好的性能,通過對(duì)數(shù)據(jù)集的分析可知,在嵌套實(shí)體數(shù)據(jù)集中,這幾類實(shí)體所包含的不連續(xù)性長(zhǎng)實(shí)體較多,候選實(shí)體中出現(xiàn)非實(shí)體字的概率更大;在扁平實(shí)體數(shù)據(jù)集中,相比于其他類別的實(shí)體,這幾類實(shí)體的跨度較長(zhǎng);數(shù)據(jù)集中這幾類實(shí)體的結(jié)束字符更具有規(guī)律性。而ECRP方法中的位置標(biāo)簽嵌入可以使得模型對(duì)于候選實(shí)體內(nèi)的非實(shí)體字和實(shí)體長(zhǎng)度敏感,使得嵌套結(jié)構(gòu)中的不連續(xù)性長(zhǎng)實(shí)體與扁平結(jié)構(gòu)中的長(zhǎng)跨度實(shí)體的識(shí)別更容易;通過在實(shí)體的融合表示中加強(qiáng)中文醫(yī)學(xué)實(shí)體結(jié)束字符的權(quán)重,使模型學(xué)習(xí)到結(jié)束字符的規(guī)律性。這充分說明了位置標(biāo)簽增強(qiáng)的級(jí)聯(lián)識(shí)別方法對(duì)于中文醫(yī)學(xué)專業(yè)領(lǐng)域?qū)嶓w識(shí)別的必要性和先進(jìn)性。
3.3.2 消融實(shí)驗(yàn)
本文設(shè)計(jì)了四種消融實(shí)驗(yàn)來進(jìn)一步分析實(shí)體融合表示、位置標(biāo)簽嵌入和專業(yè)領(lǐng)域詞嵌入微調(diào)等不同模塊對(duì)于模型整體性能的貢獻(xiàn)。
(1)AVG:在本文所提出方法的基礎(chǔ)上,實(shí)體融合表示階段舍棄對(duì)實(shí)體結(jié)束字符的權(quán)重加強(qiáng),使用平均融合表示。
(2)LB:在本文所提出方法的基礎(chǔ)上,舍棄字符位置標(biāo)簽嵌入。
(3)ATT:使用注意力機(jī)制代替模型中的第二層BiLSTM。
(4)W2V:在本文所提出方法的基礎(chǔ)上舍棄詞嵌入表示階段對(duì)Word2vec預(yù)訓(xùn)練模型的微調(diào)。
(5)ECRP:本文提出的方法。
基于實(shí)驗(yàn)數(shù)據(jù)集,不同消融模型在嵌套實(shí)體數(shù)據(jù)集和扁平實(shí)體數(shù)據(jù)集上的F1評(píng)價(jià)指標(biāo)值對(duì)比結(jié)果分別如圖7和圖8所示。
圖7 嵌套實(shí)體數(shù)據(jù)集上的消融實(shí)驗(yàn)F1值變化圖Fig.7 F1 value change of ablation experiments on nested entity dataset
圖8 扁平實(shí)體數(shù)據(jù)集上的消融實(shí)驗(yàn)F1值變化圖Fig.8 F1 value change of ablation experiments on flat entity dataset
分析消融實(shí)驗(yàn)結(jié)果圖7和圖8可知,無論在嵌套結(jié)構(gòu)數(shù)據(jù)集還是扁平結(jié)構(gòu)數(shù)據(jù)集上,基于ECRP模型,舍去模型中任意一個(gè)模塊都會(huì)影響到模型的整體效果。首先,結(jié)合中文醫(yī)學(xué)實(shí)體特點(diǎn)的實(shí)體融合表示在MMC-2TNB與CMeEE兩個(gè)嵌套實(shí)體數(shù)據(jù)集上的F1分?jǐn)?shù)貢獻(xiàn)分別為1.47%與1.77%,在MMC-1TNB與CCKS2018兩個(gè)扁平實(shí)體數(shù)據(jù)集上的F1分?jǐn)?shù)貢獻(xiàn)分別為0.79%與0.37%,這說明中文醫(yī)學(xué)實(shí)體的觸發(fā)語素位置是實(shí)體的結(jié)束字符,而ECRP方法在實(shí)體融合表示中,通過加強(qiáng)中文醫(yī)學(xué)實(shí)體結(jié)束字符的權(quán)重,使得實(shí)體融合表示更切合中文醫(yī)學(xué)實(shí)體的實(shí)際特點(diǎn)。其次,字符的位置標(biāo)簽嵌入在MMC-2TNB與CMeEE兩個(gè)嵌套結(jié)構(gòu)實(shí)體數(shù)據(jù)集上的F1分?jǐn)?shù)貢獻(xiàn)分別為0.9%與1.53%,在MMC-1TNB與CCKS2018兩個(gè)扁平結(jié)構(gòu)數(shù)據(jù)集上的F1分?jǐn)?shù)貢獻(xiàn)分別為0.04%與0.24%,這說明中文醫(yī)學(xué)實(shí)體跨度內(nèi)字符間有位置依賴關(guān)系,而ECRP方法中通過將字符的位置信息融入實(shí)體的語義表示中,使模型分別學(xué)習(xí)嵌套結(jié)構(gòu)與扁平結(jié)構(gòu)中文醫(yī)學(xué)實(shí)體跨度內(nèi)不同的位置依賴信息,從而對(duì)中文醫(yī)學(xué)實(shí)體標(biāo)簽起到一定的約束作用,對(duì)實(shí)體長(zhǎng)度與非實(shí)體字敏感。最后,從圖7和圖8可以看出,相比于注意力機(jī)制,BiLSTM神經(jīng)網(wǎng)絡(luò)對(duì)于實(shí)體字之間的位置依賴關(guān)系特征的提取效果更好,這是由于包含不連續(xù)性長(zhǎng)實(shí)體在內(nèi)的嵌套結(jié)構(gòu)實(shí)體跨度內(nèi)的每個(gè)字符可能會(huì)被包含在多個(gè)不同的實(shí)體中,導(dǎo)致句子元素間的位置標(biāo)簽關(guān)系更復(fù)雜;扁平結(jié)構(gòu)中文醫(yī)學(xué)實(shí)體跨度內(nèi)的字符位置間也存在依賴關(guān)系,而Attention模型在提取特征時(shí),是通過詞與詞之間的相似性來挖掘信息,而不是詞與詞之間的依賴關(guān)系。另外,經(jīng)過專業(yè)領(lǐng)域微調(diào)的Word2vec預(yù)訓(xùn)練模型在包含不連續(xù)性長(zhǎng)實(shí)體的MMC-2TNB與CMeEE兩個(gè)嵌套結(jié)構(gòu)實(shí)體數(shù)據(jù)集上的F1分?jǐn)?shù)貢獻(xiàn)分別為0.62%與0.21%,在MMC-1TNB與CCKS2018兩個(gè)扁平結(jié)構(gòu)數(shù)據(jù)集上的F1分?jǐn)?shù)貢獻(xiàn)分別為0.76%與0.43%,這說明中文醫(yī)學(xué)文本專業(yè)性強(qiáng),專業(yè)術(shù)語多,而ECRP方法基于實(shí)驗(yàn)語料庫和領(lǐng)域增強(qiáng)語料庫對(duì)Word2vec預(yù)訓(xùn)練模型進(jìn)行微調(diào),從而得到專業(yè)領(lǐng)域的詞向量表示,用于中文醫(yī)學(xué)命名實(shí)體的級(jí)聯(lián)識(shí)別方法,提高實(shí)體識(shí)別準(zhǔn)確性。
本文針對(duì)中文醫(yī)學(xué)實(shí)體的特點(diǎn)提出了ECRP方法,通過級(jí)聯(lián)識(shí)別方法,將層次化的中文醫(yī)學(xué)實(shí)體轉(zhuǎn)化為扁平的線性結(jié)構(gòu)。相比于序列標(biāo)注方法,在分類標(biāo)簽數(shù)減半的前提下,有效識(shí)別中文醫(yī)學(xué)命名實(shí)體。就F1值而言,ECRP模型對(duì)于包含不連續(xù)性長(zhǎng)實(shí)體在內(nèi)的嵌套結(jié)構(gòu)實(shí)體的識(shí)別效果優(yōu)于主流的嵌套實(shí)體識(shí)別模型,在扁平實(shí)體數(shù)據(jù)集上也與主流的扁平實(shí)體識(shí)別模型的效果相當(dāng)。但是在位置標(biāo)簽嵌入過程中仍存在誤差傳播問題;在預(yù)訓(xùn)練模型微調(diào)階段由于中文醫(yī)學(xué)文本數(shù)據(jù)量小,導(dǎo)致得到的詞嵌入向量無法充分表達(dá)語義。所以,在未來的工作中,將會(huì)針對(duì)字符位置標(biāo)簽檢測(cè)準(zhǔn)確性的提高和在詞嵌入表示階段專業(yè)領(lǐng)域知識(shí)的注入展開進(jìn)一步研究,不斷優(yōu)化中文醫(yī)學(xué)命名實(shí)體識(shí)別方法,使模型更加準(zhǔn)確全面地識(shí)別出中文醫(yī)學(xué)文本中各種不同結(jié)構(gòu)的實(shí)體。