蔡曉瓊,鄭增亮,蘇前敏,郭晶磊
(1 上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620;2 上海中醫(yī)藥大學(xué) 基礎(chǔ)醫(yī)學(xué)院,上海 201203)
生物醫(yī)學(xué)命名實(shí)體識(shí)別,是生物醫(yī)學(xué)信息提取領(lǐng)域最基本的任務(wù)之一,其準(zhǔn)確性對后續(xù)研究工作至關(guān)重要。隨著生物醫(yī)學(xué)研究與信息化技術(shù)的迅速發(fā)展,臨床醫(yī)學(xué)文獻(xiàn)數(shù)量呈指數(shù)級(jí)增長,這些資源中存在大量非結(jié)構(gòu)化數(shù)據(jù),迫切需要開發(fā)一些自動(dòng)化技術(shù),來解決生物醫(yī)學(xué)領(lǐng)域的單詞分割、實(shí)體識(shí)別、關(guān)系抽取、主題分類等問題。由于生物醫(yī)學(xué)實(shí)體的多樣性和變異性,識(shí)別生物醫(yī)學(xué)實(shí)體是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)。目前,生物醫(yī)學(xué)命名實(shí)體識(shí)別方法主要分為基于字典和規(guī)則的方法,以及基于深度學(xué)習(xí)的方法。
基于規(guī)則的命名實(shí)體識(shí)別方法主要依賴于人工定義的詞典和規(guī)則,可以根據(jù)特定領(lǐng)域的詞典和句法-詞匯模式來進(jìn)行設(shè)計(jì)。一些著名的基于規(guī)則的命名實(shí)體識(shí)別模型包括LaSIE-II、Sra、FASTUS 和LTG 等[1-4]。與傳統(tǒng)方法相比,引入深度學(xué)習(xí)技術(shù)的命名實(shí)體識(shí)別方法,通過在大規(guī)模語料庫中進(jìn)行訓(xùn)練與學(xué)習(xí),自動(dòng)提取語義特征,使模型具有較強(qiáng)的泛化能力,同時(shí)降低了人力與時(shí)間成本。目前常用的詞嵌入方法是由Mikolov 等[5]提出的Word2Vec模型。但該方法訓(xùn)練獲得的詞向量是靜態(tài)的,無法解決一詞多義問題。隨著自然語言處理技術(shù)的發(fā)展,ELMo[6]、BERT[7]和XLNet[8]等預(yù)訓(xùn)練語言模型的推出,為下游任務(wù)提供了極大的幫助,對模型進(jìn)行微調(diào)后,在命名實(shí)體識(shí)別任務(wù)上取得了較好的效果。但ELMo 輸出的語義表征是單向的,無法獲得更全面的雙向信息;BERT 和XLNet 采用的MLM 和PLM 方法各自存在局限性,在用于下游任務(wù)微調(diào)時(shí),會(huì)造成預(yù)訓(xùn)練和微調(diào)不匹配。為了解決以上問題,南京大學(xué)和微軟共同提出了基于MLM 和PLM各自優(yōu)點(diǎn)的預(yù)訓(xùn)練模型MPNet[9],彌補(bǔ)了MLM 無法學(xué)習(xí)tokens 之間依賴關(guān)系的不足,同時(shí)克服了PLM 無法獲得下游任務(wù)中可見完整信息的問題。
針對目前臨床試驗(yàn)文本研究匱乏、語料不足與標(biāo)注質(zhì)量不高等問題,本文結(jié)合UMLS 語義網(wǎng)絡(luò)和專家定義方法建立了COVID-19 臨床實(shí)體識(shí)別語料庫,并將預(yù)訓(xùn)練語言模型MPNet 引入COVID-19 臨床實(shí)體識(shí)別任務(wù)中,提出了一種基于MPNet 與BiLSTM 的醫(yī)學(xué)實(shí)體識(shí)別模型。
本文提出的MPNet-BiLSTM-CRF 命名實(shí)體識(shí)別模型主要結(jié)構(gòu)如圖1 所示。采用MPNet 預(yù)訓(xùn)練模型作為嵌入層對輸入進(jìn)行語義提取生成動(dòng)態(tài)詞向量;采用BiLSTM 捕捉長距離依賴關(guān)系;最后由CRF推理層進(jìn)行最佳標(biāo)注序列解碼,預(yù)測出全局最優(yōu)標(biāo)簽。該方法在經(jīng)典BiLSTM-CRF 的基礎(chǔ)上進(jìn)行了改進(jìn),引入了MPNet 語言模型,在預(yù)測掩碼標(biāo)記的同時(shí)以更多的信息為條件,從而獲得更好的學(xué)習(xí)表征,并減少了微調(diào)階段的差異。
圖1 MPNet-BiLSTM-CRF 模型結(jié)構(gòu)圖Fig.1 The structure of MPNet-BiLSTM-CRF model
MPNet 模型的注意力掩碼機(jī)制:首先設(shè)長度n =6 的輸入序列為(x1,x2,x3,x4,x5,x6),若隨機(jī)生成的序列為(x5,x4,x2,x6,x3,x1),預(yù)測值分別是x6、x3和x1,則非預(yù)測序列表示為(x5,x4,x2,[MASK],[MASK],[MASK] ),對應(yīng)位置序列為(P5,P4,P2,P6,P3,P1)。其次,為 了能讓預(yù)測部分 的[MASK]看到之前預(yù)測的tokens,MPNet 采用了PLM 雙流自注意力機(jī)制完成自回歸生成,并為內(nèi)容流和查詢流設(shè)置了不同的掩蔽機(jī)制。例如,MPNet在預(yù)測上述序列中的x3時(shí),能在非預(yù)測部分看到(x5+P5,x4+P4,x2+P2),同時(shí)在預(yù)測部分看到之前預(yù)測的(x6+P6),從而避免MLM 中依賴關(guān)系遺漏的問題。此外,為了確保預(yù)訓(xùn)練中輸入信息與下游任務(wù)中輸入信息的一致性,MPNet 在非預(yù)測部分增加了掩碼符號(hào)和位置信息([MASK]+P6,[MASK]+P3,[MASK]+P1),使模型能看到完整的句子。當(dāng)預(yù)測x3時(shí),能在非預(yù)測部分看到原始的(x5+P5,x4+P4,x2+P2)以及引入了額外tokens和位置信息的([MASK]+P3,[MASK]+P1),同時(shí)在預(yù)測部分看到之前預(yù)測的(x6+P6)。通過上述辦法對查詢流和內(nèi)容流進(jìn)行位置補(bǔ)償后的模型,能夠大幅減少預(yù)訓(xùn)練與微調(diào)之間輸入不一致的問題。
假定句子為“to take up seasonal flu vaccination”,模 型 輸 入 序 列 為[to,take up,seasonal,flu,vaccination],需 要 預(yù) 測 的token 是[seasonal,flu,vaccination],MPNet 的因子化如下:
自Vaswani 等[10]提出Transformer 這一基于自注意力機(jī)制的深度學(xué)習(xí)模型以來,已被廣泛應(yīng)用到NLP 領(lǐng)域中解決各種復(fù)雜問題,幾款主流的預(yù)訓(xùn)練語言模型(如BERT、XLNet 和ALBERT 等)都以Transformer 作為其骨干網(wǎng)絡(luò)。傳統(tǒng)語言模型通?;贑NN 或RNN 編碼器進(jìn)行訓(xùn)練,在長周期語境建模中能力較為欠缺,并且在學(xué)習(xí)單詞表征時(shí)存在位置偏差,尤其RNN 是按順序處理輸入的,即一個(gè)字一個(gè)字地處理,對計(jì)算機(jī)硬件的并行能力要求較高。為了克服現(xiàn)有深度學(xué)習(xí)模型的缺點(diǎn),Transformer 在每個(gè)關(guān)鍵模塊中引入了Attention 機(jī)制,大幅提升了模型對文本的特征提取能力。此外,Transformer 還引入了多頭注意力機(jī)制(Multi-Head Attention),使模型能夠使用各個(gè)序列位置的各個(gè)子空間的表征信息來進(jìn)行序列數(shù)據(jù)處理,其相當(dāng)于多個(gè)不同的自注意力模塊的集成,從而構(gòu)成蘊(yùn)含完整語料信息的多粒度特征。標(biāo)準(zhǔn)的Transformer 結(jié)構(gòu)如圖2 所示。
圖2 標(biāo)準(zhǔn)Transformer 結(jié)構(gòu)圖Fig.2 Standard Transformer structure diagram
通 過 圖2 可 知,Transformer 由encoder 和decoder 兩部分組合而成。其中,encoder 通過6 個(gè)編碼器疊加構(gòu)成,每個(gè)encoder 中都包含一個(gè)自注意力層和前饋神經(jīng)網(wǎng)絡(luò)層,兩個(gè)子層之間通過殘差網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行連接,后接一個(gè)正則化層。為了方便各層之間的殘差連接,模型中所有子層的輸出維度均為512。Decoder 也由6 個(gè)完全相同的解碼器疊加組成,除了與編碼器完全一致的兩個(gè)子層外,Decoder 還設(shè)置了一個(gè)多頭注意力層。多頭注意力層是由多個(gè)自注意力層拼接而成的,可以捕捉到單詞之間各維度上的相關(guān)系數(shù)。
為了解決傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)在訓(xùn)練較長語句時(shí)可能導(dǎo)致梯度爆炸和梯度消失問題,Hochreiter 等人[11]提出了長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM),該模型能夠在長文本訓(xùn)練中捕捉長距離依賴特征。與標(biāo)準(zhǔn)RNN 模型相比,LSTM 在其結(jié)構(gòu)基礎(chǔ)上增加了門控機(jī)制和記憶單元兩個(gè)模塊。其中,記憶單元用于存儲(chǔ)文本特征,門控機(jī)制則對記憶單元中的存儲(chǔ)信息進(jìn)行篩選。LSTM 模型分別設(shè)置了輸入門、遺忘門和輸出門保護(hù)和控制細(xì)胞狀態(tài),通過累加更新傳遞信息的方式,消除了RNN 模型在處理長文本任務(wù)時(shí)可能出現(xiàn)的問題,其單元結(jié)構(gòu)如圖3 所示。
圖3 LSTM 單元結(jié)構(gòu)圖Fig.3 LSTM unit structure
LSTM 模型是由t時(shí)刻的輸入詞Xt、細(xì)胞狀態(tài)Ct、臨時(shí)細(xì)胞狀態(tài)隱含狀態(tài)ht、遺忘門ft、記憶門it及輸出門ot組成,通過對細(xì)胞狀態(tài)中信息遺忘和記憶新的信息,使得對后續(xù)時(shí)刻計(jì)算有用的信息得以傳遞,而無用的信息被摒棄,并在每個(gè)時(shí)間步都會(huì)輸出隱含狀態(tài)ht。其中遺忘、記憶與輸出通過上一時(shí)刻的隱含狀態(tài)ht-1和當(dāng)前輸入Xt計(jì)算出來的遺忘門ft、記憶門it和輸出門ot來控制,遺忘門計(jì)算如公式(2):
其中,輸入為前一時(shí)刻的隱含狀態(tài)ht -1和當(dāng)前時(shí)刻的輸入詞Xt。
記憶門的值it和臨時(shí)細(xì)胞狀態(tài)分別由公式(3)和公式(4)計(jì)算得出:
根據(jù)輸入為記憶門的值it、遺忘門的值ft、臨時(shí)細(xì)胞狀態(tài)和上一時(shí)刻細(xì)胞狀態(tài)Ct -1計(jì)算t時(shí)刻細(xì)胞狀態(tài)Ct為
前一時(shí)刻的隱含狀態(tài)ht -1、當(dāng)前時(shí)刻的輸入詞Xt和當(dāng)前時(shí)刻細(xì)胞狀態(tài)ht,計(jì)算t時(shí)刻輸出門的值ot和隱含狀態(tài)ht為
其中,σ為sigmoid函數(shù);tanh 為雙曲正切激活函數(shù);W和b分別表示鏈接兩層的權(quán)重矩陣和偏置向量。經(jīng)過LSTM 模型計(jì)算后,最終即可得到與句子長度相同的隱含狀態(tài)序列{h0,h1,…,hn-1}。
對于處理NLP 任務(wù)(尤其對序列標(biāo)注任務(wù)),上下文內(nèi)容無論對單詞、詞組還是字符,在整個(gè)研究過程中都尤為重要。通常情況下,LSTM 常用單元為前向傳播,然而在研究序列問題時(shí),前向LSTM 無法處理下文的內(nèi)容信息,從而導(dǎo)致模型無法學(xué)習(xí)到下文的知識(shí),影響最終模型效果。而雙向長短期記憶網(wǎng)絡(luò)(Bi -directional Long Short -Term Memory,BiLSTM)既能獲取上文信息,又能捕獲下文內(nèi)容,對雙向信息都能進(jìn)行記憶,通過同時(shí)得到前后兩個(gè)方向的輸出,來提高整個(gè)NLP 模型的性能。BiLSTM模型結(jié)構(gòu)如圖4 所示。
圖4 BiLSTM 模型結(jié)構(gòu)圖Fig.4 BiLSTM model structure
條件隨機(jī)場(Conditional Random Field,CRF)是Lafferty 等[12]基于最大熵模型和隱馬爾可夫模型所提出的一種判別式概率無向圖學(xué)習(xí)模型,常用于標(biāo)注和切分有序數(shù)據(jù)的條件概率模型。在序列任務(wù)標(biāo)注任務(wù)中,令X =(X1,X2,…,Xn)表示模型的觀察序列,Y =(Y1,Y2,…,Yn)表示狀態(tài)序列,P(Y |X)為線性鏈條件隨機(jī)場,則在隨機(jī)變量X取值為x的條件下,計(jì)算狀態(tài)序列Y取值為y的條件概率分布P(Y |X),計(jì)算公式為
其中,tk、sl為特征函數(shù),其函數(shù)取值為0 或1(當(dāng)滿足特征條件時(shí),函數(shù)取值為1,反之為0);λk、ul為對應(yīng)權(quán)重;Z(x)為歸一化因子,其計(jì)算公式為
為了對上述公式進(jìn)行簡化,可將轉(zhuǎn)移特征、狀態(tài)特征及其權(quán)重用統(tǒng)一的符號(hào)進(jìn)行表示,簡化后的公式為
CRF 中最重要的就是訓(xùn)練模型的權(quán)重。通常情況下,使用最大化對數(shù)似然函數(shù)進(jìn)行CRF 模型的訓(xùn)練,通過式(12)計(jì)算在給定條件下,標(biāo)簽序列Y的條件概率:
最后,在CRF 模型預(yù)測過程中采用維特比(Viterbi)算法來求解全局最優(yōu)序列,通過該算法可以計(jì)算出與預(yù)測對象對應(yīng)的最大概率標(biāo)簽,計(jì)算公式為
本文使用的是美國臨床試驗(yàn)注冊中心(ClinicalTrials,CT)中的COVID-19 相關(guān)臨床試驗(yàn)注冊數(shù)據(jù),CT 官方網(wǎng)址為https://clinicaltrials.gov。CT 中收錄了臨床研究者在世界各地進(jìn)行的私人或公共資助的臨床研究項(xiàng)目,其中包含有關(guān)人類志愿者醫(yī)學(xué)研究的信息。隨著COVID-19 的爆發(fā),越來越多相關(guān)的臨床試驗(yàn)在此平臺(tái)進(jìn)行了注冊,臨床記錄中富含COVID-19 相關(guān)的臨床醫(yī)學(xué)知識(shí)??紤]到試驗(yàn)結(jié)束前可能存在信息更新不完整的問題,本文基于已完成的697 項(xiàng)干預(yù)性試驗(yàn)數(shù)據(jù)進(jìn)行COVID-19 臨床試驗(yàn)的命名實(shí)體識(shí)別實(shí)驗(yàn)。
本研究采用的NER 模型基于PyTorch 深度學(xué)習(xí)框架,實(shí)驗(yàn)環(huán)境配置見表1。
表1 實(shí)驗(yàn)環(huán)境配置Tab.1 Experimental environment configuration
本研究采用微軟發(fā)布的MPNet 模型,由12 個(gè)Transformer 層組合而成,隱藏層維度設(shè)為768,12 個(gè)注意頭模式;使用GELU 作為其激活函數(shù),BiLSTM隱藏單元為128。在訓(xùn)練階段,MPNet-BiLSTM-CRF的最大序列長度為256,batch_size 為128,MPNet 學(xué)習(xí)率設(shè)為3e-5,Dropout 為0.1,其他模塊Dropout 為0.3,并通過Adam 優(yōu)化算法對模型進(jìn)行訓(xùn)練。
臨床試驗(yàn)注冊中的非結(jié)構(gòu)化文本主要涉及了具有特定意義的相關(guān)醫(yī)學(xué)實(shí)體。例如:藥物名稱“Remdesivir”、醫(yī)療程序“bronchoalveolar lavage”、疾病名稱“COVID-19”等等。不同的研究對醫(yī)療實(shí)體的標(biāo)注規(guī)則和定義都有一定差異,統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(Unified Medical Language System,UMLS)收錄了超過500 萬條生物醫(yī)學(xué)術(shù)語,至少200 萬種醫(yī)學(xué)概念,目前已廣泛應(yīng)用于文獻(xiàn)分類、臨床研究和中英文電子病歷等領(lǐng)域中。本研究參考了UMLS 定義的實(shí)體類別以及文獻(xiàn)[13]中提出的醫(yī)學(xué)實(shí)體標(biāo)注規(guī)范,對臨床試驗(yàn)注冊內(nèi)容規(guī)定了實(shí)體標(biāo)準(zhǔn)和含義,結(jié)合文本內(nèi)容定義了8 種類別的臨床實(shí)體,COVID-19臨床文本命名實(shí)體識(shí)別示例見表2。
表2 實(shí)體類型定義與示例Tab.2 Entity type definitions and examples
NER 任務(wù)旨在提取文本中的命名實(shí)體,如名稱或帶有適當(dāng)NER 類的標(biāo)簽,本文使用BIO 標(biāo)注方式對序列進(jìn)行標(biāo)注。在這種格式中,不屬于實(shí)體的標(biāo)記被標(biāo)記為“O”,“B”標(biāo)記對應(yīng)實(shí)體的第一個(gè)單詞,“I”標(biāo)記對應(yīng)同一實(shí)體的其余單詞?!癇”和“I”標(biāo)簽后跟連字符(或下劃線),后跟實(shí)體類別縮寫(如Dru、Dis、Syp 等),表3 是對COVID-19 臨床實(shí)體預(yù)測標(biāo)簽的示例。
表3 實(shí)體預(yù)測標(biāo)簽定義Tab.3 Entity prediction label definitions
本研究采用精確率(P)、召回率(R)和F1 值(F1)作為模型的評價(jià)指標(biāo)。P是指正確識(shí)別的實(shí)體占全部預(yù)測實(shí)體的比重,R是正確識(shí)別的實(shí)體占語料庫中所有實(shí)體的比重。各指標(biāo)對應(yīng)的計(jì)算公式如下:
其中,TP指正確地將正例預(yù)測為正的數(shù)量;FP指錯(cuò)誤地將負(fù)例預(yù)測為正的數(shù)量;FN指錯(cuò)誤地將正例預(yù)測為負(fù)的數(shù)量。
為了驗(yàn)證本文提出的MPNet-BiLSTM-CRF 融合模型對COVID-19 臨床試驗(yàn)注冊實(shí)體具有較好的識(shí)別效果,與以下幾種方法進(jìn)行對比實(shí)驗(yàn):
(1)經(jīng)典的BiLSTM-CRF 模型:該模型采用word2vec 訓(xùn)練得到的詞,嵌入向量作為輸入,然后通過雙向LSTM 層和CRF 完成編碼與識(shí)別任務(wù)。目前該模型已廣泛應(yīng)用于中英文生物醫(yī)學(xué)NER 任務(wù)中,并取得了良好的效果。
(2)Att-BiLSTM-CRF 融合模型[14]:該模型通過引入Attention 機(jī)制,確保模型能夠?qū)W⒂跇?biāo)記本文中同一token 的多個(gè)實(shí)例之間的一致性。
(3)XLNet-BiLSTM-CRF 模型[15]:該模型使用XLNet 預(yù)訓(xùn)練語言模型提取句子特征,然后將經(jīng)典神經(jīng)網(wǎng)絡(luò)模型與獲取的特征相結(jié)合,在公共醫(yī)療數(shù)據(jù)集上識(shí)別效果較好。
(4)BERT-BiLSTM-CRF 模型:通過使用BERT替換上個(gè)模型中的XLNet 方法。與現(xiàn)有方法相比,該模型在英文生物醫(yī)學(xué)NER 任務(wù)中具有更好的表現(xiàn)[16]。
對于不同的實(shí)體類型,各模型的實(shí)驗(yàn)結(jié)果見表4。由表4 可知,本文提出的MPNet-BiLSTM-CRF模型在大部分實(shí)體上表現(xiàn)較好,少數(shù)幾類實(shí)體上表現(xiàn)略遜于基于XLNet 的融合模型,但F1 值的差別不明顯。在所有模型的實(shí)驗(yàn)結(jié)果中,“Disease”、“Symptom”和“Severity”的F1 值較高,這是由于在摘要中這3 類實(shí)體結(jié)構(gòu)簡單且包含的信息種類較少,模型能夠充分學(xué)習(xí)這些文本的特征。通過分析另外幾種實(shí)體發(fā)現(xiàn),存在訓(xùn)練數(shù)據(jù)集較少導(dǎo)致過擬合現(xiàn)象,另外部分實(shí)體結(jié)構(gòu)復(fù)雜且出現(xiàn)次數(shù)少(例如為特定情況下COVID-19 防治選用的藥物、檢查或治療措施),導(dǎo)致模型難以充分提取其特征。在后續(xù)COVID-19 臨床試驗(yàn)摘要的NER 任務(wù)中,可以通過適量加入專業(yè)的英語語料庫來增加語義特征,從而優(yōu)化模型的識(shí)別能力。由表5 中展示的實(shí)驗(yàn)結(jié)果可知,在COVID-19臨床試驗(yàn)注冊數(shù)據(jù)集中,MPNet-BiLSTM-CRF 模型與其它4 種模型相比,整體的精確率、召回率和F1值都有所提高。經(jīng)典BiLSTM-CRF 模型實(shí)體識(shí)別的F1 值為69.42%,引入Attention 機(jī)制后的模型F1值提升了2.49%。注意力矩陣能夠計(jì)算當(dāng)前的目標(biāo)單詞與序列中所有單詞的相似性,通過權(quán)重矩陣為不同重要程度的單詞分配相應(yīng)的權(quán)重值,計(jì)算出文本的全局向量作為BiLSTM 輸出的加權(quán)和。對比ERT-BiLSTM-CRF 和Att-BiLSTM-CRF 模型,前者實(shí)驗(yàn)結(jié)果的3 項(xiàng)指標(biāo)均有提升,F(xiàn)1 值比后者提升了1.26%,說明BERT 預(yù)訓(xùn)練語言模型能更好地捕捉語義關(guān)系和單詞特征。BERT-BiLSTM-CRF 與XLNet-BiLSTM-CRF 模型相比,精確率分別是72.60%和74.57%,F(xiàn)1 值分別為73.17%和74.01%。相比之下,基于XLNet 的NER 模型效果略優(yōu)于BERT。而本文提出的MPNet-BiLSTM-CRF 融合模型與XLNet-BiLSTM-CRF 模型相比,F(xiàn)1 值提高了1.06%,通過使用融合了BERT 和XLNet 優(yōu)點(diǎn)的MPNet 預(yù)訓(xùn)練語言模型,增強(qiáng)了序列的特征表示,同時(shí)彌補(bǔ)了兩者的缺陷,從而提高了模型整體的識(shí)別能力。此外,MPNet 模型的識(shí)別能力提高后,速度并未有明顯下降,因此MPNet 作為詞嵌入層將具有更優(yōu)秀的表現(xiàn)。
表4 不同實(shí)體類型的識(shí)別結(jié)果Tab.4 Identification results of different entity types
表5 各模型整體對比結(jié)果Tab.5 Overall comparison results for each model %
本文提出了一種基于MPNet 和BiLSTM 的醫(yī)學(xué)實(shí)體識(shí)別模型,聯(lián)合BiLSTM 網(wǎng)絡(luò)適應(yīng)長文本特征提取和CRF 序列標(biāo)注方法,能適應(yīng)于COVID-19 臨床試驗(yàn)注冊文本中新興醫(yī)學(xué)實(shí)體的識(shí)別任務(wù)。實(shí)驗(yàn)設(shè)置了多組對比模型以驗(yàn)證本文方法的有效性,結(jié)果表明其識(shí)別性能優(yōu)于基準(zhǔn)模型以及近年來被廣泛研究的基于主流預(yù)訓(xùn)練模型的實(shí)體識(shí)別方法,并且能夠較好地實(shí)現(xiàn)COVID-19 相關(guān)臨床醫(yī)學(xué)實(shí)體的識(shí)別任務(wù),對醫(yī)學(xué)領(lǐng)域相關(guān)研究具有一定參考價(jià)值。本實(shí)驗(yàn)數(shù)據(jù)僅包含697 份臨床試驗(yàn)注冊記錄中的摘要文本,存在實(shí)體種類多但數(shù)量不均衡的問題,因此在接下來的工作中,將納入更多臨床文本來豐富語料庫,為挖掘COVID-19 臨床文本中隱含的醫(yī)學(xué)知識(shí)與臨床價(jià)值做準(zhǔn)備。