• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于LEBERT-BCF的電子病歷實(shí)體識(shí)別*

      2023-02-23 01:26:36吳廣碩樊重俊陶國慶賀遠(yuǎn)珍
      計(jì)算機(jī)時(shí)代 2023年2期
      關(guān)鍵詞:字符詞典實(shí)體

      吳廣碩,樊重俊,陶國慶,賀遠(yuǎn)珍

      (上海理工大學(xué)管理學(xué)院,上海 200093)

      0 引言

      電子病歷是指醫(yī)務(wù)人員在醫(yī)療活動(dòng)過程中,使用醫(yī)療機(jī)構(gòu)信息系統(tǒng)生成的數(shù)字化信息,并能實(shí)現(xiàn)存儲(chǔ)、管理、傳輸和重現(xiàn)的醫(yī)療記錄[1]。由于電子病歷通常為非結(jié)構(gòu)化文本,高效提取電子病歷中數(shù)據(jù)信息成為了推進(jìn)智慧醫(yī)療發(fā)展的關(guān)鍵點(diǎn)。

      中文醫(yī)療命名實(shí)體識(shí)別與其他領(lǐng)域不同,醫(yī)療實(shí)體通常具有長度較長、專業(yè)性強(qiáng)的特點(diǎn),因此中文醫(yī)療命名實(shí)體識(shí)別對(duì)文字語義特征提取和實(shí)體邊界準(zhǔn)確識(shí)別的要求較高。BERT[2]在輸入時(shí)以字符為基本單位,字符之間的相互割裂導(dǎo)致BERT 在醫(yī)療命名實(shí)體識(shí)別任務(wù)中產(chǎn)生了以下問題:

      ⑴ 中文字符的詞匯信息學(xué)習(xí)不充分。在中文NER 任務(wù)中每個(gè)字符更希望和其相近并能夠組成詞語的字符特進(jìn)行特征融合,而且字符作為基本輸入浪費(fèi)了詞匯中的實(shí)體邊界信息。

      ⑵ 對(duì)于嵌套實(shí)體的識(shí)別效果不佳。如在實(shí)體‘原發(fā)性肝癌’中,BERT 在輸入時(shí)由于缺乏全局觀,解碼時(shí)通常會(huì)將長度較短的‘肝癌’單獨(dú)識(shí)別為實(shí)體導(dǎo)致實(shí)體類別預(yù)測錯(cuò)誤。

      ⑶神經(jīng)網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定導(dǎo)致模型魯棒性差。神經(jīng)網(wǎng)絡(luò)由于很容易受到線性擾動(dòng)的攻擊,細(xì)微的擾動(dòng)也能使模型預(yù)測錯(cuò)誤。

      針對(duì)上述問題本文提出了基于外部詞典增強(qiáng)和對(duì)抗訓(xùn)練的實(shí)體識(shí)別模型LEBERT-BCF,LEBERT 相比較BERT 引入了外部詞典,優(yōu)點(diǎn)是可以借助詞典匹配出輸入文本中的潛在詞匯學(xué)習(xí)詞信息。比如實(shí)體“原發(fā)性肝癌”,LEBERT 輸出層在輸出字符“癌”對(duì)應(yīng)特征向量時(shí),會(huì)考慮到“癌”字對(duì)應(yīng)詞“肝癌”、“原發(fā)性肝癌”的語義信息,防止了模型將“肝癌”單獨(dú)識(shí)別為實(shí)體。而且LEBERT 另一個(gè)優(yōu)點(diǎn)是允許在BERT 不同Transformer Encoder 層注入詞信息,對(duì)研究NER 特征增強(qiáng)發(fā)生在預(yù)模型底層或是高層有一定的現(xiàn)實(shí)意義,本文同時(shí)引入對(duì)抗訓(xùn)練作為正則化,提高了BERT 在長實(shí)體NER任務(wù)中的魯棒性和泛化能力。

      1 相關(guān)研究

      命名實(shí)體識(shí)別方法主要分為三大類:第一類是基于規(guī)則的方法,通過構(gòu)建實(shí)體知識(shí)庫去匹配句子中的單詞是否為實(shí)體。第二類是傳統(tǒng)的機(jī)器學(xué)習(xí)方法,主要有HMM、CRF 等。第三類是深度學(xué)習(xí)方法。通過神經(jīng)網(wǎng)絡(luò)將NER 看做序列標(biāo)注任務(wù)。隨著對(duì)NER 研究的深入,目前的主流方法為深度學(xué)習(xí)和機(jī)器學(xué)習(xí)相結(jié)合模型,深度學(xué)習(xí)負(fù)責(zé)學(xué)習(xí)字符之間的語義信息并解碼輸出標(biāo)簽,機(jī)器學(xué)習(xí)負(fù)責(zé)學(xué)習(xí)標(biāo)簽之間的轉(zhuǎn)換關(guān)系,前者使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練,后者基于統(tǒng)計(jì)學(xué)習(xí)規(guī)則優(yōu)化。針對(duì)中文NER 任務(wù)中缺少詞信息的問題,Zhang 等人[3]提出Lattice-LSTM 首次在中文NER 任務(wù)中引入了詞信息。Gui等人[4]在LR-CNN 中對(duì)Lattice-LSTM 進(jìn)行了改進(jìn),使用CNN 對(duì)字符特征進(jìn)行編碼并堆疊多層獲得multi-gram 信息。Sui 等人[5]提出了CGN 模型構(gòu)建圖網(wǎng)絡(luò),圖網(wǎng)絡(luò)中三種不同的建圖方式融合字詞信息。Zou 等人[6]提出LGN 將每個(gè)字符視作節(jié)點(diǎn)并在節(jié)點(diǎn)周圍做匹配,匹配到單詞則構(gòu)成邊融合信息。Li等人[7]提出的FLAT引入了相對(duì)位置信息,字符可以直接與其所匹配詞匯間的交互。Liu 等人[8]提出了WC-LSTM 模型為每個(gè)字符引入靜態(tài)固定的詞匯,解決了Lattice-LSTM 無法并行化計(jì)算的缺點(diǎn)。Ding 等人[9]提出了利用實(shí)體詞典引入詞匯信息的Multi-digraph 模型。Ma 等人[10]提出了Simple-Lexicon模型,該模型設(shè)計(jì)了三種不同的字詞信息融合方法。Zhu 等人[11]提出了LEX-BERT 模型,通過引入實(shí)體類型type 信息提高了NER 性能。Liu 等人[12]提出了LeBERT 將詞信息注入模型底部提升實(shí)體識(shí)別性能。在中文醫(yī)療實(shí)體識(shí)別的任務(wù)中,羅凌等人[13]提出了基于筆畫ELMo 和多任務(wù)學(xué)習(xí)的命名實(shí)體識(shí)別模型,以筆畫序列為特征輸入到ELMo 學(xué)習(xí)向量表示。唐國強(qiáng)等人[14]提出了一種將BERT 輸出和注意力機(jī)制相結(jié)合進(jìn)行特征增強(qiáng)的方法。王星予等人[15]提出一種在輸入層融合實(shí)體關(guān)鍵字特征的實(shí)體分類模型。

      綜上所述,在中文醫(yī)療實(shí)體識(shí)別任務(wù)中多數(shù)模型都是將詞信息注入到模型末端或者將筆畫信息注入模型的Embedding 層,沒有直接將詞信息注入到模型內(nèi)部與字信息進(jìn)行交互以及考慮到模型的魯棒性。本文在BERT內(nèi)部以直觀形式引入每個(gè)字符在該段輸入文本中所匹配到的多個(gè)詞信息,探討將詞信息注入到BERT 不同Transformer Encoder 層[16]中對(duì)模型性能的影響,最后通過對(duì)抗訓(xùn)練提升了模型的魯棒性。

      2 LEBERT-BCF模型

      本文提出的LEBERT-BCF 模型結(jié)構(gòu)上主要分為三部分,第一部分是使用LEBERT 引入詞信息并將每個(gè)字符進(jìn)行向量化表示。Tencent AI Lab開源的中文詞典覆蓋面廣泛,包了各領(lǐng)域的專業(yè)詞匯并且已經(jīng)訓(xùn)練得到了對(duì)應(yīng)的詞向量,故使用Tencent AI Lab 的開源詞典為外部詞典。根據(jù)外部詞典為每個(gè)字符建立詞典樹,在輸入每一條電子病歷時(shí),根據(jù)詞典樹自動(dòng)為每個(gè)字符匹配出潛在詞匯構(gòu)建字符-詞語對(duì)輸入到模型進(jìn)行訓(xùn)練,在此過程中達(dá)到模型學(xué)習(xí)詞信息和實(shí)體邊界信息的目的。第二部分是BiLSTM 學(xué)習(xí)電子病歷的上下文特征。第三部分是CRF 學(xué)習(xí)實(shí)體標(biāo)簽的上下文約束,防止出現(xiàn)不合理的標(biāo)簽預(yù)測序列。圖1給出了LEBERT-BCF模型的主要結(jié)構(gòu)。

      圖1 LEBERT-BCF模型

      2.1 LEBERT

      LEBERT 在BERT 的基礎(chǔ)上通過Lexicon Adapter模塊融合電子病歷中的詞信息,因此在NER 過程中具有學(xué)習(xí)詞信息和實(shí)體邊界信息的能力。

      2.1.1 BERT

      BERT 模型通常由12 個(gè)Transformer 的Encoder模塊疊加而成,在模型的微調(diào)過程中,每個(gè)字符的特征向量會(huì)根據(jù)下文變化而變化,是一種動(dòng)態(tài)的字向量表示。

      BERT 模型內(nèi)部的多頭注意力機(jī)制有助于每個(gè)字符動(dòng)態(tài)融合其他字符的語義信息。在多頭注意力機(jī)制的過程中,Q、K、V 分別為查詢矩陣,鍵矩陣,值矩陣,WQ、WK、WV、W為線性變換矩陣。

      2.1.2 Char-Words Pair Sequence

      根據(jù)給定的中文句子sc={c1,c2…cn} 利用事先根據(jù)外部詞典構(gòu)建好的詞典樹匹配出句子中每個(gè)字符ci在該文本中對(duì)應(yīng)的潛在詞匯。在匹配到的詞匯中,每個(gè)字符和包含該字符的詞匯組成字符-詞語對(duì)集合,表示為scw={(c1,ws1),(c2,ws2),…(cn,wsn)}。其中wsi表示包含字符ci單詞組成的字符-詞語對(duì)。如圖2 中,輸入文本為“原發(fā)性肝癌”,通過詞典樹匹配,得到“癌”字符的字符-詞語對(duì)為(癌,[原發(fā)性肝癌,肝癌,<PAD>]),其中<PAD>為填充,限制每個(gè)字符對(duì)應(yīng)3 個(gè)詞語。

      圖2 字詞對(duì)序列

      2.1.3 Lexicon Adapter

      通過Lexicon Adapter 模塊將詞匯信息注入到BERT 中,對(duì)于給定的ci將其構(gòu)造出字符-詞語對(duì)向量表示為表示為第i 個(gè)位置的字向量表示為字符i 所對(duì)應(yīng)第m 個(gè)詞匯的詞向量。由于外部詞典詞向量和TransformerEncoder 輸出的字向量維度不一致,首先通過非線性變換將字向量和詞向量進(jìn)行向量維度對(duì)齊:

      使用hci為query 向量,其對(duì)應(yīng)的詞向量集合Vi為key和value,計(jì)算注意力分?jǐn)?shù):

      Wattn為權(quán)重矩陣。利用注意力分?jǐn)?shù)αi對(duì)value 進(jìn)行加權(quán)求和,得到ci對(duì)應(yīng)所有詞匯融合后的詞特征:

      具體流程如圖3所示。

      圖3 Lexicon Adapter模塊

      2.1.4 詞信息注入

      假設(shè)第k 層Transformer Encoder 的輸出為Hk=,利用Lexicon Adapte 模塊將詞匯信息注入到第k層與第k+1層Transformer Encoder之間:

      LA 為Lexicon Adapte 模塊,在第k 層,得到具有字詞特征信息的特征向量集合

      2.2 BiLSTM

      LSTM 通過增加遺忘門、輸入門與輸出門三部分增強(qiáng)RNN 的學(xué)習(xí)能力,缺點(diǎn)是只能利用上文已經(jīng)出現(xiàn)過的語義信息,在NER 任務(wù)中忽視了數(shù)據(jù)的前后依賴性。本文使用BiLSTM 將前向LSTM 隱藏層的輸出和后向LSTM 隱藏層的輸出拼接得到含有雙向語義信息的向量做標(biāo)簽預(yù)測。

      2.3 CRF

      CRF 是給定一組變量X 的條件下,另外一組隨機(jī)變量Y的條件概率分布的模型。在NER任務(wù)中,S(X,y)表示輸入句子序列X被標(biāo)記為序列y的得分值:

      分別表示第句子序列X 中第i 個(gè)字符的發(fā)射分?jǐn)?shù)和轉(zhuǎn)移分?jǐn)?shù),輸入句子序列X 被標(biāo)記為序列y的概率為:

      其中YX代表了所有的標(biāo)簽預(yù)測集。

      2.4 FGM

      FGM 是對(duì)抗訓(xùn)練的常用方法之一,假設(shè)LEBERTBCF輸入文本的embedding矩陣為x,根據(jù)LEBERT-BCF模型第一次反向傳播得到x 對(duì)應(yīng)的梯度?xL(x,y,θ)得到輸入文本的對(duì)抗擾動(dòng)radv:

      ε為超參數(shù)。將對(duì)抗擾動(dòng)加到x 矩陣得到對(duì)抗樣本xadv:

      在原始樣本損失函數(shù)增大方向得到對(duì)抗樣本,將對(duì)抗樣本再次輸入模型訓(xùn)練可以尋找到更健壯的參數(shù)值。

      3 實(shí)驗(yàn)

      3.1 實(shí)驗(yàn)數(shù)據(jù)

      實(shí)驗(yàn)數(shù)據(jù)集來自中文醫(yī)療數(shù)據(jù)集CCKS 2019,將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集、測試集,分別是800、200、379條。數(shù)據(jù)集中共包含6種實(shí)體,各個(gè)實(shí)體在數(shù)據(jù)集的分布如表1。

      表1 CCKS 2019 數(shù)據(jù)集實(shí)體類別及數(shù)目

      3.2 參數(shù)設(shè)置

      在本文命名實(shí)體識(shí)別實(shí)驗(yàn)中,使用Python和Pytorch搭建實(shí)驗(yàn)環(huán)境,對(duì)LEBERT、BiLSTM、CRF 三個(gè)模塊采用差分學(xué)習(xí)率。模型詳細(xì)參數(shù)見表2。

      表2 LEBERT-BCF模型超參數(shù)設(shè)置

      3.3 評(píng)估指標(biāo)

      本文采用的評(píng)價(jià)指標(biāo)有準(zhǔn)確率P,召回率R 和F1值,均采用嚴(yán)格評(píng)判標(biāo)準(zhǔn),只有當(dāng)模型所識(shí)別的實(shí)體邊界與真實(shí)邊界一致且實(shí)體類別一致時(shí)才被判定為一次正確識(shí)別。

      準(zhǔn)確率P計(jì)算公式為:

      召回率R計(jì)算公式為:

      F1 值為準(zhǔn)確率和召回率的加權(quán)調(diào)和平均值,計(jì)算公式為:

      3.4 實(shí)驗(yàn)結(jié)果及分析

      為驗(yàn)證本文所提出LEBERT-BCF 模型在醫(yī)療命名實(shí)體識(shí)別有效,在同樣的實(shí)驗(yàn)環(huán)境下采用多種模型對(duì)比的方法,使用本文模型與BiLSTM,BiLSTM-CRF,BERT-BiLSTM-CRF,LEBERT-BCF*(各模塊學(xué)習(xí)率相等)在準(zhǔn)確率,召回率,F(xiàn)1 指標(biāo)上做對(duì)比實(shí)驗(yàn),對(duì)比結(jié)果如表3所示。

      表3 模型對(duì)比實(shí)驗(yàn)結(jié)果

      由表3可知,由于BERT模型引入了自注意力機(jī)制,在實(shí)體識(shí)別效果上相對(duì)于BiLSTM-CRF 有較大提升,在P,R,F(xiàn)1 指標(biāo)上分別提升了7.93%,8.67%,8.31%。BERT-BiLSTM-CRF 與BERT-CRF 相比較引入了BiLSTM 學(xué)習(xí)文字方向性信息,在P,R,F1 指標(biāo)上分別提升了0.47%,1.17%,0.82%,對(duì)比發(fā)現(xiàn)在BERT 模型后引入BiLSTM 在NER 任務(wù)中各項(xiàng)指提升效果并不明顯,原因在于BERT 模型在下游任務(wù)中通常具有較強(qiáng)的擬合能力,堆疊一層同樣是字符為輸入單位BiLSTM 模型對(duì)中文醫(yī)療實(shí)體識(shí)別性能影響較小。LEBERT-BCF*與BERT-BiLSTM-CRF相比較在P,R,F(xiàn)1 指標(biāo)上分別提升了2.1%,2.97%,2.53%,充分驗(yàn)證了BERT 內(nèi)部引入Lexicon Adapter 模塊和embedding層引入FGM 可以提升模型的實(shí)體識(shí)別性能,有效解決了字符模型BERT 在NER 任務(wù)中的詞信息損失、實(shí)體邊界信息浪費(fèi)和模型魯棒性較差的問題。通過對(duì)模型的不同模塊單獨(dú)設(shè)置學(xué)習(xí)率,LEBERT-BCF相比較LEBERT-BCF*在P,R,F(xiàn)1 指標(biāo)上分別提升了0.98%,0.85%,0.92%,證明了預(yù)訓(xùn)練模型在下游任務(wù)微調(diào)時(shí)只需要設(shè)置較小的學(xué)習(xí)率就可以迅速收斂,而其他模塊通常設(shè)置相對(duì)較大學(xué)習(xí)率才可以收斂。

      為了更加直觀的顯示在BERT 的NER 任務(wù)中引入詞信息和FGM 可以提高實(shí)體識(shí)別性能,圖4 為BERT-BiLSTM-CRF與LEBERT-BCF在CCKS 2019測試集上各個(gè)實(shí)體的F1值。

      圖4 F1值對(duì)比

      由圖4 可知LEBERT-BCF 在各個(gè)實(shí)體的識(shí)別效果均優(yōu)于BERT-BiLSTM-CRF 證明了本文模型在專業(yè)性較強(qiáng)和實(shí)體較長的中文醫(yī)療數(shù)據(jù)集上可以更好的提取特征信息。

      通過在LEBERT 底層和高層引入詞信息,探討不同Transformer Encoder 層進(jìn)行特征增強(qiáng)對(duì)模型實(shí)體識(shí)別的影響,對(duì)比結(jié)果如表4所示,推斷出在模型底層引入詞信息可以高效地進(jìn)行特征增強(qiáng),而在模型末端引入詞信息的增強(qiáng)效果最低。

      表4 注入層數(shù)對(duì)模型的影響

      4 結(jié)論

      在對(duì)電子病歷的數(shù)據(jù)挖掘過程中,BERT 不能充分利用中文詞信息和邊界信息這些重要特征進(jìn)行NER 任務(wù),而且神經(jīng)網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定導(dǎo)致模型魯棒性較差。針對(duì)這些問題本文提出了一種基于詞典匹配和對(duì)抗訓(xùn)練的中文電子病歷實(shí)體識(shí)別模型LEBERTBCF。經(jīng)過實(shí)驗(yàn)證明,該模型在CCKS 2019 數(shù)據(jù)集上實(shí)體識(shí)別效果優(yōu)于BERT-BiLSTM-CRF,有效解決了BERT 在實(shí)體識(shí)別過程中的詞信息損失問題和實(shí)體邊界浪費(fèi)問題,提升了模型的魯棒性。LEBERT-BCF的缺點(diǎn)一方面是需要依靠詞典匹配得到每個(gè)字符在文中所對(duì)應(yīng)的詞匯,而本文所使用的詞典為通用型詞典,因此在今后的工作中會(huì)研究專業(yè)性醫(yī)療詞典匹配對(duì)模型的影響;另一方面缺點(diǎn)是FGM 需要兩次反向傳播,計(jì)算量大,訓(xùn)練時(shí)間長。

      猜你喜歡
      字符詞典實(shí)體
      尋找更強(qiáng)的字符映射管理器
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      字符代表幾
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      中國外匯(2019年18期)2019-11-25 01:41:54
      一種USB接口字符液晶控制器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:50
      消失的殖民村莊和神秘字符
      評(píng)《現(xiàn)代漢語詞典》(第6版)
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      詞典例證翻譯標(biāo)準(zhǔn)探索
      兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      平阴县| 廊坊市| 前郭尔| 浦东新区| 涪陵区| 岳池县| 探索| 固安县| 浑源县| 海安县| 房山区| 晋城| 广平县| 基隆市| 红河县| 中西区| 杭锦旗| 六盘水市| 永登县| 普格县| 通海县| 错那县| 邛崃市| 临桂县| 沈丘县| 普宁市| 拉孜县| 永靖县| 定安县| 九寨沟县| 沾化县| 通城县| 潮州市| 正宁县| 当阳市| 甘洛县| 莆田市| 高雄县| 莒南县| 蓬莱市| 武陟县|