• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      采用Transformer-CRF的中文電子病歷命名實(shí)體識別

      2020-03-11 13:54:52康曉東張華麗王亞鴿陳亞媛
      關(guān)鍵詞:命名病歷注意力

      李 博,康曉東,張華麗,王亞鴿,陳亞媛,白 放

      天津醫(yī)科大學(xué) 醫(yī)學(xué)影像學(xué)院,天津300203

      1 引言

      隨著醫(yī)療信息化的快速發(fā)展,電子病歷在各大醫(yī)院的應(yīng)用越來越普及,不同于傳統(tǒng)紙質(zhì)病歷,電子病歷更便于保存和查閱。電子病歷(Electronic Medical Records,EMR)產(chǎn)生于臨床治療過程,是由醫(yī)務(wù)人員撰寫的描述患者診療經(jīng)過的重要醫(yī)療信息記錄[1]。電子病歷記錄患者所患疾病、癥狀和體征、檢查的檢驗(yàn)、治療等一系列與患者健康狀況密切相關(guān)的重要信息,這些信息是醫(yī)療信息系統(tǒng)的核心數(shù)據(jù),如何利用電子病歷挖掘有用信息是現(xiàn)代化醫(yī)療中非常重要的任務(wù)之一。電子病歷是非結(jié)構(gòu)化數(shù)據(jù)且缺乏統(tǒng)一的表述標(biāo)準(zhǔn),這是阻礙電子病歷二次利用的主要原因[2-3]。因此,迫切需要找到能夠自動將非結(jié)構(gòu)化的文本轉(zhuǎn)化成可被計(jì)算機(jī)識別的結(jié)構(gòu)化數(shù)據(jù)的信息抽取方法,便于計(jì)算機(jī)理解和使用。

      命名實(shí)體識別(Named Entity Recognition,NER)是自然語言處理的一項(xiàng)基本任務(wù),也是信息抽取的關(guān)鍵組件,對信息檢索、機(jī)器翻譯和自動應(yīng)答等研究有重要意義[4]。電子病歷含有大量實(shí)體,且類型多樣,其中包括疾病名稱、檢查方式和治療等,識別這些實(shí)體對于文本信息的結(jié)構(gòu)化起著關(guān)鍵作用。

      目前,命名實(shí)體識別的常用方法有:(1)基于規(guī)則和詞典的方法[5]。這種方法有較大的弊端,規(guī)則和詞典需特定領(lǐng)域?qū)<沂止ぞ帉?,工作量巨大且適用范圍窄,很難推廣使用。(2)基于統(tǒng)計(jì)的方法。主要包括最大熵模型(Maximum Entropy Models,MEM)[6]、支持向量機(jī)(Support Vector Machines,SVM)[7]、隱馬爾可夫模型(Hidden Markov Models,HMM)[8]、條件隨機(jī)場(Conditional Random Fields,CRF)等[9]。這種方法無需過多的人工干預(yù),具有良好的靈活性和魯棒性,但是卻需要大量的標(biāo)注集,依賴于選取特征的正確性。(3)基于混合的方法[10-11]。包括統(tǒng)計(jì)方法之間的融合和內(nèi)部層疊融合;基于詞典、規(guī)則和統(tǒng)計(jì)方法之間的融合。采用融合技術(shù),高效地將各類模型、算法結(jié)合起來,可修正實(shí)體邊界并改進(jìn)實(shí)體語義分類結(jié)果,提高系統(tǒng)的精確率與召回率。(4)基于深度學(xué)習(xí)的方法。隨著深度學(xué)習(xí)的興起,越來越多的研究人員開始使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行命名實(shí)體識別。這種方法的優(yōu)勢在于,不需要人工對數(shù)據(jù)進(jìn)行預(yù)處理,可由搭建好的神經(jīng)網(wǎng)絡(luò)模型自行訓(xùn)練并提取特征。早期應(yīng)用最為廣泛的就是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)。RNN 能通過保存之前的歷史信息來對目標(biāo)進(jìn)行預(yù)測,因此它對預(yù)測分類目標(biāo)的文本處理能獲得更好的效果。但是,RNN 的記憶功能會隨著距離的變長而衰減,導(dǎo)致喪失學(xué)習(xí)遠(yuǎn)距離信息的能力。針對這一現(xiàn)象,Hochreiter等[12]在RNN的基礎(chǔ)上,又提出長短時(shí)記憶單元(Long Short Term Memory,LSTM),通過“門”結(jié)構(gòu)解決了RNN 容易出現(xiàn)梯度消失的問題,使網(wǎng)絡(luò)能夠獲取到更多歷史信息,解決了長時(shí)依賴問題。門循環(huán)單元(Gated Recurrent Unit,GRU)是RNN的另一種變體,2014年由Cho等人[13]提出,GRU將輸入門與遺忘門合成一個(gè)獨(dú)立的更新門,與LSTM相比,其結(jié)構(gòu)更加簡單,參數(shù)更少,可縮短訓(xùn)練時(shí)間。

      單向的循環(huán)神經(jīng)網(wǎng)絡(luò)只能捕獲序列的歷史信息,但是對于序列標(biāo)注任務(wù)而言,一個(gè)標(biāo)簽和該標(biāo)簽的上下文都有關(guān)系,為了充分地利用上下文信息,Graves 等人[14]提出了雙向LSTM 模型(BiLSTM),將單向LSTM 變?yōu)殡p向結(jié)構(gòu),使該模型在命名實(shí)體識別等序列標(biāo)注任務(wù)中得到廣泛應(yīng)用。此外,融合注意力機(jī)制并結(jié)合條件隨機(jī)場的Attention-BiLSTM-CRF 模型更是在開放域的命名實(shí)體識別任務(wù)中獲得了非常高的F1 值,成為目前識別效果最好的模型之一[15-16]。

      近年來,國內(nèi)中文電子病歷命名實(shí)體識別的研究工作有很大進(jìn)展。張祥偉等[17]基于條件隨機(jī)場,通過逐一融合語言符號、詞性、關(guān)鍵詞、詞典、詞聚類等多種特征,提出一種多特征融合的中文電子病歷命名實(shí)體識別方法。楊紅梅等[18]采用BiLSTM 結(jié)合CRF 訓(xùn)練命名實(shí)體識別模型,并建立了目前規(guī)模最大的中文肝癌??普Z料庫。栗偉等[19]提出了一種基于CRF 與規(guī)則相結(jié)合的醫(yī)學(xué)電子病歷命名實(shí)體識別的新算法,該算法先采用CRF進(jìn)行實(shí)體的初始識別,然后基于決策樹生成的規(guī)則和臨床知識規(guī)則進(jìn)行實(shí)體識別結(jié)果優(yōu)化,獲得了很高的準(zhǔn)確率。于楠等[20]先選取多種有效特征,再將高層特征與條件隨機(jī)場模型融合,很好地識別出電子病歷中的疾病和診斷以及癥狀和體征兩類實(shí)體。栗冬冬[21]嘗試將BiLSTM與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,構(gòu)造BiLSTM-CNN命名實(shí)體識別模型,憑借CNN 模型提取更重要的詞語特征,明顯提升模型的識別性能。夏宇彬等[22]將LSTM模型應(yīng)用于中文電子病歷命名實(shí)體識別,發(fā)現(xiàn)LSTM網(wǎng)絡(luò)比依賴于手動定義特征的條件隨機(jī)場模型的F1 值高出7.47%,從而證明LSTM 對于中文電子病歷的命名實(shí)體識別具有更高的優(yōu)越性。

      由于非結(jié)構(gòu)化的電子病歷中含有大量的醫(yī)學(xué)專業(yè)術(shù)語和專有名詞縮寫等特殊實(shí)體,需要高度依賴上下文信息才能精準(zhǔn)提取實(shí)體。BiLSTM 模型以其充分考慮長距離時(shí)序的上下文信息而成為目前主流的命名實(shí)體識別模型。

      隨著神經(jīng)網(wǎng)絡(luò)在機(jī)器學(xué)習(xí)領(lǐng)域的不斷發(fā)展,2017年Vaswani 等人[23]提出一種只使用注意力機(jī)制(Attention)的機(jī)器翻譯模型,它摒棄了之前傳統(tǒng)的Encoder-Decoder模型必須結(jié)合RNN或者CNN的固有模式,使用完全基于注意力機(jī)制的方式,作者將這種模型命名為Transformer。傳統(tǒng)的基于RNN 的模型難以處理長序列的句子,無法實(shí)現(xiàn)并行,效率低;CNN 模型雖然可以實(shí)現(xiàn)并行計(jì)算,但這種模型非常耗費(fèi)內(nèi)存,并且在大數(shù)據(jù)量上的參數(shù)調(diào)整并不容易。基于注意力機(jī)制的Transformer模型,沒有使用RNN 和CNN 的方法和模塊,創(chuàng)新性地將注意力機(jī)制作為編碼器和解碼器的核心,在提高并行效率、減少計(jì)算量的同時(shí),獲得更好的學(xué)習(xí)效果。

      中文電子病歷文本結(jié)構(gòu)復(fù)雜,命名實(shí)體種類繁多,且具有一定的領(lǐng)域特殊性,醫(yī)學(xué)專有名詞的命名實(shí)體具有獨(dú)特的命名法則,因此,中文電子病歷的命名實(shí)體識別的研究還不夠深入。雖然隨著神經(jīng)網(wǎng)絡(luò)模型應(yīng)用的不斷成熟,基于RNN、CNN 和BiLSTM、BiGRU 等模型已被成功應(yīng)用于中文電子病歷命名實(shí)體識別的研究中,但是,其識別效率不高和訓(xùn)練模型不穩(wěn)定等問題并未得到改善。因此,針對中文電子病歷命名實(shí)體識別的特點(diǎn)和難點(diǎn),本文提出一種基于Transformer 神經(jīng)網(wǎng)絡(luò)與CRF結(jié)合的新方法構(gòu)建命名實(shí)體識別模型,該模型使用注意力機(jī)制作為編碼器和解碼器的核心,利用Transformer模型提取上下文的文本特征,同時(shí)在該模型的輸出層增加CRF結(jié)構(gòu)做分類器進(jìn)行聯(lián)合解碼。本文以真實(shí)中文電子病歷作為實(shí)驗(yàn)數(shù)據(jù)集,同時(shí)構(gòu)建BiLSTM、BiGRU、Attention-BiLSTM、BiLSTM-CRF、BiGRU-CRF、Attention-BiLSTM-CRF等多種模型進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文提出的基于Transformer-CRF 的中文電子病歷命名實(shí)體識別模型具有更高的優(yōu)越性。

      圖1 人工標(biāo)注電子病歷樣例

      2 數(shù)據(jù)預(yù)處理

      本文以有償獲得的真實(shí)電子病歷數(shù)據(jù)自建數(shù)據(jù)集,用于中文電子病歷的命名實(shí)體識別。對研究所使用的數(shù)據(jù)集,提取其中的入院記錄部分用于標(biāo)注數(shù)據(jù)集。為了保護(hù)患者隱私,首先做去隱私化脫敏處理。依據(jù)研究的數(shù)據(jù)抽取要求,由3名臨床醫(yī)生標(biāo)注共5類醫(yī)學(xué)實(shí)體,實(shí)體分為癥狀和體征(Symptoms)、檢查和檢驗(yàn)(Tests)、身體部位(Body)、疾病和診斷(Diseases)和治療(Treatments),圖1 是電子病歷標(biāo)注樣例,表1 列舉了相應(yīng)命名實(shí)體類型和示例。為了驗(yàn)證數(shù)據(jù)集標(biāo)注的一致性,由3 名醫(yī)生分別標(biāo)注同樣的10 份數(shù)據(jù)(共782 個(gè)句子),計(jì)算標(biāo)注的一致性達(dá)89.6%。統(tǒng)計(jì)訓(xùn)練集和測試集中各個(gè)類別的命名實(shí)體個(gè)數(shù)如表2所示。

      分詞是自然語言處理的基礎(chǔ),作為中文電子病歷智能分析的第一步,對病歷文本進(jìn)行分詞至關(guān)重要。由于中文電子病歷的語言是非結(jié)構(gòu)化數(shù)據(jù),常常不同于規(guī)范的中文句子結(jié)構(gòu),因此,它具有專業(yè)性強(qiáng),句子凝練的特點(diǎn)。Python 中常用的分詞工具有很多,包括盤古分詞、Yaha分詞、Jieba分詞、清華THULAC等。這些工具在開放領(lǐng)域中都有比較好的應(yīng)用,但無法滿足中文電子病歷中特定語義的分詞。例如:“去甲腎上腺素”作為一個(gè)獨(dú)立的表達(dá),會被劃分為“去/甲/腎上腺/素”,而不是將其當(dāng)成一個(gè)整體,這意味著命名實(shí)體識別將納入分詞的誤差。為了解決這個(gè)問題,在該研究中,作者收集了現(xiàn)有醫(yī)學(xué)術(shù)語和醫(yī)學(xué)網(wǎng)站中常用疾病描述,以建立一個(gè)專用詞典。此外,還納入了數(shù)據(jù)集中的標(biāo)注實(shí)體,基于Jieba分詞,對數(shù)據(jù)集進(jìn)行分詞。

      表1 命名實(shí)體分類

      表2 數(shù)據(jù)集中各類實(shí)體個(gè)數(shù)

      命名實(shí)體識別任務(wù)的輸入為句子序列,識別模型無法直接處理文字序列,需要先將其轉(zhuǎn)化為向量特征,然后輸入到模型當(dāng)中。因此,這里需要一個(gè)word embedding 詞表將輸入的文字序列替換成詞向量的序列。word embedding可以在大量的語料上訓(xùn)練得到,也可以通過隨機(jī)初始化得到。相對于隨機(jī)初始化的方式,通過大量語料預(yù)訓(xùn)練得到的詞向量可包含更多的信息,有助于提高模型的識別效果。由于醫(yī)療領(lǐng)域術(shù)語不同于其他領(lǐng)域,在一般的數(shù)據(jù)如維基百科數(shù)據(jù)或新聞數(shù)據(jù)上訓(xùn)練得到的word embedding效果并不好。因此該研究采用CCKS 2017 發(fā)布的7 815 組未標(biāo)注數(shù)據(jù)在開源工具GloVe 上訓(xùn)練得到100 維的詞向量,作為預(yù)訓(xùn)練的word embedding 加入到命名實(shí)體識別模型中,其中未登錄詞通過隨機(jī)初始化得到。

      3 基于Transformer和CRF的命名實(shí)體識別模型

      3.1 Transformer模型

      Transformer 模型[23],其本質(zhì)是編碼器(Encoder)—解碼器(Decoder)結(jié)構(gòu),如圖2 所示,左側(cè)虛線框內(nèi)為編碼器結(jié)構(gòu),右側(cè)虛線框內(nèi)為解碼器結(jié)構(gòu)。

      圖2 Transformer模型框架

      Transformer 模型的編碼器結(jié)構(gòu)由Nx(Nx=6)個(gè)相同的基本層堆疊而成,每一個(gè)基本層都由兩個(gè)子層組成,第一個(gè)是多頭注意力層(Multi-Head Attention),第二個(gè)是密集型全連接前饋神經(jīng)網(wǎng)絡(luò)層(Feed Forward Network),接著在兩個(gè)子層中使用一次殘差連接(Residual Connection),然后進(jìn)行層歸一化(Layer Normalization)操作。

      解碼器結(jié)構(gòu)與編碼器結(jié)構(gòu)類似,也是由6個(gè)完全相同的基本層堆疊組成,每一層除了包括多頭注意力層和前饋神經(jīng)網(wǎng)絡(luò)層外,還有一個(gè)隱蔽式多頭注意力層(Masked Multi-Head Attention),該層用于對編碼器層的輸出進(jìn)行Multi-Head Attention 操作。解碼器的每個(gè)子層也采用殘差連接,然后歸一化操作。

      注意力機(jī)制通??梢赃M(jìn)行如下描述:將查詢向量(Query)和一系列鍵向量(Key)與值向量(Value)的鍵值對(Key-Value pairs)映射到輸出上。其計(jì)算過程主要分三步:

      第一步,將Query 和每個(gè)Key 進(jìn)行相似度計(jì)算得到權(quán)重,相似度用f 表示,即:

      第二步,使用一個(gè)softmax 函數(shù)對這些權(quán)重進(jìn)行歸一化,即:

      最后,將權(quán)重和相應(yīng)的鍵值value 進(jìn)行加權(quán)求和得到最后的Attention,即:

      Transformer是完全基于注意力機(jī)制的模型,編碼器和解碼器結(jié)構(gòu)中大量使用了多頭注意力機(jī)制,縮放點(diǎn)積注意力是多頭注意力機(jī)制的核心。

      縮放點(diǎn)積注意力機(jī)制輸出公式為:

      其中,Q ∈Rn×dk,K ∈Rm×dk,V ∈Rm×dv,QKT即是用點(diǎn)積相似度函數(shù)求出Query 和Key 的相似度。在自然語言處理的研究中,通常K=V ,再經(jīng)過softmax函數(shù)可得出一組歸一化的相似度值。然后,對這些相似度值加權(quán)求和,來獲取Value 的權(quán)重。公式中1 dk起到縮放的調(diào)節(jié)作用,使內(nèi)積不至于太大,防止經(jīng)過softmax函數(shù)后的結(jié)果非0即1。

      多頭注意力是Transformer 模型中最重要的組件。該模型是用h 次不同的線性變換將dmodel維的Queries,Keys 和Values 分別映射成dk維,dk維和dv維?;诿總€(gè)映射組的Query、Key 和Value,并行執(zhí)行Attention函數(shù),產(chǎn)生h×dv維的輸出值。然后,將它們連接并再次映射,產(chǎn)生最終值,具體如公式(5)所示:

      式中:

      式(5)與(6)中,WiQ,WiK,WiV為投影矩陣,WiQ∈Rdmodel×dk,WiK∈Rdmodel×dk,WiV∈Rdmodel×dv,WO∈Rhdv×dmodel。在本文設(shè)計(jì)的模型中,多頭數(shù)目h=8,dmodel=512,dk=dv=dmodelh=64。

      3.2 CRF模型

      條件隨機(jī)場(CRF)是一種無向圖模型[9]。它是在給定一組輸入隨機(jī)變量的條件下,得到另一組輸出隨機(jī)變量的條件概率分布模型,可廣泛應(yīng)用于序列標(biāo)注。在序列標(biāo)注中,一個(gè)詞的標(biāo)簽常常與其周圍詞的標(biāo)簽存在關(guān)聯(lián)。因此,對于給定的句子,最有效的方法是將句子中當(dāng)前詞的標(biāo)簽與相鄰詞標(biāo)簽的關(guān)系結(jié)合考慮,然后解碼出最優(yōu)的標(biāo)簽序列。CRF 可從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到與標(biāo)簽相關(guān)的約束條件,以保證最終輸出結(jié)果的有效性。

      CRF結(jié)構(gòu)能學(xué)習(xí)上下文信息,結(jié)合輸出層結(jié)果和標(biāo)簽序列的全局概率,預(yù)測出最大概率的標(biāo)簽序列。以狀態(tài)轉(zhuǎn)移矩陣M 作為其中一個(gè)參數(shù),對標(biāo)簽信息進(jìn)行學(xué)習(xí)預(yù)測,從而計(jì)算出當(dāng)前樣本的最佳標(biāo)簽序列。形式地,給定句子:

      其預(yù)測標(biāo)簽序列為:

      定義其得分如式(7)所示:

      圖3 Transformer-CRF模型框架

      其中,M 是轉(zhuǎn)移矩陣,Myi,yi+1表示從yi標(biāo)簽轉(zhuǎn)移到y(tǒng)i+1標(biāo)簽的概率,Ni,yi表示第i 個(gè)詞語被標(biāo)記為標(biāo)簽yi的概率,P(W,y)表示輸入句子序列W 被標(biāo)記標(biāo)簽序列為y 的概率分?jǐn)?shù),求出最大的P(W,y)的值,即可得到當(dāng)前樣本W(wǎng) 的最佳標(biāo)簽序列。

      3.3 Transformer-CRF模型

      由于Transformer 模型并不能充分利用輸出標(biāo)簽之間的關(guān)聯(lián),偶爾會出現(xiàn)輸出無效標(biāo)注結(jié)果的情況。目前,在序列標(biāo)注任務(wù)中,對于利用相鄰的標(biāo)注信息預(yù)測當(dāng)前標(biāo)簽的處理可大體分為兩類:第一類是以最大熵和最大熵馬爾科夫模型為代表的,這類模型是通過先單獨(dú)預(yù)測每個(gè)輸入標(biāo)簽,再對這些結(jié)果統(tǒng)一解碼來尋找最大概率標(biāo)簽的情況。第二類就是以條件隨機(jī)場為代表的模型,這類模型更加注重句子整體的考慮,而不是單獨(dú)某個(gè)標(biāo)簽的情況,因此,條件隨機(jī)場在序列標(biāo)注任務(wù)中可獲得更好的效果。為確保輸出結(jié)果的有效性,本文提出一種在Transformer 模型提取特征的基礎(chǔ)上,以條件隨機(jī)場(CRF)作為分類器得到輸出結(jié)果的新方法,Transformer-CRF模型計(jì)算流程框架如圖3所示。

      首先,將輸入的分詞在預(yù)訓(xùn)練詞向量表中查表獲得詞向量;其次,將詞向量送入Transformer模型提取文本特征;然后,將Transformer模型的輸出結(jié)果作為CRF層的輸入;最后,由CRF層預(yù)測全局最優(yōu)結(jié)果。

      4 實(shí)驗(yàn)

      4.1 實(shí)驗(yàn)環(huán)境和評價(jià)指標(biāo)

      本文所用實(shí)驗(yàn)環(huán)境的主要參數(shù)為處理器:Intel?Xeon?W-2102@2.9 GHz;內(nèi)存:16 GB;操作系統(tǒng):Linux CentOS 7(64 bit);使用Google 深度開源框架TensorFlow 1.12.0 構(gòu)建所有神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練和測試。其他軟件版本如下:python 2.7.15;numpy 1.15.4;jieba 0.39;tqdm 4.28.1。

      Transformer-CRF模型參數(shù)的設(shè)置對模型的準(zhǔn)確性和魯棒性具有很大的影響,為此,實(shí)驗(yàn)采用Adam 優(yōu)化方法不斷更新參數(shù),為防止過擬合以及提高模型的泛化能力,在模型中引入Dropout。經(jīng)過多次實(shí)驗(yàn)調(diào)參,得出的識別效果較好的Transformer-CRF模型主要參數(shù)如表3所示。

      表3 Transformer-CRF模型主要配置參數(shù)

      實(shí)驗(yàn)自已標(biāo)注數(shù)據(jù)集中隨機(jī)選取330 份中文電子病歷作為實(shí)驗(yàn)數(shù)據(jù)集,其中80%作為訓(xùn)練集,20%作為測試集。實(shí)驗(yàn)同時(shí)構(gòu)建BiLSTM、BiGRU、Attention-BiLSTM、Transformer、BiLSTM-CRF、BiGRU-CRF、Attention-BiLSTM-CRF、Transformer-CRF共8種命名實(shí)體識別模型進(jìn)行對比研究,采用實(shí)體識別精確率P、召回率R 以及F1 值三個(gè)指標(biāo)評價(jià)8種模型命名實(shí)體識別表現(xiàn)優(yōu)劣,其中精確率P 、召回率R 和F1 值的具體計(jì)算公式如下:

      4.2 結(jié)果分析

      實(shí)驗(yàn)采用BiLSTM、BiGRU、Attention-BiLSTM、Transformer、BiLSTM-CRF、BiGRU-CRF、Attention-BiLSTM-CRF、Transformer-CRF 這8 種模型進(jìn)行對比實(shí)驗(yàn),采用精確率和召回率進(jìn)行模型評價(jià),并由此計(jì)算F1 值。癥狀和體征(Symptoms)、檢查和檢驗(yàn)(Tests)、身體部位(Body)、疾病和診斷(Diseases)和治療(Treatments),這五類實(shí)體的識別結(jié)果分別如表4至表8所示。

      表4 癥狀和體征識別各模型結(jié)果對比%

      表5 檢查和檢驗(yàn)識別各模型結(jié)果對比%

      表6 身體部位識別各模型結(jié)果對比 %

      模型BiLSTM BiGRU Attention-BiLSTM Transformer Bi-LSTM-CRF BiGRU-CRF Attention-BiLSTM-CRF Transformer-CRF P 90.27 91.65 92.78 93.76 93.85 93.21 94.89 95.15 R 88.37 89.67 91.21 91.22 91.67 92.86 94.03 94.89 F1 89.31 90.65 91.99 92.47 92.75 93.03 94.46 95.02

      表7 疾病和診斷識別各模型結(jié)果對比%

      通過以上對比實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),身體部位和治療這兩類實(shí)體的識別效果較好,因?yàn)樯眢w部位的實(shí)體數(shù)量較多,模型對于該類實(shí)體的文本特征可以充分學(xué)習(xí);而治療類實(shí)體在電子病歷中的表達(dá)具有一定規(guī)律,且有固定表達(dá)格式,如“予術(shù)后好轉(zhuǎn)”“予藥物治療”等,因此不易發(fā)生錯(cuò)誤識別。表7 中疾病和診斷類實(shí)體的識別結(jié)果最差,因它與癥狀和體征類實(shí)體在語義上表達(dá)極為相似,易導(dǎo)致識別上發(fā)生混淆,從而導(dǎo)致疾病和診斷類實(shí)體的識別精確率、召回率和F1 值最小。而對于檢查和檢驗(yàn)類實(shí)體,雖然該類實(shí)體數(shù)量最多,但是其中包含大量的特殊字符和英文簡稱,如WBC、HCG 等,這使得文本特征極為復(fù)雜,特征不易提取,因此識別效果不佳。

      表8 治療識別各模型結(jié)果對比%

      對比Transformer模型和BiLSTM、BiGRU、Attention-BiLSTM 模型,五類命名實(shí)體的識別結(jié)果顯示,癥狀和體征、身體部位、疾病和診斷與治療這四類實(shí)體的識別結(jié)果中,Transformer模型的F1 值要明顯高于另外三種模型;而檢查和檢驗(yàn)類實(shí)體的識別結(jié)果中,Transformer模型精確率要高于BiGRU 模型,但召回率偏低,導(dǎo)致F1 值稍低于BiGRU,這可能是此類實(shí)體包含大量特殊字符導(dǎo)致,但是在中文電子病歷整體的命名實(shí)體識別任務(wù)中,還是Transformer模型占優(yōu)。同樣對比Transformer-CRF 模型和BiLSTM-CRF、BiGRU-CRF Attention-BiLSTM-CRF 模型,五類命名實(shí)體的識別結(jié)果顯示,所有識別結(jié)果中,Transformer-CRF模型的F1 值都要優(yōu)于另外三種模型,而且Transformer-CRF 模型的F1 值是8種命名實(shí)體識別模型中最高的,并在身體部位類實(shí)體的識別中達(dá)到了最高值95.02%。

      實(shí)驗(yàn)結(jié)果顯示,引入了CRF模型可以給各模型帶來不同程度效果的提升,使實(shí)體識別的精確率、召回率和F1 值都有所改善。Transformer 模型結(jié)合CRF 模型后,各類實(shí)體的識別效果都明顯增強(qiáng),尤其檢查和檢驗(yàn)類實(shí)體的召回率快速提升,F(xiàn)1 值遠(yuǎn)高于其他模型,彌補(bǔ)了Transformer模型對于該類實(shí)體識別的誤差。

      此外,通過對比分析幾種模型訓(xùn)練過程中前50 輪次的參數(shù)更新情況,可以發(fā)現(xiàn)引入CRF模型可使各種模型的收斂加快。在訓(xùn)練初期,Transformer-CRF 模型能很快地達(dá)到較高水平,并保持持續(xù)提升;而Transformer模型在初期提升較為緩慢,需要更多輪次的訓(xùn)練才能緩慢達(dá)到理想水平。

      最后,實(shí)驗(yàn)中五類命名實(shí)體的識別結(jié)果相差較大,除以上討論的各種原因以外,樣本量也是重要因素之一。對于深度學(xué)習(xí)而言,加大樣本數(shù)量進(jìn)行訓(xùn)練,可以更加充分地學(xué)習(xí)到文本特征,以獲得更好的識別效果。因此,實(shí)驗(yàn)的后續(xù)工作擬在實(shí)體數(shù)量更大、實(shí)體種類更加豐富的數(shù)據(jù)集上進(jìn)行測試。

      5 結(jié)束語

      本文以真實(shí)中文電子病歷自建數(shù)據(jù)集,提出一種基于Transformer-CRF的中文電子病歷命名實(shí)體識別模型,并將該模型與目前主流的BiLSTM、BiGRU、Attention-BiLSTM 等多種模型進(jìn)行對比實(shí)驗(yàn),進(jìn)一步證明Transformer-CRF模型的優(yōu)越性。通過比較分析精確率、召回率和F1 值三個(gè)評價(jià)指標(biāo)發(fā)現(xiàn),Transformer-CRF模型不僅具有更高的穩(wěn)定性,同時(shí)也使得命名實(shí)體識別的精確率有了進(jìn)一步的提升,為識別效果更佳的模型。

      Transformer-CRF模型的優(yōu)越性是因?yàn)槠渫耆谧⒁饬C(jī)制,而注意力機(jī)制可以使Transformer-CRF 模型對輸入的文本序列選擇性學(xué)習(xí),即利用注意力機(jī)制從大量電子病歷語料中快速篩選出有用信息,有助于后期模型訓(xùn)練;基于注意力機(jī)制的模型能避免輸入和輸出序列的距離問題,完全不受輸入序列長度的限制。Transformer-CRF 模型是具有明顯優(yōu)勢的序列化模型,也可廣泛應(yīng)用于其他領(lǐng)域。

      接下來的工作是,通過加大中文電子病歷數(shù)據(jù)集,對疾病和診斷類實(shí)體的實(shí)驗(yàn)結(jié)果做進(jìn)一步的分析與評估,并不斷優(yōu)化參數(shù)設(shè)置,以改進(jìn)模型整體的命名實(shí)體識別效果。

      猜你喜歡
      命名病歷注意力
      讓注意力“飛”回來
      強(qiáng)迫癥病歷簿
      趣味(語文)(2021年9期)2022-01-18 05:52:42
      命名——助力有機(jī)化學(xué)的學(xué)習(xí)
      “大數(shù)的認(rèn)識”的診斷病歷
      有一種男人以“暖”命名
      東方女性(2018年3期)2018-04-16 15:30:02
      為一條河命名——在白河源
      散文詩(2017年17期)2018-01-31 02:34:08
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      為何要公開全部病歷?
      A Beautiful Way Of Looking At Things
      村醫(yī)未寫病歷,誰之過?
      阳新县| 泉州市| 石棉县| 若尔盖县| 基隆市| 铜梁县| 西宁市| 图片| 凤冈县| 曲松县| 潞西市| 丁青县| 安宁市| 彝良县| 正宁县| 甘肃省| 都匀市| 阳山县| 峡江县| 横峰县| 常熟市| 张家口市| 琼结县| 山西省| 洛扎县| 盘锦市| 务川| 长沙县| 灵石县| 循化| 鄂州市| 南宫市| 岳阳市| 清河县| 五指山市| 丹阳市| 潼关县| 宁陕县| 河间市| 汉源县| 贵港市|