• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      電子病歷命名實(shí)體識(shí)別研究進(jìn)展

      2023-11-20 10:58:50劉安棟杜建強(qiáng)程春雷查青林
      關(guān)鍵詞:評(píng)測(cè)命名病歷

      劉安棟,彭 琳,葉 青,杜建強(qiáng),程春雷,查青林,2

      1.江西中醫(yī)藥大學(xué) 計(jì)算機(jī)學(xué)院,南昌 330004

      2.江西中醫(yī)藥大學(xué) 第二附屬醫(yī)院,南昌 330004

      電子病歷(electronic medical record,EMR)是指醫(yī)務(wù)人員在醫(yī)療活動(dòng)過(guò)程中,使用醫(yī)療機(jī)構(gòu)信息系統(tǒng)生成的文字、符號(hào)、圖表、圖形、數(shù)據(jù)、影像等數(shù)字化信息,并能實(shí)現(xiàn)存儲(chǔ)、管理、傳輸和重現(xiàn)的醫(yī)療記錄[1]。電子病歷主要分為門(mén)診病歷和住院病歷兩類,門(mén)診病歷中的短文本通常包含很少的醫(yī)療信息,因此,電子病歷文本挖掘研究大多聚焦于住院病歷。住院病歷包括住院病案首頁(yè)、入院記錄、病程記錄、醫(yī)囑單、輔助檢查報(bào)告單、病理資料等記錄。入院記錄是患者入院后經(jīng)診治醫(yī)師通過(guò)問(wèn)診、查體、輔助檢查等獲得的相關(guān)信息,包含患者的主訴、現(xiàn)病史、既往史、個(gè)人史、家族史、月經(jīng)婚育史、體格檢查、輔助檢查、診斷等記錄。其中,現(xiàn)病史是住院病歷的重點(diǎn)內(nèi)容,記錄了患者疾病發(fā)生、演變及診療過(guò)程等信息[2-3],是目前電子病歷命名實(shí)體識(shí)別的主要語(yǔ)料來(lái)源,也是醫(yī)療信息檢索、醫(yī)療智能問(wèn)答等應(yīng)用的重要數(shù)據(jù)支撐。然而,電子病歷大都以半結(jié)構(gòu)化甚至非結(jié)構(gòu)化的文本形式存在,很難被醫(yī)療信息系統(tǒng)直接利用,如何運(yùn)用自然語(yǔ)言處理技術(shù)抽取電子病歷中有益且關(guān)鍵的信息,并將其組織為結(jié)構(gòu)化的內(nèi)容,是一項(xiàng)意義深遠(yuǎn)的科研工作。

      命名實(shí)體識(shí)別作為自然語(yǔ)言處理(natural language processing,NLP)技術(shù)之一,能夠從非結(jié)構(gòu)化、半結(jié)構(gòu)化等文本數(shù)據(jù)中識(shí)別出具有特定意義的實(shí)體,如人名、時(shí)間、地理位置、組織機(jī)構(gòu)名等。電子病歷命名實(shí)體識(shí)別旨在運(yùn)用命名實(shí)體識(shí)別技術(shù)從結(jié)構(gòu)各異的電子病歷中識(shí)別出具有特定意義的醫(yī)療實(shí)體,并將其歸為預(yù)定義的疾病、癥狀、診斷、檢查等醫(yī)療實(shí)體類別,為進(jìn)一步的醫(yī)療關(guān)系抽取[4]、醫(yī)療智能問(wèn)答[5]、醫(yī)療信息檢索等[6]應(yīng)用提供支持。

      命名實(shí)體識(shí)別(named entity recognition,NER)經(jīng)歷了從模式匹配到特征工程再到數(shù)據(jù)驅(qū)動(dòng)的三大發(fā)展階段,也隨之涌現(xiàn)了大量的命名實(shí)體識(shí)別研究文獻(xiàn)。近年來(lái),大量國(guó)內(nèi)外學(xué)者對(duì)電子病歷命名實(shí)體識(shí)別研究成果進(jìn)行梳理和總結(jié),楊錦峰等[7]梳理了基于字典和規(guī)則、基于機(jī)器學(xué)習(xí)的電子病歷命名實(shí)體識(shí)別、實(shí)體修飾識(shí)別和實(shí)體關(guān)系抽取方法;吳宗友等[8]以醫(yī)學(xué)命名實(shí)體識(shí)別、關(guān)系抽取、文本分類和智能問(wèn)答4 個(gè)基礎(chǔ)任務(wù)為出發(fā)點(diǎn),綜述了電子病歷數(shù)據(jù)挖掘的常用方法;吳智妍等[9]在梳理技術(shù)發(fā)展歷程的基礎(chǔ)上額外闡述了小樣本命名實(shí)體識(shí)別的方法;杜晉華等[10]從技術(shù)角度分析了電子病歷命名實(shí)體識(shí)別的發(fā)展歷程,并通過(guò)實(shí)驗(yàn)驗(yàn)證和分析了不同模型的識(shí)別效果;Bose 等[11]從模型的效果及性能出發(fā),分析了臨床電子病歷信息抽取的現(xiàn)狀與挑戰(zhàn);Liu等[12]從模型架構(gòu)的角度出發(fā),歸納和剖析了每類模型的優(yōu)缺點(diǎn)。

      上述綜述從技術(shù)發(fā)展的角度梳理電子病歷命名實(shí)體識(shí)別方法,既沒(méi)有對(duì)電子病歷命名實(shí)體識(shí)別中存在的問(wèn)題進(jìn)行歸類,也沒(méi)有總結(jié)每類問(wèn)題所對(duì)應(yīng)的解決方法和策略。與上述綜述的不同之處在于:本文從問(wèn)題出發(fā),按照橫向的技術(shù)發(fā)展和縱向的問(wèn)題歸類兩大角度,分別對(duì)電子病歷命名實(shí)體識(shí)別的現(xiàn)有研究成果進(jìn)行了詳盡的綜述。

      1 電子病歷命名實(shí)體識(shí)別概述

      1.1 問(wèn)題定義

      電子病歷命名實(shí)體識(shí)別,是指給定一段病歷文本序列S=(w1,w2,…,wn),識(shí)別出若干個(gè)元組<Is,Ie,t>,1個(gè)元組包含1 個(gè)實(shí)體信息,其中wi表示一個(gè)輸入的字或詞,Is、Ie分別表示實(shí)體的起止下標(biāo),t表示實(shí)體的類型[13]。圖1所示是一個(gè)電子病歷NER任務(wù)實(shí)例,對(duì)于給定的待識(shí)別序列通過(guò)NER 得到4 個(gè)實(shí)體:“左髖部”(BodyRegions)、“X 光片”(Examination)、“左側(cè)粗隆骨間”(BodyRegions)、“骨折”(Disease)。

      圖1 電子病歷NER實(shí)例Fig.1 Example of electronic medical record NER

      1.2 標(biāo)注方法

      NER 通常將邊界信息和類型信息組合成序列標(biāo)記的形式,常用的序列標(biāo)注方法有BIO、BIOES、BMES三種[14-15]。

      (1)BIO:B即Begin,代表實(shí)體的開(kāi)始;I即Inside,代表實(shí)體的中間位置或結(jié)束位置;O 即Outside,代表非實(shí)體的字詞。

      (2)BIOES:B即Begin,代表實(shí)體的開(kāi)始;I即Inside,代表實(shí)體的中間位置;O即Outside,代表非實(shí)體的字詞;E即End,代表實(shí)體的結(jié)束;S即Single,代表單個(gè)字是一個(gè)實(shí)體。

      (3)BMES:B 即Begin,代表實(shí)體的開(kāi)始;M 即Middle,代表實(shí)體的中間位置;E 即End,代表實(shí)體的結(jié)束位置;S即Single,代表單獨(dú)的字詞。

      1.3 評(píng)價(jià)指標(biāo)

      電子病歷命名實(shí)體識(shí)別采用傳統(tǒng)的精確率(Precision)、召回率(Recall)以及F1-Measure 作為評(píng)價(jià)指標(biāo),并在此基礎(chǔ)上從嚴(yán)格指標(biāo)及松弛指標(biāo)兩個(gè)層面進(jìn)行評(píng)價(jià)。輸出結(jié)果集合記為S={s1,s2,…,sm},人工標(biāo)注的結(jié)果(Gold Standard)集合記為G={g1,g2,…,gn}。集合元素為一個(gè)實(shí)體提及[16],表示為四元組<d,posb,pose,c>,d表示文檔,posb和pose分別對(duì)應(yīng)實(shí)體提及在文檔中的起止下標(biāo),c表示實(shí)體提及所屬預(yù)定義類別。

      (1)嚴(yán)格指標(biāo)

      定義si∈S與gj∈G嚴(yán)格等價(jià),當(dāng)且僅當(dāng):

      基于以上等價(jià)關(guān)系,定義集合S與G的嚴(yán)格交集為∩s。由此得到嚴(yán)格評(píng)價(jià)指標(biāo):

      (2)松弛指標(biāo)

      定義si∈S與gj∈G松弛等價(jià),當(dāng)且僅當(dāng)滿足式(1)、(4)及(8):

      基于以上等價(jià)關(guān)系,定義集合S與G的嚴(yán)格交集為∩r。由此得到松弛評(píng)價(jià)指標(biāo):

      1.4 電子病歷NER難點(diǎn)

      通過(guò)對(duì)大量電子病歷命名實(shí)體識(shí)別研究文獻(xiàn)和真實(shí)臨床電子病歷數(shù)據(jù)的研究與分析,將電子病歷NER難點(diǎn)劃分為標(biāo)注語(yǔ)料匱乏、實(shí)體類別不平衡、實(shí)體結(jié)構(gòu)復(fù)雜、邊界識(shí)別困難及術(shù)語(yǔ)表述不規(guī)范五類。

      1.4.1 標(biāo)注語(yǔ)料匱乏

      醫(yī)療文本具有專業(yè)性強(qiáng)及實(shí)體結(jié)構(gòu)復(fù)雜的特點(diǎn),大規(guī)模的標(biāo)注語(yǔ)料需要耗費(fèi)大量的人力物力,導(dǎo)致了標(biāo)注語(yǔ)料匱乏問(wèn)題的出現(xiàn)。

      1.4.2 實(shí)體類別不平衡

      醫(yī)療實(shí)體的標(biāo)注需要依賴專業(yè)醫(yī)生的經(jīng)驗(yàn)和知識(shí),不同醫(yī)生對(duì)同一實(shí)體的標(biāo)注可能存在差異,而且很難為所有待抽取的實(shí)體類別構(gòu)建足夠數(shù)量的標(biāo)注資源。此外,領(lǐng)域文本特點(diǎn)也是導(dǎo)致醫(yī)療實(shí)體類別不平衡的另一關(guān)鍵因素,例如,疾病名稱出現(xiàn)的頻率要遠(yuǎn)遠(yuǎn)高于藥品名稱。

      1.4.3 實(shí)體結(jié)構(gòu)復(fù)雜

      電子病歷中存在大量實(shí)體嵌套及不連續(xù)的文本。(1)實(shí)體嵌套:“左側(cè)胸部疼痛”中包含兩類實(shí)體,分別是癥狀類實(shí)體“左側(cè)胸部疼痛”和部位實(shí)體“左側(cè)胸部”;(2)實(shí)體不連續(xù):“前胸、背部包塊”中存在兩個(gè)癥狀類實(shí)體“前胸包塊”和“背部包塊”。

      1.4.4 邊界識(shí)別困難

      不同類別中實(shí)體的長(zhǎng)度有很大差異,身體部位的實(shí)體很短,可能只有1~2個(gè)字符,如“頭”;手術(shù)類實(shí)體有時(shí)會(huì)包含10多個(gè)字符,如“甲狀腺癌根治性頸淋巴結(jié)清掃術(shù)”。醫(yī)療實(shí)體長(zhǎng)度不一使得實(shí)體邊界難以確定,給實(shí)體識(shí)別帶來(lái)極大的困難。

      1.4.5 術(shù)語(yǔ)表述不規(guī)范

      醫(yī)生書(shū)寫(xiě)的電子病歷具有很高的主觀性和個(gè)體差異性,縮寫(xiě)、誤寫(xiě)等問(wèn)題使得電子病歷中出現(xiàn)大量的非規(guī)范術(shù)語(yǔ)。例如,“貝伐”“貝伐單抗”“貝伐珠單抗”指代的都是同一種藥物。

      2 電子病歷命名實(shí)體識(shí)別方法

      2.1 傳統(tǒng)命名實(shí)體識(shí)別方法

      2.1.1 基于字典和規(guī)則的方法

      早期的電子病歷命名實(shí)體識(shí)別方法以構(gòu)建臨床術(shù)語(yǔ)字典、模式匹配為主要手段,主要用來(lái)識(shí)別并保護(hù)患者的個(gè)人隱私信息,如姓名、地址、電話號(hào)碼等;后來(lái)被用來(lái)識(shí)別病歷中的疾病、藥物等醫(yī)療信息。臨床醫(yī)生在病歷記錄過(guò)程中的誤寫(xiě)、漏寫(xiě)等操作,使得電子病歷中出現(xiàn)了大量的不規(guī)范術(shù)語(yǔ)。為了解決這一問(wèn)題,Sweeney等[17]提出一種基于動(dòng)態(tài)擴(kuò)展縮略語(yǔ)的多通道檢測(cè)算法。其中,動(dòng)態(tài)擴(kuò)展縮略語(yǔ)用來(lái)將模糊的縮略詞映射到相應(yīng)的標(biāo)準(zhǔn)臨床術(shù)語(yǔ),多通道檢測(cè)算法針對(duì)每一類實(shí)體單獨(dú)設(shè)定一個(gè)檢測(cè)算法,在解決縮略詞的同時(shí)進(jìn)一步提升了實(shí)體抽取的性能。Ware 等[18]通過(guò)構(gòu)建同義詞詞匯表來(lái)解決縮略詞問(wèn)題,并根據(jù)匹配到的實(shí)體截取相關(guān)的上下文進(jìn)行校驗(yàn)和消歧,獲得了較好的識(shí)別效果。

      上述方法的共同特點(diǎn)是單純基于術(shù)語(yǔ)字典的規(guī)則匹配,容易導(dǎo)致語(yǔ)法、語(yǔ)義等信息的缺失。為此,Solt等[19]提出了一個(gè)基于上下文感知的語(yǔ)義規(guī)則分類器,在出院摘要實(shí)體識(shí)別中頗有成效。Friedman 等[20]則嘗試將不同方法的優(yōu)勢(shì)元素(術(shù)語(yǔ)字典、模式匹配、語(yǔ)義、語(yǔ)法等)結(jié)合到一個(gè)統(tǒng)一的框架中,最大限度地提高了醫(yī)療實(shí)體識(shí)別的性能。

      基于字典和規(guī)則的方法依賴具體的領(lǐng)域語(yǔ)言和文本風(fēng)格,當(dāng)領(lǐng)域字典足夠大且制定的規(guī)則足以覆蓋領(lǐng)域?qū)嶓w特征的時(shí)候,往往可以得到很好的識(shí)別效果,但在實(shí)踐中是極其耗時(shí)費(fèi)力的。在深度學(xué)習(xí)盛行的今天,也不乏有研究者將字典和規(guī)則同深度學(xué)習(xí)融合,用以提升醫(yī)療實(shí)體識(shí)別的效果,如Chen 等[21]通過(guò)組合規(guī)則和領(lǐng)域字典抽取電子病歷中的醫(yī)療實(shí)體,并在CCKS2017及CHIP2018兩個(gè)數(shù)據(jù)集上驗(yàn)證了在實(shí)體抽取任務(wù)中結(jié)合規(guī)則和域字典的有效性。表1 總結(jié)了基于字典和規(guī)則的電子病歷命名實(shí)體識(shí)別方法。

      表1 基于字典和規(guī)則的電子病歷NER方法Table 1 NER method for electronic medical record based on dictionaries and rules

      2.1.2 基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法

      基于傳統(tǒng)機(jī)器學(xué)習(xí)的電子病歷命名實(shí)體識(shí)別主要采用監(jiān)督學(xué)習(xí)的方法,具體來(lái)說(shuō),從標(biāo)記的文本中獲得學(xué)習(xí)能力,然后根據(jù)學(xué)習(xí)到的知識(shí)自動(dòng)處理未標(biāo)記的文本。基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法主要從兩個(gè)角度解決電子病歷命名實(shí)體識(shí)別問(wèn)題:一類是將實(shí)體識(shí)別視為分類問(wèn)題,常用的方法有支持向量機(jī)(support vector machine,SVM)[22];另一類是將實(shí)體識(shí)別視為一項(xiàng)序列標(biāo)注任務(wù),常用的方法有最大熵馬爾可夫模型(maximum entropy Markov model,MEMM)[23]、隱馬爾可夫模型(hidden Markov model,HMM)[24]和條件隨機(jī)場(chǎng)(conditional random field,CRF)[25]。

      SVM:利用高維特征空間將識(shí)別問(wèn)題轉(zhuǎn)化為線性可分的二分類問(wèn)題,但命名實(shí)體識(shí)別是一個(gè)多標(biāo)簽分類問(wèn)題,因此很難直接使用SVM解決多分類問(wèn)題。為此,Guo等[26]構(gòu)造了一個(gè)多類網(wǎng)元識(shí)別器,即為每一個(gè)實(shí)體類別提供一個(gè)單獨(dú)的分類器,并在I2B2 2006私人健康信息評(píng)測(cè)任務(wù)中取得了較好的識(shí)別效果。Doan 等[27]在Guo 的基礎(chǔ)上,系統(tǒng)研究了不同類型的特征,實(shí)驗(yàn)表明了模型與特征的融合能夠有效提升模型的識(shí)別性能。

      HMM、MEMM、CRF:這三個(gè)模型都屬于概率圖模型(probabilistic graphical model)[28],即用關(guān)系圖來(lái)表示變量之間的關(guān)系,如圖2所示:y1,y2,y3代表標(biāo)簽序列,x1,x2,x3代表輸入的文本。

      圖2 概率圖模型Fig.2 Probabilistic graphical model

      HMM 描述了實(shí)體標(biāo)簽生成可觀察文本的過(guò)程,是一個(gè)生成模型。假設(shè)觀察文本為“夜間腹部疼痛”,按照規(guī)則分為“夜間”“腹部”“疼痛”,對(duì)應(yīng)的標(biāo)簽為“發(fā)病時(shí)間”“身體部位”“癥狀”。文本通過(guò)HMM獲得多組觀察序列,計(jì)算每組觀察序列對(duì)應(yīng)的文本概率,選擇概率最高的觀察序列作為文本的注釋序列。HMM考慮了文本中標(biāo)簽之間的關(guān)系,是醫(yī)學(xué)NER 任務(wù)早期常用的方法之一。Mao等[29]引用融合詞綴特征的HMM識(shí)別眼科電子病歷中的疾病、癥狀、時(shí)間、藥物劑量等實(shí)體,較其他方法獲得了更好的識(shí)別性能。Zhou等[30]設(shè)計(jì)了SVM分類器和兩個(gè)判別性隱馬爾可夫分類器的集成模型,各分類器相輔相成,最大限度地提升了實(shí)體識(shí)別的效果。即便如此,HMM僅依賴前一狀態(tài)及其對(duì)應(yīng)的觀察對(duì)象,不能考慮上下文之間的關(guān)系,在較長(zhǎng)的觀察文本中難以獲得準(zhǔn)確的標(biāo)簽,在后續(xù)研究中逐漸被CRF模型所取代。

      MEMM 針對(duì)HMM 問(wèn)題進(jìn)行了改進(jìn),MEMM 對(duì)序列中的每個(gè)單詞進(jìn)行分類,只依賴前一個(gè)單詞的類別,只計(jì)算給定觀察變量下隱藏變量的概率,并在狀態(tài)轉(zhuǎn)移概率中加入了上下文特征,使模型更具表現(xiàn)力。Fresko等[31]以MEMM 為基礎(chǔ)模型,結(jié)合語(yǔ)言規(guī)則構(gòu)建了適應(yīng)于特定領(lǐng)域的實(shí)體識(shí)別模型,并在MUC-7 評(píng)測(cè)數(shù)據(jù)集上取得了較好的識(shí)別效果。但MEMM仍舊存在標(biāo)簽偏誤[32]問(wèn)題。

      CRF是命名實(shí)體識(shí)別中最常用的概率圖模型,不僅能夠?qū)W習(xí)到句子的約束條件還能夠考慮到鄰域標(biāo)簽之間的相關(guān)性,解決了HMM 無(wú)法考慮的上下文關(guān)系和MEMM中存在的標(biāo)簽偏誤問(wèn)題。Liu等[33]研究了詞袋、詞性、字典、單詞聚類等特征對(duì)臨床命名實(shí)體識(shí)別任務(wù)的影響,實(shí)驗(yàn)表明,多特征的融合反而會(huì)降低模型的識(shí)別效果。表2 總結(jié)了基于傳統(tǒng)機(jī)器學(xué)習(xí)的電子病歷命名實(shí)體識(shí)別方法。

      表2 基于傳統(tǒng)機(jī)器學(xué)習(xí)的電子病歷NER方法Table 2 NER method for electronic medical record based on traditional machine learning

      2.2 深度學(xué)習(xí)方法

      基于深度學(xué)習(xí)的實(shí)體抽取方法當(dāng)前已經(jīng)居于統(tǒng)治地位。相比傳統(tǒng)的命名實(shí)體識(shí)別方法,深度學(xué)習(xí)的主要優(yōu)點(diǎn)是其訓(xùn)練一個(gè)端到端的過(guò)程,無(wú)需人工定義相關(guān)的特征。除此之外,深度學(xué)習(xí)方法還可以學(xué)習(xí)任務(wù)特定的表示,并建立不同模態(tài)、不同類型、不同語(yǔ)言之間信息的關(guān)聯(lián),從而獲得更好的實(shí)體分析性能。近五年來(lái),預(yù)訓(xùn)練語(yǔ)言模型的飛速發(fā)展更是為實(shí)體抽取帶來(lái)了深刻的變革,深度學(xué)習(xí)與預(yù)訓(xùn)練語(yǔ)言模型的結(jié)合不僅僅帶來(lái)了一個(gè)更好的語(yǔ)言學(xué)編碼器,還提供了一種有效的知識(shí)融合手段,打通了實(shí)體類別、語(yǔ)言、模態(tài)以及各種可用資源之間的鴻溝,有效提升了小樣本、低資源、細(xì)粒度實(shí)體抽取的能力。

      2.2.1 卷積神經(jīng)網(wǎng)絡(luò)

      卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[34]是最先被應(yīng)用于NER 的深度學(xué)習(xí)模型之一。Dong 等[35]將CNN 運(yùn)用到電子病歷命實(shí)體識(shí)別中,但未能有效解決實(shí)體類別不平衡的問(wèn)題,對(duì)此,Li[36]、Ouyang[37]、Xia[38]三人分別采用修正數(shù)據(jù)集、將實(shí)體類型信息融入N-Gram 語(yǔ)言模型、自主學(xué)習(xí)和主動(dòng)學(xué)習(xí)擴(kuò)大訓(xùn)練集三種不同的方式緩解了電子病歷中實(shí)體不平衡的影響,其中,Xia 通過(guò)對(duì)BIO、BIOES、BMES 三種標(biāo)注方式的對(duì)比實(shí)驗(yàn),探究了不同序列標(biāo)注方式對(duì)于長(zhǎng)醫(yī)療實(shí)體邊界識(shí)別的影響,驗(yàn)證了BIOES相較于其他兩種序列標(biāo)注方式在長(zhǎng)實(shí)體識(shí)別中的優(yōu)勢(shì)。

      2.2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)

      CNN 受限于卷積核的大小,只能學(xué)習(xí)到序列中的局部信息,在后續(xù)的研究中逐漸被具有記憶性且參數(shù)共享的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[39]所替代。Hu等[40]設(shè)計(jì)了名為HITSZ_ICRC的模型,使用四種獨(dú)立的方法:規(guī)則、CRF、RNN 及融合詞性等特征的RNN,并基于投票機(jī)制將預(yù)測(cè)實(shí)體進(jìn)行組合,在CCKS2017 電子病歷NER 評(píng)測(cè)任務(wù)中取得了第一名的優(yōu)異成績(jī)。在實(shí)踐中,RNN 往往偏向于學(xué)習(xí)序列中最近的輸入信息。Hochreiter 等[41]深入探究了這個(gè)問(wèn)題,并于1997 年首先提出了基于RNN 的一種改進(jìn)模型:長(zhǎng)短記憶網(wǎng)絡(luò)(long short-term memory,LSTM),該模型使用多個(gè)門(mén)來(lái)控制輸入到存儲(chǔ)單元的比例,以及先前信息狀態(tài)到忘記的比例,解決了RNN 中存在的長(zhǎng)距離依賴問(wèn)題。Chen等[42]使用融合分詞和詞性特征的LSTMCRF 模型識(shí)別電子病歷中的癥狀、疾病、檢查等實(shí)體,相較于機(jī)器學(xué)習(xí)方法獲得較好的識(shí)別效果,但仍然存在邊界識(shí)別不準(zhǔn)確的缺點(diǎn)。潘璀然等[43]提出一種融合Re-entity 的Lattice-LSTM 方法,其中,Re-entity 可以有效解決分詞錯(cuò)誤導(dǎo)致的錯(cuò)誤傳遞;Lattice結(jié)構(gòu)可以更好地結(jié)合字符和詞序列中潛在的語(yǔ)義信息,進(jìn)一步提高了NER的識(shí)別效果。

      LSTM在建模時(shí)無(wú)法編碼從后向前的信息,也就意味著LSTM 不能通過(guò)上下文來(lái)編碼當(dāng)前詞匯的語(yǔ)義特征。針對(duì)這個(gè)問(wèn)題,Graves等[44]基于LSTM提出了雙向長(zhǎng)短記憶網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM)。BiLSTM 使用兩個(gè)獨(dú)立的序列分別向前和向后呈現(xiàn)隱藏狀態(tài),分別捕獲過(guò)去和未來(lái)的信息,然后將兩個(gè)隱藏狀態(tài)串聯(lián)起來(lái)形成最終的輸出,其有效性獲得了Dyer等[45]的證明。Ji等[46]在BiLSTM模型的基礎(chǔ)上加入了注意力(Attention)機(jī)制,解決了實(shí)體識(shí)別標(biāo)簽不一致的問(wèn)題,并使用實(shí)體邊界糾正算法和后處理規(guī)則解決了實(shí)體邊界劃分錯(cuò)誤。

      2.2.3 預(yù)訓(xùn)練語(yǔ)言模型

      為了改進(jìn)RNN 訓(xùn)練速度慢的致命問(wèn)題,Google 團(tuán)隊(duì)在2017 年提出了一個(gè)名為T(mén)ransformer 的網(wǎng)絡(luò)架構(gòu)。Transformer[47]完全基于注意力(attention)機(jī)制,將序列中的任意兩個(gè)位置之間的距離縮小為一個(gè)常量;其次,它不需要依次輸入序列信息,具有更好的并行性。Transformer網(wǎng)絡(luò)架構(gòu)的出現(xiàn),促生了眾多高質(zhì)量的預(yù)訓(xùn)練語(yǔ)言模型(pre-training language model,PLM)[48]。2018年以來(lái),以BERT[49](bidirectional encoder representation from Transformers)為代表的語(yǔ)義表示預(yù)訓(xùn)練語(yǔ)言模型取得了巨大突破,帶來(lái)了預(yù)訓(xùn)練和微調(diào)的NLP技術(shù)變革。晏陽(yáng)天等[50]使用融合字音、字形特征的BERT模型識(shí)別電子病歷中的疾病、手術(shù)、藥物、解剖部位等實(shí)體,使用啟發(fā)式規(guī)則對(duì)預(yù)測(cè)實(shí)體進(jìn)行校準(zhǔn),解決了電子病歷中同一實(shí)體的多種表述問(wèn)題。喬銳等[51]將BERT和基于BERT擴(kuò)展的模型進(jìn)行融合,并使用規(guī)則約束解決了電子病歷NER 中出現(xiàn)的實(shí)體邊界模糊、合并或分裂錯(cuò)誤的問(wèn)題。上述基于深度學(xué)習(xí)和預(yù)訓(xùn)練語(yǔ)言模型的方法都未能解決醫(yī)療實(shí)體不連續(xù)的問(wèn)題,對(duì)此,Tang[52]和Lin[53]兩人分別采用不同的方法抽取臨床文本中的不連續(xù)實(shí)體,Tang 在LSTM-CRF 模型的基礎(chǔ)上融入了CNN和注意力機(jī)制;Lin則提出了一種基于多標(biāo)簽結(jié)構(gòu)化支持向量機(jī)(structural support vector machine,SSVM)的無(wú)序提及識(shí)別方法,有效解決了醫(yī)療文本中的實(shí)體不連續(xù)問(wèn)題。

      在BERT 中,中文是以字為粒度進(jìn)行切分,沒(méi)有考慮到NLP 中的中文分詞。為了解決這一問(wèn)題,哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布了基于全詞掩碼(whole word masking)[54]技術(shù)的中文預(yù)訓(xùn)練模型BERT-wwm,以及與此技術(shù)相關(guān)的衍生模型:BERT-wwm-ext、RoBERTawwm-ext等。

      傳統(tǒng)的預(yù)訓(xùn)練模型主要基于詞和句子之間的共現(xiàn)進(jìn)行學(xué)習(xí),實(shí)際上,訓(xùn)練文本數(shù)據(jù)中的詞法結(jié)構(gòu)、語(yǔ)法結(jié)構(gòu)、語(yǔ)義信息也同樣重要。為此,百度基于BERT 開(kāi)創(chuàng)性地提出了基于知識(shí)增強(qiáng)的持續(xù)學(xué)習(xí)語(yǔ)義理解框架ERNIE[55](enhanced language representation with informative entities),它將大數(shù)據(jù)預(yù)訓(xùn)練與多源豐富知識(shí)相結(jié)合,通過(guò)持續(xù)學(xué)習(xí)技術(shù),不斷吸收海量文本數(shù)據(jù)中詞匯、結(jié)構(gòu)、語(yǔ)義等方面的知識(shí),進(jìn)一步實(shí)現(xiàn)模型效果的不斷優(yōu)化。表3 總結(jié)了基于深度學(xué)習(xí)的電子病歷NER方法。

      表3 基于深度學(xué)習(xí)的電子病歷NER方法Table 3 NER method for electronic medical record based on deep learning

      3 命名實(shí)體識(shí)別評(píng)測(cè)任務(wù)及數(shù)據(jù)集

      生物醫(yī)學(xué)NER 評(píng)測(cè)起源于國(guó)外,主要有I2B2、CLEF 及SemEval。為了促進(jìn)中文醫(yī)學(xué)信息的發(fā)展,國(guó)內(nèi)相繼出現(xiàn)了圍繞醫(yī)療文本的評(píng)測(cè)任務(wù)和標(biāo)注數(shù)據(jù)集,主要有CCKS和CHIP。

      3.1 CCKS

      全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)(China Conference on Knowledge Graph and Semantic Computing,CCKS)由中國(guó)中文信息學(xué)會(huì)語(yǔ)言與知識(shí)計(jì)算專業(yè)委員會(huì)主辦,旨在探討大數(shù)據(jù)環(huán)境下語(yǔ)言理解、知識(shí)獲取、知識(shí)融合、知識(shí)推理等方面的關(guān)鍵技術(shù)以及在新基建大背景下的各種智能應(yīng)用。電子病歷命名實(shí)體識(shí)別評(píng)測(cè)任務(wù)開(kāi)端于2017 年,是繼CCKS2016 影視領(lǐng)域?qū)嶓w發(fā)現(xiàn)與實(shí)體鏈接評(píng)測(cè)的延續(xù),且以后每年的評(píng)測(cè)任務(wù)都是繼CCKS2017 電子病歷命名實(shí)體識(shí)別評(píng)測(cè)任務(wù)的改進(jìn)和完善,旨在促進(jìn)醫(yī)療領(lǐng)域?qū)嶓w識(shí)別與實(shí)體鏈接的研究發(fā)展。

      CCKS 評(píng)測(cè)任務(wù)的數(shù)據(jù)集來(lái)源于真實(shí)電子病歷數(shù)據(jù),并由專業(yè)的醫(yī)生團(tuán)隊(duì)對(duì)數(shù)據(jù)進(jìn)行整理和標(biāo)注。CCKS2017的數(shù)據(jù)集由北京極目云健康科技有限公司提供,并將醫(yī)療實(shí)體類別限定為5 類,包括:癥狀和體征、檢查和檢驗(yàn)、疾病和診斷、治療、身體部位。CCKS2018的數(shù)據(jù)集由醫(yī)渡云(北京)技術(shù)有限公司提供,由于CCKS2018 提供的數(shù)據(jù)集中癥狀類實(shí)體多表現(xiàn)為結(jié)構(gòu)化形式,因此將癥狀類實(shí)體進(jìn)行了細(xì)化,分為3類:解剖部位、癥狀描述、獨(dú)立癥狀,最終將醫(yī)療實(shí)體歸為如下5類:解剖部位、癥狀描述、獨(dú)立癥狀、藥物及手術(shù)。CCKS2019 的評(píng)測(cè)任務(wù)沿用了CCKS2017 的數(shù)據(jù)集,并額外提供了10 420 份未標(biāo)注的電子病歷文檔。CCKS2020、CCKS2021 沿用了CCKS2018 的數(shù)據(jù)集并做出了三個(gè)改變:對(duì)訓(xùn)練數(shù)據(jù)的擴(kuò)充;提供了實(shí)體詞表及大量非標(biāo)注數(shù)據(jù);將醫(yī)療實(shí)體劃分為6 類:疾病和診斷、檢查、檢驗(yàn)、手術(shù)、藥物及解剖部位。

      通過(guò)對(duì)CCKS 評(píng)測(cè)論文的分析與研究發(fā)現(xiàn):CCKS2017 NER評(píng)測(cè)中,絕大多數(shù)參賽隊(duì)采用BiLSTMCRF模型,并基于該模型進(jìn)行改進(jìn);CCKS2018 NER評(píng)測(cè)中,參賽隊(duì)伍大都聚焦于特征提取,通常在BiLSTMCRF 模型中融入了除字向量、詞向量以外新的特征,包括但不限于筆畫(huà)、偏旁、字音、字形、拼音等;CCKS2019 NER 評(píng)測(cè)中,參賽團(tuán)隊(duì)大都采用BERT 和BiLSTM 融合的方法提高系統(tǒng)的多樣性和實(shí)體識(shí)別的準(zhǔn)確度;CCKS2020 NER評(píng)測(cè)中,參賽者大多使用基于BERT改進(jìn)的RoBERTa、ALBERT 等預(yù)訓(xùn)練模型,并將其與基線模型BiLSTM-CRF 進(jìn)行融合;CCKS2021 評(píng)測(cè)以來(lái),單純的基于模型的改進(jìn)很難進(jìn)一步提升電子病歷命名實(shí)體識(shí)別的效果,參賽團(tuán)隊(duì)和科研人員將研究重心轉(zhuǎn)移到電子病歷命名實(shí)體識(shí)別中存在的實(shí)體不連續(xù)、實(shí)體類別不平衡、實(shí)體嵌套等難點(diǎn)上。

      3.2 CHIP

      中國(guó)健康信息處理大會(huì)(China Health Information Processing,CHIP)是中國(guó)中文信息學(xué)會(huì)(CIPS)醫(yī)療健康與生物信息處理專業(yè)委員會(huì)主辦的關(guān)于醫(yī)療、健康和生物信息處理和數(shù)據(jù)挖掘等技術(shù)的年度會(huì)議,是中國(guó)健康信息處理領(lǐng)域最重要的學(xué)術(shù)會(huì)議之一。從CHIP2018起開(kāi)設(shè)評(píng)測(cè)任務(wù),其中,開(kāi)設(shè)NER 評(píng)測(cè)任務(wù)的會(huì)議有CHIP2018、CHIP2020、CHIP2022。鑒于其數(shù)據(jù)的開(kāi)放性,只介紹CHIP2020和CHIP2022的評(píng)測(cè)任務(wù)及語(yǔ)料庫(kù)。

      CHIP2020 共開(kāi)設(shè)了6 個(gè)評(píng)測(cè)任務(wù),與NER 相關(guān)的評(píng)測(cè)任務(wù)分別是中文醫(yī)學(xué)文本命名實(shí)體識(shí)別(評(píng)測(cè)任務(wù)一)和中藥說(shuō)明書(shū)實(shí)體識(shí)別(評(píng)測(cè)任務(wù)六)。評(píng)測(cè)任務(wù)一的數(shù)據(jù)集來(lái)源于醫(yī)學(xué)領(lǐng)域文獻(xiàn),由北京大學(xué)計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室、鄭州大學(xué)信息工程學(xué)院自然語(yǔ)言處理實(shí)驗(yàn)室、哈爾濱工業(yè)大學(xué)(深圳)以及鵬城實(shí)驗(yàn)室人工智能研究中心智慧醫(yī)療課題組聯(lián)合構(gòu)建,并劃分了9大類醫(yī)學(xué)命名實(shí)體,分別為疾病、臨床表現(xiàn)、藥物、醫(yī)療設(shè)備、醫(yī)療程序、身體、醫(yī)學(xué)檢驗(yàn)項(xiàng)目、微生物類及科室。為了保證醫(yī)學(xué)實(shí)體意義的可解釋性和完整性,9大類實(shí)體不考慮實(shí)體嵌套問(wèn)題,實(shí)體可以是一個(gè)詞、短語(yǔ)或句子。評(píng)測(cè)任務(wù)六旨在通過(guò)抽取中藥藥品說(shuō)明書(shū)中的關(guān)鍵信息,以實(shí)現(xiàn)構(gòu)建中醫(yī)藥藥品知識(shí)庫(kù)。數(shù)據(jù)集來(lái)源于中藥藥品說(shuō)明書(shū),定義了13 類實(shí)體,分別為藥品、藥物成分、疾病、癥狀、證候、疾病分組、食物、食物分組、人群、藥物分組、藥物劑型、藥物性味及中藥功效。

      CHIP2022 開(kāi)設(shè)了名為面向“基因-疾病”的關(guān)聯(lián)語(yǔ)義挖掘的評(píng)測(cè)任務(wù)。該任務(wù)包括三個(gè)子任務(wù):(1)觸發(fā)詞實(shí)體識(shí)別;(2)語(yǔ)義角色標(biāo)注;(3)“基因,調(diào)控類型,疾病”三元組抽取。其中,子任務(wù)一的數(shù)據(jù)來(lái)源于PubMed文獻(xiàn),劃分了12 類實(shí)體,分別是4 類分子實(shí)體和8 類觸發(fā)詞實(shí)體:Disease(疾病)、Gene(基因)、Protein(蛋白)和Enzyme(酶);Var(突變)、MPA(分子活性)、Interaction(互作)、Pathway(通路)、CPA(細(xì)胞活性)、Reg(調(diào)控)、PosReg(正調(diào)控)和NegReg(負(fù)調(diào)控)。

      通過(guò)對(duì)CHIP2020及CHIP2022 NER評(píng)測(cè)論文的分析與研究,發(fā)現(xiàn)參與評(píng)測(cè)的團(tuán)隊(duì)使用的方法具有如下特點(diǎn):一是使用BiLSTM-CRF、BERT-BiLSTM-CRF、BERT-CRF、BiLSTM-Attention-CRF 等主流基線模型;二是在基線模型的基礎(chǔ)上融合部首、拼音、字、詞等特征;三是通過(guò)各模型的對(duì)照實(shí)驗(yàn)證明模型的有效性及可行性。

      3.3 醫(yī)療NER數(shù)據(jù)集

      國(guó)內(nèi)醫(yī)療領(lǐng)域命名實(shí)體識(shí)別數(shù)據(jù)集如表4所示。

      表4 醫(yī)療NER數(shù)據(jù)集Table 4 Medical NER dataset

      4 電子病歷命名實(shí)體識(shí)別難點(diǎn)的解決思路

      上文按照橫向的技術(shù)發(fā)展角度,闡述了每類命名實(shí)體識(shí)別方法的優(yōu)缺點(diǎn)及相關(guān)的評(píng)測(cè)任務(wù)。本章按照縱向問(wèn)題歸類的角度,詳細(xì)討論和總結(jié)了電子病歷命名實(shí)體識(shí)別每一類難點(diǎn)的解決方案。

      4.1 實(shí)體類別不平衡

      實(shí)體類別不平衡是命名實(shí)體識(shí)別任務(wù)中的一個(gè)常見(jiàn)問(wèn)題。實(shí)體類型的分布與文本數(shù)據(jù)集的內(nèi)容和領(lǐng)域有關(guān),在醫(yī)療領(lǐng)域中,實(shí)體類別不平衡問(wèn)題尤為突出。例如,電子病歷中的疾病、藥物等實(shí)體類型可能比其他實(shí)體類型更為常見(jiàn)。醫(yī)療實(shí)體類別不平衡問(wèn)題的解決方法主要有以下幾種:

      (1)數(shù)據(jù)擴(kuò)充:通過(guò)生成額外的少數(shù)類樣本來(lái)平衡數(shù)據(jù)集。這種對(duì)原始數(shù)據(jù)應(yīng)用轉(zhuǎn)化來(lái)生成新樣本的方法,可能會(huì)提升模型的泛化能力,但需要設(shè)計(jì)良好的數(shù)據(jù)增強(qiáng)[56]策略,以確保擴(kuò)充的樣本貼近現(xiàn)實(shí)且具有基礎(chǔ)數(shù)據(jù)的代表性。例如,Li 等[36]使用修正數(shù)據(jù)集的方式,使得分布不均的數(shù)據(jù)類別趨于平衡;Ouyang等[37]使用主動(dòng)學(xué)習(xí)等機(jī)器學(xué)習(xí)技術(shù)擴(kuò)充數(shù)據(jù)集,提高了模型的泛化能力。

      (2)數(shù)據(jù)重采樣:采樣分為過(guò)采樣(oversampling)[57]和欠采樣(undersampling)[58]。過(guò)采樣通過(guò)增加少數(shù)類的樣本數(shù)量,使得少數(shù)類和多數(shù)類樣本數(shù)量趨近。過(guò)采樣大都搭配正則化模型使用,一般可以提升模型的泛化能力,但有一定的過(guò)擬合風(fēng)險(xiǎn)。欠采樣通過(guò)減少多數(shù)類的樣本數(shù)量,使得多數(shù)類和少數(shù)類樣本數(shù)量趨近。欠采樣的比例過(guò)大,會(huì)導(dǎo)致信息丟失的問(wèn)題,針對(duì)信息損失的問(wèn)題,一般采用模型融合和多次欠采樣(增量訓(xùn)練)兩種方法。例如,羅熹等[59]對(duì)疾病和治療兩類實(shí)體進(jìn)行重采樣,進(jìn)一步提升了模型的識(shí)別效果;Akkasi 等[60]提出了平衡欠采樣方法,并在四個(gè)生物醫(yī)學(xué)數(shù)據(jù)集上分別實(shí)驗(yàn)比較隨機(jī)欠采樣、SWF 和平衡欠采樣三種欠采樣方法的效果,證明了調(diào)節(jié)數(shù)據(jù)集中實(shí)體類單詞和實(shí)體類單詞比例可以改善模型的識(shí)別效果。

      (3)調(diào)整類權(quán)重:根據(jù)不同類別的重要性為其分配不同的權(quán)重。在電子病歷命名實(shí)體識(shí)別任務(wù)中,可以為少數(shù)類分配更高的權(quán)重來(lái)彌補(bǔ)樣本不平衡帶來(lái)的模型性能差距。例如,本妍妍等[61]在MacBERT-CRF 模型的基礎(chǔ)上,通過(guò)引入加權(quán)多分類交叉熵緩解了實(shí)體類別不平衡問(wèn)題;Yang 等[62]設(shè)計(jì)了一個(gè)新的損失函數(shù),該損失函數(shù)能夠?qū)δ繕?biāo)類別分?jǐn)?shù)和非目標(biāo)類別函數(shù)進(jìn)行成對(duì)比較,以自動(dòng)平衡權(quán)重,緩解不平衡問(wèn)題的同時(shí)提升了模型的性能。

      4.2 復(fù)雜實(shí)體識(shí)別

      解決復(fù)雜實(shí)體的關(guān)鍵在于解碼設(shè)計(jì),即標(biāo)注標(biāo)簽到結(jié)構(gòu)化信息的轉(zhuǎn)換過(guò)程,現(xiàn)有的方法大都基于此進(jìn)行優(yōu)化和改進(jìn)。本節(jié)分別從實(shí)體嵌套和實(shí)體不連續(xù)兩個(gè)角度進(jìn)行探討。

      4.2.1 實(shí)體嵌套

      針對(duì)實(shí)體嵌套問(wèn)題,目前主要有序列標(biāo)注、指針標(biāo)注、span和多頭選擇標(biāo)注四種方法。傳統(tǒng)的序列標(biāo)注的方法主要是將實(shí)體嵌套問(wèn)題轉(zhuǎn)化為多標(biāo)簽分類問(wèn)題[63],也有研究者使用標(biāo)記層級(jí)(層疊CRF[64])來(lái)表示實(shí)體,將實(shí)體分為不同的層級(jí),并為每個(gè)層級(jí)分配一個(gè)標(biāo)記。該方法簡(jiǎn)單易懂,可以直接使用現(xiàn)有的序列標(biāo)注模型,但難以解決嵌套實(shí)體中子實(shí)體之間相互影響的問(wèn)題。指針標(biāo)注[65]將每個(gè)實(shí)體的開(kāi)始和結(jié)束位置表示為指針,然后使用模型來(lái)預(yù)測(cè)每個(gè)實(shí)體的指針位置。相對(duì)于傳統(tǒng)的序列標(biāo)注方法,指針標(biāo)注可以很好地解決嵌套實(shí)體中子實(shí)體之間相互影響的問(wèn)題,但需要更復(fù)雜的模型、訓(xùn)練過(guò)程以及更多的計(jì)算資源。基于span[66]的方法在輸入中標(biāo)記實(shí)體的開(kāi)始和結(jié)束位置,進(jìn)而將實(shí)體表示為連續(xù)的字符區(qū)間,是一種相對(duì)簡(jiǎn)單且解釋性較高的實(shí)體嵌套解決方法,缺點(diǎn)是對(duì)于實(shí)體之間的重疊需要額外的后處理步驟。多頭選擇標(biāo)注[67]是一種結(jié)合序列標(biāo)注和指針標(biāo)注的方法,它將實(shí)體標(biāo)記為一個(gè)矩形框,其中包括實(shí)體的開(kāi)始和結(jié)束位置。多頭選擇標(biāo)注能夠有效地解決實(shí)體嵌套和不連續(xù)問(wèn)題,并且不需要額外的后處理步驟,但需要使用復(fù)雜的模型架構(gòu)及更多的標(biāo)注數(shù)據(jù)。

      4.2.2 實(shí)體不連續(xù)

      現(xiàn)有的不連續(xù)實(shí)體的解決方法主要分為三類:基于序列標(biāo)注的標(biāo)簽擴(kuò)展方法、基于超圖的方法以及基于跨度的方法。基于序列標(biāo)注的標(biāo)簽擴(kuò)展方法將不連續(xù)實(shí)體轉(zhuǎn)化為多標(biāo)簽分類問(wèn)題,例如,Tang 等[68]將BIO 標(biāo)簽方案擴(kuò)展為帶有特殊標(biāo)簽的BIOHD 和BIOHD1234 標(biāo)簽方案,用以表示不連續(xù)結(jié)構(gòu),獲得了很好的識(shí)別效果;Dirkson 等[69]在Tang的基礎(chǔ)上提出了一種名為FuzyBIO的替代方案,能夠更好地提升模型的泛化能力?;诔瑘D的方法[70]將文本中的字或詞視為節(jié)點(diǎn),將包含實(shí)體的片段視為超邊,構(gòu)建超圖,然后利用超邊和節(jié)點(diǎn)之間的關(guān)系來(lái)識(shí)別不連續(xù)實(shí)體。上述兩類方法的識(shí)別效果可能會(huì)受到解碼歧義的影響,為了解決這個(gè)問(wèn)題,F(xiàn)ei等[71]提出了一種結(jié)合Seq2Seq 和指針網(wǎng)絡(luò)的不連續(xù)實(shí)體抽取模型。模型中的每個(gè)指針通過(guò)全局信息做出決策,能夠很好地捕獲信息線索,在基準(zhǔn)數(shù)據(jù)集上獲得了比所有基線模型更好的性能。然而,Seq2Seq 模型具有潛在的解碼效率及曝光偏差問(wèn)題?;诳缍鹊姆椒ㄍㄟ^(guò)枚舉所有可能的文本跨度,然后利用多分類策略確定一個(gè)文本跨度的實(shí)體類型,Li等[72]提出了一種基于詞間關(guān)系分類的統(tǒng)一抽取模型,并設(shè)置了三種關(guān)系來(lái)區(qū)分扁平、嵌套及不連續(xù)實(shí)體,在多個(gè)公開(kāi)數(shù)據(jù)集上獲得了良好的識(shí)別效果。

      4.3 邊界識(shí)別

      針對(duì)邊界識(shí)別不準(zhǔn)確問(wèn)題,主要從模型的輸入、輸出、序列標(biāo)注方式及注意力機(jī)制四個(gè)方面進(jìn)行改進(jìn)。

      (1)模型輸入端:多特征信息的融合,例如,Li等[73]、姚蕾等[74]將位置信息融合到Lattice結(jié)構(gòu)中,并利用相對(duì)位置編碼解決邊界識(shí)別不準(zhǔn)確的問(wèn)題。

      (2)模型輸出端:除了使用CRF進(jìn)行約束外,還可以通過(guò)后處理的方式來(lái)進(jìn)一步完善實(shí)體識(shí)別結(jié)果,如模式匹配、正則表達(dá)式等手段。

      (3)序列標(biāo)注方式:Alshammari等[75]通過(guò)實(shí)驗(yàn)表明,相對(duì)于BIO 標(biāo)注方式而言,使用更具有約束效果的BIOES和BMES標(biāo)注方式能夠提高模型的識(shí)別效果。

      (4)基于注意力機(jī)制:通過(guò)在模型中引入注意力機(jī)制,使模型能夠自動(dòng)關(guān)注文本中與實(shí)體邊界相關(guān)的部分。例如,張汝佳等[76]提出了一種基于分割注意力和邊界感知層疊神經(jīng)網(wǎng)絡(luò)模型,有效解決了實(shí)體嵌套及邊界識(shí)別不準(zhǔn)確的問(wèn)題。

      4.4 術(shù)語(yǔ)的規(guī)范化表述

      針對(duì)醫(yī)療領(lǐng)域中的術(shù)語(yǔ)不規(guī)范問(wèn)題,主要通過(guò)構(gòu)建臨床術(shù)語(yǔ)表框架的映射字典進(jìn)行解決。常用的臨床術(shù)語(yǔ)表框架有SNOMED CT、ICD、ICPC等。

      SNOMED CT(systematized nomenclature of medicine clinical terms)[77]以概念為核心對(duì)疾病、臨床發(fā)現(xiàn)、解剖結(jié)構(gòu)等醫(yī)療記錄中的醫(yī)學(xué)信息進(jìn)行組織。概念表、描述表以及語(yǔ)義關(guān)系表是SNOMED CT 基本組成單元。概念表覆蓋規(guī)范的醫(yī)學(xué)概念名稱;描述表收集概念的不同表達(dá)形式;語(yǔ)義表揭示了臨床醫(yī)學(xué)概念之間的關(guān)聯(lián)。SNOMED CT主要應(yīng)用包括醫(yī)學(xué)術(shù)語(yǔ)標(biāo)準(zhǔn)化建設(shè)、健康數(shù)據(jù)互操作及臨床數(shù)據(jù)提取和標(biāo)準(zhǔn)化描述三類。

      ICD(international classification of diseases)[78]由聯(lián)合國(guó)世界衛(wèi)生組織監(jiān)制的疾病分類系統(tǒng)。ICD 編碼的臨床術(shù)語(yǔ)是初級(jí)、二級(jí)、三級(jí)保健疾病等健康記錄和統(tǒng)計(jì)的主要依據(jù),主要用于決策支持、臨床評(píng)估、患者安全、藥品安全等方面。

      ICPC(international classification of primary care)[79]是一個(gè)主要用于家庭醫(yī)療保健的分類系統(tǒng),由世界家庭醫(yī)學(xué)組織(WONCA)和荷蘭家庭醫(yī)學(xué)學(xué)會(huì)(NHG)共同開(kāi)發(fā)。ICPC 主要用于描述家庭醫(yī)生的日常診斷、治療和管理過(guò)程,是醫(yī)生和研究人員進(jìn)行家庭醫(yī)療保健研究和統(tǒng)計(jì)的一個(gè)重要工具。ICPC 包含了超過(guò)7 000 個(gè)疾病、癥狀和問(wèn)題的編碼,主要涵蓋了各個(gè)系統(tǒng)的常見(jiàn)疾病和健康問(wèn)題,例如,消化系統(tǒng)、心血管系統(tǒng)、呼吸系統(tǒng)、皮膚病、精神障礙等。

      5 總結(jié)與展望

      深度學(xué)習(xí)和預(yù)訓(xùn)練模型的興起促進(jìn)了電子病歷命名實(shí)體識(shí)別的發(fā)展,并顯著改變了電子病歷命名實(shí)體識(shí)別的技術(shù)發(fā)展路線,使得電子病歷命名實(shí)體識(shí)別中存在的實(shí)體嵌套、實(shí)體不連續(xù)等問(wèn)題得到了良好的解決。然而,標(biāo)注語(yǔ)料的匱乏、模型的泛化能力等因素都制約著醫(yī)療實(shí)體抽取前進(jìn)的步伐。基于本文的研究,未來(lái)電子病歷命名實(shí)體識(shí)別的發(fā)展趨勢(shì)包括以下幾個(gè)方面:

      (1)多模態(tài)融合。近年來(lái),基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法在醫(yī)療領(lǐng)域中得到廣泛應(yīng)用,與此同時(shí),多模態(tài)信息也被越來(lái)越多地應(yīng)用于電子病歷命名實(shí)體識(shí)別中。不同模態(tài)之間的信息存在天然的互補(bǔ)關(guān)系,且圖像、音頻等模態(tài)的信息則可以為醫(yī)療文本的實(shí)體抽取提供更加豐富的信息和更準(zhǔn)確的判斷。因此,如何有效地將不同類型的數(shù)據(jù)進(jìn)行整合和處理;如何提取并融合不同類型數(shù)據(jù)的特征信息;如何設(shè)計(jì)有效的多模態(tài)融合模型,提高命名實(shí)體識(shí)別的準(zhǔn)確性和魯棒性,都將是未來(lái)的研究熱點(diǎn)。

      (2)Few-shot NER。傳統(tǒng)的NER 模型需要依賴大量手工標(biāo)注的數(shù)據(jù)來(lái)提升準(zhǔn)確性,但是,手工標(biāo)注既耗時(shí)又昂貴。醫(yī)療文本具有專業(yè)性強(qiáng)、實(shí)體結(jié)構(gòu)復(fù)雜等特點(diǎn),更進(jìn)一步增加了手工標(biāo)注的困難。因此,使用少標(biāo)注NER 模型將成為越來(lái)越流行的方法。除此之外,可以使用少標(biāo)注數(shù)據(jù)訓(xùn)練個(gè)性化NER模型,例如,針對(duì)特定患者或患者組的少量標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,構(gòu)建對(duì)應(yīng)的NER模型。

      (3)可解釋性。現(xiàn)有的主流NER 模型大都是端到端的,因而NER模型通常被視為黑匣子,很難理解其決策過(guò)程,這使得NER 模型不能直接應(yīng)用于實(shí)際的醫(yī)療場(chǎng)景中。未來(lái),可以期待看到更多的研究專注于開(kāi)發(fā)可解釋的NER模型,以提高臨床決策的效率和可解釋性。

      (4)語(yǔ)料庫(kù)的建立。現(xiàn)有的中文電子病歷命名實(shí)體識(shí)別公開(kāi)數(shù)據(jù)集大都基于扁平實(shí)體,對(duì)于嵌套實(shí)體及不連續(xù)實(shí)體的研究需要依據(jù)公開(kāi)數(shù)據(jù)集進(jìn)行二次構(gòu)造和標(biāo)注。除此之外,中醫(yī)領(lǐng)域命名實(shí)體識(shí)別的數(shù)據(jù)集極度匱乏,現(xiàn)有的中醫(yī)領(lǐng)域中的命名實(shí)體識(shí)別大都基于自構(gòu)數(shù)據(jù)集。因此,構(gòu)建公開(kāi)統(tǒng)一共享的醫(yī)療文本語(yǔ)料庫(kù)及評(píng)估平臺(tái)是非常有必要的。

      猜你喜歡
      評(píng)測(cè)命名病歷
      強(qiáng)迫癥病歷簿
      次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(下)
      命名——助力有機(jī)化學(xué)的學(xué)習(xí)
      次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(上)
      “大數(shù)的認(rèn)識(shí)”的診斷病歷
      攻坡新利器,TOKEN VENTOUS評(píng)測(cè)
      有一種男人以“暖”命名
      東方女性(2018年3期)2018-04-16 15:30:02
      為一條河命名——在白河源
      Canyon Ultimate CF SLX 8.0 DI2評(píng)測(cè)
      為何要公開(kāi)全部病歷?
      喀什市| 敦煌市| 怀宁县| 湄潭县| 修文县| 南宫市| 赣榆县| 井研县| 延安市| 金坛市| 普安县| 德化县| 南雄市| 江川县| 自贡市| 汉阴县| 南丹县| 循化| 屏东县| 辉南县| 朔州市| 余姚市| 巴彦淖尔市| 米易县| 济阳县| 庆云县| 天全县| 新津县| 昌图县| 九江市| 达孜县| 西宁市| 湘潭市| 绥江县| 溧水县| 包头市| 疏附县| 卓尼县| 中方县| 和林格尔县| 巴里|