孫超 謝晴宇
摘要:目的 探索中醫(yī)領(lǐng)域利用少量標(biāo)注語料進(jìn)行電子病歷中醫(yī)學(xué)實(shí)體信息的命名實(shí)體識(shí)別(NER)研究工作,為更復(fù)雜的中醫(yī)電子病歷信息處理及深度學(xué)習(xí)方法在中醫(yī)領(lǐng)域內(nèi)的運(yùn)用提供參考。 方法 分析中醫(yī)電子病歷詞匯術(shù)語與一般的NER任務(wù)相比較的特殊性,對(duì)比了目前3種NER技術(shù)的優(yōu)缺點(diǎn),找尋適合中醫(yī)電子病歷醫(yī)學(xué)術(shù)語的NER技術(shù)。結(jié)果 長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)是一種無監(jiān)督學(xué)習(xí)模型,能有效利用序列數(shù)據(jù)中長(zhǎng)距離依賴信息,特別適合處理文本序列數(shù)據(jù);還可以和條件隨機(jī)場(chǎng)(CRF)模型相結(jié)合,解決中醫(yī)NER的難點(diǎn)。長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)聯(lián)合條件隨機(jī)場(chǎng)模型(LSTM-CRF)可以在未標(biāo)記的病歷文本語料上無監(jiān)督學(xué)習(xí)詞語特征,不依賴于人工設(shè)計(jì)特征模板而達(dá)到自動(dòng)提取患者癥狀、疾病、誘因等命名實(shí)體的目的。結(jié)論 中醫(yī)電子病歷術(shù)語識(shí)別應(yīng)利用多種命名實(shí)體識(shí)別技術(shù),充分發(fā)揮這些技術(shù)的優(yōu)勢(shì),提高模型識(shí)別準(zhǔn)確性。
關(guān)鍵詞:命名實(shí)體識(shí)別;長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò);條件隨機(jī)場(chǎng);中醫(yī)電子病歷
中圖分類號(hào):R241;TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-5707(2020)02-0001-05
DOI: 10.3969/j.issn.2095-5707.2020.02.001
Abstract: Objective To explore how to use the small amount of labeled corpora in the field of TCM to conduct research on named entity recognition (NER) of medical entity information in electronic medical records (EMR); To provide references for the application of more complex information processing of TCM EMR and in-depth learning methods in the field of TCM. Methods Specificity of vocabulary and terminology of TCM EMR compared to general NER tasks was analyzed, and the advantages and disadvantages of the current three NER technologies were compared, so as to find the named entity recognition technologies suitable for medical terminology of TCM EMR. Results As an unsupervised learning model, long and short-term memory (LSTM) neural network could effectively utilize long-distance dependent information in sequential data, especially suitable for processing text sequence data. It could also be combined with conditional random field model (CRF) to solve the difficulty of NER in TCM. LSTM-CRF model could learn word features in unsupervised condition in unmarked medical record text corpus, and could automatically extract named entities such as symptoms, diseases and causes of patients without relying on the artificial design of feature templates. Conclusion TCM EMR should be applied to multiple NER technologies, making full use of the advantages of these technologies
隨著醫(yī)院信息化建設(shè)的發(fā)展,針對(duì)電子病歷信息開展的后結(jié)構(gòu)化研究已成為主流趨勢(shì)。通過集成平臺(tái)的后結(jié)構(gòu)化策略,有效推動(dòng)生產(chǎn)系統(tǒng)業(yè)務(wù)邏輯的改進(jìn),是真實(shí)世界平臺(tái)建設(shè)領(lǐng)域的核心議題。目前,中醫(yī)電子病歷領(lǐng)域研究關(guān)鍵詞有“數(shù)據(jù)挖掘”“遠(yuǎn)程醫(yī)療”“人工智能”等[1],這些粗顆粒度的關(guān)鍵詞顯然沒有將研究熱點(diǎn)聚焦在更深入的解決方案上。電子病歷中記載著患者的癥狀、體征、辨證和用藥治療的全部過程,利用這些記錄,我們可以對(duì)醫(yī)生的診療經(jīng)驗(yàn)進(jìn)行總結(jié),為后人學(xué)習(xí)參考使用;同樣,若將這些記錄信息提供給計(jì)算機(jī)作為“學(xué)習(xí)”的文本素材,在充分“學(xué)習(xí)”大量事實(shí)性的數(shù)據(jù)之后,利用人工智能技術(shù),理論上計(jì)算機(jī)就可以模擬人的思維進(jìn)行診斷和治療。計(jì)算機(jī)輔助診療能夠幫助臨床醫(yī)生進(jìn)行診斷,選擇合適的治療方式,進(jìn)行風(fēng)險(xiǎn)預(yù)測(cè),減少醫(yī)療錯(cuò)誤的發(fā)生,最終達(dá)到協(xié)助臨床決策的目的[2]。目前,已有多篇人工智能模擬醫(yī)生進(jìn)行診斷的研究報(bào)道[3-6]。實(shí)現(xiàn)計(jì)算機(jī)輔助診療的思路為:首先識(shí)別提取出病歷中的癥狀、疾病、病機(jī)、誘因等具有特定含義的醫(yī)學(xué)實(shí)體信息,再利用數(shù)據(jù)挖掘相關(guān)技術(shù),發(fā)掘這些術(shù)語信息之間的聯(lián)系??梢姡t(yī)學(xué)實(shí)體信息的識(shí)別提取是實(shí)現(xiàn)計(jì)算機(jī)輔助診療的首要環(huán)節(jié)。
將電子病歷信息作為文本語料,利用自然語言處理相關(guān)技術(shù),從電子病歷中進(jìn)行醫(yī)學(xué)實(shí)體信息的提取成為目前醫(yī)學(xué)領(lǐng)域的重要任務(wù)之一[7]。術(shù)語識(shí)別工作是一項(xiàng)重要而關(guān)鍵的基礎(chǔ)性步驟,它可以為中醫(yī)藥人工智能輔助臨床決策服務(wù),有很大的理論研究?jī)r(jià)值和應(yīng)用研究?jī)r(jià)值。
1 中醫(yī)病歷命名實(shí)體識(shí)別研究的特殊性
利用計(jì)算機(jī)自動(dòng)提取病歷中的實(shí)體信息的難點(diǎn)在于:雖然醫(yī)學(xué)術(shù)語的表述方式有一定的規(guī)范,但它還是一種自由化的文本表述,不同的醫(yī)生在表達(dá)同一種意思時(shí)使用的中醫(yī)術(shù)語往往會(huì)有不同的表達(dá)方式,對(duì)于這種情況,醫(yī)生可以很容易判斷出它們是否表達(dá)了同一意義,例如,醫(yī)生可以很迅速地反應(yīng)出納差、不能食、食少、不知饑餓、饑不欲食、不思飲食、食欲不振等均表達(dá)“納呆”之意,而計(jì)算機(jī)想判斷出這一點(diǎn)卻并不容易。在實(shí)現(xiàn)讓計(jì)算機(jī)理解的過程中,我們顯然無法找到一本包含各種表述的詞典,采用“字-字”匹配的模式來讓計(jì)算機(jī)進(jìn)行理解。此外,我們還希望計(jì)算機(jī)能夠?qū)ψR(shí)別出的中醫(yī)術(shù)語進(jìn)行分類,把屬于癥狀的歸屬到癥狀術(shù)語里,屬于病因的歸屬到病因術(shù)語里,屬于方藥的歸屬到方藥術(shù)語里,以便進(jìn)一步的挖掘分析。
實(shí)現(xiàn)病歷文本語料術(shù)語識(shí)別的自然語言處理技術(shù)為命名實(shí)體識(shí)別(Named Entity Recognition, NER)技術(shù),它最早由美國(guó)紐約大學(xué)學(xué)者R Grishman和B Sundheim于1996年在MUC-6(Message Understanding Conference 6)會(huì)議上提出,目的是從自然語言文本中識(shí)別出實(shí)體指稱及其類別[8]。傳統(tǒng)的NER任務(wù)包括識(shí)別人名、地名、組織機(jī)構(gòu)名稱等實(shí)體指稱。盡管目前也有許多從文本中提取實(shí)體術(shù)語的模型,但是將這些模型應(yīng)用于醫(yī)學(xué)實(shí)體識(shí)別還是具有挑戰(zhàn)性的,因?yàn)闃?biāo)準(zhǔn)的自然語言處理工具不是為醫(yī)學(xué)領(lǐng)域?qū)iT設(shè)計(jì)的,因此需要研究特定針對(duì)中醫(yī)電子病歷的NER辦法[9]。
中醫(yī)學(xué)領(lǐng)域與傳統(tǒng)自然語言領(lǐng)域中識(shí)別人名、地名、組織機(jī)構(gòu)名稱等實(shí)體指稱的不同點(diǎn)有3條。首先,傳統(tǒng)的識(shí)別任務(wù)中,人名具有較固定的姓氏,地名、組織機(jī)構(gòu)名稱之后有固定的后綴用詞;而中醫(yī)命名實(shí)體往往沒有一套嚴(yán)格的命名系統(tǒng),有時(shí)表述還會(huì)帶有古漢語的特點(diǎn),如“納可,寐佳”,命名實(shí)體特征性復(fù)雜,難以總結(jié)其中的規(guī)律性。其次,中醫(yī)領(lǐng)域缺乏大規(guī)模、統(tǒng)一的標(biāo)注語料集,這使得從大量標(biāo)注好的語料中學(xué)習(xí)識(shí)別實(shí)體特征的監(jiān)督學(xué)習(xí)算法實(shí)行起來人力時(shí)間成本較大,我們最好能尋求到半監(jiān)督或無監(jiān)督的學(xué)習(xí)算法。第三,中醫(yī)命名實(shí)體長(zhǎng)度不確定,實(shí)體內(nèi)還會(huì)出現(xiàn)子實(shí)體或2個(gè)并列實(shí)體同時(shí)出現(xiàn)的嵌套情況,如“外感風(fēng)寒”為四字術(shù)語,而“下元不足,元?dú)馍v于上”則較長(zhǎng)。實(shí)體名稱越長(zhǎng),需要識(shí)別上下文信息范圍就越廣,識(shí)別難度越大。嵌套現(xiàn)象如“風(fēng)熱郁于膽絡(luò),兼脾有濕痰壅熱”這里“風(fēng)熱”“膽絡(luò)”“濕痰壅熱”都是命名實(shí)體,而它們又共同組成了“風(fēng)熱郁于膽絡(luò),兼脾有濕痰壅熱”這樣的病機(jī)表述,嵌套現(xiàn)象的存在使得各類中醫(yī)術(shù)語的識(shí)別工作是相互交織而非孤立的。這些特殊性決定了中醫(yī)病歷NER工作要比一般領(lǐng)域的更加復(fù)雜多變,技術(shù)難度更大。
2 3種命名實(shí)體識(shí)別技術(shù)分析
NER技術(shù)大體可以歸納為:基于規(guī)則的方法(Rule-Based Model),基于統(tǒng)計(jì)模型的方法(Statistic-Based Model)和基于深度學(xué)習(xí)的方法(Deep Learning Method)。
2.1 基于規(guī)則的方法
基于規(guī)則的方法是在已有符號(hào)處理系統(tǒng)和規(guī)則下,由專家知識(shí)構(gòu)造大量規(guī)則集,形成有限狀態(tài)機(jī),推理出可能的命名實(shí)體詞組。規(guī)則表達(dá)易于理解,推理過程直觀明了。但是,中醫(yī)病歷的語言缺乏一套嚴(yán)格的命名系統(tǒng),有時(shí)候還會(huì)帶有文言文的色彩,難以總結(jié)其中的規(guī)律性,單純使用基于規(guī)則的方法難度較大,一般都將它與基于統(tǒng)計(jì)模型的方法聯(lián)合使用。
2.2 基于統(tǒng)計(jì)模型的方法
基于統(tǒng)計(jì)模型的方法有隱馬爾可夫模型(Hidden Markov Model, HMM)、條件隨機(jī)場(chǎng)(Conditional Random Fields, CRF)模型、最大熵馬爾可夫模型(Maximum Entropy Markov Model, MEMM)等。目前應(yīng)用于中醫(yī)病歷術(shù)語識(shí)別工作最多的就是基于統(tǒng)計(jì)模型方法中的CRF模型。CRF能夠在給定需要標(biāo)注的觀察序列條件下,計(jì)算整個(gè)標(biāo)注序列的聯(lián)合概率分布,并在整個(gè)觀察值序列上求解一個(gè)最優(yōu)的標(biāo)注序列,具有很強(qiáng)的推理能力,能夠使用復(fù)雜的、有重疊性的、非獨(dú)立的特征進(jìn)行訓(xùn)練,充分利用上下文信息,有效避免了HMM模型條件獨(dú)立假設(shè)、MEMM模型標(biāo)注偏置等諸多問題,識(shí)別效率也通常優(yōu)于其他統(tǒng)計(jì)模型。
Wang Y Q等[10]對(duì)比分析了HMM、MEMM、CRF模型在中醫(yī)臨床記錄中對(duì)癥狀實(shí)體的識(shí)別,結(jié)果發(fā)現(xiàn)CRF模型更適合中醫(yī)臨床病歷的命名實(shí)體抽取。劉凱等[11]建立以詞位、狀態(tài)轉(zhuǎn)移、上下文窗口、指示詞、詞典、構(gòu)詞模式為特征的CRF模型,對(duì)中醫(yī)臨床病歷進(jìn)行命名實(shí)體抽取。葉輝等[12]使用多特征CRF對(duì)《金匱要略》的癥狀、藥物進(jìn)行信息抽取研究,準(zhǔn)確率達(dá)到84.5%,召回率70.9%,F(xiàn)值77.1%,有效抽取了中醫(yī)古籍中所含的癥狀、藥物文本實(shí)體信息。孟洪宇等[13]對(duì)《傷寒論》文本中的癥狀、病名、脈象、方劑等中醫(yī)術(shù)語進(jìn)行自動(dòng)識(shí)別,采用CRF建立以字本身、詞邊界、詞性、類別標(biāo)簽為特征組合的中醫(yī)術(shù)語識(shí)別模型,模型準(zhǔn)確率85.00%,召回率68.00%,F(xiàn)值75.56%。
但是,CRF模型非常依賴于特征工程,特征質(zhì)量的好壞直接影響到識(shí)別的準(zhǔn)確率。特征選取需要基于大量的語言學(xué)知識(shí)、領(lǐng)域知識(shí)和專家經(jīng)驗(yàn),反復(fù)試驗(yàn)篩選調(diào)整。而中醫(yī)語言表述抽象,加之缺乏統(tǒng)一標(biāo)注的大規(guī)模標(biāo)注語料集可供訓(xùn)練,使用CRF模型等監(jiān)督學(xué)習(xí)模型人力時(shí)間成本投入較大。如何在少量人工干預(yù)前提下有效利用無標(biāo)注語料,實(shí)現(xiàn)特征自動(dòng)提取是我們應(yīng)當(dāng)關(guān)注的問題。
2.3 基于深度學(xué)習(xí)的方法
基于深度學(xué)習(xí)的方法是近年來逐漸占主流地位的方法,它通過多個(gè)神經(jīng)元組成神經(jīng)層,再由神經(jīng)層逐層連接形成多層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[14],模擬人的大腦思維過程進(jìn)行分析學(xué)習(xí)。多隱層的結(jié)構(gòu)使得每一層都能將原始輸入進(jìn)行線性或非線性的轉(zhuǎn)換,從而放大其中與學(xué)習(xí)目標(biāo)相關(guān)的部分,減小不相關(guān)的部分,數(shù)據(jù)規(guī)模更大,模型更復(fù)雜,刻畫能力更強(qiáng),識(shí)別效率更高。更值得注意的是,深度學(xué)習(xí)是一種無監(jiān)督的學(xué)習(xí),通過構(gòu)建多隱層模型,自主抽取樣本的特征,具有自動(dòng)學(xué)習(xí)特征的能力,在一定程度上很好地替代一般的特征提取方法,減少了人工制定特征的工作量。自加拿大蒙特利爾大學(xué)學(xué)者Bengio Y將深度學(xué)習(xí)方法用于自然語言處理后[15],越來越多的自然語言處理領(lǐng)域開始使用深度學(xué)習(xí)方法?!吧疃葘W(xué)習(xí)將會(huì)在自然語言理解領(lǐng)域產(chǎn)生巨大影響”[14],可以預(yù)見,深度學(xué)習(xí)的下一個(gè)主戰(zhàn)場(chǎng)就是自然語言處理領(lǐng)域。
深度學(xué)習(xí)模型的自主學(xué)習(xí)能力恰好可以解決CRF模型需要大量依賴人工制定特征工程的弊端,使得今后在抽取中醫(yī)術(shù)語時(shí),即使沒有語言學(xué)專家的加入,也可以完成術(shù)語抽取工作。因此,應(yīng)當(dāng)對(duì)深度學(xué)習(xí)方法進(jìn)行專門研究,以找尋適用于中醫(yī)病歷術(shù)語識(shí)別工作的深度學(xué)習(xí)模型。
3 深度學(xué)習(xí)模型在中醫(yī)病歷術(shù)語識(shí)別中的應(yīng)用
3.1 中醫(yī)病歷術(shù)語識(shí)別屬于NER序列標(biāo)注問題
中醫(yī)病歷術(shù)語識(shí)別屬于NER序列標(biāo)注問題[16]。所謂序列標(biāo)注,是指把輸入句子文本看作由詞語組成的序列X=(x1,x2,……xi……xn),如X為現(xiàn)病史文本中“發(fā)作時(shí)伴有反酸,噯氣,無嘔吐”這一句話,xi表示經(jīng)過分詞處理后的文本詞語,即“發(fā)作/時(shí)/伴有/反酸/噯氣/無嘔吐/”,序列標(biāo)注就是給句子中每個(gè)詞語打上標(biāo)簽集合中的某個(gè)標(biāo)簽Y=(y1,y2,……yi……yn)。使用BIEOS標(biāo)記方法[17],其中B為實(shí)體標(biāo)記的開始,I為實(shí)體標(biāo)記的其他部分,E為實(shí)體標(biāo)記的結(jié)尾,O為不屬于命名實(shí)體, S為單字即構(gòu)成癥狀術(shù)語。例如,“發(fā)作時(shí)伴有反酸,噯氣,無嘔吐”可被標(biāo)識(shí)為“發(fā)/O 作/O 時(shí)/O 伴/O 有/O 反/B酸/E,/O 噯/B氣/E,/O 無/B嘔/I吐/E。/O”。適用于序列標(biāo)注問題的深度學(xué)習(xí)模型是遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network, RNN),所謂“遞歸”是指它們的反饋回路結(jié)構(gòu),即在模型的隱層中加入了自連接和互連接,通過重現(xiàn)矩陣傳播延遲信號(hào),這樣反饋回路就能把上一個(gè)時(shí)間標(biāo)注的輸出信息作為下一個(gè)時(shí)間的輸入信息來處理,對(duì)前面的信息進(jìn)行記憶并應(yīng)用于當(dāng)前的輸出計(jì)算中,從而實(shí)現(xiàn)對(duì)上下文信息的記錄保存和利用。正因?yàn)镽NN具有這樣的特點(diǎn)和優(yōu)勢(shì),使它特別適用于語音識(shí)別、機(jī)器翻譯等需要根據(jù)上下文預(yù)測(cè)下一個(gè)單詞、下一個(gè)語音的序列標(biāo)注問題。
3.2 中醫(yī)病歷術(shù)語識(shí)別適用的深度學(xué)習(xí)模型為長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型
RNN在學(xué)習(xí)訓(xùn)練過程中需要將遞歸項(xiàng)反繞解開,它最大的弱點(diǎn)是需克服神經(jīng)網(wǎng)絡(luò)層數(shù)過多帶來的參數(shù)訓(xùn)練時(shí)學(xué)習(xí)梯度消失的問題,RNN在理論上雖然可以對(duì)任何長(zhǎng)度的序列數(shù)據(jù)進(jìn)行處理,但在實(shí)際應(yīng)用中,特別是進(jìn)行長(zhǎng)程依賴的學(xué)習(xí)時(shí),若某一項(xiàng)會(huì)受到很遠(yuǎn)處的標(biāo)記影響,普通RNN表現(xiàn)往往不佳[18]。而中醫(yī)病歷中命名實(shí)體往往較長(zhǎng),需要識(shí)別上下文信息范圍廣,普通的RNN模型識(shí)別不佳。
為有效克服普通RNN梯度消失的問題,由德國(guó)慕尼黑大學(xué)學(xué)者Hochreiter S和Schmidhuber J提 出[19]、后經(jīng)改進(jìn)的長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)結(jié)構(gòu)[20-21],可以看成是對(duì)RNN模型的改進(jìn)。LSTM包括1個(gè)用于保存信息的記憶單元(memory cell),3組自適應(yīng)的元素門進(jìn)行控制更新,即控制網(wǎng)絡(luò)輸入的輸入門(input gate),控制網(wǎng)絡(luò)輸出的輸出門(output gate),控制記憶單元的忘記門(forget gate),共同組成記憶存儲(chǔ)塊(block)的結(jié)構(gòu),從而解決RNN梯度消失的問題。LSTM既可以保存很久之前的信息,達(dá)到利用較遠(yuǎn)處的上下文信息的效果,有效克服梯度消失的問題;又可以避免無關(guān)緊要的內(nèi)容進(jìn)入記憶,通過訓(xùn)練學(xué)習(xí)達(dá)到對(duì)信息自動(dòng)篩選的目的。且LSTM模型是一種數(shù)據(jù)驅(qū)動(dòng)的方法,它不依賴特征工程,是一種端到端的訓(xùn)練過程,可以減少傳統(tǒng)統(tǒng)計(jì)方法CRF模型需要大量制定特征模板的人工干預(yù)過程。近年來,LSTM在自然語言處理領(lǐng)域發(fā)揮了重大作用。Lample G等[22]將LSTM與CRF模型結(jié)合,以詞和字符為特征,加入dropout策略,進(jìn)行NER標(biāo)注。Ma X Z等[23]利用雙向LSTM合并卷積神經(jīng)網(wǎng)絡(luò)和CRF模型,得到97.55%的詞性標(biāo)注準(zhǔn)確率和91.21%的NER準(zhǔn)確率。
由于文本句子中詞語和詞語之間不是獨(dú)立的,是有語義關(guān)系的,因此詞語歸屬的標(biāo)簽也不是獨(dú)立的,打標(biāo)簽時(shí)需要利用前面或后面的信息。當(dāng)前的預(yù)測(cè)標(biāo)簽不僅與當(dāng)前的輸入詞語有關(guān),還與之前的預(yù)測(cè)標(biāo)簽相關(guān),即預(yù)測(cè)標(biāo)簽序列之間是有強(qiáng)相互依賴關(guān)系的,有的命名實(shí)體標(biāo)記之間互相是不能搭配的。若僅依靠LSTM得到某詞屬于某命名實(shí)體標(biāo)記的概率,則可能預(yù)測(cè)出非法的標(biāo)簽序列。例如,使用BIEOS進(jìn)行命名實(shí)體標(biāo)注時(shí),正確的標(biāo)簽序列中標(biāo)簽O后面是不會(huì)接標(biāo)簽I的。而此問題通過CRF模型可以得到解決,因?yàn)镃RF模型的目標(biāo)函數(shù)不僅考慮輸入的狀態(tài)特征函數(shù),而且還包含了標(biāo)簽轉(zhuǎn)移特征函數(shù),可以在LSTM輸出端將softmax函數(shù)分類器與CRF結(jié)合起來進(jìn)行NER的標(biāo)注[22,24],使用LSTM解決提取序列特征的問題,使用CRF有效利用句子級(jí)別的標(biāo)記信息,更好地進(jìn)行NER工作。
張藝品等[25]以《備急千金要方》《千金翼方》《神農(nóng)本草經(jīng)》作為語料,應(yīng)用LSTM-CRF模型,識(shí)別其中的病癥、方劑、中草藥等實(shí)體,準(zhǔn)確率95.47%,召回率95.21%,F(xiàn)值95.34%,高于HMM、CRF模型。高甦等[26]采用基于雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)(BiLSTM-CRF)的實(shí)體識(shí)別模型,對(duì)《黃帝內(nèi)經(jīng)》中的中醫(yī)認(rèn)識(shí)方法、中醫(yī)生理、中醫(yī)病理、中醫(yī)自然、治則治法等5種實(shí)體進(jìn)行識(shí)別,準(zhǔn)確率為85.44%,召回率為85.19%,F(xiàn)值85.32%。這些研究均證實(shí)了LSTM結(jié)合CRF技術(shù)適用中醫(yī)文本的特點(diǎn),模型泛化能力和魯棒性更強(qiáng)。
4 小結(jié)
針對(duì)中醫(yī)病歷命名實(shí)體識(shí)別研究的特殊性,我們認(rèn)為中醫(yī)病歷NER工作的解決流程為:首先,借助中醫(yī)詞典等規(guī)則知識(shí)對(duì)病歷文本進(jìn)行過濾;其次,對(duì)于中醫(yī)詞典無法識(shí)別的中醫(yī)術(shù)語,使用LSTM,利用其記憶存儲(chǔ)塊的結(jié)構(gòu),控制信息的存儲(chǔ)和遺忘,從而實(shí)現(xiàn)對(duì)梯度信息選擇性地讀取和覆蓋。LSTM模型善于處理長(zhǎng)范圍的上下文信息問題,有效解決中醫(yī)領(lǐng)域命名實(shí)體過長(zhǎng)的難題;LSTM模型作為深層非線性網(wǎng)絡(luò)是一種無監(jiān)督的學(xué)習(xí)過程,可以在原始字符集上提取特征,減少人工特征制定的工作量,解決標(biāo)注語料集匱乏的問題。此外,LSTM模型還可與CRF模型等線性方法相結(jié)合,解決中醫(yī)病歷文本數(shù)據(jù)量可能過小的問題,更好地利用NER標(biāo)記上下文信息。LSTM-CRF可以在未標(biāo)記的病歷文本語料上無監(jiān)督地學(xué)習(xí)詞語特征,不依賴于人工設(shè)計(jì)特征模板,達(dá)到中醫(yī)病歷NER的目的。
參考文獻(xiàn)
[1] 榮光,謝晴宇,孟慶剛.中醫(yī)電子病歷研究領(lǐng)域科學(xué)知識(shí)圖譜分析[J].中國(guó)中醫(yī)藥信息雜志,2017,24(1):99-104.
[2] HE J, BAXTER S L, XU J, et al. The practical implementation of artificial intelligence technologies in medicine[J]. Nat Med, 2019,25(1):30-36.
[3] GULSHAN V, PENG L, CORAM M, et al. Development and validation of a deep learning algorithm for detection of diabetic retinopathy in retinal fundus Photographs[J]. JAMA, 2016,316(22):2402-2410.
[4] KERMANY D S, GOLDBAUM M, CAI W, et al. Identifying medical diagnoses and treatable diseases by image-based deep learning[J]. Cell, 2018,172:1122-1131.
[5] ESTEVA A, KUPREL B, NOVOA R A, et al. Dermatologist-level classification of skin cancer with deep neural networks[J]. Nature, 2017,542(7639):115-118.
[6] CHENG J Z, NI D, CHOU Y H, et al. Computer-aided diagnosis with deep learning architecture: applications to breast lesions in US images and pulmonary nodules in CT scans[J]. Sci Rep, 2016(6):24454.
[7] FORD E, CARROLL J A, SMITH H E, et al. Extracting information from the text of electronic medical records to improve case detection: a systematic review[J]. Journal of the American Medical Informatics Association, 2016,23(5): 1007-1015.
[8] GRISHMAN R, SUNDHEIM B. Message Understanding Conference 6: A Brief History[C]// Proceedings of the 16th conference on Computational linguistics - Volume 1. Association for Computational Linguistics, 1996:466-471.
[9] CHOWDHURY S, DONG X, QIAN L, et al. A multitask bi-directional RNN model for named entity recognition on Chinese electronic medical records[J]. BMC Bioinformatics, 2018,19(17):499.
[10] WANG Y Q, YU Z H, CHEN L, et al. Supervised methods for symptom name recognition in free-text clinical records of traditional Chinese medicine: An empirical study[J]. Journal of Biomedical Informatics, 2014,47:91-104.
[11] 劉凱,周雪忠,于劍,等.基于條件隨機(jī)場(chǎng)的中醫(yī)臨床病歷命名實(shí)體抽取[J].計(jì)算機(jī)工程,2014,40(9):312-316.
[12] 葉輝,姬東鴻.基于多特征條件隨機(jī)場(chǎng)的《金匱要略》癥狀藥物信息抽取研究[J].中國(guó)中醫(yī)藥圖書情報(bào)雜志,2016,40(5):14-17.
[13] 孟洪宇,謝晴宇,常虹,等.基于條件隨機(jī)場(chǎng)的《傷寒論》中醫(yī)術(shù)語自動(dòng)識(shí)別[J].北京中醫(yī)藥大學(xué)學(xué)報(bào),2015,38(9):587-590.
[14] LECUN Y, BENGIO Y, HINTON G. Deep Learning[J].Nature, 2015,521(7553):436-444.
[15] BENGIO Y, SCHWENK H, SENECAL J S, et al. Neural probabilistic language models[M]. Innovations in Machine Learning. Springer, 2006:137-186.
[16] FINKEL J R, GRENAGER T, MANNING C. Incorporating non-local information into information extraction systems by gibbs sampling[C]// Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2005:363-370.