陳逸墨 葉輝 易珺 周華文 方丹丹 曹東
基于Bert-BiLSTM-CRF模型的電子病歷隱私信息識別方法*
陳逸墨1葉輝1易珺2周華文1方丹丹1曹東1
(1.廣州中醫(yī)藥大學醫(yī)學信息工程學院,廣東 廣州 510006 2.廣東藥科大學醫(yī)藥信息工程學院,廣東 廣州 510006)
隨著電子病歷數(shù)據(jù)開放共享的需求越來越大,電子病歷去隱私性問題亟需解決。利用自然語言處理技術(shù),提出一種基于Bert-BiLSTM-CRF模型的電子病歷隱私信息識別方法。采用某三甲中醫(yī)院的電子病歷作為數(shù)據(jù)來源,結(jié)合當前公開的數(shù)據(jù)集進行訓練,得到正確率為94.02%、召回率為94.25%、1為93.98%的中醫(yī)電子病歷隱私信息識別模型。與其他傳統(tǒng)模型進行對比實驗表明,Bert-BiLSTM-CRF模型能有效識別并保護電子病歷中的隱私數(shù)據(jù),有助于醫(yī)療數(shù)據(jù)的開放共享。
隱私信息;Bert;雙向長短時記憶網(wǎng)絡(luò);條件隨機場;電子病歷
隨著信息時代的到來,各行各業(yè)開始與互聯(lián)網(wǎng)、信息技術(shù)交融并飛速發(fā)展。為加快我國醫(yī)學領(lǐng)域的發(fā)展進程,衛(wèi)生部發(fā)布了《電子病歷基本規(guī)范(試行)》。電子病歷也稱計算機化的病案系統(tǒng),是用電子設(shè)備保存、管理、傳輸和重現(xiàn)的數(shù)字化醫(yī)療記錄[1]。電子病歷在提高信息交流效率的同時也面臨諸多挑戰(zhàn),其中如何有效識別并隱藏患者的隱私信息成為關(guān)鍵問題。
目前,中文命名實體識別方法主要基于規(guī)則、統(tǒng)計機器學習和深度學習等方法[2]。其中,基于規(guī)則的方法依賴手工規(guī)則,結(jié)合命名實體庫,通過實體與規(guī)則的相符情況進行類型判斷。該方法能夠得到較好的識別效果,但不同領(lǐng)域的規(guī)則各有不同且這些規(guī)則不能互用,因此機器學習的方法逐漸興起。目前,用于中文命名實體識別的機器學習模型主要有隱馬爾科夫模型(Hidden Markov model, HMM)、條件隨機場(condition random field, CRF)[3]等。隨著硬件計算能力的提升,基于深度學習的方法越來越普遍,且效果較基于統(tǒng)計機器學習的方法更勝一籌。目前,基于深
度學習的方法主要通過神經(jīng)網(wǎng)絡(luò)來訓練模型,主流神經(jīng)網(wǎng)絡(luò)模型有卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)[4]、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)[5]、長短時記憶神經(jīng)網(wǎng)絡(luò)(long short–term memory, LSTM)[6]等。中醫(yī)電子病歷具有復(fù)雜性高、詞語多義性強、專業(yè)性強等特點,傳統(tǒng)模型雖然可以實現(xiàn)實體識別功能,但效果不盡如人意。
近年來提出的Bert預(yù)訓練語言模型,憑借優(yōu)秀的表意能力,使與之結(jié)合的神經(jīng)網(wǎng)絡(luò)模型效果更佳。本文提出由Bert、BiLSTM和CRF 三個模塊構(gòu)成的模型對中醫(yī)電子病歷中的隱私信息進行識別。
Bert-BiLSTM-CRF模型框架如圖1所示。
首先,待處理的數(shù)據(jù)輸入Bert進行預(yù)訓練;然后,BiLSTM層進行語義編碼處理;最后,將得到的數(shù)據(jù)輸入CRF層計算最終結(jié)果。與傳統(tǒng)的基于深度學習方法相比,本文方法引入了Bert預(yù)訓練語言模型。Bert-BiLSTM-CRF模型是經(jīng)過大量語料及長時間訓練得到的,能根據(jù)上下文信息計算出字的向量表示,可有效表現(xiàn)字的多義性,增強句子的語義表示[7]。
圖1 Bert-BiLSTM-CRF模型示意圖
2015年,DAI和LE首次提出預(yù)訓練語言模型[8]。2018年DEVLIN等經(jīng)過改進,提出Bert預(yù)訓練語言模型[9]。該模型的構(gòu)成元素為表義能力較強的Trans- former[10]。Transformer是一種基于Attention機制的深度網(wǎng)絡(luò),具有良好的并行計算能力且善于捕捉長距離特征,結(jié)構(gòu)如圖2所示。
圖2 Transformer編碼單元
1997年,HOCHREITER提出基于RNN改進的LSTM[11]。LSTM模型較于RNN模型具有可利用長距離信息的特點,并解決了RNN模型存在的梯度消失問題。2005年,GRAVES根據(jù)LSTM和雙向RNN提出雙向長短時記憶網(wǎng)絡(luò)(BiLSTM)[12]。LSTM單元主要由輸入門、遺忘門、輸出門3部分組成。其中,輸入門確定保留信息;遺忘門確定丟棄信息;輸出門確定可輸出信息,結(jié)構(gòu)圖如圖3所示。
圖3 LSTM單元結(jié)構(gòu)圖
CRF是LAFFERTY等在2001年提出的一種判別式模型,屬于隨機場的一種[13]。由于BiLSTM模塊的輸出結(jié)果會出現(xiàn)一些無意義的字符和標簽,也沒有考慮其間的依賴關(guān)系,故通過加入CRF模塊從訓練數(shù)據(jù)中獲得約束性規(guī)則,保證標簽是合法的[14]。BiLSTM模塊的輸出序列作為CRF模塊的輸入,如句子(x1, x2, ..., xi)通過Bert預(yù)訓練語言模型和BiLSTM層后,得到每個字的預(yù)測序列(1,2, ... ,y),進入CRF后被轉(zhuǎn)換為BIO標注法所定義的標記(1,2, ... ,tag),其中表示標記維度。通過CRF層為標記打分,采用Softmax函數(shù)進行歸一化,以BIO標注法對標記序列進行規(guī)整,完成隱私信息的識別[15]。
本實驗用來識別中醫(yī)電子病歷中的隱私信息,包括人名、地名、機構(gòu)名、年齡。實驗數(shù)據(jù)主要來自人民日報語料庫和某三甲中醫(yī)院的電子病歷,其中電子病歷349份,共11 465 469個字。將人民日報語料庫與電子病歷中的數(shù)據(jù)以1∶9的比例分割后作為測試集和訓練集。為保證數(shù)據(jù)整潔,人民日報語料庫已標記的數(shù)據(jù)不做變動,在電子病歷數(shù)據(jù)中新增“年齡”實體類型,用以識別年齡信息。實驗主要分為數(shù)據(jù)預(yù)處理、數(shù)據(jù)導(dǎo)入模型、評判結(jié)果3個步驟。
本文所用數(shù)據(jù)均采用BIO標注法,標簽有9種: B-PER、I-PER、B-LOC、I-LOC、B-ORG、I-ORG、B-AGE、I-AGE、O。其中,B表示實體開始部分;I表示實體非開始部分;O表示非實體;PER表示人名實體;LOC表示地名實體;ORG表示機構(gòu)實體;AGE表示年齡實體。BIO標簽集如表1所示。
表1 BIO標簽集
未標記的數(shù)據(jù)使用自主開發(fā)的標注軟件進行實體標注,操作界面如圖4所示,標注結(jié)果如圖5所示。其中,C為需要標注的實體;P為實體在文本中的位置;T為實體類型。
圖4 標注軟件操作界面
圖5 標注結(jié)果
3個模型的常規(guī)參數(shù)設(shè)置如表2所示。其中“Max sequence length”表示字數(shù)個數(shù);“epoch”表示時期,一個epoch就是將所有訓練樣本訓練一次的過程;“dropout”表示防止過擬合參數(shù);“Learning rate”表示學習率,合適的學習率可以使目標函數(shù)在合適的時間內(nèi)收斂到局部最小值;“Batch size”表示每批樣本的大??;“Max checkpoints”表示訓練過程中的最大模型快照。
表2 實驗參數(shù)
本文以正確率、召回率、和1值作為評判指標。其中,正確率為預(yù)測準確樣本中真實準確樣本的比例;召回率為真實準確樣本中預(yù)測準確樣本的比例;1為正確率和召回率的加權(quán)平均值。
實驗環(huán)境如表3所示。
表3 實驗環(huán)境
本文實驗中所有模型均在上述配置下完成訓練。各實體類型的識別結(jié)果如表4所示。
表4 3種模型對不同實體類型的識別結(jié)果
其中,模型耗時BiLSTM為158.771 min;BiLSTM-CRF為336.951 min;Bert-BiLSTM-CRF為1 718.366 min。
訓練后得到平均正確率為94.02%、平均召回率為94.25%、平均1為93.98%的中醫(yī)電子病歷隱私信息識別模型。
從模型方面來看:Bert-BiLSTM-CRF模型的平均正確率達到94.02%,在4個實體類型上的識別效果都優(yōu)于BiLSTM模型和BiLSTM-CRF模型;由此可見,Bert-BiLSTM-CRF模型比傳統(tǒng)的LSTM模型效果更好。
從實體類型來看:PER和LOC的識別效果較好,特別是Bert-BiLSTM-CRF模型對這2種實體類型識別的1值均超過了0.95,這是由于人民日報語料中人名和地名的標注質(zhì)量較高且這些實體不會因其他客觀因素而改變;ORG和AGE的識別效果較差,主要原因是ORG有時用縮略詞或組合詞對識別產(chǎn)生干擾,如“廣州中醫(yī)藥大學”被縮略為“廣中醫(yī)”、“中山大學第三附屬醫(yī)院”被縮略為“中大三附院”;年齡實體由數(shù)字組成,而病例中存在其他與年齡無關(guān)的數(shù)字,導(dǎo)致AGE識別不準確,如“藥品劑量50 mg/1日”中“50”被識別成年齡,“日期2011-11-23”中“11”和“23”被識別為年齡,產(chǎn)生信息混淆。
本文提出的Bert-BiLSTM-CRF模型已達到可以使用的水平,相比傳統(tǒng)的BiLSTM模型和BiLSTM-CRF模型,本文模型識別不同類別隱私信息的能力更強。陳衍旭[16]提出的Bert-BiLSTM-CRF模型的隱私信息識別1值為0.932 9,本文模型在此基礎(chǔ)上有一定程度的提升。在之后的工作中,需要豐富數(shù)據(jù)集并且對模型進行適當改進,以提高模型的識別效率。如明確年齡實體與其他包含數(shù)字的實體的分類;通過增加原始數(shù)據(jù)數(shù)量來增加訓練量。近年來有融入注意力機制[17]的新模型出現(xiàn)。因此,下一步可以考慮從數(shù)據(jù)處理和融入新機制入手來提升模型性能。
[1] 中華人民共和國衛(wèi)生部.電子病歷基本規(guī)范(試行)[J].中國藥房,2010,21(12):1063-1064.
[2] 劉瀏,王東波.命名實體識別研究綜述[J].情報學報,2018, 37(3):329-340.
[3] 宮義山,段亞奇.基于不同模型的中文命名實體識別方法研究[J].長江信息通信,2021,34(1):84-86.
[4] LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural compu-tation, 1989,1(4):541-551.
[5] 夏瑜潞.循環(huán)神經(jīng)網(wǎng)絡(luò)的發(fā)展綜述[J].電腦知識與技術(shù),2019, 15(21):182-184.
[6] HOCHREITER S, SCHMIDHUBER J. LSTM can solve hard long time lag problems[J]. Advances in neural information processing systems, 1997: 473-479.
[7] 王遠志,曹子瑩.Bert-BLSTM-CRF模型的中文命名實體識別[J].安慶師范大學學報(自然科學版),2021,27(1):59-65.
[8] DAI A M, LE Q V. Semi-supervised sequence learning[J]. Advances in neural information processing systems, 2015,28: 3079-3087.
[9] DEVLIN J, CHANG M W, LEE K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
[10] VASWANI A, SHAZEER N, PARMAR N. et al. Attention is all you need[C]. Advances in Neural Information Processing Systems, 2017:5998-6008.
[11] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[12] GRAVES A, SCHMIDHUBER J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Networks, 2005, 18(5-6): 602-610.
[13] LAFFERTY J, MCCALLUM A, PEREIRA F. Condition random fields: probabilistic models for segmenting and labeling sequence data[C].Proceedings of the 18th Interna-tional Conference on Machine Learning, 2001, 951:282-289.
[14] 羅熹,夏先運,安瑩,等.結(jié)合多頭自注意力機制與BiLSTM- CRF的中文臨床實體識別[J].湖南大學學報(自然科學版),2021,48(4):45-55.
[15] 劉一斌,葉輝,易珺,等.基于樸素貝葉斯和word2vec的中醫(yī)電子病歷文本信息抽取[J].世界科學技術(shù)-中醫(yī)藥現(xiàn)代化,2020,22(10):3563-3568.
[16] 陳衍旭.面向臨床文本的知識獲取與應(yīng)用[D].哈爾濱工業(yè)大學,2019.
[17] 張華麗,康曉東,李博,等.結(jié)合注意力機制的Bi-LSTM-CRF中文電子病歷命名實體識別[J].計算機應(yīng)用,2020,40(S1): 98-102.
Private Information Recognition Method of Electronic Medical Records Based on Bert-BiLSTM-CRF Model
CHEN Yimo1YE Hui1YI jun2ZHOU Huawen1FANG Dandan1CAO Dong1
(1.School of Medical Information Engineering, Guangzhou University of Chinese Medicine,Guangzhou 510006, China 2. College of Medical Information Engineering, Guangdong Pharmaceutical University, Guangzhou 510006, China)
With the increasing demand for open sharing of electronic medical record data, the privacy of electronic medical record needs to be solved urgently. Using natural language processing technology, a privacy information recognition method of electronic medical record based on Bert-BiLSTM-CRF model is proposed. Using the electronic medical record of a three-tier traditional Chinese medicine hospital as the data source, combined with the current public data set for training, we get the privacy information recognition model of traditional Chinese medicine electronic medical record with the accuracy rate of 94.02%, the recall rate of 94.25% and1 of 93.98%. Compared with other traditional models, the experiment shows that Bert-BiLSTM-CRF model can effectively identify and protect the private data in EMR, which is conducive to the open sharing of medical data.
privacy information; Bert; BiLSTM; CRF; electronic medical record
TP391.1
A
1674-2605(2022)02-0006-06
10.3969/j.issn.1674-2605.2022.02.006
陳逸墨,男,1997年生,在讀研究生,主要研究方向:醫(yī)學自然語言處理。
葉輝,男,1978年生,碩士,講師,主要研究方向:醫(yī)學自然語言處理。
易珺,女,1976年生,碩士,副教授,主要研究方向:醫(yī)學自然語言處理。
周華文,男,1997年生,在讀研究生,主要研究方向:醫(yī)學自然語言處理。
方丹丹,女,1998年生,在讀研究生,主要研究方向:醫(yī)學自然語言處理。
曹東(通信作者)男,1975年生,博士研究生,教授,主要研究方向:醫(yī)學自然語言處理、醫(yī)學信號傳感與檢測。 E-mail: caodong@ gzucm.edu.cn
基金項目:國家重點研發(fā)計劃資助(2019YFC1710400):廣東省普通高校重點領(lǐng)域?qū)m棧?020ZDZX3080)。
陳逸墨,葉輝,易珺,等.基于BERT-BiLSTM-CRF模型的電子病歷隱私信息識別方法[J].自動化與信息工程, 2022,43(2):35-40.
CHEN Yimo, YE Hui, YI jun, et al. Private information recognition method of electronic medical records based on Bert-BiLSTM-CRF model[J]. Automation & Information Engineering, 2022,43(2):35-40.