——王 怡 白 雪 崔勝男 任慧玲 張 湛 劉振宇 范陽華 郭進(jìn)京馮 銘
電子病歷 (Electronic Medical Record, EMR) 是指醫(yī)務(wù)人員在醫(yī)療活動過程中使用醫(yī)療機(jī)構(gòu)信息系統(tǒng)生成的文字、符號、圖表、圖形、數(shù)據(jù)、影像等數(shù)字化信息, 并能實(shí)現(xiàn)存儲、管理、傳輸和重現(xiàn)的醫(yī)療記錄[1]。隨著《國務(wù)院關(guān)于印發(fā)新一代人工智能發(fā)展規(guī)劃的通知》[2]、《國務(wù)院辦公廳關(guān)于促進(jìn)“互聯(lián)網(wǎng)+醫(yī)療健康”發(fā)展的意見》[3]的發(fā)布,以及機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能手段的應(yīng)用,使得長期制約電子病歷應(yīng)用的瓶頸-對自由文本進(jìn)行自然語言處理難題得到有效解決,也使得通過對電子病歷進(jìn)行分詞、挖掘建立臨床醫(yī)學(xué)命名實(shí)體數(shù)據(jù)庫成為可能。在此基礎(chǔ)上,開發(fā)人工智能輔助臨床決策支持系統(tǒng),將極大地提升基層醫(yī)療機(jī)構(gòu)的臨床診斷決策能力。但在臨床醫(yī)學(xué)命名實(shí)體數(shù)據(jù)庫建設(shè)過程中,電子病歷本身的質(zhì)量將直接影響數(shù)據(jù)庫質(zhì)量。本研究就臨床醫(yī)學(xué)命名實(shí)體數(shù)據(jù)庫中如何篩選符合條件的電子病歷進(jìn)行探討,以期為后續(xù)工作開展提供參考。
電子病歷包含大量重要的臨床信息資源,運(yùn)用分詞、命名實(shí)體識別等自然語言處理技術(shù)識別這些信息,并用于構(gòu)建臨床輔助診斷決策支持系統(tǒng),可打破醫(yī)生在知識上的局限,減少人為疏忽。同時(shí),可改變醫(yī)生收集科研數(shù)據(jù)時(shí)依賴閱讀病歷、手工抄錄數(shù)據(jù)的傳統(tǒng)做法,為科研數(shù)據(jù)收集和臨床數(shù)據(jù)庫建立提供全新手段。
命名實(shí)體識別(Named Entitiy Recognition, NER)是指識別文本中具有特定意義的主體,包括人、地名、機(jī)構(gòu)名、專有名詞等[4]。命名實(shí)體本質(zhì)上是詞,具有獨(dú)立、完整的意義,一般包括3大類(實(shí)體類、時(shí)間類、數(shù)字類)和7小類(人名、地名、機(jī)構(gòu)名、時(shí)間、日期、貨幣、百分比)。命名實(shí)體識別最常用的方法有3種:(1)基于規(guī)則、基于詞典的有監(jiān)督機(jī)器學(xué)習(xí)法;(2)基于少量的標(biāo)注語料,對未標(biāo)注語料自動標(biāo)注擴(kuò)充模型的半監(jiān)督學(xué)習(xí)法;(3)通過深度學(xué)習(xí)自動提取未標(biāo)注語料的統(tǒng)計(jì)特征,利用其產(chǎn)生分詞結(jié)果的無監(jiān)督分詞法。
臨床醫(yī)學(xué)命名實(shí)體識別的主要任務(wù)是從電子病歷文本中識別出具有獨(dú)立、完整意義的醫(yī)療領(lǐng)域的命名實(shí)體。這些命名實(shí)體主要涉及與患者接受醫(yī)療診治相關(guān)的實(shí)體,包括癥狀、體征、疾病診斷名稱、手術(shù)操作名稱、藥物名稱、輔助檢查名稱等。不同研究者有不同的分類方法,主要有5大類實(shí)體:(1)患者、醫(yī)生以及醫(yī)療機(jī)構(gòu)的名稱、編號等隱私信息 (Private Health Information, PHI)。使用電子病歷的先決條件就是去隱私化信息 (De-Identifi cation),用替代信息替換病歷中的 PHI, 以保持病歷文本的完整性。(2)醫(yī)療問題類(Problem)實(shí)體[5]。指描述患者身體或精神上由疾病引起的異?,F(xiàn)象的短語,即疾病和癥狀,如“肺炎(疾病) ”“咳嗽(癥狀)”“胸痛(癥狀)” 等。同時(shí),抽取疾病和癥狀的重要修飾成分(或者稱上下文特征),比如“無高血壓病”,表示肯定排除。因此,電子病歷命名實(shí)體識別研究還需要識別疾病和癥狀的修飾,方能準(zhǔn)確表達(dá)電子病歷的內(nèi)容含義。(3)檢查類(Test)實(shí)體。指為了診治疾病開展的各項(xiàng)檢查等,如“病理”“血常規(guī)”等。(4)治療類(Treatment)實(shí)體。指診治疾病的治療干預(yù)措施,如“地塞米松(藥名)”“百多邦(藥名)”等。其不僅涉及藥物名稱 (包括通用名、商品名), 還包括劑量、用藥方式、頻次等被視為藥物屬性的命名實(shí)體。(5) 時(shí)間信息。這也是一類重要的實(shí)體數(shù)據(jù)?;颊叩闹委熀筒∏榈陌l(fā)展有時(shí)序性, 在病歷中很多表示事件的實(shí)體都與時(shí)間相關(guān),比如 “惡心嘔吐3小時(shí)”。
電子病歷臨床醫(yī)學(xué)命名實(shí)體識別既要識別病歷文本中表達(dá)患者癥狀體征及醫(yī)療過程的實(shí)體,又要體現(xiàn)電子病歷實(shí)體之間的相互關(guān)系。實(shí)體關(guān)系主要有3大類[6]:(1) 概念之間的關(guān)系。包括疾病和癥狀的關(guān)系,疾病和疾病的關(guān)系,疾病和檢查的關(guān)系,以及疾病和治療的關(guān)系;(2)概念間的等價(jià)關(guān)系。有些概念可能是其他概念的等價(jià)表達(dá),這種關(guān)系的識別是共指消解的主要研究內(nèi)容;(3)概念和時(shí)間的關(guān)系。表示事件的概念通常具有時(shí)間屬性, 即什么時(shí)間發(fā)生的某個(gè)事件。
臨床醫(yī)學(xué)命名實(shí)體與臨床醫(yī)學(xué)術(shù)語不同。術(shù)語是在特定學(xué)科領(lǐng)域用于表示概念的稱謂的集合,醫(yī)學(xué)名詞術(shù)語是臨床醫(yī)學(xué)中的專業(yè)用語;命名實(shí)體則是自然語言處理的產(chǎn)物,是從信息抽取角度來定義的,不僅包括醫(yī)學(xué)名詞術(shù)語,還包括名詞術(shù)語的多種表達(dá)方式以及修飾詞。醫(yī)學(xué)名詞術(shù)語講究統(tǒng)一規(guī)范,命名實(shí)體則存在一詞多種變體,故要進(jìn)行詞義歸一。
電子病歷由結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)組成。其中,自然語言自由文本形式的非結(jié)構(gòu)化數(shù)據(jù)是電子病歷中最重要的部分,包括入院記錄、病程記錄、會診記錄、出院記錄等?!恫v書寫基本規(guī)范》對病歷書寫的每一個(gè)項(xiàng)目均有明確的格式和內(nèi)容要求。同時(shí),病歷書寫分客觀病歷記錄和主觀病歷記錄兩部分。因此,對電子病歷進(jìn)行分詞和命名實(shí)體識別之前,要了解病歷書寫各項(xiàng)目的含義和功能,只有在掌握病歷書寫結(jié)構(gòu)特征的前提下方能選好語料,設(shè)計(jì)好分詞提取方案。
為便于同行間信息的傳遞和溝通,《病歷書寫基本規(guī)范》要求“病歷書寫應(yīng)規(guī)范使用醫(yī)學(xué)術(shù)語”。病歷作為專業(yè)檔案,其語言表達(dá)具有鮮明特點(diǎn):(1)具有大量對疾病、癥狀、體征進(jìn)行描述的醫(yī)學(xué)術(shù)語;(2)有大量檢查檢驗(yàn)報(bào)告、藥物劑量名稱、數(shù)字及單位;(3)有大量對命名實(shí)體進(jìn)行修飾的常用語,如“無”“不伴”等。
電子病歷臨床醫(yī)學(xué)命名實(shí)體識別主要涉及與患者接受醫(yī)療診治相關(guān)的實(shí)體,因此,評判一個(gè)命名實(shí)體及關(guān)系是否被正確識別,其核心取決于原始文本本身的真實(shí)性、完整性,病歷結(jié)構(gòu)是否符合規(guī)范,語言邏輯是否清晰等。電子病歷取代手寫病歷,在帶來方便的同時(shí),也帶來了系列問題[7]。這些問題將直接影響病歷內(nèi)涵質(zhì)量,進(jìn)而影響對臨床醫(yī)學(xué)命名實(shí)體及實(shí)體關(guān)系的抽取和識別。
(1)病歷記錄內(nèi)容的真實(shí)性。個(gè)別醫(yī)生臨床基本功不扎實(shí),問診查體不認(rèn)真,事前遺漏重要內(nèi)容,事后隨意編寫,導(dǎo)致病歷內(nèi)容失真。少數(shù)醫(yī)生拷貝病歷張冠李戴,如未手術(shù)患者出現(xiàn)手術(shù)切口描述,男性患者出現(xiàn)月經(jīng)史,左側(cè)白內(nèi)障手術(shù)誤寫成右側(cè)等。
(2)病歷記錄內(nèi)容的完整性。已做手術(shù)缺手術(shù)記錄,出院缺出院記錄,重要的病理報(bào)告未歸入病歷,入院記錄缺??魄闆r等。
(3)病歷記錄內(nèi)容的規(guī)范性。未按規(guī)范要求格式和內(nèi)容書寫病歷,導(dǎo)致病歷內(nèi)容不全;病歷記錄中出現(xiàn)大量錯字、漏字、別字;同一份病歷記錄,前文寫有青霉素過敏,后文又否認(rèn)青霉素過敏,相互矛盾等。
(4)病歷模板使用和拷貝雷同現(xiàn)象。病例特點(diǎn)與現(xiàn)病史相同,上級醫(yī)師查房內(nèi)容與首次病程記錄擬診討論內(nèi)容相同,多次病程記錄內(nèi)容相同等。這些雷同內(nèi)容不能客觀真實(shí)地反映患者情況。
(5)病種診療過程不完整?;蛞蚧颊咴?,或因醫(yī)療原因,導(dǎo)致診療過程未按既定方案完成。再如,有疾病診斷,沒有診斷依據(jù);有手術(shù)操作名稱,沒有手術(shù)操作記錄等。
(6)新舊病歷在病歷記錄中使用語言存在較大差異,尤其是近年來網(wǎng)絡(luò)語言的興起,病歷語言與既往習(xí)慣的常用表達(dá)方式相比有較大變化,給命名實(shí)體識別帶來阻礙。
(7)病歷中出現(xiàn)大量不規(guī)范中英文縮寫等。
在開展臨床醫(yī)學(xué)命名實(shí)體識別前,可參照《病歷書寫基本規(guī)范》要求建立入選病歷標(biāo)準(zhǔn),篩選合格病歷進(jìn)行臨床醫(yī)學(xué)命名實(shí)體識別。
住院病歷書寫項(xiàng)目格式及框架符合《病歷書寫基本規(guī)范》要求,無項(xiàng)目遺漏,無內(nèi)容缺失。住院病歷包括入院記錄、病程記錄、出院記錄等,且每個(gè)書寫項(xiàng)目均具有完整內(nèi)容,如出院記錄應(yīng)包括入院情況、入院診斷、診治經(jīng)過、目前情況、出院診斷、出院醫(yī)囑等6部分內(nèi)容。缺少任何書寫項(xiàng)目,缺少書寫項(xiàng)目中任一部分內(nèi)容,均評判為不合格病歷,不能入選。
在電子病歷中建立臨床醫(yī)學(xué)命名實(shí)體,進(jìn)行實(shí)體間關(guān)系的抽取和識別,是為人工智能輔助臨床決策支持服務(wù),因此,病歷本身內(nèi)在的邏輯性、臨床推理即臨床思維過程非常重要。病歷中對病情變化、異常情況的分析與處理等內(nèi)容不可或缺。
病歷內(nèi)容出現(xiàn)以下情況之一,導(dǎo)致病歷內(nèi)容不能真實(shí)反映診療過程,應(yīng)評判為不合格病歷,不能用于臨床醫(yī)學(xué)命名實(shí)體庫建設(shè)。(1)兩次以上病程記錄內(nèi)容相同;(2)使用模板,導(dǎo)致同一病種癥狀體征大致相同;(3)病歷內(nèi)容出現(xiàn)張冠李戴、前后不一致等影響內(nèi)容真實(shí)性的問題;(4)病種病歷診療過程不完整;(5)病種病歷主要診斷缺少依據(jù)等。也可根據(jù)提取的臨床醫(yī)學(xué)命名實(shí)體的具體用途調(diào)整病歷篩選標(biāo)準(zhǔn),以提高臨床醫(yī)學(xué)命名實(shí)體整體質(zhì)量,為后續(xù)工作提供強(qiáng)有力支撐。
通過人工智能手段對電子病歷進(jìn)行分詞、挖掘,建立臨床醫(yī)學(xué)命名實(shí)體數(shù)據(jù)庫,是深度開發(fā)利用病歷的重要手段?;陔娮硬v的臨床醫(yī)學(xué)命名實(shí)體及關(guān)系識別,具有內(nèi)容廣泛、知識密集、專業(yè)性強(qiáng)等特點(diǎn),與病歷記錄有著千絲萬縷的聯(lián)系。病歷記錄不真實(shí)、不完整、不良拷貝等將使病歷內(nèi)容失真,不能客觀反映真實(shí)的疾病診治過程,不能準(zhǔn)確表達(dá)醫(yī)生的臨床思維過程,嚴(yán)重影響病歷質(zhì)量,進(jìn)而影響臨床醫(yī)學(xué)命名實(shí)體及實(shí)體關(guān)系的正確表達(dá)。因此,建立標(biāo)準(zhǔn)篩選合格病歷,是提升臨床醫(yī)學(xué)命名實(shí)體質(zhì)量的有效舉措。