尹思藝 龐曉燕 蔡秀軍 林 輝 喬 凱 王可心 徐 哲
1.國家衛(wèi)生健康委醫(yī)管中心數(shù)據(jù)運(yùn)行處,北京 100044;2.浙江大學(xué)醫(yī)學(xué)院附屬邵逸夫醫(yī)院互聯(lián)網(wǎng)辦公室,浙江杭州 310016;3.北京劉家窯中醫(yī)院中西醫(yī)科,北京 100075;4.杭州朗通信息技術(shù)有限公司技術(shù)部,浙江杭州 310053
目前,部分醫(yī)院雖然引進(jìn)了電子病歷質(zhì)控系統(tǒng),但其質(zhì)控范圍僅限于病案缺項(xiàng)、時(shí)限等形式質(zhì)控,不能解決病歷邏輯的準(zhǔn)確性、術(shù)語的規(guī)范性和診療處置的合理性等內(nèi)涵問題[1-2]。該項(xiàng)研究通過構(gòu)建醫(yī)學(xué)自然語言處理[3-5]平臺(tái)、術(shù)語映射平臺(tái)、醫(yī)學(xué)知識圖譜、質(zhì)控規(guī)則引擎和深度學(xué)習(xí)[6]模型,來清洗醫(yī)療數(shù)據(jù),統(tǒng)一醫(yī)學(xué)術(shù)語,實(shí)現(xiàn)對醫(yī)學(xué)文本自然語言語義的理解,對運(yùn)行病歷文書和出院病案資料從完整性、時(shí)限性、邏輯性、合規(guī)性等多維度進(jìn)行深度內(nèi)涵質(zhì)控應(yīng)用,對電子病歷質(zhì)量進(jìn)行事中、事后的全流程監(jiān)控,提升智能電子病歷質(zhì)控[7]的準(zhǔn)確性。
要實(shí)現(xiàn)對病歷內(nèi)容的審核,首先要解決的是對病歷文本準(zhǔn)確識別和理解[8]。由于醫(yī)學(xué)術(shù)語表述多樣、復(fù)雜、不標(biāo)準(zhǔn),因此第一步需要對復(fù)雜臨床數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、分詞和結(jié)構(gòu)化處理以及語義標(biāo)注,從而增強(qiáng)數(shù)據(jù)識別的準(zhǔn)確性[9]。因此利用深度學(xué)習(xí)[10]和自然語言處理技術(shù)[11],搭建醫(yī)學(xué)文本主動(dòng)學(xué)習(xí)標(biāo)注平臺(tái),對大量病歷文本進(jìn)行實(shí)體、屬性、關(guān)系、事件等標(biāo)注任務(wù),獲取海量的醫(yī)學(xué)語料,然后基于醫(yī)學(xué)語料進(jìn)行語言模型訓(xùn)練,從而實(shí)現(xiàn)病歷文本的結(jié)構(gòu)化處理,在此過程中,輔以人工校驗(yàn),不斷提升病歷文本分詞的準(zhǔn)確性。
例如圖1所示的病例文本自然語言處理(NLP)標(biāo)準(zhǔn)任務(wù):“患者10年前無明顯誘因下出現(xiàn)惡心、嘔吐、伴腹瀉,嘔吐物和腹瀉物為暗紅色液體,至醫(yī)院就診診斷為胃出血”經(jīng)自然語言處理平臺(tái)處理后會(huì)自動(dòng)抽取“無明顯誘因”“惡心”“嘔吐”“腹瀉”“嘔吐物和腹瀉物為暗紅色液體”“胃出血”等實(shí)體,同時(shí)抽取出不同實(shí)體之間的關(guān)系。見表1。
圖1 病歷文本NLP標(biāo)準(zhǔn)任務(wù)
表1 病歷文書NLP結(jié)構(gòu)化處理
由于電子病歷中的癥狀、疾病名稱等臨床醫(yī)學(xué)術(shù)語并不是規(guī)范統(tǒng)一的,譬如針對癥狀“腹痛”,不同的病歷文書中可能被表述為“肚子痛”“肚子疼”,為解決臨床醫(yī)學(xué)術(shù)語表達(dá)同義不同詞、內(nèi)涵不清、語義表達(dá)和理解不一致等問題。需要將這些詞進(jìn)行聚類融合,基于 SNOMED-CT、Loinc、RxNorm[12]、醫(yī)保版ICD-10、ICD-9-CM-3等編碼標(biāo)準(zhǔn)規(guī)則,構(gòu)建中文臨床醫(yī)學(xué)術(shù)語庫及標(biāo)準(zhǔn)術(shù)語映射系統(tǒng),實(shí)現(xiàn)病歷文本中涉及的疾病、癥狀、體征、檢查、藥品、手術(shù)和操作術(shù)語的映射。見圖2。
圖2 標(biāo)準(zhǔn)術(shù)語映射演示
前兩步解決了病歷文本的識別和理解問題,而要實(shí)現(xiàn)對病歷內(nèi)涵質(zhì)量的審核,還需要具有臨床診療推理引擎。臨床診療推理引擎的構(gòu)建以指南文獻(xiàn)、醫(yī)學(xué)教材、臨床病例數(shù)據(jù)等醫(yī)學(xué)文本為數(shù)據(jù)源,通過深度學(xué)習(xí)構(gòu)建專業(yè)醫(yī)學(xué)知識圖譜、診斷模型、治療模型,構(gòu)架醫(yī)學(xué)知識圖譜?;诙鄬哟吾t(yī)學(xué)知識圖譜推理技術(shù),形成綜合推理引擎。針對患者病情對醫(yī)生臨床路徑的合理性及充分性進(jìn)行精準(zhǔn)分析,進(jìn)而對臨床內(nèi)涵病歷質(zhì)量進(jìn)行判斷,解決病歷質(zhì)控人員無法對各科室專業(yè)內(nèi)容進(jìn)行分析與評判的難題。
質(zhì)控規(guī)則是實(shí)現(xiàn)系統(tǒng)對病歷文書執(zhí)行量化評分的依據(jù),因此質(zhì)控規(guī)則引擎的構(gòu)建也需要公正、標(biāo)準(zhǔn)、規(guī)范、可執(zhí)行。因此可以參照《病歷書寫基本規(guī)范》[13]、國家質(zhì)控標(biāo)準(zhǔn)等相關(guān)規(guī)范[14],深入解析18項(xiàng)醫(yī)療安全核心制度,對質(zhì)控要點(diǎn)逐條細(xì)化和拆分,將文本描述語言轉(zhuǎn)換成計(jì)算機(jī)可執(zhí)行的規(guī)則,構(gòu)造質(zhì)控規(guī)則引擎。根據(jù)質(zhì)控規(guī)則引擎,實(shí)現(xiàn)病歷文本的自動(dòng)審核,并對不符合規(guī)則的條目進(jìn)行提醒和扣分。
通過兩種方式獲取醫(yī)療數(shù)據(jù):一是對醫(yī)院數(shù)據(jù)脫敏,脫敏后進(jìn)行清洗、整理,并導(dǎo)入大數(shù)據(jù)平臺(tái),按照患者ID號將脫敏病歷的內(nèi)容按照主訴、現(xiàn)病史、化驗(yàn)、診斷等模塊分別存儲(chǔ)到數(shù)據(jù)庫。二是采集診療指南、期刊文獻(xiàn)、臨床路徑、醫(yī)學(xué)教材等不同權(quán)威的中文醫(yī)學(xué)語料,將兩種來源的數(shù)據(jù)匯總成訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的醫(yī)學(xué)語料,為自然語言處理平臺(tái)的構(gòu)建奠定數(shù)據(jù)基礎(chǔ)。
目前,醫(yī)院里電子病歷的癥狀、疾病名稱不是規(guī)范統(tǒng)一的。我們利用預(yù)訓(xùn)練語言模型,結(jié)合Transformer和卷積網(wǎng)絡(luò)兩種不同的相似度計(jì)算方法,構(gòu)造Siamese Network框架,搭建語義相似度模型,研發(fā)術(shù)語映射系統(tǒng)。借鑒和利用Snomed-CT、Loinc、國家醫(yī)保版ICD-10和ICD-9-CM3等術(shù)語體系,構(gòu)建標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語庫,研發(fā)標(biāo)準(zhǔn)術(shù)語映射系統(tǒng),實(shí)現(xiàn)疾病、癥狀、藥品、手術(shù)和操作的映射。
研發(fā)基于海量醫(yī)學(xué)文本的預(yù)訓(xùn)練語言模型,實(shí)現(xiàn)醫(yī)學(xué)實(shí)體提取、關(guān)系提取、屬性提取、醫(yī)學(xué)事件提取。預(yù)訓(xùn)練醫(yī)學(xué)語言模型,采用Google提出的Transformer[15]模型,搭建預(yù)訓(xùn)練語言模型;模型的構(gòu)建參考2020年ICLR論文[16]中提出的模型。
利用深度學(xué)習(xí)技術(shù),借鑒預(yù)訓(xùn)練醫(yī)學(xué)語言模型,研發(fā)醫(yī)學(xué)信息提取模型,參考bert-bilstm-crf進(jìn)行升級改進(jìn);基于關(guān)系抽取模型、屬性提取模型,研究聯(lián)合抽取模型,即關(guān)系和實(shí)體使用同一個(gè)模型,并且一次性完成實(shí)體和關(guān)系的抽取。將信息抽取模型、術(shù)語映射模型集成到醫(yī)學(xué)自然語言處理平臺(tái),對接主動(dòng)學(xué)習(xí)的標(biāo)注平臺(tái),實(shí)現(xiàn)醫(yī)學(xué)文本后結(jié)構(gòu)化處理及語義理解。
基于自然語言處理平臺(tái),從海量醫(yī)學(xué)文本中抽取醫(yī)學(xué)三元組;利用術(shù)語映射系統(tǒng)將非標(biāo)準(zhǔn)的醫(yī)學(xué)實(shí)體三元組進(jìn)行標(biāo)準(zhǔn)化;借鑒和利用ICD-10,Snomed-CT,Loinc,ICD-9-CM3等術(shù)語體系,參考RxNorm和UMLS等大型醫(yī)學(xué)領(lǐng)域知識圖譜,完善自動(dòng)化、可視化的臨床醫(yī)學(xué)知識圖譜;利用圖嵌入技術(shù),實(shí)現(xiàn)醫(yī)學(xué)知識圖譜的自動(dòng)補(bǔ)全更新。
質(zhì)控規(guī)則引擎是系統(tǒng)實(shí)現(xiàn)病歷文書審核評分的核心,本項(xiàng)目依據(jù)國家質(zhì)控標(biāo)準(zhǔn)和相關(guān)規(guī)范,解析18項(xiàng)醫(yī)療安全核心制度,細(xì)化拆分質(zhì)控要點(diǎn),將文本描述語言轉(zhuǎn)換成計(jì)算機(jī)可執(zhí)行的規(guī)則,實(shí)現(xiàn)病歷文本的自動(dòng)審核,并對不符合規(guī)則的條目進(jìn)行提醒和扣分。通過可視化自定義維護(hù),展示各病歷文書的內(nèi)涵缺陷類別和詳情,實(shí)現(xiàn)病歷缺陷可視化追溯和分析。從評分規(guī)則、過程質(zhì)控、終末病案質(zhì)控評分、終末病案質(zhì)控統(tǒng)計(jì)管理等多模塊進(jìn)行對比分析,為醫(yī)療行為評價(jià)、病歷質(zhì)量改進(jìn)以及政策制訂等提供決策支持。
智能終末質(zhì)控上線后,醫(yī)院病案等級結(jié)構(gòu)見圖3,醫(yī)院甲級病案率逐步提升,統(tǒng)計(jì)數(shù)據(jù)顯示5月份甲級病案占比81.44%,6月份甲級病案占比86.59%,7月份甲級病案占比89.88%。通過質(zhì)控系統(tǒng)的多維度、全范圍的審核,大大提升了臨床醫(yī)師準(zhǔn)確書寫病歷的意識,促進(jìn)了醫(yī)院整體甲級病案率的提升。7月份甲級病案率相較5月份甲級病案率提升8.44%。
圖3 醫(yī)院病案等級結(jié)構(gòu)
應(yīng)用智能病案質(zhì)控系統(tǒng)后,病案首頁質(zhì)量情況如圖4所示,5月份病案首頁合格率為82.02%,6月份病案首頁合格率為78.59%,7月份病案首頁合格率為92.56%,連續(xù)3個(gè)月的數(shù)據(jù)表明病案首頁合格率整體呈上升趨勢,7月份較5月份病案首頁合格率提升10.54%。
圖4 病案首頁質(zhì)量情況
依據(jù)圖5數(shù)據(jù),對比5、6、7三個(gè)月的缺陷條目占比情況發(fā)現(xiàn),使用智能質(zhì)控系統(tǒng)后,多數(shù)病案缺陷占比整體呈下降趨勢,特別是病案首頁手術(shù)名稱與手術(shù)記錄不一致缺陷從5月份的15.49%降至7月份的0.1%,系統(tǒng)的跨病歷文書質(zhì)量審核功能,保證了病案首頁內(nèi)容與病歷文書的一致性,為DRGs準(zhǔn)確分組提供了良好的數(shù)據(jù)基礎(chǔ)。
圖5 主要條目缺陷占比趨勢
醫(yī)學(xué)自然語言處理、術(shù)語映射和深度學(xué)習(xí)等技術(shù),能實(shí)現(xiàn)對多元異構(gòu)醫(yī)療數(shù)據(jù)的清洗歸類和建模,提高對病歷文本的語義識別理解能力,規(guī)范病歷書寫流程,解決病歷書寫格式混亂、病歷內(nèi)容缺陷、內(nèi)涵質(zhì)量低下等問題,提高病案質(zhì)量和利用價(jià)值。同時(shí),依托專業(yè)醫(yī)學(xué)知識圖譜評估病歷反映的臨床路徑,貫穿于病歷的過程監(jiān)控和結(jié)果審核,查找缺陷內(nèi)容,標(biāo)識原因,從而實(shí)現(xiàn)對病歷內(nèi)涵缺陷的可視化追溯和分析。