楊 輝,薛 淞,顧廣勵,黃 鋒,金賽娟,紀永章
·醫(yī)院管理·
基于醫(yī)療大數(shù)據(jù)平臺的相似病歷檢索系統(tǒng)
楊 輝1,薛 淞1,顧廣勵1,黃 鋒1,金賽娟1,紀永章2
目的 基于自然語言處理技術,實現(xiàn)醫(yī)療大數(shù)據(jù)平臺上病歷庫中的相似病歷檢索。 方法 對病歷中的結(jié)構(gòu)化部分,采用平臺的索引檢索技術;對非結(jié)構(gòu)化的自然語言描述部分,基于構(gòu)建的醫(yī)學特征庫,做特征提取、相似度計算,從而檢索出相似病歷。 結(jié)果 該系統(tǒng)可以檢索出病歷庫中的相似病歷,用戶可以基于檢索結(jié)果做輔助診斷或科研分析。結(jié)論 通過對檢索結(jié)果的判斷,證明基于自然語言處理技術的相似病歷檢索系統(tǒng)是可行的,但是在提高精度方面還需后續(xù)的改善工作。
索引檢索;自然語言處理;相似病歷
隨著醫(yī)院信息化的逐漸深入,電子病歷系統(tǒng)EMR(Electronic Medical Record)已被各大醫(yī)院廣泛使用。經(jīng)過多年積累,EMR系統(tǒng)已收集到海量的信息并逐漸邁入大數(shù)據(jù)時代,這些電子病歷中大量的文本信息成為了各個醫(yī)院的寶貴財富。然而,HIS系統(tǒng)中原有相對簡單的統(tǒng)計功能已不能滿足人們?nèi)找嬖鲩L的需求[1]。如何利用EMR系統(tǒng)的海量文本信息為醫(yī)師及病患服務成為一個研究課題。本文利用自動分詞、建立醫(yī)學詞匯本體庫等自然語言處理技術及基于開源搜索引擎solr的索引檢索技術,提出一種基于語義相似度計算的方法,從而實現(xiàn)相似病歷檢索功能,為電子病歷文本信息的利用與電子病歷的質(zhì)量監(jiān)控提供了參考[2]。
電子病歷在各級醫(yī)院中逐漸普及。除病程記錄,越來越多的臨床系統(tǒng)數(shù)據(jù)如檢驗、檢查等數(shù)據(jù)被集成到電子病歷中,因此,電子病歷的數(shù)據(jù)如何存儲、檢索、二次利用等日漸成為研究熱點[3]。
國內(nèi)外均研究臨床數(shù)據(jù)格式的標準,如HL7 CDA可作為電子病歷的設計規(guī)范。國內(nèi)大的電子病歷廠商除遵守總體臨床數(shù)據(jù)標準外,也將各模塊努力做到標準化[4]。如在現(xiàn)病史輸入環(huán)節(jié),有些EMR提供癥狀詞典,并為某些疾病設置幾種模板。這些研究工作均在使電子病例的數(shù)據(jù)錄入、存儲盡量格式化、標準化。然而,至今還無國家或業(yè)內(nèi)統(tǒng)一的癥狀詞典及常用術語詞典,并且大部分疾病的描述無法按照固定模板輸入。
在電子病歷數(shù)據(jù)檢索、二次利用方面也隨之存在一些困難。如醫(yī)師在遇到疑難雜癥難以判斷或做醫(yī)學研究時,希望能自定義一些輸入條件進行檢索歷史的相似案例做參考,現(xiàn)有的系統(tǒng)很少能夠滿足上述醫(yī)生的檢索分析病歷的需求。
隨著響應國家建設區(qū)域醫(yī)療平臺的號召,很多醫(yī)院都在建設院內(nèi)的醫(yī)療數(shù)據(jù)平臺[5]。解放軍第四五四醫(yī)院已經(jīng)探索搭建了一個基于醫(yī)療數(shù)據(jù)存儲的大數(shù)據(jù)平臺,該平臺上集成了來自HIS、LIS、EMR、PACS等系統(tǒng)的各種格式的數(shù)據(jù),并實現(xiàn)了基礎的快速檢索功能。建立大數(shù)據(jù)平臺的一個重要意義,是在收集海量數(shù)據(jù)之后對數(shù)據(jù)進行分析,挖掘出在單個系統(tǒng)上無法發(fā)現(xiàn)的關聯(lián)信息[6]。為了二次利用醫(yī)療數(shù)據(jù)的價值,本文設計了一個基于上述大數(shù)據(jù)平臺上的相似病歷檢索系統(tǒng),通過文本檢索出相似病歷以后,可以進一步查看相關的檢驗數(shù)據(jù)和影像數(shù)據(jù)等信息。
1.1 設計思想 利用大數(shù)據(jù)平臺的數(shù)據(jù)收集功能,從HIS、LIS、EMR、PACS等系統(tǒng)的DB、HTML、 PDF、HL7、DICOM等形式的標準數(shù)據(jù)或文件中抽取用戶自定義的meta data(元數(shù)據(jù)),并將該元數(shù)據(jù)和對應的源數(shù)據(jù)文件以對象的形式保存在內(nèi)容存儲平臺上,本平臺采用了日立存儲[7]。該平臺還利用Solr對這些元數(shù)據(jù)及源文件建立了全文索引,可以快速檢索并顯示相關文件[8]。基于此平臺上的相似病歷檢索系統(tǒng)功能設計為對病歷中的結(jié)構(gòu)化部分,采用平臺的索引檢索技術;對非結(jié)構(gòu)化的自然語言描述部分,基于構(gòu)建的醫(yī)學特征庫,做特征提取、相似度計算,檢索出相似病歷。系統(tǒng)構(gòu)架圖,見圖1。
圖1 相似病歷檢索系統(tǒng)架構(gòu)圖
1.2 電子病歷結(jié)構(gòu)分析 該平臺上收集的電子病歷源文件為本院EMR系統(tǒng)導出的HTML文件。分析xml文件中包含的關鍵信息,見圖2,其中結(jié)構(gòu)化的部分,如患者性別、年齡、體格檢查結(jié)果等,直接利用Solr工具建立索引[9],并在檢索界面上提供相應的檢索輸入接口;非結(jié)構(gòu)化的數(shù)據(jù),如現(xiàn)病史的描述部分,Solr建立了全文索引,在檢索界面上可輸入其中包含的語句、關鍵詞進行查詢,但檢索性能一般。
圖2 電子病歷片段
1.3 基于相似度電子病歷檢索 基于圖1中的非結(jié)構(gòu)化數(shù)據(jù)中類似現(xiàn)病史的描述部分,雖然Solr建立了全文索引,可以通過檢索界面輸入一些詞句,但是用戶需要自己組織關鍵語句,并且Solr未對各分詞做特殊處理,無法區(qū)分癥狀詞語較其他詞語的重要性,因此檢索結(jié)果不易控制。而對相似病歷中的非結(jié)構(gòu)化數(shù)據(jù)檢索則作了基于語義的相似度計算。
1.3.1 基于結(jié)構(gòu)化數(shù)據(jù)的檢索 先分析待檢索病歷的一些有意義的特征,設置檢索條件。如設置的檢索條件(性別:女,年齡:60~70,體溫:39~42,科室:呼吸內(nèi)科等),可粗略篩選出一組病歷。
1.3.2 對非結(jié)構(gòu)化數(shù)據(jù)構(gòu)建特征模型 為了構(gòu)建特征模型,首先準備醫(yī)療領域的本體庫,其中描述了電子病歷的各種特征。癥狀特征可用常用癥狀詞典表示,如畏寒、發(fā)熱、頭疼、咽痛、惡心、嘔吐、鼻塞、流涕、尿痛等。對篩選出的每個病歷中的非結(jié)構(gòu)化部分,如現(xiàn)病史描述,通過癥狀詞典可以構(gòu)建出一個特征向量[10]。具體設計如下:出現(xiàn)癥狀詞語用1表示;未出現(xiàn)用0表示;出現(xiàn)但是用“無”修飾時,用-1表示。按規(guī)則處理“無”、“否認”、“不伴有”等屬于相似詞語。由于癥狀詞典詞語很多,初步構(gòu)建出的向量維度較大,從運算速度和語義意義上需要做降維處理。本系統(tǒng)采用奇異值分解,將每個向量降到十幾、幾十維。至此,對所有篩選出的病歷,構(gòu)建了一個特征向量的矩陣模型。
1.3.3 原始病歷與矩陣模型做相似度計算 將原始病歷中的非結(jié)構(gòu)化部分,如現(xiàn)病史描述執(zhí)行與“1.3.2”中相同的處理流程,得到一個特征向量。通過比較該特征向量與上述特征矩陣中的每個向量的距離,得出該病歷與上述病歷組中的每個病歷的初始相似度。如本體庫中還提供各癥狀的權(quán)重,即反映疾病的重要程度或頻率,可利用該知識對初始相似度做進一步修正,得出最終的相似度。癥狀權(quán)重也可利用基于詞頻的統(tǒng)計進行試驗,然后經(jīng)過專家確認得出。計算出相似度以后,在輸出界面上按照相似度大小順序顯示。除直接顯示出相似的文本信息外,還提供原始病歷的鏈接以及相關影像等文件的鏈接。用戶可根據(jù)自身需求,進行更深入的查看分析。
本系統(tǒng)采用某科室的一批電子病歷做初步試驗。由于相似度的計算結(jié)果判定無業(yè)界標準,且無業(yè)界統(tǒng)一試驗數(shù)據(jù)庫,因此,只能人為地判斷計算結(jié)果的優(yōu)劣。當輸入的病歷也存在病歷庫中時,兩者相似度是100%;相似度在80%~100%之間的病歷,通常是有參考意義的;病歷庫越大,檢索出相似度高的病歷的概率越大。檢索結(jié)果也反映出了很多待處理的問題:一是由于癥狀的描述不規(guī)范,需要收集癥狀的近似詞典,如“乏力”、“無力”等。二是由于癥狀詞典不夠豐富,某些科室或疾病的常用語沒有被作為重要特征,待常用語詞典被添加后,相似度結(jié)果會更精確。三是癥狀修飾的部位,如“雙下肢”、“左下肢”還未建立關系。在本體庫中增加這樣的關系后,檢索結(jié)果也會更精確。病歷描述語言的處理涉及復雜的自然語言處理技術,如果考慮更多的特征點,需要長期的對系統(tǒng)進行優(yōu)化與提高。本系統(tǒng)基于自然語言處理和本體的相關技術,對相似病歷檢索做了一個初探。
本文闡述了一個基于醫(yī)療大數(shù)據(jù)平臺的相似病歷檢索系統(tǒng),對平臺上存儲文件中的非結(jié)構(gòu)化數(shù)據(jù)、即自然語言描述部分,做了特征抽取和相似度計算,并將檢索結(jié)果顯示給用戶。
檢索出相似病歷以后,用戶可進一步查看相關的檢驗、影像數(shù)據(jù)信息。利用該系統(tǒng),用戶可以參考相似病歷做輔助診斷,也可根據(jù)自己的科研需求分析某一類特殊病歷并從中挖掘新的知識。
[1] 宋 斌,陳海東,雷 勇,等.數(shù)據(jù)倉庫在數(shù)字化醫(yī)院的應用[J].東南國防醫(yī)藥,2010,12(6):519-522.
[2] 趙伯誠,周 斌,呂耀欣,等.我院監(jiān)控電子病歷質(zhì)量的實效與經(jīng)驗[J].東南國防醫(yī)藥,2010,12(3):276-277.
[3] 張志常,婁 巖.2013-2015基于電子病歷的SCI論文主題詞聚類分析[J].中國數(shù)字醫(yī)學,2016,11(3):26-27.
[4] 孟 巖,李姍姍,宋海慶,等.電子病歷深度應用及體會[J].中國數(shù)字醫(yī)學,2016,11(7): 111-113.
[5] 安志萍,高志軍,張云宏,等.遠程病案信息查詢系統(tǒng)的構(gòu)建與應用[J].醫(yī)學研究生學報,2016,29(12):1325-1327.
[6] 鄒北驥.大數(shù)據(jù)分析及其在醫(yī)療領域中的應用[J].計算機教育,2014,7:24-29.
[7] 薛以鋒,顧廣隸,趙伯誠,等.基于元數(shù)據(jù)文件存儲的醫(yī)療大數(shù)據(jù)平臺研究與實現(xiàn)[J].中國數(shù)字醫(yī)學,2015,10(10):73-75.
[8] 周 斌,楊 輝,薛 淞,等.Solr在醫(yī)療大數(shù)據(jù)檢索中的應用[J].中國數(shù)字醫(yī)學,2016,11(9):21-23.
[9] 霍 慶,劉培植.使用Solr為大數(shù)據(jù)庫搭建檢索引擎[J].軟件,2011,32(6):11-14.
[10] 王 歡.基于領域本體和Lucene的語義檢索系統(tǒng)研究[J].計算機應用,2010,30(6):1656-1660.
(本文編輯:劉玉巧)
210001南京,解放軍第454醫(yī)院,1.信息科,2. 醫(yī)務處
紀永章,E-mail:Jyz454@sohu.com
楊 輝,薛 淞,顧廣勵,等.基于醫(yī)療大數(shù)據(jù)平臺的相似病歷檢索系統(tǒng)[J].東南國防醫(yī)藥,2017,19(2):210-212.
R197
A
1672-271X(2017)02-0210-03
10.3969/j.issn.1672-271X.2017.02.027
2016-07-20;
2016-12-29)