蔣秀林,朱文婕,謝靜,陳玉娥
(蚌埠醫(yī)學(xué)院公共課程部,安徽蚌埠233000)
基于領(lǐng)域本體的臨床語義關(guān)聯(lián)知識(shí)抽取技術(shù)研究
蔣秀林,朱文婕,謝靜,陳玉娥
(蚌埠醫(yī)學(xué)院公共課程部,安徽蚌埠233000)
抽取臨床電子病歷系統(tǒng)有價(jià)值的檢驗(yàn)檢查信息,可以為臨床工作人員和科研人員對(duì)某些疾病的診斷和分析研究提供數(shù)據(jù)支持。采用領(lǐng)域本體構(gòu)建技術(shù)、知識(shí)抽取技術(shù)和基于領(lǐng)域本體的語義推理技術(shù)實(shí)現(xiàn)臨床電子病歷系統(tǒng)中文本信息的關(guān)聯(lián)關(guān)系抽取和分析,并給出了語義知識(shí)抽取技術(shù)在電子病歷系統(tǒng)中的處理流程。在大數(shù)據(jù)時(shí)代背景下,該技術(shù)有利于臨床語義知識(shí)的發(fā)現(xiàn)和關(guān)聯(lián),有利于輔助完成臨床信息挖掘,為臨床決策提供可靠的技術(shù)支持。
臨床信息;領(lǐng)域本體;語義技術(shù);知識(shí)抽?。徽Z義關(guān)聯(lián)
隨著信息技術(shù)在醫(yī)學(xué)領(lǐng)域的快速發(fā)展和應(yīng)用,電子病歷已能基本實(shí)現(xiàn)病歷內(nèi)容的電子化錄入、傳輸和存儲(chǔ),但由于病歷內(nèi)容的自然語言特點(diǎn),病歷數(shù)據(jù)的利用卻發(fā)展相對(duì)滯后。如何在不影響電子病歷錄入的情況下,實(shí)現(xiàn)快而準(zhǔn)地檢索用戶感興趣的內(nèi)容,是臨床領(lǐng)域迫切需要解決的問題。
基于文本信息的數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)是當(dāng)前信息處理的一大熱點(diǎn)。病歷中蘊(yùn)含的潛在信息非常豐富[1],它們之間既存在語義性又存在關(guān)聯(lián)性。病歷的無結(jié)構(gòu)化特點(diǎn),使計(jì)算機(jī)對(duì)其處理、分析、理解受到限制。如何從病歷信息中快速找到信息之間的直接和潛在關(guān)聯(lián),為臨床決策、臨床科研、流行病學(xué)研究等提供數(shù)據(jù)支持,是文本信息分析員的重要工作內(nèi)容。
Agrawal等人提出了關(guān)聯(lián)規(guī)則挖掘技術(shù),主要是在海量的、有結(jié)構(gòu)的數(shù)據(jù)庫中進(jìn)行數(shù)據(jù)挖掘和關(guān)聯(lián)分析[2]。最著名的關(guān)聯(lián)規(guī)則Apriori算法[3]是通過多次迭代找出所有的頻繁項(xiàng)目集。文本挖掘中的關(guān)聯(lián)分析技術(shù)是利用各項(xiàng)智能分析技術(shù)對(duì)非結(jié)構(gòu)化文本進(jìn)行抽取、存儲(chǔ)和分析后獲得有價(jià)值知識(shí)的技術(shù)。例如信息A1和A2相關(guān)、A2和A3相關(guān)、A3和A4相關(guān),希望檢索得到A1和A4的路徑關(guān)聯(lián)關(guān)系。
當(dāng)前,國內(nèi)對(duì)文本挖掘的研究主要集中在分類、聚類和機(jī)器學(xué)習(xí)等傳統(tǒng)技術(shù)上,本文將引入語義技術(shù),將病歷信息抽取的結(jié)果采用領(lǐng)域本體表示,并通過知識(shí)檢索技術(shù)和推理技術(shù)實(shí)現(xiàn)病歷信息挖掘。
以住院病歷信息的關(guān)聯(lián)關(guān)系分析為研究對(duì)象,結(jié)合模擬文本信息處理和分析技術(shù),主要研究病歷信息中的實(shí)體語義關(guān)聯(lián)關(guān)系,挖掘潛在的、實(shí)體間的關(guān)聯(lián)關(guān)系。首先,采用基于領(lǐng)域本體的信息抽取技術(shù)對(duì)病歷信息進(jìn)行實(shí)體提取,用領(lǐng)域本體表示,并獲取實(shí)體間的語義關(guān)系;其次,將抽取的知識(shí)和語義關(guān)聯(lián)關(guān)系存儲(chǔ)到知識(shí)庫中;最后,在知識(shí)庫中進(jìn)行知識(shí)檢索和推理,完成語義關(guān)聯(lián)關(guān)系分析。
2.1 關(guān)聯(lián)知識(shí)抽取
基于領(lǐng)域本體的病歷文本信息抽取,目標(biāo)是命名實(shí)體和命名實(shí)體間關(guān)聯(lián)關(guān)系。關(guān)聯(lián)關(guān)系抽取首先要確定抽取信息的范疇,即確定哪些信息是有價(jià)值的。經(jīng)分析研究發(fā)現(xiàn),在病歷文本信息中命名實(shí)體之間的關(guān)聯(lián)關(guān)系通常是和命名實(shí)體的診斷情況進(jìn)行直接關(guān)聯(lián)的[4]。例如:某患者的電子病歷中描述顯示“頭CT檢查顯示腔隙性腦梗死”,這里“頭CT”是檢查手段,“腔隙性腦梗死”是疾病,二者之間的關(guān)系是“頭CT” 證實(shí)了“腔隙性腦梗死”的發(fā)生。在電子病歷信息中,像“頭CT”和“腔隙性腦梗死”稱為命名實(shí)體(概念),實(shí)體間的關(guān)系稱為診斷事件。具體定義如下:
定義1 命名實(shí)體(概念):={患者、醫(yī)生、機(jī)構(gòu)、疾病、癥狀、檢查、治療、藥物}
診斷事件:= {時(shí)間<入院時(shí)間、檢查時(shí)間、出院時(shí)間>,地點(diǎn)<住院檢查和診斷的地點(diǎn)>,患者<姓名、性別、年齡>,醫(yī)生<姓名、性別、級(jí)別>,病情內(nèi)容<文字描述>}
“命名實(shí)體(概念)—診斷事件”是病歷實(shí)體關(guān)聯(lián)的重要信息,根據(jù)定義1,給出關(guān)聯(lián)關(guān)系和具體實(shí)例,如圖1所示。
圖1 概念—事件關(guān)系圖和示例圖
從圖1概念—事件關(guān)系圖和示例圖可以發(fā)現(xiàn),病歷信息的關(guān)聯(lián)關(guān)系不僅包括“概念—事件”“事件—時(shí)間”“事件—地點(diǎn)”“事件—患者”“事件—醫(yī)生”“事件—病情”直接關(guān)系,還包括“概念—時(shí)間”“概念—地點(diǎn)”“概念—病情”的間接關(guān)系。
病歷關(guān)聯(lián)知識(shí)抽取包括命名實(shí)體抽取和概念間語義關(guān)系抽取。首先,對(duì)病歷文本信息進(jìn)行命名實(shí)體識(shí)別,鑒于病歷信息的特點(diǎn),采取基于規(guī)則和機(jī)器學(xué)習(xí)相結(jié)合的方法識(shí)別命名實(shí)體;然后,根據(jù)實(shí)體選取的位置和上下文關(guān)系選取診斷候選事件,為保證診斷事件的完整性,進(jìn)行語法和詞法分析,當(dāng)候選事件滿足定義1中的要素時(shí),按照領(lǐng)域本體模型進(jìn)行關(guān)聯(lián)關(guān)系提?。蛔詈?,存儲(chǔ)到知識(shí)庫中。文中采用如圖2所示的處理流程提取病歷信息中的關(guān)聯(lián)關(guān)系,并存儲(chǔ)到領(lǐng)域本體庫中。
圖2 病歷信息關(guān)聯(lián)關(guān)系抽取流程圖
2.2 基于本體的關(guān)聯(lián)關(guān)系建模
基于本體的關(guān)系模型構(gòu)建是知識(shí)抽取、關(guān)系存儲(chǔ)、知識(shí)檢索和推理的重要依據(jù)及基礎(chǔ)。領(lǐng)域本體(domain ontology)是專業(yè)性的本體,描述的是特定領(lǐng)域中概念和概念之間的關(guān)系,提供了某個(gè)專業(yè)學(xué)科領(lǐng)域中概念的詞表及概念間的關(guān)系,并研究如何定義特定領(lǐng)域中的概念、概念之間的關(guān)系、發(fā)生活動(dòng)以及該領(lǐng)域的主要理論和基本原理[5]。
文中采用本體層次樹結(jié)構(gòu)描述臨床本體的概念體系,在層次樹中結(jié)點(diǎn)表示臨床本體中的概念,邊表示醫(yī)學(xué)本體中概念與概念之間的關(guān)系。采用Protégé工具編輯臨床本體,用OWL語言描述。
結(jié)合定義1,給出病歷信息中的概念(命名實(shí)體)和關(guān)系,如定義2。
定義2 臨床概念(Clinical Concept):={患者、醫(yī)生、機(jī)構(gòu)、疾病、癥狀、時(shí)間、檢查、治療、藥物}
關(guān)聯(lián)關(guān)系(Association Relation):={概念—事件、事件—時(shí)間、事件—地點(diǎn)、事件—患者、事件—醫(yī)生、事件—病情、概念—時(shí)間、概念—地點(diǎn)、概念—病情}
下面采用Protégé本體建模工具,對(duì)Clinical Concept和Association Relation進(jìn)行建模。按照領(lǐng)域本體構(gòu)建的標(biāo)準(zhǔn)和規(guī)范,定義了類和類之間的關(guān)系。圖3給出了臨床概念和診斷事件兩類,并在臨床概念類下又細(xì)分了患者、醫(yī)生、機(jī)構(gòu)、癥狀等子類。
圖3 臨床本體概念模型圖
在概念模型的基礎(chǔ)上,同樣按照領(lǐng)域本體構(gòu)建的標(biāo)準(zhǔn)和規(guī)范,定義每個(gè)類之間的關(guān)系以及關(guān)系的數(shù)據(jù)模型和邏輯描述,如表1所示。
表1 臨床概念數(shù)據(jù)模型
2.3 基于語義的關(guān)聯(lián)知識(shí)挖掘和發(fā)現(xiàn)
2.3.1 關(guān)聯(lián)規(guī)則
臨床關(guān)聯(lián)關(guān)系分析的目的是為知識(shí)檢索服務(wù),同時(shí)還要解決臨床知識(shí)的路徑關(guān)聯(lián)分析和挖掘潛在的關(guān)聯(lián)關(guān)系。路徑關(guān)聯(lián)分析是基于語義檢索的知識(shí)查詢,潛在的關(guān)聯(lián)關(guān)系發(fā)現(xiàn)的是基于語義推理的知識(shí)發(fā)現(xiàn)。下面給出兩條關(guān)聯(lián)規(guī)則。
定義3 如果兩個(gè)概念a1和a2與同一個(gè)診斷事件相關(guān),且相關(guān)度都大于一個(gè)閾值,則這兩個(gè)概念具有潛在關(guān)聯(lián)。
定義4 對(duì)于兩個(gè)概念a1和a2,在與之直接關(guān)聯(lián)的概念對(duì)象集合中,如果分別檢索到兩個(gè)以上相同概念,則認(rèn)為概念a1和a2具有潛在關(guān)聯(lián)。
圖4給出了具體病歷案例的描述和關(guān)聯(lián)關(guān)系的Ntriple表示。
圖4 病歷關(guān)聯(lián)關(guān)系Ntriple描述實(shí)例
2.3.2 關(guān)聯(lián)分析
本文知識(shí)關(guān)聯(lián)規(guī)則的任務(wù)面臨兩個(gè)問題:第一,從大規(guī)模的數(shù)據(jù)集中發(fā)現(xiàn)特定的模式可能會(huì)消耗大量的資源和時(shí)間;第二,發(fā)現(xiàn)的這些關(guān)系也許只是偶然出現(xiàn),其實(shí)并不存在真正的關(guān)聯(lián)。下面利用關(guān)聯(lián)分析來挖掘可能存在的關(guān)聯(lián)概念。
假設(shè)A={a1,a2,…,an}是某患者的電子病歷中診斷概念的集合,B={b1,b2,…,bn}是整個(gè)醫(yī)院的電子病歷中診斷概念的集合。B中bi可能包含A中的子集。推理規(guī)則是具有R→S(R與S存在潛在關(guān)聯(lián))形式的隱含表達(dá)式,R與S不相交。而數(shù)學(xué)上對(duì)于一個(gè)規(guī)則R是否能得到肯定或者是否有意義,往往用支持記數(shù)σ(R)表示,定義如下:
且規(guī)則R→S的概率如式(1),大于1個(gè)閾值m:
(1)
式中,n為醫(yī)院電子病例的總數(shù)。
式(1)也是數(shù)據(jù)挖掘關(guān)聯(lián)分析中支持度的定義。
基于語義的關(guān)聯(lián)知識(shí)挖掘和發(fā)現(xiàn)問題就轉(zhuǎn)化為給定一個(gè)診斷事務(wù)ST,尋找所有可以滿足σ(R)≥minsup(minsup是支持計(jì)數(shù))和P(R→S)≥minconf(minconf是支持度的閾值)的所有規(guī)則。下面通過關(guān)聯(lián)規(guī)則挖掘算法[6]尋找存在潛在關(guān)聯(lián)關(guān)系的診斷概念,為臨床診斷和研究提供技術(shù)支持。
1)頻繁項(xiàng)集生成:尋找大于minsup支持計(jì)數(shù)閾值的所有項(xiàng)集。
2)規(guī)則生成:從1)中抽取所有高支持度的規(guī)則。
圖5給出了Apriori算法中的頻繁項(xiàng)目集生成算法,其中Ck表示備選的k-項(xiàng)集,F(xiàn)k表示頻繁出現(xiàn)的k-項(xiàng)集。
2.3.3 語義檢索
傳統(tǒng)的基于關(guān)鍵詞的檢索只能返回那些病歷中出現(xiàn)了該概念的結(jié)果,查詢結(jié)果集非常大,需要在人工的幫助下根據(jù)上下文再次篩選。而語義檢索是從目標(biāo)概念出發(fā),在網(wǎng)狀結(jié)構(gòu)的知識(shí)集中將與目標(biāo)概念相關(guān)聯(lián)的診斷事件聚類融合后返回給用戶。關(guān)鍵詞檢索是基于文本的檢索,語義檢索是基于上下文和知識(shí)關(guān)聯(lián)的檢索,后者返回集更加精確。
圖5 Apriori算法中的頻繁項(xiàng)目集生成算法
選擇神經(jīng)內(nèi)科、內(nèi)分泌科、感染科和心血管科各30份電子病歷作為試驗(yàn)樣本,通過字符處理后,得到上述各科醫(yī)學(xué)概念23 192個(gè)、7 002個(gè),40 004個(gè)和48 774個(gè)。表2給出了采用本文技術(shù)進(jìn)行信息抽取的查全率和查準(zhǔn)率。表3給出了本文技術(shù)與基于規(guī)則的信息抽取技術(shù)和基于相似度匹配技術(shù)的平均查全率和查準(zhǔn)率的實(shí)驗(yàn)結(jié)果對(duì)比。
表2 本文信息抽取技術(shù)的查全率和查準(zhǔn)率
表3 實(shí)驗(yàn)結(jié)果對(duì)比
基于語義關(guān)聯(lián)知識(shí)抽取技術(shù)的臨床病歷系統(tǒng)通過知識(shí)抽取、領(lǐng)域本體表示,實(shí)現(xiàn)基于語義的知識(shí)檢索,并在檢索結(jié)果上通過語義推理(路徑關(guān)聯(lián)分析和潛在的關(guān)聯(lián)關(guān)系發(fā)現(xiàn))完成知識(shí)發(fā)現(xiàn)。具體處理流程如下:
1)通過領(lǐng)域本體模型中的概念,采取基于規(guī)則和機(jī)器學(xué)習(xí)相結(jié)合的方法識(shí)別和確定病歷文本信息中的命名實(shí)體對(duì)象,并判定和確定這些命名實(shí)體對(duì)象的類型;
2)通過命名實(shí)體選取的位置和上下文關(guān)系選取診斷候選事件集;
3)通過語法和詞法分析技術(shù)對(duì)診斷候選事件集進(jìn)行分析,抽取符合要求的事件集,結(jié)合基于本體的關(guān)聯(lián)關(guān)系模型抽取臨床概念與概念間的關(guān)聯(lián)關(guān)系,并存儲(chǔ)到知識(shí)庫中;
4)在知識(shí)庫和實(shí)例庫中完成知識(shí)檢索;
5)通過規(guī)則庫,在知識(shí)庫上實(shí)現(xiàn)語義推理,并給出關(guān)聯(lián)關(guān)系分析結(jié)果。
圖6所示的臨床病歷系統(tǒng)處理流程技術(shù)不僅為工作人員提供快速的關(guān)聯(lián)關(guān)系檢索,還為臨床研究人員、臨床決策等提供技術(shù)支持。
圖6 語義知識(shí)抽取技術(shù)在電子病歷系統(tǒng)中的處理流程
本文在大數(shù)據(jù)時(shí)代背景下,針對(duì)日益增大的臨床電子病歷信息,采用領(lǐng)域本體構(gòu)建技術(shù)、知識(shí)抽取技術(shù)和基于領(lǐng)域本體的語義推理技術(shù)實(shí)現(xiàn)臨床電子病歷系統(tǒng)中文本信息的關(guān)聯(lián)關(guān)系抽取和分析,給出了語義知識(shí)抽取技術(shù)在電子病歷系統(tǒng)中的處理流程。該技術(shù)有利于臨床語義知識(shí)的發(fā)現(xiàn)和關(guān)聯(lián),有利于輔助完成臨床信息挖掘,為臨床決策提供可靠的技術(shù)支持。在進(jìn)行關(guān)聯(lián)關(guān)系抽取和挖掘的同時(shí),如何完整保留信息的完整語義,如何提取有價(jià)值的關(guān)聯(lián)信息,是下一步研究的目標(biāo)。
[1]WASSERMAN R C.Electronic medical records (EMRs),epidemiology,and epistemology:reflections on EMRs and future pediatric clinical research[J].Academic Pediatrics,2011,11(4):280-287.
[2]GAO J.Resolution and accuracy of terrain representation by grid GEMs at a micro scale[J].International Journal of Geographical Information Science,1997,11(2):199-212.
[3]WU Qiang,LIU Zongtian,QIANG Yu.Ontology based knowledge reasoning research[J].Application Research of Computers,2005,21(1):55-57.
[4]UZUNER O,MAILOA J,RYAN R,et al.Semantic relations for problem-oriented medical records[J].Artifical Intelligence in Medicine,2010,50(2):63-73.
[5]蔣秀林,謝強(qiáng),丁秋林.基于領(lǐng)域本體的用戶模型的研究[J].計(jì)算機(jī)應(yīng)用研究,2012,29(2):606-608.
[6]TAN P N,STEINBACH M,KUMAR V.Introduction to data mining[M].Boston:Pearson Addison Wesley,2007.
責(zé)任編輯:周澤民
Clinical Semantic Extraction Technology Based on Domain Ontology
JIANG Xiulin,ZHU Wenjie,XIE Jing,CHEN Yu′e
(Department of Public Curriculum,Bengbu Medical College,Bengbu 233000)
Extracting valuable inspection information from clinical electronic medical records system can provide data support for clinical staff and researchers to diagnose and analyze certain diseases.Domain ontology construction technology,knowledge extraction techniques and semantic domain ontology reasoning technology are utilized to realize association extraction and analysis of clinical electronic medical records,and the actual process of using semantic knowledge extraction technology in the electronic medical record system is displayed.In the big data context,the technology is conducive to discovering and associating clinical semantic knowledge,mining clinical information and providing reliable technical support for clinical specialists′ decision-making.
clinical information;domain ontology;semantic technology;knowledge extraction;semantic association
10.3969/j.issn.1671-0436.2016.05.010
2016- 08-21
安徽省教育廳高等學(xué)校省級(jí)質(zhì)量工程項(xiàng)目(2014jyxm);蚌埠醫(yī)學(xué)院科研項(xiàng)目(Byky1306);蚌埠醫(yī)學(xué)院科研項(xiàng)目(Byky1305);蚌埠醫(yī)學(xué)院自然科學(xué)基金重點(diǎn)項(xiàng)目(BYKY1627ZD)
蔣秀林(1987— ),女,碩士,助教。
TP391
A
1671- 0436(2016)05- 0044- 06