羊艷玲 李 燕 帥亞琦 陳月月
(甘肅中醫(yī)藥大學(xué)信息工程學(xué)院 蘭州 730000)
經(jīng)過(guò)幾千年的發(fā)展中醫(yī)學(xué)積累了豐富的臨床經(jīng)驗(yàn),形成眾多經(jīng)典理論。如何運(yùn)用信息科學(xué)技術(shù)挖掘、整理與分析中醫(yī)學(xué)知識(shí)體系以及隱含在醫(yī)案文獻(xiàn)中的學(xué)術(shù)思想、臨床經(jīng)驗(yàn)和辨證方法是值得探討的重要課題。隨著信息技術(shù)不斷發(fā)展,可視化技術(shù)越來(lái)越成熟,在知識(shí)工程領(lǐng)域引進(jìn)知識(shí)圖譜概念,使用知識(shí)圖譜的主要目的是描述現(xiàn)實(shí)世界的概念、實(shí)體及其之間的相互關(guān)系,從而實(shí)現(xiàn)對(duì)知識(shí)的共建、共享以及重用[1]。在現(xiàn)代中醫(yī)藥領(lǐng)域,知識(shí)圖譜能夠?yàn)橹嗅t(yī)臨床診治提供方向,其應(yīng)用領(lǐng)域越來(lái)越廣。于彤、劉靜和賈李蓉等[2]以中醫(yī)藥學(xué)語(yǔ)言為骨架構(gòu)建大型中醫(yī)藥知識(shí)圖譜;張德政、謝永紅和李曼等[1]提出基于本體的中醫(yī)核心知識(shí)圖譜及其構(gòu)建方法;聶莉莉、李傳富和許曉倩等[3]基于自然語(yǔ)言處理方法自動(dòng)構(gòu)建基于“疾病-癥候-特征”3層結(jié)構(gòu)模型的醫(yī)學(xué)診斷知識(shí)圖譜。本文擬在已有研究基礎(chǔ)上進(jìn)一步利用知識(shí)語(yǔ)義化、數(shù)據(jù)易關(guān)聯(lián)的特性將中醫(yī)醫(yī)案中蘊(yùn)藏的知識(shí)結(jié)構(gòu)或相互關(guān)系予以可視化展示,主要圍繞中醫(yī)診療路徑展開(kāi),完整的診療路徑以癥狀為出發(fā)點(diǎn),依次為證候、治法、處方、藥物,具有邏輯鮮明的層次關(guān)系特征,以期為名老中醫(yī)傳承經(jīng)驗(yàn)提供參考。
知識(shí)圖譜是大數(shù)據(jù)時(shí)代背景下針對(duì)海量知識(shí)的一種新型管理與服務(wù)模式,被視為一張巨大的圖,其中節(jié)點(diǎn)表示實(shí)體,邊代表實(shí)體間的語(yǔ)義關(guān)系。知識(shí)圖譜通過(guò)對(duì)結(jié)構(gòu)分散的知識(shí)進(jìn)行重新組織、匯聚整理,提高知識(shí)資源關(guān)聯(lián)與整合程度,為解決“知識(shí)孤島”問(wèn)題提供理想的技術(shù)手段[4]。目前知識(shí)圖譜構(gòu)建過(guò)程主要包括數(shù)據(jù)獲取、知識(shí)抽取、知識(shí)融合和知識(shí)加工4個(gè)步驟[5]。其中數(shù)據(jù)獲取是基礎(chǔ),數(shù)據(jù)源包括結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù),知識(shí)圖譜應(yīng)用于醫(yī)療領(lǐng)域時(shí),主要的數(shù)據(jù)來(lái)源為醫(yī)學(xué)專(zhuān)業(yè)論文、書(shū)籍文獻(xiàn)、醫(yī)案和電子病歷等。知識(shí)抽取的基本原理是將已有非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中的知識(shí)用不同種格式或表示方法提煉出來(lái),清晰展示數(shù)據(jù)中包括的主要內(nèi)容,再將其處理為相同形式數(shù)據(jù)的過(guò)程,主要包括實(shí)體抽取、關(guān)系抽取和屬性抽取3個(gè)部分。在獲取實(shí)體、關(guān)系及屬性信息后,要對(duì)其進(jìn)行清理和整合,即知識(shí)融合,包括共指解析和實(shí)體消歧,保證知識(shí)的正確性和邏輯性。最后通過(guò)知識(shí)加工,包括本體抽取、知識(shí)推理、知識(shí)發(fā)現(xiàn)和質(zhì)量評(píng)估,最終得到結(jié)構(gòu)化、網(wǎng)絡(luò)化的知識(shí)體系形成的知識(shí)圖譜,見(jiàn)圖1。
圖1 知識(shí)圖譜構(gòu)建過(guò)程
本文研究數(shù)據(jù)主要來(lái)源于中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所研制的古今醫(yī)案云平臺(tái)軟件[6],整理平臺(tái)上所有與高血壓疾病相關(guān)的中醫(yī)醫(yī)案。納入標(biāo)準(zhǔn)如下:醫(yī)案中明確記載診斷為高血壓或眩暈的患者;就診時(shí)的主訴辨治以高血壓為主;數(shù)據(jù)完整,包含臨床表現(xiàn)、病機(jī)分析、治法和用藥等內(nèi)容。依照權(quán)威診斷標(biāo)準(zhǔn)和名師指導(dǎo)意見(jiàn)對(duì)平臺(tái)中高血壓疾病相關(guān)醫(yī)案進(jìn)行手動(dòng)檢索與篩選,并對(duì)其內(nèi)容進(jìn)行規(guī)范,按照序號(hào)、ID、患者姓名、性別、年齡、醫(yī)案內(nèi)容、中醫(yī)疾病、證候和醫(yī)案來(lái)源等類(lèi)別錄入到Excel中。研究過(guò)程中對(duì)中醫(yī)醫(yī)案中用作訓(xùn)練的數(shù)據(jù)集進(jìn)行整合,用單字切分原始文本,對(duì)訓(xùn)練集中的所有語(yǔ)句按照疾病、癥狀、證候、治法、處方進(jìn)行分類(lèi),最后共錄入435條醫(yī)案數(shù)據(jù)。
中醫(yī)醫(yī)案是醫(yī)者在診療過(guò)程中自然語(yǔ)言的描述,其表述缺乏規(guī)范性和標(biāo)準(zhǔn)性。目前中醫(yī)醫(yī)學(xué)詞典和知識(shí)庫(kù)較少,增加了學(xué)者研究醫(yī)學(xué)知識(shí)圖譜的成本和難度。此外由于中醫(yī)醫(yī)案尚未統(tǒng)一,具有多樣化特點(diǎn),對(duì)于醫(yī)案術(shù)語(yǔ)、計(jì)量單位等未做明確要求,同一個(gè)實(shí)體有多種表達(dá)形式,難以適應(yīng)信息時(shí)代要求,也為醫(yī)學(xué)實(shí)體消歧帶來(lái)困難。針對(duì)上述問(wèn)題進(jìn)行以下處理:首先將已整理的醫(yī)案導(dǎo)入古今醫(yī)案云平臺(tái)進(jìn)行標(biāo)準(zhǔn)化,黑色字體代表與標(biāo)準(zhǔn)表完全匹配,已被標(biāo)準(zhǔn)化;原始值紅色,標(biāo)準(zhǔn)值黑色代表模糊匹配標(biāo)準(zhǔn)值,提示可查看是否匹配正確;皆為紅色表示匹配不到標(biāo)準(zhǔn)值,可進(jìn)行選擇操作。如“心虛肝郁、痰火擾心=肝郁證,痰火證”“化瘀滌痰=化瘀”等,依據(jù)標(biāo)準(zhǔn)替換不規(guī)范的術(shù)語(yǔ),把握?qǐng)D譜節(jié)點(diǎn)內(nèi)容的一致性。
序列標(biāo)注即對(duì)給定序列中的元素進(jìn)行標(biāo)注,賦予對(duì)應(yīng)標(biāo)簽,并在這些標(biāo)簽基礎(chǔ)上對(duì)序列做進(jìn)一步深度分析,是自然語(yǔ)言處理過(guò)程中常需解決的問(wèn)題。對(duì)于實(shí)體識(shí)別的等量標(biāo)注任務(wù),標(biāo)簽由兩部分組成:實(shí)體類(lèi)別和實(shí)體中的位置。采用BIO表示實(shí)體類(lèi)別和位置,將每個(gè)元素標(biāo)注為“B-X”“I-X”或者“O”,再以字符作為最小標(biāo)注單元。在BIO表示中,B代表實(shí)體頭部,I表示中間實(shí)體,O代表實(shí)體尾部,X表示實(shí)體類(lèi)型。在標(biāo)注過(guò)程中,對(duì)中醫(yī)實(shí)體以“標(biāo)簽,實(shí)體”形式將其歸屬到對(duì)應(yīng)的中醫(yī)類(lèi)別,見(jiàn)表1。
表1 BIO標(biāo)簽集
知識(shí)圖譜本質(zhì)是定義實(shí)體和實(shí)體之間聯(lián)系知識(shí)的關(guān)系。實(shí)體作為圖譜知識(shí)節(jié)點(diǎn)的一種表現(xiàn)方法,主要目的是用來(lái)表達(dá)知識(shí)結(jié)構(gòu)與概念之間的關(guān)系。知識(shí)圖譜集中每個(gè)實(shí)體都包含其名稱(chēng)、定義和注釋。通常將實(shí)體關(guān)系定義為<實(shí)體、關(guān)系、實(shí)體>,其中實(shí)體是疾病、癥狀、證候、治法、處方和藥物,并且關(guān)系可用于連接兩個(gè)實(shí)體[7]。最終共確定632個(gè)實(shí)體、495種關(guān)系,其之間的關(guān)聯(lián),見(jiàn)圖2。
圖2 中醫(yī)實(shí)體關(guān)系層
知識(shí)圖譜是一種可以使用屬性圖模型來(lái)表示的圖數(shù)據(jù)結(jié)構(gòu),屬性圖模型主要是由節(jié)點(diǎn)和連邊組成,節(jié)點(diǎn)在知識(shí)圖譜概念中表示現(xiàn)實(shí)世界中的實(shí)體,連邊用來(lái)表示實(shí)體與實(shí)體之間的關(guān)系,而且節(jié)點(diǎn)和連邊可以包含多個(gè)屬性,即通過(guò)節(jié)點(diǎn)集合和邊集合構(gòu)造關(guān)系圖。其中節(jié)點(diǎn)表示數(shù)據(jù)集中識(shí)別出的命名實(shí)體,其具有唯一的標(biāo)識(shí)符和若干條屬性值;邊表示數(shù)據(jù)集中抽取的命名實(shí)體之間的關(guān)系,其具有唯一標(biāo)識(shí)符和若干條屬性值[8]。在簡(jiǎn)單的屬性圖模型中,“眩暈”包含“肝腎虧虛,血絡(luò)瘀阻”,繼而表現(xiàn)“頭暈?zāi)垦!?。?jié)點(diǎn)表示數(shù)據(jù)集中識(shí)別的實(shí)體,“眩暈”為疾病實(shí)體,具有別名、并發(fā)癥、證候等屬性值;“肝腎虧虛,血絡(luò)瘀阻”為證候?qū)嶓w,具有癥狀、類(lèi)型等屬性值;“頭暈?zāi)垦!睘榘Y狀實(shí)體,具有類(lèi)型、表現(xiàn)部位等屬性值。邊集合中關(guān)系表示為D Include S Represent S′,其中D表示疾病(Disease),S表示證候(Syndrome),S′表示癥狀(Symptom),見(jiàn)圖3。
圖3 疾病、癥狀、證候?qū)傩詧D模型
知識(shí)圖譜的最大優(yōu)點(diǎn)是可以利用空間形象的表現(xiàn)來(lái)展示知識(shí)點(diǎn)間的聯(lián)系。在可視化展示方面,以圖結(jié)構(gòu)存儲(chǔ)知識(shí)并通過(guò)Neo4j實(shí)現(xiàn)可視化階段,在眾多數(shù)據(jù)庫(kù)系統(tǒng)中Neo4j具有高性能、設(shè)計(jì)靈活、開(kāi)發(fā)便捷等優(yōu)勢(shì),用戶(hù)可以使用Cypher語(yǔ)言操作數(shù)據(jù)[9]。Neo4j最重要的兩個(gè)元素是實(shí)體和實(shí)體之間的關(guān)系,分別為節(jié)點(diǎn)和連邊。
可視化是指將知識(shí)單元之間的關(guān)系轉(zhuǎn)化為能夠更好理解的圖形形式,用以表現(xiàn)抽象的事物。Neo4j控制臺(tái)的圖形界面具有將存儲(chǔ)的知識(shí)單元和知識(shí)單元之間的關(guān)系轉(zhuǎn)換為知識(shí)圖的功能,可以方便地查看知識(shí)圖中的關(guān)系信息[10]。Neo4j批量導(dǎo)入前文提取的實(shí)體和關(guān)系后,采用Cypher查詢(xún)語(yǔ)言獲取滿足條件的數(shù)據(jù),以可視化圖形展示出來(lái)。數(shù)據(jù)可視化用于基于知識(shí)圖的查詢(xún)結(jié)果可視化,包括中醫(yī)知識(shí)查詢(xún)和中醫(yī)診療路徑。圖4、圖5分別展示本文提取的實(shí)體及關(guān)系的部分可視化圖,在圖譜中可以自定義圖譜內(nèi)容以顯示更為清晰的內(nèi)容,在圖譜中關(guān)系圖中連邊表示不同類(lèi)別實(shí)體間的語(yǔ)義關(guān)系,圖4為疾病-癥狀-證候(Disease Include Syndrome,Syndrome Represent Symptom)可視化圖,西醫(yī)高血壓在中醫(yī)中主要以“眩暈”和“頭痛”進(jìn)行表述,證候主要是“肝腎陰虛”“肝火上炎”“脈絡(luò)瘀阻”“氣機(jī)不暢”等。圖5展示治法-處方,每個(gè)治法對(duì)應(yīng)相應(yīng)的處方,也可以看到不同處方之間藥物也有所關(guān)聯(lián)。從圖中看到高血壓的中醫(yī)名稱(chēng)不具有唯一性,一個(gè)具體的疾病實(shí)體關(guān)聯(lián)著多個(gè)不同的癥狀實(shí)體,且一個(gè)具體癥狀實(shí)體關(guān)聯(lián)著不同疾病。因此將疾病實(shí)體與癥狀實(shí)體對(duì)應(yīng)后,可以根據(jù)患者表現(xiàn)出的癥狀推斷患者可能患有的疾病,根據(jù)癥狀信息,基于知識(shí)圖譜,結(jié)合多種中醫(yī)方法進(jìn)行辨證論治策略的推薦。知識(shí)圖譜能夠幫助用戶(hù)快速發(fā)現(xiàn)所關(guān)注的知識(shí)擴(kuò)展及衍生,更好地掌握中醫(yī)藥知識(shí)體系,并在瀏覽中發(fā)現(xiàn)具有潛在關(guān)聯(lián)的“知識(shí)孤島”。
圖4 疾病-癥狀-證候可視化
圖5 治法-處方可視化
中醫(yī)學(xué)的診療主旨為“辨證論治”,在中醫(yī)醫(yī)案中有充分體現(xiàn)。中醫(yī)醫(yī)案的記錄以辨證思路為核心,強(qiáng)調(diào)名老中醫(yī)之間的差異性[11]。中醫(yī)藥知識(shí)圖譜的構(gòu)建實(shí)質(zhì)是中醫(yī)醫(yī)案到知識(shí)圖譜的知識(shí)轉(zhuǎn)換,是一個(gè)知識(shí)抽象和歸納的過(guò)程。在這個(gè)過(guò)程中,一方面基于中醫(yī)醫(yī)案等臨床知識(shí)源,通過(guò)疾病、證候、癥狀、治法、處方等核心概念對(duì)醫(yī)案文本進(jìn)行分析和標(biāo)注,完成知識(shí)抽?。涣硪环矫?,構(gòu)建中醫(yī)醫(yī)案知識(shí)圖譜實(shí)現(xiàn)醫(yī)藥知識(shí)的結(jié)構(gòu)化表示。將知識(shí)圖譜應(yīng)用于中醫(yī)臨床,可實(shí)現(xiàn)智能化、個(gè)性化的中醫(yī)藥服務(wù),促進(jìn)與中醫(yī)臨床互融互通,揭示中醫(yī)實(shí)體間的相關(guān)關(guān)系,輔助醫(yī)生臨床研究與決策。但是當(dāng)前不同醫(yī)案相對(duì)零散且大多基于非結(jié)構(gòu)化數(shù)據(jù),較難對(duì)醫(yī)案中的知識(shí)進(jìn)行高效管理。針對(duì)上述問(wèn)題,本文將醫(yī)案中疾病、癥狀、證候、治法、處方、藥物實(shí)體進(jìn)行命名實(shí)體識(shí)別和抽取,在此基礎(chǔ)上以知識(shí)圖譜的形式將其關(guān)聯(lián)起來(lái)探索其中關(guān)系,以“病證癥”結(jié)合的方式探討高血壓相關(guān)的中醫(yī)疾病名稱(chēng)對(duì)應(yīng)的癥狀所關(guān)聯(lián)的治法;以“方藥”結(jié)合探索該治法所涉及處方以及對(duì)應(yīng)的藥物組成。本文采用的中醫(yī)領(lǐng)域知識(shí)有限,構(gòu)建的中醫(yī)知識(shí)圖譜只是一個(gè)實(shí)驗(yàn)性知識(shí)庫(kù),相較于大型知識(shí)圖譜,本文所構(gòu)建的知識(shí)圖譜中的實(shí)體以及實(shí)體間的關(guān)系較簡(jiǎn)單,需要更多中醫(yī)專(zhuān)家參與進(jìn)一步完善;且因不同醫(yī)家對(duì)疾病的具體證型和劃分標(biāo)準(zhǔn)存在差異,在對(duì)不同名老中醫(yī)醫(yī)案進(jìn)行收集和整理時(shí)較難實(shí)現(xiàn)標(biāo)準(zhǔn)化和規(guī)范化。隨著醫(yī)案數(shù)量增加和中醫(yī)藥臨床知識(shí)劃分標(biāo)準(zhǔn)的形成,知識(shí)圖譜與中醫(yī)藥文獻(xiàn)、醫(yī)案、電子病歷等的知識(shí)聯(lián)系,在中醫(yī)藥事業(yè)發(fā)展、全方面醫(yī)學(xué)領(lǐng)域知識(shí)圖譜構(gòu)建方面將發(fā)揮更加重要的作用。