李躍艷,王 昊,鄧三鴻,陳 艷
(1.南京大學(xué)信息管理學(xué)院,南京 210023;2.江蘇省數(shù)據(jù)工程與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室,南京 210023;3.南京大學(xué)生命科學(xué)學(xué)院,南京 210023)
近年來(lái),亞健康問(wèn)題突出,伴隨著互聯(lián)網(wǎng)醫(yī)療和智慧健康興起,醫(yī)學(xué)文本數(shù)據(jù)量快速增長(zhǎng),公眾對(duì)醫(yī)學(xué)文本知識(shí)結(jié)構(gòu)化的需求不斷增加,對(duì)海量的醫(yī)學(xué)文本形式的數(shù)據(jù)進(jìn)行有效的抽取、組織和分析,是有效發(fā)揮醫(yī)學(xué)健康大數(shù)據(jù)的價(jià)值并成功推進(jìn)現(xiàn)代醫(yī)學(xué)應(yīng)用的關(guān)鍵。本體和語(yǔ)義網(wǎng)技術(shù)的引入和發(fā)展,為醫(yī)學(xué)知識(shí)結(jié)構(gòu)化管理提供了切實(shí)可行的行動(dòng)方案,擴(kuò)展了智慧健康知識(shí)結(jié)構(gòu)化管理的內(nèi)涵,是實(shí)現(xiàn)精準(zhǔn)醫(yī)學(xué)的有力保障。其中,醫(yī)學(xué)知識(shí)的完整性和系統(tǒng)性是計(jì)算機(jī)正確理解知識(shí)并發(fā)現(xiàn)知識(shí)的前提保障。然而,以往醫(yī)學(xué)本體往往描述了對(duì)象的靜態(tài)特征,并給出了對(duì)象的狀態(tài)屬性,僅描述了一些既定的知識(shí),例如,疾病本體、基因-蛋白本體、疾病-表型本體,對(duì)這些本體結(jié)構(gòu)缺乏動(dòng)態(tài)特征的描述,無(wú)法揭示知識(shí)之間的動(dòng)態(tài)關(guān)聯(lián),因此無(wú)法基于動(dòng)態(tài)特征實(shí)現(xiàn)醫(yī)學(xué)知識(shí)發(fā)現(xiàn)。
敘事性文本是一種以敘事功能為主的文學(xué)作品,是對(duì)現(xiàn)實(shí)世界的記錄,是人文學(xué)者通過(guò)文字等方式對(duì)一系列事件的清晰描述和有序組織,其一直以來(lái)是人文學(xué)者的研究對(duì)象。敘事醫(yī)學(xué)(narrative medicine)是一門新興學(xué)科,最初由美國(guó)哥倫比亞大學(xué)Rita Charon醫(yī)師于2001年提出[1]?!皵⑹箩t(yī)學(xué)”指的是一種醫(yī)療模式,通過(guò)培養(yǎng)臨床醫(yī)生認(rèn)識(shí)、感知、解釋、回應(yīng)患者疾病的故事及患者困境的敘事能力,提升醫(yī)生對(duì)患者的親和、理解與共情能力及對(duì)自身醫(yī)療行為的反思[2]。本文提出了醫(yī)學(xué)敘事性文本的概念。醫(yī)學(xué)敘事性文本是采用文字語(yǔ)言表達(dá)一系列醫(yī)學(xué)領(lǐng)域事件及其之間的關(guān)系,包括人為引發(fā)的,例如,現(xiàn)實(shí)發(fā)生的醫(yī)療事件等;還包括其他非人為引發(fā)的,例如,微生物的入侵、機(jī)體的防御、炎癥反應(yīng)機(jī)制、免疫機(jī)制和藥物作用過(guò)程等。與一般的敘事性文本不同的是,參與對(duì)象有所差異。一般的敘事性文本的對(duì)象主體是人物、機(jī)構(gòu)、團(tuán)體等由人發(fā)起的,而這里的醫(yī)學(xué)敘事性文本的對(duì)象主體除了人物等,還包括一些自然力和非自然力物體,例如,細(xì)胞、微生物、生物分子等。
日奈特認(rèn)為敘事著重表現(xiàn)行動(dòng)和事件[3]。由此可以看出,事件是構(gòu)成敘事的基礎(chǔ)。以“事件域”為單位來(lái)體驗(yàn)、認(rèn)識(shí)和理解現(xiàn)實(shí)世界,并將其作為知識(shí)塊以本體形式結(jié)構(gòu)化展示,這是符合人們的一般認(rèn)知規(guī)律的。與“概念”相比,“事件”關(guān)系到多方面的概念。傳統(tǒng)本體所使用的概念模型屬于靜態(tài)模型,能夠較好地反映客觀世界中靜態(tài)事物的存在規(guī)律,特別是事物的分類與非分類關(guān)系,但卻難以反映更高層次和更復(fù)雜的語(yǔ)義信息。而事件本體是一種粒度更大的、動(dòng)態(tài)的、具有完整意義的結(jié)構(gòu)化知識(shí),它可以描述包含事件的動(dòng)作、時(shí)間、對(duì)象、地點(diǎn)等要素的完整事件信息,同時(shí)可以描述事件之間復(fù)雜的關(guān)聯(lián)關(guān)系。
綜上所述,醫(yī)學(xué)領(lǐng)域知識(shí)結(jié)構(gòu)化被越來(lái)越多的學(xué)者關(guān)注,建設(shè)高質(zhì)量、大規(guī)模、機(jī)器可理解的醫(yī)學(xué)文本語(yǔ)料庫(kù),促進(jìn)醫(yī)學(xué)文本向智慧數(shù)據(jù)的轉(zhuǎn)變已經(jīng)成為研究者的共識(shí),而事件知識(shí)域表示方法可以保留更加豐富的語(yǔ)義內(nèi)涵。因此,本文基于事件本體構(gòu)建醫(yī)學(xué)知識(shí)本體模型,旨在滿足醫(yī)學(xué)研究在大數(shù)據(jù)情境下的智慧健康需求。
目前,國(guó)外關(guān)于醫(yī)學(xué)知識(shí)庫(kù)的構(gòu)建、規(guī)范化程度以及具體應(yīng)用研究已經(jīng)較為成熟。關(guān)于知識(shí)庫(kù)的構(gòu)建包括DO(disease ontology)[4]、OMIM(online mendelian inheritance in man)[5]、MEDLINEplus[6]、eDGAR[7]、IDO (infectious disease ontology)[8]、ORDO(Orphanet rare disease ontology)[9]、ERNEYE(European reference network on rare eye dis‐ease)[10]、MalaCards[11]等以疾病為主的知識(shí)庫(kù),HPO(human phenotype ontology)[12]、PhenPath[13]等以表型為主的知識(shí)庫(kù),SYMP(symptom ontology)[14]等以癥狀為主的知識(shí)庫(kù),ChEBI(chemical entities of biological interest)[15]等與生物相關(guān)的化學(xué)實(shí)體知識(shí)庫(kù),UniProt[16]、STITCH(search tool for interac‐tions of chemicals)[17]、PDB(protein data bank)[18]、BioGRID(biological general repository for interaction datasets)[19]等以蛋白質(zhì)為主的知識(shí)庫(kù),GO(gene ontology)[20]、QuickGo[21]、HGNC(the HUGO gene nomenclature committee)[22]等以基因?yàn)橹鞯闹R(shí)庫(kù),Cellosaurus[23]等以細(xì)胞系為主的細(xì)胞知識(shí)庫(kù),TC‐MID (traditional Chinese medicine integrated data‐base)[24]、HIT(herb ingredients'targets)[25]、Drug‐Bank[26]等以藥物為主的知識(shí)庫(kù),VO(vaccine ontol‐ogy)[27]等以疫苗為主的知識(shí)庫(kù)。這些知識(shí)庫(kù)通過(guò)重用已有知識(shí)本體實(shí)現(xiàn)了知識(shí)庫(kù)之間的關(guān)聯(lián),為醫(yī)學(xué)信息的相關(guān)查詢和決策提供了有力支持和幫助。關(guān)于規(guī)范化描述,主要通過(guò)遵循統(tǒng)一的開(kāi)發(fā)原則,解決知識(shí)庫(kù)之間的互操作和可擴(kuò)展問(wèn)題,進(jìn)而實(shí)現(xiàn)知識(shí)庫(kù)之間的語(yǔ)義關(guān)聯(lián)。其中,OBO庫(kù)(OBO Foundry)[28]旨在開(kāi)發(fā)一系列非冗余且可互操作的本體,這些本體的語(yǔ)法統(tǒng)一,邏輯結(jié)構(gòu)科學(xué)合理;在OBO開(kāi)發(fā)原則的基礎(chǔ)上,XOD(eXtensible ontol‐ogy development)提出本體開(kāi)發(fā)的四個(gè)關(guān)鍵原則[29],包括本體術(shù)語(yǔ)重用,本體語(yǔ)義對(duì)齊,使用ODP(ontology design patterns)本體設(shè)計(jì)模式開(kāi)發(fā)和編輯新術(shù)語(yǔ)、注釋和關(guān)系[30-32],以及采用多社區(qū)協(xié)作的眾包模式開(kāi)發(fā)本體。關(guān)于醫(yī)學(xué)知識(shí)庫(kù)的具體應(yīng)用研究包括:基于基因型和表型的疾病分類方法[33],基于基因和中藥化學(xué)成分尋找新藥[34],基于基因、生物學(xué)過(guò)程和癥狀與疾病的關(guān)系發(fā)現(xiàn)密切相關(guān)的疾病[35],利用化學(xué)物質(zhì)、基因、疾病和癥狀之間的關(guān)系推斷生物醫(yī)學(xué)中的潛在關(guān)系[36]等。
然而,國(guó)內(nèi)關(guān)于醫(yī)學(xué)知識(shí)庫(kù)的研究才剛剛起步,雖有一些有意義的理論探索,但是還未形成有一定影響力、可以規(guī)模應(yīng)用的知識(shí)庫(kù)。其中大多是由企業(yè)主導(dǎo)的,例如,OpenKG[37]旨在構(gòu)建可信的包括醫(yī)學(xué)在內(nèi)的中文開(kāi)放知識(shí)圖譜,EpiK[38]銘識(shí)協(xié)議旨在依托區(qū)塊鏈技術(shù)構(gòu)建人類永恒知識(shí)庫(kù),“千言”計(jì)劃[39]旨在構(gòu)建面向自然語(yǔ)言處理和生成任務(wù)的中文開(kāi)源數(shù)據(jù)集合;CDD(China Disease Knowl‐edge Total Database,中國(guó)疾病知識(shí)總庫(kù))[40]、上海曙光醫(yī)院中醫(yī)藥知識(shí)圖譜[41]等尚未公開(kāi)發(fā)布數(shù)據(jù)集,無(wú)法獲得底層數(shù)據(jù),難以實(shí)現(xiàn)深層次利用、開(kāi)發(fā)和關(guān)聯(lián)。
基于事件的研究已經(jīng)發(fā)展成為將“事件”看作一種知識(shí)表示的方式。Nelson[42]早在1986年提出了基于腳本的通用事件表示模型,他認(rèn)為事件是由對(duì)象和關(guān)系組成的,并將事件作為分類知識(shí)的基礎(chǔ)。Langacker[43]結(jié)合彈子球模型、舞臺(tái)模型以及原型角色提出“典型事件模型”結(jié)構(gòu),包括施事者、受事者和背景。Filatova等[44]提出了“元事件”是由動(dòng)詞(或者動(dòng)名詞)和動(dòng)詞連接的行為構(gòu)成的,這些行為的主要連接成分是三類命名實(shí)體:參與者(人名和機(jī)構(gòu)名)、地點(diǎn)和時(shí)間。王寅[45]提出了“事件域認(rèn)知模型”(event-domain cognitive model,ECM),認(rèn)為一個(gè)基本事件域主要包括行為(action)和事體(being);一個(gè)行為包括動(dòng)態(tài)性行為和靜態(tài)性行為,是由很多具體的子行為或動(dòng)作構(gòu)成的,一個(gè)事體是由很多個(gè)體構(gòu)成的,相當(dāng)于將事件定義為一個(gè)三元組{事體,動(dòng)作,事體}。事件多元組模型認(rèn)為事件包括動(dòng)詞和動(dòng)詞連接的高頻名詞或者命名實(shí)體[46]。劉宗田等[47]采用六元組形式化表示事件,包括動(dòng)作、對(duì)象、時(shí)間、環(huán)境、斷言、語(yǔ)言表現(xiàn)。在此基礎(chǔ)上,事件的概念逐漸被信息檢索[48]、信息抽取[49]、自動(dòng)文摘[50]、自動(dòng)問(wèn)答[51]等知識(shí)處理領(lǐng)域所采用。在語(yǔ)義網(wǎng)中,事件本體的引入,使知識(shí)表示、知識(shí)組織更加結(jié)構(gòu)化,更加符合人類認(rèn)知過(guò)程。
典型的事件本體語(yǔ)義表示模型,包括Event On‐tology[52]、ABC[53]、Event-Model-F[54]、SEM(simple event model)[55]等通用領(lǐng)域的事件本體模型和NIAO(narrative image annotation ontology)[56]、CIDOC CRM(CIDOC conceptual reference model)[57]、sche‐ma.org[58]等專業(yè)領(lǐng)域事件本體模型。但是這些事件本體模型僅定義了事件的構(gòu)成要素,即僅描述了靜態(tài)知識(shí),缺少對(duì)動(dòng)作這一動(dòng)態(tài)性行為的描述以及事件間的動(dòng)態(tài)關(guān)聯(lián),導(dǎo)致事件信息不夠全面和具體。朱文躍等[59]構(gòu)建了突發(fā)領(lǐng)域事件本體模型,實(shí)驗(yàn)結(jié)果表明,通過(guò)考慮事件的動(dòng)作要素以及事件間的關(guān)聯(lián)關(guān)系可以清晰地描述事件的完整性、語(yǔ)義性和可擴(kuò)展性。宋寧遠(yuǎn)等[60]通過(guò)引入敘事和事件等概念,構(gòu)建基于情節(jié)本體的敘事性文本語(yǔ)義結(jié)構(gòu)化表示方法,標(biāo)注結(jié)果表明,敘事性本體表示能很好地展示和描述小說(shuō)文學(xué)作品中事件動(dòng)態(tài)發(fā)展的有序性和語(yǔ)義性。
綜上所述,從研究對(duì)象來(lái)看,以往醫(yī)學(xué)知識(shí)庫(kù)只能體現(xiàn)醫(yī)學(xué)靜態(tài)知識(shí)之間的簡(jiǎn)單關(guān)系,無(wú)法體現(xiàn)醫(yī)學(xué)知識(shí)之間的復(fù)雜關(guān)系;從研究方法來(lái)看,以往事件本體主要是概念和概念關(guān)系的集合,忽略了事件的動(dòng)態(tài)性,很難描述事件的狀態(tài)變化,僅是在傳統(tǒng)本體模型的基礎(chǔ)上整合了事件的部分構(gòu)成元素,如人物、時(shí)間、地點(diǎn)等,并沒(méi)有實(shí)現(xiàn)真正意義上的基于事件知識(shí)表示的本體構(gòu)建;從研究?jī)?nèi)容來(lái)看,關(guān)于醫(yī)學(xué)文本知識(shí)表示和組織對(duì)“事件”這一整體知識(shí)結(jié)構(gòu)單元認(rèn)識(shí)不夠深入,缺乏對(duì)醫(yī)學(xué)動(dòng)態(tài)知識(shí)的組織和描述,事件間關(guān)系揭示不夠全面,實(shí)際應(yīng)用不夠完善。因此,構(gòu)建符合實(shí)際用戶需求的醫(yī)學(xué)知識(shí)庫(kù)成為時(shí)代所需,實(shí)現(xiàn)更細(xì)粒度的醫(yī)學(xué)知識(shí)結(jié)構(gòu)化表示成為關(guān)鍵所在?;诖?,本文基于敘事性理論和事件知識(shí)表示,借鑒國(guó)外構(gòu)建醫(yī)學(xué)知識(shí)庫(kù)的成功經(jīng)驗(yàn),通過(guò)深入分析醫(yī)學(xué)文本內(nèi)部特征,挖掘細(xì)粒度醫(yī)學(xué)知識(shí)及其之間的關(guān)聯(lián),從而構(gòu)建完整的、計(jì)算機(jī)能夠理解的、符合人們一般認(rèn)知規(guī)律的、基于事件本體的醫(yī)學(xué)知識(shí)本體模型,并在此基礎(chǔ)上探索醫(yī)學(xué)知識(shí)的發(fā)現(xiàn),為醫(yī)學(xué)知識(shí)發(fā)現(xiàn)和決策提供有力支持和幫助。
本文能夠?yàn)閷?shí)現(xiàn)醫(yī)學(xué)知識(shí)組織提供新的路徑,為實(shí)現(xiàn)更高層次和更復(fù)雜的醫(yī)學(xué)語(yǔ)義知識(shí)的結(jié)構(gòu)化表示提出新的研究視角,為構(gòu)建完整的醫(yī)學(xué)知識(shí)本體提供系統(tǒng)性研究方法,為計(jì)算機(jī)輔助實(shí)現(xiàn)基于結(jié)構(gòu)化知識(shí)的新知識(shí)挖掘任務(wù)提供可能性。
醫(yī)學(xué)領(lǐng)域涉及廣泛的學(xué)科知識(shí),其數(shù)據(jù)、信息和知識(shí)呈現(xiàn)高度復(fù)雜性。為實(shí)現(xiàn)醫(yī)學(xué)知識(shí)結(jié)構(gòu)化組織、推進(jìn)醫(yī)學(xué)知識(shí)深層次利用、打造醫(yī)學(xué)智能知識(shí)服務(wù)體系,本文基于敘事性理論,根據(jù)事件知識(shí)表示方法,采用本體和語(yǔ)義網(wǎng)技術(shù),設(shè)計(jì)了從數(shù)據(jù)建模到數(shù)據(jù)融合再到數(shù)據(jù)聯(lián)勤的基于敘事性文本的醫(yī)學(xué)知識(shí)庫(kù)構(gòu)建框架,如圖1所示。
將醫(yī)學(xué)健康知識(shí)標(biāo)準(zhǔn)化和規(guī)范化,有助于降低醫(yī)生誤診率、提高醫(yī)生決策能力和提升國(guó)民醫(yī)學(xué)素質(zhì)。實(shí)現(xiàn)醫(yī)學(xué)知識(shí)庫(kù)構(gòu)建主要有以下幾個(gè)任務(wù)和目標(biāo):①多源異構(gòu)醫(yī)學(xué)數(shù)據(jù)采集。將不同來(lái)源、不同類型、不同結(jié)構(gòu)、不同格式的醫(yī)學(xué)數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的形式。②醫(yī)學(xué)知識(shí)本體模型構(gòu)建。根據(jù)是否具有敘事性特征,將醫(yī)學(xué)知識(shí)分為靜態(tài)概念和動(dòng)態(tài)事件,分別構(gòu)建醫(yī)學(xué)靜態(tài)概念本體模型和醫(yī)學(xué)動(dòng)態(tài)事件本體模型。③醫(yī)學(xué)知識(shí)抽取。借助已有的外部數(shù)據(jù)庫(kù)(結(jié)構(gòu)化詞表和已有本體知識(shí)庫(kù)),采用自動(dòng)抽取方式從非結(jié)構(gòu)化文本數(shù)據(jù)中抽取具體的知識(shí),包括概念、屬性、關(guān)系、事件等。④醫(yī)學(xué)知識(shí)融合。借助自然語(yǔ)言處理和已有關(guān)聯(lián)數(shù)據(jù)模型結(jié)構(gòu)特征實(shí)現(xiàn)實(shí)體對(duì)齊和屬性對(duì)齊,將不同來(lái)源的知識(shí)元素分門別類,形成完整的沒(méi)有歧義的知識(shí)體系。⑤醫(yī)學(xué)知識(shí)存儲(chǔ)和展示。通過(guò)設(shè)置公理規(guī)則實(shí)現(xiàn)知識(shí)補(bǔ)全,從而采用自動(dòng)編碼生成本體文件,結(jié)合第三方可視化庫(kù)進(jìn)行知識(shí)圖譜結(jié)果展示。⑥醫(yī)學(xué)知識(shí)挖掘。借助醫(yī)學(xué)知識(shí)本體能夠以機(jī)器理解的方式表達(dá)完整的規(guī)范化的領(lǐng)域知識(shí)優(yōu)勢(shì),結(jié)合自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、社會(huì)網(wǎng)絡(luò)分析方法,融合醫(yī)學(xué)信息多維度內(nèi)容特征和結(jié)構(gòu)特征,實(shí)現(xiàn)智能檢索、自動(dòng)問(wèn)答、信息推薦、決策支持和藥物發(fā)現(xiàn)等醫(yī)學(xué)知識(shí)挖掘任務(wù)。
本文的主要貢獻(xiàn)是基于事件本體構(gòu)建完整的符合人們一般認(rèn)知規(guī)律的醫(yī)學(xué)知識(shí)本體模型,其人工方式主要體現(xiàn)在前期基礎(chǔ)模型構(gòu)建,而最終醫(yī)學(xué)知識(shí)庫(kù)主要采用文本挖掘和機(jī)器學(xué)習(xí)等方法實(shí)現(xiàn)自動(dòng)構(gòu)建;其系列研究目標(biāo)旨在通過(guò)引入事件本體將具有敘事性特征的醫(yī)學(xué)文本采用計(jì)算機(jī)可以理解的語(yǔ)義網(wǎng)思維進(jìn)行描述,并通過(guò)機(jī)器學(xué)習(xí)等方法實(shí)現(xiàn)最終醫(yī)學(xué)知識(shí)庫(kù)構(gòu)建。圖1中最后一列表示每一階段任務(wù)所采用的自動(dòng)構(gòu)建方法。
圖1 基于敘事性文本的醫(yī)學(xué)知識(shí)庫(kù)構(gòu)建框架
如何按照知識(shí)的內(nèi)在關(guān)系將醫(yī)學(xué)知識(shí)進(jìn)行結(jié)構(gòu)化表示與組織,成為目前醫(yī)學(xué)大數(shù)據(jù)時(shí)代亟待深入研究的問(wèn)題。本文根據(jù)是否具有敘事性特征,將醫(yī)學(xué)文本數(shù)據(jù)分為醫(yī)學(xué)敘事性文本數(shù)據(jù)和醫(yī)學(xué)概念性文本數(shù)據(jù)。醫(yī)學(xué)敘事性文本數(shù)據(jù)是對(duì)醫(yī)學(xué)動(dòng)態(tài)事件的描述,醫(yī)學(xué)概念性文本數(shù)據(jù)是對(duì)醫(yī)學(xué)靜態(tài)概念的描述。為了構(gòu)建醫(yī)學(xué)知識(shí)本體模型,本文通過(guò)分析醫(yī)學(xué)敘事性文本特征和醫(yī)學(xué)概念性文本特征分別構(gòu)建醫(yī)學(xué)動(dòng)態(tài)事件本體模型和醫(yī)學(xué)靜態(tài)概念本體模型,并實(shí)現(xiàn)兩者的深層次關(guān)聯(lián)。
定義1.將醫(yī)學(xué)知識(shí)本體模型(medical knowl‐edge ontology model,MKOM)形式化表示為
其中,MDEOM表示醫(yī)學(xué)動(dòng)態(tài)事件本體模型;MSCOM表示醫(yī)學(xué)靜態(tài)概念本體模型。
定義2.將醫(yī)學(xué)靜態(tài)概念本體模型(medical static concepts ontology model,MSCOM)形式化定義為一個(gè)四元組結(jié)構(gòu):
其中,MSC_Classes表示醫(yī)學(xué)靜態(tài)概念類;MSC_Relations表示醫(yī)學(xué)靜態(tài)概念所有關(guān)系的集合,包括分類關(guān)系和非分類關(guān)系,分類關(guān)系可構(gòu)成概念類之間的層次關(guān)系,非分類關(guān)系可構(gòu)成概念類之間或概念類和屬性之間的語(yǔ)義關(guān)系;MK_Individuals表示醫(yī)學(xué)靜態(tài)概念的實(shí)例集合;MK_Rules表示醫(yī)學(xué)靜態(tài)概念的規(guī)則集合,用于概念間的推理。
定義3.將醫(yī)學(xué)動(dòng)態(tài)事件本體模型(medical dy‐namic event ontology model,MDEOM)形式化定義為一個(gè)四元組結(jié)構(gòu):
其中,MDE_Classes表示醫(yī)學(xué)動(dòng)態(tài)事件;MDE_Re‐lations表示醫(yī)學(xué)動(dòng)態(tài)事件所有關(guān)系的集合,包括事件類之間的分類關(guān)系和非分類關(guān)系,分類關(guān)系可構(gòu)成事件類之間的層次關(guān)系,非分類關(guān)系可構(gòu)成事件類之間的語(yǔ)義關(guān)系;MK_Individuals表示醫(yī)學(xué)動(dòng)態(tài)事件的實(shí)例集合;MK_Rules表示醫(yī)學(xué)動(dòng)態(tài)事件的規(guī)則集合,用于事件間的推理。
為了實(shí)現(xiàn)醫(yī)學(xué)知識(shí)之間的動(dòng)態(tài)關(guān)聯(lián),我們需要根據(jù)具體應(yīng)用厘清并定義醫(yī)學(xué)中的靜態(tài)概念,以便更好地展示醫(yī)學(xué)動(dòng)態(tài)事件與靜態(tài)概念之間的知識(shí)體系和關(guān)聯(lián)關(guān)系。靜態(tài)概念類是醫(yī)學(xué)相關(guān)概念的集合,包括醫(yī)學(xué)實(shí)體概念和醫(yī)學(xué)學(xué)術(shù)社交網(wǎng)絡(luò)實(shí)體概念。其中醫(yī)學(xué)實(shí)體是指與醫(yī)學(xué)知識(shí)相關(guān)的實(shí)體概念,是為了建立醫(yī)學(xué)概念之間的簡(jiǎn)單關(guān)聯(lián);學(xué)術(shù)社交網(wǎng)絡(luò)實(shí)體是為了實(shí)現(xiàn)醫(yī)學(xué)科學(xué)學(xué)的統(tǒng)計(jì)分析。
基于此,借鑒PKG(PubMed knowledge graph)知識(shí)結(jié)構(gòu)模型思想[61],本文設(shè)計(jì)了醫(yī)學(xué)靜態(tài)概念本體模型,使醫(yī)學(xué)實(shí)體之間、學(xué)術(shù)社交網(wǎng)絡(luò)實(shí)體之間以及醫(yī)學(xué)實(shí)體和學(xué)術(shù)社交網(wǎng)絡(luò)實(shí)體之間實(shí)現(xiàn)關(guān)聯(lián),其不僅有利于醫(yī)學(xué)實(shí)體的實(shí)時(shí)監(jiān)測(cè)、動(dòng)態(tài)管理和統(tǒng)計(jì)分析,例如,了解相關(guān)醫(yī)學(xué)人員的科研動(dòng)態(tài)及其國(guó)家醫(yī)學(xué)科研水平;而且有利于醫(yī)學(xué)知識(shí)發(fā)現(xiàn),例如,發(fā)現(xiàn)權(quán)威學(xué)者,推薦相似學(xué)者,合理分配科研資源,實(shí)現(xiàn)醫(yī)生之間相互合作。
在當(dāng)下的防疫工作中,新冠疫情已成為國(guó)家重視、社會(huì)關(guān)注、人民關(guān)心的熱點(diǎn)話題。盡管病毒很小,但人類對(duì)付它們的手段十分有限,一直以來(lái),病毒變異速度快、靶點(diǎn)數(shù)量少、開(kāi)發(fā)周期長(zhǎng)等原因,導(dǎo)致疫苗及其特效藥的研制成為醫(yī)學(xué)工作者不易解決的問(wèn)題。現(xiàn)階段,治療病毒疾病的主要途徑是通過(guò)藥物干擾并破壞病毒感染過(guò)程。其中,病毒入侵是病毒感染環(huán)節(jié)的第一步,也是最重要的一步,針對(duì)病毒入侵過(guò)程采取藥物治療是最根本的治療手段。因此,深入了解并厘清病毒的入侵機(jī)制,對(duì)病毒疫苗和藥物的快速研發(fā)以及干預(yù)措施的及時(shí)制定具有至關(guān)重要的作用。
基于此,本文對(duì)病毒入侵機(jī)體過(guò)程中涉及的靜態(tài)概念進(jìn)行知識(shí)結(jié)構(gòu)化表示,來(lái)說(shuō)明醫(yī)學(xué)靜態(tài)概念的知識(shí)結(jié)構(gòu)化表示方法。圖2是本文設(shè)計(jì)的關(guān)于病毒入侵過(guò)程的靜態(tài)概念本體模型圖。
圖2 病毒入侵過(guò)程靜態(tài)概念本體模型圖
3.2.1 靜態(tài)概念類
由于許多醫(yī)學(xué)本體相互重疊,缺乏與其他更廣泛使用的本體的互操作性而形成了孤島。為了促進(jìn)本體的開(kāi)放性和互操作性,支持?jǐn)?shù)據(jù)的共享和集成,通過(guò)調(diào)研大量醫(yī)學(xué)相關(guān)本體[62],根據(jù)本文提出的11個(gè)核心實(shí)體概念(圖2),結(jié)合已有醫(yī)學(xué)本體中的術(shù)語(yǔ)及其屬性關(guān)系(包括DO[4]、HPO[12]、ChEBI[15]、UniProt[16]、GO[20]、TCMID[24]、PKG[61]),來(lái) 實(shí)現(xiàn) 與常用醫(yī)學(xué)本體的關(guān)聯(lián)和集成。通過(guò)集成這些可信的外部數(shù)據(jù)集,可以在醫(yī)學(xué)實(shí)體之間、學(xué)術(shù)社交網(wǎng)絡(luò)實(shí)體之間以及醫(yī)學(xué)實(shí)體和學(xué)術(shù)社交網(wǎng)絡(luò)實(shí)體之間建立關(guān)聯(lián),從而實(shí)現(xiàn)更深層次、更廣范圍的研究。圖2反映了與病毒入侵機(jī)體過(guò)程相關(guān)的醫(yī)學(xué)領(lǐng)域和學(xué)術(shù)社交領(lǐng)域之間的靜態(tài)概念及其靜態(tài)概念之間的邏輯結(jié)構(gòu),其中主要包括7個(gè)醫(yī)學(xué)實(shí)體:病毒實(shí)體(virus)、疾病實(shí)體(disease)、細(xì)胞實(shí)體(cell)、化學(xué)成分實(shí)體(chemical)、藥物實(shí)體(drug)、生物分子實(shí)體(biomacromolecule)、疾病過(guò)程實(shí)體(process),以及4個(gè)學(xué)術(shù)社交網(wǎng)絡(luò)實(shí)體:學(xué)者實(shí)體(author)、論文實(shí)體(article)、項(xiàng)目實(shí)體(project)和地理位置實(shí)體(location)。
3.2.2 靜態(tài)概念的屬性設(shè)置
為了構(gòu)造并設(shè)計(jì)一個(gè)系統(tǒng)的、穩(wěn)健的且功能強(qiáng)大的病毒入侵機(jī)體過(guò)程靜態(tài)概念知識(shí)本體,本文根據(jù)病毒入侵機(jī)體過(guò)程知識(shí)體系結(jié)構(gòu)及其學(xué)術(shù)社交關(guān)系結(jié)構(gòu)定義醫(yī)學(xué)靜態(tài)概念之間的關(guān)聯(lián)關(guān)系,主要包括分類關(guān)系和非分類關(guān)系。
分類關(guān)系用于描述實(shí)體間的層次結(jié)構(gòu)語(yǔ)義關(guān)系,其中包括類與子類(SubClassOf)關(guān)系以及概念實(shí)例(InstanceOf)關(guān)系等,例如,冠狀病毒傳染性疾病是病毒傳染性疾病的子類,新型冠狀病毒是冠狀病毒的實(shí)例。
非層次關(guān)系是在關(guān)系集合中除去分類關(guān)系之外的剩余所有關(guān)系。表1是醫(yī)學(xué)靜態(tài)概念間的主要非層次關(guān)系。
其中藥物和疾病之間的治療關(guān)系,具體包括實(shí)驗(yàn)用藥(TreatOf_EM)、臨床用藥(TreatOf_CM)、理論計(jì)算發(fā)現(xiàn)(Treat Of_TC)、數(shù)據(jù)挖掘發(fā)現(xiàn)(Treat Of_DM)。
從表1可知,除了醫(yī)學(xué)實(shí)體之間的關(guān)系,本文進(jìn)一步定義了醫(yī)學(xué)實(shí)體和醫(yī)學(xué)學(xué)術(shù)社交網(wǎng)絡(luò)實(shí)體之間的關(guān)系,例如,學(xué)者和醫(yī)學(xué)實(shí)體之間的關(guān)注關(guān)系(FocusOn)、學(xué)者和論文之間的發(fā)表關(guān)系(Publish)、論文和項(xiàng)目之間的資助關(guān)系(FundedBy)等。
表1 醫(yī)學(xué)靜態(tài)核心概念間的主要非層次關(guān)系
綜上所述,通過(guò)分類關(guān)系和非分類關(guān)系的設(shè)置將不同的醫(yī)學(xué)靜態(tài)概念實(shí)體進(jìn)行關(guān)聯(lián),從而形成完整的醫(yī)學(xué)靜態(tài)概念本體模型。
醫(yī)學(xué)動(dòng)態(tài)事件本體模型是醫(yī)學(xué)知識(shí)本體模型的核心。相比于醫(yī)學(xué)靜態(tài)概念本體模型,動(dòng)態(tài)事件本體模型的引入可以更清晰、全面、深入地描述醫(yī)學(xué)知識(shí),解釋醫(yī)學(xué)內(nèi)部知識(shí)之間的復(fù)雜關(guān)系。也就是說(shuō),動(dòng)態(tài)事件類的引入可以解釋醫(yī)學(xué)靜態(tài)概念之間的關(guān)聯(lián)原因,這對(duì)于實(shí)現(xiàn)醫(yī)學(xué)知識(shí)的深層次挖掘和醫(yī)學(xué)知識(shí)服務(wù)等決策支持至關(guān)重要。
醫(yī)學(xué)動(dòng)態(tài)事件本體模型主要以“事件”為知識(shí)結(jié)構(gòu)單元,“事件”知識(shí)表示方法本身就是一種具有動(dòng)態(tài)特征知識(shí)組織方法。通過(guò)動(dòng)作這一動(dòng)態(tài)性描述,可以使事件信息更加全面和具體;通過(guò)事件之間的時(shí)序關(guān)系和語(yǔ)義關(guān)系,可以進(jìn)一步動(dòng)態(tài)揭示事件發(fā)展順序特征以及邏輯結(jié)構(gòu)特征。
3.3.1 事件和事件類
(1)事件(event):本文在已有事件本體模型的基礎(chǔ)上,結(jié)合醫(yī)學(xué)敘事性文本內(nèi)容和結(jié)構(gòu)特征,將醫(yī)學(xué)敘事性文本中的事件形式化表示為一個(gè)四元組e={A,O,T,V},其中,事件四元組中的元素稱為事件要素,分別表示動(dòng)作、對(duì)象、時(shí)間和環(huán)境。
A(動(dòng)作,action):動(dòng)作是事件的核心元素,表示事件的發(fā)生方式,描述了事件的動(dòng)態(tài)變化特征,例如,“入侵”“轉(zhuǎn)錄”“翻譯”等動(dòng)作指示詞是區(qū)分不同事件類的主要依據(jù),通過(guò)動(dòng)作這一動(dòng)態(tài)性描述,事件信息更加形象和具體。
O(角色,role):角色表示事件的參與對(duì)象,通常包括:主體(subject),動(dòng)作的發(fā)起者;媒介(medium),動(dòng)作的推動(dòng)者;客體(object),動(dòng)作的承受者。角色可以是人物、機(jī)構(gòu)、團(tuán)體等,也可以是微生物、細(xì)胞或者生物分子,如病毒、細(xì)胞、蛋白質(zhì)、酶、氨基酸、核苷酸和糖蛋白等。
T(時(shí)間,time):在現(xiàn)實(shí)的醫(yī)療事件中,時(shí)間要素指具體的時(shí)間指示詞,例如,“2019年1月5日,武漢一名女性不幸感染新冠”事件中的時(shí)間要素是“2019年1月5日”。在自然力和非自然力醫(yī)學(xué)事件中,時(shí)間要素往往沒(méi)有具體的時(shí)間指示詞,但是動(dòng)作狀態(tài)的變化往往呈現(xiàn)出一定的時(shí)序特征,因此,可以根據(jù)動(dòng)作信息挖掘時(shí)間信息。將動(dòng)作顯性映射為對(duì)象的狀態(tài)隨時(shí)間變化而變化的過(guò)程,可以使動(dòng)作描述更加具體。
V(環(huán)境,environment):環(huán)境表示事件發(fā)生所處的空間位置,具體包括:以位置指示詞等用來(lái)指明事件發(fā)生所處的具體空間區(qū)域(place),例如,武漢等地名指示詞,細(xì)胞膜等病毒吸附發(fā)生所處的空間位置;以及事件發(fā)生所處的環(huán)境特征(fea‐ture),例如,天氣晴朗等表示自然環(huán)境特征的指示詞,弱酸性條件等生物變化過(guò)程所需的環(huán)境特征。
基于此,本文定義了7個(gè)對(duì)象屬性,表示事件及其事件要素之間的關(guān)系,分別為:hasAction,表示事件發(fā)生的動(dòng)作;hasSubject,表示事件的發(fā)起者;hasMedium,表示事件的推動(dòng)者;hasObject,表示事件的承受者;hasTime,表示事件發(fā)生的時(shí)間;hasPlace,表示事件發(fā)生的地點(diǎn);hasFeature,表示事件發(fā)生所處的環(huán)境特征。
(2)事件類:是具有相同動(dòng)作要素的一系列事件的統(tǒng)稱。
為支持醫(yī)學(xué)事件類型的正確識(shí)別和映射,本文參照突發(fā)事件層次關(guān)系結(jié)構(gòu)[39],進(jìn)一步構(gòu)建了醫(yī)學(xué)事件類的本體層次結(jié)構(gòu)。第一和第二層是上層事件本體結(jié)構(gòu),第三層及其更細(xì)層次是具體醫(yī)學(xué)事件類層次關(guān)系結(jié)構(gòu),如圖3所示。
圖3 醫(yī)學(xué)事件類的本體層次結(jié)構(gòu)
第一層根據(jù)事件類主體類別劃分為兩類:人類事件類和自然事件類。
第二層進(jìn)一步根據(jù)事件類的主體數(shù)量把人類事件類劃分為個(gè)人事件類和公共事件類。多人參與的事件類為公共事件類,單個(gè)人參與的事件類為個(gè)人事件,例如,死亡和醫(yī)療事故的區(qū)別。除人類事件類外,自然事件類可以分為自然力事件類和非自然力事件類。自然力事件類通常是大自然作用下發(fā)生的醫(yī)學(xué)事件,如空氣污染致病等;非自然力事件類是指一切除了人類和大自然的物體作用下發(fā)生的醫(yī)學(xué)事件,如微生物污染致病等。
第三層及其更細(xì)層次劃分是指具體醫(yī)學(xué)事件類層次關(guān)系結(jié)構(gòu)。主要根據(jù)事件類之間的組成關(guān)系確定醫(yī)學(xué)事件類之間的層次關(guān)系,例如,“病毒生命歷程”包括“病毒入侵”“病毒轉(zhuǎn)錄”“病毒翻譯”“病毒復(fù)制”和“病毒釋放”等事件類。其中“病毒入侵”過(guò)程包括“受體結(jié)合”“膜融合”等過(guò)程。因此,“病毒入侵”是“受體結(jié)合”和“膜融合”的上位事件類,“受體結(jié)合”和“膜融合”是“病毒入侵”的下位事件類。
3.3.2 事件間的關(guān)系
敘事性文本的復(fù)雜性在于強(qiáng)調(diào)以事件為基礎(chǔ),事件間具有較為豐富的關(guān)聯(lián)關(guān)系。事件間的關(guān)系較為復(fù)雜,并且事件之間的關(guān)系具有方向性和動(dòng)態(tài)性。Speer等[63]、Mann等[64]認(rèn)為事件間的關(guān)系通常包括時(shí)間關(guān)系和因果關(guān)系兩大類。仲兆滿等[65]認(rèn)為事件間的關(guān)系包括分類關(guān)系和非分類關(guān)系。宋寧遠(yuǎn)等[60]將敘事性文本中的事件關(guān)系分為時(shí)序關(guān)系和語(yǔ)義關(guān)系兩大類;其中,時(shí)序關(guān)系用于動(dòng)態(tài)表示事件在時(shí)間維度上的先后次序,語(yǔ)義關(guān)系用于動(dòng)態(tài)表示事件在邏輯發(fā)展上的語(yǔ)義關(guān)聯(lián);這兩類關(guān)系共同作用于事件關(guān)聯(lián),是構(gòu)成敘事的核心,是構(gòu)成事件網(wǎng)絡(luò)的基礎(chǔ),是事件動(dòng)態(tài)特征的主要表現(xiàn)?;诖?,本文對(duì)醫(yī)學(xué)事件之間的時(shí)序關(guān)系和語(yǔ)義關(guān)系進(jìn)行語(yǔ)義建模。
(1)時(shí)序關(guān)系。時(shí)序關(guān)系是事件間的基本關(guān)系,決定事件發(fā)生的先后順序,是事件動(dòng)態(tài)發(fā)展的重要特征。結(jié)合事件本體模型中關(guān)于事件間時(shí)序關(guān)系的定義,本文認(rèn)為事件間的時(shí)序關(guān)系包括11種,如表2所示。
表2 事件間的時(shí)序關(guān)系
為了實(shí)現(xiàn)本體知識(shí)的時(shí)序推理和時(shí)序擴(kuò)展,本文定義了時(shí)間屬性特性,主要包括互逆屬性(in‐verseOf)和對(duì)稱屬性(SymmetricProperty)。其中,屬性:Before和屬性:After是一對(duì)互逆屬性,屬性:Be‐ginMeetsEnd和屬性:EndMeetsBegin是一對(duì)互逆屬性,屬性:BeingOverlapsHad和屬性:HadOverlapsBe‐ing是一對(duì)互逆屬性,屬性:During和屬性:Outside是一對(duì)互逆屬性;屬性:Equals、屬性:Starts和屬性:Finishes是對(duì)稱屬性。例如,事件A的發(fā)生時(shí)間在事件B的發(fā)生時(shí)間之前,那么可以推理出事件B的發(fā)生時(shí)間在事件A的發(fā)生時(shí)間之后。
(2)語(yǔ)義關(guān)系。事件的動(dòng)態(tài)發(fā)展往往遵循一定的邏輯秩序。語(yǔ)義關(guān)系是事件邏輯發(fā)展的主要線索,通常決定事件的動(dòng)態(tài)發(fā)展方向。結(jié)合相關(guān)事件本體模型中關(guān)于事件間語(yǔ)義關(guān)系的定義,本文認(rèn)為事件間的語(yǔ)義關(guān)系包括10種,如表3所示。
表3 事件間的語(yǔ)義關(guān)系
因果關(guān)系、跟隨關(guān)系、并發(fā)關(guān)系和條件關(guān)系都屬于相關(guān)關(guān)系,但關(guān)聯(lián)強(qiáng)度不同。因果關(guān)系是有因才有果;跟隨關(guān)系不是因果關(guān)系,但是經(jīng)常一前一后出現(xiàn),可能跟隨發(fā)生,時(shí)間上有先后但不能間隔太久,并且沒(méi)有重疊以及經(jīng)常一起出現(xiàn)的即為跟隨關(guān)系;并發(fā)關(guān)系,時(shí)間上有重疊但不完全重疊,以及經(jīng)常一起出現(xiàn)并同時(shí)發(fā)生;條件關(guān)系,一個(gè)事件發(fā)生需要滿足另一個(gè)事件的發(fā)生。其中,因果關(guān)系和條件關(guān)系突出強(qiáng)調(diào)了兩個(gè)事件之間的語(yǔ)義相關(guān)性,是決定事件動(dòng)態(tài)發(fā)展方向的直接推動(dòng)力;跟隨關(guān)系和并發(fā)關(guān)系,從時(shí)間發(fā)展順序上看,是時(shí)序關(guān)系,但是這兩種關(guān)系更強(qiáng)調(diào)了兩個(gè)事件之間的相關(guān)性,即不僅是簡(jiǎn)單的時(shí)間發(fā)生上的先后次序,而且表明兩者是具有語(yǔ)義相關(guān)的,是維持事件動(dòng)態(tài)發(fā)展方向的潛在作用力;排斥關(guān)系則表明兩個(gè)事件不可能同時(shí)發(fā)生;組成關(guān)系用于確定事件和事件類之間的層次關(guān)系。
為了實(shí)現(xiàn)本體知識(shí)的語(yǔ)義推理和語(yǔ)義擴(kuò)展,本文定義了語(yǔ)義屬性特性,主要包括互逆屬性(in‐verseOf)和對(duì)稱屬性(SymmetricProperty)。其中,屬性:Reason和屬性:Result是一對(duì)互逆屬性,屬性:PreFollow和屬性:ProFollow是一對(duì)互逆屬性,屬性:Condition和屬性:Conclusion是一對(duì)互逆屬性,屬性:isComposeOf和屬性:Composed是一對(duì)互逆屬性;屬性:Concur和屬性:Opposite是對(duì)稱屬性。例如,已知事件A是事件B發(fā)生的原因,那么可以推理出事件B是事件A發(fā)生的結(jié)果。
靜態(tài)概念本體模型和動(dòng)態(tài)事件本體模型的關(guān)聯(lián)融合是實(shí)現(xiàn)醫(yī)學(xué)知識(shí)本體模型完整構(gòu)建的基礎(chǔ),它們之間的關(guān)聯(lián)融合是通過(guò)靜態(tài)概念本體模型中定義的醫(yī)學(xué)實(shí)體實(shí)現(xiàn)關(guān)聯(lián)的,即動(dòng)態(tài)事件本體模型中事件四要素——角色的定義域是靜態(tài)概念本體模型中的4種醫(yī)學(xué)實(shí)體——病毒實(shí)體、細(xì)胞實(shí)體、化學(xué)成分實(shí)體和生物分子實(shí)體,這些醫(yī)學(xué)實(shí)體是醫(yī)學(xué)動(dòng)態(tài)事件的參與對(duì)象,是醫(yī)學(xué)事件發(fā)生的必要條件,是區(qū)分不同醫(yī)學(xué)事件的顯著特征。在靜態(tài)概念本體模型中,以“概念”為知識(shí)表示單元,醫(yī)學(xué)實(shí)體通過(guò)對(duì)象屬性將不同醫(yī)學(xué)實(shí)體進(jìn)行關(guān)聯(lián),其建立的是醫(yī)學(xué)實(shí)體之間的簡(jiǎn)單關(guān)聯(lián),例如,病毒與疾病之間的致病關(guān)系;在動(dòng)態(tài)事件本體模型中,以“事件”為知識(shí)表示單元,醫(yī)學(xué)實(shí)體是事件四要素中的一個(gè)元素,通過(guò)“事件”知識(shí)結(jié)構(gòu)單元建立關(guān)聯(lián)關(guān)系,使醫(yī)學(xué)實(shí)體之間的關(guān)系更加具體、形象,例如,“SARS-CoV-2病毒S蛋白”和“心肌細(xì)胞的ACE2蛋白”是“SARS-CoV-2病毒受體結(jié)合”事件的主體參與對(duì)象,兩者是該事件發(fā)生的必要條件,如果沒(méi)有這兩種蛋白的結(jié)合,SARS-CoV-2病毒無(wú)法完成病毒入侵細(xì)胞過(guò)程。
至此,醫(yī)學(xué)知識(shí)本體模型構(gòu)建完成。為判斷模型的可行性和合理性,本文通過(guò)案例分析驗(yàn)證以“事件”為知識(shí)表示單元構(gòu)建的醫(yī)學(xué)知識(shí)本體模型能夠更好地組織和表示具有敘事性特征的醫(yī)學(xué)文本,使計(jì)算機(jī)和人類能夠更加系統(tǒng)地基于人類邏輯思維理解和揭示醫(yī)學(xué)知識(shí);同時(shí)為驗(yàn)證本體模型在醫(yī)學(xué)知識(shí)發(fā)現(xiàn)上的有效性,本文根據(jù)參與事件的事件要素以及事件間關(guān)系等分析醫(yī)學(xué)事件相似性,尋找用于治療疾病的有效藥物等。
本文基于事件知識(shí)表示單元,根據(jù)文本的敘事性特征,將醫(yī)學(xué)知識(shí)分為靜態(tài)概念知識(shí)和動(dòng)態(tài)事件知識(shí),旨在構(gòu)建語(yǔ)義更加全面、立體的多維度醫(yī)學(xué)知識(shí)庫(kù)。為實(shí)現(xiàn)對(duì)醫(yī)學(xué)文本的深層次語(yǔ)義結(jié)構(gòu)化表示,根據(jù)本文提出的醫(yī)學(xué)知識(shí)本體模型,首先需要對(duì)醫(yī)學(xué)文本進(jìn)行語(yǔ)義標(biāo)注。語(yǔ)義標(biāo)注是以已有本體和受控詞表為基礎(chǔ),通過(guò)文本分析、術(shù)語(yǔ)抽取、關(guān)系識(shí)別等路徑,采用規(guī)則模板、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和遷移學(xué)習(xí)等方法,使文本從非結(jié)構(gòu)化向結(jié)構(gòu)化轉(zhuǎn)變的關(guān)鍵。其語(yǔ)義標(biāo)注流程如圖4所示。
圖4 醫(yī)學(xué)文本語(yǔ)義標(biāo)注流程
新型冠狀病毒肺炎(coronavirus disease 2019,COVID-19)是繼2003年嚴(yán)重急性呼吸綜合征(se‐vere acute respiratory syndrome,SARS)和2012年中東呼吸綜合征(Middle East respiratory syndrome,MERS)以后更為嚴(yán)重的肺部傳染病。因此,本文選取新型冠狀病毒(SARS-CoV-2,又稱2019-nCoV)入侵過(guò)程相關(guān)醫(yī)學(xué)文本作為實(shí)驗(yàn)樣本,通過(guò)本文提出的本體模型進(jìn)行語(yǔ)義標(biāo)注,并對(duì)標(biāo)注結(jié)果進(jìn)行重新組織與關(guān)聯(lián),再以知識(shí)圖譜的方式對(duì)其語(yǔ)義結(jié)構(gòu)化表示結(jié)果進(jìn)行展示,如圖5所示,從而驗(yàn)證本文提出的醫(yī)學(xué)知識(shí)本體模型的可行性和實(shí)用性,最后,通過(guò)分析SARS-CoV-2入侵過(guò)程與其他病毒入侵過(guò)程的相似性,為病毒疾病防治提供基于數(shù)據(jù)支持的藥物篩選。
圖5 SARS-CoV-2病毒入侵過(guò)程的語(yǔ)義結(jié)構(gòu)化表示
根據(jù)本文構(gòu)建的醫(yī)學(xué)靜態(tài)概念本體模型,相關(guān)醫(yī)學(xué)實(shí)體之間的關(guān)系表現(xiàn)為:SARS-CoV-2病毒的受體是“刺突蛋白(S蛋白)”,受體結(jié)合位點(diǎn)是“血管緊張素轉(zhuǎn)換酶2(ACE2)”,受納細(xì)胞(即易感染細(xì)胞)包括“心肌細(xì)胞”,屬于“β屬冠狀病毒”,是一種“正鏈RNA病毒”,其病毒體結(jié)構(gòu)包括“囊膜”和“核衣殼”,“ACE2”在“心肌細(xì)胞”高表達(dá),“COVID-19”疾病由“SARS-CoV-2”病毒引起,“COVID-19”疾病屬于“冠狀病毒傳染性疾病”,“COVID-19”疾病的臨床用藥包括“卡莫司他”,“卡莫司他”藥物的靶標(biāo)是“跨膜絲氨酸蛋白酶(TMPRSS2)”。學(xué)術(shù)社交網(wǎng)絡(luò)實(shí)體之間以及學(xué)術(shù)社交網(wǎng)絡(luò)實(shí)體和醫(yī)學(xué)實(shí)體之間的關(guān)系表現(xiàn)為:論文《抗新型冠狀病毒肺炎藥物磷酸氯喹的安全性分析》,其所屬機(jī)構(gòu)是“海軍軍醫(yī)大學(xué)基礎(chǔ)醫(yī)學(xué)院”,其學(xué)者是“呂強(qiáng)”,其關(guān)鍵詞包括“新型冠狀病毒肺炎”和“磷酸氯喹”,基于此,可以說(shuō)明學(xué)者“呂強(qiáng)”關(guān)注的醫(yī)學(xué)實(shí)體包括疾病“新型冠狀病毒肺炎”和藥物“磷酸氯喹”,這說(shuō)明呂強(qiáng)對(duì)于新型冠狀病毒肺炎以及磷酸氯喹有一定的研究。因此,醫(yī)學(xué)靜態(tài)概念本體模型的構(gòu)建實(shí)現(xiàn)了醫(yī)學(xué)實(shí)體和學(xué)術(shù)社交網(wǎng)絡(luò)實(shí)體之間的相互關(guān)聯(lián),這對(duì)于促進(jìn)醫(yī)生之間相互合作等醫(yī)學(xué)決策支持具有重要作用。
根據(jù)本文提出的醫(yī)學(xué)動(dòng)態(tài)事件本體模型構(gòu)建框架,由圖5可知:①SARS-CoV-2病毒入侵過(guò)程包括7個(gè)子事件:“受體結(jié)合”“S2亞基構(gòu)象發(fā)生變化”“S蛋白裂解”“融合肽區(qū)暴露”“內(nèi)吞”“囊膜內(nèi)吞體膜融合”和“囊膜質(zhì)膜直接融合”;②每個(gè)子事件分別具有不同的事件要素,例如,“受體結(jié)合”事件的主體是“S蛋白”和“ACE2”,動(dòng)作是“結(jié)合”,由此可以推斷出ACE2在SARS-CoV-2入侵事件中所扮演的角色,即SARS-CoV-2表面S蛋白與心肌細(xì)胞膜上ACE2通過(guò)特異性結(jié)合的方式啟動(dòng)病毒感染;③通過(guò)事件間時(shí)序關(guān)系可以清晰地看出,“受體結(jié)合”是病毒入侵細(xì)胞的第一步,也是病毒能否成功感染細(xì)胞的關(guān)鍵;④通過(guò)事件間語(yǔ)義關(guān)系可以清晰地看出事件之間的邏輯語(yǔ)義關(guān)系,例如,“受體結(jié)合”事件是“S2亞基構(gòu)象發(fā)生變化”事件發(fā)生的原因,“S蛋白裂解”事件是“融合肽區(qū)暴露”事件發(fā)生的條件,“融合肽區(qū)暴露”事件是“膜融合”事件發(fā)生的條件。
通過(guò)分析SARS-CoV-2病毒入侵過(guò)程可以尋找用于治療疾病的有效藥物。由圖5可知,基于SARS-CoV-2病毒入侵過(guò)程采取干預(yù)措施的策略主要包括三種:第一,阻礙SARS-CoV-2病毒S蛋白靠近ACE2;第二,阻礙S蛋白裂解;第三,破壞病毒囊膜與宿主細(xì)胞膜的融合。由圖5可知,現(xiàn)有用于治療SARS-CoV-2的藥物包括磷酸氯喹、卡莫司他、阿洛司他丁,這與SARS-CoV和MERS-CoV的治療藥物具有很高的相似性。結(jié)合文獻(xiàn)調(diào)研結(jié)果[66-67]可以驗(yàn)證本文模型在知識(shí)發(fā)現(xiàn)上的有效性,SARS-CoV-2、SARS-CoV和MERS-CoV都屬于冠狀病毒,三者的入侵機(jī)制相似,例如,SARS-CoV-2和SARS-CoV都是通過(guò)病毒S蛋白和人類細(xì)胞的ACE2結(jié)合,三種病毒和細(xì)胞融合過(guò)程需要酸性條件,都需要宿主蛋白酶(TMPRSS2)激活,都需要組織蛋白酶B和L完成病毒內(nèi)吞等。所以,在藥物篩選過(guò)程中,可以根據(jù)病毒入侵過(guò)程的相似性進(jìn)行藥物的初步篩選;在SARS-CoV和MERS-CoV治療中,使用磷酸氯喹上調(diào)病毒和細(xì)胞融合所需的pH值及干擾細(xì)胞糖基化來(lái)阻止病毒感染,使用卡莫司他干擾病毒蛋白激活,使用阿洛司他丁干擾阻礙病毒內(nèi)吞。因此,根據(jù)病毒入侵過(guò)程的相似性,磷酸氯喹、卡莫司他和阿洛司他丁可以作為SARS-CoV-2疾病的初篩藥物,臨床數(shù)據(jù)也表明這些藥物對(duì)COVID-19具有一定療效。
根據(jù)以上分析,可以直觀地發(fā)現(xiàn)通過(guò)事件本體將病毒入侵機(jī)制進(jìn)行知識(shí)結(jié)構(gòu)化表示是有必要的。通過(guò)本文提出的醫(yī)學(xué)知識(shí)本體模型對(duì)SARS-CoV-2入侵心肌細(xì)胞的整個(gè)過(guò)程采用動(dòng)態(tài)事件本體形式進(jìn)行知識(shí)結(jié)構(gòu)化表示,可以驗(yàn)證本文提出的基于事件本體的醫(yī)學(xué)知識(shí)結(jié)構(gòu)化表示方法能夠更加全面、規(guī)范地描述醫(yī)學(xué)知識(shí)并清晰地組織醫(yī)學(xué)事件,對(duì)于快速了解疾病的發(fā)病原因、發(fā)病過(guò)程以及藥物初篩都具有非常重要的作用。
醫(yī)學(xué)是一門嚴(yán)謹(jǐn)?shù)目茖W(xué),僅將疾病、藥物、化學(xué)成分、蛋白質(zhì)、基因等實(shí)體進(jìn)行簡(jiǎn)單的關(guān)聯(lián)遠(yuǎn)遠(yuǎn)不夠,還要將其參與的主要的作用機(jī)制進(jìn)行知識(shí)結(jié)構(gòu)化描述,只有這樣,計(jì)算機(jī)才能更加完整地對(duì)醫(yī)學(xué)知識(shí)進(jìn)行深層次理解,才能更好地為醫(yī)學(xué)診斷、治療和防控發(fā)揮積極的借鑒和指導(dǎo)作用,更好地為循證醫(yī)學(xué)提供語(yǔ)義化技術(shù)手段。
目前,深度學(xué)習(xí)等方法被廣泛用于提升知識(shí)服務(wù)精度,但嚴(yán)重依賴于計(jì)算機(jī)對(duì)知識(shí)粒度的理解能力和區(qū)分能力,通過(guò)本體等知識(shí)結(jié)構(gòu)化組織方式,將不同知識(shí)結(jié)構(gòu)單元及其之間的關(guān)聯(lián)關(guān)系進(jìn)行規(guī)范化和概念化,使計(jì)算機(jī)能夠模擬人類邏輯思維,這為實(shí)現(xiàn)醫(yī)學(xué)知識(shí)計(jì)算、知識(shí)推理等智能服務(wù)奠定了語(yǔ)義基礎(chǔ)。
基于“概念”知識(shí)表示單元無(wú)法全面揭示復(fù)雜的醫(yī)學(xué)知識(shí),通過(guò)引入“事件”知識(shí)表示單元,能夠更好地組織和表示醫(yī)學(xué)文本中具有敘事性特征的文本,使計(jì)算機(jī)和人類能夠更加系統(tǒng)地基于人類邏輯思維理解和推理醫(yī)學(xué)知識(shí)。因此,本文以“事件”為知識(shí)表示單元,引入動(dòng)態(tài)性作用機(jī)制,提出醫(yī)學(xué)敘事性文本的概念,并在此基礎(chǔ)上展開(kāi)一系列探討。首先,從宏觀層面設(shè)計(jì)了基于敘事性文本的醫(yī)學(xué)知識(shí)庫(kù)構(gòu)建流程,清晰地闡明了從數(shù)據(jù)收集到醫(yī)學(xué)知識(shí)庫(kù)構(gòu)建再到醫(yī)學(xué)知識(shí)挖掘等階段性任務(wù)目標(biāo),即如何將非結(jié)構(gòu)化醫(yī)學(xué)文本數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化醫(yī)學(xué)數(shù)據(jù)并應(yīng)用于具體現(xiàn)實(shí)場(chǎng)景。其次,根據(jù)是否具有敘事性特征,本文將醫(yī)學(xué)文本分為醫(yī)學(xué)敘事性文本和醫(yī)學(xué)概念性文本,并在此基礎(chǔ)上分別形式化定義醫(yī)學(xué)動(dòng)態(tài)事件本體模型和醫(yī)學(xué)靜態(tài)概念本體模型,這為醫(yī)學(xué)知識(shí)結(jié)構(gòu)化表示的進(jìn)一步發(fā)展奠定了理論基礎(chǔ),有助于提高醫(yī)學(xué)知識(shí)深層次表示的完整性、全面性、系統(tǒng)性,為實(shí)現(xiàn)醫(yī)學(xué)智能服務(wù)提供理論支撐。接著,本文分別對(duì)醫(yī)學(xué)動(dòng)態(tài)事件和醫(yī)學(xué)靜態(tài)概念進(jìn)行本體建模,通過(guò)結(jié)合已有醫(yī)學(xué)本體,對(duì)醫(yī)學(xué)概念性文本中存在實(shí)體和實(shí)體關(guān)系進(jìn)行語(yǔ)義建模和表示,通過(guò)事件知識(shí)表示單元對(duì)醫(yī)學(xué)敘事性文本中存在的事件、事件間關(guān)系進(jìn)行語(yǔ)義建模和表示,從而嚴(yán)格定義和區(qū)分醫(yī)學(xué)文本中存在的靜態(tài)知識(shí)和動(dòng)態(tài)知識(shí),兩者通過(guò)事件元素和概念實(shí)體之間的對(duì)應(yīng)關(guān)系建立關(guān)聯(lián),進(jìn)而實(shí)現(xiàn)醫(yī)學(xué)知識(shí)本體模型構(gòu)建。最后,根據(jù)本文提出的醫(yī)學(xué)知識(shí)本體模型構(gòu)建框架,以構(gòu)建SARS-CoV-2病毒入侵過(guò)程本體模型為案例,分別從靜態(tài)概念和動(dòng)態(tài)事件兩個(gè)維度對(duì)病毒入侵過(guò)程進(jìn)行結(jié)構(gòu)化、語(yǔ)義化描述和表示。通過(guò)標(biāo)注結(jié)果說(shuō)明本文提出的醫(yī)學(xué)知識(shí)本體模型能夠更好地考慮醫(yī)學(xué)本體與學(xué)術(shù)社交網(wǎng)絡(luò)本體之間的關(guān)聯(lián)關(guān)系,能夠更加完整地表達(dá)敘事性醫(yī)學(xué)知識(shí),能夠更好地揭示語(yǔ)義結(jié)構(gòu)特征,能夠?yàn)樗幬锍鹾Y等提供支持。
本文的價(jià)值在于提出一種面向事件知識(shí)表示單元的醫(yī)學(xué)知識(shí)本體組織方法,為探索基于智能醫(yī)學(xué)數(shù)據(jù)環(huán)境下醫(yī)學(xué)知識(shí)挖掘任務(wù)提供底層數(shù)據(jù)支持,為醫(yī)學(xué)智能化服務(wù)奠定理論基礎(chǔ),其有助于提高醫(yī)學(xué)知識(shí)檢索效率和推動(dòng)醫(yī)學(xué)知識(shí)的普及,同時(shí)有助于提升醫(yī)學(xué)知識(shí)的深層次利用,通過(guò)知識(shí)推理、知識(shí)挖掘任務(wù)提高疾病預(yù)防和治療水平,從而真正發(fā)揮醫(yī)學(xué)大數(shù)據(jù)背后隱藏的數(shù)據(jù)價(jià)值。
在未來(lái)的研究中,我們將基于醫(yī)學(xué)知識(shí)本體模型,采用機(jī)器學(xué)習(xí)等方法實(shí)現(xiàn)病毒致病過(guò)程本體知識(shí)庫(kù)自動(dòng)構(gòu)建,從而基于知識(shí)組織方式還原病毒感染機(jī)體的全過(guò)程,為病毒感染性疾病提供標(biāo)準(zhǔn)化的人和計(jì)算機(jī)可解釋的注釋,并在此基礎(chǔ)上,為支持循證醫(yī)學(xué)研究和實(shí)現(xiàn)藥物發(fā)現(xiàn)等智能推薦任務(wù)提供可能。同時(shí),基于醫(yī)學(xué)學(xué)術(shù)社交網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)充分考慮論文的質(zhì)量、影響力以及根據(jù)學(xué)者發(fā)表論文情況計(jì)算學(xué)者對(duì)不同醫(yī)學(xué)實(shí)體的關(guān)注程度,發(fā)現(xiàn)擁有共同興趣的研究團(tuán)隊(duì),為疫情期間合理、高效、有組織地開(kāi)展醫(yī)學(xué)研究提供人力資源決策支持。