李曉瑛,李丹亞,夏光輝,李軍蓮,胡鐵軍
(中國醫(yī)學科學院醫(yī)學信息研究所,北京 100020)
腫瘤本體構(gòu)建研究*
李曉瑛,李丹亞,夏光輝,李軍蓮,胡鐵軍
(中國醫(yī)學科學院醫(yī)學信息研究所,北京 100020)
在借鑒已有疾病本體描述框架的基礎(chǔ)上,復(fù)用權(quán)威醫(yī)學知識組織系統(tǒng)中腫瘤相關(guān)概念及內(nèi)容結(jié)構(gòu),從腫瘤(名稱)、病因、診斷、治療四個維度構(gòu)建腫瘤本體;此外,探討一種基于生物醫(yī)學文獻主題標引詞的語義關(guān)系發(fā)現(xiàn)方法,用于豐富腫瘤本體類間關(guān)系及擴充腫瘤本體知識庫;最后,利用Protégé本體構(gòu)建工具,嘗試構(gòu)建呼吸系統(tǒng)腫瘤本體,以期為構(gòu)建大規(guī)模腫瘤本體及其它領(lǐng)域本體提供一些有價值的參考與實踐。
領(lǐng)域本體;腫瘤本體;知識組織系統(tǒng);語義關(guān)系發(fā)現(xiàn)
在信息科學中,普遍認為本體是共享概念模型的明確的形式化規(guī)范說明[1]。本體連同敘詞表、分類表、詞典等其它類型的語義工具,統(tǒng)稱為知識組織系統(tǒng);不同之處在于,本體興起于網(wǎng)絡(luò)信息化時代,其核心作用不只限于定義某一特定學科領(lǐng)域的權(quán)威概念名稱(術(shù)語)及其之間的相互關(guān)系,并且需要無障礙地在人、計算機等不同主體之間進行對話、互操作、共享等語義交流,是語義網(wǎng)發(fā)展的基礎(chǔ)與核心。通常,依據(jù)本體中概念的主題領(lǐng)域這一維度,可將本體分為四種類型:領(lǐng)域本體、通用本體、應(yīng)用本體及表示本體[2]。其中,領(lǐng)域本體是一種描述特定領(lǐng)域知識的專用本體,旨在對某一領(lǐng)域的重要概念、屬性以及概念間關(guān)系給出一種形式化說明;在網(wǎng)絡(luò)信息資源管理中,領(lǐng)域本體起到語義導(dǎo)航、語義檢索、語義標注及術(shù)語服務(wù)等多種重要作用[3]。例如,在生物醫(yī)學領(lǐng)域,疾病本體可看作一種利用本體描述語言所建立的疾病知識庫,其在很大程度上提高了計算機解讀和理解與疾病知識相關(guān)的詞匯和語義的能力。
目前,隨著本體理論研究的逐步完善,國內(nèi)外許多研究機構(gòu)嘗試開展各種類型的疾病本體構(gòu)建研究。其中,最著名的疾病領(lǐng)域本體是由美國西北大學基因藥物中心與馬里蘭大學醫(yī)學院基因組科學研究所聯(lián)合開發(fā)的人類疾病本體(Disease Ontology,DO)[4];DO通過對人類疾病的名稱、表型特征進行本體化描述,旨在提供一個具有高度一致性、可重用性及可持續(xù)發(fā)展的醫(yī)學疾病類詞典;此外,DO已完成與《醫(yī)學主題詞表》(Medical Subject Headings,MeSH)[5]、《國際疾病分類法》(International Classification of Diseases,ICD)、《NCI敘詞表》(NCI thesaurus,NCIt)、《國際系統(tǒng)醫(yī)學術(shù)語集》(Systematized Nomenclature of Medicine,SNOMED)、《在線人類孟德爾遺傳數(shù)據(jù)庫》(Online Mendelian Inheritance in Man,OMIM)之間的語義精確互映射,從而促進了各種疾病及相關(guān)健康知識向特定醫(yī)學代碼的映射。澳大利亞科廷科技大學研發(fā)的人類疾病類本體(Generic Human Disease Ontology)[6],從疾病類型、表型、病因、治療四個維度進行建模,旨在向醫(yī)師及醫(yī)學研究人員提供可供計算機直接操作的人類疾病信息,以支持其開展各種醫(yī)學分析及應(yīng)用研究。在國內(nèi),軍事醫(yī)學科學院解放軍醫(yī)學圖書館的郭會雨等人[7]依據(jù)斯坦福大學醫(yī)學院的本體構(gòu)建七步法,通過復(fù)用《醫(yī)學知識庫》、一體化醫(yī)學語言系統(tǒng)(Unified Medical Language System,UMLS)[8]、《醫(yī)學主題詞表》及《ICD-10 中國疾病診斷標準數(shù)據(jù)庫》(ICD-10 Diagnosis Standard Database of China,DSDC)等已有的領(lǐng)域資源,在Protégé本體構(gòu)建及編輯平臺上構(gòu)建出包含疾病領(lǐng)域重要術(shù)語(本體類)、術(shù)語間等級關(guān)系、等同關(guān)系、部分整體關(guān)系(本體類間關(guān)系)、優(yōu)選名稱、別名、定義、代碼等屬性(本體屬性)的疾病領(lǐng)域本體;然而該領(lǐng)域本體構(gòu)建過程較多依賴領(lǐng)域?qū)<沂止⑴c完成,隨著當前大數(shù)據(jù)時代的到來,這種手工化本體構(gòu)建工作急需向自動化處理轉(zhuǎn)變。
作為疾病知識庫,上述大規(guī)模的疾病領(lǐng)域本體比較全面地覆蓋了重要的疾病概念,但就某一具體的疾病而言,其所揭示的領(lǐng)域知識可能并不深入;再者,對于疾病的描述,是一門綜合了臨床醫(yī)學、解剖學、藥學等多個領(lǐng)域的交叉學科,疾病知識中所涉及概念的分類與界定、概念間關(guān)系的梳理與獲取存在很大的困難;另外,隨著疾病知識擴充、更新、刪除等知識演化,疾病本體的版本更新及維護亦將花費不菲的工作量。因此,越來越多地研究者開始關(guān)注體量較小但內(nèi)容精細的疾病專題本體構(gòu)建工作,例如傳染病本體。其中,國際上具有較高影響力的傳染病本體有日本國家信息研究所開發(fā)的公共衛(wèi)生領(lǐng)域疫情監(jiān)測本體(BioCaster)[9]、美國開放生物醫(yī)學本體(Open Biomedical Ontologies,OBO)項目中的傳染病本體(Infectious Disease Ontology,IDO)[10];BioCaster通過規(guī)范多種語種的傳染病術(shù)語,構(gòu)建傳染病知識庫,用于對各地區(qū)關(guān)于疾病傳播的網(wǎng)絡(luò)信息及其它網(wǎng)絡(luò)資源進行持續(xù)跟蹤與數(shù)據(jù)挖掘。而IDO本體通過構(gòu)建一套相互之間可互操作的傳染病知識庫,促進了醫(yī)學領(lǐng)域知識的整合。國內(nèi)中國醫(yī)學科學院醫(yī)學信息研究所方安等人[11]針對當前傳染病本體構(gòu)建中存在的一致性差和共享困難等問題,在借鑒UMLS語義網(wǎng)絡(luò)的基礎(chǔ)上構(gòu)建傳染病本體,進而搭建知識服務(wù)平臺,提供與傳染病相關(guān)的知識瀏覽和知識檢索等知識服務(wù)。
與傳染病相比,腫瘤也是人類疾病中一個不容忽視的組成部分,國外最為著名的腫瘤本體即美國開放生物醫(yī)學本體中以網(wǎng)絡(luò)本體語言(Web Ontology Language,OWL)描述的《NCI敘詞表》[10]。然而,就目前文獻調(diào)研情況來看,國內(nèi)尚未深入開展腫瘤本體構(gòu)建研究。作為國家“十二五”科技支撐計劃課題“面向外文科技文獻的超級科技詞表和本體構(gòu)建研究”的主要內(nèi)容和任務(wù)之一,本研究借鑒已有疾病本體的構(gòu)建模式[6],在復(fù)用《國際系統(tǒng)醫(yī)學術(shù)語集-臨床術(shù)語》(Systematized Nomenclature of Medicine - Clinical Terms,SNOMED CT)[12]、UMLS等權(quán)威醫(yī)學知識組織系統(tǒng)資源的基礎(chǔ)上,以呼吸系統(tǒng)腫瘤為例,對構(gòu)建腫瘤領(lǐng)域本體的完整過程進行研究與實踐。此外,對于已有知識組織系統(tǒng)中所缺少的語義關(guān)系,本研究嘗試從生物醫(yī)學文獻的主題標引詞中進行發(fā)現(xiàn),以期完善腫瘤本體知識庫,全面呈現(xiàn)腫瘤知識。
在充分考慮臨床上常用的腫瘤信息及借鑒已有疾病本體描述框架[6]的基礎(chǔ)上,從腫瘤(名稱)、病因、診斷、治療四個維度構(gòu)建腫瘤本體模型(見下圖1);其中,腫瘤及腫瘤子類指腫瘤概念及下位概念名稱。病因與腫瘤之間存在引發(fā)的關(guān)系,包含遺傳因素及環(huán)境因素等;遺傳因素包括基因、DNA序列,環(huán)境因素又分為化學物質(zhì)、微生物(如細菌、病毒)等。診斷指從醫(yī)學角度對人體健康狀況所做出的判斷,與腫瘤之間存在臨床發(fā)現(xiàn)關(guān)系,一般涉及兩方面:發(fā)現(xiàn)部位和體征;發(fā)現(xiàn)部位即人體解剖結(jié)構(gòu),體征主要指人體主觀上的異常感覺或客觀上身體解剖部位的病態(tài)改變。治療通常指臨床上干預(yù)或改變?nèi)梭w健康狀態(tài)的手段或過程,包括藥物治療、手術(shù)、放射療法等。
圖1 腫瘤本體模型
類、關(guān)系、屬性是本體中最重要的三個元素,亦是本研究中構(gòu)建腫瘤本體的三個關(guān)鍵步驟(見下圖2),期間涉及從已有知識組織系統(tǒng)中復(fù)用與腫瘤相關(guān)的概念及概念關(guān)系,從PubMed/Medline生物醫(yī)學文獻數(shù)據(jù)庫[13]中發(fā)現(xiàn)語義關(guān)系等多個環(huán)節(jié)。
圖2 腫瘤本體構(gòu)建過程
4.1構(gòu)建腫瘤本體類
與敘詞表、分類表等類型的知識組織系統(tǒng)相比,本體的一個顯著特征是對領(lǐng)域知識的共享與復(fù)用。在腫瘤本體的構(gòu)建過程中,腫瘤相關(guān)概念并非利用關(guān)鍵詞抽取技術(shù)從生物醫(yī)學資源中收集和篩選,而是直接復(fù)用已有的醫(yī)學知識組織系統(tǒng)SNOMED CT。至今,SNOMED CT是國際上公認的最全面、最準確的臨床術(shù)語集,是一部經(jīng)過系統(tǒng)組織編排的、易于計算機處理的醫(yī)學術(shù)語集,涵蓋了絕大部分的臨床信息。構(gòu)建SNOMED CT的初衷,是使不同的臨床醫(yī)生、研究人員、醫(yī)療衛(wèi)生機構(gòu)及其它使用者在指陳同一臨床事物時所采用的臨床術(shù)語能進行交互,從而實現(xiàn)臨床信息交換。就歷史沿革而言,SNOMED CT發(fā)展于1974年美國病理學會編著出版的SNOMED,并逐漸形成SNOMED RT(參考術(shù)語集),之后于2002年和英國國家衛(wèi)生服務(wù)部的《臨床術(shù)語》(Clinical Terms,又稱Read Codes)進行融合形成;自2007年開始,SNOMED CT版權(quán)歸國際衛(wèi)生術(shù)語標準制定組織。
在數(shù)據(jù)結(jié)構(gòu)上,概念表、描述表、關(guān)系表是SNOMED CT體系結(jié)構(gòu)中的三個重要部件[14];其中,概念表收錄了包括身體結(jié)構(gòu)、疾病、臨床發(fā)現(xiàn)、操作、有機體、藥品等19個頂級概念軸中約30萬條具有唯一含義、并且經(jīng)過邏輯定義的概念;描述表收錄了約80萬條能夠代表某個具體概念的術(shù)語(概念優(yōu)選名稱)及其概念同義詞;關(guān)系表包括約136萬條以三元組格式存儲的語義關(guān)系;這三種數(shù)據(jù)文件,為腫瘤本體構(gòu)建中本體類的獲取提供了有力支持。具體而言,首先通過關(guān)系表中的直接上下位關(guān)系及概念表,獲取SNOMED CT中腫瘤及其下位腫瘤概念數(shù)據(jù),用于構(gòu)建腫瘤類;其次,通過關(guān)系表中已有的引發(fā)、發(fā)現(xiàn)、治療等語義關(guān)系,同時結(jié)合直接上下位關(guān)系及概念表,獲取相應(yīng)的病因、診斷、藥物、手術(shù)等概念(及其下位概念),這些概念共同構(gòu)成了腫瘤本體類;其中,腫瘤是本研究的核心類。
4.2構(gòu)建腫瘤本體關(guān)系
語義關(guān)系是對領(lǐng)域概念知識的組織,也是知識組織系統(tǒng)構(gòu)建中的重要內(nèi)容。本研究中,腫瘤本體類間關(guān)系首先從SNOMED CT關(guān)系表中已有的語義關(guān)系中獲取,包括等級關(guān)系、引發(fā)、發(fā)現(xiàn)、治療等;圖3是從SNOMED CT關(guān)系表中獲得的與肺腫瘤(lung neoplasm)有關(guān)的語義關(guān)系,包括等級關(guān)系(is_a)、發(fā)現(xiàn)部位(finding_site_of)等。之后,復(fù)用UMLS超級敘詞表(Metathesaurus)中與腫瘤有關(guān)的語義關(guān)系數(shù)據(jù)。UMLS超級敘詞表是生物醫(yī)學領(lǐng)域概念、術(shù)語、涵義及語義關(guān)系的廣泛集成,整合自SNOMED CT、MeSH、NCIt等160多部知識組織系統(tǒng),概念數(shù)達300萬;超級敘詞表除對多部異構(gòu)來源表中表達同一內(nèi)涵的多個術(shù)語以相同概念唯一標識符(Concept Unique Identifier,CUI,見MRCONSO概念表)進行整合外,亦保留和繼承了來源表中的其它語義關(guān)系(見MRREL關(guān)系表)。因此,對腫瘤本體構(gòu)建工作而言,可借助超級敘詞表CUI,查找到UMLS其它來源詞表中腫瘤相關(guān)概念的術(shù)語表達形式以及相應(yīng)的語義關(guān)系,進而復(fù)用到腫瘤本體關(guān)系中。
圖3 SNOMED CT中關(guān)于肺腫瘤的語義關(guān)系
盡管SNOMED CT與UMLS中已有一些語義關(guān)系,但經(jīng)過分析后發(fā)現(xiàn),疾病與藥物之間重要的治療關(guān)系相對較少。因而,本研究將通過語義發(fā)現(xiàn)技術(shù),從文獻科學數(shù)據(jù)中獲取更多的語義關(guān)系,用于豐富腫瘤本體關(guān)系。PubMed/Medline是由美國國立醫(yī)學圖書館研發(fā)的大型開放型生物醫(yī)學文獻數(shù)據(jù)庫,公眾可自由獲取全文文獻及其基于MeSH詞表的主題標引詞。MeSH詞表中約有包含疾病、病因、診斷、治療等在內(nèi)的2萬個主題詞,以及藥物療法、投藥&劑量、治療應(yīng)用等90個副主題詞,PubMed/Medline主題標引結(jié)果便是通過MeSH主題詞與副主題詞組配實現(xiàn);例如一篇論證吉非替尼(Gefitinib)治療肺癌的文章,在利用MeSH詞表進行主題標引后,標引詞即為“吉非替尼/投藥&劑量(或治療應(yīng)用)”以及“肺癌/藥物療法”。而基于這種MeSH主題詞與副主題詞組配的主題標引詞便可發(fā)現(xiàn)腫瘤與藥物之間的治療關(guān)系。另外,在對生物醫(yī)學文獻進行主題標引時,標引員通常采用為所標引的文獻主題詞打星號的方式區(qū)分主要標引詞,即加權(quán)標引;亦即,帶有星號的標引詞為文獻重點討論內(nèi)容,最能表達文獻主題;進而基于帶星號的標引詞所推導(dǎo)出的語義關(guān)系不僅關(guān)鍵而且準確,因為文獻最核心概念一般很少標錯。進一步結(jié)合發(fā)現(xiàn)某一對具體關(guān)系的文獻數(shù),即該關(guān)系的出現(xiàn)頻次(或稱共獻率),可對腫瘤治療關(guān)系的發(fā)現(xiàn)結(jié)果進行篩選及過濾,提高腫瘤本體關(guān)系的可靠性與準確性。圖4是從PubMed主題標引文獻中,發(fā)現(xiàn)的與肺腫瘤相關(guān)的語義關(guān)系,包括引發(fā)(cause_of)、診斷(diagnose_of)、藥物治療(drug_therapy_of)、手術(shù)(surgery_of)、放射療法(radiotherapy_of)等多種類型。
4.3添加腫瘤本體屬性
圖4 從PubMed主題標引文獻中發(fā)現(xiàn)肺腫瘤關(guān)系
對知識組織系統(tǒng)而言,屬性是對概念深層次的描述。在腫瘤本體中,本體屬性對理解腫瘤概念內(nèi)涵、揭示腫瘤領(lǐng)域知識起到非常重要的作用。經(jīng)過對疾病領(lǐng)域知識的分析,本研究著重構(gòu)建的腫瘤本體屬性包括:(1)概念同義詞:通常也稱為入口詞(概念優(yōu)選名稱已作為本體類名);(2)中文名稱:即腫瘤本體類名的中譯名,中英文雙語對照的本體類名有助于理解腫瘤領(lǐng)域知識及掌握醫(yī)學術(shù)語;(3)語義類型:即腫瘤(名稱)、病因、診斷、治療等相關(guān)概念所對應(yīng)的范疇類目,用于對腫瘤本體中所有概念進行統(tǒng)一分類,例如肺腫瘤的語義類型為腫瘤發(fā)生(Neoplastic Process)。
5.1腫瘤本體構(gòu)建平臺
經(jīng)過10多年的發(fā)展,本體構(gòu)建編輯工具已逐步成熟,目前存在多種具有較高影響力的本體構(gòu)建工具,如美國南加利福尼亞大學于1990年發(fā)布的Ontosaurus、英國開放大學于1997年開發(fā)的WebOnto等;其中,使用最廣泛、最受關(guān)注的工具是美國斯坦福大學生物醫(yī)學信息研究中心開發(fā)的Protégé[15]。相比而言,Protégé具有以下優(yōu)勢:
(1)開放資源,支持在線及本地兩種使用模式,且用戶可免費、輕松獲取其本地版工具;
(2)支持平臺手工編輯本體及基于Java編程語言的本體自動生成,界面及Java源碼風格簡單友好,易學易用;
(3)支持以O(shè)WL、RDF、XML等多種方式存儲本體文件,且可在不同本體格式之間相互轉(zhuǎn)化;
(4)集成了OWLViz、OntoGraf等多種可視化插件,便于直觀瀏覽本體元素,且支持將可視化結(jié)果保存為圖形格式;
(5)持續(xù)更新,功能日益完善并增多,受到全球24.5萬用戶的信賴。
然而,Protégé亦存在一些不足,主要體現(xiàn)在:(1)同時只能打開一個本體,不支持多個本體之間的匹配、合并、復(fù)用;(2)基于Java編程語言的本體自動生成,所能處理的數(shù)據(jù)量相當有限,極大地影響了大型本體的開發(fā)工作。因此,本研究選擇以腫瘤的一個分支,以呼吸系統(tǒng)腫瘤本體為例,生成輕量級專題領(lǐng)域本體,從而對構(gòu)建腫瘤本體的整個過程進行實踐探索,以期為今后大規(guī)模腫瘤本體及其它領(lǐng)域本體構(gòu)建工作提供一些有價值的借鑒。
5.2腫瘤本體構(gòu)建成果
鑒于Protégé本體構(gòu)建平臺無法支持大數(shù)據(jù)量的腫瘤本體構(gòu)建工作,本研究最終選用呼吸系統(tǒng)腫瘤這一分支進行嘗試,以期為大規(guī)模腫瘤領(lǐng)域本體的構(gòu)建做好前期實踐探索。經(jīng)統(tǒng)計,呼吸系統(tǒng)腫瘤本體共包含腫瘤(Tumor)、身體系統(tǒng)結(jié)構(gòu)(Body System Structure)、身體組織結(jié)構(gòu)(Body Tissue Structure)、基因(Gene)、細胞結(jié)構(gòu)(Cell Structure)、物質(zhì)(Substance)等9個本體大類,以及良性呼吸系統(tǒng)腫瘤(Benign neoplasm of respiratory system)、惡性呼吸系統(tǒng)腫瘤(Malignant neoplasm of respiratory system)等3900個下位類(見下圖5本體類等級導(dǎo)航)。
圖5 呼吸系統(tǒng)腫瘤本體類等級導(dǎo)航
圖6 呼吸系統(tǒng)腫瘤本體可視化示例
此外,呼吸系統(tǒng)腫瘤本體包含等級(is a)、發(fā)現(xiàn)部位(has finding site)、治療(be treated by)等9種本體關(guān)系類型(見下圖10),共3000多條本體關(guān)系。借助本體可視化插件,可直觀瀏覽這些關(guān)系。如下圖6所示,呼吸道腫瘤(Neoplasm of respiratory tract)的直接上位(is a)是腫瘤(Tumor),直接下位類共有8個,包括良性呼吸道腫瘤(Benign neoplasm of respiratory tract)、上呼吸道腫瘤(Neoplasm of upperrespiratory tract)、下呼吸道腫瘤(Neoplasm of lowerrespiratory tract)等,發(fā)病于(has finding site)呼吸道結(jié)構(gòu)(Respiratory tract structure),與腫瘤細胞(Neoplastic Cell)之間存在異常細胞(disease has abnormal cell)關(guān)系,通常用藥物喹唑啉(Quinazoline)進行治療(be treated by)。
另外,可在Protégé本體平臺上,瀏覽呼吸系統(tǒng)腫瘤本體的概念同義詞、中文名稱、語義類型等本體屬性信息。如下圖7所示, Neoplasm of lower respiratory tract的概念同義詞有Tumor of lower respiratory tract、Tumour of lower respiratory tract、Neoplasm of lower respiratory tract (disorder),中文名稱為下呼吸道腫瘤,語義類型為腫瘤發(fā)生(Neoplastic Process)。這些重要屬性可看作對呼吸系統(tǒng)腫瘤本體類的輔助說明,有助于用戶更好地理解呼吸系統(tǒng)腫瘤概念。
圖7 呼吸系統(tǒng)腫瘤本體屬性示例
領(lǐng)域本體是領(lǐng)域概念及概念間詳細關(guān)系的一種形式化描述,是語義網(wǎng)發(fā)展的重要基礎(chǔ)。鑒于從領(lǐng)域資源中重新獲取領(lǐng)域概念是一件十分困難且效果未必理想的工作,復(fù)用權(quán)威知識組織系統(tǒng)中的概念及其語義關(guān)系是當前領(lǐng)域本體構(gòu)建中的重要內(nèi)容。本研究即是在規(guī)劃腫瘤領(lǐng)域本體基本模型的基礎(chǔ)上,探討了通過復(fù)用SNOMED CT、UMLS等具有較高影響力的醫(yī)學知識組織系統(tǒng)中腫瘤相關(guān)概念及內(nèi)容結(jié)構(gòu),構(gòu)建腫瘤專題領(lǐng)域本體。此外,對于已有知識組織系統(tǒng)中存在較少的關(guān)于腫瘤治療方面的語義關(guān)系,本研究提出了一種基于PubMed/Medline生物醫(yī)學文獻主題標引詞的語義關(guān)系發(fā)現(xiàn)方法。最后,以呼吸系統(tǒng)腫瘤本體為例,在Protégé本體構(gòu)建平臺上,完成了呼吸系統(tǒng)腫瘤本體構(gòu)建工作,這為大規(guī)模腫瘤本體及其它領(lǐng)域本體構(gòu)建工作提供了一定的實踐經(jīng)驗。然而,就目前腫瘤本體構(gòu)建情況而言,在今后的工作中,還需進行更深入的研究和拓展,例如全面構(gòu)建大規(guī)模腫瘤本體,探討客觀有效的本體性能和質(zhì)量評價指標及方法等。
[1] Studer R, Benjamins V R, Fensel D. Knowledge engineering: principles and methods [J]. Data & Knowledge Engineering, 1998,25(1):161-197.
[2] Van Heijst, Th.Schreiber, Wielinga J. Using explicit ontologies in KBS development [J]. International Journal of Human Computer Studies, 1997, 46(2-3):183-292.
[3] 何琳. 領(lǐng)域本體的半自動構(gòu)建及檢索研究[M]. 南京:東南大學出版社,2009:32-36.
[4] Disease Ontology[EB/OL]. [2015-06-22]. http://www.diseaseontology.org/.
[5] Medical Subject Headings [EB/OL]. [2014-09-08]. http://www.nlm. nih.gov/mesh/MBrowser.html.
[6] Hadzic Maja, Chang Elizabeth. Ontology-based Support for Human Disease Study[C]. Proceedings of the 38th Hawaii International Conference on System Sciences, 2005.
[7] 郭會雨, 張文舉, 李娜. 疾病領(lǐng)域本體模型構(gòu)建研究[J]. 預(yù)防醫(yī)學情報雜志, 2011,27(6):460-465.
[8] UMLS Home [EB/OL]. [2015-05-11]. http://www.nlm.nih.gov/ research/umls/.
[9] Collier N, Kawazoe A, Jin L, et.al. A multilingual ontology for infectious disease surveillance: rationale, design and challenges [J]. Language resources and evaluation, 2007, 40(3-4):405-413.
[10]The Open Biological and Biomedical Ontologies [EB/OL].[2015-07-02].http://www.obofoundry.org/.
[11]方安,洪娜,高東平,等. 傳染病本體構(gòu)建及其在知識服務(wù)平臺中的應(yīng)用[J]. 現(xiàn)代圖書情報技術(shù), 2012(1):7-12.
[12]SNOMED CT[EB/OL]. [2015-07-01].http://www.ihtsdo.org/snomedct.
[13]PubMed[EB/OL]. [2015-07-01].http://www.ncbi.nlm.nih.gov/ pubmed/.
[14]李丹亞,李軍蓮,李曉瑛,等. 醫(yī)學知識組織體系發(fā)展現(xiàn)狀及研究重點[J]. 數(shù)字圖書館論壇, 2012(12):13-21.
[15]Protégé[EB/OL]. [2015-07-01].http://protege.stanford.edu/.
李丹亞,女,中國醫(yī)學科學院醫(yī)學信息研究所研究員,研究方向:知識組織、資源建設(shè)。
夏光輝,男,碩士,中國醫(yī)學科學院醫(yī)學信息研究所助理研究員,研究方向:知識組織。
李軍蓮,女,碩士,中國醫(yī)學科學院醫(yī)學信息研究所副研究館員,研究方向:知識組織、資源建設(shè)。
胡鐵軍,男,中國醫(yī)學科學院醫(yī)學信息研究所研究員,研究方向:資源建設(shè)。
Research on the Construction of Tumor Ontology
LI XiaoYing, LI DanYa, XIA GuangHui, LI JunLian, HU TieJun
(Institute of Medical Information, Chinese Academy of Medical Sciences, Beijing 100020, China)
Based on the known disease ontologies and tumor related concepts in several famous medical knowledge organization systems, this paper intends to construct the tumor ontology from 4 dimensions: tumors (names), pathogenic factors, diagnoses and treatments. In order to increase the relations of tumor ontology as well as the tumor knowledge, this paper also presents an algorithm to find the semantic relations from indexed biomedical papers. Finally, this paper uses protégé to build the tumor of respiratory system ontology, and aims to provide some helpful information for the construction of generic tumor ontology and other domain ontologies.
Domain Ontology; Tumor Ontology; Knowledge Organization System; Semantic Relation Finding
G254
10.3772/j.issn.1673-2286.2015.08.007
李曉瑛,女,博士,中國醫(yī)學科學院醫(yī)學信息研究所助理研究員,研究方向:知識組織,E-mail:lixiaoying@imicams.ac.cn。
2015-07-10;編輯:雷雪)
* 本研究得到十二五國家科技支撐計劃課題“面向外文科技文獻的超級科技詞表和本體構(gòu)建研究”(編號:2011BAH10B01)資助。