郭靖文 楊 晟 史涪仁 邵 晨 張璐璐 王 恒 楊嘯林
(中國(guó)醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所,北京協(xié)和醫(yī)學(xué)院基礎(chǔ)學(xué)院,北京 100005)
MedPortal:面向精準(zhǔn)醫(yī)學(xué)的生物醫(yī)學(xué)本體資源存儲(chǔ)和應(yīng)用平臺(tái)
郭靖文 楊 晟 史涪仁 邵 晨 張璐璐 王 恒?楊嘯林?
(中國(guó)醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所,北京協(xié)和醫(yī)學(xué)院基礎(chǔ)學(xué)院,北京 100005)
在過(guò)去10余年中,本體廣泛應(yīng)用于生物醫(yī)學(xué)數(shù)據(jù)分析、檢索、整合和再利用中。本體作為一種特殊類型的數(shù)據(jù)資源,數(shù)據(jù)量也在迅速增加。為了促進(jìn)精準(zhǔn)醫(yī)療領(lǐng)域數(shù)據(jù)集的整合,并為國(guó)內(nèi)用戶提供本體數(shù)據(jù)資源服務(wù),構(gòu)建MedPortal本體資源存儲(chǔ)和應(yīng)用平臺(tái)。通過(guò)復(fù)用NCBO BioPortal技術(shù),搭建MedPotal軟件框架。遴選精準(zhǔn)醫(yī)學(xué)相關(guān)本體,建立本體資源庫(kù)。對(duì)原框架中的代碼和本體處理工具進(jìn)行修正和完善,使之能夠在本體穩(wěn)定運(yùn)行的基礎(chǔ)上滿足大批量數(shù)據(jù)的自動(dòng)化處理。目前,該平臺(tái)已整合42個(gè)生物醫(yī)學(xué)本體,建立了本體之間術(shù)語(yǔ)映射關(guān)系,通過(guò)頁(yè)面和REST API方式,提供術(shù)語(yǔ)檢索、本體映射、數(shù)據(jù)標(biāo)準(zhǔn)化注釋等本體應(yīng)用服務(wù)(http://medportal.bmicc.cn)。MedPortal本體平臺(tái)將為生物醫(yī)學(xué)數(shù)據(jù)整合提供幫助。
生物醫(yī)學(xué)本體;MedPortal;數(shù)據(jù)庫(kù);本體映射;本體注釋
從2013年Nature Genetics Conference(自然-遺傳學(xué)大會(huì))的主題定為From GWAS to Precision Medicine(從GWAS到精準(zhǔn)醫(yī)學(xué)),到2015年美國(guó)和中國(guó)等相繼提出精準(zhǔn)醫(yī)學(xué)計(jì)劃,精準(zhǔn)醫(yī)學(xué)——旨在針對(duì)個(gè)體制定預(yù)防和治療策略的醫(yī)學(xué)模式——逐漸成為了醫(yī)學(xué)界研究的熱點(diǎn)[1-2]。精準(zhǔn)醫(yī)學(xué)所要求的對(duì)高通量、異質(zhì)和多來(lái)源數(shù)據(jù)的使用,對(duì)數(shù)據(jù)存儲(chǔ)、管理以及計(jì)算分析提出了新的挑戰(zhàn)[3]。為了有效地整合利用基因、表型與疾病等多方面的數(shù)據(jù)來(lái)分析個(gè)體的健康狀況,需要首先對(duì)這些數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,消除數(shù)據(jù)間的多種異質(zhì)性。
本體是在一個(gè)具體的學(xué)科領(lǐng)域中,由該學(xué)科的專業(yè)術(shù)語(yǔ)與術(shù)語(yǔ)間的關(guān)系構(gòu)成的一個(gè)復(fù)雜知識(shí)網(wǎng)絡(luò)。通過(guò)本體中的標(biāo)準(zhǔn)化術(shù)語(yǔ),不同數(shù)據(jù)集中的元數(shù)據(jù)可以進(jìn)行術(shù)語(yǔ)的統(tǒng)一,進(jìn)而消除異質(zhì)性,實(shí)現(xiàn)數(shù)據(jù)的整合[4-5]。同時(shí),通過(guò)本體中標(biāo)準(zhǔn)化術(shù)語(yǔ)之間的關(guān)系,數(shù)據(jù)集中的元數(shù)據(jù)之間還可以構(gòu)建起語(yǔ)義關(guān)聯(lián),實(shí)現(xiàn)元數(shù)據(jù)內(nèi)容的索引,從而對(duì)原始數(shù)據(jù)進(jìn)行更深層次的整合、注釋、分析與挖掘等[6]。本體作為一類專業(yè)的數(shù)據(jù)資源,近些年發(fā)展迅速,國(guó)際相關(guān)機(jī)構(gòu)先后開始進(jìn)行本體資源庫(kù)的建設(shè),促進(jìn)本體的使用。例如,OBO Foundry[7]利用符合其本體標(biāo)準(zhǔn)的本體構(gòu)建了Ontobee數(shù)據(jù)庫(kù)[8],歐洲生物信息學(xué)研究所(European Bioinformatics Institute,EBI)也建立了Ontology Lookup Service本體資源平臺(tái)和查詢工具[9]。美國(guó)國(guó)家生物醫(yī)學(xué)本體中心(National Center for Biomedical Ontology,NCBO)從2005年推動(dòng)本體資源存儲(chǔ)和應(yīng)用的開源框架系統(tǒng)BioPortal[10]的建設(shè),形成了完整的本體數(shù)據(jù)的圖數(shù)據(jù)庫(kù)存儲(chǔ),并開發(fā)了本體檢索、術(shù)語(yǔ)映射、數(shù)據(jù)注釋和本體推薦等本體應(yīng)用工具。經(jīng)過(guò)近些年的發(fā)展,目前Bioportal成為國(guó)際上最大的、綜合的生命科學(xué)本體資源庫(kù),內(nèi)容涉及醫(yī)學(xué)、微生物、農(nóng)業(yè)、植物、畜牧業(yè)、環(huán)境等多個(gè)領(lǐng)域。BioPortal功能強(qiáng)大且代碼開源,國(guó)際上多個(gè)機(jī)構(gòu)利用此框架進(jìn)行專業(yè)領(lǐng)域的本體服務(wù)。
為了促進(jìn)本體在國(guó)內(nèi)精準(zhǔn)醫(yī)學(xué)項(xiàng)目中更好的應(yīng)用,同時(shí)為了引入中文本體,實(shí)現(xiàn)跨語(yǔ)言本體之間語(yǔ)義網(wǎng)絡(luò)的映射,筆者在本地部署了BioPortal的軟件框架,收集了基因、表型與疾病相關(guān)本體資源,建立了MedPortal本體資源存儲(chǔ)和應(yīng)用平臺(tái)。
BioPortal是支持虛擬社區(qū)的本體資源平臺(tái),它允許用戶進(jìn)行本體上傳和管理,提供本體瀏覽、檢索等多種使用[11],采用了面向網(wǎng)絡(luò)服務(wù)的IT構(gòu)架、模塊化的功能實(shí)現(xiàn)[12]。上傳本體經(jīng)由Python腳本umls2rdf.py[13]和 Java 類庫(kù) OWL API 4.0.2 解析成為OWL/RDF[14],再存儲(chǔ)于 4Store 1.1.5 圖數(shù)據(jù)庫(kù)中[11],搜索引擎經(jīng)由 Solr 4.10.4和 Tomcat 6.0.26實(shí)現(xiàn)。BioPortal編程語(yǔ)言主要為Ruby。
為保證本地MedPortal與NCBO BioPortal核心代碼基本同步,在部署過(guò)程中使用了先安裝BioPortal虛擬應(yīng)用、再利用Github提供的各個(gè)模塊源代碼進(jìn)行升級(jí)的策略,基本步驟如下:
步驟1:虛擬應(yīng)用的部署與測(cè)試,通過(guò)與NCBO BioPortal項(xiàng)目組聯(lián)絡(luò),獲得BioPortal虛擬機(jī)OVF格式鏡像文件,版本號(hào)為2.4,包括全套的操作系統(tǒng)(CentOS 6.6)、相應(yīng)的 BioPortal部署環(huán)境和BioPortal的軟件框架代碼[15]。根據(jù) BioPortal官網(wǎng)提供的技術(shù)文檔( https://www.bioontology.org/wiki/),在本地服務(wù)器(硬盤容量為100GB,CPU 為4核 Intel(R)Xeon(R)CPU E5-2609 0@2.40 GHz,內(nèi)存為32GB)上進(jìn)行了部署和初步調(diào)試。
步驟2:更新Ruby版本,從虛擬應(yīng)用中的2.1.5版本更新至2.2.6版本。
步驟 3:利用 Linux操作系統(tǒng)的 git工具,從Github 平臺(tái)克隆功能模塊 bioportal_web_ui(https://github.com/ncbo/bioportal_web_ui)、定時(shí)任務(wù)管理模 塊 ncbo_cron( https://github.com/ncbo/ncbo_cron)和本體核心應(yīng)用模塊 ontologies_api(https://github.com/ncbo/ontologies_api);克隆完成后,對(duì)各個(gè)模塊順利運(yùn)行所需的Ruby程序包進(jìn)行測(cè)試,依據(jù)提示進(jìn)行程序包的升級(jí)和下載安裝。
步驟4:根據(jù)本地計(jì)算機(jī)和服務(wù)需求,設(shè)置上述各功能模塊的配置文件。
步驟5:根據(jù)實(shí)際網(wǎng)絡(luò)情況,進(jìn)行網(wǎng)絡(luò)相關(guān)的參數(shù)設(shè)計(jì)并調(diào)試。
步驟6:將整個(gè)系統(tǒng)正常運(yùn)行所需的、部署在各類云平臺(tái)的所有關(guān)聯(lián)軟件和腳本進(jìn)行本地化部署,并改寫本地程序代碼,以確保系統(tǒng)的正常調(diào)用。
步驟7:根據(jù)本地運(yùn)行需要,進(jìn)行頁(yè)面修改。
部署完成后,通過(guò) http://medportal.bmicc.cn提供對(duì)外服務(wù)。
MedPortal收集的本體服務(wù)于精準(zhǔn)醫(yī)學(xué)研究過(guò)程中的信息整合與信息分析。從本體工程學(xué)的角度考慮,MedPortal中的本體應(yīng)包括上層本體、中層本體和領(lǐng)域本體3個(gè)層次。在上層本體,應(yīng)選取本體工程學(xué)基礎(chǔ)型本體,如基本形式本體(basic formal ontology,BFO)[16],為多領(lǐng)域本體的實(shí)現(xiàn)提供最基本的概念與結(jié)構(gòu)支撐。在中層本體層,考慮導(dǎo)入信息部件本體(information artifact ontology,IAO)[17]、生物醫(yī)學(xué)調(diào)查本體(ontologyforbiomedical investigation,OBI)[18]與通用醫(yī)學(xué)科學(xué)本體(ontology for general medical science,OGMS),為上層本體與精準(zhǔn)醫(yī)學(xué)相關(guān)的領(lǐng)域本體之間的承接架構(gòu)橋梁。在領(lǐng)域本體,資源庫(kù)中的本體圍繞精準(zhǔn)醫(yī)學(xué)研究的需求,涉及的本體包含兩個(gè)方面:一方面是高質(zhì)量的參考本體(reference ontology),以 OBO foundry為基礎(chǔ),選取符合其規(guī)范的國(guó)際參考本體,如基因本體(gene ontology,GO)[19]等;另一方面是臨床醫(yī)學(xué)的醫(yī)療與實(shí)踐和相關(guān)生命科學(xué)研究領(lǐng)域的專業(yè)本體和受控詞匯表,圍繞美國(guó)國(guó)立醫(yī)學(xué)圖書館的統(tǒng)一醫(yī)學(xué)語(yǔ)言系統(tǒng)(Unified Medical Language System,UMLS)[20]進(jìn)行選取。
BioPortal框架本身支持多種格式本體資源上傳,包括OWL、OBO、UMLS和SKOS 4種格式。在實(shí)際操作層面,具體本體的上傳過(guò)程如下:
1)上傳前利用Protégé5.1.0 軟件和測(cè)試機(jī)進(jìn)行本體檢測(cè),如出現(xiàn)無(wú)法解析的錯(cuò)誤,則根據(jù)提示進(jìn)行本體文件修正。
2)完整填寫上傳本體名稱、簡(jiǎn)稱、版本、來(lái)源組織和簡(jiǎn)述等本體元數(shù)據(jù)信息,以便用戶檢索。
3)對(duì)于超大本體(文件大小超過(guò)200 MB),采用壓縮格式上傳。
4)針對(duì)超大本體手工控制,增加數(shù)據(jù)處理所需內(nèi)存,增加數(shù)據(jù)解析和映射建立的CPU占用時(shí)間。
MedPortal的本體檢索(search)、術(shù)語(yǔ)映射(mappings)、本體注釋(annotator)和本體推薦(recommender)的高級(jí)功能[9],可以通過(guò) REST API、以Web Service的方式實(shí)現(xiàn)。在此基礎(chǔ)上,利用Python的urllib2與json包實(shí)現(xiàn)了數(shù)據(jù)的輸入、輸出和遠(yuǎn)程調(diào)用,并封裝好腳本供用戶使用。
尿蛋白質(zhì)生物標(biāo)志物數(shù)據(jù)庫(kù)(Urinary Protein Biomarker Database)是一個(gè)經(jīng)人工編審的數(shù)據(jù)庫(kù),從蛋白質(zhì)組學(xué)和小規(guī)模生物學(xué)實(shí)驗(yàn)的文獻(xiàn)中,提取匯總了尿蛋白質(zhì)生物標(biāo)志物方面的研究結(jié)果[21]。在數(shù)據(jù)庫(kù)的建設(shè)過(guò)程中,為了實(shí)現(xiàn)尿蛋白質(zhì)生物標(biāo)志物相關(guān)的人類疾病名稱的標(biāo)準(zhǔn)化,提升信息檢索效果,并引導(dǎo)用戶數(shù)據(jù)瀏覽,構(gòu)建了以尿蛋白質(zhì)生物標(biāo)志物相關(guān)的疾病為核心的應(yīng)用型本體。該本體可涵蓋目前已知的尿蛋白質(zhì)生物標(biāo)志物相關(guān)的人類疾病,并具有良好的疾病分類。目前,與疾病相關(guān)的參考本體主要有human disease ontology(DO)、international classification of diseases 10-clinical modification(ICD10CM)和 national cancer institute thesaurus(NCIT)??疾旌蟀l(fā)現(xiàn),3個(gè)本體的術(shù)語(yǔ)均無(wú)法滿足本數(shù)據(jù)庫(kù)需求,DO擁有相對(duì)良好的分類框架,但其標(biāo)準(zhǔn)術(shù)語(yǔ)對(duì)本數(shù)據(jù)庫(kù)需求的疾病覆蓋不足。因而,選定DO為該應(yīng)用型本體的基礎(chǔ)框架,設(shè)計(jì)了如下流程:
1)從PubMed中收集所有尿蛋白異常相關(guān)文獻(xiàn),人工識(shí)別相關(guān)疾病的所有詞匯。
2)利用上述Python腳本,調(diào)用MedPortal檢索功能API接口,檢索上述詞匯在DO中的覆蓋,確定DO涵蓋的詞匯及其DO代碼;通過(guò)同樣方式,確定其他詞匯在ICD10CM與NCIT中的對(duì)應(yīng)詞匯與代碼。
3)通過(guò)MedPortal術(shù)語(yǔ)映射功能已經(jīng)建立的語(yǔ)義映射網(wǎng)絡(luò),將上述ICD10CM與NCIT疾病詞匯使用DO的標(biāo)準(zhǔn)名稱進(jìn)行表示;根據(jù)標(biāo)準(zhǔn)化的疾病詞匯,利用 Protégé5.1.0對(duì) DO 進(jìn)行抽提,形成 OWL格式文件。
截至撰稿時(shí),MedPortal共存儲(chǔ)42個(gè)本體,本體術(shù)語(yǔ)總量為1 143 288個(gè)。表1為MedPortal存儲(chǔ)本體資源的分類列表。MedPortal本體資源庫(kù)中的內(nèi)容覆蓋了上層本體、中層本體和領(lǐng)域本體。
MedPortal提供了本體數(shù)據(jù)使用的工具。圖1顯示了本體資源瀏覽頁(yè)面,用戶可以通過(guò)左側(cè)過(guò)濾器來(lái)迅速定位感興趣的本體。圖2是對(duì)目標(biāo)本體內(nèi)容的顯示頁(yè)面,用戶可以在該頁(yè)面中對(duì)本體內(nèi)術(shù)語(yǔ)進(jìn)行檢索,瀏覽本體的具體信息,對(duì)本體內(nèi)術(shù)語(yǔ)之間的關(guān)系進(jìn)行可視化顯示。
MedPortal還提供本體資源使用的高級(jí)功能,主要包括本體術(shù)語(yǔ)檢索、本體注釋、本體術(shù)語(yǔ)映射和本體推薦(recommender)4個(gè)功能,表2總結(jié)了上述4個(gè)功能和應(yīng)用。如圖3所示,利用MedPortal中的數(shù)據(jù)注釋功能,對(duì)來(lái)源于PubMed的一段文摘,使用用戶指定的本體進(jìn)行詞匯的提取注釋。
通過(guò)文獻(xiàn)檢索,查詢到了與尿蛋白質(zhì)生物標(biāo)志物相關(guān)的疾病名稱138個(gè),其中與DO存在映射關(guān)系的有49個(gè),在ICD10CM和NCIT中又分別查到了66和23個(gè)詞。使用MedPortal本體映射功能API,找到并導(dǎo)出了DO與ICD之間1 026對(duì)映射關(guān)系、DO與NCIT之間3 019對(duì)映射關(guān)系。借此最終建立了以DO為基礎(chǔ)框架的、涵蓋尿蛋白質(zhì)生物標(biāo)志物數(shù)據(jù)庫(kù)中疾病名稱的應(yīng)用型本體,該本體包含術(shù)語(yǔ)160個(gè)、對(duì)象屬性(Object property)15個(gè)、公理(axiom)4 858條,實(shí)現(xiàn)了對(duì)數(shù)據(jù)庫(kù)中與尿蛋白質(zhì)生物標(biāo)志物相關(guān)疾病名稱的術(shù)語(yǔ)標(biāo)準(zhǔn)化。
表1 MedPortal核心本體資源列表Tab.1 Core ontology resource list
圖1 MedPortal中本體瀏覽頁(yè)面(左側(cè)為過(guò)濾器,用戶可以根據(jù)本體的類型、格式和種類對(duì)本體進(jìn)行篩選;右側(cè)是對(duì)應(yīng)的本體名稱和簡(jiǎn)介)Fig.1 Ontology browsing page in MedPortal(Filters on the left enable users to filter ontologies based on their types,categories and formats,while the right column lists the filtered ontology names and descriptions)
表2 MedPortal 4項(xiàng)高級(jí)功能及應(yīng)用Tab.2 Four advanced functions and applications
上述本體的建立,在數(shù)據(jù)庫(kù)建設(shè)中實(shí)現(xiàn)了數(shù)據(jù)庫(kù)詞匯與MedPortal相對(duì)應(yīng)詞匯的關(guān)聯(lián),用戶可以方便地瀏覽到疾病的定義與評(píng)論(comment)等,而圖4顯示了該數(shù)據(jù)庫(kù)中的本體引導(dǎo)用戶瀏覽數(shù)據(jù)庫(kù)信息的界面。尿蛋白質(zhì)生物標(biāo)志物數(shù)據(jù)庫(kù)可通過(guò)http://122.70.220.102/biomarker進(jìn)行訪問(wèn)(正式域名網(wǎng)址http://updb.bmicc.cn即將開始使用)。
圖2 MedPortal中本體的可視化和內(nèi)容顯示:用戶可以根據(jù)自己需求,展開某個(gè)術(shù)語(yǔ)的下一級(jí)子節(jié)點(diǎn),并調(diào)整圖形結(jié)構(gòu)。(a)左側(cè)為人類表型本體(HPO)的本體樹形顯示,右側(cè)為目標(biāo)術(shù)語(yǔ)Variable expressivity(ID為HP:0003828)的詳細(xì)內(nèi)容,該內(nèi)容包括術(shù)語(yǔ)的定義(Definitons)、術(shù)語(yǔ)的使用注意事項(xiàng)(comment)和本體間的互鏈(database_cross_reference)等;(b)左側(cè)為HPO的樹形結(jié)構(gòu),右側(cè)為該本體自根節(jié)點(diǎn)All到術(shù)語(yǔ)Variable expressivity一級(jí)節(jié)點(diǎn)的可視化顯示Fig.2 Ontology visualization and content display in MedPortal.Users can expand the nodes and adjust the graph structure according to their own needs.(a)The left side of the page displays the tree structure of human phenotype ontology(HPO).And the right side lists details of a target term “variable expressivity”(ID:0003828),including its definitions,comment and database cross reference,etc;(b)The left side displays the tree structure of HPO.And the right side visually displays the path from term “variable expressivity” to root
本體作為生物醫(yī)學(xué)數(shù)據(jù)標(biāo)準(zhǔn)化的一種重要手段,在數(shù)據(jù)整合與復(fù)用的過(guò)程中起著日益重要的作用[22]。在本研究中,使用 NCBOBioPortal框架,建設(shè)了本體存儲(chǔ)和應(yīng)用平臺(tái) MedPortal。2015年,ClémentJonquet等利用BioPortal系統(tǒng)建立了法國(guó)農(nóng)業(yè)領(lǐng)域的本體資源庫(kù)AgroPortal,為多個(gè)農(nóng)業(yè)、環(huán)境等方面項(xiàng)目提供了本體支持[23-24]。與BioPortal和AgroPortal相比,MedPortal針對(duì)性地篩選存儲(chǔ)了精準(zhǔn)醫(yī)學(xué)領(lǐng)域的本體,并提供了 Python腳本訪問(wèn)MedPortal API,實(shí)現(xiàn)了對(duì)大規(guī)模數(shù)據(jù)的自動(dòng)化批量處理。
圖3 MedPortal的數(shù)據(jù)注釋功能。(a)數(shù)據(jù)注釋功能界面:輸入要注釋的文本后,選擇本體并指定參數(shù),進(jìn)行數(shù)據(jù)注釋;(b)數(shù)據(jù)注釋結(jié)果:展示匹配到的本體術(shù)語(yǔ)、本體、匹配類型、原詞匯所在文本位置等Fig.3 Data annotation module in MedPortal.(a)Data annotation page:input a text,select ontologies and specify parameters for data annotation;(b)Excerpts of data annotation results:display the corresponding classes,ontologies,annotation types,term contexts,etc.
不同類型的用戶可以使用MedPortal平臺(tái)提供的多樣化本體信息服務(wù)。首先,本體庫(kù)是一類重要的知識(shí)庫(kù)。領(lǐng)域本體作為一個(gè)專業(yè)領(lǐng)域的知識(shí)模型,明確了領(lǐng)域內(nèi)的術(shù)語(yǔ)、同義詞、術(shù)語(yǔ)的定義、術(shù)語(yǔ)使用的評(píng)論和術(shù)語(yǔ)之間的關(guān)系。領(lǐng)域本體的構(gòu)建者往往是該專業(yè)領(lǐng)域的權(quán)威,他們根據(jù)本體構(gòu)建的原則對(duì)術(shù)語(yǔ)進(jìn)行了嚴(yán)格的定義和描述。通過(guò)MedPortal平臺(tái),用戶可以方便地查詢或獲取這些信息(見(jiàn)圖2)。其次,MedPortal是促進(jìn)本體重利用的重要工具??绫倔w間術(shù)語(yǔ)的一致性是保證本體重復(fù)使用的重要原則,這種一致性包括術(shù)語(yǔ)的名稱、定義和網(wǎng)絡(luò)統(tǒng)一資源標(biāo)識(shí)符(uniform resource identifier,URI)。通過(guò) MedPortal,用戶可以輕松地根據(jù)術(shù)語(yǔ)的名稱和含義等,查詢到該術(shù)語(yǔ)所在的本體及其詳細(xì)信息,幫助其重利用本體中已有的術(shù)語(yǔ)。此外,還MedPortal構(gòu)建了跨本體間的術(shù)語(yǔ)映射關(guān)系,為精準(zhǔn)醫(yī)學(xué)數(shù)據(jù)整合提供了術(shù)語(yǔ)標(biāo)準(zhǔn)使用的便捷工具和標(biāo)準(zhǔn)語(yǔ)義網(wǎng)絡(luò)支撐。通過(guò)數(shù)據(jù)注釋功能,很方便地實(shí)現(xiàn)了實(shí)驗(yàn)元數(shù)據(jù)內(nèi)容和文獻(xiàn)數(shù)據(jù)的本體術(shù)語(yǔ)注釋;該平臺(tái)建立的術(shù)語(yǔ)語(yǔ)義映射網(wǎng),可以直接支撐數(shù)據(jù)整合。美國(guó)Stanford大學(xué)BioPortal的開發(fā)團(tuán)隊(duì),利用該平臺(tái)的數(shù)據(jù)注釋功能,對(duì)UniProt、dbGaP、Reactome和 PharmGKB 等重要生物信息數(shù)據(jù)庫(kù)進(jìn)行本體術(shù)語(yǔ)注釋,建立整合的資源索引,為用戶準(zhǔn)確發(fā)現(xiàn)目標(biāo)數(shù)據(jù)服務(wù)[25]。因而,MedPortal本體資源存儲(chǔ)與應(yīng)用平臺(tái)為擁有不同需求的用戶提供著多方面基于本體的數(shù)據(jù)服務(wù)。
圖4 MedPortal對(duì)生物醫(yī)學(xué)信息數(shù)據(jù)庫(kù)支撐示例(此圖為尿蛋白質(zhì)生物標(biāo)志物數(shù)據(jù)庫(kù)頁(yè)面,左側(cè)為與尿蛋白異常相關(guān)疾病的應(yīng)用型本體,該本體利用MedPoral本體數(shù)據(jù)庫(kù)和相關(guān)工具建設(shè),用戶可以在此本體引導(dǎo)下進(jìn)行數(shù)據(jù)瀏覽和檢索。用戶如果對(duì)具體疾病感興趣,還可以點(diǎn)擊目標(biāo)疾病名稱,瀏覽本體中對(duì)疾病的描述)Fig.4 Example of MedPortal support for bioinformatic database(This figure shows the Urinary Protein Biomarker Database.The left side of the page displays the applied ontology of urinary protein abnormalityrelated diseases,which is constructed using MedPortal ontology repository and toolkit so that users can browse and retrieve data with the ontology leading the way.If users are interested in a specific disease,they can also click the name of the disease to view the description in the ontology)
通過(guò)本研究建立的本體資源庫(kù)和應(yīng)用平臺(tái),已經(jīng)具備為國(guó)內(nèi)生物醫(yī)學(xué)信息研究和實(shí)踐服務(wù)的能力。下一步,將計(jì)劃對(duì)MedPortal持續(xù)升級(jí),保持其核心代碼的版本與NCBOBioPortal同步;也將根據(jù)精準(zhǔn)醫(yī)學(xué)的發(fā)展,對(duì)收集的本體版本和內(nèi)容進(jìn)行擴(kuò)展。此外,將研究MedPortal支持中文本體存儲(chǔ)的可能性。法國(guó)Jonquet團(tuán)隊(duì)提出了在BioPortal上存儲(chǔ)和展示多語(yǔ)言本體的元數(shù)據(jù)模型[26],這將為建設(shè)支持中文的MedPortal提供借鑒。
MedPortal是一個(gè)綜合的本體信息存儲(chǔ)和應(yīng)用平臺(tái),提供了訪問(wèn)本體數(shù)據(jù)及使用本體進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化的工具,用戶可以通過(guò)頁(yè)面或編程訪問(wèn)。隨著我國(guó)精準(zhǔn)醫(yī)學(xué)研究計(jì)劃的深入,勢(shì)必會(huì)有大量數(shù)據(jù)產(chǎn)生,對(duì)這些數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,提升數(shù)據(jù)質(zhì)量,將成為數(shù)據(jù)再利用過(guò)程中一項(xiàng)重要工作,而MedPortal的資源和工具在其中會(huì)扮演重要角色。
[1] 賀林.新醫(yī)學(xué)是解決人類健康問(wèn)題的真正鑰匙——需“精準(zhǔn)”理解奧巴馬的“精準(zhǔn)醫(yī)學(xué)計(jì)劃”[J].遺傳,2015,37(6):613-614.
[2] Collins F S,Varmus H.A new initiative on precision medicine[J].New England Journal of Medicine,2015,372(9):793-795.
[3] Servant N,Roméjon J,Gestraud P,et al.Bioinformatics for precision medicine in oncology:principles and application to the SHIVA clinical trial[J].Frontiers in Genetics,2014,5:152-152.
[4] Pesquita C,F(xiàn)erreira J D,Couto F M,et al.The epidemiology ontology:an ontology for the semantic annotation of epidemiological resources[J].Journal of Biomedical Semantics,2014,5(1):1-7.
[5] Huang Jingshan,F(xiàn)ernando G,Strachan H J,et al.OmniSearch:a semantic search system based on the Ontology for MIcroRNA Target(OMIT)for microRNA-target gene interaction data[J].Journal of Biomedical Semantics,2016,7(1):1-17.
[6] Mate S,K?pcke F,Toddenroth D,et al.Ontology-based data integration between clinical and research systems[J].Plos One,2015,10(1):e0116656-e0116656.
[7] Smith B,Ashburner M,Rosse C,et al.The OBO Foundry:coordinated evolution of ontologies to support biomedical data integration[J].Nat Biotech,2007,25(11):1251-1255.
[8] Ong E,Xiang Zuoshuang,Zhao Bin,et al.Ontobee:A linked ontology data server to support ontology term dereferencing,linkage,query and integration[J].Nucleic Acids Research,2016,45(Database issue):D347-D352.
[9] C?té R,Reisinger F,Martens L,et al.The Ontology Lookup Service:bigger and better[J].Nucleic Acids Research,2010,38(Web Server issue):W155.
[10] Whetzel P L,Shah N H,Noy N F,et al.BioPortal:ontologies and integrated data resources at the click of a mouse[J].Nucleic Acids Research,2009,37(suppl_2):170-173.
[11] Salvadores M,Alexander P R,Musen M A,et al.BioPortal as a dataset of linked biomedical ontologies and terminologies in RDF[J].Semantic Web,2013,4(3):277.
[12] Whetzel P L,Noy N F,Shah N H,et al.BioPortal:enhanced functionality via new web services from the National Center for Biomedical Ontology to access and use ontologies in software applications[J].Nucleic Acids Research,2011,39(suppl 2):W541-W545.
[13] Vemonet.Importing UMLS To Virtual Appliance[EB/OL].https://www.bioontology.org/wiki/index.php/Importing_UMLS_To_Virtual_Appliance.
[14] Horridge M,Bechhofer S.The OWL API:a Java API for working with OWL 2 ontologies[C]//Patel-Schneider P F.Proceedings of the 6th InternationalConference on OWL:Experiences and Directions(OWLED 2009).Chantilly,VA,United States;Hoekstra R,Patel-Schneider P F,2009:47-56.
[15] Graybeal.NCBO Virtual Appliance[EB/OL].https://www.bioontology.org/wiki/index.php/Category:NCBO_Virtual_Appliance.
[16] Arp R,Smith B.Function,role,and disposition in Basic Formal Ontology[J].Nature Precedings,2008.
[17] Ceusters W,Smith B.Aboutness:Towards foundations for the information artifactontology [C]//Proceedingsofthe 6th International Conference on Biomedical Ontology(ICBO).Lisbon:ICBO2015 Program Committee,2015:47-51.
[18] Bandrowski A,Brinkman R,Brochhausen M,et al.The Ontology for Biomedical Investigations[J].Plos One,2016,11(4).
[19] Consortium T G O.Gene Ontology Consortium:going forward[J].Nucleic Acids Research,2015,43(Database issue):1049-1056.
[20] BodenreiderO.The Unified Medical Language System(UMLS):integrating biomedical terminology[J].Nucleic Acids Research,2004,32(suppl 1):D267-D270.
[21] Shao Chen.Urinary Protein Biomarker Database:A useful tool for biomarker discovery[J].Advances in Experimental Medicine& Biology,2015,845(845):195-203.
[22] Lapatas V,Stefanidakis M,Jimenez R C,et al.Data integration in biological research:an overview[J].Journal of Biological Research-Thessaloniki,2015,22(1):1-16.
[23] Jonquet C,Dzalé-Yeumo E,Arnaud E,et al.AgroPortal:A proposition for ontology-based services in the agronomic domain[C] //XXIV Plant and Animal Genome Conference.San Diego:The Plant & Animal Genome Organizing Committee,2016:P0343.
[24] Jonquet C,Toulet A,Arnaud E,et al.Reusing the NCBO BioPortal technology for agronomy to build AgroPortal[C]//International Conference on Biomedical Ontology and BioCreative(ICBO BioCreative 2016).Corvallis:ICBO and BioCreative,2016:D203.
[25] Jonquet C,Lependu P,F(xiàn)alconer S,et al.NCBO Resource Index:Ontology-based search and mining of biomedical resources[J].Web Semantics:Science,Services and Agents on the World Wide Web,2011,9(3):316-324.
[26] Jonquet C,Emonet V,Musen MA.Roadmap for a multilingual BioPortal[C]//Proceedings of the Fourth Workshop on the Multilingual Semantic Web. Portoroz:MSW4 Program Committee,2015:15-26.
MedPortal:A Biomedical Ontology Repository and Platform Focused on Precision Medicine
Guo Jingwen Yang Sheng Shi Furen Shao Chen Zhang Lulu Wang Heng?Yang Xiaolin?
(Institute of Basic Medical Sciences,Chinese Academy of Medical Sciences,School of Basic Medicine,Peking Union Medical College,Beijing100005,China)
In the past decade,ontology has been widely used in biomedical data analysis,search,integration and reuse.As ontology itself is a specific type of data,the amount of ontologies has also increased rapidly.In order to promote the integration of precision medicine data sets and provide ontology resource service for domestic users,we constructed MedPortal,an ontology repository and platform.Reusing NCBO BioPortal technology,we constructed MedPortal software framework.We selected precision medicine-related ontologies and built MedPortal ontology repository.Further,we modified some original code in order that MedPortal could run smoothly in the new network environment.Now MedPortal ontology repository has been successfully constructed.So far,42 biomedical ontologies have been imported into MedPortal,mappings among which have also been created.Several ontology services including term search,ontology mapping,and data annotation are provided through websites and REST API,accessible at:http://medportal.bmicc.cn.MedPortal will be of help to biomedical data integration.
biomedical ontology;MedPortal;database;ontology mapping;ontology annotation
R318 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):0258-8021(2017)05-0557-08
10.3969 /j.issn.0258-8021.2017.05.007
2017-02-10,錄用日期:2017-04-19
國(guó)家國(guó)際科技合作專項(xiàng)(2014DFB30030)
?通信作者(Corresponding author),E-mail:yangxl74@gmail.com;wangh@ibms.cams.cn
(致謝:美國(guó)Stanford大學(xué)生物醫(yī)學(xué)信息研究中心 John Graybeal、Jennifer Vendetti和 Michael Dorf,法國(guó) Montpellier大學(xué) Vincent Emonet,在 MedPortal本體數(shù)據(jù)庫(kù)的建設(shè)過(guò)程中提供了寶貴的幫助與支持,在此一并致以衷心的感謝?。?/p>