• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    生物醫(yī)學異構(gòu)數(shù)據(jù)庫集成的研究進展

    2010-09-18 03:30:08張正國
    中國生物醫(yī)學工程學報 2010年3期
    關鍵詞:數(shù)據(jù)倉庫生物醫(yī)學數(shù)據(jù)源

    張 智 張正國

    (中國醫(yī)學科學院基礎醫(yī)學研究所 北京協(xié)和醫(yī)學院基礎學院,北京 100005)

    生物醫(yī)學異構(gòu)數(shù)據(jù)庫集成的研究進展

    張 智 張正國*

    (中國醫(yī)學科學院基礎醫(yī)學研究所 北京協(xié)和醫(yī)學院基礎學院,北京 100005)

    隨著生物醫(yī)學的快速發(fā)展,不斷地涌現(xiàn)出許多生物醫(yī)學數(shù)據(jù)庫。將這些相互獨立的數(shù)據(jù)庫有機地組織在一起,對于提高一個學科或領域的整體知識水平,以及對該學科或領域進行更深入、更全面的理解是十分重要的。數(shù)據(jù)集成可以實現(xiàn)數(shù)據(jù)更廣泛的共享和更有效的利用,已經(jīng)成為生物信息學的核心研究內(nèi)容之一。介紹生物醫(yī)學異構(gòu)數(shù)據(jù)庫集成的方法,綜述生物醫(yī)學異構(gòu)數(shù)據(jù)庫集成領域內(nèi)最新的研究進展,并且討論和總結(jié)各種方法的特點及使用條件。

    異構(gòu)數(shù)據(jù)庫;數(shù)據(jù)集成;數(shù)據(jù)倉庫;聯(lián)邦數(shù)據(jù)庫;中間件

    引言

    隨著生物醫(yī)學知識的快速增長、計算成本的降低以及互聯(lián)網(wǎng)在傳播媒介上的優(yōu)勢,生物醫(yī)學數(shù)據(jù)已呈現(xiàn)海量規(guī)模,并且其數(shù)據(jù)量還在加速增長。截止到2010年1月,權(quán)威的“核酸研究在線分子生物學數(shù)據(jù)庫集合”(Nucleic Acids Research online Molecular Biology Database Collection)共收錄了1 230個分子生物學數(shù)據(jù)庫[1]。但是,這些生物醫(yī)學數(shù)據(jù)庫大多相互隔離,形成了所謂的“信息孤島”,不能實現(xiàn)數(shù)據(jù)的共享和更有效的利用。將這些相互獨立的數(shù)據(jù)庫有機地組織在一起,對于提高一個學科或領域的整體知識水平,以及對該學科或領域進行更深入、更全面的理解是十分重要的[2]。生物醫(yī)學由于其復雜性,既需要多學科、多方位進行地研究,又需要綜合多方面的觀察進行分析。生物醫(yī)學數(shù)據(jù)庫常是細分的,而需求常是綜合的,因此數(shù)據(jù)集成對于生物醫(yī)學具有必要性和緊迫性。現(xiàn)在,數(shù)據(jù)集成已經(jīng)成為生物信息學(bioinformatics)的核心研究內(nèi)容之一,也是一項需要長期進行的工作[3]。

    數(shù)據(jù)集成(data integration)是把不同來源和不同格式的數(shù)據(jù)在邏輯上或物理上有機地集中,從而實現(xiàn)全面的數(shù)據(jù)共享。數(shù)據(jù)集成的核心任務是將相互關聯(lián)的異構(gòu)數(shù)據(jù)源集成到一起,使用戶能夠以透明的方式訪問[4]。集成是指維護數(shù)據(jù)源在整體上的數(shù)據(jù)一致性,為用戶提供統(tǒng)一的數(shù)據(jù)訪問接口,提高數(shù)據(jù)共享的效率;透明的訪問方式是指用戶無需關心所需數(shù)據(jù)所屬數(shù)據(jù)源的位置以及如何訪問數(shù)據(jù)源,只需關注對數(shù)據(jù)的需求和操作。

    由于生物醫(yī)學數(shù)據(jù)庫固有的特點,其數(shù)據(jù)集成工作困難重重[5]。第一,生物醫(yī)學數(shù)據(jù)具有多樣性和復雜性。數(shù)據(jù)的實體類型包括基因表達、序列、結(jié)構(gòu)和圖像等多種,而且這些實體之間通常還有復雜的關系。第二,生物醫(yī)學數(shù)據(jù)的數(shù)據(jù)量通常很大。第三,生物醫(yī)學數(shù)據(jù)庫具有異構(gòu)性。不同數(shù)據(jù)庫之間可能同時存在系統(tǒng)性異構(gòu)、技術(shù)性異構(gòu)和語義性異構(gòu)等多種異構(gòu)。第四,生物醫(yī)學數(shù)據(jù)庫具有自治性。絕大多數(shù)的生物醫(yī)學數(shù)據(jù)庫可以自由地刪除數(shù)據(jù)和修改數(shù)據(jù)庫模式,而不必考慮其他與其相關的數(shù)據(jù)庫。其數(shù)據(jù)也按照各種自定的格式或標準進行存儲。

    近年來,越來越多的研究者致力于生物醫(yī)學異構(gòu)數(shù)據(jù)庫集成的研究。這些研究面向的領域也更加廣泛,涉及基因組學、蛋白質(zhì)組學、相互作用組學、醫(yī)學圖像和臨床醫(yī)學等多個方面,并產(chǎn)生了豐碩的研究成果。文中介紹了生物醫(yī)學異構(gòu)數(shù)據(jù)庫集成的方法,綜述了生物醫(yī)學異構(gòu)數(shù)據(jù)庫集成領域內(nèi)最新的研究進展,并且討論和總結(jié)了各種方法的特點及使用條件。

    1 生物醫(yī)學數(shù)據(jù)庫的異構(gòu)性

    數(shù)據(jù)庫的異構(gòu)是生物醫(yī)學數(shù)據(jù)庫集成的難點和重點。數(shù)據(jù)庫的異構(gòu)體現(xiàn)在以下三個方面:系統(tǒng)性異構(gòu)(systematic heterogeneity)、技術(shù)性異構(gòu)(technical heterogeneity)[6]和語義性異構(gòu) (semantic heterogeneity)[6]。

    系統(tǒng)性異構(gòu)包括:一是數(shù)據(jù)庫所依賴的計算機體系結(jié)構(gòu)不同,如大型機、小型機和 PC服務器等;二是數(shù)據(jù)庫所依賴的操作系統(tǒng)不同,如 Linux、Windows和Unix等;三是數(shù)據(jù)庫所依賴的網(wǎng)絡平臺的不同,如ATM(異步傳輸模式)、Ethernet(以太網(wǎng))和FDDI(光纖分布式數(shù)據(jù)接口)等。

    技術(shù)性異構(gòu)包括:一是數(shù)據(jù)存儲方式不同,如普通文本文件,XML文件,關系型、層次型、面向?qū)ο笮汀⒕W(wǎng)絡型或函數(shù)型數(shù)據(jù)庫等;二是數(shù)據(jù)訪問方法不同,可以通過HTTP等網(wǎng)絡協(xié)議訪問,也可以通過JDBC、ODBC和 SOAP等編程接口訪問;三是數(shù)據(jù)查詢語言不同,如SQL、OQL和XPath/XQuery等。特別地,不同數(shù)據(jù)庫支持相同查詢語言的標準和程度也不盡相同。

    語義性異構(gòu)包括:一是數(shù)據(jù)庫模式(schema)不同,不同數(shù)據(jù)庫字段的數(shù)據(jù)類型不同、名稱不同以及存在語義差異等;二是實體命名不同,不同數(shù)據(jù)庫使用了形式不同,但彼此等價的規(guī)范化詞表(controlled vocabulary)和本體(ontology)作為實體的標識符。

    在實際情況中,生物醫(yī)學數(shù)據(jù)庫之間往往同時存在多種異構(gòu),這更加造成了數(shù)據(jù)集成工作的困難與復雜程度。因此,解決異構(gòu)問題,屏蔽各局部數(shù)據(jù)源的異構(gòu)性,構(gòu)建與平臺和系統(tǒng)無關的查詢平臺,是數(shù)據(jù)集成最重要的任務。

    2 生物醫(yī)學異構(gòu)數(shù)據(jù)庫集成解決方案

    2.1 基于數(shù)據(jù)倉庫的解決方案

    基于數(shù)據(jù)倉庫(data warehouse)的數(shù)據(jù)集成是對異構(gòu)數(shù)據(jù)源的物理式集成,其系統(tǒng)結(jié)構(gòu)如圖1所示。該系統(tǒng)主要是使用ETL(extract-transform-load)工具,對各個異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)進行抽取、轉(zhuǎn)換,并在通過集成器進行消除數(shù)據(jù)異構(gòu)性后,將數(shù)據(jù)物理地裝載到數(shù)據(jù)倉庫中。特別地,在將數(shù)據(jù)裝載到數(shù)據(jù)倉庫之前,需要經(jīng)過嚴格的數(shù)據(jù)清洗(data cleansing),以提高數(shù)據(jù)的質(zhì)量。數(shù)據(jù)倉庫的構(gòu)建,實際上就是各個異構(gòu)數(shù)據(jù)源模式轉(zhuǎn)換為公共數(shù)據(jù)模式(common data schema)的過程。當用戶直接面向數(shù)據(jù)倉庫進行查詢時,各個數(shù)據(jù)源的異構(gòu)性已經(jīng)消除,這使得檢索過程更加簡單和快速。為了確保數(shù)據(jù)倉庫中的信息與各個數(shù)據(jù)源中的信息保持一致,必須定期更新數(shù)據(jù)倉庫。在實際應用中,EnsEMBL、NCBI和UniProtKB等大型數(shù)據(jù)集成系統(tǒng)都是根據(jù)基于數(shù)據(jù)倉庫的方法構(gòu)建的。

    圖1 基于數(shù)據(jù)倉庫方法的數(shù)據(jù)集成系統(tǒng)架構(gòu)Fig.1 The architecture of data integration system based on data warehouse

    Trissl等人基于數(shù)據(jù)倉庫的方法集成若干蛋白質(zhì)結(jié)構(gòu)信息相關數(shù)據(jù)庫,建立了 Columba系統(tǒng)[7]。Columba通過物理的方式集成了12個異構(gòu)數(shù)據(jù)庫,構(gòu)成了一個數(shù)據(jù)倉庫,其數(shù)據(jù)涵蓋了蛋白質(zhì)基于結(jié)構(gòu)和序列的分類信息、蛋白質(zhì)功能注釋信息、蛋白質(zhì)二級結(jié)構(gòu)信息和代謝通路信息。Columba已經(jīng)被證明在許多蛋白質(zhì)結(jié)構(gòu)的相關研究中發(fā)揮了重要作用,是一個成功和成熟的異構(gòu)數(shù)據(jù)集成系統(tǒng)。在此基礎上,Columba已經(jīng)準備繼續(xù)集成 LIGAND,MEDLINE和OMIM等數(shù)據(jù)庫,拓展該數(shù)據(jù)倉庫的應用。Chaurasia等人建立了用于查詢、分析和可視化人類蛋白質(zhì)相互作用組的數(shù)據(jù)倉庫 UniHI[8]。UniHI集成了14個異構(gòu)蛋白質(zhì)相互作用數(shù)據(jù)庫以及GO和OMIM等輔助數(shù)據(jù)庫。UniHI系統(tǒng)結(jié)構(gòu)分為數(shù)據(jù)集成、數(shù)據(jù)倉庫和網(wǎng)絡應用程序3個部分。數(shù)據(jù)集成部分負責通過解析器,將異構(gòu)數(shù)據(jù)源的數(shù)據(jù)轉(zhuǎn)存到臨時數(shù)據(jù)庫,此時已經(jīng)通過應用全局數(shù)據(jù)模式消除了數(shù)據(jù)的異構(gòu)性;然后,對臨時數(shù)據(jù)庫中的數(shù)據(jù)進行數(shù)據(jù)清洗、ID轉(zhuǎn)換等修飾性工作;最終,將修飾好的數(shù)據(jù)導入數(shù)據(jù)倉庫中。用戶通過網(wǎng)絡應用程序接口訪問該數(shù)據(jù)倉庫,獲取相應信息。UniHI通過數(shù)據(jù)倉庫的方式完整、一致地描述了人類蛋白質(zhì)相互作用組領域的數(shù)據(jù),其數(shù)據(jù)規(guī)模很大、數(shù)據(jù)質(zhì)量很高,是一個成功的數(shù)據(jù)集成案例。Tarcea等人基于數(shù)據(jù)倉庫的方法構(gòu)建了分子相互作用的數(shù)據(jù)集成系統(tǒng) MiMI[9]。MiMI采取了深度集成(deep-merging)的策略,即在消除數(shù)據(jù)異構(gòu)性的基礎上,還要進一步消除冗余的數(shù)據(jù),消除相互矛盾的數(shù)據(jù),將相關的數(shù)據(jù)進行連接并追蹤數(shù)據(jù)的來源。其他數(shù)據(jù)集成方法由于是在程序運行階段進行集成,因此無法做到如此程度的深度集成。由此可見,只有使用基于數(shù)據(jù)倉庫的方法,才能在構(gòu)建數(shù)據(jù)倉庫的過程中進行如此程度的深度集成,進而提高數(shù)據(jù)集成的質(zhì)量。MiMI成功地集成了10個分子相互作用異構(gòu)數(shù)據(jù)庫。但并不急于尋找新的數(shù)據(jù)集成到數(shù)據(jù)倉庫中,而是通過完善深度集成的策略,強調(diào)增強對已知數(shù)據(jù)的更完善的使用。

    2.2 基于聯(lián)邦數(shù)據(jù)庫系統(tǒng)的解決方案

    聯(lián)邦數(shù)據(jù)庫系統(tǒng)(Federated Database System,F(xiàn)DBS)是一種元數(shù)據(jù)庫管理系統(tǒng),負責將多個自治數(shù)據(jù)庫以透明、虛擬的方式集成到一個聯(lián)邦數(shù)據(jù)庫。各自治數(shù)據(jù)庫通過計算機網(wǎng)絡互聯(lián),相互提供訪問接口,相互分享數(shù)據(jù)。對這些自治數(shù)據(jù)庫的操作進行控制和協(xié)調(diào)的軟件,稱為聯(lián)邦數(shù)據(jù)庫管理系統(tǒng)(federated database management system,F(xiàn)DBMS)。FDBMS是一個管理中心,它能把各成員數(shù)據(jù)庫模式映射到一個公共聯(lián)邦模式,負責各種模式之間的轉(zhuǎn)換工作,自動解決網(wǎng)絡傳輸問題和異構(gòu)數(shù)據(jù)庫操縱問題,接受聯(lián)邦用戶的數(shù)據(jù)請求,把這個請求翻譯后送到各個目的數(shù)據(jù)庫引擎,并將收到的結(jié)果數(shù)據(jù)集成后返回給用戶。其一般結(jié)構(gòu)如圖2所示,它通過包裝器與各異構(gòu)數(shù)據(jù)源進行通信。包裝器從FDBMS接受數(shù)據(jù)訪問指令,進而轉(zhuǎn)換為各異構(gòu)數(shù)據(jù)源所支持的數(shù)據(jù)訪問指令,然后通過各異構(gòu)數(shù)據(jù)源的服務器提交執(zhí)行,最后將結(jié)果返回給 FDBMS進行異構(gòu)數(shù)據(jù)集成處理。除了包裝器之外,F(xiàn)DBMS還有兩個核心部分。一個是全局的元數(shù)據(jù)字典,用于描述數(shù)據(jù)集成的公共聯(lián)邦模式;另一個是配置數(shù)據(jù)表,其中包括各異構(gòu)數(shù)據(jù)源的配置信息、模式、字段數(shù)據(jù)類型、相應的索引、數(shù)據(jù)分布的統(tǒng)計信息,以及CPU、網(wǎng)絡、I/O等系統(tǒng)資源情況。

    圖2 基于聯(lián)邦數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)集成系統(tǒng)架構(gòu)Fig.2 The architecture of data integration system based on federated database system

    Muilu等人使用聯(lián)邦數(shù)據(jù)庫,將歐洲600 000個孿生雙胞胎的基因組和表型組數(shù)據(jù)進行了集成,構(gòu)建了TwinNET系統(tǒng)[10],結(jié)構(gòu)如圖3所示。TwinNET采用IBM的DB 2數(shù)據(jù)庫和IBM的聯(lián)邦服務器Discovery Link作為異構(gòu)數(shù)據(jù)集成系統(tǒng)的基礎。8個國家的表型組數(shù)據(jù)庫通過虛擬專用網(wǎng)絡(virtual private network,VPN),連接到表型數(shù)據(jù)庫集線器(Hub)。表型數(shù)據(jù)庫集線器負責將各個表型組數(shù)據(jù)庫的數(shù)據(jù)提交到聯(lián)邦數(shù)據(jù)庫系統(tǒng)中的信息集成器,完成數(shù)據(jù)集成,基因型數(shù)據(jù)庫也是以此種形式得到集成。用戶可以通過網(wǎng)絡程序,訪問聯(lián)邦數(shù)據(jù)庫系統(tǒng),獲取集成后的數(shù)據(jù)。TwinNET十分注重系統(tǒng)的安全性,各個成員數(shù)據(jù)庫通過VPN或安全外殼協(xié)議(secure shell protocol/SSH)的方式連接到聯(lián)邦數(shù)據(jù)庫。聯(lián)邦數(shù)據(jù)庫與互聯(lián)網(wǎng)之間有前端防火墻、VPN網(wǎng)關和非軍事區(qū)3個屏障,聯(lián)邦數(shù)據(jù)庫服務器位于 TwinNET非軍事區(qū)(demilitarized zone,DMZ)內(nèi),因此系統(tǒng)安全性很好。

    圖3 TwinNET系統(tǒng)架構(gòu)[10]Fig.3 The architecture of TwinNET system[10]

    Androulakis等人構(gòu)建了集成X射線衍射圖像異構(gòu)數(shù)據(jù)的聯(lián)邦數(shù)據(jù)庫系統(tǒng)[11],采用了第三方軟件框架Fedora成功地構(gòu)建了該聯(lián)邦數(shù)據(jù)庫系統(tǒng)。由于圖像數(shù)據(jù)量十分龐大,達到數(shù)百GB,因此從技術(shù)上和經(jīng)濟上考慮將這些異構(gòu)圖像數(shù)據(jù)集中存儲在本地數(shù)據(jù)庫里是不適合的。同時,由于圖像數(shù)據(jù)量比較大以及處理過程耗時等特點,基于中間件的方法也無法高效地處理數(shù)據(jù)圖像的集成。因此,Androulakis等人選擇了基于聯(lián)邦數(shù)據(jù)庫系統(tǒng)的方法,既考慮了圖像數(shù)據(jù)分布式存儲的便利,又兼顧了數(shù)據(jù)集成的效率問題。

    2.3 基于中間件的解決方案

    基于中間件(middleware)的數(shù)據(jù)集成方法通過統(tǒng)一的全局數(shù)據(jù)模式來訪問異構(gòu)數(shù)據(jù)庫,是模型層的數(shù)據(jù)集成方案,數(shù)據(jù)集成中間件位于各異構(gòu)數(shù)據(jù)源(數(shù)據(jù)層)和應用系統(tǒng)(應用層)之間。這種方法的核心是全局模式(global schema):數(shù)據(jù)集成系統(tǒng)通過一個全局模式,將各異構(gòu)數(shù)據(jù)源的數(shù)據(jù)集成起來,而數(shù)據(jù)仍存儲在局部數(shù)據(jù)源中。通過各異構(gòu)數(shù)據(jù)源的包裝器對數(shù)據(jù)進行轉(zhuǎn)換,使之符合全局模式。用戶提交的查詢是針對全局模式的,所以用戶不必知道數(shù)據(jù)源的位置、模式及訪問方法。按照實現(xiàn)方式的不同,基于中間件的數(shù)據(jù)集成方法可以分為基于包裝器/中介器、基于本體、基于網(wǎng)格和基于XML共4種具體方法。

    2.3.1 基于包裝器/中介器的方法

    基于包裝器/中介器(wrapper/mediator)方法的體系結(jié)構(gòu)如圖4所示。中介器為應用系統(tǒng)提供統(tǒng)一的全局數(shù)據(jù)模式和通用的數(shù)據(jù)訪問接口,同時負責協(xié)調(diào)各異構(gòu)數(shù)據(jù)源,為用戶提供全局的查詢服務。中介器將基于全局數(shù)據(jù)模式的查詢轉(zhuǎn)換為基于各局部異構(gòu)數(shù)據(jù)源的子查詢,通過針對各異構(gòu)數(shù)據(jù)源的包裝器執(zhí)行該子查詢并獲取查詢結(jié)果,最終將結(jié)果集成后返回給用戶。

    圖4 基于包裝器/中介器的數(shù)據(jù)集成系統(tǒng)架構(gòu)Fig.4 The architecture of data integration system based on wrapper/mediator

    Hwang等使用基于包裝器/中介器的方法成功地集成了果蠅相關的蛋白質(zhì)相互作用數(shù)據(jù)、基因組數(shù)據(jù)和其他輔助數(shù)據(jù)[12]。該研究將蛋白質(zhì)相互作用數(shù)據(jù)存儲在本地數(shù)據(jù)庫,而使用基于包裝器/中介器的方法集成與該數(shù)據(jù)庫中信息相關的基因組數(shù)據(jù)(GenBank,F(xiàn)lyBase和GadFly)和其他輔助數(shù)據(jù)(SwissProt和GO),所構(gòu)建的系統(tǒng)分為包裝器模塊、中介器模塊和應用模塊等3個部分。包裝器模塊根據(jù)查詢關鍵詞,應用 HTML、XML和 HTML-XML包裝器,從待集成的5個數(shù)據(jù)庫的網(wǎng)頁上分析并獲取所需的信息。中介器模塊提供中介服務,將包裝器模塊和應用模塊連接起來,實現(xiàn)數(shù)據(jù)集成;中介器分析用戶的查詢請求,將查詢?nèi)蝿辗峙山o各個包裝器,在得到包裝器的返回結(jié)果并進行集成后,返回給用戶。應用模塊負責結(jié)果顯示和用戶交互。這項研究成功地將5個公共數(shù)據(jù)庫和蛋白質(zhì)相互作用的數(shù)據(jù)進行了集成。具有將蛋白質(zhì)組數(shù)據(jù)集成入該系統(tǒng)的擴展能力,從而形成一個以蛋白質(zhì)相關研究數(shù)據(jù)為中心的綜合性生物學數(shù)據(jù)集成系統(tǒng)。

    Marenco等人創(chuàng)建了基于包裝器/中介器模式的生物醫(yī)學數(shù)據(jù)庫集成框架 QIS[13],其體系結(jié)構(gòu)如圖5所示,核心是3個功能單元:集成服務器、數(shù)據(jù)源服務器和本體服務器。這3個功能單元的有機統(tǒng)一體現(xiàn)了用戶、數(shù)據(jù)和知識的三位一體結(jié)構(gòu):集成服務器作為中介器,負責調(diào)控另外兩個功能單元,進行數(shù)據(jù)集成以及與客戶端的交互;數(shù)據(jù)源服務器作為包裝器,負責對各個異構(gòu)數(shù)據(jù)源進行結(jié)構(gòu)化查詢;本體服務器負責管理UMLS本體,為集成服務器提供語法式查詢,為數(shù)據(jù)源服務器提供相關數(shù)據(jù)與本體之間映射的信息。QIS具有很好的泛化能力,可以應用于不同領域的數(shù)據(jù)集成。在實際應用中,QIS已經(jīng)成功地應用于神經(jīng)科學和基因組學。QIS通過引入本體,為數(shù)據(jù)集成系統(tǒng)提供了在不同粒度下的應用。例如:數(shù)據(jù)源服務器可以通過本體服務器的輔助,掌握哪一個數(shù)據(jù)源中含有神經(jīng)元細胞的相關信息,而哪一個數(shù)據(jù)源中含有某一種特定的神經(jīng)細胞,如小腦浦肯野細胞的相關信息。特別地,通過引入UMLS本體,對于臨床醫(yī)學信息學數(shù)據(jù)的集成有著重大的意義。

    圖5 QIS框架的系統(tǒng)架構(gòu)[13]Fig.5 The architecture of QIS framework[13]

    Blankenburg等人構(gòu)建了用于集成異構(gòu)分子相互作用數(shù)據(jù)的 DASMI系統(tǒng)[14],該系統(tǒng)基于分布式注釋系統(tǒng)(distributed annotation system,DAS)[15]。DAS封裝了包裝器/中介器方法,用戶只需要按照DAS規(guī)范調(diào)用即可實現(xiàn)包裝器/中介器方法。DASMI系統(tǒng)由數(shù)據(jù)交換規(guī)范和提供相互作用數(shù)據(jù)集成的客戶端兩個部分組成,采用非集中化的(decentralized)系統(tǒng)架構(gòu)(見圖6),提供在線的從分布式異構(gòu)數(shù)據(jù)庫中獲取的最新數(shù)據(jù)。各個相互作用數(shù)據(jù)服務器提供相互作用的數(shù)據(jù),可信度評分服務器提供對于相互作用數(shù)據(jù)的評分。DASMI客戶端查詢相互作用數(shù)據(jù)服務器,并集成查詢結(jié)果;DAS客戶端分為基于網(wǎng)絡程序的客戶端和基于軟件插件的客戶端兩種類型。DAS注冊表用于維護互聯(lián)網(wǎng)上可用的 DAS服務器列表,通過注冊新的 DAS服務器,就可以方便快捷地實現(xiàn) DASMI系統(tǒng)的擴展。DAS服務器與客戶端的數(shù)據(jù)交換需要符合DAS的 URL規(guī)范和 XML規(guī)范。DAS客戶端通過HTTP協(xié)議向DAS URL對應的DAS服務器發(fā)送查詢請求,DAS服務器通過DASINT XML協(xié)議響應該請求并返回數(shù)據(jù),從而完成一次數(shù)據(jù)交換。因此,DAS的 URL規(guī)范和 XML規(guī)范是 DASMI系統(tǒng)實現(xiàn)分布式異構(gòu)數(shù)據(jù)集成的基礎和關鍵,DASMI系統(tǒng)可以對所有實現(xiàn)了DAS服務的相關相互作用數(shù)據(jù)庫進行有效集成。由于采用了非集中化的系統(tǒng)架構(gòu)和數(shù)據(jù)交換規(guī)范,DASMI系統(tǒng)本身并不需要存儲任何相關數(shù)據(jù),有效地降低了系統(tǒng)的維護成本,同時提高了系統(tǒng)的靈活性和可配置性。Blankenburg等人在DASMI系統(tǒng)的基礎上,又開發(fā)了在線集成、分析和評估分布式異構(gòu)數(shù)據(jù)庫的 DASMIweb系統(tǒng)[16]。該系統(tǒng)采用基于網(wǎng)絡程序的DAS客戶端,專門面向蛋白質(zhì)相互作用異構(gòu)數(shù)據(jù)的集成;集成了35個蛋白質(zhì)相互作用的相關數(shù)據(jù)庫,具有靈活、高效的特點,并具備一定的擴展能力。但是,由于采用了DAS系統(tǒng)的方式進行集成,所以該系統(tǒng)集成的對象只能是實現(xiàn)了DAS服務的數(shù)據(jù)庫,對于其他沒有實現(xiàn)該服務的數(shù)據(jù)庫無能為力。DASMIweb系統(tǒng)擴展能力的高低,取決于科學共同體對DAS服務的支持力度。

    圖 6 DASMI系統(tǒng)架構(gòu)[14]Fig.6 The architecture of DASMI system[14]

    2.3.2 基于本體的方法

    本體對特定領域的實體給出名字和描述,使用謂詞來表示這些實體間的關系。本體具有描述數(shù)據(jù)源的語義和解決數(shù)據(jù)源異構(gòu)問題的潛力,因此可以用于異構(gòu)數(shù)據(jù)集成。基于本體的數(shù)據(jù)集成中間件通過將各異構(gòu)數(shù)據(jù)庫的模式映射到本體,實現(xiàn)了不同數(shù)據(jù)源間的語義一致,完成了語義層次上的數(shù)據(jù)集成。基于本體的數(shù)據(jù)集成的基本思想:一是在領域?qū)<业膸椭?,建立相關領域的本體;二是收集數(shù)據(jù)源的數(shù)據(jù)模式,并參照已建立的本體,把數(shù)據(jù)源模式與本體間的映射信息按規(guī)定格式存儲在元數(shù)據(jù)庫中;三是對用戶的查詢請求,查詢轉(zhuǎn)換器按照本體把查詢請求轉(zhuǎn)換成規(guī)定的格式,在本體的幫助下從元數(shù)據(jù)庫中匹配出符合條件的數(shù)據(jù)源集合,進而實施查詢;四是將查詢結(jié)果經(jīng)過定制處理,返回給用戶。

    K?hler等建立了一個基于本體實現(xiàn)生物學數(shù)據(jù)庫語義集成的系統(tǒng)SEMEDA[17],其總體策略是將數(shù)據(jù)庫的表和屬性映射到一個本體,而本體則需要實現(xiàn)“is a”的層次結(jié)構(gòu),圖7顯示了通過所建立的本體集成 Enzyme和 Vertebrate兩個數(shù)據(jù)庫的思路。首先,將兩個數(shù)據(jù)庫中表和屬性映射到本體,用本體提綱挈領地通過語義方式將所有表和屬性串聯(lián)到一起,形成語義網(wǎng)。同時,通過規(guī)范詞表(controlled vocabulary),對數(shù)據(jù)庫表的屬性值,進行語義規(guī)范,以進行一致性的語義查詢,如圖7中所示的ec nr和ec_nr兩個屬性被規(guī)范化為規(guī)范詞表中的“ECID”項?;诒倔w的語義集成方法特別適用于大量異構(gòu)數(shù)據(jù)庫的集成,能夠通過本體對數(shù)據(jù)集成系統(tǒng)進行管理,十分靈活,可以方便地添加和刪除數(shù)據(jù)源。同時,該方法不需要維護復雜的集成模式,避免了相應的問題。

    圖7 SEMEDA系統(tǒng)的集成思路[17]Fig.7 The integration way of SEMEDA system[17]

    Alonso-Calvo等人建立了基于本體和代理(agent)的基因、蛋白質(zhì)和疾病相關異構(gòu)數(shù)據(jù)庫集成系統(tǒng) OntoFusion[18],結(jié)構(gòu)如圖 8 所示。OntoFusion系統(tǒng)構(gòu)建在多agent系統(tǒng)JADE基礎上,共有4個模塊:用戶界面、詞表服務模塊、中介器模塊和數(shù)據(jù)訪問模塊。系統(tǒng)的核心模塊是中介器模塊,負責提供對各異構(gòu)數(shù)據(jù)庫的一致性訪問。詞表服務模塊負責維護和提供醫(yī)學和遺傳學本體,數(shù)據(jù)訪問模塊實現(xiàn)對公共和私有生物醫(yī)學數(shù)據(jù)庫的查詢,用戶界面模塊包括用戶接口和管理模塊。OntoFusion系統(tǒng)采用了多agent架構(gòu),使得其各個模塊可以運行于不同的計算機上,增強了系統(tǒng)的并行處理能力和靈活性。OntoFusion系統(tǒng)提供了獨立的詞表服務模塊,既可以用于數(shù)據(jù)集成,完成各異構(gòu)數(shù)據(jù)庫模式之間的映射,又可以直接為用戶提供本體數(shù)據(jù),使詞表服務模塊的復用性得到充分體現(xiàn)。

    圖8 OntoFusion系統(tǒng)架構(gòu)[18]Fig.8 The architecture of OntoFusion system[18]

    Noy等建立了通過本體倉庫(repository)集成生物醫(yī)學數(shù)據(jù)的系統(tǒng) BioPortal[19]。BioPortal提供兩個主要功能:一是開放的生物醫(yī)學本體倉庫,二是使用該本體倉庫進行生物醫(yī)學數(shù)據(jù)源的集成。BioPortal的生物醫(yī)學本體倉庫包含134個本體,極大地拓展了數(shù)據(jù)集成的領域。特別地,BioPortal為編程者提供了用于訪問該本體倉庫的網(wǎng)絡服務(web service),可以方便地為需要該項功能的用戶提供服務。通過豐富的本體信息,BioPortal集成了諸如 ArrayExpress,DrugBank,OMIM,PubChem 和UniProtKB等20個不同領域內(nèi)著名的異構(gòu)生物醫(yī)學數(shù)據(jù)源,體現(xiàn)了強大的適應能力和擴展性。Min等人創(chuàng)立了前列腺癌本體(prostate cancer ontology,PCO),并以此為基礎開發(fā)了前列腺癌數(shù)據(jù)集成系統(tǒng)PCIS[20]。PCIS利用PCO為美國著名的??怂埂げ趟拱┌Y中心(Fox Chase Cancer Center,F(xiàn)CCC),成功地集成了與兩個前列腺癌相關的數(shù)據(jù)庫系統(tǒng)。該系統(tǒng)的關鍵是通過創(chuàng)建PCO與兩個異構(gòu)數(shù)據(jù)庫模式之間的映射關系以達到消除語義性異構(gòu)的目的。特別地,PCIS使用了一種語義查詢語言SPARQL進行查詢的構(gòu)造,這樣可以更好地利用PCO語義方面的優(yōu)勢。PCIS是基于本體的數(shù)據(jù)集成方法在臨床醫(yī)學領域內(nèi)的成功應用之一。

    2.3.3 基于網(wǎng)格的方法

    開放網(wǎng)格服務架構(gòu)-數(shù)據(jù)訪問與集成(open grid services architecture-data access and integration,OGSA-DAI),是一種成熟的基于網(wǎng)格技術(shù)(grid technology)的分布式異構(gòu)數(shù)據(jù)集成中間件。OGSADAI通過定義數(shù)據(jù)訪問的接口,隱藏數(shù)據(jù)庫驅(qū)動、數(shù)據(jù)傳輸?shù)燃夹g(shù)細節(jié),使用戶可以通過統(tǒng)一的網(wǎng)絡服務接口連接和使用分布式數(shù)據(jù)源,使得數(shù)據(jù)共享和使用更加方便。特別是在互聯(lián)網(wǎng)飛速發(fā)展的今天,基于網(wǎng)格的OGSA-DAI數(shù)據(jù)集成方法非常適合用于公開在互聯(lián)網(wǎng)上發(fā)布的生物醫(yī)學數(shù)據(jù)庫的集成。

    Crompton等使用基于網(wǎng)格的OGSA-DAI技術(shù)進行了生物信息學領域的數(shù)據(jù)集成[21]。OGSA-DAI客戶端按照用戶的查詢請求,創(chuàng)建網(wǎng)格數(shù)據(jù)服務,同時調(diào)用 Jones等開發(fā)的 BDW[22]中間件的DWQueryActivity服務進行查詢。BDWQueryActivity使用包裝器查詢目標數(shù)據(jù)庫,獲取查詢結(jié)果。然后,XSL轉(zhuǎn)換器將結(jié)果轉(zhuǎn)換為BDW格式文件,并經(jīng)過數(shù)據(jù)集成模塊處理,將集成后的結(jié)果返回給OGSI-DAI客戶端,進而返回給用戶。BDW是一個建立生物多樣性方面網(wǎng)格系統(tǒng)的中間件,但是Crompton等人將 BDW應用在生物信息學領域,使BDW中間件實現(xiàn)了基于網(wǎng)格的異構(gòu)數(shù)據(jù)查詢和集成,并取得了成功。Luo等建立了一種基于網(wǎng)格的、用于分布式醫(yī)學數(shù)據(jù)庫集成的模型[23],所支持的異構(gòu)數(shù)據(jù)源類型包括關系型數(shù)據(jù)庫(MySQL、Oracle和SQL Server)及文件數(shù)據(jù)源,其系統(tǒng)結(jié)構(gòu)如圖9所示。該模型使用OGSA-DAI組件提供的網(wǎng)格數(shù)據(jù)服務(grid data service)作為本系統(tǒng)的核心組件,通過網(wǎng)格系統(tǒng)來訪問各分布式數(shù)據(jù)庫,隱藏了這些數(shù)據(jù)庫之間的異構(gòu)性和動態(tài)性。該模型還提供了其他的功能組件用于實現(xiàn)數(shù)據(jù)集成和數(shù)據(jù)查詢功能。最終,通過應用程序接口可以實現(xiàn)基于網(wǎng)格技術(shù)的網(wǎng)絡應用程序,供用戶使用。該模型使用了網(wǎng)格技術(shù)及OGSA-DAI,實現(xiàn)了基于標準框架的分布式數(shù)據(jù)源的訪問和集成。同時,該模型提供了成熟的服務接口,以數(shù)據(jù)源相互獨立的方式支持了對醫(yī)學數(shù)據(jù)庫的一致性訪問。

    2.3.4 基于XML的方法

    XML(eXtensible Markup Language)可擴展標記語言,以一種開放的自我描述方式定義數(shù)據(jù)結(jié)構(gòu),在描述數(shù)據(jù)內(nèi)容的同時又能突出對結(jié)構(gòu)的描述,從而體現(xiàn)出數(shù)據(jù)之間的關系。XML有很強的數(shù)據(jù)結(jié)構(gòu)表達能力及擴展性,非常適合于解決數(shù)據(jù)集成中關鍵的語義異構(gòu)性問題??梢詫悩?gòu)數(shù)據(jù)源的數(shù)據(jù)模式描述為 Schema或 DTD文檔,進而轉(zhuǎn)換為XML文檔結(jié)構(gòu),從而實現(xiàn)局部異構(gòu)數(shù)據(jù)源的數(shù)據(jù)模式到全局數(shù)據(jù)模式的映射與數(shù)據(jù)的轉(zhuǎn)換。同樣具有跨平臺特性的XML數(shù)據(jù)描述技術(shù)與Java編程技術(shù)的結(jié)合,可以很好地解決系統(tǒng)異構(gòu)性的問題。同時,可以利用基于成熟的XPath技術(shù)的XQuery查詢語言來訪問XML數(shù)據(jù)。XQuery之于XML相當于SQL之于關系型數(shù)據(jù)庫,可以完成復雜的查詢?nèi)蝿铡?/p>

    圖9 基于網(wǎng)格的數(shù)據(jù)集成系統(tǒng)架構(gòu)[23]Fig.9 The architecture of data integration system based on grid[23]

    Huang等構(gòu)建了一個基于XML方法的生物數(shù)據(jù)集成系統(tǒng) JXP4BIGI[24]。JXP4BIGI是一個獨立于系統(tǒng)的通用框架中間件,其功能包括對異構(gòu)數(shù)據(jù)的訪問、提取、轉(zhuǎn)換和集成。JXP4BIGI有4個核心組件,即XML生物實體模板,查詢/邏輯提取組件,包裝器和 JXP處理器。XML生物實體模板也稱為Java XML頁面(JXP),是用于表示生物實體的數(shù)據(jù)結(jié)構(gòu)。包裝器按照查詢/邏輯提取組件的要求,在從異構(gòu)數(shù)據(jù)源獲取到所需數(shù)據(jù)后,就將其存儲到JXP中。然后,JXP處理器就來分析處理這些 JXP,以抽取出用戶所需的數(shù)據(jù),返回給用戶。由于定義目標生物實體的模板是XML文件,因此可以靈活地定義非常復雜的描述目標實體的結(jié)構(gòu),為解決數(shù)據(jù)的異構(gòu)性奠定了堅實的語義描述基礎。JXP4BIGI是基于Java技術(shù)開發(fā)的,因此具有平臺獨立性,使其中間件的特點更加鮮明,適用范圍更廣。Bales等人提出了基于XML的生物醫(yī)學數(shù)據(jù)集成框架XBrain[25],該系統(tǒng)結(jié)構(gòu)如圖 10 所示。XBrain 所集成的異構(gòu)數(shù)據(jù)源分為3種數(shù)據(jù)模型:關系型(如CSM)、XML類型(如 IM)和本體類型(如OQAFMA)。XBrain采用 XQuery,在分布式條件下的擴展應用 XQueryD,實現(xiàn)數(shù)據(jù)的獲取;利用 XML技術(shù),實現(xiàn)異構(gòu)數(shù)據(jù)的集成。XQueryD處理器負責根據(jù)用戶提交的查詢需求,從各個異構(gòu)數(shù)據(jù)源獲取數(shù)據(jù)。其中,XQueryD處理器使用 Silkroute[26]完成XML和關系型數(shù)據(jù)庫之間的映射,使用 StruSQL包裝器完成XML和本體之間的映射。XBrain可以提供CSV、HTML和XML3種格式的查詢結(jié)果返回給用戶。XBrain使用XML技術(shù)集成的數(shù)據(jù)模型基本涵蓋了生物醫(yī)學數(shù)據(jù)可能的數(shù)據(jù)模型,具有數(shù)據(jù)集成對象的全面性。XBrain使用了成熟的XQueryD技術(shù),構(gòu)建的應用程序具有很好的性能,特別是穩(wěn)定性和查詢速度。

    圖10 XBrain系統(tǒng)架構(gòu)[25]Fig.10 The architecture of XBrain system[25]

    3 結(jié)論

    本文綜述了生物醫(yī)學異構(gòu)數(shù)據(jù)庫集成領域內(nèi)的最新研究進展,對基于數(shù)據(jù)倉庫、聯(lián)邦數(shù)據(jù)庫系統(tǒng)和中間件的3種方法及其相關研究進行了介紹和討論。下面將對這些方法的特點和適用性進行總結(jié)。

    數(shù)據(jù)倉庫通常利用成熟的關系型數(shù)據(jù)庫,因此處理海量數(shù)據(jù)具有優(yōu)勢。利用數(shù)據(jù)倉庫還可以對數(shù)據(jù)進行預處理,特別是數(shù)據(jù)清洗,以提高數(shù)據(jù)的質(zhì)量??梢岳脭?shù)據(jù)倉庫提供的工具進行聯(lián)機分析處理(OLAP)和數(shù)據(jù)挖掘,對數(shù)據(jù)進行多層次、全方位的有效利用。數(shù)據(jù)倉庫通常在本地存儲,而且對其中的數(shù)據(jù)進行了預處理,因此實現(xiàn)了以磁盤的空間換取了用戶查詢的時間,提高了數(shù)據(jù)存儲和查詢的效率。數(shù)據(jù)倉庫增加了數(shù)據(jù)的可獲取性,當使用其他兩種方法時,如果某一個外部數(shù)據(jù)源暫停數(shù)據(jù)訪問服務時,數(shù)據(jù)集成系統(tǒng)的數(shù)據(jù)來源就減少了一個,而數(shù)據(jù)倉庫則不會發(fā)生這種情況。但是,數(shù)據(jù)倉庫也存在一些不足:其架構(gòu)不夠靈活,不能及時反映所集成數(shù)據(jù)源的改變;建立數(shù)據(jù)倉庫的成本較高;隨著數(shù)據(jù)量的不斷增長,存儲設備不斷增加,數(shù)據(jù)更新和維護逐漸困難。

    聯(lián)邦數(shù)據(jù)庫系統(tǒng)著重實現(xiàn)各異構(gòu)數(shù)據(jù)源之間的互操作,其最常用的方法是將每個數(shù)據(jù)庫模式分別和其他所有數(shù)據(jù)庫模式進行映射。如果有n個自治數(shù)據(jù)庫,則聯(lián)邦中需要建立 n(n-1)個模式映射規(guī)則。但是,當參與聯(lián)邦的數(shù)據(jù)庫很多(n值很大)時,建立映射規(guī)則的任務將變得很復雜而難于實現(xiàn)和維護。所以,聯(lián)邦數(shù)據(jù)庫集成系統(tǒng)適用于自治數(shù)據(jù)庫的數(shù)量比較少、各數(shù)據(jù)庫有較好的自治性、允許用戶單獨查詢、各數(shù)據(jù)庫間能夠彼此聯(lián)合回答查詢的情況。

    中間件是目前比較流行的數(shù)據(jù)集成方法。由于每次查詢都要連接到各數(shù)據(jù)源,因此該方法可以很好地反映所集成數(shù)據(jù)的實時性。該方法可以集成非數(shù)據(jù)庫數(shù)據(jù)源,如半結(jié)構(gòu)化數(shù)據(jù)。基于中間件的數(shù)據(jù)集成系統(tǒng)中的數(shù)據(jù)源的查詢能力可以是受限的,如可以不支持SQL查詢。因為這些數(shù)據(jù)源是完全自治的,所以很容易對系統(tǒng)中數(shù)據(jù)源進行添加或刪除,這使得系統(tǒng)的數(shù)據(jù)維護工作大大減少、系統(tǒng)的靈活性大大加強。該方法也存在一些不足之處?;谠摲椒ń⒌臄?shù)據(jù)集成系統(tǒng)通常是只讀的,而數(shù)據(jù)倉庫和聯(lián)邦數(shù)據(jù)庫系統(tǒng)既可讀也可寫;不支持各異構(gòu)數(shù)據(jù)源之間的互操作;因為該方法是基于程序運行時的數(shù)據(jù)集成方法,所以受程序運行效率的限制,很難完成在線的數(shù)據(jù)清洗等維護數(shù)據(jù)質(zhì)量的工作;該方法可能引發(fā)原始數(shù)據(jù)源非故意的拒絕訪問,此時系統(tǒng)所集成的數(shù)據(jù)源就會減少。例如NCBI嚴格限制用戶每天訪問的次數(shù),如超限,可能會被暫時禁止訪問。當數(shù)據(jù)源的查詢能力受限時,如何處理查詢和進行優(yōu)化也是亟需完善的工作。

    [1] Cochrane GR and Galperin MY.The 2010 Nucleic Acids Research Database Issue and online Database Collection: a community of data resources[J].Nucleic Acids Research,2010,38(Database issue):D1-D4.

    [2] Karasavvas KA, Baldock R, Burger A. Bioinformatics integration and agent technology[J].J Biomed Inform,2004,37(3):205-219.

    [3] Goble C,Stevens R,Hull D,et al.Data curation + process curation= data integration + science [J]. Briefingsin Bioinformatics,2008,9(6):506-17.

    [4] Maurizio L.Data integration:a theoretical perspective[A].In:Proceedings the ACM Symposium on Principles of Database Systems[C].New York:ACM Press,2002.233 -246.

    [5] Hernandez T and Kambhampati S. Integration of biological sources:current systems and challenges ahead [J].ACM SIGMOD Record,2004,33(3):51-60.

    [6] K?hler J. Integration of life science databases[J]. Drug Discovery Today,2004,2(2):61-69.

    [7] Trissl S,Rother K,Müller H,et al.Columba:an integrated database of proteins,structures,and annotations [J].BMC Bioinformatics,2005,6:81.

    [8] Chaurasia G,Malhotra S,Russ J,et al.UniHI 4:new tools for query,analysis and visualization of the human protein-protein interactome[J].Nucleic Acids Res,2009,37(Database issue):D657-660.

    [9] Tarcea VG,Weymouth T,Ade A,et al.Michigan molecular interactions r2:from interacting proteins to pathways[J].Nucleic Acids Res,2009,37(Database issue):D642-646.

    [10] Muilu J,Peltonen L,Litton JE.The federated database-a basis for biobank-based post-genome studies,integrating phenome and genome data from 600,000 twin pairs in Europe [J].Eur J Hum Genet,2007,15(7):718-723.

    [11] Androulakis S,Schmidberger J,Bate MA,et al.Federated repositories of X-ray diffraction images[J].Acta Crystallogr D Biol Crystallogr,2008,D64(Pt 7):810 -814.

    [12] Hwang DS,F(xiàn)otouhi F,Son YJ.A case study:development of an organism-specific protein interaction database and its associated tools [J]. InternationalJournalofCooperative Information Systems,2003,12(2):15.

    [13] Marenco L,Wang TY,Shepherd G,et al.QIS:A framework for biomedical database federation[J].J Am Med Inform Assn,2004,11(6):523-34.

    [14] Blankenburg H,F(xiàn)inn RD,Prlic'A,et al.DASMI:exchanging,annotating and assessing molecularinteraction data [J].Bioinformatics,2009,25(10):1321-1328.

    [15] Dowell RD, Jokerst RM,Day A, et al. The distributed annotation system [J].BMC Bioinformatics,2001,2:7.

    [16] Blankenburg H,Ramírez F,Büch J,et al.DASMIweb:online integration,analysis and assessmentofdistributed protein interaction data[J].Nucleic Acids Res,2009,37(Web Server issue):W122-128.

    [17] K?hler J,Philippi S,and Lange M.SEMEDA:ontology based semantic integration of biological databases[J].Bioinformatics,2003,19(18):2420-2427.

    [18] Alonso-Calvo R,Maojo V,Billhardt H,et al.An agent-and ontology-based system for integrating public gene,protein,and disease databases[J].J Biomed Inform,2007,40(1):17-29.

    [19] Noy NF,Shah NH,Whetzel PL,et al.BioPortal:ontologies and integrated data resources at the click of a mouse [J].Nucleic Acids Res,2009,37(Web Server issue):W170-173.

    [20] Min H,Manion FJ,Goralczyk E,et al.Integration of prostate cancer clinical data using an ontology[J].J Biomed Inform,2009,42(6):1035-1045.

    [21] Crompton S,Matthews B,Gray A,et al.Data integration in bioinformaticsusing OGSA-DAI[EB/OL]. http://www.allhands.org.uk/2005/proceedings/papers/500.pdf,2005/2009-12-18.

    [22] Jones AC,White RJ,Gray WA,et al.Building a Biodiversity GRID[A].In Konagaya A and Satou K,eds.:Grid Computing in Life Science[M].Berlin:Springer-Verlag,2005.140-151.

    [23] Luo Y,Jiang L,Zhuang TG.A grid-based model for integration of distributed medicaldatabases [J]. JournalofDigital Imaging,2008,22(6):579-588.

    [24] Huang Y,Ni T,Zhou L,et al.JXP4BIGI:a generalized,Java XML-based approach for biological information gathering and integration[J].Bioinformatics,2003,19(18):2351-2358.

    [25] Bales N,Brinkley J,Lee ES,et al.A framework for XML-based integration ofdata,visualization and analysisin a biomedical domain [A].Database and XML Technologies[M].Berlin Heidelberg:Springer-Verlag,2005.207-221.

    [26] Fernandez M,Kadiyska Y,Morishima A,et al.SilkRoute:a framework for publishing relational data in XML [J].ACM Transactions on Database Technology,2002,27(4):438-493.

    Progress in Biomedical Heterogeneous Database Integration

    ZHANG ZhiZHANG Zheng-Guo*
    (Institute of Basic Medical Sciences,Chinese Academy of Medical Sciences,Peking Union Medical College,Beijing 100005,China)

    With the rapid development of biomedicine,many biomedical databases have constantly emerged.How to methodically organize these independent databases is fundamental to increase the overall knowledge and understanding of a specific subject.Data integration can implement wider data sharing and more effective utilization of data,and it has become the core research content of bioinformatics.In this paper,the methods of the integration of biomedical heterogeneous database were introduced,and the newest progress in this field was reviewed.The characteristics and the use conditions of all methods were discussed and summarized as well.

    heterogeneous database;database integration;data warehouse;federated database;middleware

    R318

    A

    0258-8021(2010)03-0454-10

    10.3969/j.issn.0258-8021.2010.03.022

    2009-12-25,

    2010-01-08

    中華醫(yī)學基金(CMB03-787)

    *通訊作者。 E-mail:zhangzg126@126.com

    猜你喜歡
    數(shù)據(jù)倉庫生物醫(yī)學數(shù)據(jù)源
    芻議“生物醫(yī)學作為文化”的研究進路——兼論《作為文化的生物醫(yī)學》
    科學與社會(2022年4期)2023-01-17 01:20:04
    靈長類生物醫(yī)學前沿探索中的倫理思考
    科學與社會(2021年4期)2022-01-19 03:29:50
    基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設信息系統(tǒng)整合研究
    國外生物醫(yī)學文獻獲取的技術(shù)工具:述評與啟示
    圖書館建設(2018年5期)2018-07-10 09:46:44
    Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
    基于不同網(wǎng)絡數(shù)據(jù)源的期刊評價研究
    分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設計
    電子制作(2016年15期)2017-01-15 13:39:15
    探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應用
    LED光源在生物醫(yī)學中的應用分析
    基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實踐
    国产99白浆流出| 嫁个100分男人电影在线观看| 久久人人精品亚洲av| 在线观看免费视频日本深夜| 精品第一国产精品| 国产精品久久电影中文字幕| 一边摸一边抽搐一进一小说| 成在线人永久免费视频| 在线观看一区二区三区| 国产一级毛片七仙女欲春2 | 色综合婷婷激情| 女性生殖器流出的白浆| 一边摸一边做爽爽视频免费| 亚洲中文字幕一区二区三区有码在线看 | 国产成人av教育| 亚洲免费av在线视频| 可以免费在线观看a视频的电影网站| 国产激情久久老熟女| 人妻久久中文字幕网| 精品午夜福利视频在线观看一区| 波多野结衣一区麻豆| 亚洲狠狠婷婷综合久久图片| 午夜免费鲁丝| 亚洲一区高清亚洲精品| 亚洲一卡2卡3卡4卡5卡精品中文| 久久狼人影院| 免费一级毛片在线播放高清视频 | 一区二区三区国产精品乱码| 成年女人毛片免费观看观看9| 国产精品美女特级片免费视频播放器 | 91在线观看av| 黄色丝袜av网址大全| e午夜精品久久久久久久| 禁无遮挡网站| 亚洲国产精品成人综合色| av有码第一页| 久热这里只有精品99| 亚洲精品国产区一区二| 又黄又爽又免费观看的视频| 日韩国内少妇激情av| 人妻丰满熟妇av一区二区三区| 欧洲精品卡2卡3卡4卡5卡区| 久久久国产成人精品二区| 国产麻豆69| 国产麻豆成人av免费视频| 老鸭窝网址在线观看| 国产一区二区三区综合在线观看| 亚洲第一青青草原| 久久久国产欧美日韩av| 国产精品98久久久久久宅男小说| 亚洲精品av麻豆狂野| 法律面前人人平等表现在哪些方面| 久久久久九九精品影院| 久久精品aⅴ一区二区三区四区| 亚洲精品国产区一区二| 男男h啪啪无遮挡| 精品欧美一区二区三区在线| 一区在线观看完整版| 国产精品久久视频播放| 国产精品日韩av在线免费观看 | av网站免费在线观看视频| 琪琪午夜伦伦电影理论片6080| 国产成人精品在线电影| 深夜精品福利| 国产主播在线观看一区二区| 好男人电影高清在线观看| 大型黄色视频在线免费观看| 一二三四在线观看免费中文在| 黄色毛片三级朝国网站| 99国产精品99久久久久| 亚洲男人的天堂狠狠| 免费高清在线观看日韩| 国产亚洲精品第一综合不卡| 男女午夜视频在线观看| 黄片小视频在线播放| 免费看美女性在线毛片视频| 在线天堂中文资源库| 国产一卡二卡三卡精品| 免费高清在线观看日韩| 久久午夜亚洲精品久久| 精品国产一区二区久久| 中文字幕色久视频| 国内精品久久久久精免费| 国产99久久九九免费精品| 亚洲国产日韩欧美精品在线观看 | 国产欧美日韩综合在线一区二区| 亚洲国产精品成人综合色| 99国产精品一区二区蜜桃av| 一夜夜www| 一级,二级,三级黄色视频| 日日干狠狠操夜夜爽| 狠狠狠狠99中文字幕| av视频在线观看入口| 51午夜福利影视在线观看| 久久中文字幕人妻熟女| 变态另类丝袜制服| 精品久久久久久,| 色综合亚洲欧美另类图片| 天天添夜夜摸| 两个人视频免费观看高清| 亚洲国产精品成人综合色| 一区二区三区精品91| 久久性视频一级片| av超薄肉色丝袜交足视频| 日韩高清综合在线| 国产欧美日韩一区二区精品| 人妻久久中文字幕网| 黄色a级毛片大全视频| 亚洲国产日韩欧美精品在线观看 | 亚洲一区高清亚洲精品| 99在线人妻在线中文字幕| 日韩精品青青久久久久久| 可以在线观看毛片的网站| 亚洲av熟女| 中文字幕人妻丝袜一区二区| 国产精品影院久久| 亚洲三区欧美一区| 又黄又爽又免费观看的视频| 日日摸夜夜添夜夜添小说| 久久久久国内视频| 亚洲第一av免费看| 国产亚洲精品av在线| 欧美日韩亚洲综合一区二区三区_| 一a级毛片在线观看| 高清在线国产一区| 叶爱在线成人免费视频播放| 国产高清视频在线播放一区| 老司机午夜十八禁免费视频| 久久亚洲真实| 日日干狠狠操夜夜爽| 欧美成人性av电影在线观看| 99国产精品免费福利视频| 日韩欧美一区视频在线观看| 中文字幕人妻丝袜一区二区| 日韩三级视频一区二区三区| 国产成人精品在线电影| 久久亚洲真实| 三级毛片av免费| 韩国av一区二区三区四区| 日韩有码中文字幕| 可以免费在线观看a视频的电影网站| 最近最新中文字幕大全电影3 | 一级a爱片免费观看的视频| 国产一级毛片七仙女欲春2 | 午夜福利成人在线免费观看| 亚洲成av人片免费观看| 国产成人一区二区三区免费视频网站| 91麻豆av在线| 黄片播放在线免费| 亚洲一区二区三区不卡视频| 国产一区二区三区视频了| 搡老岳熟女国产| 美女高潮喷水抽搐中文字幕| 亚洲av熟女| 99久久国产精品久久久| 色av中文字幕| 国产99久久九九免费精品| 中文字幕av电影在线播放| 亚洲五月色婷婷综合| 成人国产一区最新在线观看| 国产真人三级小视频在线观看| 91麻豆精品激情在线观看国产| 亚洲成av片中文字幕在线观看| 大陆偷拍与自拍| 久久久久久久久久久久大奶| 国产熟女午夜一区二区三区| 免费在线观看亚洲国产| 国产aⅴ精品一区二区三区波| 成人欧美大片| 国产99白浆流出| 国产免费av片在线观看野外av| 国产av一区二区精品久久| 精品少妇一区二区三区视频日本电影| 99riav亚洲国产免费| 亚洲精华国产精华精| 久久精品成人免费网站| 18美女黄网站色大片免费观看| 禁无遮挡网站| 女警被强在线播放| 69av精品久久久久久| 精品少妇一区二区三区视频日本电影| 久久精品91蜜桃| 自线自在国产av| 男女下面进入的视频免费午夜 | 级片在线观看| 欧美一级a爱片免费观看看 | 国产一区二区激情短视频| 免费看美女性在线毛片视频| 性色av乱码一区二区三区2| 亚洲精品久久国产高清桃花| 久久午夜亚洲精品久久| 国产极品粉嫩免费观看在线| 久久草成人影院| 淫妇啪啪啪对白视频| 免费在线观看视频国产中文字幕亚洲| 亚洲av五月六月丁香网| 色哟哟哟哟哟哟| 亚洲美女黄片视频| 在线观看免费视频网站a站| 他把我摸到了高潮在线观看| 1024香蕉在线观看| 亚洲精品国产精品久久久不卡| 久久久久久大精品| 午夜亚洲福利在线播放| 亚洲人成电影观看| 黄色片一级片一级黄色片| 成人国语在线视频| 日本三级黄在线观看| 国产99久久九九免费精品| 在线观看舔阴道视频| www日本在线高清视频| 欧美精品亚洲一区二区| 国产午夜福利久久久久久| 日本 欧美在线| 欧美日韩乱码在线| 在线观看免费午夜福利视频| 亚洲色图综合在线观看| 欧美乱色亚洲激情| 国产精品免费视频内射| 色av中文字幕| √禁漫天堂资源中文www| 亚洲欧洲精品一区二区精品久久久| 高潮久久久久久久久久久不卡| 一级毛片高清免费大全| 精品福利观看| 日韩欧美国产一区二区入口| 久久精品国产亚洲av香蕉五月| 久久久久久久午夜电影| 黄频高清免费视频| 女警被强在线播放| 伦理电影免费视频| 久久精品亚洲熟妇少妇任你| 一级a爱视频在线免费观看| 女人被躁到高潮嗷嗷叫费观| 涩涩av久久男人的天堂| 亚洲男人天堂网一区| 搡老妇女老女人老熟妇| 黄片大片在线免费观看| 国产麻豆69| www.熟女人妻精品国产| 成人欧美大片| 老司机在亚洲福利影院| 亚洲电影在线观看av| 久久欧美精品欧美久久欧美| 久久人妻福利社区极品人妻图片| 亚洲无线在线观看| 制服丝袜大香蕉在线| 大型av网站在线播放| 欧美日韩一级在线毛片| 亚洲人成伊人成综合网2020| 国产97色在线日韩免费| 国产片内射在线| 一本大道久久a久久精品| 久久久久久人人人人人| 国产主播在线观看一区二区| 午夜福利免费观看在线| 嫁个100分男人电影在线观看| 中出人妻视频一区二区| 热re99久久国产66热| 成人特级黄色片久久久久久久| 日本撒尿小便嘘嘘汇集6| 国产亚洲欧美精品永久| 亚洲午夜理论影院| 国产高清视频在线播放一区| 日本 av在线| 欧美激情高清一区二区三区| 亚洲一卡2卡3卡4卡5卡精品中文| 精品久久久久久成人av| 9191精品国产免费久久| 国产精品亚洲一级av第二区| 亚洲少妇的诱惑av| 亚洲av成人av| 最近最新免费中文字幕在线| 国产成人一区二区三区免费视频网站| 正在播放国产对白刺激| 国产亚洲精品一区二区www| 亚洲国产高清在线一区二区三 | av片东京热男人的天堂| 精品电影一区二区在线| 亚洲片人在线观看| 成人亚洲精品一区在线观看| 国产成人一区二区三区免费视频网站| 久久国产亚洲av麻豆专区| 国产av在哪里看| 亚洲国产欧美一区二区综合| 淫妇啪啪啪对白视频| 午夜免费成人在线视频| 天天添夜夜摸| 色av中文字幕| 久久精品国产综合久久久| 每晚都被弄得嗷嗷叫到高潮| 国产精品免费一区二区三区在线| 51午夜福利影视在线观看| 女性生殖器流出的白浆| 一本大道久久a久久精品| 91字幕亚洲| 国产成人av教育| 韩国精品一区二区三区| 久久人妻av系列| 夜夜夜夜夜久久久久| 国产成人精品久久二区二区免费| 成人手机av| 国产精品九九99| 国产精品久久久av美女十八| 9热在线视频观看99| 日日夜夜操网爽| 日本三级黄在线观看| 夜夜夜夜夜久久久久| 母亲3免费完整高清在线观看| 亚洲 国产 在线| 精品久久久久久成人av| 十八禁人妻一区二区| 国产一区二区三区综合在线观看| 一级黄色大片毛片| 美女扒开内裤让男人捅视频| 亚洲人成77777在线视频| 久久久久久免费高清国产稀缺| 可以在线观看毛片的网站| 色婷婷久久久亚洲欧美| 99久久国产精品久久久| 国产精品二区激情视频| ponron亚洲| 真人做人爱边吃奶动态| 很黄的视频免费| 国产高清有码在线观看视频 | 久久性视频一级片| 日日干狠狠操夜夜爽| 国产单亲对白刺激| 一边摸一边做爽爽视频免费| 国产高清videossex| 大香蕉久久成人网| 99在线人妻在线中文字幕| 午夜福利一区二区在线看| 老司机深夜福利视频在线观看| 日本vs欧美在线观看视频| 精品国产乱码久久久久久男人| 久久欧美精品欧美久久欧美| 成人特级黄色片久久久久久久| 91大片在线观看| 中亚洲国语对白在线视频| 久久精品aⅴ一区二区三区四区| 不卡一级毛片| 淫妇啪啪啪对白视频| 中国美女看黄片| 叶爱在线成人免费视频播放| 亚洲av美国av| 村上凉子中文字幕在线| 午夜福利高清视频| 亚洲国产精品合色在线| 天堂影院成人在线观看| 欧美丝袜亚洲另类 | www.www免费av| 变态另类丝袜制服| 精品人妻在线不人妻| 亚洲成人精品中文字幕电影| 麻豆成人av在线观看| 久久精品亚洲精品国产色婷小说| 成人亚洲精品av一区二区| av福利片在线| 亚洲五月婷婷丁香| 成人精品一区二区免费| 9色porny在线观看| 午夜精品久久久久久毛片777| 国产精品久久久久久人妻精品电影| 黄色视频不卡| 国产精品久久久人人做人人爽| 亚洲一区二区三区色噜噜| 色播在线永久视频| 午夜免费鲁丝| 久久人妻av系列| 久久精品亚洲精品国产色婷小说| 一区二区日韩欧美中文字幕| 亚洲五月天丁香| 级片在线观看| 成人特级黄色片久久久久久久| 欧美黄色片欧美黄色片| 国产亚洲av嫩草精品影院| xxx96com| 少妇粗大呻吟视频| 久久香蕉国产精品| 国产精品秋霞免费鲁丝片| 亚洲国产日韩欧美精品在线观看 | 国产区一区二久久| 在线观看舔阴道视频| 国产男靠女视频免费网站| 制服丝袜大香蕉在线| 99久久综合精品五月天人人| 97人妻天天添夜夜摸| 黄色女人牲交| 久久九九热精品免费| 啦啦啦韩国在线观看视频| 好男人电影高清在线观看| 一个人免费在线观看的高清视频| 在线av久久热| 成人国产综合亚洲| 色综合亚洲欧美另类图片| a在线观看视频网站| 日日夜夜操网爽| 亚洲伊人色综图| 黄色视频,在线免费观看| 成人18禁在线播放| 国产精品98久久久久久宅男小说| 国产精品久久久人人做人人爽| 欧美色视频一区免费| 日日摸夜夜添夜夜添小说| 久久久久亚洲av毛片大全| 丝袜美腿诱惑在线| 老司机福利观看| 欧美绝顶高潮抽搐喷水| 男女下面进入的视频免费午夜 | 国产精品,欧美在线| 中亚洲国语对白在线视频| 一本大道久久a久久精品| 亚洲av成人av| 欧美色欧美亚洲另类二区 | 中文字幕人妻丝袜一区二区| 国产极品粉嫩免费观看在线| 搡老熟女国产l中国老女人| 精品国产一区二区三区四区第35| 两个人视频免费观看高清| 天堂影院成人在线观看| 午夜视频精品福利| 91av网站免费观看| 亚洲国产中文字幕在线视频| 91字幕亚洲| 高清黄色对白视频在线免费看| 日本撒尿小便嘘嘘汇集6| 美国免费a级毛片| 免费高清在线观看日韩| 好男人在线观看高清免费视频 | 欧美日韩精品网址| 制服丝袜大香蕉在线| 国产成人欧美在线观看| 精品一区二区三区av网在线观看| 日本 av在线| 亚洲欧美精品综合久久99| 人人妻人人澡欧美一区二区 | 亚洲专区字幕在线| 亚洲中文av在线| 午夜久久久久精精品| 美女午夜性视频免费| 一进一出抽搐动态| 久久香蕉精品热| 满18在线观看网站| 久久亚洲精品不卡| 天天添夜夜摸| 人妻丰满熟妇av一区二区三区| 日韩 欧美 亚洲 中文字幕| 午夜福利在线观看吧| 中文字幕高清在线视频| 国产精品香港三级国产av潘金莲| 在线观看免费午夜福利视频| 欧美精品亚洲一区二区| 中文字幕另类日韩欧美亚洲嫩草| 人人澡人人妻人| 两个人免费观看高清视频| bbb黄色大片| 亚洲欧美精品综合一区二区三区| 成人亚洲精品一区在线观看| 久久久久精品国产欧美久久久| 伊人久久大香线蕉亚洲五| 精品免费久久久久久久清纯| 人人澡人人妻人| 色在线成人网| 一区二区三区精品91| 91九色精品人成在线观看| 日韩精品免费视频一区二区三区| 禁无遮挡网站| 久久精品国产综合久久久| 丰满的人妻完整版| 婷婷丁香在线五月| 纯流量卡能插随身wifi吗| 亚洲国产欧美日韩在线播放| 久久人妻福利社区极品人妻图片| 亚洲情色 制服丝袜| 精品国产一区二区三区四区第35| 三级毛片av免费| 侵犯人妻中文字幕一二三四区| 十八禁网站免费在线| 午夜福利成人在线免费观看| 成人特级黄色片久久久久久久| 成在线人永久免费视频| 黄色丝袜av网址大全| 日本五十路高清| 嫁个100分男人电影在线观看| 亚洲 欧美一区二区三区| 欧美在线黄色| av福利片在线| 变态另类成人亚洲欧美熟女 | 欧美另类亚洲清纯唯美| 波多野结衣高清无吗| 久久久久九九精品影院| 成人国产综合亚洲| 欧美激情高清一区二区三区| 丝袜美足系列| 久久精品影院6| 欧美久久黑人一区二区| 日韩欧美三级三区| 成熟少妇高潮喷水视频| 久久国产乱子伦精品免费另类| 欧美乱妇无乱码| 女性被躁到高潮视频| 啦啦啦 在线观看视频| 亚洲国产中文字幕在线视频| 成人国产一区最新在线观看| 好男人在线观看高清免费视频 | 久久国产精品影院| 高清黄色对白视频在线免费看| 香蕉久久夜色| 久久香蕉国产精品| 夜夜躁狠狠躁天天躁| 国产91精品成人一区二区三区| av片东京热男人的天堂| 亚洲全国av大片| 大香蕉久久成人网| 国产乱人伦免费视频| 日本a在线网址| 久久精品亚洲熟妇少妇任你| 香蕉丝袜av| 亚洲国产欧美网| 欧美日韩中文字幕国产精品一区二区三区 | 久久香蕉国产精品| 欧美国产日韩亚洲一区| 亚洲国产精品999在线| 日韩高清综合在线| 一本大道久久a久久精品| 久久香蕉国产精品| 久久人妻av系列| 日韩欧美一区二区三区在线观看| 亚洲av电影不卡..在线观看| 女人高潮潮喷娇喘18禁视频| 极品人妻少妇av视频| 国产精品综合久久久久久久免费 | 国产aⅴ精品一区二区三区波| 丰满的人妻完整版| 国产亚洲欧美精品永久| 波多野结衣av一区二区av| 国产麻豆69| 亚洲av成人不卡在线观看播放网| 一进一出抽搐动态| 999久久久国产精品视频| 国产色视频综合| 亚洲国产高清在线一区二区三 | av欧美777| 亚洲国产中文字幕在线视频| avwww免费| 国产精品 欧美亚洲| 国产免费av片在线观看野外av| 丰满人妻熟妇乱又伦精品不卡| 久久精品国产亚洲av香蕉五月| 国产精品 欧美亚洲| 中文字幕人成人乱码亚洲影| 欧美中文日本在线观看视频| 国产av在哪里看| 91国产中文字幕| 亚洲一区中文字幕在线| 国产成人精品在线电影| 久久精品国产综合久久久| 欧美日韩中文字幕国产精品一区二区三区 | 国产欧美日韩综合在线一区二区| 午夜福利高清视频| 无人区码免费观看不卡| 久久精品91蜜桃| 亚洲五月婷婷丁香| 精品国产亚洲在线| a在线观看视频网站| 亚洲专区国产一区二区| 母亲3免费完整高清在线观看| 久久久久国产精品人妻aⅴ院| 叶爱在线成人免费视频播放| 亚洲av成人一区二区三| 宅男免费午夜| 亚洲男人的天堂狠狠| 国产成人系列免费观看| 亚洲成a人片在线一区二区| 嫩草影视91久久| 99香蕉大伊视频| 午夜福利高清视频| av福利片在线| 男人舔女人的私密视频| 成人手机av| 久久婷婷成人综合色麻豆| 亚洲人成电影免费在线| 91成人精品电影| 在线av久久热| avwww免费| 在线播放国产精品三级| 丰满的人妻完整版| 黄色丝袜av网址大全| 一进一出好大好爽视频| 午夜成年电影在线免费观看| 日本欧美视频一区| 久久久久国产一级毛片高清牌| 波多野结衣av一区二区av| 十分钟在线观看高清视频www| 亚洲少妇的诱惑av| 久久久精品国产亚洲av高清涩受| 伊人久久大香线蕉亚洲五| 人人妻人人澡人人看| 韩国精品一区二区三区| 极品人妻少妇av视频| av中文乱码字幕在线| 桃色一区二区三区在线观看| 91成人精品电影| 中出人妻视频一区二区| 国产一区在线观看成人免费| 99久久综合精品五月天人人| 美女午夜性视频免费| 亚洲国产中文字幕在线视频| 男女做爰动态图高潮gif福利片 | 男男h啪啪无遮挡| 亚洲狠狠婷婷综合久久图片| 丝袜美足系列| 91av网站免费观看| 色婷婷久久久亚洲欧美|