張 智 張正國(guó)
(中國(guó)醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所 北京協(xié)和醫(yī)學(xué)院基礎(chǔ)學(xué)院,北京 100005)
基于元數(shù)據(jù)的異構(gòu)蛋白質(zhì)-蛋白質(zhì)相互作用數(shù)據(jù)庫(kù)整合
張 智 張正國(guó)*
(中國(guó)醫(yī)學(xué)科學(xué)院基礎(chǔ)醫(yī)學(xué)研究所 北京協(xié)和醫(yī)學(xué)院基礎(chǔ)學(xué)院,北京 100005)
研究蛋白質(zhì)-蛋白質(zhì)相互作用是理解生命活動(dòng)的基礎(chǔ)。在蛋白質(zhì)-蛋白質(zhì)相互作用的研究過(guò)程中,產(chǎn)生了大量來(lái)源于實(shí)驗(yàn)和預(yù)測(cè)的數(shù)據(jù)。這些數(shù)據(jù)存儲(chǔ)于彼此異構(gòu)的數(shù)據(jù)庫(kù)中。對(duì)上述異構(gòu)數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)整合是實(shí)現(xiàn)共享和最大限度利用已有蛋白質(zhì)-蛋白質(zhì)相互作用數(shù)據(jù)必須解決的關(guān)鍵問(wèn)題。據(jù)此問(wèn)題提出了基于元數(shù)據(jù)理論和查詢轉(zhuǎn)換方法的異構(gòu)數(shù)據(jù)庫(kù)整合方案,并構(gòu)建了一個(gè)基于網(wǎng)絡(luò)的蛋白質(zhì)-蛋白質(zhì)相互作用相關(guān)異構(gòu)數(shù)據(jù)庫(kù)的整合平臺(tái),成功實(shí)現(xiàn)了對(duì)9個(gè)蛋白質(zhì)-蛋白質(zhì)相互作用數(shù)據(jù)庫(kù)的整合。
蛋白質(zhì)-蛋白質(zhì)相互作用;異構(gòu)數(shù)據(jù)庫(kù);數(shù)據(jù)整合;元數(shù)據(jù)
Abstract:Protein-protein interactions(PPIs)are fundamental for understanding of the biological processes of life.In the course of the study of PPIs,a large amount of data which came from experiments and predictions have been generated,and are stored in heterogeneous databases.In order to implement data sharing and maximize the use of data,it is required that these heterogeneous databases be integrated.This paper presented a solution based on the query translation technique and metadata theory to integrate heterogeneous databases.A web-based platform for integrating heterogeneous protein-protein interaction databases was built,and 9 PPI databases were integrated successfully.
Key words:protein-protein interaction(PPI);heterogeneous database;data integration;metadata
引言
隨著人類基因組計(jì)劃的完成,后基因組時(shí)代到來(lái)。對(duì)基因組的全套蛋白質(zhì)產(chǎn)物的研究是后基因組時(shí)代的主要研究領(lǐng)域。生物體中絕大多數(shù)蛋白質(zhì)都是在相互聯(lián)系和相互制約的過(guò)程中,形成復(fù)雜的蛋白質(zhì)復(fù)合體和相互作用網(wǎng)絡(luò),從而發(fā)揮其功能活性的。因此,對(duì)蛋白質(zhì)-蛋白質(zhì)相互作用(proteinprotein interaction,PPI)的研究有利于人類認(rèn)識(shí)影響生命進(jìn)程的規(guī)律。
在PPI的研究過(guò)程中,產(chǎn)生了大量來(lái)源于實(shí)驗(yàn)和預(yù)測(cè)的數(shù)據(jù)。這些數(shù)據(jù)的整合不但有利于驗(yàn)證實(shí)驗(yàn)結(jié)果、提高實(shí)驗(yàn)結(jié)果的可信度,而且還有利于開(kāi)發(fā)更為完整的生物系統(tǒng)模型[1]。這些數(shù)據(jù)存儲(chǔ)于彼此異構(gòu)的數(shù)據(jù)庫(kù)中,對(duì)這些異構(gòu)數(shù)據(jù)庫(kù)(heterogeneousdatabase)進(jìn)行數(shù)據(jù)整合(data integration)是實(shí)現(xiàn)共享和最大限度利用已有PPI數(shù)據(jù)必須解決的關(guān)鍵問(wèn)題。然而,技術(shù)性異構(gòu)(technical heterogeneity)和語(yǔ)義性異構(gòu)(semantic heterogeneity)的存在嚴(yán)重阻礙了數(shù)據(jù)整合。技術(shù)性異構(gòu)是由于數(shù)據(jù)存儲(chǔ)方式不同,訪問(wèn)方法不同和查詢語(yǔ)言不同造成的異構(gòu);語(yǔ)義性異構(gòu)是由于數(shù)據(jù)庫(kù)模式(schema)不同和數(shù)據(jù)庫(kù)入口(entry)不同造成的異構(gòu)[2]。消除以上兩種形式的異構(gòu)是數(shù)據(jù)整合的基本目標(biāo)。
鑒于數(shù)據(jù)整合的必要性和重要性,研究者們進(jìn)行了大量有益的工作和探索。Sun 等[3]和 Huang[4]等提出了基于XML的方法,成功避免了復(fù)雜的數(shù)據(jù)庫(kù)模式的轉(zhuǎn)換。但是該方法很大程度上依賴于解析XML文件的性能和可靠性,當(dāng)數(shù)據(jù)量較大時(shí)效率較低。Jayapandian 等[5]和 Chaurasia 等[6]采用基于數(shù)據(jù)轉(zhuǎn)換的方法,并在轉(zhuǎn)換時(shí)進(jìn)行了消除冗余的工作,成功的深度整合了若干PPI數(shù)據(jù)庫(kù)。但由于數(shù)據(jù)轉(zhuǎn)換耗費(fèi)機(jī)時(shí),數(shù)據(jù)整合成本及維護(hù)成本過(guò)高。K?hler等[7]采用基于本體(ontology)的語(yǔ)義整合方法實(shí)現(xiàn)了將序列、通路、遺傳病和蛋白酶等多類數(shù)據(jù)庫(kù)的整合。該方法適用于多種面向不同生物學(xué)對(duì)象的數(shù)據(jù)庫(kù)整合。然而,對(duì)于語(yǔ)義過(guò)于簡(jiǎn)單的單一類型數(shù)據(jù)庫(kù)的整合,該方法并不適用。
為了進(jìn)一步提高數(shù)據(jù)整合的效率、降低數(shù)據(jù)整合成本和維護(hù)成本,并根據(jù)所整合數(shù)據(jù)庫(kù)的面向單一對(duì)象的特點(diǎn),本研究提出了基于元數(shù)據(jù)(metadata)理論和查詢轉(zhuǎn)換方法的異構(gòu)數(shù)據(jù)庫(kù)整合方案。本研究將構(gòu)建一個(gè)基于網(wǎng)絡(luò)的異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)(heterogeneous database system,HDBS),為用戶提供對(duì)各異構(gòu)數(shù)據(jù)庫(kù)的透明訪問(wèn),為應(yīng)用程序提供一個(gè)全局的、一致的數(shù)據(jù)庫(kù)訪問(wèn)接口。
本研究采用服務(wù)器的硬件配置:中央處理器為英特爾至強(qiáng)(Intel Xeon)E5530;內(nèi)存類型為DDR2 ECC,容量為4 GB;硬盤類型為SATA,容量為5 TB。服務(wù)器的系統(tǒng)軟件全部采用免費(fèi)軟件或開(kāi)源軟件。操作系統(tǒng)采用運(yùn)行穩(wěn)定高效的Linux系統(tǒng)Debian 5,數(shù)據(jù)庫(kù)服務(wù)器采用關(guān)系型數(shù)據(jù)庫(kù)MySQL 5.0.51,網(wǎng)絡(luò)服務(wù)器采用Tomcat 6.0.20;Java編程環(huán)境為Java EE 6。采用的數(shù)據(jù)來(lái)源于9個(gè)最具代表性的PPI數(shù)據(jù)庫(kù),如表1所示。這些數(shù)據(jù)庫(kù)提供的原始數(shù)據(jù)文件類型包括:文本文件,BioPAX2文件,Excel文件,PSI-MI/PSI-MI25文件,SBML 文件和 XIN 文件等,這些數(shù)據(jù)庫(kù)都同時(shí)存在技術(shù)性異構(gòu)和語(yǔ)義性異構(gòu)。
表1 蛋白質(zhì)-蛋白質(zhì)相互作用數(shù)據(jù)庫(kù)Tab.1 Protein-protein interaction database
1.2.1 消除技術(shù)性異構(gòu)
采用將原始 PPI數(shù)據(jù)轉(zhuǎn)換為MySQL數(shù)據(jù)庫(kù)的方法消除技術(shù)性異構(gòu),流程如圖1所示。多種格式的9個(gè)PPI原始數(shù)據(jù)通過(guò)Java數(shù)據(jù)轉(zhuǎn)換程序把PPI的信息提取出來(lái)。根據(jù)原始數(shù)據(jù)文件的格式,采用了兩種文件解析器。XML解析器用于解析基于XML格式的文件。TAB解析器用于解析以制表符分割的文本格式文件。然后,通過(guò)MySQL提供的驅(qū)動(dòng)程序,使用 Java數(shù)據(jù)庫(kù)互連(Java database connectivity,JDBC)應(yīng)用程序編程接口,把提取出的PPI信息存儲(chǔ)到9個(gè)對(duì)應(yīng)于原始數(shù)據(jù)集的MySQL數(shù)據(jù)庫(kù)。
1.2.2 消除語(yǔ)義性異構(gòu)
結(jié)合使用兩種方法解決語(yǔ)義性異構(gòu)的問(wèn)題,即元數(shù)據(jù)方法和查詢轉(zhuǎn)換方法。在數(shù)據(jù)處理中,元數(shù)據(jù)是一種定義性數(shù)據(jù),它提供在某個(gè)應(yīng)用程序和環(huán)境中所管理的數(shù)據(jù)的信息。所采用的PPI數(shù)據(jù)庫(kù)都是采用字段來(lái)對(duì)資源進(jìn)行描述的。但是,這些數(shù)據(jù)庫(kù)的字段設(shè)置存在的差異表現(xiàn)在字段的數(shù)目、內(nèi)容和含義不同。對(duì)于數(shù)據(jù)庫(kù)整合而言,要求為用戶提供統(tǒng)一的數(shù)據(jù)庫(kù)視圖。本研究提出了一種包括16個(gè)元素的PPI元數(shù)據(jù),如表2所示。該元數(shù)據(jù)是消除語(yǔ)義性異構(gòu)的數(shù)據(jù)結(jié)構(gòu)基礎(chǔ)。每個(gè)PPI數(shù)據(jù)庫(kù)的字段都與該元數(shù)據(jù)建立了映射關(guān)系,并構(gòu)建成了一個(gè)供數(shù)據(jù)庫(kù)訪問(wèn)接口使用的字段-元數(shù)據(jù)映射表。這使得各數(shù)據(jù)庫(kù)中字段設(shè)置的差異問(wèn)題得到解決。所有數(shù)據(jù)庫(kù)都使用元數(shù)據(jù)中的16個(gè)元素描述所存儲(chǔ)的數(shù)據(jù),實(shí)現(xiàn)了字段的對(duì)齊、字段內(nèi)容的統(tǒng)一以及字段含義的一致。
圖1 消除技術(shù)性異構(gòu)的流程Fig.1 The procedure of eliminating technical heterogeneity
表2 蛋白質(zhì)-蛋白質(zhì)相互作用元數(shù)據(jù)Tab.2 Protein-protein interaction metadata
圖2 查詢轉(zhuǎn)換方法Fig.2 The method of query translation
通過(guò)建立元數(shù)據(jù),從形式上消除語(yǔ)義性異構(gòu)的基礎(chǔ)上,本研究采用基于查詢轉(zhuǎn)換的方法,從技術(shù)角度實(shí)現(xiàn)了消除語(yǔ)義性異構(gòu),如圖2所示。本研究采用中間件(middleware)技術(shù)實(shí)現(xiàn)查詢轉(zhuǎn)換功能。查詢轉(zhuǎn)換中間件提供的功能如下:當(dāng)提交用戶查詢的請(qǐng)求時(shí),在字段-元數(shù)據(jù)映射表的幫助下將查詢拆分為面向各個(gè)互相獨(dú)立的PPI數(shù)據(jù)庫(kù)的子查詢,并通過(guò)數(shù)據(jù)庫(kù)訪問(wèn)接口在1.2.1中構(gòu)建的9個(gè)MySQL數(shù)據(jù)庫(kù)中執(zhí)行所有子查詢。當(dāng)所有子查詢的結(jié)果記錄集返回時(shí),在字段-元數(shù)據(jù)映射表的幫助下對(duì)查詢結(jié)果進(jìn)行整合,以統(tǒng)一的形式返回給用戶。
1.2.3 網(wǎng)絡(luò)應(yīng)用系統(tǒng)的構(gòu)建
以網(wǎng)絡(luò)應(yīng)用的形式為用戶提供PPI數(shù)據(jù)整合的系統(tǒng)。網(wǎng)絡(luò)應(yīng)用系統(tǒng)的架構(gòu)如圖3所示。該系統(tǒng)分為3個(gè)部分:展現(xiàn)層(presentation layer)、服務(wù)層(service layer)和持久層(persistence layer)。展現(xiàn)層負(fù)責(zé)用戶與服務(wù)器之間的數(shù)據(jù)交互,以JSP頁(yè)面作為展現(xiàn)層的技術(shù)實(shí)現(xiàn)。服務(wù)層負(fù)責(zé)整個(gè)網(wǎng)絡(luò)應(yīng)用系統(tǒng)的業(yè)務(wù)邏輯,以 Java EE服務(wù)器作為其容器(container)。該層包括3個(gè)組件:查詢轉(zhuǎn)換中間件、JDBC和數(shù)據(jù)維護(hù)服務(wù)。查詢轉(zhuǎn)換中間件實(shí)現(xiàn)了
1.2.2中所述的查詢轉(zhuǎn)換方法。JDBC實(shí)現(xiàn)了Java與MySQL數(shù)據(jù)庫(kù)的互聯(lián)。數(shù)據(jù)維護(hù)服務(wù)實(shí)現(xiàn)了對(duì)PPI數(shù)據(jù)庫(kù)的構(gòu)建和更新服務(wù)。持久層定義和維護(hù)了網(wǎng)絡(luò)應(yīng)用系統(tǒng)基礎(chǔ)數(shù)據(jù)的存取規(guī)則。服務(wù)層是網(wǎng)絡(luò)系統(tǒng)的中樞。它根據(jù)由展現(xiàn)層得到得用戶查詢請(qǐng)求,從持久層獲取用戶所需數(shù)據(jù),并將這些數(shù)據(jù)返回給展現(xiàn)層,進(jìn)而返回給用戶。
圖3 網(wǎng)絡(luò)應(yīng)用系統(tǒng)架構(gòu)Fig.3 Architecture of web application system
利用所編寫的Java程序完成了將9個(gè)原始PPI數(shù)據(jù)集轉(zhuǎn)換存儲(chǔ)到MySQL數(shù)據(jù)庫(kù)的工作,形成了由MySQL統(tǒng)一管理的9個(gè)對(duì)應(yīng)于原始數(shù)據(jù)集的相對(duì)獨(dú)立的新數(shù)據(jù)庫(kù),其存儲(chǔ)容量約為1 GB,所存儲(chǔ)的PPI記錄共為1 298 032條。
采用基于元數(shù)據(jù)理論和查詢轉(zhuǎn)換方法的異構(gòu)數(shù)據(jù)庫(kù)整合方法,構(gòu)建了一個(gè)基于網(wǎng)絡(luò)的PPI異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)。該系統(tǒng)查詢界面如圖4(a)所示。可以在區(qū)域①處以單列列表的形式輸入蛋白質(zhì)ID或名稱,并可以在區(qū)域②處按照蛋白質(zhì)所屬物種、PPI類型和PPI鑒定方法進(jìn)行查詢范圍的限定,最后點(diǎn)擊區(qū)域③處的提交按鈕進(jìn)行查詢。本系統(tǒng)以PPI元數(shù)據(jù)列表形式返回查詢結(jié)果,如圖4(b)所示。表頭為PPI元數(shù)據(jù)包括的16個(gè)元素的名稱,表內(nèi)容為各個(gè)PPI數(shù)據(jù)庫(kù)中對(duì)應(yīng)的數(shù)據(jù)值。
本研究提出了基于元數(shù)據(jù)理論和查詢轉(zhuǎn)換方法的異構(gòu)數(shù)據(jù)庫(kù)整合方案。一方面,該方案提出了一種蛋白質(zhì)-蛋白質(zhì)相互作用元數(shù)據(jù),并通過(guò)該元數(shù)據(jù)確保了各異構(gòu)數(shù)據(jù)庫(kù)的一致性和統(tǒng)一性。另一方面,該方案通過(guò)查詢轉(zhuǎn)換技術(shù)在保持了所有異構(gòu)數(shù)據(jù)庫(kù)各自獨(dú)立性的前提下,確保了對(duì)各異構(gòu)數(shù)據(jù)庫(kù)的查詢和無(wú)縫整合,并有效降低了數(shù)據(jù)整合的成本。
本研究所提出的異構(gòu)數(shù)據(jù)庫(kù)整合方案具有可擴(kuò)展性。該方案不但可以應(yīng)用于本地異構(gòu)數(shù)據(jù)庫(kù)的整合,也適用于分布式異構(gòu)數(shù)據(jù)庫(kù)的整合。對(duì)于分布式數(shù)據(jù)庫(kù),只需構(gòu)建該數(shù)據(jù)庫(kù)字段與PPI元數(shù)據(jù)的映射表,同時(shí)在數(shù)據(jù)庫(kù)訪問(wèn)接口中設(shè)定該數(shù)據(jù)庫(kù)的連接字串即可。
所涉及的所有軟件均為免費(fèi)軟件或開(kāi)源軟件。本研究基于以下幾點(diǎn)因素使用免費(fèi)軟件或開(kāi)源軟件:第一,安全性好;第二,可靠性和穩(wěn)定性高;第三,杜絕盜版,遵守知識(shí)產(chǎn)權(quán)條約和世貿(mào)組織規(guī)定;第四,降低研究和開(kāi)發(fā)成本。免費(fèi)軟件或開(kāi)源軟件滿足了本研究涉及的異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)全部的設(shè)計(jì)需求,并在實(shí)際應(yīng)用中取得出了令人滿意的效果。
采用將原始 PPI數(shù)據(jù)轉(zhuǎn)換為MySQL數(shù)據(jù)庫(kù)的方法成功解決了技術(shù)性異構(gòu)的問(wèn)題。存儲(chǔ)方式得到統(tǒng)一。本研究采用的9個(gè)PPI數(shù)據(jù)庫(kù)的數(shù)據(jù)都已經(jīng)存儲(chǔ)到MySQL數(shù)據(jù)庫(kù)中。數(shù)據(jù)庫(kù)中表的存儲(chǔ)格式都為MyISAM類型,存儲(chǔ)字符集都為UTF-8類型。訪問(wèn)方式得到統(tǒng)一。本研究采用JDBC數(shù)據(jù)庫(kù)編程接口訪問(wèn)MySQL數(shù)據(jù)庫(kù)。查詢語(yǔ)言得到統(tǒng)一。采用MySQL支持的結(jié)構(gòu)化查詢語(yǔ)言進(jìn)行數(shù)據(jù)庫(kù)查詢。
采用中間件技術(shù)作為查詢轉(zhuǎn)換方法的實(shí)現(xiàn)形式。查詢轉(zhuǎn)換中間件提供的程序接口定義了一個(gè)相對(duì)穩(wěn)定的高層應(yīng)用環(huán)境,不論底層的計(jì)算機(jī)硬件和系統(tǒng)軟件怎樣更新?lián)Q代,只要將中間件升級(jí)更新,并保持中間件對(duì)外的接口定義不變,應(yīng)用程序幾乎不需任何修改,從而節(jié)約了在應(yīng)用軟件開(kāi)發(fā)和維護(hù)中的大量投入。
本系統(tǒng)在整合的過(guò)程中保留了各異構(gòu)數(shù)據(jù)庫(kù)中的冗余信息。保留冗余信息可以保持?jǐn)?shù)據(jù)庫(kù)信息的多樣性。不同數(shù)據(jù)庫(kù)描述同一個(gè)蛋白質(zhì)的方式和角度存在不同,而用戶希望了解到這些存在互補(bǔ)性的信息。同時(shí),可以避免在查詢轉(zhuǎn)換的結(jié)果整合過(guò)程中的消除冗余信息操作,提高了系統(tǒng)的效率和反應(yīng)時(shí)間。
本研究利用免費(fèi)軟件或開(kāi)源軟件,采用基于元數(shù)據(jù)理論和查詢轉(zhuǎn)換方法的異構(gòu)數(shù)據(jù)庫(kù)整合方案,構(gòu)建了一個(gè)基于網(wǎng)絡(luò)的PPI相關(guān)異構(gòu)數(shù)據(jù)庫(kù)的整合平臺(tái),成功地解決了PPI數(shù)據(jù)庫(kù)整合中的異構(gòu)問(wèn)題,并實(shí)現(xiàn)了對(duì)9個(gè)PPI數(shù)據(jù)庫(kù)的整合。本研究提出了一種蛋白質(zhì)-蛋白質(zhì)相互作用的元數(shù)據(jù),有效地解決了蛋白質(zhì)-蛋白質(zhì)相互作用描述的一致性和統(tǒng)一性。本研究使用了基于查詢轉(zhuǎn)換方法的異構(gòu)數(shù)據(jù)庫(kù)整合方法,保證了各數(shù)據(jù)庫(kù)的相對(duì)獨(dú)立性,降低了系統(tǒng)維護(hù)成本,并且提高了相關(guān)程序的可擴(kuò)展性和可維護(hù)性?;诰W(wǎng)絡(luò)的蛋白質(zhì)-蛋白質(zhì)相互作用相關(guān)異構(gòu)數(shù)據(jù)庫(kù)整合平臺(tái)使研究人員能夠更加有效的利用PPI信息,從而促進(jìn)相關(guān)科學(xué)研究的進(jìn)展。
[1]Mathew JP,Taylor BS,Bader GD,et al.From bytes to bedside:data integration and computational biology for translational cancer research[J].PLoS Computational Biology,2007,3(2):e12.
[2]K?hler J.Integration of Life Science Databases[J].Drugs Discovery Today:Bio Silico,2004,2:61-69.
[3]Yihua H,Tianyun N,Lei Z,et al.JXP4BIGI:a generalized,Java XML-based approach for biological information gathering and integration [J].Bioinformatics,2003,19(18):2351-2358.
[4]Yudong S,Steve M.Converting biomolecular modeling data based on an XML representation [J].Journal of Integrative Bioinformatics,2008,5(2):95.
[5]Jayapandian M,Chapman A,Tarcea VG,et al.Michigan Molecular Interactions(MiMI):puttingthejigsaw puzzle together[J].Nucleic Acids Res,2007,35(Database issue):D566-D571.
[6]Chaurasia G,Iqbal Y,H?nig C,et al.UniHI:an entry gate to the human protein interactome[J].Nucleic Acids Res,2007,35(Database issue):D590-D594.
[7]K?hler J,Philippi S,Lange M.SEMEDA:ontology based semantic integration of biological databases[J].Bioinformatics,2003,19(18):2420-2427.
[8]Chris S,Bobby-JoeB,TeresaR,etal.TheBioGRID Interaction Database:2008 update [J].Nucleic Acids Research,2008,36(Database issue):D637-D640.
[9]Ioannis X,Lukasz S,Xiaoqun JD,et al.DIP,the Database of Interacting Proteins:a research toolfor studying cellular networks of protein interactions[J].Nucleic Acids Research,2002,30(1):303-305.
[10]Fu W,Sanders-Beer BE,Katz KS,et al.Human immunodeficiencyvirustype 1,human protein interaction database at NCBI[J].Nucleic Acids Research,2008 Oct 15.[Epub ahead of print]
[11]Maria P,Arnaud C,Caius G,et al.HomoMINT:an inferred human network based on orthology mapping of protein interactions discovered in model organisms [J].BMC Bioinformatics,2005,6(Suppl 4):S21.
[12]Gopa M,SureshM,KumaranK,etal.Humanprotein reference database—2006 update[J].Nucleic Acids Research,2006,34(Database Issue):D411-D414.
[13]Kerrien S,Alam-Faruque Y,Aranda B,et al.IntAct—open source resource for molecular interaction data [J].Nucleic Acids Research,2007,35(Database issue):D561-D565.
[14]Andrew C,Arnaud C,Luisa MP,et al.MINT:the Molecular INTeraction database[J].Nucleic Acids Research,2007,35(Database issue):D572-D574.
[15]Pagel P,Kovac S,Oesterheld M,et al.The MIPS mammalian protein-protein interaction database [J].Bioinformatics,2005,21(6):832-834.
[16]Imre V,Peter D,Esther S,et al.Reactome:a knowledge base of biologic pathways and processes[J].Genome Biology,2007,8(3):R39.
Integrating Heterogeneous Protein-Protein Interaction Databases Based on Metadata
ZHANG ZhiZHANG Zheng-Guo*
(Institute of Basic Medical Sciences,Chinese Academy of Medical Sciences,Peking Union Medical College,Beijing 100005,China)
R318
A
0258-8021(2010)02-0201-06
10.3969/j.issn.0258-8021.2010.02.008
2009-11-20,
2010-02-24
中華醫(yī)學(xué)基金(CMB03-787)
*通訊作者。 zhangzg126@126.com