胡心宇,朱 斐
(蘇州大學計算機科學與技術學院,江蘇 蘇州 215006)
近年來大量的物種全基因組序列被測序出來,使得生物研究進入了后基因組時代[1],由單個的基因研究轉入大規(guī)模的蛋白質功能領域的研究[2]。蛋白質-蛋白質相互作用作為最基本內容已經成為了研究的基礎和重點[3]。蛋白質相互作用的信息有助于進一步理解蛋白質的功能,以及建立整體蛋白質相互作用的通路,并且可用于發(fā)現(xiàn)新的藥物靶點。
癌癥是由基因異常,如癌基因或抑癌基因的突變,改變下游的信號轉導通路和蛋白質之間的相互作用[4]。蛋白質在癌細胞與正常細胞之間的相互作用比較可以揭示致癌機理[5]。瓦西列夫和他的同事的研究表明,根據作用原理的證明,蛋白質-蛋白質相互作用的抑制劑可以作為有效的抗癌藥物。
如今大量使用的實驗和數(shù)據庫的方法常常會產生“假陽性”[6]。酵母雙雜交技術可以產生假陽性(雜散相互作用檢測,因為高通量篩選過程的性質)和假陰性。然而計算方法網絡分析可以提煉蛋白-蛋白相互作用網絡,并導致更少的假陽性,因此有很大研究開發(fā)的潛能[7]。
在基礎研究方面,近2年來蛋白質相互作用的研究技術已被應用到各種生命科學領域,如細胞生物學、神經生物學等。在研究對象上,覆蓋了原核微生物、真核微生物、植物和動物等范圍,涉及各種重要的生物學現(xiàn)象,如信號轉導、細胞分化、蛋白質折疊等。在未來的發(fā)展中,蛋白質相互作用的研究領域將更加廣泛。
在應用研究方面,蛋白質相互作用的研究將成為尋找疾病分子標記和藥物靶標有效的方法[8]。對癌癥的臨床診斷和治療方面癌癥蛋白質作用網絡分析也有十分誘人的前景,目前國際上許多大型藥物公司正投入大量的人力和物力進行蛋白質組學方面的應用性研究[9]。
由此,筆者提出一種癌癥蛋白質作用網絡分析方法。本項目主要是開發(fā)一個系統(tǒng),該系統(tǒng)能夠從生物文本中提取出蛋白質的相關信息,進行蛋白質功能聚類,并構建蛋白質間相互作用的網絡,預測癌癥。
對于癌癥蛋白質的相關研究,Yu G.,Wang J.,Chen Y.等人分別分析了1072例中國籍胃癌患者的初期腫瘤、淋巴結轉移灶、鄰近的黏膜組織樣本的微陣列,發(fā)現(xiàn)當胃癌發(fā)展和轉移時目標膜聯(lián)蛋白A1的表達顯著降低,推測目標膜聯(lián)蛋白A1可作為一種陰性的標志物用來預測胃癌的發(fā)生和進展[10]。
Choi P.,Jordan C.D.,Mendez E.等人為了進一步驗證口腔鱗狀細胞癌DNA微陣列實驗中可能作為的潛在生物標記的基因亞型,采用微陣列分析了標志物的蛋白質水平,發(fā)現(xiàn)與健康對照組相比腫瘤組織中的蛋白質(富含半胱氨酸的酸性分泌蛋白、成骨細胞特異性因子、結合黏蛋白C)表達增加,而且它們的表達主要集中在與腫瘤相關的基質中而非腫瘤上皮細胞,相反地,轉谷氨酰胺酶3的蛋白表達僅在健康對照組的角質化細胞中出現(xiàn),在癌細胞中則顯著下調[11]。
袁芳、李靖等人基于現(xiàn)有的蛋白質相互作用數(shù)據,提出利用鄰居曲線方法來分析癌癥基因產物在蛋白質相互作用網絡中的中心度和聚集度,據此獲取與癌癥高度相關的候選致病基因。癌癥基因大規(guī)模測試顯示,有26%的目標基因在候選基因中排名前5%,90%的目標基因在候選基因中排名前50%,該方法能有效地識別癌癥致病基因[12]。
對于數(shù)據提取與蛋白質網絡分析方面,2009年,Liu等人結合迭代的加權計分方法提出了應用于加權蛋白質相互作用網絡聚類算法CMC(Clustering based on Maximal Cliques,CMC)[13]。
Navlakha等人引用 GS(Graph Sum-marization,GS)技術對蛋白質相互作用網絡進行聚類分析以挖掘蛋白質復合物和功能模塊[14]。
2010年,Liang等人又提出了雙雜交聚類算法(Hybrid Clustering Algorithm)和基于局部密度與隨機游走的算法分別挖掘蛋白質相互作用網絡中的功能模塊和蛋白質復合物。
Jongkwang等人提出了參數(shù)化局部相似性蛋白質復合物挖掘算法miPALM(Module Inference by Parametc LocalModularity,miPALM)。
同時,Olson B.,Molloy K.,Hendi S.F.,Shehu A.也進行了提高搜索蛋白質結構空間的效率的研究工作[17]。
本項目主要是開發(fā)一個系統(tǒng),該系統(tǒng)能夠從生物文本中提取出蛋白質的相關信息,并進行蛋白質功能聚類,并構建蛋白質間相互作用的網絡,預測癌癥。
其中對癌癥蛋白質相互作用的研究將主要包括以下幾個方面:
(1)一種面向多物種的通用預測模型的建立;
(2)機器學習訓練集反例的不斷擴充與完善;
(3)基于精確的蛋白質結構模型的蛋白質團間相互作用預測;
(4)蛋白質功能簇間相互作用網絡預測研究有待深入;
(5)蛋白質功能簇間相互作用數(shù)據集的驗證與完善。
詳細流程說明如圖1所示。
圖1 方案詳細流程
步驟1 從癌癥蛋白質相關文本中提取數(shù)據,并進行特征向量提取與KEGG檢索。過程如圖2所示。
圖2 信息提取過程
KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因與基因組百科全書)是一套關于基因組、酶促途徑以及生物化學物質的在線數(shù)據庫。在給出染色體中一套完整的基因的情況下,它可以對蛋白質交互(互動)網絡在各種細胞活動起的作用作出預測[18]。
KEGG的PATHWAY數(shù)據庫整合當前在分子互動網絡(比如通道,聯(lián)合體)的知識,KEGG的GENES/SSDB/KO數(shù)據庫提供關于在基因組計劃中發(fā)現(xiàn)的基因和蛋白質的相關知識,KEGG的COMPOUND/GLYCAN/REACTION數(shù)據庫提供生化復合物及反應方面的知識[19]。與其他數(shù)據庫相比,KEGG的一個顯著特點就是具有強大的圖形功能,它利用圖形而不是繁縟的文字來介紹眾多的代謝途徑以及各途徑之間的關系,這樣可以使研究者能夠對其所要研究的代謝途徑有一個直觀全面的了解。
選擇KEGG主要是因為它有如下幾個特征:
(1)各個數(shù)據庫中包含了大量的有用信息?;蚪M信息存儲在GENES數(shù)據庫里,包括完整和部分測序的基因組序列;更高級的功能信息存儲在PATHWAY數(shù)據庫里,包括圖解的細胞生化過程如代謝、膜轉運、信號傳遞、細胞周期,還包括同系保守的子通路等信息;KEGG的另一個數(shù)據庫LIGAND,包含關于化學物質、酶分子、酶反應等信息[20]。
(2)通過與世界上其它一些大型生物信息學數(shù)據庫的連接,KEGG可以為研究者提供更為豐富的生物學信息(LinkDB)。
(3)KEGG提供了Java的圖形工具來訪問基因組圖譜,比較基因組圖譜和操作表達圖譜,以及其它序列比較、圖形比較和通路計算的工具,可以免費獲取。
首先,獲取蛋白質名字詞典和蛋白質-蛋白質相互作用詞典、PubMed摘要實現(xiàn)信息,同時進行基因提取、蛋白質提取與KEGG數(shù)據庫檢索。蛋白質提取結果顯示為一個基于多源驗證的蛋白質相互作用文本信息以及一個基于蛋白質相互作用網絡的文本。詳細流程如圖3所示。
圖3 數(shù)據提取流程圖
以己糖激酶hexokinase為例,在KEGG Orthology中任找一個代謝通路圖,點擊pathway entry,進入Orthology table頁面。此頁面中,行與物種對應,has表示Homo sapiens,mcc表示Macaca mulatta;列表示相應的Ortholog分類,K00844就表示生物體內的己糖激酶hexokinase這一類序列和功能相似的蛋白質類(酶類)。根據KEGG數(shù)據顯示,在人類細胞中存在3種不同的己糖激酶,它們分別由3101,3098,3099這3組數(shù)字代表的基因所編碼,這3組數(shù)字是這3個基因的登錄號??瞻讋t表示在該物種中不存在這種酶。
步驟2 抽取特征向量,構建特征向量數(shù)據集。特征選取的任務就是將信息量小的特征項去除,在降低特征向量維數(shù)的同時,又不影響信息檢索的質量。這里,采用了X2統(tǒng)計量法(CHI)來計算特征項t和文檔c之間的相關性。
步驟3 利用貝葉斯網絡學習技術優(yōu)化特征信息,進一步處理數(shù)據,消除冗余。
貝葉斯網絡是基于概率推理的數(shù)學模型,是為了解決不定性和不完整性問題而提出的,它對于解決復雜設備不確定性和關聯(lián)性引起的故障有很大的優(yōu)勢,可用來表示疾病和其相關癥狀間的概率關系[21];倘若已知某種癥狀下,貝葉斯網絡就可用來計算各種可能罹患疾病的發(fā)生概率。在生物信息學應用廣泛。
采用貝葉斯網絡主要因為它有如下一些優(yōu)點:
(1)貝葉斯網絡本身是一種不定性因果關聯(lián)模型。它本身是將多元知識圖解可視化的一種概率知識表達與推理模型[22]。
(2)貝葉斯網絡具有強大的不確定性問題處理能力。
(3)貝葉斯網絡能有效地進行多源信息表達與融合,按信息的相關關系進行融合。
步驟4 將經過處理的搜索結果按照名稱、別名、分子大小、分子結構、作用等方面顯示在界面的輸出框中,返回給用戶。
目前已經實驗確定的人類蛋白質相互作用不多,進一步挖掘未知的蛋白質相互作用非常必要。將來可以通過人類蛋白質芯片組技術,完整分析人類蛋白質相互作用,進一步完善相互作用網絡的建立。
與只分析基因表達數(shù)據的傳統(tǒng)方法不同,筆者結合人類蛋白質相互作用網絡和基因表達數(shù)據的信息,基于網絡結構和基因表達2類數(shù)據,針對癌癥的初步作用途徑和機制,進行較準確的網絡分析。實現(xiàn)生物信息學、蛋白質組信息學、腫瘤蛋白質組學的完美結合,為進一步理解癌癥發(fā)生和發(fā)展的分子機理,進一步探究癌癥發(fā)生和轉移的基因變異機理做出貢獻[23]。
蛋白質間相互作用是一個十分復雜的現(xiàn)象,受到多種因素的影響,要取得完美的預測效果仍面臨諸多困難。相信隨著各種預測方法的不斷完善,它將為實驗方法提供切實有效的指導線索,而實驗方法又能為之提供富足必要的先驗知識和結果驗證,二者共同為促進蛋白質功能簇間相互作用標準數(shù)據的形成各盡其力。
筆者設計出一種方法,該方法能夠從生物文本中提取出蛋白質的相關信息,并進行蛋白質功能聚類,并構建蛋白質間相互作用的網絡,預測癌癥。對于理解細胞生命、生物致病機理以及新藥物靶點發(fā)現(xiàn)和藥物設計等都具有重要的科學價值和應用前景。
[1]Sava G,Bergamo A,Dyson P J.Metal-based antitumour drugs in the post-genomic era:What comes next?[J].Dalton Transactions,2011,40(36):9069-9075.
[2]Brustad E M,Arnold F H.Optimizing non-natural protein function with directed evolution[J].Current Opinion in Chemical Biology,2011,15(2):201-210.
[3]Heo M,Maslov S,Shakhnovich E.Topology of protein interaction network shapes protein abundances and strengths of their functional and nonspecific interactions[J].Proceedings of the National Academy of Sciences,2011,108(10):4258-4263.
[4]William C S Cho.蛋白質組學與轉化醫(yī)學:用以癌癥診斷,預后和療效預測的分子生物標記物[J].南娟譯.中國肺癌雜志,2011,14(8):I0003-I0004.
[5]Reva B,Antipin Y,Sander C.Predicting the functional impact of protein mutations:Application to cancer genomics[J].Nucleic Acids Research,2011,39(17):e118.
[6]翁改志,路軍梅,唐耀庭,等.代謝綜合征合并非酒精性脂肪性肝病血糖,血脂,尿酸,丙氨酸轉移酶相關性分析[J].國際檢驗醫(yī)學雜志,2012,33(1):94-96.
[7]Stynen B,Tournu H,Tavernier J,et al.Diversity in genetic in vivo methods for protein-protein interaction studies:From the yeast two-hybrid system to the mammalian split-luciferase system[J].Microbiology and Molecular Biology Reviews,2012,76(2):331-382.
[8]周紅光,陳海彬,周學平,等.蛋白質組學是中醫(yī)病機研究的重要技術平臺[J].中國中西醫(yī)結合雜志,2012,32(7):990-993.
[9]Raimondo F,Morosi L,Chinello C,et al.Advances in membranous vesicle and exosome proteomics improving biological understanding and biomarker discovery[J].Proteomics,2011,11(4):709-720.
[10]Yu G,Wang J,Chen Y,et al.Tissue microarray analysis reveals strong clinical evidence for a close association between loss of annexin A1 expression and nodal metastasis in gastric cancer[J].Clinical & Experimental Metastasis,2008,25(7):695-702.
[11]Choi P,Jordan C D,Mendez E,et al.Examination of oral cancer biomarkers by tissue microarray analysis[J].Archives of Otolaryngology—Head & Neck Surgery,2008,134(5):539.
[12]袁芳,李靖,周艷紅.基于蛋白質相互作用網絡預測癌癥致病基因[J].計算機應用研究,2012,29(9):3221-3223.
[13]Liu G,Wong L,Chua H N.Complex discovery from weighted PPI networks[J].Bioinformatics,2009,25(15):1891-1897.
[14]Navlakha S,Schatz M C,Kingsford C.Revealing biological modules via graph summarization[J].Journal of Computational Biology,2009,16(2):253-264.
[15]Dittrich M T,Klau G W,Rosenwald A,et al.Identifying functional modules in protein-protein interaction networks:An integrated exact approach[J].Bioinformatics,2008,24(13):223-231.
[16]Kim J,Tan K.Discover protein complexes in protein-protein interaction networks using parametric local modularity[J].BMC Bioinformatics,2010,11(1):521.
[17]Olson B,Molloy K,Hendi S F,et al.Guiding probabilistic search of the protein conformational space with structural profiles[J].Journal of Bioinformatics and Computational Biology,2012,10(3):1242005.
[18]Kanehisa M,Goto S.KEGG:Kyoto encyclopedia of genes and genomes[J].Nucleic Acids Research,2000,28(1):27-30.
[19]Kanehisa M,Araki M,Goto S,et al.KEGG for linking genomes to life and the environment[J].Nucleic Acids Research,2008,36(s1):D480-D484.
[20]Kanehisa M,Goto S,Sato Y,et al.KEGG for integration and interpretation of large-scale molecular data sets[J].Nucleic Acids Research,2012,40(D1):D109-D114.
[21]Silander T,Myllymaki P.A simple approach for finding the globally optimal Bayesian network structure[C]//Proceedings of the 22nd Conference on Uncertainty in Artificial Intelligence.2006.
[22]Steck H.Learning the Bayesian network structure:Dirichlet prior versus data[C]//Proceedings of the 24th Conference on Uncertainty in Artificial Intelligence.2008.
[23]Yook S H,Oltvai Z N,Barabási A L.Functional and topological characterization of protein interaction networks[J].Proteomics,2004,4(4):928-942.