張茂娜, 姜 亮, 張 焱
深圳大學(xué)生命與海洋科學(xué)學(xué)院, 廣東 深圳 518060
硒代謝網(wǎng)絡(luò)與硒蛋白質(zhì)組的生物信息學(xué)研究進(jìn)展
張茂娜, 姜 亮*, 張 焱*
深圳大學(xué)生命與海洋科學(xué)學(xué)院, 廣東 深圳 518060
硒是大多數(shù)生物所必需的微量元素,對維持氧化還原穩(wěn)態(tài)平衡具有重要作用,并與許多重大疾病有著密切聯(lián)系。一直以來,關(guān)于硒的研究工作主要集中于硒代謝機(jī)制和硒蛋白功能。近年來快速增長的各類組學(xué)數(shù)據(jù)為硒相關(guān)的生物信息學(xué)研究工作提供了重要條件與機(jī)遇。主要介紹了當(dāng)前利用生物信息學(xué)的理論和方法研究硒的代謝通路、功能和進(jìn)化等領(lǐng)域的最新進(jìn)展。通過這些研究,一方面發(fā)現(xiàn)了大量新的硒蛋白基因,并確定了眾多物種的硒蛋白質(zhì)組;另一方面揭示了新的硒代謝通路及相關(guān)新基因,完善了硒代謝網(wǎng)絡(luò)。在此基礎(chǔ)上,通過比較基因組學(xué)分析,深入探討了硒代謝通路、不同硒蛋白家族乃至硒蛋白質(zhì)組的分布與進(jìn)化規(guī)律,以期為進(jìn)一步認(rèn)識硒研究領(lǐng)域中的重要問題和未來的發(fā)展方向提供支持。
硒蛋白;硒蛋白質(zhì)組;硒代謝;生物信息學(xué);比較基因組學(xué)
眾多研究指出,硒是許多生物必需的微量營養(yǎng)元素。硒元素在體內(nèi)發(fā)揮抗氧化作用,且和許多重大疾病都有著密切的聯(lián)系,如腫瘤、糖尿病、心血管疾病和神經(jīng)退行性疾病等[1]。此外,硒還參與了生物體的生長、發(fā)育等基本生命過程,在抗炎、抗病毒和抗衰老等方面都起著重要作用。硒主要以硒代半胱氨酸(selenocysteine,Sec,第21種氨基酸)的形式存在于體內(nèi),并進(jìn)一步插入到硒蛋白(selenoprotein)中而發(fā)揮生物學(xué)作用[2,3]。在原核生物中,硒還能特異性地合成硒尿苷(selenouridine,SeU)和某種含鉬酶中的硒輔因子(Se cofactor)[4]。此外,硒還參與合成硒代甲硫氨酸、硒糖等小分子含硒復(fù)合物。
近年來,隨著高通量測序技術(shù)的蓬勃發(fā)展,各種基因組數(shù)據(jù)不斷增加,因此需要開發(fā)新的數(shù)據(jù)分析方法,發(fā)現(xiàn)其中隱含的重要信息,于是,生物信息學(xué)作為一門新興交叉學(xué)科得到了長足發(fā)展。通過各種計算分析,揭示基因的功能,完善代謝調(diào)控網(wǎng)絡(luò),為研究生物體的各種生命過程提供了重要啟示與新的機(jī)遇。
本文將主要介紹生物信息學(xué)和比較基因組學(xué)在硒研究領(lǐng)域中的主要應(yīng)用,深入闡述硒在不同物種(包括細(xì)菌、古菌和真核生物)中的利用、代謝、功能和進(jìn)化等方面的最新研究進(jìn)展,尤其是我國科研人員在這方面取得的重要成果,以期為硒代謝與硒蛋白的研究提供參考。
關(guān)于Sec的合成與插入硒蛋白的分子機(jī)制已基本被闡明,關(guān)鍵步驟是將終止密碼子UGA重編碼成Sec的密碼子[4,5]。在細(xì)菌中,這個過程主要包括了編碼Sec的UGA(Sec-UGA)、一個順式作用元件(被稱為Sec插入序列元件或SECIS元件)和一些相關(guān)酶[4~6]。SECIS元件位于硒蛋白mRNA中緊鄰Sec-UGA的下游區(qū)域,是一種特殊的RNA莖環(huán)狀結(jié)構(gòu)。細(xì)菌中Sec的生物合成與插入過程如圖1A所示。其中SECIS元件與Sec特異性延伸因子SelB結(jié)合,并和Sec特異性tRNA[Ser]Sec形成復(fù)合物。tRNA[Ser]Sec首先在絲氨酸-tRNA合成酶(SerS)的作用下結(jié)合絲氨酸,接著在Sec合成酶(SelA)作用下,以硒磷酸(硒磷酸合成酶SelD的產(chǎn)物)作為硒供體合成Sec-tRNA[Ser]Sec。而真核生物、古菌則與細(xì)菌不同,其SECIS元件存在于硒蛋白mRNA的3′非翻譯區(qū)(3′-UTR)內(nèi),而且需要額外的步驟和酶,如激酶PSTK和SECIS結(jié)合蛋白SBP2,其基本過程如圖1B所示[4 ]。
圖1 硒代半胱氨酸的合成過程Fig.1 Procedure of selenocysteine biosynthesis.A:細(xì)菌;B:真核生物。
在硒的代謝與功能研究方面,基于SECIS元件的重要特征與Sec合成機(jī)制,一些生物信息學(xué)算法被開發(fā)出來,可以有效地預(yù)測各種物種基因組中的硒蛋白基因[7~9]。除此之外,鑒于大多數(shù)硒蛋白都能找到含有半胱氨酸(cysteine,Cys)的同源蛋白,不依賴于SECIS的硒蛋白預(yù)測算法亦被開發(fā),可用來識別環(huán)境基因組數(shù)據(jù)庫中的硒蛋白基因[10~12]。通過這些方法,發(fā)現(xiàn)了許多新的硒蛋白并得到了實驗驗證,如現(xiàn)已知的在人和小鼠中各含有25個和24個硒蛋白[13]。另外,一些硒代謝相關(guān)的新基因也陸續(xù)被發(fā)現(xiàn),從而進(jìn)一步完善了原核生物和真核生物的硒代謝調(diào)控網(wǎng)絡(luò)。
2.1細(xì)菌硒蛋白基因的預(yù)測和硒蛋白質(zhì)組研究
如前所述,在所有硒蛋白基因中,SECIS元件對于Sec插入蛋白質(zhì)的過程必不可少且具有高度特異性?;赟ECIS元件來預(yù)測細(xì)菌硒蛋白基因本應(yīng)是一個較為合理的策略,但與真核生物不同,細(xì)菌SECIS元件缺乏非常保守的一級序列和二級結(jié)構(gòu)特征,因此長期以來,在預(yù)測細(xì)菌硒蛋白基因方面缺乏有效的工具。Zhang等[7]通過分析已知細(xì)菌硒蛋白基因中各種SECIS元件的組成和結(jié)構(gòu)特征,首次提出了一個細(xì)菌SECIS元件的結(jié)構(gòu)模型。在該模型中,SECIS的一級序列并不非常保守,僅發(fā)現(xiàn)在SECIS元件頂環(huán)的前兩個核苷酸中總是存在一個鳥苷酸(G),其后面常跟著一個尿苷酸(U)。此外,Sec-UGA密碼子與SECIS元件頂環(huán)之間的距離在16~37個核苷酸之間。根據(jù)這個模型,Zhang等[7]開發(fā)了第一個可用于預(yù)測細(xì)菌基因組中硒蛋白基因的bSECISearch算法。該算法流程如圖2所示,主要原理是通過檢查細(xì)菌基因組中所有UGA密碼子下游是否含有一個類似SECIS元件的結(jié)構(gòu)來預(yù)測硒蛋白基因。該算法還運用了一些其他標(biāo)準(zhǔn),包括開放閱讀框約束、基于片段化的SECIS模型打分以及UGA密碼子兩側(cè)的蛋白序列保守性等。候選硒蛋白基因?qū)⑦M(jìn)一步分析其UGA密碼子的位置、是否具有含Sec或Cys的同源序列,以及包含Sec的直系同源基因中是否也存在SECIS元件等。最后將對確定的硒蛋白基因進(jìn)行更深入的驗證。
圖2 bSECISearch算法流程圖Fig.2 A schematic diagram of the bSECISearch algorithm.
除了上述依賴于SECIS的預(yù)測方法外,Zhang等[10~12]發(fā)現(xiàn)幾乎所有的硒蛋白都存在含Cys的同源序列(即Sec的位置被Cys替換),于是又開發(fā)出不依賴于SECIS的硒蛋白基因預(yù)測方法,主要用于搜索各種環(huán)境基因組中的硒蛋白基因。該方法主要利用大型蛋白質(zhì)數(shù)據(jù)庫(如NCBI的非冗余蛋白序列數(shù)據(jù)庫)中含Cys的蛋白來搜索基因組數(shù)據(jù)庫中潛在編碼硒蛋白的核酸序列。該方法的關(guān)鍵步驟在于尋找可能包含Sec-UGA密碼子的核酸片段。這些序列經(jīng)翻譯后成為含Cys蛋白的同源序列,保守的Cys殘基能與UGA密碼子的翻譯產(chǎn)物相匹配,且該配對的兩側(cè)都比較保守。
利用上述兩種方法,在不同細(xì)菌基因組和環(huán)境基因組中發(fā)現(xiàn)了許多新的硒蛋白基因。這些新發(fā)現(xiàn)的硒蛋白及其相關(guān)信息已經(jīng)成功整合入目前最大的微量元素相關(guān)蛋白數(shù)據(jù)庫dbTEU[14]和國際著名的重編碼數(shù)據(jù)庫RECODE[15]。這些生物信息學(xué)工具和相關(guān)的研究成果為后續(xù)開展各種細(xì)菌硒蛋白質(zhì)組的比較基因組學(xué)研究提供了重要工具和豐富資源。
Zhang等[16]的一個早期工作對近350個完全測序的細(xì)菌基因組進(jìn)行了分析,確定了所有利用Sec的物種及其硒蛋白質(zhì)組的組成。該研究發(fā)現(xiàn)只有不到四分之一的細(xì)菌可以使用Sec,分別含有1~31個硒蛋白基因。富含硒蛋白的生物(含有6個或更多的硒蛋白基因)主要是δ變形菌綱(Deltaproteobacteria)和厚壁菌門/梭狀芽孢桿菌屬(Firmicutes/Clostridia)。甲酸脫氫酶α亞基(formate dehydrogenase α subunit,FdhA)和SelD是細(xì)菌中分布最廣泛的硒蛋白家族。大多數(shù)硒蛋白似乎都是從含有Cys的祖先蛋白進(jìn)化而來。然而,在富含硒蛋白物種的許多近緣物種中都發(fā)生了特定硒蛋白基因丟失的現(xiàn)象。這些結(jié)果表明,Sec的獲得和硒蛋白基因丟失之間存在高度動態(tài)且微妙的進(jìn)化平衡,這可部分解釋Sec的催化優(yōu)勢與其在自然界中僅被有限使用之間的矛盾。此外,一些環(huán)境因素(如氧濃度或溫度)可能會影響Sec利用和硒蛋白質(zhì)組的進(jìn)化[16]。
另一個比較基因組學(xué)研究針對原核生物和真核生物中Sec的利用情況開展了分析[17]。該研究詳細(xì)分析了近600種細(xì)菌和古菌的基因組,發(fā)現(xiàn)已測序細(xì)菌的硒蛋白質(zhì)組包含1~39個硒蛋白。但是,迄今為止最大的原核生物硒蛋白質(zhì)組在一個環(huán)境基因組研究中被報道。Zhang等[11]研究發(fā)現(xiàn),某種海洋寡毛綱小蠕蟲Olaviusalgarvensis的寄生菌(屬于δ變形菌綱)含有60個以上的硒蛋白基因。
最近,Peng等[18]分析了5 200多個細(xì)菌的基因組數(shù)據(jù)。該研究為所有已知的硒代謝途徑(包括Sec生物合成和其他硒利用途徑)繪制了迄今為止最大的物種分布圖譜,展示了細(xì)菌中最為詳細(xì)的硒生物利用的相關(guān)信息。和以往的研究結(jié)果一致,絕大多數(shù)(約80%)測序物種失去了編碼Sec的能力。通過對物種硒蛋白質(zhì)組進(jìn)行深入分析,發(fā)現(xiàn)了一個新的硒蛋白利用非?;钴S的門屬—互養(yǎng)菌門(Synergistetes)以及一些富含硒蛋白的其他物種。通過對環(huán)境因素與Sec利用之間關(guān)系的擴(kuò)展研究,發(fā)現(xiàn)了細(xì)菌Sec生物利用的新宏觀進(jìn)化特征。在今后的研究工作中,尋找可以影響不同硒蛋白家族進(jìn)化的其他因素將顯得非常重要。
2.2真核生物硒蛋白基因的預(yù)測和硒蛋白質(zhì)組研究
伴隨著生物信息學(xué)的快速發(fā)展,真核生物硒蛋白識別工作取得了很大進(jìn)展,如一些脊椎動物和哺乳動物(包括人和小鼠)、昆蟲、線蟲和部分藻類等的硒蛋白被陸續(xù)報道。但是當(dāng)前硒蛋白在動物界中的認(rèn)識還比較片面,僅局限于某些特定的物種進(jìn)化分支中。此外,雖然已有的真核生物硒蛋白基因預(yù)測算法(如SECISearch[8])被較為廣泛地使用,但是其本身固有的缺陷(如需預(yù)先建立物種特異性訓(xùn)練集來構(gòu)建SECIS模型以及針對某些真核生物預(yù)測的假陽性較多等)亦限制了這些方法的使用。
為了解決算法普適性的難題,并提高預(yù)測準(zhǔn)確性,Jiang等[9,19]開發(fā)了一個新的硒蛋白基因識別算法。該算法側(cè)重于尋找基因組中所有可能編碼Sec的UGA密碼子和包含Sec-UGA的開放閱讀框。由于真核生物硒蛋白基因結(jié)構(gòu)的特殊性,必須設(shè)計特殊的基因組裝算法,為此Jiang等[19]開發(fā)了新的適合于硒蛋白基因識別的組裝算法SelGenAmic。該算法的基本流程如圖3。首先從基因組中獲得所有可能的外顯子,其中包括含有UGA密碼子的外顯子(稱為i-exon)和不含UGA密碼子的外顯子(稱為c-exon),接著利用硒蛋白基因組裝算法,進(jìn)一步得到包含i-exon的特殊基因i-gene。之后進(jìn)一步分析基因下游的SECIS結(jié)構(gòu)信息和UGA翻譯后的Sec殘基兩側(cè)局部序列的保守性,最后對硒蛋白識別結(jié)果進(jìn)行進(jìn)一步分析,確定物種的硒蛋白集合。
圖3 真核生物硒蛋白預(yù)測流程圖Fig.3 A schematic diagram of eukaryotic selenoprotein prediction.
為了進(jìn)一步認(rèn)識動物界,尤其是無脊椎動物中硒蛋白的分布與進(jìn)化,Jiang等[9,19]利用該算法,選擇了6種代表性無脊椎動物——海綿、絲盤蟲、??⑶嗦?、柱頭蟲、文昌魚和玻璃海鞘,結(jié)合目前已知的脊椎動物基因組數(shù)據(jù),確定了這些物種中的硒蛋白基因,并深入探討了多細(xì)胞動物從誕生、不斷進(jìn)化到出現(xiàn)人類的整個演變過程中硒蛋白家族與硒蛋白質(zhì)組的變化。其中在玻璃海鞘中,首次發(fā)現(xiàn)了真核生物的DsbA硒蛋白,特殊的含雙SECIS結(jié)構(gòu)和雙Sec結(jié)構(gòu)的SELENOW等硒蛋白[9]。DsbA以前被認(rèn)為只存在于細(xì)菌中,而該研究說明該硒蛋白也可存在于一些海洋無脊椎動物中。此外,多細(xì)胞動物具有豐富的硒蛋白種類,并且在主要的進(jìn)化分支中,硒蛋白基因并沒有發(fā)生大規(guī)模丟失。只是在某些特定的進(jìn)化分支(如昆蟲和線蟲)中,由于未知原因?qū)е挛鞍谆虬l(fā)生了大面積丟失。此外,還發(fā)現(xiàn)目前硒蛋白數(shù)量和種類最豐富的動物是文昌魚,并在文昌魚中找到了一種特殊的硒儲存和轉(zhuǎn)運蛋白3NSelP。該硒蛋白的發(fā)現(xiàn),對揭示硒蛋白SELENOP的進(jìn)化有著重要的意義,也為探索生物有效儲存和轉(zhuǎn)運硒的機(jī)制提供了重要信息。
Jiang等[20]還對代表性扁形動物(渦蟲、血吸蟲和豬肉絳蟲)的硒蛋白質(zhì)組進(jìn)行了分析,研究寄生與自生生活方式對硒蛋白質(zhì)組的影響。這些扁形動物進(jìn)化關(guān)系較為接近,但生活方式上卻存在巨大差異。渦蟲是一種在淡水中自由生存的物種,而血吸蟲和豬肉絳蟲都是對人類和家畜具有較大危害的寄生物種。3個物種的生活方式存在著明顯的梯度差異,即從渦蟲到血吸蟲再到豬肉絳蟲,寄生程度越來越高。結(jié)果顯示,3個物種的硒蛋白質(zhì)組隨著寄生程度的升高而逐漸減小。渦蟲中硒蛋白數(shù)量最多,而寄生程度最高的豬肉絳蟲中硒蛋白數(shù)量最少。由此推斷,寄生的生活方式可能會顯著降低動物對硒的依賴性。
此外,Gobler等[21]在分析有害藻類抑食金球藻(Aureococcusanophagefferens)的基因組時,發(fā)現(xiàn)該藻含有目前已知最大的真核生物硒蛋白質(zhì)組(至少60個硒蛋白基因)。Lobanov等[22]研究發(fā)現(xiàn),脊椎動物、綠藻及一些單細(xì)胞生物和纖毛蟲等真核生物都富含硒蛋白。在真核生物中,硒蛋白K分布最為廣泛,但功能尚不清楚。一些其他硒蛋白分布也比較廣,如硒蛋白W、硫氧還蛋白還原酶(TXNRD)和谷胱甘肽過氧化物酶(GPX)等。與細(xì)菌比較,可能是由于真核生物的硒蛋白合成過程更為復(fù)雜,因此真核生物硒蛋白家族中較少出現(xiàn)Sec和Cys之間的轉(zhuǎn)換[4, 22]。
硒主要以Sec的形式出現(xiàn)在蛋白質(zhì)中發(fā)揮功能。此外,在某些細(xì)菌中發(fā)現(xiàn),硒還可特異性地合成SeU(存在于某些tRNA的擺動位點)以及硒輔因子(存在于某些含鉬酶中)。每一條硒代謝通路都擁有特異的基因群[4]。SelD是參與這些不同硒代謝過程的共有酶也是關(guān)鍵酶,理論上存在于所有可利用硒的物種中。SelD屬于一個ATP結(jié)合蛋白超家族,其主要功能是催化ATP與硒化物生成硒磷酸,而硒磷酸是合成Sec、SeU和Se cofactor等重要有機(jī)硒化合物所必需的硒供體。因此,通過分析SelD的分布,有助于發(fā)現(xiàn)新的利用硒的物種和硒代謝途徑。
在硒輔因子通路被發(fā)現(xiàn)以前,Sec和SeU是僅有的2種硒代謝途徑。Zhang等[23]利用比較基因組學(xué)和系統(tǒng)發(fā)生分析研究了已知硒代謝相關(guān)基因在測序細(xì)菌中的分布情況,首次發(fā)現(xiàn)了一些物種含有SelD、但不含Sec或SeU的代謝通路,提示這些物種中可能存在依賴于SelD的其他硒利用途徑。通過進(jìn)一步分析SelD基因在這些物種基因組中的位置和上下游基因結(jié)構(gòu),發(fā)現(xiàn)了2種新的與SelD關(guān)系非常密切的基因(YqeB和YqeC),并且發(fā)現(xiàn)這3種基因(SelD、YqeB和YqeC)和一種含鉬的氧化還原酶聯(lián)系緊密。進(jìn)一步實驗表明,這些物種中含有某種不穩(wěn)定的硒化物,在還原劑處理下可發(fā)生分離。Zhang等[23]推測第3種硒代謝通路是某種不太穩(wěn)定的硒輔因子,可被某含鉬酶利用,該通路的標(biāo)志性基因是YqeB和YqeC。在最近的研究工作中,Peng等[18]發(fā)現(xiàn)可能存在第4條依賴于SelD的硒代謝通路。
另外,Li等[24]首次在古菌中發(fā)現(xiàn)了某種SelD遠(yuǎn)緣同源基因(稱為SelD-like)的存在。這些SelD-like基因主要存在于泉古菌門中的兩個主要目(硫化葉菌目和熱變形菌目)中。SelD-like蛋白含有與SelD相同的功能結(jié)構(gòu)域,因此可能具有相似的催化反應(yīng)機(jī)制。SelD-like基因在物種中的分布較為局限(僅存在于部分不能利用硒的古菌中),說明該基因很可能是從某古菌的SelD基因新進(jìn)化而來,并衍生出與硒無關(guān)的新功能。通過對SelD-like基因在古菌基因組中的位置與上下游結(jié)構(gòu)分析,發(fā)現(xiàn)了它和一些硫代謝基因高度相關(guān),包括過氧化物氧化還原酶、硫氰酸酶相關(guān)硫轉(zhuǎn)移酶、異化亞硫酸還原酶以及Fe-S氧化還原酶等,提示SelD-like蛋白很可能參與這些嗜熱古菌的硫代謝,并提出了SelD-like參與硫代謝的兩個新模型,從而揭示了硒和硫代謝過程之間的重要關(guān)系。
在過去的20年中,雖然參與細(xì)菌硒代謝的一些關(guān)鍵基因被陸續(xù)報道,但是關(guān)于整個硒代謝與調(diào)控網(wǎng)絡(luò)尚有諸多不清楚的地方。最近,Lin等[25]通過比較基因組學(xué)和系統(tǒng)發(fā)生分析方法,結(jié)合所有已知硒代謝通路和相關(guān)基因的信息,以期尋找參與硒代謝的新關(guān)鍵基因。通過深入分析各種已知基因的基因組上下游結(jié)構(gòu),發(fā)現(xiàn)了若干可能參與硒代謝調(diào)控網(wǎng)絡(luò)的新基因,包括①YedE:1個與硫轉(zhuǎn)運蛋白具有遠(yuǎn)緣同源性的膜蛋白,僅在可利用硒的物種中發(fā)現(xiàn),其功能很可能參與硒的跨膜運輸;②YedF:含有氧化還原相關(guān)的結(jié)構(gòu)域,可能與硒的解毒過程相關(guān);③1個屬于LysR超家族的硒特異性轉(zhuǎn)錄因子LysR_Se,可能參與Sec生物合成以及其他硒相關(guān)基因的表達(dá)調(diào)控;④1個很小的蛋白家族DUF3343,廣泛分布于硒利用物種中,很可能作為一個重要的細(xì)胞內(nèi)硒轉(zhuǎn)運伴侶。最后,Lin等[25]提出了一個硒代謝與穩(wěn)態(tài)調(diào)控模型,該成果為進(jìn)一步完善硒代謝與調(diào)控的復(fù)雜網(wǎng)絡(luò)提供了重要信息。
最近,Li等[26]利用果蠅SEPHS2(SelD在真核生物中的同源基因)的基因敲減模型,通過對幼蟲與成蟲期轉(zhuǎn)錄組測序,深入分析了該基因可能影響的代謝通路和相關(guān)基因。該研究發(fā)現(xiàn),SEPHS2可以影響許多基因的表達(dá),這些基因多與糖代謝和細(xì)胞氧化還原進(jìn)程密切相關(guān)。進(jìn)一步通過聚類和網(wǎng)絡(luò)分析,找到與SEPHS2具有強(qiáng)功能關(guān)聯(lián)的新關(guān)鍵基因(包括Nimrod C1和鈣調(diào)素等),為進(jìn)一步研究SEPHS2的復(fù)雜功能和硒代謝與其他代謝通路之間的關(guān)系提供了新線索。
收集各種物種基因組和環(huán)境基因組數(shù)據(jù)(包括基因組和其他相關(guān)信息,如生存環(huán)境等),并進(jìn)一步確定硒代謝通路、不同硒蛋白家族和硒蛋白質(zhì)組的分布情況,可為深入認(rèn)識硒生物利用的復(fù)雜進(jìn)化規(guī)律及其與環(huán)境因素的關(guān)系提供重要信息。近年來已陸續(xù)開展了若干硒代謝與功能相關(guān)的進(jìn)化研究,并從中發(fā)現(xiàn)了一些重要的進(jìn)化特征。
Zhang等[12]分析了最大的海洋環(huán)境基因組計劃(Global Ocean Sampling, GOS)項目。通過分析每一個GOS樣本(主要是海水樣本)的宏基因組數(shù)據(jù),共找到了約3 600個硒蛋白基因,這些基因來自于58個硒蛋白家族,并且絕大多數(shù)為氧化還原酶。除此之外,還發(fā)現(xiàn)了若干新的硒蛋白家族。在已研究過的GOS樣本中,SelW和SelD是分布最廣泛的硒蛋白。樣本所處的不同地理位置對于硒蛋白生物利用的影響很小。然而,溫度升高和海水環(huán)境(與淡水和高鹽度水樣相比)可以促進(jìn)Sec的利用,并且增加了硒蛋白的種類和數(shù)量。在海洋環(huán)境中,亦發(fā)現(xiàn)了一些新的硒蛋白融合基因,往往都具有氧化還原活性。此外,海洋微生物群體中SeU和Sec的生物利用具有不同的進(jìn)化規(guī)律。這些結(jié)果首次揭示了不同海洋環(huán)境對于硒代謝途徑和硒蛋白質(zhì)組的復(fù)雜影響。
在最近Peng等[18]開展的細(xì)菌比較基因組學(xué)研究中,發(fā)現(xiàn)了細(xì)菌的棲息環(huán)境可以影響不同硒的代謝通路。Sec和硒輔因子通路多見于宿主相關(guān)的生存環(huán)境,而SeU通路多見于水生生物。氧氣和Sec代謝通路的關(guān)系并不顯著,但低氧環(huán)境卻可促進(jìn)硒蛋白的產(chǎn)生,因為大部分富含硒蛋白的物種都是厭氧菌。硒輔因子通路非常偏愛厭氧環(huán)境;反之,SeU通路則多見于需氧型物種。這些成果為揭示不同生態(tài)環(huán)境中微生物對硒利用過程的進(jìn)化趨勢提供了重要依據(jù)。
另一個比較基因組學(xué)研究確定了44種已測序脊椎動物的硒蛋白質(zhì)組,共發(fā)現(xiàn)了45個硒蛋白家族,其中在哺乳動物中發(fā)現(xiàn)28個,在硬骨魚中發(fā)現(xiàn)41個[27]。該研究定義了脊椎動物祖先(28個硒蛋白)和哺乳動物(25個硒蛋白)的硒蛋白質(zhì)組,并仔細(xì)描述了它們是如何通過基因重復(fù)(20個事件)、基因丟失(10個事件)和Sec被Cys替代(12個事件)等進(jìn)化事件而逐漸演變的。此外,還發(fā)現(xiàn)了無內(nèi)含子的SEPHS2基因在早期哺乳動物中產(chǎn)生,并在功能上取代了胎盤類哺乳動物中原始的多外顯子基因,然而這2個基因仍然保留在有袋類動物中。哺乳動物的TXNRD1和TXNRD3由一個含有谷氧還蛋白結(jié)構(gòu)域的祖先酶進(jìn)化而來。SELENOV和GPX6分別從胎盤類哺乳動物的SELENOW和GPX3的基因復(fù)制演變而來,GPX6則發(fā)生了數(shù)次獨立地丟失Sec的現(xiàn)象。在硬骨魚類中,還特征性地發(fā)生了一些硒蛋白家族(GPX1、GPX3、GPX4、DIO3、MSRB1、SELENOJ、SELENOO、SELENOT、SELlU1和SELENOW2)的復(fù)制。該研究同時確定了若干硒蛋白的新異構(gòu)體,并報道了異常保守的硒蛋白假基因。該研究是首次對脊椎動物和哺乳動物硒蛋白質(zhì)組展開較為完整的探索,并著重描述了它們的復(fù)雜進(jìn)化過程,為深入認(rèn)識這些硒蛋白及其具體形式提供了大量有價值的信息。
硒是許多生物所必需的微量元素,其復(fù)雜的代謝調(diào)控機(jī)制與功能一直受到廣泛的關(guān)注。本文主要討論了如何利用生物信息學(xué)的理論和方法來深入研究硒的生物利用過程及其進(jìn)化規(guī)律,相關(guān)的研究成果可以幫助研究人員進(jìn)一步認(rèn)識硒在不同生物中利用與代謝過程的共性和個性,深入理解硒蛋白的主要功能和物種硒蛋白質(zhì)組的組成與進(jìn)化特征。但應(yīng)承認(rèn),這些研究工作僅僅是個開端。硒在不同生物體中的代謝機(jī)制和功能要比此前所認(rèn)識的更為復(fù)雜多樣,還有許多未知的問題有待于進(jìn)一步研究。未來,隨著以高通量測序為代表的各種先進(jìn)技術(shù)的普遍應(yīng)用、各類組學(xué)數(shù)據(jù)(基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、離子組等)急劇增加,將更有利于研究人員運用生物信息學(xué)和系統(tǒng)生物學(xué)的方法對硒相關(guān)的各種生物學(xué)問題進(jìn)行深入研究,為該領(lǐng)域乃至整個微量元素研究領(lǐng)域開拓新的視野并提供重要的研究手段。
[1] Rayman M P. The importance of selenium to human health[J]. Lancet, 2000, 356(9225): 233-241.
[2] Low S C, Berry M J. Knowing when not to stop: Selenocysteine incorporation in eukaryotes[J].Trends Biochem. Sci., 1996, 21(6):203-208.
[3] Stadtman T C. Selenocysteine[J]. Ann. Rev. Biochem., 1996, 65(1): 83-100.
[4] Zhang Y, Gladyshev V N. Comparative genomics of trace elements: Emerging dynamic view of trace element utilization and function[J]. Chem. Rev., 2009, 109(10):4828-4861.
[5] B?ck A, Forchhammer K, Heider J,etal.. Selenocysteine: The 21st amino acid[J]. Mol. Microbiol., 1991, 5(3):515-520.
[6] Hatfield D L, Gladyshev V N. How selenium has altered our understanding of the genetic code[J]. Mol. Cell. Biol., 2002, 22(11): 3565-3576.
[7] Zhang Y, Gladyshev V N. An algorithm for identification of bacterial selenocysteine insertion sequence elements and selenoprotein genes[J]. Bioinformatics, 2005, 21(11):2580-2589.
[8] Kryukov G V, Kryukov V M, Gladyshev V N. New mammalian selenocysteine-containing proteins identified with an algorithm that searches for selenocysteine insertion sequence elements[J]. J. Biol. Chem., 1999, 274 (48): 33888-33897.
[9] Jiang L, Liu Q, Ni J. In silico identification of the sea squirt selenoproteome[J]. BMC Genomics, 2010, 11: 289.
[10] Zhang Y, Fomenko D E, Gladyshev V N. The microbial selenoproteome of the Sargasso Sea[J]. Genome Biol., 2005, 6(4): R37.
[11] Zhang Y, Gladyshev V N. High content of proteins containing 21st and 22nd amino acids, selenocysteine and pyrrolysine, in a symbiotic deltaproteobacterium of gutless wormOlaviusalgarvensis[J]. Nucl. Acids Res., 2007, 35(15): 4952-4963.
[12] Zhang Y, Gladyshev V N. Trends in selenium utilization in marine microbial world revealed through the analysis of the global ocean sampling (GOS) project[J]. PLoS Genet., 2008, 4(6): e1000095.
[13] Kryukov G V, Castellano S, Novoselov S V,etal.. Characterization of mammalian selenoproteomes[J]. Science, 2003, 300(5624): 1439-1443.
[14] Zhang Y, Gladyshev V N. dbTEU: A protein database of trace element utilization[J]. Bioinformatics, 2010, 26(5): 700-702.
[15] Bekaert M, Firth A E, Zhang Y,etal.. Recode-2: New design, new search tools, and many more genes[J]. Nucl. Acids Res., 2010, 38(S1): D69-D74.
[16] Zhang Y, Romero H, Salinas G,etal.. Dynamic evolution of selenocysteine utilization in bacteria: A balance between selenoprotein loss and evolution of selenocysteine from redox active cysteine residues[J]. Genome Biol., 2006, 7(10): R94.
[17] Zhang Y, Gladyshev V N. General trends in trace element utilization revealed by comparative genomic analyses of Co, Cu, Mo, Ni, and Se[J]. J. Biol. Chem., 2010, 285(5): 3393-3405.
[18] Peng T, Lin J, Xu Y Z, Zhang Y. Comparative genomics reveals new evolutionary and ecological patterns of selenium utilization in bacteria[J]. ISME J., 2016, 10(8): 2048-2059.
[19] Jiang L, Ni J, Liu Q. Evolution of selenoproteins in the metazoan[J]. BMC Genomics, 2012, 13: 446.
[20] Jiang L, Zhu H Z, Xu Y Z,etal.. Comparative selenoproteome analysis reveals a reduced utilization of selenium in parasitic platyhelminthes[J]. Peer J., 2013, 1: e202.
[21] Gobler C J, Berry D L, Dyhrman S T,etal.. Niche of harmful algaAureococcusanophagefferensrevealed through ecogenomics[J]. Proc. Natl. Acad. Sci. USA, 2011, 108(11): 4352-4357.
[22] Lobanov A V, Fomenko D E, Zhang Y,etal.. Evolutionary dynamics of eukaryotic selenoproteomes: Large selenoproteomes may associate with aquatic life and small with terrestrial life[J]. Genome Biol., 2007, 8(9): R198.
[23] Zhang Y, Turanov A A, Hatfield D L,etal.. In silico identification of genes involved in selenium metabolism: Evidence for a third selenium utilization trait[J]. BMC Genomics, 2008, 9: 251.
[24] Li G P, Jiang L, Ni J Z,etal.. Computational identification of a new SelD-like family that may participate in sulfur metabolism in hyperthermophilic sulfur-reducing archaea[J]. BMC Genomics, 2014, 15: 908.
[25] Lin J, Peng T, Jiang L,etal.. Comparative genomics reveals new candidate genes involved in selenium metabolism in prokaryotes[J]. Genome Biol. Evol., 2015, 7(3): 664-676.
[26] Li G, Liu L, Li P,etal.. Gene expression profiling of selenophosphate synthetase 2 knockdown inDrosophilamelanogaster[J]. Metallomics, 2016, 8(3): 354-365.
[27] Mariotti M, Ridge P G, Zhang Y,etal.. Composition and evolution of the vertebrate and mammalian selenoproteomes[J]. PLoS ONE, 2012, 7(3): e33066.
張焱教授團(tuán)隊介紹
張焱教授及其研究團(tuán)隊長期致力于硒代謝與功能的生物信息學(xué)研究。通過開發(fā)新算法,在原核和真核生物中發(fā)現(xiàn)了大量新的硒蛋白,找到了新的硒代謝通路和新關(guān)鍵基因,并揭示了硒代謝網(wǎng)絡(luò)與硒蛋白質(zhì)組的重要進(jìn)化規(guī)律。該團(tuán)隊已發(fā)表高水平論文70余篇(總影響因子>370),參與近10部中英文著作的撰寫,主持多項國家自然科學(xué)基金、中國科學(xué)院和省部級項目。
AdvanceonBioinformaticAnalysisofSeleniumMetabolicNetworkandSelenoproteomes
ZHANG Maona, JIANG Liang*, ZHANG Yan*
CollegeofLifeSciences&Oceanography,ShenzhenUniversity,GuangdongShenzhen518060,China
Selenium (Se) is an essential trace element for most organisms and it plays an important role in redox homeostasis and is associated with several major diseases. Previously, much efforts have been devoted to experimental investigation of Se metabolism and functions of different selenoproteins. However, with the rapid increase of omics data in recent years, bioinformatic studies have become more and more important in the research of Se. This review introduced recent advances in investigating the metabolism, functions and evolution of Se by bioinformatic theories and methods. These studies identified a large number of new selenoprotein genes as well as the selenoproteomes in a variety of organisms. On the other hand, new Se metabolic pathways and several new genes involved in Se metabolism and homeostasis were also identified, which greatly improved our understanding of Se metabolic network. Furthermore, comparative genomic studies were carried out, which revealed the general distributions of Se metabolic pathways, selenoprotein families and selenoproteomes as well as their evolutionary patterns. It was expected to provide a foundation for investigating the fundamental questions and future directions of Se research.
selenoprotein; selenoproteome; selenium metabolism; bioinformatics; comparative genomics
2017-07-31;接受日期2017-08-15
國家自然科學(xué)基金項目(31771407;31401129);廣東省自然科學(xué)基金項目(2015A030313555);廣東省教育廳科技創(chuàng)新項目(2014KTSCX109)資助。
張茂娜,碩士研究生,主要從事硒蛋白的生物信息學(xué)研究。E-mail: 294516606@qq.com。*通信作者:姜 亮,副研究員,主要從事硒蛋白的生物信息學(xué)研究。E-mail: jiangliang@szu.edu.cn;張 焱,教授,主要從事微量元素的生物信息學(xué)和系統(tǒng)生物學(xué)研究。E-mail: zhangyan@szu.edu.cn
10.19586/j.2095-2341.2017.0097