李 美,凌婉陽,鄧丹丹,胡朝暉
(廣東省生物工程研究所(廣州甘蔗糖業(yè)研究所) 廣東省甘蔗改良與生物煉制重點(diǎn)實(shí)驗(yàn)室,廣東廣州510316)
隨著現(xiàn)代技術(shù)的發(fā)展,生物信息學(xué)逐漸走向成熟并且能夠不斷降低成本大量生成序列信息。目前,生物信息學(xué)在農(nóng)業(yè)信息學(xué)中也發(fā)揮著越來越重要的作用。生物信息學(xué)由數(shù)據(jù)庫、計(jì)算機(jī)網(wǎng)絡(luò)和應(yīng)用軟件3大部分構(gòu)成,以高通量大規(guī)模實(shí)驗(yàn)及統(tǒng)計(jì)和計(jì)算機(jī)分析為特征,涵蓋了生物信息的獲取、處理、存儲(chǔ)、整理、歸類、分析和解釋等方面內(nèi)容,包括建立國(guó)際基本生物信息數(shù)據(jù)庫和生物信息傳輸?shù)膰?guó)際互聯(lián)網(wǎng)系統(tǒng),建立生物信息數(shù)據(jù)質(zhì)量的評(píng)估和檢驗(yàn)系統(tǒng),生物信息可視化和專家系統(tǒng)等[1-2]。
甘蔗作為重要的糖料作物,是食糖最主要的來源之一,目前甘蔗亦可用作生物能源原料。然而,由于甘蔗品種單一化、甘蔗病蟲草害發(fā)生嚴(yán)重等問題,導(dǎo)致我國(guó)甘蔗產(chǎn)量低、含糖量偏低,生產(chǎn)成本較高,致使我國(guó)甘蔗糖業(yè)產(chǎn)業(yè)整體發(fā)展受到嚴(yán)重制約。因此,將新興的生物信息學(xué)技術(shù)運(yùn)用到甘蔗糖業(yè)產(chǎn)業(yè)將成為改善目前甘蔗產(chǎn)業(yè)現(xiàn)狀重要的舉措之一。
目前生物信息學(xué)在甘蔗生產(chǎn)的研究見圖1[3]。甘蔗生物信息的發(fā)展可以分為2個(gè)階段:基因組時(shí)代和后基因組時(shí)代。在基因組時(shí)代,甘蔗生物信息學(xué)的主要研究?jī)?nèi)容包括序列拼接和對(duì)比、序列的分子進(jìn)化分析、蛋白質(zhì)空間結(jié)構(gòu)的預(yù)測(cè)、基因的預(yù)測(cè)和非編碼DNA功能研究等。在后基因組時(shí)代,表達(dá)譜分析、轉(zhuǎn)錄組分析、代謝網(wǎng)絡(luò)分析以及藥物靶點(diǎn)篩選等成為甘蔗生物信息學(xué)的重要研究方向。
圖1 不同技術(shù)水平甘蔗生物信息學(xué)分析[3]
利用生物信息學(xué)技術(shù)可為序列分析提供有力的幫助,可以完成從測(cè)序、峰、圖等文件向核酸序列的轉(zhuǎn)化,去除載體污染和重復(fù)序列,序列聚類和拼接,分析可變剪切,數(shù)據(jù)庫搜索進(jìn)行相似性分析,基因功能注釋和功能分類,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)等分析。通過對(duì)生物信息學(xué)數(shù)據(jù)庫的匯總,為今后的研究提供數(shù)據(jù)支撐。
生物信息數(shù)據(jù)庫大體可分為4個(gè)大類,即基因組數(shù)據(jù)庫、核酸和蛋白質(zhì)一級(jí)結(jié)構(gòu)序列數(shù)據(jù)庫、生物大分子(主要是蛋白質(zhì))三維空間數(shù)據(jù)庫以及上述3類數(shù)據(jù)庫和文獻(xiàn)資料為基礎(chǔ)所構(gòu)建的二級(jí)數(shù)據(jù)庫。其中,核酸和蛋白質(zhì)一級(jí)結(jié)構(gòu)序列數(shù)據(jù)庫是最基本的數(shù)據(jù)庫,目前較為常見的核酸數(shù)據(jù)庫有:美國(guó)NCBI,歐洲分子生物學(xué)實(shí)驗(yàn)室的 EMBL (European Molecular Biology Laboratory),日本國(guó)家數(shù)據(jù)庫DDBJ (DNA Data Bank of Japan),見表1。二級(jí)數(shù)據(jù)庫詳見表2、表3、表4。
甘蔗品種改良在很大程度上依賴于傳統(tǒng)的育種方法,但傳統(tǒng)的育種方法受到種間多倍體雜種遺傳的復(fù)雜性和篩選農(nóng)藝性狀耗時(shí)長(zhǎng)等因素的限制?,F(xiàn)代生物技術(shù)的發(fā)展與應(yīng)用為甘蔗遺傳改良提供了較大的幫助,目前已開展了包括分子生物學(xué)、生物信息學(xué)和遺傳學(xué)等在內(nèi)的多學(xué)科交叉甘蔗育種研究,生物信息學(xué)與傳統(tǒng)的育種方法相結(jié)合來提高育種效率,是目前甘蔗育種的主要發(fā)展趨勢(shì)[4]。生物信息學(xué)在甘蔗育種方面有2方面優(yōu)勢(shì),其一是發(fā)現(xiàn)新基因,另一方面是轉(zhuǎn)基因手段。
3.1.1 從基因組序列預(yù)測(cè)新基因
這種方法實(shí)質(zhì)上是把基因組中編碼蛋白質(zhì)和非編碼蛋白質(zhì)的區(qū)域區(qū)分開來,將這些序列與已知基因數(shù)據(jù)庫進(jìn)行比較,就可以發(fā)現(xiàn)新的基因。
3.1.2 通過多序列比對(duì)從基因組DNA序列中預(yù)測(cè)新基因
這種方法是通過未知序列與已知基因組 DNA序列進(jìn)行多序列對(duì)比,通過相似性分析,預(yù)測(cè)未知序列的結(jié)構(gòu)和功能,并間接分析獲取未知序列的有用的信息和知識(shí)。
表2 蛋白質(zhì)數(shù)據(jù)庫
表3 結(jié)構(gòu)數(shù)據(jù)庫
表4 其他數(shù)據(jù)庫
3.1.3 電子克隆發(fā)現(xiàn)新基因
表達(dá)序列標(biāo)簽(Express Sequence Tags,EST)是對(duì)應(yīng)于某一種 mRNA的一個(gè) cDNA克隆的一段序列,主要用途是在數(shù)據(jù)庫搜索中,用EST片段進(jìn)行cDNA克隆以分離出感興趣的基因,與已有數(shù)據(jù)庫同源比對(duì)分析。在生物信息學(xué)研究中,比對(duì)是最常用和最經(jīng)典的研究手段。利用EST序列開辟一種有別于傳統(tǒng)的尋找新基因的方式,而各種工具,如BLAST、GCG等也為分析序列信息提供了有效的手段。EST序列針對(duì)這些數(shù)據(jù)庫進(jìn)行BLAST搜索,可以獲得查詢序列統(tǒng)計(jì)學(xué)意義上的一些功能注釋,如:同源物的序列識(shí)別號(hào)、功能描述、序列對(duì)齊分值、E值、開放讀碼框位置等,它們是判定查詢序列可能生物學(xué)功能的主要依據(jù)。所測(cè)ESTs序列同源性分析可通過NCBI GenBank中BLASTn進(jìn)行,并進(jìn)一步在EMBL中利用FASTA進(jìn)行比較。根據(jù)比對(duì)結(jié)果來判斷所獲EST片段可能的生物學(xué)功能,或判斷該EST是否為新基因片段。
3.1.4 發(fā)現(xiàn)植物新基因
抗性是影響甘蔗生長(zhǎng)發(fā)育的重要因子,分子生物學(xué)與現(xiàn)代生物技術(shù)的發(fā)展,使人們對(duì)植物抗性的分子機(jī)理有了更深入的認(rèn)識(shí)。根據(jù)這些已知抗性基因序列的特征和序列的相似性,從測(cè)序數(shù)據(jù)中可預(yù)測(cè)其中可能包含的抗性基因,指導(dǎo)人們對(duì)甘蔗抗性基因的鑒定和發(fā)現(xiàn)。
目前,甘蔗生物信息學(xué)主要集中在甘蔗相關(guān)的酶、蛋白、激素等相關(guān)基因的生物信息學(xué)分析,通過生物信息學(xué)分析(包括序列特征、結(jié)構(gòu)功能及聚類分析等)對(duì)基因各性狀進(jìn)行評(píng)判,揭示相關(guān)基因作用機(jī)理,為后續(xù)進(jìn)一步的深入研究做鋪墊。例如:蔗糖合成的關(guān)鍵酶之一的蔗糖磷酸合成酶(SPS),揭示蔗糖在植物生長(zhǎng)發(fā)育中發(fā)揮的作用[5];通過對(duì)蔗糖代謝相關(guān)的甘蔗蔗糖轉(zhuǎn)化酶家族基因生物信息學(xué)的研究,在作物經(jīng)濟(jì)產(chǎn)量形成與果實(shí)品質(zhì)改良中發(fā)揮重要作用[6];與甘蔗分蘗有關(guān)的甘蔗ScHTD2基因,以及植物分蘗的關(guān)鍵基因 TB1、KNOX基因?qū)χ参镯敹朔稚M織的形成和維持甘蔗 ScF-box基因獨(dú)腳金內(nèi)酯(新型激素,能夠有效抑制植物分蘗)[7-8];以家族形式存在于植物中并參與各種生物進(jìn)程的糖結(jié)合蛋白是植物凝集素超家族中的一類新成員,其中木菠蘿素類凝集素基因經(jīng)由 SA信號(hào)通路正向調(diào)控參與了甘蔗應(yīng)答氧化脅迫,在甘蔗應(yīng)答抗氧化脅迫機(jī)制過程中扮演積極的角色[9];與此類參與甘蔗生長(zhǎng)、產(chǎn)糖等調(diào)控機(jī)制相關(guān)的酶還有甘蔗抗壞血酸過氧化物酶甘蔗 S-APX2基因、甘蔗幾丁質(zhì)酶基因SCCHI1、花穗中表達(dá)的一個(gè) SR基因成員和甘蔗過氧化氫酶基因等。另外,通過生物信息學(xué)分析甘蔗ScNRT2蛋白基因家族用于培育和發(fā)展氮素高效利用新品種,研究甘蔗ATP合酶甘蔗及ADP/ATP轉(zhuǎn)運(yùn)蛋白酶能量代謝系統(tǒng)能為選育高蓄能能源甘蔗新品種提供一定依據(jù)。
生物信息學(xué)在甘蔗育種方面的應(yīng)用主要集中在基因操作技術(shù)的研究,如外源基因在轉(zhuǎn)基因作物中的表達(dá),“報(bào)告基因”用于植物的轉(zhuǎn)化,分離優(yōu)良性狀基因的技術(shù)等一系列突破,與常規(guī)育種技術(shù)相結(jié)合,提高育種效率,創(chuàng)造遺傳育種資源,加快育種進(jìn)程,這已是育種界的發(fā)展趨勢(shì)。與傳統(tǒng)的甘蔗改良方法相比,利用生物技術(shù)和基因工程工具培育的甘蔗優(yōu)良品種打破原有品種的生育力低、易感性和培育周期長(zhǎng)等諸如此類的限制。在這方面,基因操作技術(shù)和相關(guān)技術(shù)已經(jīng)開發(fā)為甘蔗改良的新策略。目前基因組學(xué)研究旨在闡明甘蔗基因的結(jié)構(gòu)、功能和相互作用?;蚋牧几收幔瑢?duì)農(nóng)藝的抗性增強(qiáng)等特征可以用于甘蔗選育優(yōu)良品種。
生物信息學(xué)專家將甘蔗品種的參考基因組序列,通過同源性搜索可以預(yù)測(cè)某一蛋白的功能,確定其是否為原有靶標(biāo)蛋白的類似物或受體亞型,進(jìn)而推測(cè)它是否可以作為特定“報(bào)告基因”轉(zhuǎn)移到甘蔗品系中來,以期改善甘蔗品種的農(nóng)藝性狀,提高甘蔗選育效率。目前應(yīng)用于甘蔗中的轉(zhuǎn)基因技術(shù)主要是基因槍介導(dǎo)法和農(nóng)桿菌介導(dǎo)法。近年來甘蔗的轉(zhuǎn)基因研究主要育種可按基因的功能大致分為 3類,新型抗病蟲、抗寒、抗旱和高糖以及作為生物反應(yīng)器生產(chǎn)高附加值產(chǎn)品為主,同時(shí)在轉(zhuǎn)基因生物的檢測(cè)研究中也取得了較大的進(jìn)展[10]。
第1類甘蔗抗蟲害、抗除草劑和抗病菌類。例如:轉(zhuǎn)Bt基因甘蔗防治甘蔗螟蟲。近來?xiàng)畲ㄘ沟萚11-12]對(duì)轉(zhuǎn)SrMVP1基因甘蔗的抗病性、活性氧代謝、產(chǎn)量和糖分進(jìn)行了分析,結(jié)果表明在較高的病毒劑量脅迫環(huán)境中,轉(zhuǎn)基因無性系植株對(duì)病毒侵染起到應(yīng)激作用,其活性氧代謝相關(guān)指標(biāo)的變化,最終導(dǎo)致其對(duì)病毒的抵御能力上的不同。
第2類甘蔗抗逆性,如抗旱、抗寒等,通過轉(zhuǎn)基因已實(shí)現(xiàn)甘蔗抗逆相關(guān)基因、甘蔗抗逆相關(guān)蛋白以及抗逆種質(zhì)資源鑒定評(píng)價(jià)等方面的研究。有研究從甘蔗葉片克隆得到一個(gè)為了適應(yīng)干旱脅迫而在維管束鞘中產(chǎn)生的干旱誘導(dǎo)表達(dá)的基因 SoDip22[13],張積森等[14]克隆到一種水分脅迫響應(yīng)基因SSADH,其與Ca2+存在調(diào)控關(guān)系,可以作為甘蔗抗逆育種的候選基因。甘蔗 ScSAM基因在聚乙二醇(PEG)脅迫下被誘導(dǎo)表達(dá),其可能在甘蔗抗鹽脅迫、抗旱或者抗?jié)B透脅迫中起到調(diào)節(jié)作用[15]。隨著甘蔗干旱脅迫時(shí)間的延長(zhǎng),甘蔗NDPK1基因的表達(dá)量呈先升高后降低的趨勢(shì)[16]。這些基因都對(duì)干旱脅迫產(chǎn)生了相應(yīng)的應(yīng)答,在參與甘蔗干旱脅迫過程中具有重要的防御功能。
第3類開發(fā)高附加值產(chǎn)品,如利用甘蔗作為生物反應(yīng)器生產(chǎn)果聚糖、生物塑料等。
由于甘蔗連年大規(guī)模種植、品種單一、抗藥性等問題,甘蔗病蟲害對(duì)甘蔗造成的損失日趨嚴(yán)重。由于發(fā)生期長(zhǎng)短不一,世代重疊,交替為害,隱蔽性強(qiáng),危害嚴(yán)重,損失巨大,因此,建立甘蔗田間病蟲害綜合防控技術(shù)體系成為甘蔗病蟲害綜合防控的關(guān)鍵[17]。
甘蔗對(duì)外界生物環(huán)境的適應(yīng)性主要表現(xiàn)在對(duì)病蟲草害等的抵抗能力方面,目前化學(xué)防治仍是治理甘蔗病蟲草害的主要措施,通過對(duì)甘蔗抗性機(jī)制的研究,可以利用生物信息學(xué)工具和方法在特定基因組中發(fā)現(xiàn)或追蹤與農(nóng)藝性狀相關(guān)的特定基因并詮釋其功能。生物信息學(xué)的另一個(gè)重要研究?jī)?nèi)容是進(jìn)行蛋白質(zhì)、DNA等結(jié)構(gòu)模擬和分子設(shè)計(jì)以及隨之而來的藥物設(shè)計(jì)[18]。
甘蔗蟲害是為害甘蔗產(chǎn)量和質(zhì)量的重要因素之一,本文以生物信息學(xué)在甘蔗害蟲中的應(yīng)用為例進(jìn)行闡述。
目前常用的發(fā)現(xiàn)昆蟲新基因的方法主要有同源性搜索和表達(dá)差異分析。
同源性搜索:通過對(duì)EST數(shù)據(jù)庫的表達(dá)差異分析可以發(fā)現(xiàn)不同組織或不同病理狀態(tài)下細(xì)胞內(nèi)基因表達(dá)的差異,根據(jù)這些差異可確定與疾病相關(guān)的候選靶標(biāo),并對(duì)其進(jìn)行功能驗(yàn)證確定為靶標(biāo)蛋白。
表達(dá)差異分析:通過培育篩選出不同品系的甘蔗害蟲,利用分子生物學(xué)手段進(jìn)行表達(dá)差異分析,鑒定出與表達(dá)差異相關(guān)的基因,對(duì)甘蔗害蟲的機(jī)理進(jìn)行深入的研究,同時(shí)可以利用基因沉默(RNAi)技術(shù)來實(shí)現(xiàn)差異基因的敲除,驗(yàn)證篩選基因的功能。
利用生物信息學(xué)分析工具可以幫助人們?cè)谒幬镩_發(fā)過程中更快地尋找或發(fā)現(xiàn)潛在的藥物作用靶標(biāo),減少研發(fā)時(shí)間?;?4.1中同源性搜索和表達(dá)差異分析發(fā)現(xiàn)昆蟲新基因,利用生物信息學(xué)的方法從數(shù)據(jù)庫中獲得該靶標(biāo)蛋白的三維結(jié)構(gòu)或利用同源建模的方法模建其三維結(jié)構(gòu),用于藥物的計(jì)算機(jī)輔助設(shè)計(jì)[19]。因此,生物信息學(xué)在確定藥物作用靶標(biāo)的過程中起著非常重要的應(yīng)用。
生物信息學(xué)是通過使用大量數(shù)據(jù)分析而揭示指導(dǎo)深層次研究的重要工具,目前其正在迅速擴(kuò)展到不同的學(xué)科,可能在未來的研究中將發(fā)揮重要作用[20]。甘蔗是一種復(fù)雜的經(jīng)濟(jì)性很高的農(nóng)業(yè)作物,因其具有多等位基因、高多倍性和非整倍性的生物學(xué)特征,所以生物信息學(xué)技術(shù)的使用在新品種的選育和防控體系的建立中顯的尤其重要。本文相信利用生物信息學(xué)手段分析將開辟出新的研究領(lǐng)域,將進(jìn)一步深層次剖析甘蔗的研究機(jī)理,最終實(shí)現(xiàn)指導(dǎo)生產(chǎn)的目的。