楊雪蓮,貝學(xué)軍,朱友娟
(1.貴州大學(xué),貴州 貴陽(yáng) 550025;2.西南大學(xué),重慶 400716;3.阿克蘇職業(yè)技術(shù)學(xué)院,新疆 阿克蘇 843300)
基因芯片是近年來(lái)科學(xué)界和商界迅速發(fā)展起來(lái)的一門(mén)生物高新技術(shù)。它是以分子生物學(xué)、計(jì)算機(jī)科學(xué)、生物信息學(xué)、基因測(cè)序技術(shù)、微電子技術(shù)、高分子化學(xué)合成技術(shù)和激光技術(shù)發(fā)展及其有機(jī)結(jié)合的產(chǎn)物。
基因芯片技術(shù)在植物研究領(lǐng)域中發(fā)揮著越來(lái)越重要的作用。Affymetrix公司生產(chǎn)的Citrus Genome Array[1]芯片是第一個(gè)商品化的果樹(shù)基因芯片。該公司的柑橘基因組芯片在柑橘研究領(lǐng)域中做出了重大貢獻(xiàn)[2],如易去皮、無(wú)核、提高風(fēng)味組成、去除有害物、疾病控制、提高營(yíng)養(yǎng)特征和再生利用等方面都有所貢獻(xiàn)[3]。
Fujii等運(yùn)用22 K的柑橘寡聚核苷酸芯片研究發(fā)現(xiàn)乙烯受體蛋白Ⅱ(ETR2)在成熟果實(shí)中受外源乙烯的誘導(dǎo),而其他乙烯受體不被誘導(dǎo)[4]。Agustí等人在含有7000個(gè)Unigene的cDNA芯片研究了外源乙烯對(duì)柑橘葉片離層與葉柄的基因表達(dá)譜差異,結(jié)果表明葉柄感受乙烯效果比葉片強(qiáng)烈[5]。Martinez-Godoy構(gòu)建了20 K cDNA芯片,用于不同種的柑橘品種基因表達(dá)分析,同時(shí)構(gòu)建了此芯片數(shù)據(jù)庫(kù)供用戶(hù)進(jìn)行基因芯片數(shù)據(jù)分析[6]。Liu等制作了柑橘cDNA芯片研究?jī)?yōu)異芽變特性,結(jié)果顯示13個(gè)與編碼信號(hào)轉(zhuǎn)導(dǎo)途徑基因值得關(guān)注[7]。Cereos等構(gòu)建與柑橘果實(shí)成熟相關(guān)的cDNA文庫(kù),發(fā)現(xiàn)在柑橘果實(shí)發(fā)育過(guò)程中,檸檬酸代謝途徑為 γ 氨基丁酸(GABA)途徑[8]。
表達(dá)譜芯片在實(shí)際應(yīng)用中局限于其數(shù)據(jù)的分類(lèi)或基因預(yù)測(cè)及芯片上相對(duì)基因功能分析。從生物芯片上凝聚的海量信息中找出重要信息需要將生物信息學(xué)知識(shí)和統(tǒng)計(jì)方法相結(jié)合。
基因芯片數(shù)據(jù)的預(yù)處理是十分關(guān)鍵的步驟,是判定數(shù)據(jù)可靠性的基礎(chǔ)。基因芯片數(shù)據(jù)預(yù)處理和歸一化直接影響后續(xù)分析的結(jié)果。寡核苷酸芯片采用高效多陣列分析法(RMA)、MAS、MBEI等軟件進(jìn)行數(shù)據(jù)預(yù)處理。
cDNA芯片的數(shù)據(jù)預(yù)處理主要包括通過(guò)數(shù)據(jù)過(guò)濾獲取需要的數(shù)據(jù)、數(shù)據(jù)轉(zhuǎn)換滿足正態(tài)分布的要求、缺失值的估計(jì)彌補(bǔ)不完整的數(shù)據(jù)、數(shù)據(jù)歸一化、糾正系統(tǒng)誤差等內(nèi)容[9]。
基因芯片制作、雜交、信號(hào)掃描、數(shù)據(jù)輸出等過(guò)程所需成本較高,因此進(jìn)行芯片實(shí)驗(yàn)時(shí)具有小樣本和大變量的特性,需要對(duì)輸出數(shù)據(jù)進(jìn)行進(jìn)一步驗(yàn)證。數(shù)據(jù)歸一化起到調(diào)整由基因芯片技術(shù)引起的誤差,從而準(zhǔn)確發(fā)現(xiàn)芯片中信息變化。
根據(jù)樣品分組進(jìn)行方差分析(ANOVA),根據(jù)組間p≤0.05初選出組間表達(dá)差異(上調(diào)或下調(diào))2倍的基因。由于基因芯片實(shí)驗(yàn)上的局限,即使數(shù)據(jù)處理方法非常巧妙也難免產(chǎn)生大量錯(cuò)誤,Benjamini在1995年提出了一種方法,通過(guò)控制假陽(yáng)性率(FDR)來(lái)決定p值的范圍[10]。在一張cDNA芯片一般假設(shè)表達(dá)的比值滿足正態(tài)分布,實(shí)際中常對(duì)比值取其Z值,則每條基因的Ζ值為Ζ=(Χ-μ)/σ,其中 Χ表示這表基因的表達(dá)比值,所有基因比值的平均值為μ,方差為σ。把±2作為Ζ值的判別標(biāo)準(zhǔn)時(shí)這種方法會(huì)選出5%的差異表達(dá)基因[11]。篩選差異表達(dá)可使用假設(shè)判定法,假設(shè)一個(gè)對(duì)數(shù)比值服從正態(tài)分布,給定一個(gè)界值和一個(gè)具體分布,可信水平或P值就是測(cè)量值由于隨機(jī)因素落在圖中的概率。若對(duì)數(shù)比值落在陰影中的基因原理對(duì)數(shù)比值的平均水平的位置,就被稱(chēng)為差異表達(dá)基因[12]。還有方差分析法和噪聲抽樣法,及以最大似然估計(jì)方法為基礎(chǔ)的模型等均可用于差異基因篩選。
聚類(lèi)分析(Clustering analysis)是基因表達(dá)數(shù)據(jù)分析最常用的多變量技術(shù)。聚類(lèi)分析的對(duì)象可以是基因也可以是樣本或序列。通過(guò)聚類(lèi)分析可以了解某一生物學(xué)途徑上催化一系列反應(yīng)的酶的表達(dá)規(guī)律,有助于闡明一些特殊的代謝通路和基因調(diào)控的機(jī)理。當(dāng)某些新基因與已知功能的基因歸為一類(lèi)時(shí),就可以推測(cè)并描述新基因的潛在功能。聚類(lèi)結(jié)果還可以進(jìn)一步為難以進(jìn)行遺傳學(xué)處理和基因組序列不全的物種提供功能分析的切入點(diǎn)?;蛐酒夹g(shù)能監(jiān)測(cè)成千上萬(wàn)的基因的表達(dá)情況,這就要求有全局的把握一些特別情況下和生物過(guò)程產(chǎn)生的基因轉(zhuǎn)錄水平分析,因此分析基因表達(dá)情況時(shí)要求把相近表達(dá)模式的基因進(jìn)行聚類(lèi)。在基因芯片表達(dá)數(shù)據(jù)分析中,可應(yīng)用系統(tǒng)聚類(lèi)分析、Bayesian聚類(lèi)分析、K均值聚類(lèi)分析、自組圖分析、主成分分析、二向聚類(lèi)分析、神經(jīng)網(wǎng)絡(luò)聚類(lèi)分析等統(tǒng)計(jì)分析手段。
對(duì)基因芯片數(shù)據(jù)進(jìn)行生物學(xué)解釋是基因芯片后期數(shù)據(jù)挖掘的一個(gè)重要方向但也是生物學(xué)瓶頸部位。解決這個(gè)問(wèn)題可借助于各種生物學(xué)信息數(shù)據(jù)庫(kù)進(jìn)行后續(xù)分析。Ensembl數(shù)據(jù)庫(kù)、LocusLink數(shù)據(jù)庫(kù)、RefSeq數(shù)據(jù)庫(kù)、NAR數(shù)據(jù)庫(kù)(核酸研究);關(guān)于疾病信息:孟德?tīng)栠z傳信息數(shù)據(jù)庫(kù)(OMIM);蛋白質(zhì)家族信息:InterPro數(shù)據(jù)庫(kù);轉(zhuǎn)錄因子調(diào)節(jié)分析Transfac數(shù)據(jù)庫(kù);功能分類(lèi):Gene Ontology數(shù)據(jù)庫(kù)、GOA數(shù)據(jù)庫(kù);生物學(xué)通路和生物學(xué)相互作用的分析:KEGG、BioCarta數(shù)據(jù)庫(kù)、Transpath數(shù)據(jù)庫(kù)、GenMAPP數(shù)據(jù)庫(kù)等;生物學(xué)網(wǎng)絡(luò)中的基因分析:CytoScape數(shù)據(jù)庫(kù)等。植物基因組功能注釋的基因家族數(shù)據(jù)庫(kù)(GreenPhylDB),以NCBI為基因比對(duì)中心,結(jié)合其他數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)進(jìn)行特異性分析達(dá)到對(duì)研究對(duì)象的全面了解。
可用來(lái)分析柑橘基因芯片的數(shù)據(jù)庫(kù)有Citrus Functional Genomics Project(CFGP)、慕尼黑蛋白序列信息中心(MIPS)、harvEST、David及 AFFY提供的數(shù)據(jù)庫(kù)等。華中農(nóng)大完成甜橙基因組測(cè)序,并建立相關(guān)網(wǎng)站供柑橘研究者使用(網(wǎng)址為://citrus.hzau.edu.cn/orange/tools/blast.php)。柑橘中有13266條基因與擬南芥Unigene同源性很高,占柑橘基因組芯片的63%[13],目前只能通過(guò)查看該探針在NCBI上的信息或者查找其與擬南芥或其他植物同源性很高的基因的GO信息來(lái)推斷其功能信息,需要逐一檢索,工作量很大。很多情況下,研究者根據(jù)自己感興趣的基因定義為一定名稱(chēng)的基因集,當(dāng)其想要在一個(gè)表達(dá)基因列表中檢索這樣的基因集時(shí),可以應(yīng)用統(tǒng)計(jì)檢驗(yàn)方法精確檢驗(yàn)同源性,之后利用其他數(shù)據(jù)庫(kù)資源進(jìn)行同源性分析即可。
基因芯片可用于發(fā)現(xiàn)新基因。Aharoni等從草莓中分離了1701個(gè)cDNA克隆片段,構(gòu)建成微陣列芯片來(lái)研究草莓果的不同成熟時(shí)期果色與成熟度的關(guān)系,他們發(fā)現(xiàn)了草莓乙?;D(zhuǎn)移酶基因成熟果實(shí)的風(fēng)味合成中發(fā)揮了關(guān)鍵的作用的,而且發(fā)現(xiàn)紅色果實(shí)比白色果實(shí)乙?;D(zhuǎn)移酶基因的表達(dá)活性高[14]。
寡核苷酸芯片用于研究植物基因的結(jié)構(gòu)。Winzeler使用高密度寡核苷酸微陣列研究14種不同的酵母菌株,發(fā)現(xiàn)兩種酵母株基因組結(jié)構(gòu)差異主要表現(xiàn)在端粒區(qū)域,通過(guò)非同源序列之間的重組對(duì)酵母株基因組結(jié)構(gòu)加深了認(rèn)識(shí)[15]。Batista指出人們一直對(duì)轉(zhuǎn)基因作物對(duì)人體的潛在的危害存在很大爭(zhēng)議,Batista使用寡核苷酸芯片檢測(cè)水稻基因表達(dá)情況,發(fā)現(xiàn)誘變和轉(zhuǎn)基因相比誘變更廣泛程度上改變基因表達(dá)[16]。基因組芯片應(yīng)用為改良品種的食品安全評(píng)估提供一定的參考價(jià)值。
基因組芯片用于植物及其病害的基因表達(dá)檢測(cè)也有較大突破。Puthoff等使用Affymetrix的大豆基因組基因芯片,發(fā)現(xiàn)大豆胞囊線蟲(chóng)病誘導(dǎo)大豆的細(xì)胞壁結(jié)構(gòu)蛋白相關(guān)基因豐量表達(dá),參與乙烯代謝途徑、病原相關(guān)蛋白和抗逆蛋白相關(guān)基因大量產(chǎn)生[16]。
基因芯片應(yīng)用領(lǐng)域非常廣闊,已經(jīng)應(yīng)用于藥物篩選和新藥開(kāi)發(fā)、疾病診斷、環(huán)境保護(hù)、司法鑒定、現(xiàn)代農(nóng)業(yè)、科學(xué)研究領(lǐng)域及生物傳感器等諸多領(lǐng)域,并且取得較好的成果。
基因芯片技術(shù)可以用來(lái)篩選農(nóng)作物的突變基因,并尋找高產(chǎn)、抗病蟲(chóng)、抗干旱、抗冷凍的相關(guān)基因,可以用于基因掃描及基因文庫(kù)作圖及商品檢驗(yàn)檢疫等領(lǐng)域。目前基因芯片對(duì)農(nóng)作物基因組測(cè)序做出了重要的貢獻(xiàn)。隨著基因芯片技術(shù)的發(fā)展,可將其運(yùn)用在新基因?qū)ふ?、檢測(cè)基因表達(dá)水平、進(jìn)行后基因組學(xué)研究及轉(zhuǎn)基因農(nóng)產(chǎn)品檢測(cè)和植物檢疫等方面。根據(jù)市場(chǎng)實(shí)情,研究低成本、高效和快速檢測(cè)芯片是今后研究的重點(diǎn)。
[1]楊雪蓮.乙烯誘導(dǎo)伏令夏橙果實(shí)脫落過(guò)程中重要功能基因的克隆、表達(dá)與功能分析[D].重慶:西南大學(xué),2010.
[2]Talon M,Gmitter F G .Citrus Genomics[J].Int J Plant Genomics,2008(1):32.
[3]Fujii H,Shimada T,Sugiyama A,et al.Profiling etylene -responsive genes in mature mandarin fruit using a citrus 22K oligoarray[J].Plant science,2007(173):340 ~ 348.
[4]張凌云.乙烯誘導(dǎo)柑橘果實(shí)脫落的轉(zhuǎn)錄基因組學(xué)研究及乙烯誘導(dǎo)基因的克隆和鑒定[D].重慶:西南大學(xué),2010.
[5]Martinez Godoy M A,Mauri N,Juarez J,et al.A genome wide 20 K citrus microarray for gene expression analysis[J].BMC Genomics,2008(9):318~320.
[6]Liu Q,Zhu A,Chai L,et al.Transcriptome analysis of a spontaneous mutant in sweet orange[Citrus sinensis(L.)Osbeck]during fruit development[J],JEB,2009(2):1 ~3.
[7]Cereos M,Soler G,Domingo J,et al.Global analysis of gene expression during development and ripening of citrus fruit flesh.A proposed mechanism for citric acid utilization[J].Plant Mol Biol,2006,62(5):13 ~527.
[8]吳 斌,沈自尹.基因芯片表達(dá)譜數(shù)據(jù)的預(yù)處理分析[J].中國(guó)生物化學(xué)與分子生物學(xué)報(bào),2006,22(4):272~277.
[9]Benjamini Y,Hochberg Y.Controlling the False Discovery Rate:A Practical and Powerful Approach to Multiple Testing[J].Journal of the Royal Statistical Society,1995,57(1):289 ~300.
[10]Salamon H ,Maeda M K,Small P M,et al.Detection of Deleted Genomic DNA Using a Semiautomated Computational Analysis of GeneChip Data[J].Genome Res,2000(10):2044 ~ 2054.
[11]Li Y.DNA microarray data analysis and processing[M].Beijing:Chemical Industry Press,2006:74 ~316.
[12]張凌云,陽(yáng)佳位,王 淼,等.DNA微陣列技術(shù)在柑橘研究中的應(yīng)用[J].果樹(shù)學(xué)報(bào),2010(1):110~114.
[13]Aharoni A ,Keizer L C P ,Bouwmeester H J,et al.Identification of the SAAT Gene Involved in Strawberry Flavor Biogenesis by Use of DNA Microarrays[J].Plant Cell,2008(12):647 ~ 661.
[14]Winzeler E A,Castillo - Davis C I,Oshiro G,et al.Genetic Diversity in Yeast Assessed With Whole-Genome Oligonucleotide Arrays[J].Genetics,2003(163):79 ~ 89.
[15]Batista R,Saibo N,Lourenc T,et al.Microarray analyses reveal that plantmutagenesis may induce more transcriptomic changes than transgene insertion[J].Proc Natl Acad Sci U S A,2000(9):3640~3645.
[16]Puthoff D P,Ehrenfried M L,Vinyard B T,et al.GeneChip profiling of transcriptional responses to soybean cyst nematode,Heterodera glycines,colonization of soybean roots[J].J Exp Bot,2007(12):3407~3418.