武凌云
摘 要: 在現(xiàn)代分子進(jìn)化研究中,根據(jù)現(xiàn)有生物基因或物種多樣性重建生物的進(jìn)化史是一個(gè)非常重要的問(wèn)題,一個(gè)可靠的系統(tǒng)發(fā)生的推斷,將揭示出有關(guān)生物進(jìn)化過(guò)程的順序,有助于我們了解生物進(jìn)化的歷史和進(jìn)化機(jī)制,本文就植物分子進(jìn)化中系統(tǒng)發(fā)生樹的重建方法進(jìn)行了闡述。
關(guān)鍵詞: 植物分子進(jìn)化 系統(tǒng)發(fā)生樹 重建方法
運(yùn)用DNA序列測(cè)定已經(jīng)普遍運(yùn)用于系統(tǒng)與進(jìn)化植物學(xué)的研究中,從DNA水平研究生物多樣性與生物進(jìn)化的分子生物學(xué)技術(shù)作為一種研究手段,通過(guò)揭示DNA分子中核苷酸的變異研究植物的系統(tǒng)發(fā)生、種內(nèi)分化及遺傳多樣性等,正在改變植物系統(tǒng)這門古老而經(jīng)典的學(xué)科,為解決過(guò)去依靠植物形態(tài)和稀缺的化石證據(jù)在分類學(xué)、系統(tǒng)發(fā)育、物種形成與進(jìn)化等方面的難題提供極為有效的途徑。本文就植物分子進(jìn)化中系統(tǒng)發(fā)生樹的常用重建方法做介紹。
1.分子系統(tǒng)發(fā)生樹的重建
目前,利用分子生物學(xué)數(shù)據(jù)重建系統(tǒng)發(fā)生樹的方法很多。在重建時(shí),對(duì)不同類型的數(shù)據(jù)應(yīng)采取不同的重建方法。
1.1非加權(quán)組平均法(UPGMA)
UPGMA法在算法上較簡(jiǎn)單。聚類時(shí),首先將距離最小的兩個(gè)OTU聚在一起,形成一個(gè)新的OTU,其分支點(diǎn)位于兩個(gè)OTU間距離的1/2處,然后計(jì)算新的OTU與其他OTU間的平均距離,再找出其中最小的兩個(gè)OTU進(jìn)行聚類。如此反復(fù),直到所有的OTU都聚到一起,最終得到一個(gè)完整的系統(tǒng)發(fā)生樹。
1.2鄰結(jié)法(NJ)
與UPGMA法相比,NJ法在算法上相對(duì)較復(fù)雜,它跟蹤的是樹上的節(jié)點(diǎn)而不是OTUs。在聚類過(guò)程中,根據(jù)原始距離矩陣,基于其他所有節(jié)點(diǎn)間的平均趨異程度而對(duì)每對(duì)節(jié)點(diǎn)間的距離做調(diào)整,即將每個(gè)OTU的趨異程度標(biāo)準(zhǔn)化,從而形成一個(gè)新的距離矩陣。重建時(shí)將距離最小的兩個(gè)終節(jié)點(diǎn)連接起來(lái),在樹中增加一個(gè)共祖節(jié)點(diǎn),同時(shí)去除原初的兩個(gè)終節(jié)點(diǎn)及其分支,即對(duì)整個(gè)樹進(jìn)行修剪。隨后,新增加的共祖節(jié)點(diǎn)被視成終節(jié)點(diǎn),重復(fù)上一次循環(huán)。在每一次循環(huán)過(guò)程中,都有兩個(gè)終節(jié)點(diǎn)被一個(gè)新的共祖節(jié)點(diǎn)取代。整個(gè)循環(huán)直到只有兩個(gè)終節(jié)點(diǎn)時(shí)為止。從所得到的系統(tǒng)發(fā)生樹來(lái)看,兩個(gè)聚在一起的OUT其所在的終節(jié)點(diǎn)到共祖節(jié)點(diǎn)的距離并不一定相同。
1.3最大簡(jiǎn)約法(MP)
MP方法利用的只是對(duì)簡(jiǎn)約分析能提供信息的特征。如在DNA序列數(shù)據(jù)中,利用的只是存在核苷酸序列差異(至少有2種不同類型的核苷酸序列)的位點(diǎn),這些位點(diǎn)稱為簡(jiǎn)約信息位點(diǎn)。利用MP方法重建系統(tǒng)發(fā)生樹,實(shí)際上是一個(gè)對(duì)給定OTUs,其所有可能的樹進(jìn)行比較的過(guò)程。對(duì)某一個(gè)可能的樹,首先對(duì)每個(gè)位點(diǎn)祖先序列的核苷酸組成做出推斷,然后統(tǒng)計(jì)每個(gè)位點(diǎn)用來(lái)闡明差異的核苷酸最小替換數(shù)目。在整個(gè)樹中,所有信息簡(jiǎn)約位點(diǎn)最小核苷酸替換數(shù)的總和稱為樹的長(zhǎng)度。通過(guò)比較所有可能樹,選擇其中長(zhǎng)度最小的樹作為最終的系統(tǒng)發(fā)生樹,即最大簡(jiǎn)約樹。
1.4最大似然法(ML)
利用最大似然法推斷一組序列的系統(tǒng)發(fā)生樹,需首先確定序列進(jìn)化的模型,目前使用較多的是一些相對(duì)較簡(jiǎn)單的模型,如Jukes Cantor模型、Kimura二參數(shù)模型及一般二參數(shù)模型。這些模型都建立在一定假設(shè)基礎(chǔ)上,然后基于一定的模型考慮兩個(gè)OTU序列間的關(guān)系,找到支的長(zhǎng)度。這個(gè)過(guò)程需要尋找在某一進(jìn)化距離上由第一種序列真正轉(zhuǎn)換成第二種序列的可能性,并確定在最大可能下的進(jìn)化距離。接著將多個(gè)OTU構(gòu)成的所有可能樹作為最佳樹,對(duì)重建每個(gè)樹的統(tǒng)計(jì)量進(jìn)行似然估計(jì),最后通過(guò)對(duì)樹長(zhǎng)度的優(yōu)化,從而獲得最佳樹各參數(shù)的最大似然估計(jì)。
1.5貝葉斯推斷法
最常用的是MCMC法,其基本思想是構(gòu)造出一條馬爾柯夫鏈,該鏈的狀態(tài)空間為統(tǒng)計(jì)模型參數(shù)和不變后驗(yàn)分布參數(shù)。鏈的構(gòu)造由多步完成,每步狀態(tài)空間的狀態(tài)都被推薦為鏈的下一個(gè)連接點(diǎn)。首先在狀態(tài)空間中隨機(jī)挑選一個(gè)狀態(tài)作為鏈的當(dāng)前態(tài),隨機(jī)擾動(dòng)當(dāng)前態(tài)各參數(shù),從狀態(tài)空間中推薦一個(gè)新態(tài),計(jì)算推薦態(tài)的相對(duì)后驗(yàn)概率密度,若推薦態(tài)的后驗(yàn)概率密度高于當(dāng)前態(tài),則鏈的移動(dòng)被接受,推薦態(tài)則作為下一循環(huán)的當(dāng)前態(tài)。若推薦態(tài)的后驗(yàn)概率密度低于當(dāng)前態(tài),則計(jì)算由Metropolis等和Hasting提出的推薦態(tài)與當(dāng)前態(tài)后驗(yàn)概率的比率,該值接近1時(shí)接受推薦態(tài),接近0時(shí)則拒絕推薦態(tài),此時(shí),當(dāng)前態(tài)作為自身的下一個(gè)連接點(diǎn)。對(duì)上述過(guò)程重復(fù)若干次,最終馬爾柯夫鏈將停留在后驗(yàn)概率高的狀態(tài),某態(tài)的后驗(yàn)概率就是馬爾柯夫鏈停留該態(tài)的時(shí)間分值。
1.6不同構(gòu)樹方法的分析
在上述方法中,F(xiàn)arris和Penny認(rèn)為距離法得到的結(jié)果要比離散特征法的差,F(xiàn)elsenstein和Nei則認(rèn)為Farris和Penny的論據(jù)是對(duì)距離法的錯(cuò)誤理解。事實(shí)上,在有些情況下距離法能得到比離散特征法更正確的系統(tǒng)發(fā)生樹。在距離法中,UPGMA比較簡(jiǎn)單且實(shí)用,當(dāng)使用的距離數(shù)據(jù)是來(lái)源于對(duì)含核苷酸數(shù)量較多的多個(gè)基因的分析結(jié)果時(shí),利用UPGMA法能得到可靠的系統(tǒng)發(fā)生樹。在離散特征法中,在不同世系間進(jìn)化速率相差較大,且進(jìn)化速率恒定而樹的內(nèi)支很短的情況下,MP法并不能對(duì)一個(gè)真正的系統(tǒng)發(fā)生樹做出始終一致的判斷。即使有時(shí)MP法能得到一個(gè)始終一致的判斷,但它獲得一個(gè)正確樹的效率通常要比NJ法和ML法低。但在(1)序列趨異程度較小(d<0.1);(2)核苷酸替換的速率或多或少的恒定;(3)沒(méi)有很高的轉(zhuǎn)換與顛換比及很強(qiáng)的G+C含量偏差;(4)所分析的核苷酸數(shù)量較多(大于幾千)的情況下,MP法仍是一種較好的系統(tǒng)發(fā)生樹重建法。另外,與距離法和ML法不同,MP法能利用序列中堿基的插入與缺失信息。
2.結(jié)語(yǔ)
從系統(tǒng)發(fā)育生物學(xué)的角度看,基因組學(xué)的豐富數(shù)據(jù)既包括大量序列信息,又蘊(yùn)藏有關(guān)重復(fù)基因、DNA片段缺失/插入、轉(zhuǎn)座子丟失/插入等信息,為系統(tǒng)發(fā)育研究提供豐富的資料,使得利用大規(guī)?;蚪M水平的數(shù)據(jù)進(jìn)行系統(tǒng)發(fā)育分析成為可能。
應(yīng)該注意的是,用DNA序列研究系統(tǒng)進(jìn)化時(shí)也存在許多問(wèn)題。首先,雖然同一DNA序列在不同分類群間的進(jìn)化速率有所差異,但序列本身在植物系統(tǒng)學(xué)的研究中總有相對(duì)穩(wěn)定的適用范圍,這使得其涵蓋的研究?jī)?nèi)容和層次有限。其次,分子片段僅僅是分類群諸多性狀的一個(gè)來(lái)源,它雖能為分類群的系統(tǒng)重建提供不可忽視的信息,但并不能完全反映其真實(shí)的演化歷史。比如核基因組龐大而復(fù)雜,擁有許多具有豐富變異的DNA片段(如某些基因的內(nèi)含子區(qū)),在低階元類群的分子系統(tǒng)學(xué)研究中應(yīng)用廣泛。
參考文獻(xiàn):
[1]Kay,K.,J.Whittall,et al.A survey of nuclear ribosomal internal transcribed spacer substitution rates across angiosperms:an approximate molecular clock with life history effects.BMC Evolutionary Biology,2006,6(1):36.