李可群
(同濟大學(xué)化學(xué)科學(xué)與工程學(xué)院,上海 200092)
自達(dá)爾文時代起,許多生物學(xué)家都有一個夢想,那便是重建地球上所有生命的進化歷史并以進化系統(tǒng)樹的形式描述這部歷史[1].研究物種進化的理想途徑是利用物種的化石證據(jù),但是自然界中化石存留下來的比較少,很多進化的關(guān)鍵環(huán)節(jié)都沒有化石證據(jù)存留.因此大多數(shù)生物是通過比較形態(tài)學(xué)和比較生理學(xué)構(gòu)建生物進化史的框架,然而形態(tài)和生理狀態(tài)的進化相當(dāng)復(fù)雜,不同學(xué)者構(gòu)建的進化系統(tǒng)樹在細(xì)節(jié)上有所差別,得出的物種進化關(guān)系難以統(tǒng)一[2].近年來,隨著分子生物學(xué)研究的不斷深入,大大改變了這種局面.不過,目前分子系統(tǒng)發(fā)育分析在計算物種分歧時間時,大多基于分子進化速率恒定的“分子鐘”假說[3],但大多數(shù)生物分子在長時間尺度和不同譜系的進化速率并不恒定,從而計算得到的結(jié)果與化石年齡往往存在較大偏差.如原口動物和后口動物分歧時間化石給出的年代大約在5.55億~5.60億年前,而近年來快速發(fā)展的生物分子鐘方法推算結(jié)果大多介于12億~8.51億年前,僅有極少數(shù)給出小于6億年前的結(jié)果,即幾乎所有分子鐘研究結(jié)果顯示兩者分異早于寒武紀(jì)生物大爆發(fā)至少1億年[4].為此本文作者提出了不基于分子進化速率恒定假說的分子絕對進化速率計算公式[5]和多重突變的校正方法[6],本文將繼續(xù)討論分子系統(tǒng)發(fā)育分析中的物種選擇規(guī)則.
根據(jù)分子進化模型[6],由于突變概率很低,核苷酸或蛋白質(zhì)序列分子的突變概率可用泊松分布來描述
(1)
式(1)中k為分子絕對進化速率,t為進化時間,p(x=j)為突變j次的概率.特別地,核苷酸或蛋白質(zhì)序列分子不發(fā)生突變的突變概率為
p(x=0)=e-kt
(2)
對于一個有n0個被比較位點的核苷酸或蛋白質(zhì)序列分子,若忽略回復(fù)突變(可校正,參看文獻[6]),有
(3)
式(3)中nd為核苷酸或蛋白質(zhì)序列分子相對于其被比較的祖先核苷酸或蛋白質(zhì)序列分子發(fā)生突變的位點數(shù),p為這兩個序列分子的序列差異率,kt一項稱遺傳距離.
由于祖先序列分子一般難以得到,實際工作中我們一般通過比較同源序列分子來計算物種分歧時間.根據(jù)文獻[5],兩個同源序列分子比較得到的序列差異率可表示為
(4)
(5)
文獻[5]指出當(dāng)兩個遺傳距離kAt和kBt存在一定差異但相差不十分懸殊時,式(5)得到的分子絕對進化速率是其真實值[即式(4)的對應(yīng)值]的2倍.但替代公式的使用會帶來誤差,其差值為
(6)
因此,分子系統(tǒng)發(fā)育分析中物種選擇規(guī)則的實質(zhì)就是使替代公式在物種分歧時間計算時引入的總體誤差取最小值,否則最優(yōu)化計算過程中式(5)得到的絕對進化速率將偏離為其真實值2倍的關(guān)系,同時會給出錯誤的物種分歧時間結(jié)果.若不考慮式(4)的誤差,此亦即使用式(5)進行物種分歧時間計算的總體誤差.
在分子系統(tǒng)發(fā)育分析中,我們一般使用兩組同源序列分子相互兩兩比較.在成功的計算體系中,我們發(fā)現(xiàn)它們的同組同源序列分子平均未突變概率存在一些規(guī)律.我們以文獻[7]使用COX1蛋白質(zhì)分子計算寒武紀(jì)生物大爆發(fā)時期原口動物與后口動物分歧時間為例,文章分別使用一組鯊魚和一組環(huán)節(jié)動物作為物種類群A和物種類群B,另外選用了腕足動物、輪蟲動物、線蟲動物、節(jié)肢動物和軟體動物分別作為物種類群C,參見圖1.文獻[7]的計算表明:所得的原口動物與后口動物物種分歧時間數(shù)值很相近,且與化石年齡相符很好,遠(yuǎn)好于現(xiàn)有文獻結(jié)果,說明計算結(jié)果令人滿意.
圖1 寒武紀(jì)物種分歧時間的計算框圖
表1 寒武紀(jì)物種分歧時間計算中同組同源序列分子的平均未突變概率
由表1可以看出,當(dāng)同組同源序列分子的遺傳距離取kit的倍數(shù)時,其對應(yīng)的平均未突變概率取自然對數(shù)后的比值r等于它們倍數(shù),即如果我們令
(7)
那么就有
(8)
式(8)中c為0.5、1.0、1.5和2.0.我們隨意以表1中軟體動物類群為例,試圖對式(8)做出解釋,表1中其他動物類群計算結(jié)果與之相同.
表2 軟體動物的平均未突變概率
表2中給出了寒武紀(jì)物種分歧時間計算時,軟體動物不同物種e-ckit的數(shù)值.可以看出,它們與其同組物種式(8)均值e-ckxt的相對偏差的加和均為零,且同一軟體動物物種不同c值時的相對偏差數(shù)值的比值與它們c值的比值相同.也就是說,如果我們把e-kit理解為e-kxt與多出部分的乘積,即
e-kit=e-kxte-Δkit
(9)
兩物種類群體系由兩種物種類群(即一個物種類群對)的物種序列分子相互兩兩比較計算的物種類群對組成.雖然兩物種類群體系在我們的分子系統(tǒng)發(fā)育分析中并不常用,但它是一個較為基本的類型,因為常見的三物種類群體系和四物種類群體系分別由3個和6個物種類群對組成.
如果kA(i)和kB(j)分別為物種類群A的第i個物種和物種類群B中第j個物種的序列分子絕對進化速率,t為兩物種類群的分歧時間,則替代公式引入總體誤差取最小值的目標(biāo)函數(shù)是
(10)
式(10)較難直接求解.但若物種類群A和B序列分子的平均未突變概率均滿足式(8),則問題可以簡化.我們令
(11)
s′=(e-xA-e-xB)4
(12)
使用式(12)中的s′分別對xA和xB求一階偏導(dǎo)數(shù)并令它們?yōu)榱?不難得到式(12)取最小值的條件為e-xA=e-xB,即物種類群A和B序列分子的平均未突變概率相等.
2.2.1 三物種類群體系物種選擇規(guī)則
由圖1計算框圖可以看出,三物種類群體系由3個相互兩兩比較計算的物種類群對組成.因此我們可得到替代公式引入總體誤差取最小值,也就是物種選擇規(guī)則的目標(biāo)函數(shù)為
(13)
(14)
(15)
由多元函數(shù)的極值條件,式將(15)中的s′分別對xA、xB和xC求一階偏導(dǎo)數(shù)并令它們等于零,有
(16)
(17)
(18)
由式(16)至式(18)可以看出,其中任意兩個方程的加減可得到第三個方程,故其中任意兩個方程均為式(15)的多元函數(shù)極值條件.以式(16)和式(17)為例,存在兩組解:
(1)e-xA=fe-xB=fe-xC,即圖1計算框圖中物種類群B和C的序列分子自它們最近共同祖先序列分子的平均未突變概率相等;同時,自時間t2起物種類群A、B和C的序列分子的平均未突變概率也相等.換句話說,也就是圖1中3個物種類群對兩兩相互比較計算時殘差分別取最小值,這時三物種類群體系的總殘差也取最小值.
(2)因x3-y3=(x-y)(x2+xy+y2),故若使式(16)有解,可有
(19)
將式(19)轉(zhuǎn)換定義為
(20)
同樣地,由式(17)可有
(21)
不難看出,式(16)和式(17)成立時,式(20)和式(21)中R1和R2值均為1.
2.2.2 物種選擇規(guī)則的驗證
我們使用1.3引用的寒武紀(jì)物種分歧時間計算結(jié)果來驗證物種選擇規(guī)則.表3給出了選用不同物種類群C時計算體系R1和R2的計算值.
表3 寒武紀(jì)物種分歧時間計算時物種選擇規(guī)則的驗證
由表3可以看出,不同物種類群C計算所得的R1和R2值均很接近于1,說明我們所選擇的物種符合物種選擇規(guī)則的要求,因而能得到滿意的結(jié)果.另由表1數(shù)據(jù)可以看出這些物種類群滿足式(8)的要求.
四物種類群體系的計算框圖如圖2所示.
圖2 四物種類群體系物種選擇規(guī)則的推導(dǎo)示意圖
按三物種類群體系類似的方法,我們可以得到四物種類群體系物種選擇規(guī)則的目標(biāo)函數(shù)為
(22)
(23)
(24)
根據(jù)多元函數(shù)的極值條件,將式(24)分別對xA、xB、xC和xD求一階偏導(dǎo)數(shù)并令為零,有
(25)
(26)
(27)
(28)
式(25)至式(28)方程組的解有兩類:
(1)由式(25)至式(28)可先直觀得到e-xA=e-xB,e-xC=e-xD,也就是物種類群A與物種類群B各物種的序列分子,物種類群C與物種類群D各物種的序列分子自它們各自最近共同祖先序列分子的平均未突變概率分別相等.同時還可推斷出從時間t2開始的四個物種類群各物種序列分子的平均未突變概率也分別相等.與三物種類群體系2.2.1(1)中的情形類似,也就是組成四物種類群體系所有物種類群對的殘差分別取最小值.
(2)由于式(25)加式(26)、以及式(28)減式(27)的結(jié)果相等,兩個結(jié)果中任意一個方程式都包含了式(25)至式(28)的解,因其還可能存在其他解,根據(jù)下面的結(jié)果選擇出的物種組成是否滿足式(24)的極值條件,還需結(jié)合化石年齡等其他學(xué)科證據(jù)進行了判斷.以式(25)加式(26)為例,兩邊除以g后其結(jié)果為
(29)
整理后可得
(30)
同樣地,式(30)較難直接求解,我們討論其中較簡單的情形.因x3-y3=(x-y)(x2+xy+y2),因此式(30)要有解,可讓其方程式兩邊均能提出等于零的因式.即有
(31)
(32)
將式(31)和式(32)整理可得判別式
(33)
(34)
式(29)的其他類似組合還可得到另外兩組解.
由本文三物種類群體系和四物種類群體系分析可知,它們的物種選擇規(guī)則可分成2類:第一類直接讓組成上述2類體系所有物種類群對的殘差取最小值,即讓后者物種類群平均未突變概率分別相等。另一類是允許體系中物種類群對的平均未突變概率存在差異,而這些差異可在由多元函數(shù)極值條件得到的方程組中相互抵消,仍滿足相關(guān)極值條件.如式(20)和式(21)以及式(33)和式(34)等都是通過這種方法得到的.同時,由前面分析可以看出,無論兩物種類群體系、三物種類群體系或四物種類群體系,由于變量較多,它們通過多元函數(shù)極值條件得到的方程組通常較難直接求解.而選用均滿足式(8)的物種類群,盡管可能不能窮盡其解,但可以非常方便地找到其中方程組的簡單解,也就是能簡單方便地找到可計算得到滿意物種分歧時間的物種類群組成,這對我們的分子系統(tǒng)發(fā)育分析是很重要的.我們在實際計算中也發(fā)現(xiàn),大多數(shù)成功的計算體系是由其同源序列分子滿足式(8)的物種類群組成.
最后需要說明的是,由文獻[6]的回復(fù)突變和平行突變校正方法可知,本文結(jié)果也同樣適用于同源分子絕對進化速率計算公式經(jīng)多重突變校正的分子系統(tǒng)發(fā)育分析體系.