劉旻昊
摘 要:以Shannon熵理論結合Mark等人提出的AMI圖形的算法包含了基因組的特有信息。生物在漫長的進化過程中要適應多種多樣的環(huán)境,進而發(fā)生基因突變,這是生物進化的基礎。通過提取基因序列的AMI變化結果來描述其在群體中的進化程度。本文選取了具有代表性的64種脊椎動物線粒體的基因數(shù)據(jù),構建了生物進化樹,取得了較為準確的結果。
關鍵詞:基因突變;多樣性;生物進化樹
根據(jù)已知的DNA序列來構造生物進化樹是伴隨著計算機技術和信息科學的發(fā)展而成長起來的新興學科。通過近幾年的發(fā)展,發(fā)開出一系列軟件如PAUP、PHYLIP和MEGA等。但是通常在運用這些方法之前,都要對序列進行對比(sequence alignment),常用的軟件有CLUSTRALW等軟件。
本文擬提取出不同DNA序列的平均互信息AMI作為特征參數(shù),通過統(tǒng)計學對其進行聚類,從而得到它們的進化關系。此種方法沒有對序列的排列進行分析對比,計算簡單且速度較快,對大量數(shù)據(jù)的處理非常方便且準確率較高。
一、理論與方法
1.平均互信息AMI
DNA序列為4種核苷酸A、C、G、T的集合,如果固定X在基因序列上的某一位置,則Y為X下游方向間隔k個位置的核苷酸。p(X)和p(Y)是核苷酸為X和Y的概率。其中表示nk(X,Y)前一個核苷酸為X,下游方向間隔k個位置為Y的組合的個數(shù),這樣pk(X,Y)就表示X和Y間隔為k的聯(lián)合分布概率。當k=0時,就表示了緊鄰二聯(lián)體核苷酸的概率,k=1時表示次緊鄰二聯(lián)體核苷酸的分布率[1]。
根據(jù)上述算法,我們可以計算出基因序列的平均互信息[2](AMI):Ik,不同的k值對應不同的Ik,對于每一個基因組,我們都能夠得到一組向量I0,I1,I2,…,Ik,不同的基因序列,我們則可以得到不同的向量Ik,Jk,Lk…。
2.相關系數(shù)
在本文中我們選擇的是pearson相關系數(shù),它能反映兩個數(shù)據(jù)集之間的線性相關程度。這是一個范圍在[-1,+1]之間的數(shù)值,若相關系數(shù)為+1,表示兩個數(shù)據(jù)集合之間呈現(xiàn)完美的正線性相關;若相關系數(shù)為-1,則表示量數(shù)據(jù)集之間是負線性相關;若相關系數(shù)為0,則表示兩組數(shù)據(jù)之間沒有線性相關性。
3.距離計算
根據(jù)相關系數(shù),我們定義兩種基因的AMI之間的距離為:DIJ=1-CIJ。通過計算的距離可以看出各個物種與自己的距離為0,與其他物種的距離則根據(jù)進化關系的遠近而不同。
4.聚類分析
通過計算不同物種兩兩之間的AMI距離,可以得到一個距離矩陣。對于這個距離,選用“ward”法即離差平方的方法進行聚類[3]。
二、數(shù)據(jù)與計算
1. 64種脊椎動物的線粒體基因組[4]
線粒體是真核生物的能量發(fā)生器并編碼一些RNA與蛋白質。線粒體編碼與細胞器翻譯有關的rRNAs與tRNAs,大部分由核編碼,在細胞質中合成后轉運給細胞器。所以線粒體的基因組結構、多樣性以及進化受到廣泛的研究。
本文選取的數(shù)據(jù)為從NCBI(http://www.ncbi.nlm.nih.gov)網(wǎng)站獲取的線粒體DNA完全基因組,共64種線粒體完全基因組。脊椎動物線粒體長度比較統(tǒng)一,大約為17000個核苷酸左右。這64種脊椎動物主要包括了哺乳類(Mammalia)、魚類(Fish)和初龍下綱(Archosauria)三類。
2. 數(shù)據(jù)計算
對于這64種線粒體基因組,首先提取各自序列的AMI的值,對于k值大小的選取,通過選取不同的值,我們認為取0到500是比較合適的。這樣,每種生物就得到一個向量,共有501個分量。對于這64種生物的AMI向量,計算相關系數(shù)得到距離,兩兩相比較距離得到一個距離矩陣,對距離矩陣通過ward法聚類,最后得到與生物遺傳學相近似的結果。
參考文獻:
[1]羅遼復.生命進化的物理觀[M].上海:上??茖W技術出版社,2000: 168—183.
[2]Mark Bauer,Sheldon M Schuster,Khalid Sayood.The Average Mutual Information Profile as a Genomic Signature[J].BMC Bioinformatics,2008(01).
[3]張楚潤.多元統(tǒng)計分析[M].北京:科學出版社,2006.
[4]劉 軍,許甫榮.基于相對熵原理構建生物進化系統(tǒng)樹[J].北京大學學報(自然科學版),2003(S1): 76—81.
(作者單位:武警山東省總隊訓練基地)