張宏禮,張鴻雁
(1.嶺南師范學院數(shù)學與統(tǒng)計學院,湛江 524048;2.嶺南師范學院生命科學與技術學院)
群體遺傳學即是研究生物系統(tǒng)進化和自然選擇的生物學家的基本理論[1-2],又是遺傳多樣性判定[3-4]、動植物性狀選擇[5-6]、人類遺傳學分析[7-8]等諸多研究的必要基礎工具。
哈迪—溫伯格平衡定律是隨機交配下的遺傳平衡定律,達到哈迪—溫伯格平衡群體的遺傳結構世代不變。許多數(shù)據(jù)在進一步分析之前要檢驗是否符合哈迪—溫伯格平衡定律,比如在基因關聯(lián)性疾病的研究中,首先應對所研究的基因進行哈迪—溫伯格平衡檢驗,用以推斷目標基因在群體中是否為穩(wěn)定存在的基因,進而才能繼續(xù)研究該基因與疾病的關聯(lián)性,若該基因不符合哈迪—溫伯格平衡定律,則不能進行下一步的關聯(lián)性研究[9-11],哈迪—溫伯格平衡群體為研究群體遺傳結構提供了一個參照系。除隨機交配外,近親交配是最重要的一種交配方式,其中完全自交是最強的近親交配方式。一般的近親交配可以看成群體一部分隨機交配、一部分完全自交構成,研究完全自交對于研究近親交配有重要的實際價值。在一位點上關于完全自交的理論分析有較多的文獻,而從兩位點整體角度如何刻畫完全自交下的世代變化中群體遺傳結構的變化及度量的成果較少見。
基于申農信息理論,能夠應用申農熵指標度量群體的遺傳結構,刻畫在世代傳遞中群體遺傳結構的變化[12-17]。利用申農熵原理可以為不同的目標人群篩選合適的Y-STR基因座組合,為Y-STR檢驗在法醫(yī)學中的應用提供科學依據(jù)和有效辦法[18]。關于兩對等位基因群體熵變規(guī)律的研究主要針隨機交配機制[19-20],近親交配及完全自交情況國內未見報道。
從處于哈迪-溫伯格平衡的兩對等位基因群體開始,研究在完全自交下的世代變化中群體遺傳結構的變化規(guī)律及刻畫這種變化的信息學描述。
考慮一個大Mendel二倍體生物群體的兩位點A和B,各等位基因頻率為
為研究方便將正反交分開表示,滿足公式(1)的群體會有16種基因型,基因型頻率會有無窮多種,假設初始世代群體為哈迪-溫伯格平衡群體,基因型頻率分布為
矩陣表示為
以后各世代的基因型頻率為
矩陣表示為
其中
隨世代數(shù)增加,ε1(t)和ε2(t)是在區(qū)間[0,p1p2)和[0,q1q2)上取值的單調增加的函數(shù)。
從一位點看,各世代的純合體基因型頻率逐代增加、雜合體基因型頻率逐代減少,但是從兩位點整體看,完全的純合體基因型頻率逐代增加、完全的雜合體基因型頻率逐代減少,而半純合半雜合的基因型頻率可能增加也可能減少,群體的遺傳多樣性程度如何變化值得研究。
性質2說明,盡管從兩位點整體看,半純合半雜合的基因型頻率可能增加也可能減少,但是群體的遺傳多樣性程度整體上還是嚴格單調減少的,而不會出現(xiàn)波動,這和一位點的情形一致。
根據(jù)申農信息理論,位點A和B各自初始世代的基因型申農熵為
所以在完全自交下,兩位點的配子頻率分布世代不變,與初始平衡群體的基因頻率一致。兩位點A和B各自的位點申農熵為H(A)=-p1lnp1-p2lnp2;H(B)=-q1lnq1-q2lnq2。假定群體雌雄兩性配子同分布,用X、Y分別表示雄、雌配子,則配子申農熵為
配子間互信息反映配子間的遺傳信息關聯(lián)程度。性質4說明,在完全自交下,隨世代交替,配子間的信息交流逐代增加,直到極限狀態(tài)最大,此時群體完全純合。
進一步定義兩位點配子間近交關聯(lián)信息系數(shù)為
根據(jù)性質4可得近交關聯(lián)信息系數(shù)如下性質。
性質5配子間近交關聯(lián)信息系數(shù)隨著近交系數(shù)F的增大而增大,且0≤IFX,Y(t)≤1。
近交關聯(lián)信息系數(shù)與近交系數(shù)反映的問題一致的,且取值范圍相同。近交系數(shù)是數(shù)理統(tǒng)計意義下配子間的相關系數(shù),而配子間的近交關聯(lián)信息系數(shù)從信息學角度反映配子間的相對關聯(lián)程度。
為檢驗上述結果的正確些,選擇如下的兩位點哈迪—溫伯格平衡群體作為初始群個體。
應用MATLAB軟件推演在完全自交下各世代基因型頻率如表1。
表1 各世代基因型頻率Table1 Genotype frequency distribution in the initial population from generation to generation
各世代基因型聯(lián)合申農熵、配子間互信息、近交關聯(lián)信息系數(shù)如表2。
由表1可見,完全純合體基因型頻率逐代增加、完全的雜合體基因型頻率逐代減少,而半純合半雜合的基因型頻率中Aabb,aAbb,aaBb,aabB四種基因型頻率先增后降,其他半純合半雜合基因型頻率一直下降。但是,由表2可見,基因型聯(lián)合申農熵逐代減少,配子間互信息逐代增加,近交關聯(lián)信息系數(shù)越來越大,與理論分析一致。
表2 各世代基因型聯(lián)合申農熵、配子間互信息、近交關聯(lián)信息系數(shù)Table2 Shannon entropy,information and the coefficient of inbred correlation information from generation to generation
從處于哈迪—溫伯格平衡的兩對等位基因群體開始完全自交,盡管從兩位點整體看,半純合半雜合的基因型頻率可能增加也可能減少,但是群體的基因型聯(lián)合申農熵還是嚴格單調減少的,亦即群體遺傳多樣性程度整體上是嚴格單調減少的,而不會出現(xiàn)波動,從理論分析的角度證實了與一位點的情形具有一致性?;蛐吐?lián)合申農熵可以很好地從兩對等位基因情形推廣到多位點、多等位基因情形,結論類似,這種整體性描述是從各基因型頻率的變化不容易體現(xiàn)出來的。
兩位點配子間互信息反映配子間的遺傳信息關聯(lián)程度,在完全自交下隨世代交替配子間的信息交流逐代增加,配子間的遺傳信息關聯(lián)程度越來越大,直到極限狀態(tài)最大,此時群體完全純合。同基因型聯(lián)合申農熵一樣,可以將配子間互信息從兩對等位基因情形推廣到多位點、多等位基因情形,這時配子間互信息最大值為各位點申農熵之和,從而多位點、多等位基因的近交關聯(lián)信息系數(shù)的分母即為各位點申農熵之和,這種加法計算起來簡單、方便、易用,而且具有信息學意義。
兩對等位基因情形下,如果群體中一部分自交、一部分隨機交配,可以依據(jù)概率論中的全概率公式推導世代變化中基因型聯(lián)合分布的演化規(guī)律、基因型聯(lián)合申農熵的變化規(guī)律、配子間互信息的變化規(guī)律,相關結果應該介于隨機交配平衡群體和完全自交群體之間,這樣的結果可以用來描述一般的近期繁殖群體的變化規(guī)律。上述研究還可以進一步考慮遷移、突變、選擇、連鎖等因素的作用,豐富應用信息論方法研究群體遺傳學理論的內容。
從處于哈迪—溫伯格平衡的兩對等位基因群體開始完全自交,完全的純合體基因型頻率逐代增加、完全的雜合體基因型頻率逐代減少,而半純合半雜合的基因型頻率可能增加也可能減少。在這個演化過程中群體的遺傳多樣性程度是否單調變化值得關注,研究表明:從兩位點整體來看,群體的基因型聯(lián)合申農熵逐代嚴格單調減少,亦即群體遺傳多樣性程度整體上嚴格單調減少;配子間的互信息逐代增加,近交關聯(lián)信息系數(shù)越來越大,兩性配子的信息關聯(lián)程度越來越緊密地趨于一致。研究從理論上證實了兩位點情形與一位點情形具有一致性,所得結論可以很好地推廣到多位點、多等位基因情形。