張瀟瀟,甘 滔,王宇傳,劉秋云
(1.中山大學(xué)生命科學(xué)學(xué)院,廣東 廣州 510275;2.昆明醫(yī)科大學(xué)生物醫(yī)學(xué)工程研究院/云南省干細胞和再生醫(yī)學(xué)重點實驗室,云南 昆明 650500;3.贛南醫(yī)學(xué)院基礎(chǔ)醫(yī)學(xué)院,江西 贛州 341000;4.華北理工大學(xué)基礎(chǔ)醫(yī)學(xué)院河北省慢性疾病基礎(chǔ)醫(yī)學(xué)重點實驗室,河北 唐山 063210)
分子遺傳學(xué)是在遺傳學(xué)基礎(chǔ)上發(fā)展起來的一門學(xué)科,主要研究基因的結(jié)構(gòu)與功能、基因表達的調(diào)控、表觀基因組學(xué)調(diào)控等等。在以前發(fā)表的文章里,我們闡述了分子遺傳學(xué)的教學(xué)大綱,以及二項式分布與珀松分布在分子遺傳學(xué)課程里的具體運用[1]。然而,另有一些該課程的內(nèi)容涉及概率的運用。這些計算方法的學(xué)習(xí)有利于學(xué)生更好地掌握課程的精髓,同時也有助于他們將來的學(xué)習(xí)和工作。
最早的分子標記是ABO血型。在18、19世紀,歐洲人認為輸血可以預(yù)防疾病、有益于健康。但他們觀察到輸血后部分人死亡,由此促使了ABO血型和更多其他血型的發(fā)現(xiàn)。真正的第一代分子標記是RFLP,由美籍華人簡悅威和一位西方科學(xué)家同時發(fā)現(xiàn)。他們通過限制性內(nèi)切酶酶切DNA、電泳、Southern雜交,發(fā)現(xiàn)鐮刀細胞貧血病的致病基因產(chǎn)生了兩個條帶,而野生型只有一個條帶。部分限制性內(nèi)切酶的識別序列為回文對稱。RFLP的建立由普林斯頓大學(xué)的David Botstein教授在20世紀70年代完成。
我們可以從概率的視角研究DNA,比如堿基配對概率是1/4,而錯配概率是3/4。如可選嘌呤堿基概率是2/4,可選嘧啶堿基也是2/4。對于EcoR I限制酶來說,其識別序列與切割序列均為GAATTC,所以概率是(1/4)6[2]。
AFLP是Amplified Fragment Length Polymorphism的簡稱,在植物研究上使用的較為廣泛[3]。一般情況下采用一個6堿基酶和一個4堿基酶共同切割,加上接頭,再進行PCR擴增。由于4堿基酶酶切位點極多,特異性主要由6堿基酶的特異性所決定。綜上所述,平均4096個堿基有一個6堿基酶酶切位點,這導(dǎo)致基因組AFLP擴增產(chǎn)生極多的片段。為了減少片段數(shù)量,需要在兩個引物的3’端分別加上2個和3個堿基,這樣理論上減少擴增片斷數(shù)量至原來可能數(shù)量的(1/4)2X(1/4)3。
SNP是單核苷酸多態(tài)性[4],在基因組上一般是雙等位的,作為分子標記區(qū)分度還不夠。為了更高精度的研究遺傳連鎖,我們可以考慮使用多對SNP,比如A/a,B/b,C/c三對SNP。這樣共有2X2X2=8種組合方式。將家系的基因型分成了8組。與遺傳疾病的連鎖關(guān)系的分析從而更為精確,特別是在關(guān)聯(lián)分析上很有價值。
科學(xué)家提出了引入更多的堿基對來擴增遺傳密碼數(shù)量[5],一組科學(xué)家通過疏水配對引入了一對堿基,將遺傳字母增加到6個。那么這樣的DNA的4堿基、6堿基、8堿基回文對稱的限制性內(nèi)切酶的識別頻率怎么計算呢?那就是(1/6)4、(1/6)6、(1/6)8。
另一組科學(xué)家將遺傳密碼的堿基用氫鍵配對擴增到8個,這樣的DNA的4堿基、6堿基、8堿基限制性內(nèi)切酶的識別頻率就是(1/8)4、(1/8)6、(1/8)8。如此類推,遺傳密碼的增加將使蛋白質(zhì)的多樣性得到極大的擴展。
差異顯示(Differential Display)可以展示一對DNA樣品的mRNA條帶的差異。比如抗旱誘導(dǎo)的樣品與非抗旱誘導(dǎo)的樣品的比較,癌癥組織與癌癥組織旁邊正常組織的比較。這個技術(shù)用隨機引物與Oligo-dT引物配對進行PCR擴增,而Oligo-dT引物不能錨定于cDNA,故不能形成固定大小的片段。為了錨定引物,可在Oligo-dT引物的3’端加入2個堿基(A/G/C)(A/G/C/T)。這樣Oligo-dT錨定引物就共有3X4=12組。但是,另一端的隨機引物數(shù)為20組左右,通過配對產(chǎn)生了20X12=240個PCR組合,工作量太大。為了減少工作量,在Oligo-dT引物的3’端加入1個堿基(A/G/C)。這樣Oligo-dT錨定引物就共有3組。PCR組合減少為20X3=60個,工作量大大減少。
墳?zāi)估锏墓攀行y帶了古代流行病病毒等致病源。出于研究的需要,有時要恢復(fù)這些病毒基因組的完整序列。而尸體上的病毒DNA或RNA長度一般只有幾十個堿基。長的引物和較高的退火溫度無法PCR擴增或逆轉(zhuǎn)錄/PCR擴增,那么需要使用6堿基寡聚核酸(oligo)N6,其配對概率為(1/4)6。N6具有所有的6堿基組合,使用這個技術(shù)科研人員恢復(fù)了1918年西班牙流感H1N1的基因組。
有時候需要對一個氨基酸位點進行所有氨基酸的替換,可以設(shè)計中間含NNN的引物,進行同源重組和雙交換。為了減少終止密碼子,可使用含NNK的Oligo,K代表T/G,這樣只有4X4X2=32個密碼子,終止密碼子只有一個,其他氨基酸的密碼子數(shù)量也得到了均一化。如果要對兩個氨基酸同時替換,可使用中間含NNKNNK的Oligo。
在利用分子標記進行作物輔助育種研究時,一般使用單分子標記。方差是研究遺傳性狀的重要方法。有時,盡管兩組樣品平均值類似,但變異的幅度不一樣,產(chǎn)生的方差大小不一樣。單分子標記與產(chǎn)量性狀等存在一定重組,因此分析具有誤差?;谶@一考量,MIT的EricLander提出用區(qū)間作圖法進行植物基因定位和克隆。原理是用兩個分子標記來定位某個決定性狀的基因。假設(shè)有兩對等位基因A/a和B/b,如果A和B之間存在一個高產(chǎn)基因Y,a和b之間存在一個低產(chǎn)基因y,A和B的重組距離為0.2,那么a和b之間存在Y的概率為x(0.2-x),即通過一個雙交換a和b之間也可以得到一個高產(chǎn)等位基因Y。A和B之間存在一個高產(chǎn)基因Y的概率變?yōu)?.2-x(0.2-x)。通過類似這樣的加權(quán)處理,并結(jié)合線性回歸和最大似然法,Eric Lander開發(fā)出了廣泛使用的植物遺傳研究技術(shù),加速了植物育種革命。
綜上所述,通過運用概率進行分子遺傳學(xué)教學(xué),將使學(xué)生對本學(xué)科有更深入的理解,學(xué)習(xí)時能夠結(jié)合一定的概率或其他數(shù)學(xué)知識,并加以運用。為本科生和研究生創(chuàng)新能力和跨學(xué)科思維能力的培養(yǎng)提供一條可行途徑。