宋興超, 趙園園, 孟金柱, 吳震洋, 安清明
(銅仁學院農(nóng)林工程與規(guī)劃學院/貴州省梵凈山地區(qū)生物多樣性保護與利用重點實驗室,貴州銅仁 554300)
原癌基因(-)是即刻早期基因(immediately early genes,簡稱IEGs)家族成員之一,也稱快速反應基因,即細胞受到外部刺激和損傷后最先表達-基因。-基因最早于1966年作為FBJ和FBR小鼠成骨肉瘤病毒(HSVs)中-癌基因的同源序列而被鑒定。作為一種特定環(huán)境下表達的轉錄因子,-基因及其蛋白質(zhì)表達產(chǎn)物不僅參與細胞的正常生長與分化,而且在細胞內(nèi)信息傳遞和能量代謝過程中也起著極為重要的作用,特別是能夠參與神經(jīng)細胞的生長、發(fā)育和分化等過程。研究表明,-基因的表達與骨骼肌細胞和脂肪的形成存在關聯(lián),并且-基因的變異與表達對畜禽肌纖維性狀及馬鹿茸生長可能產(chǎn)生一定的影響。郭云雁等的研究表明,豬-基因外顯子4中檢測到2個多態(tài)位點(G2650A與A2910G),產(chǎn)生3種基因型(AA、AB、BB),并且提高G2650A位點等位基因B的頻率,從而增加肌纖維密度與紅肌纖維的比例。Reiner等利用聚合酶鏈式反應-單鏈構象多態(tài)性(PCR-SSCP)方法分析皮特蘭與梅山豬F代群體-基因多態(tài)性,表明外顯子4中A2910G位點產(chǎn)生的不同基因型可以顯著影響總肌纖維和白肌纖維數(shù)以及白肌纖維、中間型肌纖維和紅肌纖維的比例與直徑。Francis等采用逆轉錄聚合酶鏈式反應(RT-PCR)法檢測到-基因在馬鹿茸真皮層的表達量高于間充質(zhì)、前軟骨和軟骨組織。韓春梅等的研究表明,-基因在塔里木馬鹿茸快速生長期參與了茸皮干細胞的增殖與分化,并可調(diào)節(jié)成骨細胞的分化。近年來,國內(nèi)外對牛、綿羊、豬和雞-基因的研究報道較多,然而未見山羊該基因資料。因此,獲得山羊-基因全序列是進一步研究其與肌纖維性狀是否相關的基礎。本研究利用電子克隆(in silico cloning)法對山羊-基因進行分離,進一步預測分析該基因結構特征及其在山羊染色體上的定位,旨在為深入開展山羊-基因的表達特性與生理功能等研究提供基礎資料。
美國國立生物技術信息中心(NCBI)的GenBank數(shù)據(jù)庫;歐洲生物信息學研究所(EBI)的EMBL核酸序列數(shù)據(jù)庫;日本國家遺傳研究所(NIG)的DDBJ數(shù)據(jù)庫;山羊表達序列標簽EST(http://www.ncbi.nlm.nih.gov/nucest/?term=goat)和基因組Genome(http://goat.kiz.ac.cn/GGD/)數(shù)據(jù)庫。
用BLAST(http://blast.ncbi.nlm.nih.gov/Blast.cgi)進行基本局域相似性比對;用CAP 3.0軟件(http://mobyle.pasteur.fr/cgi-bin/portal.py?#forms::cap3)進行重疊群序列組裝;利用ORF finder(http://www.ncbi.nlm.nih.gov/gorf/gorf.html)查詢開放閱讀框(ORF);用BioEdit 7.0分析核苷酸序列堿基組成;用ProtParam(http://web.expasy.org/protparam/)進行蛋白質(zhì)理化特性分析;蛋白質(zhì)二級結構預測:PHD、DSC、MLRC(http://npsa-pbil.ibcp.fr);基因染色體定位(http://goat.kiz.ac.cn/blast/blast.php);用DNAStar 7.0進行多序列比對;用MEGA 5.05進行系統(tǒng)進化樹構建。
首先,將牛-基因cDNA序列(GenBank登錄號為AY322482)在NCBI中進行BLASTn分析,確定山羊的-基因尚未公布;其次,以牛該基因cDNA序列作為探針,利用NCBI網(wǎng)站中BLAST工具檢索山羊表達序列標簽(expressed sequence tag,簡稱EST)數(shù)據(jù)庫(圖1),篩選出同源性較高的基因簇,將基因簇中的山羊EST序列(EV439830、EV442817、EV440759、EV448345)下載到本地,保存為“Fasta”格式的txt文件,通過CAP 3.0軟件進行拼接得到重疊群(conting),以此重疊群為種子序列重復上述檢索步驟直至序列不能再延伸為止。
將電子克隆獲取的山羊-基因cDNA序列利用ORF Finder程序預測開放閱讀框;利用BioEdit 7.0軟件分析-基因編碼序列的堿基組成;通過ProtParam在線程序預測-基因編碼氨基酸序列的理化特性;山羊c-fos蛋白的二級結構由PHD、DSC和MLRC等3種方法共同完成;采用DNAStar 7.0軟件包中MegAlign程序?qū)Λ@取的山羊等15個物種的-基因編碼區(qū)核苷酸及氨基酸序列進行相似性比對;山羊等物種-基因系統(tǒng)進化樹通過MEGA 5.05軟件鄰接(NJ)法構建。
基于山羊EST數(shù)據(jù)庫電子延伸獲得1條 1 513 bp 的核苷酸序列,將該序列經(jīng)過BLASTn檢索,與GenBank中已公布的綿羊(NM_001166182)、牛(AY322482)和豬(JX861095)-基因的同源性分別為99%、98%、94%,初步判定其為山羊的-基因序列。利用ORF finder程序預測該段序列的開放閱讀框,由圖2可知,山羊-基因cDNA序列包括一段從122~1 264位點共計 1 143 bp 的開放閱讀框,共編碼380個氨基酸(aa)。
經(jīng)過CAP 3.0軟件拼接的山羊-基因包括1 143 bp的完整cDNA序列,編碼區(qū)5′UTR為 121 bp,3′UTR長度為249 bp。“ATG”為起始密碼子,終止密碼子為“TGA”。山羊-基因中起始密碼子的-3位和+4位均為A,符合Kozak規(guī)則:第1個ATG側翼序列的堿基分布所滿足的統(tǒng)計規(guī)律。BioEdit 7.0軟件統(tǒng)計山羊-基因堿基組成(圖3)為:A(21.08%)、C(33.16%)、G(26.77%)和T(18.99%),G+C(59.93%)含量高于A+T(40.07%)。
ProtParam在線程序預測結果表明,山羊-基因編碼的380個氨基酸中包括:51個酸性氨基酸,占13.42%;33個堿性氨基酸,占8.68%;113個極性氨基酸,占29.74%;110個疏水性氨基酸,占28.95%,可見山羊c-fos蛋白中極性氨基酸的比例最高,含量最少的為堿性氨基酸。山羊c-fos蛋白化學分子式為CHNOS,由5 620個原子組成,分子質(zhì)量為40.749 4 ku,理論等電點()為4.77,屬于酸性蛋白;其水溶液在280 nm處的消光系數(shù)約為24 910,推測半衰期為30 h,不穩(wěn)定指數(shù)為75.88,為不穩(wěn)定蛋白(計算指數(shù)<40:穩(wěn)定,計算指數(shù)>40:不穩(wěn)定);脂肪系數(shù)為62.74,總平均親水性系數(shù)為-0.414。山羊c-fos蛋白的20種基本氨基酸組成中,含量最高的是絲氨酸(Ser,54個,14.2%),色氨酸(Trp,2個,0.5%)含量最少,帶正電荷的氨基酸殘基[精氨酸(Arg)+賴氨酸(Lys)]為51個,帶負電荷的氨基酸殘基[天冬氨酸(Asp)+谷氨酸(Glu)]為33個。
通過PHD、DSC、MLRC等3種方法分別預測蛋白二級結構,然后綜合3種方法得到最終結果發(fā)現(xiàn),山羊-基因編碼蛋白主要以無規(guī)則卷曲為主,其他為α-螺旋,延伸直鏈較少(表1)。
表1 山羊c-fos基因編碼蛋白二級結構預測 %
利用ProtScale在線程序的“Kyte and Doolittle”算法預測蛋白親疏水性(圖4)。依據(jù)“氨基酸正分值越高疏水性越強和負分值越低親水性越強”的規(guī)律,結果表明,山羊-基因的編碼蛋白多肽鏈第64位纈氨酸(Val)具有最高的正分值(1.556),表現(xiàn)為該位點疏水性最強,第137位谷氨酸(Glu)具有最低的負分值(-3.256),表現(xiàn)最強的親水性,整個多肽鏈呈現(xiàn)親水性。
從GenBank中檢索并下載11個物種的-基因同源序列,包括綿羊()、牛()、馬鹿()、豬()、貓()、人()、黑猩猩()、獼猴()、小家鼠()、褐家鼠()、原雞(),與本研究獲取的山羊()該基因序列一起錄入DNAStar 7.0軟件包,利用MegAlign程序基于Clustal W方法進行12個物種-基因核苷酸及氨基酸序列的相似性分析(表2),進一步利用MEGA 5.05軟件的鄰接法和Poisson Correction模型基于氨基酸序列比對結果構建-基因分子進化樹(圖5)。
由表2可知,山羊與同屬反芻動物的綿羊、牛和馬鹿-基因核苷酸序列相似性為95.4%~99.5%,與偶蹄目豬相似性達94.0%,與小家鼠等物種的相似性在86.4%~92.7%之間,而與原雞的相似性最低;編碼氨基酸序列的相似性具有相同的變化規(guī)律,初步判定-基因在物種間保守性較強,特別是山羊與綿羊該基因氨基酸序列相似性達到100%。
表2 山羊與其他物種c-fos基因核苷酸及氨基酸序列相似性分析
由圖5可知,12個物種被劃分為界限清晰的5個類群,其中山羊、綿羊、馬鹿、牛和豬聚合為偶蹄目(Artiodactyla),表明它們之間具有更近的親緣關系,人、黑猩猩和獼猴同在靈長目(Primates)分支上,小家鼠和褐家鼠為嚙齒目(Rodentia),貓為食肉目(Carnivora),另外屬雞形目(Galliformes)的原雞單獨為一支,這種分子進化結果與NCBI中已知的生物分類基本一致,可以初步推斷,-基因可用于物種進化研究。
經(jīng)過查詢NCBI上的Gene數(shù)據(jù)庫,牛和綿羊-基因分別定位于10號染色體(86 883 739~86 887 170)和7號染色體(83 397 749~83 400 947)上,但是未公布該基因在山羊染色體的定位信息。山羊、綿羊和牛在動物分類學中同屬牛科動物,牛和山羊具有60條染色體,而綿羊由于“羅伯遜易位”存在54條染色體,沈祖楠等的研究表明,山羊與牛常染色體的同源性較山羊和綿羊高,由此初步推測-基因也定位于山羊10號染色體上。本研究利用電子克隆獲取的山羊-基因cDNA序列在山羊基因組數(shù)據(jù)庫中進行BLASTn檢索,發(fā)現(xiàn)該基因501~1 143位點與山羊基因組(登錄號為JACWUT010000010.1)10號染色體82 537 963~82 538 605 位核苷酸相似性達到100%(圖6),但是與其他染色體中的序列相似性卻很低,表明山羊-基因很有可能定位于10號染色體上。上述-基因在山羊染色體中的位置只是電子定位和預測,尚需利用熒光原位雜交等相關分子生物學試驗進一步確認。
電子克隆別稱虛擬克隆或電子cDNA文庫篩選,該方法是以生物信息數(shù)據(jù)庫中的表達序列標簽(expressed sequence tag,簡稱EST)、核苷酸及蛋白序列作為基礎資料,選擇相關生物信息軟件,對EST序列進行同源檢索、聚類、拼接及延伸,進而能夠快速獲取新的功能基因。與傳統(tǒng)克隆全長新基因的方法相比,電子克隆具有成本低、效率高、針對性強及技術要求低等優(yōu)點。目前,山羊EST數(shù)據(jù)庫已經(jīng)非常豐富且更新較為迅速,近年來,隨著大規(guī)模生物基因組測序與生物信息學技術的飛速發(fā)展,利用電子克隆獲得動植物新基因的報道日益增多,通過電子克隆分離山羊基因有助于鑒定和探索新的功能基因及其生物學功能。然而,數(shù)據(jù)庫中的EST數(shù)據(jù)最高精確度為97%以及某些基因存在多種剪切體,因此電子克隆獲得的基因序列與真實序列之間可能稍有差別,仍需要通過實驗室克隆進行驗證。目前,有關山羊-基因的克隆及其功能研究報道較少,本研究對山羊該基因研究的目的在于為其分子克隆及后續(xù)研究奠定理論基礎。
本研究利用山羊EST數(shù)據(jù)庫,通過電子克隆技術獲得了山羊-基因的cDNA全長序列,進一步采用生物信息學方法對該基因的結構及其編碼蛋白的理化特性進行預測和分析,解析了山羊-基因的染色體定位,為將來進行山羊-基因的分子克隆、表達調(diào)控及生物學功能等研究奠定基礎。研究結果表明,電子克隆獲得的山羊-基因ORF為1 143 bp,共編碼380個氨基酸,這與在綿羊上的研究結果相符。Fujiwara等通過DNA探針分離鑒定了雞的-基因,包括4個外顯子,編碼367個氨基酸,可能不同物種該基因具有不同的進化模式而導致基因組結構存在差異,但-基因在雞、小鼠和人之間具有較高的相似性,并且編碼序列中G+C含量高于A+T,這與本研究結果基本一致。其次,基于-基因編碼氨基酸序列構建的12個物種的系統(tǒng)進化樹及其相似性分析結果也與偶蹄目、食肉目、靈長目、雞形目等4類動物的傳統(tǒng)形態(tài)及生物學分類地位一致。本研究推測山羊-基因可能定位于10號染色體上,尚需進一步利用熒光原位雜交技術對-基因進行物理定位。
本研究將-基因作為影響山羊肌纖維性狀的候選基因進行分析,基于NCBI和EST等數(shù)據(jù)庫,運用生物信息學方法初步獲得了1條山羊-基因的全長cDNA序列并應用相關分子生物學軟件預測了該基因在山羊中的結構特征,這為山羊肉質(zhì)性狀形成機理的深入分析提供了相應的理論基礎,同時也為進一步研究-基因的表達規(guī)律及生物學功能奠定了科學依據(jù)。