楊敏, 孔曉瑜, 時偉, 龔理, 3
?
長臂纓鲆核糖體RNA基因序列多態(tài)性特征分析
楊敏1, 2, 孔曉瑜1, 時偉1, 龔理1, 3
1. 中國科學(xué)院熱帶海洋生物資源與生態(tài)重點實驗室, 中國科學(xué)院南海海洋研究所, 廣東 廣州 510301; 2. 中國科學(xué)院大學(xué), 北京 100049 3. 浙江海洋大學(xué), 海洋科學(xué)與技術(shù)學(xué)院, 國家海洋設(shè)施養(yǎng)殖工程技術(shù)研究中心, 浙江 舟山 316022
為了解鰈形目Pleuronectiformes鲆科Bothidae長臂纓鲆(Jordan & Starks, 1906) 核糖體RNA基因的序列多態(tài)性特征, 本研究共獲得該魚類包括18S、5.8S、ITS1和ITS2全長及28S部分序列的128條克隆序列。經(jīng)序列比對、聚類分析以及重組檢測, 結(jié)果顯示5.8S (158bp) 無長度變異, 而其他4個基因片段則表現(xiàn)出較高的長度多態(tài)性, 并可分為不同序列類型: 18S (1856~1893 bp) 有4種序列類型A、B、C和R; 28S (967~974bp) 和ITS1 (407~ 505bp) 均有3種類型A、B和R; ITS2 (423~447 bp)存在2種類型A和B。此外5個基因片段在堿基組成中均表現(xiàn)出GC偏倚, 并且ITS2 (71.14%)>ITS1 (65.37%)>28S (62.22%)>5.8S (57.67%)>18S (54.95%)。對具有不同序列類型的18S、28S和ITS進(jìn)行真、假基因推斷時, 通常的判別特征不足以提供有力依據(jù), 因此增加了與4種鲆科近緣魚類長冠羊舌鲆、青纓鲆大鱗短額鲆以及冠毛鲆相應(yīng)基因片段的比對。各基因片段的插入/缺失以及特異性堿基差異位點比對結(jié)果顯示: 18S和28S的短序列類型A與4種鲆科魚類序列一致, 而其他序列類型則不同; ITS1序列類型A與4種鲆科魚類在類型B的缺失位點均無缺失, 因此推測18S、28S和ITS1的A類型為真基因, 而其他類型為假基因。ITS2的A和B類型在差異位點上與4個鲆科魚類不存在一致性, 沒有足夠的依據(jù)對兩個類型做出真、假基因的推斷。長臂纓鲆核糖體RNA基因中, 5.8S序列最為保守遵循協(xié)同進(jìn)化的方式, 而其他4個基因片段為非協(xié)同進(jìn)化的方式。
核糖體RNA基因; 長臂纓鲆; 多態(tài)性; 假基因; 非協(xié)同進(jìn)化; 重組
真核生物細(xì)胞核中核糖體RNA基因 (ribosomal DNA, rDNA) 為多拷貝的串聯(lián)重復(fù)序列, 位于一條或者多條染色體上。每個轉(zhuǎn)錄單元包含核糖體RNA編碼基因18S、5.8S和28S rDNA以及位于兩個編碼基因之間的內(nèi)轉(zhuǎn)錄間隔區(qū) (internal transcribed spacer, ITS1和ITS2) 組成(Hillis et al, 1991)。
核糖體RNA編碼基因18S、5.8S和28S在種內(nèi)具有高度的保守性, 常應(yīng)用于高級階元的系統(tǒng)進(jìn)化關(guān)系重建(Hillis et al, 1991; Dabert et al, 2014)。Daber等(2014)應(yīng)用18S、28S對緩步動物屬的分類問題進(jìn)行了研究, 在分別構(gòu)建的4超科19屬代表物種的18S、28S以及這兩個基因聯(lián)合的系統(tǒng)樹中, 該屬的代表種與Isohypsibioidea科的種類具有比其他3個超科更近的親緣關(guān)系, 支持歸屬于Isohypsibioidea超科。ITS序列由于進(jìn)化速率相對編碼基因較快, 在種內(nèi)趨于相似而種間存在較大差異, 因此, 核糖體ITS序列廣泛地應(yīng)用于物種鑒定、低階元的分類關(guān)系以及地理格局分布等研究(álvarez et al, 2003; Pérez et al, 2005; Yao et al, 2010; Kumar et al, 2013)。Kumar等(2013)研究了5種印度淡水鲃魚(mahseer) 25個個體18S、ITS1以及ITS2序列, 并分別利用這幾個基因及其聯(lián)合數(shù)據(jù)集構(gòu)建系統(tǒng)樹, 得到的系統(tǒng)關(guān)系中均能夠有效地將不同種類區(qū)分開。
學(xué)者們最初普遍認(rèn)為核糖體RNA基因的進(jìn)化遵循協(xié)同進(jìn)化的方式 (concerted evolution), 即串聯(lián)重復(fù)的多基因家族不同拷貝在同一物種內(nèi)保持一致或者高度的相似性, 而在近緣物種基因組內(nèi)該基因之間存在差異(Elder et al, 1995; Liao, 1999)。然而, 隨著不同物種核糖體RNA基因數(shù)據(jù)的積累, 研究者在個體內(nèi)以及種內(nèi)發(fā)現(xiàn)了越來越多的堿基突變、插入/缺失等原因?qū)е虏煌截愔g的多態(tài)性特征, 這種現(xiàn)象不僅出現(xiàn)在了具有較高變異程度的ITS區(qū)(Xiao et al, 2015; Gong et al, 2016a), 在保守的核糖體RNA編碼基因18S、5.8S和28S也均有發(fā)現(xiàn)(Márquez et al, 2003; Krieger et al, 2006; Meyer et al, 2010), 如Krieger等(2006)在14種歐亞鱘魚 (Eurasian acipenseriform species) 和6種北美鱘魚 (North American paddlefish) 中發(fā)現(xiàn)18S廣泛存在種內(nèi)變異, 在789個位點上種內(nèi)分別存在9~18個變異位點, 研究人員認(rèn)為其協(xié)同進(jìn)化速率是降低的。Zuriaga等(2015)在13個錐蝽屬物種中發(fā)現(xiàn)長度差異顯著、突變位點增多的不同類型的5.8S和ITS2序列共存于基因組內(nèi)。當(dāng)基因片段的同質(zhì)化進(jìn)程低于不同拷貝之間的變異速率時, 就會造成不同拷貝之間序列的異質(zhì)性 (heterogeneity), 導(dǎo)致了非協(xié)同進(jìn)化 (non-concerted evolution) 的進(jìn)化方式(Keller et al, 2006; Xiao et al, 2010)。
在非協(xié)同進(jìn)化中, 當(dāng)序列變異的程度導(dǎo)致基因原有生物學(xué)功能缺失時會退化為假基因(Mighell et al, 2000)。根據(jù)前人對核糖體RNA基因的研究, 推斷假基因的依據(jù)有以下幾個方面: 具有更短的序列長度、更高的變異速率、更低的GC含量和最小自由能等特征(Bailey et al, 2003), 而在隨后的一些研究中也證實了這些特征的適用性。在對桑給巴爾舌鰨ITS2序列的研究中, Gong等(2016b)發(fā)現(xiàn)了兩種ITS2序列類型A和B中, 比較發(fā)現(xiàn)假基因類型B在長度 (319bp vs 497bp)、GC含量 (73.4%~74.6% vs 75.3%~76.1%)、核苷酸變異程度(π, 0.00920 vs 0.00553) 以及最小自由能 (-160.7kcal·mol-1vs-261.0kcal·mol-1) 等特征上均明顯與真基因類型A存在差異, 符合假基因的特征依據(jù)。然而, 在假基因的推斷中也有不完全符合判斷標(biāo)準(zhǔn)的情況, 比如Gong等(2016a)在線紋舌鰨18S的3種序列類型中發(fā)現(xiàn)2058bp的類型A除去189bp的重復(fù)片段插入外, 其他特征均和1869bp的類型 B相似, 在長度 (1921bp)、GC含量 (54.6% vs 58.2%)、最小自由能 (-740.0kcal·mol-1vs-807.7kcal·mol-1) 等方面明顯低于類型C, 因而推斷類型A和B均為假基因, 類型C為真基因。
同時, 由于真、假基因共同存在于基因組內(nèi), 隨著序列的復(fù)制以及諸如染色體間的不等交換 (unequal crossing over) 以及基因轉(zhuǎn)換 (gene conversion) 等分子機(jī)制的作用, 會出現(xiàn)兩者真、假基因片段的重組類型。如石鰈的ITS1序列(Xu et al, 2009)和桑給巴爾舌鰨ITS2序列(Gong et al, 2016b)中都發(fā)現(xiàn)了由長、短序列類型重組產(chǎn)生的重組子類型。重組的發(fā)生也進(jìn)一步增加了核糖體RNA基因序列的多態(tài)性。
目前對于鰈形目魚類的研究, 僅石鰈(Xu et al, 2009)、牙鲆(龔理等, 2015)以及舌鰨科Cynoglossidae的3種魚類(Gong et al, 2016a, b, 2018b)和鰨科Soleidae的11種魚類(Gong et al, 2018a)的報道, 而對于鰈形目的其他科屬魚類的報道甚少。我們在研究鰈形目其他科魚類核糖體RNA基因序列時, 分析發(fā)現(xiàn)鲆科Bothidae纓鲆屬的長臂纓鲆(Jordan & Starks, 1906) (Nelson, 2006)中, 除了5.8S序列具有高度的保守性之外, 18S、28S、ITS1以及ITS2序列均表現(xiàn)出明顯的序列多態(tài)性特征, 甚至可以分為不同的序列類型, 這在鲆科魚類的研究中甚至鰈形目及硬骨魚類的核糖體的研究中都是比較少見的現(xiàn)象。因此, 本研究進(jìn)一步對長臂纓鲆的核糖體RNA基因序列進(jìn)行了詳細(xì)的比較和分析, 以期為鰈形目魚類核糖體RNA基因研究提供更多的分子數(shù)據(jù), 并豐富魚類核糖體RNA基因的多樣性及進(jìn)化方式等方面的研究。
研究所用的鲆科纓鲆屬長臂纓鲆樣品 1尾采集于浙江溫嶺; 鲆科4種魚類長冠羊舌鮃、青纓鲆、大鱗短額鲆、冠毛鲆各1尾, 分別采集于泰國普吉島、廣東珠海、廣東深圳和澳大利亞新南威爾士。樣品用冰盒帶回實驗室或于95%酒精保存, 鑒定后取肌肉組織約20~25mg于-20℃保存?zhèn)溆谩?/p>
將保存的肌肉組織使用天根海洋動物基因組織提取試劑盒[TIANamp Marine Animals DNA kit, 天根生化科技(北京)有限公司]提取總DNA, 最后用雙蒸水溶解, 保存于?20℃冰箱中。參考Xu等(2009) 和龔理(2016) 研究中的序列設(shè)計擴(kuò)增引物 (表1)。PCR反應(yīng)總體積為25μL, 包括2.0mmol·L-1MgCl2, 0.4mmol·L-1dNTP, 每個引物0.5μmol·L-1, 1.0U rTaq酶[寶生物工程(大連)有限公司], 50ng模板DNA, 滅菌雙蒸水補(bǔ)足至25μL。前期預(yù)實驗中發(fā)現(xiàn)ITS區(qū)為高GC含量序列, 在反應(yīng)體系中加入8%的二甲基亞砜 (DMSO) 變性劑, 將利于提高具有高GC含量的序列的擴(kuò)增效率。反應(yīng)在ABI Veriti 96孔梯度PCR儀 (USA) 中進(jìn)行。PCR擴(kuò)增程序為: 94℃預(yù)變性2min, 94℃變性1min, 50℃退火50s, 72℃延伸1 ~ 2.5min, 35個循環(huán), 后72℃延伸10min。PCR產(chǎn)物用1%的瓊脂糖凝膠電泳檢測后, 采用凝膠回收試劑盒進(jìn)行片段回收, 連接pMD19-T載體[寶生物工程(大連)有限公司], 轉(zhuǎn)入大腸桿菌感受態(tài)細(xì)胞DH5α, 挑取并檢測陽性克隆后, 由上海英濰捷基公司ABI 3730 DNA sequencer (Applied Biosystems, USA) 進(jìn)行雙向測序。
對測定的序列利用局部對比基本檢索工具(Basic Local Alignment Search Tool, BLAST) 網(wǎng)站(http://blast.ncbi.nlm.nih.gov) 進(jìn)行檢索, 18S、5.8S以及28S序列通過與鰈形目中近緣物種的相似性確定是否為目的片段; ITS1與ITS2序列則通過兩端的18S、5.8S、28S序列的相似性進(jìn)行判斷; 提交美國國立生物技術(shù)信息中心(National Center for Biotechnology Information, NCBI)數(shù)據(jù)庫獲得Genbank號 (表1)。應(yīng)用ClustalX2.0 (Larkin et al, 2007) 軟件進(jìn)行序列比對; 并用BioEdit (version 7.0.1) (Hall, 1999) 軟件對序列進(jìn)行人工調(diào)整; 使用MEGA 6.0 (Tamura et al, 2013) 軟件統(tǒng)計序列保守位點、變異位點及堿基組成; 應(yīng)用DNAsp 5.0 (Librado et al, 2009) 軟件統(tǒng)計單倍型及單倍型多樣性、核苷酸多樣性及平均核苷酸差異數(shù)。應(yīng)用RNAfold在線網(wǎng)站(http://rna.tbi.univie.ac.at/cgi-bin/RNAWebSuite/RNAfold.cgi) 預(yù)測序列最小自由能; 應(yīng)用軟件RDP4.85 (Martin et al, 2015) 和SimPlot 3.5(默認(rèn)參數(shù)值)以及序列比對檢測重組片段, 并輔以人工校對。應(yīng)用MEGA 6.0軟件采用鄰接法 (neighbor-joining method, NJ), 應(yīng)用雙參數(shù)模型 (Kimura 2-parameter distance, K2P), 對長臂纓鲆核糖體RNA不同片段的克隆序列聚類分析, 置信值檢測 (bootstrap test) 1000次重復(fù)。
表1 核糖體RNA基因片段PCR引物序列及Genbank序列號
注: ITSZ包括ITS1、5.8S和ITS2; *表示不是全長序列; “—”表述無此序列。
由于28S為部分片段, 其中變異位點以及核苷酸多態(tài)性、平均核苷酸差異數(shù)等對28S全長序列特征不具有代表性, 因此僅作為對28S序列研究的參考。
本研究中共得到128條克隆序列分別是: 14條18S、33條ITS1、45條5.8S和24條ITS2全序列以及12條28S部分序列。對5個基因片段的長度比較發(fā)現(xiàn), 除了5.8S (158bp)以外, 18S、ITS1、ITS2和28S均存在長度異質(zhì)性: 差異最大在ITS1序列間, 為98bp (407~505bp), 18S相差37bp (1856 ~1893bp), ITS2為24bp (423~447bp) (表2), 28S相差7bp (967~974bp); 長度的差異原因有堿基位點插入/缺失、微衛(wèi)星重復(fù)次數(shù)差異以及長片段的缺失 (圖1)。
表2 長臂纓鲆核糖體RNA基因序列特征信息統(tǒng)計
注: “—”表示此處無數(shù)值。
圖1 長臂纓鲆4個核糖體RNA基因不同序列類型與鲆科4種魚類序列比對
a. 18S序列3種類型, *為類型A, 相較于類型B和類型C序列的特異性差異位點; b. 28S序列2種類型, *為類型A和類型B插缺位點; c. ITS1序列3種序列類型, 灰色底紋表示類型B缺失部分; d. ITS2序列2種序列類型, 下劃線位點為微衛(wèi)星位點。Type_A/B/C—類型A/B/C; A. mac—長冠羊舌鲆; C. azu—青纓鲆; E. gra—大鱗短額鲆; L. gal—冠毛鲆
Fig. 1 Comparison of different types of four ribosomal RNA gene fragments fromwith four species from family Bothidae. a) Three types of 18S rDNA; * showed the indel sites and differential sites among Types A, B and C; b) two types of 28S rDNA; * showed the indel sites in Type A and Type B; c) two types of ITS1 sequences; the grey shadow presents deleted fragments in Type B; d) two types of ITS2 sequences; the loci with underlines were microsatellites. A. mac presentedC. azu presentedE. gra presentedL. gal presented
續(xù)圖1
為了明確各基因片段的序列多態(tài)性特征, 對18S、ITS1、ITS2以及28S序列進(jìn)行了序列比對(圖1)、NJ聚類分析(圖2) 以及重組檢測(圖3), 結(jié)果顯示各基因的序列可以分為不同的序列類型, 并且各基因內(nèi)多態(tài)性特征各具特點 (表2、圖1~3)。
比較18S序列發(fā)現(xiàn), 克隆序列間存在36個位點的缺失和5個特異性差異位點(表2、圖1a)。可以將18S區(qū)分為3種序列類型A、B和C; 經(jīng)重組檢測和人工校對發(fā)現(xiàn), 類型A、B與類型C以及類型A與類型C在不同位置發(fā)生重組產(chǎn)生了4種重組類型R (圖3a)。序列比對發(fā)現(xiàn), 18S序列類型的長度大小為類型B (1892~1893bp)>類型C (1877~1878bp)>類型R (1861~1865bp)>類型A (1856~1858bp) (表2)。
28S序列比對顯示在5個特異性位點分別存在1~3bp的插入/缺失 (圖1b), 據(jù)此將28S區(qū)分為2種序列類型: 類型A (967~968bp) 和類型B (973~974bp); 重組分析發(fā)現(xiàn)有重組類型R (972bp) (圖3b)。
ITS1序列具有明顯的長度差異, 可以分為長序列類型A (500~505bp) 和短序列類型B (407~408bp), 其中類型B存在6處6~30bp的缺失以及11處1~4bp的插入/缺失位點 (表2、圖1c); 重組分析顯示, 類型A與類型B產(chǎn)生3種重組類型R (圖3c)。
圖2 長臂纓鲆18S rDNA(a)、28S rDNA(b)、ITS1(c)以及ITS2(d)序列NJ聚類分析
分支節(jié)點位置數(shù)字為置信值 (≥50%)
Fig. 2 The cluster trees constructed based on 18S rDNA (a), 28S rDNA (b), ITS1 (c), and ITS2 (d) sequences inby neighbor-joining method. Numbers on internal branches indicate support values (≥50%)
ITS2序列具有類型A (439~447bp) 和類型B (423~429bp) 兩種長、短差異類型, 長度差異是由于在不同位點存在1~8bp的插缺, 以及微衛(wèi)星 (CTC)6~8和 (CG)4~5導(dǎo)致的(表2、圖1d); 重組分析顯示無重組類型。
以上分析中, 18S和28S序列類型的區(qū)分依據(jù)序列中位點的插入缺失以及特異性位點的不同, 而ITS1和ITS2序列的不同類型則是由于序列間明顯的長度差異進(jìn)行區(qū)分的。由于核糖體RNA的編碼基因和非編碼的ITS區(qū)序列變異不同, 因此依據(jù)的分型特征也存在差異。
5個片段的堿基組成均表現(xiàn)出明顯的GC偏倚, 均高于50%, 高低的順序為ITS2(71.14%)>ITS1(65.37%)>28S(62.22%)>5.8S(57.67%)>18S(54.95%), 非編碼ITS區(qū)的GC含量均高于核糖體RNA編碼基因 (表2), 這與司李真等(2017)統(tǒng)計鱸形目魚類以及硬骨魚類中核糖體RNA基因GC含量的分布特點相吻合。
長臂纓鲆的18S、ITS1、ITS2以及28S序列表現(xiàn)出序列多態(tài)性特征, 包括長度差異、堿基組成以及位點變異等。依據(jù)目前假基因的推斷特征, 包括具有較短的序列長度、更多的變異位點、更低的GC含量和最小自由能等特點, 對以上4個基因序列的真、假基因進(jìn)行推斷, 同時也進(jìn)一步與鲆科4種近緣魚類的長冠羊舌鲆、青纓鲆、大鱗短額鲆和冠毛鲆的18S、ITS1、ITS2以及28S的真基因類型 (實驗室數(shù)據(jù)) 進(jìn)行了比對分析。
長臂纓鲆中18S具有4種序列類型, 除了類型B具有最高的GC含量和最小自由能, 其他3個類型之間則沒有顯著的差異 (表2), 在進(jìn)一步與鲆科4種近緣魚類18S序列的比對中顯示, 類型A在36個插缺位點和5個特異性堿基差異位點上均與鲆科4種魚類一致, 但類型B和類型C與鲆科4種魚類不同 (圖1a)。比對結(jié)果表明長臂纓鲆18S的類型A與鲆科4種魚類之間具有高度的保守性, 因此, 推測短序列類型A為真基因, 而長序列類型B和類型C為假基因類型, 同時類型R的重組片段中含有來源于類型B和C的部分(圖3a), 因此也推斷為假基因類型。
圖3 長臂纓鲆核糖體RNA基因不同類型序列間發(fā)生重組
a. 18S rDNA的4種重組類型; b. 28S rDNA重組類型; c. ITS1的3種重組類型。類型A用黑色標(biāo)記; 類型B用點標(biāo)記; 類型C用豎線標(biāo)記
Fig. 3 The recombination patterns of ribosomal RNA genes ina) Four recombination types of 18S rDNA; b) one recombination type of 28S rDNA; c) three recombination types of ITS1. Type A was presented by black; Type B was presented by dark dot; Type C was presented by vertical lines
28S序列類型A、B和R在序列長度、GC含量、最小自由能等方面都沒有顯著的差異 (表2), 但與鲆科近緣魚類的28S序列比較的結(jié)果顯示, 類型A與鲆科4種魚類在5個插入/缺失位點上保持一致, 而與類型B不同 (圖1b), 表明類型A與鲆科其他魚類間具有更高的序列相似性。根據(jù)這一比對結(jié)果推測28S的短序列類型A為真基因, 而類型B以及重組類型R為假基因類型。
ITS1序列的3種類型表現(xiàn)出明顯的長度差異, 其中類型A比類型B長出98bp, 而最小自由能也遠(yuǎn)大于類型B (29.6~44.6kcal·mol-1) 和類型R (12.6 ~40.9kcal·mol-1); 其他序列特征在類型間都沒有顯著差異 (表2)。在與鲆科4種魚類序列比對后發(fā)現(xiàn), ITS1序列不同于編碼基因的保守性而表現(xiàn)出較大種間差異 (圖1c), 但從中依然可以發(fā)現(xiàn)類型B存在片段缺失的區(qū)域, 在4種魚類中均無片段缺失。因此推測短序列類型B以及重組類型R為假基因, 類型A是真基因。
ITS2類型間長度差異在10~24bp之間, 由重復(fù)序列或微衛(wèi)星重復(fù)數(shù)導(dǎo)致; 類型A的最小自由能與類型B存在重疊, GC含量略低于類型B, 其他序列特征也沒有明顯的差異 (表2)。在與4種鲆科魚類的序列比對后顯示, ITS2序列在種間也同樣存在較大種間差異, 在類型A和B的差異位點上與4個鲆科魚類均無一致性 (圖1d), 因此, ITS2序列既不能依據(jù)序列多態(tài)特征也不能通過與近緣物種間的保守性來進(jìn)行真、假基因的推斷。
目前, 硬骨魚類以及鰈形目魚類的核糖體RNA基因序列的協(xié)同進(jìn)化以及非協(xié)同進(jìn)化均有報道, 既有個體內(nèi)及種內(nèi)序列間高度一致性的嚴(yán)格的協(xié)同進(jìn)化(龔理等, 2017), 也存在差異顯著的非協(xié)同的進(jìn)化方式(Gong et al, 2016a)。
本研究中, 長臂纓鲆5.8S序列僅存在由單堿基位點突變引起的序列差異, 雖然該基因在5個基因片段中克隆數(shù)目最多, 但在單倍型多樣性、核苷酸多樣性以及平均核苷酸差異數(shù)等方面都表現(xiàn)最為保守, 其不同拷貝之間以協(xié)同進(jìn)化的方式存于長臂纓鲆基因組內(nèi)。
在其他4個基因片段中, 不論是編碼基因還是非編碼的間隔區(qū), 都存在由于位點、片段的插入/缺失以及微衛(wèi)星拷貝數(shù)目差異導(dǎo)致的長度變異; 同時, 在4個片段序列中, 突變位點即包含單堿基位點突變, 也存在簡約信息位點, 均具有較高的單倍型多樣性和核苷酸多樣性, 且可以劃分為不同的序列分型。因此這4種基因與5.8S不同, 遵循非協(xié)同進(jìn)化的方式。
在應(yīng)用目前的判別核糖體RNA真假基因的特征時, 發(fā)現(xiàn)在長臂纓鲆的5個基因片段中, 依據(jù)序列中的位點的插入/缺失特征可初步推斷18S、28S和ITS1序列的假基因, 而其他的特征諸如GC含量、最小自由能以及核苷酸變異程度等特征不能直接作為推斷真、假基因的依據(jù)。
在依據(jù)序列長度進(jìn)行真、假基因判斷時, 目前的標(biāo)準(zhǔn)是相對較短的序列是假基因, 但在本研究的實際應(yīng)用中發(fā)現(xiàn)直接根據(jù)短序列的特征推斷真、假基因是比較困難的, 雖然在這些序列間都存在序列的長、短差異, 甚至在18S和ITS1中分別存在37bp和98bp的差異, 但是其他相對應(yīng)的序列多態(tài)特征并不能明確地支持短序列為假基因, 因此, 單純地依靠序列的缺失就直接推斷片段是假基因并不適用所有基因。
本研究發(fā)現(xiàn)不僅短序列有可能是假基因, 長序列也可以是假基因: ITS1的短序列類型為假基因, 而在18S和28S序列中的假基因則是長序列類型。這一結(jié)果與之前學(xué)者在線紋舌鰨(Gong et al, 2016a)和卡氏大鼻鰨(Gong et al, 2018a)中得到18S短序列類型是真基因、而長序列類型是假基因的結(jié)果相似。因此, 我們建議將現(xiàn)有判別真、假基因序列時依據(jù)的較短序列這一特征改為序列長度的變異特征, 明確較長序列有可能是假基因的現(xiàn)象, 而不能夠簡單地推斷短序列就是假基因。
在其他推斷特征如GC含量、最小自由能方面, 通常認(rèn)為真基因類型會具有更高的GC含量和最小自由能, 如鰈形目中鰈科魚類石鰈的18S (Xu et al, 2009)、舌鰨科魚類黑頰無線鰨的ITS1-5.8S-ITS2 (Gong et al, 2018b) 以及桑給巴爾舌鰨的ITS2序列(Gong et al, 2016b), 都能夠根據(jù)這些評判標(biāo)準(zhǔn)進(jìn)行推斷; 但在有些情況下我們可以發(fā)現(xiàn), 并非完全符合這個評判的標(biāo)準(zhǔn)。首先, GC含量與序列中堿基的組成相關(guān), 序列發(fā)生片段缺失、堿基突變時會對序列的堿基組成產(chǎn)生影響。缺失片段如果為高GC含量片段, 那么將可能導(dǎo)致假基因序列GC含量的下降, 反之序列發(fā)生片段插入(特別是高GC含量的序列插入)則會上升。最小自由能的差異, 一方面與序列的長度相關(guān), 另一方面也與序列的堿基組成相關(guān)。較長的序列長度一般會具有較高的最小自由能; 但如果長度差異較小, 而堿基組成中具有較高GC含量, 也會導(dǎo)致短序列具有較高的最小自由能。
此外, 核苷酸多樣性、平均核苷酸差異數(shù)以及單倍型多樣性等方面在各個片段中的不同變化規(guī)律會受到克隆數(shù)目的影響。由于核糖體RNA基因為多拷貝的基因家族, 目前的方法是隨機(jī)選擇單克隆進(jìn)行測序分析, 還不能完全準(zhǔn)確地將所有可能的變異位點覆蓋, 在將這些特征作為真、假推斷依據(jù)時要考慮克隆數(shù)目這一影響因素。
已有關(guān)于硬骨魚類核糖體RNA基因的報道中, 關(guān)于不同序列類型的重組現(xiàn)象多集中于鰈形目魚類中, 如石鰈ITS1序列(Xu et al, 2009)、褐牙鲆與夏鲆雜交F1代的ITS1序列(龔理等, 2015)、桑給巴爾舌鰨的ITS2序列(Gong et al, 2016b)。體內(nèi)基因的重組可能發(fā)生于減數(shù)分裂時期同源染色體的四分體聯(lián)會時期, 來自父本和母本的非姐妹染色單體發(fā)生交叉互換, 將不同類型的基因型整合到同一條染色體上(龔理等, 2015), 而已有研究認(rèn)為核糖體RNA基因重組的產(chǎn)生除了基因組內(nèi)的正常存在以外, 在PCR擴(kuò)增中也存在假重組現(xiàn)象 (pseudomorphic recombination)。
PCR的假重組現(xiàn)象可能存在兩種產(chǎn)生方式, 分別為PCR反應(yīng)體系中的親本錯配和跳躍PCR (jumping PCR)。親本錯配即PCR反應(yīng)體系中以不同類型的親本序列錯配后作為模板擴(kuò)增產(chǎn)生重組序列, 而這些重組序列的特征是與其親本序列完全一致(Xu et al, 2015); 當(dāng)發(fā)生PCR跳躍時, Taq聚合酶提前終止延伸, 并在產(chǎn)物末端添加一個腺苷 (A), 而在下一輪PCR過程中, 這個添加過A末端的產(chǎn)物能夠充當(dāng)引物進(jìn)行新一輪的擴(kuò)增。如果模板中具有多種類型的核糖體RNA基因序列, 那么這個引物就有可能結(jié)合不同類型的模板, 這樣不同類型的序列就有可能通過跳躍PCR發(fā)生重組, 并且在發(fā)生重組的位點具有重復(fù)A或T這一特征(P?abo et al, 1990; Gong, 2016b)。
在本研究中18S、28S和ITS1的重組子, 不同基因片段的重組位點數(shù)目不同, 依次為4、1和2處位點 (圖3)。通過分析發(fā)生重組位點前后的序列特征及重組的片段相對應(yīng)的來源序列, 可以發(fā)現(xiàn), 這些位點前后均沒有重復(fù)的A或T堿基; 除了28S重組序列與相對應(yīng)的長、短序列類型一致外, 18S和ITS1序列在發(fā)生重組后序列均存在不同程度的變異, 而非完全一致序列, 因此可以推斷本研究中的18S和ITS1重組子并非是由于PCR反應(yīng)體系擴(kuò)增中產(chǎn)生。但是由于28S重組序列與重組來源的序列一致, 雖然可以明確不是跳躍PCR產(chǎn)生的, 但沒有特征可以排除PCR擴(kuò)增過程中存在親本錯配產(chǎn)生的重組可能。
目前, 鰈形目中關(guān)于核糖體RNA基因的研究相對較少, 有研究報道的包括鰈科石鰈的18S-ITS1-5.8S序列(Xu et al, 2009)、舌鰨科魚類線紋舌鰨的18S (Gong et al, 2016a)、黑頰無線鰨的ITS1-5.8S-ITS2序列(Gong et al, 2018b)以及鰨科11種魚類18S-ITS1-5.8S序列(Gong et al, 2018a)。這些研究都只限于部分基因, 而本研究中同時對長臂纓鲆的核糖體RNA基因的5個基因片段進(jìn)行了分析研究。
在以上物種的研究中存在協(xié)同進(jìn)化, 如鰨科的帶紋條鰨、日本條鰨、蛾眉條鰨、角鰨、東方箬鰨和黑點圓鱗鰨6種魚類的18S-ITS1-5.8S序列中均只有單一類型, 而其他5種魚類的不同基因片段中則由于真、假基因的存在而導(dǎo)致非協(xié)同進(jìn)化(Gong et al, 2018a); 而本研究中的長臂纓鲆不同片段的進(jìn)化方式各有不同, 5.8S為協(xié)同進(jìn)化, 其他4個片段則為非協(xié)同進(jìn)化。
在石鰈、線紋舌鰨、卵鰨、塞內(nèi)加爾鰨以及卡式大鼻鰨的18S序列, 纓鱗條鰨的18S-ITS1-5.8S序列, 豹鰨的 ITS1-5.8S序列, 以及桑給巴爾舌鰨ITS2序列中, 假基因均具有較長片段的缺失或者插入, 可通過已有的假基因的推斷特征進(jìn)行判別(Xu et al, 2009; Gong et al, 2016b, 2018a); 而長臂纓鲆不同序列類型間的差異不同于已有研究, 不能依據(jù)已有的推斷標(biāo)準(zhǔn)進(jìn)行假基因的推斷, 而是通過與近緣物種間的真基因序列保守性的比對進(jìn)行判別。這一結(jié)果也為假基因的推斷提供了又一特征依據(jù)。
在桑給巴爾舌鰨ITS2的重組序列中(Gong et al, 2016b), 發(fā)生重組的模板序列間具有較大序列差異特征; 在長臂纓鲆的序列重組中, 僅ITS1序列發(fā)生重組的模板序列與桑給巴爾舌鰨的特征相似, 不同序列類型間差異顯著, 而18S和28S中的重組序列需要依據(jù)位點的插入/缺失特征以及特異性堿基差異位點進(jìn)行區(qū)分, 并無大片段缺失等顯著差異。
比較鰈形目中已研究魚類與長臂纓鲆的核糖體RNA基因, 發(fā)現(xiàn)了長臂纓鲆中不同于其他魚類的序列特征, 也進(jìn)一步反映出核糖體RNA基因在不同魚類中具有豐富的多態(tài)性的特征。
龔理, 徐暉, 李軍, 等, 2015. 褐牙鲆(♀)、夏鲆(♂)及其雜交子一代的ITS1序列特征分析[J]. 中國水產(chǎn)科學(xué), 22(1): 17–23. GONG LI, XU HUI, LI JUN, et al, 2015. Characterization of the first internal transcribed spacer of ribosomal DNA in(♀) and.(♂) hybrids[J]. Journal of Fishery Sciences of China, 22(1): 17–23 (in Chinese with English abstract).
龔理, 2016. 鰨亞目(Soleoidei)魚類核糖體RNA基因序列特征分析及其在系統(tǒng)研究中的適用性[D]. 北京: 中國科學(xué)院大學(xué). GONG LI, 2016. Sequence analyses of the ribosomal RNA gene in Soleoidei and its application in phylogenetic inference[D]. Beijing: University of Chinese Academy of Sciences (in Chinese with English abstract).
龔理, 時偉, 楊敏, 等, 2017. 5種鰨科魚類核糖體ITS1序列比較[J]. 水產(chǎn)學(xué)報, 41(3): 321–329. GONG LI, SHI WEI, YANG MIN, et al, 2017. Comparative analysis of the first internal transcribed spacer of ribosomal DNA in five Soleidae species[J]. Journal of Fisheries of China, 41(3): 321–329 (in Chinese with English abstract).
司李真, 武寶生, 孔曉瑜, 等, 2017. 11種鱸形目魚類的核糖體基因GC含量及其與硬骨魚類的特征比較[J]. 中國水產(chǎn)科學(xué), 24(4): 657–668. SI LIZHEN, WU BAOSHENG, KONG XIAOYU, et al, 2017. Analysis of the GC content of ribosomal genes of 11 species of Perci-formes and comparison with other teleostean fishes[J]. Journal of Fishery Sciences of China, 24(4): 657–668 (in Chinese with English abstract).
áLVAREZ I, WENDEL J F, 2003. Ribosomal ITS sequences and plant phylogenetic inference[J]. Molecular Phylogenetics and Evolution, 29(3): 417–434.
BAILEY C D, CARR T G, HARRIS S A, et al, 2003. Characterization of angiosperm nrDNA polymorphism, paralogy, and pseudogenes[J]. Molecular Phylogenetics and Evolution, 29(3): 435–455.
DABERT M, DASTYCH H, HOHBERG K, et al, 2014. Phylogenetic position of the enigmatic clawless eutardigrade genusDastych, 1983 (Tardigrada), based on 18S and 28S rRNA sequence data from its type species[J]. Molecular Phylogenetics and Evolution, 70: 70–75.
ELDER JR J F, TURNER B J, 1995. Concerted evolution of repetitive DNA sequences in eukaryotes[J]. Quarterly Review of Biology, 70(3): 297–320.
GONG LI, SHI WEI, YANG MIN, et al, 2016a. Long duplication of 18S ribosomal DNA in(Pleuronectiformes: Cynoglossidae): novel molecular evidence for unequal crossing over model[J]. Acta Oceanologica Sinica, 35(12): 38–50.
GONG LI, SHI WEI, YANG MIN, et al, 2016b. Non-concerted evolution in ribosomal ITS2 sequence in(Pleuronectiformes: Cynoglossidae)[J]. Biochemical Systematics and Ecology, 66: 181–187.
GONG LI, SHI WEI, YANG MIN, et al, 2018a. Characterization of 18S-ITS1–5.8S rDNA in eleven species in Soleidae: implications for phylogenetic analysis[J]. Hydrobiologia, 819(1): 161–175.
GONG LI, SHI WEI, YANG MIN, et al, 2018b. Marked intra-genomic variation and pseudogenes in the ITS1–5.8S-ITS2 rDNA of(Pleuronectiformes: Cynoglossidae)[J]. Animal Biology, 68(4): 353–365.
HALL T A, 1999. BioEdit: a user-friendly biological sequence alignment editor and analysis program for Windows 95/98/NT[J]. Nucleic Acids Symposium Series, 41: 95–98.
HILLIS D M, DIXON M T, 1991. Ribosomal DNA: molecular evolution and phylogenetic inference[J]. Quarterly Review of Biology, 66(4): 411–453.
KELLER I, CHINTAUAN-MARQUIER I C, VELTSOS P, et al, 2006. Ribosomal DNA in the grasshopper: Escape from concerted evolution[J]. Genetics, 174(2): 863–874.
KRIEGER J, HETT A K, FUERST P A, et al, 2006. Unusual intraindividual variation of the nuclear 18S rRNA gene is widespread within the acipenseridae[J]. Journal of Heredity, 97(3): 218–225.
KUMAR R, SINGH M, KUSHWAHA B, et al, 2013. Molecular characterization of major and minor rDNA repeats and genetic variability assessment in different species of mahseer found in North India[J]. Gene, 527(1): 248–258.
LARKIN M A, BLACKSHIELDS G, BROWN N P, et al, 2007. Clustal W and clustal X version 2.0[J]. Bioinformatics, 23(21): 2947–2948.
LIAO D, 1999. Concerted evolution: Molecular mechanism and biological implications[J]. American Journal of Human Genetics, 64(1): 24–30.
LIBRADO P, ROZAS J, 2009. DnaSP v5: a software for comprehensive analysis of DNA polymorphism data[J]. Bioinformatics, 25(11): 1451–1452.
MáRQUEZ L M, MILLER D J, MACKENZIE J B, et al, 2003. Pseudogenes contribute to the extreme diversity of nuclear ribosomal DNA in the hard coral[J]. Molecular Biology and Evolution, 20(7): 1077–1086.
MARTIN D P, MURRELL B, GOLDEN M, et al, 2015. RDP4: Detection and analysis of recombination patterns in virus genomes[J]. Virus Evolution, 1(1): vev003.
MEYER A, TODT C, MIKKELSEN N T, et al, 2010. Fast evolving 18S rRNA sequences from Solenogastres (Mollusca) resist standard PCR amplification and give new insights into mollusk substitution rate heterogeneity[J]. BMC Evolutionary Biology, 10: 70.
MIGHELL A J, SMITH N R, ROBINSON P A, et al, 2000. Vertebrate pseudogenes[J]. FEBS Letters, 468(2–3): 109–114.
NELSON J S, 2006. Fishes of the world[M]. 4th ed. New York: John Wiley and Sons Inc.
P??BO S, IRWIN D M, WILSON A C, 1990. DNA damage promotes jumping between templates during enzymatic amplification[J]. Journal of Biological Chemistry, 265(8): 4718–4721.
PéREZ M, VIEITES J M, PRESA P, 2005. ITS1-rDNA-based methodology to identify world-wide hake species of the Genus[J]. Journal of Agricultural and Food Chemistry, 53(13): 5239–5247.
TAMURA K, STECHER G, PETERSON D, et al, 2013. MEGA6: molecular evolutionary genetics analysis version 6.0[J]. Molecular Biology and Evolution, 30(12): 2725–2729.
XIAO LONGQIAN, M?LLER M, ZHU HUA, 2010. High nrDNA ITS polymorphism in the ancient extant seed plant: Incomplete concerted evolution and the origin of pseudogenes[J]. Molecular Phylogenetics and Evolution, 55(1): 168–177.
XIAO LONGQIAN, M?LLER M, 2015. Nuclear ribosomal ITS functional paralogs resolve the phylogenetic relationships of a late-miocene radiation cycad(Cycadaceae)[J]. PLoS One, 10(1): e0117971.
XU JIANPENG, ZHANG QUANQI, XU XIAOFEI, et al, 2009. Intragenomic variability and pseudogenes of ribosomal DNA in Stone flounder[J]. Molecular Phylogenetics and Evolution, 52(1): 157–166.
XU JING, XU YING, YONEZAWA T, et al, 2015. Polymorphism and evolution of ribosomal DNA in tea (, Theaceae)[J]. Molecular Phylogenetics and Evolution, 89: 63–72.
YAO HUI, SONG JINGYUAN, LIU CHANG, et al, 2010. Use of ITS2 region as the universal DNA barcode for plants and animals[J]. PLoS One, 5(10): e13102.
ZURIAGA M A, MAS-COMA S, BARGUES M D, 2015. A nuclear ribosomal DNA pseudogene in triatomines opens a new research field of fundamental and applied implications in Chagas disease[J]. Memórias Do InstitutoOswaldoCruz, 110(3): 353–362.
Analysis of polymorphism characteristics of ribosomal RNA genes in(Pleuronectiformes: Bothidae)
YANG Min1, 2, KONG Xiaoyu1, SHI Wei1, GONG Li1
1. Key Laboratory of Tropical Marine Bio-resources and Ecology, South China Sea Institute of Oceanology, Chinese Academy of Sciences, Guangzhou 510301, China; 2. University of Chinese Academy of Sciences, Beijing 100049, China 3. National Engineering Research Center for Facilitated Marine Aquaculture, Marine Science and Technology College, Zhejiang Ocean University, Zhoushan, 316022, China
To better understand the polymorphism characteristics of ribosomal RNA genes of(Jordan & Starks, 1906) fromBothidae, Pleuronectiformes, a total of 128 clone sequences were obtained, including full-length sequences of 18S, ITS1, 5.8S, and ITS2 and partial fragments of 28S. After sequence alignments, clustering analyses and recombination detection, the results showed that only 5.8S (158 bp) had no length variation, while the other four gene fragments showed high length polymorphism and resulted in several distinct types: 18S (1856-1893 bp) with four types of Types A, B, C, and R; 28S (967-974) and ITS1 (407-505 bp) both had three types of Types A, B and R; ITS2 (423-447 bp) had two types of Types A and B. All five gene fragments showed GC-bias, and ITS2 (71.14%) > ITS1 (65.37%) > 28S (62.22%) > 5.8S (57.67%) > 18S (54.95%). The current characteristics criteria were not sufficient to provide strong evidence for the inference of functional gene or pseudogene of 18S, 28S and ITS sequences. Therefore, comparison with each of corresponding gene fragment of four affinis species from family Bothidae was conducted,,and. The alignment showed that the indels and differential sites of Type A sequences of both 18S and 28S were the similar as those of the four species; and Type A of ITS1, as well as the four species, had no fragment deletion at the missing loci of Type B. Therefore, Type A sequences of 18S, 28S and ITS1 were speculated as functional genes, while the other types were putative pseudogenes. As for ITS2, the divergence loci of Type A and Type B compared to each of the four species had no consistency, and there was no evidence to infer the status of ITS2. In this study, 5.8S rDNA is the most conserved gene, suggesting a concerted evolution, while non-concerted evolution was confirmed in other four genes because of high intra-individual polymorphism.
ribosomal RNA gene;; polymorphism; pseudogene; non-concerted evolution; recombination
2018-04-09;
2018-06-07. Editor: SUN Shujie
National Natural Science Foundation of China (31272273)
P735
A
1009-5470(2019)01-0055-12
10.11978/2018038
2018-04-09;
2018-06-07。孫淑杰編輯
國家自然科學(xué)基金項目(31272273)
楊敏 (1989—), 女, 山東省日照市人, 博士研究生, 從事魚類分類及系統(tǒng)進(jìn)化研究。E–mail: minyang@scsio.ac.cn
孔曉瑜, 研究員。E-mail: xykong@scsio.ac.cn
KONG Xiaoyu. E-mail: xykong@scsio.ac.cn