梁 霞,王慧琪,馬宇璇,宋 磊,吳 超,李亮徽,張國松
(菏澤學院生理生化及應用實驗室,山東 菏澤 274000)
微衛(wèi)星DNA,又稱為簡單重復序列(simple sequence repeats,SSRs),是廣泛存在于真核、原核以及病毒基因組中[1-2]的1~6個堿基串聯重復,隨機分布于基因間區(qū)、基因的內含子區(qū)和編碼區(qū)等區(qū)域. 微衛(wèi)星由高突變性的核心序列和較為保守的側翼序列兩部分組成,具有雜合率高、分布均勻和共顯性遺傳等特點,研究人員通常在微衛(wèi)星側翼序列設計引物對微衛(wèi)星序列進行PCR擴增,以探究物種的遺傳多樣性和篩選功能標記等. 作為優(yōu)良的第二代分子標記技術,微衛(wèi)星已在遺傳圖譜構建[3]、種群遺傳多樣性評估[4-5]以及分子標記輔助育種[6-7]等領域中廣泛應用.
鯉魚(Cyprinuscarpio)屬于鯉形目、鯉科、鯉亞科,廣泛分布于除澳洲和南美洲外的全世界淡水水域,也是我國淡水魚類中品種最多、分布最廣、養(yǎng)殖歷史最悠久、產量最高者之一. 2014年,中國水產科學院聯合多個單位完成了鯉魚全基因組注釋和圖譜繪制,成為了國際上首個完成全面解析的異緣四倍體硬骨魚類基因組圖譜. 研究表明,其基因組大小約為1.69G,含52 610個功能基因,約為已完成基因組測序的硬骨魚類基因數目的兩倍. 重復元件分析表明鯉魚基因組包含了超過31%的轉座元件,顯著超過了目前完成基因組測序的模式魚類(僅少于斑馬魚),揭示了鯉魚較高的基因組復雜度. 細胞遺傳學證據表明,鯉魚在減數分裂過程中其100條染色體形成50個二價體而非25個四價體,進一步證實了鯉魚基因組的異緣四倍體起源特征. 為深入研究鯉魚基因組四倍化特征,科研人員開展了鯉魚(2n=100)和近源模式魚類斑馬魚(2n=50)的比較基因組研究. 結果表明,二者染色體呈現典型的2∶1同源共線關系,與斑馬魚相比,鯉魚基因組獲得了加倍. 該研究首次在全基因組水平證實了鯉魚基因組的四倍化特征和其獨特的全基因組復制事件. 鯉魚全基因組測序和圖譜的完成,標志著鯉科魚類重要經濟性狀的遺傳解析和遺傳選育研究正式進入了基因組時代[8].
目前國內外關于鯉魚微衛(wèi)星方面的研究已有較多報道:如孫效文等[9]利用微衛(wèi)星等多種分子標記對柏氏鯉與黑龍江鯉的雜交子二代的單倍體樣品做基因型分析,構建了初步的鯉魚遺傳連鎖圖譜;趙蘭[10]利用鯉魚微衛(wèi)星標記和SNP標記構建了鯉魚較高密度的遺傳連鎖圖譜以及遺傳-物理整合圖譜;鄭先虎等[11]利用4個鯉魚群體構建了鯉魚的整合圖譜,并根據圖譜比較分析了不同群體生長性狀QTL的分布及變異規(guī)律;吳明林等[12]利用10對微衛(wèi)星標記對長江野鯉和兩種養(yǎng)殖鯉群體進行了遺傳多樣性評估.
傳統(tǒng)開發(fā)SSR標記的方法主要是使用重復探針篩選基因組文庫和小片段陽性克隆測序等來開發(fā)SSR引物[13]. 目前關于鯉魚微衛(wèi)星標記的開發(fā)方法主要集中在磁珠富集法、探針篩庫法及ISSR片段擴增法等[14-16],成功開發(fā)的微衛(wèi)星標記主要應用于鯉魚不同地理群體的遺傳特征評估、分子輔助育種研究及種質資源鑒定等. 然而,這些傳統(tǒng)篩選方法操作困難、耗時低效. 近年來,隨著二代測序技術的迅速發(fā)展,許多物種的基因組相繼公布并得到了極大地開發(fā)和利用,這為在全基因組水平上搜索微衛(wèi)星奠定了基礎. 目前越來越多生物[1,17-19]的全基因組微衛(wèi)星研究已被報道. MISA工具(MicroSatellite identification tool)是近些年用于篩選物種全基因組微衛(wèi)星的一種較為普遍、高效、快捷的微衛(wèi)星搜索軟件,適用于EST序列、文庫核酸序列及基因組測序序列等多種類型材料[20];且具有運行指令簡單、運行耗時短及不需聯網等優(yōu)點,已成為更多物種基因組微衛(wèi)星搜索的首選工具[21-23]. 本研究利用MISA微衛(wèi)星篩選軟件對鯉魚基因組數據庫(NCBI已公布)檢索,針對鯉魚全基因組中的微衛(wèi)星進行搜索并分析其分布規(guī)律. 同時對外顯子區(qū)含有微衛(wèi)星的基因進行GO注釋、富集和KEGG富集分析,來進一步研究微衛(wèi)星在黃顙魚基因序列中的分布特征以及功能定位,這對于今后分析鯉魚全基因組特征、評估不同地理群體遺傳特征以及開發(fā)鯉魚大量高質量微衛(wèi)星標記等具有重要的參考價值.
本文中使用的1.7Gb鯉魚全基因組下載自NCBI Genome數據庫(https://www.ncbi.nlm.nih.gov/),登錄號為GCF_000951615.1.
本研究利用MISA微衛(wèi)星搜索軟件,從鯉魚全基因組中篩選1~6種完整型微衛(wèi)星序列. 搜索標準參考MISA軟件默認參數,即1~6種微衛(wèi)星核心序列最少重復次數分別為10、6、5、5、5和5. 本研究統(tǒng)計原則將所有可循環(huán)的序列及其堿基互補序列歸為同一類別,如ACT重復拷貝類別,可以與之合并為一類的重復拷貝類別是CTA、TAC、TGA、GAT和ATG.
利用鯉魚基因組GFF注釋文件和運行MISA軟件得到的微衛(wèi)星位置信息(misa文件),對全基因組中所有微衛(wèi)星進行定位. 結合本實驗室編寫的Python腳本及使用Blast2 GO軟件[24]進行GO注釋,利用 KOBAS 2. 0在線軟件進行GO富集和KEGG富集分析[25].
利用MISA微衛(wèi)星篩選軟件在1.7Gb鯉魚全基因組中共搜索到837 004個完整型微衛(wèi)星,相對豐度為488個/Mb,微衛(wèi)星總長度為15 513 551 bp,占鯉魚全基因組大小的0.91%,相對密度為9 051 bp/Mb. 1~6堿基重復類型的微衛(wèi)星數目差異較大,其中單堿基重復數目最多,占微衛(wèi)星總數的67.11%;其次分別是二堿基、三堿基、四堿基和五堿基. 其中六堿基類型出現頻率最低,僅有596個微衛(wèi)星,在所有微衛(wèi)星中占比0.07%(圖1和表1).
圖中數字代表該堿基類型在全基因組中的數量,百分比代表該堿基類型在所有微衛(wèi)星中所占比例圖1 鯉魚全基因組中6種微衛(wèi)星類型數量分布Fig.1 Quantitative distribution of six types of microsatellites in the Cyprinus carpio whole genome
表1 鯉魚全基因組中6種微衛(wèi)星重復類型統(tǒng)計分析Table 1 Different types of microsatellite sequences in the Cyprinus carpio genome
除了6種堿基類型微衛(wèi)星在基因組中分布頻率差異顯著外,每種微衛(wèi)星類型中不同堿基類別的分布規(guī)律也有很大差別(表2和表3).
表2 鯉魚微衛(wèi)星中出現頻率最高的10種重復拷貝類別Table 2 The 10 types of repeated copies with the highest frequency of microsatellites in the Cyprinus carpio
表3 不同堿基類型微衛(wèi)星前3種優(yōu)勢類別在鯉魚基因組中的分布Table 3 Distribution of the first three dominant categories of microsatellites of different base types in the Cyprinus carpio genome
在單堿基類別中,A類別(A、T)占有絕對的堿基優(yōu)勢,共搜索到478 415個,占單堿基總數目的 96.57%;相比較而言,C類別(C、G)出現頻率較低,在基因組中僅有17 006個,在單堿基中占比3.43%.
在二堿基四種類別中,AC類別數目最多,共出現122 398個,占二堿基總數目的54.58%;其次分別是AT和AG類別,在二堿基中分別占比28.02%和17.23%;CG類別數目最少,僅占比0.17%.
在三堿基、四堿基和五堿基類別中,也均表現出明顯的A、T堿基優(yōu)勢. 在三堿基中,AAT類別出現頻率最高,共出現48 895次,占比68.85%. 其次分別是AAC和AAG,在三堿基中分別占比12.15%和5.94%. CCG類別出現頻率最低,僅有112個,占比0.16%. 在四堿基中,AAAT為出現頻率最高的類別,占比44.34%,其次分別為ATCT和AAAC. 在五堿基中,AATAT、AAAAT和AAATT為數目最多的前三種類別.
由于六堿基微衛(wèi)星在基因組中出現頻率較低,絕大部分六堿基類別出現次數較少,部分類別甚至缺失. AACCCT為六堿基中數目最多的類別,共有74個,占比12.42%. 其他類別占比均較低.
盡管微衛(wèi)星在鯉魚6種堿基類型中的數目分布和各堿基不同類別數目差異較大,但每種微衛(wèi)星的核心序列拷貝數變化趨勢是一致的. 即1~6種堿基均隨著核心拷貝數的增加,其微衛(wèi)星數目逐漸遞減(圖2).
圖2 鯉魚各堿基類型微衛(wèi)星不同拷貝數分布Fig.2 Distribution of different microsatellite repetitions in Cyprinus carpio
鯉魚基因組中每種微衛(wèi)星核心序列的拷貝數變化范圍較大,從5~4 029拷貝數不等. 但6種微衛(wèi)星核心序列拷貝數均集中在5~40次,占微衛(wèi)星總數的99.44%. 單堿基核心拷貝數主要集中在10~33次,占單堿基微衛(wèi)星總數的99.84%;二堿基核心拷貝數在6種微衛(wèi)星中最為分散,主要集中在6~40次,在二堿基中占比98.22%. 其中最高拷貝數為4 029次,在6種微衛(wèi)星拷貝范圍中拷貝數最大:三堿基、四堿基和五堿基核心拷貝數范圍較窄,分別集中在5~21次、5~25次和5~20次,分別占比99.37%、97.96%和 95.70%. 六堿基核心拷貝數更為集中,主要集中在5~9范圍內,占比88.59%.
通過對鯉魚全基因組中搜索的微衛(wèi)星進行定位,并對微衛(wèi)星定位在編碼區(qū)的基因進行功能注釋. 結果表明,包含60 139個基因注釋的鯉魚基因組中,17 678個基因的外顯子與微衛(wèi)星有重疊. 基因的GO功能注釋主要分為生物學過程、細胞組分和分子功能三大類. 通過對外顯子上包含微衛(wèi)星的17 678個編碼基因進行GO功能注釋,共得1 758個GO條目. 注釋到生物學過程的條目數和編碼基因數均最多,其中注釋條目數共1 120個,占比63.7%,涉及的生物學過程主要包括細胞過程(cellular process)、單組織過程(single-organism process)及代謝過程(metabolic process)等;注釋到細胞組分的條目有416個,占比23.7%,主要包括膜(membrane)、細胞(cell)和細胞成分(cell part)等;222個條目(占比12.6%)注釋到分子功能(molecular function)方面,主要集中在連接(binding)、催化活性(catalytic activity)以及信號傳感器活動(signal transducer activity)等方面,其中注釋到結合活性(binding)功能的基因在所有注釋功能中最多(圖3). GO功能富集最為顯著的條目是代謝過程的調節(jié)(P=8.47E-15)、大分子代謝過程的調控(P=1.24E-14)以及細胞生物合成過程的調控(P=5.55E-14)(表4).
細胞組分:1.膜;2.細胞;3.細胞組分;4.膜組分;5.細胞器;6.大分子復合物;7.細胞器組分;8.細胞外區(qū)域;9.細胞連接;10.膜封閉腔. 分子功能:11.結合活性;12.催化活性;13.信號傳感器活性;14.分子傳感器活性;15.轉運活性;16.核酸結合轉錄因子活性;17.分子功能調節(jié)劑;18.結構分子活性;19.轉錄因子活性;20.翻譯調節(jié)器活性. 生物學過程:21.細胞進程;22.單組織過程;23.代謝過程;24.生物調節(jié);25.生物過程調節(jié);26.刺激應答;27.發(fā)送信號;28.定位;29.細胞組成或生物發(fā)生;30.多細胞生物過程;31.發(fā)展過程;32.生物過程的負調控;33.生物粘附;34.生物過程的正調控;35免疫系統(tǒng)過程.圖3 鯉魚微衛(wèi)星分布于外顯子的基因GO功能注釋Fig.3 The GO function annotation of exon microsatellites in Cyprinus carpio
表4 鯉魚微衛(wèi)星分布于外顯子的基因GO富集Table 4 Gene GO enrichment of the microsatellite distributed in exons from Cyprinus carpio
對微衛(wèi)星分布于外顯子上的基因進行KEGG富集分析,共富集到細胞過程(cellular processes)、環(huán)境信息處理(environmental information processing)、遺傳信息處理(genetic information processing)、代謝(metabolism)和有機系統(tǒng)(organismal systems)五大分支中,包括280條通路. 其中機體系統(tǒng)分支富集到的基因總數最多,共6 520個. 環(huán)境信息處理分支中的鞘脂信號通路(sphingolipid signaling pathway)基因富集最為顯著(P=2.36E-10),PI3K-Akt 信號通路(PI3K-Akt signaling pathway)上富集的基因最多,共有319個. 分布到代謝分支的通路種類最為廣泛,包含113條通路,共富集到1 609個相關基因. 其次是有機系統(tǒng)(81條通路),分布到遺傳信息處理的通路種類和基因總數均最低(22條通路,881個基因)(表5).
表5 鯉魚微衛(wèi)星分布于外顯子的基因KEGG富集Table 5 The KEGG enrichment of exon microsatellites in Cyprinus carpio
本研究以鯉魚全基因組為基礎,利用生物信息學方法對全基因組中的完整型微衛(wèi)星進行了搜索、統(tǒng)計并分析. 在1.7Gb全基因組中共搜索出837 004個完整型微衛(wèi)星,占鯉魚全基因組大小的0.91%,其比例低于已公布的人Homosapiens(3%)[18]、小鼠Musmusculus(2.85%)[26]和大鼠Rattusnorvegicus(1.41%)[27],但與紅鰭東方鲀Takifugurubripes(0.73%)、雙斑東方鲀Takifugubimaculatus(0.84%)、菊黃東方鲀Takifuguflavidus(0.84%)[28]及紅原雞Gallusgallus(0.49%)[29]相比所占比例較高. 可見在鯉魚全基因組中微衛(wèi)星的含量較為豐富. 究其物種間含量差異原因,可能是由于不同物種間基因組大小和基因組內堿基組成及排列方式的差異導致的.
在鯉魚6種完整型微衛(wèi)星中,單堿基微衛(wèi)星分布數目最多,占完整型微衛(wèi)星的59.19%,總長度也最大,在基因組中占比41.43%. 這一現象與已報道的大熊貓Ailuropodamelanoleuca、北極熊Ursusmaritimus[30]、食蟹猴Macacafascicularis[31]等哺乳動物和紅鰭東方鲀、雙斑東方鲀、菊黃東方鲀、黑青斑河鲀Tetraodonnigroviridis[28]等水生動物的優(yōu)勢堿基類型相同.而在中國對蝦Fenneropenaeuschinensis[32]、三疣梭子蟹Portunustrituberculatus[33]和中華鳑鲏Rhodeussinensis[34]等水生動物中均為二堿基占優(yōu)勢. 由此可知,不同物種的優(yōu)勢微衛(wèi)星類型也各不相同. 因而,不同物種的微衛(wèi)星序列既存在基因組間的進化現象,也可能存在著一定的保守現象.
在鯉魚全基因組1~6種微衛(wèi)星類型中,均表現出明顯的A、T堿基優(yōu)勢. 在單堿基類別中,A類別(A/T)微衛(wèi)星數目占比96.57%,跟C類別(3.43%)相比具有明顯的優(yōu)勢. 這種現象同樣存在于人、果蠅Drosophilamelanogaster[35]、食蟹猴[31]、大熊貓和北極熊[30]等絕大部分物種中.
在二堿基類別中,AC類別占有較大的比例,其次是AT和AG. 而在黃顙魚[36]、金錢魚[21]、斑鱧[23]和 4種河鲀[28]等水生動物中二堿基前三類別排序均為AC、AG和AT. 盡管AG和AT在不同物種二堿基中排序不同,但均有AC類別占比較大,AG、AT類別占比相差較小的特征.
AAT、AAC和AAG分別為三堿基中的前三類別,這表明AAN(N代表除A以外的任何堿基)類別在三堿基中具有絕對的堿基優(yōu)勢. 該現象與人[18]等三堿基分布相一致. 研究表明,在6種完整型微衛(wèi)星中,三堿基微衛(wèi)星不同于其他堿基類型,其與生物體的遺傳疾病具有一定的相關性[37]. 而Toth[35]報道在外顯子中,三核苷酸重復在6種堿基類型中總是最豐富的. 因此猜測,伴隨著微衛(wèi)星核心序列拷貝數的隨機波動,有可能會改變鯉魚功能基因的結構,從而影響其相關性狀的表達,引起鯉魚部分遺傳疾病的發(fā)生. 因此對鯉魚三堿基微衛(wèi)星進行定位和研究分析,將有利于對其相關遺傳疾病做出早期的預防與判斷.
在四堿基、五堿基和六堿基類別中,AAAN、AAAAN和AAAAAN(N代表除A以外的任何堿基)的數量較為豐富,這與靈長類和嚙齒類等物種中微衛(wèi)星的研究相一致[35]. AACCCT類別在六堿基中數目最多,在黃顙魚[36]、紅鰭東方鲀等4種河鲀[28]中同樣很豐富,但在其他物種中分布較少. 推測該類別可能在水生生物遺傳進化及環(huán)境適應方面發(fā)揮一定的作用.
鯉魚全基因組微衛(wèi)星分析表明,6種完整型微衛(wèi)星均隨著核心序列拷貝數的增加其微衛(wèi)星的數目逐漸遞減. 這種現象與人[18]、虎皮鸚鵡Melopsittacusundulatus[38]、蝦夷扇貝Patinopectenyessoensis[39]、金錢魚[21]以及4種埃博拉病毒[2]等絕大部分物種全基因組中微衛(wèi)星的拷貝變化規(guī)律相一致. 有關研究表明,當6種微衛(wèi)星核心序列拷貝數達到產生滑動突變的最低閾值時,DNA復制就會出現滑動突變[40]. 此外,對于各類別微衛(wèi)星出現頻率隨核心序列拷貝數變化的規(guī)律性,Wierdl等[41]認為與微衛(wèi)星的穩(wěn)定性和突變率有關. 即隨著微衛(wèi)星長度的增加,其穩(wěn)定性會越低,同時突變率會越高,這使得越長的微衛(wèi)星序列其數目越少.
微衛(wèi)星在基因中的分布對于基因功能的表達非常重要. 在生物體內,不同基因相互協(xié)調行使其生物學功能,通過GO注釋、富集能夠分析目的基因集在基因功能上的集中體現,而KEGG通路顯著性富集能夠確定目標基因集參與的最主要生化代謝途徑和信號轉導途徑. 本研究通過對外顯子上包含微衛(wèi)星的基因進行GO功能注釋、富集和KEGG富集分析,來進一步探究微衛(wèi)星在基因功能方面發(fā)揮的作用. GO注釋分析表明,注釋到細胞組分中的相關基因主要定位于膜、膜組分和細胞組分等;分子功能主要集中在結合活性、催化活性和信號傳感器活性等方面;參與的生物學過程主要與細胞過程、單組織過程和代謝過程等相關. GO富集前十條目均與代謝調節(jié)、生物合成調控以及基因表達調控三個功能方面顯著相關,其中以代謝過程調節(jié)、大分子代謝過程調控和細胞生物合成過程調控富集最為顯著. KEGG共富集到280條通路中,其中環(huán)境信息處理類別中的鞘脂信號通路在所有通路中富集最為顯著,這表明微衛(wèi)星富集的較多基因與信號轉導緊密相關. 綜合KEGG 5個分支的通路富集情況可知,富集的目的基因主要參與了信號轉導通路、代謝通路以及生長相關通路等通路的調節(jié)過程.
基于GO注釋、富集和KEGG富集分析結果推測,定位在基因編碼區(qū)域的微衛(wèi)星功能可能集中表現在參與細胞間信息交流、信號轉導、細胞新陳代謝以及生物合成調控幾個方面. 通過與黃顙魚[36]、綠尾虹雉[42]2個物種基因組中分布在外顯子上的微衛(wèi)星GO注釋、KEGG富集比較發(fā)現,3個物種中GO注釋的基因均與膜組分、信號轉導、結合活性以及代謝過程功能緊密相關,KEGG富集的通路也都集中在信號轉導通路和代謝通路方面. 因此猜測不同物種中定位在基因編碼區(qū)域上的微衛(wèi)星可能在參與信號轉導、細胞代謝等過程方面發(fā)揮一定的功能.
盡管關于鯉魚微衛(wèi)星開發(fā)及應用的報道已有很多,但可有效利用的微衛(wèi)星標記仍相對較少,目前還不能夠滿足鯉魚以及鯉科魚類遺傳育種相關的大量研究. 本研究利用生物信息學軟件,在鯉魚全基因組內對微衛(wèi)星進行搜索分析,并對處于基因編碼區(qū)域的微衛(wèi)星進行了功能探究,這為鯉魚后續(xù)的基因組分析、種群遺傳信息評估、品系親緣關系鑒定以及種群良種選育等提供了數據支持.