邱忠營(yíng),黃 原,茹凝玉,崔媛媛
(1.西安醫(yī)學(xué)院基礎(chǔ)醫(yī)學(xué)部,陜西西安 710021;2.陜西師范大學(xué)生命科學(xué)學(xué)院,陜西西安 710062)
昆蟲線粒體基因組是長(zhǎng)度約15 kb 的環(huán)狀雙鏈共價(jià)閉合分子,具有結(jié)構(gòu)簡(jiǎn)單、基因重排少及基因進(jìn)化速率快等特點(diǎn)[1],是分子系統(tǒng)發(fā)生學(xué)、物種鑒定、譜系地理學(xué)以及種群遺傳結(jié)構(gòu)領(lǐng)域等重要的分子標(biāo)記[2-4]。隨著高通量測(cè)序技術(shù)的發(fā)展,測(cè)序時(shí)間大大縮短,線粒體基因組數(shù)據(jù)增長(zhǎng)速度很快。截至2020年7月,NCBI數(shù)據(jù)庫公布的直翅目(Orthoptera)昆蟲線粒體基因組序列有218 個(gè),蝗亞目(Locustodea)138 個(gè),螽亞目(Ensifera)80 個(gè),但關(guān)于橄蝗屬(Tagasta)昆蟲未見報(bào)道。直翅目昆蟲的線粒體基因組由37 個(gè)基因組成,包括13 個(gè)蛋白編碼基因(PCGs)、22 個(gè)轉(zhuǎn)運(yùn)RNA(tRNAs)、2 個(gè)核糖體RNA(rRNAs)和非編碼區(qū),也稱為A + T 富集區(qū)或控制區(qū)。印度橄蝗(Tagasta indica)隸屬于橄蝗屬,橄蝗亞科(Tagastinae),瘤錐蝗科(Chrotogonidae),蝗總科(Acridoidea),直翅目。在中國(guó),印度橄蝗主要分布在福建、廣東和廣西等地,國(guó)外分布在印度和泰國(guó)等地。從形態(tài)上看,瘤錐蝗科的頭型與錐頭蝗科(Pyrgomorphidae)基本一致,均為錐型,體型也均呈紡錘形;兩者的不同之處主要在于瘤錐蝗科昆蟲的觸角為絲狀,錐頭蝗科昆蟲的觸角為劍狀。根據(jù)22個(gè)形態(tài)學(xué)性狀,無法區(qū)分瘤錐蝗科和錐頭蝗科,許升全等[5]建議將二者合為一個(gè)科;劉殿鋒等[6]應(yīng)用18S rDNA 序列構(gòu)建蝗總科系統(tǒng)發(fā)生關(guān)系,也認(rèn)為將瘤錐蝗科和錐頭蝗科合為一個(gè)科較合適。目前,關(guān)于直翅目昆蟲系統(tǒng)發(fā)生關(guān)系的研究已有很多[2-4,7-8],但涉及的瘤錐蝗科昆蟲較少,僅有4 條全線粒體基因組序列被測(cè)出。為更好地確定瘤錐蝗科與錐頭蝗科的分類地位及系統(tǒng)發(fā)生關(guān)系,本研究測(cè)定了瘤錐蝗科印度橄蝗的全線粒體基因組,并初步構(gòu)建了蝗總科的系統(tǒng)進(jìn)化樹,為瘤錐蝗科的分類地位和系統(tǒng)發(fā)生關(guān)系提供數(shù)據(jù)支持和分子證據(jù)。
印度橄蝗標(biāo)本于2009年9月17日采自廣西桂林三里店(110°32’E,25°27’N),現(xiàn)保存于陜西師范大學(xué)分子進(jìn)化生物學(xué)實(shí)驗(yàn)室。取單頭蟲后足股節(jié)肌肉,采用DNA 提取試劑盒(QIAGEN 公司生產(chǎn))提取總DNA。測(cè)序策略是將整個(gè)線粒體基因組分成2個(gè)大片段,以此為模板,參考通用引物序列[9-10],以長(zhǎng)PCR 產(chǎn)物為模板,擴(kuò)增500 ~1 000 bp 長(zhǎng)度片段,最終擴(kuò)增出覆蓋線粒體基因組全長(zhǎng)的序列;短的PCR片段直接送華大科技測(cè)序公司測(cè)序。
應(yīng)用拼接軟件Standen package對(duì)測(cè)序所得序列進(jìn)行拼接,序列注釋應(yīng)用Geneious 9.1.2 軟件[11]完成。應(yīng)用在線軟件tRNAscan-SE(http://lowelab.ucsc.edu/tRNAscan-SE/)[11]進(jìn)行tRNA 基因的預(yù)測(cè)。以短額負(fù)蝗(Atractomorpha sinensis)線粒體基因組為參考基因組進(jìn)行序列比對(duì),確定蛋白編碼基因和核糖體rRNAs的基因位置。
選取包括印度橄蝗在內(nèi)的蝗總科的20 個(gè)物種及1 個(gè)外群物種摩門螽斯(Anabrus simplex)共21 個(gè)物種的線粒體基因組序列,構(gòu)建系統(tǒng)發(fā)生樹。所選物種的GenBank 序列號(hào)及分類信息見表1。應(yīng)用Geneious 9.1.2 軟件對(duì)21 個(gè)物種線粒體基因組序列的13 個(gè)PCGs 及2 個(gè)rRNAs 進(jìn)行提取和比對(duì)[12]。應(yīng)用軟件SequenceMatrix 1.7.8將單個(gè)基因比對(duì)結(jié)果連接成1 個(gè)聯(lián)合數(shù)據(jù)集,并利用MrBayes 3.1.2 軟件構(gòu)建貝葉斯(BI)樹[13]。
表1 系統(tǒng)發(fā)育分析中線粒體基因組的分類信息Tab.1 Taxonomic information of mitochondrial genomes for phylogenetic analysis
續(xù)表1 Continued
試劑盒提取的DNA 中包括核DNA 和線粒體DNA,由于線粒體DNA所占比例較小,本研究通過2對(duì)直翅目昆蟲線粒體基因組通用引物擴(kuò)增出覆蓋線粒體基因組序列全長(zhǎng)的片段,再以此長(zhǎng)片段為模板,擴(kuò)增出500 ~1 000 bp 長(zhǎng)度的片段進(jìn)行測(cè)序,并應(yīng)用軟件Standen Package 進(jìn)行組裝,去除兩端冗余序列,獲得線粒體基因組全長(zhǎng)序列。
印度橄蝗線粒體基因組全長(zhǎng)序列15 531 bp(GenBank 登陸號(hào):MK080200),共編碼37 個(gè)基因,包 括13 個(gè)PCGs(atp6, atp8,cox1-3,cytb,nad1-6,nad4l)、2個(gè)rRNAs(rrnS和rrnL)和22個(gè)tRNAs,以及1 個(gè)控制區(qū)(control region,CR)(圖1)。其中,N 鏈編碼14 個(gè)基因(4 個(gè)PCGs、8 個(gè)tRNAs 和2 個(gè)rRNAs),J鏈編碼剩余基因(9 個(gè)PCGs 和14 個(gè)tRNAs)。印度橄蝗線粒體基因組結(jié)構(gòu)緊湊,基因間隔區(qū)長(zhǎng)度為0~30 bp,沒有基因缺失;基因排列順序與蝗亞目昆蟲線粒體基因典型排列順序相同,沒有基因重排現(xiàn)象(表2)。
圖1 印度橄蝗線粒體全基因組結(jié)構(gòu)Fig.1 Structure of T.indica mitochondrial genome
表2 印度橄蝗線粒體全基因組Tab.2 Organization of T.indica mitochondrial genome
續(xù)表2 Continued
2.2.1 蛋白編碼基因和核苷酸組成
印度橄蝗線粒體基因組全序列堿基組成為A(42.3%)、T(31.1%)、C(16.0%)和G(10.6%),AT含量(73.4%)明顯大于CG 含量(26.6%),存在明顯的AT 偏斜,與其他直翅目昆蟲堿基組成類似(表3)?;蚪M中,rRNAs、tRNAs、PCGs 和AT 富集區(qū)的AT 含量分別為75.7%、75.4%、72.4%和81.0%,存在明顯的AT-skew。從核苷酸組成密碼子偏好性上,蛋白編碼基因密碼子第3 位點(diǎn)的AT 含量最高(82.0%),其次是蛋白編碼基因密碼子第1 位點(diǎn)(69%.0),蛋白編碼基因密碼子第2 位點(diǎn)最低(66.2%)。AT 偏向性最顯著的是蛋白編碼基因密碼子第2 位點(diǎn),AT-skew 值為-0.39(T 含量遠(yuǎn)大于A)。
表3 印度橄蝗線粒體基因核苷酸組成Tab.3 Nucleotide composition of T.indica mitochondrial genome
印度橄蝗線粒體基因排列相對(duì)緊密,存在少量的基因重疊和間隔區(qū)。在線粒體基因組的37 個(gè)基因中,有11 處重疊,其中兩處存在于蛋白編碼基因間,分別是nad4L/nad4(7 bp)和atp8/atp6(7 bp),其余9 處存在于tRNA 與蛋白編碼基因組和tRNA 之間?;蜷g隔區(qū)有15處,長(zhǎng)度為1 ~31 bp,其中trn-SUCN(Ser)和nad1基因間隔區(qū)最長(zhǎng)(31 bp),剩余9 個(gè)基因緊密相連。
13個(gè)蛋白編碼基因中,起始密碼子有3個(gè)蛋白編碼基因?yàn)榉菢?biāo)準(zhǔn)起始密碼子,分別是nad2為GTG、cox1為ACT及nad6為TTG;其余10個(gè)蛋白編碼基因均為標(biāo)準(zhǔn)的ATN。終止密碼子中,除nad4和cox3分別為TAG和TA外,其余均為TAA。不完整的終止密碼子普遍存在于直翅目昆蟲的mtDNA 中,研究表明終止密碼子受選擇壓力小,縮短的終止密碼子可通過轉(zhuǎn)錄后多腺苷酸化補(bǔ)充[31]。印度橄蝗的13個(gè)蛋白編碼基因密碼子有3 716個(gè),使用頻率最高的密碼子為UUA,n(RSCU)值為312(3.54),使用頻率最低的是UGC和CGG,僅3次(圖2)。在編碼的3 716個(gè)氨基酸中,使用頻率最高的為L(zhǎng)eu,占所有氨基酸的14.24%。
圖2 印度橄蝗全線粒體基因組蛋白編碼基因密碼子使用情況Fig.2 Codon usage of all PCGs in T.indica mitochondrial genome
2.2.2 RNA和控制區(qū)
通過tRNAScan-SE軟件預(yù)測(cè)印度橄蝗粒體基因組tRNAs的位置和二級(jí)結(jié)構(gòu),未預(yù)測(cè)出的tRNAs通過與近緣物種序列比對(duì)確定位置。印度橄蝗線粒體基因包括22個(gè)tRNAs,長(zhǎng)度為64 ~72 bp;trnSAGN二氫尿嘧啶臂缺失,二級(jí)結(jié)構(gòu)不是典型的三葉草結(jié)構(gòu);其余21個(gè)tRNAs的二級(jí)結(jié)構(gòu)均形成典型的三葉草結(jié)構(gòu)[32]。三葉草結(jié)構(gòu)包含4個(gè)臂,上方為氨基酸接受臂,下方為反密碼子臂,左邊為雙氫尿嘧啶臂(DHU),右方為T&C環(huán)(圖3)。22個(gè)tRNAs在折疊過程中,共存在23處錯(cuò)配,其中G-U 錯(cuò)配20 處;A-G 錯(cuò)配1 處,位于trnW的氨基酸接受臂上;U-U 錯(cuò)配2 處,分別位于trnC的DHU臂和trnH的反密碼子臂上。印度橄蝗線粒體基因組含有rrnL和rrnS,分別位于trnLCUN和trnV之間以及trnV和控制區(qū)之間。rrnS長(zhǎng)度為793 bp,rrnL長(zhǎng)度為1 308 bp。線粒體基因組的控制區(qū)介于rrnS與trnI基因之間,長(zhǎng)度731 bp,A + T 含量高達(dá)81%,高于PCGs、rRNAs和tRNAs區(qū)域的A+T含量。
直翅目昆蟲線粒體基因組為環(huán)狀雙鏈閉合結(jié)構(gòu),一般在15 kb左右,包含37個(gè)基因。印度橄蝗線粒體基因組全長(zhǎng)15 531 bp,介于已報(bào)道的直翅目昆蟲線粒體基因組長(zhǎng)度范圍內(nèi)(13 ~18 kb)[33]。
直翅目昆蟲的線粒體蛋白編碼基因中,幾乎都以ATN為標(biāo)準(zhǔn)起始密碼子,但有個(gè)別基因起始密碼子會(huì)出現(xiàn)非標(biāo)準(zhǔn)情況,尤以cox1起始密碼子變化較多(CCG、AAA、CAA、TTA、ACG、ATT和CTA等)[34],還有四聯(lián)密碼子ATGA、ATAA 和GTGA 等都是可能的cox1起始密碼子[35]。這些非正常起始密碼子可轉(zhuǎn)錄后經(jīng)過RNA 編輯轉(zhuǎn)換成正常的密碼子,從而完成翻譯。印度橄蝗的線粒體蛋白編碼基因中nad2、cox1和nad6基因均為非標(biāo)準(zhǔn)起始密碼子,分別為GTG、ACT和TTG;其余均為標(biāo)準(zhǔn)起始密碼子ATN。
圖3 印度橄蝗線粒體基因組tRNAs的二級(jí)結(jié)構(gòu)Fig.3 Secondary structure of tRNAs in T.indica mitochondrial genome
直翅目昆蟲線粒體蛋白編碼基因的終止密碼子較為一致,大多數(shù)蛋白編碼基因以TAA 或TAG 為完整終止密碼子,少數(shù)基因以T或TA 為不完整終止密碼子。印度橄蝗的線粒體蛋白編碼基因中,除cox3的終止密碼子為TA終止密碼子外,其他蛋白編碼基因的終止密碼子均為TAA 或TAG。RNA 加工過程中添加polyA尾巴可將不完整T或TA轉(zhuǎn)變?yōu)橥暾慕K止密碼子。
目前已測(cè)出的直翅目昆蟲線粒體基因組編碼的22 個(gè)tRNAs 中,大部分的trnSAGN為不完整的三葉草結(jié)構(gòu),缺少DHU 臂;其余21 個(gè)tRNAs 可折疊形成典型的三葉草結(jié)構(gòu)。tRNA形成三葉草結(jié)構(gòu)時(shí),會(huì)發(fā)生錯(cuò)配,大部分錯(cuò)配為G-U 錯(cuò)配,也有少量的A-A、A-G、C-A 或U-U 錯(cuò)配等,這些錯(cuò)配通過編輯可以校正過來,不會(huì)影響轉(zhuǎn)運(yùn)功能[36]。印度橄蝗的線粒體中,22個(gè)tRNAs的二級(jí)結(jié)構(gòu)都較保守,除trnSAGN缺少DHU 臂外,其余均為典型的三葉草結(jié)構(gòu);錯(cuò)配方式主要為G-U錯(cuò)配。
核糖體RNA 有rrnL和rrnS,其二級(jí)結(jié)構(gòu)較為保守,分為莖區(qū)和環(huán)區(qū)。核糖體rrnL二級(jí)結(jié)構(gòu)包含6個(gè)結(jié)構(gòu)(I,II,III,IV,V 和VI)。結(jié)構(gòu)區(qū)III 缺失,結(jié)構(gòu)區(qū)IV 和V 高度保守,其他結(jié)構(gòu)部分變化較大。核糖體rrnS二級(jí)結(jié)構(gòu)有4 個(gè)結(jié)構(gòu),變化較大的是結(jié)構(gòu)一和結(jié)構(gòu)二,相對(duì)保守的是結(jié)構(gòu)三和結(jié)構(gòu)四。
有中國(guó)學(xué)者將蝗總科分成9個(gè)科,其中8個(gè)科在中國(guó)分布,分別為斑腿蝗科(Catantopidae)、斑翅蝗科(Oedipodidae)、網(wǎng)翅蝗科(Arcypteridae)、劍角蝗科(Acrididae)、癩蝗科(Pamphagidae)、槌角蝗科(Gomphoceridea)、瘤錐蝗科和錐頭蝗科。在直翅目昆蟲分類地位上,中國(guó)與國(guó)外的分類系統(tǒng)區(qū)別較大。Otte分類系統(tǒng)中將蝗總科分為11科,確立了瘤蝗科(Dericorythidae)和Lithidiidae。本研究選取摩門螽斯作為外群,與測(cè)得的印度橄蝗和Genbank已公布的蝗總科19 個(gè)物種的全線粒體基因組中的13 個(gè)蛋白編碼基因和2個(gè)核糖體RNA基因構(gòu)建貝葉斯樹(圖4),結(jié)果顯示蝗總科內(nèi)部分支進(jìn)化關(guān)系中,四川鄉(xiāng)城湄公蝗(Mekongiana xiangchengensis)和印度橄蝗聚為一支形成姐妹群,金瀾滄蝗(Mekongiell akingdoni)和西藏瀾滄蝗(M.xizangensis)聚為一支形成姐妹群,之后這4個(gè)物種再聚為一支共同構(gòu)成了瘤錐蝗科,支持瘤錐蝗科的單系性;錐頭蝗科只有1 個(gè)物種短額負(fù)蝗(Atractomorpha sinensis),與瘤錐蝗科的4個(gè)物種最先聚在一起,提示瘤錐蝗科和錐頭蝗科親緣關(guān)系較近。本研究中,瘤錐蝗科與錐頭蝗科的系統(tǒng)發(fā)生關(guān)系與常會(huì)會(huì)等[37]用線粒體基因組蛋白編碼基因構(gòu)建的系統(tǒng)樹一致;白潔等[38]應(yīng)用80 種直翅目昆蟲的線粒體nad2基因構(gòu)建系統(tǒng)發(fā)育樹,認(rèn)為瘤錐蝗科和錐頭蝗科親緣關(guān)系較近;印紅等[39]應(yīng)用18S rDNA 構(gòu)建蝗總科系統(tǒng)發(fā)生關(guān)系,也支持瘤錐蝗科和錐頭蝗科親緣關(guān)系較近的結(jié)論,其位于蝗總科的基部,是蝗總科最原始的類群。由于錐頭蝗科物種只有短額負(fù)蝗1種,錐頭蝗科物種是否具有單系性還需增加物種進(jìn)行確認(rèn)。本研究測(cè)定的印度橄蝗共有4種瘤錐蝗科物種線粒體基因組序列,數(shù)據(jù)稍顯單薄,瘤錐蝗科和錐頭蝗科分類地位的進(jìn)一步確認(rèn)還需增加物種。
圖4 基于PCGs+rRNAs數(shù)據(jù)集的蝗總科貝葉斯系統(tǒng)樹Fig.4 BI phylogenetic tree of Acridoidea based on mitochondrial PCGs and rRNAs concatenated data set