鄭乾明,王小柯,馬玉華
(貴州省農(nóng)業(yè)科學(xué)院果樹(shù)科學(xué)研究所, 貴陽(yáng) 550006)
【研究意義】紅肉火龍果(Hylocereuspolyrhizus)是仙人掌科(Cactaceae)量天尺屬(Hylocereus)多年生果樹(shù)作物,其葉退化為短刺,肉質(zhì)莖是主要的源器官。植株具有耐旱的生理特點(diǎn),已成為貴州喀斯特石漠化地區(qū)的特色經(jīng)濟(jì)作物。紅肉火龍果果實(shí)含有豐富的可溶性糖、有機(jī)酸、維生素C、類黃酮和甜菜苷色素等風(fēng)味物質(zhì)和營(yíng)養(yǎng)成分,深受消費(fèi)者喜愛(ài)[1-6]。果實(shí)中積累的風(fēng)味物質(zhì)和營(yíng)養(yǎng)成分均來(lái)自于源器官的光合作用合成,蔗糖作為最主要的光合產(chǎn)物,經(jīng)維管束韌皮部運(yùn)輸至果實(shí)中參與代謝和貯存[7]。研究紅肉火龍果植株源器官(成熟莖)的轉(zhuǎn)錄組模式,分離光合作用等重要代謝途徑的關(guān)鍵基因,有利于闡明紅肉火龍果植株蔗糖合成的分子機(jī)制,對(duì)改良果實(shí)品質(zhì),提高果實(shí)商品價(jià)值具有重要意義?!厩叭搜芯窟M(jìn)展】紅肉火龍果是近年發(fā)展的新興水果,目前尚無(wú)基因組序列發(fā)布。當(dāng)前僅有基于Illumina平臺(tái)的第二代轉(zhuǎn)錄組測(cè)序,對(duì)其果實(shí)或根開(kāi)展系列測(cè)序和研究。例如,對(duì)紅肉和白肉火龍果果實(shí)發(fā)育多個(gè)時(shí)期的轉(zhuǎn)錄組測(cè)序和比較,獲得若干參與甜菜苷色素合成的基因[8],以及1個(gè)潛在的候選MYB轉(zhuǎn)錄因子[9];對(duì)紅肉火龍果根系在鹽脅迫下的轉(zhuǎn)錄組測(cè)序分析,獲得一系列上調(diào)和下調(diào)的差異表達(dá)基因[10]。針對(duì)紅肉火龍果成熟果實(shí)與成熟莖的轉(zhuǎn)錄組測(cè)序分析,獲得79 658個(gè)Unigene,平均長(zhǎng)度為690 bp,約44.11%的轉(zhuǎn)錄本在公共數(shù)據(jù)庫(kù)中注釋[11]。同時(shí),還獲得若干在成熟莖中表達(dá),參與蔗糖代謝和轉(zhuǎn)運(yùn)的Unigene,但均未獲得基因全長(zhǎng)。因此,目前針對(duì)紅肉火龍果的轉(zhuǎn)錄組測(cè)序數(shù)據(jù)較少,僅有的轉(zhuǎn)錄組數(shù)據(jù)均由Illumina平臺(tái)的第二代測(cè)序獲得,其序列長(zhǎng)度較短,難以獲得目標(biāo)基因的全長(zhǎng)序列。近年來(lái),由Pacific Biosciences公司開(kāi)發(fā)的PacBio測(cè)序是應(yīng)用較為廣泛的第3代測(cè)序平臺(tái)。在此基礎(chǔ)上發(fā)展起來(lái)的全長(zhǎng)轉(zhuǎn)錄組測(cè)序,具有長(zhǎng)讀長(zhǎng),無(wú)PCR擴(kuò)增,無(wú)需拼接,較高的隨機(jī)錯(cuò)誤率等特點(diǎn)[12]。目前全長(zhǎng)轉(zhuǎn)錄組測(cè)序主要用于構(gòu)建全長(zhǎng)轉(zhuǎn)錄組數(shù)據(jù)庫(kù)、轉(zhuǎn)錄本可變剪接分析、轉(zhuǎn)錄本結(jié)構(gòu)研究和完善基因注釋等[13]。【本研究切入點(diǎn)】提取紅肉火龍果成熟莖的總RNA,進(jìn)行基于PacBio Sequel平臺(tái)的全長(zhǎng)轉(zhuǎn)錄組測(cè)序,獲得全長(zhǎng)轉(zhuǎn)錄組數(shù)據(jù)庫(kù)。【擬解決的關(guān)鍵問(wèn)題】獲得紅肉火龍果成熟莖的全長(zhǎng)轉(zhuǎn)錄組序列,根據(jù)功能注釋和分類結(jié)果篩選參與蔗糖合成和降解等重要代謝途徑的候選功能基因,為后續(xù)開(kāi)展基因功能研究奠定基礎(chǔ)。
于2018年11—12月,在貴州省鎮(zhèn)寧縣的火龍果種植園,選擇紅肉火龍果品種“紫紅龍”。在成年結(jié)果植株上選取生長(zhǎng)良好、無(wú)病蟲(chóng)害的健壯成熟莖,剪下后立即置于冰盒帶回實(shí)驗(yàn)室。用無(wú)水乙醇擦凈后晾干,然后切取莖組織液氮中速凍,置于-80 ℃保存?zhèn)溆谩?/p>
利用Trizol試劑提取成熟莖組織的總RNA,使用瓊脂糖凝膠電泳、紫外光分光光度計(jì)和Bioanalyszer 2100(Agilent Technologies)檢測(cè)其質(zhì)量與濃度。
后續(xù)文庫(kù)構(gòu)建、測(cè)序和數(shù)據(jù)分析委托安諾優(yōu)達(dá)基因科技有限公司開(kāi)展。首先富集含有Poly A的mRNA,反轉(zhuǎn)錄合成第一鏈cDNA,然后PCR擴(kuò)增合成cDNA。構(gòu)建SMRTbell文庫(kù)并進(jìn)行損傷修復(fù)和末端修復(fù),片段兩端連接測(cè)序接頭,形成具有莖環(huán)結(jié)構(gòu)的插入片段測(cè)序文庫(kù)。利用PacBio Sequel(Pacific Biosciences)測(cè)序儀測(cè)序,獲得原始數(shù)據(jù)。
原始數(shù)據(jù)過(guò)濾獲得Polymerase reads,去除接頭序列后獲得Subreads并進(jìn)行質(zhì)控,獲得高質(zhì)量的插入片段序列。對(duì)來(lái)源于同一條Polymerase read的Subreads片段進(jìn)行合并和糾錯(cuò),獲得環(huán)狀一致性序列(Circular Consensus Sequencing,CCS)。分析CCS序列,根據(jù)是否含有完整接頭和poly A序列篩選獲得全長(zhǎng)非嵌合體(Full-length no chimera,F(xiàn)LNC)序列。使用ICA(isoform-level clustering algorithm)算法,對(duì)FLNC進(jìn)行相同結(jié)構(gòu)間的自我聚類和糾錯(cuò),產(chǎn)生去冗余Consensus序列。將未測(cè)完整的插入片段序列比對(duì)到Consensus序列進(jìn)行糾錯(cuò),獲得準(zhǔn)確度大于99%的高質(zhì)量轉(zhuǎn)錄本。使用Blastn和Blastx程序在NCBI非冗余核酸和蛋白質(zhì)數(shù)據(jù)庫(kù)進(jìn)行檢索注釋。
利用Trans Decoder Release v3.0.1鑒定轉(zhuǎn)錄本序列中的編碼序列(Coding sequence,CDS)。對(duì)獲得的高質(zhì)量轉(zhuǎn)錄本序列,在NCBI核酸數(shù)據(jù)庫(kù)(Nucleotide Sequence Database,NT)、NCBI非冗余蛋白數(shù)據(jù)庫(kù)(Non-Redundant Protein Database,NR)、蛋白質(zhì)真核直系同源簇?cái)?shù)據(jù)庫(kù)(Eukaryotic Orthologous Groups,KOG)、基因本體論數(shù)據(jù)庫(kù)(Gene Ontology,GO)、蛋白質(zhì)家族域數(shù)據(jù)庫(kù)(Protein Families Database,Pfam)、KEGG(Kyoto Encyclopedia of Genes and Genomes)數(shù)據(jù)庫(kù)進(jìn)行基因功能注釋。通過(guò)與植物轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)(Plant Transcription Factor Database,Plant TFDB)比對(duì)查找轉(zhuǎn)錄因子。序列一致性計(jì)算使用DNAStar軟件的MegAlign程序,序列拼接使用BioEdit軟件。
從表1看出,通過(guò)PacBio Sequel測(cè)序,獲得聚合酶Reads數(shù)量740 069條,堿基數(shù)量為15.8 Gb。聚合酶Reads平均長(zhǎng)度為21 366 bp,N50長(zhǎng)度為42 865 bp。過(guò)濾后獲得插入片段(Subreads)數(shù)量共8 483 057條,堿基數(shù)據(jù)量為15.1 Gb。其平均長(zhǎng)度為1775 bp,N50長(zhǎng)度為2200 bp。將來(lái)源于同一環(huán)狀分子的Subreads聚類,獲得環(huán)狀一致序列(CCS)序列共計(jì)481 124條,其堿基數(shù)據(jù)量為1.1 Gb。CCS平均長(zhǎng)度為2378 bp,N50長(zhǎng)度為2623 bp,平均測(cè)序次數(shù)為13.87次。
表1 紅肉火龍果成熟莖的全長(zhǎng)轉(zhuǎn)錄組測(cè)序結(jié)果
進(jìn)一步篩選獲得全長(zhǎng)非嵌合體(FLNC)數(shù)量為333 226條,堿基數(shù)據(jù)量為0.7 Gb,平均長(zhǎng)度為2071 bp,N50長(zhǎng)度為2250 bp。將來(lái)源于同一轉(zhuǎn)錄本的FLNC聚類獲得Consensus序列,并將非全長(zhǎng)序列對(duì)Consensus序列校正和去冗余,獲得轉(zhuǎn)錄本30 973條。大部分轉(zhuǎn)錄本長(zhǎng)度分布于1.8 kb,平均長(zhǎng)度為1846 bp(圖1)。其中準(zhǔn)確度大于99%的高質(zhì)量轉(zhuǎn)錄本數(shù)量為30 313條,平均長(zhǎng)度為1829 bp。
圖1 紅肉火龍果成熟莖的全長(zhǎng)轉(zhuǎn)錄組獲得的轉(zhuǎn)錄本長(zhǎng)度分布
從表2可知,對(duì)30 313條高質(zhì)量轉(zhuǎn)錄本進(jìn)行CDS預(yù)測(cè),獲得CDS數(shù)量為40 255條。其長(zhǎng)度最短為297 bp,最長(zhǎng)為5202 bp,平均長(zhǎng)度為926 bp,N50長(zhǎng)度為1179 bp。統(tǒng)計(jì)其長(zhǎng)度分布表明,CDS長(zhǎng)度在200~600 bp的數(shù)量為14 372條,占35.70%;長(zhǎng)度在800~1200 bp的數(shù)量為15 253條,占37.89%;長(zhǎng)度為1200~2000 bp的數(shù)量有8456條,占21.01%;長(zhǎng)度大于2000 bp 的數(shù)量為2172條,占5.40%。
表2 預(yù)測(cè)CDS的數(shù)量或長(zhǎng)度分布
從表3看出,將30 313條高質(zhì)量轉(zhuǎn)錄本在公共數(shù)據(jù)庫(kù)中進(jìn)行序列注釋,共計(jì)有13 939條轉(zhuǎn)錄本被注釋,占45.98%。在NCBI非冗余蛋白數(shù)據(jù)庫(kù)(NR)中注釋的轉(zhuǎn)錄本數(shù)量為13 789條,占所有轉(zhuǎn)錄本的45.49%。在NCBI核酸數(shù)據(jù)庫(kù)(NT)中注釋的轉(zhuǎn)錄本數(shù)量為10 777條,占所有轉(zhuǎn)錄本的35.55%。在Pfam數(shù)據(jù)庫(kù)中注釋的轉(zhuǎn)錄本數(shù)量為13 136條,占所有轉(zhuǎn)錄本的43.33%。在KEGG數(shù)據(jù)庫(kù)注釋的轉(zhuǎn)錄本數(shù)量為7582條,占所有轉(zhuǎn)錄本的25.01%。
從表4可知,統(tǒng)計(jì)注釋到的相關(guān)物種上的轉(zhuǎn)錄本數(shù)量依次為甜菜(Betavulgaris)、菠菜(Spinaciaoleracea)、葡萄(Vitisvinifera)、克里曼丁橘(Citrusclementina)、麻瘋樹(shù)(Jatrophacurcas)和蓮(Nelumbonucifera),其數(shù)量分別為9371條(50.95%)、4579條(24.90%)、436條(2.37%)、258條(1.40%)、205條(1.11%)和204條(1.11%)。
在GO數(shù)據(jù)庫(kù)中共有13 059條轉(zhuǎn)錄本被注釋到生物學(xué)過(guò)程、細(xì)胞成分和分子功能等三類,占所有轉(zhuǎn)錄本的43.08%(表3)。生物學(xué)過(guò)程中注釋到24個(gè)類別,其中含有轉(zhuǎn)錄本最多的三類依次為細(xì)胞的過(guò)程(66.41%)、代謝過(guò)程(60.94%)和單一的生物過(guò)程(39.06%)。細(xì)胞成分中注釋到22個(gè)類別,其中含有轉(zhuǎn)錄本最多的三類依次為細(xì)胞組分(82.03%)、細(xì)胞器(54.69%)和細(xì)胞器組分(35.94%)。分子功能中注釋到19個(gè)類別,其中含有轉(zhuǎn)錄本最多的三類依次為結(jié)合(64.06%)、催化活性(51.56%)和核酸結(jié)合轉(zhuǎn)錄因子活性(6.25%)。
在KOG數(shù)據(jù)庫(kù)注釋的轉(zhuǎn)錄本數(shù)量為10 018條,占所有轉(zhuǎn)錄本的33.05%(表3)。從圖2可知,注釋為僅通用功能預(yù)測(cè)的轉(zhuǎn)錄本最多,數(shù)量為1701條,占16.98%;其次為翻譯后修飾、蛋白質(zhì)周轉(zhuǎn)和伴侶蛋白,為1203條,占12.01%;其他較多的分別為信號(hào)轉(zhuǎn)導(dǎo)機(jī)制(901條,8.99%),翻譯、核糖體結(jié)構(gòu)和生物發(fā)生(656條,6.55%),功能未知(580條,5.79%),碳水化合物的運(yùn)輸和新陳代謝(543條,5.42%),轉(zhuǎn)錄(530條,5.29%),RNA加工和修飾(526條,5.25%),細(xì)胞內(nèi)運(yùn)輸、分泌和囊泡運(yùn)輸(518條,5.17%)。
表3 紅肉火龍果成熟莖全長(zhǎng)轉(zhuǎn)錄組測(cè)序獲得的轉(zhuǎn)錄本注釋
與植物轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)(Plant Transcription Factor Database,PlantTFDB)比對(duì),共計(jì)有11 628條轉(zhuǎn)錄本注釋為轉(zhuǎn)錄因子。統(tǒng)計(jì)轉(zhuǎn)錄因子家族表明,共含有56個(gè)家族,其含有轉(zhuǎn)錄本數(shù)量較多的家族如表5所示。MYB_related家族的轉(zhuǎn)錄本最多,數(shù)量為1162條,占10%;其次為bHLH家族(basic/helix-loop-helix),轉(zhuǎn)錄本數(shù)量為1066條,占9.17%。NAC(NAM、ATAF和CUC)家族、WRKY家族和FAR1家族含有的轉(zhuǎn)錄本數(shù)量依次為788、687和669條,分別占所有轉(zhuǎn)錄因子數(shù)量的6.78%、5.91%和5.75%。
表4 NR數(shù)據(jù)庫(kù)注釋的物種數(shù)量
A:RNA加工和修飾;B:染色質(zhì)結(jié)構(gòu)和動(dòng)力學(xué);C:能源生產(chǎn)和轉(zhuǎn)換;D:細(xì)胞周期控制、細(xì)胞分裂和染色體分割;E:氨基酸轉(zhuǎn)運(yùn)和代謝;F:核苷酸轉(zhuǎn)運(yùn)和代謝;G:碳水化合物的運(yùn)輸和新陳代謝;H:輔酶轉(zhuǎn)運(yùn)和代謝;I:脂質(zhì)運(yùn)輸和新陳代謝;J:翻譯、核糖體結(jié)構(gòu)和生物發(fā)生;K:轉(zhuǎn)錄;L:復(fù)制、重組和修復(fù);M;細(xì)胞壁/膜/包膜生物發(fā)生;N:細(xì)胞運(yùn)動(dòng);O:翻譯后修飾、蛋白質(zhì)周轉(zhuǎn)和伴侶蛋白;P:無(wú)機(jī)離子轉(zhuǎn)運(yùn)和代謝;Q:次生代謝產(chǎn)物的生物合成、轉(zhuǎn)運(yùn)和分解代謝;R:僅通用功能預(yù)測(cè);S:功能未知;T:信號(hào)轉(zhuǎn)導(dǎo)機(jī)制;U:細(xì)胞內(nèi)運(yùn)輸、分泌和囊泡運(yùn)輸;V:防御機(jī)制;W:細(xì)胞外結(jié)構(gòu);Y:核結(jié)構(gòu);Z:碳骨架A: RNA processing and modification; B: Chromatin structure and dynamics; C: Energy production and conversion; D: Cell cycle control, cell division, chromosome partitioning; E: Amino acid transport and metabolism; F: Nucleotide transport and metabolism; G: Carbohydrate transport and metabolism; H: Coenzyme transport and metabolism; I: Lipid transport and metabolism; J: Translation, ribosomal structure and biogenesis; K: Transcription; L: Replication, recombination and repair; M: Cell wall/membrane/envelope biogenesis; N: Cell motility; O: Posttranslational modification, protein turnover, chaperones; P: Inorganic ion transport and metabolism; Q: Secondary metabolites biosynthesis, transport and catabolism; R: General function prediction only; S: Function unknown; T: Signal transduction mechanisms; U: Intracellular trafficking, secretion, and vesicular transport; V: Defense mechanisms; W: Extracellular structures; Y: Nuclear structure; Z: Cytoskeleton圖2 轉(zhuǎn)錄本的KOG注釋 Fig.2 KOG annotations of transcripts
表5 預(yù)測(cè)的轉(zhuǎn)錄因子家族和數(shù)量
根據(jù)紅肉火龍果成熟莖的全長(zhǎng)轉(zhuǎn)錄組測(cè)序注釋結(jié)果,篩選蔗糖代謝相關(guān)的基因(表6)。獲得一條與菠菜蔗糖磷酸合酶(sucrose-phosphate synthase,SPS)具有81.03%相似性的轉(zhuǎn)錄本Transcript 920,其長(zhǎng)度為3637 bp,含有3183 bp的CDS,編碼2060個(gè)氨基酸。獲得一條與紅莧菜蔗糖合酶(sucrose synthase,SUS)具有93.90%相似性的轉(zhuǎn)錄本Transcript 3494,其長(zhǎng)度為2719 bp,含有2 412 bp的CDS,編碼803個(gè)氨基酸。獲得一條與藜麥液泡酸性轉(zhuǎn)化酶(acid beta-fructofuranosidase,AINV)具有72.61%相似性的轉(zhuǎn)錄本Transcript 7574,其長(zhǎng)度為2229 bp,含有1935 bp的CDS,編碼644個(gè)氨基酸。
表6 全長(zhǎng)轉(zhuǎn)錄組測(cè)序獲得的蔗糖代謝相關(guān)基因及序列相似性
此前針對(duì)紅肉火龍果成熟莖和成熟果實(shí)果肉,利用基于Illumina平臺(tái)的轉(zhuǎn)錄組測(cè)序進(jìn)行分析,獲得若干在莖中高表達(dá)的蔗糖代謝相關(guān)Unigene[11]。SPS相關(guān)的c49878_g1長(zhǎng)度為464 bp,與Transcript 920序列相似性為100.00%,其在成熟莖中的表達(dá)量約為成熟果實(shí)的3倍(表7)。SUS相關(guān)的c21997_g1長(zhǎng)度為614 bp,與Transcript 3494序列相似性為99.16%,其在成熟莖中的表達(dá)量約為成熟果實(shí)的45倍。AINV相關(guān)的c34087_g1和c24912_g1,長(zhǎng)度分別為665和320 bp。與Transcript 7574序列相似性分別為99.06%和99.08%,在成熟莖中的表達(dá)量分別約為成熟果實(shí)的27和72倍。
表7 蔗糖代謝基因與此前Illumina測(cè)序結(jié)果比較
對(duì)缺乏基因組序列的非模式作物開(kāi)展功能基因組學(xué)研究,其前提是獲得基因全長(zhǎng)序列。轉(zhuǎn)錄組測(cè)序能夠快速獲得大量基因的轉(zhuǎn)錄本序列,已在非模式作物中廣泛應(yīng)用。此前普遍利用基于Illumina平臺(tái)的第二代高通量測(cè)序,其讀長(zhǎng)較短,極難獲得基因全長(zhǎng)序列。基于PacBio Sequel平臺(tái)的第三代高通量測(cè)序具有顯著的長(zhǎng)讀長(zhǎng)優(yōu)勢(shì),可用于全長(zhǎng)轉(zhuǎn)錄組測(cè)序[14-15]。第三代高通量測(cè)序的主要缺點(diǎn)是錯(cuò)誤率較高,表現(xiàn)為插入、缺失或錯(cuò)配,均為隨機(jī)錯(cuò)誤,可進(jìn)行校正[16]。通過(guò)Subread聚類的自我校正,獲得的CCS可作為轉(zhuǎn)錄本的參考序列[17]。
此前利用基于Illumina平臺(tái)的轉(zhuǎn)錄組測(cè)序?qū)t肉火龍果成熟莖和成熟果實(shí)果肉進(jìn)行分析,獲得Unigene平均長(zhǎng)度為690 bp,長(zhǎng)度大于1000 bp的Unigene僅占18.66%[11]。本研究獲得30 313條高質(zhì)量轉(zhuǎn)錄本,平均長(zhǎng)度為1829 bp,顯著長(zhǎng)于Illumina測(cè)序。同時(shí),長(zhǎng)度大于1000 bp的轉(zhuǎn)錄本占比為88.96%,大于2000 bp占比為41.50%。由此可見(jiàn),全長(zhǎng)轉(zhuǎn)錄組測(cè)序獲得的轉(zhuǎn)錄本長(zhǎng)度明顯長(zhǎng)于Illumina測(cè)序,有利于獲得基因的全長(zhǎng)序列。
獲得紅肉火龍果成熟莖的30 313條高質(zhì)量轉(zhuǎn)錄本,僅有45.98%的序列在常見(jiàn)公共數(shù)據(jù)庫(kù)中被注釋,注釋到的物種主要為藜科(Chenopodiaceae)的甜菜和菠菜。與近期一些非模式作物的全長(zhǎng)轉(zhuǎn)錄組測(cè)序相比,其轉(zhuǎn)錄本的注釋率明顯偏低。例如,對(duì)禾本科(Gramineae)薏苡屬(Coix)薏苡(C.lacryma-jobiLinn.)苗期葉片開(kāi)展全長(zhǎng)轉(zhuǎn)錄組測(cè)序,轉(zhuǎn)錄本平均長(zhǎng)度為2318 bp,約91.50%轉(zhuǎn)錄本被注釋,物種為高粱、玉米、谷子、水稻和甘蔗等禾本科作物[18]。對(duì)薔薇科(Rosaceae)栒子屬(Cotoneaster)作物山東栒子(C.schantungensis)葉片、花和成熟果實(shí)進(jìn)行全長(zhǎng)轉(zhuǎn)錄組測(cè)序,約98.86%轉(zhuǎn)錄本被注釋,物種為蘋(píng)果、白梨、桃、梅、野草莓和沙梨等薔薇科作物[19]。對(duì)???Moraceae)木波羅屬(Artocarpus)作物波羅蜜(A.heterophyllus)莖和葉進(jìn)行全長(zhǎng)轉(zhuǎn)錄組測(cè)序,獲得轉(zhuǎn)錄本平均長(zhǎng)度為1684 bp,約97.56%轉(zhuǎn)錄本被注釋,物種為同屬于??频拇ㄉ?Morusnotabilis)[20]。上述作物在同一科內(nèi)均有其他作物的基因組序列發(fā)布,在其親緣關(guān)系較近的情況下注釋成功率極高。紅肉火龍果屬石竹目(Caryophyllales)仙人掌科,該科尚未有物種的基因組序列發(fā)布。目前僅石竹目藜科的甜菜和菠菜基因組序列發(fā)布,因而相關(guān)轉(zhuǎn)錄本的注釋率較低。在未來(lái)仙人掌科作物基因組序列發(fā)布后,有必要對(duì)紅肉火龍果成熟莖的轉(zhuǎn)錄本序列重新注釋。
火龍果等仙人掌科作物的葉片退化為刺,其肉質(zhì)莖是主要的光合器官。研究成熟莖的轉(zhuǎn)錄組模式,分離光合作用代謝途徑的相關(guān)基因全長(zhǎng),有助于研究蔗糖的合成、貯藏和轉(zhuǎn)運(yùn),進(jìn)而調(diào)控果實(shí)品質(zhì)形成。此前利用Illumina平臺(tái)的轉(zhuǎn)錄組測(cè)序?qū)t肉火龍果成熟莖和成熟果實(shí)果肉進(jìn)行分析,僅獲得若干參與成熟莖中蔗糖代謝和轉(zhuǎn)運(yùn)相關(guān)基因部分序列[11]。本研究獲得蔗糖磷酸合酶SPS、蔗糖合酶SUS、液泡酸性轉(zhuǎn)化酶AINV等均參與蔗糖合成和降解等代謝[21]。與Illumina轉(zhuǎn)錄組測(cè)序結(jié)果綜合分析,其較短的Unigene序列與其相應(yīng)的全長(zhǎng)轉(zhuǎn)錄本具有99%以上的核苷酸序列相似性,說(shuō)明來(lái)源于同一基因。這些較短Unigene的數(shù)字表達(dá)模式表明其主要在成熟莖中表達(dá),推測(cè)其參與源器官中蔗糖代謝。下一步可根據(jù)全長(zhǎng)轉(zhuǎn)錄組測(cè)序獲得的基因全長(zhǎng)克隆該基因,開(kāi)展后續(xù)的功能驗(yàn)證等分析。
研究利用基于Pacbio Sequel平臺(tái)的轉(zhuǎn)錄組測(cè)序?qū)t肉火龍果成熟莖進(jìn)行全長(zhǎng)轉(zhuǎn)錄組測(cè)序分析,獲得30 313個(gè)高質(zhì)量轉(zhuǎn)錄本,其長(zhǎng)度顯著長(zhǎng)于Illumina測(cè)序結(jié)果。全長(zhǎng)轉(zhuǎn)錄組測(cè)序獲得的高質(zhì)量轉(zhuǎn)錄本,能結(jié)合Illumina測(cè)序獲得的轉(zhuǎn)錄本序列和基因數(shù)字表達(dá)結(jié)果,快速篩選若干候選基因的全長(zhǎng)序列,為開(kāi)展基因功能研究提供有力基礎(chǔ)。
西南農(nóng)業(yè)學(xué)報(bào)2022年3期