汪麗娜,彭 琴,蔡碧雅,黃鳴清,許 文,吳水生
(福建中醫(yī)藥大學藥學院,福建 福州 350122)
澤瀉為澤瀉科植物東方澤瀉Alisma orientale(Sam.)Juzep.或澤瀉Alisma plantago-aquaticaLinn.的干燥塊莖,具有利水滲濕、泄熱、化濁降脂的功效,臨床主要應用于小便不利、水腫脹滿、熱淋澀痛等[1]。澤瀉主產于福建、四川、江西、廣西等省,福建澤瀉因其質佳,素有“建澤瀉”之稱[2-3],其基原為東方澤瀉Alisma orientale(Sam.)Juzep.;四川為“川澤瀉”,其基原為澤瀉Alisma plantago-aquaticaLinn.。澤瀉是大宗藥材,其主要藥效成分為三萜類化合物[4-5],如澤瀉醇 A、澤瀉醇 B、23-乙酰澤瀉醇 B、23-乙酰澤瀉醇C 等成分[6-7]。現代藥理研究表明,澤瀉中三萜成分具有利尿、抗動脈粥樣硬化、免疫調節(jié)等活性[8-9]。
隨著分子生物學的快速發(fā)展,通過轉錄組測序技術(RNA-Seq)獲得基因信息并進行生物信息學分析的方法應用廣泛[10-11]。利用高通量測序技術對RNA 反轉錄成的cDNA 文庫進行測序,以期獲得特定組織或細胞中表達的轉錄本及其表達水平[12]。RNA-Seq 在中草藥功能基因鑒定、次生代謝調控等方面發(fā)揮重要作用[13-14],目前在藥用植物葫蘆巴、黃參、澤瀉等中均有報道[15-17]。本研究采用高通量測序技術首次對建澤瀉與川澤瀉全生長階段(包括花前、花中、花后、果前、果中、果后)的全植株(包括根、莖和葉)進行轉錄組測序,結合生物信息學分析,以期獲得建澤瀉與川澤瀉的轉錄組注釋信息、三萜類成分生物合成基因及簡單重復序列(SSR)信息,為澤瀉生長發(fā)育和三萜類活性成分生物合成的分子調控機制提供參考依據。
1.1 實驗材料
1.1.1 實驗藥物 藥用植物建澤瀉和川澤瀉采自南平市農業(yè)科學研究所,并由福建中醫(yī)藥大學范世明高級實驗師鑒定為澤瀉科植物東方澤瀉Alisma orientale(Sam.)Juzep.和澤瀉Alisma plantago-aquaticaLinn.,采集建澤瀉、川澤瀉全生長階段(包括花前、花中、花后、果前、果中、果后)的全植株(包括根、莖和葉)樣品于液氮中速凍并置于-80 ℃冰箱中保存。
1.1.2 實驗試劑 RP3201 總RNA 快速提取試劑盒(北京百泰克生物技術有限公司);RK20400 cDNA第一鏈合成試劑盒(湖北愛博泰克生物科技有限公司);引物(上海生物工程股份有限公司);瓊脂糖(上海碧云天生物技術有限公司);EB 緩沖液(北京雷根生物技術有限公司)。
1.1.3 實驗儀器 Nanodrop 2000 超微量分光光度計(美國NanoDrop 公司);Agilent 2100 生物分析儀(美國Agilent 公司);7900HT 熒光定量PCR 儀(湖北愛博泰克生物科技有限公司);DYCP-31E 瓊脂糖水平電泳儀(北京六一生物科技有限公司);HVE-50 高壓滅菌鍋(華粵行儀器有限公司)。
1.2 RNA 提取、檢測 通過Trizol 法分別提取建澤瀉、川澤瀉全生長階段全植株的總RNA,利用超微量分光光度計檢測RNA的純度,使用生物分析儀檢測RNA 的完整性。用帶有Oligo 的磁珠富集mRNA,加入打斷試劑將mRNA 打成短片段,以其為模板,合成cDNA 的第一條鏈;加入緩沖液、脫氧核糖核苷三磷酸、核糖核酸酶H 和DNA 聚合酶合成第二條鏈;使用試劑盒純化加緩沖液后做末段修復,加多聚腺苷酸并連接測序接頭,用瓊脂糖凝膠電泳進行片段大小選擇,最后進行PCR 擴增構建測序文庫。將檢測合格的RNA 委托上海人類基因組研究中心進行測序。
1.3 轉錄組測序與數據組裝 本實驗采用Trinity 2.0.6 軟件對2 個轉錄組進行組裝,并對得到的轉錄本(Transcripts)、單基因簇(Unigene)、堿基、N50 大小以及GC 含量進行統(tǒng)計分析。
1.4 基因功能注釋及SSR 檢測 采用BLASTX 法將測序得到的Unigene 提交至蛋白質序列數據庫(SwissProt,http://www.ebi.ac.uk/swissprot/)、蛋白質家族集合數據庫(Pfam,http://pfam.xfam.org/)、信號肽預測數據庫(SignalP,http://www.cbs.dtu.dk/services/SignalP/)、蛋白跨膜區(qū)信號肽預測數據庫(TMHMM,http://www.cbs.dtu.dk/services/TMHMM/)、基因本體論數據庫(GO,http://www.geneontology.org)、蛋白質直系同源簇數據庫(COG,http://www.ncbi.nlm.nih.gov/COG)和京都基因與基因組百科全書數據庫(KEGG,https://www.kegg.jp/)進行比對分析,從而獲得有關功能基因的注釋信息。使用微衛(wèi)星識別工具(MISA)軟件對獲得的Unigene 進行SSR 位點挖掘。
2.1 轉錄組測序及質量評價 通過Illumina HiseqTM2500 高通量測序,建澤瀉、川澤瀉的原始序列分別有 112 559 910、86 442 594 條。數據過濾后,2 個樣品平均剩余94.02%的高質量序列,GC 含量均為44.53%,且堿基質量值Q30 都在90%以上,說明測序質量良好,見表1。
表1 測序數據統(tǒng)計表
2.2 轉錄組組裝與分析 利用Trinity 軟件對上述的高質量序列進行組裝,建澤瀉獲得186 733個Transcripts和 167 109 條 Unigene,川澤瀉得到 171 526 個Transcripts 和 152 757 條 Unigene,本實驗兩樣品的N50 均超過800 bp,表明序列完整性及測序正確率良好,見表2。對Unigene的長度分布特征進行分析,兩樣品所占比例最大的Unigene 為200~500 bp,≥1 000 bp 的Unigene 約占15.00%。結果表明,Unigene 的整體長度分布均勻,組裝序列完整性較好,便于后續(xù)的分析,見圖1。
表2 建澤瀉與川澤瀉的轉錄本和單基因簇數據組裝
圖1 建澤瀉與川澤瀉Unigene 長度分布
2.3 基因功能注釋及分類 基于BLASTX 算法將Unigene 比對到 SwissProt、Pfam、SignalP、TMHMM、COG、GO、KEGG 數據庫。建澤瀉共注釋 53 566 條Unigene,其中注釋數目最多的是KEGG 數據庫,有22 695 個Unigene 獲得同源匹配信息,占比42.37%;川澤瀉共注釋49 448 條Unigene,在KEGG 庫中有19 124 個Unigene 獲得同源匹配信息,匹配比例為38.67%。以下為建澤瀉與川澤瀉在7 個數據庫中的注釋結果,見表3。
表3 在7 個數據庫中的注釋結果[條(%)]
2.4 GO 注釋及分類 將建澤瀉與川澤瀉的Unigene 在GO 數據庫中進行功能分類,見圖2。其功能可分為三大類:生物過程(biological process)、分子功能(molecular function)和細胞組分(cellular component),這三類功能包含30 個亞類。在生物過程的大類中,最具代表性的是DNA 集成(DNA integration),注釋數量最多;分子功能大類中最多聚集于鋅離子結合(zinc ion binding),在細胞組分的大類中細胞核(nucleus)和膜的有機組成(integral component of membrane)占比最高,建澤瀉與川澤瀉在GO功能分類中有相似的特點。
圖2 建澤瀉與川澤瀉GO 功能分類圖
2.5 COG 注釋及功能分類 通過對Unigene 進行COG 注釋及功能分類,這些基因分屬于24 個功能類別,見圖3。建澤瀉與川澤瀉在不同功能分類中有共同的特點,其中可移動基因組:原噬菌體,轉因子(mobilome:prophages,transposons)基因數量最多;其次是翻譯、核糖體結構及生物起源(translation,ribosomal structure and biogenesis)和信號轉導機制(signal transduction mechanisms);RNA 加工與修飾(RNA processing and modifications)、細胞骨架(cytoskeleton)所占Unigene 最少。但從圖中可知還有部分未知功能的Unigene,有待進一步研究驗證。
圖3 建澤瀉與川澤瀉COG 功能分類
2.6 KEGG 功能注釋及澤瀉中三萜類成分生物合成相關基因鑒定 對建澤瀉和川澤瀉的Unigene 進行KEGG 代謝通路富集分析,分別有 22 695、19 124 條Unigene 被注釋,與萜類生物合成相關的基因涉及5 個次生代謝通路,建澤瀉與川澤瀉分別有276、241 條Unigene 參與其中。建澤瀉中Unigene 數量最多的代謝通路是萜類化合物骨架生物合成(terpenoid backbone biosynthesis,ko00900)、泛醌和其他萜類醌生物合成(ubiquinone and other terpenoid-quinone biosynthesis,ko00130),各有89 條;其次為二萜類生物合成(diterpenoid biosynthesis,ko00904),有61 條;倍半萜和三萜生物合成(sesquiterpenoid and triterpenoid biosynthesis,ko00909)與單萜生物合成(monoterpenoid biosynthesis,ko00902)最少,分別有13 和24 條。川澤瀉中Unigene 數目最多的是萜類化合物骨架生物合成,有84 條;泛醌和其他萜類醌生物合成、倍半萜和三萜生物合成次之,各為72、45 條;單萜生物合成與二萜類生物合成最少,分別是23、17 條。
根據KEGG 數據庫的注釋,見圖4,結合澤瀉中已經被報道的三萜類成分,推測澤瀉的生物合成途徑,乙酰輔酶A(acetyl-CoA)在羥甲基戊二酰輔酶A 合酶(3-hydroxy-3-methylglutaryl CoA synthetase,HMGS)、羥甲基戊二酰輔酶A還原酶(hydroxy methyl glutaryl-CoA reductase,NADPH)、甲羥戊酸激酶(mevalonate kinase,MK)、甲羥戊酸磷酸激酶(mevalonic acid phosphate kinase,MAPK)、焦磷酸甲羥戊脫羧酶(pyrophosphomevalonate decarboxylase,MVD)催化下經過多步反應生成焦磷酸法尼酯(farnesyl-PP),然后焦磷酸法尼酯在法尼基焦磷酸合酶(farnesyl-diphosphate synthase,FPPS)催化下生成前喹啉(presqualene-pp),其通過角鯊烯合酶(naringenin 3-dioxygenase,SQS)生成角鯊烯(squalene),隨后在角鯊烯環(huán)氧酶(squalene epoxidase,SE)催化下生成骨架類型為原萜烷型的澤瀉三萜,見圖5。
圖4 建澤瀉與川澤瀉三萜類生物合成途徑KEGG 注釋圖
圖5 建澤瀉與川澤瀉三萜類潛在生物合成途徑圖
2.7 SSR 分析 利用MISA 軟件對建澤瀉與川澤瀉Unigene 進行SSR 分析,發(fā)現檢測的序列總長度分別為33 731 649、29 651 576 bp,各有4 263、3 725 個SSR,見表4。建澤瀉與川澤瀉單堿基重復的SSR數量最多,有 1 871、1 672 個,其中 A/T 類型的比例最高,分別是 1 668、1 488 個;五堿基重復 SSR 最少,均為6 個,見表 5。
表4 建澤瀉與川澤瀉SSR 分析結果統(tǒng)計
表5 SSR 重復類型分布
研究表明,澤瀉不同部位均含有活性的萜類成分,但不同采收期澤瀉萜類成分的積累與質量存在差異[18-20]。秦霞等[17]已對建澤瀉、川澤瀉、窄葉澤瀉的幼嫩葉片進行了高通量測序,表明澤瀉SSR數量及類型較為豐富。但目前關于不同生長時期不同部位的建澤瀉與川澤瀉轉錄組研究尚未見報道,故本實驗選擇建澤瀉與川澤瀉全生長階段(包括花前、花中、花后、果前、果中、果后)全植株(包括根、莖和葉)進行第二代轉錄組測序。利用Trinity軟件組裝,建澤瀉獲得186 733 個Transcripts 和167 109 條 Unigene,川 澤 瀉 得 到 171 526 個 Transcripts 和 152 757 條 Unigene,組裝結果質量評估可從N50 數值來評估(一般認為N50≥800 bp 的序列組裝完整性較好)。本實驗兩樣品的N50 均超過800 bp,且堿基質量值Q30(堿基正確識別率達99.9%)均在90%以上,表明序列完整性及測序正確率較好。將測序得到的Unigene 在7 個數據庫中進行注釋,建澤瀉注釋53 566 條Unigene,川澤瀉共注釋49 448 條Unigene。其中,注釋數目最多為KEGG 數據庫,有 22 695、19 124 條;在 GO 數據庫中各注釋 3 451、3 348 條 Unigene;在 COG 數據庫中注釋2 519、2 391 條Unigene,其中仍有部分未知功能的Unigene,有待進一步研究驗證。
通過KEGG 通路富集分析,與萜類生物合成相關的基因涉及5 個次生代謝通路,建澤瀉與川澤瀉分別有276、241 條Unigene 參與其中。澤瀉的主要藥效成分為三萜類化合物,如澤瀉醇A、澤瀉醇B、23-乙酰澤瀉醇B、23-乙酰澤瀉醇C 等成分。根據KEGG 數據庫的注釋,篩選出與三萜類成分合成相關的酶,主要包括 HMGS、NADPH、MK、MAPK、MVD、FPPS、SQS、SE,這些發(fā)現對挖掘其次生代謝物的生物合成途徑關鍵基因提供了數據基礎。
分子標記技術被廣泛應用于植物研究的各個領域,其中SSR 是目前應用較為廣泛的一種標記技術。對建澤瀉與川澤瀉進行SSR分析,挖掘到4 263、3 725 個SSR 位點,其在6 種不同的堿基重復類型中均有分布,單堿基重復的SSR 數量最多,有1 871、1 672 個,其中單堿基A/T 重復類型的比例最高。上述結果為深入開發(fā)澤瀉SSR 分子標記提供理論基礎。
本研究對建澤瀉與川澤瀉進行轉錄組測序,獲得了大量的轉錄本序列信息,利用生物信息學對測序得到的Unigene 進行功能注釋、代謝通路富集分析及SSR 位點的研究,初步揭示了不同生長時期、不同部位建澤瀉與川澤瀉轉錄組的整體特征,為研究澤瀉的生長發(fā)育及其活性成分生物合成的分子調控機制提供參考。