鄒福賢,許 文,黃澤豪,張 勛,陳抒云,林 羽,徐 偉
(福建中醫(yī)藥大學(xué)藥學(xué)院,福州 350122)
金線蓮為蘭科植物花葉開(kāi)唇蘭(Anoectochilusroxburghii(Wall.) Lindl.)干燥全草,后更名為金線蘭,具有清熱涼血、祛風(fēng)利濕之功效,用于治療腎炎、支氣管炎、膀胱炎、糖尿病、風(fēng)濕性關(guān)節(jié)炎等[1],為珍貴藥用植物,主要分布于我國(guó)福建、臺(tái)灣、云南等省份以及孟加拉國(guó)、老撾、泰國(guó)、越南等東南亞國(guó)家[2]。金線蓮中主要含有多糖、黃酮、有機(jī)酸、揮發(fā)性化合物等[3],目前多以黃酮類(蘆丁、槲皮素、異鼠李素、山柰酚等)成分為指標(biāo)性成分對(duì)金線蓮進(jìn)行質(zhì)量評(píng)價(jià)[4-5]?,F(xiàn)代藥理研究表明其黃酮類成分具有抗糖尿病活性,能夠降血糖[6],并能減輕由糖尿病引起的腎損傷[7];保護(hù)肝臟[8]等作用,因此金線蓮黃酮類成分被認(rèn)為是其重要藥效物質(zhì)基礎(chǔ),但是由于缺乏金線蓮的基因組信息,其黃酮類成分生物合成途徑尚未深入研究。
隨著第2代高通量測(cè)序技術(shù)的發(fā)展,藥用植物基因組學(xué)研究工作也不斷深入。高通量轉(zhuǎn)錄組測(cè)序技術(shù)能夠在沒(méi)有參考基因情況下,對(duì)某一物種的轉(zhuǎn)錄組進(jìn)行全面分析,確定基因序列和轉(zhuǎn)錄本,為基因組圖譜尚未完成或數(shù)據(jù)信息匱乏的物種基因組和轉(zhuǎn)錄組提供技術(shù)支持[9]。本研究以仿野生林下種植的不同時(shí)期金線蓮為樣品,首次采用高通量測(cè)序技術(shù)對(duì)金線蓮進(jìn)行轉(zhuǎn)錄組分析,以期獲得大量的黃酮類成分合成的基因信息,從基因表達(dá)水平闡述金線蓮藥用活性成分的生物合成途徑,為金線蓮的規(guī)范化種植以及質(zhì)量評(píng)價(jià)提供參考。
金線蓮樣品采集自福建省永泰縣金線蓮林下種植基地(N25°57′23.17″,E118°50′31.28″,748.625 m),分別選取組織培養(yǎng)品(以下簡(jiǎn)寫(xiě)為AR1)、種植1個(gè)月(以下簡(jiǎn)寫(xiě)為AR2)和種植4個(gè)月(以下簡(jiǎn)寫(xiě)為AR3)的金線蓮新鮮葉片作為研究材料,基原經(jīng)福建中醫(yī)藥大學(xué)黃澤豪教授和范世明高級(jí)實(shí)驗(yàn)師鑒定為Anoectochilusroxburghii。樣品標(biāo)本存儲(chǔ)于福建中醫(yī)藥大學(xué)藥學(xué)院標(biāo)本室,標(biāo)本號(hào)分別為:35070020180915100LY,35070020180915101LY,35070020180915102LY,新鮮樣品清洗后液氮速凍并保存-80 ℃下備用。
植物總RNA快速提取試劑盒(北京百泰克生物技術(shù)有限公司);QPCR試劑ABScript Ⅱ cDNA First-Strand Synthesis Kit和2X SYBR Green Fast qPCR Mix with High ROX(愛(ài)博泰克生物科技有限公司);引物采用軟件Primer Premier 6.0設(shè)計(jì)并由上海生工生物工程股份有限公司合成;乙腈(色譜純,德國(guó)Merck公司),其他試劑均為分析純。
Prism 7900HT型熒光定量PCR儀(美國(guó)ABI公司);Shimadzu LC-20AT高效液相色譜儀(日本島津公司);AR224CN型分析天平(奧豪斯儀器有限公司);Milli-Q超純水儀(美國(guó)Millipore公司);TC-C18色譜柱(4.6 mm×250 mm,5 μm,美國(guó)Agilent公司)。
每個(gè)生長(zhǎng)時(shí)期的金線蓮隨機(jī)選取10株的葉片委托廣州基迪奧基因公司負(fù)責(zé)測(cè)序和分析工作。得到的原始序列(raw reads)中因含有帶接頭的,重復(fù)的,測(cè)序質(zhì)量很低的 reads,這些reads會(huì)影響組裝和后續(xù)分析,因此對(duì)其進(jìn)行數(shù)據(jù)過(guò)濾。數(shù)據(jù)過(guò)濾的步驟如下:①去除含adaptor的reads,②去除N的比例大于10%的reads,③去除低質(zhì)量reads(質(zhì)量值Q≤20的堿基數(shù)占整個(gè)read的40%以上),④獲得高質(zhì)量clean reads。
本實(shí)驗(yàn)利用Trinity[10]組裝軟件進(jìn)行金線蓮轉(zhuǎn)錄組De novo組裝。Trinity首先將具有一定長(zhǎng)度overlap的reads連成更長(zhǎng)的片段,這些通過(guò)reads overlap 關(guān)系得到的不含N的組裝片段作為組裝出來(lái)的Unigene。
將Unigene通過(guò)NCBI中Blastx比對(duì)到蛋白質(zhì)數(shù)據(jù)庫(kù)Nr、Swiss-Prot、KEGG和KOG(E-value<0.000 01),得到序列相似性最高的蛋白被用于進(jìn)行金線蓮Unigene的功能注釋。剩余部分,則采用ESTScan[11]軟件預(yù)測(cè)其編碼區(qū)。利用Blast2GO[12]軟件將在Nr數(shù)據(jù)庫(kù)中獲得注釋到的Unigene進(jìn)行GO注釋;并運(yùn)用WEGO[13]軟件對(duì)所有Unigene進(jìn)行GO功能分類統(tǒng)計(jì),確定金線蓮相關(guān)功能基因分布特征。物種分布統(tǒng)計(jì)是利用Blastx將組裝出來(lái)的Unigene序列與Nr數(shù)據(jù)庫(kù)進(jìn)行比對(duì)后,取每個(gè)Unigene在Nr庫(kù)中比對(duì)結(jié)果最好(E值最低)的那一條序列為對(duì)應(yīng)同源序列確定同源序列所屬物種,統(tǒng)計(jì)比對(duì)到各個(gè)物種的同源序列數(shù)量。
用RPKM法(Reads Per Kb per Million reads)計(jì)算基因表達(dá)水平,見(jiàn)公式(1):
RPKM=(1 000 000×C)/(N×L/1 000)
(1)
設(shè)RPKM為Unigene A的表達(dá)量,則C為比對(duì)到Unigene A的reads數(shù),N為比對(duì)到所有Unigene的總reads數(shù),L為Unigene A的堿基數(shù)。RPKM法能消除基因長(zhǎng)度和測(cè)序量差異對(duì)計(jì)算基因表達(dá)的影響,計(jì)算得到的基因表達(dá)量可直接用于比較不同樣品間的基因表達(dá)差異。
利用經(jīng)過(guò)FDR(false discovery rate)[14]校正后的P與 log2FC來(lái)篩選差異基因,篩選條件為:校正后的P<0.05且|log2FC|>1。其中l(wèi)og2FC為樣品1與樣品2 RPKM差異倍數(shù)的對(duì)數(shù)值,以2為底數(shù)計(jì)算得到的值,見(jiàn)公式(2)。
log2FC=log2(RPKMsample_2/RPKMsample_1)
(2)
以KEGG通路為單位,應(yīng)用超幾何檢驗(yàn),找出與整個(gè)基因組背景相比,在差異表達(dá)基因中顯著性富集的通路。
Q-PCR引物利用Primer Premier 6.0軟件進(jìn)行設(shè)計(jì)。Q-PCR操作方法按照試劑盒操作說(shuō)明,基因相對(duì)表達(dá)量采用2-ΔΔCt法進(jìn)行計(jì)算。
采用HPLC的方法對(duì)金線蓮中6種主要黃酮類成分進(jìn)行含量測(cè)定[15]。
通過(guò)IlluminaHiseqTM2000高通量測(cè)序,3個(gè)樣品的原始reads數(shù)在50 629 778~54 654 486之間,每個(gè)reads含有150個(gè)堿基,GC含量在48.46%~49.63%之間。經(jīng)過(guò)數(shù)據(jù)過(guò)濾之后,3個(gè)樣品平均剩余98.09%的高質(zhì)量clean reads,且堿基質(zhì)量值Q30(堿基錯(cuò)誤率小于0.01%)均在90%以上,說(shuō)明測(cè)序質(zhì)量可靠(見(jiàn)表1)。
Table 1 Comparison of data before and after filtration in transcriptome of Anoectochilus roxburghii (AR)
利用Trinity軟件對(duì)上述的高質(zhì)量reads根據(jù)序列之間的重疊部分進(jìn)行混合組裝。組裝結(jié)果質(zhì)量評(píng)估可從N50數(shù)值和測(cè)序深度(Sequencing Depth)來(lái)評(píng)估(一般認(rèn)為N50長(zhǎng)度超過(guò)800 bp就可認(rèn)為組裝序列完整性較好);本實(shí)驗(yàn)所組裝得到的序列N50均超過(guò)1 400 bp,測(cè)序深度均在100×以上(一般認(rèn)為測(cè)序深度應(yīng)達(dá)到10~15×以上[16]),測(cè)序覆蓋度和測(cè)序錯(cuò)誤率控制均得以保證,組裝序列完整性較好(見(jiàn)表2),可以用于后續(xù)分析和信息挖掘工作。測(cè)序深度為測(cè)序得到的堿基總量(bp)與基因組大小(Genome)的比值。
Table 2 Data assembly for unigenes and transcript in transcriptome of AR
將3個(gè)樣品組裝得到的基因進(jìn)行合并去除重復(fù),共得到51 370條基因,并將這些基因序列分別與Nr、GO、Swiss-Prot、KO和KOG數(shù)據(jù)庫(kù)進(jìn)行比對(duì)。經(jīng)過(guò)比對(duì),發(fā)現(xiàn)在Nr數(shù)據(jù)庫(kù)中被注釋到的基因最多,有22 970條;最少的被注釋到的數(shù)據(jù)庫(kù)為KEGG數(shù)據(jù)庫(kù),其中有5 555條基因在5個(gè)數(shù)據(jù)庫(kù)中均被注釋到(圖1)。
Figure 1 Statistics of annotation results in Nr,GO,Swiss-Prot,KEGG and KOG databases
物種分布統(tǒng)計(jì)表明,金線蓮與油棕Elaeisguineensis和海棗Phoenixdactylifera具有的同源序列最多,分別占到總序列的24.27%和22.39%,其他的主要為小果野蕉Musaacuminata(9.89%)、菠蘿Ananascomosus(4.83%)、木豆Cajanuscajan(3.29%)、水芙蓉Nelumbonucifera(2.53%)、粳稻群體OryzasativaJaponicaGroup(2.21%)、可可Theobromacacao(2.04%)、葡萄Vitisvinifera(1.51%)、野胡蘿卜Daucuscarota(1.21%),所匹配到的物種均和金線蓮一樣同為單子葉植物。經(jīng)GO數(shù)據(jù)庫(kù)注釋到的基因根據(jù)其功能可以分為3大類:生物過(guò)程(biological process)、細(xì)胞組分(cellular component)和分子功能(molecular function);其中生物過(guò)程中細(xì)胞進(jìn)程(cellular process)和代謝進(jìn)程(metabolic process)最高,細(xì)胞組分中細(xì)胞(cell)和細(xì)胞部分(cell part)最高,分子功能中綁定(binding)和催化活性(catalytic activity)最高(圖2)。另外將金線蓮轉(zhuǎn)錄組數(shù)據(jù)與臺(tái)灣銀線蓮(Anoectochilusformosanus)轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行對(duì)比,各分類中占比最高的兩個(gè)基因功能與臺(tái)灣銀線蓮的趨勢(shì)一致[17]。
通過(guò)“2.5”項(xiàng)下篩選條件發(fā)現(xiàn)共有19 065個(gè)基因具有顯著差異,占總基因數(shù)37.11%。3個(gè)樣品之間兩兩比較,發(fā)現(xiàn)AR1-VS-AR3之間的差異基因最多,有12 931個(gè);而AR2-VS-AR3兩組之間的差異基因最少,為5 946個(gè);其中764個(gè)基因在任意兩組之間均有顯著性差異(圖3)。
在生物體內(nèi),不同基因相互協(xié)調(diào)行使其生物學(xué)功能,而基于通路的分析有助于更進(jìn)一步了解基因的生物學(xué)功能。在顯著差異基因中共有1643條基因被注釋到KEGG數(shù)據(jù)庫(kù)中,AR1-VS-AR2、AR1-VS-AR3和AR2-VS-AR3中被注釋的基因數(shù)分別為1 279、991和378條。通過(guò)統(tǒng)計(jì)各組之間具有顯著性差異(P<0.05)的通路,3組之間共有27條具有顯著性富集的通路,其中黃酮類生物合成(Flavonoid biosynthesis)、苯丙素類生物合成(Phenylpropanoid biosynthesis)、α-亞麻酸代謝(alpha-Linolenic acid metabolism)、氰氨基酸代謝(Cyanoamino acid metabolism)4條通路在3組兩兩之間的比較均具有顯著性富集(表3),其中黃酮類生物合成差異基因改變最為明顯。
黃酮類生物合成通路(flavonoid biosynthesis)直接與次生代謝產(chǎn)物黃酮類成分具有直接關(guān)系,該代謝通路中共有22個(gè)基因具有顯著性差異,涉及到6種酶,分別為反式肉桂酸4-單加氧酶(trans-cinnamate 4-monooxygenase,C4H)、咖啡酰輔酶AO-甲基轉(zhuǎn)移酶(caffeoyl-CoAO-methyltransferase,CCOMT)、查爾酮合成酶(chalcone synthase,CHS)、黃酮醇合成酶(flavonol synthase,F(xiàn)LS)、莽草酸O-羥基肉桂酰轉(zhuǎn)移酶(shikimateO-hydroxycinnamoyltransferase,HST)、黃酮類3′,5′-羥化酶(flavonoid 3′,5′-hydroxylase,F(xiàn)3′5′H),各類酶及其對(duì)應(yīng)基因的總FPKM值疊加圖見(jiàn)圖4。隨著生長(zhǎng)時(shí)間的增加,種植后的樣品黃酮類生物合成相關(guān)酶的表達(dá)量基本高于組織培養(yǎng)樣品,其中C4H、CCOMT、HST和F3′5′H的表達(dá)量呈現(xiàn)上調(diào)趨勢(shì),總體表現(xiàn)出種植后的表達(dá)量高于組織培養(yǎng)的趨勢(shì)。
Figure 2 GO function classification of unigenes in transcriptome of AR
Figure 3 Number of up-regulated and down-regulated in differentially expressed genes between groups
Table 3 Significant enrichment pathways in differentially expressed genes between groups and corresponding P value
Figure 4 FPKM results of six unigenes involved in flavonoid biosynthesis of AR
引物設(shè)計(jì)結(jié)果見(jiàn)表4,采用Zhang等[18]確定的ACT2作為金線蓮內(nèi)參基因。對(duì)上述每一類酶的變化差異表達(dá)基因進(jìn)行Q-PCR驗(yàn)證,以AR1為參照樣品,AR2和AR3的各基因相對(duì)表達(dá)量見(jiàn)圖5。Q-PCR結(jié)果表明驗(yàn)證的所有基因中,AR3的相對(duì)表達(dá)量均顯著性高于AR1,AR2的相對(duì)表達(dá)量大多數(shù)與AR1無(wú)顯著性差異,但綜合整個(gè)AR1,AR2和AR3的相對(duì)表達(dá)量來(lái)說(shuō),基本呈現(xiàn)出隨著種植時(shí)間的增加,基因相對(duì)表達(dá)量也相應(yīng)增加的趨勢(shì),與RNA-seq的數(shù)據(jù)基本符合。
選擇相同批次樣品,對(duì)其主要的黃酮類成分:蘆丁(rutin)、異槲皮苷(isoquercitrin)、水仙苷(narcissin)、槲皮素(quercetin)、山柰酚(kaempferol)和異鼠李素(isorhamnrtin)進(jìn)行含量測(cè)定,HPLC圖譜見(jiàn)圖6,含量結(jié)果見(jiàn)圖7。金線蓮黃酮含量隨著種植時(shí)間的增加而增加,種植時(shí)期的含量極顯著高于組織培養(yǎng)的,種植4個(gè)月的金線蓮黃酮類成分含量顯著性高于種植1個(gè)月的金線蓮黃酮類成分含量。
Table 4 Primers for Q-PCR to verify six genes involved in flavonoid biosynthesis pathway in AR
Figure 5 Q-PCR verification for six genes involved in flavonoid biosynthesis pathway in AR
Figure 6 HPLC chromatograms of mixed reference solution (A),and analytical sample solution (B)
Figure 7 Content changes of six flavonoids in AR1,AR2 and AR3
根據(jù)KEGG數(shù)據(jù)庫(kù)的注釋,篩選出和黃酮類成分合成相關(guān)的基因及其對(duì)應(yīng)的酶,主要包括CHS、查爾酮異構(gòu)酶(Chalcone isomerase,CHI)、柚皮素3-雙加氧酶(Naringenin 3-dioxygenase,F(xiàn)3H)、FLS、F3′H、黃酮類甲氧基轉(zhuǎn)移酶(flavoneO-methyltransferase,F(xiàn)OMT)、黃酮醇-3-O-糖基轉(zhuǎn)移酶(Flavonol 3-O-glucosyltransferase,F(xiàn)3GT)、黃酮醇-3-O-葡萄糖苷L-鼠李糖基轉(zhuǎn)移酶(Flavonol-3-O-glucoside L-rhamnosyltransferase,F(xiàn)G2),結(jié)合金線蓮中已經(jīng)被報(bào)道的黃酮類成分,推測(cè)其生物合成途徑見(jiàn)圖8。
Figure 8 Probable flavonoids biosynthesis pathway of AR
本研究首次對(duì)金線蓮采用第2代轉(zhuǎn)錄組測(cè)序技術(shù)進(jìn)行測(cè)序。通過(guò)該技術(shù)共得到金線蓮的51 370 條Unigenes,在Nr、GO、Swiss-Prot、KO和KOG 5個(gè)數(shù)據(jù)庫(kù)中均有大量基因被注釋,為金線蓮的育種開(kāi)發(fā)及有效成分生物合成研究提供基礎(chǔ)。課題組前期開(kāi)展了金線蓮黃酮在根、莖、葉的分布,其中金線蓮中葉的總黃酮含量占全草的總黃酮含量超過(guò)80%,而莖和根約各占不到10%,為了更好的表征金線蓮黃酮的合成相關(guān)基因的變化,本研究選擇其表達(dá)量最為豐富的葉部位進(jìn)行轉(zhuǎn)錄組研究。此外,本研究還首次同時(shí)結(jié)合Q-PCR技術(shù)和化學(xué)成分含量測(cè)定對(duì)金線蓮轉(zhuǎn)錄組測(cè)序結(jié)果進(jìn)行驗(yàn)證。
在不同生長(zhǎng)時(shí)期的金線蓮兩兩比較中,有較多的基因具有顯著性差異,通過(guò)KEGG通路富集分析,主要差異基因主要涉及黃酮類生物合成、苯丙素生物合成、α-亞麻酸代謝和氰氨基酸代謝4條通路。黃酮類生物合成通路中大部分關(guān)鍵酶的表達(dá)量基本呈現(xiàn)上升趨勢(shì),經(jīng)過(guò)Q-PCR驗(yàn)證和化學(xué)成分含量檢測(cè),AR3的黃酮類成分合成相關(guān)酶的表達(dá)高于AR1,與總黃酮含量變化一致。而AR1和AR2相比,C4H酶的表達(dá)量顯著升高,CCOMT、CHS、F3′5′H等酶的相關(guān)基因表達(dá)量具有上升趨勢(shì)。黃酮生物合成關(guān)鍵酶具有遺傳多樣性,基因表達(dá)比較復(fù)雜,整個(gè)黃酮類成分的生物合成具有復(fù)雜性,合成途徑存在許多交叉點(diǎn)[19-20],化合物的含量變化可能是由于多個(gè)酶進(jìn)行調(diào)控的,有待更進(jìn)一步深入研究金線蓮的黃酮類成分生物合成網(wǎng)絡(luò)調(diào)控。
本研究依靠轉(zhuǎn)錄組學(xué)技術(shù)揭示金線蓮黃酮類成分生物合成途徑,能夠?yàn)榻鹁€蓮的黃酮類成分生物合成及調(diào)控機(jī)制的相關(guān)研究奠定基礎(chǔ)。
致 謝:本項(xiàng)目在福建省科技廳重點(diǎn)實(shí)驗(yàn)室和福建省中藥資源研究與開(kāi)發(fā)利用重點(diǎn)實(shí)驗(yàn)室完成。