, , , ,b,,培堯
(1.西南林業(yè)大學(xué) a.西南山地森林資源保育與利用教育部重點(diǎn)實(shí)驗(yàn)室;b.國(guó)家林業(yè)和草原局西南地區(qū)生物多樣性保育重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650224;2.畢節(jié)市林業(yè)科學(xué)研究所,貴州 畢節(jié) 551700;3.云南省大圍山國(guó)家級(jí)自然保護(hù)區(qū)河口管理分局,云南 河口 661399)
云南金花茶Camellia fascicularisH.T.Chang為山茶科Theaceae 山茶屬Camellia金花茶組的常綠木本植物[1]。其現(xiàn)有野生資源僅600 株左右,屬于我國(guó)二級(jí)保護(hù)植物,同時(shí)也被云南省認(rèn)定為特有極小種群植物[2]。云南金花茶間斷分布于河口及其周邊個(gè)舊市和馬關(guān)縣的溝谷或山坡海拔400 ~1 000 m 濕潤(rùn)肥沃的土壤中,耐貧瘠[3]。云南金花茶花形嬌艷多姿,呈金黃色,除具有園林觀(guān)賞價(jià)值外,還具有降血脂、抗氧化、抑制癌細(xì)胞等功效[4-6]。近年來(lái),有關(guān)云南金花茶的研究報(bào)道主要集中在繁育技術(shù)、離體培養(yǎng)體系建立、保健功效、營(yíng)養(yǎng)成分分析以及化學(xué)元素研究[7-11]等方面,而在分子水平的研究少有報(bào)道,僅見(jiàn)本課題組利用SSR 分子標(biāo)記技術(shù)對(duì)云南金花茶遺傳多樣性的分析[12]。
隨著分子生物學(xué)相關(guān)知識(shí)和技術(shù)的快速升級(jí),利用轉(zhuǎn)錄組測(cè)序(RNA-seq)技術(shù)獲得基因信息,對(duì)植物進(jìn)行生物信息學(xué)分析的方法得到廣泛應(yīng)用。使用RNA-seq 技術(shù)可在獲得大量物種注釋序列信息的同時(shí),挖掘出生物重要的功能基因,因此該技術(shù)成為研究缺乏功能組學(xué)和基因組學(xué)信息的物種優(yōu)良性狀和基因功能的重要手段[13-15]。伴隨高通量測(cè)序技術(shù)的不斷進(jìn)步與完善,RNA-seq 成本不斷降低,核苷酸的檢測(cè)也更精準(zhǔn)和快捷[16-19]。目前,該技術(shù)在前基因組學(xué)和后基因組學(xué)的研究中均有應(yīng)用。魏開(kāi)發(fā)等[20]對(duì)火龍果Hylocereus undatus進(jìn)行RNA-seq,研究不同發(fā)育階段中花芽、果實(shí)和枝條基因的表達(dá)情況,并將組裝得到的Unigene 進(jìn)行注釋?zhuān)Y(jié)果發(fā)現(xiàn),在火龍果不同組織中分別有多個(gè)特異表達(dá)的Unigenes。宋猜等[21]對(duì)采于花芽萌動(dòng)前后3 個(gè)發(fā)育時(shí)期的仁用杏Armeniaca vulgaris花芽進(jìn)行轉(zhuǎn)錄組測(cè)序,試驗(yàn)數(shù)據(jù)可提供大量仁用杏開(kāi)花相關(guān)基因的信息,可為研究仁用杏成花分子機(jī)制及解決仁用杏花期凍害問(wèn)題提供理論依據(jù)。張賢等[22]通過(guò)RNA-seq 對(duì)芒草Miscanthus sinensis的74 134 條Unigenes 進(jìn) 行不同功能領(lǐng)域數(shù)據(jù)庫(kù)注釋?zhuān)浣Y(jié)果可為進(jìn)一步鑒定中國(guó)芒草的功能基因提供參考。另有學(xué)者對(duì)百香果Passiflora edulis[23]、云錦杜鵑Rhododendron fortunei[24]、桐花樹(shù)Aegiceras corniculatum[25]進(jìn)行了相關(guān)研究。目前,僅見(jiàn)葉鵬等[12]對(duì)云南金花茶轉(zhuǎn)錄組微衛(wèi)星序列的分布與特征進(jìn)行了探討,而有關(guān)其基因功能注釋、代謝途徑和代謝通路方面的分析未見(jiàn)報(bào)道。本研究中對(duì)云南金花茶進(jìn)行高通量轉(zhuǎn)錄組測(cè)序,獲得大量原始數(shù)據(jù)的同時(shí),對(duì)其進(jìn)行拼接與組裝處理,建立RNA-seq 數(shù)據(jù)庫(kù),并將處理后的數(shù)據(jù)在7 大公共數(shù)據(jù)庫(kù)進(jìn)行功能注釋、代謝途徑和相關(guān)通路分析,以期為云南金花茶乃至山茶屬植物功能基因的探索提供一定的理論參考。
在云南省河口縣(103°97′E,22°52′N(xiāo))海拔1 036 m 的陽(yáng)坡地帶采集云南金花茶植株,引種到西南林業(yè)大學(xué)溫室大棚中。選用1 份云南金花茶幼嫩葉片作為試驗(yàn)材料,用錫箔紙包好放入液氮中,備用。
1.2.1 轉(zhuǎn)錄組測(cè)序
首先提取云南金花茶RNA,然后構(gòu)建cDNA數(shù)據(jù)庫(kù),繼而利用Illumina HiseqTM 2000 平臺(tái)對(duì)云南金花茶進(jìn)行轉(zhuǎn)錄組測(cè)序。此部分工作由北京諾禾源科技股份有限公司完成。
1.2.2 序列組裝
RNA-seq 測(cè)序完成后,統(tǒng)計(jì)raw reads 的數(shù)量和長(zhǎng)度。原始數(shù)據(jù)中含有低質(zhì)量序列、重復(fù)冗余序列、接頭和無(wú)法確定堿基信息的序列,必須將上述序列去除,以獲得clean reads,繼而統(tǒng)計(jì)clean reads 的數(shù)量、總長(zhǎng)度、處理后不確定序列所占比例、GC 堿基所占比例、N50(拼接轉(zhuǎn)錄本不小于總長(zhǎng)50%的長(zhǎng)度)以及Q20(處理后質(zhì)量高于20的堿基)所占比例等。對(duì)clean reads 通過(guò)Trinity Software(http:///trinityrnaseq.Github.io/) 進(jìn) 行de novo 組裝。首先利用clean reads 之間的overlap 將其向兩邊伸展形成序列重疊克隆群(contig),再依據(jù)序列雙末端的信息對(duì)contig 進(jìn)行再次連接,得到該樣品的Transcript,去除Transcript 冗余reads 獲得Unigene 后,進(jìn)行Transcript 和Unigene的分布和長(zhǎng)度分析[26]。
1.2.3 基因功能注釋、分類(lèi)及生物學(xué)通路分析
將處理得到的Unigene 在7 個(gè)不同功能領(lǐng)域的公共數(shù)據(jù)庫(kù)中進(jìn)行基因功能注釋和分類(lèi)分析,從而獲得較全面的云南金花茶基因功能信息。數(shù)據(jù)庫(kù)包括:Nr(Non-Redundant Protein Database,非冗余蛋白數(shù)據(jù)庫(kù))、Nt(Nucleotide Sequence Database,核酸序列數(shù)據(jù)庫(kù))、Pfam(Pfam Protein Sequence Database,Pfam 蛋白序列數(shù)據(jù)庫(kù))、KOG(euKaryotic Ortholog Groups,真核生物蛋白直系同源數(shù)據(jù)庫(kù))、Swiss-Prot(Swiss-ProtProtein Database,Swiss-Prot 蛋白質(zhì)序列數(shù)據(jù)庫(kù))、KEGG(Kyoto Encyclopedia of Genes and Genomes,基因組百科全書(shū))、GO(Gene Ontology,基因本體數(shù)據(jù)庫(kù))[27]。使用BLAST 軟件將Unigene 在Nr、Nt、Swiss-Prot 等數(shù)據(jù)庫(kù)中進(jìn)行比對(duì)(e-value <1×10-5),獲取相關(guān)基因注釋。比對(duì)到Nr 數(shù)據(jù)庫(kù)中[28],從而獲取云南金花茶基因序列相似性和物種分布信息。依據(jù)Nr 中注釋的結(jié)果,在Blast2GO 數(shù)據(jù)庫(kù)比對(duì),得到GO 功能注釋信息[29]。GO 數(shù)據(jù)庫(kù)包括3 大類(lèi)別,分別為生物過(guò)程、分子功能與細(xì)胞組分,以此可以宏觀(guān)解讀云南金花茶基因功能的分布及特征[30]。將Unigene比對(duì)到KOG 數(shù)據(jù)庫(kù)中,并按可能的功能對(duì)獲得結(jié)果的Unigene 進(jìn)行分類(lèi)與統(tǒng)計(jì);另外,對(duì)Unigene進(jìn)行KEGG 數(shù)據(jù)庫(kù)相關(guān)通路(包括細(xì)胞過(guò)程、遺傳信息處理、新陳代謝、環(huán)境信息處理、有機(jī)系統(tǒng)5 大類(lèi)別)分析,了解云南金花茶的代謝通路以及各通路之間的關(guān)系[31]。
1.2.4 云南金花茶轉(zhuǎn)錄組Unigene 的CDS 預(yù)測(cè)
將Unigene 序列依次比對(duì)到Nr(https://www.ncbi.nlm.nih.gov/)、Swiss-Prot(http://www.ebi.ac.uk/uniprot/)、KEGG(http://www.genome.jp/kegg/)、KOG(http://www.ncbi.nlm.nih.gov/COG/)等蛋白數(shù)據(jù)庫(kù)中,對(duì)于未比對(duì)上或未預(yù)測(cè)到結(jié)果的序列,使用ESTScan(3.0.3)軟件進(jìn)行預(yù)測(cè)。
通過(guò)RNA-seq,共得到云南金花茶57 051 836條原始序列。將原始序列中的接頭(dadpter)、低質(zhì)量reads、重復(fù)冗余以及不確定堿基含量超過(guò)10%的讀序經(jīng)處理后,獲得54 817 600條有效序列,總長(zhǎng)為8.22 Gb,Q20、Q30(處理后質(zhì)量高于30的堿基)高質(zhì)量序列分別占96.39%和91.28%,GC 含量占總堿基數(shù)的44.54%,堿基錯(cuò)誤率為0.02%,說(shuō)明由高通量測(cè)序平臺(tái)獲得了較高數(shù)量和質(zhì)量的云南金花茶序列,有利于后續(xù)數(shù)據(jù)的組裝,滿(mǎn)足后期生物信息學(xué)的研究。得到的clean reads經(jīng)de novo 組裝后,共獲得155 011 條Transcript,這些Transcript 經(jīng)進(jìn)一步組裝之后,得到95 979 條Unigenes,序列信息達(dá)107 907 727 nt。對(duì)Transcript的序列長(zhǎng)度分析結(jié)果表明,其平均長(zhǎng)度是807 nt,N50是1 411 nt。其中,以200~500 nt的短序列居多,有85 904 條,占總數(shù)的55.42%;500 ~1 000 nt長(zhǎng)度的序列為30 871 條,占總數(shù)的19.92%;1 000 ~2 000 nt 長(zhǎng)度的序列為23 853 條,占總數(shù)的15.39%;大于等于2 000 nt 長(zhǎng)度的序列占總數(shù)的9.28%(圖1A)。Unigene 分析統(tǒng)計(jì)結(jié)果表明,其平均長(zhǎng)度為1 124 nt,N50 為1 660 nt,其中1 000 ~2 000 nt 的序列占總序列的24.84%,超過(guò)2 000 nt 的序列占14.99%。通過(guò)對(duì)高通量RNA-seq得到的大量序列進(jìn)行處理,經(jīng)組裝后Unigenes 數(shù)據(jù)的完整性明顯提高,可進(jìn)行下一步的分析統(tǒng)計(jì)(圖1B)。
將獲得的95 979 條Unigenes 通過(guò)BLAST軟件在7 大數(shù)據(jù)庫(kù)進(jìn)行比對(duì), 共有63 888(66.56%)條Unigenes 獲得注釋。其中,在Nr(e-value ≤1×10-5)注釋成功 的Unigenes 有58 830 條,占Unigenes 總數(shù)量的61.29%;在Nt(e-value ≤1×10-5)注釋成功43 623 條,占總數(shù)的45.45%;在KEGG(e-value ≤1×10-10)注釋成功的有23 214 條,占總數(shù)的24.18%;在Swiss-Prot(e-value ≤1×10-5)注釋成功的有44 315 條,占總數(shù)的46.17%;在Pfam(e-value ≤0.01)注釋成功的有41 096 條,占總數(shù)的42.81%;在GO(e-value ≤1×10-6)注釋成功的有41 905 條,占總數(shù)的43.66%;在KOG(e-value ≤1×10-3)注釋成功的有23 499 條,占總數(shù)的24.48%。在7 大數(shù)據(jù)庫(kù)中均能得到成功注釋的序列數(shù)目為11 933條,占總數(shù)的12.43%,其中63 888 條序列至少在1 個(gè)數(shù)據(jù)庫(kù)中注釋成功,占總數(shù)的66.56%。
圖1 云南金花茶轉(zhuǎn)錄組組裝序列長(zhǎng)度分布Fig.1 Length distribution of assembly transcript andunigenes for C.fascicularis
2.2.1 云南金花茶轉(zhuǎn)錄組Unigene 的Nr 功能注釋
通過(guò)Nr 庫(kù)比對(duì),云南金花茶有58 830 條Unigenes 在Nr 數(shù)據(jù)庫(kù)中找到相似序列,注釋匹配的物種主要有葡萄Vitis vinifera、中粒咖啡Coffea canephora、可可樹(shù)Theobroma cacao、荷花Nelumbo nucifera、芝麻Sesamum indicum這5類(lèi),其中獲得注釋基因最多的是葡萄,有29.9%,中??Х?、可可樹(shù)、荷花、芝麻分別僅占5.6%、5.3%、4.8%、4.7%,其余49.7%的注釋基因分布于其他物種。從這些注釋的信息中可以得出,云南金花茶的大部分序列均可以在被子植物中得到相應(yīng)的匹配。從e-value 分布(圖2A)可以看到,有44.2%的e-value 分布于l×10-100~l×10-45,有30%的e-value 分布于l×10-45~l×10-5,當(dāng)e-value為0 時(shí)占25.8%。此外,有49.5%的序列相似度可達(dá)80%~95%,甚至有9.3%的序列相似度達(dá)到95%~100%,僅7.7%的序列相似度在60%以下,可以看出物種的序列相似度較高(圖2B)??傮w而言,從e-value 和序列相似度分布情況可看出,云南金花茶在Nr 數(shù)據(jù)庫(kù)中比對(duì)的匹配度較高,但是由于缺乏云南金花茶一些基因組及轉(zhuǎn)錄組信息,導(dǎo)致部分Unigene 在數(shù)據(jù)庫(kù)中未得到匹配。
2.2.2 云南金花茶轉(zhuǎn)錄組Unigene 的GO 功能注釋
根據(jù)Nr 注釋成功的基因進(jìn)行GO 功能分類(lèi)注釋?zhuān)浣Y(jié)果如圖3所示。分析結(jié)果表明,共有41 905 條Unigene 注釋了224 129 個(gè)GO功能,占Unigenes 總數(shù)量的43.66%。按3 大功能類(lèi)別劃分,生物過(guò)程功能類(lèi)別基因序列為107 044 條,占總數(shù)的47.76%;細(xì)胞組分功能類(lèi)別65 990 條,占總數(shù)的29.44%;分子功能類(lèi)別51 095 條,占總數(shù)的22.80%。由此可知,在生物過(guò)程功能類(lèi)別中所注釋的基因比例最大。3 個(gè)功能大類(lèi)進(jìn)一步可劃分為56 個(gè)GO 功能亞類(lèi),分別包括25、21 和10 個(gè)亞類(lèi)。在生物過(guò)程包含的25 個(gè)功能亞類(lèi)中,獲得注釋偏多的分別是代謝過(guò)程、細(xì)胞過(guò)程、單一有機(jī)體過(guò)程,分別占該類(lèi)型的20.970%、22.570%和16.750%,細(xì)胞聚合過(guò)程所得到注釋的比例最少,僅有0.008%。在細(xì)胞組分類(lèi)別中,細(xì)胞和細(xì)胞部分所得到的注釋居多,分別為12 867 和12 865 條,均約占細(xì)胞組分這一大類(lèi)的19.500 0%,而細(xì)胞外基質(zhì)組分、擬核、共質(zhì)體得到注釋較少,分別占0.006 1%、0.007 6%、0.006 1%。分子功能類(lèi)別中,結(jié)合、催化活性得到的注釋較多,各占所屬分類(lèi)總數(shù)的46.830 0%和38.100 0%,而金屬伴侶蛋白活性所得注釋最少,僅占0.005 9%。上述GO 功能注釋結(jié)果顯示了云南金花茶葉片中基因表達(dá)的基本情況,可以看出,在56 個(gè)功能亞類(lèi)中,生物過(guò)程中代謝活動(dòng)相關(guān)的基因量較多,說(shuō)明云南金花茶有著較強(qiáng)的代謝能力。
圖2 云南金花茶轉(zhuǎn)錄組Unigenes 的Nr 注釋分類(lèi)Fig.2 Annotation category on unigenes Nr in transcriptome of C.fascicularis
圖3 云南金花茶轉(zhuǎn)錄組Unigene 的GO 功能分類(lèi)Fig.3 GO classification of unigenes in transcriptome for C.fascicularis
2.2.3 云南金花茶轉(zhuǎn)錄組Unigene 的KOG 功能注釋與分類(lèi)
將獲得的Unigene 進(jìn)行KOG 蛋白數(shù)據(jù)庫(kù)分類(lèi)注釋?zhuān)浣Y(jié)果如圖4所示。分析結(jié)果表明,在KOG 中有23 499 條Unigenes 能夠匹配,占總數(shù)的24.480%,共獲得KOG 功能注釋信息26 430 個(gè),根據(jù)比對(duì)結(jié)果可分為26 個(gè)功能大類(lèi),包括能量產(chǎn)生、轉(zhuǎn)化,次生代謝物的生物合成、加工、運(yùn)輸?shù)炔煌?lèi)別的基因表達(dá)。其中,主要為一般功能預(yù)測(cè)基因,占總數(shù)的16.620%;其次是翻譯后修飾、蛋白質(zhì)轉(zhuǎn)化和分子伴侶基因,占總數(shù)的11.630%;信號(hào)傳導(dǎo)機(jī)制(8.310%),轉(zhuǎn)錄(5.420%),RNA 加工和修飾(5.360%),胞內(nèi)運(yùn)輸、分泌和膜泡運(yùn)輸(5.310%)的功能基因也占有較高的比例。而胞外結(jié)構(gòu)所獲得的功能注釋信息最少,僅有54 個(gè),占總數(shù)的0.020%??梢?jiàn),云南金花茶在轉(zhuǎn)錄、翻譯和蛋白質(zhì)運(yùn)輸?shù)确矫娴幕虮磉_(dá)量較多。此外,還有1 個(gè)未知蛋白,不能獲知其具體生物學(xué)功能,占總數(shù)的0.004%。
2.2.4 云南金花茶轉(zhuǎn)錄組Unigene 的KEGG 代謝通路分析
將獲得的Unigene 比對(duì)到KEGG 數(shù)據(jù)庫(kù)中,共有23 214 條Unigenes 獲得注釋?zhuān)伎俇nigenes數(shù)量的24.18%。根據(jù)其涉及的代謝通路可將云南金花茶Unigenes 歸為5 大類(lèi)別和19 個(gè)亞類(lèi),其結(jié)果如圖5所示。
圖4 云南金花茶轉(zhuǎn)錄組Uingenes 的KOG 功能注釋分布Fig.4 KOG functional annotation distribution of unigenes in transcriptome for C.fascicularis
圖5 云南金花茶轉(zhuǎn)錄組Unigene 的KEGG 分類(lèi)Fig.5 KEGG classification of C.fascicularis Unigene
通過(guò)對(duì)圖5中相關(guān)通路分類(lèi)下Unigenes 的具體分析統(tǒng)計(jì)發(fā)現(xiàn):5 大類(lèi)別中代謝通路所占比例最多,有9 584 條Unigenes,占總數(shù)的55.94%;其次是遺傳信息處理相關(guān)的通路,占27.46%;而環(huán)境信息處理和細(xì)胞過(guò)程中相關(guān)的通路,皆占6.60%;有機(jī)系統(tǒng)相關(guān)的通路最少,僅占4.93%。將5 大類(lèi)別進(jìn)一步細(xì)分為亞類(lèi),其中代謝相關(guān)的通路可分為11 個(gè)亞類(lèi),以糖類(lèi)代謝居多,占注釋Unigenes 總數(shù)的19.99%。其次為整體映射相關(guān)的通路,占總數(shù)的14.80%,萜類(lèi)化合物和聚酮化合物的代謝相關(guān)通路最少,所占比例僅為4.22%。另外,遺傳信息處理相關(guān)的通路分為4 個(gè)亞類(lèi),翻譯相關(guān)的通路最多,占總數(shù)的38.41%;其次為折疊、分選和降解通路,占32.87%;復(fù)制和修復(fù)通路所占比例最少,僅為11.99%。在環(huán)境信息處理通路中,僅包括2 個(gè)亞類(lèi),以信號(hào)傳導(dǎo)通路居多,占87.92%。細(xì)胞過(guò)程和有機(jī)系統(tǒng)相關(guān)的通路均僅1 個(gè)亞類(lèi),分別占6.60%和4.93%。在KEGG 代謝通路分析結(jié)果中,代謝通路類(lèi)別所獲得的注釋基因最多,表明云南金花茶在這一時(shí)期有較強(qiáng)的代謝活動(dòng)。
蛋白數(shù)據(jù)庫(kù)的比對(duì)結(jié)果顯示,有60 939 條Unigene 比對(duì)到蛋白庫(kù)中,另預(yù)測(cè)到有26 428 條CDS,其長(zhǎng)度分布如圖6所示。從blast 比對(duì)得到的CDS 長(zhǎng)度分布(圖6A)可看出,達(dá)到1 000 nt以上長(zhǎng)度的CDS 序列,占CDS 總數(shù)的30.59%,其中1 000 ~2 000 nt 長(zhǎng)度的CDS 序列占總數(shù)的22.940%,2 000 ~9 000 nt 長(zhǎng)度的CDS 序列占總數(shù)的7.630%,9 000 nt 以上長(zhǎng)度的CDS 序列占0.260%。通過(guò)ESTScan 預(yù)測(cè)的CDS 長(zhǎng)度集中分布于100 ~500 nt,占82.100%,有極少數(shù)序列的長(zhǎng)度在9 000 nt 以上,占0.004%(圖6B)。
圖6 云南金花茶轉(zhuǎn)錄組Unigene 的CDS 序列長(zhǎng)度分布Fig.6 CDS length distribution of transcriptome for C.fascicularis
采用Illumina HiSeq 2000 高通量測(cè)序可以同時(shí)完成前基因組學(xué)研究(測(cè)序和注釋?zhuān)┮约昂蠡蚪M學(xué)(基因表達(dá)及調(diào)控,基因功能,蛋白和核酸相互作用)研究。目前,此項(xiàng)技術(shù)已被應(yīng)用于鐵皮石斛Dendrobium officinale[32]、馬尾松Pinus massoniana[33]、云南松Pinus yunnanensis[34]、紅 豆杉Taxus chinensis[35]等多個(gè)物種基因組的分析。鑒于此,本研究中采用RNA-seq 技術(shù)對(duì)云南金花茶進(jìn)行測(cè)序,獲得95 979 條Unigene,平均長(zhǎng)度為807 bp,結(jié)果與其他茶科植物如油茶Camellia oleifera[36]、紫芽茶樹(shù)Camellia sinensis(Linn.) O.Kuntze[37]、“紫鵑”茶樹(shù)Camellia sinensisvar.Zijuan[38]等相比,拼接完整性較好。從整體上看,通過(guò)對(duì)云南金花茶Unigene 總長(zhǎng)、GC 含量、堿基正確率、序列Q20 的分析,測(cè)序獲得的序列質(zhì)量較高,數(shù)量較多,可為后續(xù)云南金花茶基因功能分析、分子標(biāo)記開(kāi)發(fā)、代謝通路等方面的研究提供參考。
通過(guò)Nr 數(shù)據(jù)庫(kù)比對(duì),有58 830(占總數(shù)的61.29%)條序列在不同物種均有相應(yīng)的注釋?zhuān)渲凶⑨屍ヅ涞奈锓N主要為葡萄,有29.9%,其次為中??Х?、可可樹(shù)等。從這些成功匹配的物種可以看出,云南金花茶的大部分序列均可以在被子植物中得到匹配。通過(guò)KOG 數(shù)據(jù)庫(kù)比對(duì),注釋成功的KOG 功能信息為26 430 個(gè),將其分為26 個(gè)功能大類(lèi),一般功能參與的基因最多,其次是翻譯后修飾、蛋白質(zhì)轉(zhuǎn)化和伴侶基因。這與蔣會(huì)兵等[37]經(jīng)研究得出的紫芽茶樹(shù)轉(zhuǎn)錄組KOG 功能注釋?zhuān)?6 個(gè)KOG 功能類(lèi)別)分布大體一致。在KOG 注釋中有0.004%的未知蛋白,難以確定其具體生物功能,可能是注釋信息不完善所導(dǎo)致,這種情況在其他物種轉(zhuǎn)錄組分析中也有出現(xiàn),如金錢(qián)松Pseudolarix amabilis[39]、云南松[34]、文冠果Xanthoceras sorbifolia[40]等。通過(guò)GO 數(shù)據(jù)庫(kù)比對(duì),共獲得224 129 個(gè)GO 功能信息,按其具體的序列信息又可分為3 個(gè)大類(lèi)和56 個(gè)亞類(lèi),其基因主要分布于細(xì)胞過(guò)程、代謝過(guò)程和單一有機(jī)體過(guò)程,且在56 個(gè)功能亞類(lèi)中,生物過(guò)程中代謝活動(dòng)相關(guān)的基因量較多,由此可看出,金花茶的代謝能力較強(qiáng)。根據(jù)KEGG 代謝通路分析結(jié)果,共有23 214(24.18%)條序列注釋成功,按照注釋結(jié)果可將其劃分為5 大類(lèi)別和19 個(gè)亞類(lèi),其中代謝通路相關(guān)基因所占比例最高,表明云南金花茶在整個(gè)時(shí)期均有較強(qiáng)的代謝活動(dòng)。其基因注釋分布特征與李明璽等[41]對(duì)靖安白茶轉(zhuǎn)錄組KEGG 注釋結(jié)果基本一致。將云南金花茶Unigene 通過(guò)ESTScan進(jìn)行預(yù)測(cè),共獲得26 428 條CDS,其長(zhǎng)度集中分布于100 ~500 nt,而蔡年輝等[34]對(duì)云南松轉(zhuǎn)錄組Unigene 的CDS 預(yù)測(cè)結(jié)果顯示其長(zhǎng)度集中分布于200 ~1 000 nt,說(shuō)明不同物種間存在較大差異。
通過(guò)7 個(gè)不同功能領(lǐng)域的基因蛋白數(shù)據(jù)庫(kù)注釋?zhuān)梢钥闯鲈颇辖鸹ú杷蛐畔⒇S富,通過(guò)分析所有注釋信息,可以更深層次地探索其基因組信息和基因分布情況。盡管這些Unigenes 序列并未覆蓋整個(gè)云南金花茶蛋白編碼區(qū),但所注釋成功的基因仍有助于云南金花茶功能基因的挖掘和利用,以及為山茶屬植物遺傳育種等方面的研究提供理論參考。在注釋中還有33.44%的Unigenes 未注釋成功,這些Unigenes 序列可能為其他未編碼RNA 序列和未含有蛋白質(zhì)功能信息的序列,也可能是因?yàn)榛驍?shù)據(jù)庫(kù)中信息不足所導(dǎo)致。本研究結(jié)果也可為后續(xù)云南金花茶基因組水平的研究及遺傳改良等方面的研究提供一定的參考,且可為云南金花茶的分子標(biāo)記開(kāi)發(fā)以及抗逆機(jī)理研究提供數(shù)據(jù)。