周錢森,任憲云,史鯤鵬,于振興,劉 萍,李 健
(1.水產(chǎn)科學(xué)國(guó)家級(jí)實(shí)驗(yàn)教學(xué)示范中心(上海海洋大學(xué)),上海 201306;2.中國(guó)水產(chǎn)科學(xué)研究院黃海水產(chǎn)研究所,農(nóng)業(yè)農(nóng)村部海洋漁業(yè)可持續(xù)發(fā)展重點(diǎn)實(shí)驗(yàn)室,青島 266071;3.青島海洋科學(xué)與技術(shù)試點(diǎn)國(guó)家實(shí)驗(yàn)室,海洋漁業(yè)科學(xué)與食物產(chǎn)出過(guò)程功能實(shí)驗(yàn)室,青島 266071)
隨著高通量測(cè)序技術(shù)的發(fā)展,轉(zhuǎn)錄組測(cè)序在基因表達(dá)水平分析和差異表達(dá)分析、新基因的挖掘、尋找單核苷酸多態(tài)性及應(yīng)用、基因功能注釋等方面都有所應(yīng)用,在生物研究中發(fā)揮重要作用[1]。目前為止,大多數(shù)轉(zhuǎn)錄組測(cè)序研究利用以illumina平臺(tái)為代表的二代測(cè)序技術(shù),其測(cè)序長(zhǎng)度遠(yuǎn)遠(yuǎn)低于真核生物RNA長(zhǎng)度[2-4]。以PacBio平臺(tái)為代表的第三代測(cè)序技術(shù)因其強(qiáng)大的讀長(zhǎng)優(yōu)勢(shì),有效地解決了二代測(cè)序技術(shù)由于讀長(zhǎng)限制引起拼接不完整的問(wèn)題[5]。PacBio平臺(tái)單分子實(shí)時(shí)測(cè)序技術(shù),又稱SMRT(single molecule realtime)測(cè)序,SMRT cell可以在高GC含量區(qū)域完全跨過(guò),確保序列的均勻覆蓋度,并且DNA建庫(kù)過(guò)程中,不需要進(jìn)行PCR擴(kuò)增,避免了PCR冗余和覆蓋度不均一的問(wèn)題,數(shù)據(jù)精準(zhǔn)度可以達(dá)到99.9%[6-7]。PacBio SMRT測(cè)序借助其諸多優(yōu)勢(shì),近些年在水產(chǎn)領(lǐng)域研究中得到廣泛應(yīng)用,張金勇等[8]對(duì)金烏賊(Sepiaesculenta)采用全長(zhǎng)轉(zhuǎn)錄組測(cè)序獲得高質(zhì)量的生物學(xué)數(shù)據(jù)信息,篩選SSR位點(diǎn)并分析了其分布及組成特征??讎[蘭等[9]通過(guò)對(duì)竹筴魚(yú)(Trachurusjaponicus)高通量測(cè)序,篩選獲得27個(gè)具有多態(tài)性的微衛(wèi)星標(biāo)記,利用一個(gè)竹筴魚(yú)群體對(duì)通過(guò)篩選的微衛(wèi)星標(biāo)記的種群遺傳學(xué)特征進(jìn)行評(píng)價(jià)。ZHANG等[10]通過(guò)三代與二代測(cè)序技術(shù)相結(jié)合挖掘施氏鱘(Acipenserschrenckii)性腺中早期配子發(fā)生的相關(guān)基因,更好地了解其生殖調(diào)控機(jī)制。本研究采用三代測(cè)序技術(shù)的PacBio SMRT平臺(tái)對(duì)錦繡龍蝦(Panulirusornatus)進(jìn)行全長(zhǎng)轉(zhuǎn)錄組測(cè)序,通過(guò)生物信息學(xué)方法對(duì)所測(cè)的序列進(jìn)行拼接、分類、功能注釋和代謝途徑分析,獲得錦繡龍蝦豐富的序列信息,旨在為進(jìn)一步挖掘錦繡龍蝦相關(guān)功能基因、基因組學(xué)及開(kāi)發(fā)分子標(biāo)記等研究奠定基礎(chǔ)。
錦繡龍蝦隸屬于節(jié)肢動(dòng)物門(Arthropoda),甲殼綱(Crustacea),十足目(Decapoda),龍蝦科(Palinuridae),龍蝦屬,在已知的19個(gè)種類的龍蝦中錦繡龍蝦是其中較為珍貴的優(yōu)質(zhì)水產(chǎn)品,其體型較大、營(yíng)養(yǎng)豐富、脂肪含量低、味道鮮美[11-12],主要分布在熱帶印度洋東部、東南亞、澳大利亞和西太平洋地區(qū)[13],生長(zhǎng)速度快于波紋龍蝦(P.homarus)、中國(guó)龍蝦(P.stimpsoni)、雜色龍 蝦(P.versicolor)和 黃 斑 龍 蝦(P.polyphagus)等[14]。作為寶貴的海洋漁業(yè)資源,錦繡龍蝦因遭受高強(qiáng)度捕撈,資源量急劇減少。目前,錦繡龍蝦育苗尚未取得成功,亟需開(kāi)展人工繁殖相關(guān)研究以保護(hù)和增殖資源[15]。錦繡龍蝦基因組測(cè)序亦未完成,其基因序列信息還比較匱乏,相關(guān)的分子遺傳基礎(chǔ)也很薄弱,因此本研究利用高通量測(cè)序技術(shù)對(duì)錦繡龍蝦全長(zhǎng)轉(zhuǎn)錄組測(cè)序,以期為后期相關(guān)功能基因的研究以及種質(zhì)繁育等提供理論支持和數(shù)據(jù)支撐。
實(shí)驗(yàn)所用錦繡龍蝦購(gòu)于海南省瓊海市博鰲鎮(zhèn)永賀生物科技有限責(zé)任公司,隨機(jī)挑選3只體表完整無(wú)明顯傷痕、活力好、規(guī)格整齊的龍蝦進(jìn)行取樣,分別取鰓、肝胰腺、肌肉、胃、腸、腦和心臟組織,迅速放入液氮中保存,用于后續(xù)的RNA提取。
采用Trizol法[16]分別提取錦繡龍蝦鰓、肝胰腺、肌肉、胃、腸、腦和心臟組織總RNA,利用瓊脂糖凝膠電泳分析RNA是否存在污染;通過(guò)Nanodrop測(cè)取OD260/280比值檢測(cè)RNA濃度;Qubit精確定量RNA濃度;Agilent 2100判斷RNA的完整性。選取符合標(biāo)準(zhǔn)的各組織RNA等量混合構(gòu)建測(cè)序文庫(kù)。
將各組織混合后的RNA用Oligo(dT)的磁珠富集含有polyA的mRNA,然后通過(guò)SMARTer PCR cDNA Synthesis Kit反轉(zhuǎn)錄為cDNA,循環(huán)優(yōu)化選取最合適的條件,通過(guò)PCR大規(guī)模擴(kuò)增利用磁珠篩選的片段,獲得一定數(shù)量的cDNA,全長(zhǎng)cDNA進(jìn)行末端修復(fù)、損傷修復(fù)、連接SMRT啞鈴型接頭,構(gòu)建全長(zhǎng)轉(zhuǎn)錄組文庫(kù)。核酸外切酶消化,剔除cDNA左右端未連接的序列,最終通過(guò)DNA聚合酶結(jié)合引物,形成完整的文庫(kù)。測(cè)序由北京諾禾致源科技股份有限公司完成。
采用SMRTlink(PacBio)處理原始下機(jī)數(shù)據(jù)獲得子序列,校正子序列獲得環(huán)形一致性序列(circular consensus sequence,CCS),然后根據(jù)環(huán)形一致性序列是否含有3′端引物、5′端引物以及polyA尾將其分為全長(zhǎng)序列與非全長(zhǎng)序列;再對(duì)全長(zhǎng)序列進(jìn)行聚類,獲得聚類一致序列[17];最后對(duì)得到的全長(zhǎng)序列進(jìn)行改良,獲得高質(zhì)量的一致序列用于后續(xù)分析。
利用CD-HIT軟件對(duì)獲得的改良一致序列去冗余,將錦繡龍蝦組裝所得單基因簇與公共數(shù)據(jù)庫(kù)進(jìn)行比對(duì),通過(guò)序列相似程度得出具有最高相似性的蛋白,從而對(duì)該單基因簇進(jìn)行功能注釋,利用NCBI非冗余蛋白序列數(shù)據(jù)庫(kù)(nonredundant protein sequences,NR)、NCBI核酸序列數(shù)據(jù)庫(kù)(nucleotide sequences,Nt)[18]、蛋白質(zhì)真核同源數(shù)據(jù)庫(kù)(eukaryotic orthologous groups,KOG)[19]、蛋白質(zhì)序列數(shù)據(jù)庫(kù)(SwissProt protein sequence database,SwissProt)[20]、蛋白質(zhì)家族數(shù)據(jù)庫(kù)(protein families database,Pfam)[21]、基因功能描述分類系統(tǒng)(gene ontology,GO)[22]及京都基因與基因組百科全書(shū)(Kyoto encyclopedia of genes and genomes,KEGG)[23]。
2.1.1 測(cè)序結(jié)果與數(shù)據(jù)組裝
采用PacBio Sequel測(cè)序平臺(tái)對(duì)錦繡龍蝦鰓、肝胰腺、肌肉、胃、腸腦和心臟等組織混樣進(jìn)行全長(zhǎng)轉(zhuǎn)錄組測(cè)序,共獲得39 828 440個(gè)子序列(71.1 Gb),平均子序列長(zhǎng)度為1 786 bp,N50為2 492 bp。通過(guò)每個(gè)ZMW孔中的子序列得到CCS聚類之后得到的序列數(shù)為1 018 599個(gè),序列平均長(zhǎng)度為2 377 bp,N50為2 872 bp。同時(shí)含有3′引物和5′引物,以及3′引物前含有polyA尾的全長(zhǎng)序列(full-length,F(xiàn)L)554 600個(gè),全長(zhǎng)非嵌合序列(full-length non-chimeric read,F(xiàn)LNC)543 552個(gè),序列平均長(zhǎng)度為2 055 bp,F(xiàn)LNC/CCS為53.36%。全長(zhǎng)轉(zhuǎn)錄組得到改良后一致序列28 034個(gè),序列平均長(zhǎng)度為2 250 bp。
2.1.2 CDS預(yù)測(cè)
利用ANGEL軟件對(duì)獲得的基因片段進(jìn)行蛋白編碼區(qū)預(yù)測(cè)分析[24],結(jié)果顯示一共有12 660個(gè)基因片段可視為蛋白編碼區(qū),其序列長(zhǎng)度的范圍為0~5 000 bp,主要集中于250~1 250 bp(圖1)。
圖1 CDS長(zhǎng)度分布圖Fig.1 Statistics of sequence length of CDS
2.1.3 SSR預(yù)測(cè)
簡(jiǎn)單重復(fù)序列標(biāo)記(simple sequence repeats,SSR),又稱為短串聯(lián)重復(fù)序列或微衛(wèi)星標(biāo)記。是一類由幾個(gè)核苷酸為重復(fù)單位組成的長(zhǎng)達(dá)幾十個(gè)核苷酸的重復(fù)序列,長(zhǎng)度較短,且廣泛均勻分布于真核生物基因組中。通過(guò)檢索Unigene序列,共發(fā)現(xiàn)14 277個(gè)SSR位點(diǎn),分布在8 813個(gè)Unigene中。從表1可以發(fā)現(xiàn),單核苷酸到三核苷酸重復(fù)最多,占總SSR位點(diǎn)數(shù)量的99.13%,其中單核苷酸重復(fù)以A/T重復(fù)基序最多;二核苷酸重復(fù)以AC/GT和AT/AT重復(fù)基序出現(xiàn)頻率最高;三核苷酸重復(fù)則以ATT/AAT和ATC/GAT為主要類型;四核苷酸重復(fù)則以GAAA/TTTC較多。其他五核苷酸和六核苷酸重復(fù)基元類型較多,數(shù)量非常少。
表1 錦繡龍蝦SSR不同重復(fù)基元分布情況Tab.1 Distribution of different repeat motifs in P.ornatus
2.1.4 lncRNA分析
長(zhǎng)鏈非編碼RNA(lncRNA)是一類轉(zhuǎn)錄本長(zhǎng)度超過(guò)200 nt、不編碼蛋白質(zhì)的RNA分子。由于建庫(kù)原理的限制,我們只能獲得含有polyA尾的lncRNA。使用CNCI[25]、CPC2[26]、Pfam[27]以及PLEK[28]對(duì)CD-HIT去冗余得到的基因進(jìn)行編碼潛能預(yù)測(cè),經(jīng)數(shù)據(jù)庫(kù)比對(duì)后預(yù)測(cè)其編碼潛能,最終分析6 315個(gè)LncRNA序列,其中共有數(shù)目為1 342個(gè)(圖2)。
圖2 編碼潛能預(yù)測(cè)維恩圖Fig.2 Venn diagram of encoding potential prediction
2.2.1 注釋結(jié)果統(tǒng)計(jì)
將錦繡龍蝦轉(zhuǎn)錄組所獲得的單基因簇序列在NR數(shù)據(jù)庫(kù)中進(jìn)行對(duì)比,共有11 086個(gè)Unigene獲得注釋,對(duì)比到424個(gè)物種,其中對(duì)比較多的前20個(gè)物種包括鉤蝦(Hyalellaazteca,3 907個(gè))、濕木白蟻(Zootermopsisnevadensis,504個(gè))、大型蚤(Daphniamagna,483個(gè))、凡納濱對(duì)蝦(Litopenaeusvannamei,296個(gè))、美洲鱟(Limulus polyphemus,266個(gè))、斑節(jié)對(duì)蝦(Penaeusmonodon,257個(gè))、克氏原螯蝦(Procambarusclarkii,196個(gè))、中華絨螯蟹(Eriocheirsinensis,182個(gè))、松葉蜂(Neodiprionlecontei,166個(gè))、擬穴青蟹(Scylla paramamosain,160個(gè))、淡水枝角水蚤(Daphnia pulex,139個(gè))、日 本 囊 對(duì) 蝦(Marsupenaeus japonicus,133個(gè))、鴨嘴舌形貝(Lingulaanatina,121個(gè))、中國(guó)明對(duì)蝦(Fenneropenaeuschinensis,116個(gè))、紅螯螯蝦(Cheraxquadricarinatus,115個(gè))、美洲螯龍蝦(Homarusamericanus,114個(gè))、白氏文昌魚(yú)(Branchiostomabelcheri,102個(gè))、三疣梭子蟹(Portunustrituberculatus,85個(gè))、羅氏沼蝦(Macrobrachium rosenbergii,83個(gè))、淡 水 螯 蝦(Pacifastacusleniusculus,81個(gè))。從NR數(shù)據(jù)庫(kù)的注釋結(jié)果來(lái)看,注釋到鉤蝦的基因最多,推測(cè)錦繡龍蝦與鉤蝦同源性較高。隨著錦繡龍蝦生物學(xué)研究的不斷深入,GenBank的基因數(shù)據(jù)越來(lái)越豐富,后期將獲得更多錦繡龍蝦基因注釋。
2.2.2 GO功能分類
GO是一套國(guó)際標(biāo)準(zhǔn)化的基因功能描述的分類系統(tǒng),分為細(xì)胞組分(cellular component,CC)、分子功能(molecular function,MF)、生物學(xué)過(guò)程(biological process,BP)3大類[22]。將獲得的錦繡龍蝦Unigene與GO數(shù)據(jù)庫(kù)進(jìn)行匹配,分別有17 624個(gè)、10 398個(gè)和9 530個(gè)被劃分到BP、CC及MF 3大類,涵蓋上述功能類別的51個(gè)亞類(圖3),其中BP 24個(gè)亞類,涉及細(xì)胞進(jìn)程、代謝進(jìn)程及單生物進(jìn)程的較多,分別有3 768個(gè)、3 456個(gè)和2 918個(gè);CC 18個(gè)亞類,涉及細(xì)胞、細(xì)胞部分及細(xì)胞器的較多,分別有1 894個(gè)、1 894個(gè)和1 428個(gè);MF 9個(gè)亞類,涉及結(jié)合活性和催化活性的較多,分別有4 789個(gè)和3 398個(gè)。
圖3 Unigenes的GO功能分類圖Fig.3 GO functional categories of Unigenes
2.2.3 KOG分類統(tǒng)計(jì)
COG(cluster of orthologous groups of proteins)是根據(jù)細(xì)菌、藻類和真核生物完整基因組的編碼蛋白系統(tǒng)進(jìn)化關(guān)系分類構(gòu)建而成的蛋白數(shù)據(jù)庫(kù),其中真核生物數(shù)據(jù)庫(kù)稱之為蛋白質(zhì)真核同源數(shù)據(jù)庫(kù)(eukaryotic orthologous groups,KOG)[19]。通過(guò)KOG數(shù)據(jù)庫(kù)對(duì)比到錦繡龍蝦單基因簇,共有9 433個(gè)獲得注釋信息,共分為26個(gè)功能組分(圖4),其中獲得注釋較多的功能組分一般功能預(yù)測(cè)(1 413個(gè),14.98%)、其次是信號(hào)轉(zhuǎn)導(dǎo)機(jī)制(1 030個(gè),10.92%)及翻譯后修飾、蛋白轉(zhuǎn)換、伴侶蛋白(917個(gè),9.72%),其中未知蛋白僅有4個(gè)。
圖4 Unigenes的KOG功能分類Fig.4 KOG function classification of Unigenes
2.2.4 KEGG功能注釋
KEGG(Kyoto encyclopedia of genes and genomes)是系統(tǒng)分析基因產(chǎn)物和化合物在細(xì)胞中的代謝途徑以及基因產(chǎn)物功能的數(shù)據(jù)庫(kù),已建立了一套完整KO注釋的系統(tǒng),可完成新測(cè)序物種的基因組或轉(zhuǎn)錄組的功能注釋[29]。與KEGG數(shù)據(jù)庫(kù)對(duì)比,最終錦繡龍蝦單基因簇注釋到5大類34小類(圖5),其中基因數(shù)量較多的代謝通路有信號(hào)轉(zhuǎn)導(dǎo)機(jī)制通路(1 015個(gè)),轉(zhuǎn)運(yùn)和分解代謝通路(726個(gè)),跨膜轉(zhuǎn)運(yùn)的代謝通路基因最少,僅有9個(gè)。這些獲得注釋的單基因簇可為后續(xù)的錦繡龍蝦功能基因研究和應(yīng)用提供數(shù)據(jù)基礎(chǔ)。
2.2.5 轉(zhuǎn)錄因子分析
轉(zhuǎn)錄因子(transcription factor,TF)作為一類特殊的DNA結(jié)合蛋白,能與基因5′端上游的特定序列專一性結(jié)合,從而使目的基因能夠在特定的時(shí)空進(jìn)行表達(dá),通過(guò)轉(zhuǎn)錄因子間以及與其他相關(guān)蛋白間的相互作用達(dá)到激活或抑制轉(zhuǎn)錄的效果,發(fā)揮著重要的調(diào)控作用。動(dòng)物轉(zhuǎn)錄因子鑒定使用動(dòng)物轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)[30]animalTFDB 2.0,預(yù)測(cè)到轉(zhuǎn)錄因子有415個(gè),隸屬于29個(gè)轉(zhuǎn)錄因子家族(圖6),其中比較多的轉(zhuǎn)錄因子家族:zf-C2H2家族有109個(gè)、ZBTB家族有75個(gè),E2F家族、NFYB家族、THR-like家族、HSF家族、IRF家族、MBD家族和STAT家族最少,均只有2個(gè),這些轉(zhuǎn)錄因子家族成員的獲取可為后期錦繡龍蝦生長(zhǎng)發(fā)育、代謝調(diào)節(jié)、免疫應(yīng)答等相關(guān)研究奠定基礎(chǔ)。
圖6 錦繡龍蝦轉(zhuǎn)錄因子分析Fig.6 Transcription factor analysis of P.ornatus
PacBio Sequel測(cè)序儀是美國(guó)太平洋生物技術(shù)公司(Pacific Biosciences)基于PacBio RSII平臺(tái)最新推出的第三代測(cè)序平臺(tái),該系統(tǒng)以其測(cè)序通量高、單Gb數(shù)據(jù)成本低、周期短等特點(diǎn)廣受青睞。PacBio第三代測(cè)序技術(shù)的最大特點(diǎn)是無(wú)需進(jìn)行PCR擴(kuò)增,可直接讀取目標(biāo)序列,是轉(zhuǎn)錄組從頭測(cè)序的首選[31]。對(duì)于無(wú)基因組參考的水生生物來(lái)說(shuō),運(yùn)用三代測(cè)序技術(shù)進(jìn)行轉(zhuǎn)錄組分析以及功能基因的挖掘是較好的策略[32-34]。本研究對(duì)錦繡龍蝦全長(zhǎng)轉(zhuǎn)錄組測(cè)序及分析,共獲得39 828 440個(gè)子序列,平均子序列長(zhǎng)度為1 786 bp,N50為2 492 bp,結(jié)果顯示轉(zhuǎn)錄組所獲得的組裝序列完整性較好。利用NR、Nt、KOG、SwissProt等7大公共數(shù)據(jù)庫(kù)進(jìn)行功能注釋分類共獲得序列28 034個(gè),有11 086個(gè)獲得注釋,對(duì)比到424個(gè)物種,有10 463個(gè)注釋到350個(gè)代謝通路,有9 433個(gè)獲得KOG注釋,分為26個(gè)功能組分。曾地剛等[35]對(duì)凡納濱對(duì)蝦肝胰腺采用二代轉(zhuǎn)錄組測(cè)序,結(jié)果 獲得500 177個(gè)EST(expressed sequence tags),序列平均長(zhǎng)度363 bp。拼接獲得20 225個(gè)Unigene,序列平均長(zhǎng)度507 bp。注釋到NR、COG以及KEGG數(shù)據(jù)庫(kù)的分別為13 676個(gè)、4 645個(gè)、4 104個(gè)。李喜蓮等[36]以紅螯螯蝦肝臟、精巢以及卵巢為材料進(jìn)行二代轉(zhuǎn)錄組測(cè)序,獲得了6 736個(gè)單基因簇,注釋到GO的為16 989個(gè),注釋到COG的為4 697個(gè),注釋到KEGG的為9 842個(gè)。對(duì)比研究結(jié)果顯示,三代測(cè)序獲得的序列質(zhì)量、基因數(shù)以及注釋到的基因信息均優(yōu)于二代測(cè)序。
基于PacBio測(cè)序平臺(tái)對(duì)構(gòu)建甲殼動(dòng)物轉(zhuǎn)錄組文庫(kù)序列聚類和改良,ZHANG等[37]通過(guò)凡納濱對(duì)蝦全長(zhǎng)轉(zhuǎn)錄組文庫(kù)獲得72 648條高質(zhì)量序列,WANG等[38]通過(guò)中國(guó)明對(duì)蝦進(jìn)全長(zhǎng)轉(zhuǎn)錄組文庫(kù)獲得10 795條高質(zhì)量序列,POOTAKHAM等[39]通過(guò)斑節(jié)對(duì)蝦全長(zhǎng)轉(zhuǎn)錄組文庫(kù)得到22 418條高質(zhì)量序列。本研究通過(guò)錦繡龍蝦全長(zhǎng)轉(zhuǎn)錄組文庫(kù)最終獲得了13 297條高質(zhì)量序列,相較于凡納濱對(duì)蝦和斑節(jié)對(duì)蝦少,除了物種的差異外,也歸因于轉(zhuǎn)錄組聚類過(guò)程中的參數(shù)設(shè)置。同時(shí),測(cè)序過(guò)程中5′末端的降解也可能導(dǎo)致同一轉(zhuǎn)錄組序列進(jìn)行不同的聚類劃分??紤]到這一點(diǎn),本研究將錦繡龍蝦全長(zhǎng)轉(zhuǎn)錄組序列聚類,獲得高質(zhì)量的一致序列用于后續(xù)分析。
本研究利用Nr、KEGG等數(shù)據(jù)庫(kù)對(duì)錦繡龍蝦轉(zhuǎn)錄組序列進(jìn)行功能注釋,結(jié)果顯示有28 034個(gè)單基因簇獲得注釋信息,部分基因序列仍沒(méi)有獲取注釋,可能由于錦繡龍蝦是未測(cè)序物種,公共數(shù)據(jù)庫(kù)中缺乏相關(guān)的功能注釋信息,也可能是部分錦繡龍蝦單基因簇序列較短造成。將獲得的蛋白同源序列與NR數(shù)據(jù)庫(kù)對(duì)比發(fā)現(xiàn),與鉤蝦對(duì)比的同源信息最多,占35%,推測(cè)可能是由于鉤蝦與錦繡龍蝦的進(jìn)化史和生活史較為相似。將錦繡龍蝦轉(zhuǎn)錄組單基因簇注釋到GO數(shù)據(jù)庫(kù),可劃分為3大類共計(jì)51個(gè)分支,與KOG數(shù)據(jù)庫(kù)對(duì)比可分為26類,GO和KOG注釋功能分類的結(jié)果顯示錦繡龍蝦單基因簇的功能涉及了各類生命活動(dòng)。KEGG注釋到5大類34小類,其中涉及代謝通路和次生物質(zhì)的生物合成基因較多。從轉(zhuǎn)錄組共檢測(cè)出14 277個(gè)SSR位點(diǎn),這些SSR在提高物種遺傳多樣性潛能方面發(fā)揮著重要的作用,為下一階段開(kāi)發(fā)錦繡龍蝦多態(tài)性SSR分子標(biāo)記提供了基礎(chǔ)數(shù)據(jù)。通過(guò)對(duì)錦繡龍蝦轉(zhuǎn)錄組進(jìn)行注釋分析,初步闡明了錦繡龍蝦基因的功能、參與的生物過(guò)程、所在的代謝途徑或信號(hào)通路等,對(duì)于后期深入研究關(guān)鍵基因的功能提供了信息,為發(fā)掘錦繡龍蝦功能基因、研究相關(guān)生理功能奠定了基礎(chǔ)。