摘要:微小RNA(miRNA)和長(zhǎng)鏈非編碼RNA(lncRNA)是細(xì)胞中常見(jiàn)的兩類功能性不編碼蛋白質(zhì)的RNA分子,它們?cè)谏镞^(guò)程中發(fā)揮重要調(diào)控功能,其重要性不可忽視。由于非編碼RNA具有以集合形式發(fā)揮調(diào)控作用的特點(diǎn),功能富集分析方法已成為分析非編碼RNA功能的一種主流方法。功能富集分析方法基于高通量生物學(xué)數(shù)據(jù),通過(guò)確定一組非編碼RNA在特定生物過(guò)程、細(xì)胞組分或信號(hào)通路中的富集程度,預(yù)測(cè)非編碼RNA的調(diào)控功能。miRNA和lncRNA的富集分析算法出現(xiàn)較晚,為了幫助研究人員快速了解和選擇合適的功能富集分析方法,本文分別概述了miRNA和lncRNA富集分析方法的主要特征和工作原理,為相關(guān)問(wèn)題的研究提供了參考依據(jù)。
關(guān)鍵詞:miRNA;lncRNA;功能富集分析方法;注釋集合
中圖分類號(hào):Q811.4" " " " " " " " " " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼:A" " " " " " " " " " " " " " " " "DOI:10.3969/j.issn.1006-1959.2025.05.031
文章編號(hào):1006-1959(2025)05-0170-05
Abstract: MicroRNA (miRNA) and long non-coding RNA (lncRNA) are two common types of functional non-coding RNA molecules in cells, which play important regulatory roles in biological processes,and their significance cannot be overlooked. Due to the characteristic of non-coding RNAs (ncRNAs) exerting regulatory functions in a collective manner, functional enrichment analysis has become a mainstream method for analyzing the functions of ncRNAs. And based on high-throughput biological data, functional enrichment analysis predicts the regulatory function of non-coding RNA by determining the enrichment degree of a group of non-coding RNA in specific biological processes, cell components or signaling pathways. The enrichment analysis algorithms of miRNA and lncRNA appeared late. In order to help researchers quickly understand and select appropriate functional enrichment analysis methods, this paper summarizes the main characteristics and working principles of miRNA and lncRNA enrichment analysis methods, which provides a reference for the research of related problems.
微小RNA(microRNA, miRNA)是一類短小的非編碼RNA分子,通常由20~22個(gè)核苷酸組成。miRNA在真核生物中廣泛存在,并參與多種生物學(xué)過(guò)程的調(diào)控。miRNA的生物合成始于一個(gè)稱為pri-miRNA的長(zhǎng)鏈RNA分子。經(jīng)過(guò)核酸酶的作用,pri-miRNA被切割成較短的預(yù)miRNA,即pre-miRNA。最后,pre-miRNA會(huì)進(jìn)一步被轉(zhuǎn)運(yùn)到細(xì)胞質(zhì)中,受到Dicer酶切割后,成為長(zhǎng)20~24 nt的成熟miRNA。第一個(gè)miRNA分子lin-4是由Lee RC等[1]在對(duì)線蟲(chóng)的研究中鑒定出來(lái),開(kāi)啟了miRNA研究的時(shí)代。近些年,有關(guān)miRNA研究的數(shù)量不斷增長(zhǎng),研究證實(shí)miRNA參與機(jī)體的多種生物學(xué)過(guò)程,例如生物體發(fā)育,細(xì)胞分化、增殖,代謝過(guò)程,免疫調(diào)控等[2]。直至現(xiàn)在,研究人員仍在不斷努力探索miRNA的調(diào)控機(jī)制。長(zhǎng)非編碼RNA(long non-coding RNA, lncRNA)是長(zhǎng)度大于200 nt且具有轉(zhuǎn)錄調(diào)控作用的非編碼RNA。起初,lncRNA被認(rèn)為是基因轉(zhuǎn)錄的副產(chǎn)物,不具備調(diào)控生物機(jī)體的功能。然而,20世紀(jì)90年代初,Borsani G等[3]發(fā)現(xiàn)Xist參與X染色體失活的調(diào)控,首次證實(shí)了lncRNA參與調(diào)控機(jī)體生物學(xué)過(guò)程。隨后,越來(lái)越多的證據(jù)表明lncRNA在眾多的生命活動(dòng)中發(fā)揮著不可替代的作用,在基因表達(dá)的調(diào)控[4]、染色質(zhì)結(jié)構(gòu)的維持[5]、轉(zhuǎn)錄因子的調(diào)控[6]等生物學(xué)過(guò)程中,lncRNA都發(fā)揮著重要的作用。此外,失調(diào)的lncRNA會(huì)導(dǎo)致多種疾病的發(fā)生,包括癌癥、心血管疾病、神經(jīng)系統(tǒng)疾病等[7]。目前,研究人員對(duì)lncRNA功能的探索還在初級(jí)階段,需要進(jìn)一步的實(shí)驗(yàn)和臨床研究加以驗(yàn)證。
1富集分析方法介紹
已發(fā)現(xiàn)的非編碼RNA數(shù)量眾多,但已知確切功能的數(shù)量只占極少比例,絕大部分非編碼RNA的功能仍未知。傳統(tǒng)的生物學(xué)實(shí)驗(yàn)方法評(píng)估lncRNA和miRNA功能需逐個(gè)屏蔽lncRNA或miRNA的功能,觀察機(jī)體表型的變化,其費(fèi)時(shí)費(fèi)力,且效率低下,無(wú)法滿足研究人員的需求。由于非編碼RNA具有以集合形式發(fā)揮調(diào)控作用的特點(diǎn),功能富集分析方法已成為分析非編碼RNA功能的一種主流方法。
功能富集分析方法是一種用于解釋一組基因集合的功能特征和生物學(xué)含義的計(jì)算方法[8]。它通過(guò)將輸入的基因列表與已知的功能注釋集合比較,分析基因列表在給定的注釋集合中的富集信息,利用相關(guān)的統(tǒng)計(jì)學(xué)方法計(jì)算基因在功能注釋集合中的顯著性得分,最終將富集分析結(jié)果以調(diào)整后的P-value呈現(xiàn)[9]。研究人員可以根據(jù)富集分析的結(jié)果初步確定與輸入的基因集合密切相關(guān)的生物學(xué)功能,為進(jìn)一步實(shí)驗(yàn)設(shè)計(jì)和生物學(xué)解釋提供重要線索。功能富集分析方法現(xiàn)已廣泛應(yīng)用于基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)等領(lǐng)域[10],能幫助研究人員更好地理解高通量實(shí)驗(yàn)數(shù)據(jù)的生物學(xué)意義,降低實(shí)驗(yàn)成本,提高待分析基因功能的識(shí)別效率。
功能富集分析方法首先需要構(gòu)建信息全面的基因集注釋文庫(kù),目前最廣泛的基因集數(shù)據(jù)庫(kù)包括基因本體論[11](gene ontology, GO)、京都基因與基因組百科全書(shū)[12](kyoto encyclopedia of genes and genomes, KEGG)、Reactome[13]等。其次,需要選用合適的顯著統(tǒng)計(jì)方法分析輸入基因列表的富集信息。當(dāng)前最常用的統(tǒng)計(jì)富集分析方法包括過(guò)代表分析方法(over-representation analysis, ORA)和基因集富集分析方法[14](gene set enrichment analysis, GSEA)。ORA方法使用超幾何分布檢驗(yàn)、Fisher精確檢驗(yàn)等方法,統(tǒng)計(jì)給定的功能注釋集合與輸入的基因列表的重疊個(gè)數(shù)來(lái)計(jì)算富集的顯著性。GSEA方法不僅能顯示輸入的基因列表在給定的功能集合中的富集信息,還可通過(guò)對(duì)基因的特定排序,分析出基因?qū)ο嚓P(guān)注釋集合的抑制或促進(jìn)關(guān)系。隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,一些基于異質(zhì)網(wǎng)絡(luò)的生物信息學(xué)方法被引入到基因富集分析中。這些方法通過(guò)構(gòu)建基因相互作用關(guān)系網(wǎng)絡(luò),融合不同分子之間的關(guān)聯(lián)信息,對(duì)基因的功能進(jìn)行分析和預(yù)測(cè)。
2 miRNA功能富集分析工具介紹
miRNA功能富集分析研究時(shí)間較早,出現(xiàn)了一系列在線工具軟件,當(dāng)前miRNA功能富集分析方法可分為兩類,一類是對(duì)miRNA靶基因進(jìn)行功能富集分析,篩選出的功能通路被認(rèn)定為該miRNA可能參與調(diào)控的功能,代表性的分析工具有miRNApath[15](http://lgmb.fmrp.usp.br/mirnapath)和DIANA-miRPath[16](http://microrna.gr/mirpath)。另一類是基于構(gòu)建全面的miRNA功能注釋集合文庫(kù),直接對(duì)用戶感興趣的miRNA集合進(jìn)行功能富集分析,通常采用超幾何分布算法進(jìn)行富集分析,代表性的分析工具有TAM[17](http://cmbi.bjmu.edu.cn/tam)、miEAA[18](http://www.ccb.uni-saarland.de/mieaa_tool)和wTAM[19](http://www.cuilab.cn/wtam)。下面逐一對(duì)上述5種miRNA富集分析工具進(jìn)行介紹。
2.1 miRNApath" Chiromatzo AO等[15]于2007年創(chuàng)建了在線數(shù)據(jù)庫(kù)miRNAPath,提出了將miRNA、靶基因和代謝途徑聯(lián)系起來(lái)用于注釋miRNA參與的代謝途徑。miRNAPath通過(guò)整合miRNA靶基因預(yù)測(cè)和KEGG代謝途徑數(shù)據(jù)庫(kù),建立miRNA與代謝途徑之間的關(guān)聯(lián)。它使用DIANA-miRGen[20]工具預(yù)測(cè)miRNA的靶基因,并將這些靶基因與KEGG數(shù)據(jù)庫(kù)中的代謝途徑進(jìn)行匹配。通過(guò)這種方式,miRNAPath可以幫助研究人員理解miRNA在代謝途徑調(diào)控中的潛在作用。但由于開(kāi)發(fā)時(shí)間較早,miRNAPath的研究方法和數(shù)據(jù)整合策略可能相對(duì)單一,并且相關(guān)miRNA功能數(shù)據(jù)缺少及時(shí)更新和維護(hù),因此在當(dāng)前數(shù)據(jù)分析需求較高的情況下,可能需要結(jié)合其他更全面和先進(jìn)的miRNA數(shù)據(jù)庫(kù)和工具來(lái)進(jìn)行更準(zhǔn)確的分析。
2.2 DIANA-miRPath" Papadopoulos GL等[16]于2009年將小鼠和人類miRNA整合,開(kāi)發(fā)了DIANA-miRPath在線分析工具。該工具將miRNA靶基因與KEGG通路數(shù)據(jù)庫(kù)進(jìn)行比對(duì),進(jìn)而分析miRNA在不同通路中的富集情況。DIANA-miRPath提供DIANA-microT[21]、PicTar[22]和TargetScan[23]三種預(yù)測(cè)miRNA靶基因的方法,綜合考慮miRNA靶向性的多個(gè)特征,如序列互補(bǔ)性、保守性和結(jié)構(gòu)穩(wěn)定性等,提高了miRNA靶基因預(yù)測(cè)的準(zhǔn)確性和可靠性。在最近更新的第4版中[20],增加了GO、Reactome、MSigDB[24]和PFAM[25]數(shù)據(jù)庫(kù)中的基因集合,支持超幾何分布、無(wú)偏經(jīng)驗(yàn)分布和Meta分析三種統(tǒng)計(jì)富集顯著性的方法。DIANA-miRPath 該在線分析工具融合了多個(gè)公共數(shù)據(jù)庫(kù),對(duì)miRNA的富集分析提供了充分的數(shù)據(jù)支持。同時(shí),miRNA靶基因預(yù)測(cè)算法揭示了miRNA-靶基因相互作用關(guān)系,幫助研究人員深入探索miRNA在生物學(xué)過(guò)程中的調(diào)控機(jī)制。但是DIANA-miRPath富集分析依賴于miRNA-靶基因預(yù)測(cè)算法,雖然miRNA-靶基因預(yù)測(cè)算法已得到廣泛應(yīng)用,但其存在一定的局限,需進(jìn)一步改進(jìn)提高。
2.3 TAM" Lu M等[17]于2010年開(kāi)發(fā)了應(yīng)用miRNA集合對(duì)miRNA進(jìn)行功能注釋的方法和工具TAM。TAM根據(jù)miRNA的功能、表型等相關(guān)數(shù)據(jù),將miRNA整理為5種集合,分別為miRNA家族、miRNA簇、miRNA功能、miRNA-疾病和組織特異表達(dá)的miRNA。TAM基于超幾何分布的原理篩選出在輸入的miRNA列表中顯著富集的miRNA功能集。其研究利用急性心肌梗死(acute myocardial infarction, AMI)的miRNA差異表達(dá)列表發(fā)現(xiàn),TAM在識(shí)別出輸入的miRNA列表顯著富集的疾病之外,還挖掘出潛在的miRNA與AMI疾病的關(guān)聯(lián)信息,這對(duì)miRNA的調(diào)控功能分析有著重要的應(yīng)用價(jià)值。2018年,Li J等[26]開(kāi)發(fā)了TAM 2.0,對(duì)TAM數(shù)據(jù)庫(kù)進(jìn)行了更新,新增了一類miRNA-轉(zhuǎn)錄因子注釋集合,其他5類集合包含的miRNA數(shù)量也進(jìn)行了成倍的擴(kuò)增,數(shù)據(jù)來(lái)源于大量文獻(xiàn)中手動(dòng)注釋的miRNA功能集合。此外,還把miRNA調(diào)控功能細(xì)分為上調(diào)和下調(diào)兩類進(jìn)行富集分析。TAM是首個(gè)應(yīng)用miRNA集合對(duì)miRNA進(jìn)行功能注釋的工具,其中大量miRNA注釋集合來(lái)自于手動(dòng)收集的文獻(xiàn),具有較高的置信度。但目前僅收錄了關(guān)于人類的miRNA信息,無(wú)法對(duì)來(lái)自其他物種的miRNA進(jìn)行分析。
2.4 miEAA" Backes C等[18]于2016年建立了miRNA在線富集分析平臺(tái)miEAA。miEAA支持基于ORA分析和miRNA集合富集分析(MSEA)的兩種分析方式。MSEA的原理類似于GSEA方法,相較于ORA方法,MSEA無(wú)需設(shè)置閾值篩選miRNA列表,而是直接對(duì)輸入miRNA列表的表達(dá)量數(shù)據(jù)或者其它特定的方法排序,統(tǒng)計(jì)每個(gè)miRNA注釋集合包含的miRNA在排序后的miRNA列表中的位置判斷富集程度。MSEA方法不僅可以統(tǒng)計(jì)輸入的miRNA列表在miRNA注釋集合中顯著富集的通路,還能根據(jù)富集的miRNA在排序列表中的位置判斷該miRNA對(duì)通路是抑制還是促進(jìn)作用,豐富了富集分析結(jié)果包含的信息。但是當(dāng)集合中命中的miRNA集中在排序列表的中間位置時(shí),MSEA依然傾向于賦予該功能注釋集合較高的富集得分,實(shí)際情況卻是截然相反。
2.5 wTAM" Cui C等[19]于2021年提出了一種基于加權(quán)的人類miRNA富集分析方法。由已知的調(diào)查顯示,一種疾病的發(fā)生不止受一個(gè)miRNA的調(diào)控,同一個(gè)miRNA也不止參與一種人類疾病進(jìn)展過(guò)程。在此之前的miRNA的富集分析工具都平等的對(duì)待每種miRNA,忽略了miRNA本身的重要性,事實(shí)是不同miRNA對(duì)人體的重要性是有差異的。傳統(tǒng)的miRNA富集分析方法中對(duì)每個(gè)miRNA分配相同的權(quán)重,即為1,并使用簡(jiǎn)單的計(jì)數(shù)作為參數(shù)輸入超幾何分布檢驗(yàn)計(jì)算公式中,完全忽略了miRNA之間的差異??紤]到這一問(wèn)題,作者首先收集了五類不同角度可度量miRNA自身重要性數(shù)據(jù),分別為MIC分?jǐn)?shù)[27]、miRNA保守性分?jǐn)?shù)、miRNA表達(dá)水平分?jǐn)?shù)、miRNA上游重要性分?jǐn)?shù)和miRNA下游重要性分?jǐn)?shù)。由于不同類別之間的miRNA重要性分?jǐn)?shù)值域差別較大,對(duì)每個(gè)類別包含的miRNA重要性分?jǐn)?shù)標(biāo)準(zhǔn)化,使其值均規(guī)范為0~1。隨后,將miRNA重要性分?jǐn)?shù)應(yīng)用于基于超幾何分布檢驗(yàn)的富集分析方法中,并構(gòu)建了miRNA在線富集分析工具wTAM。wTAM在miRNA富集分析方法中首次引入了重要性分?jǐn)?shù),彌補(bǔ)了傳統(tǒng)富集分析方法忽略不同miRNA之間差異的不足,為挖掘miRNA在疾病中的調(diào)控機(jī)制提供了可靠工具。
3 lncRNA功能富集分析工具介紹
由于lncRNA功能富集分析工具的研究起步較晚,相應(yīng)的分析工具軟件較少。近年來(lái),隨著lncRNA研究的不斷深入,該領(lǐng)域的研究工作也取得了一系列成績(jī),出現(xiàn)了一些實(shí)用的lncRNA功能富集分析工具。其中,LncSEA[28](http://bio.liclab.net/LncSEA/index.php)全面構(gòu)建了lncRNA功能注釋集合文庫(kù),可對(duì)用戶輸入的lncRNA集合進(jìn)行多方面的功能富集分析。WEAT[29](https://www.cuilab.cn/weat)中有效引入了基因必要性分?jǐn)?shù),在富集分析中充分考慮到不同lncRNA之間特異性對(duì)富集分析結(jié)果的影響。TLSEA[30](http://www.lirmed.com:5003/tlsea)則在融合多源異構(gòu)信息的基礎(chǔ)上,構(gòu)建lncRNA相似性矩陣,利用隨機(jī)游走方法擴(kuò)充了用戶輸入的lncRNA列表,使得富集分析結(jié)果更加全面。下面依次對(duì)上述3種lncRNA富集分析工具進(jìn)行介紹。
3.1 LncSEA Chen J等[28]于2021年建立了一個(gè)綜合的LncRNA數(shù)據(jù)庫(kù)——LncSEA。LncSEA包含疾病、轉(zhuǎn)錄因子、藥物等在內(nèi)的18個(gè)不同類別的lncRNA注釋信息,覆蓋超過(guò)50 000個(gè)lncRNAs。LncSEA提供基于超幾何分布的lncRNA富集分析功能,方便用戶預(yù)測(cè)不同功能lncRNA集合對(duì)應(yīng)的特定細(xì)胞、組織和疾病類型,并分析其在調(diào)節(jié)基因表達(dá)和細(xì)胞功能中的潛在作用。自LncSEA 1.0發(fā)布以來(lái),更多的lncRNA功能數(shù)據(jù)集不斷得以發(fā)現(xiàn),為探索lncRNA的潛在功能提供了有價(jià)值的信息。Zhang G等[31]于2024年對(duì)LncSEA數(shù)據(jù)庫(kù)進(jìn)行了更新,構(gòu)建了LncSEA 2.0。相較于lncSEA1.0,LncSEA 2.0中的lncRNA集數(shù)據(jù)量有了顯著增加。LncSEA 2.0包含33不同類別的lncRNA注釋信息,覆蓋超過(guò)20萬(wàn)個(gè)lncRNA,極大的擴(kuò)充了lncRNA的注釋信息數(shù)據(jù)。在lncRNA富集分析上,除了提供基于超幾何分布的lncRNA富集分析方法外,還增加了GSEA、GSVA[32]兩種不同的功能富集分析方法。但是LncSEA對(duì)富集分析方法并沒(méi)有改進(jìn),原始的富集分析方法的諸多不足之處還有待進(jìn)一步改善。
3.2 WEAT" Fan R等[29]于2021年提出了基因重要性分?jǐn)?shù)加權(quán)的富集分析方法WEAT。類似于wTAM,該方法在超幾何分布檢驗(yàn)的基礎(chǔ)上融合了各種基因必要性分?jǐn)?shù)(包含lncRNA),填補(bǔ)了加權(quán)富集分析方法在基因富集分析的空白。針對(duì)每個(gè)基因,作者收集并計(jì)算了5類基因必要性分?jǐn)?shù),分別為基因保守性分?jǐn)?shù)、基因重要性分?jǐn)?shù)、基因逆文檔頻率分?jǐn)?shù)、蛋白質(zhì)相互作用分?jǐn)?shù)和基因表達(dá)水平分?jǐn)?shù)。作者使用腦室周?chē)踪|(zhì)病變、肺鱗狀細(xì)胞癌和心肌病三種疾病的對(duì)比實(shí)驗(yàn)驗(yàn)證了基因必要性分?jǐn)?shù)的實(shí)用性。但基因重要性分?jǐn)?shù)加權(quán)的富集分析方法主要針對(duì)于基因,對(duì)lncRNA的重要性分?jǐn)?shù)和功能注釋集合不夠全面。
3.3 TLSEA" Li J等[30]于2023年提出了基于多源異構(gòu)信息融合的lncRNA集富集分析方法。該方法基于lncRNA-miRNA相似性網(wǎng)絡(luò)和lncRNA-disease相似性網(wǎng)絡(luò)構(gòu)建了lncRNA-lncRNA相似性網(wǎng)絡(luò),采用隨機(jī)游走(random walk with restart)方法擴(kuò)展用戶提交的lncRNA,應(yīng)用于lncRNA富集分析中。TLSEA富集分析方法分為3個(gè)步驟:第一步構(gòu)建lncRNA-miRNA相似性網(wǎng)絡(luò)和lncRNA-disease相似性網(wǎng)絡(luò)。構(gòu)建lncRNA-miRNA相似性網(wǎng)絡(luò)時(shí),找出兩個(gè)與關(guān)聯(lián)的和。接下來(lái)統(tǒng)計(jì)miRNA的分布情況,若miRNA同時(shí)存在于兩個(gè)miRNA列表中,則向量添加1,否則為0。隨后,提取和的相似性系數(shù)組成向量,拼接最終獲得的特征向量。得到所有的lncRNA特征向量后,分別計(jì)算lncRNA之間的余弦相似性得到lncRNA-miRNA相似性網(wǎng)絡(luò)。第二步利用IDSSIM模型構(gòu)建lncRNA-disease相似性網(wǎng)絡(luò)。得到lncRNA-miRNA相似性網(wǎng)絡(luò)和lncRNA-disease相似性網(wǎng)絡(luò)后,使用SDNE方法將兩個(gè)網(wǎng)絡(luò)中所有l(wèi)ncRNA特征向量維數(shù)調(diào)整至64維,并且合并降維后的特征向量。單一出現(xiàn)的lncRNA特征向量直接作為合并后的特征向量,兩個(gè)網(wǎng)絡(luò)中相同的lncRNA的特征向量取均值作為合并后的特征向量,最終得到lncRNA-lncRNA關(guān)聯(lián)網(wǎng)絡(luò)。最后,TLSEA將用戶輸入的lncRNA列表以選定的相似性系數(shù),采用帶重啟的隨機(jī)游走方法擴(kuò)展富集分析中的lncRNA列表。TLSEA方法通過(guò)構(gòu)建lncRNA-lncRNA相似性網(wǎng)絡(luò),考慮到了lncRNA之間豐富的關(guān)聯(lián)信息,擴(kuò)展了用戶輸入的lncRNA列表。從而使得富集分析結(jié)果更加顯著,包含更多潛在的疾病關(guān)聯(lián)信息,為研究人員提供了寶貴的參考價(jià)值。但TLSEA只包含疾病相關(guān)的富集分析,無(wú)法對(duì)lncRNA的其他調(diào)控功能進(jìn)行研究。
4總結(jié)
近年來(lái),研究人員不斷探索miRNA與lncRNA在生物體中的功能和作用機(jī)制,提出了許多相關(guān)方法和分析算法,但富集分析方法仍然是分析miRNA與lncRNA調(diào)控功能的一種主流方法。目前,關(guān)于miRNA和lncRNA的富集分析方法還存在一些局限。首先,有待建立全面綜合并且可信度高的miRNA和lncRNA功能注釋數(shù)據(jù)庫(kù),良好的功能注釋數(shù)據(jù)庫(kù)是富集分析的基礎(chǔ)。當(dāng)前已有許多與miRNA和lncRNA特定功能相關(guān)的數(shù)據(jù)庫(kù),整合篩選各種功能注釋信息可以提高富集分析結(jié)果的全面性和準(zhǔn)確性。其次,大量的研究表明,miRNA和lncRNA與疾病、轉(zhuǎn)錄因子、藥物等之間都存在著復(fù)雜的相互作用關(guān)系,目前的富集分析方法中均不能很好地體現(xiàn)這些關(guān)聯(lián)信息。最后,如何全面的挖掘miRNA和lncRNA自身的重要性特征,應(yīng)用于包括富集分析方法在內(nèi)的miRNA和lncRNA功能研究的方法,是未來(lái)發(fā)展的一個(gè)方向。隨著更多相關(guān)研究結(jié)果的出現(xiàn)和富集分析方法的改進(jìn),相信未來(lái)會(huì)有更準(zhǔn)確、更全面、更高效的miRNA和lncRNA富集分析方法出現(xiàn)。
參考文獻(xiàn):
[1]Lee RC,F(xiàn)einbaum RL,Ambros V.The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14[J].Cell,1993,75(5):843-854.
[2]Shang R,Lee S,Senavirathne G,et al.microRNAs in action: biogenesis, function and regulation[J].Nat Rev Genet,2023,24(12):816-833.
[3]Borsani G,Tonlorenzi R,Simmler MC,et al.Characterization of a murine gene expressed from the inactive X chromosome[J].Nature,1991,351(6324):325-329.
[4]Wang Z,Zhang S,Li K.LncRNA NEAT1 induces autophagy through epigenetic regulation of autophagy-related gene expression in neuroglial cells[J].J Cell Physiol,2022,237(1):824-832.
[5]B?觟hmdorfer G,Wierzbicki AT.Control of Chromatin Structure by Long Noncoding RNA[J].Trends Cell Biol,2015,25(10):623-632.
[6]Moison M,Pacheco JM,Lucero L,et al.The lncRNA APOLO interacts with the transcription factor WRKY42 to trigger root hair cell expansion in response to cold[J].Mol Plant,2021,14(6):937-948.
[7]McCabe EM,Rasmussen TP.lncRNA involvement in cancer stem cell function and epithelial-mesenchymal transitions[J].Semin Cancer Biol,2021,75:38-48.
[8]Rawal HC,Angadi U,Mondal TK.TEnGExA: an R package based tool for tissue enrichment and gene expression analysis[J].Brief Bioinform,2021,22(3):bbaa221.
[9]Yeganeh PN,Mostafavi MT.Causal Disturbance Analysis: A Novel Graph Centrality Based Method for Pathway Enrichment Analysis[J].IEEE/ACM Trans Comput Biol Bioinform,2020,17(5):1613-1624.
[10]Evangelista JE,Xie Z,Marino GB,et al.Enrichr-KG: bridging enrichment analysis across multiple libraries[J].Nucleic Acids Res,2023,51(W1):W168-W179.
[11]Ashburner M,Ball CA,Blake JA,et al.Gene ontology: tool for the unification of biology. The Gene Ontology Consortium[J].Nat Genet,2000,25(1):25-29.
[12]Kanehisa M,Goto S.KEGG: kyoto encyclopedia of genes and genomes[J].Nucleic Acids Res,2000,28(1):27-30.
[13]Milacic M,Beavers D,Conley P,et al.The Reactome Pathway Knowledgebase 2024[J].Nucleic Acids Res,2024,52(D1):D672-D678.
[14]Subramanian A,Tamayo P,Mootha VK,et al.Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles[J].Proc Natl Acad Sci U S A,2005,102(43):15545-15550.
[15]Chiromatzo AO,Oliveira TY,Pereira G,et al.miRNApath: a database of miRNAs, target genes and metabolic pathways[J].Genet Mol Res,2007,6(4):859-865.
[16]Papadopoulos GL,Alexiou P,Maragkakis M,et al.DIANA-mirPath: Integrating human and mouse microRNAs in pathways[J].Bioinformatics,2009,25(15):1991-1993.
[17]Lu M,Shi B,Wang J,et al.TAM: a method for enrichment and depletion analysis of a microRNA category in a list of microRNAs[J].BMC Bioinformatics,2010,11:419.
[18]Backes C,Khaleeq QT,Meese E,et al.miEAA: microRNA enrichment analysis and annotation[J].Nucleic Acids Res,2016,44(W1):W110-W116.
[19]Cui C,F(xiàn)an R,Zhou Y,et al.wTAM: a web server for annotation of weighted human microRNAs[J].Bioinform Adv,2021,2(1):vbab040.
[20]Perdikopanis N,Georgakilas GK,Grigoriadis D,et al.DIANA-miRGen v4: indexing promoters and regulators for more than 1500 microRNAs[J].Nucleic Acids Res,2021,49(D1):D151-D159.
[21]Maragkakis M,Reczko M,Simossis VA,et al.DIANA-microT web server: elucidating microRNA functions through target prediction[J].Nucleic Acids Res,2009,37(Web Server issue):W273-W276.
[22]Krek A,Grün D,Poy MN,et al.Combinatorial microRNA target predictions[J].Nat Genet,2005,37(5):495-500.
[23]Agarwal V,Bell GW,Nam JW,et al.Predicting effective microRNA target sites in mammalian mRNAs[J].Elife,2015,4:e05005.
[24]Liberzon A,Subramanian A,Pinchback R,et al.Molecular signatures database (MSigDB) 3.0[J].Bioinformatics,2011,27(12):1739-1740.
[25]Mistry J,Chuguransky S,Williams L,et al.Pfam: The protein families database in 2021[J].Nucleic Acids Res,2021,49(D1):D412-D419.
[26]Li J,Han X,Wan Y,et al.TAM 2.0: tool for MicroRNA set analysis[J].Nucleic Acids Res,2018,46(W1):W180-W185.
[27]Cui C,Shi B,Shi J,et al.MicroRNAs Importance: Defining the Importance Score of Human MicroRNAs and Their Single Nucleotide Mutants Using Random Forest Regression and Sequence Data (Adv. Theory Simul. 9/2019)[J].Advanced Theory amp; Simulations,2019,2(9):1970031.
[28]Chen J,Zhang J,Gao Y,et al.LncSEA: a platform for long non-coding RNA related sets and enrichment analysis[J].Nucleic Acids Res,2021,49(D1):D969-D980.
[29]Fan R,Cui Q.Toward comprehensive functional analysis of gene lists weighted by gene essentiality scores[J].Bioinformatics,2021,37(23):4399-4404.
[30]Li J,Li Z,Wang Y,et al.TLSEA: a tool for lncRNA set enrichment analysis based on multi-source heterogeneous information fusion[J].Front Genet,2023,14:1181391.
[31]Zhang G,Song C,F(xiàn)an S,et al.LncSEA 2.0: an updated platform for long non-coding RNA related sets and enrichment analysis[J].Nucleic Acids Res,2024,52(D1):D919-D928.
[32]H?覿nzelmann S,Castelo R,Guinney J.GSVA: gene set variation analysis for microarray and RNA-seq data[J].BMC Bioinformatics,2013,14:7.
收稿日期:2024-02-27;修回日期:2024-03-13
編輯/王萌
基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(編號(hào):62072154)
作者簡(jiǎn)介:吳闖(1998.10-),男,河北邯鄲人,碩士研究生,主要從事lncRNA相關(guān)的生物信息學(xué)研究
通訊作者:李建偉(1974.11-),男,河北唐山人,博士,教授,主要從事生物信息學(xué)研究