楊陽
摘要:高通量測序技術(shù)的出現(xiàn)帶來了大量可用的轉(zhuǎn)錄組數(shù)據(jù),評估進化保守區(qū)域的編碼潛力成為轉(zhuǎn)錄數(shù)據(jù)分析中的核心任務(wù)。對轉(zhuǎn)錄本編碼潛力的預(yù)測可以用來鑒定長非編碼RNA(long noncoding RNA, lncRNA)。lncRNA是一種長度超過200個核苷酸的非編碼RNA,研究表明lncRNA在多種生物中都有重要作用,能夠在染色質(zhì)修飾、表觀遺傳、轉(zhuǎn)錄及轉(zhuǎn)錄后調(diào)控等多種層面發(fā)揮重要的調(diào)控作用。已經(jīng)有許多基于機器學(xué)習(xí)的工具被開發(fā)用來區(qū)分編碼與非編碼轉(zhuǎn)錄本序列。不同的工具通常是針對不同的情況設(shè)計的,因此需要根據(jù)特定的情況選擇合適的方法。本文分析了幾種常用工具各自的特點和適用范圍,幫助研究人員選用合適的方法以獲得更可靠的結(jié)果。
關(guān)鍵詞: 轉(zhuǎn)錄組數(shù)據(jù); 編碼潛力; 長非編碼RNA; 機器學(xué)習(xí)
【Abstract】 With the advent of high-throughput sequencing technologies, a large amount of available transcriptome data has been generated, and the evaluation of the coding potential of evolutionarily conserved regions has become a core in the analysis of transcripts. Prediction of the coding potential of transcripts can be used to identify long noncoding RNAs (lncRNAs). lncRNA is a kind of noncoding RNA with length more than 200 nucleotides, which plays an important role in many organisms. It can play an important regulatory role in various aspects such as chromatin modification, epigenetics, transcription and post-transcriptional regulation. Many machine learning tools have been developed to distinguish between coding and non-coding transcripts. Different tools are designed for different situations, so it is required to choose the suitable method for the specific situation. In this review, several popular tools and their advantages, disadvantages, and application scopes are summarised to assist people in employing a suitable method and obtaining a more reliable result.
【Key words】 ?transcriptome data; coding potential; long noncoding RNA; machine learning
0 引 言
非編碼RNA(noncoding RNA ,ncRNA)是所有從DNA轉(zhuǎn)錄但不編碼蛋白質(zhì)的功能性RNA的統(tǒng)稱。最初,人們將非編碼RNA基因分類為“垃圾基因”或轉(zhuǎn)錄“噪音”,然而在之后的研究中發(fā)現(xiàn),非編碼序列在生命體生命活動中具有重要的調(diào)控作用[1]。這些非編碼序列中,最近研究較多的是長非編碼RNA(long noncoding RNA, lncRNA),lncRNA是指長度超過200個核苷酸且不編碼蛋白質(zhì)的轉(zhuǎn)錄物[2]。
為了系統(tǒng)研究lncRNA的功能,首要的工作是從基因中識別lncRNA。高通量測序數(shù)據(jù)大量涌現(xiàn)為學(xué)者們提供了更多有關(guān)lncRNA的有用信息。與此同時,為了方便后續(xù)研究和分析,很多鑒定lncRNA的計算機方法被提出。本文對鑒定lncRNA的計算方法進行了較為全面的回顧。
1 lncRNA鑒定工具介紹
lncRNA鑒定過程中的一個重要問題是區(qū)分編碼與非編碼轉(zhuǎn)錄本序列,目前已經(jīng)有很多生物信息學(xué)的方法使用序列的內(nèi)部特征和結(jié)構(gòu)特點預(yù)測非編碼RNA[3]。本文中比較了幾種流行的基于機器學(xué)習(xí)的工具。對此可做闡釋分述如下。
1.1 CPAT[4]介紹
CPAT是基于邏輯回歸模型的蛋白質(zhì)編碼潛力評估工具。使用的特征包括:開放閱讀框大小、開放閱讀框覆蓋率、Fickett分數(shù)和Hexamer分數(shù)。
1.4 CPC2介紹
CPC2[7]是CPC的升級,仍然使用支持向量機模型,CPC2能更加快速、準確地評估RNA轉(zhuǎn)錄本的編碼能力。CPC2中使用了4個特征,包括:Fickett分數(shù)、開放閱讀框長度、開放閱讀框完整性以及預(yù)測肽的等電點。開放閱讀框的完整性是指開放閱讀框以起始密碼子開始,以終止密碼子結(jié)束。等電點可以通過BioPython中的ProtParam模塊計算得到。
1.5 CPPred介紹
CPPred[8]的實現(xiàn)基于支持向量機分類器和多個序列特征, CPPred使用開放閱讀框長度、開放閱讀框覆蓋率、Fickett分數(shù)和Hexamer分數(shù)、開放閱讀框完整性、預(yù)測肽的等電點、預(yù)測肽的不穩(wěn)定指數(shù)、預(yù)測肽的親水性平均值Gravy以及30個CPPred中提出的CTD特征訓(xùn)練分類器。CTD特征用來描述全局轉(zhuǎn)錄本序列,核苷酸組成(特征C)描述了轉(zhuǎn)錄本序列中每個核苷酸的百分比組成;核苷酸轉(zhuǎn)換(特征T)描述了4個核苷酸在相鄰位置之間轉(zhuǎn)換的百分比;核苷酸分布(特征D)計算每個核苷酸在轉(zhuǎn)錄物序列的5個相對位置(0,25%,50%,75%,100%)來表示每個核苷酸在轉(zhuǎn)錄本序列中的分布。
2 lncRNA鑒定工具比較
本文所涉及的5個lncRNA鑒定工具包括最常用的CPAT、CNCI、PLEK,以及CPC的最新版本CPC2和最新發(fā)布的工具CPPred。其中,CPAT使用了邏輯回歸模型,其余四個工具都使用了支持向量機模型。本文總結(jié)每種工具的簡要信息和使用細節(jié)見表1。
接著,本文更具體地對5種工具所選擇的特征進行概述,見表2。
5種鑒定工具都是不包含比對過程的,適用于對未充分研究的物種的轉(zhuǎn)錄物分析。其中,CNCI和PLEK都可以用于有測序錯誤的數(shù)據(jù)集,PLEK在這類數(shù)據(jù)上表現(xiàn)更好。與CPAT、CPC2和CPPred相比,PLEK在除人類以外的其他物種中表現(xiàn)不佳。5種鑒定工具在不同測試集上的表現(xiàn)見表3。
由于不同物種lncRNA、不同測序數(shù)據(jù)之間存在一定的差異性,不同的lncRNA鑒定工具設(shè)計上存在一定的針對性。CPAT和CPPred為小鼠轉(zhuǎn)錄本的鑒定提供了專門的模型。在分析其他物種時,CPAT還提供了果蠅和斑馬魚的模型;CNCI和PLEK可以預(yù)測脊椎動物和植物的序列;CPC2還可以預(yù)測果蠅、斑馬魚、擬南芥、蠕蟲;CPPred提供了適用于斑馬魚、果蠅、釀酒酵母、線蟲和擬南芥的模型。不同工具在不同條件下的適用性見表4。
3 結(jié)束語
lncRNA的鑒定一直以來都是生物信息學(xué)研究的一個挑戰(zhàn),在2010年之前,以CPC軟件為代表的lncRNA鑒定工具會依賴比對過程,此后,大部分軟件通過提取序列的內(nèi)在特征來進行分類。這篇綜述中,集中探討了常用的和最新的lncRNA鑒定工具,總結(jié)了其相應(yīng)的適用范圍,幫助研究人員來選擇使用適合的工具,同時獲得令人信服的結(jié)果。未來lncRNA鑒定工具的趨勢是針對不同類型的序列,開放不同的工具來解決各種特定情況下的問題。
參考文獻
[1] PALAZZO A F, LEE E S. Non-coding RNA:What is functional and what is junk? [J]. Frontiers in Genetics, 2015, 6: 2.
[2]SCHMITZ S U, GROTE P, HERRMANN B G. Mechanisms of long noncoding RNA function in development and disease[J]. Cellular and molecular life sciences, 2016, 73(13): 2491.
[3]HAN Siyu, LIANG Yanchun, LI Ying, et al. Long noncoding RNA identification: Comparing machine learning based tools for long noncoding transcripts discrimination[J]. BioMed Research International, 2016, 2016: 8496165.
[4]WANG Liguo, PARK H J, DASARI S, et al. CPAT: Coding-potential assessment tool using an alignment-free logistic regres-sion model[J]. Nucleic acids research, 2013,41(6): e74.
[5]SUN Liang, LUO Haitao, BU Dechao, et al. Utilizing sequence intrinsic composition to classify protein-coding and long non-coding transcripts[J]. Nucleic acids research, 2013, 41(17): e166.
[6]LI Aimin, ZHANG Junying, ZHOU Zhongyin. PLEK:A tool for predicting long non-coding RNAs and messenger RNAs based on an improved k-mer scheme[J]. BMC bioinformatics, 2014, 15: 311.
[7]KANG Yujian, YANG Dechang, KONG Leilei, et al. CPC2: A fast and accurate coding potential calculator based on sequence intrinsic features[J]. Nucleic acids research, 2017, 45(W1): W12.
[8]TONG Xiaoxue, LIU Shiyong. CPPred: Coding potential prediction based on the global description of RNA sequence[J]. Nucleic Acids Research, 2019, gkz087:1