摘要:RNA作為生物遺傳信息傳遞和復(fù)制的重要組成部分,其結(jié)構(gòu)非常復(fù)雜。使用計(jì)算機(jī)算法預(yù)測(cè)大分子量的RNA二級(jí)結(jié)構(gòu)將是一個(gè)行之有效的途徑。本文將介紹目前常用的幾種RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)算法,并對(duì)其特點(diǎn)進(jìn)行初步的比較分析。
關(guān)鍵詞:RNA二級(jí)結(jié)構(gòu);算法;自由能;莖區(qū)
中圖分類號(hào):Q522文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1006-8937(2012)05-0042-02
RNA分子是生物體內(nèi)參與各種如細(xì)胞分化、代謝、記憶存儲(chǔ)等重要生命活動(dòng)的一類大分子,其常見種類有:rRNA、mRNA、tRNA。其中除tRNA分子量較小外,其余RNA分子都具有非常大的分子量且結(jié)構(gòu)復(fù)雜。傳統(tǒng)的物理、化學(xué)結(jié)構(gòu)預(yù)測(cè)方法只適用于測(cè)量分子量較小的RNA。而針對(duì)大分子量的RNA二級(jí)結(jié)構(gòu)預(yù)測(cè),使用計(jì)算機(jī)技術(shù)預(yù)測(cè)是一條行之有效的方法。本文主要介紹基于系統(tǒng)發(fā)育比較和自由能最小兩種技術(shù)的RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)算法,并對(duì)算法的特點(diǎn)做出簡(jiǎn)單的闡述。
1RNA二級(jí)結(jié)構(gòu)的預(yù)測(cè)方法
從1960年fresco等提出第一個(gè)RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)算法開始,RNA二級(jí)結(jié)構(gòu)的預(yù)測(cè)算法經(jīng)歷了近半個(gè)世紀(jì)的發(fā)展,已日趨成熟。1987年Von heijin對(duì)各種預(yù)測(cè)RNA二級(jí)結(jié)構(gòu)的方法進(jìn)行了綜述[1]。1971年Tinoco et.al首次估算了與二級(jí)結(jié)構(gòu)相關(guān)的能量,包括雙鏈區(qū)中堆疊堿基對(duì)相關(guān)的穩(wěn)態(tài)能量和未配對(duì)區(qū)域的穩(wěn)定影響。1975年P(guān)ipas和McMahon開發(fā)出計(jì)算機(jī)程序可以列出tRNA序列中所有可能的螺旋區(qū)。直到1980年Nussinov和Jacobson首次設(shè)計(jì)出一個(gè)用于預(yù)測(cè)二級(jí)結(jié)構(gòu)的精確而有效的算法,該算法運(yùn)用了類似動(dòng)態(tài)規(guī)劃的相關(guān)技術(shù),產(chǎn)生了兩個(gè)記分矩陣,用于記錄推測(cè)出的RNA分子中堿基的相關(guān)信息。目前,研究人員開發(fā)出多種RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)方法。但總體來(lái)說(shuō),這些方法可以從研究的數(shù)據(jù)量出發(fā)將其分為兩大類:基于系統(tǒng)發(fā)育比較技術(shù)的預(yù)測(cè)算法和基于自由能最小技術(shù)的預(yù)測(cè)算法。
1.1基于系統(tǒng)發(fā)育比較技術(shù)的預(yù)測(cè)算法
基于系統(tǒng)發(fā)育比較技術(shù)的預(yù)測(cè)算法即序列比較分析方法(comparative sequence analysis),或稱系統(tǒng)發(fā)育方法(phylogenetic methods)。該方法對(duì)多條序列進(jìn)行互補(bǔ)堿基的共變連配(covariant alignment)在已知序列的數(shù)據(jù)庫(kù)中搜尋被考察序列的相似序列,并利用各類統(tǒng)計(jì)分析技術(shù)及序列上下文語(yǔ)義分析來(lái)推斷出待測(cè)序列的二級(jí)結(jié)構(gòu)。具體算法包括:Eddy和Durbin提出的協(xié)同變異模型及Sakakibara提出的利用隨機(jī)上下文無(wú)關(guān)文法(SCFG)預(yù)測(cè)RNA二級(jí)結(jié)構(gòu)的方法等[1,2]。
協(xié)同變異分析方法的結(jié)構(gòu)預(yù)測(cè)算法將對(duì)待測(cè)序列進(jìn)行優(yōu)化排序和多重序列的對(duì)位排序,從而查找出其潛在的二級(jí)結(jié)構(gòu)。然后對(duì)特定堿基對(duì)行統(tǒng)計(jì)分析,找出其出現(xiàn)頻率的期望值。再對(duì)堿基對(duì)進(jìn)行共有信息記分。通過(guò)對(duì)堿基對(duì)的記分信息的比較。找出16種堿基對(duì)所有組合的期望值。最終推測(cè)出該RNA二級(jí)結(jié)構(gòu)的詳細(xì)信息。從基于協(xié)同變異模型預(yù)測(cè)RNA二級(jí)結(jié)構(gòu)的算法仿真實(shí)驗(yàn)結(jié)果中可看出,該算法在用于小分子量基因如tRNA時(shí),顯示出良好的性能,但在用于較大基因組搜索時(shí)則顯得相當(dāng)緩慢。
Sakakibara提出的基于SCFG技術(shù)的RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)算法從形式語(yǔ)言的角度出發(fā),以字符方式標(biāo)記RNA分子中的堿基,并規(guī)定了終結(jié)字符、非終結(jié)字符、產(chǎn)生式等來(lái)描述RNA二級(jí)結(jié)構(gòu)中的不同子結(jié)構(gòu)類型。其利用產(chǎn)生式的規(guī)則構(gòu)造出的語(yǔ)法樹即代表了一個(gè)可能的二級(jí)結(jié)構(gòu)。由于不用產(chǎn)生式的概率不同,因此,該技術(shù)應(yīng)用動(dòng)態(tài)變成算法計(jì)算出其概率,從而構(gòu)造出最可能的語(yǔ)法樹。該類算法的缺點(diǎn)就于其具有計(jì)算上的復(fù)雜性[3]。
從以上兩個(gè)具體算法可以看出,基于系統(tǒng)發(fā)育比較技術(shù)的RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)算法具有很好的預(yù)測(cè)精確度,但是,對(duì)于序列的樣本要求卻很高。一般來(lái)說(shuō),依靠這種技術(shù)預(yù)測(cè)RNA二級(jí)結(jié)構(gòu)需要一定數(shù)量的相關(guān)序列樣本,并要求序列樣本間具有一致的二級(jí)結(jié)構(gòu)和一些共同的基本結(jié)構(gòu)單元。對(duì)于小樣本或來(lái)源差異大的序列,其比較結(jié)構(gòu)就不大可靠了。此外,多序列聯(lián)配是該預(yù)測(cè)技術(shù)的核心,但卻非常消耗系統(tǒng)資源。
1.2基于自由能最小技術(shù)的預(yù)測(cè)算法
研究證明,自然的RNA二級(jí)結(jié)構(gòu)應(yīng)該是穩(wěn)定的,根據(jù)熱力學(xué)理論,當(dāng)物體處于穩(wěn)定態(tài)時(shí)其自由能最小[4]。根據(jù)這一理論,基于自由能最小技術(shù)的預(yù)測(cè)算法將對(duì)待測(cè)RNA序列進(jìn)行自由能分析,從中找出自由能最小的結(jié)構(gòu),并將其接近于待測(cè)序列的真實(shí)二級(jí)結(jié)構(gòu)。因此,由于不需要大量樣本序列數(shù)據(jù)庫(kù)支持,基于最小自由能技術(shù)的預(yù)測(cè)算法,成為了當(dāng)今RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)算法發(fā)展的主流方向。該技術(shù)主要包含三類:基于矩陣運(yùn)算的動(dòng)態(tài)規(guī)劃算法、基于莖組合的啟發(fā)算法和基于隨機(jī)搜索的進(jìn)化算法。
基于矩陣運(yùn)算的動(dòng)態(tài)規(guī)劃算法利用矩陣的形式表現(xiàn)出堿基對(duì)在二級(jí)結(jié)構(gòu)中分布信息。并結(jié)合動(dòng)態(tài)規(guī)劃算法和能量規(guī)則推導(dǎo)出自由能最小的RNA二級(jí)結(jié)構(gòu)即近似真實(shí)二級(jí)結(jié)構(gòu)?;谠摷夹g(shù)的算法首先由Nussionv和Jacobson于1980年提出——最大堿基匹配數(shù)結(jié)構(gòu)的預(yù)測(cè)算法,該算法將產(chǎn)生兩個(gè)記分矩陣,用于表示某兩點(diǎn)間任意間隔中形成的堿基對(duì)的最大數(shù)目,以及特定堿基的互補(bǔ)堿基的位置。然后通過(guò)一個(gè)回溯的過(guò)程推導(dǎo)出具有最大可能堿基對(duì)數(shù)目的二級(jí)結(jié)構(gòu)。之后,Zuker和Stiegler于1981年提出了最小自由能結(jié)構(gòu)的預(yù)測(cè)算法。該方法以結(jié)構(gòu)的能量大小作為其評(píng)分標(biāo)準(zhǔn),比較RNA分子中所有可能的配對(duì)堿基及其能量值,直到所有的核酸都被比較過(guò)后,利用記分矩陣預(yù)測(cè)出所有可能結(jié)構(gòu)并發(fā)現(xiàn)出最合適的能量。該類算法對(duì)于一些小分子RNA的預(yù)測(cè)結(jié)果非??煽浚S著序列長(zhǎng)度的增加,其可靠性隨之下降。同時(shí),由于最小自由能結(jié)構(gòu)的預(yù)測(cè)算法的時(shí)間復(fù)雜度為,空間復(fù)雜度為,其中n表示RNA分子中的堿基數(shù),因此當(dāng)RNA分子量增大時(shí),該算法所面臨的問(wèn)題規(guī)模時(shí)無(wú)法控制的。
基于莖區(qū)組合的優(yōu)化算法其RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)思路主要源于RNA分子的二級(jí)結(jié)構(gòu)特征。簡(jiǎn)單來(lái)說(shuō), RNA二級(jí)結(jié)構(gòu)就是一連串莖區(qū)串聯(lián)而成的組合,因此根據(jù)不同的莖區(qū)能量,找出總自由能最小的莖區(qū)組合,也就找到了穩(wěn)定的RNA二級(jí)結(jié)構(gòu)[5]。目前相關(guān)的主要算法有Pipas提出的求解莖區(qū)所有可能組合中最小自由能結(jié)構(gòu)的預(yù)測(cè)算法,以及Benedetti提出的莖區(qū)最優(yōu)堆積算法。該算法的主要思想就是給定一條序列,它首先列出其中所有可能的莖區(qū),并根據(jù)中心極限定理,用Monte Carlo隨機(jī)試驗(yàn)的方法估計(jì)出每一莖區(qū)的出現(xiàn)概率,然后在每一步迭代當(dāng)中挑選莖區(qū)列表中概率較大自由能最小的那一個(gè)加到當(dāng)前結(jié)構(gòu)上并消除產(chǎn)生沖突的情況,直到再也沒有莖區(qū)可加了,則當(dāng)前結(jié)構(gòu)就作為RNA序列的最終二級(jí)結(jié)構(gòu)[6]。該類算法總能夠計(jì)算出結(jié)構(gòu)穩(wěn)定的RNA二級(jí)結(jié)構(gòu),但由于對(duì)莖區(qū)的選擇上依賴于莖區(qū)出現(xiàn)的概率和莖區(qū)的排序,因此會(huì)導(dǎo)致當(dāng)自由能最小的莖區(qū)沒有按最大概率出現(xiàn)時(shí),該莖區(qū)將會(huì)被漏選。
目前遺傳算法等一類基于隨機(jī)搜索的啟發(fā)式搜索技術(shù)也已用于預(yù)測(cè)二級(jí)結(jié)構(gòu),這一類算法具在面對(duì)大樣本,環(huán)境復(fù)雜的問(wèn)題時(shí)常常會(huì)有良好的表現(xiàn)。該類算法模擬了生物的進(jìn)化原理,能夠在一個(gè)種群數(shù)量龐大的樣本空間中,自適應(yīng)地利用選擇、交叉、變異等手段對(duì)樣本空間進(jìn)行篩選,優(yōu)化,最終依據(jù)篩選規(guī)則找出最優(yōu)解。在對(duì)RNA二級(jí)結(jié)構(gòu)的預(yù)測(cè)中,面對(duì)數(shù)量龐大的堿基對(duì)組合方式,可以根據(jù)其能量規(guī)則,利用進(jìn)化算法找出自由能最小的結(jié)構(gòu)。該類算法的突出優(yōu)點(diǎn)在于它可以解決含有假結(jié)的RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)問(wèn)題。但缺點(diǎn)是該類算法的整個(gè)運(yùn)行過(guò)程是一個(gè)自適應(yīng)過(guò)程,因此隨意性比較大,結(jié)果容易出現(xiàn)局部最優(yōu)解,導(dǎo)致運(yùn)行結(jié)果不易控制。
2結(jié)語(yǔ)
無(wú)論是基于上述那類技術(shù)設(shè)計(jì)的RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)算法,在開始階段,研究人員為簡(jiǎn)化RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)難度,大多數(shù)預(yù)測(cè)算法都未考慮RNA二級(jí)結(jié)構(gòu)中的假結(jié)、相吻發(fā)夾等復(fù)雜情況,然而這些結(jié)構(gòu)均常出現(xiàn)在真實(shí)的RNA二級(jí)結(jié)構(gòu)中。因此,在今后的算法改進(jìn)中,研究人員還需周全考慮真實(shí)二級(jí)結(jié)構(gòu)中的各類構(gòu)造情況,并聯(lián)系RNA分子間相互作用對(duì)結(jié)構(gòu)穩(wěn)定性的影響因素,找出更為精確的預(yù)測(cè)模型,完成對(duì)RNA二級(jí)結(jié)構(gòu)的預(yù)測(cè),盡力縮小因人為因素導(dǎo)致的預(yù)測(cè)誤差。
參考文獻(xiàn):
[1] 李巍.生物信息學(xué)導(dǎo)論[M].鄭州:河南醫(yī)科大學(xué)出版社,
2004.
[2] Jacques Cohen.Bioinformatics—An Introduction for Computer
Scientists[J].ACM Computing Surveys,2004,36(4):122-185.
[3] 寧正元,林世強(qiáng).RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)方法福建農(nóng)林大學(xué)學(xué)
報(bào)(自然科學(xué)版),2007,36(1):60-63.
[4] 廖波,王天明.RNA二級(jí)結(jié)構(gòu)的最小自由能算法.生物數(shù)學(xué)
學(xué)報(bào),2003,18(3):364-368.
[5] 李伍舉,吳加金.基于螺旋區(qū)隨機(jī)堆積的RNA二級(jí)結(jié)構(gòu)的
預(yù)測(cè).生物物理學(xué)報(bào),1996,12(2):213-218.
[6] 劉海軍,史定華.翼飛日新月異的RNA二級(jí)結(jié)構(gòu)預(yù)測(cè)[J].自
然雜志,2003,25(6):314-322.