• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      隱馬爾科夫模型基于殘基對(duì)蛋白質(zhì)序列的分析

      2014-07-10 10:42:03汪一亭
      池州學(xué)院學(xué)報(bào) 2014年3期
      關(guān)鍵詞:殘基同源概率

      汪一亭

      (池州學(xué)院 數(shù)學(xué)與計(jì)算機(jī)科學(xué)系,安徽 池州247000)

      隱馬爾科夫模型基于殘基對(duì)蛋白質(zhì)序列的分析

      汪一亭

      (池州學(xué)院 數(shù)學(xué)與計(jì)算機(jī)科學(xué)系,安徽 池州247000)

      區(qū)分、識(shí)別出同源蛋白質(zhì)序列并揭示不同類型的殘基的研究在生物信息領(lǐng)域具有重要的意義。文章將蛋白質(zhì)的氨基酸與殘基的序列用隱馬爾科夫模型(HMM)來(lái)表示,介紹了一種基于蛋白質(zhì)殘基來(lái)建立隱馬爾科夫模型的思路。接著采用HMM的評(píng)估算法對(duì)蛋白質(zhì)同源性進(jìn)行分類,又由于是將殘基類型作為模型的狀態(tài)來(lái)考慮,利用HMM的結(jié)論可以解碼出最優(yōu)的殘基序列,從而進(jìn)一步預(yù)測(cè)出殘基的類型。結(jié)果表明分類算法取得了較好的效果,且在預(yù)測(cè)結(jié)果上與其他方法相比也具有一定的優(yōu)勢(shì)。

      隱馬爾可夫模型;蛋白質(zhì);界面殘基;表面殘基

      1 引言

      近年來(lái),隨著蛋白質(zhì)測(cè)序工作的快速發(fā)展,人們已經(jīng)獲取了大量蛋白質(zhì)序列數(shù)據(jù)。但是,由于同源蛋白質(zhì)的原因,往往會(huì)出現(xiàn)對(duì)某類同源的序列進(jìn)行測(cè)序,并將其存入數(shù)據(jù)庫(kù)的情況,結(jié)果可能會(huì)導(dǎo)致對(duì)某一簇蛋白質(zhì)序列的功能分析的夸大,從而對(duì)研究產(chǎn)生誤導(dǎo)[1]。因此,比較蛋白質(zhì)序列并區(qū)分、識(shí)別出同源序列的算法的研究已成為生物信息領(lǐng)域的重要內(nèi)容。目前,已有不少相關(guān)學(xué)者對(duì)此類問(wèn)題進(jìn)行了研究。有聚類算法[2]、基于圖論的算法[3]。而隱馬爾可夫模型(Hidden Markov model,HMM)用于蛋白質(zhì)研究是生物信息學(xué)研究的新領(lǐng)域,文獻(xiàn) [4]將HMM用于蛋白質(zhì)同源性的研究,但是該算法建立的HMM模型所基于的特征的關(guān)注度和準(zhǔn)確性遠(yuǎn)遠(yuǎn)沒(méi)有蛋白質(zhì)殘基的分布特征高。

      蛋白質(zhì)間的相互作用是蛋白質(zhì)組學(xué)研究的另一個(gè)核心問(wèn)題。其中蛋白質(zhì)界面殘基的預(yù)測(cè)所研究的是確定在蛋白質(zhì)-蛋白質(zhì)相互作用中,某一條鏈上的哪些殘基參與了作用[6]。因此捕捉和揭示不同種類的蛋白質(zhì)殘基對(duì)深入了解蛋白質(zhì)間相互作用的機(jī)制具有重要的生物學(xué)意義。由于生物學(xué)實(shí)驗(yàn)技術(shù)探測(cè)殘基費(fèi)時(shí)費(fèi)力且不能大規(guī)模應(yīng)用,近幾年已有很多計(jì)算方法被提出,主要有SVM方法[7]、貝葉斯方法[6]、神經(jīng)網(wǎng)絡(luò)方法[8]等,但相較于傳統(tǒng)的分類方法中,利用隱馬爾可夫模型預(yù)測(cè)殘基的案例較少。

      2 基本理論

      2.1 HMM簡(jiǎn)介

      隱馬爾可夫模型作為一種統(tǒng)計(jì)分析模型,被用于生物信息學(xué)研究領(lǐng)域的基礎(chǔ)是計(jì)算機(jī)技術(shù)、統(tǒng)計(jì)學(xué)和分子生物學(xué)。它由相互關(guān)聯(lián)的兩個(gè)隨機(jī)過(guò)程共同描述信號(hào)的統(tǒng)計(jì)特性,HMM可以用五個(gè)元素來(lái)描述分別為隱含狀態(tài)、可觀測(cè)狀態(tài)、初始狀態(tài)概率、隱含狀態(tài)轉(zhuǎn)移概率矩陣、觀測(cè)狀態(tài)概率矩陣。HMM解決的關(guān)鍵實(shí)際問(wèn)題有三類分別是:1)評(píng)估問(wèn)題,采用前向算法;2)解碼問(wèn)題,采用Viterbi算法;3)學(xué)習(xí)問(wèn)題,采用Baum-Welch算法。

      2.2 蛋白質(zhì)殘基的定義與分類

      蛋白質(zhì)殘基是氨基酸序列脫水形成肽鏈后的部分,共分為界面殘基(interface residue)、表面殘基(surface residue)、非表面殘基(non-surface residue)三類[5]。對(duì)于此三類殘基的定義還沒(méi)有完全統(tǒng)一,文獻(xiàn)[6]、[10]都有各自的區(qū)分殘基的標(biāo)準(zhǔn),但都是基于某一實(shí)驗(yàn)手段稱為溶劑可及表面積(solvent accessible surface area,SASA)的基礎(chǔ)上量化指標(biāo)的不同而已。其中,界面殘基屬于表面殘基,但比非界面的表面殘基具有更高的SASA[9],為方便描述,下文中的表面殘基特指非界面的表面殘基。三者分布關(guān)系見(jiàn)圖1。

      不僅如此,SASA不僅能區(qū)分殘基,而且通過(guò)SASA還可以了解氨基酸的疏水性,而疏水性對(duì)于蛋白質(zhì)的二級(jí)結(jié)構(gòu)預(yù)測(cè)非常關(guān)鍵。因此對(duì)殘基的研究無(wú)論對(duì)于蛋白質(zhì)間相互作用還是蛋白質(zhì)空間結(jié)構(gòu)的預(yù)測(cè)都具有非常關(guān)鍵的意義。我們采用文獻(xiàn)[6]的定義:即若殘基的SASA對(duì)殘基的最大面積的比值超過(guò)25%,就定義它為表面殘基。而在復(fù)合物形成過(guò)程中SASA的減少量超過(guò)1的殘基就定義為界面殘基。

      圖1 蛋白質(zhì)殘基分布關(guān)系

      3 HMM模型的建立與算法

      3.1 HMM各元素的確立與參數(shù)學(xué)習(xí)

      已有學(xué)者將HMM用來(lái)表示蛋白質(zhì)序列而進(jìn)行的研究[4],但該模型的狀態(tài)是基于進(jìn)化過(guò)程中原始蛋白質(zhì)序列經(jīng)歷突變,遺失,或引入外源序列,而此類特征的關(guān)注度和準(zhǔn)確性遠(yuǎn)遠(yuǎn)沒(méi)有蛋白質(zhì)殘基的分布特征高。

      在本文中,將蛋白質(zhì)的氨基酸與殘基的序列用HMM模型來(lái)表示,其中界面、表面、非表面殘基是由難以直接觀測(cè)到的隱狀態(tài)表示,構(gòu)成蛋白質(zhì)的20種氨基酸由可觀測(cè)值表示。圖2為相應(yīng)的隱馬爾可夫模型。該模型的具體流程是從一個(gè)起始隱狀態(tài)開(kāi)始,以某種概率進(jìn)入界面、表面、非表面殘基狀態(tài)之間的某一個(gè),其中每個(gè)隱狀態(tài)會(huì)觀察到一種氨基酸。當(dāng)模型從起始狀態(tài)到結(jié)束狀態(tài)時(shí),產(chǎn)生的不同氨基酸會(huì)構(gòu)成一個(gè)氨基酸序列。圖中箭頭表示的狀態(tài)間的轉(zhuǎn)換概率是有區(qū)別的,此外不同狀態(tài)所能觀測(cè)到的氨基酸種類的概率也是有區(qū)別的。狀態(tài)的初始分布、每個(gè)狀態(tài)產(chǎn)生的氨基酸種類的概率、各狀態(tài)間的轉(zhuǎn)移概率都由模型的參數(shù)決定。經(jīng)過(guò)訓(xùn)練,可以調(diào)整該模型的參數(shù),訓(xùn)練好的模型能夠以最大的可能性產(chǎn)生參與訓(xùn)練的觀察序列,由此可以代表有共同特征的蛋白質(zhì)序列,從而描述不同族的蛋白質(zhì)。我們將采用典型的HMM訓(xùn)練算法Baumwelch算法來(lái)進(jìn)行建模。

      圖2 基于蛋白質(zhì)殘基的隱馬爾可夫模型

      3.2 同源蛋白質(zhì)序列的區(qū)分算法

      之后將Baum-welch算法訓(xùn)練出來(lái)的參數(shù)模型進(jìn)行蛋白質(zhì)同源性的研究。其原理為HMM的評(píng)估問(wèn)題,分析由該模型產(chǎn)生不同序列的概率,對(duì)于與模型相符合的序列,則能以較大的概率產(chǎn)生該序列,若不與該模型符合的序列,則產(chǎn)生該序列的概率會(huì)相對(duì)較小,由此可以區(qū)分出同源和非同源蛋白質(zhì)序列,此外,只要對(duì)概率劃分合適的域值,就能夠從許多蛋白質(zhì)序列中識(shí)別出該族的蛋白質(zhì)序列。我們將采用HMM評(píng)估問(wèn)題的典型算法前向算法來(lái)區(qū)分蛋白質(zhì)序列。

      3.3 蛋白質(zhì)殘基的預(yù)測(cè)算法

      在上述區(qū)分的同源蛋白質(zhì)的基礎(chǔ)上可以進(jìn)一步根據(jù)該模型預(yù)測(cè)界面、表面、非表面殘基,該問(wèn)題則屬于HMM的解碼問(wèn)題。

      4 實(shí)驗(yàn)結(jié)果分析

      實(shí)驗(yàn)采用的蛋白質(zhì)復(fù)合物為Homo-complex I data set與Hetero-complex I data set[5],這些數(shù)據(jù)集來(lái)源于PDB數(shù)據(jù)庫(kù)經(jīng)過(guò)篩選后得到的結(jié)果,各自含有621和504條蛋白質(zhì)復(fù)合物鏈。我們首先從Hetero-complex I data set中選擇前50條作為訓(xùn)練序列,經(jīng)過(guò)Baum-welch算法的學(xué)習(xí)得到隱馬爾科夫模型。訓(xùn)練好的該模型參數(shù)見(jiàn)表1、2、3。其中,狀態(tài)0,1,2分別表示界面、表面、非表面殘基。

      表1 初始狀態(tài)概率

      表2 狀態(tài)轉(zhuǎn)移概率矩陣

      表3 氨基酸種類概率矩陣

      根據(jù)上述參數(shù)模型,將Hetero-complex I data set余下的454條蛋白質(zhì)序列隨機(jī)選取150條采用前向算法進(jìn)行分析評(píng)估,為了便于統(tǒng)計(jì)大量數(shù)據(jù)結(jié)果,程序在實(shí)現(xiàn)前向算法的基礎(chǔ)上添加計(jì)算平均值和方差的功能。再將Homo-complex I data set的蛋白質(zhì)序列同樣方法用該模型進(jìn)行分析,兩次實(shí)驗(yàn)各自得到的統(tǒng)計(jì)結(jié)果見(jiàn)表4。

      由表4我們可以清楚看出,模型產(chǎn)生Homocomplex I數(shù)據(jù)集的蛋白質(zhì)序列的概率明顯小于Hetero-complex I數(shù)據(jù)集的蛋白質(zhì)概率。由于這兩個(gè)數(shù)據(jù)集分別是描述同類聚合物和異類聚合物的蛋白質(zhì)序列,由此說(shuō)明該隱馬爾科夫模型能夠很好的區(qū)分出同源和非同源蛋白質(zhì)序列。

      表4HMM評(píng)估結(jié)果

      接下來(lái)將與該模型相匹配的余下的蛋白質(zhì)序列用viterbi算法進(jìn)行解碼,預(yù)測(cè)出界面、表面、非表面殘基的結(jié)果見(jiàn)表5,我們選取其中的PDB代碼為1xqs蛋白質(zhì)的D鏈為例,列舉出其部分詳細(xì)的殘基預(yù)測(cè)結(jié)果。其中的T表示該殘基為界面殘基,S表示該殘基為表面殘基,N表示非表面殘基。殘基的序列號(hào)是PDB文件中的序列編號(hào),所有殘基采用單字母表示。

      從表5可以看出,與文獻(xiàn)[4]、[6]相比,文獻(xiàn)[4]只能識(shí)別出同源和非同源蛋白質(zhì)序列,不能預(yù)測(cè)殘基的種類,而采用我們的方法既能識(shí)別出蛋白質(zhì)序列(如表4所示)又能預(yù)測(cè)出殘基種類;文獻(xiàn)[6]采用貝葉斯方法所得到的僅能預(yù)測(cè)界面殘基,而表面殘基和非表面殘基的情況則沒(méi)有考慮 (見(jiàn)表6:在1fc2_C鏈上貝葉斯方法的預(yù)測(cè)結(jié)果),而本文利用的HMM的viterbi算法可以預(yù)測(cè)出最可能的三類蛋白質(zhì)殘基序列。在預(yù)測(cè)算法的思想上,傳統(tǒng)的分類方法僅分散的研究各殘基而忽略相鄰殘基間的相互關(guān)聯(lián),本文的馬爾科夫模型則考慮了相鄰殘基間的相互關(guān)系。

      表5 在1xqs_D鏈上本方法的預(yù)測(cè)結(jié)果

      表6 在1fc2_C鏈上貝葉斯方法的預(yù)測(cè)結(jié)果

      5 結(jié)論

      由實(shí)驗(yàn)結(jié)果可看出,HMM可以基于已知的一級(jí)結(jié)構(gòu)對(duì)蛋白質(zhì)序列進(jìn)行分類,并進(jìn)一步預(yù)測(cè)界面、表面、非表面殘基,并且有較好的效果,是對(duì)其它分類和預(yù)測(cè)方法的補(bǔ)充。但它也存在一些缺陷,使得它用于蛋白質(zhì)分析方面有一定的不足,最主要的因素是Baum-Welch算法存在陷入局部極值、過(guò)早收斂或收斂速度慢等缺點(diǎn),而學(xué)習(xí)得到的模型參數(shù)將直接影響區(qū)分和預(yù)測(cè)算法的準(zhǔn)確性。結(jié)合HMM 和SVM[7]、貝葉斯[6]、神經(jīng)網(wǎng)絡(luò)[8]等方法來(lái)改進(jìn)更好的學(xué)習(xí)算法,使用更高性能的計(jì)算機(jī),結(jié)合各種蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù),將會(huì)在蛋白質(zhì)序列分析方面得到更準(zhǔn)確的結(jié)果。

      [1]張成崗,歐陽(yáng)曙光,張紹文,等.基于PC/Linux的核酸序列分析系統(tǒng)的構(gòu)建及其應(yīng)用[J].生物化學(xué)與生物物理進(jìn)展,2001(2):263-266.

      [2]Yona G,Linial N,Linial M.ProtoMap:automatic classification of protein sequences and hierarchy of protein families[J].Nucleic Acids Res,2000,28(1):49-55.

      [3]Hideya Kawaji,Yoichi Takenaka,Hideo Matsuda.Graph-based clustering for finding distant relationships in a large set of protein sequences[J].Oxford Journals Life Sciences&Mathematics&Physical Sciences Bioinformatics,2004(20):243-252.

      [4]吳曉明,宋長(zhǎng)新,王波,等.隱馬爾可夫模型用于蛋白質(zhì)序列分析[J].生物醫(yī)學(xué)工程學(xué)雜志,2002,19(3):455-458.

      [5]Liu Bin,Homo-complex I data set [DB/OL].(2009-11-20).[2014-02-10].http://www.biomedcentral.com/content/supplementary/1471-2105-10-381-s2.txt.

      [6]王池社,程家興,等.基于貝葉斯方法的蛋白質(zhì)界面殘基預(yù)測(cè)[J].計(jì)算機(jī)應(yīng)用與軟件,2009,26(5):75-77.

      [7]Qiwen Dong,XiaoLong Wang,Lei Lin,et al.Exploiting residuelevel and profile-level interface propensities for usage in binding sites prediction of proteins[J].BMCBioinformatics,2007(8):147.

      [8]Yanay Ofran,Burkhard Rost.ISIS:interaction sites identified fromsequence[J].Bioinformatics,2007(23):2.

      [9]歐陽(yáng)玉梅,方若森.蛋白質(zhì)-蛋白質(zhì)界面熱點(diǎn)殘基預(yù)測(cè)及其在線工具[J].生命科學(xué),2012,24(1):106-111.

      [10]Feihong Wu,Fadi Towfic,Drena dobbs,etc.Analysis of Protein Protein Dimeric Interfaces[C].Fremont:International Conference on Bioinformatics and Biomedicine,2007:35-38.

      [責(zé)任編輯:桂傳友]

      TP391

      A

      1674-1104(2014)03-0025-03

      10.13420/j.cnki.jczu.2014.03.007

      2014-02-22

      池州學(xué)院自然科學(xué)研究項(xiàng)目(2013ZR017)。

      汪一亭(1983-),女,安徽池州人,池州學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)系助教,碩士,研究方向?yàn)樯镄畔W(xué)。

      猜你喜歡
      殘基同源概率
      藥食同源
      ——紫 蘇
      兩岸年味連根同源
      基于各向異性網(wǎng)絡(luò)模型研究δ阿片受體的動(dòng)力學(xué)與關(guān)鍵殘基*
      第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
      第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
      以同源詞看《詩(shī)經(jīng)》的訓(xùn)釋三則
      概率與統(tǒng)計(jì)(一)
      概率與統(tǒng)計(jì)(二)
      “殘基片段和排列組合法”在書(shū)寫(xiě)限制條件的同分異構(gòu)體中的應(yīng)用
      虔誠(chéng)書(shū)畫(huà)乃同源
      邹城市| 北安市| 延边| 基隆市| 南充市| 田林县| 天水市| 邯郸县| 灯塔市| 唐河县| 汤阴县| 渑池县| 栾川县| 许昌县| 宜春市| 博爱县| 青州市| 云和县| 伊春市| 和龙市| 大关县| 盐山县| 沙田区| 宜春市| 讷河市| 任丘市| 香格里拉县| 西畴县| 黄石市| 华亭县| 安国市| 涪陵区| 厦门市| 河间市| 许昌市| 荔波县| 建昌县| 盐源县| 襄垣县| 兴业县| 板桥市|