• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      識(shí)別蛋白質(zhì)配體綁定殘基的生物計(jì)算方法綜述*

      2018-04-13 07:26:53於東軍朱一亨
      數(shù)據(jù)采集與處理 2018年2期
      關(guān)鍵詞:定位點(diǎn)殘基配體

      於東軍 朱一亨 胡 俊

      (南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,南京,210094)

      引  言

      蛋白質(zhì)作為生命活動(dòng)的物質(zhì)基礎(chǔ)之一,是構(gòu)成一切細(xì)胞組織結(jié)構(gòu)的重要組成成分,參與了生物體內(nèi)許多方面的重要生命過程,是生命活動(dòng)的重要承擔(dān)者。因此,對蛋白質(zhì)的結(jié)構(gòu)、功能以及相互作用等方面進(jìn)行深入的分析與理解,可以直接、準(zhǔn)確地解釋各種生命活動(dòng)現(xiàn)象,亦有助于闡明相關(guān)疾病的發(fā)病機(jī)理,進(jìn)而指導(dǎo)相應(yīng)的藥物設(shè)計(jì)[1]。

      蛋白質(zhì)在生命活動(dòng)過程中不是孤立存在的,需要和其他生物分子、離子等綁定,進(jìn)而產(chǎn)生相互作用來完成特定的生物功能,這種相互作用在生命過程中普遍存在并且不可或缺[2]。蛋白質(zhì)所綁定的生物分子、離子等稱為配體,如金屬離子、小的有機(jī)/無機(jī)分子、大分子(如蛋白質(zhì))、核酸等。在與配體相互作用時(shí),蛋白質(zhì)中一些關(guān)鍵的氨基酸殘基形成一個(gè)類似口袋的形狀區(qū)域,以完成對特定配體的綁定。這些關(guān)鍵的氨基酸殘基稱為綁定殘基(位點(diǎn))。從一個(gè)蛋白質(zhì)識(shí)別出綁定殘基,對于理解蛋白質(zhì)的功能、藥物設(shè)計(jì)、分析生物分子之間的相互作用、指導(dǎo)相關(guān)生化實(shí)驗(yàn)具有重要意義。

      傳統(tǒng)上,蛋白質(zhì)與配體的綁定殘基通過生物學(xué)實(shí)驗(yàn)來測定,此類方法雖然準(zhǔn)確,但存在著諸如耗時(shí)、昂貴等問題,遠(yuǎn)遠(yuǎn)不能滿足后基因組時(shí)代蛋白質(zhì)測序工作飛速發(fā)展的要求。據(jù)統(tǒng)計(jì),當(dāng)前已測序的蛋白質(zhì)中,僅0.6%左右的蛋白質(zhì)具有配體綁定殘基的生物功能注釋。為了彌補(bǔ)生物實(shí)驗(yàn)方法的不足,研究基于生物計(jì)算的蛋白質(zhì)與配體綁定殘基預(yù)測方法,以期提升綁定殘基的識(shí)別速度與精度,是迫在眉睫的。

      1 蛋白質(zhì)-配體綁定殘基

      圖1 蛋白質(zhì)與配體綁定殘基示意圖 Fig.1 Schematic diagram of protein-ligand binding residues

      在著名國際蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽(Critical assessment of protein structure prediction ,CASP)[3-4]與高品質(zhì)的半人工標(biāo)注的蛋白質(zhì)與配體綁定位點(diǎn)數(shù)據(jù)庫BioLip[5]中,蛋白質(zhì)與配體綁定殘基的定義如下:蛋白質(zhì)至少有一個(gè)重原子與配體分子中任意一個(gè)重原子之間距離不超過這兩個(gè)原子對應(yīng)的范德華半徑之和0.5 ?。圖1給出了蛋白質(zhì)與配體綁定殘基的示意圖。結(jié)合圖1,蛋白質(zhì)與配體綁定殘基的具體描述如下。

      假設(shè)a為蛋白質(zhì)中第i個(gè)氨基酸殘基AAi中的一個(gè)重原子,b為對應(yīng)配體(Ligand)中的一個(gè)重原子,dis為重原子a與b之間的歐式距離,vdw(a)與vdw(b)分別表示重原子a與b的范德華半徑。如果式(1)成立,AAi為蛋白質(zhì)中的一個(gè)配體綁定殘基;如果AAi中沒有任何一個(gè)重原子使得式(1)成立,則AAi為非配體綁定殘基。

      dis≤vdw(a)+vdw(b)+0.5 ?

      (1)

      蛋白質(zhì)-配體綁定殘基預(yù)測問題的目標(biāo)是從蛋白質(zhì)信息出發(fā)識(shí)別出這些關(guān)鍵的氨基酸殘基,即配體綁定殘基。如何借助已標(biāo)注配體綁定殘基信息的蛋白質(zhì)來預(yù)測待測蛋白質(zhì)的配體綁定殘基、如何應(yīng)對類不平衡學(xué)習(xí)問題對配體綁定殘基識(shí)別精度的影響以及如何利用機(jī)器學(xué)習(xí)算法提升預(yù)測精度等問題均是蛋白質(zhì)-配體綁定殘基預(yù)測研究中亟需克服的挑戰(zhàn)。為了應(yīng)對上述挑戰(zhàn),相關(guān)學(xué)者在近幾十年來進(jìn)行了大量的研究工作,并提出了多種多樣的預(yù)測方法,促進(jìn)了蛋白質(zhì)-配體綁定殘基預(yù)測研究的發(fā)展。

      2 國內(nèi)外研究現(xiàn)狀

      隨著蛋白質(zhì)序列數(shù)據(jù)庫、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫及相關(guān)蛋白質(zhì)-配體數(shù)據(jù)庫中數(shù)據(jù)的不斷豐富,利用生物計(jì)算方法進(jìn)行蛋白質(zhì)-配體綁定殘基的預(yù)測已經(jīng)成為后基因組時(shí)代生物信息學(xué)研究中一個(gè)非?;钴S的領(lǐng)域。近幾十年來,不斷涌現(xiàn)出新的生物計(jì)算方法來預(yù)測蛋白質(zhì)-配體綁定殘基。根據(jù)所使用的特征類型,現(xiàn)有的蛋白質(zhì)-配體綁定殘基預(yù)測方法大致可分為3種類型[6-7]:基于蛋白質(zhì)結(jié)構(gòu)信息的生物計(jì)算方法、基于蛋白質(zhì)序列信息的生物計(jì)算方法以及基于結(jié)構(gòu)與序列信息的混合生物計(jì)算方法。

      其中,基于蛋白質(zhì)結(jié)構(gòu)信息的生物計(jì)算方法又可進(jìn)一步地分為基于結(jié)構(gòu)模板匹配的預(yù)測方法、基于空間幾何的預(yù)測方法和基于能量的預(yù)測方法;基于蛋白質(zhì)序列信息的生物計(jì)算方法可分為基于序列模板匹配的預(yù)測方法、基于序列特征的機(jī)器學(xué)習(xí)的預(yù)測方法和序列模板匹配與機(jī)器學(xué)習(xí)的混合方法;基于結(jié)構(gòu)與序列信息的混合生物計(jì)算方法可細(xì)分為基于結(jié)構(gòu)與序列信息的模板匹配方法、基于結(jié)構(gòu)與序列特征的機(jī)器學(xué)習(xí)方法和基于已有預(yù)測方法的整合提升方法。這種識(shí)別蛋白質(zhì)-配體綁定殘基的生物計(jì)算方法的分類體系如圖2所示。

      圖2 蛋白質(zhì)與配體綁定殘基計(jì)算方法分類圖Fig.2 Classification of protein-ligand binding residues prediction methods

      2.1 基于蛋白質(zhì)結(jié)構(gòu)信息的生物計(jì)算方法

      在早期階段,基于蛋白質(zhì)結(jié)構(gòu)信息的配體綁定殘基預(yù)測方法占據(jù)主導(dǎo)地位。該類方法按計(jì)算方法的不同可以分為如下3個(gè)子類方法。

      2.1.1基于結(jié)構(gòu)模板匹配的預(yù)測方法

      在生物信息學(xué)領(lǐng)域中,研究學(xué)者普遍認(rèn)為具有相似結(jié)構(gòu)的蛋白質(zhì)往往具有相似的生物功能[8]。這也是基于結(jié)構(gòu)模板匹配的預(yù)測方法的思想來源。優(yōu)秀的基于結(jié)構(gòu)模板匹配的預(yù)測方法有3DLigandSite[9]、FINDSITE[10]與FunFOLD[11]等。為了識(shí)別待測蛋白質(zhì)中的配體綁定殘基,基于結(jié)構(gòu)模板匹配的預(yù)測方法首先使用蛋白質(zhì)結(jié)構(gòu)對齊方法(如Dali[12]、MAMMOTH[13]與TM-align[14]等)來評(píng)價(jià)所有已標(biāo)注配體綁定位點(diǎn)蛋白質(zhì)與待測蛋白質(zhì)之間的結(jié)構(gòu)相似性;而后,以結(jié)構(gòu)相似性程度作為依據(jù),對已知配體綁定位點(diǎn)蛋白質(zhì)進(jìn)行排序篩選,選擇出若干個(gè)蛋白質(zhì)作為模板,同時(shí)提取這些模板與待測蛋白質(zhì)的結(jié)構(gòu)對齊信息;最終,根據(jù)這些對齊信息,按照特定的配體綁定位點(diǎn)識(shí)別規(guī)則,來預(yù)測待測蛋白質(zhì)中潛在的配體綁定殘基[9-10, 15]。

      以3DLigandSite[9]為例來說,3DLigandSite首先使用MAMMOTH[13]來評(píng)價(jià)待測蛋白質(zhì)與所有模板蛋白質(zhì)之間的結(jié)構(gòu)相似度,并選擇相似程度最高的25個(gè)模板蛋白質(zhì)以及對應(yīng)的配體結(jié)構(gòu)信息;再根據(jù)選中的模板蛋白質(zhì)與待測蛋白質(zhì)的結(jié)構(gòu)對齊信息,將所有模板蛋白質(zhì)對應(yīng)的模板配體結(jié)構(gòu)疊加到待測蛋白質(zhì)的結(jié)構(gòu)上;然后使用單聯(lián)動(dòng)聚類算法(Single linkage clustering,SLC)將所有疊加后的模板配體結(jié)構(gòu)進(jìn)行聚類,形成多個(gè)模板配體簇;最后選擇具有最多模板配體的簇,并根據(jù)該簇中全部模板配體信息判斷待測蛋白質(zhì)中的每個(gè)殘基是否為配體綁定殘基。根據(jù)上面的描述可知,這類預(yù)測方法的預(yù)測精度完全取決于待測蛋白質(zhì)與模板蛋白質(zhì)之間的結(jié)構(gòu)相似程度。

      2.1.2基于空間幾何的預(yù)測方法

      根據(jù)圖1所示的蛋白質(zhì)-配體綁定殘基定義,可知配體綁定殘基識(shí)別精度與空間位置的關(guān)系密切。通過空間幾何測量的方法可以識(shí)別出待測蛋白質(zhì)中的配體綁定殘基。根據(jù)蛋白質(zhì)數(shù)據(jù)庫(Protein data bank, PDB)[16]中蛋白質(zhì)與配體復(fù)合物的詳細(xì)研究表明,小分子配體傾向于綁定蛋白質(zhì)表面的凹性區(qū)域,尤其是最大最深的那個(gè)空洞。因此,大多數(shù)基于空間幾何的預(yù)測方法都側(cè)重于搜索蛋白質(zhì)上最大的綁定口袋。

      基于空間幾何的預(yù)測方法主要任務(wù)是通過計(jì)算蛋白質(zhì)的結(jié)構(gòu)信息中的某種幾何測度,來定位待測蛋白質(zhì)的配體綁定區(qū)域,進(jìn)而確定蛋白質(zhì)與配體的綁定位點(diǎn)。然而,如何根據(jù)蛋白質(zhì)的結(jié)構(gòu)信息辨別出蛋白質(zhì)表面的空洞是一件不易的事情。相關(guān)學(xué)者經(jīng)過長時(shí)間的研究探索,提出了多種具有創(chuàng)造性的方法,下面介紹幾個(gè)具有代表性的方法。第一種方法是在待測蛋白質(zhì)周圍放置一些規(guī)則的網(wǎng)格點(diǎn)并找到那些沒有被蛋白質(zhì)中的原子占據(jù)的(空的)網(wǎng)格點(diǎn)[17-19]。例如,LIGSITE[18]首先放置一些規(guī)則的三維網(wǎng)格點(diǎn)覆蓋在待測蛋白質(zhì)結(jié)構(gòu)的周圍,再從每個(gè)網(wǎng)格點(diǎn)分別沿著x/y/z軸和該網(wǎng)格的對角線分別畫直線,如果一條直線片段的兩邊均被目標(biāo)蛋白質(zhì)所包含,而中間片段沒有被包含,那么該區(qū)域就是一個(gè)候選的綁定口袋。在蛋白質(zhì)表面上放置空球體是另一種識(shí)別空洞的方法[20-21]。例如,SURFNET[21]為了找到最大的空區(qū)域,對于任意兩個(gè)蛋白質(zhì)原子,只要沒有其他原子介于它們之間,就在它們之間放置一個(gè)空球。第三種識(shí)別空洞的方法是使用Delaunay三角化等技術(shù)發(fā)現(xiàn)蛋白質(zhì)表面的空隙[22-23]。例如:CASTp[24]綜合使用了計(jì)算幾何學(xué)中的α-shape理論和三角化技術(shù)。首先對目標(biāo)蛋白質(zhì)進(jìn)行Delaunay三角化,然后根據(jù)鄰域三角片的法向量方向就可以預(yù)測出潛在的綁定口袋。

      2.1.3基于能量的預(yù)測方法

      基于能量的預(yù)測方法的主要目的是根據(jù)能量分布情況找到有利于配體分子結(jié)合的蛋白質(zhì)表面的空洞區(qū)域[25-30]。該類方法往往會(huì)通過設(shè)計(jì)探針分子并計(jì)算探針與周圍蛋白質(zhì)原子之間的交互能量來識(shí)別待測蛋白質(zhì)中的配體綁定殘基[31]。許多基于能量的預(yù)測方法同時(shí)也是基于網(wǎng)格的,因?yàn)樗鼈儠?huì)將探針放置在蛋白質(zhì)表面的空網(wǎng)格上以執(zhí)行對應(yīng)的能量計(jì)算[25, 27, 30]。例如,SITEHOUND[26]使用分子間的交互作用力場計(jì)算待測蛋白質(zhì)與探針之間的相互作用力,具有高能量的網(wǎng)格點(diǎn)被選中用于進(jìn)一步地聚類分析,并根據(jù)聚類結(jié)果確定潛在的配體綁定位點(diǎn)。

      一般來說,基于能量的預(yù)測方法的多樣性會(huì)比基于空間幾何的預(yù)測方法少很多。不同的基于能量的預(yù)測方法之間的區(qū)別主要在于探針的設(shè)計(jì)方法以及將探針分布在蛋白質(zhì)表面的方法。探針的復(fù)雜度直接影響著預(yù)測精度與計(jì)算時(shí)間復(fù)雜度。因此,許多基于能量的預(yù)測方法的對應(yīng)服務(wù)網(wǎng)站上提供了多種類型的探針,以應(yīng)對不同的用戶需求。例如,SITEHOUND[26]服務(wù)網(wǎng)站(http://scbx.mssm.edu/sitehound/sitehound-web/input.html)允許用戶選擇4種不同類型的探針來計(jì)算交互能量;FTSite[32]服務(wù)網(wǎng)站(http://ftsite.bu.edu/)提供了16種不同的小分子探針來確定合理的網(wǎng)格簇。

      2.2 基于序列信息的生物計(jì)算方法

      目前已經(jīng)測出三維結(jié)構(gòu)的蛋白質(zhì)數(shù)量要遠(yuǎn)遠(yuǎn)少于已經(jīng)測出序列的蛋白質(zhì)數(shù)量。這就意味著還有大量的蛋白質(zhì)只知道序列信息,而不知道結(jié)構(gòu)信息,從而導(dǎo)致它們的配體綁定位點(diǎn)并不能使用基于結(jié)構(gòu)的方法來進(jìn)行預(yù)測。盡管基于同源建模的工具(如:MODELLER[33]、Rosetta[34]與I-TASSER[35]等)可以通過蛋白質(zhì)序列信息預(yù)測出對應(yīng)的結(jié)構(gòu)信息,但是通過建模預(yù)測出的蛋白質(zhì)結(jié)構(gòu)的精度并不能得到很好的保證,且潛在的配體綁定區(qū)域的局部結(jié)構(gòu)的精度甚至?xí)?。另外,還有些蛋白質(zhì)沒有三維結(jié)構(gòu)已知的同源蛋白質(zhì),從而導(dǎo)致它們無法使用同源建模工具來預(yù)測結(jié)構(gòu)信息。因此,直接從蛋白質(zhì)序列信息出發(fā)來預(yù)測蛋白質(zhì)與配體綁定位點(diǎn)引起了相關(guān)學(xué)者的廣泛關(guān)注。近年涌現(xiàn)出許多基于序列信息的預(yù)測方法,如基于序列模板匹配的預(yù)測方法、基于序列特征的機(jī)器學(xué)習(xí)的預(yù)測方法和序列模板匹配與機(jī)器學(xué)習(xí)的混合方法等。

      2.2.1基于序列模板匹配的預(yù)測方法

      與前面所述的基于結(jié)構(gòu)模板匹配的預(yù)測方法類似,基于序列模板匹配的預(yù)測方法主要是根據(jù)蛋白質(zhì)序列與序列之間的同源性或相似性來從對應(yīng)的數(shù)據(jù)庫中搜索到一個(gè)或多個(gè)優(yōu)秀的序列模板,再根據(jù)搜索的序列模板對應(yīng)的配體綁定位點(diǎn)信息來預(yù)測蛋白質(zhì)中潛在的配體綁定位點(diǎn)。例如,文獻(xiàn)[36]中描述了一種基于BLAST的預(yù)測方法,該方法使用BLAST序列對齊工具[37]從已標(biāo)注綁定位點(diǎn)信息的蛋白質(zhì)數(shù)據(jù)集合中選擇一個(gè)序列相似性最高、E-value最低的蛋白質(zhì)作為模板,并得到該蛋白質(zhì)模板與待測蛋白質(zhì)之間的序列對齊信息,最后將待測蛋白質(zhì)中所有被模板蛋白質(zhì)中綁定殘基對齊上的殘基判定為綁定位點(diǎn)。又如,文獻(xiàn)[38]中描述的S-SITE方法通過比較待測蛋白質(zhì)的序列譜文件與已標(biāo)注綁定位點(diǎn)的蛋白質(zhì)數(shù)據(jù)庫(即BioLip[5])中的每條蛋白質(zhì)的序列譜文件之間的相似性來衡量兩條對應(yīng)蛋白質(zhì)之間的相似性,并按照相似性越高得分越高的方式進(jìn)行打分;再從數(shù)據(jù)庫中選擇與待測蛋白質(zhì)相似得分超過固定閾值的蛋白質(zhì)作為模板集;在這個(gè)集合中,有超過25%的蛋白質(zhì)模板中存在綁定位點(diǎn)對齊于同一個(gè)待測蛋白質(zhì)中的氨基酸殘基,該殘基則被判定為一個(gè)潛在的配體綁定殘基。

      2.2.2基于序列特征的機(jī)器學(xué)習(xí)的預(yù)測方法

      基于序列模板匹配的預(yù)測方法對序列的同源性是具有很強(qiáng)的依賴性。當(dāng)找不到同源性高的模板蛋白質(zhì)時(shí),預(yù)測的配體綁定殘基的可信度是不可靠的。為了降低預(yù)測方法對于序列同源性的依賴性同時(shí)充分挖掘數(shù)據(jù)中的隱含信息,相關(guān)學(xué)者試圖通過引入機(jī)器學(xué)習(xí)算法來構(gòu)建預(yù)測模型,進(jìn)而對蛋白質(zhì)-配體綁定殘基進(jìn)行識(shí)別?;谛蛄刑卣鞯臋C(jī)器學(xué)習(xí)的預(yù)測方法的主要步驟如下:首先抽取已標(biāo)注配體綁定位點(diǎn)的蛋白質(zhì)序列的有效信息(如氨基酸組成成分信息、蛋白質(zhì)進(jìn)化信息與基于序列預(yù)測的二級(jí)結(jié)構(gòu)信息等),然后根據(jù)這些信息構(gòu)建氨基酸殘基的特征向量,生成對應(yīng)的氨基酸殘基樣本,進(jìn)而構(gòu)建訓(xùn)練樣本集合。最后使用恰當(dāng)?shù)臋C(jī)器學(xué)習(xí)算法在該訓(xùn)練樣本集合上訓(xùn)練預(yù)測模型,用于預(yù)測任意一個(gè)待測蛋白質(zhì)氨基酸殘基是否為配體綁定位點(diǎn)。例如,L1pred預(yù)測方法[39]使用8種基于序列信息的特征(包括殘基類型、重疊屬性、平均累積疏水性、預(yù)測的二級(jí)結(jié)構(gòu)、預(yù)測的接觸表面積、Jensen-Shannon背離得分等)來組成特征向量,作為L1-logreg算法[40]的輸入信息來預(yù)測酶蛋白的催化殘基(即底物的綁定殘基);ATPint[41]使用蛋白質(zhì)進(jìn)化信息、基于統(tǒng)計(jì)的氨基酸殘基的疏水性、基于統(tǒng)計(jì)的氨基酸殘基的溶劑可及性面積等信息來構(gòu)建特征向量,并使用支持向量機(jī)(Support vector machine, SVM)算法[42]訓(xùn)練預(yù)測模型,用于識(shí)別待測蛋白質(zhì)中與ATP相互作用的綁定殘基;VitaPred預(yù)測方法[43]使用PSI-BLAST工具[37]從蛋白質(zhì)序列信息中抽取位置特異性得分矩陣作為蛋白質(zhì)進(jìn)化信息的特征源來構(gòu)建氨基酸殘基的特征向量,再將訓(xùn)練集中的蛋白質(zhì)序列轉(zhuǎn)換為以氨基酸為單位的訓(xùn)練樣本集合,最后使用SVM算法學(xué)習(xí)預(yù)測模型,來辨別待測蛋白質(zhì)中與維他命相互作用的綁定殘基。

      2.2.3基于序列模板匹配與機(jī)器學(xué)習(xí)的混合方法

      為了融合基于序列模板匹配的預(yù)測方法與基于機(jī)器學(xué)習(xí)的預(yù)測方法的優(yōu)點(diǎn),相關(guān)學(xué)者提出了基于序列模板匹配與機(jī)器學(xué)習(xí)的混合方法。此類預(yù)測方法將上述兩種方法按照特定方式相結(jié)合來預(yù)測蛋白質(zhì)與配體相互作用的綁定殘基。最具代表性的方法是文獻(xiàn)[36]中提出的NsitePred預(yù)測方法。NsitePred方法實(shí)現(xiàn)了一種基于SVM算法的預(yù)測方法和一種基于BLAST工具的預(yù)測方法,并通過求得這兩種方法的輸出概率的均值來融合它們。2.2.1節(jié)簡要描述了基于BLAST工具的預(yù)測方法的預(yù)測步驟。接下來,本文簡述SVMPred的工作步驟:(1)從蛋白質(zhì)序列信息中抽取預(yù)測的二級(jí)結(jié)構(gòu)信息、預(yù)測的可接觸表面積和二面角信息、位置特異性得分矩陣信息、終端標(biāo)識(shí)信息(即蛋白質(zhì)序列的首尾3個(gè)殘基為1,其余殘基為0)、二級(jí)結(jié)構(gòu)片段指標(biāo)、殘基保守性得分和重要?dú)埢鋵π畔ⅲ?2)使用大小為17的滑動(dòng)窗口技術(shù),抽取訓(xùn)練集中每個(gè)蛋白質(zhì)的每個(gè)殘基的特征向量,從而組成訓(xùn)練樣本集合;(3)使用SVM算法在訓(xùn)練樣本集合上學(xué)習(xí)得到預(yù)測模型;(4)對于任意一個(gè)待測蛋白質(zhì)序列,先抽取該蛋白質(zhì)中每個(gè)殘基的特征向量,并輸入到訓(xùn)練好的預(yù)測模型中進(jìn)行蛋白質(zhì)與配體綁定殘基的預(yù)測。

      2.3 基于結(jié)構(gòu)與序列的混合生物計(jì)算方法

      如前所述,基于蛋白質(zhì)結(jié)構(gòu)信息的生物計(jì)算方法與基于蛋白質(zhì)序列信息的生物計(jì)算方法都取得了不錯(cuò)的研究成果。為了進(jìn)一步提升蛋白質(zhì)與配體綁定殘基識(shí)別精度,一些研究學(xué)者提出了基于蛋白質(zhì)結(jié)構(gòu)與序列信息的混合生物計(jì)算方法。該方法試圖將蛋白質(zhì)結(jié)構(gòu)與序列信息相融合,構(gòu)建識(shí)別精度更高的方法。具體來說,基于結(jié)構(gòu)與序列信息的混合生物計(jì)算方法是將從蛋白質(zhì)結(jié)構(gòu)上抽取的特征信息與從序列上抽取的特征信息相結(jié)合,形成一個(gè)具有鑒別能力的特征表示,并使用合適的計(jì)算方法來構(gòu)建預(yù)測模型,從而判定待測蛋白質(zhì)中的每個(gè)氨基酸殘基是否為配體綁定殘基。按照構(gòu)建模型方法的不同,該類方法又可細(xì)分為基于結(jié)構(gòu)與序列信息的模板匹配方法、基于結(jié)構(gòu)與序列特征的機(jī)器學(xué)習(xí)方法以及基于已有預(yù)測方法的整合提升方法。

      2.3.1基于結(jié)構(gòu)與序列信息的模板匹配方法

      基于結(jié)構(gòu)與序列信息的模板匹配方法是首先通過聯(lián)合待測蛋白質(zhì)與模板蛋白質(zhì)之間的結(jié)構(gòu)匹配信息與序列匹配信息對每個(gè)模板蛋白質(zhì)進(jìn)行綜合評(píng)價(jià)并給出該模板的得分,然后選擇一個(gè)或多個(gè)在結(jié)構(gòu)與序列兩個(gè)層面都與待測蛋白質(zhì)相似的蛋白質(zhì)模板,最后根據(jù)選中的模板進(jìn)行蛋白質(zhì)與配體綁定殘基的識(shí)別。在此類方法中,最具代表性的是文獻(xiàn)[38]中提出的TM-SITE方法。

      TM-SITE[38]的具體步驟如下:(1)使用結(jié)構(gòu)對齊工具TM-align[14]將待測蛋白質(zhì)與BioLip數(shù)據(jù)庫[5]中的每條模板蛋白質(zhì)在結(jié)構(gòu)層面上進(jìn)行對齊;(2)在上述對齊結(jié)果的基礎(chǔ)上結(jié)合序列層面的進(jìn)化保守信息和結(jié)構(gòu)層面的空間距離等信息構(gòu)造出了一個(gè)合理、有效的評(píng)價(jià)函數(shù);(3)利用評(píng)價(jià)函數(shù)對每條蛋白質(zhì)序列進(jìn)行相似性評(píng)價(jià),并從BioLip數(shù)據(jù)庫中選擇滿足條件的蛋白質(zhì)結(jié)構(gòu);(4)根據(jù)選中的蛋白質(zhì)對應(yīng)的已標(biāo)注的綁定位點(diǎn)信息進(jìn)行待測蛋白質(zhì)與配體綁定位點(diǎn)的預(yù)測。

      2.3.2基于結(jié)構(gòu)與序列特征的機(jī)器學(xué)習(xí)方法

      顧名思義,該方法主要是利用機(jī)器學(xué)習(xí)算法在由結(jié)構(gòu)與序列信息組成的特征空間中構(gòu)建預(yù)測模型,并依此來識(shí)別蛋白質(zhì)與配體綁定殘基。此類方法的代表是文獻(xiàn)[44]中給出的蛋白質(zhì)與DNA綁定殘基預(yù)測方法。該方法不僅使用了物化/生化屬性、序列保守信息、氨基酸有序/無序信息、預(yù)測的二級(jí)結(jié)構(gòu)信息等序列層次的特征,還引入了從蛋白質(zhì)三維結(jié)構(gòu)中計(jì)算得到的5個(gè)結(jié)構(gòu)特征來共同預(yù)測蛋白質(zhì)與DNA配體綁定位點(diǎn)。此外,文獻(xiàn)[44]為了提升預(yù)測精度,使用了最大相關(guān)最小冗余方法(Maximum relevance minimum redundancy, mRMR)來進(jìn)行增量特征選擇(Incremental feature selection, IFS)的研究,并確定最終的特征空間。最后,文獻(xiàn)[44]將已知DNA綁定位點(diǎn)的蛋白質(zhì)中的氨基酸殘基轉(zhuǎn)換成特征空間中的訓(xùn)練樣本,并使用SVM算法訓(xùn)練預(yù)測模型,從而鑒別出待測蛋白質(zhì)中潛在的、與DNA相互作用的綁定殘基。

      2.3.3基于已有預(yù)測方法的整合提升方法

      基于已有預(yù)測方法的整合提升方法是通過將已有的蛋白質(zhì)與配體綁定殘基預(yù)測方法的輸出值進(jìn)行直接融合或當(dāng)作新的特征再學(xué)習(xí)一個(gè)更深層次的預(yù)測模型,以期提升最終的預(yù)測精度。具有代表性的方法有:ConCavity[45]、MetaDBSite[46]和COACH[38]等。ConCavity[45]通過使用3個(gè)已有的蛋白質(zhì)與配體綁定殘基預(yù)測工具(LIGSITE[18]、SURFNET[21]和PocketFinder[47])的預(yù)測結(jié)果與抽取的進(jìn)化保守信息相結(jié)合來共同識(shí)別蛋白質(zhì)與配體的綁定殘基;MetaDBSite[46]主要利用SVM算法整合6個(gè)有效的在線服務(wù)器(即:DISIS[48]、DP-Bind[49]、DNABindR[50]、BindN[51]、Bindn-rf[52]以及DBS-Pred[53])的輸出結(jié)果來預(yù)測蛋白質(zhì)與DNA相互作用的配體綁定殘基;COACH[38]使用SVM算法整合了S-SITE[38]、TM-SITE[38]、COFACTOR[54]、FINDSITE[10]以及ConCavity[45]5種預(yù)測方法來融合蛋白質(zhì)結(jié)構(gòu)與序列信息,從而大幅度提升了蛋白質(zhì)與配體綁定位點(diǎn)的預(yù)測精度。

      3 類不平衡學(xué)習(xí)問題

      由蛋白質(zhì)與配體綁定殘基預(yù)測研究問題的國內(nèi)外研究現(xiàn)狀可知,基于機(jī)器學(xué)習(xí)算法(如SVM算法)的預(yù)測方法在該項(xiàng)科學(xué)研究中占據(jù)了主導(dǎo)地位。而基于機(jī)器學(xué)習(xí)算法的蛋白質(zhì)配體綁定殘基預(yù)測研究是一個(gè)典型的二類類不平衡學(xué)習(xí)問題。如圖3所示,蛋白質(zhì)中只有少部分的關(guān)鍵殘基會(huì)與配體產(chǎn)生相互作用(紅色標(biāo)注出的綁定氨基酸殘基),而大多數(shù)的殘基(綠色標(biāo)注出的非綁定氨基酸殘基)并沒有直接地與配體相互接觸。就圖3中的2xef:A蛋白質(zhì)而言,綁定殘基的數(shù)目為16,而非綁定殘基的數(shù)目為225,非綁定殘基數(shù)目是綁定殘基數(shù)目的14倍多。

      由于大多數(shù)的機(jī)器學(xué)習(xí)算法都是基于類平衡的假設(shè)來研究設(shè)計(jì)的,直接使用這些算法來識(shí)別蛋白質(zhì)與配體綁定殘基會(huì)不可避免地受到類不平衡數(shù)據(jù)的影響,從而導(dǎo)致最終的預(yù)測結(jié)果偏向于多數(shù)類(即非綁定殘基),而少數(shù)類(配體綁定殘基)的檢出率低,并不能達(dá)到實(shí)際應(yīng)用的要求。

      圖3 蛋白質(zhì)(2xef:A)的綁定殘基(紅色)與非綁定殘基(綠色) Fig.3 Binding residues (red) and non-binding residues (green) of protein 2xef:A

      近年來,為了減輕類不平衡問題在蛋白質(zhì)與配體綁定殘基預(yù)測研究中帶來的負(fù)面影響,相關(guān)學(xué)者做出了大量的研究工作。其中,最普遍的解決方法是通過樣本采樣技術(shù)對類不平衡數(shù)據(jù)集中的樣本分布進(jìn)行重新調(diào)整來獲取類平衡數(shù)據(jù),并使用傳統(tǒng)機(jī)器學(xué)習(xí)算法進(jìn)行模型訓(xùn)練。這里的樣本采樣技術(shù)又可大致分為上采樣方法(Over-samping method)與下采樣方法(Under-sampling method)[55]。上采樣方法是通過某種規(guī)則根據(jù)現(xiàn)有的樣本分布情況增加少數(shù)類的樣本數(shù)目來緩解原有的類不平衡程度。與上采樣方法相反,下采樣方法是使用特定規(guī)則根據(jù)現(xiàn)有的樣本分布減少多數(shù)類的樣本數(shù)目,以期改變原來的類不平衡現(xiàn)象。

      使用上采樣方法來處理類不平衡問題的代表性方法是TargetSOS[56]。文獻(xiàn)[56]中設(shè)計(jì)出了一種有監(jiān)督的上采樣方法(Supervised over-sampling method, SOS)。該方法首先使用SVM算法在原始的類不平衡數(shù)據(jù)集上訓(xùn)練一個(gè)初始的預(yù)測模型;該模型用于評(píng)估每一個(gè)人工合成的少數(shù)類樣本的質(zhì)量并給出相應(yīng)的得分,再根據(jù)該得分判定對應(yīng)的人工樣本是否可以加入到訓(xùn)練樣本集合中去;上述這種“合成-評(píng)估-判定”的過程一直重復(fù)至訓(xùn)練樣本集合中的不平衡程度減輕到預(yù)期值?;赟OS方法,文獻(xiàn)[56]中實(shí)現(xiàn)了TargetSOS方法用于預(yù)測蛋白質(zhì)與5種核苷酸的配體綁定殘基。

      使用下采樣方法來處理類不平衡問題的預(yù)測方法有:TargetATP[57]、TargetS[7]和IonCom[58]等。以TargetS方法[7]為例,該方法使用隨機(jī)下采樣(Random under-sampling, RUS)方法來緩解類不平衡數(shù)據(jù)所帶來的負(fù)面影響。由于下采樣方法往往會(huì)丟失數(shù)據(jù)中的有效信息,因此,在TargetS中RUS被多次使用來獲得多個(gè)不同的較為平衡的訓(xùn)練樣本集合,再使用SVM算法在每個(gè)平衡訓(xùn)練集上訓(xùn)練對應(yīng)的子預(yù)測模型,最后使用一種改良的AdaBoost算法(Modified AdaBoost, MAdaBoost)將多個(gè)子模型集成為最終的預(yù)測模型。

      4 蛋白質(zhì)-配體綁定殘基預(yù)測實(shí)驗(yàn)評(píng)測

      4.1 相關(guān)的蛋白質(zhì)數(shù)據(jù)庫

      用于進(jìn)行蛋白質(zhì)與配體綁定殘基預(yù)測研究的數(shù)據(jù)集幾乎都來源于PDB數(shù)據(jù)庫[16, 59]或BioLip數(shù)據(jù)庫[60]。

      PDB數(shù)據(jù)庫[16, 59]是在1971年由美國Brookhaven國家實(shí)驗(yàn)室建立的全球統(tǒng)一的生物大分子(包括蛋白質(zhì)與配體的復(fù)合物)的三維結(jié)構(gòu)信息檔案庫。PDB數(shù)據(jù)庫中收集的結(jié)構(gòu)信息主要來源于X射線晶體衍射、核磁共振、電子顯微鏡等結(jié)構(gòu)測定技術(shù)。目前,PDB數(shù)據(jù)庫的更新與維護(hù)是由結(jié)構(gòu)生物信息學(xué)研究合作組織(Research collaboratory for structural bioinformatics,RCSB)負(fù)責(zé)的。RCSB的主服務(wù)器和全球的鏡像服務(wù)器提供數(shù)據(jù)庫的查詢和下載服務(wù)。除此之外,PDB數(shù)據(jù)庫還可以從發(fā)行的光盤獲得。截止至2018年2月5日,PDB 數(shù)據(jù)庫[60]中含有137 322個(gè)蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)(數(shù)據(jù)來源于http://www.rcsb.org/stats/growth/overall)。使用Rasmol[61]、PyMol[62]以及Jmol[63]等軟件可以在計(jì)算機(jī)上按照PDB文件內(nèi)容顯示生物大分子的空間結(jié)構(gòu)。

      BioLip數(shù)據(jù)庫[5]是于2013年根據(jù)PDB數(shù)據(jù)庫中的蛋白質(zhì)結(jié)構(gòu)信息構(gòu)建的,它是半人工標(biāo)注的高品質(zhì)數(shù)據(jù)庫。BioLip旨在構(gòu)建最全面的、準(zhǔn)確的、服務(wù)于蛋白質(zhì)與配體對接[64]、虛擬篩選[65]以及蛋白質(zhì)功能注釋(包括蛋白質(zhì)與配體綁定位點(diǎn)的識(shí)別)[66]的數(shù)據(jù)庫。該數(shù)據(jù)庫收集了PDB數(shù)據(jù)庫中所有與生物學(xué)相關(guān)的蛋白質(zhì)與配體綁定位點(diǎn)信息。

      4.2 評(píng)價(jià)指標(biāo)

      蛋白質(zhì)與配體綁定殘基預(yù)測是一個(gè)典型的二類分類問題。因此,用于評(píng)價(jià)二類分類精度的指標(biāo)也適用于評(píng)估蛋白質(zhì)與配體綁定殘基的預(yù)測精度。常見的評(píng)價(jià)指標(biāo)有:敏感性(Sensitivity, Sen)、特異性(Specificity, Spe)、精確性(Accuracy, Acc)、查準(zhǔn)率(Precision, Pre)和馬氏相關(guān)系數(shù)(Matthew′s correlation coefficients, MCC)。它們的定義如下

      (2)

      (3)

      (4)

      (5)

      (6)

      式中:TP (True positives)和FN (False negatives)分別表示正樣本(即綁定位點(diǎn))被正確預(yù)測和被錯(cuò)誤預(yù)測的數(shù)目;而TN (True negatives)和FP (False positives)分別表示負(fù)樣本(即非綁定位點(diǎn))被正確預(yù)測和被錯(cuò)誤預(yù)測的數(shù)目。除了上述5個(gè)評(píng)價(jià)指標(biāo)外,受試者工作特征曲線的面積(Area under the receiver operating characteristic curve, AUC)也常用于評(píng)價(jià)預(yù)測方法的總體性能。

      4.3 幾種常見蛋白質(zhì)配體綁定殘基預(yù)測方法的性能比較

      考慮到有些預(yù)測方法為配體特異性的預(yù)測方法(即專門預(yù)測某種特定的配體類型的綁定殘基,如ATPint[41]被專門用于預(yù)測蛋白質(zhì)與ATP的綁定殘基),而有些預(yù)測方法為配體普適性的預(yù)測方法(即可用于預(yù)測蛋白質(zhì)與所有配體的綁定殘基,如COACH[38]等),本節(jié)將配體特異性的預(yù)測方法和配體普適性的預(yù)測方法分開進(jìn)行比較。

      在配體特異性層次的比較上,以蛋白質(zhì)與ATP綁定殘基預(yù)測問題為例來比較ATPint[41]、NsitePred[36]、TargetATP[57]與TargetSOS[56]的預(yù)測性能。

      表1給出了ATPint[41]、NsitePred[36]、TargetATP[57]與TargetSOS[56]在獨(dú)立測試數(shù)據(jù)集合ATP17上的預(yù)測性能。ATP17數(shù)據(jù)集是文獻(xiàn)[36]給出的獨(dú)立測試集合,它包含17個(gè)與ATP綁定的蛋白質(zhì)。從表1中,可以看出TargetSOS取得了最好的預(yù)測性能(Sen=0.54, Spe=0.99, Acc=0.98和MCC=0.60)。主要原因是TargetSOS中使用SOS算法有效地緩解了類不平衡學(xué)習(xí)問題帶來的負(fù)面影響。由于TargetATP中也使用了RUS與MadaBoost相結(jié)合的方法來減輕類不平衡帶來的影響,所以TargetATP也取得了較NsitePred(沒有關(guān)注類不平衡問題)更好的預(yù)測性能。與NsitePred相比,TargetSOS與TargetATP在MCC指標(biāo)上分別提高了25.0%和12.5%。而作為第一個(gè)基于序列信息的蛋白質(zhì)與ATP綁定殘基預(yù)測方法,ATPint僅僅取得了0.07的MCC值,主要原因在于兩個(gè)方面:(1)用于訓(xùn)練預(yù)測模型的蛋白質(zhì)數(shù)據(jù)較少;(2)類不平衡學(xué)習(xí)問題未得到應(yīng)有的重視。

      在配體普適性層次的比較上,直接引入了文獻(xiàn)[38]中的ConCavity[45]、FINDSITE[10]、COFACTOR[54]、S-SITE[38]、TM-SITE[38]和COACH[38]比較結(jié)果(見表2)。從表2中可以看出整合了多個(gè)已有預(yù)測方法的COACH取得了最優(yōu)的預(yù)測性能,它的MCC值(0.54)相比于表現(xiàn)第二的TM-SITE提升了12.5%。值得注意的是,S-SITE雖然是一個(gè)基于序列信息的預(yù)測方法,但也取得了較好的預(yù)測性能(Sen=0.58, Pre=0.45以及MCC=0.45),這說明序列中也具有很好的鑒別信息。

      表1ATPint、NsitePred、TargetS與TargetSOS在ATP17數(shù)據(jù)集[36]上的獨(dú)立驗(yàn)證實(shí)驗(yàn)結(jié)果比較

      Tab.1PerformancecomparisonsofATPint,NsitePred,TargetS,andTargetSOSontheindependenttestingdatasetATP17[36]

      預(yù)測方法SenSpeAccMCCATPint?0.510.660.660.07NsitePred?0.460.990.970.48TargetATP#0.490.990.970.54TargetSOS+0.540.990.980.60

      *數(shù)據(jù)摘引自文獻(xiàn)[36];#數(shù)據(jù)摘引自文獻(xiàn)[57];+數(shù)據(jù)摘引自文獻(xiàn)[56]。

      表2已有預(yù)測方法在COACH500[38]上的獨(dú)立驗(yàn)證實(shí)驗(yàn)結(jié)果比較

      Tab.2PerformancecomparisonsofexistingpredictorsontheindependenttestingdatasetCOACH500[38]

      預(yù)測方法SenPreMCCConCavity?0.510.230.26FINDSITE?0.490.440.42COFACTOR?0.390.560.42S?SITE?0.580.450.45TM?SITE?0.490.570.48COACH?0.630.540.54

      *數(shù)據(jù)摘引自文獻(xiàn)[38]。

      5 總結(jié)與展望

      準(zhǔn)確地識(shí)別出蛋白質(zhì)中的配體綁定殘基,對于理解生命活動(dòng)中某些未知蛋白質(zhì)的功能和生命活動(dòng)現(xiàn)象的本質(zhì)、進(jìn)行疾病的診斷以及病理研究具有重要的實(shí)際價(jià)值。 例如, 在蛋白質(zhì)功能預(yù)測方面, 如果識(shí)別出蛋白質(zhì)配體綁定殘基以及相互作用形成的綁定口袋形狀,就可以推斷出該蛋白質(zhì)的具體生物功能;在疾病的診斷和藥物研發(fā)方面, 蛋白質(zhì)與配體相互作用的綁定殘基通常也是藥物的靶點(diǎn),準(zhǔn)確識(shí)別配體綁定殘基對于病理分析以及藥物研發(fā)都具有重要的作用。

      由于蛋白質(zhì)與配體綁定殘基預(yù)測研究在蛋白質(zhì)功能及醫(yī)藥研究中具有潛在的應(yīng)用價(jià)值, 所以利用生物實(shí)驗(yàn)來識(shí)別配體綁定殘基的方法一直是過去系統(tǒng)生物學(xué)中的一項(xiàng)主要內(nèi)容。 然而, 伴隨蛋白質(zhì)數(shù)據(jù)的與日劇增,生物實(shí)驗(yàn)方法已經(jīng)難以滿足后基因時(shí)代人類對生物體行為理解、 蛋白質(zhì)功能預(yù)測和藥物設(shè)計(jì)的需要。因此,生物計(jì)算方法無疑是解決該問題的有效途經(jīng),它能夠及時(shí)、高效地進(jìn)行配體綁定殘基識(shí)別。盡管近年來人們已經(jīng)將機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘中的一些理論和方法運(yùn)用于蛋白質(zhì)與配體綁定殘基預(yù)測研究中,并且該項(xiàng)預(yù)測研究也取得了長足進(jìn)步,但是所取得的蛋白質(zhì)與配體綁定位點(diǎn)預(yù)測精度與實(shí)際應(yīng)用之間還有很長的距離,該預(yù)測問題仍然是生物信息學(xué)中一個(gè)具有挑戰(zhàn)性的科學(xué)難題。為了進(jìn)一步地提升預(yù)測性能,以下幾個(gè)方面研究方向是潛在的突破口。

      (1) 從當(dāng)前已有的成果來看,來自于蛋白質(zhì)的具有鑒別能力的特征比較有限,這就使得蛋白質(zhì)與配體綁定位點(diǎn)預(yù)測問題的研究陷入了特征不足的瓶頸。因此,從蛋白質(zhì)序列和結(jié)構(gòu)中抽取更具鑒別性的特征信息,是突破性地提升蛋白質(zhì)與配體綁定位點(diǎn)預(yù)測性能的關(guān)鍵步驟。如何抽取更具鑒別性信息的蛋白質(zhì)特征是主要研究方向之一。

      (2) 位于同條蛋白質(zhì)的不同氨基酸殘基之間的相關(guān)性并沒有得到充分關(guān)注。當(dāng)前已有的方法一般是在訓(xùn)練階段使用滑動(dòng)窗口將相鄰的氨基酸殘基的信息結(jié)合到待判定殘基的特征向量中,而在預(yù)測階段時(shí),同一蛋白質(zhì)中的任意兩個(gè)殘基都是獨(dú)立地進(jìn)行預(yù)測。這就使得在預(yù)測過程大量的隱含在同一蛋白質(zhì)中不同氨基酸之間的關(guān)聯(lián)信息被丟失。如何抽取同一蛋白質(zhì)的不同氨基酸之間的關(guān)聯(lián)信息,并應(yīng)用于蛋白質(zhì)與配體綁定位點(diǎn)預(yù)測問題,以期提升預(yù)測性能,是研究的主要方向之一。

      (3) 隨著蛋白質(zhì)數(shù)據(jù)的日積月累,海量蛋白質(zhì)數(shù)據(jù)的時(shí)代已經(jīng)到來。在蛋白質(zhì)大數(shù)據(jù)時(shí)代背景下,如何利用海量蛋白質(zhì)數(shù)據(jù)進(jìn)行深度學(xué)習(xí),充分挖掘隱含在數(shù)據(jù)中的有用信息,構(gòu)建具有深度學(xué)習(xí)能力的蛋白質(zhì)與配體綁定殘基預(yù)測模型,是大幅度提升預(yù)測性能的重要研究方向。所以,借鑒深度學(xué)習(xí)算法在圖像處理、視頻跟蹤以及推薦系統(tǒng)等領(lǐng)域中取得的成果,并提出適合于蛋白質(zhì)與配體綁定位點(diǎn)預(yù)測的深度學(xué)習(xí)模型是未來研究的主要方向之一。

      參考文獻(xiàn):

      [1]Altschul S F, Gish W, Miller W, et al. Basic local alignment search tool [J]. Journal of Molecular Biology, 1990, 215(3): 403-410.

      [2]Chen K, Mizianty M J, Kurgan L. ATPsite: Sequence-based prediction of ATP-binding residues [J]. Proteome Science, 2011, 9(1): S4.

      [3]Schmidt T, Haas J, Cassarino T G, et al. Assessment of ligand-binding residue predictions in CASP9 [J]. Proteins: Structure, Function, and Bioinformatics, 2011, 79(S10): 126-136.

      [4]Gallo C T, Bordoli L, Schwede T. Assessment of ligand binding site predictions in CASP10 [J]. Proteins: Structure, Function, and Bioinformatics, 2014, 82(S2): 154-163.

      [5]Yang J, Roy A, Zhang Y. BioLiP: A semi-manually curated database for biologically relevant ligand-protein interactions [J]. Nucleic Acids Research, 2013, 41(D1): D1096-D1103.

      [6]Liu R, Hu J. HemeBIND: A novel method for heme binding residue prediction by combining structural and sequence information [J]. BMC Bioinformatics, 2011, 12(1): 207.

      [7]Yu D J, Hu J, Yang J, et al. Designing template-free predictor for targeting protein-ligand binding sites with classifier ensemble and spatial clustering [J]. IEEE ACM T Comput Bi, 2013, 10(4): 994-1008.

      [8]Lee D, Redfern O, Orengo C. Predicting protein function from sequence and structure [J]. Nature Reviews Molecular Cell Biology, 2007, 8(12): 995.

      [9]Wass M N, Kelley L A, Sternberg M J. 3DLigandSite: Predicting ligand-binding sites using similar structures [J]. Nucleic Acids Research, 2010: gkq406.

      [10] Brylinski M, Skolnick J. A threading-based method (FINDSITE) for ligand-binding site prediction and functional annotation [J]. Proceedings of the National Academy of Sciences, 2008, 105(1): 129-134.

      [11] Roche D B, Tetchner S J, Mcguffin L J. FunFOLD: An improved automated method for the prediction of ligand binding residues using 3D models of proteins [J]. BMC Bioinformatics, 2011, 12(1): 160.

      [12] Holm L, Sander C. Dali: A network tool for protein structure comparison [J]. Trends in Biochemical Sciences, 1995, 20(11): 478-480.

      [13] Ortiz A R, Strauss C E, Olmea O. MAMMOTH (Matching molecular models obtained from theory): An automated method for model comparison [J]. Protein Science, 2002, 11(11): 2606-2621.

      [14] Zhang Y, Skolnick J. TM-align: A protein structure alignment algorithm based on the TM-score [J]. Nucleic Acids Research, 2005, 33(7): 2302-2309.

      [15] Roy A, Zhang Y. Recognizing protein-ligand binding sites by global structural alignment and local geometry refinement [J]. Structure, 2012, 20(6): 987-997.

      [16] Rose P W, Prlic′ A, Bi C, et al. The RCSB protein data bank: Views of structural biology for basic and applied research and education [J]. Nucleic Acids Research, 2015, 43(D1): D345-D356.

      [17] Huang B, Schroeder M. LIGSITE csc: Predicting ligand binding sites using the connolly surface and degree of conservation [J]. BMC Structural Biology, 2006, 6(1): 19.

      [18] Hendlich M, Rippmann F, Barnickel G. LIGSITE: Automatic and efficient detection of potential small molecule-binding sites in proteins [J]. Journal of Molecular Graphics and Modelling, 1997, 15(6): 359-363.

      [19] Weisel M, Proschak E, Schneider G. PocketPicker: Analysis of ligand binding-sites with shape descriptors [J]. Chemistry Central Journal, 2007, 1(1): 7.

      [20] Brady G P, Stouten P F. Fast prediction and visualization of protein binding pockets with PASS [J]. Journal of Computer Aided Molecular Design, 2000, 14(4): 383-401.

      [21] Laskowski R A. SURFNET: A program for visualizing molecular surfaces, cavities, and intermolecular interactions [J]. Journal of Molecular Graphics, 1995, 13(5): 323-330.

      [22] Le G V, Schmidtke P, Tuffery P. Fpocket: An open source platform for ligand pocket detection [J]. BMC Bioinformatics, 2009, 10(1): 168.

      [23] Zhu H, Pisabarro M T. MSPocket: An orientation-independent algorithm for the detection of ligand binding pockets [J]. Bioinformatics, 2010, 27(3): 351-358.

      [24] Dundas J, Ouyang Z, Tseng J, et al. CASTp: Computed atlas of surface topography of proteins with structural and topographical mapping of functionally annotated residues [J]. Nucleic Acids Research, 2006, 34(Suppl 2): W116-W118.

      [25] Ghersi D, Sanchez R. EasyMIFS and SiteHound: A toolkit for the identification of ligand-binding sites in protein structures [J]. Bioinformatics, 2009, 25(23): 3185-3186.

      [26] Hernandez M, Ghersi D, Sanchez R. SITEHOUND-web: A server for ligand binding site identification in protein structures [J]. Nucleic Acids Research, 2009, 37(Suppl 2): W413-W416.

      [27] Silberstein M, Dennis S, Brown L, et al. Identification of substrate binding sites in enzymes by computational solvent mapping [J]. Journal of Molecular Biology, 2003, 332(5): 1095-1113.

      [28] Laurie A T, Jackson R M. Q-SiteFinder: An energy-based method for the prediction of protein-ligand binding sites [J]. Bioinformatics, 2005, 21(9): 1908-1916.

      [29] Morita M, Nakamura S, Shimizu K. Highly accurate method for ligand-binding site prediction in unbound state (apo) protein structures [J]. Proteins: Structure, Function, and Bioinformatics, 2008, 73(2): 468-479.

      [30] Ngan C H, Hall D R, Zerbe B, et al. FTSite: High accuracy detection of ligand binding sites on unbound protein structures [J]. Bioinformatics, 2011, 28(2): 286-287.

      [31] Xie Z R, Hwang M J. Methods for predicting protein-ligand binding sites [J]. Molecular Modeling of Proteins, 2015: 383-398.

      [32] Ngan C H, Hall D R, Zerbe B, et al. FTSite: High accuracy detection of ligand binding sites on unbound protein structures [J]. Bioinformatics, 2012, 28(2): 286-287.

      [33] Eswar N, Webb B, Marti-renom M A, et al. Comparative protein structure modeling using modeller [J]. Current Protocols in Bioinformatics, 2006: 5.6. 1-5.6. 30.

      [34] Ovchinnikov S, Kinch L, Park H, et al. Large-scale determination of previously unsolved protein structures using evolutionary information [J]. Elife, 2015, 4: e09248.

      [35] Yang J, Yan R, Roy A, et al. The I-TASSER Suite: Protein structure and function prediction [J]. Nat Methods, 2015, 12(1): 7-8.

      [36] Chen K, Mizianty M J, Kurgan L. Prediction and analysis of nucleotide-binding residues using sequence and sequence-derived structural descriptors [J]. Bioinformatics, 2012, 28(3): 331-341.

      [37] Altschul S F, Madden T L, Schffer A A, et al. Gapped BLAST and PSI-BLAST: A new generation of protein database search programs [J]. Nucleic Acids Research, 1997, 25(17): 3389-3402.

      [38] Yang J, Roy A, Zhang Y. Protein-ligand binding site recognition using complementary binding-specific substructure comparison and sequence profile alignment [J]. Bioinformatics, 2013, 29(20): 2588-2595.

      [39] Dou Y, Wang J, Yang J, et al. L1pred: A sequence-based prediction tool for catalytic residues in enzymes with the L1-logreg classifier [J]. PloS one, 2012, 7(4): e35666.

      [40] Koh K, Kim S J, Boyd S. An interior-point method for large-scale l1-regularized logistic regression [J]. Journal of Machine Learning Research, 2007, 8(Jul): 1519-1555.

      [41] Chauhan J S, Mishra N K, Raghava G P. Identification of ATP binding residues of a protein from its primary sequence [J]. BMC Bioinformatics, 2009, 10: 434.

      [42] Chang C C, Lin C J. LIBSVM: A library for support vector machines [J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2011, 2(3): 27.

      [43] Panwar B, Gupta S, Raghava G P. Prediction of vitamin interacting residues in a vitamin binding protein using evolutionary information [J]. BMC Bioinformatics, 2013, 14(1): 44.

      [44] Li B Q, Feng K Y, Ding J, et al. Predicting DNA-binding sites of proteins based on sequential and 3D structural information [J]. Molecular Genetics and Genomics, 2014, 289(3): 489-499.

      [45] Capra J A, Laskowski R A, Thornton J M, et al. Predicting protein ligand binding sites by combining evolutionary sequence conservation and 3D structure [J]. Plos Comput Biol, 2009, 5(12): e1000585.

      [46] Si J, Zhang Z, Lin B, et al. MetaDBSite: A meta approach to improve protein DNA-binding sites prediction [J]. BMC Systems Biology, 2011, 5(Suppl 1): S7.

      [47] An J, Totrov M, Abagyan R. Pocketome via comprehensive identification and classification of ligand binding envelopes [J]. Molecular & Cellular Proteomics, 2005, 4(6): 752-761.

      [48] Ofran Y, Mysore V, Rost B. Prediction of DNA-binding residues from sequence [J]. Bioinformatics, 2007, 23(13): I347-I353.

      [49] Hwang S, Gou Z, Kuznetsov I B. DP-Bind: A web server for sequence-based prediction of DNA-binding residues in DNA-binding proteins [J]. Bioinformatics, 2007, 23(5): 634-636.

      [50] Yan C, Terribilini M, Wu F, et al. Predicting DNA-binding sites of proteins from amino acid sequence [J]. BMC Bioinformatics, 2006, 7(1): 262.

      [51] Wang L, Brown S J. BindN: A web-based tool for efficient prediction of DNA and RNA binding sites in amino acid sequences [J]. Nucleic Acids Research, 2006, 34(Suppl 2): W243-W248.

      [52] Wang L, Yang M Q, Yang J Y. Prediction of DNA-binding residues from protein sequence information using random forests [J]. Bmc Genomics, 2009, 10(Suppl 1): S1.

      [53] Ahmad S, Gromiha M M, Sarai A. Analysis and prediction of DNA-binding proteins and their binding residues based on composition, sequence and structural information [J]. Bioinformatics, 2004, 20(4): 477-486.

      [54] Roy A, Yang J, Zhang Y. COFACTOR: An accurate comparative algorithm for structure-based protein function annotation [J]. Nucleic Acids Research, 2012: gks372.

      [55] He H, Garcia E A. Learning from imbalanced data [J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9): 1263-1284.

      [56] Hu J, He X, Yu D J, et al. A new supervised over-sampling algorithm with application to protein-nucleotide binding residue prediction [J]. PloS One, 2014, 9(9): e107676.

      [57] Yu D J, Hu J, Tang Z M, et al. Improving protein-ATP binding residues prediction by boosting SVMs with random under-sampling [J]. Neurocomputing, 2013, 104: 180-190.

      [58] Hu X, Dong Q, Yang J, et al. Recognizing metal and acid radical ion-binding sites by integrating ab initio modeling with template-based transferals [J]. Bioinformatics, 2016, 32(21): 3260-3269.

      [59] Berman H M, Westbrook J, Feng Z, et al. The protein data bank [J]. Nucleic Acids Res, 2000, 28(1): 235-242.

      [60] Rose P W, Prlic′ A, Altunkaya A, et al. The RCSB protein data bank: Integrative view of protein, gene and 3D structural information [J]. Nucleic Acids Research, 2017, 45(D1): D271-D281.

      [61] Pikora M, Gieldon A. RASMOL AB-New functionalities in the program for structure analysis[J]. Acta Biochimica Polonica, 2015, 62(3): 629-631.

      [62] Delano W L. Pymol: An open-source molecular graphics tolls[J].CCP4 Newsletter on protein Crystallography, 2002, 40:82-92.

      [63] Herraez A. Biomolecules in the computer: Jmol to the rescue[J].Biochemistry and Molecular Biology Education, 2006, 34(4):255-261.

      [64] Slynko I, Rognan D, Kellenberger E. Protein-ligand docking [M].[S.l.]: Tutorials in Chemoinformatics, 2017: 355.

      [65] Hirata S, Shizu K. Organic light-emitting diodes: High-throughput virtual screening [J]. Nature Materials, 2016, 15: 1056-1057.

      [66] Das S, Orengo C A. Protein function annotation using protein domain family resources [J]. Methods, 2016, 93: 24-34.

      猜你喜歡
      定位點(diǎn)殘基配體
      時(shí)速160公里剛性接觸網(wǎng)定位點(diǎn)導(dǎo)高偏差研究
      電氣化鐵道(2023年6期)2024-01-08 07:45:48
      基于各向異性網(wǎng)絡(luò)模型研究δ阿片受體的動(dòng)力學(xué)與關(guān)鍵殘基*
      數(shù)獨(dú)小游戲
      “殘基片段和排列組合法”在書寫限制條件的同分異構(gòu)體中的應(yīng)用
      地鐵剛性接觸網(wǎng)定位點(diǎn)脫落狀態(tài)分析
      電氣化鐵道(2018年4期)2018-09-11 07:01:38
      我的結(jié)網(wǎng)秘籍
      基于配體鄰菲啰啉和肉桂酸構(gòu)筑的銅配合物的合成、電化學(xué)性質(zhì)及與DNA的相互作用
      新型三卟啉醚類配體的合成及其光學(xué)性能
      蛋白質(zhì)二級(jí)結(jié)構(gòu)序列與殘基種類間關(guān)聯(lián)的分析
      基于支持向量機(jī)的蛋白質(zhì)相互作用界面熱點(diǎn)殘基預(yù)測
      姚安县| 本溪| 宜阳县| 崇礼县| 湟中县| 平江县| 嵩明县| 奇台县| 垣曲县| 汾阳市| 集安市| 萍乡市| 故城县| 高淳县| 霍山县| 许昌市| 潢川县| 闽清县| 昆山市| 扬中市| 吉林市| 四子王旗| 象山县| 临猗县| 高阳县| 兴隆县| 南昌市| 苏尼特左旗| 庆安县| 科技| 蕉岭县| 友谊县| 玛纳斯县| 南澳县| 邮箱| 仁化县| 杭锦后旗| 龙南县| 石台县| 剑阁县| 张家口市|