戚添韻,萬曉耕
(北京化工大學(xué) 數(shù)理學(xué)院,數(shù)學(xué)部,北京 100029)
蛋白質(zhì)二級(jí)結(jié)構(gòu)的預(yù)測(cè)始于20世紀(jì)60年代中期,早期主要根據(jù)PDB數(shù)據(jù)庫(kù)的已知信息,運(yùn)用統(tǒng)計(jì)方法計(jì)算單個(gè)殘基或氨基酸序列片段形成某種二級(jí)結(jié)構(gòu)的概率,來預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu)類型[1]。近些年,隨著計(jì)算機(jī)技術(shù)的進(jìn)步,生物信息學(xué)為蛋白質(zhì)二級(jí)結(jié)構(gòu)的研究提供了有力的工具。蛋白質(zhì)二級(jí)結(jié)構(gòu)的研究主要聚焦于蛋白質(zhì)結(jié)構(gòu)與功能之間的關(guān)系,為研究、設(shè)計(jì)新藥物提供理論參考[1],本文主要研究蛋白質(zhì)序列與其二級(jí)結(jié)構(gòu)類型的關(guān)系。
在研究過程中,學(xué)者們提出了各種基于序列特征的蛋白質(zhì)結(jié)構(gòu)分類和預(yù)測(cè)方法。Liu[2]等人提出Pse-in-One服務(wù)器,可以生成具有用戶自己定義屬性的特征向量,這些特征向量既可以體現(xiàn)蛋白質(zhì)序列的特征,又很容易地與機(jī)器學(xué)習(xí)算法結(jié)合。Jo[3]等人探索了深度學(xué)習(xí)網(wǎng)絡(luò)在蛋白質(zhì)折疊識(shí)別中的應(yīng)用,并驗(yàn)證了深度學(xué)習(xí)技術(shù)在折疊識(shí)別研究中的有效性。Yau[4]等人利用圖示方法構(gòu)造了蛋白質(zhì)序列的矩向量。Yu[5]等人提出了K-string字典法,用來解決蛋白質(zhì)序列比較中的高維向量問題。Dong[6]等人提出了mTM-align算法,為蛋白質(zhì)多重結(jié)構(gòu)比對(duì)提供可靠的支撐。Wei[7]等人開發(fā)了一種由綜合特征集與集成分類器相結(jié)合而設(shè)計(jì)的蛋白質(zhì)折疊預(yù)測(cè)方法PFPA。Khan[8]等人將關(guān)聯(lián)規(guī)則挖掘技術(shù)ACO-AC應(yīng)用于將蛋白質(zhì)折疊分類。Wang[9]等人報(bào)道了一種基于人工智能的蛋白質(zhì)結(jié)構(gòu)優(yōu)化方法AIR,將一維優(yōu)化擴(kuò)展到由多目標(biāo)粒子群優(yōu)化引擎驅(qū)動(dòng)的三維空間優(yōu)化。Yan[10]等人提出TSVM-fold和ESVM-fold兩種算法,并證明TSVM-fold和ESVM-fold是蛋白質(zhì)折疊識(shí)別的有效預(yù)測(cè)因子。
近幾年,學(xué)者們?cè)诘鞍踪|(zhì)結(jié)構(gòu)預(yù)測(cè)和分類上收獲得了更多成果。Zheng[11]等人開發(fā)了I-TASSER網(wǎng)關(guān),實(shí)現(xiàn)了對(duì)蛋白質(zhì)預(yù)測(cè)模型與已知模板的在線比對(duì)。Zheng[12]等人還開發(fā)了LOMETS2服務(wù)器,用于基于模板的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。Zhou[13]等人開發(fā)了DEMO,可方便地用于自動(dòng)化基因組規(guī)模多結(jié)構(gòu)域蛋白質(zhì)的組裝。Zhou[14]等人還提出了一種基于低估輔助的全局和局部協(xié)同差異進(jìn)化(DE)的蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)方法。Zhang[15]等人提出了一種新的途徑—MetaGO,可以在傳統(tǒng)的序列同源性之外預(yù)測(cè)新的功能。Zhang[16]等人繼續(xù)開發(fā)了新的開源方法—DeepMSA用于蛋白質(zhì)二級(jí)結(jié)構(gòu)的預(yù)測(cè)。Vangave[17]等人對(duì)基于模板和無模板方法的預(yù)測(cè)進(jìn)行評(píng)估和整合,并提出了新的高置信度預(yù)測(cè)方法。Liu[18]等人提出了一種新的蛋白質(zhì)折疊識(shí)別預(yù)測(cè)器:DeepSVM-fold。Liu[19]等人還采用學(xué)習(xí)排序模型(Learning to Rank model, LTR)對(duì)模板蛋白進(jìn)行檢索,提出了Fold-LTR-TCP預(yù)測(cè)器。Yan[20]等人提出了MV-fold和MT-fold兩種算法。Li和Liu[21]提出了兩種特征提取方法—MotifCNN和MotifDCNN以及一種預(yù)測(cè)器:MotifCNN-fold。
傳統(tǒng)的蛋白質(zhì)結(jié)構(gòu)分類研究更多地關(guān)注蛋白質(zhì)序列特征空間的劃分,而本研究創(chuàng)新性地利用時(shí)間序列相關(guān)性方法來探索蛋白質(zhì)序列特征之間的關(guān)系,并通過復(fù)雜網(wǎng)絡(luò)建模來甄別不同結(jié)構(gòu)類型對(duì)應(yīng)蛋白質(zhì)序列特征的異同。特別地,網(wǎng)絡(luò)中心性結(jié)果具體地指出了不同蛋白質(zhì)結(jié)構(gòu)類型所對(duì)應(yīng)的顯著氨基酸和物理屬性特征,這對(duì)深入研究蛋白質(zhì)結(jié)構(gòu)的分類與預(yù)測(cè)具有重要意義。
1.1.1 蛋白質(zhì)序列的特征提取
CATH數(shù)據(jù)庫(kù)中的蛋白質(zhì)結(jié)構(gòu)主要分為三大類,即主要α結(jié)構(gòu)類(Mainlyα),主要β結(jié)構(gòu)類(Mainlyβ)和α與β的混合結(jié)構(gòu)類(Mixedα&β)。從CATH數(shù)據(jù)庫(kù)中隨機(jī)抽取24組序列,每種結(jié)構(gòu)類型中分別獲取8組;SCOP數(shù)據(jù)庫(kù)包含四種結(jié)構(gòu)類(All-α、All-β、α/β和α+β),從SCOP數(shù)據(jù)庫(kù)的每種結(jié)構(gòu)類中隨機(jī)抽取5組蛋白質(zhì)序列,總共獲得20組蛋白質(zhì)序列數(shù)據(jù)。我們利用自然向量(Natural vector, NV)、平均屬性因子(Averaged property factors, APF)這兩種經(jīng)典的蛋白質(zhì)序列特征提取方法從選取的蛋白質(zhì)序列中提取特征向量。由于自然向量和平均屬性因子特征向量分別為60維和10維,因此每個(gè)蛋白質(zhì)序列對(duì)應(yīng)一個(gè)70維的特征向量。
(1)
(2)
X=(〈f(1)〉S,〈f(2)〉S,…,〈f(10)〉S)
(3)
其中〈f(m)〉S為氨基酸序列S中第m種屬性的平均值[23]:
(4)
NS表示氨基酸序列S的長(zhǎng)度。這10種重要的氨基酸物理屬性分別為:(1)α螺旋/彎曲偏好,(2)側(cè)鏈大小,(3)擴(kuò)展結(jié)構(gòu)偏好,(4)疏水性,(5)雙彎曲偏好,(6)氨基酸構(gòu)成,(7)平面擴(kuò)展偏好,(8)α區(qū)域出現(xiàn)的頻率,(9)解離常數(shù),(10)β結(jié)構(gòu)的周圍疏水性。這10種氨基酸物理屬性的含義和取值由[24-25]給出。
通過計(jì)算自然向量(NV)和平均屬性因子(APF),數(shù)據(jù)集中的每一條蛋白質(zhì)序列都可以用一個(gè)70維的特征向量表示,在70維的向量空間中,每一個(gè)蛋白質(zhì)可以看成70維實(shí)空間中的一個(gè)點(diǎn)。對(duì)于一個(gè)含有n個(gè)蛋白質(zhì)的結(jié)構(gòu)類,所有蛋白質(zhì)的特征序列構(gòu)成一個(gè)n×70維的特征序列矩陣,其中每一列代表一種特征因素,每一行為一個(gè)蛋白質(zhì)序列的特征向量。
1.1.2 特征序列的隨機(jī)排列
由于特征序列長(zhǎng)度即為該組數(shù)據(jù)蛋白質(zhì)序列的個(gè)數(shù),因此同一組數(shù)據(jù)的特征序列長(zhǎng)度相等。為了減小蛋白質(zhì)順序?qū)μ卣餍蛄械挠绊?,我們將所有特征序列的元素位置同時(shí)亂序,即將特征序列構(gòu)成的特征序列矩陣的行進(jìn)行隨機(jī)亂序,隨機(jī)亂序后仍保持特征序列同一位置對(duì)應(yīng)相同蛋白質(zhì)。我們通過計(jì)算平均標(biāo)準(zhǔn)差來衡量隨機(jī)亂序后研究結(jié)果的魯棒性。
1.2.1 互相關(guān)系數(shù)
首先采用互相關(guān)系數(shù)來探索序列特征之間的關(guān)系?;ハ嚓P(guān)系數(shù)是最基本的無向關(guān)系之一,它衡量了兩個(gè)序列之間的線性相關(guān)性。對(duì)于一組特征序列{Xi,i=1,2,...,70},序列Xi與Xj的互相關(guān)系數(shù)ρ(i,j)定義為[26]:
(5)
其中E表示數(shù)學(xué)期望,Var表示方差。互相關(guān)系數(shù)取值介于[-1,1]之間,為了計(jì)算特征序列之間無向關(guān)系,對(duì)互相關(guān)系數(shù)取絕對(duì)值,得到R(i,j)=|ρ(i,j)|,i,j=1,2,...,70。因此,對(duì)于每個(gè)數(shù)據(jù)集的70個(gè)特征序列,得到一個(gè)70×70維的互相關(guān)系數(shù)矩陣R=(R(i,j))70×70,該矩陣是對(duì)稱的且矩陣元素R(i,j)取值介于[0,1]之間,R(i,j)的值越接近1,說明序列之間的線性相關(guān)性越強(qiáng),R(i,j)取值越低,說明序列之間的線性相關(guān)性越小。
1.2.2 標(biāo)準(zhǔn)化互信息
互信息是信息理論中計(jì)算兩個(gè)系統(tǒng)之間相互關(guān)系的量,它具有“無模型”的特點(diǎn),即互信息計(jì)算的無向關(guān)系既可以是線性的也可以是非線性的,因此,互信息常用于現(xiàn)實(shí)世界中數(shù)據(jù)序列之間無向關(guān)系的計(jì)算。任給兩個(gè)特征序列X和Y,可以計(jì)算Xi與Xj之間的互信息[27]:
(6)
其中α,β分別為序列Xi與Xj在同一位置的取值。為了實(shí)現(xiàn)節(jié)點(diǎn)間的相互比較,我們利用最大熵對(duì)標(biāo)準(zhǔn)化互信息進(jìn)行歸一化處理。特征序列Xi與Xj之間的標(biāo)準(zhǔn)化互信息定義為[27]:
(7)
其中Hq為第q個(gè)特征序列的香濃熵。對(duì)于每個(gè)數(shù)據(jù)集的70個(gè)特征序列,我們得到一個(gè)70×70維的標(biāo)準(zhǔn)化互信息矩陣I′=(I′(Xi;Xj))70×70,該矩陣是對(duì)稱的且矩陣元素介于0和1之間。
互相關(guān)系數(shù)與標(biāo)準(zhǔn)化互信息計(jì)算的都是特征序列之間的無向關(guān)系,而傳遞熵則用來計(jì)算特征序列之間的有向信息傳遞。任意兩個(gè)特征序列Xi與Xj之間的傳遞熵定義為[28]:
(8)
傳遞熵體現(xiàn)的是序列之間的有向信息傳遞,需要通過替代數(shù)據(jù)(Surrogate data)進(jìn)行偏差校正。若令{in}和{jn}分別表示任意兩個(gè)特征序列Xi與Xj,TEXj→Xi表示Xj到Xi的傳遞熵。首先將Xj固定,并對(duì)Xi的時(shí)間索引進(jìn)行隨機(jī)長(zhǎng)度的時(shí)移,得到替代序列{in-τi},接下來,計(jì)算從Xj的原始序列{jn}到{in}的替代序列{in-τi}的傳遞熵,將結(jié)果記為TEXj→Xi(q),其中q是替代序列{in-τi}的指標(biāo),Xj→Xi的修正傳遞熵即為[29]:
TEC,Xj→Xi=TEXj→Xi-maxq{TEXj→Xi(q)}
(9)
通過計(jì)算校正的傳遞熵,每一個(gè)結(jié)構(gòu)類對(duì)應(yīng)一個(gè)70×70維的傳遞熵矩陣TE=(TEC,Xj→Xi)70×70,該矩陣是非對(duì)稱的且每個(gè)元素非負(fù),矩陣中第(i,j)個(gè)元素TEC,Xj→Xi表示從序列Xj到Xi的傳遞熵。
對(duì)CATH和SCOP數(shù)據(jù)庫(kù)的每個(gè)主要結(jié)構(gòu)類計(jì)算互相關(guān)系數(shù)、標(biāo)準(zhǔn)化互信息和傳遞熵矩陣,并將這些矩陣看作加權(quán)網(wǎng)絡(luò)的鄰接矩陣,以此建立以特征因素為節(jié)點(diǎn)的無向和有向加權(quán)網(wǎng)絡(luò)。
1.4.1 網(wǎng)絡(luò)與鄰接矩陣
在以節(jié)點(diǎn)和節(jié)點(diǎn)之間連接關(guān)系構(gòu)成的網(wǎng)絡(luò)中,通常用鄰接矩陣來表示網(wǎng)絡(luò)。在研究過程中,分別利用互相關(guān)系數(shù)、標(biāo)準(zhǔn)化互信息和傳遞熵來計(jì)算以特征因素為節(jié)點(diǎn)的網(wǎng)絡(luò)鄰接矩陣,進(jìn)而利用中心性算法計(jì)算不同結(jié)構(gòu)類型對(duì)應(yīng)網(wǎng)絡(luò)中特征因素的重要性分布。
1.4.2 無向網(wǎng)絡(luò)的中心性
為了探究網(wǎng)絡(luò)之間的差異,首先需要探究網(wǎng)絡(luò)節(jié)點(diǎn)的分布特征,而中心性方法則提供了衡量節(jié)點(diǎn)在網(wǎng)絡(luò)中重要程度的方法。對(duì)于無向網(wǎng)絡(luò)來說,中心性有一個(gè)最簡(jiǎn)單的計(jì)算方式,即度中心性[30]。在計(jì)算度中心性時(shí),由于網(wǎng)絡(luò)是無向的,因此鄰接矩陣A是對(duì)稱的,即A=AT,只需要計(jì)算每個(gè)節(jié)點(diǎn)所連接的邊的總數(shù)。對(duì)于加權(quán)網(wǎng)絡(luò)來說,度中心性即由鄰接矩陣計(jì)算得到的加權(quán)邊的權(quán)重之和。
另一個(gè)比較適用于無向網(wǎng)絡(luò)中心性計(jì)算的方法是特征向量中心性[31]。特征向量中心性就是鄰接矩陣的最大特征值對(duì)應(yīng)的特征向量,即向量x滿足:Ax=k1x,為了便于計(jì)算,上式也可以寫為[32]
(10)
其中k1為鄰接矩陣A的最大特征值。
1.4.3 有向網(wǎng)絡(luò)的中心性
以上提到的度中心性和特征向量中心性比較適用于無向網(wǎng)絡(luò),在有向網(wǎng)絡(luò)中,這兩種中心性的計(jì)算方法存在一定的缺陷,需要進(jìn)一步探究有向網(wǎng)絡(luò)的中心性方法。有向網(wǎng)絡(luò)的度中心性分為入度中心性和出度中心性,即每個(gè)節(jié)點(diǎn)的入邊和出邊數(shù),在加權(quán)網(wǎng)絡(luò)中分別體現(xiàn)為入邊權(quán)重和出邊權(quán)重的和。Katz在1953年提出了KATZ中心性[33],該中心性首先賦予網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)一個(gè)很小的初始中心性,因?yàn)槿粢粋€(gè)節(jié)點(diǎn)只有從它出發(fā)的有向邊而沒有指向它的有向邊,即只有出度沒有入度,這些有向邊給被它所指向的節(jié)點(diǎn)提供的中心性為零,這顯然是不合理的。根據(jù)KATZ中心性的初始化思想,每個(gè)節(jié)點(diǎn)的中心性可以定義為[30]
xi=α∑jAijxj+β
(11)
其中α和β是正常數(shù),β是初始中心性。由于網(wǎng)絡(luò)中心性計(jì)算的是網(wǎng)絡(luò)中節(jié)點(diǎn)的重要性,因此中心性的具體數(shù)值并不重要,重要的是每個(gè)節(jié)點(diǎn)中心性的高低比較,給每個(gè)節(jié)點(diǎn)賦予一個(gè)較小的初始中心性并不會(huì)影響中心性的分布。上式可以寫成矩陣形式[30]:
x=αAx+β·1
(12)
其中1是單位向量(1,1,1,....),為了便于計(jì)算,β取值為1,則KATZ中心性為[30]
x=(I-αA)-1·1
(13)
本文選取α=1/k1-0.001,根據(jù)x=(I-αA)-1·1計(jì)算有向網(wǎng)絡(luò)的中心性。KATZ中心性存在一個(gè)缺陷,即當(dāng)一個(gè)節(jié)點(diǎn)具有很高的KATZ中心性時(shí),若它指向多個(gè)其它節(jié)點(diǎn),這些節(jié)點(diǎn)也會(huì)有很高的KATZ中心性。PageRank[30]中心性則改進(jìn)了這一點(diǎn),PageRank中心性定義為[30]:
(14)
x=αAD-1x+β·1
(15)
同樣,取β=1,經(jīng)過移項(xiàng)PageRank中心性還可以寫成
x=(I-αAD-1)-1·1=D(D-αA)-1·1
(16)
從CATH和SCOP數(shù)據(jù)庫(kù)的每個(gè)主要結(jié)構(gòu)類中隨機(jī)且盡可能等量地選取由X-ray實(shí)驗(yàn)獲得、序列相似度不超過30%的PDB數(shù)據(jù),其中從 CATH的三個(gè)主要結(jié)構(gòu)類中各隨機(jī)選取8個(gè)CATH組(按CATH ID分類的組),并從SCOP數(shù)據(jù)庫(kù)的四個(gè)主要結(jié)構(gòu)類中各隨機(jī)選取5個(gè)SCOP組,數(shù)據(jù)選取的結(jié)果(見表1)。這兩個(gè)數(shù)據(jù)庫(kù)的不同結(jié)構(gòu)類數(shù)據(jù)集之間無冗余序列。由于兩個(gè)數(shù)據(jù)庫(kù)對(duì)子類劃分方式不同,在盡量避免冗余的情況下,α、β、α與β的混合結(jié)構(gòu)類每一種類型的不同數(shù)據(jù)庫(kù)數(shù)據(jù)集之間仍然存在一定交集,平均冗余度為7.5%,不影響實(shí)驗(yàn)結(jié)果。
表1 CATH和SCOP結(jié)構(gòu)分類數(shù)據(jù)庫(kù)數(shù)據(jù)選取
分別采用互相關(guān)系數(shù)、標(biāo)準(zhǔn)化互信息和傳遞熵的方法對(duì)序列特征之間的無向和有向關(guān)系進(jìn)行計(jì)算。由于不同類型的序列特征取值分布不同,將60維的自然向量按其組成部分分為N特征(1-20維,表示20種氨基酸在蛋白質(zhì)序列中的個(gè)數(shù)),μ特征(21-40維,表示20種氨基酸在蛋白質(zhì)序列中距首個(gè)氨基酸的平均距離)和D特征(41-60維,表示20種氨基酸在蛋白質(zhì)序列中距首個(gè)氨基酸距離的二階歸一化中心矩),并分別對(duì)N、μ、D特征以及10維的平均屬性因子(氨基酸的10種物理屬性)特征計(jì)算無向和有向的關(guān)系矩陣,并將計(jì)算結(jié)果用彩圖的方式展現(xiàn)(見圖1~圖4和圖5~圖8)。分別展示了CATH和SCOP兩組數(shù)據(jù)集在每種序列特征下的關(guān)系矩陣。
圖1 特征N的相關(guān)性分析(CATH)
圖2 特征μ的相關(guān)性分析(CATH)
圖3 特征D的相關(guān)性分析(CATH)
圖4 特征APF的相關(guān)性分析(CATH)
圖6 特征μ的相關(guān)性分析(SCOP)
圖7 特征D的相關(guān)性分析(SCOP)
從這些彩色矩陣中可以明顯看出某些氨基酸或物理屬性的序列特征與其它同類型特征之間具有較強(qiáng)或較弱的關(guān)系。利用這些無向和有向的關(guān)系矩陣構(gòu)建以序列特征為節(jié)點(diǎn)的加權(quán)網(wǎng)絡(luò),并利用網(wǎng)絡(luò)中心性算法來分析不同結(jié)構(gòu)類型下蛋白質(zhì)序列特征因素的重要性分布。
利用對(duì)稱的互相關(guān)系數(shù)矩陣和標(biāo)準(zhǔn)化互信息矩陣構(gòu)建無向的加權(quán)網(wǎng)絡(luò),并利用非對(duì)稱的傳遞熵矩陣構(gòu)建有向的加權(quán)網(wǎng)絡(luò)。由于網(wǎng)絡(luò)中心性衡量的是網(wǎng)絡(luò)中節(jié)點(diǎn)的重要程度,同一個(gè)網(wǎng)絡(luò)中不同節(jié)點(diǎn)之間中心性的高低比中心性的具體數(shù)值更重要。為了便于觀察分析,將同一個(gè)關(guān)系矩陣構(gòu)建的網(wǎng)絡(luò)中各個(gè)節(jié)點(diǎn)的中心性結(jié)果進(jìn)行標(biāo)準(zhǔn)化,將中心性的取值按照x=x/maxx調(diào)整至[0,1]區(qū)間內(nèi),其中x為中心性向量,maxx為中心性向量x中的最大分量值。
CATH數(shù)據(jù)集得到的N、μ、D特征網(wǎng)絡(luò)中心性結(jié)果見圖9。從圖9中可以看出,三種結(jié)構(gòu)類均在半胱氨酸(C)、甲硫氨酸(M)、色氨酸(W)的三種特征上體現(xiàn)出較低的無向網(wǎng)絡(luò)中心性(度中心性和特征向量中心性)與較高的有向網(wǎng)絡(luò)中心性(KATZ和PageRank中心性),而在色氨酸(A)、天冬氨酸(D)、亮氨酸(L)、纈氨酸(V)的三種特征上體現(xiàn)出較強(qiáng)的無向網(wǎng)絡(luò)中心性和較弱的有向網(wǎng)絡(luò)中心性。這表明半胱氨酸(C)、甲硫氨酸(M)和色氨酸(W)的構(gòu)成和排序與其它氨基酸的構(gòu)成和排序之間對(duì)稱關(guān)系較弱而非對(duì)稱關(guān)系較強(qiáng),而色氨酸(A)、天冬氨酸(D)、亮氨酸(L)、纈氨酸(V)與其它氨基酸的構(gòu)成與排序之間對(duì)稱關(guān)系較強(qiáng)而非對(duì)稱關(guān)系較弱,組氨酸(H)的N特征也體現(xiàn)出較強(qiáng)的有向網(wǎng)絡(luò)中心性,表明組氨酸(H)的個(gè)數(shù)與其它氨基酸的個(gè)數(shù)之間也具有較強(qiáng)的非對(duì)稱關(guān)系。Mainlyα結(jié)構(gòu)類在脯氨酸(P)的排序(μ特征)上體現(xiàn)出較強(qiáng)的有向網(wǎng)絡(luò)中心性,而Mainlyβ結(jié)構(gòu)類在甘氨酸(G)的構(gòu)成和排序上具有較強(qiáng)的無向網(wǎng)絡(luò)中心性;Mixedα&β的混合結(jié)構(gòu)類在組氨酸(H)的N特征上明顯體現(xiàn)出偏高的有向網(wǎng)絡(luò)中心性。
圖9 CATH數(shù)據(jù)庫(kù)的N、μ、D特征網(wǎng)絡(luò)中心性分析
SCOP數(shù)據(jù)庫(kù)得到的N、μ、D特征中心性結(jié)果見圖10??梢钥闯鯯COP的四種結(jié)構(gòu)類在半胱氨酸(C)與色氨酸(W)的構(gòu)成和排序以及組氨酸(H)、甲硫氨酸(M)的排序特征具有較低的無向網(wǎng)絡(luò)中心性和較高的有向網(wǎng)絡(luò)中心性。這表明這些氨基酸與其它氨基酸的特征之間具有較弱的對(duì)稱關(guān)系與較強(qiáng)的非對(duì)稱關(guān)系,而色氨酸(A)、天冬氨酸(D)、亮氨酸(L)和纈氨酸(V)對(duì)應(yīng)較強(qiáng)的無向網(wǎng)絡(luò)中心性和較弱的有向網(wǎng)絡(luò)中心性,表明這些氨基酸與其它氨基酸的構(gòu)成和排序之間具有較強(qiáng)的對(duì)稱關(guān)系與較弱的非對(duì)稱關(guān)系。這些特點(diǎn)是SCOP的四種結(jié)構(gòu)類的共性,這也可以從圖5-圖7中看出。
All-α結(jié)構(gòu)類天冬酰胺(N)的構(gòu)成和排序特征具有較高的有向網(wǎng)絡(luò)中心性,這表明天冬酰胺(N)與其它氨基酸的特征之間具有較強(qiáng)的非對(duì)稱關(guān)系。All-β結(jié)構(gòu)類中蘇氨酸(T)的排序特征的無向和有向網(wǎng)絡(luò)中心性均較高,這是與All-α結(jié)構(gòu)類的最明顯的差別,All-α結(jié)構(gòu)類的蘇氨酸(T)的排序特征有向網(wǎng)絡(luò)中心性較低,低于絲氨酸(S)排序特征的有向網(wǎng)絡(luò)中心性,而All-β結(jié)構(gòu)類中蘇氨酸(T)的排序特征在有向網(wǎng)絡(luò)中心性上明顯高于絲氨酸(S),這與CATH數(shù)據(jù)集的結(jié)果具有一定相似性。此外,在All-β結(jié)構(gòu)類中甘氨酸(G)的排序特征的無向和有向網(wǎng)絡(luò)中心均較強(qiáng),而All-α結(jié)構(gòu)類在甘氨酸(G)的排序特征上具有較弱的有向網(wǎng)絡(luò)中心性,這表明在All-β結(jié)構(gòu)類中甘氨酸(G)的排序特征與其它氨基酸的排序特征之間具有較強(qiáng)的對(duì)稱和非對(duì)稱關(guān)系,而在All-α結(jié)構(gòu)類中甘氨酸(G)的排序與其它氨基酸的排序之間有向關(guān)系較弱。α/β與α+β結(jié)構(gòu)類分別繼承了All-α與All-β結(jié)構(gòu)類的一些特點(diǎn)。
從圖9-圖10中可以看出,半胱氨酸(C)、色氨酸(W)、甲硫氨酸(M)的有向網(wǎng)絡(luò)中心性偏高,而無向網(wǎng)絡(luò)中心性偏低。導(dǎo)致這種中心性差異的原因可能是由于這些氨基酸與其它氨基酸之間具有較強(qiáng)的相互作用(有向網(wǎng)絡(luò)中心性高),這些相互作用之間關(guān)系復(fù)雜,具有不確定性,而無向網(wǎng)絡(luò)中心性低則說明盡管特征之間有緊密的相互作用,但不同氨基酸的特征之間并不能彼此相互決定。這種中心性差異是不同結(jié)構(gòu)類的共有特征,這種共有的強(qiáng)烈而復(fù)雜的相互作用,可能由氨基酸的物理化學(xué)性質(zhì),例如:親水性、側(cè)鏈基團(tuán)的極性,以及這些氨基酸的功能和作用所導(dǎo)致,而這種氨基酸之間的強(qiáng)烈相互作用可能與結(jié)構(gòu)類型的選擇無關(guān)。
圖10 SCOP數(shù)據(jù)庫(kù)的N、μ、D特征網(wǎng)絡(luò)中心性分析
CATH和SCOP數(shù)據(jù)集的APF特征中心性結(jié)果見圖11-圖12。在CATH數(shù)據(jù)結(jié)果中,Mainlyα結(jié)構(gòu)類的氨基酸α螺旋/彎曲偏好(1)、側(cè)鏈的大小(2)、解離常數(shù)(9)無向網(wǎng)絡(luò)中心性較高,對(duì)稱關(guān)系較強(qiáng),氨基酸疏水性(4)的線性無向網(wǎng)絡(luò)(即線性CR關(guān)系建立的網(wǎng)絡(luò))和有向網(wǎng)絡(luò)中心性高,而非線性無向網(wǎng)絡(luò)(即非線性nMIR關(guān)系建立的網(wǎng)絡(luò))中心性較低,氨基酸擴(kuò)展結(jié)構(gòu)偏好(3)、雙彎曲偏好(5)、氨基酸組成(6)、α區(qū)域出現(xiàn)的頻率(8)、β結(jié)構(gòu)的周圍疏水性(10)的線性無向網(wǎng)絡(luò)中心性較低,表明這些物理屬性與其它屬性之間的線性對(duì)稱關(guān)系較弱。Mainlyβ結(jié)構(gòu)的氨基酸α螺旋/彎曲偏好(1)、氨基酸擴(kuò)展結(jié)構(gòu)偏好(3)無向網(wǎng)絡(luò)中心性高,氨基酸疏水性(4)的無向和有向網(wǎng)絡(luò)中心性均較高,表明對(duì)稱和非對(duì)稱關(guān)系均較高,側(cè)鏈的大小(2)的無向網(wǎng)絡(luò)中心性較低,與其它屬性的對(duì)稱關(guān)系較弱,雙彎曲偏好(5)、α區(qū)域出現(xiàn)的頻率(8)、β結(jié)構(gòu)的周圍疏水性(10)的線性無向網(wǎng)絡(luò)中心性較低,表明這些屬性與其它屬性的線性對(duì)稱關(guān)系較弱。Mixedα&β結(jié)構(gòu)類的氨基酸組成(6)的無向和有向網(wǎng)絡(luò)中心性均較高,與其它屬性的對(duì)稱和非對(duì)稱關(guān)系均較強(qiáng),氨基酸α螺旋/彎曲偏好(1)、氨基酸擴(kuò)展結(jié)構(gòu)偏好(3)、氨基酸疏水性(4)的線性無向網(wǎng)絡(luò)中心性偏低,而非線性無向網(wǎng)絡(luò)中心性偏高,表明這些屬性具有較強(qiáng)的非線性對(duì)稱關(guān)系。
圖11 CATH數(shù)據(jù)庫(kù)的APF特征網(wǎng)絡(luò)中心性分析
圖12 SCOP數(shù)據(jù)庫(kù)的APF特征網(wǎng)絡(luò)中心性分析
類似地,在SCOP的結(jié)果中,All-α結(jié)構(gòu)類α螺旋/彎曲偏好(1)、疏水性(4)、β結(jié)構(gòu)的周圍疏水性(10)的線性無向網(wǎng)絡(luò)與有向網(wǎng)絡(luò)中心性均較高,而擴(kuò)展結(jié)構(gòu)偏好(3)、雙彎曲偏好(5)、氨基酸構(gòu)成(6)、平面擴(kuò)展偏好(7)的線性無向網(wǎng)絡(luò)中心性偏低,而非線性無向網(wǎng)絡(luò)中心性偏高。All-β結(jié)構(gòu)類中(1)、疏水性(4)、平面擴(kuò)展偏好(7)、β結(jié)構(gòu)的周圍疏水性(10)的無向網(wǎng)絡(luò)中心性偏高,而有向網(wǎng)絡(luò)中心性偏低,擴(kuò)展結(jié)構(gòu)偏好(3)、氨基酸構(gòu)成(6)的無向網(wǎng)絡(luò)中心性偏低,而有向網(wǎng)絡(luò)中心性偏高,(9)的線性無向網(wǎng)絡(luò)中心性偏低。在α+β結(jié)構(gòu)中,α螺旋/彎曲偏好(1)、β結(jié)構(gòu)的周圍疏水性(10)的線性無向網(wǎng)絡(luò)中心性偏低,(5)的線性無向網(wǎng)絡(luò)中心性偏低,而非線性無向網(wǎng)絡(luò)中心性偏高,側(cè)鏈大小(2)、擴(kuò)展結(jié)構(gòu)偏好(3)、疏水性(4)、平面擴(kuò)展偏好(7)、解離常數(shù)(9)的無向網(wǎng)絡(luò)中心性偏高。α/β結(jié)構(gòu)中,α螺旋/彎曲偏好(1)、擴(kuò)展結(jié)構(gòu)偏好(3)的無向網(wǎng)絡(luò)中心性偏低,而有向網(wǎng)絡(luò)中心性偏高,側(cè)鏈大小(2)、氨基酸構(gòu)成(6)、解離常數(shù)(9)的無向網(wǎng)絡(luò)中心性偏高。
經(jīng)過上述分析發(fā)現(xiàn)α結(jié)構(gòu)類的α螺旋/彎曲偏好(1)與其它屬性的對(duì)稱關(guān)系較強(qiáng),疏水性(4)的線性對(duì)稱和非對(duì)稱關(guān)系較強(qiáng),非線性關(guān)系較弱,而擴(kuò)展結(jié)構(gòu)偏好(3)、雙彎曲偏好(5)、氨基酸構(gòu)成(6)的線性對(duì)稱關(guān)系較弱。β結(jié)構(gòu)類的α螺旋/彎曲偏好(1)、疏水性(4)對(duì)稱關(guān)系較強(qiáng),而氨基酸構(gòu)成(6)的非對(duì)稱關(guān)系較強(qiáng)?;旌辖Y(jié)構(gòu)類中氨基酸構(gòu)成(6)的對(duì)稱和非對(duì)稱關(guān)系均較強(qiáng),α螺旋/彎曲偏好(1)的線性對(duì)稱關(guān)系較弱。
通過計(jì)算蛋白質(zhì)序列特征之間的無向和有向關(guān)系,建立蛋白質(zhì)特征加權(quán)網(wǎng)絡(luò),并利用網(wǎng)絡(luò)中心性算法來探索不同蛋白質(zhì)結(jié)構(gòu)類型的差異。不同于以往的蛋白質(zhì)結(jié)構(gòu)研究,網(wǎng)絡(luò)中心性的結(jié)果可以推斷出具體的氨基酸特征和物理屬性對(duì)不同蛋白質(zhì)結(jié)構(gòu)類型的影響,研究結(jié)果對(duì)蛋白質(zhì)二級(jí)結(jié)構(gòu)的分類和預(yù)測(cè)研究具有參考和指導(dǎo)意義。
通過提取蛋白質(zhì)序列的氨基構(gòu)成和排序,以及重要物理屬性,每個(gè)蛋白質(zhì)序列對(duì)應(yīng)一個(gè)70維特征向量,該向量前60維為自然向量特征,而61-70維為氨基酸的10種重要物理屬性平均值。為了減小蛋白質(zhì)順序?qū)μ卣餍蛄兄g關(guān)系的影響,我們對(duì)蛋白質(zhì)特征序列進(jìn)行隨機(jī)亂序處理,而網(wǎng)絡(luò)中心性結(jié)果的平均標(biāo)準(zhǔn)差驗(yàn)證了隨機(jī)亂序后結(jié)果的魯棒性。在三種關(guān)系矩陣計(jì)算方法中,互相關(guān)系數(shù)和標(biāo)準(zhǔn)化互信息分別衡量了序列特征之間的線性和非線性關(guān)系,兩者均為對(duì)稱關(guān)系,而傳遞熵則度量了特征序列之間的有向信息傳遞?;ハ嚓P(guān)系數(shù)和標(biāo)準(zhǔn)化互信息所描述的對(duì)稱關(guān)系,可以看成一種確定性的對(duì)稱關(guān)系,例如,一個(gè)序列X與它自身的互相關(guān)系數(shù)和標(biāo)準(zhǔn)化互信息均為1,表明X與它自己之間具有很強(qiáng)的確定性的對(duì)稱關(guān)系;而X與它自身之間的傳遞熵為0,也驗(yàn)證了X與它自身之間的確定性關(guān)系。而在線性回歸模型中,若一個(gè)序列X的線性回歸方程中含有另一個(gè)序列Y的時(shí)滯向量,則從Y到X的傳遞熵為正,而互相關(guān)系數(shù)和標(biāo)準(zhǔn)化互信息均為0,這表明Y到X之間具有有向的信息傳遞,而由于回歸方程中誤差項(xiàng)的存在,導(dǎo)致Y對(duì)X的影響具有非確定性[32-33]。因此,互相關(guān)系數(shù)、標(biāo)準(zhǔn)化互信息和傳遞熵這三種方法的取值之間是相互獨(dú)立的。
在網(wǎng)絡(luò)中心性計(jì)算中,中心性度量網(wǎng)絡(luò)節(jié)點(diǎn)的重要性,其具體數(shù)值并不重要,重要的是同一網(wǎng)絡(luò)中不同節(jié)點(diǎn)的中心性之間的高低比較。在無向網(wǎng)絡(luò)中,節(jié)點(diǎn)的中心性高表明該節(jié)點(diǎn)所代表的特征與同一網(wǎng)絡(luò)中其它特征之間的對(duì)稱關(guān)系較強(qiáng);而在有向網(wǎng)絡(luò)中,節(jié)點(diǎn)的中心性高則表明該特征與同一網(wǎng)絡(luò)的其它特征之間非對(duì)稱關(guān)系較強(qiáng)。
通過分析70維融合特征向量,我們發(fā)現(xiàn)不同蛋白質(zhì)結(jié)構(gòu)類型的共性主要體現(xiàn)在自然向量特征上,其中不帶電荷的極性半胱氨酸(C)、非極性色氨酸(W)、帶正電荷組氨酸(H)、非極性甲硫氨酸(M)的構(gòu)成和排序與其它氨基酸的特征之間具有較弱的對(duì)稱和較強(qiáng)的非對(duì)稱關(guān)系(即不確定性復(fù)雜相互作用),而非極性色氨酸(A)、帶負(fù)電荷的天冬氨酸(D)、非極性亮氨酸(L)和非極性纈氨酸(V)的構(gòu)成和排序與其它氨基酸的特征之間具有較強(qiáng)的對(duì)稱關(guān)系和較弱的非對(duì)稱關(guān)系,這是CATH和SCOP的所有主要結(jié)構(gòu)類的共同特征,與不同結(jié)構(gòu)的選擇無關(guān)。從氨基酸極性角度觀察,α結(jié)構(gòu)類的特征主要體現(xiàn)在非極性脯氨酸(P)和極性天冬酰胺(N)上,而β結(jié)構(gòu)類的特征主要體現(xiàn)在不帶電的極性氨基酸上,例如蘇氨酸(T)和甘氨酸(G),其中α與β結(jié)構(gòu)的差異則體現(xiàn)在絲氨酸(S)、蘇氨酸(T)、甘氨酸(G)等氨基酸與其它氨基酸特征之間關(guān)系的強(qiáng)弱,以及氨基酸物理屬性之間關(guān)系的強(qiáng)弱上。從70維融合特征向量的中心性分布中可以看出,氨基酸的物理屬性中心性對(duì)不同蛋白質(zhì)結(jié)構(gòu)類型的分布差異較大,而氨基酸的構(gòu)成和排序特征中心性對(duì)不同結(jié)構(gòu)類型的分布存在一定差異但幅度較小。我們可以推斷氨基酸的物理屬性對(duì)區(qū)分不同結(jié)構(gòu)類型影響較大。
分析了不同結(jié)構(gòu)類對(duì)應(yīng)的重要氨基酸和物理屬性特征,總結(jié)了不同蛋白質(zhì)結(jié)構(gòu)類在序列特征關(guān)系上的異同。通過考慮不同結(jié)構(gòu)類型的序列特征差異,有助于開發(fā)新的蛋白質(zhì)結(jié)構(gòu)分類和預(yù)測(cè)算法,本研究所使用的復(fù)雜網(wǎng)絡(luò)方法還可用于進(jìn)化分類或更深層次結(jié)構(gòu)分類的研究,對(duì)蛋白質(zhì)結(jié)構(gòu)的研究和發(fā)展具有重要意義。
通過對(duì)不同結(jié)構(gòu)類型的蛋白質(zhì)序列特征進(jìn)行網(wǎng)絡(luò)建模,發(fā)現(xiàn)了不同結(jié)構(gòu)類型對(duì)應(yīng)序列特征之間的關(guān)系的共性和差異。研究發(fā)現(xiàn),CATH和SCOP的主要結(jié)構(gòu)類型均在半胱氨酸(C)、色氨酸(W)、組氨酸(H)和甲硫氨酸(M)的構(gòu)成和排序上具有較弱的對(duì)稱和較強(qiáng)的非對(duì)稱關(guān)系,而在丙氨酸(A)、天冬氨酸(D)、亮氨酸(L)和纈氨酸(V)的構(gòu)成和排序上具有較強(qiáng)的對(duì)稱和較弱的非對(duì)稱關(guān)系,這種共性可能與蛋白質(zhì)結(jié)構(gòu)類型的選擇無關(guān);而α與β結(jié)構(gòu)的差異則體現(xiàn)在絲氨酸(S)、蘇氨酸(T)、甘氨酸(G)以及氨基酸物理屬性等特征關(guān)系的強(qiáng)弱上。