陳若雷,王科俊,賀波,馮偉興
(哈爾濱工程大學(xué) 自動(dòng)化學(xué)院,黑龍江 哈爾濱 150001)
功能的重要性使得準(zhǔn)確識別固有不規(guī)則蛋白質(zhì)(intrinsically disordered proteins,IDPs)成為目前的研究熱點(diǎn)之一[1-2].已公布的IDPs預(yù)測模型主要針對長的不規(guī)則區(qū)域(long disordered regions,LDRs)進(jìn)行預(yù)測,對于短的不規(guī)則結(jié)構(gòu)區(qū)域(short disordered regions,SDRs)的預(yù)測精度較低[3-4].這主要有 2 個(gè)原因:1)LDRs與SDRs含有不同的氨基酸組成,利用固定尺度分析IDPs特征不能全面的涵蓋不同長度不規(guī)則結(jié)構(gòu)區(qū)域的信息,造成預(yù)測精度降低[5-6];2)SDRs的氨基酸序列較短,包含的信息量較少,為構(gòu)建特征向量增添了困難[7].
為了有效地解決這一問題,多模型融合成為IDPs預(yù)測領(lǐng)域的一個(gè)具有重要意義的研究方向[8].針對LDRs與SDRs序列特點(diǎn),構(gòu)建不同尺度的基預(yù)測模型,為了保證這些基模型集成后能夠獲得更全面的信息涵蓋量,采用雙錯(cuò)測度法進(jìn)行基模型間差異度的度量,挑選出具有較大差異度的基模型進(jìn)行集成,建立IDPs集成預(yù)測模型.通過一個(gè)系數(shù),將集成預(yù)測模型的輸出結(jié)果與窗口中心三肽氨基酸形成不規(guī)則結(jié)構(gòu)的統(tǒng)計(jì)概率(disorder probability of central trimer,DPCT)相結(jié)合,作為最終的預(yù)測結(jié)果.
本文實(shí)驗(yàn)所需數(shù)據(jù)分為2部分,規(guī)則蛋白質(zhì)(ordered proteins,OPs)和 IDPs.
OPs來自于PDB數(shù)據(jù)庫.為了保證數(shù)據(jù)的質(zhì)量,需要對數(shù)據(jù)進(jìn)行挑選.本文中OPs的實(shí)驗(yàn)獲取方法為X射線衍射,其清晰度好于2.0?A;為了去除數(shù)據(jù)的冗余性,序列間的相似性小于30%.經(jīng)過處理后,共挑選出829個(gè)OPs.
IDPs來自于Disprot數(shù)據(jù)庫于2011年公布的5.7版.由于目前Disprot數(shù)據(jù)庫包含的IDPs數(shù)目比較少,因此本文選用了5.7版中包含的所有數(shù)據(jù),共計(jì)643 個(gè) IDPs.
IDPs結(jié)構(gòu)預(yù)測模型建模過程如圖1所示.
圖1 IDPs結(jié)構(gòu)集成預(yù)測模型建模Fig.1 Schematic diagramof integrated predictor for IDPs
1.2.1 基模型的建模
采用滑動(dòng)窗口法將待測氨基酸的序列信息引入到IDPs結(jié)構(gòu)預(yù)測系統(tǒng)中.在利用該方法建模中,一個(gè)重要的問題是滑動(dòng)窗口尺度的選擇.為了能夠提取到足夠的特征信息,窗口尺度不宜選擇太小,但為了不在SDRs提取特征時(shí)引入過多的其他結(jié)構(gòu)區(qū)域的信息,窗口尺度也不宜選擇過大.根據(jù)IDPs序列信息的特點(diǎn),本文在基模型設(shè)計(jì)過程中選取的窗口尺度為9~41的所有奇數(shù)值,即共構(gòu)建17個(gè)基模型.
所有的基模型均采用三層BP神經(jīng)網(wǎng)絡(luò)[9]進(jìn)行建模,包括輸入層、隱藏層和輸出層.
對于任意一個(gè)樣本:
輸入:模型的輸入X為樣本的序列信息,即
式中:X的前20維向量代表窗口內(nèi)單肽氨基酸的統(tǒng)計(jì)頻率,接下來的400維向量代表窗口內(nèi)雙肽氨基酸的統(tǒng)計(jì)頻率,最后的3維向量分別代表窗口內(nèi)區(qū)域的平均疏水值、凈電荷數(shù)和序列復(fù)雜度.
輸出:模型的輸出Y為樣本的結(jié)構(gòu),即
基于BP算法的訓(xùn)練過程分2步實(shí)現(xiàn):
1)正向傳播.輸入樣本從輸入層經(jīng)過隱藏層傳向輸出層,計(jì)算公式如下:式中:wi和θ為隱藏層的連接權(quán)值和閾值,f為傳遞函數(shù),O為輸出.計(jì)算網(wǎng)絡(luò)輸出O和期望輸出Y之間的誤差是否達(dá)到期望要求,如果滿足,訓(xùn)練結(jié)束,反之則進(jìn)入反向傳播過程.
2)反向傳播.把誤差信號反向傳回,重新修改連接權(quán)系數(shù),以減小誤差.
基模型建模中的BP算法程序采用R語言實(shí)現(xiàn),網(wǎng)絡(luò)初始權(quán)值和閾值為隨機(jī)獲取,傳遞函數(shù)均為Sigmoid函數(shù).由于隱層單元數(shù)目的選擇會(huì)對基模型的預(yù)測精度產(chǎn)生影響,實(shí)驗(yàn)中需要不斷變化這個(gè)參數(shù),通過訓(xùn)練來選擇使預(yù)測精度最高的參數(shù)值.當(dāng)誤差小于0.000 1或迭代次數(shù)達(dá)到2 000次時(shí),訓(xùn)練結(jié)束.
在測試過程中,對于基模型的輸出結(jié)果,以0.5為分界閾值,即當(dāng)輸出結(jié)果≥0.5時(shí),表示待測氨基酸具有不規(guī)則結(jié)構(gòu),反之,具有規(guī)則結(jié)構(gòu).
1.2.2 集成預(yù)測模型的建模
為了獲取較理想的預(yù)測結(jié)果,客觀上要求構(gòu)造集成預(yù)測模型的基模型間具有相互獨(dú)立性.一般認(rèn)為由泛化能力強(qiáng)、差異性大的基模型構(gòu)造的集成預(yù)測模型具有較好的預(yù)測性能.
集成預(yù)測模型的建模過程分為3步進(jìn)行:
1)基于雙錯(cuò)測度法的基模型間差異度度量.
本文采用雙錯(cuò)測度法[10]對17個(gè)基模型間的差異度進(jìn)行度量.
設(shè)H是包含17個(gè)基模型的原始集合,H={h1,h2,…,h17},其中 hi代表第 i個(gè)基模型,對應(yīng)的窗口尺度為2i+3.
對于H內(nèi)的任意2個(gè)基模型hi和hj來說,它們之間的雙錯(cuò)測度可由下式計(jì)算:式中:a、b、c、d的定義如表1所示.a表示2個(gè)基模型均預(yù)測正確的樣本數(shù),b表示被hi正確預(yù)測但被hj錯(cuò)誤預(yù)測的樣本數(shù),c表示被hi錯(cuò)誤預(yù)測但被hj正確預(yù)測的樣本數(shù),d表示2個(gè)基模型均預(yù)測錯(cuò)誤的樣本數(shù).
表1 基模型間的預(yù)測情況Table 1 Relationships between base predictingmodels
2)基于貪婪算法的基模型前向搜索
對17個(gè)基模型間差異度進(jìn)行度量之后,為了使集成預(yù)測模型具有更好的預(yù)測性能,需要在17個(gè)基模型中挑選出具有較大差異度的基模型進(jìn)行集成.
本文采用貪婪算法進(jìn)行基模型集成后差異度的前向搜索,提出2個(gè)前向搜索準(zhǔn)則:
①對于空集合H',它的前2個(gè)對象選擇依據(jù)是原始集合H中具有最大差異度的2個(gè)基模型;
②此后加入的基模型必須能夠與H'中所有模型的整體差異度最大.
基于貪婪算法的基模型前向搜索過程如下:
①對H中每2個(gè)基模型進(jìn)行差異度度量,取差異度最大的2個(gè)基模型hi和hj作為H'的前2個(gè)基模型.
②計(jì)算H中剩余的每一個(gè)基模型與H'的整體差異度,將獲得最大差異度的hk作為H'的第3個(gè)基模型.
整體差異度為H'中不同基模型間雙錯(cuò)測度的平均:
式中:L為S'中包含的所有基模型的數(shù)目.
③再將H中剩余的基模型與H'進(jìn)行整體差異度度量,按照②中方法依次選擇H'的每一個(gè)基模型,直到H中所有基模型都按整體差異度由大到小的順序排列完畢為止.
經(jīng)過上述搜索過程,H'為將17個(gè)基模型按照基模型間整體差異度從大到小排列后得到的集合.
3)集成預(yù)測模型的設(shè)計(jì).
分別選用H'中前5~17個(gè)基模型進(jìn)行融合,建立基于支持向量機(jī)(SVM)[11-12]的IDPs集成預(yù)測模型.
IDPs集成預(yù)測模型的建模過程如下:
對于任意一個(gè)訓(xùn)練樣本 (xi,yi),(i=1,2,…,n),n為訓(xùn)練樣本個(gè)數(shù),集成預(yù)測模型的輸入xi為用于集成的基模型的輸出,即 xi=[O1,O2,…,Ol],其中l(wèi)表示集成的基模型的數(shù)目;輸出yi對應(yīng)的是訓(xùn)練樣本的結(jié)構(gòu),1表示不規(guī)則結(jié)構(gòu),-1表示規(guī)則結(jié)構(gòu).
利用SVM進(jìn)行IDPs結(jié)構(gòu)集成預(yù)測模型的建模過程中,核函數(shù)采用如下所示的徑向基核函數(shù):
K(x,xi)=exp(- γ‖x-xi‖2),γ > 0.(4)最后得到的決策函數(shù)為
式中:αi
*≥0為拉格朗日乘子,b*是分類閾值.對于支持向量機(jī)模型,其錯(cuò)分樣本懲罰程度C和徑向基核函數(shù)的參數(shù)γ是決定預(yù)測模型性能的2個(gè)主要參數(shù).在建模過程中,需要不斷試驗(yàn)基于2個(gè)參數(shù)的不同組合的預(yù)測模型的預(yù)測性能.通過訓(xùn)練來選擇預(yù)測精度最高的參數(shù)值,并作為集成預(yù)測模型的參數(shù).
SVm算法采用 R 語言編寫,C=10,γ=0.1.
1.2.3 結(jié)合模型的建模
利用區(qū)域內(nèi)的平均信息來表達(dá)待預(yù)測氨基酸的特征,弱化了待測氨基酸的個(gè)性,為此,本文將DPCT引入到IDPs預(yù)測模型的設(shè)計(jì)中,通過一個(gè)組合系數(shù)α將其與上面的預(yù)測結(jié)果相結(jié)合,輸出最終的預(yù)測結(jié)果[13].
1)計(jì)算DPCT
由于組成蛋白質(zhì)的氨基酸有20種,因此形成三肽氨基酸組合為8 000種=8 000).DPCT的具體計(jì)算過程如下.
①分別統(tǒng)計(jì)第i種三肽氨基酸T(i)在OPs和IDPs中出現(xiàn)的次數(shù),記為Co(T(i))和Cd(T(i)),其中,Co(T(i))表示T(i)在OPs中出現(xiàn)的次數(shù),Cd(T(i))表示T(i)在IDPs中出現(xiàn)的次數(shù),i=1,2,…,8 000.
②通過計(jì)算T(i)在IDPs和OPs中出現(xiàn)次數(shù)的比率來估計(jì)T(i)形成不規(guī)則結(jié)構(gòu)的統(tǒng)計(jì)概率P,計(jì)算公式如下:
在實(shí)際建模中發(fā)現(xiàn),由于目前已知的IDPs數(shù)量較少,而 OPs數(shù)量較多,從而造成對于任意一個(gè)T(i),Cd(T(i))?Co(T(i)),因此,由式(6)計(jì)算得到的統(tǒng)計(jì)概率值P(T(i))將非常小,這不能反映出T(i)的真實(shí)分布情況.針對這一問題,利用T(i)在OPs和IDPs中出現(xiàn)的頻率fo(T(i))和fd(T(i))代替它在2個(gè)數(shù)據(jù)集中出現(xiàn)的次數(shù),重新估計(jì)該三肽氨基酸形成不規(guī)則結(jié)構(gòu)的統(tǒng)計(jì)概率P(T(i)),于是,式(6)變成如下的形式:
其中,
2)結(jié)合方法
基于支持向量機(jī)的預(yù)測模型輸出為ysvm=[y1_svmy2_svm… yn_svm],其對應(yīng)的DPCT為P=[P(Ti)P(T2) … P(Tn)],IDPs結(jié)合模型的輸出為y=[y1y2… yn],yNN與p間的結(jié)合式如式(8)所示:
式中:α為結(jié)合系數(shù),0<α<1.α需要經(jīng)過反復(fù)試驗(yàn),直到預(yù)測模型達(dá)到最高預(yù)測精度為止.
本文采用IDPs結(jié)構(gòu)預(yù)測領(lǐng)域常用的評價(jià)指標(biāo),即分別計(jì)算每一個(gè)基模型及集成預(yù)測模型的敏感性(SN)、特異性(SP)及整體精度(ACC).為了更直觀地評價(jià)模型對LDRs與SDRs的預(yù)測性能,本文將SN分成SNL和SNS,分別表示對LDRs和SDRs的敏感性.
上述指標(biāo)的計(jì)算公式如下:
式中:YLD表示實(shí)驗(yàn)數(shù)據(jù)與預(yù)測結(jié)果都為LDRs的樣本數(shù)目,YSD表示實(shí)驗(yàn)數(shù)據(jù)與預(yù)測結(jié)果都為SDRs的樣本數(shù)目,NLD和NSD分別表示實(shí)驗(yàn)數(shù)據(jù)集中包含LDRs與SDRs的樣本數(shù)目,YO表示實(shí)驗(yàn)數(shù)據(jù)與預(yù)測結(jié)果都是規(guī)則結(jié)構(gòu)的樣本數(shù)目,NO表示實(shí)驗(yàn)數(shù)據(jù)集中規(guī)則結(jié)構(gòu)的樣本數(shù)目.
本文采用5重交叉驗(yàn)證,即把數(shù)據(jù)集隨機(jī)地分成5組,在每次實(shí)驗(yàn)的時(shí)候,任選4組作為訓(xùn)練集,剩下的一組作為測試集,記錄其結(jié)果.然后取5組測試結(jié)果的平均值作為對應(yīng)預(yù)測模型的預(yù)測結(jié)果.
為了更全面的涵蓋LDRs與SDRs的特征信息,共建立了17個(gè)基預(yù)測模型,對應(yīng)的窗口尺度為9~41.基模型的預(yù)測結(jié)果如表2.
表2 基模型預(yù)測結(jié)果Table 2 Predicting result of basemodels
表2表明了17個(gè)基模型的預(yù)測結(jié)果.從表2中可以看出,對于SNL和SP,隨著窗口尺度的增加,基模型的預(yù)測精度呈現(xiàn)出上升的趨勢,這說明對于LDRs和OPs的預(yù)測,大的窗口尺度能為IDPs預(yù)測建模提供更多的信息,進(jìn)而提高預(yù)測模型的預(yù)測精度.對于SNS,基模型的預(yù)測精度沒有隨窗口尺度的增加而增加,相反在窗口尺度大于21時(shí),基模型的預(yù)測精度隨窗口尺度的增加而呈現(xiàn)下降趨勢,這表明過大的窗口尺度不利于SDRs的特征提取,從而降低了SDRs的預(yù)測精度.
為了使集成預(yù)測模型能夠獲得更強(qiáng)的泛化能力,提高集成預(yù)測模型的性能,本文利用雙錯(cuò)測度法對基模型間的差異度進(jìn)行了度量,并提出了2個(gè)基于貪婪算法的基模型前向搜索準(zhǔn)則.按照基模型間整體差異度從大到小的順序?qū)?7個(gè)基模型進(jìn)行了重新排列,排列后的基模型結(jié)果及其整體差異度如表3所示.
表3表明了17個(gè)基模型間整體雙錯(cuò)測度的度量結(jié)果,其中,基模型按照集成后整體雙錯(cuò)測度從小到大的順序排列,DF(i)代表i個(gè)基模型的整體雙錯(cuò)測度.從表3中可以看出,隨著基模型數(shù)目的增加,集成預(yù)測模型的整體雙錯(cuò)測度呈現(xiàn)上升的趨勢,即基模型間的差異度呈現(xiàn)下降的趨勢.這表明本文提出的前向搜索準(zhǔn)則能夠準(zhǔn)確有效地對基模型間的整體差異度進(jìn)行排列,為基模型的融合提供依據(jù).
表3 基模型間雙錯(cuò)測度度量結(jié)果Table 3 Result of double faultmeasure among base predictingmodels
為了使IDPs集成預(yù)測模型具有更好的預(yù)測性能,分別選用H'中前5~17個(gè)基模型進(jìn)行集成,總計(jì)構(gòu)建了7個(gè)IDPs集成預(yù)測模型.7個(gè)集成預(yù)測模型與17個(gè)基模型的預(yù)測性能的對比結(jié)果如圖2所示.
圖2 基模型與集成預(yù)測模型的預(yù)測結(jié)果Fig.2 Predicting results of basemodels and integrated models
圖2表明了17個(gè)基模型與7個(gè)集成預(yù)測模型的預(yù)測性能,其中橫坐標(biāo)為基模型或集成預(yù)測模型的名稱,縱坐標(biāo)為相應(yīng)的預(yù)測性能,hi代表第i個(gè)基模型,si代表集成i個(gè)基模型的IDPs集成預(yù)測模型.從圖2中可以看出,與基模型的預(yù)測結(jié)果相比,集成預(yù)測模型的SNL、SNS、SP和 ACC均有所提高,SNS尤其能夠大幅提高.這表明本文建立的多尺度基模型之間具有較大的差異性,能夠同時(shí)兼顧LDRs與SDRs的特征,將這些模型的輸出結(jié)果融合起來能夠提高IDPs的預(yù)測精度.
從圖2中還可以看出,對于集成預(yù)測模型,集成預(yù)測模型的性能隨著融合的基模型間差異度的減小而降低.這表明以雙錯(cuò)測度度量基模型間差異度的方法對于提高集成預(yù)測模型的性能是有利的.利用較大差異性的基模型進(jìn)行融合能夠取得更好的預(yù)測性能,這主要是因?yàn)楦鱾€(gè)基模型間存在互補(bǔ)性,即一個(gè)基模型預(yù)測錯(cuò)的結(jié)果可能被其他基模型預(yù)測對,最終輸出正確的結(jié)果.本文在構(gòu)建集成預(yù)測模型時(shí),首先對基模型進(jìn)行了差異性度量,因此在用前幾個(gè)基模型進(jìn)行融合時(shí),基模型間的互補(bǔ)性增強(qiáng),所以預(yù)測性能得到提高.而后加入的基模型與現(xiàn)有基模型間的差異度減少,導(dǎo)致在集成預(yù)測模型后期,整體預(yù)測精度沒有上升,反而下降.
本文將7個(gè)集成預(yù)測模型的預(yù)測結(jié)果分別與其相應(yīng)DPCT進(jìn)行結(jié)合,最終的預(yù)測結(jié)果如圖3所示.
從圖3可以看出,結(jié)合DPCT后的IDPs預(yù)測模型取得了更高的預(yù)測精度,這說明本文提出的方法是有效的,集成預(yù)測模型能夠?yàn)榇郎y氨基酸提供其所處區(qū)域內(nèi)的平均特征,而DPCT能夠提供待測氨基酸的種類、相互間的作用等信息,在考慮全局信息的基礎(chǔ)上,強(qiáng)化了待測氨基酸的個(gè)性.
圖3 IDPs預(yù)測結(jié)果的對比Fig.3 Comparison of predicting results for IDPs
根據(jù)IDPs結(jié)構(gòu)預(yù)測特點(diǎn),建立了基于不同尺度的IDPs結(jié)構(gòu)預(yù)測基模型,為了使基模型間能夠具有更強(qiáng)的泛化能力,去除冗余信息,本文利用雙錯(cuò)測度法對基模型間的差異度進(jìn)行了度量,目的是挑選出具有較大的差異的基模型進(jìn)行集成,本文提出一個(gè)新的特征參數(shù)——DPCT,將集成模型的輸出與其相應(yīng)的DPCT結(jié)合,作為最終的預(yù)測結(jié)果.實(shí)驗(yàn)結(jié)果證明了本文提出的方法是有效的,在考慮全局信息的基礎(chǔ)上,強(qiáng)化了待測氨基酸的個(gè)性,提高了IDPs結(jié)構(gòu)預(yù)測精度.
但是,由于對IDPs的結(jié)構(gòu)特征信息認(rèn)識還不夠深入全面,預(yù)測方法的精度還有待進(jìn)一步提高.下一步的工作將重點(diǎn)研究不同長度不規(guī)則結(jié)構(gòu)區(qū)域的結(jié)構(gòu)特征,構(gòu)建具有更大差異性的基模型,并探尋有效的智能算法融合基模型,以期獲得更為精準(zhǔn)的IDPs結(jié)構(gòu)預(yù)測模型.
[1]DUNKER A K,LAWSON JD,BROWN C J,et al.Intrinsically disordered protein[J].JMol Graph Model,2001,19(1):26-59.
[2]TOMPA P.Intrinsically unstructured proteins[J].Trends BiochemSci,2002,27(10):527-533.
[3]HE B,WANG K,LIU Y,etal.Predicting intrinsic disorder in proteins:an overview[J].Cell Res,2009,19(8):929-949.
[4]黃永棋,劉志榮.天然無序蛋白質(zhì):序列-結(jié)構(gòu)-功能的新關(guān)系[J].物理化學(xué)學(xué)報(bào),2010,26(8):2061-2072.HUANG Yongqi,LIU Zhirong.Intrinsically disordered proteins:the new[J].Acta Phys ChimSin,2010,26(8):2061-2072.
[5]OBRADOVIC Z,PENG K,VUCETIC S,et al.Exploiting heterogeneous sequence properties improves prediction of protein disorder[J].Proteins,2005,61(s7):176-182.
[6]PENG K,RADIVOJAC P,VUCETIC S,et al.Length-dependent prediction of protein intrinsic disorder[J].BMC Bioinformatics,2006,7:208.
[7]YANG mQ,YANG J Y.IUP:intrinsically unstructured protein predictor-a software tool for analyzing polypeptide sequences[C]//BIBE 2006.Arlington,USA,2006:1-11.
[8]CHEN R,WANG K,HE B,et al.Predicting intrinsically disordered proteins based on multi-scale characteristics fusion[C]//BMEI 2011.Shanghai,China,2011:1588-1591.
[9]HORNIK K M,STINCHOMBE M,WHITE H.Multilayer feed forward networks are universal approximators[J].Neural Networks,1989,2(5):359-366.
[10]KUNCHEVA L I,WHITAKER C J.Measures of diversity in classifier ensembles and their relationshipwith the ensemble accuracy[J].Machine Learning,2003,51(2):181-207.
[11]邊肇祺,張學(xué)工.模式識別[M].2版.北京:清華大學(xué)出版社,2000:296-302.
[12]何世釗,楊宣訪,陳曉娟.支持向量機(jī)與BP網(wǎng)絡(luò)在火災(zāi)圖像探測上的比較[J].智能系統(tǒng)學(xué)報(bào),2011,6(4):339-434.HE Shizhao,YANG Xuanfang,CHEN Xiaojuan.Comparisons between a support vectormachine and Bpneural network for video image fire de tection[J].CAAI Transactions on Intelligent Systems,2011,6(4):339-343.
[13]賀波,王科俊,馮偉興,等.結(jié)合中心氨基酸組成成分預(yù)測固有不規(guī)則蛋白質(zhì)[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(2):133-134.HE Bo,WANG Kejun,F(xiàn)ENGWeixing,et al.Predicting intrinsically disordered proteins by using central amino acid compositions[J].Computer Engineering and Applications,2012,48(2):133-134.