摘要:基于氨基酸一級(jí)序列,應(yīng)用離散增量的方法識(shí)別ArchDB數(shù)據(jù)庫(kù)中的6 100個(gè)β發(fā)夾模體和2 701個(gè)非β發(fā)夾模體。模體按照二級(jí)結(jié)構(gòu)中無(wú)規(guī)卷曲的長(zhǎng)進(jìn)行分類得到“07232”、“07322”、“09432”、“09522”、“13643”、“13733”、“13832”、“13922”型。以氨基酸和氨基酸緊鄰關(guān)聯(lián)為參量,利用10-fold交叉檢驗(yàn)的方法進(jìn)行檢驗(yàn),平均識(shí)別精度均達(dá)到75.0%和83.0%以上。以氨基酸親疏水性和親疏水緊鄰關(guān)聯(lián)為參量進(jìn)行檢驗(yàn),平均識(shí)別精度有所降低。
關(guān)鍵詞:β發(fā)夾模體;離散增量;離散量
中圖分類號(hào):Q51 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):0439-8114(2013)23-5898-04
目前測(cè)定蛋白質(zhì)空間結(jié)構(gòu)不但需要較多的經(jīng)費(fèi),而且周期較長(zhǎng),使得已知結(jié)構(gòu)的蛋白質(zhì)數(shù)量難以適應(yīng)急劇增加的蛋白質(zhì)序列數(shù)量。如何從這些已有的蛋白質(zhì)序列的數(shù)據(jù)出發(fā),用理論的方法預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)和功能,已成為生物學(xué)領(lǐng)域的一個(gè)重要目標(biāo)。超二級(jí)結(jié)構(gòu)預(yù)測(cè)是三級(jí)結(jié)構(gòu)預(yù)測(cè)的關(guān)鍵一步,近年來(lái),對(duì)這方面的研究進(jìn)一步深入。Sun等[1]利用統(tǒng)計(jì)的方法對(duì)240個(gè)蛋白質(zhì)進(jìn)行了研究,得到了常見(jiàn)的11種蛋白質(zhì)超二級(jí)結(jié)構(gòu)形式。研究者利用人工神經(jīng)網(wǎng)絡(luò)法、得分法、支持向量機(jī)法、矩陣打分法對(duì)β發(fā)夾進(jìn)行了研究[2-6]。一系列的研究表明,超二級(jí)結(jié)構(gòu)預(yù)測(cè)主要針對(duì)全部超二級(jí)結(jié)構(gòu)類型和特殊結(jié)構(gòu)模體β發(fā)夾的預(yù)測(cè)。β發(fā)夾是1個(gè)簡(jiǎn)單的超二級(jí)結(jié)構(gòu)類型,廣泛存在于球蛋白結(jié)構(gòu)中。若1個(gè)連接多肽(loop)連接2個(gè)折疊(Strand),而且2個(gè)折疊之間有一個(gè)或多個(gè)氫鍵,稱此模體為β發(fā)夾。
本研究選取序列相似性低于40%的3 088個(gè)蛋白質(zhì),應(yīng)用無(wú)需記憶的統(tǒng)計(jì)方法——離散增量法對(duì)β發(fā)夾模體和非β發(fā)夾模體進(jìn)行了識(shí)別,以期為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)提供參考。
1 數(shù)據(jù)和方法
1.1 數(shù)據(jù)
本研究使用的數(shù)據(jù)來(lái)自ArchDB(http://sbi.imim.es/cgi-bin/archdb/loops.pl)數(shù)據(jù)庫(kù)中ArchDB40子庫(kù),包含序列相似性低于40%的3 088個(gè)蛋白質(zhì),按照二級(jí)結(jié)構(gòu)中無(wú)規(guī)卷曲(Coil)的長(zhǎng)進(jìn)行統(tǒng)計(jì),得到β發(fā)夾模體6 100個(gè),非β發(fā)夾模體2 701個(gè)。由于每個(gè)模體序列的長(zhǎng)度有所差別,為保證計(jì)算過(guò)程中氨基酸結(jié)構(gòu)信息更好的進(jìn)入序列,對(duì)每個(gè)模體按照不同的無(wú)規(guī)卷曲長(zhǎng)分別選取了不同的固定序列模式長(zhǎng)來(lái)進(jìn)行計(jì)算。選取了“07232”、“07322”、“09432”、“09522”、“13643”、“13733”、“13832”、“13922”型序列模式。每種序列模式的前兩位數(shù)代表所選取的模體的固定序列長(zhǎng),第三個(gè)數(shù)字代表模體與二級(jí)結(jié)構(gòu)無(wú)規(guī)卷曲相對(duì)應(yīng)選取的連續(xù)氨基酸殘基數(shù),第四、五個(gè)數(shù)字代表模體與無(wú)規(guī)卷曲相對(duì)應(yīng)的N、C端所選取的連續(xù)氨基酸殘基數(shù)。如“07232”型中的“07”代表序列固定模式長(zhǎng)為7,數(shù)字“2”代表模體對(duì)應(yīng)的無(wú)規(guī)卷曲長(zhǎng)為2,數(shù)字“3、2”代表模體與無(wú)規(guī)卷曲相對(duì)應(yīng)的N端、C端相連接部分所選取的連續(xù)氨基酸殘基數(shù)。序列模式的選取分以下3步(計(jì)每種序列模式為“XYZMN”):
1)無(wú)規(guī)卷曲長(zhǎng)Z為奇數(shù)時(shí),則無(wú)規(guī)卷曲N端、C端各取連續(xù)的氨基酸殘基數(shù)均為(XY-Z)/2。
2)無(wú)規(guī)卷曲長(zhǎng)Z為偶數(shù)時(shí),則無(wú)規(guī)卷曲N端、C端各取連續(xù)的氨基酸殘基數(shù)分別為(XY-Z+1)/2和(XY-Z-1)/2。
3)無(wú)規(guī)卷曲N端、C端連續(xù)的氨基酸殘基數(shù)若不足時(shí),以空位(*)代替缺少的殘基(每個(gè)空位代替1個(gè)氨基酸殘基)。
1.2 方法
2 結(jié)果與分析
2.1 以氨基酸和氨基酸緊鄰關(guān)聯(lián)為參量的預(yù)測(cè)結(jié)果
以氨基酸和氨基酸緊鄰關(guān)聯(lián)為參量,應(yīng)用離散增量的方法進(jìn)行計(jì)算,不同固定序列模式長(zhǎng)的識(shí)別結(jié)果見(jiàn)表1和表2。
從表1和表2可知,以氨基酸為參量時(shí),“07322”型的平均識(shí)別精度(Acc)比“07232”型低0.2個(gè)百分點(diǎn);“09522”型的平均識(shí)別精度比“09432”型高6.3個(gè)百分點(diǎn);“13922”型的平均識(shí)別精度比“13643”型高16.0個(gè)百分點(diǎn)。以氨基酸緊鄰關(guān)聯(lián)為參量時(shí),“07322”型的平均識(shí)別精度比“07232”型高14.0個(gè)百分點(diǎn);“09522”型的平均識(shí)別精度比“09432”型高2.2個(gè)百分點(diǎn);“13922”型的平均識(shí)別精度比“13643”型高6.4個(gè)百分點(diǎn)。這說(shuō)明與無(wú)規(guī)卷曲的N端和C端相連接的2個(gè)氨基酸殘基具有重要的結(jié)構(gòu)信息和較好的保守性,能準(zhǔn)確提供結(jié)構(gòu)預(yù)測(cè)所需信息,同時(shí)反映出固定序列模式長(zhǎng)的選擇與識(shí)別精度密切相關(guān)。比較表1和表2的識(shí)別結(jié)果,以氨基酸為參量的識(shí)別結(jié)果達(dá)到75.0%以上,相關(guān)系數(shù)達(dá)到0.40以上;以氨基酸緊鄰關(guān)聯(lián)為參量的識(shí)別結(jié)果達(dá)到83.0%以上,相關(guān)系數(shù)達(dá)到0.50以上。即以氨基酸緊鄰關(guān)聯(lián)為參量的識(shí)別結(jié)果明顯優(yōu)于氨基酸參量。這說(shuō)明對(duì)于離散增量算法來(lái)說(shuō),參量的選擇至關(guān)重要。
這種按照不同無(wú)規(guī)卷曲的長(zhǎng)分別進(jìn)行計(jì)算,對(duì)識(shí)別序列產(chǎn)生了一定的局限性,為改變這種局面,將“07232”和“07322”合并為一類,記為“07”型;“09432”和“09522”合并為“09”型;“13643”、“13733”、“13832”和“13922”合并為“13”型,分別以氨基酸和氨基酸緊鄰關(guān)聯(lián)為參量,識(shí)別結(jié)果如表3所示。
比較表3中2種參量的識(shí)別結(jié)果,β發(fā)夾的特異性均好于敏感性,以氨基酸為參量時(shí),平均識(shí)別精度最高達(dá)到77.5%,相關(guān)系數(shù)最高為0.53;而以氨基酸緊鄰關(guān)聯(lián)為參量的平均識(shí)別精度最高為97.0%,相關(guān)系數(shù)達(dá)到0.60以上。結(jié)合表1和表2中的數(shù)據(jù)分析表明,不同的固定序列模式長(zhǎng)和參量的選取與識(shí)別精度密切相關(guān)。
2.2 選取不同參量的計(jì)算結(jié)果比較
為更加明確地體現(xiàn)參量的選取與識(shí)別精度的關(guān)聯(lián),選取以氨基酸親疏水性[7](6個(gè)參量加1個(gè)空位)的7個(gè)參量和氨基酸親疏水緊鄰關(guān)聯(lián)的49個(gè)參量,分別運(yùn)用離散增量的方法進(jìn)行計(jì)算,結(jié)果如表4和表5所示。
從表4和表5的結(jié)果可以看出,總體上各種模式的平均識(shí)別精度低于氨基酸和氨基酸緊鄰關(guān)聯(lián)為參量的結(jié)果。以親疏水緊鄰關(guān)聯(lián)為參量的識(shí)別結(jié)果好于以親疏水為參量的識(shí)別結(jié)果,平均識(shí)別精度基本在72.0%以上,相關(guān)系數(shù)均在0.4以上,其中“13832”和“13922”型模式的平均識(shí)別精度相對(duì)較好,與以氨基酸和氨基酸緊鄰關(guān)聯(lián)為參量的識(shí)別結(jié)果具有相似的規(guī)律。
3 小結(jié)與討論
本研究結(jié)果表明,以氨基酸為參量的平均識(shí)別精度低于氨基酸緊鄰關(guān)聯(lián)為參量的結(jié)果;以氨基酸親疏水為參量的平均識(shí)別精度低于氨基酸親疏水緊鄰關(guān)聯(lián)為參量的結(jié)果。而“13832”和“13922”型模式在4種參量下的平均識(shí)別精度優(yōu)于其他模式。這表明,氨基酸序列包含重要的結(jié)構(gòu)信息,運(yùn)用離散增量算法,固定序列模式長(zhǎng)的選取和參量的選擇是檢驗(yàn)識(shí)別結(jié)果的關(guān)鍵,對(duì)識(shí)別結(jié)果有著一定的影響。適合參量的運(yùn)用,將會(huì)有效提高識(shí)別精度。
Kuhn等[4]、Kumar等[5]采用需要記憶的人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)的方法,選取14種參量或通過(guò)引入進(jìn)化信息識(shí)別了β發(fā)夾,識(shí)別中運(yùn)算的次數(shù)要遠(yuǎn)遠(yuǎn)高于本研究所用的分類策略。本研究中雖然以氨基酸為參量的識(shí)別結(jié)果大多低于Kumar等[5]的研究結(jié)果,但以氨基酸緊鄰關(guān)聯(lián)為參量的識(shí)別結(jié)果卻好于Kumar等[5]的研究結(jié)果。本研究中對(duì)模式長(zhǎng)的選取相對(duì)于Kumar等[5]的研究來(lái)說(shuō)雖具有一定的局限性,但識(shí)別原理和運(yùn)算過(guò)程卻較為簡(jiǎn)單快捷。
參考文獻(xiàn):
[1] SUN Z R, JING B. Patterns and conformations of commonly occurring supersecondary structures(basic motifs) in protein data bank[J].Journal of Protein Chemistry,1996,15(7):675-690.
[2] SUN Z, RAO X, PENG L, et al. Prediction of protein supersecondary structures based on artificial neural network method[J].Protein Engineering,1997,10(7):763-769.
[3] DE LA CRUZ X, HUTCHINSON E G, SHEPHERD A, et al. Toward predicting protein topology: An approach to identifying β hairpins[J]. Proc Natl Acad Sci USA,2002,99(17):11157-11162.
[4] KUHN M, MEILER J, BAKER D. Strand-loop-strand motifs: Prediction of hairpins and diverging turns in proteins[J].Proteins: Structure, Function, and Bioinformatics,2004,54(2):282-288.
[5] KUMAR M,BHASIN M,NATT N K,et al.BhairPred: Prediction of β-hairpins in a protein from multiple alignment information using ANN and SVM techniques[J].Nucleic Acids Research,2005,33(2):154-159.
[6] 姜 雪,胡秀珍.打分矩陣方法在β-發(fā)夾模體識(shí)別中的應(yīng)用[J].生物信息學(xué),2008,6(4):156-158.
[8] TAYLOR W R.Identification of protein sequence homology consensus template alignment[J]. Journal of Molecular Biology,1986,188(2):233-258.