余健浩,孫廷凱
(南京理工大學 計算機科學與工程學院,江蘇 南京 210094)
三磷酸腺苷(Adenosine 5′?triphosphate,ATP)在分子細胞生物學中扮演著一個重要的角色,如膜運輸、細胞活性、肌肉收縮、信號、復制和轉錄DNA、以及各種代謝過程[1?2]。ATP與蛋白質相互作用是通過蛋白質的ATP綁定位點進行ATP綁定,通過蛋白質?ATP水解提供化學能,利用這種化學能提供動力,蛋白質才能夠執(zhí)行多種生物功能。顯然,ATP需要和蛋白質殘基(即氨基酸,一維結構上即為蛋白質序列中的若干位點)綁定才能在細胞活動中完成各種任務,因此研究預測蛋白質殘基的ATP綁定位點對于人體蛋白質的功能分析顯得尤為重要。此外,蛋白質?ATP綁定位點的準確定位也在化療藥物的研發(fā)設計[2]中表現出比較突出的價值。因此,準確地定位蛋白質?ATP綁定殘基對于人體蛋白質的功能分析和藥物設計都具有非常重要的意義。
目前確定蛋白質?ATP作用綁定殘基的研究已經取得了很大的進展,然而,隨著蛋白質測序技術的飛速發(fā)展,已經積累了大量的蛋白質序列數據未標定,傳統(tǒng)的生物學實驗方法往往遇到實驗密集、昂貴、耗時等問題,因此從蛋白質序列出發(fā)通過智能計算方法[3]預測蛋白質?ATP綁定位點有著迫切的需求。
Nobeli等人最初研究了在鳥嘌呤和腺嘌呤與蛋白質區(qū)別的分子識別方法,開創(chuàng)了用分子識別方法進行鳥嘌呤和腺嘌呤與蛋白質區(qū)別的先河,但是實驗結果并不十分理想[4]。ATPint是最早被提出的專門用于蛋白質?ATP綁定殘基的預測方法[5]。ATPint使用蛋白質序列的位置特異性得分矩陣(Position Specific Scoring Matrix,PSSM)作為基本的特征源。最近,Kurgan等人開發(fā)了兩個更加準確的預測方法分別為ATPsite[6]和NsitePred[7]。其中,ATPsite主要基于序列、進化信息和二級結構的組合方法識別蛋白質?ATP綁定殘基,而NsitePred可以對多種類型的核苷酸進行預測,如二磷酸腺苷(Adenosine diphosphate,ADP)、腺嘌呤核糖核苷酸(Adenosinemo?nophosphate,AMP)等。以上兩種方法均使用的數據為227個非冗余的ATP綁定蛋白質,其較大的數據量有利于較好結果的預測。
從機器學習角度看,蛋白質?ATP綁定位點預測是一個典型的不平衡學習問題[8]。不同類別樣本的數量很明顯不同,比如,ATP227數據,非綁定殘基的數量是綁定殘基的數量的23倍多。不同類別的樣本在不平衡的情況下,直接采用傳統(tǒng)的機器學習算法,即使得到了較高的識別率,但對于樣本數目較少的正類來說,分類效果則未必好。解決不平衡學習的基本方案是改變樣本在不同類別的分布,調整樣本分布[9]。而隨機下采樣是比較常用的調整策略,其做法是從眾多的負類樣本中隨機選取一部分,使正負樣本達到平衡,在此基礎上執(zhí)行傳統(tǒng)的機器學習算法,提高系統(tǒng)的學習效果[10]。
本文研究了蛋白質?ATP綁定位點預測問題,根據機器學習關于可以將分類問題作為回歸問題的特例的觀點出發(fā),并根據所研究問題本身的特點,提出了一種基于隨機下采樣和支持向量回歸的蛋白質?ATP綁定位點預測方法。在標準數據集上的實驗結果以及與幾種最新發(fā)布的預測方法的對比結果,驗證了本文所提出方法的有效性。
本文所采用的數據集來自Chen等提供的227條非冗余的蛋白質序列(簡稱ATP227)[6],其中包含3 393個ATP綁定殘基,80 409個非綁定殘基。從兩個類別樣本的數據數量中明顯可以看出蛋白質?ATP綁定位點預測是一個典型的類別不平衡問題。從相似度角度看,ATP227中任意兩條蛋白質序列的相似度低于40%。為了驗證本文所述方法的泛化能力,使用了一個包含17條蛋白質序列的獨立測試集[7]。該獨立測試集中任意兩條序列的相似性低于40%,并且獨立測試集中任一序列與ATP227中的任一序列的相似性也低于40%。
蛋白質?ATP綁定位點預測問題就是要分清蛋白質序列中,哪些位點的殘基是綁定的,哪些是非綁定的,這是個典型的不平衡二分類問題,其中綁定位點是樣本數目稀少的正類樣本,也是最感興趣的類別,而非綁定位點是樣本數目龐大的負類樣本。
按照機器學習的觀點,可以將分類問題和回歸問題統(tǒng)一起來考慮[11?12]。假設給定一批樣本 (xi,yi),i=1,2,…,n,其中樣本點 xi∈Rd,對于回歸問題,yi∈R ,對于分類的問題,這里yi為離散的類別標號。一方面,把回歸問題轉換為分類問題,相當于將每個yi分別加減一個回歸誤差允許閾值ε,從而得到第一類樣本(xi,yi+ε)和第二類樣本(xi,yi-ε),找到的回歸曲線盡可能地穿過所有原始樣本點,相當于把這兩類樣本正確分開,原始的回歸問題于是轉化為分類問題[11],這種情況是平衡的兩類分類問題。另一方面,分類問題相當于將高維樣本數據 xi∈Rd向離散的類標號 yi=1,2,…,c(而不是連續(xù)的實數)做映射,因此可以將分類看作是回歸的特例,這種情況各類樣本不一定是平衡的,二分類問題也不例外。但是不平衡會影響回歸的精度,舉個極端情況來說,比如正類只有一個樣本,而負類有很多樣本。既然回歸問題的幾何解釋是回歸曲線盡可能靠近所有樣本點,使得總誤差盡可能小,在這種情況下,回歸曲線必然靠近占優(yōu)的負類樣本。因為這種情況下,無論正類樣本還是負類樣本,每個樣本點對于回歸問題具有同等意義的權重,或者說,少數的正類樣本并沒受到足夠的重視。因此,有必要采取措施,使得正負樣本變得均衡。
在蛋白質?ATP綁定位點預測問題中,每個殘基屬于綁定位點還是非綁定位點,不僅僅取決于殘基自身是哪種類型的殘基,更在很大程度上取決于附近的殘基(即上下結構環(huán)境)類型及他們是否是綁定位點,換言之,是否屬于綁定殘基并非是一個0?1二值邏輯,而是有一定的置信水平的。因此,采用支持向量回歸(Sup?port Vector Regression,SVR)的方法,預測某個殘基屬于綁定殘基的置信水平,更接近于問題本身的性質特點,然后選取合適的閾值進行判別,是一個比較合理的方法。基于這種考慮,提出并設計了一個基于支持向量回歸的蛋白質?ATP綁定位點預測方法。首先對樣本進行適當的平衡化處理,在此基礎上,根據上文關于分類和回歸問題關系的分析討論,通過支持向量回歸的方法構建模型進行預測。盡管支持向量機(Support Vector Ma?chine,SVM)分類方法(support vector classification,SVC)已被廣泛用于蛋白質?ATP綁定預測[13?14]。目前將支持向量回歸方法用于蛋白質?ATP綁定預測問題的研究還較少,鮮有這方面的報道?;谝陨戏治觯瑥牡鞍踪|的序列出發(fā),基于序列的位置特異性得分矩陣,使用滑動窗口抽取序列中每個殘基的辨別特征;應用隨機下采樣策略,消除正負樣本存在的顯著不平衡;最后,使用支持向量回歸模型進行蛋白質?ATP綁定位點的預測,選取最優(yōu)閾值判別蛋白質?ATP是否綁定,得到預測結果。本文方法流程見圖1。
圖1 本文方法的流程圖
2.2.1 位置特異性得分矩陣
位置特異性得分矩陣(Position Specific Scoring Ma?trix,PSSM)能夠在一定程度上反映蛋白質序列的進化信息,已經被其他研究者廣泛用于生物信息學預測問題中,如蛋白質二級結構預測[13]、蛋白質?ATP綁定位點預測[14?19]、蛋白質功能預測[20]、橫跨膜的螺旋線預測[21]、亞細胞定位[22?23]等。對于一個包含n個氨基酸殘基的蛋白質序列,使用PSI?BLAST[24](默認閾值E?value=0.001)生成n×20的PSSM矩陣。
2.2.2 邏輯斯蒂位置特異性得分矩陣
對PSSM矩陣的每個元素是通過邏輯斯蒂函數進行標準化(稱LPSSM)的。邏輯斯蒂函數定義如下:
式中x是PSSM矩陣中原始得分。
2.3.1 隨機下采樣
通常情況下,在一個不平衡的數據集中,采樣方法可以使數據集平衡,從而能從不平衡的數據集中得到學習[25?27]。對于大多數的不平衡數據集,下采樣方法可以提供一個較小的訓練集,大量縮短訓練和預測的時間,并且能提高分類精確度。隨機下采樣方法為從小類樣本中無重復地隨機抽取Smin個樣本N次,即數據集較小的綁定位點為正樣本,從大類樣本中無重復地隨機抽取Smax個樣本N次,即數據集較大的非綁定位點為負樣本,每次隨機抽取后正樣本和負樣本的數量相同,即Smin=Smax,從而得到平衡樣本集S=Smin+Smax。
2.3.2 支持向量回歸
本文采用支持向量回歸方法構建模型,使用廣為采用的工具Libsvm[28],在構建模型時,由于潛在的回歸模型未必是線性的(實際研究中發(fā)現往往是非線性回歸模型),為了建立非線性回歸模型,先通過某個核函數誘導的非線性映射Φ:x?Φ(x)把原始數據非線性映射到特征空間中,在特征空間建立線性SVR模型。在實驗中,將核函數類型采用徑向基函數(Radial Basis Function,RBF)形式,如式(2)所示:
式中:
式中:qi,為對偶參數且滿足式(4)條件;K(x,xi)為核函數。
幾個經常使用的評價指標,即特異性(Spe)、靈敏度(Sen)、準確性(Acc)、馬氏相關系數(MCC)。方法定義如下式:
式中:TP、FP、TN和FN分別代表正類預測為正類樣本的個數、負類預測為正類樣本的個數、負類預測為負類樣本的個數和正類預測為負類樣本的個數。預測的效果可以通過混淆矩陣[29]來表示,如圖2所示。
圖2 混淆矩陣的性能評估
在不平衡樣本下,這些指標將用于選取最優(yōu)閾值,并將在下文的實驗結果中報告展示。
由于SVR的預測輸出參數y是連續(xù)實數,而不是離散的類標號(例如在兩類問題中,兩類樣本的類標號可分別標記為+1和-1),需要進行參數轉化,選取合適的閾值,將SVR模型輸出的連續(xù)實數y離散化為相應的類標號。從某種意義上說,SVR模型輸出的連續(xù)實數y相當于分類器的置信水平,這也正是本文采用SVR回歸模型進行蛋白質?ATP綁定預測的原因之一。通過逐步調整分類閾值,產生一系列的混淆矩陣。從每一個混淆矩陣計算對應的Spe、Sen、Acc和MCC指標參數,即四個評價指標對閾值是依賴的,它們隨閾值的變化而變化。在樣本數量明顯不平衡的情況下,評價不平衡學習方法的指標顯得尤為重要,而評價參數MCC能夠反映不平衡學習的預測綜合性能,因此,得到最佳MCC值就對應最佳閾值。
由于鄰近蛋白質殘基有相互影響,采用滑動窗口增加蛋白質空間局部信息,進行MCC參數最優(yōu)選取,如圖3所示。由圖3所示,MCC值隨著滑動窗口從3~17時不斷上升,期間上升較為平滑,其主要歸因于蛋白質ATP227數據量較大,滑動窗口從17之后MCC值開始下滑,即17為LPSSM的滑動窗口大小的最優(yōu)值,則對應的特征維數即340(17×20)。
通過5重交叉驗證獲取預測值,實驗發(fā)現選取閾值T=1.433時,指標MCC最大。通過參考閾值最優(yōu)(1.433)時的4項評價指標,非經過邏輯斯蒂標準化之前的數據(OriginalPSSM[30])與經過邏輯斯蒂標準化之后的數據(LPSSM在2.2.2節(jié)已介紹)進行比較,如表1所示,可以發(fā)現LPSSM比OriginalPSSM四項指標都要高,特別是MCC中要高出約9%,這個效果還是比較明顯的。
與 ATPint,ATPsite,NsitePred,SVRATP(使用支持向量回歸方法)進行比較,其中SVRATP未經過下采樣處理,經過下采樣后處理的方法稱為RUS_SVRATP(random under?sampling,RUS),如表2所示。
圖3 基于ATP227數據集不同滑動窗口大小所對應的MCC值
表1 OriginalPSSM數據和LPSSM數據在蛋白質綁定位點預測的表現
表2 RUS_SVRATP在數據ATP227上和最近的三個蛋白質綁定位點預測的表現
首先,從SVR和前三種方法(非SVR)比較的角度可以發(fā)現:
(1)SVRATP和RUS_SVRATP明顯優(yōu)越于ATPint,SVRATP在四項評價指標中均優(yōu)于ATPsite;
(2)SVRATP的MCC值為0.544,其分別高于ATP?site、NsitePred各11%和8%。另外NsitePred是最近發(fā)布的蛋白質?ATP綁定位點預測方法,但SVRATP略優(yōu)于NsitePred;
(3)雖然 RUS_SVRATP 相比 ATPsite、NsitePred、SVRATP在Spe和Acc均略低,但是MCC值為0.609分別高出前者17%,14%,6%。
本文也在表2中用到t檢驗[31],如果產生的p值是低于顯著水平(0.05),那么不同表現的兩種方法就可以認為具有統(tǒng)計意義。其次,從SVR角度看:
(1)數據方面,RUS_SVRATP比SVRATP的MCC值要好,可能因為不平衡數據經過隨機下采樣后為平衡數據,負樣本對訓練中的模型干擾減少,模型更優(yōu),所以得到預測結果更好;
(2)預測方面,SVRATP與RUS_SVRATP兩者實驗結果較好得益于SVR預測結果為連續(xù)實數,更加有利于最優(yōu)閾值選取。
在獨立數據集中與不同的蛋白質?ATP綁定位點預測方法進行比較,如表3所示,可看出:
(1)顯然RUS_SVRATP在獨立測試數據集中表現最好;
(2)其中RUS_SVRATP的MCC值比表現較好的NsitePred高出10%,另外和其他三項評價指標Sen、Spe、Acc都要比其他三個預測方法效果要好,分別高出7.2%,0.5%,0.7%;
(3)另外SVRATP實驗結果跟前三種方法對比也較好,這表明SVR對于蛋白質?ATP殘基具有良好的預測效果;
(4)從泛化能力角度看,隨機下采樣后的平衡數據比不平衡數據的數量更少,訓練次數更少,預測結果更優(yōu),泛化能力更強。
表3 RUS_SVRATP在獨立數據ATP17上和最近的三個蛋白質綁定位點預測的表現
本文方法性能的改進主要得益于:
(1)logistic標準化處理后使正負樣本更具代表性;
(2)不平衡數據經過隨機下采樣后為平衡數據,負樣本對訓練中的模型干擾減少;
(3)最重要的一點是用SVR預測模型預測置信度水平的方法取代了傳統(tǒng)的硬分類。
除了以上3點主要原因,還有以下兩種因素:
(1)在本次實驗中,最近公布的 Swiss?Prot(www.ebi.ac.uk/swissprot)組合了更多的蛋白質序列數據庫信息,更加有利于PSI?BLAST[24]方法搜索,因此可以提供更加準確的蛋白質進化信息;
(2)選擇核函數時,SVR的性能是由正則化參數和核參數影響的,考慮到這個問題,實驗中在兩個階段盡可能的優(yōu)化這兩個參數,首先通過反復實驗初步確定網格搜索的間隔,然后對網格搜索間隔進一步優(yōu)化。最終得到c和g兩個參數其值分別為1和0.6。
從以上實驗結果可以看出,本文所述方法較之前提出方法[5?7]有一定提升,可為相關領域的研究人員特別是生物信息學方面的研究者提供一個新的研究思路,在這類問題的背景中,某個待識別樣本的類別歸屬不僅取決于自身屬性,也在很大程度上受到上下結構環(huán)境的影響,這時可以采取建立回歸模型預測類別歸屬置信度的方法,即用回歸預測取代傳統(tǒng)的硬分類,會獲得較好的分類效果。
本文采用從蛋白質的序列出發(fā),首先使用滑動窗口抽取序列中每個殘基的特征;其次應用隨機下采樣策略,消除正負樣本存在的顯著不平衡;最后建立支持向量回歸模型進行預測,并選取最優(yōu)閾值來判定蛋白質序列中的每個殘基是否是蛋白質?ATP綁定位點,從而得到最終的預測結果。實驗從特征提取方法、隨機下采樣方法和預測方法三個角度進行比較,實驗結果表明基于隨機下采樣和支持向量回歸的方法有效地提高了預測精度。
未來的工作包括兩個方向:
(1)通過合并新的特征提取方法和較優(yōu)的分類器方法進一步提高RUS_SVRATP預測精度。例如基于回歸的邏輯斯蒂L1標準化特征提取方法[32]已經成功用于活性位點預測;基于多重序列校準的稀疏逆協方差估計方法已經成功用于結構關系預測[33]。這兩種新方法為提高RUS_SVRATP預測精度提供了研究方向。
(2)除了研究ATP,還有其他綁定配體類型如金屬離子、維生素、二硫鍵等,因此有效地區(qū)分不同類型的綁定配體的綁定機制也為進一步的研究提供了思路。
[1]CAMPBELL N A,WILLIAMSON B,HEYDEN R J.Biology:exploring life[M].[S.l.]:Recording for the Blind&Dyslexic,2006.
[2]MAXWELL A,LAWSON D M.The ATP?binding site of type II topoisomerases as a target for antibacterial drugs[J].Current Topics in Medicinal Chemistry,2003,3(3):283?303.
[3]史忠植.高級人工智能[M].北京:科學出版社,2011.
[4]NOBELI I,LASKOWSKI R A,VALDAR W S J,et al.On the molecular discrimination between adenine and guanine by proteins[J].Nucleic Acids Research,2001,29(21):4294?4309.
[5]CHAUHAN JS,MISHRA N K,RAGHAVA G P S.Identifica?tion of ATP binding residues of a protein from its primary se?quence[J].BMCBioinformatics,2009,10(1):1?9.
[6]CHEN K,MIZIANTY M J,KURGAN L.ATP site:sequence?based prediction of ATP?binding residues[J].Proteome Science,2011,9(1):1?8.
[7]CHEN K,MIZIANTY M J,KURGAN L.Prediction and analy?sis of nucleotide?binding residues using sequence and sequence?derived structural descriptors[J].Bioinformatics,2012,28(3):331?341.
[8]HE H,GARCIA E A.Learning from imbalanced data[J].IEEE Transactions on Knowledge and Data Engineering,2009,21(9):1263?1284.
[9]ZHOU Z,LIU X.ON Multi?class cost?sensitive learning[J].Computational Intelligence,2010,26(3):232?257.
[10]ALTIN?AY H,ERGüN C.Clustering based under?sampling for improving speaker verification decisions using AdaBoost[C]//Structural,Syntactic,and Statistical Pattern Recogni?tion.Berlin Heidelberg:Springer?Verlag,2004:698?706.
[11]鄧乃揚,田英杰.支持向量機:理論、算法與拓展[M].北京:科學出版社,2009.
[12]孫德山.支持向量機分類與回歸方法研究[D].長沙:中南大學,2004.
[13]隋海峰,曲武,錢文彬,等.基于混合SVM方法的蛋白質二級結構預測算法[J].計算機科學,2011,38(10):169?173.
[14]YU D J,HU J,TANG Z M,et al.Improving protein?ATP binding residues prediction by boosting SVMs with random un?der?sampling[J].Neurocomputing,2013,104:180?190.
[15]ZHANG Y N,YU D J,LISS,et al.Predicting protein?ATP binding sites from primary sequence through fusing bi?profile sampling of multi?view features[J].BMC Bioinformatics,2012,13(1):118?125.
[16]CHEN K,MIZIANTYM J,KURGAN L.Prediction and analysis of nucleotide?binding residues using sequence and sequence?derived structural descriptors[J].Bioinformatics,2012,28(3):331?341.
[17]YU D,HU J,YANG J,et al.Designing template?free predic?tor for targeting protein?ligand binding sites with classifier en?semble and spatial clustering[J].2013,10(4):994?1008.
[18]YU D J,HU J,HUANG Y,et al.Target ATP site:A tem?plate?free method for ATP?binding sites prediction with resi?due evolution image sparse representation and classifier en?semble[J].Journal of Computational Chemistry,2013,34(11):974?985.
[19]FIROZ A,MALIK A,JOPLIN K H,et al.Residue propensi?ties,discrimination and binding site prediction of adenine and guanine phosphates[J].BMC Biochemistry,2011,12(1):20?28.
[20]陳義明,李舟軍,劉軍萬.改進LPU用于蛋白質功能預測[J].計算機工程與科學,2012(12):148?152.
[21]YU D J,SHEN H B,YANG JY.SOMPNN:an efficient non?parametric model for predicting transmembrane helices[J].Amino Acids,2012,42(6):2195?2205.
[22]PIERLEONI A,MARTELLI P L,CASADIO R.MemLoci:predicting subcellular localization ofmembrane proteins in eu?karyotes[J].Bioinformatics,2011,27(9):1224?1230.
[23]SHEN H B,CHOU K C.A top?down approach to enhance the power of predicting human protein subcellular localiza?tion:Hum?mPLoc 2.0[J].Analytical Biochemistry,2009,394(2):269?274.
[24]SCH?FFER A A,ARAVIND L,MADDEN T L,et al.Im?proving the accuracy of PSI?BLAST protein database searches with composition?based statistics and other refinements[J].Nucleic Acids Research,2001,29(14):2994?3005.
[25]WEISSG M,PROVOST F.The effect of class distribution on classifier learning:an empirical study[D].USA:Rutgers Uni?versity,2001.
[26]LAURIKKALA J.Improving identification of difficult small classes by balancing class distribution[M].Berlin Heidel?berg:Springer,2001.
[27]ESTABROOKSA,JO T,JAPKOWICZ N.A multiple resam?plingmethod for learning from imbalanced data sets[J].Com?putational Intelligence,2004,20(1):18?36.
[28]CHANG C C,LIN C J.LIBSVM:a library for support vector machines[J/OL].[2001?06?01].http://www.csie.ntu.edu.tw/~ cj?lin/libsvm.
[29]孔英會,景美麗.基于混淆矩陣和集成學習的分類方法研究[J].計算機工程與科學,2012(6):111?117.
[30]SHEN H,CHOU J J.MemBrain:improving the accuracy of predicting transmembrane helices[J].PloS one,2007,3(6):2399?2399.
[31]YANG J,ZHANG L,YANG J,et al.From classifiers to dis?criminators:a nearest neighbor rule induced discriminant analysis[J].Pattern Recognition,2011,44(7):1387?1402.
[32]SANKARARAMAN S,SHA F,KIRSCH J F,et al.Active site prediction using evolutionary and structural information[J].Bioinformatics,2010,26(5):617?624.
[33]JONESD T,BUCHAN D W A,COZZETTO D,et al.PSI?COV:precise structural contact prediction using sparse in?verse covariance estimation on large multiple sequence align?ments[J].Bioinformatics,2012,28(2):184?190.