宋一明,鞠 哲,張萬里
(沈陽航空航天大學(xué),理學(xué)院,沈陽 110136)
作為一種常見而重要的蛋白質(zhì)的翻譯后修飾(Post-Transational Modifications,PTMs),賴氨酸糖化可以潛在地影響多種生物過程,如構(gòu)象、功效和免疫原性等[1]。糖化是糖分子(如果糖或葡萄糖)與蛋白質(zhì)或脂質(zhì)分子共價結(jié)合的典型過程。與糖基化需要酶的控制作用相比,糖化是一種非酶修飾的過程。首先,不穩(wěn)定的席夫堿(Schiffbase)重新排列,形成更穩(wěn)定的阿馬多里產(chǎn)物(n-substituted 1-amino-1-de‐oxy-ketose),隨后,阿馬多里產(chǎn)物可進一步反應(yīng)形成晚期糖化終產(chǎn)物(Advanced Glycation Endproducts,AGEs),該終產(chǎn)物為不可逆交聯(lián)產(chǎn)物[2-3]。賴氨酸糖化可以發(fā)生在細胞內(nèi)和細胞外的蛋白質(zhì)中[4-5]。一般來說,細胞內(nèi)的糖化比細胞外的糖化更為復(fù)雜,因為細胞質(zhì)中的多種潛在來源也可以反應(yīng)形成AGEs。糖化反應(yīng)的動力學(xué)分析指出,穩(wěn)定狀態(tài)下的糖化量與葡萄糖濃度、蛋白質(zhì)半衰期和糖化率成正比[6]。大量研究表明糖化與多種人類疾病的發(fā)生和發(fā)展密切相關(guān),如糖尿病及其血管并發(fā)癥、腎功能衰竭、帕金森病和阿爾茨海默?。?-9]。因此,破譯糖化的分子機制和生物學(xué)功能對上述疾病的治療具有重要意義。
目前,糖化的分子機制在很大程度上仍是未知的。為了更好地理解糖化的分子機制,需要高精度地識別糖化底物及其相應(yīng)的糖化位點。大規(guī)模蛋白質(zhì)組學(xué)方法如質(zhì)譜分析,已被用于檢測糖化位點[10-11]。然而傳統(tǒng)的實驗方法不僅花費高,并且耗時耗力,很大程度上延緩了相關(guān)研究的進展。因此,有關(guān)蛋白質(zhì)糖化的計算輔助方法受到了越來越多的關(guān)注。到目前為止,已有很多學(xué)者通過機器學(xué)習(xí)算法對糖化位點進行了預(yù)測。Johansen等[12]利用人工神經(jīng)網(wǎng)絡(luò)算法提出了第一個預(yù)測賴氨酸糖化位點的預(yù)測器NetGlycate,最終得到的馬氏相關(guān)系數(shù)為0.77,AUC 值為0.58,體現(xiàn)了使用機器學(xué)習(xí)算法進行蛋白質(zhì)糖化位點預(yù)測的可行性。Liu 等[13]提出了一種預(yù)測糖化位點的計算方法PreGly,該方法使用氨基酸因子、氨基酸出現(xiàn)頻率和k 間距氨基酸對組成進行特征提取,使用最大相關(guān)和最小冗余(mRMR,max Relevance and Min Redundancy)進行特征選擇,在k =4 時獲得了最優(yōu)的模型。Xu 等[14]開發(fā)了一種名為Gly-PseAAC 的預(yù)測器,利用位置特異性氨基酸偏好提取蛋白質(zhì)包含的信息,然后使用支持向量機(Support vector Machine,SVM)算法預(yù)測糖化位點,通過PSAAP特征有效地驗證了賴氨酸是否發(fā)生糖化反應(yīng)的問題。Ju 等[15]提出了BPB(Bi-Profile Bayes)的特征提取方式,并結(jié)合支持向量機進行預(yù)測,預(yù)測的結(jié)果要優(yōu)于以上算法。
然而,標(biāo)準(zhǔn)的SVM算法會因數(shù)據(jù)中存在野點或噪聲而導(dǎo)致分類精度下降,因此Lin 等[16]提出了模糊支持向量機(Fuzzy Support Vector Machine,F(xiàn)SVM)方法,其思想為給每個樣本以不同的隸屬度,可以有效地降低野點或噪聲對分類精度的影響。在此基礎(chǔ)上,學(xué)者們提出了更多的隸屬度函數(shù)設(shè)計方法,如文獻[17]將樣本的不確定性和樣本與類中心的距離相結(jié)合,提出了一種基于信息熵的改進FSVM 算法,在不平衡數(shù)據(jù)集上具有較高的分類精度。李村合等[18]通過加入?yún)?shù)來調(diào)整分離超平面與樣本的距離,當(dāng)樣本分布不均時也能得到較高的分類精度。Wang 等[19]提出了基于中心核對齊的模糊支持向量機。左喻灝等[20]提出了Re‐lief-F 特征加權(quán)的FSVM 算法,通過賦予樣本權(quán)重與特征權(quán)重來提高分類效率。本文在文獻[15]的基礎(chǔ)上,提出了一種基于兩步特征加權(quán)的模糊支持向量機算法。首先,利用信息增益算法獲取樣本的特征權(quán)重;然后,選擇信息增益最大的特征,計算其與剩余特征的斯皮爾曼相關(guān)系數(shù),將最大的特征權(quán)重與其他特征的相關(guān)系數(shù)相乘并加到其他特征原有的權(quán)重上,得到新的特征權(quán)重;最后,將得到的特征權(quán)重應(yīng)用到隸屬度函數(shù)距離的計算與核函數(shù)的構(gòu)建中,同時考慮樣本的親和度,通過樣本內(nèi)部的分布情況對隸屬度函數(shù)做出進一步修正。本文將上述算法與BPB 的特征提取方式結(jié)合,提出了一種預(yù)測賴氨酸糖化位點的方法FS‐VM_GlySite,并用十折交叉驗證,結(jié)果表明,F(xiàn)SVM_GlySite 的預(yù)測結(jié)果要優(yōu)于現(xiàn)有的幾種常用的預(yù)測模型。
本文使用文獻[15]中的訓(xùn)練集對模型進行訓(xùn)練和測試。此訓(xùn)練集來自蛋白質(zhì)賴氨酸修飾數(shù)據(jù)庫CPLM[21],包含了223 個實驗標(biāo)注的糖化賴氨酸位點和446 個非糖化賴氨酸位點。使用滑動窗口表示數(shù)據(jù)集的賴氨酸殘基K,與文獻[15]設(shè)置相同,窗口大小設(shè)置為15,每個訓(xùn)練樣本都表示賴氨酸殘基K 下游和上游各有的7個殘基的肽段。為了統(tǒng)一每個肽段的長度,添加虛擬殘基“X”來填補沒有足夠殘基的位置。這里將糖化多肽作為正類訓(xùn)練樣本,而非糖化多肽作為負類訓(xùn)練樣本。
給定序列片段S=s1s2...sn,其中sj(j=1,2,...,n)為單個氨基酸,n 為序列片段長度。S屬于類C1或類C2,其中C1和C2分別表示糖化位點和非糖化位點。根據(jù)貝葉斯準(zhǔn)則,假設(shè)sj(j=1,2,...,n)相互獨立,則兩類S 的后驗概率可表示為
式(1)和式(2)可重新表示為
假設(shè)類別的先驗分布是均勻的,即P(c1)=P(c-1),則決策函數(shù)可表示為
根據(jù)文獻[22],式(5)可以進一步寫成
支持向量機是一種流行的機器學(xué)習(xí)算法,被廣泛應(yīng)用于各種PTMs 位點的預(yù)測[23-25]。模糊支持向量機則是給每個樣本以不同的隸屬度,降低野點和噪聲對分類的干擾。一個訓(xùn)練1,-1}為訓(xùn)練樣本的標(biāo)簽,+1 代表正類,-1 為負類,si∈[0,1]為模糊隸屬度,表示樣本xi屬于類yi的權(quán)重。FSVM模型為
通過求解上述問題得到最終的分類決策函數(shù)為
式中:K(xi,xj)為核函數(shù),目的是將樣本通過非線性映射?(x),使其映入高維核空間。
設(shè)計出好的隸屬度函數(shù)是模糊支持向量機的關(guān)鍵。本文使用的算法首先對特征進行兩步加權(quán),再將得到的特征權(quán)重應(yīng)用到隸屬度函數(shù)的設(shè)計與核函數(shù)的構(gòu)建中,最后通過樣本親和度對隸屬度函數(shù)作出修正,從而得到每個樣本的隸屬度。
1.3.1 進行特征加權(quán)
(1)計算出所有特征的信息增益Gain(k),如式(9)、(10)所示
式中:D 為數(shù)據(jù)集;|D|為數(shù)據(jù)集中的樣本個數(shù);D 中有h個類別標(biāo)簽Ki(i=1,2,...,h);|Ki,D|為D中標(biāo)簽為Ki的樣本個數(shù)。若特征A 有v個取值A(chǔ)j(j=1,2,...,v),|Dj|為D 中在特征A 上取值為Aj的集合。式(10)表示特征對樣本集合不確定性的減少程度,為信息熵與條件熵之差。
(2)計算出特征之間的斯皮爾曼相關(guān)系數(shù)矩陣corr(i,k),如式(11)所示
式中:Ri和Si表示樣本i取值的等級;-R和-S表示變量R和S的平均等級;N為樣本個數(shù)。斯皮爾曼相關(guān)系數(shù)用來衡量兩個變量之間的相關(guān)性大小,越趨近于0,兩個變量之間的相關(guān)性越低,絕對值大于0.4則認定為具有一定相關(guān)性。
(3)找到信息增益值最大的特征,位置記為M,然后根據(jù)其與剩余特征的相關(guān)系數(shù),找到相關(guān)系數(shù)大于0.4 的特征,以式(12)賦予最終的特征權(quán)重w(k),相關(guān)系數(shù)小于0.4 的不作處理。將已得到w(k)的特征忽略,對未賦予w(k)的特征重復(fù)上述過程,直至全部特征都被賦予新的w(k)
(4)對RBF 核函數(shù)K(xi,xj)=exp(-γ||xixj||2)作出修改,根據(jù)特征權(quán)重w 得到特征矩陣的對角矩陣形式
新的特征加權(quán)核函數(shù)為
1.3.2 設(shè)計模糊隸屬度函數(shù)
(1)本文在距離計算上均使用特征加權(quán)距離方法,如式(13)所示
式中:l表示特征的個數(shù)。
(2)通過模糊C 均值算法得到樣本的正負類中心x+cen、x-cen,計算dcen+i= d(xi,x+cen)、dcen-i=d(xi,x-cen),賦予特征加權(quán)隸屬度s1(xi),如式(14)所示
模糊C 均值算法具體思路為:假定對數(shù)據(jù)集S 進行分類,樣本xi屬于第j個聚類中心cj的隸屬度為μij,表達式如式(15)、(16)所示
式中:m 為隸屬度因子;N 與H 分別表示樣本個數(shù)與聚類中心數(shù);||xi-cj||2表示xi到中心點cj的距離。要求最小化目標(biāo)函數(shù)J,給定任意初值后進行迭代,當(dāng)maxij{|μ(k+1)ij-μ(k)ij|}<ε 時停止迭代,表示繼續(xù)迭代后μij已無明顯變化;k為迭代次數(shù);ε為誤差閾值。
(3)計算樣本的親和度A(xi),如式(17)~(19)所示
式中:U(xi,D)、T(xi,D)分別表示刪除每個樣本前后樣本間距離標(biāo)準(zhǔn)差的變化比率、樣本均值的變化比率。當(dāng)樣本分散度低、緊密度高時,樣本對數(shù)據(jù)集的影響就越大,樣本的親和度就越小[26]。
(4)將樣本親和度歸一化,以此保證親和度與s1(xi)在同等數(shù)量級上,得到隸屬度s2(xi)=-A(xi),計算得到最終的隸屬度函數(shù)s(xi)=s1(xi)+s2(xi)。再將s(xi)歸一化,防止隸屬度為負的情況的出現(xiàn)。
參數(shù)c的區(qū)間為c={2-5,2-4,...,215},參數(shù)γ的區(qū)間為γ={2-15,2-14,...,23}。為了防止數(shù)據(jù)集正負樣本不平衡對分類精度的影響,本文在參數(shù)c 的設(shè)定上使用文獻[27]的方式,對不同類樣本賦以不同的懲罰項c+=c-(N-p)/p,其中c+、c-分別為少類樣本與多類樣本的懲罰項;p表示少類樣本個數(shù);N-p為多數(shù)類樣本個數(shù)。
本文使用十折交叉驗證來評估模型,具體為靈敏度(SN)、特異度(SP)、準(zhǔn)確率(ACC)、馬氏相關(guān)系數(shù)(MCC)和ROC 曲線下面積(AUC)5個指標(biāo),前4個指標(biāo)定義為
式中:N+為糖化位點個數(shù);N+-為錯誤預(yù)測為非糖化位點的糖化位點個數(shù);N-為非糖化位點個數(shù);N-+為被錯誤預(yù)測為糖化位點的非糖化位點個數(shù)。
通過十折交叉驗證得到的AUC 值作為模型FSVM_GlySite 的評價指標(biāo)。 由于FS‐VM_GlySite 是在文獻[15]的訓(xùn)練數(shù)據(jù)集上進行訓(xùn)練的,本文還將FSVM_GlySite與BPB_Gl‐ySite[15]進行了比較。如表1 所示,F(xiàn)SVM_Gly‐Site 得到的SN、SP、ACC、MCC 和AUC(64.62%、73.92%、70.82%、37.27%和76.40%)均高于BPB_GlySite 方法(63.68%、72.60%、69.63%、34.99%和76.22%)。這是由于本文進行兩步特征加權(quán)的方式可以最大程度地放大重要和次重要特征與弱相關(guān)和不相關(guān)特征在權(quán)重上的差值,有效地避免了后者對分類的干擾,加強了相對重要特征對分類的貢獻,并且在考慮了樣本親和度后,衡量了每個樣本的存在與否對數(shù)據(jù)集的影響;利用樣本內(nèi)部的分布情況對隸屬度函數(shù)做出了適當(dāng)修正,減少了僅使用樣本與類中心距離作為隸屬度函數(shù)時對數(shù)據(jù)集幾何形狀的依賴,降低了噪聲和野點對分離超平面的干擾。本文使用了聚類的方式獲得類中心,相比于求平均值計算出的類中心,其含有數(shù)據(jù)集中更多的樣本信息,有助于獲取更準(zhǔn)確的樣本隸屬度值。雖然FSVM_Gl‐ySite 在SP 上低于Gly-PseAAC[14]的74.30%,但是在SN 上有著顯著的提升(57.48%),說明FSVM_GlySite 可以更精確地識別賴氨酸糖化位點。
表1 訓(xùn)練集下的比較結(jié)果 (%)
為了進一步評估FSVM_GlySite 的有效性,將其與其他現(xiàn)有的預(yù)測方法進行比較,包括NetGlycate[12]、PreGly[13]、Gly-PseAAC[14]和BPB_GlySite[15]。由于NetGlycate 和PreGly 都是在包含89 個糖化位點和126 個非糖化位點的Johansen 基準(zhǔn)數(shù)據(jù)集[12]上訓(xùn)練的。因此,將本文算法與BPB_GlySite 和Gly-PseAAC 也通過Johansen基準(zhǔn)數(shù)據(jù)集上的十折交叉驗證進行重新訓(xùn)練。比較結(jié)果見表2,其中FSVM_Gl‐ySite 的SN、ACC、MCC 和AUC 值最高,分別為87.64%、87.91%、75%和92%。雖然PreGly 獲得了最高的SP值(95.85%),但Sn值(71.06%)遠低于FSVM_GlySite(87.64%),這表明PreG‐ly 傾向于將賴氨酸殘基預(yù)測為非糖化位點,其識別的糖化位點明顯少于FSVM_GlySite,因此在Johansen基準(zhǔn)數(shù)據(jù)集上,F(xiàn)SVM_GlySite同樣優(yōu)于現(xiàn)有的糖化位點預(yù)測器。
本文提出一種新的基于兩步特征加權(quán)的模糊支持向量機算法,并結(jié)合Bi-Profile Bayes方法構(gòu)建了一個賴氨酸糖化位點預(yù)測模型FS‐VM_GlySite。實驗結(jié)果表明,模糊支持向量機算法的分類性能效果好于標(biāo)準(zhǔn)的支持向量機算法,并且所提出的預(yù)測模型的預(yù)測效果優(yōu)于現(xiàn)有的糖化位點預(yù)測方法。然而,本文所采用的是單一的特征編碼方法,后續(xù)的工作將會嘗試融合更多特征的方法,進一步提升預(yù)測模型的性能。