崔浩
(上海海事大學(xué)信息工程學(xué)院,上海 201306)
酶是一種可以加速化學(xué)反應(yīng)的分子。大多數(shù)的酶是蛋白質(zhì)并且參與幾乎所有的代謝過程,以創(chuàng)造出足夠的能量來維持生命。為了標(biāo)記酶,每個(gè)酶會(huì)分配一個(gè)酶委員會(huì)編號(hào)(Enzyme Commission(EC)number),簡(jiǎn)稱EC編號(hào)。EC編號(hào)由四個(gè)數(shù)字組成,例如1.1.1.1。詳細(xì)地說,前三個(gè)數(shù)字代表酶可以參與的化學(xué)反應(yīng)類型,最后一個(gè)數(shù)字表示底物專一性或編號(hào)[1]。到目前為止,EC編號(hào)已被用在多個(gè)公共數(shù)據(jù)庫。例如,在京都基因與基因組百科全書(KEGG)[2]中,在代謝途徑中的化學(xué)反應(yīng)被至少一個(gè)EC編號(hào)打上標(biāo)簽,用來表示哪種酶可以催化這種反應(yīng)。
識(shí)別一個(gè)所給酶的EC編號(hào)對(duì)揭示其功能是相當(dāng)重要的,研究人員可以進(jìn)一步推斷出這個(gè)酶可以參與哪種類型的反應(yīng)。然而,通過傳統(tǒng)的實(shí)驗(yàn)來獲取所給酶的EC編號(hào)是耗時(shí)和昂貴的。建立計(jì)算方法來推斷酶的EC編號(hào)是一種可替代的方法,這樣可以充分利用幾個(gè)已知的信息來給出有用的提示。到目前為止,在這方面有人做出了一些努力。然而,他們中的大多數(shù)都集中在預(yù)測(cè)酶所屬EC編號(hào)的前兩個(gè)數(shù)字,甚至是第一個(gè)數(shù)字。在這方面的首次研究是由Jensen等人提出的[3],他們使用各種序列相關(guān)物理化學(xué)特征來表示酶以及人工神經(jīng)元網(wǎng)絡(luò)作為預(yù)測(cè)引擎。此后,許多在這方面的預(yù)測(cè)方法相繼被提出。在這些方法中,酶總是由幾種類型的特征來表示,如氨基酸組成[4]、蛋白質(zhì)功能域組成[5]、偽氨基酸組成[6,7]、蛋白質(zhì)結(jié)構(gòu)[8]、基因本體[9],以及采用經(jīng)典的機(jī)器學(xué)習(xí)算法,如人工神經(jīng)元網(wǎng)絡(luò)[3]、支持向量機(jī)[10]、貝葉斯[11]、最近鄰算法[12],來建立預(yù)測(cè)模型。雖然這些方法能夠產(chǎn)生良好的性能,但是它們不能準(zhǔn)確地判定酶的整個(gè)EC編號(hào)。此外,以前的方法只考慮了酶的信息,從而引起了方法的局限性。
在本文中,我們構(gòu)造了一種新的分類器來識(shí)別酶的EC編號(hào)。為了訓(xùn)練這個(gè)分類器,所有的酶以及它們的EC編號(hào)都是從ENZYME數(shù)據(jù)庫中檢索出來的[13]。不同于以前把酶分為幾類的方法,在本文中是把一個(gè)酶和它的所屬EC編號(hào)配對(duì)為一個(gè)正樣本。負(fù)樣本隨機(jī)被產(chǎn)生并且產(chǎn)生的個(gè)數(shù)和正樣本的個(gè)數(shù)一樣多。然后,酶的EC編號(hào)的確定問題被轉(zhuǎn)換成一個(gè)二分類問題,即,測(cè)定一個(gè)酶和一個(gè)EC編號(hào)是否可以配對(duì)。從蛋白質(zhì)相互作用數(shù)據(jù)庫STRING(https://string-db.org/,version 10.0)里獲得的蛋白質(zhì)-蛋白質(zhì)相互作用被用來測(cè)量任何兩個(gè)酶之間的相似性[14],并提出了一種新的方案來評(píng)估兩個(gè)EC編號(hào)之間的關(guān)系。通過集成上述兩種類型的關(guān)系,可以評(píng)估兩個(gè)樣本之間的關(guān)系,樣本之間的關(guān)系被采用作為基于支持向量機(jī)的分類器里的核函數(shù)。在五個(gè)不同的數(shù)據(jù)集上應(yīng)用提出的基于5-折交叉驗(yàn)證的分類器,得到的整體準(zhǔn)確率為0.810,馬修斯相關(guān)性系數(shù)為0.629,F(xiàn)1-measure為0.791。相信所提出的方法是一個(gè)識(shí)別酶的EC編號(hào)的有用工具。
酶和酶的EC編號(hào)是從ENZYME數(shù)據(jù)庫的站點(diǎn)(http://enzyme.expasy.org/,2016年2月訪問)檢索得來的[13]。在這里,我們只考慮了人類的酶和它們對(duì)應(yīng)的EC編號(hào)。為了構(gòu)建一個(gè)二分類器,把一個(gè)EC編號(hào)C分配給酶E,那么它們被配對(duì)為一個(gè)樣本,記為S=(E,C)。因?yàn)槲覀兪褂昧说鞍踪|(zhì)-蛋白質(zhì)相互作用來評(píng)估酶之間的相似性,所以沒有蛋白質(zhì)-蛋白質(zhì)相互作用信息的酶對(duì)會(huì)被丟棄,從而產(chǎn)生了1,480對(duì)酶和EC編號(hào)。這些對(duì)在本研究中被稱為正樣本。
為了評(píng)估二分類器的性能,負(fù)樣本是必要的。在這里,我們隨機(jī)配對(duì)酶和EC編號(hào)作為負(fù)樣本。但是,它們不能是正樣本。盡管一些負(fù)樣本可能是實(shí)際的酶和EC編號(hào)對(duì),但我們?nèi)匀粚⑺鼈冇米髫?fù)樣本,因?yàn)檫@種類型的樣本非常少,并且它們不會(huì)對(duì)預(yù)測(cè)結(jié)果產(chǎn)生很大影響。為了充分評(píng)估所提出的分類器,我們隨機(jī)產(chǎn)生了5組負(fù)樣本,每組包含與正樣本個(gè)數(shù)一樣多的樣本。每組負(fù)樣本和正樣本都組成一個(gè)數(shù)據(jù)集,其他組負(fù)樣本也一樣和正樣本組成數(shù)據(jù)集,即我們構(gòu)建了五個(gè)數(shù)據(jù)集來評(píng)估分類器,分別記為D1,D2,D3,D4,D5。
蛋白質(zhì)-蛋白質(zhì)相互作用是研究蛋白質(zhì)相關(guān)問題的有用信息[15,16]。幾項(xiàng)研究表明,可以相互作用的蛋白質(zhì)更可能共有共同的功能。如第1節(jié)所述,大多數(shù)酶都是蛋白質(zhì)。使用蛋白質(zhì)-蛋白質(zhì)相互作用來評(píng)估酶之間的聯(lián)系是可行的。
在本文中,我們使用了在STRING(https://stringdb.org/,版本10.0)中報(bào)告的蛋白質(zhì)-蛋白質(zhì)相互作用,這是一個(gè)集成了被驗(yàn)證和預(yù)測(cè)的蛋白質(zhì)-蛋白質(zhì)相互作用的公共數(shù)據(jù)庫,這些相互作用源自(I)基因組上下文預(yù)測(cè);(II)高通量實(shí)驗(yàn);(III)保守性共表達(dá);(四)自動(dòng)文本挖掘;(五)數(shù)據(jù)庫先驗(yàn)知識(shí)。因此,他們可以廣泛地評(píng)估蛋白質(zhì)之間的關(guān)系,并已應(yīng)用于研究許多生物問題[15,17]。我們從文件“9606.protein.links.v10.txt.gz”中提取了人類蛋白質(zhì)-蛋白質(zhì)相互作用。每個(gè)相互作用包含兩個(gè)蛋白質(zhì)和一個(gè)分值,蛋白質(zhì)以Ensembl IDs表示,分值表示相互作用的強(qiáng)度。為了公式化表達(dá),我們記蛋白質(zhì) p1和 p2之間的一個(gè)相互作用分值為S(p1,p2)。因?yàn)橄嗷プ饔梅种档姆秶?50到999之間,所以我們?cè)u(píng)估了酶E1和E2之間的相似性為:
如第1節(jié)所述,以前的大多數(shù)方法只考慮了構(gòu)建分類器的酶的信息。在這里,我們給出了一個(gè)新的方案來評(píng)估兩個(gè)EC編號(hào)之間的關(guān)系,這將進(jìn)一步用于構(gòu)建分類器。
對(duì)于任何EC編號(hào)C=W.X.Y.Z,它被轉(zhuǎn)換為由四個(gè)元素組成的集合,公式化為S(C)={W,W.X,W.X.Y,W.X.Y.Z}。然后,給定兩個(gè)EC編號(hào),比如說C1和C2,它們的相似性可以被轉(zhuǎn)化為兩個(gè)集合S(C1)和S(C2)之間的關(guān)系,由公式表達(dá)為:
在1.2節(jié)和1.3節(jié)中,評(píng)估了酶之間的相似性(參見方程1)和EC編號(hào)之間的相似性(參見方程(2))。顯然,通過集成它們,可以評(píng)估任意兩個(gè)樣本(酶和EC編號(hào)對(duì))S1=(E1,C1)和S2=(E2,C2)之間的相似性,相似性被定義為:
很容易看出,Q(S1,S2)值的范圍在0到1之間。Q(S1,S2)的值越高,意味著S1和S2的相似性越高。
通過使用方程(3)作為核函數(shù),可以構(gòu)建基于支持向量機(jī)的分類器來識(shí)別酶的EC編號(hào)。假設(shè)Dt是一個(gè)包含m個(gè)樣本的訓(xùn)練集,比如說S1,S2,…,Sm,對(duì)于每個(gè)樣本Si(1 ≤i≤m ),它可以通過其與Dt里所有樣本的相似性來表示,其他的樣本也是如此,即:
然后,采用經(jīng)典的支持向量機(jī)算法并對(duì)數(shù)據(jù)集Dt進(jìn)行訓(xùn)練,從而生成分類器F.對(duì)于任何測(cè)試樣本S,可以表示為:
測(cè)試樣本的類別要么為正樣本要么為負(fù)樣本,能夠由分類器F來預(yù)測(cè)。
本文使用了著名的開源機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件Weka,Weka軟件收集了一套用于數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法。其中一個(gè)名為“SMO”的工具實(shí)現(xiàn)了一種支持向量機(jī)?!癝MO”工具使用了John Platt的連續(xù)最小優(yōu)化算法優(yōu)化支持向量機(jī)的訓(xùn)練過程。為了快速實(shí)現(xiàn)基于支持向量機(jī)的分類器,本文采用了“SMO”工具,并使用其默認(rèn)參數(shù)執(zhí)行。
本文研究的是二元分類問題,所以由分類器產(chǎn)生的預(yù)測(cè)結(jié)果可以統(tǒng)計(jì)為一個(gè)2×2的混淆矩陣M,公式化表達(dá)為:
其中矩陣包含4個(gè)值:TP代表將正樣本預(yù)測(cè)為正樣本的數(shù)量,F(xiàn)N代表將正樣本預(yù)測(cè)為負(fù)樣本的數(shù)量,F(xiàn)P代表將負(fù)樣本預(yù)測(cè)為正樣本的數(shù)量,TN代表將負(fù)樣本預(yù)測(cè)為負(fù)樣本的數(shù)量。
基于混淆矩陣M中的四個(gè)值,我們還計(jì)算出其他對(duì)分類模型的評(píng)價(jià)指標(biāo)。以下總共計(jì)算了7個(gè)指標(biāo),分別為靈敏度(SN)、特異度(SP)、準(zhǔn)確率(ACC)、馬修斯相關(guān)性系數(shù)(MCC)、精確率(Precision)、召回率(Re?call)、F1-measure,計(jì)算公式分別為:
所有上述指標(biāo)均用于評(píng)估本研究中提及的任何分類器的性能,其中準(zhǔn)確率,馬修斯相關(guān)性系數(shù)和F1-measure是更重要的指標(biāo),因?yàn)樗鼈兛梢詼y(cè)量分類器整體的性能,其他評(píng)價(jià)指標(biāo)(靈敏度、特異度、精確率、召回率)也會(huì)給出,以供讀者參考。從公式中不難看出,靈敏度和召回率的公式是一樣的,所以在文章中評(píng)價(jià)分類器性能的時(shí)候,我們只需展示靈敏度的結(jié)果就可以了。
在本文中,我們提出了基于支持向量機(jī)的分類器識(shí)別酶的EC編號(hào)。整個(gè)分類器的構(gòu)造和評(píng)估的流程如圖1所示:
為了表明基于支持向量機(jī)分類器的有效性,本文還使用了其他三種經(jīng)典的機(jī)器學(xué)習(xí)算法:貝葉斯網(wǎng)絡(luò),JRip和隨機(jī)森林來構(gòu)建分類器,通過比較結(jié)果來說明基于支持向量機(jī)分類器的有效性。為了方便起見,我們采用了 WEKA 中的“SMO”、“BayesNet”、“Jrip”和“RandomForest”工具分別實(shí)現(xiàn)這四個(gè)分類器,工具都使用其默認(rèn)參數(shù)執(zhí)行,測(cè)試流程都按照?qǐng)D1所示進(jìn)行,只有分類器不同而已。
本小節(jié)給出了所提出的四種分類器的測(cè)試結(jié)果。如第2.1節(jié)所述,構(gòu)建了五個(gè)數(shù)據(jù)集D1,D2,D3,D4,D5。對(duì)于每一個(gè)數(shù)據(jù)集,執(zhí)行基于支持向量機(jī)的分類器,并通過5-折交叉驗(yàn)證來評(píng)估其性能。預(yù)測(cè)結(jié)果由靈敏度、特異度、準(zhǔn)確率、馬修斯相關(guān)性系數(shù),精確率和F1-measure來表示,如表1所示:
圖1 分類器的構(gòu)造和評(píng)估
表1 基于支持向量機(jī)的分類器在5個(gè)數(shù)據(jù)集上的性能
對(duì)于第2.1節(jié)中提到的五個(gè)數(shù)據(jù)集,它們都用于測(cè)試基于貝葉斯網(wǎng)絡(luò),JRip和隨機(jī)森林的分類器的性能,通過5-折交叉驗(yàn)證來進(jìn)行評(píng)估。預(yù)測(cè)結(jié)果還是由靈敏度、特異度、準(zhǔn)確率、馬修斯相關(guān)性系數(shù),精確率和F1-measure來表示,如表2~4所示:
表2 基于貝葉斯網(wǎng)絡(luò)的分類器在5個(gè)數(shù)據(jù)集上的性能
表3 基于JRip的分類器在5個(gè)數(shù)據(jù)集上的性能
表4 基于隨機(jī)森林的分類器在5個(gè)數(shù)據(jù)集上的性能
表1~4不容易直觀地看出每個(gè)分類器每個(gè)評(píng)價(jià)指標(biāo)的值的分布規(guī)律,也不能直觀地做出分類器之間的比較,所以我們根據(jù)表中的數(shù)據(jù)畫出了四張箱形圖,如圖2所示。
從圖2中我們可以看出,基于支持向量機(jī)的分類器提供了最好的指標(biāo)。對(duì)于靈敏度而言,基于隨機(jī)森林的分類器產(chǎn)生了最高的值,但是它卻提供了最低的特異度;對(duì)于特異度而言,基于貝葉斯網(wǎng)絡(luò)的分類器產(chǎn)生了最高的值,但是它卻提供了最低的靈敏度;證明它們不如基于支持向量機(jī)的分類器。這也可以通過觀察這三個(gè)分類器的準(zhǔn)確率,馬修斯相關(guān)性系數(shù)和F1-mea?sure來證明。
為了進(jìn)一步比較這三個(gè)分類器和基于支持向量機(jī)分類器的性能,在表中列出了每個(gè)分類器產(chǎn)生的每個(gè)指標(biāo)的平均值,$標(biāo)出每列平均值的最大值,如表5所示:
圖2 基于四種算法的分類器的評(píng)估指標(biāo)結(jié)果的箱形圖
表5 基于四種算法的分類器的性能的評(píng)估指標(biāo)平均值結(jié)果比較
可以看出,平均值的比較結(jié)果和圖2的比較結(jié)果趨勢(shì)是一樣的,同圖2解釋,這里就不再贅述。稍微值得一提的是基于支持向量機(jī)的分類器的靈敏度,特異度和精確率分別為0.722,0.897和0.875,表明了該分類器為正樣本和負(fù)樣本的預(yù)測(cè)提供了很高的準(zhǔn)確率,并且在預(yù)測(cè)為正的樣本中,大多數(shù)是正確的。對(duì)于能夠評(píng)估該分類器整體性能的準(zhǔn)確率,馬修斯相關(guān)性系數(shù)和 F1-measure,它們的值分別是 0.810,0.629和0.791,這表明該分類器在識(shí)別酶的EC編號(hào)方面有著良好的性能。為了進(jìn)一步表明提出的基于支持向量機(jī)的分類器比其他三個(gè)分類器優(yōu)越得多,由基于支持向量機(jī)的分類器產(chǎn)生的準(zhǔn)確率(馬修斯相關(guān)性系數(shù)和F1-measure)比由其他分類器獲得的準(zhǔn)確率(馬修斯相關(guān)性系數(shù)和 F1-measure)至少高出 0.05(0.11,0.03)。
此外,每個(gè)分類器產(chǎn)生的每個(gè)指標(biāo)的標(biāo)準(zhǔn)差也列了一個(gè)表格,標(biāo)準(zhǔn)差是由表1~4中的數(shù)據(jù)計(jì)算所得,$標(biāo)出每列標(biāo)準(zhǔn)差的最小值,如表6所示:
表6 基于四種算法的分類器的性能的評(píng)估指標(biāo)標(biāo)準(zhǔn)差結(jié)果比較
從表中可以觀察到,基于支持向量機(jī)分類器的所有指標(biāo)的標(biāo)準(zhǔn)差都是最小的且都小于0.01,這意味著盡管負(fù)樣本在五個(gè)數(shù)據(jù)集中不同,但是該分類器的性能是相當(dāng)穩(wěn)定的。所有的這些證據(jù)都意味著基于支持向量機(jī)的分類器比其他三個(gè)分類器都要強(qiáng)大。
本文除了通過比較基于四種算法的分類器說明支持向量機(jī)的算法更具優(yōu)勢(shì)外,還在此基礎(chǔ)上改善基于支持向量分類器的預(yù)測(cè)準(zhǔn)確度,那就是調(diào)整2.3節(jié)中計(jì)算EC編號(hào)之間相似性的公式2中的參數(shù)α,我們嘗試過{0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1,1.5,2,2.5},分類器性能評(píng)價(jià)6個(gè)指標(biāo)具體數(shù)據(jù)就不在這里用表格詳細(xì)展示了,我們挑出了具有代表性的評(píng)價(jià)指標(biāo)馬修斯相關(guān)性系數(shù)MCC來展示各參數(shù)在2.1節(jié)中提到的5個(gè)數(shù)據(jù)集上的結(jié)果,如圖3所示:
從圖中的MCC平均值可以看出參數(shù)α越小,MCC平均值越大,說明當(dāng)參數(shù)α為0時(shí),預(yù)測(cè)的準(zhǔn)確率相比之下最高。5個(gè)不同數(shù)據(jù)集在參數(shù)相同的情況下MCC值差異很小,說明即使負(fù)樣本不同,也不會(huì)影響到分類器的性能。還有一個(gè)很明顯的現(xiàn)象,那就是參數(shù)α從0到1時(shí)MCC值是緩慢遞減的,而從α大于1時(shí),MCC值相比之下遞減速度更快。
圖3 馬修斯相關(guān)性系數(shù)在不同參數(shù)下的結(jié)果
在本文中,我們建立了一個(gè)基于支持向量機(jī)的分類器來識(shí)別酶的EC編號(hào)。然而,識(shí)別酶的EC編號(hào)是否特殊?這小節(jié)將證明所提出的分類器是針對(duì)這個(gè)問題的,這表明在2.1節(jié)中提到的結(jié)果是相當(dāng)可靠的。
我們隨機(jī)地生成了1,480個(gè)酶和EC編號(hào)對(duì)作為正樣本和1,480個(gè)酶和EC編號(hào)對(duì)作為負(fù)樣本,這些對(duì)組成了一個(gè)數(shù)據(jù)集。同理,隨機(jī)生成其他四個(gè)數(shù)據(jù)集。因此,生成了五個(gè)數(shù)據(jù)集,記為然后,對(duì)這些數(shù)據(jù)集分別執(zhí)行基于支持向量機(jī),貝葉斯網(wǎng)絡(luò),JRip和隨機(jī)森林的分類器,通過5-折交叉驗(yàn)證進(jìn)行評(píng)估。預(yù)測(cè)結(jié)果也被統(tǒng)計(jì)為2.1節(jié)中提到的6個(gè)指標(biāo),為了方便觀察四種分類器在每個(gè)評(píng)價(jià)指標(biāo)下的每個(gè)數(shù)據(jù)集上的結(jié)果比較,我們畫出了6張對(duì)應(yīng)的圖,如圖4所示。
可以觀察到,盡管不同分類器在相同數(shù)據(jù)集上獲得的靈敏度和特異度差異很大,但是其他四個(gè)指標(biāo)幾乎是在同一級(jí)別,特別是對(duì)于準(zhǔn)確率、馬修斯相關(guān)性系數(shù)和F1-measure。所有這些都表明了基于支持向量機(jī)的分類器在這種情況下并不優(yōu)于其他三種分類器,這意味著基于支持向量機(jī)的分類器可以捕獲D1,D2,D3,D4,D5里正、負(fù)樣本中的關(guān)鍵差異。此外,通過觀察由基于支持向量機(jī)的分類器所產(chǎn)生的準(zhǔn)確率和馬修斯相關(guān)性系數(shù),它們的值分別都在0.5和0左右,這表明預(yù)測(cè)結(jié)果與通過隨機(jī)預(yù)測(cè)獲得的結(jié)果非常相似。這是合理的,因?yàn)樗械臉颖径际请S機(jī)產(chǎn)生的,這意味著它們之間的差異很小。
圖4 四種分類器在每個(gè)評(píng)價(jià)指標(biāo)下的每個(gè)數(shù)據(jù)集上的結(jié)果比較
本文提出了基于支持向量機(jī)的二分類器來識(shí)別酶的EC編號(hào),與以往僅考慮酶的信息和將酶分成若干類的問題的研究不同,本文將酶和EC編號(hào)配對(duì)作為樣本,把問題轉(zhuǎn)化成了二分類問題。為了構(gòu)建分類器,酶之間的關(guān)系與EC編號(hào)之間的關(guān)系被集成。測(cè)試結(jié)果表明了基于支持向量機(jī)的分類器對(duì)于識(shí)別酶的EC編號(hào)是非常有效的。希望該分類器可以成為一種將EC編號(hào)分配給新型酶的新工具,并且分類器的構(gòu)建思想可以提供新的見解,從而為涉及多層分類的問題建立更好的預(yù)測(cè)模型。