王 健,劉敏捷,林鴻飛
(大連理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧大連116024)
基于多特征與多分類器融合的PPIE方法
王 健,劉敏捷,林鴻飛
(大連理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧大連116024)
從生物醫(yī)學(xué)文獻(xiàn)中自動(dòng)地抽取蛋白質(zhì)相互作用(PPI)關(guān)系是文本挖掘的一項(xiàng)重要任務(wù)??紤]到特征和分類器的選擇對(duì)于PPI任務(wù)的重要性,提出一種基于豐富特征和多分類器融合的蛋白質(zhì)關(guān)系抽取方法。選取15種詞法、句法及語(yǔ)義特征,融合3種分類器,采用文檔級(jí)別的10倍交叉驗(yàn)證方法,在5個(gè)公開(kāi)的PPI基準(zhǔn)語(yǔ)料上進(jìn)行評(píng)估實(shí)驗(yàn),結(jié)果表明,該方法在AIM ed語(yǔ)料上取得的F值和AUC值分別為63.7%和87.8%,具有良好的抽取性能。關(guān)鍵詞:蛋白質(zhì)相互作用關(guān)系抽??;豐富特征;支持向量機(jī);最大熵;圖核
隨著生物醫(yī)學(xué)文獻(xiàn)數(shù)量的急劇增長(zhǎng),生物醫(yī)學(xué)工作者只能閱讀一小部分文獻(xiàn),遠(yuǎn)遠(yuǎn)不能滿足研究的需要。而蛋白質(zhì)交互作用關(guān)系對(duì)于蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建、蛋白質(zhì)相互作用(Protein-protein Interaction,PPI)關(guān)系的預(yù)測(cè)以及新藥的研制具有重要的意義。因此,從生物醫(yī)學(xué)文獻(xiàn)中自動(dòng)地抽取蛋白質(zhì)交互作用關(guān)系成為一項(xiàng)非常重要的任務(wù)。蛋白質(zhì)關(guān)系的重要性使得越來(lái)越多的人開(kāi)始投入到PPI抽取的研究中。生物醫(yī)學(xué)家們?yōu)榇诉€構(gòu)建了5個(gè)公開(kāi)的蛋白質(zhì)關(guān)系數(shù)據(jù)庫(kù)(Bio Infer[1],AIMed[2],IEPA[3],HPRD50[4],LLL[5])用于評(píng)測(cè)。
目前,根據(jù)早期的研究,主要有3種方法用于生物醫(yī)學(xué)文獻(xiàn)的蛋白質(zhì)交互作用關(guān)系抽取,即基于詞共現(xiàn)的方法、基于模式匹配的方法和基于機(jī)器學(xué)習(xí)的方法。文獻(xiàn)[6]使用的基于詞共現(xiàn)的方法具有以下特點(diǎn):統(tǒng)計(jì)在同一個(gè)句子中共現(xiàn)的詞,并依據(jù)統(tǒng)計(jì)學(xué)原理來(lái)判斷蛋白質(zhì)間是否存在交互作用關(guān)系。這種方法能夠獲得很高的召回率,但是由于缺少對(duì)新關(guān)鍵詞的統(tǒng)計(jì),因此很難發(fā)現(xiàn)新的PPI。以文獻(xiàn)[7]為代表的使用的基于模式匹配的方法,根據(jù)大量的訓(xùn)練數(shù)據(jù)提取模式,把測(cè)試數(shù)據(jù)與已有模式進(jìn)行匹配,從而達(dá)到抽取蛋白質(zhì)關(guān)系的目的。這種方法獲得的準(zhǔn)確率較高,但是由于提取的模式具有數(shù)量和質(zhì)量的局限性,依賴于人工干預(yù),因此效果也不是特別理想。機(jī)器學(xué)習(xí)的方法克服了以上2種方法的不足,并在蛋白質(zhì)關(guān)系抽取這一任務(wù)中表現(xiàn)出最好的性能。其中,以基于核函數(shù)的方法最為受到關(guān)注。該方法的實(shí)質(zhì)是句法結(jié)構(gòu)的應(yīng)用,即在句法結(jié)構(gòu)的基礎(chǔ)上設(shè)計(jì)不同的核函數(shù)。但是依然存在著計(jì)算復(fù)雜、特征挖掘不足等問(wèn)題。文獻(xiàn)[8]利用蛋白質(zhì)實(shí)體對(duì)間的最短路徑信息,進(jìn)一步改善由語(yǔ)法解析器生成的樹(shù)表達(dá),然后在樹(shù)表達(dá)上定義樹(shù)核函數(shù)。該方法在蛋白質(zhì)關(guān)系抽取這一任務(wù)中表現(xiàn)出的性能較好,但是忽略了例如上下文特征等其他方面的有用信息。文獻(xiàn)[9]應(yīng)用了混合模型(機(jī)器學(xué)習(xí)和模式學(xué)習(xí))的半監(jiān)督方法,既利用了蛋白質(zhì)對(duì)周圍的詞袋特征,也考慮了由詞性標(biāo)記序列得到的模式特征。不足的是,得到模式的過(guò)程非常復(fù)雜。文獻(xiàn)[10]在句法分析基礎(chǔ)上使用了圖核信息,盡管涵蓋詳盡的結(jié)構(gòu)化特征,卻忽視了簡(jiǎn)單有效的上下文特征。由以上分析可知,PPI抽取任務(wù)既需要利用核函數(shù)所使用的句法特征信息,也需要借助有效的上下文信息來(lái)進(jìn)一步提高PPI抽取性能。
因此蛋白質(zhì)關(guān)系抽取任務(wù)最核心的問(wèn)題就是特征的選擇。只有得到充分的特征信息,才能更精確地分類。此外,蛋白質(zhì)關(guān)系抽取作為一個(gè)二元分類任務(wù),存在著分類器的選擇問(wèn)題。一些決策機(jī)制互補(bǔ)的分類器融合在一起能夠促進(jìn)蛋白質(zhì)對(duì)間有無(wú)交互作用關(guān)系的判定。針對(duì)這些問(wèn)題,本文提出一種基于豐富特征和多分類器融合的方法。與文獻(xiàn)[11]相比較,本文所提出的融合方法具有以下特點(diǎn):
(1)本文采用的特征是文獻(xiàn)[11]的進(jìn)一步擴(kuò)展,在其基礎(chǔ)上又添加了交互詞、結(jié)構(gòu)路徑、實(shí)體對(duì)間的依存關(guān)系路徑等特征,這些特征的加入有助于系統(tǒng)性能的提升。
(2)使用多個(gè)分類器進(jìn)行融合,可以避免單個(gè)分類器支持向量機(jī)獨(dú)自決策導(dǎo)致錯(cuò)誤率偏高。
本文在5個(gè)公開(kāi)的PPI語(yǔ)料上進(jìn)行實(shí)驗(yàn),針對(duì)不同特征以及分類器對(duì)PPI抽取的影響進(jìn)行了詳細(xì)的分析。
本文提出的基于豐富特征和多分類器融合的蛋白質(zhì)關(guān)系抽取系統(tǒng)框架如圖1所示。主要分為3個(gè)部分:預(yù)處理階段,特征向量表示階段,分類融合階段。
圖1 本文的蛋白質(zhì)關(guān)系系統(tǒng)抽取框架
2.1 預(yù)處理
本文中預(yù)處理包括2個(gè)階段:(1)語(yǔ)料規(guī)整,首先從原始的XM L文本中提取句子。為了減少噪音干擾,實(shí)驗(yàn)首先要對(duì)這些句子進(jìn)行停用詞處理,去除出現(xiàn)頻率高,卻沒(méi)有實(shí)際意義的詞語(yǔ)。鑒于采用的語(yǔ)料是英文,就存在許多特殊符號(hào),如“.”、“-”、“~”、“<”、“%”,這些詞會(huì)在預(yù)處理的不同部分分別與左右的詞劃分在一起,產(chǎn)生歧義,因此需要分別予以替換處理。(2)候選蛋白質(zhì)對(duì)的抽取。本文不考慮無(wú)蛋白質(zhì)或者只有一個(gè)蛋白質(zhì)的句子,僅保留至少含有2個(gè)蛋白質(zhì)的句子。
2.2 特征向量表示
許多實(shí)驗(yàn)證明,特征的選擇對(duì)于提高分類的效果至關(guān)重要。本文使用的特征主要包括上下文特征和依存句法特征兩大類。這些特征對(duì)PPI實(shí)體關(guān)系的判斷具有指導(dǎo)意義。
(1)上下文特征
由表1可以看出,本文使用了詞袋特征、N元詞特征、位置特征、具體位置特征、交互詞特征、實(shí)體對(duì)間其他蛋白質(zhì)數(shù)量特征、實(shí)體距離特征和否定詞特征。
表1 上下文特征
(2)依存句法特征
上下文特征簡(jiǎn)單有效,提取容易,但是卻未能捕獲語(yǔ)料中較深層的語(yǔ)義信息。本文借助多種不同的句法分析工具,進(jìn)一步挖掘語(yǔ)義關(guān)系以提高PPI抽取性能。表2對(duì)本文使用的依存句法特征作了詳細(xì)說(shuō)明。
表2 深層句法特征
1)句子距離特征
圖2表示的是使用GDep句法分析器輸出的依存圖??紤]到簡(jiǎn)單句出現(xiàn)在最短依存路徑上的可能性比較大,因此本文首先采用Dijkstra算法獲取依存圖中2個(gè)蛋白質(zhì)之間的最短依存路徑(圖中實(shí)線表示的是在最短路徑上的邊)。如果在最短依存路徑上有VB,VBZ,VBD其中任何一個(gè)謂語(yǔ)動(dòng)詞存在,則表明了蛋白質(zhì)實(shí)體對(duì)出現(xiàn)在在同一個(gè)簡(jiǎn)單句中,同時(shí)可以認(rèn)為它們之間很有可能存在交互作用關(guān)系。也就是說(shuō)簡(jiǎn)單句的出現(xiàn)就是句子距離特征存在的標(biāo)志。
圖2 GDep的輸出圖
2)結(jié)構(gòu)路徑特征
本文使用The Stanford Parser輸出解析樹(shù)結(jié)構(gòu)。根據(jù)樹(shù)的性質(zhì),蛋白質(zhì)實(shí)體對(duì)之間一定存在一條路徑,此路徑即是2個(gè)蛋白質(zhì)之間的結(jié)構(gòu)路徑[12]。這些包含了詞性標(biāo)記的結(jié)構(gòu)路徑具有豐富的句法和語(yǔ)義信息。如果2個(gè)蛋白質(zhì)能在一個(gè)結(jié)構(gòu)路徑上出現(xiàn),那么它們之間就有可能存在交互作用關(guān)系。圖3中實(shí)體對(duì)之間的實(shí)線部分即為結(jié)構(gòu)路徑。
圖3 解析樹(shù)結(jié)構(gòu)路徑
3)依存路徑三元組特征
在句子距離特征中,本文提到的蛋白質(zhì)實(shí)體對(duì)的最短依存路徑形式為“節(jié)點(diǎn)邊節(jié)點(diǎn)…”序列(節(jié)點(diǎn)代表單詞,邊表示2個(gè)單詞間的引導(dǎo)關(guān)系)。借鑒文獻(xiàn)[13]中構(gòu)建e-walk和v-walk特征的方法,本文在上文提到的最短依存路徑上提取三元組特征,總共獲得2類特征。定義形如“節(jié)點(diǎn)邊節(jié)點(diǎn)”樣式的為v特征,形如“邊節(jié)點(diǎn)邊”樣式的為e特征。文獻(xiàn)[13]證明了e-walk比v-walk更能反映句子的謂詞-參數(shù)的信息,因此如果依存路徑存在,本文借鑒的e特征比v特征也能反映更多的信息,應(yīng)賦予更高的權(quán)重。除此之外,2類特征還存在連續(xù)和不連續(xù)的情況,連續(xù)的特征顯然比不連續(xù)的更能反映詞之間的序列信息,所以連續(xù)的特征也應(yīng)該給予更高的權(quán)重。
明確了實(shí)驗(yàn)所用到的所有特征后,開(kāi)始構(gòu)建特征向量空間。由于采用分析器后能夠挖掘更深層的信息,因此本文賦予依存路徑特征,結(jié)構(gòu)路徑特征,連續(xù)的v特征權(quán)重為2??紤]到交互詞特征能夠表明2個(gè)蛋白質(zhì)之間的關(guān)系,以及連續(xù)的e特征比連續(xù)的v特征更能挖掘蛋白質(zhì)對(duì)之間是否存在交互關(guān)系,因此交互詞特征和連續(xù)的e特征權(quán)重為3。對(duì)于其他出現(xiàn)的特征則采用布爾形式,出現(xiàn)為1,不出現(xiàn)為0。
2.3 分類融合
2.3.1 相關(guān)概念和原理
(1)圖核(graph kernel)基本思想
圖核的學(xué)習(xí)原理是通過(guò)比較2個(gè)目的圖的共同節(jié)點(diǎn)之間的關(guān)系,計(jì)算2個(gè)輸入圖的相似度。它由2個(gè)直接有向子圖組成,分別是分析結(jié)構(gòu)子圖(PSS)和線性順序子圖(LOS)。2類子圖共同表述了句子的依存句法結(jié)構(gòu)(詞頂點(diǎn)和鏈頂點(diǎn))和詞在句子中位置的線性順序關(guān)系。由于圖核富含豐富的詞法和句法信息,且在蛋白質(zhì)關(guān)系抽取上表現(xiàn)較好,因此經(jīng)常被用于PPI的多核融合上。考慮到圖核的輸出結(jié)果也是一個(gè)蛋白質(zhì)實(shí)體對(duì)是否存在交互作用的打分值,因此本文將圖核也視為一個(gè)分類器。本文的實(shí)驗(yàn)采用的是文獻(xiàn)[10]中提出的全路徑依存圖核。
(2)支持向量機(jī)原理
支持向量機(jī)是由Corinna Cortes等人于1995年基于統(tǒng)計(jì)學(xué)習(xí)理論提出的一種機(jī)器學(xué)習(xí)方法,由于它具有良好的泛化能力,以及非線性數(shù)據(jù)處理能力,因此應(yīng)用到許多分類問(wèn)題中。SVM的目標(biāo)是通過(guò)學(xué)習(xí)在特征空間中找到最大間隔分離超平面,從而將實(shí)例分到不同的類別中[14]。對(duì)于線性分類問(wèn)題,通過(guò)間隔最大化得到的最優(yōu)分離超平面為w*x+b*= 0,如圖4中的H0所示。位于H0的兩側(cè)并與其平行的是距離H0最近的2個(gè)不同類別實(shí)例的超平面。表達(dá)式分別為:H1:w*x+b*=1,H2:w*x+b*=-1。當(dāng)數(shù)據(jù)線性不可分時(shí),可以通過(guò)選擇核函數(shù)(線性核、多項(xiàng)式核、RBF核、Sigmoid核和用戶自定義的核函數(shù))將樣本映射到高維空間,從而實(shí)現(xiàn)線性可分??梢愿鶕?jù)分類任務(wù)的不同,選擇或設(shè)計(jì)對(duì)應(yīng)的核函數(shù)。
圖4 線性可分情況下的最優(yōu)分離超平面
(3)最大熵原理
1957年E.T.Jaynes提出最大熵原理。最大熵原理認(rèn)為:滿足某些約束條件時(shí),信息熵達(dá)到極大值的模型是最好的模型[15]。假設(shè)在僅有2個(gè)狀態(tài)的情況下,要使熵最大,每種狀態(tài)的概率都是0.5。如圖5所示。由于試驗(yàn)者僅需要選擇對(duì)分類有用的特征,而無(wú)需考慮如何使用這些特征,且獨(dú)立于特定的任務(wù),可移植性強(qiáng),不受不確定因素的影響,因此ME模型已經(jīng)成為自然語(yǔ)言處理領(lǐng)域最成功的機(jī)器學(xué)習(xí)方法之一。與基于距離空間的分類方法SVM相比,最大熵模型速度快,更容易給各個(gè)類別打出一個(gè)相對(duì)客觀公正的得分。
圖5 2個(gè)狀態(tài)下的最大熵
2.3.2 分類融合
不同的分類器由于使用的模型,打分機(jī)制不同,因此都有著各自的優(yōu)缺點(diǎn)。圖核使用了豐富的詞法和句法特征,但是可能關(guān)注不到距離較遠(yuǎn)的詞。SVM具有較強(qiáng)的泛化能力以及對(duì)非線性數(shù)據(jù)的處理能力。可是當(dāng)訓(xùn)練數(shù)據(jù)量稍大時(shí),SVM的訓(xùn)練時(shí)間就會(huì)比較長(zhǎng),當(dāng)數(shù)據(jù)量變得更大時(shí),SVM算法甚至難以實(shí)施。ME盡量滿足已知的事實(shí),對(duì)未知的部分通過(guò)熵的最大化來(lái)實(shí)現(xiàn)等可能性。它的缺點(diǎn)就是對(duì)語(yǔ)料庫(kù)的依賴性比較強(qiáng)??紤]到以上幾點(diǎn),為了使最后的分類結(jié)果更加全面、精確、可靠,本文將3組分類結(jié)果進(jìn)行線性融合,這樣可以彌補(bǔ)單一的分類器造成的失誤。除此之外,本文還根據(jù)單個(gè)分類器的分類性能,對(duì)于性能好的分類器打分給予稍高的權(quán)重。線性加權(quán)融合公式如下:
其中,N代表分類器的個(gè)數(shù);σn代表權(quán)重。圖核、支持向量機(jī)和最大熵分類器的權(quán)重分別為0.2,0.7和0.1。
3.1 數(shù)據(jù)集
本文在5個(gè)公開(kāi)的PPI語(yǔ)料上進(jìn)行了評(píng)測(cè)。5個(gè)語(yǔ)料都以句子為單位,并且由專家標(biāo)注了蛋白質(zhì)實(shí)體名稱以及實(shí)體之間的關(guān)系類別等。其中,A IM ed語(yǔ)料具有比較大的規(guī)模,近年來(lái)已發(fā)展成為蛋白質(zhì)關(guān)系抽取評(píng)測(cè)的首選語(yǔ)料。對(duì)這5個(gè)PPI語(yǔ)料進(jìn)行了統(tǒng)計(jì),如表3所示。可以看出,5個(gè)語(yǔ)料在規(guī)模、正負(fù)例比例上有很大的不同,因此基于5個(gè)語(yǔ)料評(píng)測(cè)的PPI抽取方法具有較好的泛化性能。
表3 5個(gè)語(yǔ)料統(tǒng)計(jì)
3.2 評(píng)測(cè)指標(biāo)
實(shí)驗(yàn)使用4個(gè)評(píng)測(cè)指標(biāo):準(zhǔn)確率P(Precision),召回率R(Recall),F(xiàn)值(F-score)和AUC值(AUC score)。定義如下:其中,TP(True Positive)代表正例中判斷正確的樣本數(shù),即原始實(shí)例為正例,分類后依然判斷為正例的個(gè)數(shù);FP(False Positive)表示正例中判斷錯(cuò)誤的樣本數(shù),即原始實(shí)例是正例,分類后被誤判為負(fù)例的個(gè)數(shù);TN(True Negative)表示負(fù)例中判斷正確的樣本數(shù),即原始實(shí)例是負(fù)例,分類后被劃分為負(fù)例的樣本數(shù);FN(False Negative)表示負(fù)例中判斷錯(cuò)誤的樣本數(shù),即原始實(shí)例是負(fù)例,分類后被誤判為正例的個(gè)數(shù)。在這4個(gè)評(píng)測(cè)指標(biāo)中,本文主要依據(jù)F值和AUC值。由于AUC值不受實(shí)例類別的分布影響,能夠很好地權(quán)衡分類算法的總體性能,因此目前被廣泛地用于文本分類算法進(jìn)行評(píng)價(jià)。
3.3 結(jié)果分析
為了驗(yàn)證基于豐富特征和多分類器融合方法的有效性,本文實(shí)驗(yàn)在5個(gè)公開(kāi)的基準(zhǔn)語(yǔ)料上進(jìn)行文檔級(jí)別的10倍交叉驗(yàn)證,得到的所有實(shí)驗(yàn)結(jié)果都是10倍交叉驗(yàn)證后的平均值。
3個(gè)分類器及其組合在AImed語(yǔ)料上的具體結(jié)果見(jiàn)表4。由于3個(gè)分類器的決策機(jī)制以及分類效果差異比較大,因此比較適合融合。但是就3個(gè)分類器的單獨(dú)分類效果來(lái)看,SVM在4個(gè)評(píng)測(cè)指標(biāo)上幾乎都要遠(yuǎn)遠(yuǎn)優(yōu)于其他2個(gè)分類器。圖核的F值處于SVM和ME的中間水平,而ME的準(zhǔn)確率比較顯著。因此,在對(duì)3組分類器打分進(jìn)行線性加權(quán)時(shí),應(yīng)給予SVM更高的權(quán)重。綜合5組實(shí)驗(yàn)來(lái)看,與前4組實(shí)驗(yàn)相比,第5組實(shí)驗(yàn)將3個(gè)分類器進(jìn)行融合效果最好,F(xiàn)值達(dá)到了63.74%,AUC值為87.84%。但是組合分類器卻造成了準(zhǔn)確率的降低。究其原因,主要是圖核分類的準(zhǔn)確率偏低所致。
表4 AIM ed語(yǔ)料上的融合結(jié)果
同時(shí),為了證明選取的特征不存在冗余,本文做了如下實(shí)驗(yàn),結(jié)果如表5所示,從表5可以看出,將表1和表2中15種特征中的任意14種進(jìn)行組合,其F值和AUC值都沒(méi)有超過(guò)全部15種特征組合的結(jié)果。這說(shuō)明本文選取的特征能夠通過(guò)良好的融合來(lái)挖掘影響蛋白質(zhì)實(shí)體對(duì)極性的信息。
表5 14種特征在AIM ed語(yǔ)料上的實(shí)驗(yàn)結(jié)果
本文實(shí)驗(yàn)對(duì)SVM、圖核、最大熵的權(quán)重比作了窮舉探討,并給出了部分權(quán)重比的評(píng)測(cè)結(jié)果。如表6所示。由此可見(jiàn)當(dāng)SVM、圖核、最大熵的權(quán)重比為7∶2∶1時(shí),F(xiàn)值和AUC值最高。
表6 多分類器融合的權(quán)重分配結(jié)果
表7是本文方法與其他方法在5個(gè)基準(zhǔn)語(yǔ)料上的性能比較結(jié)果。各個(gè)語(yǔ)料上最好的F值和AUC值都用黑體加以強(qiáng)調(diào)。由表7可以看出和所有其他實(shí)驗(yàn)方法相比,本文方法在AIM ed語(yǔ)料上效果是最好的。此外,本文實(shí)驗(yàn)在4個(gè)語(yǔ)料上AUC值達(dá)到了最高。它是本文的系統(tǒng)性能良好的最好證明之一,因?yàn)锳UC值描繪了分類器在TP(真正的正例)和FP(錯(cuò)誤的正例)間的權(quán)衡比,標(biāo)志著分類器性能的好壞。文獻(xiàn)[10]使用了全路徑圖核的方法,僅在IEPA語(yǔ)料上獲得了最好的F值75.1%,然而它的其他結(jié)果都要遠(yuǎn)遠(yuǎn)低于本文方法。文獻(xiàn)[16]利用了多核和分析器融合,方法要比本文實(shí)驗(yàn)復(fù)雜,但是從性能上來(lái)看,本文的方法在除了Bio Infer以外的剩余4個(gè)語(yǔ)料上AUC值都要更勝一籌,而F值亦與其不相上下。不難看出,文獻(xiàn)[17]在A IM ed、Bio Infer這樣的大語(yǔ)料上效果要比本文的實(shí)驗(yàn)差很多,但在其他小語(yǔ)料集上卻和本文持平??赡艿脑蚓褪茿 IM ed、Bio Infer語(yǔ)料相對(duì)比較大,且語(yǔ)料中的句子結(jié)構(gòu)比較復(fù)雜,正負(fù)例不均衡,文獻(xiàn)[17]在實(shí)驗(yàn)中過(guò)濾掉了大量的負(fù)例。文獻(xiàn)[18]中使用的方法在各項(xiàng)指標(biāo)上都不及本文,主要是因?yàn)楸疚脑谔卣鬟x擇上做了充分的考慮,盡可能多地挖掘了詞法、句法、語(yǔ)義特征。
表7 不同方法在5個(gè)語(yǔ)料上的結(jié)果
本文提出一個(gè)基于豐富特征和多分類器融合的蛋白質(zhì)交互作用關(guān)系抽取方法。該方法一方面選取了豐富的上下文特征,并且利用句法分析器GDep和Stanford Parser得到了充足的句法和語(yǔ)義特征,另一方面綜合了多個(gè)分類器的優(yōu)勢(shì),達(dá)到了提高分類效果的目的。實(shí)驗(yàn)結(jié)果表明,本文方法具有良好的性能,在5個(gè)公開(kāi)的PPI語(yǔ)料上綜合指標(biāo)位于前列,尤其是在AUC值上有較明顯的優(yōu)勢(shì)。如何利用句法分析器的輸出結(jié)果,挖掘有向的句法特征來(lái)進(jìn)一步提高蛋白質(zhì)交互作用關(guān)系抽取的性能則是下一步的研究工作。
[1] Pyysalo S,Ginter F,Heim onen J,et al.Bio Infer:A Corpus for Information Extraction in the Biomedical Domain[J].BMC Bioinformatics,2007,8(1):50.
[2] Bunescu R,Ge R,Kate R J,et al.Comparative Experiments on Learning Information Extractors for Proteins and Their Interactions[J].Artificial Intelligence in Medicine,2005,33(2):139-155.
[3] Ding J,Berleant D,Nettleton D,et al.Mining Medline:Abstracts,Sentences,or Phrases[C]//Proceedings of IEEE Symposium on BioComputing.Washington D.C.,USA:IEEE Press,2002:326-337.
[4] Fundel K,Küffner R,Zimmer R.RelEx-relation Extraction Using Dependency Parse Trees[J].Bioinformatics, 2007,23(3):365-371.
[5] Nédellec C.Learning Language in Logic-genic Interaction Extraction Challenge[C]//Proceedings of the 4th IEEE Learning Language in Logic Workshop. Washington D.C.,USA:IEEE Press,2005:216-222.
[6] Bunescu R,Mooney R,Ramani A,et al.Integrating Cooccurrence Statistics with Information Extraction for Robust Retrieval of Protein Interactions from Medline[C]//Proceedings of Workshop on Linking Natural Language Processing and Biology.[S.1.]:Association for Computational Linguistics,2006:49-56.
[7] Fundel K,Küffner R,Zimmer R.RelEx——Relation Extraction Using Dependency Parse Trees[J]. Bioinformatics,2007,23(3):365-371.
[8] Qian L,Zhou G.Tree Kernel-based Protein-protein Interaction Extraction from Biomedical Literature[J]. Journal of Biomedical Inform atics,2012,45(3):535-543.
[9] Qian W,F(xiàn)u C,Cheng H.Semi-supervised Method for Extraction of Protein-protein Interactions Using Hybrid Model[C]//Proceedings of ISDEA'13.Washington D.C.,USA:IEEE Press,2013:1268-1271.
[10] Airola A,Pyysalo S,Bj?rne J,et al.A ll-paths Graph Kernel for Protein-protein Interaction Extraction w ith Evaluation of Cross-corpus Learning[J].BMC Bioinformatics,2008,9(11).
[11] 王 健,冀明輝,林鴻飛,等.基于上下文環(huán)境和句法分析的蛋白質(zhì)關(guān)系抽取[J].計(jì)算機(jī)應(yīng)用,2012,32(4):1074-1077.
[12] Zhang X,Lin H F,Yang Z H.Extracting Protein-protein Interaction from Biomedical Literature Using an Ensemble Kernel[J].Journal of Information and Computational Science,2009,6(2):1067-1075.
[13] Kim S,Yoon J,Yang J,et al.Walk-weighted Subsequence Kernels for Protein-protein Interaction Extraction[J].BMC Bioinformatics,2010,11(1).
[14] 李 航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.
[15] Berger A L,Pietra V J D,Pietra S A D.A Maximum Entropy Approach to Natural Language Processing[J]. Computational Linguistics,1996,22(1):39-71.
[16] Miwa M,S?tre R,Miyao Y,et al.Protein-protein Interaction by Leveraging Multiple Kernels and Parsers[J]. International Journal of Medical Informatics,2009,78(12):39-46.
[17] Bui Q C,Katrenko S,Sloot PM A.A Hybrid Approach to Extract Protein-protein Interactions[J].Bioinformatics,2011,27(2):259-265.
[18] Tikk D,Thom as P,Palaga P,et al.A Comprehensive Benchmark of Kernel Methods to Extract Protein-protein Interactions from Literature[J].PLo S Computational Biology,2010,6(7).
編輯 索書志
Protein-protein Interaction Extraction Method Based on Multiple Features and Multiple Classifiers Fusion
WANG Jian,LIU M injie,LIN Hongfei
(School of Computing Science and Technology,Dalian University of Technology,Dalian 116024,China)
Automatically extracting Protein-protein Interaction(PPI)from biomedical literature is a significant task in text mining.Considering the choice of features and the selection of classifier is of great importance for Protein-protein Interaction Extraction(PPIE)task,this paper proposes a method to combine various features and multiple classifiers. Fifteen lexical,syntactic and semantic features,three kinds of classifiers and the standard ten-fold document level crossvalidation evaluation method are used to evaluate on the five public PPI corpuses,and results show that the method achieves the preferable F-score(63.7%)and AUC-score(87.8%)on the AIMed corpus which is on the top of the PPI extraction task,and it has better extraction performance.
Protein-protein Interaction Extraction(PPIE);rich features;Support Vector Machine(SVM);maximum entropy;graph kernel
王 健,劉敏捷,林鴻飛.基于多特征與多分類器融合的PPIE方法[J].計(jì)算機(jī)工程,2015,41(11):207-212.英文
Wang Jian,Liu Minjie,Lin Hongfei.Protein-protein Interaction Extraction Based on Multiple Features and Multiple Classifiers Fusion[J].Computing Engineering,2015,41(11):207-212.
1000-3428(2015)11-0207-06
A
TP391
10.3969/j.issn.1000-3428.2015.11.036
國(guó)家自然科學(xué)基金資助項(xiàng)目(61340020)。
王 健(1967-),女,副教授、博士、CCF高級(jí)會(huì)員,主研方向:信息檢索,文本挖掘;劉敏捷,碩士研究生;林鴻飛,教授、博士、博士生導(dǎo)師。
2014-11-05
2014-12-02 E-m ail:wangjian@dlut.edu.cn