吳紅梅,牛 耘
(南京航空航天大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 南京 210016)
基于特征加權(quán)的蛋白質(zhì)交互識別
吳紅梅,牛 耘
(南京航空航天大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 南京 210016)
在以單詞為特征的模型中,如果特征單詞在不同類別中的使用情況存在明顯差異,那么它對分類有著很重要的影響。因此文中基于大規(guī)模語料庫,研究不同的特征加權(quán)方法對PPI識別的影響。首先,通過搜索醫(yī)學(xué)文獻數(shù)據(jù)庫建立蛋白質(zhì)對的簽名檔,以單詞作為描述蛋白質(zhì)對關(guān)系的特征,構(gòu)建向量空間模型;然后,選擇不同的加權(quán)方法描述單詞重要性;最后,以K近鄰和SVM分類方法構(gòu)建分類器判斷蛋白質(zhì)對是否存在交互關(guān)系。實驗結(jié)果表明,根據(jù)特征向量單詞的重要性進行加權(quán),PPI識別精確度、召回率和準(zhǔn)確率有了明顯的提高。
蛋白質(zhì)交互;大規(guī)模語料;特征加權(quán);K近鄰;支持向量機
蛋白質(zhì)是組成細胞最重要的成分,是生命的物質(zhì)基礎(chǔ),是生命活動的主要承擔(dān)者。蛋白質(zhì)交互(Protein-ProteinInteraction,PPI)是生物學(xué)研究的重要內(nèi)容,也是解決大量醫(yī)學(xué)難題的關(guān)鍵信息。因此,為了構(gòu)建蛋白質(zhì)交互網(wǎng)絡(luò),生物醫(yī)學(xué)領(lǐng)域的專家從醫(yī)學(xué)文獻中手工整理信息以統(tǒng)一的格式錄入數(shù)據(jù)庫,構(gòu)建了HPRD[1]、IntAct[2]、MINT[3]等數(shù)據(jù)庫。
然而,隨著生物醫(yī)學(xué)的發(fā)展,越來越多的蛋白質(zhì)交互關(guān)系被發(fā)現(xiàn),記載這些蛋白質(zhì)交互信息的醫(yī)學(xué)文獻也隨之急劇增多,手工收集PPI信息的方式也難以滿足需求。為了幫助生物醫(yī)學(xué)領(lǐng)域的專家從文獻中獲取有效的信息,基于自然語言處理的蛋白質(zhì)交互識別已成為一項重要的研究內(nèi)容。
目前,常用于從醫(yī)學(xué)文獻中識別PPI信息的技術(shù)主要包括:基于同現(xiàn)的方法[4]、基于規(guī)則的方法[5]和基于機器學(xué)習(xí)的方法[6-7]?;谕F(xiàn)的方法通過統(tǒng)計兩個蛋白質(zhì)的共現(xiàn)次數(shù)來判斷蛋白質(zhì)對之間的關(guān)系,這種方法只能抽取頻繁出現(xiàn)的模式,識別結(jié)果召回率較高而精確度較低[8]?;谝?guī)則的方法通過建立一些模式規(guī)則來匹配可能出現(xiàn)的PPI關(guān)系,雖然提高了精確度但召回率較低。然而,由于PPI關(guān)系模式的多樣性,預(yù)定義的規(guī)則不可能包含所有的PPI關(guān)系模式,并且手工建立規(guī)則需要巨大的開銷[9]。例如,F(xiàn)undel等[10]提出的規(guī)則是基于句子句法規(guī)則結(jié)構(gòu)中的依賴關(guān)系。Temkin等[11]利用帶語法產(chǎn)生規(guī)則的句子分析器來識別PPI。這些系統(tǒng)著眼于分析整個句子的句法特點,充分揭示句中成分之間的關(guān)系,能夠獲得更高的準(zhǔn)確率,但需要更高的計算能力和時間復(fù)雜度。
近年來,越來越多的PPI識別技術(shù)采用基于機器學(xué)習(xí)的方法,主要包括兩大類:基于特征的方法和基于核函數(shù)的方法?;谔卣鞯姆椒ㄖ饕菑臉?biāo)注有交互關(guān)系的蛋白質(zhì)對的句子中抽取重要特征,例如詞匯、語法和語義特征建立模型,進而判斷蛋白質(zhì)對之間是否存在交互關(guān)系[12-13]?;诤撕瘮?shù)的方法通過對句子結(jié)構(gòu)的深入分析來構(gòu)建核函數(shù)。HausslerD[14]提出了針對離散結(jié)構(gòu)的卷積核;LodhiH等[15]將特征空間特定長度詞語子序列的內(nèi)積作為核函數(shù)的計算方式,提出了字符串核;BunescuRC等[16]提出了最短依賴路徑核,將句子以樹的形式表示,用兩個實體之間的最短路徑表示實體之間的關(guān)系。
然而,目前的機器學(xué)習(xí)方法主要以單個句子為依據(jù),從句子的句法、語法以及依賴關(guān)系等方面進行研究。這些方法能很好地從句子層面對蛋白質(zhì)交互關(guān)系進行描述及判斷,但是這種以句子為依據(jù)的判斷方法也存在著局限性。由于語法的復(fù)雜性和交互關(guān)系描述的間接性,僅僅依賴單個句子中的信息進行交互關(guān)系分析,往往難以得到準(zhǔn)確的判斷。
因此針對以上問題,文獻[17-18]提出了基于大規(guī)模語料庫的PPI自動識別方法,將PPI自動識別問題轉(zhuǎn)化為文本分類問題,能夠更充分利用文本的上下文信息挖掘更多蛋白質(zhì)對交互識別的影響因素。然而,這個工作對所選擇特征單詞的重要性研究不足,因此文中研究不同的特征單詞重要性計算方法,通過向量加權(quán)方法研究特征單詞加權(quán)對蛋白質(zhì)對識別的影響。實驗結(jié)果表明,根據(jù)特征單詞進行加權(quán)后明顯提高了PPI識別精確度、召回率和準(zhǔn)確率。
有交互關(guān)系的描述常用到一些單詞,而這些單詞在無交互關(guān)系的蛋白質(zhì)對的關(guān)系描述中卻很少出現(xiàn),例如,interact、bind。因此,加強這部分單詞的作用有助于PPI識別。文中以特征加權(quán)的方法,著重研究特征單詞權(quán)重對PPI識別的影響,具體步驟如下:
首先,從醫(yī)學(xué)文獻中收集包含目標(biāo)蛋白質(zhì)對的句子,以對應(yīng)的句子集合作為該目標(biāo)蛋白質(zhì)對的簽名檔;然后,從簽名檔中提取特征,采取一定策略評估特征重要性,對特征加權(quán),構(gòu)建向量空間模型;最后,采用KNN和SVM這兩種分類算法對蛋白質(zhì)對進行分類,判斷蛋白質(zhì)對是否存在交互關(guān)系。
2.1 獲取簽名檔
生物醫(yī)學(xué)文本數(shù)據(jù)庫PubMed[19]是建立蛋白質(zhì)交互網(wǎng)絡(luò)的重要信息來源。現(xiàn)有的PPI識別工作都是建立在對PubMed一個子集上的分析。PubMed數(shù)據(jù)庫由美國國立醫(yī)學(xué)圖書館建立,收錄了全球70多個國家及地區(qū)出版的3 400余種生物醫(yī)學(xué)期刊上所發(fā)表的論文,已收錄超過2 100萬篇生物醫(yī)學(xué)文獻,提供生物醫(yī)學(xué)方面論文以及摘要的搜索。但是,PubMed數(shù)據(jù)庫未提供直接搜索句子的接口,所以文中分以下兩步來獲取包含目標(biāo)蛋白質(zhì)對的句子:
(1)在PubMed數(shù)據(jù)庫中獲取同時含有目標(biāo)蛋白質(zhì)protein1和protein2的文獻摘要;
(2)在第一步得到的文獻摘要中找出同時包含protein1和protein2的句子。
因此,每個蛋白質(zhì)對都會有一個句子集合與之對應(yīng),形成蛋白質(zhì)對的簽名檔。在建好簽名檔之后,就可以利用上下文信息分析蛋白質(zhì)對是否存在交互關(guān)系。
2.2 向量空間模型—特征提取
從簽名檔中提取特征,采取一定策略評估特征的重要性,對特征進行加權(quán)處理。文獻[17]中選擇了單詞、短語結(jié)構(gòu)特征和依賴關(guān)系作為特征,實驗結(jié)果表明只以單詞為特征的識別結(jié)果較好。
因此,文中將簽名檔中所有的句子去除停止詞、單字符單詞和數(shù)字,選擇至少在25篇簽名檔中出現(xiàn)的單詞作為特征。最終得到了4 867個特征,用這些特征單詞標(biāo)注蛋白質(zhì),構(gòu)建向量空間模型。
2.3 向量空間模型—特征加權(quán)
在蛋白質(zhì)對簽名檔中,常用于描述有交互關(guān)系的單詞較少用于描述無交互關(guān)系。因此,通過特征加權(quán)的方法,著重研究這部分單詞的重要性。選擇了信息檢索(Information Retrieval)和情感分析(Sentiment Analysis)中的權(quán)重計算方法,并設(shè)計了新的加權(quán)方法,研究特征加權(quán)對PPI識別的影響,具體見表1。
表1 權(quán)重公式
注:N表示蛋白質(zhì)對總數(shù);N+表示有交互關(guān)系蛋白質(zhì)對數(shù);N-表示無交互關(guān)系蛋白質(zhì)對數(shù);a表示出現(xiàn)特征i的有交互關(guān)系蛋白質(zhì)對的簽名檔數(shù);c表示出現(xiàn)特征i的無交互關(guān)系蛋白質(zhì)對的簽名檔數(shù)。
表1中,tp(termpresence)表示二值權(quán)重(0/1),即特征單詞出現(xiàn)權(quán)值為1,不出現(xiàn)權(quán)值為0。實驗中,以tp權(quán)重公式的實驗結(jié)果為基準(zhǔn)。idf(inversedocumentfrequency)是信息檢索中較為常見的權(quán)重公式,是一個詞語普遍重要性的度量。dsidf和dbidf是PaltoglouG[21]等對idf的一種改進。
在這兩個公式中,當(dāng)有交互蛋白質(zhì)對和無交互蛋白質(zhì)對的簽名檔的數(shù)量相近時,而含有某個特征單詞的有交互蛋白質(zhì)對的簽名檔數(shù)多于無交互蛋白質(zhì)對簽名檔數(shù),那么這個特征單詞的權(quán)重較大。這兩種權(quán)值計算公式比較適合特征單詞在不同類別文檔中分布差異很大的語料集上使用。
在特征單詞分布分析過程中發(fā)現(xiàn),有交互蛋白質(zhì)對和無交互關(guān)系蛋白質(zhì)對的簽名檔數(shù)量相近。而對一些特征單詞而言,包含它的有交互關(guān)系蛋白質(zhì)對的簽名檔的數(shù)量是無交互關(guān)系簽名檔數(shù)量的數(shù)十倍。筆者認為這些單詞對于識別有交互蛋白質(zhì)很重要,因此,提出了power這一權(quán)重公式,著重研究特征單詞對有交互關(guān)系蛋白質(zhì)對的識別的影響。根據(jù)公式power,若含有某個特征單詞的有交互關(guān)系的蛋白質(zhì)對的簽名檔數(shù)較多,無交互關(guān)系的蛋白質(zhì)對的簽名檔數(shù)較少,則它的權(quán)重較大。
2.4 分類算法
文中采用KNN和SVM這兩種分類算法構(gòu)建分類器?;谙嗨菩缘腒NN分類器中,以余弦相似度作為衡量標(biāo)準(zhǔn)。
2.4.1K近鄰分類
(1)
余弦值越大,蛋白質(zhì)對相似度就越高;反之,蛋白質(zhì)對相似度越低。
得到蛋白質(zhì)對實例的相似性之后,基于相似性采用K近鄰分類(KNN)算法對蛋白質(zhì)對進行分類。查詢訓(xùn)練數(shù)據(jù)中與目標(biāo)蛋白質(zhì)對最相似的K個蛋白質(zhì)對實例。這K個實例中哪種類別的實例多,就將目標(biāo)蛋白質(zhì)對分為哪一類。在此算法中,若多個實例與目標(biāo)蛋白質(zhì)對的距離一樣,則這個實例類別取這些實例中占多數(shù)的類別。
2.4.2SVM分類
SVM已被大量實驗證實為一種非常有效的分類算法,是基于機器學(xué)習(xí)的蛋白質(zhì)交互關(guān)系識別所采用的重要分類模型。文中采用LIBSVM[22]建立蛋白質(zhì)交互識別的分類器。
3.1 實驗數(shù)據(jù)及設(shè)置
將有交互關(guān)系的蛋白質(zhì)對作為正類樣例,無交互關(guān)系的蛋白質(zhì)對作為負類樣例。正類蛋白質(zhì)對來源于由專家手工收集信息建立的PPI數(shù)據(jù)庫HPRD,從中抽取在PubMed數(shù)據(jù)庫中存在的蛋白質(zhì)對作為有交互關(guān)系的蛋白質(zhì)對訓(xùn)練集,共1 420對。而對于負類,文中根據(jù)HPRD中包含的蛋白質(zhì)采用隨機組合的方法產(chǎn)生負類蛋白質(zhì)對(刪除HPRD已包含的蛋白質(zhì)對),最后只保留那些被PubMed數(shù)據(jù)庫中文獻記載的蛋白質(zhì)對作為無交互蛋白質(zhì)對的訓(xùn)練集,共有1 353對。因此,實驗數(shù)據(jù)集中共包含2 773對蛋白質(zhì)對。
SVM分類算法識別過程中,采用五折交叉驗證,將正類蛋白質(zhì)對和負類蛋白質(zhì)對平均分成五份,分別從正類和負類中取出一份組合作為測試集,其余四份組合作為訓(xùn)練集。KNN算法識別過程中,采用留一交叉驗證法(leave-one-out)進行測試,即將一個蛋白質(zhì)對作為測試樣例,其余2 772對作為訓(xùn)練樣例。在以KNN算法為分類算法的實驗中,tp在K值為7時取得了最好的結(jié)果。所以,在其余的權(quán)重公式識別過程中將K值設(shè)置為7,將它們的識別結(jié)果與tp的識別結(jié)果進行比較。
3.2 實驗結(jié)果及分析
分類結(jié)果見表2和表3。
表2 KNN分類結(jié)果 %
從表2可以發(fā)現(xiàn),以idf為權(quán)重公式的PPI識別結(jié)果與tp相比未有提升。以dbidf和dsidf這兩種方法為權(quán)重公式的PPI識別結(jié)果提升較明顯,正類、負類的F值和準(zhǔn)確率有近3%~5%的提升。筆者設(shè)計的權(quán)重公式取得了最高的正類的召回率,正類的召回率比tp提升了5.5%,正類F值也有一定的提升。采用dbidf、dsidf和power這三種加權(quán)方法的KNN分類算法,蛋白質(zhì)交互關(guān)系的識別結(jié)果都有了一定的提升。這說明,特征單詞在正類和負類蛋白質(zhì)對簽名檔有很大的差別,對蛋白質(zhì)對交互關(guān)系識別起到很大的幫助。
表3 SVM分類結(jié)果 %
從表3中發(fā)現(xiàn),idf、dbidf和dsidf這三種方法的識別結(jié)果較tp沒有明顯提升。而筆者設(shè)計的權(quán)重公式正類精確度達到了92.7%,比tp提高了18.9%。負類蛋白質(zhì)對的F值比tp提高了7%,并且總體分類準(zhǔn)確率較tp提高了3.3%。這說明,采用power為權(quán)重公式的分類器能有效識別有交互關(guān)系的蛋白質(zhì)對,被誤分的負類蛋白質(zhì)對較少。在需要準(zhǔn)確識別有交互蛋白質(zhì)對的系統(tǒng)中,提出的方法能夠起到很好的效果。
在簽名檔集中,正類和負類蛋白質(zhì)對的簽名檔的數(shù)量相近,一些特征在正類蛋白質(zhì)對的簽名檔中較常出現(xiàn),在負類蛋白質(zhì)對的簽名檔中較少出現(xiàn)。這些特征單詞有助于識別有交互關(guān)系的蛋白質(zhì)對,因此,采用的dbidf、dsidf和power這三種公式賦予了這些單詞較大的權(quán)重,使正類蛋白質(zhì)對的特征向量能明顯區(qū)別于負類蛋白質(zhì)對的特征向量,提高蛋白質(zhì)對交互關(guān)系的識別。在正類和負類簽名檔中分布存在明顯差異的單詞對于蛋白質(zhì)對交互關(guān)系識別有著很大的作用,給這部分單詞賦予一個較大的權(quán)值,有助于識別有交互關(guān)系的蛋白質(zhì)對。
區(qū)別于其他基于單句的機器學(xué)習(xí)方法,文中直接以蛋白質(zhì)對為研究對象,根據(jù)現(xiàn)有的PPI數(shù)據(jù)庫構(gòu)建大規(guī)模語料庫為依據(jù)提取特征,用特征向量表示蛋白質(zhì)對的關(guān)系。根據(jù)特征單詞在正類和負類蛋白質(zhì)對簽名檔中分布的差異,采用不同的權(quán)值計算公式研究特征詞語的重要性。最后,采用K近鄰和SVM分類算法構(gòu)建分類器,通過文本分類的方法識別目標(biāo)兩個蛋白質(zhì)對之間是否存在依賴關(guān)系。
大量的蛋白質(zhì)對交互關(guān)系信息隱藏在文獻中,而基于大規(guī)模語料庫的PPI識別能充分利用已有的PPI數(shù)據(jù),無需進行額外的人工標(biāo)注,識別結(jié)果可直接用于PPI網(wǎng)絡(luò)的構(gòu)建。文中著重研究特征詞語的重要性,從實驗結(jié)果可以發(fā)現(xiàn),根據(jù)特征單詞在不同類別文檔中出現(xiàn)的差異,對特征向量根據(jù)特征詞語重要性進行加權(quán)后,PPI的識別結(jié)果有了明顯提升。
[1]PrasadTSK,GoelR,KandasamyK,etal.Humanproteinreferencedatabase-2009update[J].NucleicAcidsResearch,2009,37:767-772.
[2]KerrienS,Alam-FaruqueY,ArandaB,etal.IntAct-opensourceresourceformolecularinteractiondata[J].NucleicAcidsResearch,2007,35:561-565.
[3]CeolA,AryamontriAC,LicataL,etal.MINT,themolecularinteractiondatabase:2009update[J].NucleicAcidsResearch,2010,38:532-539.
[4]BunescuR,MooneyR,RamaniA,etal.Integratingco-occurrencestatisticswithinformationextractionforrobustretrievalofproteininteractionsfromMedline[C]//Proceedingsoftheworkshoponlinkingnaturallanguageprocessingandbiology:towardsdeeperbiologicalliteratureanalysis.[s.l.]:AssociationforComputationalLinguistics,2006:49-56.
[5]KoikeA,KobayashiY,TakagiT.Kinasepathwaydatabase:anintegratedprotein-kinaseandNLP-basedprotein-interactionresource[J].GenomeResearch,2003,13:1231-1243.
[6] 楊志豪,洪 莉,林鴻飛,等.基于支持向量機的生物醫(yī)學(xué)文獻蛋白質(zhì)關(guān)系抽取[J].智能系統(tǒng)學(xué)報,2008,3(4):361-369.
[7] 崔寶今,林鴻飛,張 霄.基于半監(jiān)督學(xué)習(xí)的蛋白質(zhì)關(guān)系抽取研究[J].山東大學(xué)學(xué)報:工學(xué)版,2009,39(3):16-21.
[8]GrimesGR,WenTQ,MewissenM,etal.PDQWizard:automatedprioritizationandcharacterizationofgeneandproteinlistsusingbiomedicalliterature[J].Bioinformatics,2006,22(16):2055-2057.
[9]AnaniadouS,KellDB,TsujiiJ.Textmininganditspotentialapplicationsinsystemsbiology[J].TrendsinBiotechnology,2006,24(12):571-579.
[10]FundelK,KüffnerR,ZimmerR.RelEx-relationextractionusingdependencyparsetrees[J].Bioinformatics,2007,23(3):365-371.
[11]TemkinJM,GilderMR.Extractionofproteininteractioninformationfromunstructuredtextusingacontext-freegrammar[J].Bioinformatics,2003,19(16):2046-2053.
[12]QianW,FuC,ChengH.Semi-supervisedmethodforextractionofprotein-proteininteractionsusinghybridmodel[C]//Proceedingsofthe2013thirdinternationalconferenceonintelligentsystemdesignandengineeringapplications.[s.l.]:IEEEComputerSociety,2013:1268-1271.
[13] Niu Y,Otasek D,Jurisica I.Evaluation of linguistic features useful in extraction of interactions from PubMed;application to annotating known,high-throughput and predicted interactions in I2D[J].Bioinformatics,2010,26(1):111-119.
[14] Haussler D.Convolution kernels on discrete structures[R].California:University of California at Santa Cruz,1999.
[15] Lodhi H,Saunders C,Shawe-Taylor J,et al.Text classification using string kernels[J].Journal of Machine Learning Research,2002,2(3):419-444.
[16] Bunescu R C,Mooney R J.A shortest path dependency kernel for relation extraction[C]//Proceedings of the conference on human language technology and empirical methods in natural language processing.[s.l.]:Association for Computational Linguistics,2005:724-731.
[17] 封二英,牛 耘,魏 歐,等.基于關(guān)系相似性的蛋白質(zhì)交互自動識別[J].計算機科學(xué),2013,40(6):229-232.
[18] 封二英,牛 耘,魏 歐.基于大規(guī)模文本的蛋白質(zhì)交互關(guān)系自動提取[J].計算機應(yīng)用,2012,32(S1):147-150.
[19] U.S.National Library of Medicine.PubMed[EB/OL].2011.http://www.ncbi.nlm.nih.gov/pubmed/.
[20] Sparck J K.A statistical interpretation of term specificity and its application in retrieval[J].Journal of Documentation,1972,28(1):11-21.
[21] Paltoglou G,Thelwall M.A study of information retrieval weighting schemes for sentiment analysis[C]//Proceedings of the 48th annual meeting of the association for computational linguistics.[s.l.]:Association for Computational Linguistics,2010:1386-1395.
[22] Chang C C,Lin C J.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems & Technology,2007,2(3):389-396.
Identification of Protein-protein Interaction Based on Feature Weighted
WU Hong-mei,NIU Yun
(School of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China)
In a model characterized by word,if the use of feature word in different categories exists obvious differences,it will have a very important impact on classification.Based on a large-scale corpus,study the effects of different methods of feature weighting on protein-protein interaction identification.Firstly,the signature of a protein pair is obtained by searching large scale biomedical text.Taking the words as the features which describe the relationship between the protein pair,construct Vector Space Model (SVM).Then,select different weighting methods to describe the importance of words.Finally,KnearestneighborandSVMclassifierareappliedtoidentifyPPIs.Accordingtotheexperimentalresults,PPIrecognitionaccuracyandrecallandprecisionhavebeensignificantlyimprovedwhenthefeaturevectorsareweighted.
protein-protein interaction;large-scale corpus;feature weighted;Knearestneighbor;SVM
2015-05-10
2015-08-13
時間:2016-01-26
國家自然科學(xué)基金資助項目(61202132,61170043)作者簡介:吳紅梅(1991-),女,碩士研究生,研究方向為自然語言處理;牛 耘,博士,副教授,CCF會員,研究方向為自然語言處理。
http://www.cnki.net/kcms/detail/61.1450.TP.20160126.1517.026.html
TP
A
1673-629X(2016)02-0114-04
10.3969/j.issn.1673-629X.2016.02.026