代啟國, 郭茂祖, 劉曉燕, 王春宇
(1.哈爾濱工業(yè)大學 計算機科學與技術學院, 哈爾濱 150001; 2.大連民族大學 計算機科學與工程學院, 遼寧 大連 116600;3.大連市民族文化數(shù)字化重點實驗室(大連民族大學), 遼寧 大連116600)
?
動態(tài)-靜態(tài)混合的時序蛋白質(zhì)網(wǎng)絡構建方法
代啟國1,2,3, 郭茂祖1, 劉曉燕1, 王春宇1
(1.哈爾濱工業(yè)大學 計算機科學與技術學院, 哈爾濱 150001; 2.大連民族大學 計算機科學與工程學院, 遼寧 大連 116600;3.大連市民族文化數(shù)字化重點實驗室(大連民族大學), 遼寧 大連116600)
目前已公開的蛋白質(zhì)網(wǎng)絡多為靜態(tài)網(wǎng)絡,不能有效描述細胞中蛋白質(zhì)的動態(tài)活動特點. 通過融合基因表達數(shù)據(jù),研究人員可以構建出描述蛋白質(zhì)動態(tài)性的時序蛋白質(zhì)網(wǎng)絡. 現(xiàn)有方法假設所有蛋白質(zhì)都是動態(tài)變化的,而事實上除動態(tài)蛋白質(zhì)外細胞中還包含相對穩(wěn)定的靜態(tài)蛋白質(zhì). 為此,提出了一種基于動態(tài)-靜態(tài)蛋白質(zhì)混合的時序網(wǎng)絡構建新方法. 該方法根據(jù)基因表達變化情況將蛋白質(zhì)分為動態(tài)和靜態(tài)兩類,并在構建各時刻網(wǎng)絡時考慮動態(tài)與靜態(tài)蛋白質(zhì)之間的相互作用關系. 實驗結果表明,利用本文方法構建的時序蛋白質(zhì)網(wǎng)絡可以提高蛋白質(zhì)復合體識別的準確性,從而驗證了本文方法的可行性.
時序蛋白質(zhì)網(wǎng)絡;蛋白質(zhì)相互作用;基因表達;生物網(wǎng)絡;蛋白質(zhì)復合體識別
蛋白質(zhì)相互作用網(wǎng)絡(protein-protein interaction network,簡稱蛋白質(zhì)網(wǎng)絡)是描述細胞中蛋白質(zhì)活動的一種生物網(wǎng)絡[1-2]. 由于蛋白質(zhì)在生命活動中具有十分重要的作用,因而基于蛋白質(zhì)網(wǎng)絡的分析和挖掘方法越來越受到關注. 蛋白質(zhì)復合體識別[3-5]、關鍵蛋白質(zhì)識別[6]等很多生物信息研究都是以蛋白質(zhì)網(wǎng)絡為基礎的.
現(xiàn)有公開蛋白質(zhì)網(wǎng)絡通??杀硎緸橐粋€圖,其中節(jié)點表示蛋白質(zhì),邊表示蛋白質(zhì)之間的相互作用關系. 這種網(wǎng)絡一般假設蛋白質(zhì)的豐度都是靜態(tài)不變的,所描述的蛋白質(zhì)之間相互作用也是持續(xù)穩(wěn)定的,因而稱為“靜態(tài)蛋白質(zhì)網(wǎng)絡”. 然而,真實細胞系統(tǒng)中蛋白質(zhì)及其相互作用是隨時變化的,具有一定的動態(tài)性. Lichtenberg等人研究發(fā)現(xiàn),大部分復合體都是由動態(tài)和靜態(tài)兩類蛋白質(zhì)構成[7]. 然而,靜態(tài)蛋白質(zhì)網(wǎng)絡的簡單圖結構無法描述蛋白質(zhì)動態(tài)特性[8-10],因此有必要構建能夠描述蛋白質(zhì)動態(tài)特性的時序蛋白質(zhì)網(wǎng)絡模型.
在構建時序蛋白質(zhì)網(wǎng)絡的過程中,一個關鍵問題是如何確定蛋白質(zhì)在何時處于激活狀態(tài). 采用單一固定閾值方法確定蛋白質(zhì)的活動狀態(tài)與非活動狀態(tài)雖然簡單[8],但存在一定局限. 例如,一些蛋白質(zhì)的含量在整個細胞周期都較低. 如果采用單一的固定閾值,那么這些蛋白質(zhì)可能會被認為是非激活狀態(tài)而被忽略掉. Hegde等人提出了利用不同基因表達數(shù)據(jù)中表達值的均值確定蛋白質(zhì)的活動狀態(tài)[10]. 王建新等人[11]針對蛋白質(zhì)不同的表達模式特性,提出了3-σ閾值計算方法. 上述方法假設所有蛋白質(zhì)豐度都是動態(tài)變化. 然而,生物學研究表明,細胞中蛋白質(zhì)并非全部都是動態(tài)的,有些蛋白質(zhì)的豐度受細胞周期、環(huán)境等影響較小,表現(xiàn)出一定的靜態(tài)特性[12]. 因此,將所有蛋白質(zhì)均視為動態(tài)的方法,不能準確地刻畫細胞中真實的蛋白質(zhì)活動規(guī)律.
為此,本文提出一種動態(tài)-靜態(tài)蛋白質(zhì)混合的時序蛋白質(zhì)網(wǎng)絡構建方法(A hybrid temporal protein network,HTPIN). 該方法首先將蛋白質(zhì)劃分為動態(tài)和靜態(tài)兩類,然后同時利用動態(tài)蛋白質(zhì)與靜態(tài)蛋白質(zhì)之間相互作用關系構建時序網(wǎng)絡. 通過相關實驗測試與分析,利用本文方法所構建的時序蛋白質(zhì)網(wǎng)絡具有很好的可靠性,可以提高蛋白質(zhì)復合體識別的準確性.
給出一種基于動態(tài)-靜態(tài)蛋白質(zhì)混合的時序蛋白質(zhì)網(wǎng)絡構建方法(HTPIN). 首先,以基因表達數(shù)據(jù)為基礎,利用蛋白質(zhì)編碼基因在不同時刻表達值變化的波動性,將蛋白質(zhì)劃分為動態(tài)和靜態(tài)兩類;然后,采用3-σ閾值[11]判斷動態(tài)蛋白質(zhì)激活時刻;最后,構建各時刻蛋白質(zhì)網(wǎng)絡. 該方法的基本流程如圖1所示.
1.1 動態(tài)與靜態(tài)蛋白質(zhì)
以基因表達量作為判定蛋白質(zhì)動、靜態(tài)屬性的依據(jù). 假設給定蛋白質(zhì)網(wǎng)絡中有N個蛋白質(zhì),基因表達數(shù)據(jù)中記錄了T個時間點的表達量. 對于蛋白質(zhì)i(1≤i≤N),其對應編碼基因在所有時刻的表達值Expi可表示為
其中,eit表示蛋白質(zhì)i的編碼基因在t時刻的表達量. 則蛋白質(zhì)i表達量的方差[12]為
圖1 HTPIN方法構建時序蛋白質(zhì)網(wǎng)絡過程示意
Fig.1 Illustration of construction process of temporal protein networks with HTPIN
利用表達量波動值EVi,表示蛋白質(zhì)i在所有時刻表達量的方差值. 具體來講,表達量方差值高于蛋白質(zhì)i表達量方差的蛋白質(zhì)數(shù)目記為ni,則蛋白質(zhì)i編碼基因表達量波動值EVi=ni/N. 該值介于0和1之間,越接近于0表明蛋白質(zhì)表達量越穩(wěn)定;越接近于1則表示蛋白質(zhì)表達量波動性越大.
引入波動性閾值thDyn(0≤thDyn≤1)確定每個蛋白質(zhì)的動、靜態(tài)屬性. 蛋白質(zhì)i的波動值EVi大于或等于閾值thDyn,則認為該蛋白質(zhì)是動態(tài)蛋白質(zhì),否則為靜態(tài)蛋白質(zhì),具體可形式化為
其中isDyn(i) 值為1表示蛋白質(zhì)i是動態(tài)蛋白質(zhì),為0表示蛋白質(zhì)是靜態(tài)蛋白質(zhì). 動態(tài)閾值thDyn為HTPIN算法參數(shù).
1.2 確定蛋白質(zhì)激活時刻
1.2.1 動態(tài)蛋白質(zhì)的激活狀態(tài)
動態(tài)變化的蛋白質(zhì)只有在其處于激活狀態(tài)時,才與其他蛋白質(zhì)發(fā)生相互作用. 因此,需要確定動態(tài)蛋白質(zhì)處于激活狀態(tài)的時間點. 動態(tài)蛋白質(zhì)在不同時間點對應表達量具有很大的波動性. 對于某一時刻,如果一個動態(tài)蛋白質(zhì)的表達量相對較高,則認為其處于活動狀態(tài);而表達量相對較低,則認為是非活動狀態(tài). 為此,引入激活閾值thiAct來判斷動態(tài)蛋白質(zhì)在各時間點所處的狀態(tài). 對于動態(tài)蛋白質(zhì)i(isDyn(i)=1),如果其在時間點t對應基因的表達值eit高于該激活閾值thiAct,則認為其在t時刻為激活狀態(tài),否則為未激活狀態(tài),即
其中,isActive(i, t)值為1表示激活,0表示未激活. 采用3-σ方法[11]確定激活閾值thiAct,其具體方法為
1.2.2 靜態(tài)蛋白質(zhì)的激活狀態(tài)
靜態(tài)蛋白質(zhì)對應的基因表達量相對穩(wěn)定,因而通常認為它們在整個生物過程中活動狀態(tài)是持續(xù)穩(wěn)定的[7, 12]. 因此,靜態(tài)蛋白質(zhì)在所有時刻均處于激活狀態(tài).
1.3 構建時序蛋白質(zhì)網(wǎng)絡
基于動態(tài)-靜態(tài)蛋白質(zhì)混合的時序網(wǎng)絡構建方法主要分為兩個步驟:首先,抽取靜態(tài)蛋白質(zhì)之間相互作用網(wǎng)絡,即靜態(tài)子網(wǎng)絡;然后,以其為基礎在每個時間點增加在該時刻處于激活狀態(tài)的動態(tài)蛋白質(zhì)及其相互作用關系.
1.3.1 輸入數(shù)據(jù)描述
輸入數(shù)據(jù)包括公開蛋白質(zhì)網(wǎng)絡G和某個生物過程中的時序基因表達數(shù)據(jù)Exp. 其中,網(wǎng)絡G可描述為G=(V, E),V表示其中蛋白質(zhì)集合,E表示蛋白質(zhì)相互作用關系集合. 網(wǎng)絡中的蛋白質(zhì)數(shù)目記為N(N=|V|). 時序基因表達數(shù)據(jù)Exp中收錄了所有N個蛋白質(zhì)在T個時刻下對應基因的表達量,即
1.3.2 抽取靜態(tài)子網(wǎng)絡
抽取靜態(tài)子網(wǎng)絡是指獲取輸入蛋白質(zhì)網(wǎng)絡G中所有靜態(tài)蛋白質(zhì)構成的子網(wǎng)絡. 通過預先抽取靜態(tài)子網(wǎng)絡可以避免在各時刻重復構建,提高構建時序網(wǎng)絡的效率. 所抽取的靜態(tài)子網(wǎng)絡可表示為GStat=(VStat, EStat),其中包含所有靜態(tài)蛋白質(zhì)VStat和它們在G中的相互作用關系EStat.
1.3.3 構建各時刻動態(tài)-靜態(tài)混合網(wǎng)絡
時序蛋白質(zhì)網(wǎng)絡GTC可表示為
(8)
其中,Gt為t時刻蛋白質(zhì)網(wǎng)絡,表示為Gt=(Vt,Et),Vt和Et分別構成該時刻網(wǎng)絡的蛋白質(zhì)和相互作用關系集合. 由于已經(jīng)預提取了每個時刻靜態(tài)子網(wǎng)絡,因此構建各時刻網(wǎng)絡可以轉化為在靜態(tài)子網(wǎng)絡基礎上,增加在該時刻處于激活狀態(tài)的動態(tài)蛋白質(zhì)以及與它們之間的相互作用關系;此外,還增加它們與靜態(tài)蛋白質(zhì)之間的作用關系.
1.3.4 動態(tài)-靜態(tài)混合時序蛋白質(zhì)網(wǎng)絡構建算法
以上述主要過程為基礎,基于基因表達數(shù)據(jù)的動態(tài)-靜態(tài)混合時序蛋白質(zhì)網(wǎng)絡的構建算法(HTPIN)的描述如下.
輸入:蛋白質(zhì)相互作用網(wǎng)絡G=(V,E);基因表達數(shù)據(jù)Exp={Exp1,…,Exp|V|};動態(tài)閾值thDyn.
輸出:混合型時序蛋白質(zhì)網(wǎng)絡GTC.
初始化靜態(tài)子網(wǎng)絡GStat=(VStat,EStat),VStat=?,EStat=?;
初始化動態(tài)蛋白質(zhì)集合VDyn=?;
for each p in V/* 將蛋白質(zhì)分為動態(tài)和靜態(tài)兩類蛋白質(zhì) */
if p為動態(tài)蛋白質(zhì)isDyn(p,thDyn)
將p加入到動態(tài)蛋白質(zhì)集合VDyn=VDyn∪{p};
else
將p加入到靜態(tài)蛋白質(zhì)集合VStat=VStat∪{p};
end if
end for
for each epqin E
if both p and q in Estat
將epq加入到EStat;
end if
end for
初始化時序網(wǎng)絡GTC={G1,…,GT}
for t=1 to T/* 獲取各時刻蛋白質(zhì)網(wǎng)絡 */
初始化t時刻網(wǎng)絡Gt=(Vt,Et),Vt=?,Et=?;
for each p in VDyn/* 獲取t時處于激活狀態(tài)的動態(tài)蛋白質(zhì) */
if 蛋白質(zhì)p在t時刻處于激活狀態(tài)isActive(p,t)
Vt=Vt∪{p};
end if
end for
for each p in Vt/* 獲取激活動態(tài)蛋白質(zhì)之間的相互作用 */
for each q≠p in Vt
if 輸入網(wǎng)絡G中存在p和q的相互作用,即epqin E
將epq加入到Et;
end if
end for
end for
for each p in Vt/* 激活動態(tài)蛋白質(zhì)與靜態(tài)蛋白質(zhì)相互作用*/
for each q in VStat
if 輸入網(wǎng)絡G中存在p和q的相互作用,即epqin E
將epq加入到Et;
end if
end for
end for
Vt=Vt∪VStat;
end for
輸出時序蛋白質(zhì)網(wǎng)絡GTC
為了驗證本文HTPIN方法的合理性,對其進行多方面的測試. 基于蛋白質(zhì)網(wǎng)絡識別復合體是針對蛋白質(zhì)網(wǎng)絡進行信息挖掘的典型問題. 蛋白質(zhì)網(wǎng)絡是計算識別復合體的重要數(shù)據(jù)依據(jù). 蛋白質(zhì)復合體是由多個蛋白質(zhì)通過物理相互作用結合形成,這些相互作用緊密的蛋白質(zhì)一般在蛋白質(zhì)網(wǎng)絡中對應稠密的子圖結構[1-2,13]. 因而,可以通過挖掘網(wǎng)絡中稠密子圖識別蛋白質(zhì)復合體. 也就是說,從蛋白質(zhì)網(wǎng)絡中識別復合體是一個圖聚類問題. 因此,本文通過分析所構建的時序蛋白質(zhì)網(wǎng)絡是否可以提高復合體識別準確性來評價HTPIN方法的有效性.
2.1 實驗設計及實驗數(shù)據(jù)
為了達到通過識別復合體驗證時序網(wǎng)絡的目的,在實驗中采用了如下方案:對于給定的一種復合體識別算法和構建的時序網(wǎng)絡GTC={G1,G2,…,Gt,…,GT},首先將識別算法依次在每個時刻的蛋白質(zhì)網(wǎng)絡Gt上運行,獲得在t時刻的識別結果Ct;然后將在所有時刻網(wǎng)絡上的識別結果集合在一起,去除重復復合體,形成復合體集合C,即為該識別算法在時序網(wǎng)絡GTC上最終識別結果. 通過分析識別結果C與已知復合體集合(CYC2008)[14]匹配的組合評分,以及功能一致性兩方面評價時序網(wǎng)絡. 組合評分具體為F-Measure、ACC和MMR三項子指標之和[15]. 為了更加客觀地進行評價,避免個別算法對時序網(wǎng)絡的偏好性,在實驗中測試了CPL[16]、ClusterONE[17]和PLSMC[15]3種不同類型算法.
在基因表達數(shù)據(jù)方面,采用了GEO數(shù)據(jù)庫中與酵母代謝周期相關的GSE3431系列數(shù)據(jù)[18]. 該數(shù)據(jù)采集背景是限制營養(yǎng)條件下連續(xù)培養(yǎng)酵母細胞的3個代謝周期,每個周期采樣12個時間點,間隔為25 min.
在靜態(tài)蛋白質(zhì)網(wǎng)絡方面,采用了酵母的BioGRID蛋白質(zhì)網(wǎng)絡[19]. 在兩種類型數(shù)據(jù)之間,采用ORF命名類型來作為關鍵字以建立兩種數(shù)據(jù)中的基因與蛋白質(zhì)之間的對應關系. 濾掉兩種數(shù)據(jù)中未建立映射關系的基因或蛋白質(zhì).
2.2 波動性閾值的影響
HTPIN時序網(wǎng)絡構建方法的核心是動態(tài)-靜態(tài)蛋白質(zhì)混合的思想. 為了驗證這種方案的合理性,本文研究了控制靜態(tài)與動態(tài)蛋白質(zhì)混合比例的波動性閾值thDyn對所構建網(wǎng)絡的影響. 測試了該閾值thDyn={0.0,0.1,…,0.9,10}的不同取值情況. 對于每個取值,統(tǒng)計分析不同算法在時序網(wǎng)絡上的復合體識別結果.
圖2描述了CPL、ClusterONE和PLSMC三種算法在采用不同波動性閾值而構建的時序網(wǎng)絡上識別復合體結果的對比情況. 當thDyn=0時表明所有蛋白質(zhì)均被視為動態(tài)蛋白質(zhì),并認為這些蛋白質(zhì)只在部分時刻處于活動狀態(tài);而當thDyn=1時則表示所有蛋白質(zhì)都被視為靜態(tài)蛋白質(zhì),在所有時刻均出現(xiàn).
圖2 采用不同波動性閾值thDyn構建時序網(wǎng)絡對復合體識別性能的影響
Fig.2 The performance comparison of complex detection on time-course protein network constructed by HTPIN with different volatility threshold thDyn
從圖2可見,不同算法識別結果的組合評分均隨波動性閾值thDyn的改變而較大發(fā)生變化. 但所有參與測試的算法識別結果的組合評分峰值均出現(xiàn)在當thDyn=0.2至0.4之間,即此時復合體識別結果要好于thDyn=0和thDyn=1兩種極端情況. 由此表明,在構建時序蛋白質(zhì)網(wǎng)絡時,將動態(tài)蛋白質(zhì)與靜態(tài)蛋白質(zhì)控制在合理的比例可以有效提高復合體識別的總體性能. 上述實驗結果表明,本文提出的基于靜態(tài)-動態(tài)蛋白質(zhì)混合思想構建時序蛋白質(zhì)網(wǎng)絡的方法具有一定的合理性.
圖3描述了在波動性閾值thdyn=0.2條件下,YKL101w、YNL286w和YLR011w3個靜態(tài)蛋白質(zhì)及其相鄰接的部分動態(tài)蛋白質(zhì),在時刻1、4、7、10等4個時間點所構成的蛋白質(zhì)網(wǎng)絡. 從4個示例網(wǎng)絡中可見,在每個時刻,與指定的靜態(tài)蛋白質(zhì)鄰接的動態(tài)蛋白質(zhì)有所差別,既體現(xiàn)了靜態(tài)蛋白質(zhì)的穩(wěn)定性,同時也刻畫了動態(tài)蛋白質(zhì)的變化特點.
圖3 在thDyn=0.2條件下,第1、4、7和10時刻點蛋白質(zhì)子網(wǎng)絡示意圖
Fig.3 Sub-networks on time 1, 4, 7 and 10 under the condition of thDyn=0.2
2.3 不同類型蛋白質(zhì)網(wǎng)絡的對比
下面將HTPIN方法構建的時序網(wǎng)絡、同類方法DPIN方法[11]所構建的時序網(wǎng)絡進行比較. DPIN與HTPIN均是用來構建時序蛋白質(zhì)網(wǎng)絡的方法. 二者主要區(qū)別在于,DPIN方法將所有蛋白質(zhì)均視為動態(tài)蛋白質(zhì),而HTPIN方法則根據(jù)表達量波動情況將蛋白質(zhì)劃分為動態(tài)、靜態(tài)兩類,并在此基礎上構建混合蛋白質(zhì)網(wǎng)絡. 通過比較兩類方法可以證明本文提出的基于“混合”思想構建時序網(wǎng)絡方法的有效性. 此外,還與原始蛋白質(zhì)網(wǎng)絡進行了對比分析. 實驗中,HTPIN方法采用了2.2節(jié)中獲得最優(yōu)組合評分的波動性閾值.
2.3.1 識別復合體與已知復合體匹配評分
表1列出了CPL、ClusterONE以及PLSMC三種算法在不同類型蛋白質(zhì)網(wǎng)絡上識別復合體的評價指標,其中組合評分為F-Measure、ACC和MMR三項之和[15]. 在HTPIN和DPIN構建的網(wǎng)絡上,ClusterONE和PLSMC算法識別結果的組合評分要好于在原始蛋白質(zhì)網(wǎng)絡評分值,表明通過融合基因表達數(shù)據(jù)構建時序蛋白質(zhì)網(wǎng)絡可以提高蛋白質(zhì)復合體識別的準確性的. 值得注意的是,所有參與測試的復合體識別算法在HTPIN方法構建的網(wǎng)絡上均取得了最優(yōu)的組合得分,表明本文方法較DPIN方法更有利于復合體的識別.
2.3.2 識別復合體的功能一致性分析
下面對復合體識別算法在不同類型網(wǎng)絡上識別復合體的GO功能一致性進行了分析. 利用GOTermFinder工具[20]分析所識別復合體的功能一致性. 實驗中計算了在p-value≤1.0E-10時功能一致性的復合體占所有識別復合體的比例. 該比例越高,表明所識別復合體功能一致性越高,具有更強的生物意義.
表1 不同蛋白質(zhì)網(wǎng)絡識別的復合體與已知復合體匹配
Tab.1 Comparison of matching between known complexes and the complexes detected by using different protein networks
復合體識別算法時序網(wǎng)絡構建方法F-MeasureACCMMR組合評分HTPIN0.340.600.461.40CPLDPIN0.290.550.381.22原網(wǎng)絡0.350.600.351.30HTPIN0.610.710.491.81ClusterONEDPIN0.530.670.461.66原網(wǎng)絡0.490.630.411.53HTPIN0.630.720.571.92PLSMCDPIN0.520.670.461.65原網(wǎng)絡0.490.630.301.42
表2 不同蛋白質(zhì)網(wǎng)絡下識別復合體的功能一致性
Tab.2 Comparison of function homogeneity of the complexes detected by using different protein networks
復合體識別算法時序網(wǎng)絡構建方法MFCCBPHTPIN0.290.410.35CPLDPIN0.270.350.30原網(wǎng)絡0.330.330.31HTPIN0.270.250.25ClusterONEDPIN0.250.240.23原網(wǎng)絡0.270.140.18HTPIN0.390.500.39PLSMCDPIN0.360.470.37原網(wǎng)絡0.400.490.36
表2列出了CPL、ClusterONE和PLSMC三種算法在不同類型網(wǎng)絡上識別復合體的功能一致性比例. 表2列出了關于GO所包含的三個方面功能注釋的分析結果,分別為分子功能(MF)、細胞組件(CC)和生物過程(BP). 從表2可以看出,所有參與測試識別算法在HTPIN與DPIN兩種時序蛋白質(zhì)網(wǎng)絡上所識別的復合體,在細胞組件和生物過程兩個方面的功能一致性均要優(yōu)于在原始網(wǎng)絡上的識別結果. 并且,基于HTPIN網(wǎng)絡的識別結果要優(yōu)于基于DPIN的識別結果. 上述實驗結果表明,利用HTPIN方法構建的時序網(wǎng)絡可以提高識別復合體的功能一致性.
動態(tài)-靜態(tài)蛋白質(zhì)混合的時序蛋白質(zhì)網(wǎng)絡構建方法的主要特點是,在構建各時刻網(wǎng)絡過程中,同時考慮動態(tài)蛋白質(zhì)與靜態(tài)蛋白質(zhì)的相互作用關系. 實驗結果表明,這種具有混合特征的時序網(wǎng)絡能夠提高復合體識別的準確性,從而驗證了基于“動-靜混合”思想構建時序蛋白質(zhì)網(wǎng)絡的方法是合理的.
值得注意的是,本文方法中的波動性閾值本質(zhì)上是用于控制網(wǎng)絡中靜態(tài)與動態(tài)蛋白質(zhì)比例的一種參數(shù). 文中雖然考察了該參數(shù)的不同取值對網(wǎng)絡構建的影響,但并未關注該參數(shù)的具體計算方法. 作為下一步的工作,將繼續(xù)研究用于確定波動性閾值的自動計算方法,以增強本文方法的實際應用能力.
[1] TONG A H, DREES B, NARDELLI G, et al. A combined experimental and computational strategy to define protein interaction networks for peptide recognition modules[J]. Science, 2002, 295(5553): 321-324.
[2] SPIRIN V, MIRNY L A. Protein complexes and functional modules in molecular networks[J]. Proceedings of the National Academy of Sciences, 2003, 100(21):12123-12128.
[3]冀俊忠, 劉志軍, 劉紅欣, 等. 蛋白質(zhì)相互作用網(wǎng)絡功能模塊檢測的研究綜述[J]. 自動化學報, 2014, 40(4):577-593.
JI Junzhong, LIU Zhijun, LIU Hongxin, et al. An overview of research on functional module detection for protein-protein interaction networks[J]. Acta Automatica Sinica, 2014, 40(4): 577-593.
[4]魚亮, 高琳, 孫鵬崗. 蛋白質(zhì)網(wǎng)絡中復合體和功能模塊預測算法研究[J]. 計算機學報, 2011, 34(7):1239-1251.
YU Liang, GAO Lin, SUN Penggang. Research on algorithms for complexes and functional modules prediction in protein-protein interaction networks[J]. Chinese Journal of Computers, 2011,34(7): 1239-1251.
[5]湯?,|, 王建新, 胡秋玲. 蛋白質(zhì)復合物預測方法分析與比較[J]. 計算機應用研究, 2011, 28(10): 3611-3614.
TANG Xiwei, WANG Jianxin, HU Qiuling. Analysis and compare of methods predicting protein complex[J]. Application Research of Computers[J]. 2011, 28(10): 3611-3614.
[6]黃海濱, 楊路明, 王建新, 等. 基于復合參數(shù)的蛋白質(zhì)網(wǎng)絡關鍵節(jié)點識別技術[J]. 自動化學報, 2008, 34(11):1388-1395.
HUANG Haibin, YANG Luming, WANG Jianxin, et al. Identification technique of essential nodes in protein networks based on combined parameters[J]. Acta Automatica Sinica, 2008, 34(11): 1388-1395.
[7] LICHTENBERG U, JENSEN L J, BRUNAK S, et al. Dynamic complex formation during the yeast cell cycle[J]. Science, 2005, 307(5710):724-727.
[8] TANG Xiwei, WANG Jianxin, LIU Binbin, et al. A comparison of the functional modules identified from time course and static PPI network data[J]. BMC Bioinformatics, 2011, 12(1):1-15.
[9] WANG Jianxin, PENG Xiaoqing, PENG Wei, et al. Dynamic protein interaction network construction and applications[J]. Proteomics, 2014, 14(4-5): 338-352.
[10]HEGDE S R, MANIMARAN P, MANDE S C. Dynamic changes in protein functional linkage networks revealed by integration with gene expression data[J]. PLoS Computational Biology, 2008, 4(11):e1000237.
[11]WANG Jianxin, PENG Xiaoqing, LI Min, et al. Construction and application of dynamic protein interaction network based on time course gene expression data[J]. Proteomics, 2013, 13(2):301-312.
[12]KOMUROV K, WHITE M. Revealing static and dynamic modular architecture of the eukaryotic protein interaction network[J]. Molecular Systems Biology, 2007, 3(1):110.
[13]JANJIC V, SHARAN R, PRZULJ N. Modelling the Yeast Interactome[J]. Scientific Reports, 2014, 4:4273.
[14]PU S, WONG J, TURNER B, et al. Up-to-date catalogues of yeast protein complexes[J]. Nucleic Acids Research, 2009, 37(3):825-831.
[15]DAI Qiguo, GUO Maozu, GUO Yingjie, et al. A least square method based model for identifying protein complexes in protein-protein interaction network[J]. Biomed Research International, 2013,2014:720960-720960.
[16]DAI Qiguo, GUO Maozu, LIU Xiaoyan, et al. CPL: Detecting protein complexes by propagating labels on protein-protein interaction network[J]. Journal of Computer Science and Technology, 2014, 29(6): 1083-1093.
[17]NEPUSZ T, YU H, PACCANARO A. Detecting overlapping protein complexes in protein-protein interaction networks[J]. Nature Methods, 2012, 9(5): 471-472.
[18]TU B P, KUDLICKI A, ROWICKA M, et al. Logic of the yeast metabolic cycle: temporal compart-mentalization of cellular processes[J]. Science, 2005, 310(5751):1152-1158.
[19]STARK C, BREITKREUTZ B J, REGULY T, et al. BioGRID: a general repository for interaction datasets[J]. Nucleic Acids Research, 2006, 34(suppl 1):D535-D539.
[20]BOYLE E I, WENG S, GOLLUB J, et al. GO: TermFinder—open source software for accessing Gene Ontology information and finding significantly enriched Gene Ontology terms associated with a list of genes[J]. Bioinformatics, 2004, 20(18):3710-3715.
(編輯 王小唯 苗秀芝)
A method of constructing temporal protein networks by hybridizing dynamic and static proteins
DAI Qiguo1,2,3, GUO Maozu1, LIU Xiaoyan1, WANG Chunyu1
(1.School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China;2. School of Computer Science and Engineering, Dalian Minzu University, Dalian 116600, Liaoning, China;3.Dalian Key Lab of Digital Technology for National Culture(Dalian Minzu University), Dalian 116600, Liaoning, China)
Public available protein networks at present are static, which could not be used to describe the dynamic characteristics of proteins in a cell effectively. It is necessary to construct temporal protein network by integrating other biological data, which reflects the dynamic activities of proteins. Most of previous methods assume that all proteins are dynamic. However, in addition to dynamic protein, there are many static proteins in the cell. To this end, this paper proposes a new method to construct a temporal protein network both with dynamic and static proteins. In the method, proteins are classified into two types of dynamic and static, and then a protein network is constructed on each time point by both considering the interactions of dynamic and static proteins. Experimental test results show that the temporal protein network constructed by using the proposed method can improve the accuracy of the identification of protein complexes, which verified the reliability of the proposed method.
temporal protein network; protein interaction; gene expression; biological network; protein complex identification
10.11918/j.issn.0367-6234.2016.11.007
2015-05-08
國家自然科學基金(91335112,61571163,61532014,61402132,61271346);中央高?;究蒲袠I(yè)務費專項資金(DC201501030)
代啟國(1985—),男,講師; 郭茂祖(1966—),男,教授,博士生導師
郭茂祖,maozuguo@hit.edu.cn
TP391
A
0367-6234(2016)11-0041-06