崔雙龍++李圓媛
摘 要:流感病毒是一種重要的呼吸道疾病病原,容易在人群中造成地方流行,給人類(lèi)帶來(lái)災(zāi)難和危害。利用A型流感病毒的四種毒株H3N2、H5N1、H7N7和H7N9的基因表達(dá)譜數(shù)據(jù)集,運(yùn)用偏最小二乘法,分別構(gòu)建了四個(gè)流感病毒感染復(fù)制的調(diào)控網(wǎng)絡(luò),挖掘了四個(gè)數(shù)據(jù)集下在病毒復(fù)制過(guò)程中發(fā)揮重要功能的基因,為進(jìn)一步探索流感病毒在宿主細(xì)胞內(nèi)的復(fù)制機(jī)制,揭示流感病毒的致病機(jī)理提供了可能。
關(guān)鍵詞:偏最小二乘法 病毒復(fù)制 復(fù)雜網(wǎng)絡(luò)
中圖分類(lèi)號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2017)01(a)-0000-00
基金項(xiàng)目:湖北省教育廳科學(xué)技術(shù)研究計(jì)劃青年人才項(xiàng)目(Q20151505);武漢工程大學(xué)第十期大學(xué)生校長(zhǎng)基金項(xiàng)目(2015008)
1 引言
人類(lèi)約60-70%的傳染性疾病是由病毒感染所引起。近年來(lái),重大病毒傳染性疾病的爆發(fā)流行日趨嚴(yán)重,對(duì)人類(lèi)健康和社會(huì)經(jīng)濟(jì)發(fā)展構(gòu)成了巨大威脅。而這些病毒必須依靠宿主細(xì)胞才能不斷的復(fù)制下去,基于網(wǎng)絡(luò)的系統(tǒng)生物學(xué)方法,揭示病毒復(fù)制及與宿主相互作用網(wǎng)絡(luò)的分子機(jī)制,發(fā)現(xiàn)抗病毒藥物新靶標(biāo),為病毒性傳染病預(yù)防和治療提供新理論和新技術(shù),是當(dāng)前生命科學(xué)研究的前沿領(lǐng)域之一[1]。
2 多層網(wǎng)絡(luò)的構(gòu)造
2.1數(shù)據(jù)來(lái)源
在美國(guó)國(guó)家生物信息中心已經(jīng)公開(kāi)的數(shù)據(jù)庫(kù)中,GEO號(hào)為GSE49840的數(shù)據(jù)庫(kù)中包含了四組基因表達(dá)譜數(shù)據(jù)。這四組數(shù)據(jù)分別是被新型禽源流感病毒H7N9,禽流感病毒H5N1和H7N7,以及H3N2流感病毒數(shù)據(jù)。該實(shí)驗(yàn)數(shù)據(jù)通過(guò)四種不同的病毒去感染樣本,并且分別測(cè)量了病毒感染后宿主在3小時(shí)、7小時(shí)、12小時(shí)和24小時(shí)的基因表達(dá)譜數(shù)據(jù)。
2.2 數(shù)據(jù)預(yù)處理
對(duì)于每一組基因表達(dá)譜數(shù)據(jù),我們根據(jù)探針信息的注釋文件,將探針號(hào)與基因ID號(hào)對(duì)應(yīng)起來(lái),如果沒(méi)有對(duì)應(yīng)的基因ID號(hào),我們將舍棄該探針,如果有幾個(gè)探針對(duì)應(yīng)的是同一個(gè)基因的ID號(hào),我們將這幾個(gè)探針的平均值作為該基因的表達(dá)譜數(shù)據(jù)。
2.3 基因的選取
自2008年以來(lái)共有六個(gè)科研小組發(fā)現(xiàn)了參與流感病毒復(fù)制的人體宿主細(xì)胞因子,在這些宿主因子中有128個(gè)宿主基因至少被兩個(gè)實(shí)驗(yàn)證明參與了流感病毒復(fù)制[2]。我們發(fā)現(xiàn)這128個(gè)基因中有116個(gè)基因在GSE49840數(shù)據(jù)庫(kù)中有基因表達(dá)譜數(shù)據(jù)值,所以我們以這116個(gè)基因作為我們研究工作的候選基因。
2.4 多層網(wǎng)絡(luò)的構(gòu)建
一共有四組基因表達(dá)譜數(shù)據(jù),所以我們構(gòu)建了一個(gè)四層的多層網(wǎng)絡(luò),每一層是一種流感病毒的復(fù)制調(diào)控網(wǎng)絡(luò),用一個(gè)線(xiàn)性方程來(lái)近似基因間的調(diào)控關(guān)系,用偏最小二乘法求解線(xiàn)性模型中的調(diào)控參數(shù),并進(jìn)一步利用閾值篩選有顯著意義的調(diào)控關(guān)系,具體的步驟如下:
(1)計(jì)算成對(duì)基因之間的皮爾遜相關(guān)系數(shù),設(shè)定閾值,得到一個(gè)流感病毒復(fù)制調(diào)控的初始網(wǎng)絡(luò);
(2)為了簡(jiǎn)化,用一個(gè)線(xiàn)性方程來(lái)描述病毒復(fù)制有關(guān)的基因之間的調(diào)控關(guān)系:
其中 表示第 個(gè)基因的表達(dá)水平, 表示第 個(gè)基因?qū)Φ?個(gè)基因的作用強(qiáng)度。
(3)在Matlab中調(diào)用spline函數(shù),根據(jù)基因在3小時(shí)、7小時(shí)、12小時(shí)、24小時(shí)的表達(dá)值,利用三次樣條插值每隔0.5小時(shí)進(jìn)行插值,然后用中心差分值代替微分值,得到基因在3小時(shí)、7小時(shí)、12小時(shí)、24小時(shí)這四個(gè)時(shí)刻的表達(dá)值變化率:
(f)選取合適的閾值 ,刪除相互作用強(qiáng)度較小的邊,從而得到每種病毒感染下的基因調(diào)控網(wǎng)絡(luò)。閾值 的選取是基于統(tǒng)計(jì)網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)隨著 的變化情況,當(dāng)節(jié)點(diǎn)數(shù)發(fā)生顯著變化時(shí)此時(shí)對(duì)應(yīng)的 值即為閾值。
3 重要模塊及基因的識(shí)別
首先基于所構(gòu)造的多層網(wǎng)絡(luò),利用模塊探測(cè)算法ClusterOne[4],識(shí)別了每一層網(wǎng)絡(luò)中的模塊。然后參照文獻(xiàn)[5]中定義的模塊影響力指標(biāo),分別計(jì)算了四層網(wǎng)絡(luò)中每一層網(wǎng)絡(luò)的高影響力模塊,如表1所示:
在這些高影響力模塊中,基因DAP3、C6orf62、ACVR1C、ATP6V0D1至少兩次出現(xiàn)在了不同病毒的高影響力模塊中,我們認(rèn)為這四個(gè)基因在流感病毒的復(fù)制過(guò)程中發(fā)揮了重要的作用。它們可以成為新的抗病毒藥物的靶標(biāo)。
4 結(jié)論
本文中基因表達(dá)譜數(shù)據(jù)出發(fā),利用偏最小二乘法構(gòu)建了一個(gè)流感病毒復(fù)制的基因調(diào)控多層網(wǎng)絡(luò),每一層網(wǎng)絡(luò)是一種流感病毒,然后基于所構(gòu)造的多層網(wǎng)絡(luò)挖掘了與病毒復(fù)制有關(guān)的重要模塊和基因?yàn)榱鞲胁《緩?fù)制機(jī)制的研究和抗病毒藥物的研制提供了新的思路。
參考文獻(xiàn)
[1] N.-Y. Hsu, O. Ilnytska, G. Belov, et al. Viral reorganization of the secretory pathway generates distinct organelles for rna replication. Cell, 141(5):799–811, 2010.
[2] Watanabe T, Watanabe S, Kawaoka Y. Cellular networks involved in the influenza virus life cycle[J]. Cell host & microbe, 2010, 7(6): 427-439.
[3] 王惠文,吳載斌,孟潔. 偏最小二乘回歸的線(xiàn)性與非線(xiàn)性方法[M]. 北京:國(guó)防工業(yè)出版社, 2006
[4] T. Nepusz, H. Yu, and A. Paccanaro. Detecting overlapping protein complexes in protein-protein interaction networks. Nature Methods, 9(5):471–472, 2012.
[5] Y. Li, S. Jin, L. Lei, Z. Pan, and X. Zou. Deciphering deterioration mechanisms of complex diseases based on the construction of dynamic networks and systems analysis. Scientific Reports, 5:9283, 2015.