王曉曼 劉文奇
(昆明理工大學(xué)理學(xué)院,昆明,650093)
近些年來,復(fù)雜性科學(xué)的實踐研究迅速發(fā)展,分析方法不斷更新,技術(shù)應(yīng)用范圍日益擴(kuò)展。對于一個復(fù)雜系統(tǒng),單獨研究系統(tǒng)中的個體已經(jīng)不能反映系統(tǒng)的性質(zhì)。往往把系統(tǒng)中的個體視為節(jié)點,個體之間的關(guān)系抽象成邊,這樣就可以用復(fù)雜網(wǎng)絡(luò)來研究系統(tǒng)的整體性質(zhì)。目前,復(fù)雜網(wǎng)絡(luò)理論應(yīng)用的范圍越來越廣泛,不僅應(yīng)用到軍事[1]、政治[2]和交通[3],且已被用來理解生物系統(tǒng)中的基因功能[4]。
近些年來,癌癥患者的數(shù)量逐步上升,中國每年就新增400多萬癌癥患者。胃癌作為如今最常見的惡性腫瘤之一,發(fā)病率僅次于肺癌、乳腺癌、結(jié)/直腸癌和前列腺癌。早期胃癌病人的生存率能達(dá)到90%,但是大部分胃癌患者確診時就已經(jīng)喪失治療機會。楊維良等[5]的研究表明胃癌為一種高發(fā)、高惡性度、預(yù)后不良的惡性腫瘤,長期以來包括手術(shù)切除及其他綜合性治療的應(yīng)用,并沒有帶來滿意的生存率。胃癌本身的生物學(xué)過程歸根結(jié)底也是基因突變產(chǎn)生的,因此基因水平的治療成為胃癌治療學(xué)取得新突破的希望。如果能應(yīng)用科學(xué)的數(shù)據(jù)分析方法,找到胃癌惡化過程中的關(guān)鍵基因,就能為癌癥患者帶來意想不到的收益。
王頻等[6]的研究已經(jīng)通過RNA測序建立的癌癥數(shù)據(jù)(The cancer genome atlas,TCGA)和Affymetrix芯片(Affymetrix genechip arrays,HG-U133 Plus 2.0)產(chǎn)生的GSE307207這兩個數(shù)據(jù)庫中正常胃組織和癌癥組織之間的基因表達(dá),篩選出存在顯著差異的胃癌相關(guān)基因。這樣就大量剔除了與胃癌無關(guān)的基因,為分析關(guān)鍵基因縮小了范圍。
周暉杰[7]與李星[8]研究表明,基因與蛋白質(zhì)很少單獨起作用,而是通過網(wǎng)狀的相互作用而影響生物表達(dá),因此基因組的研究也從結(jié)構(gòu)基因組轉(zhuǎn)向了功能基因組的研究,通過對基因網(wǎng)絡(luò)的分析來了解生物系統(tǒng)的功能。Laura等[9]的研究表明,網(wǎng)絡(luò)生物學(xué)是解釋健康與疾病背景下基因組數(shù)據(jù)的一種系統(tǒng)性方法。其次王華等[10]已經(jīng)將復(fù)雜網(wǎng)絡(luò)的分析方法應(yīng)用到高血壓特征基因的篩選中。由于高血壓疾病在細(xì)胞、組織與生理水平上都表現(xiàn)出復(fù)雜性,因此應(yīng)用網(wǎng)絡(luò)分析方法來研究高血壓疾病。根據(jù)基因表達(dá)數(shù)據(jù)的相關(guān)性構(gòu)建網(wǎng)絡(luò)模型,網(wǎng)絡(luò)中的樞紐基因顯示出與具有不同表達(dá)水平的大多數(shù)基因相同的變化趨勢,并且具有相近的表達(dá)模式。所以樞紐基因比其他基因更具代表性,這些樞紐基因可成為病情分析的關(guān)鍵依據(jù)。
本文將復(fù)雜網(wǎng)絡(luò)與胃癌測序數(shù)據(jù)相聯(lián)系,將胃癌相關(guān)基因抽象為節(jié)點,依據(jù)胃癌ⅡB期樣本與胃癌ⅢA期樣本間的基因變化率構(gòu)建胃癌基因表達(dá)復(fù)雜網(wǎng)絡(luò)。通過分析該胃癌基因表達(dá)網(wǎng)絡(luò)的相關(guān)拓?fù)湫再|(zhì),發(fā)現(xiàn)網(wǎng)絡(luò)是稀疏的且具有小世界性。通過計算節(jié)點的度中心性、介數(shù)中心性和緊密度中心性,并引入綜合中心性指標(biāo),篩選出中心性較高的基因并做出了驗證,因此建議了胃癌惡化過程中的樞紐基因,為胃癌惡化提供了良好的預(yù)警信號。
本文使用的原始數(shù)據(jù)來自TCGA數(shù)據(jù)庫,包括7種胃癌分期共408個樣本,每個樣本包含60484個基因測序。由于原始數(shù)據(jù)量非常龐大,應(yīng)對數(shù)據(jù)進(jìn)行初步篩選和降維。
首先使用兩個可公開的國際腫瘤數(shù)據(jù)庫:由RNA測序建立的癌癥數(shù)據(jù)TCGA和Affymetrix芯片產(chǎn)生的GSE307207。比較這兩個數(shù)據(jù)庫中正常胃組織和癌癥組織之間的基因表達(dá),確定了存在顯著差異的基因。TCGA和GSE30727分別有688個和3239個基因達(dá)到了標(biāo)準(zhǔn)(2倍變化和校正后p值<0.05)。TCGA和GSE30727數(shù)據(jù)集之間存在275個重疊基因,將這275個基因保留,用于后續(xù)的分析[6]。這樣就篩選出與胃癌相關(guān)的基因,剔除了大量無關(guān)基因,為分析關(guān)鍵基因縮小了范圍。
其次,原始數(shù)據(jù)包含胃癌不同分期不同分形共408個樣本,樣本數(shù)量較大。根據(jù)癌癥TNM分期標(biāo)準(zhǔn)(依據(jù)腫瘤浸潤的深度、是否存在淋巴結(jié)以及是否遠(yuǎn)處轉(zhuǎn)移。T代表腫瘤浸潤胃壁的深度,N表示局部淋巴結(jié)的轉(zhuǎn)移情況,M則代表有沒有遠(yuǎn)處轉(zhuǎn)移的情況,可將胃癌分為Ⅰ,Ⅱ,Ⅲ,Ⅳ,4個臨床病理分期,每期又具有不同的分形,本文篩選的樣本應(yīng)用第七版胃癌TNM分期標(biāo)準(zhǔn)如表1所示。根據(jù)大宗臨床報道,實行規(guī)范治療的1期胃癌患者5年生存率為82%~95%,2期為55%,3期為15%~30%,4期為2%[11]。在臨床意義上講,當(dāng)胃癌處于ⅡB期時,腫瘤未侵及胃的外部或者侵浸胃的外部但是腫瘤未轉(zhuǎn)移。處于此時的胃癌患者仍屬于傳統(tǒng)意義上的胃癌前期,有很大的治愈希望。當(dāng)胃癌處于ⅢA期時,腫瘤侵及腹腔臟層腹膜或侵浸到胃的外部[12]。處于這階段的胃癌患者,腫瘤已經(jīng)侵浸胃的外部并發(fā)生淋巴結(jié)轉(zhuǎn)移,在臨床上已經(jīng)發(fā)展為胃癌的中期,治愈希望較低(表2)。因此篩選處于胃癌ⅡB期病人的基因序列(40個樣本)與處于胃癌ⅢA期病人的基因序列(36個樣本)做為對照,分析胃癌從ⅡB期到ⅢA期轉(zhuǎn)變過程中的關(guān)鍵基因,致力于為胃癌惡化提供良好的預(yù)警信號。
表1 第7版胃癌TNM分期分型Tab.1 Seventh edition gastric cancer TNM staging classification
表2 胃癌不同分期的臨床表現(xiàn)Tab.2 Clinical manifestations of different stages of gastric cancer
本文選取了兩個樣本組的基因表達(dá)數(shù)據(jù),分別是處于ⅡB期的胃癌患者,共40個樣本,記為H;以及處于ⅢA期的胃癌患者,共36個樣本,記為S。通過構(gòu)建胃癌基因復(fù)雜網(wǎng)絡(luò)模型,來研究胃癌基因表達(dá)數(shù)據(jù)的變換趨勢與胃癌表型之間的關(guān)系。
選取第2部分中初步篩選出的275個胃癌相關(guān)基因,將它們定義為網(wǎng)絡(luò)節(jié)點,網(wǎng)絡(luò)規(guī)模N=275。其中每1個節(jié)點都代表1個基因,用基因名稱進(jìn)行標(biāo)注。首先,對于每個節(jié)點i,定義胃癌ⅡB期樣本到胃癌ⅢA期樣本的基因變化率為
式中:i=1,2,…,275,S=36,h=40。接下來計算出每個節(jié)點對應(yīng)的基因變化率Ri,通過式(2)很容易得到基因變化率的平均值T=0.3617。這個平均值可以為下一步的閾值選取作為參考。
由于胃癌基因變化率的平均值較大,應(yīng)選擇一個較小的閾值,增大基因間的關(guān)聯(lián)性,降低節(jié)點間的擾動對網(wǎng)絡(luò)的影響。通過多次實驗,選定0.008T作為閾值,此時網(wǎng)絡(luò)結(jié)構(gòu)較為穩(wěn)定,基因間的關(guān)聯(lián)性較強,節(jié)點間的擾動較小[13]。建立連邊的規(guī)則如下:比較節(jié)點i與節(jié)點j的基因變化率差值,當(dāng)差值小于0.008T時,兩個節(jié)點間的變化趨勢相近,則在這兩個節(jié)點間建立一條邊。式(3)為胃癌基因復(fù)雜網(wǎng)絡(luò)連邊規(guī)則的數(shù)學(xué)表達(dá)
應(yīng)用上述思路,構(gòu)建了1個包含275個節(jié)點(基因)和828條邊的胃癌基因表達(dá)網(wǎng)絡(luò)。通過Pajek軟件將該網(wǎng)絡(luò)可視化。圖1為胃癌基因表達(dá)網(wǎng)絡(luò)示意圖,圖中間是網(wǎng)絡(luò)的密集部分,有較高的連接數(shù),圖2是網(wǎng)絡(luò)密集部分的放大圖。
下面對該胃癌基因復(fù)雜網(wǎng)絡(luò)的相關(guān)拓?fù)湫再|(zhì)進(jìn)行簡單分析。
該胃癌基因表達(dá)網(wǎng)絡(luò)包含275個節(jié)點,假設(shè)該網(wǎng)絡(luò)是一個完全連通網(wǎng)絡(luò),則網(wǎng)絡(luò)的最大連通度為
圖1 胃癌基因表達(dá)網(wǎng)絡(luò)示意圖Fig.1 Schematic diagram of gastric cancer gene network
圖2 胃癌基因網(wǎng)絡(luò)示意圖密集部分放大圖Fig.2 Enlarged view of the gastric cancer gene network
然而,該網(wǎng)絡(luò)共有828條邊,平均度為6.02,其平均度遠(yuǎn)遠(yuǎn)小于該網(wǎng)絡(luò)的最大連通度,故可以認(rèn)為該胃癌基因表達(dá)網(wǎng)絡(luò)是稀疏的。這表明,每個基因的表達(dá)趨勢可能只與少量的基因表達(dá)數(shù)據(jù)變化趨勢一致,也就是說,每個基因受其他基因調(diào)控的平均數(shù)量較小。
平均路徑長度是指網(wǎng)絡(luò)中所有頂點對之間最短路徑的平均值,可通過平均路徑衡量網(wǎng)絡(luò)中不同基因數(shù)據(jù)變化的差異[14]。通過計算,該胃癌基因表達(dá)網(wǎng)絡(luò)的平均路徑長度約為9.48,平均路徑較小,有
通過式(5),可計算得到該胃癌基因表達(dá)網(wǎng)絡(luò)的聚類系數(shù)C=0.641。該網(wǎng)絡(luò)的聚類系數(shù)約是同規(guī)模隨機網(wǎng)絡(luò)的28倍。綜上所述,胃癌基因表達(dá)網(wǎng)絡(luò)具有較大的聚類系數(shù)與較小的平均路徑長度,滿足小世界特性。
構(gòu)建出胃癌基因表達(dá)網(wǎng)絡(luò)后,發(fā)現(xiàn)該網(wǎng)絡(luò)具有稀疏性和小世界特性,這意味著平均每個基因可能受較少的基因調(diào)控,這些起到關(guān)鍵作用的基因可能具有較強的中心性。那如果能找到基因表達(dá)網(wǎng)絡(luò)中的關(guān)鍵基因,就能為胃癌惡化提供良好的預(yù)警信號。下面將分析胃癌基因復(fù)雜網(wǎng)絡(luò)中節(jié)點的3種中心性,包括介數(shù)中心性、緊密度中心性和度中心性,應(yīng)用定量的方法對每個節(jié)點的中心度進(jìn)行描述,進(jìn)而確定胃癌基因表達(dá)網(wǎng)絡(luò)中的關(guān)鍵基因。
度中心性[15]
式中:ki為節(jié)點i的度,N為網(wǎng)絡(luò)節(jié)點總數(shù)。度中心性定義為節(jié)點的度與網(wǎng)絡(luò)中其他節(jié)點總數(shù)的比值。通過度中心性可以迅速找到該網(wǎng)絡(luò)中的關(guān)鍵節(jié)點。
介數(shù)中心性[15]
式中:gjk(i)為節(jié)點j與節(jié)點k的最短路徑經(jīng)過節(jié)點i的數(shù)量,gjk為節(jié)點j到節(jié)點i的最短路徑數(shù)。介數(shù)中心性定義為節(jié)點i與節(jié)點k之間經(jīng)過節(jié)點i的最短路徑數(shù)與節(jié)點i與節(jié)點k之間的最短路徑總數(shù)之比。介數(shù)中心性衡量的是經(jīng)過該節(jié)點最短路徑數(shù)的度量。通過介數(shù)中心性可以迅速找到該網(wǎng)絡(luò)中的重要節(jié)點。
緊密度中心性[15]
式中:Li節(jié)點i到網(wǎng)絡(luò)中每個節(jié)點距離的平均值。緊密度中心性定義為節(jié)點i到網(wǎng)絡(luò)中每個節(jié)點距離的平均值的倒數(shù)。一般觀點認(rèn)為,網(wǎng)絡(luò)的拓?fù)渲行氖蔷W(wǎng)絡(luò)中其他節(jié)點到該節(jié)點距離最小的節(jié)點,因此,緊密度中心性可以作為復(fù)雜網(wǎng)絡(luò)中的中心性度量。
分別應(yīng)用式(1-3)對度中心指標(biāo)、介數(shù)中心性指標(biāo)和緊密度中心性指標(biāo)進(jìn)行計算,各中心指標(biāo)結(jié)果靠前的基因分別列在了表3中。由于有多個基因的某個中心性指標(biāo)相同,所以選定度中心性排名前32的基因、介數(shù)中心性排名前20的基因以及緊密度中心性排名前22的基因列在表3中。
從表3中可以得出,度中心性大的節(jié)點往往它們的緊密度中心性也較大,介數(shù)中心性大的節(jié)點其緊密度中心性也是相對較大的。但是介數(shù)中心性的值普遍較小,如果直接分析不能發(fā)揮介數(shù)中心性的重要性。
圖3給出了基于度中心性、介數(shù)中心性、緊密度中心性的重要胃癌基因的分布示意圖,可以發(fā)現(xiàn),3種中心性指標(biāo)均靠前的是MMP11基因。但是由于中心性指標(biāo)間的差異性,并沒有太多的重疊基因。
表3 胃癌度中心性、介數(shù)中心性、緊密度中心和綜合中心性指標(biāo)靠前的基因及數(shù)值Tab.3 Top genes and values for three central and comprehensive central indicators of gastric cancer
圖4繪出了胃癌基因度中心性、介數(shù)中心性和緊密度中心性3種指標(biāo)分布的三維圖,從圖4中可以看出同時具有較高的3種中心性指標(biāo)的節(jié)點應(yīng)分布于圖的最上部,這些節(jié)點就有可能是網(wǎng)絡(luò)的樞紐節(jié)點。
引用加權(quán)分析的方法將這3種指標(biāo)定量化,來計算每個節(jié)點的綜合中心性指標(biāo)。根據(jù)式(9),將度中心性、介數(shù)中心性、緊密度中心性分別歸一化為一個相對性中心性指標(biāo):Ca(i)/Ca.max,Cb(i)/Cb.max和Cc(i)/Cc.max,將綜 合中心性指標(biāo)定義為3個中心性指標(biāo)的平均值[10]。篩選出綜合中心指標(biāo)前20的基因,將其列在表3當(dāng)中。
通過對表3中的4種中心性指標(biāo)進(jìn)行分析,發(fā)現(xiàn),綜合性中心指標(biāo)排名第1的基因MMP11,其3種中心性指標(biāo)均是較高的。由于度中心性差值較小,其他綜合性中心指數(shù)較高的基因其度中心性不一定排名靠前,但是相對擁有較高的介數(shù)中心性和緊密度中心性,這并不意味著其度中心性是較低的。通過對表3進(jìn)行分析發(fā)現(xiàn)基因INTS8到基因SGSM3的綜合中心性指標(biāo)下降過快,選定綜合性指標(biāo)Cintgr>0.72的16個基因作為關(guān)鍵基因,此外,由于ALDH6A1基因的度中心較高(排名第3位),在基因表達(dá)網(wǎng)絡(luò)中擁有較高的度,連接著較多的節(jié)點,因此也應(yīng)考慮其為關(guān)鍵基因。應(yīng)說明的是,選擇基因是否為關(guān)鍵基因的閾值可大可小,若想增大或減小關(guān)鍵基因的數(shù)量,應(yīng)將閾值調(diào)小或調(diào)大。
圖3 基于3種中心性指標(biāo)的重要胃癌基因分布圖Fig.3 Gene map of important gastric cancer based on three central indicators
圖4 度中心性、介數(shù)中心性和緊密度中心性分布的三維圖Fig.4 Three-dimensional map of three central distributions
將該胃癌基因復(fù)雜網(wǎng)絡(luò)進(jìn)行分區(qū)視圖,如圖5所示,文獻(xiàn)[16]指出發(fā)現(xiàn)度中心性較小的節(jié)點往往分布更加廣泛。而大多數(shù)基因都集合在一個完全連通的子網(wǎng)絡(luò)中,在此子網(wǎng)絡(luò)中,中心性較高的基因鏈接著更多的基因,在基因調(diào)控網(wǎng)絡(luò)中處于關(guān)鍵地位。通過式(9)選取的中心度較高的17個基因全部落在該子網(wǎng)絡(luò)中,這與網(wǎng)絡(luò)中關(guān)鍵基因定量考慮的結(jié)果一致。
因此可以確定出胃癌基因表達(dá)網(wǎng)絡(luò)中的17個重要的樞紐基因,分別是:MMP11,TMEM63A,CKAP2,IFITM1,NOP2,ADAT1,ACTL6A,F(xiàn)ERMT1,ECT2,SLC6A6,TNFRSF12A,CHORDC1,COL6A3,YEATS2,NCL,INTS8和ALDH6A1。
依據(jù)胃癌基因在ⅡB與ⅢA樣本間的表達(dá)變化率構(gòu)建胃癌基因復(fù)雜網(wǎng)絡(luò),將每個基因抽象為節(jié)點,分析了該網(wǎng)絡(luò)的拓?fù)涮卣?。通過Pajek軟件對基因的3種中心性指標(biāo)進(jìn)行計算,進(jìn)一步引入綜合中心性指標(biāo),進(jìn)而篩選出上述17個關(guān)鍵的胃癌基因。
圖5 胃癌基因復(fù)雜網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)圖Fig.5 Gastric cancer gene complex network community structure
本文對TCGA胃癌數(shù)據(jù)進(jìn)行初步的篩選和降維,篩選出與胃癌相關(guān)的275個胃癌基因,為分析關(guān)鍵基因縮小了范圍。原始數(shù)據(jù)包含胃癌不同分期不同分形共408個樣本,樣本數(shù)量較大。根據(jù)胃癌TNM分期,篩選胃癌ⅡB期(40個樣本)與ⅢA期(36個樣本)做為對照,分析胃癌從ⅡB期到ⅢA期轉(zhuǎn)變的關(guān)鍵基因,致力于發(fā)現(xiàn)胃癌惡化過程中的特征基因。其次應(yīng)用復(fù)雜網(wǎng)絡(luò)的方法,將網(wǎng)絡(luò)分析的方法與胃癌基因表達(dá)數(shù)據(jù)結(jié)合起來。將胃癌基因抽象為節(jié)點,依據(jù)兩組樣本組間基因的變化率,選擇合理的閾值來建立連邊關(guān)系。然后分析了該網(wǎng)絡(luò)的拓?fù)涮卣?,發(fā)現(xiàn)胃癌基因表達(dá)網(wǎng)絡(luò)是稀疏的,具有小世界特性。計算了該復(fù)雜網(wǎng)絡(luò)節(jié)點的3種中心度指標(biāo),分別是度中心性、介數(shù)中心性和緊密度中心性,然后引入綜合中心性指標(biāo),篩選出17個中心指標(biāo)較高的基因。最后對該胃癌基因復(fù)雜網(wǎng)絡(luò)進(jìn)行社區(qū)劃分,發(fā)現(xiàn)這17個中心度較高的基因都在一個規(guī)模較大的連通子網(wǎng)絡(luò)中,進(jìn)而驗證了結(jié)論。因此建議了胃癌惡化過程中的關(guān)鍵基因,為胃癌惡化提供了良好的預(yù)警信號。
本文研究的問題是基于復(fù)雜網(wǎng)絡(luò)理論和數(shù)據(jù)分析方法,篩選出胃癌惡化過程中17個的關(guān)鍵基因,但基因間的鏈路關(guān)系還需進(jìn)一步的研究。另外,本文是基于病例數(shù)據(jù)做出的篩選與分析,缺乏動物實驗?zāi)P万炞C,這需要繼續(xù)研究學(xué)習(xí)。