朱義芳,戴紅梅,張峪涵,魏丹鳳,潘逼然,劉 蕾,張彤彤,郭元彪,劉華偉△
(1.四川省骨科醫(yī)院檢驗科,四川成都 610041;重慶醫(yī)科大學附屬成都第二臨床學院/成都市第三人民醫(yī)院:2.檢驗科;3.神經(jīng)內(nèi)科;4.實驗醫(yī)學研究部,四川成都 610031)
結(jié)直腸癌是第3位常見的惡性腫瘤,在全球腫瘤相關(guān)性死亡的原因中也位列第3位[1]。2018年美國結(jié)直腸癌新發(fā)病例數(shù)預計超過14萬,死亡病例數(shù)超過5萬[2]。結(jié)直腸癌發(fā)病機制復雜,包括多個基因、多條通路的交互作用[3]。到目前為止,結(jié)直腸癌仍是全球醫(yī)療的重大難題,仍缺乏系統(tǒng)的、整體的理解其發(fā)病的分子機制。傳統(tǒng)的單基因檢測的研究,雖然能發(fā)現(xiàn)某些基因在腫瘤形成發(fā)展中發(fā)揮的具體作用,但不能全面的挖掘出結(jié)直腸癌形成過程中更為廣泛存在的多個基因和通路的改變。近年來,隨著基因芯片技術(shù)在腫瘤中的廣泛應用,大量的芯片數(shù)據(jù)產(chǎn)生,其中大部分數(shù)據(jù)被儲存在公共數(shù)據(jù)庫中未被挖掘。整合并重新分析這些數(shù)據(jù)可為新的研究提供線索,為全面分析結(jié)直腸發(fā)病的分子機制提供便利[4]。
本研究選取了4個GEO芯片數(shù)據(jù)集來鑒定結(jié)直腸癌中差異表達的基因,這些差異表達基因可作為潛在的結(jié)直腸癌標志物。進一步的功能富集分析可闡明這些差異表達基因的生物學功能,信號通路分析可明確它們調(diào)控結(jié)直腸癌的信號通路的關(guān)鍵分子,為揭示結(jié)直腸癌發(fā)病機制奠定基礎(chǔ)。
1.1 芯片數(shù)據(jù)信息 從美國國立生物技術(shù)信息中心(NCBI)的GEO芯片數(shù)據(jù)庫中選取了GSE9348[5]、GSE21815[6-7]、GSE32323[8]、GSE44076[9-12]4個芯片數(shù)據(jù)集,從中獲取結(jié)直腸癌和正常或相鄰黏膜組織的基因表達譜。GSE9348采用美國昂菲公司人基因組U133 Plus 2.0芯片GPL570平臺,包括70例早期結(jié)直腸癌和12例健康對照組織。GSE21815采用美國安捷倫公司人基因組4×44K G4112F芯片GPL6480平臺,包括132例結(jié)腸癌患者和9例正常對照組織。GSE32323芯片檢測采用美國昂菲公司人基因組U133 Plus 2.0芯片GPL570平臺,包括17例配對的結(jié)直腸癌和非結(jié)直腸癌組織。GSE44076采用美國昂菲公司人基因組U219芯片GPL13667平臺,樣本來源于98例結(jié)腸癌患者腫瘤和相鄰正常黏膜組織及50例健康對照者的結(jié)腸組織。
1.2 數(shù)據(jù)處理 下載芯片數(shù)據(jù)壓縮包和探針文件,通過R3.4.4軟件的RMA算法對芯片數(shù)據(jù)進行標準化,采用|logFC|>1,P<0.05的入選標準,利用R語言的limma包篩選出差異表達基因進行進一步分析。
1.3 差異基因篩選 將4個GEO芯片數(shù)據(jù)集篩選出的在腫瘤中上調(diào)和下調(diào)基因分別導入在線軟件VENNY 2.1(http://bioinfogp.cnb.csic.es/tools/venny/index.html),通過取交集,獲得在4個芯片數(shù)據(jù)集中基因表達均發(fā)生改變的差異基因。
1.4 基因注釋分析 采用Funrich 3.1.3軟件進行基因注釋分析,分別顯示差異基因的細胞組成(CC)、分子功能(MF)、生物學過程(BP)、信號通路(BPA),結(jié)果根據(jù)-Log10(P)值的大小排序,同時呈現(xiàn)富集的基因占總體的比例。
1.5 PPI網(wǎng)絡(luò)構(gòu)建 將表達差異基因?qū)隨tring 10.5在線分析網(wǎng)站(https://string-db.org/),獲得蛋白相互作用的數(shù)據(jù),然后通過Cytoscape 3.6.1軟件對結(jié)果進行可視化和進一步分析。
2.1 芯片數(shù)據(jù)標準化 對基因芯片數(shù)據(jù)的標準化處理,主要目的是消除由于實驗技術(shù)所導致的表達量的變化,并且使各個樣本和平行實驗的數(shù)據(jù)處于相同的水平,從而得到具有生物學意義的基因表達量的變化。以GSE32323為例,該芯片數(shù)據(jù)在標準化前的箱線圖,見圖1A。各樣本的基因表達不在一條水平線上,通過分位數(shù)標準化后,將34例樣本的芯片結(jié)果調(diào)整到同一水平,見圖1B。
2.2 差異基因篩選 通過差異基因分析,GSE9348芯片中獲得1 355個表達上調(diào)的基因,1 735個表達下調(diào)的基因,GSE21815芯片中獲得7 005個表達上調(diào)的基因,490個表達下調(diào)的基因,從GSE32323芯片中獲得722個表達上調(diào)的基因,490個表達下調(diào)的基因,GSE44076芯片分析獲得821個表達上調(diào)基因,873個表達下調(diào)的基因。4個GEO數(shù)據(jù)集取交集分別得到了表達上調(diào)的基因277個,見圖2A;表達下調(diào)的基因153個,見圖2B。
其中表達上調(diào)的基因包括參與細胞分裂周期的基因如CDC6、CDC25B、CDCA5、CDCA7、GTF2IRD1等,與細胞黏附功能相關(guān)的分子CDH3、CLDN1等,參與腫瘤轉(zhuǎn)移的基質(zhì)金屬蛋白酶家族分子MMP1、MMP3、MMP7、MMP7、MMP12等。表達下調(diào)的基因包括參與機體代謝的GPAT3、B3GNT7、AHCYL2等,以及參與黏液分泌和免疫反應的ADAMDEC1、CLCA1、CLCA4等。
2.3 GO分析和信號通路富集分析 為了更系統(tǒng)全面的了解上述差異基因的細胞定位、分子功能、參與的生物學過程及信號通路,采用Funrich 3.1.3軟件將差異基因進行了基因富集分析并采用GraphPad Prism作圖。結(jié)果發(fā)現(xiàn),表達上調(diào)的基因主要分布于細胞核和細胞外,其基因占比分別為20.6%(P<0.001)和22.6%(P=0.004),在細胞漿、微管、中心體、微管中的基因數(shù)量少,基因占比分別為3.5%(P<0.001)、11.5%(P=0.003)、4.8%(P=0.002),結(jié)果見圖3A;紡錘體的完整性決定了染色體分裂的正確性,上調(diào)差異基因主要參與紡錘體組裝其基因占比為0.7%(P=0.04),因而它們表達上調(diào)引起細胞異常分裂是結(jié)直腸癌發(fā)生的關(guān)鍵因素,見圖3B;趨化因子在免疫監(jiān)視過程中發(fā)揮重要作用,免疫監(jiān)視功能過低,異常細胞可逃過監(jiān)視形成腫瘤,上調(diào)差異基因的分子功能就是主要富集在調(diào)節(jié)趨化因子活性,其基因占比為2.6%(P=0.003),見圖3C;腫瘤惡性增生主要表現(xiàn)為細胞增殖失控,上調(diào)差異基因主要富集在與細胞增殖相關(guān)的信號通路上,其中細胞周期、有絲分裂G1-G1/S期、M-M/G1期、G2/M期DNA破壞關(guān)鍵節(jié)點及DNA復制的基因占比分別是21.8%(P<0.001)、 12.8%(P<0.001)、15.8%(P<0.001)、6%(P<0.001)、15.8%(P<0.001),結(jié)果見圖3D。
注:A為標準化前;B為標準化后
圖1 芯片數(shù)據(jù)標準化
153個表達下調(diào)的基因主要富集在細胞外(基因占比=28.5%,P<0.001)、參與代謝過程(基因占比=19.2%,P=0.029);機體內(nèi)大多數(shù)化學反應都是催化反應,而下調(diào)的基因在調(diào)控催化活性方面發(fā)揮著重要作用,其基因占比為10.3%(P=0.006),核受體通過調(diào)控靶基因從而影響腫瘤細胞的藥物敏感性,下調(diào)的基因可調(diào)控配體依賴性核受體活性,基因占比為2.7%(P=0.039),從而影響腫瘤的治療效果;這些基因參與多條信號通路,但沒有富集在某條信號通路上(P>0.05),見圖4。
注:A為表達上調(diào)的基因;B為表達下調(diào)的基因
圖2 差異基因韋恩圖
注:A為細胞定位;B為生物學功能;C為分子功能;D為生物學通路
圖3 基因注釋分析結(jié)直腸癌中表達上調(diào)的基因
注:A為細胞定位;B為生物學功能;C為分子功能;D為生物學通路
圖4 基因注釋分析結(jié)直腸癌中表達下調(diào)的基因
2.4 蛋白互作網(wǎng)絡(luò)構(gòu)建 構(gòu)建結(jié)直腸癌差異表達基因?qū)牡鞍椎南嗷プ饔藐P(guān)系,有助于系統(tǒng)的研究疾病分子機制,找到結(jié)直腸癌相關(guān)的關(guān)鍵基因。通過string軟件獲得蛋白質(zhì)相互作用結(jié)果,選取相互作用強(聯(lián)合分數(shù)≥0.7)的蛋白質(zhì),再用cytoscape軟件構(gòu)建蛋白互作網(wǎng)絡(luò),去除無相互作用的基因,得到了一份包含213個差異表達基因及1025條相互作用關(guān)系的蛋白作用網(wǎng)絡(luò)。見圖5。根據(jù)互作節(jié)點的數(shù)量的降序排列,篩選出其中的前十位基因,見表1,它們是結(jié)直腸癌的關(guān)鍵基因。
注:節(jié)點表示在結(jié)直腸癌中差異基因?qū)牡鞍桩a(chǎn)物,其中關(guān)鍵基因用矩形顯示;兩節(jié)點間的線表示兩節(jié)點對應的蛋白之間有相互作用
圖5 差異基因的蛋白質(zhì)相互作用網(wǎng)絡(luò)
迄今為止,已有許多的研究者進行了大量的基礎(chǔ)和臨床研究,來揭示結(jié)直腸癌形成和進展的原因和機制,但全球結(jié)直腸癌的發(fā)病率和病死率仍居高不下,主要原因是大部分聚焦在單個遺傳學事件或結(jié)果來源于單個隊列研究[13]。本研究整合了4個GEO數(shù)據(jù)集,利用生物信息學的方法進行深度分析,首先,鑒定出了430個差異表達基因,包括277個表達上調(diào)的基因和153個表達下調(diào)的基因。表達上調(diào)的基因主要位于細胞核、細胞漿等,主要參與紡錘體組裝,組裝過程的異??梢鹑旧w異常分裂從而發(fā)生癌變[14]。其分子功能主要為調(diào)節(jié)趨化因子活性,參與細胞周期及DNA復制等,從而參與調(diào)控腫瘤免疫監(jiān)視[15],參與腫瘤細胞的遷移、增殖及凋亡[16]。下調(diào)基因主要富集在細胞外,參與代謝過程,發(fā)揮催化活性、配體依賴性核受體活性等作用,這些都是腫瘤發(fā)生發(fā)展的重要原因[17]。
CDK1是調(diào)控G2-M關(guān)鍵節(jié)點的重要基因,在結(jié)直腸癌患者組織中檢測到CDK1高表達,且CDK1核漿比越高,患者預后越差[18]。CCNB1是調(diào)節(jié)細胞周期的重要基因,結(jié)直腸癌細胞中高表達的CCNB1可促進腫瘤細胞增殖和腫瘤生長[19]。MAD2L1也是調(diào)控細胞有絲分裂的關(guān)鍵分子,已有研究發(fā)現(xiàn)該基因在肝癌中的異常高表達與患者的生存時間呈負相關(guān),下一步可作為結(jié)直腸癌治療的靶點[20]。在結(jié)直腸癌患者組織中檢測到TOP2A基因表達增加,細胞實驗發(fā)現(xiàn),敲降TOP2A可抑制結(jié)腸癌細胞的增殖和侵襲能力[21]。TTK是紡錘體組裝關(guān)鍵節(jié)點,已有研究發(fā)現(xiàn)TTK在結(jié)腸癌組織中高表達,TTK過表達結(jié)腸癌細胞可抵抗細胞凋亡[22],TTK還可通過線粒體調(diào)節(jié)腫瘤細胞的活力[23]。BUB1B也同樣參與紡錘體組裝[24],本研究首次提出該基因在結(jié)直腸癌中表達上調(diào),其具體的作用機制尚無研究。AURKA基因也已證實在結(jié)直腸癌患者組織中表達上調(diào),該基因在細胞分裂和染色體穩(wěn)定性發(fā)揮重要作用,可作為結(jié)直腸癌患者的預后標志物[25]。RRM2基因過表達與腫瘤的侵襲性和化療藥物抵抗相關(guān),可作為結(jié)直腸癌治療的靶分子[26]。UBE2C在結(jié)腸癌患者中高表達,可作為其診斷的標志物,研究表明,抑制UBE2C能減緩結(jié)直腸癌細胞生長速度,增加細胞對化療藥物的敏感性,因而可開發(fā)相應的分子靶向藥物用于結(jié)直腸癌患者個體化治療[27]。ASPM是調(diào)控正常有絲分裂紡錘體功能的關(guān)鍵基因,可影響DNA雙鏈斷點的修復,能作為化療藥物的靶點[28],但目前尚無研究報道該基因與結(jié)直腸癌的關(guān)系,研究者首次發(fā)現(xiàn)該基因在結(jié)直腸癌中表達上調(diào)。
本研究聯(lián)合4張結(jié)直腸癌基因芯片數(shù)據(jù)集,采用生物信息學的分析方法,獲得了430個差異基因,構(gòu)建了蛋白互作網(wǎng)絡(luò),最終獲得10個關(guān)鍵基因,主要和細胞周期、紡錘體組裝、染色體穩(wěn)定性、腫瘤細胞侵襲和化療藥物耐藥有關(guān)。這些發(fā)現(xiàn)有助于理解結(jié)直腸癌的成因和潛在的分子機制,篩選出的基因可作為結(jié)直腸癌治療的靶點。