朱文浩, 駱 翔 , 黃曉江, 王 偉△, 周匡果
華中科技大學同濟醫(yī)學院附屬同濟醫(yī)院 1神經內科,2血液內科,武漢430030
基于高通量芯片和生物信息學探索肌萎縮側索硬化發(fā)病相關基因*
朱文浩1,駱翔1,黃曉江1,王偉1△,周匡果2
華中科技大學同濟醫(yī)學院附屬同濟醫(yī)院1神經內科,2血液內科,武漢430030
摘要:目的從分子水平揭示肌萎縮側索硬化(ALS)的發(fā)病機制,為臨床診療提供新工具。方法在GEO中檢索ALS患者芯片數據,使用BRB-Array Tools、GSEA、GOEAST、TOPPGENE等生物信息學工具進行統(tǒng)合分析。結果對GSE56808和GSE26276兩個樣本集進行數據挖掘,發(fā)現6個共同差異表達基因,并進行樣本層次聚類,功能富集主要集中在氧化應激、鈣代謝障礙、炎癥反應、血管生成、線粒體代謝、其它神經系統(tǒng)退行性疾病、PI3K/AKT通路、P38MAPK通路、NOTCH通路等模塊上。利用多種分類預測工具構建出一個包含6個特征基因的最優(yōu)化分類器,基本可用于區(qū)分ALS患者和健康對照組。結論利用多種生物信息學方法從不同的角度定義了ALS患者分子發(fā)病機制的表達特征,為進一步的生物學探索提供了依據。
關鍵詞:肌萎縮側索硬化;差異表達;基因芯片;生物信息學
肌萎縮側索硬化(amyotrophic lateral sclerosis,ALS)是一種病情呈進行性發(fā)展的致死性的神經退行性病變,主要累及大腦皮質、腦干、脊髓前角等處的運動神經元,可導致患者肌肉萎縮、癱瘓、甚至死亡。目前該病尚缺乏特效治療,預后不良,中位生存期僅為3~5年。研究發(fā)現ALS的神經退行性變是多方面的,涉及到神經元細胞和非神經元細胞。根據發(fā)病特征,可將ALS分為有家族遺傳史的家族性ALS和無家族遺傳史的散發(fā)性ALS,家族性ALS具有明顯的遺傳傾向,已發(fā)現其相關基因有SOD1、TARDBP等;而剩下的90%~95%的ALS為散發(fā)性,與家族遺傳無相關性,被認為是一種復雜性疾病,對于該病的發(fā)病機制目前尚無定論[1]。因此,在散發(fā)性ALS患者的早期診斷及治療、延長生存時間和提高生存質量等方面,我們仍面臨巨大的挑戰(zhàn)。高通量基因芯片是一種信息量大、靈敏度較高的工具,為研究散發(fā)性ALS發(fā)病機制提供了一種新的途徑。本研究利用生物信息學技術,通過對2組散發(fā)性ALS患者基因表達芯片數據的統(tǒng)合分析,克服了個別芯片或單個實驗室數據存在的不足,深入挖掘ALS相關基因功能和通路的變化,為該病診斷,藥物研發(fā)及治療等的探索提供了依據,為轉化醫(yī)學提供新的研究思路。
1材料與方法
1.1基因表達譜芯片數據
在美國國立生物技術信息中心(National Center for Biotechnology Information,NCBI)下的基因表達匯編(Gene Expression Omnibus,GEO)數據庫中進行芯片樣本篩選,樣本需滿足下列篩選標準:①ALS患者標本,而非動物模型;②散發(fā)性;③有原始的高通量芯片數據。歸類整理后發(fā)現,由Raman等[2]提交的GSE56808樣本集和由Shtilbans等[3]提交的GSE26276樣本集滿足以上要求。多項研究表明ALS患者皮膚纖維母細胞的轉錄組改變可代表ALS患者疾病進程[4-5],GSE56808正是利用的ALS患者與健康對照人群的纖維母細胞進行芯片研究的,它滿足樣本篩選標準共有12個,包括6個來源于ALS患者,6個來源于健康對照,采用的芯片分析平臺為GPL570,即Affymetrix Human Genome U133 Plus 2.0類型。而GSE26276中滿足上述標準共6個,其中ALS標本有3個,健康對照3個,來源于各自的骨骼肌樣本,采用的芯片分析平臺為GPL6244,即Affymetrix Human Gene 1.0 ST Array類型。
1.2差異基因的篩選和樣本聚類
將GSE56808和GSE26276兩組芯片分別導入軟件BRB-Array Tools 4.4[6]中進行數據標準化和質量控制。采用中位值的方法將數據進行標準化,質量控制時要求:①截斷信號強度大于10 000的值;②基因中位數值至少發(fā)生1.5倍改變,且不少于20%的樣本數;③對數化后的基因表達量變異P值小于0.01;④數據缺失值不超過50%?;蜻^濾之后,再將樣本分成兩組表型(ALS患者與健康對照組)篩選差異基因。分別對兩組數據集GSE56808和GSE26276進行非配對樣本t檢驗,差異基因需滿足:①P<0.05;②倍數變化> 2或者<0.5,倍數變化> 2為上調基因,<0.5為下調基因;③FDR<0.25。然后再交叉比較所獲得的差異基因,從而克服單個芯片數據或單個實驗室數據存在的缺陷,更加全面地從整體上對疾病進行研究。在GSE56808和GSE26276中,分別根據各樣本基因表達情況,判別樣本之間的距離,采用中心相關和平均距離的方法進行層級聚類。
1.3差異基因功能分析和基因集富集分析
利用GOEAST(http://omicslab.genetics.ac.cn/GOEAST/tools.php)和TOPPGENE(https://toppgene.cchmc.org/enrichment.jsp)在線分析工具進行GO(Gene Ontology)本體和KEGG(Kyoto Encyclopedia of Genes and Genomes)通路分析。利用Expression console軟件將兩組基因表達數據整理成芯片表達數據文件和表型數據文件,上傳至GSEA(Gene Set Enrichment Analysis)分析平臺中(http://www.broadinstitute.org/gsea/index.jsp),研究ALS相關基因表達與已定義的生物學過程功能模塊相比,是否有一致的表達趨勢。生物學過程相關的功能模塊從分子標簽數據庫(Molecular Signatures Database,MSigDB)獲得。
1.4分類預測工具尋找特征基因
為了研究ALS患者疾病相關的特征基因表達模式,本研究利用多種分類預測工具對兩組患者樣本進行判別分析,并將GSE56808和GSE26276兩組數據集互相做交叉驗證,通過創(chuàng)建分類器來判斷某一樣本究竟屬于哪個分類(ALS患者組或對照組),從而尋找ALS患者的分子標簽。選擇最佳組合且盡量少數目的特征基因作為標簽,可能會在生物學意義方面更易解釋,在臨床實踐上更方便應用。分類預測工具包括混合協(xié)變量分類器(Compound Covariate Predictor)、對角線線性判別分析(Diagonal Linear Discriminant Analysis)、最近鄰分類器(Nearest Neighbor Predictor)、最近鄰質心分類器(Nearest Centroid Predictor)和支持向量機(Support Vector Machines)。
2結果
2.1差異基因的篩選和樣本聚類
經過嚴格的數據過濾和篩選,GSE56808數據集中滿足條件的差異基因有128個,其中在ALS患者中上調基因69個,下調基因有59個。GSE26276數據集中差異基因有154個,在ALS患者中上調基因114個,下調基因有40個。統(tǒng)合兩組差異基因,共同差異基因有6個,分別為:CPNE8、CRY1、DCLK1、NPR3、S100A10、WSB1(圖1A)。并利用6個共同差異基因分別在GSE56808(圖1B)和GSE26276(圖1C)樣本中進行層次聚類,其中“0”表示健康對照組,“1”表示ALS患者樣本。
2.2差異基因功能分析和基因集富集分析
對GSE56808和GSE26276兩個樣本集分別進行功能富集注釋,并進行相互比較,重合的GO本體功能富集注釋見表1,重合的GSEA基因集富集結果見表2。主要集中在凋亡、氧化應激、鈣代謝障礙、炎癥反應、血管生成、線粒體代謝、其它神經系統(tǒng)退行性疾病、PI3K/AKT通路、P38MAPK通路、NOTCH通路等功能模塊上(圖2、3)。
A:維恩圖顯示各個研究隊列差異基因的數目及交集;B、C:利用6個共同差異基因分別在GSE56808(B)和GSE26276(C)樣本中層次聚類圖圖1 共同差異基因及樣本聚類Fig.1 Common differential expression genes and sample clustering
2.3分類預測工具尋找特征基因
本研究用多種分類預測工具構建出一個包含6個特征基因的最優(yōu)化分類器,即CRY1、S100A10、CPNE8、WSB1、KLF9、NPR3,用于預測某一未知樣本是ALS患者還是健康對照患者。各個預測方法的特異度、靈敏度、陽性預測值和陰性預測值如表3所示,“1”表示百分之百地正確判斷哪些樣本是ALS患者,“0”則為沒有一個樣本被預測正確??梢钥闯鼋^大多數的樣本可以被正確地預測,說明這6個特征基因基本可以用于區(qū)分ALS患者和健康對照組。
表1 GSE56808和GSE26276重合的GO本體功能富集注釋
表2 GSE56808和GSE26276重合的GSEA分析
在樣本集GSE26276中,GSEA顯示ALS患者較健康對照者來說,在有關凋亡(A),G2M細胞周期調節(jié)點(B),炎癥反應(C),PI3K-AKT-MTOR信號通路(D)等模塊上存在功能富集變化圖2 GSE26276的GSEA富集分析Fig.2 GSEA of GSE26276
在樣本集GSE56808中,GSEA顯示ALS患者較健康對照者來說,在有關血管生成(A),凋亡(B),線粒體代謝(C),有關帕金森通路(D)等模塊上存在功能富集變化圖3 GSE56808的GSEA富集分析Fig.3 GSEA of GSE56808
樣本集參數 混合協(xié)變量分類器對角線線性判別分析最近鄰分類器最近鄰質心分類器支持向量機GSE56808靈敏度0.920.830.920.921特異度0.920.830.920.921陽性預測值0.860.750.860.861陰性預測值0.860.750.860.861GSE26276靈敏度11111特異度11111陽性預測值11111陰性預測值11111
3討論
ALS是一種以腦運動皮層、腦干和脊髓運動神經元進行性破壞為特征的致命的遲發(fā)性神經退行性疾病,發(fā)病后逐漸出現軸索變性、肌肉萎縮、肌肉癱瘓及死亡。迄今尚無公認能顯著改善癥狀或逆轉病程的有效治療手段,ALS患者大多起病隱匿,臨床表現多種多樣,且缺乏絕對的生物學確診指標,故對該病的早期診斷較為困難。利用多項國際合作計劃建立的免費公共數據庫,通過生物信息學探索高通量測序或基因芯片蘊藏的信息,可能為ALS分子發(fā)病機制研究提供了一種新的解決途徑,從而為ALS靶向藥物的研發(fā)及個性化治療等更深入的探索提供了依據。
目前研究結果認為ALS的發(fā)病機制是多種因素相互交織的,而非單因素造成,它們或互為因果或互為協(xié)同關系影響著疾病的發(fā)生發(fā)展。主要包括氧化應激、興奮性氨基酸毒性、細胞凋亡、線粒體功能障礙、軸突運輸障礙、自身免疫機制、鐵代謝和鈣穩(wěn)態(tài)障礙等[1]。本研究通過2個芯片樣本集的差異基因功能分析和基因集富集研究提示,ALS引起的差異基因主要集中在凋亡、氧化應激、鈣代謝障礙、炎癥反應、血管生成、線粒體代謝、其它神經系統(tǒng)退行性疾病、PI3K/AKT通路、P38MAPK通路、NOTCH通路等功能模塊上。例如:P38MAPK通路的活化,可促進IL-1及TNF-α的合成,促進炎癥反應的發(fā)生,導致神經元的變性凋亡[7];PI3K/AKT信號通路參與調節(jié)神經元的突觸可塑性、神經傳導、蛋白質穩(wěn)態(tài)及應激反應[8];血管生成障礙可直接引起缺血缺氧以及與神經變性病相關的毒性產物堆積,從而導致對神經元的損害等[9]。有趣的是,通過GSEA功能富集分析,我們發(fā)現ALS患者疾病功能模塊竟富集到帕金森、阿爾茨海默病等疾病涉及的功能模塊上,這點與流行病學資料也是相吻合的,5%~17%的ALS伴有帕金森病,而ALS患者中帕金森病的發(fā)病率比健康對照組高[10-11]。表明ALS可能不是一種獨立的疾病,ALS與其它神經變性病在基因、病理生理、發(fā)病機制、臨床表現等方面表現出部分重疊。在時間、環(huán)境和遺傳因素等綜合作用下,ALS可伴有其它神經系統(tǒng)變性病,表現出多系統(tǒng)疾病的相似性。
同時,本研究還通過GSE56808和GSE26276差異基因統(tǒng)合分析,發(fā)現有6個在ALS中共同變化的基因(分別為:CPNE8、CRY1、DCLK1、NPR3、S100A10、WSB1),其中不乏包括一些值得關注的,且已知與神經退行性變發(fā)生發(fā)展相關的基因。例如:DCLK1被認為是參與神經細胞發(fā)育、遷移、凋亡、軸突發(fā)生、鈣穩(wěn)態(tài)調節(jié)等多種生物學過程[12];CPNE8作為一種鈣依賴的膜蛋白,目前已表明其異常表達在帕金森神經退行性變中起重要作用[13];而NPR3則主要參與大腦微血管內皮細胞及骨骼肌的代謝和生長相關等[14]。這些基因可能為治療ALS提供一些新的靶點。此外,本研究通過分類預測工具尋找特征基因,并將GSE56808和GSE26276兩組數據集互相做交叉驗證,構建了6個特征基因構成的分類器,基本可區(qū)分絕大多數的ALS患者和健康對照,可能會為早期診斷ALS提供一種新思路,在臨床實踐上更易應用。
綜上,本研究綜合利用多種生物信息學手段,對兩組不同來源的芯片數據進行統(tǒng)合。充分挖掘與分析公共數據庫內基因芯片內蘊藏的信息,尋找ALS相關的分子標簽、差異表達基因和功能模塊及通路的變化,從不同的角度定義了ALS患者分子發(fā)病機
制的表達特征,為進一步的生物學驗證的探索提供了依據,并有可能成為未來神經退行性疾病診斷和治療的新靶點。
參考文獻
[1]Katz J S,Dimachkie M M,Barohn R J.Amyotrophic lateral sclerosis:A historical perspective[J].Neurol Clin,2015,33(4):727-734.
[2]Raman R,Allen S P,Goodall E F,et al.Gene expression signatures in motor neuron disease fibroblasts reveal dysregulation of metabolism,hypoxia-response and RNA processing functions[J].Neuropathol Appl Neurobiol,2015,41(2):201-226.
[3]Shtilbans A,Choi S G,Fowkes M E,et al.Differential gene expression in patients with amyotrophic lateral sclerosis[J].Amyotroph Lateral Scler,2011,12(4):250-256.
[4]Allen S P,Duffy L M,Shaw P J,et al.Altered age-related changes in bioenergetic properties and mitochondrial morphology in fibroblastsfrom sporadic amyotrophic lateral sclerosis patients[J].Neurobiol Aging,2015,36(10):2893-2903.
[5]Yang S,Zhang K Y,Kariawasam R,et al.Evaluation of skin fibroblasts from amyotrophic lateral sclerosis patients for the rapid study of pathological features[J].Neurotox Res,2015,28(2):138-146.
[6]Simon R,Lam A,Li M C,et al.Analysis of gene expression data using BRB-Array Tools[J].Cancer Inform,2007,4(3):11-17.
[7]Frade J M,Ovejero-Benito M C.Neuronal cell cycle:the neuron itself and its circumstances[J].Cell Cycle,2015,14(5):712-720.
[8]Pignataro G,Capone D,Polichetti G,et al.Neuroprotective,immunosuppressant and antineoplastic properties of mTOR inhibitors:current and emerging therapeutic options[J].Curr Opin Pharmacol,2011,11(4):378-394.
[9]Keifer O P Jr,O’Connor D M,Boulis N M.Gene and protein therapies utilizing VEGF for ALS[J].Pharmacol Ther,2014,141(3):261-271.
[10]房效莉,曹幸毅,梅倩倩,等.肌萎縮側索硬化與其他神經變性病重疊的研究進展[J]中華神經科雜志,2015,48(5):428-430.
[11]Manno C,Lipari A,Bono V,et al.Sporadic Parkinson disease and amyotrophic lateral sclerosis complex(Brait-Fahn-Schwartz disease)[J].J Neurol Sci,2013,326(1/2):104-106.
[12]Schenk G J,Engels B,Zhang Y P,et al.A potential role for calcium/calmodulin-dependent protein kinase-related peptide in neuronal apoptosis:invivoandinvitroevidence[J].Eur J Neurosci,2007,26(12):3411-3420.
[13]Reinhardt P,Schmid B,Burbulla L F,et al.Genetic correction of a LRRK2 mutation in human iPSCs links parkinsonian neurodegeneration to ERK-dependent changes in gene expression[J].Cell Stem Cell,2013,12(3):354-367.
[14]Chadwick J A,Hauck J S,Lowe J,et al.Mineralocorticoid receptors are present in skeletal muscle and represent a potential therapeutic target[J].FASEB J,2015,29(11):4544-4554.
(2016-01-11收稿)
Analysis of Amyotrophic Lateral Sclerosis Associated Genes Based on High-throughput Microarray and Bioinformatics
Zhu Wenhao,Luo Xiang,Huang Xiaojiangetal
DepartmentofNeurology,TongjiHospital,TongjiMedicalCollege,HuazhongUniversityofScienceandTechnology,Wuhan430030,China
AbstractObjectiveTo explore the molecular pathogenesis of amyotrophic lateral sclerosis(ALS),and provide novel tools for clinical diagnosis and treatment of ALS.MethodsGene expression profiles were obtained from GEO database.A set of bioinformatics tools,such as BRB-Array Tools,GSEA,GOEAST,TOPPGENE,were used to accomplish the data mining.ResultsBy combining the results of two independent samples GSE56808 & GSE26276,six common differentially expressed genes were identified,which were used to generate hierarchical clustering.Network and functional enrichment showed that ALS related genes were closely associated with oxidative stress,calcium metabolism disorders,inflammation,angiogenesis,mitochondrial metabolism,other neurodegenerative disorders and etc.They played essential roles in some important signal pathways such as PI3K/Akt,P38 MAPK,NOTCH,etc.The optimal six-gene classifier constructed by multiple prediction tools for classification could differentiate the ALS patients from healthy control subjects.ConclusionData Mining and Bioinformatics analysis can help to investigate the molecular pathogenesis of ALS in various perspectives,which provides the basis for further biological investigations on ALS.
Key wordsamyotrophic lateral sclerosis;differential expression;microarray;bioinformatics
中圖分類號:R744.8
DOI:10.3870/j.issn.1672-0741.2016.03.002
*國家自然科學基金青年基金資助項目(No.81400122)
朱文浩,男,1983年生,主治醫(yī)師,博士研究生,E-mail:whzhu@tjh.tjmu.edu.cn
△通訊作者,Corresponding author,E-mail:wwang_tjh@126.com