(福建醫(yī)科大學(xué)省立臨床醫(yī)學(xué)院,福建省立醫(yī)院老年科,福建省臨床老年病研究所,福州 350001)
根據(jù)國際糖尿病協(xié)會的報(bào)告,2017年全球有4.25億糖尿病患者,其中2型糖尿病占90%以上。有研究[1]預(yù)測2045年糖尿病患者數(shù)量將增至6.29億。糖尿病常導(dǎo)致全身血管及神經(jīng)并發(fā)癥,嚴(yán)重影響患者生活質(zhì)量。2型糖尿病的發(fā)病機(jī)制尚不明確。因此,從基因水平闡明2型糖尿病的發(fā)病機(jī)制對于預(yù)防和治療有重要意義。
隨著高通量測序技術(shù)的發(fā)展,生物信息學(xué)分析成為深入了解2型糖尿病的一種新工具。基因表達(dá)匯編(gene expression omnibus,GEO)數(shù)據(jù)庫存儲許多表達(dá)譜芯片數(shù)據(jù)。有學(xué)者通過單個(gè)數(shù)據(jù)集對糖尿病患者和健康人群血液中的差異基因進(jìn)行了研究[2-3],然而,國內(nèi)尚未有使用R語言通過去除批次間差異的方式對單個(gè)數(shù)據(jù)集進(jìn)行聯(lián)合分析的報(bào)道。另外,糖尿病和阿爾茨海默?。ˋlzheimer disease,AD)關(guān)系密切[4],本研究將GEO數(shù)據(jù)庫中2個(gè)人類2型糖尿病數(shù)據(jù)集進(jìn)行聯(lián)合分析,探索糖尿病發(fā)病的分子機(jī)制;同時(shí)利用基因集富集分析(gene-set enrichment analysis,GSEA)分析2型糖尿病關(guān)鍵基因與AD的關(guān)系。
GEO數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/)下載芯片GSE85192(平臺GPL16956)、GSE95849(平臺GPL22448)、GSE97760(平臺GPL16699)、GSE85426(平臺GPL14500)。GSE95849中納入12份樣品,其中6份為2型糖尿病不伴糖尿病周圍神經(jīng)病變患者,6份為健康者。GSE85192中納入18份樣品,其中12份為治療前的2型糖尿病患者,6份為健康者。GSE97760中納入19份樣品。其中10份非AD患者,9份為AD患者。GSE85426中納入180份樣品,其中90份為AD患者,90份為正常對照組。以上樣本均來自外周血。下載芯片中的矩陣文件和平臺文件。
1.2.1 矩陣注釋:運(yùn)用Perl軟件(版本 5.30.1)對GSE95849、GSE97760、GSE85426 3個(gè)數(shù)據(jù)集進(jìn)行處理,利用平臺文件中的基因名將原始矩陣文件ID重注釋為基因名。對于GSE85192數(shù)據(jù)集,從Gencode數(shù)據(jù)庫(ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/)下載人類轉(zhuǎn)錄本序列文件。使用BLAST軟件將人類轉(zhuǎn)錄本序列與矩陣中探針核酸序列比對,得到含有基因名的重注釋平臺文件[5]。
1.2.2 多芯片矩陣合并及批次校正:將矩陣探針表達(dá)量數(shù)據(jù)進(jìn)行l(wèi)og2 轉(zhuǎn)化后,使用Perl軟件將GSE95849、GSE85192 2個(gè)數(shù)據(jù)集的表達(dá)矩陣合并為1個(gè)矩陣。使用R軟件(版本3.6.2)的sva包(sva包能使用對照探針消除批次間效應(yīng),還能直接構(gòu)建新的替代變量用于分析,去除批間差[6])進(jìn)行批次校正。
1.2.3 差異分析:使用R軟件的limma包分析矩陣中的差異基因,以基因表達(dá)量log2差異倍數(shù)(log2 fold change,logFC)>0.5或者<-0.5,并且校正后P值<0.05為篩選參數(shù),得到差異基因。用R軟件繪制差異基因聚類熱圖。
1.2.4 加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(weighted gene coexpression network analysis,WGCNA):利用R軟件的WGCNA包,輸入差異基因的表達(dá)矩陣,設(shè)置閾值為0.6,根據(jù)基因表達(dá)相似性,將基因劃分成不同的模塊,計(jì)算每個(gè)模塊與2型糖尿病、年齡、性別3種臨床性狀的Pearson相關(guān)系數(shù)及P值,選取P<0.01的模塊內(nèi)的基因用于后續(xù)分析。
1.2.5 基因功能注釋和信號通路分析:將與2型糖尿病相關(guān)模塊中的基因輸入 DAVID6.8(https://david.ncifcrf.gov/)進(jìn)行基因本體論(gene ontology,GO)功能分析,主要分析生物過程(biological process,BP)。再利用京都基因和基因組百科全書(Kyoto encyclopedia of genes and genomes,KEGG)工具對這些基因進(jìn)行分析,以P<0.05同時(shí)伴通路所含基因數(shù)>4個(gè)為篩選標(biāo)準(zhǔn),按P值從小到大篩選前10條項(xiàng)目。
1.2.6 蛋白互作網(wǎng)絡(luò)構(gòu)建與模塊分析:使用STRING數(shù)據(jù)庫(https://string-db.org/)分析差異基因編碼蛋白的相互作用。再將得到的蛋白互作(protein-protein interaction,PPI)網(wǎng)絡(luò)數(shù)據(jù)輸入 Cytoscape 軟件(版本3.7.2),使用 cytoHubba 插件進(jìn)行分析。
1.2.7 GSEA:Toll樣受體4(Toll-like receptor,TLR4)基因是關(guān)鍵基因,在GSE97760中AD患者和非AD患者間的表達(dá)量差異具有統(tǒng)計(jì)學(xué)意義(校正后P<0.05),且在AD中高表達(dá),因此對GSE97760矩陣中TLR4的表達(dá)量從小到大進(jìn)行排序,以前10個(gè)為低表達(dá)組,后9個(gè)為高表達(dá)組,分析與TLR4高表達(dá)相關(guān)的信號通路。P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
1.2.8TLR4表達(dá)量驗(yàn)證:獲得GSE85426中各樣本中TLR4的表達(dá)量,對正常組和AD組的表達(dá)量進(jìn)行t檢驗(yàn),用R語言繪制箱圖使結(jié)果可視化。
結(jié)果顯示,與健康組比較,2型糖尿病組共獲得626個(gè)差異表達(dá)基因,其中336個(gè)上調(diào),290個(gè)下調(diào)。前100個(gè)(校正后P值從小到大排序)差異基因見圖1。
圖1 差異表達(dá)基因分層聚類樹形圖和熱圖Fig.1 Tree and heat map showing hierarchical clustering of differentially expressed genes
將得到的差異基因輸入WGCNA后,得到3個(gè)共表達(dá)基因模塊,見圖2。結(jié)果顯示,灰色和綠色模塊內(nèi)基因與2型糖尿病有關(guān)(P<0.01);2個(gè)模塊中共有567個(gè)基因。3個(gè)模塊中基因與年齡、性別均無關(guān)(P>0.01),見圖3。
結(jié)果顯示,差異基因主要參與的生物過程包括炎癥反應(yīng),細(xì)胞對機(jī)械刺激的反應(yīng),Toll樣受體(Tolllike receptor,TLR)信號通路,趨化因子、β干擾素產(chǎn)生的正向調(diào)節(jié),組蛋白脫乙?;龋妶D4。
圖2 基因聚類樹狀圖Fig.2 Gene clustering dendrogram
圖3 臨床特征與模塊特征相關(guān)性熱圖Fig.3 Heat map showing the correlation between clinical features and module features
差異基因主要參與的KEGG信號通路有嘧啶代謝通路、TLR信號通路、瘧疾、麻疹、RNA降解,見圖5。
共有567個(gè)mRNA輸入STRING數(shù)據(jù)庫,以置信度得分>0.4為篩選參數(shù),除外孤立的蛋白,共得到1 686對蛋白互作關(guān)系,470個(gè)蛋白。使用cytoHubba 插件,按照度值和強(qiáng)度得分選取前10個(gè)基因,見表1、2。之后取交集,最終得到的關(guān)鍵基因?yàn)镮LF2、TLR4、POLR2G、MMP9。
在GSE97760中,與TLR4高表達(dá)相關(guān)的KEGG通路富集于半胱氨酸和蛋氨酸代謝、基礎(chǔ)轉(zhuǎn)錄因子、細(xì)胞周期、TLR信號通路、嘧啶代謝信號通路等(P<0.05),見圖6A~6E。
圖4 差異基因參與的生物學(xué)過程Fig.4 Biological processes involved in differential genes
圖5 差異基因參與的KEGG通路Fig.5 KEGG pathways involved in differential genes
表1 關(guān)鍵基因篩選(按照度值排序)Tab.1 Hub gene screening by degree
表2 關(guān)鍵基因篩選(按照強(qiáng)度排序)Tab.2 Hub gene screening by stress
結(jié)果顯示,在GSE85426中,正常人和AD患者外周血中的校正后TLR4水平差異有統(tǒng)計(jì)學(xué)意義(P<0.01)。見圖6F。
生物學(xué)過程顯示,外周血中2型糖尿病患者與健康人差異基因的生物學(xué)功能富集在TLR信號通路、趨化因子產(chǎn)生的正向調(diào)節(jié)、β干擾素產(chǎn)生的正向調(diào)節(jié)、炎癥反應(yīng),而且四者之間存在密切聯(lián)系。TLR信號通路激活后,可以通過趨化因子和β干擾素產(chǎn)生2種途徑誘導(dǎo)全身慢性炎癥反應(yīng),進(jìn)而引起胰島素抵抗。研究[7]顯示高脂飲食會導(dǎo)致腸道通透性增加,使脂多糖從腸道進(jìn)入血液。脂多糖可以激活TLR4并與免疫細(xì)胞表面的CD14結(jié)合,觸發(fā)多種細(xì)胞因子產(chǎn)生和趨化因子介導(dǎo)的炎癥細(xì)胞募集,引起胰島素抵抗,并導(dǎo)致低強(qiáng)度全身性炎癥。炎性細(xì)胞因子還能使巨噬細(xì)胞在脂肪組織中募集,促進(jìn)巨噬細(xì)胞釋放促炎性細(xì)胞因子[8],從而干擾組織中的胰島素信號,促進(jìn)2型糖尿病發(fā)生[9]。還有學(xué)者[10-11]發(fā)現(xiàn)TLR3也能激活TLR信號通路,通過誘導(dǎo)β干擾素等激活Ⅰ型β干擾素,加速胰島β細(xì)胞功能障礙和凋亡。動(dòng)物實(shí)驗(yàn)[12]證實(shí)β干擾素突變小鼠就不會有TLR3介導(dǎo)的胰島炎癥反應(yīng)。因此根據(jù)富集分析結(jié)果,可能存在“TLR-β干擾素/趨化因子-胰島炎癥反應(yīng)軸”,這可能是導(dǎo)致2型糖尿病的重要原因之一。
KEGG通路顯示,差異基因富集在嘧啶代謝、TLR信號通路、瘧疾、麻疹、RNA降解上。有學(xué)者[13]通過動(dòng)物實(shí)驗(yàn)對與2型糖尿病相關(guān)的診斷標(biāo)志物進(jìn)行分析發(fā)現(xiàn),糖尿病大鼠體內(nèi)核苷酸(包括嘧啶)水平較低,提示嘧啶代謝途徑受到干擾。有學(xué)者[14]分析了糖尿病腎病大鼠和正常大鼠之間的代謝差異,發(fā)現(xiàn)差異富集在嘧啶代謝等代謝途徑上,說明糖尿病腎病小鼠中存在嘧啶代謝紊亂。
本研究對關(guān)鍵基因的分析結(jié)果顯示,TLR4、POLR2G、MMP9、ILF2可能是2型糖尿病發(fā)生的關(guān)鍵基因。糖尿病通過血管、葡萄糖代謝改變導(dǎo)致神經(jīng)變性。AD通過下丘腦功能障礙、衰弱等影響全身葡萄糖代謝[15]。通過GSEA分析發(fā)現(xiàn)在AD患者中,TLR4升高也與嘧啶代謝和TLR信號通路有關(guān),兩者同時(shí)在2型糖尿病發(fā)生中起作用,可能是AD和2型糖尿病共同的發(fā)病機(jī)制。嘧啶是腦磷脂酰膽堿合成的原料。用尿嘧啶核苷源的飼料灌胃,可使沙土鼠腦磷脂酰膽堿增加,軸突神經(jīng)突觸膜的數(shù)量增加[16]。有學(xué)者[17]對AD模型小鼠海馬進(jìn)行分析,結(jié)果顯示小鼠海馬尿嘧啶明顯增加,這可能是由于AD磷脂酰膽堿的合成減少而分解增多所致。AD可以表現(xiàn)為嘧啶代謝異常,但嘧啶代謝異常是否也是AD的病因尚待進(jìn)一步驗(yàn)證。近年研究[18-20]發(fā)現(xiàn),TLR通過識別病原體并啟動(dòng)炎癥過程,在大腦中,尤其是在小膠質(zhì)細(xì)胞中發(fā)現(xiàn)了TLR。腸道菌群與腸道和大腦(菌群-腸-腦軸)相互作用是引起AD的機(jī)制之一。腸道菌群失調(diào)可激活大腦中TLR信號通路,加重炎癥反應(yīng),導(dǎo)致AD發(fā)生。因此,TLR4可能是2型糖尿病與AD之間的潛在聯(lián)系。
圖6 TLR4高表達(dá)有關(guān)的KEGG通路Fig.6 Analysis of KEGG pathways related to high expression of TLR4
綜上所述,2型糖尿病發(fā)生可能與TLR-干擾素β/趨化因子-胰島炎癥反應(yīng)軸密切相關(guān)。ILF2、TLR4、POLR2G、MMP9為2型糖尿病發(fā)病的關(guān)鍵基因,TLR4上調(diào)可通過影響嘧啶代謝及TLR信號通路影響2型糖尿病及AD的發(fā)生。本研究不足之處在于GSE95849數(shù)據(jù)集選取的對象為女性糖尿病患者,可能影響差異基因的分析結(jié)果,將來如果有更多的糖尿病外周血轉(zhuǎn)錄組數(shù)據(jù),可以將組間性別、年齡等基線資料進(jìn)行匹配后再進(jìn)行分析,進(jìn)而提高結(jié)果的準(zhǔn)確性。