摘要:目的 整合miRNA和基因芯片數(shù)據(jù),篩選與小兒法洛四聯(lián)癥相關(guān)的miRNA和調(diào)控的基因,并對(duì)靶標(biāo)基因進(jìn)行功能研究。方法 從基因表達(dá)數(shù)據(jù)庫(kù)GEO數(shù)據(jù)庫(kù)中下載編號(hào)GSE35490(miRNA)和GSE35776(mRNA),兩種數(shù)據(jù)均包含8個(gè)正常和16個(gè)患法洛四聯(lián)癥的嬰兒細(xì)胞組織樣本,篩選正常樣本和疾病樣本間特異性表達(dá)的miRNA和基因(P<0.05且FDR<0.05及差異值>2或< -2);從miRNA靶基因預(yù)測(cè)數(shù)據(jù)庫(kù)Targetscan中下載人類所有miRNA以及它們的預(yù)測(cè)靶基因信息,從中篩選出本分析中找到的特異性表達(dá)的miRNA和它們的靶基因(prediction>0.9的記錄),將數(shù)據(jù)庫(kù)中找到的靶基因與分析找到的差異表達(dá)基因?qū)?yīng),挑選出差異表達(dá)miRNA調(diào)控的差異表達(dá)的基因,再利用string構(gòu)建miRNA參與的基因共表達(dá)調(diào)控網(wǎng)絡(luò)(共表達(dá)系數(shù)>0.5),并把網(wǎng)絡(luò)中的基因上傳至DAVID中做功能聚類分析(p value<0.05)。結(jié)果 通過(guò)比較正常和病變樣本,我們共得到了差異表達(dá)的miRNA 32個(gè),差異表達(dá)的基因875個(gè),根據(jù)Targetscan中miRNA以及靶基因信息,找到了差異表達(dá)的hsa-miR-124直接調(diào)控分析找到的34個(gè)差異表達(dá)基因,hsa-miR-138直接調(diào)控2個(gè)差異表達(dá)基因,構(gòu)建了包含231對(duì)共表達(dá)基因?qū)Φ膍iRNA調(diào)控網(wǎng)絡(luò),網(wǎng)絡(luò)中基因功能顯著地富集14個(gè)功能簇,最顯著富集在蛋白質(zhì)定位功能上。結(jié)論 找到差異表達(dá)的miRNA hsa-miR-124和hsa-miR-138直接和間接調(diào)控的差異表達(dá)基因,得到兩個(gè)miRNA參與的基因共表達(dá)網(wǎng)絡(luò),網(wǎng)絡(luò)中的基因最顯著富集在蛋白質(zhì)定位功能上。
關(guān)鍵詞:法洛四聯(lián)癥;差異表達(dá);共表達(dá)網(wǎng)絡(luò);功能富集分析
法洛四聯(lián)癥(tetralogy of fallot,TOF)是最常見的紫紺屬先天性心臟病。在先天性心臟病臨床統(tǒng)計(jì)中,TOF占6.0% ,居先天性心臟病的第5位、紫紺屬畸形的第1位[1]。在TOF的基本病理改變中,室間隔缺損及肺動(dòng)脈狹窄被認(rèn)為是最主要的病變,決定了患兒的血流動(dòng)力學(xué)改變,除了室間隔缺損、主動(dòng)脈騎跨、肺動(dòng)脈狹窄及右心室肥厚這四項(xiàng)基本病變外,TOF常伴有許多伴隨畸形,嚴(yán)重威脅著嬰兒生命健康[2]。為搶救和永久保存江西省豐富而珍貴的先天性心臟病遺傳資源, 在此基礎(chǔ)上利用近年來(lái)多基因遺傳疾病的研究進(jìn)展和DNA芯片技術(shù),以先天性心臟病椎動(dòng)脈干畸形中的法樂(lè)氏四聯(lián)癥為突破點(diǎn),研究其形成機(jī)制及易感相關(guān)基因,為揭示心臟的發(fā)生的分子生物學(xué)機(jī)制,先天性心臟病的形成機(jī)制打下堅(jiān)實(shí)的基礎(chǔ),并為進(jìn)一步的先天性心臟病基因診斷和治療打下基礎(chǔ)。利用基因芯片技術(shù),篩選克隆法洛氏四聯(lián)癥的易感和/或疾病相關(guān)基因。本文基于來(lái)自相同組織樣本的兩種不同芯片數(shù)據(jù):miRNA和基因芯片,篩選特異性表達(dá)的miRNA以及調(diào)控的差異表達(dá)的基因,構(gòu)建共表達(dá)調(diào)控網(wǎng)絡(luò),為該疾病的及早診斷和治療提供了基因水平的依據(jù)。
1 資料與方法
1.1 Affymetrix miRNA芯片數(shù)據(jù) 從基因表達(dá)數(shù)據(jù)庫(kù)GEO數(shù)據(jù)庫(kù)中下載編號(hào)GSE35490(miRNA)和GSE35776(mRNA)[3],兩種數(shù)據(jù)均包含8個(gè)正常和16個(gè)患法洛四聯(lián)癥的嬰兒細(xì)胞組織樣本。這兩組數(shù)據(jù)均是法洛氏四聯(lián)體癥相關(guān)數(shù)據(jù),來(lái)自相同時(shí)實(shí)驗(yàn)室的相同的個(gè)體樣本,測(cè)的都是嬰兒右心室心肌組織的表達(dá)譜。平臺(tái)信息:GPL8786[miRNA-1_0] Affymetrix miRNA Array和GPL5175[HuEx-1_0-st] Affymetrix Human Exon 1.0 ST Array。
1.2數(shù)據(jù)預(yù)處理及差異基因分析 首先利用R語(yǔ)言包中的Affy包將下載到的原始CEL格式的數(shù)據(jù)轉(zhuǎn)化成可識(shí)別的表達(dá)譜格式,包括對(duì)數(shù)據(jù)中缺失的部分進(jìn)行填補(bǔ)[4];接著對(duì)補(bǔ)完缺失的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化[5]。再利用R語(yǔ)言中的limma[6]包對(duì)正常和病變組做差異表達(dá)分析,并用BH方法進(jìn)行多重檢驗(yàn)矯正[7],篩選特異性表達(dá)的miRNA和基因,選取的閾值是:p-value<0.05且FDR<0.05,且|logFC|>1。
1.3下載數(shù)據(jù)庫(kù)中已知的miRNA與靶基因 從miRNA數(shù)據(jù)庫(kù)TargetScan[8]中下載其中收錄的所有人類miRNA以及每個(gè)miRNA所對(duì)應(yīng)的預(yù)測(cè)靶基因,基于靶基因跨物種保守和miRNA-靶基因二聚體熱力學(xué)特征[9]的方法預(yù)測(cè)靶基因,篩選得分高于0.9的作為候選的的調(diào)控對(duì)。
1.4篩選差異表達(dá)miRNA直接調(diào)控的差異基因 根據(jù)置信度高的調(diào)控對(duì)篩選出本出現(xiàn)在差異表達(dá)的miRNA集合中的個(gè)體。利用差異表達(dá)基因與篩選出的差異miRNA已知的靶基因?qū)?yīng),得到差異表達(dá)的miRNA調(diào)控下差異表達(dá)的基因。
1.5構(gòu)建共表達(dá)網(wǎng)絡(luò) 將篩選得到的特征表達(dá)的miRNA調(diào)控的差異表達(dá)基因上傳至string[10]中,該軟件根據(jù)輸入基因序列自身的特性和結(jié)構(gòu)特點(diǎn),預(yù)測(cè)各個(gè)基因之間發(fā)生共表達(dá)的可能性,即計(jì)算各基因之間的表達(dá)系數(shù),保留表達(dá)系數(shù)高于0.5的作用對(duì),構(gòu)建特異表達(dá)的miRNA參與的基因共表達(dá)調(diào)控網(wǎng)絡(luò)。
1.6共表達(dá)網(wǎng)絡(luò)中基因功能的研究 利用DAVID[11]在線軟件,基于超幾何分布算法的富集分析,篩選p value <0.05且count>2,得到基因所在的功能簇。
2 結(jié)果
2.1差異表達(dá)的miRNA和基因的篩選 利用R語(yǔ)言limma包對(duì)標(biāo)準(zhǔn)化后的兩種表達(dá)譜數(shù)據(jù)分別做差異表達(dá)分析,共篩選得到了差異表達(dá)的miRNA 32個(gè),差異表達(dá)的基因875個(gè)(滿足閾值P value <0.05且FDR<0.05,|logFC|>1),見表1。
2.2下載數(shù)據(jù)庫(kù)中已知的miRNA與靶基因 下載miRNA靶基因數(shù)據(jù)庫(kù)TargetScan中收錄的所有人類miRNA及預(yù)測(cè)靶基因,共2393544條記錄。只保留靶基因的預(yù)測(cè)得分高于0.9的miRNA家族和它們的靶基因作為候選的調(diào)控對(duì),包含24個(gè)miRNA家族和203個(gè)靶基因。
2.3篩選差異表達(dá)miRNA調(diào)控的差異基因 芯片分析得到的差異miRNA和差異表達(dá)基因,結(jié)合從TargetScan收集的調(diào)控對(duì),得到了hsa-miR-124調(diào)控的34個(gè)差異表達(dá)基因,hsa-miR-138調(diào)控的LMAN1和LYPLA1這2個(gè)差異表達(dá)基因。
2.4構(gòu)建共表達(dá)網(wǎng)絡(luò) 所有篩選得到的差異表達(dá)的基因中,除了hsa-miR-124調(diào)控的34個(gè)和hsa-miR-138調(diào)控的2個(gè)差異表達(dá)基因外,可能會(huì)存在這兩個(gè)miRNA間接調(diào)控的差異表達(dá)基因。因此,利用string計(jì)算875個(gè)差異基因之間的共同表達(dá)系數(shù),篩選共表達(dá)系數(shù)>0.5的作用對(duì),最終得到231對(duì)共表達(dá)作用對(duì)。結(jié)合miRNA調(diào)控關(guān)系構(gòu)建miRNA調(diào)控靶基因的網(wǎng)絡(luò),如圖1。由圖可見,除了已知的受到兩個(gè)miRNA調(diào)控的差異表達(dá)基因外,仍有13個(gè)基因受到間接調(diào)控。
2.5共表達(dá)網(wǎng)絡(luò)中基因功能的研究:將網(wǎng)絡(luò)中的所有基因利用DAVID進(jìn)行富集分析,篩選p value<0.05且count>2,得到基因富集的功能簇14個(gè),其中最為顯著的功能為蛋白質(zhì)定位,見表1。
3 討論
法洛四聯(lián)癥(TOF)是一種嚴(yán)重的先天性心臟病,發(fā)病率位于發(fā)紺型先天性心臟病之首。手術(shù)難度大,死亡率高,并發(fā)癥發(fā)生率高[12]。有文獻(xiàn)報(bào)道,嬰幼兒TOF的手術(shù)死亡率也在0%~5%之間[13]。TOF疾病常見的其它畸形有:多發(fā)性室間隔缺損、周圍肺動(dòng)脈狹窄、冠狀動(dòng)脈畸形、右位主動(dòng)脈弓、動(dòng)脈導(dǎo)管未閉、房間隔缺損、左上腔靜脈缺如等[2]。
近年來(lái),隨著對(duì)TOF病理改變的理解越來(lái)越深刻,以及要幼兒TOF手術(shù)的開展,TOF根治術(shù)的成功率有明顯的提高,但受多種因素的影響,手術(shù)仍有一定的風(fēng)險(xiǎn),如:除肺動(dòng)脈直徑及周圍肺動(dòng)脈有無(wú)狹窄外,冠狀動(dòng)脈的解剖異常及存在多發(fā)性室間隔缺損是另外兩個(gè)至關(guān)重要的因素[14]。因此,法洛四聯(lián)癥對(duì)于幼兒的危害是非常大的,縱使手術(shù)可以治療,但手術(shù)由于受到多種因素的影響,也是相對(duì)有風(fēng)險(xiǎn)的。此外,在手術(shù)后,也會(huì)存在很多的并發(fā)癥,如:灌注肺、呼吸衰竭等[15]。
TOF疾病不管是疾病本身,還是手術(shù)治療過(guò)程中,又或者手術(shù)后,對(duì)幼兒的生命健康都非常具有危害性。本分析基于來(lái)自TOF患病兒的miRNA和同組 mRNA表達(dá)譜數(shù)據(jù),通過(guò)生物信息學(xué)分析手段,篩選得到了顯著下調(diào)的兩個(gè)miRNA(hsa-miR-124和hsa-miR-138)及它們已知的靶基因(hsa-miR-124直接調(diào)控的34個(gè)和hsa-miR-138直接調(diào)控的2個(gè)靶基因),且這些已知靶基因同時(shí)也是組織中差異表達(dá)的基因,并由已知的靶基因得到與之共同表達(dá)的差異基因。篩選得到的這些基因如果通過(guò)實(shí)驗(yàn)驗(yàn)證,將有希望成為早期診斷TOF疾病的一種標(biāo)志,針對(duì)這些基因靶向性地設(shè)計(jì)藥物治療也將會(huì)成為現(xiàn)實(shí)。只要能夠?qū)⒃摷膊〖霸绲匕l(fā)現(xiàn)和治療,就會(huì)時(shí)患病的幼兒免受手術(shù)帶來(lái)的風(fēng)險(xiǎn)以及手術(shù)后有可能會(huì)帶來(lái)的并發(fā)癥痛苦。
參考文獻(xiàn):
[1]劉玉清,主編.心血管病影像診斷學(xué)[M].合肥:安徽科學(xué)技術(shù)出版社,2000:482.
[2]楊思源.小兒心臟病學(xué)[M].第3版.北京:人民衛(wèi)生出版社,2005:104-105.
[3]O'Brien JE Jr, Kibiryeva N,Zhou XG,Marshall JA,et al. Noncoding RNA expression in myocardium from infants with tetralogy of Fallot[J].Circ Cardiovasc Genet ,2012,5(3):279-286.
[4]Missing value estimation methods for DNA microarrays,Troyanskaya,O.Cantor,M.Sherlock,G.Brown,P.Hastie,T.Tibshirani,R.Botstein,D.and Altman,R.B.[J].Bioinformatics,2001,17(6):520-525.
[5]Evaluating different methods of microarray data normalization,André Fujita,Jo?o Ricardo Sato,Leonardo de Oliveira Rodrigues,Carlos Eduardo Ferreira and Mari Cleide Sogayar.
[6]Smyth,G.K.Limma:linear models for microarray data.In: Bioinformatics and Computational Biology Solutions using R and Bioconductor,R.Gentleman,V.Carey,S.Dudoit,R.Irizarry,W.Huber(eds)[J].Springer,New York,2005:397-420.
[7]Benjamini,Y.and Hochberg,Y.(1995)Controlling the 1 discovery rate:a practical and powerful approach to multiple testing[J].Journal of the Royal Statistical Society Series B,57:289-300.
[8]Prediction of Mammalian MicroRNA Targets.Benjamin P Lewis1,3,I-hung Shih2,3,Matthew W Jones-Rhoades1,2, David P Bartel1,2,Christopher B Burge1[J].Cell, 2003,115 (7).
[9]Conserved Seed Pairing,Often Flanked by Adenosines,Indicates that Thousands of Human Genes are MicroRNA Targets Benjamin P Lewis,Christopher B Burge,David P Bartel[J].Cell,2005,120:15-20.
[10]The STRING database in 2011:functional interaction networks of proteins,globally integrated and scored.
[11]Huang DW,Sherman BT,Lempicki RA.Systematic and integrative analysis of large gene lists using DAVID Bioinformatics Resources[J].Nature Protoc,2009,4(1):44-57.
[12]張鏡芳,莊建,吳若彬,等.136例成人法洛四聯(lián)癥的外科治療[J].中華外科雜志,1998,36:747-748.
[13]Pozzi M,Trivedi DB,Kitchiner D,et a1.Tetralogy of Fallot:what operation,at which age[J].Eur J Cardiothorac Surg,2000,17:631-636.
[14]高文根,汪曾煒,張仁福,等.要兒法樂(lè)四聯(lián)癥外科治療的危險(xiǎn)因素分析[J].中華小兒外科雜志,2004,25(5):417.
編輯/哈濤