侯宇轉(zhuǎn) 楊少青 阮文彥 張燕麗 張恒偉 黃永清 段小紅
V-ATP酶(Vacuolar-type H+-ATPase,V-ATPase)是一種高度保守的酶,它將ATP水解成質(zhì)子在胞內(nèi)或質(zhì)膜間運輸,起著質(zhì)子泵的作用,在維持細胞內(nèi)細胞器的酸性環(huán)境中起著重要作用[1], 酸性細胞內(nèi)環(huán)境是膜運輸、蛋白質(zhì)降解、骨吸收和精子成熟所必需的[2]。V-ATP酶在多種細胞類型中廣泛表達,被認為是所有真核細胞中必需的“管家”酶;然而,V-ATP酶的具體功能因細胞而異[3]。在破骨細胞中,V-ATP酶位于細胞的質(zhì)膜中,控制破骨細胞的細胞外酸化,使骨和破骨細胞之間形成吸收陷窩[4],最終影響骨吸收和骨重塑。哺乳動物的V-ATP酶由外圍的V1結(jié)構(gòu)域(包含A、B、C、D、E、F、G、H共8 個亞基)和跨膜的V0結(jié)構(gòu)域(包含a、b、c、d、e共5 個亞基)組成,ATP6V1H是連接V1和V0結(jié)構(gòu)域的一個小亞基,它的缺失將會使破骨細胞和成骨細胞的分化及功能受到影響[5-6],同時有助于脂肪細胞的誘導及分化[1]。對1 625 例漢族人基因組與骨密度的GWAS分析和以及1 個意大利家系的遺傳分析發(fā)現(xiàn)ATP6V1H功能的部分喪失導致骨質(zhì)疏松/骨質(zhì)減少[2,7],在281 533 個單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)位點[8-9]中選擇了16 個針對ATP6V1H基因內(nèi)含子區(qū)域的SNPs,統(tǒng)計學分析表明,有4 個SNPs(rs2376011,rs4738884,rs10435587,rs41321146)和骨密度存在關(guān)聯(lián)(P<0.05)[7]。本研究旨在對這4 個目標SNP進行生物信息學分析,以探討4 個位點對ATP6V1H表達或功能的影響。
運用3DSNP數(shù)據(jù)庫(http://cbportal.org/3dsnp/)分析目標SNPs的基本信息,主要包括位點的頻率信息、三維互作的基因、染色質(zhì)狀態(tài)以及SNP位點上下10 bp區(qū)域的保守性得分。
LncSNP 2.0數(shù)據(jù)庫(http://bio-bigdata. hrbmu. edu.cn/lincsnp2.0/index.html)專門用于存儲和注釋人類長鏈非編碼RNA(lncRNAs)及其轉(zhuǎn)錄因子結(jié)合位點(transcription factor binding site,TFBSs)中用GWAS篩選與疾病相關(guān)的SNPs。運用LncSNP 2.0數(shù)據(jù)庫來專門尋找與目標SNPs相關(guān)的lncRNA。
運用LNCipedia version 5.2(https://lncipedia.org/submit)查找相關(guān)lncRNA的序列,通過NCBI(https://www.ncbi.nlm.nih.gov/protein/NP_057025.2?report=fasta)查找ATP6V1H的蛋白序列,運用RPIseq數(shù)據(jù)庫(http://pridb.gdcb.iastate.edu/RPISeq/index.html)對lncRNA的序列和蛋白序列的交互作用進行分析。
2.1.1 目標SNPs頻率信息分析總結(jié) 次要等位基因頻率(minor allele frequency,MAF)廣泛應(yīng)用于復雜疾病的全基因組關(guān)聯(lián)研究,本課題篩選出4 個SNPs的MAF在0.14~0.25范圍內(nèi),且SNPs的等位基因頻率在亞洲人群中最高,均大于0.3,高于其他各州人群的平均MAF(表 1 )。
表 1 4 個SNP位點頻率信息總結(jié)
2.1.2 SNP位點三維相互作用的基因 三維相互作用基因指在不同細胞類型中,通過3D染色質(zhì)環(huán)在空間上相互作用的基因。本研究通過在3DSNP數(shù)據(jù)庫中預測發(fā)現(xiàn),在LNCaP細胞系中發(fā)現(xiàn)4 個目標SNP的三維互作基因均為神經(jīng)肽B/W受體1(neuropeptide B/W receptor-1,NPBWR1),位于染色質(zhì)環(huán)的錨點起始處,SNP位于染色質(zhì)環(huán)終止點處,兩者之間線性距離約為800 kb(圖 1)。
圖 1 染色質(zhì)環(huán)空間結(jié)構(gòu)模型
2.1.3 染色質(zhì)狀態(tài) rs4738884、rs10435587和rs41321146均呈現(xiàn)ChromHMM模型識別的染色質(zhì)狀態(tài),ChromHMM是基于染色質(zhì)免疫沉淀測序(chromatin immunoprecipitation followed by high-throughput DNA sequencing,ChIP-seq)組蛋白數(shù)據(jù)檢測染色質(zhì)狀態(tài)的工具。根據(jù)現(xiàn)有的數(shù)據(jù)發(fā)現(xiàn),rs4738884所在的DNA區(qū)域在多種細胞類型中具有增強子活性,包括多能干細胞和神經(jīng)細胞;rs10435587和rs41321146所在的DNA區(qū)域在胃黏膜細胞中具有增強子活性,rs41321146所在的DNA區(qū)域還在左心室中具有增強子活性(表 2)。
表 2 3 個SNP位點的染色質(zhì)狀態(tài)
2.1.4 SNP位點的保守性得分 SNP位點在46 種脊椎動物和33 種哺乳動物的PhyloP保守性評分, rs2376011為-0.363和-0.415,rs4738884為-0.848和-0.866,rs10435587和rs41321146的保守性得分為正數(shù),rs10435587為0.608和0.603, rs41321146為0.065和0.064(圖 2)。
圖 2 SNP位點在46 種脊椎動物和33 種哺乳動物中的PhyloP得分
通過LncSNP2.0數(shù)據(jù)庫篩選出了rs4738884和rs10435587的5個lncRNA位點(表 3),且這兩個SNP篩選出的lncRNA完全一致。其中LSLNC023334與LSLNC023336相關(guān)基因為NONHSAG050234,LSLNC-237460與LSLNC237461相關(guān)基因lnc-TCEA1-3;NONHSAG050234和lnc-TCEA1-3均為長鏈非編碼RNA基因,NONHSAG050234在各種數(shù)據(jù)庫及文獻中尚未有相關(guān)報道;lnc-TCEA1-3位于8 號染色體的內(nèi)含子區(qū)域,有4 個不同的轉(zhuǎn)錄本。根據(jù)數(shù)據(jù)庫中Linc-Score功能可以統(tǒng)計出與這兩個位點有較強相關(guān)性的疾病分別是自閉癥和冠狀動脈疾病。
表 3 SNPs相關(guān)lncRNA的信息
通過LNCipedia version 5.2對表 3中的轉(zhuǎn)錄本進行分析,找到lnc-TCEA1-3:1和lnc-TCEA1-3:2 2 個轉(zhuǎn)錄本的序列及其他相關(guān)信息,lnc-TCEA1-3:1位于chr8:53743587-53801868,長度為469 bp;lnc-TCEA1-3:2位于chr8:53715673-53795761,長度為467 bp。
RNA與蛋白質(zhì)相互作用的預測,通過NCBI下載ATP6V1H的蛋白序列,在RPIseq數(shù)據(jù)庫中輸入ATP6V1H的蛋白序列和lnc-TCEA1-3的轉(zhuǎn)錄本序列,其中l(wèi)nc-TCEA1-3:1利用RF(random forest)分類器和SVM(support vector machine)分類器得到的交互概率分別為0.75和0.89,lnc-TCEA1-3:2利用RF分類器和SVM分類器得到的交互概率分別為0.95和0.87。RPISeq產(chǎn)生的交互作用概率從0到1。在性能評估實驗中,概率為>0.5的預測被認為是“陽性的”,即相應(yīng)的RNA與蛋白質(zhì)可能相互作用。
本課題組前期對1 625 例漢族人的樣本進行了GWAS分析,本研究從分析得出的15 個ATP6V1H上的SNPs位點中挑選了4 個位于內(nèi)含子區(qū)域的SNPs進行了生物信息學分析,涉及SNPs的頻率信息、三維互助基因、染色質(zhì)狀態(tài)及保守性,并對SNPs的相關(guān)lncRNA信息進行了查找及分析。
基因組范圍內(nèi)SNPs數(shù)量巨大,篩選有意義的SNPs進行針對性研究十分重要[10]。 MAF可以作為篩選目標SNPs的一個重要指標,國際人類基因組單體型圖計劃(the international HapMap project,HapMap)將MAF>0.05的SNP位點作為首要研究目標[11],MAF>0.1的SNP位點可作為遺傳標記用于疾病遺傳易感性的研究[12]。Titmarsh等[13]利用HapMap數(shù)據(jù),比較了愛爾蘭和其他歐洲地區(qū)人口之間常見骨髓增殖性腫瘤突變的MAF,其差異可以解釋歐洲人群之間發(fā)病率的不同,從而更好地理解疾病的遺傳傾向。本研究中4 個SNP的MAF值均大于0.1,且在東亞人群的MAF值高于其他人群,具有反映該類人群遺傳易感性的特征。
在4 個SNPs位點中, rs2376011和rs4738884的PhyloP保守性評分為負數(shù),表明這兩個位點不保守,rs10435587和rs41321146的評分為正數(shù)且大于0.5,表明這兩個位點高度保守。保守的非編碼DNA元件在進化過程中不易丟失,可能具有重要功能。
本研究發(fā)現(xiàn)4 個目標SNP的三維交互基因均為NPBWR1。三維交互基因可以通過染色質(zhì)環(huán)在空間上進行相互作用。研究表明染色質(zhì)可形成環(huán)狀結(jié)構(gòu),使線性距離較遠的基因座可以在空間上密切接近[14-15],而這種空間上的連接是由CCCTC-結(jié)合因子(CCCTC-binding factor,CTCF)蛋白與黏連蛋白共同作用實現(xiàn)的。研究人員曾使用Hi-C技術(shù)在9 個細胞系中構(gòu)建了千堿基級別分辨率的染色質(zhì)相互作用圖譜,發(fā)現(xiàn)染色質(zhì)環(huán)中有相當大一部分為“啟動子-增強子”環(huán)[16-17]。本研究發(fā)現(xiàn)的三維交互基因NPBWR1是神經(jīng)肽B/W受體,可能與應(yīng)激反應(yīng)和情緒調(diào)控有關(guān)[18-19],Nagata-Kuroiwa等[20]研究表明NPBWR-/-小鼠對物理應(yīng)激的自主反應(yīng)和神經(jīng)內(nèi)分泌性反應(yīng)增強,提示NPBWR1損傷導致應(yīng)激脆弱性。染色質(zhì)狀態(tài)分析也表明rs4738884在多種細胞類型,特別是腦和神經(jīng)球中發(fā)揮增強子作用,與上述結(jié)果相吻合。
目前大量的研究表明,非編碼RNA對基因的轉(zhuǎn)錄,翻譯等過程具有重要的調(diào)控作用[21],SNPs的變化會引起相關(guān)lncRNA的改變,從而對蛋白編碼產(chǎn)生影響。rs4738884和rs10435587的相關(guān)lncRNA位點可以在LncSNP 2.0數(shù)據(jù)庫中查找到,結(jié)果顯示其相關(guān)lncRNA與自閉癥和冠狀動脈疾病相關(guān),但是暫未有相關(guān)的文獻報道。此外,其相關(guān)的lncRNA的轉(zhuǎn)錄本與ATP6V1H蛋白相互作用的概率較高,因此可以預測rs4738884在4 個SNP位點中的重要性更高,更有研究價值。
本研究通過對ATP6V1H內(nèi)含子區(qū)域SNP位點的分析發(fā)現(xiàn)rs4738884更具有研究價值,可利用CHIP實驗或其他方法進行觀遺傳分表析,如甲基化、乙?;?、染色質(zhì)可接近性等上述方法進一步探討其對于細胞的生物學功能及信號通路的影響。