魯程成 趙一凡 范純新 王 建
(1. 上海海洋大學國家海洋生物科學國際聯(lián)合研究中心, 上海 201306; 2. 上海海洋大學國際海洋研究中心海洋生物系統(tǒng)與神經(jīng)科學研究所, 上海 201306; 3. 上海海洋大學水產(chǎn)種質(zhì)資源發(fā)掘與利用教育部重點實驗室, 上海 201306)
肌肉是魚類最主要的結(jié)構(gòu)和功能組織之一, 且經(jīng)濟魚類的肌肉相關性狀很大程度影響著其品質(zhì)與產(chǎn)量。因此魚類肌肉形成和生長性狀相關因素一直是水生生物學和水產(chǎn)養(yǎng)殖領域的熱點問題。肌肉重要組成蛋白如肌球蛋白重鏈Myh (Myosin heavy chain)家族、Melusin等編碼基因的表達及其調(diào)控,在肌肉組織形成及功能維持中起到關鍵作用[1,2]。
基因組非編碼區(qū)存在大量順式調(diào)控元件(Cisregulatory element), 是調(diào)控基因表達的重要遺傳因素, 如增強子(Enhancer)可以增強相關基因的轉(zhuǎn)錄水平。增強子常帶有細胞及組織特異性[3,4], 同一基因也可受不同增強子調(diào)控在不同細胞中表達[3]。調(diào)控元件與生物體許多重要表型相關[4—6], 如調(diào)控元件的變異可導致動物外耳及骨骼發(fā)育異常[7]。肌肉組織特異性調(diào)控元件可以作為特定轉(zhuǎn)錄因子的結(jié)合位點在肌肉形成中發(fā)揮關鍵作用[8]。如在肌肉發(fā)育過程中, 許多肌肉特異性基因的調(diào)控區(qū)可以與Myod (Myogenic differentiation 1)、Myf5 (Myogenic factor 5)等生肌調(diào)節(jié)因子(Myogenic regulatory factors, MRFs)家族蛋白結(jié)合而調(diào)控下游基因表達[9]。這種調(diào)控機制也可誘導成熟細胞類型變化, 如Myod可誘導成纖維細胞等多種細胞向成肌細胞轉(zhuǎn)化, 且轉(zhuǎn)化后的細胞中大量表達Myh等肌肉重要組成蛋白[10]。可見, 研究肌肉特異性調(diào)控元件有助于解釋肌肉形成的遺傳基礎。
表達模式相同的基因可能受同類轉(zhuǎn)錄因子及其對應順式元件的轉(zhuǎn)錄調(diào)控, 因此同一組織表達的多個基因的順式調(diào)控元件之間可能存在相同或相似的序列特征。許多肌肉表達基因的調(diào)控區(qū)存在E-box (CANNTG)DNA基序(Motifs), 與MRFs家族蛋白的堿性螺旋-環(huán)-螺旋(Basic helix-loop-helix,bHLH)結(jié)構(gòu)域具有很高的親和力[11]。另外, 小鼠、線蟲等物種的幾種組織特異表達基因的調(diào)控區(qū)也發(fā)現(xiàn)了相同的DNA基序[12,13]。此外, 部分順式調(diào)控元件的DNA序列具有物種間保守性, 有時甚至高于編碼區(qū)序列[14,15]。可見, 分析肌肉表達基因調(diào)控區(qū)序列的保守性特征可以預測調(diào)控元件的存在。
本文通過分析兩組斑馬魚不同組織的轉(zhuǎn)錄組測序數(shù)據(jù), 篩選出在肌肉中高表達的基因, 并根據(jù)序列保守特征預測這些基因上游的調(diào)控元件。結(jié)果在5個肌肉高表達基因的近端獲得了序列特征相似DNA區(qū)域。進一步利用斑馬魚體內(nèi)熒光報告基因表達檢測系統(tǒng)對其中一段序列進行檢測, 發(fā)現(xiàn)其具有增強報告基因在肌肉組織中表達的能力, 其中可能包含一類肌肉組織特異型增強子。
本實驗所用野生型AB斑馬魚與TU斑馬魚均購自國家斑馬魚中心。TB斑馬魚由野生型AB與TU品系雜交獲得。所有實驗用魚均飼養(yǎng)于14h﹕10h光暗周期環(huán)境中, 養(yǎng)殖水溫為26—28℃, 每天早晚各喂食一次鹵蟲。
本實驗所用胚胎由2對5月齡TB成魚內(nèi)交獲得。胚胎飼養(yǎng)于Blue water(0.06 g紅海鹽、0.01 mg/L亞甲基藍) 中, 于28.5℃進行培養(yǎng)。
通過NCBI的SRA數(shù)據(jù)庫下載得到兩組包含成體野生斑馬魚肌肉及其他組織的RNA-seq數(shù)據(jù)(PRJNA255848[16]和PRJNA263496[17])。使用fastqdump轉(zhuǎn)化得到fastq文件, 并使用Trimmomatic[18]進行質(zhì)控, 去除序列5′端14 bp, 其他保持默認參數(shù)。通過Ensembl數(shù)據(jù)庫(release-94)下載獲得斑馬魚基因組參考序列文件(Danio_rerio.GRCz11.dna_sm.primary_assembly.fa.gz)及注釋文件(Danio_rerio.GRCz11.94.gtf)。使用HISAT2[19]將質(zhì)控后的fastq文件對比到基因組, 并使用StringTie[20]進行基因表達量計數(shù)。使用edgeR[21]進行組織間基因表達差異分析, 篩選肌肉相對其他6個組織(腦、鰓、心、肝、腎和腸)高表達(log2FC>=2)的基因并取交集。兩組RNA-seq分析結(jié)果取交集得到肌肉高表達基因。使用相同方法, 以log2FC<=–2為標準篩選肌肉低表達基因。通過http://geneontology.org/[22]對候選基因進行GO功能富集, 富集結(jié)果使用ggplot2[23]進行繪圖展示。
根據(jù)基因組注釋文件, 獲得肌肉高表達及低表達基因的近端調(diào)控區(qū)(基因起始位點上游5000 bp及下游1000 bp)在基因組中的位置信息。使用bedtools getfasta工具從基因組參考序列文件中提取目標區(qū)域的DNA序列。根據(jù)ANCORA[24](http://ancora.genereg.net/)數(shù)據(jù)庫, 以90pc_50col為標準, 在上述斑馬魚肌肉高表達基因的近端調(diào)控區(qū)查找跨物種保守元件(HCNE, Highly conserved noncoding elements), 進一步獲得物種間調(diào)控區(qū)保守的肌肉高表達基因。
使用MEME[25]工具(http://meme-suite.org/tools/meme)中的Discriminative mode算法, 以種間保守肌肉高表達基因的近端調(diào)控區(qū)DNA為基本序列(Primary sequences), 以肌肉低表達基因?qū)獏^(qū)域DNA作為對照序列(Control sequences), 預測肌肉高表達基因間的近端保守DNA基序。使用MAFFT(https://www.ebi.ac.uk/ Tools/msa/mafft/)進行DNA多序列比對及序列相似度計算。使用Tomtom[26]工具(http://meme-suite.org/tools/tomtom), 以JASPAR CORE(2018) vertebrates[27]數(shù)據(jù)庫為參考, 預測DNA基序中的轉(zhuǎn)錄因子結(jié)合位點。
取TB斑馬魚成魚雌雄各5尾, 解剖獲得肌肉、腦、心、肝、腎和腸6種組織, 參照TRIzol(ThermoFisher, 15596026)說明書的步驟提取各組織的總RNA。參照HiScript Ⅲ 1st Strand cDNA Synthesis Kit (諾唯贊, R312-01)試劑盒步驟將RNA逆轉(zhuǎn)錄為cDNA。以elfa為內(nèi)參對目標基因進行qPCR相對定量檢測, 每個基因每個組織樣品進行3次重復, 引物信息見表 1。qPCR反應按照 ChamQ Universal SYBR qPCR Master Mix(諾唯贊, Q711-02)說明進行,反應體系為20 μL, 反應條件為: 95℃, 10s; 60℃,30s; 40個循環(huán)。結(jié)果使用R以2–??Ct進行繪圖展示和統(tǒng)計分析, 用方差分析加Tukey HSD多重比較檢驗基因在各組織間的表達差異。
帶有Tol2和EGFP的質(zhì)粒由上海海洋大學劉志偉實驗室惠贈, 使用無縫克隆技術參照pTol2-GT2MP-EGFP質(zhì)粒[28]的結(jié)構(gòu)進行改造, 并在Tol2內(nèi)部插入人源β-globin絕緣子序列(HBB-5′HS5和HBB-3′HS1)[29], 在Gata2啟動子上游插入候選調(diào)控元件。具體步驟: 使用1%的間氨基苯甲酸乙酯甲磺酸鹽(Ethyl 3-aminobenzoate methanesulfonate,MS222, sigma, E10521-10G)麻醉TU斑馬魚后取尾鰭, 用DNeasy Blood & Tissue Kit (QIAGEN,69504)提取斑馬魚基因組DNA。使用高保真酶Phanta (諾唯贊, P515-01), Gata2-F/R引物(表 1)以基因組DNA為模板擴增得到Gata2啟動子, Vectorgata-F/R(表 1)引物擴增質(zhì)粒骨架, 并使兩者間存在15—20 bp的重疊區(qū)。用DpnⅠ(NEB, #R0176V)消化去除PCR產(chǎn)物中的質(zhì)粒模板, 然后利用單片段快速克隆試劑盒(ClonExpress Ⅱ One Step Cloning Kit, 諾唯贊)連接以上2個片段。連接產(chǎn)物轉(zhuǎn)化至大腸桿菌, 37℃培養(yǎng)12h, 使用高純度質(zhì)粒小提中量試劑盒(天根, DP107-02)提取質(zhì)粒pTol2-GT2MPEGFP。以此質(zhì)粒為模板, 進一步利用含有人源βglobin絕緣子序列的引物Insulator-F/R和Vector-HSF/R (表 1), 分別擴增GT2MP-EGFP和Tol2質(zhì)粒骨架兩DNA片段, 兩片段利用單片段快速克隆試劑盒連接, 產(chǎn)物轉(zhuǎn)化后提質(zhì)粒, 經(jīng)測序鑒定得到pTol2-HSGT2MP-EGFP質(zhì)粒作為空白對照(Empty vector control, EVC), EVC質(zhì)粒序列上傳至NCBI(MW 698954)。
表1 引物信息表Tab. 1 PCR Primers
以基因組DNA為模板, 用引物dr334F/R(表 1)擴增出候選調(diào)控區(qū)dr334。同時通過含部分dr334序列的引物vector-HS-F/R (表 1), 利用反向PCR擴增出pTol2-HS-GT2MP-EGFP質(zhì)粒骨架。用單片段快速克隆試劑盒將dr334插入pTol2-HS-GT2MPEGFP質(zhì)粒的HBB-5′HS5絕緣子和GT2MP之間, 得到質(zhì)粒pTol2-dr334:GT2MP-EGFP (簡稱dr334)。
收集TB斑馬魚內(nèi)交產(chǎn)生的胚胎, 向1-細胞階段的胚胎中注射dr344質(zhì)粒和Tol2轉(zhuǎn)座酶mRNA混合物, 同時以EVC質(zhì)粒作為對照。每顆胚胎中約注射2 nL的混合物, 其中質(zhì)粒約為50 pg, 轉(zhuǎn)座酶mRNA約為100 pg。注射后的胚胎置于Blue water中于28.5℃進行培養(yǎng)。分別于12 hours post fertilization(hpf)、24 hpf、36 hpf和48 hpf對注射胚胎的熒光進行觀察和拍照。首先用1% MS222對胚胎進行麻醉, 再用1%的甲基纖維素(Sigma, M0387-100G)固定胚胎后置于玻底培養(yǎng)皿, 在熒光顯微鏡(Axio Observer Z1, Zeiss)下進行拍照。最后, 對具有不同熒光模式組胚胎數(shù)目使用R函數(shù)fisher.test( )進行Fisher精確檢驗(Fisher’s exact test), 計算獲得對應P值及優(yōu)勢比(Odds ratio, OR)。
經(jīng)調(diào)查發(fā)現(xiàn)PRJNA255848和PRJNA263496兩項研究中均包含斑馬魚肌肉、腦、心、肝、腎和腸的轉(zhuǎn)錄組測序數(shù)據(jù)。利用該兩項研究的轉(zhuǎn)錄組數(shù)據(jù),分別進行上述組織間基因表達差異分析, 篩選得到肌肉相對其他組織高表達(log2FC>=2)的基因。在各組織比較結(jié)果取交集后, 在PRJNA255848數(shù)據(jù)中得到247個基因, 其在肌肉中表達量均高于其他5個組織; 在PRJNA263496中得到370個肌肉高表達基因。進一步對兩組肌肉高表達基因取交集, 獲得183個肌肉高表達的基因用于后續(xù)研究(圖 1A)。為確定這些肌肉高表達基因參與的主要功能, 我們通過基因本體(GO)富集分析, 發(fā)現(xiàn)其中157個基因(85.8%)獲得GO注釋結(jié)果, 富集GO集中在骨骼肌細胞增殖調(diào)節(jié),骨骼肌收縮調(diào)節(jié), 骨骼肌肌球蛋白粗絲組裝, 骨骼肌纖維發(fā)育, 鈣離子跨膜轉(zhuǎn)運等(圖 1B)。用類似方法,我們篩選到了234個肌肉低表達對照基因。
圖1 轉(zhuǎn)錄組分析篩選肌肉高表達基因(A)和肌肉高表達基因GO 生物過程富集結(jié)果(B)Fig. 1 Screening for genes that are highly expressed in muscle (A) and GO biological process enrichment of the high-expression gene of muscle (B)
我們通過Ancora數(shù)據(jù)庫查找了上述斑馬魚肌肉高表達基因近端調(diào)控區(qū)中的跨物種保守元件(HCNE), 發(fā)現(xiàn)24個基因的調(diào)控區(qū)中存在跨物種非編碼保守元件(表 2), 提示這些基因可能存在種間保守的轉(zhuǎn)錄調(diào)控機制。通過查找zfin(http://zfin.org/)表達數(shù)據(jù)庫數(shù)據(jù)發(fā)現(xiàn), 除個別基因數(shù)據(jù)缺失外, 絕大多數(shù)基因都在48hpf在肌肉中有表達。為探討是否存在基因間保守的表達調(diào)控, 我們以該24個近端調(diào)控區(qū)序列為查找目標, 以234個肌肉低表達基因的近端調(diào)控區(qū)序列作為對照, 使用MEME的Discriminative mode算法進行比較, 在5個基因[itgbl1,obsl1b,zgc:9242,myh6(Ensembl 103版中被注釋為myh7l),mylk4a]的上游均發(fā)現(xiàn)了一段序列相似的保守DNA片段。片段內(nèi)部均包含成簇排列且順序一致的6個DNA基序(圖 2), 片段長度為292—347 bp(表 3)。多序列比對發(fā)現(xiàn)5個DNA片段兩兩之間的序列相似度為78.62%—84.19%。這些DNA片段在肌肉高表達基因間的序列保守性(圖 2A), 提示其可能在調(diào)控基因組織特性表達中具有一定功能。根據(jù)片段區(qū)域信息(表 3)在Ancora網(wǎng)站查詢, 我們發(fā)現(xiàn)這些區(qū)域與Ancora中保守元件不重合(結(jié)果未展示), 提示其功能可能具有物種特異性。熒光定量PCR結(jié)果發(fā)現(xiàn), 這5個基因在斑馬魚成魚肌肉中的表達量均明顯高于其他5個組織(圖 2B), 進一步驗證了轉(zhuǎn)錄組分析的結(jié)果。這些發(fā)現(xiàn)提示上述5個DNA片段可能對調(diào)控這些基因在肌肉中高表達起到作用。
表3 基因近端保守區(qū)序列信息Tab. 3 The sequence information of proximal conserved element for 5 genes
圖2 肌肉高表達基因及其近端保守DNA片段Fig. 2 Muscle highly expressed genes and proximal conserved DNA sequencesA. 5個基因近端的順序相同的DNA基序簇, 不同線條填充的矩形代表不同種基序; B. 5個基因在不同組織的qPCR相對定量結(jié)果, Y軸為各組織相對肌肉的表達量變化(2–??Ct), 誤差線為標準誤; 不同字母表示差異顯著A. DNA motif clusters with same orders for five genes. The rectangles with different line patterns represent the different motifs; B. The relative expression of 5 genes in different tissues. Y axes are relative expression to muscle (2–??Ct). Error bars are standard errors of mean.Different letters indicate significant differences
表2 Ancora數(shù)據(jù)庫中具有基因近端跨物種保守元件的斑馬魚肌肉高表達基因Tab. 2 Muscle highly expressed genes with proximal CNEs in Ancora database
為了驗證上述DNA基序簇的轉(zhuǎn)錄調(diào)控功能, 我們選取了在肌肉中表達豐富的zgc:92429 基因[30]上游的DNA基序簇區(qū)域作為研究對象。我們克隆得到了該基因上游區(qū)域334 bp的DNA片段, 經(jīng)測序驗證, 該片段序列與斑馬魚GRCz11版本基因組對應區(qū)域序列一致。將其插入在pTol2-GT2MP-EGFP的Gata2 最小啟動子的上游, 構(gòu)建了熒光蛋白表達報告質(zhì)粒, 該質(zhì)粒命名為pTol2-dr334:GT2MPEGFP(圖 3A, 簡稱dr334)。我們同時構(gòu)建了不含克隆片段的載體pTol2-HS-GT2MP-EGFP作為對照(EVC)。分別將兩種質(zhì)粒注射到同批次的TB斑馬魚1細胞期胚胎中, 并在12hpf、24hpf、36hpf和48hpf四個發(fā)育時期通過熒光顯微鏡進行觀察。發(fā)現(xiàn)在各時期, 均有不同比例的胚胎顯示出肌肉組織特異熒光信號(圖 3B)。另外, 根據(jù)魚體內(nèi)熒光信號情況, 各時期的胚胎均可分為3類: (1) 沒有熒光信號(N); (2) 有熒光信號但非肌肉組織特異性表達(NSF); (3) 熒光信號有明顯的肌肉組織特異性(MF)(圖 3C)。對各時期三類胚胎進行計數(shù)統(tǒng)計 (表 4和圖 3D), 發(fā)現(xiàn)在四個時期, 注射dr334的胚胎可觀察到的熒光個體(NSF+MF)相對無熒光個體(N)的比例均高于對照組(Odds ratio范圍: 1.643—3.881), 且在24hpf(P=0.006)和48hpf(P<0.001)具有極顯著統(tǒng)計學差異。另外, dr334組胚胎的肌肉特異信號個體(MF)相對非肌肉特異信號個體(N+NSF)的比例均高于對照組(Odds ratio范圍: 1.311—6.487), 且在發(fā)育后期更加明顯, 48hpf時具有極顯著統(tǒng)計學差異(P<0.001)。這說明該長度為334 bp的DNA片段不僅具有增強報告基因表達的作用, 且其增強作用帶有肌肉組織特異性。
表4 實驗組與對照組的熒光觀察結(jié)果計數(shù)分析Tab. 4 Embryo counts upon fluorescence levels and proportion test between empty vector control and dr334 vector
圖3 熒光報告載體結(jié)構(gòu)及注射后胚胎熒光信號Fig. 3 Structure of eGFP expression reporter plasmids and fluorescence signals in zebrafish embryosA. dr334質(zhì)粒(上)及對照質(zhì)粒(下)功能區(qū)的結(jié)構(gòu); B. 3個發(fā)育時期顯示肌肉特異性熒光信號的胚胎, 標尺=1 mm; C. 4個發(fā)育時期3種熒光信號類型胚胎的局部圖, 標尺=1 mm; N代表沒有熒光信號, NSF代表有非肌肉特異性信號, MF代表有肌肉特異性熒光信號; D. 4個發(fā)育時期3種熒光信號類型胚胎的比例; EVC表示注射空載體質(zhì)粒的胚胎; dr344表示注射dr344質(zhì)粒的胚胎A. Structure of functional region for dr334 plasmid (up) and control (bottom) plasmids; B. Embryos with muscle specific fluorescent signal in three developmental stages, Scale bar = 1 mm; C. Embryos with three types of fluorescent signals for four developmental stages; N is no fluorescence signal, NSF is non-specific fluorescence, and MF is muscle specific fluorescence. Scale bar = 1 mm. D. Embryo counts proportions upon fluorescence types or four developmental stages. EVC represents empty vector control plasmids were injected in to embryos; dr344 represents dr344 plasmids were injected
我們發(fā)現(xiàn)的DNA基序簇片段, 在多個肌肉高表達基因間序列保守, 且在體內(nèi)顯示增強基因在肌肉中表達的功能, 提示可能存在同類的轉(zhuǎn)錄因子與該區(qū)域結(jié)合調(diào)控這些基因在肌肉中高表達。我們通過Tomtom(http://meme-suite.org/tools/tomtom)對目標DNA基序進行轉(zhuǎn)錄因子結(jié)合位點預測。結(jié)果在motif 2、motif 3和motif 4中分別發(fā)現(xiàn)了 Xbp1(Xbox binding protein 1)[31]和twist2(twist family bHLH transcription factor 2)[32]、bhlha15(basic helix-loophelix family, member a15)[33]、myod1(myogenic differentiation 1)[34]、twist1(twist family bHLH transcription factor 1)[35]等多個肌肉形成相關轉(zhuǎn)錄因子的結(jié)合位點(圖 4), 預測P值分別為1.34e-02、2.16e-03、1.71e-03、1.09e-02和1.64e-02, 提示該區(qū)域可能作為這些轉(zhuǎn)錄因子的靶點, 參與基因表達調(diào)控。
圖4 Tomtom預測得到的DNA基序簇中肌肉相關的轉(zhuǎn)錄因子結(jié)合位點Fig. 4 Muscle-related transcription factor binding sites in motif clusters predicted by Tomtom
魚類肌肉形成及相關基因的表達調(diào)控是水生生物學和水產(chǎn)科學研究中的熱點問題。組織特異性DNA順式調(diào)控元件可以作為特定轉(zhuǎn)錄因子的結(jié)合位點, 調(diào)控基因在特定組織表達[7]。為研究可調(diào)控基因在肌肉中表達的DNA功能元件, 我們通過分析公共數(shù)據(jù)庫中的轉(zhuǎn)錄組和基因組數(shù)據(jù), 在5個肌肉高表達基因的近端均發(fā)現(xiàn)了一段保守的DNA區(qū)域, 猜測其可能作為功能元件參與基因在肌肉中表達的調(diào)控。我們進一步克隆獲得了zgc:92429對應區(qū)段的DNA片段, 并將其連接到eGFP熒光報告基因上游, 使用tol2轉(zhuǎn)座系統(tǒng)將克隆DNA片段轉(zhuǎn)入斑馬魚胚胎基因組。通過觀察eGFP在體內(nèi)表達情況,發(fā)現(xiàn)實驗組胚胎在發(fā)育后期大比例顯示出肌肉組織特異性熒光信號, 說明該DNA片段可能作為轉(zhuǎn)錄調(diào)控元件增強基因肌肉特異性表達。
我們觀察到注射了實驗組和對照組質(zhì)粒的胚胎均可能會表現(xiàn)為3種情況: (1)沒有熒光信號;(2)非特異性熒光信號; (3)肌肉組織特異熒光信號。報告基因表達除受我們關注的DNA元件影響外, 還可能會受到其他因素的影響。一方面, 注射和轉(zhuǎn)座實驗存在一定系統(tǒng)誤差, 部分胚胎未將eGFP基因連同調(diào)控元件整合到基因組中, 造成沒有熒光蛋白生成或者隨機瞬時生成部分熒光蛋白;另一方面, eGFP基因插入到基因組其他增強元件附近的時候也可能被激活表達, 載體設計中加入的絕緣子可能未完全阻斷其他功能元件的影響。因此各組胚胎的熒光信號表達模式均存在一定隨機性。經(jīng)對大量胚胎計數(shù)統(tǒng)計分析后發(fā)現(xiàn), 實驗組中肌肉組織特異性熒光信號的比例顯著高于對照組,說明目標區(qū)域的DNA片段具有增強報告基因在肌肉中表達的作用。如對該系統(tǒng)進行進一步優(yōu)化, 其有望作為基因工程的工具, 高效引導基因在肌肉中特異表達。
另外, 我們發(fā)現(xiàn)的DNA基序簇所在基因組區(qū)域(表 3), 并未與Ancora數(shù)據(jù)庫中跨物種保守元件重合, 提示其轉(zhuǎn)錄調(diào)控功能可能具有物種特異性。另一方面也說明, 對基因間序列保守性分析進行非編碼調(diào)控元件預測, 可以作為跨物種序列保守分析的補充, 對基因組非編碼區(qū)進行功能注釋。
本文發(fā)現(xiàn)5個基因上游存在相似的DNA序列,這些基因均在肌肉的結(jié)構(gòu)和功能中起到重要作用。zgc:92429在斑馬魚肌肉中高度表達[36], 在人類、小鼠等物種的同源基因為Itgb1bp2。該基因在小鼠骨骼肌和心肌中高表達且作為一種肌肉特異性信號蛋白[37]。該基因產(chǎn)物通過與一種細胞膜膜受體整合素1(itgbl1)的胞質(zhì)內(nèi)區(qū)域結(jié)合, 調(diào)節(jié)肌肉的生長、收縮和修復[38]。同時, 我們在itgbl1上游也發(fā)現(xiàn)了同樣排列順序的DNA基序簇, 提示以上2個基因的表達受到同類信號的調(diào)控, 有助于其協(xié)同作用。在斑馬魚中, Obsl1b(Obscurin like cytoskeletal adaptor 1b)大量存在于肌節(jié)中參與細胞基質(zhì)、細胞和胞內(nèi)細胞骨架連接的穩(wěn)定[39]。肌球蛋白重鏈6(Myh6)構(gòu)成Ⅱ型肌球蛋白的一部分, Ⅱ型肌球蛋白在肌節(jié)中為肌肉收縮提供所需的機械力[40,41]。需要注意的是, 在多數(shù)文獻的報道中myh6在胚胎時期的心肌中表達豐富[42], 由于在較新版本的ensembl數(shù)據(jù)庫中也將該基因注釋為myh7l, 經(jīng)過調(diào)查發(fā)現(xiàn)myh7基因在成年時也會在骨骼肌中表達[43,44], 這也部分驗證了我們的實驗結(jié)果, 我們推測該基因可能在不同時期有不同的表達模式。mylk4基因作為MYLK家族的一員, 在肌肉發(fā)育中起重要作用[45], 該基因會在心力衰竭中下調(diào)并可能引起肌絲的磷酸化的下降, 從而影響心肌細胞的骨架結(jié)構(gòu)[46]。此外, 以上5個基因均在人或小鼠中參與肌節(jié)的構(gòu)成[41—43,49,50],說明這些基因可能在斑馬魚肌肉中協(xié)同作用維持肌肉的正常形態(tài)和功能, 其表達可能具有相近的轉(zhuǎn)錄調(diào)控機制。
上述5個基因的上游發(fā)現(xiàn)了相同的DNA基序簇, 提示可能存在同類的轉(zhuǎn)錄因子通過與這些候選區(qū)域結(jié)合, 調(diào)控這些基因的表達。通過Tomtom(http://meme-suite.org/tools/tomtom)預測候選區(qū)域DNA基序的轉(zhuǎn)錄因子結(jié)合位點, 發(fā)現(xiàn)該區(qū)域可能存在Myod1、Xbp1、Bhlha15、Twist1和Twist2等多個肌肉形成相關的轉(zhuǎn)錄因子的結(jié)合位點, 提示該區(qū)域可能作為這些轉(zhuǎn)錄因子的靶點, 參與基因表達調(diào)控。Myod作為MRF的成員之一在特異肌基因轉(zhuǎn)錄調(diào)控中起到總開關作用, 推動肌源性細胞譜系的形成[49], 且可誘導非肌肉細胞(如成纖維細胞、成軟骨細胞、視網(wǎng)膜色素上皮細胞等)向成肌細胞轉(zhuǎn)化[8]。有研究發(fā)現(xiàn)在C2C12細胞中,xbp1被敲降后Myod等生肌調(diào)節(jié)因子的表達下調(diào), 并且細胞向成肌細胞的分化受到抑制, 猜測Xbp1可能通過誘導Cdk5來調(diào)控myod家族基因參與成肌細胞早期分化[50]。bhlha15是一種myod的負調(diào)控因子, 該基因通過與Myod形成異二聚體或者與自身形成二聚體來占據(jù)E-box區(qū)域, 從而使得胚胎時期的肌肉分化增殖保持動態(tài)平衡[33]。Twist同樣屬于bHLH轉(zhuǎn)錄因子家族[51], 小鼠Twist可以與Myod結(jié)合抑制后者的作用[52]且表達twist2的肌源性干細胞被報道作為一種新的干細胞類型參與了肌肉的生長和再生[53]。結(jié)合上述研究,我們發(fā)現(xiàn)的候選轉(zhuǎn)錄調(diào)控元件可能通過與Myod為中心的多種轉(zhuǎn)錄因子組成的調(diào)控復合體結(jié)合, 調(diào)控基因在早期發(fā)育的肌肉細胞中定向表達。但基于目前的分析, 我們尚不清楚除上述候選轉(zhuǎn)錄因子結(jié)合位點外, 該保守DNA區(qū)段的是否還存在其他重要的功能區(qū), 也不了解這些候選結(jié)合位點是否同時發(fā)揮作用。此外, 也不排除該元件部分區(qū)域具有啟動子活性。研究該片段的具體轉(zhuǎn)錄調(diào)控機制, 還需要更多信息學分析以及更多實驗證據(jù), 如堿基突變功能驗證、DNA與蛋白作用檢測、啟動子活性檢測等實驗, 進行深入探討。
綜上所述, 本研究通過生信分析在多個斑馬魚肌肉高表達基因上游發(fā)現(xiàn)一段序列保守的DNA區(qū)域, 體內(nèi)熒光報告基因表達檢測發(fā)現(xiàn)該DNA片段可能是一段肌肉組織特異的轉(zhuǎn)錄調(diào)控元件, 可能通過與Myod為中心的多種轉(zhuǎn)錄因子結(jié)合調(diào)控基因表達。該發(fā)現(xiàn)為進一步研究肌肉形成相關基因表達調(diào)控的分子機制奠定了基礎。該片段也有望作為基因工程的工具, 引導基因在肌肉中特異表達。