趙夢(mèng)迪 ,趙文革
隨著高通量測(cè)序技術(shù)的發(fā)展和測(cè)序成本的降低,高通量測(cè)序數(shù)據(jù)不斷地產(chǎn)生。目前已經(jīng)逐漸成為生物學(xué)中重要的研究手段之一,在運(yùn)動(dòng)科學(xué)中也逐漸被采用?;蛐酒夹g(shù)是檢測(cè)基因表達(dá)變化最常用的高通量測(cè)序技術(shù),在GEO數(shù)據(jù)庫(kù)中產(chǎn)生了大量關(guān)于人體運(yùn)動(dòng)相關(guān)的基因表達(dá)芯片數(shù)據(jù),但是這些數(shù)據(jù)還沒(méi)用被充分利用,合理高效地利用這些數(shù)據(jù)也成為研究目標(biāo)之一。
運(yùn)動(dòng)過(guò)程中機(jī)體會(huì)根據(jù)運(yùn)動(dòng)狀態(tài)和時(shí)間的變化產(chǎn)生適應(yīng)性改變。例如長(zhǎng)期的運(yùn)動(dòng)可以促進(jìn)肌肉的生長(zhǎng),同時(shí)提高心肺功能。不當(dāng)?shù)倪\(yùn)動(dòng)則會(huì)產(chǎn)生運(yùn)動(dòng)損傷和運(yùn)動(dòng)疲勞等。如何針對(duì)這些問(wèn)題從分子學(xué)角度解決還需進(jìn)一步探究,關(guān)于運(yùn)動(dòng)背后的分子機(jī)制還有許多問(wèn)題有待闡明。
目前,關(guān)于肌肉細(xì)胞如何適應(yīng)運(yùn)動(dòng)過(guò)程的分子機(jī)制的研究不多。先前研究表明,運(yùn)動(dòng)會(huì)導(dǎo)致肌肉細(xì)胞中代謝基因的mRNA表達(dá)量發(fā)生變化[1-4],這說(shuō)明在人體運(yùn)動(dòng)的過(guò)程中,也存在著基因的表達(dá)調(diào)控。有些基因在運(yùn)動(dòng)過(guò)程中迅速升高[5],而有些基因在運(yùn)動(dòng)的過(guò)程中則緩慢升高。但仍有很多基因在運(yùn)動(dòng)過(guò)程中的變化情況并不明確[5-6]。
基因芯片(Gene Chip)通常指DNA芯片,其核心的技術(shù)是把需要檢測(cè)的核苷酸固定到芯片上,利用檢測(cè)的樣品會(huì)跟核苷酸探針雜交互補(bǔ),雜交互補(bǔ)之后會(huì)產(chǎn)生熒光信號(hào),通過(guò)檢測(cè)熒光信號(hào)的強(qiáng)弱可以判定樣品中相應(yīng)探針靶標(biāo)基因的數(shù)量[7]?;蛐酒膹V泛使用主要得益于探針高通量設(shè)計(jì)、探針合成和熒光檢測(cè)等技術(shù)的發(fā)展,使得同時(shí)可以高通量的檢測(cè)數(shù)以萬(wàn)計(jì)的探針靶標(biāo),從而可以對(duì)樣本中的靶分子進(jìn)行靈活準(zhǔn)確的檢測(cè)變成現(xiàn)實(shí)[8]。在過(guò)去的十幾年中,基因芯片被應(yīng)用到各個(gè)領(lǐng)域中,在運(yùn)動(dòng)人體科學(xué)中,其主要被用來(lái)檢測(cè)不同的運(yùn)動(dòng)對(duì)基因表達(dá)的影響[9],運(yùn)動(dòng)過(guò)程中基因隨時(shí)間的變化[10]以及老人兒童婦女、病人等特殊人體在運(yùn)動(dòng)中產(chǎn)生的基因表達(dá)變化[11-13]。
Web技術(shù)是互聯(lián)網(wǎng)發(fā)展中重要的技術(shù)之一,而Web數(shù)據(jù)庫(kù)指在網(wǎng)絡(luò)中通過(guò)Web界面去訪問(wèn)數(shù)據(jù)庫(kù)中的數(shù)據(jù)。目前的Web已經(jīng)不再僅局限于提供信息,而是可以實(shí)現(xiàn)交互式查詢(xún)及web數(shù)據(jù)庫(kù)服務(wù)[14]。Web數(shù)據(jù)庫(kù)就是將數(shù)據(jù)庫(kù)儲(chǔ)存大量數(shù)據(jù)的特點(diǎn)和Web技術(shù)的靈活方便的特點(diǎn)結(jié)合在一起,使得數(shù)據(jù)庫(kù)系統(tǒng)作為Web儲(chǔ)存數(shù)據(jù)的重要組成部分,實(shí)現(xiàn)了數(shù)據(jù)庫(kù)與網(wǎng)絡(luò)技術(shù)的完美組合。Web數(shù)據(jù)庫(kù)的組成并不是簡(jiǎn)單的數(shù)據(jù)庫(kù)和Web技術(shù)的組合,其目前已經(jīng)發(fā)展完善,并成為很多網(wǎng)站搭建的模型。其主要由4部分組成,最底層的是儲(chǔ)存數(shù)據(jù)的數(shù)據(jù)庫(kù)(Database)、中間插件(Middle Ware)、Web服務(wù)器(Websever)和面向用戶(hù)的瀏覽器(Browser)。工作的原理我們可以簡(jiǎn)單描述為,用戶(hù)通過(guò)瀏覽器查詢(xún)相關(guān)內(nèi)容,查詢(xún)的內(nèi)容通過(guò)Web服務(wù)器訪問(wèn)數(shù)據(jù)庫(kù),最后查詢(xún)到的結(jié)果通過(guò)網(wǎng)頁(yè)的方式展現(xiàn)給用戶(hù),完成檢索過(guò)程[15]。
數(shù)據(jù)來(lái)源于GEO數(shù)據(jù)庫(kù)中的GSE43856[16]的骨骼肌樣品數(shù)據(jù)。樣品分為四組(運(yùn)動(dòng)前0h、運(yùn)動(dòng)后3h、48h、96h),每組進(jìn)行8次生物學(xué)重復(fù),芯片采用的是Illumina HT12 version 3。
(1)為消除組間數(shù)據(jù)可能由于測(cè)序深度的不同導(dǎo)致的誤差,將32組數(shù)據(jù)多個(gè)基因的表達(dá)量進(jìn)行均一化處理。
(2)對(duì)每組的8個(gè)數(shù)據(jù)進(jìn)行平均數(shù)及標(biāo)準(zhǔn)差計(jì)算。
(3)根據(jù)基因的表達(dá)量制作數(shù)據(jù)庫(kù)中的相應(yīng)的表文件。
采用APPsever(version7.5.10)進(jìn)行網(wǎng)站搭建,同時(shí)配置相關(guān)的數(shù)據(jù)庫(kù)用戶(hù),界面網(wǎng)站制作工具為phpcms(version 9)。用超文本預(yù)處理器(PHP)語(yǔ)言構(gòu)造ExerciseSAGE網(wǎng)頁(yè),并在Linux系統(tǒng)(CentOS 6.4)中運(yùn)行。所有數(shù)據(jù)存儲(chǔ)在MySQL數(shù)據(jù)庫(kù)(5.1.66),標(biāo)簽序列儲(chǔ)存在excel表格中,可直接下載。
本研究構(gòu)建的運(yùn)動(dòng)基因表達(dá)數(shù)據(jù)庫(kù),運(yùn)行環(huán)境為linux操作系統(tǒng),使用Apache服務(wù)器作為Web服務(wù)器,數(shù)據(jù)存儲(chǔ)在MySQL數(shù)據(jù)庫(kù)中一個(gè)表中,采用PHP語(yǔ)言實(shí)現(xiàn)用戶(hù)在數(shù)據(jù)庫(kù)中的檢索,最終在Web中輸入檢索對(duì)象并輸出檢索結(jié)果,展示給用戶(hù)[15,17]。
圖一展示了ExerciseSAGE數(shù)據(jù)庫(kù)構(gòu)建的框架。首先,從GEO數(shù)據(jù)庫(kù)中下載得到運(yùn)動(dòng)前0h,運(yùn)動(dòng)后3h,48h,96h骨骼肌的基因表達(dá)芯片,然后數(shù)據(jù)經(jīng)過(guò)處理即作為數(shù)據(jù)庫(kù)中的原始數(shù)據(jù)。檢索系統(tǒng)中主要包括,通過(guò)基因的關(guān)鍵詞檢索,或者通過(guò)基因編號(hào)、標(biāo)簽序列、基因表達(dá)量、染色體位置、Entrez ID編號(hào)、基因功能等進(jìn)行組合查詢(xún)。查詢(xún)的結(jié)果主要展示的有:基因的編號(hào)、Tag序列、0h表達(dá)量、3h表達(dá)量、48h表達(dá)量、96h表達(dá)量、基因的描述、染色體及其位置信息、Entrez ID編號(hào)和Ontology注釋信息。
圖一 ExerciseSAGE數(shù)據(jù)庫(kù)構(gòu)建
ExerciseSAGE數(shù)據(jù)庫(kù)網(wǎng)站是一個(gè)使用簡(jiǎn)單方便的web數(shù)據(jù)庫(kù)網(wǎng)站。主要由6部分組成:主頁(yè)、基因檢索、方法、數(shù)據(jù)下載、問(wèn)題反饋。
使用者可以通過(guò)www.tsrna.org訪問(wèn)ExerciseSAGE數(shù)據(jù)庫(kù)。主頁(yè)包含對(duì)ExerciseSAGE介紹(圖二)。通過(guò)對(duì)ExerciseSAGE的整體框架的了解可以方便快速地進(jìn)入基因檢索頁(yè)面。
圖二 ExerciseSAGE主頁(yè)
網(wǎng)站查詢(xún)頁(yè)可以根據(jù)用戶(hù)的輸入查詢(xún)特定的基因用以分析運(yùn)動(dòng)后不同時(shí)期的基因表達(dá)量。輸入選項(xiàng)包括基因名稱(chēng),標(biāo)簽序列,基因ID,染色體,基因本體論,基因表達(dá)量范圍(圖三)等。以ACTN3基因?yàn)槔檎褹CTN3基因在運(yùn)動(dòng)前后的動(dòng)態(tài)變化過(guò)程。
圖三 ExerciseSAGE查詢(xún)頁(yè)
之前的研究證實(shí)ACTN3是運(yùn)動(dòng)過(guò)程中最主要的候選基因之一,這個(gè)基因的功能主要與骨骼肌的爆發(fā)力相關(guān)。通常而言,在耐力運(yùn)動(dòng)項(xiàng)目中擁有ACTN3基因的比例為50%左右,跟普通人群中的比例沒(méi)有明顯差別。通過(guò)檢測(cè)參加奧運(yùn)會(huì)中與爆發(fā)力有關(guān)的項(xiàng)目(如短跑、跳遠(yuǎn)等)高水平的運(yùn)動(dòng)員中正常ACTN3基因的攜帶比例達(dá)到95%,而在一些個(gè)別項(xiàng)目的女運(yùn)動(dòng)員中有100%攜帶[18-19]。直接可以在關(guān)鍵詞檢索中輸入“ACTN3”,點(diǎn)擊檢索,頁(yè)面下方出現(xiàn)了一條基因,即ACTN3,我們可以看到其基因編號(hào)NM_001104.1(圖四),基因芯片中使用的標(biāo)簽序列為“TGGACTACGTGGCCTTCTCCAGTGCCCTCTATGGGGAGAGCGACCTTTGA”,以及在運(yùn)動(dòng)前0h、運(yùn)動(dòng)后3h、48h、96h分別對(duì)應(yīng)的基因的表達(dá)量(reads數(shù)目)是1811、2022、1142、1336,后面依次是基因描述為“Homo sapiens actin,alpha 3(ACTN3),mRNA.”,所在染色體的位置為11號(hào)染色體6608719位置,Entrez ID編號(hào)是89,以及基因本體的注釋是“A filamentous structure formed of a two-stranded helical polymer of the protein actin and associated proteins.Actin filaments are a major component of the contractile apparatus of skeletal muscle and the microfilaments of the cytoskeleton of eukaryotic”(圖四)。另外,Entrez ID也設(shè)置了超鏈接,可以點(diǎn)擊鏈接到NCBI的genbank數(shù)據(jù)庫(kù)中。因此可以利用外部數(shù)據(jù)庫(kù)NCBI和UCSC(圖五)工具做進(jìn)一步分析。
圖四 ACTN3檢索結(jié)果
圖五 ACTN3鏈接到UCSC
同時(shí)根據(jù)基因組所在的位置,我們也可以鏈接到UCSC基因組瀏覽器中進(jìn)一步分析此基因。此外,數(shù)據(jù)庫(kù)中還包含了584條miRNA和約855條長(zhǎng)鏈非編碼RNA。
另外通過(guò)檢索頁(yè)也可以檢索標(biāo)簽序列的表達(dá)數(shù)量。這是從表達(dá)水平上對(duì)基因搜索進(jìn)行檢索,可以去查詢(xún)一些表達(dá)量很低或者很高的基因。還可以進(jìn)行一些特征的組合檢索,例如,在運(yùn)動(dòng)后3小時(shí),標(biāo)簽序列數(shù)量大于2000,基因功能為“skeletal muscle”,在11號(hào)染色體上,檢索結(jié)果圖中有目標(biāo)基因ACTN3(圖六)。這樣可以快速定位某一類(lèi)特征的基因。
圖六 組合檢索ACTN3
運(yùn)動(dòng)基因表達(dá)數(shù)據(jù)庫(kù)是一個(gè)收集關(guān)于運(yùn)動(dòng)過(guò)程中和運(yùn)動(dòng)后轉(zhuǎn)錄本分析的數(shù)據(jù)庫(kù),它在一個(gè)非常靈活的平臺(tái)上構(gòu)建。除了靜態(tài)數(shù)據(jù)分析,我們利用SAGE數(shù)據(jù)提取了運(yùn)動(dòng)后不同時(shí)間點(diǎn)的不同轉(zhuǎn)錄本表達(dá)量的信息。目前正在收集更多的數(shù)據(jù)去分析關(guān)于不同運(yùn)動(dòng)類(lèi)型、不同模式動(dòng)物(大鼠、小鼠)等的動(dòng)態(tài)基因表達(dá)情況,這些信息將會(huì)在下一版本的ExerciseSAGE數(shù)據(jù)庫(kù)中展示。在當(dāng)前版本中,轉(zhuǎn)錄本數(shù)據(jù)主要是以表格的方式進(jìn)行呈現(xiàn),不利于直觀的比較,后續(xù)的版本中,我們將會(huì)增加圖形化展示,同時(shí),為了跟其他數(shù)據(jù)更好的聯(lián)合分析,也會(huì)增加SAGE數(shù)據(jù)直接在UCSC基因組瀏覽器上的展示。ExerciseSAGE的長(zhǎng)期科學(xué)的目標(biāo)是作為一個(gè)集中的數(shù)據(jù)展示分析平臺(tái)去探索發(fā)現(xiàn)運(yùn)動(dòng)過(guò)程中肌肉細(xì)胞動(dòng)態(tài)的基因表達(dá)變化,以及這些變化所反映的背后的生理機(jī)制。