張武軍 劉學(xué)軍 張 禮
(南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京,210016)
?
基于并行計(jì)算的大規(guī)模外顯子芯片數(shù)據(jù)分析
張武軍 劉學(xué)軍 張 禮
(南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京,210016)
快速準(zhǔn)確地計(jì)算出轉(zhuǎn)錄組表達(dá)水平對轉(zhuǎn)錄組研究具有重要的作用。本文針對伽瑪分布的概率模型(Gamma model for exon array data, GME)在處理大規(guī)模外顯子芯片數(shù)據(jù)集上效率低下的特點(diǎn),提出一種充分利用多核處理機(jī)或者集群環(huán)境來提高效率的并行計(jì)算方法。首先分析GME模型的原理,其次分析模型并行算法的選擇,最后在不同規(guī)模的數(shù)據(jù)集上分析并行計(jì)算的效率。通過實(shí)驗(yàn)驗(yàn)證了并行計(jì)算極大地提高了模型的計(jì)算效率。實(shí)驗(yàn)結(jié)果表明,與先前的串行計(jì)算相比,并行計(jì)算使得GME模型更適用于大規(guī)模的外顯子芯片分析。
基因表達(dá);并行計(jì)算;外顯子芯片;概率模型
高等真核生物中普遍存在選擇性剪切[1]現(xiàn)象,即一個(gè)基因在轉(zhuǎn)錄過程中選擇性地剪切基因序列中的外顯子進(jìn)行連接,從而形成蛋白質(zhì)異構(gòu)體,這是生物體內(nèi)蛋白質(zhì)多樣性的原因之一。研究表明,超過94%的人類基因發(fā)生了選擇性剪切[2],同時(shí)這些選擇性剪切還與人類的許多疾病相關(guān)[3]。因此,選擇性剪切的研究是深入了解病理機(jī)制的重要內(nèi)容之一,尤其是針對大規(guī)模數(shù)據(jù)[4-5]的選擇性剪切研究。
近年來,隨著生物信息學(xué)的發(fā)展,目前針對大規(guī)模數(shù)據(jù)的選擇性剪切研究技術(shù)手段主要有兩種:基于高通量測序技術(shù)(RNA sequencing, RNA-Seq)[6]與基因芯片技術(shù)(Mircoarray)[7]。RNA-Seq是基于高通量測序技術(shù)對轉(zhuǎn)錄組進(jìn)行研究的一種新方法,其核心思想是通過將RNA序列數(shù)據(jù)映射到參考基因組或轉(zhuǎn)錄組上得到量化的基因表達(dá)值與剪切異構(gòu)體表達(dá)值,具有信噪比高、分辨率高、所需樣本少等優(yōu)勢。基因芯片技術(shù)又稱DNA微陣列技術(shù),是把大量已知序列探針集成在同一基片上,將標(biāo)記過的干靶核苷酸序列與芯片特定位點(diǎn)上的探針雜交,通過檢測雜交信號,對生物細(xì)胞中的基因信息進(jìn)行分析的一種技術(shù)?;蛐酒夹g(shù)具有在基因參考序列上覆蓋率高、成本低、使用簡單和數(shù)據(jù)易收集等特點(diǎn)。近年來,隨著高通量測序技術(shù)的發(fā)展,RNA-Seq已成為轉(zhuǎn)錄組可變剪切及表達(dá)譜的主流方法,但在針對大規(guī)模的數(shù)據(jù)(生物樣本數(shù)>30)分析時(shí),基因芯片技術(shù)具有明顯費(fèi)用低、對低表達(dá)水平的基因穩(wěn)定等優(yōu)勢[8],仍是大規(guī)模數(shù)據(jù)的選擇性剪切研究的主要實(shí)驗(yàn)方法[4-5]。
隨著大規(guī)模選擇性剪切研究成為生物醫(yī)學(xué)領(lǐng)域的研究熱點(diǎn),Affymetrix公司提供了一種外顯子芯片用來測量基因剪切異構(gòu)體表達(dá)水平。測量外顯子芯片數(shù)據(jù)的基因剪切異構(gòu)體表達(dá)水平是指從外顯子芯片上獲得PM探針的灰度值,通過分析計(jì)算獲得基因或者異構(gòu)體的表達(dá)水平,為后續(xù)分析提供依據(jù)。比如可以根據(jù)已知的探針和外顯子以及探針和基因的映射關(guān)系,通過獲得的外顯子/基因的表達(dá)比率來進(jìn)行選擇性剪切事件的檢測[9-10],或者所計(jì)算的表達(dá)水平傳遞到后續(xù)分析中可以進(jìn)行更為精細(xì)地尋找差異表達(dá)、聚類、基因調(diào)控網(wǎng)絡(luò)分析等研究。所以如何快速有效地從基因芯片中的原始數(shù)據(jù)中分析出表達(dá)結(jié)果成為研究者們的目標(biāo)。目前針對外顯子芯片也出現(xiàn)了很多數(shù)據(jù)分析方法,有各自的優(yōu)點(diǎn)和缺點(diǎn)。一些傳統(tǒng)方法如魯棒多芯片平均算法模型(Robust multi-array average,RMA)[11]和探針對數(shù)灰度誤差算法(Probes logarithmic intensity error,PLIER)[12],因其兩者都僅僅采用完全匹配(Perfect match,PM)探針的灰度值計(jì)算表達(dá)值,所以不僅可以用于傳統(tǒng)的基因芯片數(shù)據(jù)分析,也可以用于外顯子芯片的數(shù)據(jù)分析,但它們均無法計(jì)算出剪切異構(gòu)體的表達(dá)水平。因?yàn)榛蛐酒系囊粋€(gè)探針可能被多個(gè)剪切異構(gòu)體所共享,所以如何合理分離這些探針信號是計(jì)算剪切表達(dá)水平的難點(diǎn)。除此之外,人們還希望可以獲得剪切異構(gòu)體表達(dá)值的方差,這樣就可以將結(jié)果的不確定程度一起傳遞到后續(xù)分析中,以此獲得更有意義的分析結(jié)果[11,13]。由于基因芯片是個(gè)多步驟的過程,不確定性可能發(fā)生在任何一個(gè)實(shí)驗(yàn)步驟中,這導(dǎo)致了最后的實(shí)驗(yàn)結(jié)果很難準(zhǔn)確表示基因的真實(shí)值,而概率方法能很好地模擬這種不確定性。目前已有一些方法可以用來計(jì)算剪切異構(gòu)體的表達(dá)值和方差,如外顯子芯片預(yù)處理方法(Multiple exon array preprocessing,MEAP)[14]和多源映射貝葉斯基因表達(dá)計(jì)算方法(Multi-mapping Bayesian gene expression,MMBGX)[15]。MEAP采用非負(fù)矩陣分解的方法計(jì)算剪切異構(gòu)體的點(diǎn)估計(jì)值,但無法得到該估計(jì)值的分布情況。MMBGX通過一個(gè)多層貝葉斯模型來計(jì)算轉(zhuǎn)錄本的表達(dá)水平,以此來獲得剪切異構(gòu)體表達(dá)水平的后驗(yàn)分布。該模型采用MCMC(Markow chain Monte Carlo)求解,計(jì)算效率很低。同時(shí),這兩個(gè)方法均沒有考慮有效信號中的探針特性問題。
針對上述問題,本文在先前的工作中設(shè)計(jì)出了基于伽瑪分布的概率模型(Gamma model for exon array data,GME)[16],該模型通過GATExplorer[17,19]獲得的外顯子芯片探針、剪切異構(gòu)體以及基因三者的映射關(guān)系來計(jì)算基因和剪切異構(gòu)體的表達(dá)水平、方差以及置信區(qū)間。該方法通過引入服從伽瑪分布的隱含變量,有效地模擬了探針信號的探針特性,并利用伽瑪分布隨機(jī)變量的疊加性質(zhì),將被多個(gè)剪切異構(gòu)體共享的探針信號進(jìn)行分離,該模型采用最大似然估計(jì)法求解,計(jì)算較為簡單。該模型采用R語言實(shí)現(xiàn),已包含在生物信息學(xué)組件Bioconductor中的Puma[18]軟件包中。文獻(xiàn)[16,18]通過基因芯片質(zhì)量控制(Microarray quality control, MAQC)數(shù)據(jù)集[17]和頭頸部鱗狀細(xì)胞癌(Head and neck squamous cell carcinoma, HNSCC)數(shù)據(jù)集[12]驗(yàn)證了該模型能夠獲得較為準(zhǔn)確的基因和異構(gòu)體表達(dá)水平。但該模型在大規(guī)模外顯子芯片實(shí)驗(yàn)中仍然存在計(jì)算效率問題,GME算法每次優(yōu)化涉及的參數(shù)隨著芯片個(gè)數(shù)的增加線性增加,如果芯片個(gè)數(shù)達(dá)到30以上,GME的計(jì)算速度會(huì)變得非常緩慢,嚴(yán)重阻礙了該方法在實(shí)際中的應(yīng)用。針對這一現(xiàn)象,本文利用多核處理機(jī)和集群網(wǎng)絡(luò)資源,在先前提出的GME模型基礎(chǔ)上引入并行計(jì)算技術(shù),并在不同規(guī)模的數(shù)據(jù)集上驗(yàn)證引入并行計(jì)算后模型計(jì)算效率得到顯著提高。
1.1 GME模型
圖1 GME圖模型Fig.1 GME modules
(1)
進(jìn)一步假設(shè)βj服從參數(shù)為c 和d 的伽瑪分布,即
β~Ga(c,d)
(2)
則該基因?qū)?yīng)的剪切異構(gòu)體服從以下分布
dβjp(sajk|αakc,βaj)p(βaj|c,d)
(3)
觀察到的探針信號的對數(shù)似然函數(shù)為
(4)
1.2 GME模型的并行算法
對于并行計(jì)算,可以用不同的并行算法來分配任務(wù),不同的并行算法可能會(huì)對程序的執(zhí)行效率產(chǎn)生很大影響。一般情況下任務(wù)分配方法有兩種:靜態(tài)任務(wù)分配和動(dòng)態(tài)任務(wù)分配。靜態(tài)任務(wù)分配在程序運(yùn)行前就已經(jīng)決定好任務(wù)的劃分。它把任務(wù)平均到每個(gè)結(jié)點(diǎn)上,對于集群中各個(gè)結(jié)點(diǎn)的計(jì)算能力差別不大時(shí),計(jì)算效率最好。動(dòng)態(tài)分配任務(wù)在集群中各個(gè)結(jié)點(diǎn)的計(jì)算性能差別較大時(shí)采用,這時(shí)候需要衡量機(jī)器的計(jì)算能力,給計(jì)算能力強(qiáng)的多分配任務(wù),計(jì)算能力弱的少分配。
因?yàn)橥怙@子芯片上的各個(gè)基因復(fù)雜程度不同,估計(jì)每個(gè)基因計(jì)算的時(shí)間不可取,同時(shí)隨著芯片個(gè)數(shù)的增加,每個(gè)基因優(yōu)化計(jì)算所需的時(shí)間非線性,所以本文無法采用靜態(tài)方法或者動(dòng)態(tài)方法來分配任務(wù)使得各個(gè)結(jié)點(diǎn)在同一時(shí)間段完成任務(wù)。本文采用兩者相結(jié)合的方法,算法流程圖如圖2所示。
圖2 GME模型并行算法流程圖Fig.2 Parallel algorithm flow chart of GME modules
具體的并行算法如下。
(1) 對外顯子芯片的原始數(shù)據(jù)進(jìn)行預(yù)處理獲得所有優(yōu)化計(jì)算所要到的數(shù)據(jù)。
(2) 將外顯子芯片上的4萬多個(gè)基因數(shù)據(jù)等分成N份,N值要遠(yuǎn)大于集群中的Slave結(jié)點(diǎn)個(gè)數(shù)P,同時(shí)也不可以過大,避免把總?cè)蝿?wù)分的太多,造成過多的上下文切換,將大部分時(shí)間損耗在數(shù)據(jù)通信上,同時(shí)也不可以太小,避免出現(xiàn)長時(shí)間等待某一個(gè)Slave結(jié)點(diǎn)任務(wù)結(jié)束的現(xiàn)象。本文在程序中默認(rèn)將N值設(shè)置為Slave結(jié)點(diǎn)個(gè)數(shù)P的10倍。用戶也可以根據(jù)芯片規(guī)模的大小手動(dòng)的調(diào)節(jié)N的大小。一般情況下規(guī)模越大,N設(shè)置的值越大。
(3) 將N份任務(wù)的前P份傳遞給P個(gè)Slave結(jié)點(diǎn)去優(yōu)化計(jì)算。
(4) 若Slave結(jié)點(diǎn)中的某個(gè)結(jié)點(diǎn)完成任務(wù),則此結(jié)點(diǎn)自動(dòng)去Master結(jié)點(diǎn)取下一任務(wù),以此類推,直至N份子任務(wù)全部完成,將結(jié)果返回給集群中的Master結(jié)點(diǎn),輸出結(jié)果。
本文采用這種方法將GME模型進(jìn)行并行化,實(shí)現(xiàn)函數(shù)為gmoExon,包含在生物信息學(xué)組件Bioconductor軟件Puma中,可以從 http://www.bioconductor.org/packages/release/bioc/html/puma.html下載使用。
1.3 GME模型的并行算法實(shí)現(xiàn)
集群的并行環(huán)境是通過構(gòu)建一個(gè)高速網(wǎng)絡(luò)系統(tǒng),以充分利用高速局域網(wǎng)上的計(jì)算機(jī)資源來達(dá)到快速處理大規(guī)模問題的目的。目前,MPI(Message passing interface)[20]與PVM(Parallel virtual machine)[21]都是給用戶提供基于消息傳遞的并行環(huán)境。MPI是基于消息傳遞的并行編程標(biāo)準(zhǔn)。在標(biāo)準(zhǔn)的串行程序設(shè)計(jì)語言(C, Fortran和C++)基礎(chǔ)上,再加入實(shí)現(xiàn)進(jìn)程間通信的MPI消息傳遞庫函數(shù),就構(gòu)成了MPI并行程序所依賴的庫函數(shù)。在并行編程模式中,每個(gè)進(jìn)程享有獨(dú)立的地址空間,同時(shí)它們也只能訪問各自的地址空間,相互之間的訪問必須通過顯示的消息傳遞來實(shí)現(xiàn)。PVM是一種通用的網(wǎng)絡(luò)并行程序開發(fā)環(huán)境,一般進(jìn)行網(wǎng)絡(luò)間的進(jìn)程消息傳遞,它可以把多個(gè)同構(gòu)或異構(gòu)的計(jì)算機(jī)組成一個(gè)易于管理的、可擴(kuò)展的和易編程使用的并行計(jì)算資源。采用PVM構(gòu)造一個(gè)全互連結(jié)點(diǎn)的虛擬機(jī),此后在此虛擬機(jī)上可以動(dòng)態(tài)地創(chuàng)建和管理線程。
本文實(shí)現(xiàn)GME模型并行計(jì)算的基礎(chǔ)是一個(gè)支持MPI和PVM消息傳遞標(biāo)準(zhǔn)的R語言軟件包Snow,Snow包是R語言能實(shí)現(xiàn)高性能并行計(jì)算的基礎(chǔ)之一,它的使用思想是在集群中Master結(jié)點(diǎn)創(chuàng)建多個(gè)線程,這多個(gè)線程可以來自Master結(jié)點(diǎn)自身或者集群網(wǎng)絡(luò)中個(gè)各個(gè)Slave結(jié)點(diǎn)。創(chuàng)建完成后通過Snow軟件包的VlusterApply函數(shù)向各個(gè)線程傳遞數(shù)據(jù),這些數(shù)據(jù)可共享,也可獨(dú)立。各個(gè)線程獲得各自需要的數(shù)據(jù)后分別完成各自的任務(wù),最終通過Master結(jié)點(diǎn)收集各個(gè)線程的結(jié)果直至結(jié)束。
本文采用人類先天免疫反應(yīng)數(shù)據(jù)集(Innate immune responses to vaccines, IIRV)[22]驗(yàn)證不同芯片規(guī)模采用并行計(jì)算后,GME模型的效率變化。此數(shù)據(jù)集采用Affymetrix 人類外顯子芯片Human Exon 1.0 ST。IIRV數(shù)據(jù)集用來研究人類對疫苗的先天免疫反應(yīng)。在該實(shí)驗(yàn)中,對實(shí)驗(yàn)對象注射MRKAd5/HIV疫苗后一周內(nèi)測量HIV相關(guān)細(xì)胞的反應(yīng)。樣本采集自5個(gè)時(shí)間點(diǎn),注射疫苗時(shí)以及 4-6,24,72,168 h時(shí),在每個(gè)時(shí)間點(diǎn)對樣本進(jìn)行外顯子基因芯片實(shí)驗(yàn),測量基因表達(dá)水平。本文選取其中6個(gè)參與者的數(shù)據(jù),共包括30個(gè)芯片,在這30個(gè)芯片中分別選取10,15,25,30個(gè)芯片測量GME模型在不同芯片規(guī)模的效率變化。
GME在不同規(guī)模的IIRV數(shù)據(jù)集和不同并行度下的效率變化如圖3所示。并行計(jì)算環(huán)境結(jié)點(diǎn)為IBM刀片服務(wù)器,Intel(R) Xeon(R) CPU X5560 2.80 GHz,內(nèi)存32 GB。從圖3中可以看出模型在沒有引入并行計(jì)算時(shí),在小規(guī)模芯片數(shù)據(jù)集(<10)所需的時(shí)間很少,但隨著芯片規(guī)模的增加,GME模型所需要的時(shí)間越來越多,尤其當(dāng)芯片規(guī)模增加到30個(gè)時(shí),GME模型處理時(shí)間需要5天左右(136 h)。而且在大多真實(shí)的大規(guī)模外顯子芯片實(shí)驗(yàn)中,涉及的芯片個(gè)數(shù)往往達(dá)到幾十到上百個(gè)[4-5],按照如圖3所示GME模型的效率變化,原先串行的GME模型很難用于大規(guī)模的芯片數(shù)據(jù)處理。
引入并行計(jì)算后,從表1中可以清楚的看到在2,4,8不同的并行度下GME模型的效率變化:隨著并行度的增加,GME模型所需要的時(shí)間越來越少。從圖3可看到,在芯片規(guī)模比較少時(shí),效率提高得還不太明顯,但隨著芯片規(guī)模的變大,效率變化得越來越明顯,特別是在芯片規(guī)模達(dá)到30個(gè)時(shí),并行度為8時(shí)計(jì)算只需要19.2 h左右,相對于原先的136.0 h有了極大的提高,同時(shí)這一效率值還可以通過增加并行度繼續(xù)提高。
圖3 模型在不同規(guī)模IIRV外顯子芯片和不同并行度下的效率Fig.3 Efficiency of modules under different numbers of IIRV exons chips and thread
表1 不同規(guī)模IIRV芯片在不同并行度的效率比較
Table 1 Comparison of efficiency using different numbers of IIRV chips and thread h
數(shù)據(jù)集GME(1)GME(2)GME(4)GME(8)ⅡRV(2個(gè)參與者,5個(gè)實(shí)驗(yàn)條件,10個(gè)芯片)1.51.20.70.4ⅡRV(3個(gè)參與者,5個(gè)實(shí)驗(yàn)條件,15個(gè)芯片)5.02.61.31.0ⅡRV(5個(gè)參與者,5個(gè)實(shí)驗(yàn)條件,25個(gè)芯片)47.623.212.57.5ⅡRV(6個(gè)參與者,5個(gè)實(shí)驗(yàn)條件,30個(gè)芯片)136.071.636.519.2
本文針對GME模型處理大規(guī)模外顯子芯片數(shù)據(jù)效率極低的特點(diǎn),引入利用多核處理機(jī)或集群環(huán)境資源的并行計(jì)算,使得模型更好地適用于大規(guī)模的數(shù)據(jù)處理。并行計(jì)算的GME模型實(shí)現(xiàn)在生物信息學(xué)組件Bioconductor的最新Puma軟件包中。雖然此并行計(jì)算是針對外顯子芯片設(shè)計(jì),但是其并行化思想對其他類型的基因芯片的大規(guī)模數(shù)據(jù)處理也具有較好的適用性。
[1] Valenzuela A, Talavera D, Orozco M, et al. Alternative splicing mechanisms for the modulation of protein function: Conservation between human and other species [J]. Journal of Molecular Biology, 2004, 335(2):495-502.
[2] Wang E T, Sandberg R, Luo S, et al. Alternative isoform regulation in human tissue transcriptomes [J]. Nature, 2008, 456(7221):470-476.
[3] Cáceres J F, Kornblihtt A R. Alternative splicing: Multiple control mechanisms and involvement in human disease [J]. Trends in Genetics, 2002, 18:186-193.
[4] Taylor B S,Schultz N, Hieronymus H, et al. Integrative genmonic profiling of human prostate cancer [J]. Cancer Cell, 2010,18(1): 11-22.
[5] Bullard J H,Purdom E,Hansen K D,et al. Evaluation of statistical methods for normalization and differential expression in mRNA-Seq experiments[J].BMC Bioinformatics,2010,11:94-101.
[6] Wang Z,Gerstein M,Snyder M. RNA-Seq: A revolutionary tool for transcriptomics [J]. Nature Reviews Genetics,2009,10(1): 57-63.
[7] Service R F. Microchip arrays put DNA on the spot[J]. Science,1998,282(5388):396-399.
[9] Purdom E, Simpson K M, Robinson M D. FIRMA: A method for detection of alternative splicing from exon array data [J]. Bioinformatics, 2008, 24:1707-1714.
[10]Xing Y, Stoilov P, Kapur K,et al. MADS: A new and improved method for analysis of differential alternative splicing by exon-tiling microarrays [J].RNA,2008,14(8): 1470-1479.
[11]Irizarry R A, Hobbs B, Collin F, et al. Exploration, normalization, and summaries of high density oligonucleotide array probe level data [J]. Biostatistics, 2003, 4:249-264.
[12]Affymetrix Whitepaper. Alternative transcript analysis methods for exon arrays[EB/OL]. http://www.affymetrix-.com/support/tenchnical/whitepapers/exon_alt_transcript_analysis_whitepaper.pdf,2005-10-11.
[13]Liu X, Rattray M. Including probe-level measurement error in robust mixture clustering of replicated microarray gene expression[J]. Statistical Applications in Genetics and Molecular Biology, 2010, 9:42.
[14]Chen P, Lepikhova T, Hu Y, et al. Comprehensive exon array data processing method for quantitative analysis of alternative spliced variants [J]. Nucleic Acids Research, 2011, 39:e123.
[15]Turro E, Lewin A, Rose A, et al. MMBGX: A method for estimating expression at the isoform level and detecting differential splicing using whole-transcript Affymetrix arrays [J]. Nucleic Acids Research, 2010, 38:e4.
[16]高珍珠, 劉學(xué)軍, 張禮. 一種基于概率模型Affymetrix外顯子芯片原始數(shù)據(jù)分析方法[C]∥2011中國生物醫(yī)學(xué)工程聯(lián)合學(xué)術(shù)年會(huì)論文集(光盤版). 武漢: 中國生物醫(yī)學(xué)工程學(xué)會(huì),2011.
Gao Zhenzhu, Liu Xuejun, Zhang Li. A probabilistic model for the analysis of Affymetrix exon arrays data[C] //Proceeding of CBME'2011(CD). Wuhan: Chinese Society of Biomedical Engineering, 2011.
[18]Liu X, Gao Z, Zhang L, et al. Puma 3.0: Improved uncertainty propagation methods for gene and transcript expression analysis [J]. BMC Bioinformatics, 2013, 14:39.
[19]Consortium M. The micro array quality control (MAQC) project shows inter- and intraplatform reproducibility of gene expression measurements [J]. Nature Biotechnology, 2006, 24:1151-1161.
[20]Jihching C, Liang C, Tzeng H Y. A multi-streaming SIMD architecture for multimedia applications[C]∥Conference on Computing Frontiers 2009. Ischia, Italy: [s.n.],2009:51-60.
[21]Konuru R B, Otto S W,Walpole J. A migratable user-level process packages for PVM [J]. Journal of Parallel and Distributed Computing,1977, 15(1): 3-40.
[22]Zak D E, Andersen N E, Peterson E R, et al. Merck Ad5/HIV induces broad innate immune activation that predicts CD8+T-cell responses but is attenuated by preexisting Ad5 immunity [J]. Proceedings of the National Academy of Sciences of the United States of America, 2012, 109(50):E3503-12.
Large-Scale Exon Array Data Analysis Based on Parallel Computing
Zhang Wujun, Liu Xuejun, Zhang Li
(College of Computer Science & Technology, Nanjing University of Aeronautics & Astronautics, Nanjing, 210016, China)
The accurate and fast calculation of transcriptome expression level plays an important role in transcriptome research. Based on the previously devised Gamma model for exon array data (GME), a parallel computing method is proposed to improve the computational efficiency of GME on large-scale Affymetrix exon chip datasets by taking full advantage of multi-core or cluster computation environment. The principles of the GME model and the parallel computing strategy are introduced. The proposed method is verified using real datasets with various scales. The experimental results show that the proposed parallel computing approach greatly improves the efficiency of GME model. Thus the GME model is applicable for the analysis on large-scale exon array datasets.
gene expression; parallel computing; exon chips; probabilistic model
國家自然科學(xué)基金(61170152)資助項(xiàng)目;中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)(CXZZ11-0217)資助項(xiàng)目。
2014-05-30;
2014-06-23
TP399
A
張武軍(1989-),男,碩士,研究方向:生物信息學(xué),E-mail: 350121197@qq.com。
劉學(xué)軍(1976-),女,教授,研究方向:生物信息學(xué)。
張禮(1985-),男,博士,研究方向:生物信息學(xué)。