王凱莉 張 禮 劉學軍*
1(南京航空航天大學計算機科學與技術學院,南京 211106)2(南京林業(yè)大學信息科學技術學院,南京 210037)
多實驗平臺下基因及異構體表達分析綜述
王凱莉1張 禮2劉學軍1*
1(南京航空航天大學計算機科學與技術學院,南京 211106)2(南京林業(yè)大學信息科學技術學院,南京 210037)
轉錄組學研究近幾年成為生命科學和醫(yī)學領域的研究熱點,基因表達水平測量則是轉錄組學研究的基礎。差異基因表達分析對于了解基因功能具有重要作用,而差異異構體表達分析則能夠反映選擇性剪切變化的情況。當前大規(guī)模測量基因表達水平的實驗平臺主要包括基因芯片,以及基于高通量測序技術的RNA-Seq。首先介紹廣泛使用的Affymetrix傳統(tǒng)3′基因芯片、外顯子芯片、較新的全轉錄組芯片,以及基于RNA-Seq技術的Illumina平臺4個主流實驗平臺的技術原理;其次從基因表達水平計算和差異表達分析兩方面介紹每個平臺下一些主流數(shù)據(jù)分析方法和該研究設計的方法,分析每個平臺下各數(shù)據(jù)分析方法的優(yōu)劣,并進一步展示在標準數(shù)據(jù)集上一些代表性方法的對比結果。
傳統(tǒng)3′基因芯片; 外顯子芯片; HTA2.0芯片; RNA-Seq; 基因表達分析
近年來,隨著大規(guī)?;虮磉_水平測量技術的發(fā)展,逐漸形成兩種主要測量技術,分別是基于雜交原理的基因芯片技術[1]和基于高通量測序技術的RNA-Seq[2]。其中,采用基因芯片技術的Affymetrix公司制備的傳統(tǒng)3′基因芯片、外顯子芯片、較新的全轉錄組芯片,以及采用RNA-Seq技術的Illumina測序平臺均是被廣泛使用的大規(guī)模基因表達水平測量平臺。在基因及異構體表達分析中,差異表達(differential expression, DE)分析是最基本的研究目標之一?;蛐酒缙谠诓町惐磉_分析中占據(jù)絕對領先地位,但隨著RNA-Seq技術蓬勃發(fā)展,RNA-Seq也被廣泛應用于基因表達水平測量和差異表達分析。相比基因芯片,RNA-Seq并不依賴現(xiàn)有的基因注釋信息而能獲得幾乎所有表達的轉錄,而基因芯片需要已知基因注釋信息來設計探針,因此基因芯片無法檢測到新的剪切異構體。此外,RNA-Seq背景噪聲低,提高了表達水平測量的靈敏度和特異性。目前國際上對基因芯片與RNA-Seq的性能對比已有了一定的研究,如文獻[3-4]對傳統(tǒng)3′基因芯片與RNA-Seq在基因表達水平測量方面進行了對比研究。文獻[5]主要在基因表達水平測量方面,對傳統(tǒng)3′基因芯片、外顯子芯片與RNA-Seq進行對比研究。文獻[6]主要在基因表達水平測量和差異表達分析方面,對傳統(tǒng)3′基因芯片和RNA-Seq進行對比研究。但現(xiàn)有的研究中較少考慮較新的全轉錄組芯片,并且在異構體差異表達分析方面的平臺對比研究較少。
本研究全面綜述了目前較常用的基因和異構體表達水平測量平臺及其數(shù)據(jù)分析方法。首先介紹了傳統(tǒng)3′基因芯片、外顯子芯片、全轉錄組芯片以及基于RNA-Seq技術的Illumina平臺的技術原理。其次從基因表達水平計算和差異表達分析兩方面介紹了每個平臺下一些主流數(shù)據(jù)分析方法和筆者設計的方法,分析了每個平臺下各數(shù)據(jù)分析方法的優(yōu)劣,并進一步展示了在生物芯片質量控制項目(microarray quality control, MAQC)的系列標準數(shù)據(jù)集[7-9]上一些代表性方法的對比結果,為生物醫(yī)學領域研究學者對于實驗平臺和數(shù)據(jù)分析方法的選擇提供參考。
1.1 基因芯片
基因芯片是20世紀90年代建立起來的大規(guī)?;虮磉_水平測量技術,該技術基于雜交原理,主要特點是高通量、自動化和微型化。Affymetrix公司的芯片產(chǎn)品非常豐富,并被業(yè)界廣泛采用。目前Affymetrix公司的基因芯片在公共數(shù)據(jù)庫(如GEO)中累積了大量的數(shù)據(jù),以滿足學者們深入研究的需要[10]。基因芯片實驗步驟如下:首先用熒光標記物標記待測樣本,并放入基因芯片自動孵育裝置中進行雜交;雜交完成后,檢測探針的信號強度,即探針檢測到樣本的表達量;最后將實驗結果保存到細胞密度文件(CEL文件)中,即基因芯片原始數(shù)據(jù)。
Affymetrix公司的傳統(tǒng)3′基因芯片包含130萬個探針,具有獨特的PM-MM探針對。PM(perfect-match)探針的堿基序列和目標序列完全匹配,MM(mis-match)探針僅將序列中間的一位堿基換成互補堿基。芯片上每個基因對應一個或多個探針集,這些探針集由25堿基長度的PM-MM探針對構成,提高了對低表達樣本的檢測[11]。本研究采用了人類基因芯片Human Genome U133 Plus 2.0 Array(U133)。
Affymetrix公司的外顯子芯片僅設計了PM探針[12]。人類外顯子芯片包含550萬個探針,構成大約140萬個探針集,每個基因平均覆蓋40個探針,每個外顯子平均覆蓋4個探針(見圖1)。傳統(tǒng)3′基因芯片的探針僅覆蓋轉錄組的3′區(qū)域,而外顯子芯片的探針覆蓋了所有編碼轉錄組,覆蓋范圍更廣,準確性更高。本研究實驗中采用的外顯子芯片是Human Exon 1.0 ST Array(Exon array)。
Affymetrix公司在2013年推出一款人類全轉錄組基因芯片(Human Transcriptome Array 2.0, HTA2.0)[13]。該芯片包含外顯子探針、外顯子之間的剪切結合區(qū)探針、SNP探針、lncRNA探針等多種探針,總數(shù)近700萬個。每個外顯子覆蓋約10個探針,外顯子之間的剪切結合區(qū)覆蓋4個探針(見圖1),可檢測超過24萬條編碼轉錄本和超過4萬條非編碼轉錄本。
傳統(tǒng)3′基因芯片的探針設計注重轉錄組的3′區(qū)域(見圖1),探針覆蓋范圍較窄,而且也未考慮基因的選擇性剪切,因此無法測量異構體表達水平,應用范圍受到一定的限制。而外顯子芯片的探針覆蓋范圍較廣,可用于基因、外顯子和剪切異構體水平分析。HTA2.0芯片探針類型多樣,覆蓋范圍更為全面,不僅應用于基因、外顯子和剪切異構體水平分析,還應用于非編碼轉錄組分析等,具有最為廣泛的應用前景。
1.2 RNA-Seq技術
圖1 傳統(tǒng)3′基因芯片、外顯子芯片和HTA2.0芯片的探針設計對比Fig.1 Comparison of probe design of traditional 3′ GeneChip, Exon array and HTA2.0
RNA-Seq是基于高通量測序技術對轉錄組進行研究的新一代測序方法,并以高通量,所需樣本少等優(yōu)勢,迅速成為研究基因及異構體表達水平的主流方法[3]。RNA-Seq技術可應用于全基因組范圍內(nèi)基因的表達水平測量和差異表達分析,并具有定量研究選擇性剪切[14-15],發(fā)現(xiàn)未知序列特征的能力。
RNA-Seq實驗一般過程如圖2所示,主要分為以下幾個步驟:首先選擇mRNA,并片段化。其次將mRNA片段逆轉錄成cDNA,并進行PCR 擴增。之后將cDNA片段的兩端加上接頭得到測序需要的文庫。最后采用測序平臺進行測序。經(jīng)過激光照射和圖像分析,獲得被測堿基和質量評分,并將同一位置的堿基根據(jù)測序順序連成讀段(read),這就是RNA-Seq測序后得到的最原始數(shù)據(jù)[16]。目前,Roche公司的454技術、Illumina公司的Solexa技術以及ABI公司的SOLiD技術等測序技術被廣泛使用,其中使用最為廣泛的是Illumina/Solexa測序平臺。
圖2 RNA-Seq 實驗一般過程Fig.2 Process of RNA-Seq experiment
2.1 基因芯片原始數(shù)據(jù)分析
基因芯片數(shù)據(jù)分析過程如圖3所示。首先從基因芯片原始數(shù)據(jù)中提取出探針的灰度值,然后根據(jù)基因或剪切異構體以及探針的注釋文件,利用數(shù)據(jù)分析方法,計算基因或異構體的表達水平,為后續(xù)分析提供準確的數(shù)據(jù)?;蛐酒瑪?shù)據(jù)分析的主要困難是探針的非特異雜交特性,導致原始數(shù)據(jù)中存在大量的噪聲。另外,基因芯片數(shù)據(jù)分析方法依賴于基因注釋信息,其完善程度會對分析結果產(chǎn)生很大的影響。目前,許多學者提出了各種算法對原始數(shù)據(jù)進行去噪處理,如傳統(tǒng)算法RMA[17],以及本研究小組已發(fā)表的伽馬模型mmgMOS[18]和GME[19]等,下載網(wǎng)址如表1所示。
圖3 基因芯片數(shù)據(jù)分析過程Fig.3 Process of microarray data analysis
表1 基因芯片及RNA-Seq的計算基因或異構體表達水平的方法列表
Table 1 Methods and softwares to calculate gene and isoform expression levels for microarray and RNA-Seq
平臺計算方法下載網(wǎng)址基因芯片RMAhttp://www.bioconductor.org/packages/oligo.htmlmmgMOShttp://www.bioconductor.org/packages/puma.htmlGMEhttp://www.bioconductor.org/packages/puma.htmlRNA-SeqCufflinkshttp://cole-trapnell-lab.github.io/cufflinks/MMSEQhttps://github.com/eturro/mmseqkallistohttps://github.com/pachterlab/kallistoStringTiehttps://github.com/gpertea/stringtiePGSeqhttps://github.com/PUGEA/PGSeq
RMA算法僅采用PM探針的灰度值來計算基因表達水平。為了消除噪聲的影響和保持數(shù)據(jù)的一致性,進行背景校正和歸一化。之后利用經(jīng)過背景校正及歸一化后探針的灰度值擬合一個線性相加模型以獲得基因的表達水平。由于選擇性剪切,一個基因會對應一個或多個剪切異構體,而在基因芯片上一個剪切異構體往往對應多個探針,有些探針可以被不同的剪切異構體所共享(見圖1)。這種基因、剪切異構體及探針的多元映射關系,導致了獲取異構體對應的探針灰度值時具有很高的不確定性,給異構體表達水平的計算帶來挑戰(zhàn)。由于RMA算法無法處理基因、剪切異構體及探針的多元映射,因此只能計算基因的表達水平,無法計算異構體的表達水平。目前,RMA 算法實現(xiàn)在生物信息學組件Bioconductor中的oligo軟件包中,如表1所示。mmgMOS是基于伽馬分布并針對多重復芯片的概率模型,用于傳統(tǒng)3′基因芯片數(shù)據(jù)分析。與RMA算法不同,mmgMOS概率模型能夠很好地模擬基因芯片實驗中的不確定性,抗噪能力強,同時采用PM和MM探針的灰度值,并考慮了兩者之間的相關性,提高了基因表達水平計算的準確性。GME模型也是基于伽馬分布的概率模型,根據(jù)基因、剪切異構體及探針的多元映射關系,計算基因和異構體表達水平,并特別地考慮了異構體所共享的探針。與RMA等傳統(tǒng)的計算方法相比,GME的優(yōu)勢在于能夠同時計算基因和異構體的表達水平,因此可以更好地應用于選擇性剪切的研究。另外,GME模型可以獲得表達水平的不確定度,提高了差異表達分析的準確性。根據(jù)GATExplorer[20]和Microarray Lab[21]分別提供的外顯子芯片和HTA2.0芯片的注釋文件,提取出基因、剪切異構體及探針的映射關系,因此GME模型適用于外顯子芯片和HTA2.0芯片。目前,mmgMOS和GME實現(xiàn)在Bioconductor的puma軟件包中。
2.2 RNA-Seq原始數(shù)據(jù)分析
RNA-Seq原始數(shù)據(jù)分析過程如圖4所示。首先采用序列對比方法將讀段定位到參考基因組或轉錄組上;然后通過計數(shù)映射到基因及其異構體上的讀段數(shù)目來計算基因及異構體表達水平。表達水平計算的主要困難是讀段的多源映射問題和讀段在參考序列上呈非均勻分布。讀段的多源映射問題一方面是由于RNA-Seq實驗產(chǎn)生的讀段通常較短,一般是25~400 bp(base pairs),而轉錄組長度很長,一般包含了上萬個堿基,這樣讀段無法完全覆蓋轉錄組,從而導致相當一部分讀段在參考基因組上有多個匹配位點[22]。隨著測序技術的發(fā)展,讀段長度不斷增加或者制備雙末端讀段等方式可以降低讀段多源映射的影響。另一方面由于真核生物普遍存在選擇性剪切現(xiàn)象,同一個讀段會被基因的不同剪切異構體所共享,從而不能將讀段準確地映射到單一異構體上[23],為異構體表達水平的計算增加了難度。
圖4 RNA-Seq數(shù)據(jù)分析過程Fig.4 Process of RNA-Seq data analysis
讀段的非均勻分布是由于在制備cDNA文庫時人為地引入了一些偏好,如在RNA逆轉錄cDNA的過程中加入的隨機引物對不同的RNA會產(chǎn)生不同程度的偏好[16]。另外,對RNA-Seq原始數(shù)據(jù)處理不當也會導致讀段在參考序列上非均勻分布,如直接丟棄多源映射讀段和低質量分數(shù)的讀段等。當前有學者提出了很多方法來解決這些問題,如主流方法Cufflinks[24],較新的MMSEQ[25]、kallisto[26]和StringTie[27],以及本研究小組已提出的方法PGSeq[28]等,上述方法下載網(wǎng)址如表1所示。
Cufflinks方法采用泊松分布模擬讀段在外顯子上的分布,消除讀段多源映射的影響,同時對讀段非均勻分布偏好的隨機特性進行模擬。MMSEQ方法采用泊松-伽馬雙層模型來模擬異構體隨機表達的特性,消除讀段多源映射的影響。kallisto方法采用讀段到轉錄組的偽比對策略,能夠快速地定量分析異構體表達水平,從而獲得基因表達水平。StringTie采用網(wǎng)絡流算法和可選的從頭(de novo)組裝轉錄組并估算表達水平,能夠在拼接出轉錄組的同時進行表達水平的定量分析。PGSeq方法采用泊松分布來模擬映射到每個外顯子上的讀段數(shù),消除讀段多源映射的影響,同時引入了伽瑪因子來模擬讀段非均勻分布的偏好信息。雖然MMSEQ與 PGSeq方法均采用泊松-伽馬分布雙層模型,但是MMSEQ并未考慮讀段在參考序列上呈非均勻分布,而PGSeq方法引入伽馬分布的隱含變量來模擬讀段的非均勻分布特性,并推導出基因及異構體的表達水平服從負二項分布,能夠更好地模擬讀段數(shù)據(jù)的散布特點,提高了計算準確性。表2顯示了在MAQC數(shù)據(jù)集下4個平臺的不同表達水平計算方法的準確性。MAQC數(shù)據(jù)集提供的804個qRT- PCR驗證基因作為基準,在通用人類參考RNA(universal human reference RNA, UHRR)和人類大腦參考 RNA(human brain reference RNA, HBRR)兩個條件下進行比較。不同方法計算得到的基因表達值與qRT-PCR實驗獲得的基因表達值的相關系數(shù)(squared Pearson correlation coefficient, R2)被用來評價準確性,相關系數(shù)越接近1,則說明測量結果的準確度越高。為避免較大的表達水平對相關系數(shù)的影響,本研究對所有基因的表達水平進行對數(shù)轉換后再計算相關系數(shù)。
表2 在MAQC數(shù)據(jù)集的UHRR和HBRR 2個條件下4個平臺的不同表達水平計算方法的準確性(%)Tab.2 Accuracy (%) of various gene expression calculation methods for UHRR and HBRR conditions under MAQC
注:根據(jù)qRT-PCR測量值,804個qRT-PCR驗證的基因被劃分為3個區(qū)間,分別是低表達區(qū)間(Low),中表達區(qū)間(Medium)和高表達區(qū)間(High)。括號里的數(shù)字代表在兩個樣本下相應表達區(qū)間的qRT-PCR驗證的基因數(shù)目。
Note: According to qRT-PCR measurements 804 genes are divided into three intervals, Low, Medium and High. The numbers in brackets represent the numbers of genes that are validated by qRT-PCR in UHRR and HBRR samples.
在基因芯片和RNA-Seq數(shù)據(jù)分析中,差異表達分析是最基本的研究目標,通過分析不同條件下的轉錄組表達數(shù)據(jù),識別發(fā)生差異表達的基因或異構體,這對揭示基因調(diào)控規(guī)律或基因選擇性剪切的變化具有重要作用。
3.1 基因芯片差異表達分析
由于基因芯片發(fā)展時間較長,人們已經(jīng)提出很多差異表達分析方法。例如,limma[29]、PBR[30]以及研究小組已發(fā)表的PPLR方法[31],其下載網(wǎng)址如表3所示。limma方法應用范圍較為廣泛,其核心思想就是用一個線性模型來擬合每個基因的表達數(shù)據(jù)。limma方法適用于基因芯片和RNA-Seq等平臺。PBR(Penalized Binomial Regression)是基于PED(Penalized Euclidean Distance)的懲罰二項式回歸算法。首先,利用PED對基因表達數(shù)據(jù)進行分類并排序;其次,利用真實已知的數(shù)據(jù)進行仿真,識別差異表達的基因和異構體。PBR方法與limma相同,適用于基因芯片和RNA-Seq等平臺。但是,這些方法忽略了很多潛在且有用的信息,如表達水平的技術性測量誤差。若能夠從原始數(shù)據(jù)獲得更多的先驗信息,可以提高模型的性能。因此,PPLR方法采用貝葉斯模型,并考慮了表達水平的不確定度,從而提高了差異檢測的準確度。
表3 基因芯片及RNA-Seq的差異表達分析方法
Table 3 Methods and softwares to detect DE genes and isoforms for microarray and RNA-Seq
平臺計算方法下載網(wǎng)址基因芯片limmahttp://www.bioconductor.org/packages/limmaPBRhttps://github.com/sclamons/PEDPPLRhttp://www.bioconductor.org/packages/pumaRNA-SeqDESeqhttp://www.bioconductor.org/packages/DESeqSAMSeqhttp://www.bioconductor.org/packages/imputeCuffdiffhttp://cole-trapnell-lab.github.io/cufflinks/MMDiffhttps://github.com/eturro/mmseqBallgownhttp://www.bioconductor.org/packages/ballgownPG_bayeshttps://github.com/PUGEA/PGSeq
3.2 RNA-Seq差異表達分析
RNA-Seq差異表達分析方法主要分為兩種,一是基于讀段計數(shù)方法,二是兩步法。在讀段計數(shù)方法中,有DESeq[32]和SAMSeq等[33]。DESeq采用負二項分布,解決了讀段非均勻的問題;非參數(shù)模型SAMSeq僅對基因表達水平排序,以識別差異表達的基因。這類方法可以有效地識別差異表達的基因,但是不能直接用來識別差異表達的異構體。兩步法能夠同時識別差異表達的基因和異構體,使用范圍更加廣泛,如Cufflinks和Cuffdiff[34]、MMSEQ和MMDiff[35]、kallisto和limma、StringTie和Ballgown[36]以及PGSeq和PG_bayes[37]等,上述方法下載網(wǎng)址如表3所示。Cuffdiff使用 Cufflinks 方法得到表達水平,并使用一個線性模型識別差異表達的基因和異構體。MMDiff方法克服了數(shù)據(jù)高度結構化的問題,并考慮了表達水平的不確定度。Ballgown方法是基于F-test識別差異表達的基因和異構體。與Cuffdiff相似,Ballgown可以處理Cufflinks輸出的表達數(shù)據(jù),但是其效率和準確度高于Cuffdiff。另外,本研究小組已發(fā)表的差異檢測方法PG_bayes根據(jù)模型選擇的思想,基于PGSeq方法推導出的表達水平的負二項分布模型,采用貝葉斯因子方法,并考慮了表達水平的不確定度,從而提高差異表達分析的靈敏度和準確度。圖5和表4顯示了3種基因芯片和RNA-Seq在MAQC數(shù)據(jù)集上獲得的121個基因的差異表達分析結果。由于傳統(tǒng)3′基因芯片無法測量異構體表達水平,因此圖6和表5顯示了外顯子芯片、HTA2.0芯片和RNA-Seq在MAQC數(shù)據(jù)集上獲得的529個異構體的差異表達分析結果(見下頁)。
表4 不同平臺下121個共同基因差異表達分析的AUCTable 4 AUC of DE gene analysis for the various platforms
注:RMA、mmgMOS和GME使用的差異表達分析方法均是PPLR。Cufflinks、MMSEQ、kallisto、StringTie和PGSeq使用的差異表達分析方法分別是Cuffdiff、MMDiff、limma、Ballgown和PG_bayes。
Note: RMA, mmgMOS and GME use PPLR for DE analysis. Cufflinks, MMSEQ, kallisto, StringTie and PGSeq use Cuffdiff, MMDiff, limma, Ballgown and PG_bayes for DE analysis, respectively.
圖5 4個平臺下121個共同基因差異表達分析的ROC曲線。(a)U133;(b)外顯子芯片;(c)HTA2.0;(d)RNA-SeqFig.5 ROC curves of DE analysis for the 121 common genes found on the four platforms. (a) U133; (b) Exon array; (c) HTA2.0; (d) RNA-Seq
本研究對傳統(tǒng)3′基因芯片、外顯子芯片、HTA2.0芯片及RNA-Seq技術進行了總結,并從基因表達水平測量和差異表達分析兩方面,介紹了這4種平臺下具有代表性或較新的數(shù)據(jù)分析方法,并進一步展示了一些方法在MAQC數(shù)據(jù)集上的對比結果,為不同需求的研究學者對于實驗平臺和數(shù)據(jù)分析方法的選擇提供參考。雖然RNA-Seq技術在轉錄組數(shù)據(jù)分析中具有一定的優(yōu)勢,但是RNA-Seq分析結果的準確性依賴于測序深度,測序深度增加,成本也會增加,而基因芯片由于實驗成本相對較低,在大規(guī)模已知序列的基因表達分析中,基因芯片仍具有很大的應用空間。研究者可以根據(jù)不同的研究目的以及研究成本等因素,選擇合適的實驗平臺。此外,不同平臺下不同的數(shù)據(jù)分析方法對分析結果的準確性也有重要影響。
由于測序技術的快速發(fā)展,大量可用的方法用于基因芯片和RNA-seq數(shù)據(jù)分析。選擇合適的數(shù)據(jù)分析方法進行不同的研究并選擇最佳參數(shù)都是至關重要的,這些因素直接影響最終結果和生物過程的解釋。另外,對于基因芯片和RNA-seq數(shù)據(jù)分析,注釋文件或參考基因組序列對于分析過程和結果具有重要影響。由于基因芯片數(shù)據(jù)分析方法依賴于基因、異構體以及探針的注釋信息,其完善程度會對分析結果影響較大。例如,傳統(tǒng)3′基因芯片、外顯子芯片和HTA2.0芯片,均采用RMA算法計算基因表達水平,但是HTA2.0芯片的準確率略低于其他兩種芯片的準確率。由于HTA2.0芯片是一種相對較新的芯片,其注釋信息不夠完善是導致其準確率低于傳統(tǒng)3′基因芯片和外顯子芯片的主要原因。在RNA-Seq數(shù)據(jù)分析過程中,參考基因組注釋的完備程度也會影響后續(xù)分析的策略和準確性。當參考基因組注釋比較完備時(如人類和老鼠),讀段可以直接定位到參考基因組序列,在后續(xù)分析中不需要進行轉錄組重構。但是,參考基因組序列注釋不完善,后續(xù)分析中需要進行轉錄組重構,以提高分析結果的準確性。另外,由于絕大部分生物是沒有參考基因組序列或者參考基因組序列的可信度較低,在后續(xù)分析過程就需要采取從頭組裝轉錄組,提高后續(xù)分析的準確性。因此,根據(jù)不同的研究目標,除了選擇合適的實驗平臺外,選取準確的數(shù)據(jù)分析方法和注釋文件或參考基因組序列,對獲得合理的分析結果同樣重要。
表5 3個平臺異構體差異表達分析的AUCTable 5 AUC of DE isoform analysis for the three platforms
注: GME使用的差異表達分析方法是PPLR,Cufflinks、MMSEQ、kallisto、StringTie和PGSeq使用的差異表達分析方法分別是Cuffdiff、MMDiff、limma、Ballgown和PG_bayes。
Note: GME uses PPLR for DE analysis. Cufflinks, MMSEQ, kallisto, StringTie and PGSeq use Cuffdiff, MMDiff, limma, Ballgown and PG_bayes for DE analysis, respectively.
[1] Schena M, Shalon D, Davis RW, et al. Quantitative monitoring of gene expression patterns with a complementary DNA microarray [J]. Science, 1995, 270(5235): 467-470.
[2] Wang Zhong, Gerstein M, Snyder M. RNA-Seq: a revolutionary tool for transcriptomics [J]. Nature Reviews Genetics, 2009, 10(1): 57-63.
[3] Marioni JC, Mason CE, Mane SM, et al. RNA-seq: an assessment of technical reproducibility and comparison with gene expression arrays [J]. Genome Research, 2008, 18(9): 1509-1517.
[4] Xu Xiao, Zhang Yuanhao, Williams J, et al. Parallel comparison of Illumina RNA-Seq and Affymetrix microarray platforms on transcriptomic profiles generated from 5-aza-deoxy-cytidine treated HT-29 colon cancer cells and simulated datasets. BMC Bioinforma 14:S1 [J]. Bmc Bioinformatics, 2013, 14(9):1-14.
[5] Bemmo A, Benovoy D, Kwan T, et al. Gene expression and isoform variation analysis using Affymetrix exon arrays [J]. Bmc Genomics, 2008, 9(1):1-15.
[6] Zhao Shanrong, Fung-Leung Wai-Ping, Bittner A, et al. Comparison of RNA-Seq and microarray in transcriptome profiling of activated T cells [J]. PLoS ONE, 2014, 9(1): e78644.
[7] Shi Leming, Reid LH, Jones WD, et al. The MicroArray Quality Control (MAQC) project shows inter-and intraplatform reprodu-cibility of gene expression measurements [J]. Nature Biotechnology, 2006, 24(9): 1151-1161.
[8] MAQC Consortium. The MicroArray Quality Control (MAQC)-II study of common practices for the development and validation of microarray-based predictive models [J]. Nature Biotechnology, 2010, 28(8): 827-838.
[9] Seqc/Maqc-Iii Consortium. A comprehensive assessment of RNA-seq accuracy, reproducibility and information content by the Sequencing Quality Control Consortium [J]. Nature Biotechnology, 2014, 32(9): 903-914.
[10] Dalma-Weiszhausz DD, Warrington J, Tanimoto EY, et al. The Affymetrix GeneChip? Platform: An Overview [J]. Methods in Enzymology, 2006, 410: 3-28.
[11] Southern E, Mir K, Shchepinov M. Molecular interactions on microarrays [J]. Nature Genetics, 1999, 21(1 Suppl):5-9.
[12] Affymetrix: Affymetrix Gene Chip exon array design [R]. 2005.
[13] Affymetrix: GeneChip Human Transcriptome Array 2.0 [R]. 2013.
[14] Valenzuela A, Talavera D, Orozco M, et al. Alternative splicing mechanisms for the modulation of protein function: conservation between human and other species [J]. Journal of Molecular Biology, 2004, 335(2): 495-502.
[15] Wang ET, Sandberg R, Luo S, et al. Alternative isoform regulation in human tissue transcriptomes [J]. Nature, 2008, 456(7221): 470-476.
[16] 王曦, 汪小我, 王立坤, 等. 新一代高通量 RNA 測序數(shù)據(jù)的處理與分析[J]. 生物化學與生物物理進展, 2010, 37(8): 834-846.
[17] Irizarry RA, Hobbs B, Collin F, et al. Exploration, normalization, and summaries of high density oligonucleotide array probe level data [J]. Biostatistics, 2003, 4(2): 249-264.
[18] Liu Xuejun, Milo M, Lawrence ND, et al. A tractable probabilistic model for Affymetrix probe-level analysis across multiple chips [J]. Bioinformatics, 2005, 21(18): 3637-3644.
[19] Liu Xuejun, Gao Zhenzhu, Zhang Li, et al. puma 3.0: improved uncertainty propagation methods for gene and transcript expression analysis [J]. Bmc Bioinformatics, 2013, 14(3):1-15.
[21] Dai Manhong, Wang Pinglang, Boyd AD, et al. Evolving gene/transcript definitions significantly alter the interpretation of GeneChip data [J]. Nucleic Acids Research, 2005, 33(20): e175-e175.
[22] Pasaniuc B, Zaitlen N, Halperin E. Accurate estimation of expression levels of homologous genes in RNA-seq experiments [J]. Journal of Computational Biology, 2011, 18(3): 459-468.
[23] Costa V, Angelini C, De FI, et al. Uncovering the Complexity of Transcriptomes with RNA-Seq [J]. Biomed Research International, 2010, 2010(1):853916.
[24] Trapnell C, Williams BA, Pertea G, et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation [J]. Nature Biotechnology, 2010, 28(5): 511-515.
[25] Turro E, Su SY, Gon?alves, et al. Haplotype and isoform specific expression estimation using multi-mapping RNA-seq reads [J]. Genome Biology, 2011, 12(2):81-89.
[26] Bray NL, Pimentel H, Melsted P, et al. Near-optimal probabilistic RNA-seq quantification [J]. Nature Biotechnology, 2016, 34(5):525 -527.
[27] Pertea M, Pertea GM, Antonescu CM, et al. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads [J]. Nature Biotechnology, 2015, 33(3): 290-295.
[28] Liu Xuejun, Zhang Li, Chen Songcan. Modeling exon-specific bias distribution improves the analysis of RNA-seq data [J]. PLoS ONE, 2015, 10(10): e0140032.
[29] Ritchie ME, Phipson B, Wu D, et al. limma powers differential expression analyses for RNA-sequencing and microarray studies [J]. Nucleic Acids Research, 2015, 43(7):e47.
[30] Vasiliu D, Clamons S, Mcdonough M, et al. A regression-based differential expression detection algorithm for microarray studies with ultra-low sample size [J]. PLoS ONE, 2015; 10(3): e0118198.
[31] Liu Xuejun, Milo M, Lawrence ND, et al. Probe-level measurement error improves accuracy in detecting differential gene expression [J]. Bioinformatics, 2006, 22(17): 2107-2113.
[32] Anders S, Huber W. Differential expression analysis for sequence count data [J]. Genome Biology, 2010, 11(10):1-12.
[33] Li Jun, Tibshirani R. Finding consistent patterns: A nonparametric approach for identifying differential expression in RNA-Seq data [J]. Statistical Methods in Medical Research, 2013, 22(5):519-536.
[34] Trapnell C, Roberts A, Goff L, et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks [J]. Nature Protocols, 2012, 7(3): 562-578.
[35] Schweikert G, Cseke B, Clouaire T, et al. MMDiff: quantitative testing for shape changes in ChIP-Seq data sets [J]. Bmc Genomics, 2013, 14(48):5492-5500.
[36] Frazee AC, Pertea G, Jaffe AE, et al. Ballgown bridges the gap between transcriptome assembly and expression analysis [J]. Nature Biotechnology, 2015, 33(3): 243-246.
[37] 王黎, 劉學軍, 張禮. 基于模型選擇的差異基因和異構體檢測[J]. 數(shù)據(jù)采集與處理,2016,31(5):965-973.
A Review of Gene and Isoform Expression Analysis across Multiple Experimental Platforms
Wang Kaili1Zhang Li2Liu Xuejun1*
1(CollegeofComputerScienceandTechnology,NanjingUniversityofAeronauticsandAstronautics,Nanjing211106,China)2(CollegeofInformaitonScienceandTechnology,NanjingForestryUniversity,Nanjing210037,China)
Transcriptomics study has become a hot topic in life science and medical research in recent years. From the expression point of view, the foundation of transcriptomics study is the measurement of gene expression levels. Differential expression (DE) analysis of genes is very important for understanding the function of genes. DE analysis of isoforms is a feasible method to reflect the change of alternative splicing. Currently, there are mainly two large-scale experimental platforms for measuring gene expression levels, including microarray and high-throughput sequencing technology, RNA-Seq. At the beginning of this paper, we introduced the technical principles of the four mainstream experimental platforms: Affymetrix′s traditional 3′ GeneChip, Exon array, Human Transcriptome Array 2.0 and Illumina platform based on RNA-Seq. We then reviewed the mainstream analysis methods and our methods on each platform for the calculation of gene expression levels and DE analysis. We also showed the comparison results of expression measurement and DE analysis across various platforms under a well-defined benchmark data set.
traditional 3′ GeneChip; Exon array; HTA2.0; RNA-Seq; gene expression analysis
10.3969/j.issn.0258-8021. 2017. 02.012
2016-04-17, 錄用日期:2016-10-23
國家自然科學基金(61170152)
R318
A
0258-8021(2017) 02-0211-08
*通信作者(Corresponding author),E-mail: xuejun.liu@nuaa.edu.cn