哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(150081)
徐 歡 宋 微 蔡雨晴 侯 艷 李 康△
【提 要】 目的 引入JIVE方法對(duì)多組學(xué)數(shù)據(jù)進(jìn)行整合分析,并應(yīng)用于腫瘤分子分型研究。方法 使用TCGA數(shù)據(jù)庫中卵巢癌mRNA和miRNA的組學(xué)數(shù)據(jù),應(yīng)用JIVE方法整合分析兩個(gè)組學(xué)數(shù)據(jù),提取兩不同組學(xué)數(shù)據(jù)的共同特征,然后通過對(duì)其具有共同結(jié)構(gòu)的數(shù)據(jù)做主成分分析,給出卵巢癌miRNA分子分型的結(jié)果。結(jié)果 經(jīng)過JIVE方法整合分析后,使miRNA數(shù)據(jù)具有明顯與mRNA相一致的分型結(jié)構(gòu),從而進(jìn)一步支持了mRNA的分型結(jié)果,同時(shí)揭示了兩組學(xué)之間在組織分子分型上具有一定的調(diào)控關(guān)系。結(jié)論 JIVE方法可以用于提取組學(xué)之間存在的共同結(jié)構(gòu)矩陣,從而進(jìn)行多組學(xué)數(shù)據(jù)的整合分析。
組學(xué)數(shù)據(jù)(omics data)是指通過測序儀、生物芯片、磁共振、色譜-質(zhì)譜聯(lián)用等高通量實(shí)驗(yàn)技術(shù)得到的基因組、轉(zhuǎn)錄組、蛋白質(zhì)組和代謝組等數(shù)據(jù)。通過對(duì)高維多組學(xué)進(jìn)行整合分析,可以研究相關(guān)疾病的分子分型及標(biāo)志物,對(duì)疾病的早期診斷、臨床治療和預(yù)后具有重要意義。本文引進(jìn)JIVE(joint and individual variation explained)方法[1],將其應(yīng)用于卵巢癌mRNA和miRNA兩組學(xué)數(shù)據(jù)的分析,揭示兩種組學(xué)之間潛在的生物學(xué)關(guān)系,為研究其分子分型的調(diào)控機(jī)制提供有價(jià)值的分析結(jié)果。
設(shè)有k個(gè)組學(xué)數(shù)據(jù)矩陣X1,X2,…,Xk,分別為p1、…、pk行和n列,其中行為各組學(xué)數(shù)據(jù)的變量,列為樣本。JIVE方法的基礎(chǔ)是矩陣的奇異值分解,即將不同組學(xué)的數(shù)據(jù)矩陣合并后分解為三部分,即描述不同組學(xué)數(shù)據(jù)的共同結(jié)構(gòu)矩陣(J)、獨(dú)立結(jié)構(gòu)矩陣(A)和殘差矩陣(R)。具體步驟如下:
1.數(shù)據(jù)預(yù)處理
首先將多個(gè)矩陣按行合并,合并的數(shù)據(jù)矩陣:
(1)
為了使每個(gè)數(shù)據(jù)集對(duì)合并矩陣的總變異貢獻(xiàn)相等,需要對(duì)其標(biāo)準(zhǔn)化,首先對(duì)其中心化去除不同數(shù)據(jù)集的基線差異。
(2)
然后再將數(shù)據(jù)矩陣歸一化,使合并矩陣中每個(gè)不同組學(xué)的數(shù)據(jù)集的總變異貢獻(xiàn)相等,對(duì)此可以應(yīng)用Frobenius范數(shù):
(3)
歸一化的數(shù)據(jù)矩陣為
(4)
(5)
對(duì)合并矩陣可以做如下奇異值分解
2.確定共同矩陣和獨(dú)立矩陣的秩
(6)
通過最小化殘差平方和來確定共同結(jié)構(gòu)與獨(dú)立結(jié)構(gòu),即給定矩陣的秩,使‖R‖2最小來確定J和A1,…,Ak。這一步通過一個(gè)迭代運(yùn)算來完成,對(duì)于第t次迭代有
(7)
其中R是一個(gè)p×n的殘差矩陣,重復(fù)以上步驟直到找到最合適的J和A1,…,Ak使‖R‖2最小。
研究背景:2011年TCGA團(tuán)隊(duì)對(duì)TCGA中489例卵巢癌mRNA數(shù)據(jù)進(jìn)行聚類分析,結(jié)合專業(yè)得到了四個(gè)分型,即增殖型、間葉細(xì)胞型、分化型和免疫反應(yīng)型,該結(jié)果發(fā)表在Nature雜志上[3]。本例主要分析miRNA是否能夠做同樣的分型及是否能夠說明其在分型上與mRNA具有潛在的調(diào)控作用。
使用TCGA卵巢癌基因表達(dá)數(shù)據(jù)mRNA與miRNA數(shù)據(jù)(經(jīng)標(biāo)準(zhǔn)化),進(jìn)行樣本ID匹配后,得到樣本量為408的樣本。其中mRNA基因數(shù)目為20113個(gè),miRNA的數(shù)目為680個(gè),共兩個(gè)數(shù)據(jù)矩陣。首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,去除標(biāo)準(zhǔn)差較小的mRNA,對(duì)mRNA設(shè)定的閾值為SD≤1.5;與mRNA相比,miRNA具有更強(qiáng)的時(shí)空表達(dá)異質(zhì)性,即在一些位置和時(shí)間不表達(dá),因此剔除零表達(dá)個(gè)數(shù)超過樣本量一半的miRNA。預(yù)處理后得到mRNA表達(dá)矩陣為302行,408列,miR-NA表達(dá)矩陣為351行,408列。將兩個(gè)數(shù)據(jù)矩陣合并后進(jìn)行JIVE方法分析,得到共同結(jié)構(gòu)矩陣秩為3,mRNA獨(dú)立結(jié)構(gòu)矩陣秩為34,miRNA獨(dú)立結(jié)構(gòu)矩陣秩為23。共同結(jié)構(gòu)的解釋方差及置信區(qū)間分別為1.64×10-9(1.48×10-9,1.78×10-9)、2.35×10-9(2.16×10-9,2.52×10-9),獨(dú)立結(jié)構(gòu)的解釋方差及置信區(qū)間分別為4.62×10-9(4.43×10-9,4.78×10-9)、3.18×10-9(3.01×10-9,3.35×10-9)。JIVE分解可以得到的三個(gè)矩陣,解釋方差占比如圖1。
圖1 JIVE分解得到三部分解釋方差比
分別對(duì)數(shù)據(jù)矩陣X2和共同結(jié)構(gòu)矩陣J2做主成分分析,樣本前三個(gè)主成分得分圖如圖2。結(jié)果顯示,對(duì)于miRNA數(shù)據(jù),原始矩陣X2主成分解釋方差占比分別為10.30%、8.62%、6.86%,散點(diǎn)圖中各點(diǎn)混在一起,而其共同結(jié)構(gòu)矩陣J2則呈現(xiàn)出與mRNA表達(dá)分類相同的分類趨勢(主成分解釋方差占比分別為55.93%、27.11%、16.96%),說明使用JIVE分解方法可以看到兩組潛在的調(diào)控關(guān)系。
圖2 mRNA及JIVE分解前后miRNA表達(dá)數(shù)據(jù)PCA分類圖對(duì)比
為了顯示其綜合分類效果,將JIVE分解得到的共同結(jié)構(gòu)矩陣J1和J2合并在一起做主成分分析,使用前兩個(gè)主成分分別給出其樣本得分的密度分布圖,參見圖3和圖4,變量的因子載荷見表1(mRNA、miRNA按照絕對(duì)值排序各前5位)。
結(jié)果顯示,第一主成分的樣本得分可以區(qū)分增殖型與間質(zhì)型樣本,第二主成分的樣本得分可將增殖型、間質(zhì)型與另外兩種分子分型區(qū)分開。計(jì)算各共同成分的變量載荷,第一主成分中因子載荷絕對(duì)值由大到小前五位的基因分別為SFRP2、POSTN、DLK1、LUM、MMP11,其中基因SFRP2的甲基化與卵巢癌患者復(fù)發(fā)和生存率相關(guān),POSTN基因高表達(dá)的卵巢癌患者總生存期和一線化療后的無進(jìn)展生存期明顯更短,DLK1在漿液性卵巢癌和漿液性交界性癌中均高表達(dá),第一主成分中因子載荷絕對(duì)值由大到小前五位的miRNA分別為miR-508、miR-202、miR-509,其中miR-508、miR-509的高表達(dá)與卵巢癌患者更長的生存期有關(guān),第二主成分因子載荷較大的變量中,IGF2的高表達(dá)與晚期卵巢癌的發(fā)生發(fā)展和化療藥物耐藥性有關(guān),CLDN6在卵巢癌組織中表達(dá)上調(diào),COL3A1是能夠獨(dú)立預(yù)測卵巢癌鉑基化療耐藥性的基因,miR-483-3p、miR-370與卵巢癌的耐藥機(jī)制及化療敏感性相關(guān)。
表1 變量在前兩個(gè)主成分中的因子載荷
圖3 第一主成分的樣本得分概率密度分布圖
圖4 第二主成分的樣本得分概率密度分布圖
分子分型在臨床實(shí)際中具有重要意義,如不同分型對(duì)特定的藥物敏感性不同或預(yù)后不同[4]。本研究根據(jù)由mRNA得到的4個(gè)卵巢癌分子分型引入了JIVE方法分析卵巢癌miRNA數(shù)據(jù),提取miRNA與mRNA的共同結(jié)構(gòu),得到了共同結(jié)構(gòu)的分類特征,揭示了miRNA在分子分型上是否與mRNA存在可能的調(diào)控關(guān)系。
JIVE方法使用的前提是不同組學(xué)數(shù)據(jù)間有足夠的共性可以提取。一般來說,共同結(jié)構(gòu)矩陣的秩決定了不同組學(xué)之間調(diào)控關(guān)系的復(fù)雜程度,秩越大,表明數(shù)據(jù)可能具有更復(fù)雜的潛在分型結(jié)構(gòu)。而對(duì)于提取的共性結(jié)構(gòu)如何解釋則需要結(jié)合生物學(xué)背景知識(shí)。如,本文實(shí)例中提取的共性結(jié)構(gòu)表示卵巢癌miRNA的表達(dá)與分子分型之間存在相關(guān)關(guān)系。需要注意,計(jì)算秩的方法是置換檢驗(yàn),因此當(dāng)樣本量過小時(shí),亦不容易得到顯著的秩,亦難以獲得組學(xué)之間的關(guān)聯(lián)信息,其他計(jì)算秩的方法仍需進(jìn)一步研究。另外,JIVE對(duì)缺失數(shù)據(jù)不穩(wěn)健,應(yīng)先選擇合適的方法進(jìn)行填補(bǔ)再分析。
奇異值分解的原理與PCA相似,只有在數(shù)據(jù)中的方差貢獻(xiàn)足夠大時(shí),其特征才能夠被提取出來,因此需要舍棄那些方差貢獻(xiàn)小的變量,盡量減少對(duì)分析的干擾,以獲得更好的分析結(jié)果。本研究使用的數(shù)據(jù)粗篩的方法是“去除SD<1.5的mRNA變量和“0”表達(dá)個(gè)數(shù)超過總樣本量的一半的miRNA變量”,實(shí)際中也可以使用其他的閾值或方法。用敏感度分析的思路去考察粗篩方法對(duì)結(jié)果的影響,結(jié)果差別不大。