譚 俊, 袁少勛, 明文龍, 孫 嘯
東南大學(xué)生物科學(xué)與醫(yī)學(xué)工程學(xué)院, 生物電子學(xué)國家重點實驗室, 南京 210096
2015年,美國提出了“精準醫(yī)學(xué)計劃(Precision Medicine Initative)”,旨在通過整合患者的個性化信息加速人類對復(fù)雜疾病的研究,精準醫(yī)學(xué)也迅速成為全球醫(yī)學(xué)界熱議和關(guān)注的焦點。相較于傳統(tǒng)標準治療方案的制定,精準醫(yī)療需要考慮到個體的差異,而個體的差異里既包含了遺傳性的差異,也包含了生活環(huán)境等的差異。廣義上的精準醫(yī)療是應(yīng)用現(xiàn)代遺傳技術(shù)和生物醫(yī)學(xué)信息技術(shù)結(jié)合患者的生活環(huán)境和臨床數(shù)據(jù),實現(xiàn)精準的疾病分類和診斷,制定具有個性化的疾病預(yù)防和診療方案。
隨著生物信息技術(shù)的發(fā)展,如DNA芯片、DNA測序技術(shù),產(chǎn)生了大規(guī)模的組學(xué)數(shù)據(jù),尤其是以DNA測序為核心,衍生出各種生物組學(xué)檢測技術(shù),獲取的數(shù)據(jù)包括基因組、轉(zhuǎn)錄組、表觀基因組等,為研究者從分子水平認識疾病提供了數(shù)據(jù)支撐。目前我們可以獲得的組學(xué)數(shù)據(jù)比較系統(tǒng)和全面,因此基因型數(shù)據(jù)是精準的,并且能夠體現(xiàn)個體差異。
表型研究相對較復(fù)雜,它是基因表達和環(huán)境作用以及兩者間相互作用的共同結(jié)果,一直以來都難以進行定量研究。影像數(shù)據(jù)可以作為一種內(nèi)表現(xiàn)(endophenotype)用于定量表型研究[1]。醫(yī)學(xué)影像數(shù)據(jù)不僅能提供病變組織的形態(tài)和結(jié)構(gòu)信息,還可以刻畫病變組織在一定時空序列內(nèi)功能變化的動態(tài)信息。在過去的十多年中,醫(yī)學(xué)影像領(lǐng)域飛速發(fā)展,相比于分子診斷,以核磁共振成像(magnetic resonance imaging,MRI)、計算機斷層成像(computed tomography,CT)和正電子發(fā)射斷層成像(positron emission tomography,PET)等各種新技術(shù)為代表的醫(yī)學(xué)成像技術(shù)以其非侵入性、高分辨率、時空連續(xù)性等特點,在展現(xiàn)復(fù)雜疾病表型差異的過程中具有獨特的優(yōu)勢,逐步突顯出了影像診斷技術(shù)在臨床上的重要作用。
因此我們可以將影像學(xué)和基因組學(xué)的數(shù)據(jù)融合起來,進行綜合分析和系統(tǒng)挖掘,這樣形成了一個新的研究方向,即影像基因組學(xué)(imaging genomics)。影像基因組學(xué)重點研究醫(yī)學(xué)影像數(shù)據(jù)與疾病分子特征之間的聯(lián)系[2],圖1(彩圖見圖版一)展示了影像基因組學(xué)研究與應(yīng)用整體框架圖,從生物組學(xué)數(shù)據(jù)(包括基因組、轉(zhuǎn)錄組學(xué)和表觀組學(xué)等)中提取基因型特征,從多模態(tài)影像數(shù)據(jù)(包括CT、MRI 和PET等)中提取能反應(yīng)個體健康狀態(tài)的定量影像表型特征,通過統(tǒng)計學(xué)或者機器學(xué)習(xí)的方法完成基因型特征與定量表型特征的關(guān)聯(lián)與融合分析,從而更好地實現(xiàn)對疾病的非侵入式診斷、預(yù)后預(yù)測和療效評估。近年來,影像基因組學(xué)在腫瘤和精神疾病等復(fù)雜疾病的研究領(lǐng)域不斷發(fā)展,基因型與定量影像表型的關(guān)聯(lián)分析研究已經(jīng)證明了影像基因組學(xué)分析方法的有效性[3]。
圖1 影像基因組學(xué)研究與應(yīng)用整體框架圖Fig.1 Schematic diagram of study and appilication of imaging genomics.(彩圖見圖版一)
最早報道結(jié)合基因組數(shù)據(jù)和影像數(shù)據(jù)的研究出現(xiàn)在2000年,德國波鴻魯爾大學(xué)的Heinz教授等聯(lián)合單光子發(fā)射計算機斷層成像術(shù)(single-photon emission computed tomography,SPECT)和基因的功能變異來衡量遺傳對大腦多巴胺代謝的影響[4]。隨后,越來越多的學(xué)者也開始研究基因數(shù)據(jù)和影像數(shù)據(jù)的關(guān)聯(lián)分析,例如加州大學(xué)醫(yī)學(xué)院的研究者首次通過fMRI來研究阿爾茨海默癥的基因變異與核磁共振成像的關(guān)系,通過對感興趣區(qū)域(region of interesting,ROI)進行任務(wù)范例的選擇以及分析,發(fā)現(xiàn)攜帶不同單核苷酸多態(tài)性(single nucleotide polymorphisms,SNPs)的候選基因(APOE基因)的受試者的海馬、額葉和頂葉等腦區(qū)的激活強度有差異[5]。德國海德堡大學(xué)心理健康研究所的研究人員應(yīng)用影像遺傳學(xué)來篩選導(dǎo)致大腦功能連接改變的SNP多態(tài)性位點,發(fā)現(xiàn)精神分裂癥易感基因ZNF804A的rs1344706等位基因A/C的頻率與前額葉皮層厚度和海馬體積大小相關(guān)[6]。
這也形成了一個新的研究方法——影像遺傳學(xué)(imaging genetics)。 影像遺傳學(xué)是一種關(guān)聯(lián)分析方法,是結(jié)合多模態(tài)神經(jīng)影像學(xué)和遺傳學(xué)方法,檢測腦結(jié)構(gòu)及與精神疾病、認知和情緒調(diào)節(jié)等行為相關(guān)腦功能的遺傳變異。此外,許多學(xué)者也開始把基因-影像關(guān)聯(lián)分析方法應(yīng)用于腫瘤疾病的研究,在2003年歐洲治療放射學(xué)與腫瘤學(xué)學(xué)會的一篇文章中提出了“Radiogenomics”這個名詞[7],當時的目的是為了研究腫瘤組織放療效果和遺傳基因的關(guān)系。隨后,Segal等[8~10]學(xué)者在此方面做了一系列研究,尋找通過非侵入性影像技術(shù)獲得的腫瘤形態(tài)和生理學(xué)特征與基因表達的特定模式的相關(guān)性,將“影像基因組學(xué)”定義為一種建立在全基因組水平的基因組特征同放射影像學(xué)特征間關(guān)聯(lián)的新興技術(shù)。許多研究表明,應(yīng)用影像基因組學(xué)的方法有助于診斷腫瘤分型、預(yù)測預(yù)后和腫瘤對某種治療的反應(yīng)[11,12]。影像基因組學(xué)將影像組學(xué)與基因組學(xué)數(shù)據(jù)整合起來,可以更深入地了解疾病的生物學(xué)機制,研究影像表型與基因組學(xué)特征之間的關(guān)系。
影像基因組學(xué)的核心思想是將體現(xiàn)分子水平活動的基因組數(shù)據(jù)與反映疾病定量表型的影像數(shù)據(jù)融合起來,在分別分析和提煉疾病相關(guān)基因組信息和影像信息的基礎(chǔ)上,建立基因組特征與影像特征之間的聯(lián)系,從而深刻認識疾病的遺傳背景及發(fā)展狀態(tài)。
分析基因組數(shù)據(jù)(包括其他生物組數(shù)據(jù)),可在分子水平上認識影響疾病的關(guān)鍵因素,提取疾病相關(guān)的基因組特征,了解疾病發(fā)生和發(fā)展機制。生物組學(xué)數(shù)據(jù)包括基因組數(shù)據(jù)、轉(zhuǎn)錄組數(shù)據(jù)、表觀遺傳組數(shù)據(jù)、蛋白質(zhì)組和代謝組數(shù)據(jù)等多維度、多種類的數(shù)據(jù)信息,能夠系統(tǒng)全面的刻畫出復(fù)雜疾病內(nèi)在的生物分子活動狀態(tài)和規(guī)律。目前,在影像基因組學(xué)的研究領(lǐng)域內(nèi),以SNP位點、拷貝數(shù)變異(copy number variation,CNV)為代表的基因變異數(shù)據(jù)和以基因表達譜、蛋白質(zhì)表達譜為代表的轉(zhuǎn)錄組數(shù)據(jù),是最主要的數(shù)據(jù)分析對象。
SNP是指在基因組水平上,由單個核苷酸變異所引起的DNA序列多態(tài)性。SNP在人類基因組中廣泛存在,目前已知人類基因組中大約有30萬個SNP。SNP作為第三代遺傳標志,與人類個體差異、疾病易感性、耐藥性等多種表型和功能密切相關(guān)。通常我們選擇具有已知生物學(xué)功能、參與生物表型表達的SNP位點,這類SNP位點一般位于結(jié)構(gòu)基因、調(diào)節(jié)基因或者在生化代謝途徑中影響性狀表達的基因,也有可能是位于基因非編碼區(qū)、影響基因剪切或者基因表達的基因位點。對于上述這些具有潛在SNP位點的基因,一般都是通過臨床實驗或者數(shù)據(jù)庫注釋等對其功能進行確定。在篩選獲取到大量與疾病相關(guān)的SNP位點的基礎(chǔ)上,我們可以使用基于數(shù)據(jù)驅(qū)動的方法對SNP進行數(shù)據(jù)處理。目前主流的處理方式是以全基因組關(guān)聯(lián)分析(GWAS)為代表的分析策略,GWAS能在群體數(shù)據(jù)中挖掘出與某種表型或疾病狀態(tài)存在強相關(guān)性的SNP位點,進而將高維的SNP位點信息有效地降低到低維的同時又盡量避免信息的丟失。通常經(jīng)過處理后得到的特定SNP組合,是與某種表型或疾病狀態(tài)具有最強關(guān)聯(lián)的SNP組合,能代表這種表型或疾病狀態(tài)在SNP位點層面上的特性。此外,還有基于純粹數(shù)據(jù)驅(qū)動的SNP分析方法,比如:主成分分析(principal component analysis,PCA)、多因子降維(multifactor dimensionality reduction,MDR)、獨立成分分析(independent component algorithm,ICA)、主坐標分析(principal co-ordinates analysis,PCOA)和非度量多維尺度分析(nonmetric multidimensional scaling,NMDS)等[13]。這些方法在沒有先驗信息的情況下可以進行純粹的數(shù)據(jù)驅(qū)動分析,強調(diào)嵌入在數(shù)據(jù)集中的遺傳模式來捕獲SNP上位性和多基因性,比如:PCA通常用于全基因組的SNP數(shù)據(jù)分析,提取出最有可能呈現(xiàn)有利于人群分類的群體結(jié)構(gòu)[14];多因子降維(multifactor dimensionality reduction,MDR)用于識別預(yù)測表型的基因-基因和基因-環(huán)境因素[15]。
對于基因表達譜數(shù)據(jù)的分析,主要是通過差異表達基因分析獲取某一特定組織或病理組織,與其他組織或健康組織的顯著性差異表達的基因列表相比較。對于獲得的基因列表,可以單獨的作為一個基因組數(shù)據(jù)特征用于后續(xù)的融合分析,也可以對基因列表進行信息挖掘之后再進行后續(xù)分析。即分析這些顯著差異表達基因,找到它們所在的基因通路,或者將它們按照某種相同功能劃分成不同的基因集合,再或者挖掘它們更深層次的共同表達趨勢,按照共同的表達趨勢劃分成不同的基因模塊。分析差異表達基因的通路,可以使用GO富集分析或者KEGG富集分析方法,得到這些基因在生化反應(yīng)、生理功能等多方面的網(wǎng)絡(luò)信息,了解這些富集后基因之間的相對關(guān)系和功能聯(lián)系?;贕O和KEGG的富集分析具有一些弊端,比如富集假陽性很高,因此在實際分析過程中多使用基因富集分析方法(gene set enrichment analysis,GSEA)進行基因通路或基因集合的挖掘[16]。傳統(tǒng)的基因富集分析方法分為兩個大類:一類基于基因表達譜數(shù)據(jù),一類基于基因間相互關(guān)系。GSEA首先被引入到癌癥研究中,隨后應(yīng)用到精神疾病等其他的一些疾病中[17]。無論是GO或KEGG富集分析方法,得到的基因通路或者基因集合都是基于先驗知識的,具有一定的主觀性,加權(quán)基因共表達網(wǎng)絡(luò)構(gòu)建(weighted gene co-expression network analysis, WGCNA)是一種從高通量數(shù)據(jù)中挖掘模塊(module)信息的算法,能夠從基因表達譜數(shù)據(jù)中挖掘具有相同或相似表達趨勢的基因模塊,具有生物學(xué)意義和更高的可信度[18]。
實現(xiàn)精準醫(yī)學(xué)需要精準的基因型和精準的表型,高通量基因組數(shù)據(jù)提供了精準的基因型,而醫(yī)學(xué)影像數(shù)據(jù)則是精準表型的一個重要來源,分析影像數(shù)據(jù)可以獲得疾病相關(guān)的定量表型,提煉影像特征。從1895年倫琴發(fā)現(xiàn) X 射線到后來分子影像的出現(xiàn),數(shù)字化醫(yī)學(xué)影像學(xué)已經(jīng)成為現(xiàn)代醫(yī)學(xué)不可或缺的手段和重要的組成部分。2012年荷蘭學(xué)者Lambin提出影像組學(xué)(Radiomics)[19]這一名詞,其強調(diào)的深層次含義是指從影像(CT、MRI、PET等)中高通量地提取大量影像信息,實現(xiàn)腫瘤分割、特征提取與模型建立,憑借對海量影像數(shù)據(jù)信息進行更深層次的挖掘、預(yù)測和分析來輔助醫(yī)師做出最準確的診斷。傳統(tǒng)的影像診斷主要依賴于醫(yī)師的判斷,而影像組學(xué)基于數(shù)據(jù)進行分析,提取高維圖像特征作為新的生物影像標記物來幫助臨床決策[20]。影像數(shù)據(jù)分析過程主要包括四個部分:①圖像數(shù)據(jù)的獲取。結(jié)構(gòu)性和功能性影像學(xué)技術(shù)常用于復(fù)雜疾病的研究。結(jié)構(gòu)性影像技術(shù)主要包括CT和MRI;功能影像技術(shù)包括PET、單光子發(fā)射計算機斷層成像術(shù)(single photon emission computed tomography,SPECT)等;②圖像分割。將圖像分割成如腫瘤、正常組織和其他解剖結(jié)構(gòu)的感興趣區(qū)是最關(guān)鍵的部分,為接下來的數(shù)據(jù)分析奠定了基礎(chǔ)。許多腫瘤邊界不清,使得影像分析在復(fù)雜疾病研究中仍存在部分障礙,因此需要發(fā)展自動化、可重復(fù)的醫(yī)學(xué)圖像分割算法。常用的分割算法包括區(qū)域增長法(region-growing methods)、水平設(shè)置法、圖像切割法、動態(tài)輪廓(蛇形)算法[active contours(snake)algorithms]以及半自動分割法(semiautomatic segmentations),如livewires法、基于容量CT的分割法(volumetric CT based segmentation)等[21];③特征提取與量化。圖像分割完成后,即可以提取感興趣區(qū)域影像特征,包括統(tǒng)計學(xué)特征、紋理特征、形態(tài)學(xué)特征等。評估這些特征有效性需滿足三個條件:病理學(xué)相關(guān)、高度可重復(fù)性和信息量豐富且非冗余[22];④數(shù)據(jù)分析及建立預(yù)測模型。通過運用一些機器學(xué)習(xí)算法可以將提取到的定量影像特征用于疾病的分類和診斷。
在分析基因組數(shù)據(jù)和影像數(shù)據(jù)、提取疾病相關(guān)的基因組特征和影像特征的基礎(chǔ)上,需要進一步將兩大類數(shù)據(jù)融合起來,進行基因型與表型的關(guān)聯(lián)分析?;诮y(tǒng)計學(xué)的遺傳變異和影像關(guān)聯(lián)分析,包括單變量融合分析和多變量融合分析。單變量的融合分析方法只考慮了單個SNP位點與特定影像表型之間的關(guān)聯(lián)程度。例如Pearson卡方檢驗應(yīng)用于定性表型與遺傳數(shù)據(jù)融合分析,線性回歸應(yīng)用于定量表型與遺傳數(shù)據(jù)的融合分析中。Stein等[23]發(fā)明了基于體素的全基因組關(guān)聯(lián)分析方法(voxelwiseGWAS,vGWAS),檢驗了每個SNP與每個大腦體素的關(guān)聯(lián)顯著性,并對結(jié)果進行了多重檢驗校正。在單變量的基因影像關(guān)聯(lián)分析研究中,有些研究者已經(jīng)發(fā)布了相關(guān)的統(tǒng)計分析軟件,如Plink[24]。但單變量融合分析忽略了多位點對特定影像表型的聯(lián)合效應(yīng),而多變量分析方法充分考慮了多個位點與特定影像表型之間的關(guān)聯(lián)性。當面對大量遺傳變異如全基因組SNPs和大腦中的大量體素時,典型相關(guān)分析(canonical correlation analysis,CCA)[25]是一個常用的雙多變量模型。該模型尋找使遺傳數(shù)據(jù)和影像數(shù)據(jù)之間最大相關(guān)的線性組合,可以較好地解決多變量基因與多變量影像關(guān)聯(lián)分析這一問題。其他類似的方法還有偏最小二乘回歸(partial least squares,PLS)、降秩回歸(reduced rank regression,RRR)和并行獨立主成分分析(parallel independent component analysis,PICA)等[26~28]。它們從遺傳和影像數(shù)據(jù)中提取潛在變量,這些潛在的變量數(shù)據(jù)成為新的基因型和表型,并且使用不同的代價函數(shù)來最大化基因型-表型的關(guān)聯(lián)。另外針對影像基因組學(xué)中的高維數(shù)據(jù),這些算法還有改進的版本,包括稀疏PLS、稀疏CCA和稀疏RRR[29~31]。通過增加變量的稀疏度不僅能使結(jié)果的解釋變得更加合理,而且可以通過避免過擬合問題來增加結(jié)果的穩(wěn)定性。
基因表達與影像特征的關(guān)聯(lián)分析可以用來篩選能夠反應(yīng)基因表達活動的影像標志物,這類標志物可以用作疾病的篩查、診斷和預(yù)后。Zhou等[32]搜集了113個非小細胞肺癌患者的CT影像特征數(shù)據(jù)與轉(zhuǎn)錄組測序數(shù)據(jù),并構(gòu)建了CT腫瘤語義特征與基于轉(zhuǎn)錄組的分子通路特征之間的Spearman相關(guān)性矩陣。結(jié)果發(fā)現(xiàn)存在能夠反應(yīng)分子通路的影像特征,可以非侵入性的反映某些非小細胞肺癌病灶的分子活性變化。研究者進一步在其他的幾個公共數(shù)據(jù)集中進行驗證,發(fā)現(xiàn)篩選的特征表現(xiàn)出了區(qū)分度良好的預(yù)后效果。在2015年Zhu等[33]從KEGG數(shù)據(jù)庫中獲取乳腺癌相關(guān)的基因通路,利用GSEA方法,對提取的38個影像特征進行了基因富集分析,尋找與影像表型變化相關(guān)的KEGG基因通路。研究結(jié)果表明很多KEGG通路的表達水平與38個影像特征均存在統(tǒng)計學(xué)上的顯著關(guān)聯(lián),尤其和病灶體積、有效直徑、表面積和最大線性尺寸這4種影像特征存在密切的正相關(guān),和邊緣銳度、徑向梯度直方圖方差存在顯著的負相關(guān)。
隨著人工智能的發(fā)展,機器學(xué)習(xí)算法也被廣泛的應(yīng)用于影像基因組學(xué)。基因組特征數(shù)據(jù)與影像特征數(shù)據(jù)的融合作為算法的輸入,輸出的是疾病診斷、疾病風險或預(yù)后預(yù)測的結(jié)果。例如,通過支持向量機對遺傳和功能磁共振成像特征融合,能夠更好地對精神分裂癥患者分類,比單獨使用遺傳或者影像數(shù)據(jù)準確率更高,這表明遺傳和大腦功能影像捕獲不同但互補的精神分裂癥特征[34]。另外,Wang等[35]提出了一種多模態(tài)多任務(wù)學(xué)習(xí)算法,結(jié)合了基因和多模態(tài)影像特征,同時預(yù)測診斷結(jié)果和認知功能。在該算法中,聯(lián)合分類和回歸,利用一組L1范數(shù)正則化進行特征選擇,將異構(gòu)的影像和遺傳數(shù)據(jù)進行整合。這種方法的優(yōu)勢之一是確定與診斷和認知功能相關(guān)的遺傳標記和影像生物標志物。Ge等[36]使用機器學(xué)習(xí)中的核方法(kernel-base,KB)研究多個SNP與影像表型之間的關(guān)聯(lián)程度。Kohannim等[37]使用Lasso回歸方法分析阿爾茨海默病多個位點與特定表型之間的關(guān)聯(lián)程度,發(fā)現(xiàn)22個位點與額葉皮層體積改變有關(guān)。
臨床上要想對腫瘤和精神疾病等復(fù)雜疾病進行個性化治療,首先就必須要進行精確診斷。斯坦福大學(xué)的Itakura[38]對265例膠質(zhì)母細胞瘤(glioblastoma multiforme,GBM)患者進行了影像基因組學(xué)的研究(其中121例來自斯坦福大學(xué)醫(yī)學(xué)院,144例來自TCIA數(shù)據(jù)庫),提取了388個MR影像特征進行一致性聚類分析,得到3個影像表型聚類。然后融合TCGA數(shù)據(jù)庫相對應(yīng)的基因表達數(shù)據(jù)和拷貝數(shù)變異數(shù)據(jù),利用PARADIGM算法,分析這三類影像表型和分子信號通路之間的關(guān)聯(lián)。研究結(jié)果表明,基于影像特征的GBM亞型能夠刻畫潛在的分子活動,實現(xiàn)基于醫(yī)學(xué)影像特征的非侵入式診斷。Yamamoto等[39]在2014年應(yīng)用影像基因組學(xué)的方法分析非小細胞肺癌,診斷準確率達到78.8%,通過分子和CT影像特征結(jié)合時,可以區(qū)分肺癌亞型。另外,Yamamoto等[40]在2015年還進行了乳腺癌的影像基因組學(xué)研究,將定量影像特征和RNA表達進行關(guān)聯(lián)分析,他的研究顯示影像基因組學(xué)具有應(yīng)用于非入侵式腫瘤早期診斷的潛力。
現(xiàn)階段,疾病的預(yù)后預(yù)測在臨床上越來越受重視,然而醫(yī)生只能憑借個人經(jīng)驗來給出預(yù)測。2014年,Aerts等[41]在1 019例肺癌和頭頸癌患者的CT數(shù)據(jù)中,提取了440個定量影像特征,再根據(jù)強度、形狀、紋理、小波等特征建立標簽,進行定量分析。研究結(jié)果表明,影像特征具有顯著的預(yù)后價值,并與基因表達模式顯著相關(guān)。他們利用影像基因組學(xué)的方法,通過融合影像、基因和病理特征建立影像基因組學(xué)標簽,揭示了影像與患者的預(yù)后聯(lián)系。
對疾病治療效果的評判也是影像基因組學(xué)臨床應(yīng)用的一個重要方向。惡性腫瘤具高度異質(zhì)性,即使是組織學(xué)類型、病理分期、甚至分子分型都相同的癌癥對放化療的反應(yīng)都不一定相同,目前尚無公認的可以有效預(yù)測癌癥放化療療效的臨床指標。腫瘤的表型與基因表達決定了腫瘤對放化療的反應(yīng),因此可以利用影像基因組學(xué)的方法,將癌癥臨床分期、分子分型和生物學(xué)因子等進行整合,對腫瘤的治療反應(yīng)及療效進行評估。雖然目前尚無相關(guān)報道,但影像基因組學(xué)作為一種無創(chuàng)、可定量、可重復(fù)的方法,在臨床上應(yīng)用于疾病的療效評估必將成為一種趨勢。
隨著生物醫(yī)學(xué)信息技術(shù)的迅速發(fā)展,我們將得到通量更高、內(nèi)容更全面的基因型數(shù)據(jù),以第二代測序技術(shù)為基礎(chǔ)產(chǎn)生了包括基因組測序數(shù)據(jù)、轉(zhuǎn)錄組測序數(shù)據(jù)、表觀遺傳組測序數(shù)據(jù)和宏基因組測序數(shù)據(jù)為主的多組學(xué)數(shù)據(jù)?;蚪M測序數(shù)據(jù)使研究者能夠分析個體基因組之間的遺傳差異,從而進一步認識由這種差異導(dǎo)致的復(fù)雜疾病預(yù)防、診斷和治療的差異。轉(zhuǎn)錄組研究以基因的功能與結(jié)構(gòu)為出發(fā)點,通過檢測新的轉(zhuǎn)錄本、轉(zhuǎn)錄水平以及非編碼RNA,可以進一步解讀不同生理或病理條件下基因表達與結(jié)構(gòu)的差異。表觀遺傳組研究如何對基因組進行修飾與組裝,包括DNA甲基化、組蛋白修飾、基因印記和染色質(zhì)重塑等都可以對基因進行調(diào)控,此外環(huán)境的變化也可以導(dǎo)致基因表觀修飾的變化。宏基因組研究人體基因組與腸道微生物之間的關(guān)系,腸道微生物群落在人類營養(yǎng)代謝、感染抵抗和藥物應(yīng)答等過程中發(fā)揮著重要的作用,已有研究證實許多疾病都與腸道宏基因組有關(guān)。利用基因組、轉(zhuǎn)錄組、表觀組和宏基因組多組學(xué)整合的大數(shù)據(jù)研究,可以從不同層次對疾病進行致病機制以及防治技術(shù)的研究。
醫(yī)學(xué)影像技術(shù)的發(fā)展帶來了大量的臨床表型數(shù)據(jù),我們可以從其中提煉精準的定量表型。此外,分子影像技術(shù)的快速發(fā)展使得傳統(tǒng)的醫(yī)學(xué)診斷方式發(fā)生了巨大的變化,傳統(tǒng)影像學(xué)檢查只能從器官或者組織檢測疾病的發(fā)生情況,顯示的是疾病最終的影像狀態(tài),分子影像技術(shù)使得我們可以對生物過程進行細胞以及分子水平的非侵入式的定量實時研究,從而了解疾病的發(fā)生機制與分子生物學(xué)特征。此外,電子病歷也是臨床表型數(shù)據(jù)的重要來源,其涵蓋了以疾病診斷表型、環(huán)境因素、家族史、藥物治療、臨床檢驗等為主的數(shù)字記錄,包含了患者豐富的醫(yī)療健康信息。這類數(shù)據(jù)通常為非結(jié)構(gòu)化的文本數(shù)據(jù),通過自然語言處理與文本挖掘技術(shù)可將其轉(zhuǎn)換為結(jié)構(gòu)化的數(shù)據(jù),其所能提供的表型和疾病數(shù)據(jù)更加精準。
人工智能(artificial intelligence,AI)技術(shù)將在基因組數(shù)據(jù)和醫(yī)學(xué)影像數(shù)據(jù)的融合、分析和挖掘方面發(fā)揮巨大的作用。無論是深入挖掘基因特征與影像特征之間的關(guān)聯(lián)關(guān)系,還是建立疾病診斷模型或健康風險預(yù)測模型,都需要AI和深度學(xué)習(xí)技術(shù)的支撐。目前AI在精準醫(yī)學(xué)領(lǐng)域的應(yīng)用越來越廣泛,IBM開發(fā)的基因組學(xué)智能計算平臺(watson for genomics)可以讀取基因組測序數(shù)據(jù),并將這些數(shù)據(jù)與大量的臨床、科學(xué)和藥理數(shù)據(jù)庫進行比較,從而幫助醫(yī)生發(fā)現(xiàn)與患者腫瘤基因突變匹配的潛在治療方案。IBM Watson for Oncology腫瘤診療系統(tǒng),通過分析醫(yī)學(xué)大數(shù)據(jù),包括醫(yī)學(xué)文獻、病人健康記錄、臨床試驗和醫(yī)學(xué)影像數(shù)據(jù)等,為癌癥病人制定個性化、有權(quán)威依據(jù)的治療建議。另外,IBM Watson Health 正在開發(fā)基于多元生物醫(yī)學(xué)大數(shù)據(jù)融合的復(fù)雜疾病風險預(yù)測模型,建立面向精準醫(yī)療的生物醫(yī)學(xué)數(shù)據(jù)處理和分析平臺。