王昕玥,渠鴻竹,方向東
綜述
組學(xué)大數(shù)據(jù)和醫(yī)學(xué)人工智能
王昕玥1,2,3,渠鴻竹1,2,3,方向東1,2,3
1. 中國(guó)科學(xué)院北京基因組研究所(國(guó)家生物信息中心),中國(guó)科學(xué)院基因組科學(xué)與信息重點(diǎn)實(shí)驗(yàn)室,北京 100101 2. 中國(guó)科學(xué)院大學(xué),北京 100049 3. 中國(guó)科學(xué)院北京基因組研究所(國(guó)家生物信息中心),基因組與精準(zhǔn)醫(yī)學(xué)檢測(cè)技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101
隨著高通量測(cè)序技術(shù)和計(jì)算機(jī)科學(xué)的飛速發(fā)展,組學(xué)數(shù)據(jù)量指數(shù)倍增長(zhǎng),多組學(xué)分析優(yōu)勢(shì)逐漸顯現(xiàn),人工智能應(yīng)用也愈加廣泛。本文介紹了近年來(lái)多組學(xué)數(shù)據(jù)分析和人工智能各自在醫(yī)學(xué)領(lǐng)域的應(yīng)用進(jìn)展,同時(shí)也介紹了兩者相結(jié)合應(yīng)用的案例以及優(yōu)勢(shì),最后簡(jiǎn)單闡述多組學(xué)分析和人工智能在現(xiàn)階段面臨的挑戰(zhàn),旨在為醫(yī)學(xué)行業(yè)提供新的研究思路,助推精準(zhǔn)醫(yī)學(xué)發(fā)展應(yīng)用。
多組學(xué);人工智能;醫(yī)學(xué);精準(zhǔn)醫(yī)學(xué)
隨著5G技術(shù)的成熟,大數(shù)據(jù)、物聯(lián)網(wǎng)、云計(jì)算等也在快速發(fā)展,社會(huì)逐漸從信息時(shí)代進(jìn)入智能時(shí)代,各行各業(yè)也都在爭(zhēng)相推進(jìn)智能化的腳步。在醫(yī)療行業(yè)中,醫(yī)學(xué)影像、病患信息等數(shù)據(jù)海量且復(fù)雜,人工整理或解讀效率低下,而人工智能可以快速精確地處理大數(shù)據(jù),并挖掘其背后的潛在信息。與此同時(shí),隨著高通量測(cè)序技術(shù)的發(fā)展,單組學(xué)分析技術(shù)日益成熟與完善,而多組學(xué)大數(shù)據(jù)的整合分析,已成為研究者們探索生命機(jī)制的新方向,在此大背景下,結(jié)合組學(xué)數(shù)據(jù)的醫(yī)療行業(yè)的智能化發(fā)展建設(shè)已成必然趨勢(shì)。本文介紹了近年來(lái)多組學(xué)整合分析和人工智能在醫(yī)學(xué)領(lǐng)域中各自的應(yīng)用以及結(jié)合應(yīng)用的最新研究成果。
組學(xué)(omics)主要包括基因組學(xué)(genomics)、轉(zhuǎn)錄組學(xué)(transcriptomics)、表觀組學(xué)(epigenomics)、蛋白組學(xué)(proteomics),代謝組學(xué)(metabolomics),脂類組學(xué)(lipidomics),免疫組學(xué)(immunomics),糖組學(xué)(glycomics)等,是各類組學(xué)的統(tǒng)稱。每一類組學(xué)為此類特征的系統(tǒng)集合,比如第一個(gè)被定義的基因組學(xué),是對(duì)一個(gè)生物體所有基因進(jìn)行集體表征和量化,并研究它們之間的相互關(guān)系及對(duì)生物體的影響。目前,單一組學(xué)的研究比較成熟,但挖掘到的數(shù)據(jù)信息受限,只能在某一層面解釋特征與目標(biāo)疾病的相關(guān)性,無(wú)法探究因果關(guān)系。多組學(xué)的整合分析,可使人們更宏觀地了解到目標(biāo)疾病的全貌,理解目標(biāo)疾病的發(fā)生發(fā)展機(jī)制,為攻克疑難雜癥提供更全面的信息[1]。
人工智能(artificial intelligence, AI)是研究、開(kāi)發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門(mén)新的技術(shù)科學(xué)[2]。1950年,“人工智能之父”圖靈提出計(jì)算機(jī)是否擁有人類智能這一問(wèn)題。1956年,美國(guó)達(dá)特茅斯會(huì)議首次提出“人工智能”這一術(shù)語(yǔ),標(biāo)志著人工智能這一新興學(xué)科的正式誕生。其本質(zhì)是通過(guò)大量的樣本訓(xùn)練來(lái)模擬人腦的思維方式,或用以執(zhí)行人類的行為活動(dòng)。其研究涵蓋領(lǐng)域十分廣泛,主要分為自然語(yǔ)言處理、機(jī)器學(xué)習(xí)(machine learning, ML)、機(jī)器人、計(jì)算機(jī)視覺(jué)、語(yǔ)言圖像識(shí)別和知識(shí)圖譜六大方向。目前,專家系統(tǒng)、護(hù)理機(jī)器人、手術(shù)機(jī)器人、計(jì)算機(jī)輔助診斷等產(chǎn)品都在醫(yī)療行業(yè)中起著重要作用[3]。
機(jī)器學(xué)習(xí)是一種可用于實(shí)現(xiàn)人工智能的方法,其傳統(tǒng)的算法包括決策樹(shù)、邏輯回歸、聚類、隨機(jī)森林、支持向量機(jī)、深度學(xué)習(xí)等[4]。從方法上來(lái)分,機(jī)器學(xué)習(xí)算法可以分為監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。其中,深度學(xué)習(xí)(deep learning, DL)是建立于模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),典型的深度學(xué)習(xí)模型有循環(huán)神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、深度信任網(wǎng)絡(luò)、生成式對(duì)抗網(wǎng)絡(luò)和自編碼器等。人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的關(guān)系如圖1所示。
隨著測(cè)序技術(shù)的發(fā)展及組學(xué)新技術(shù)的不斷涌現(xiàn),不同種類的組學(xué)數(shù)據(jù)指數(shù)級(jí)增長(zhǎng),對(duì)多組學(xué)大數(shù)據(jù)的整合分析,已成為科學(xué)家探索生命機(jī)制和疾病演變的新方向。
通過(guò)DNA甲基化和基因表達(dá)數(shù)據(jù)的整合分析,可以鑒定疾病發(fā)生發(fā)展相關(guān)的分子標(biāo)志物。Mens等[5]使用了來(lái)自大規(guī)模全基因組關(guān)聯(lián)研究(genome- wide association study, GWAS)的公開(kāi)數(shù)據(jù)來(lái)搜索與各種心臟代謝特征相關(guān)的miRNA相關(guān)序列的遺傳變異,包括脂質(zhì)和肥胖相關(guān)特征、血糖指數(shù)、血壓、2型糖尿病(type 2 diabetes, T2D)和冠心病(coro-nary heart disease, CHD)患病率,發(fā)現(xiàn)了67個(gè)已鑒定miRNA中的180個(gè)SNP與心臟代謝特征相關(guān)。然后,文章使用鹿特丹研究(The Rotterdam Study)參與者的DNA甲基化和miRNA表達(dá)數(shù)據(jù)進(jìn)一步研究相關(guān)miRNA與心臟代謝特征之間的聯(lián)系,其中38個(gè)miRNA的CpG位點(diǎn)的DNA甲基化水平與研究性狀相關(guān)。此外作者從67個(gè)已鑒定miRNA中進(jìn)一步發(fā)現(xiàn)了與研究性狀相關(guān)的8個(gè)miRNA。整合不同組學(xué)結(jié)果表明miR-10b-5p、miR-148a-3p、miR-125b-5p和miR-100-5p與心臟代謝的脂質(zhì)性狀密切相關(guān),這些可以被視為潛在的2型糖尿病和冠心病早期診斷或進(jìn)展的生物標(biāo)志物。
圖1 人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的關(guān)系示意圖
Yuan等[6]使用多個(gè)項(xiàng)目的轉(zhuǎn)錄組和/或DNA甲基化數(shù)據(jù)證明了45種結(jié)直腸癌(colorectal cancer, CRC)變體中29種的易感性可能是由基因調(diào)節(jié)的順式作用介導(dǎo)的,并且確定了66個(gè)推測(cè)的易感基因。和通過(guò)破壞細(xì)胞行為(包括遷移、侵襲和上皮間質(zhì)轉(zhuǎn)化)在CRC的發(fā)生中起著至關(guān)重要的作用。
以序列為中心的蛋白質(zhì)組、基因組和轉(zhuǎn)錄組數(shù)據(jù)的整合分析,可以為基因表達(dá)調(diào)控、信號(hào)網(wǎng)絡(luò)、疾病亞型和臨床預(yù)測(cè)提供新的見(jiàn)解。Cohen等[7]結(jié)合游離DNA突變和循環(huán)蛋白質(zhì)生物標(biāo)志物開(kāi)發(fā)了一種新的基于血液的預(yù)測(cè)方法CancerSEEK,不僅可以實(shí)現(xiàn)癌癥早診,還可以定位這些癌癥的起源器官。研究將CancerSEEK應(yīng)用于1 005名患有卵巢癌、肝癌、胃癌、胰腺癌、食道癌、結(jié)直腸癌、肺癌或乳腺癌的患者上,能夠定位癌癥的起源器官并鑒定出5種腫瘤類型(卵巢癌、肝癌、胃癌、胰腺癌和食道癌)的早期存在,其靈敏度介于69%~98%,特異性為99%。
Yang等[8]為了確定早期結(jié)CRC的潛在靶點(diǎn),對(duì)來(lái)自II期CRC患者進(jìn)行了無(wú)標(biāo)記蛋白質(zhì)組學(xué)分析,共鑒定出2 968種蛋白質(zhì),再?gòu)陌┌Y基因組圖譜(The Cancer Genome Atlas, TCGA)結(jié)腸腺癌庫(kù)中檢索到相應(yīng)的RNA測(cè)序數(shù)據(jù),篩選出111種關(guān)鍵候選蛋白,最終由病理圖像數(shù)據(jù)確定了三個(gè)潛在靶點(diǎn):蛋白質(zhì)精氨酸脫亞胺酶2 (PADI2)、IgG結(jié)合蛋白的Fc片段(FCGBP)和磷酸絲氨酸轉(zhuǎn)氨酶1。
肉瘤代表一組高度組織學(xué)和分子異質(zhì)性的罕見(jiàn)惡性腫瘤,預(yù)后較差。 Zhang等[9]從癌癥蛋白質(zhì)組圖譜(The Cancer Proteome Atlas, TCPA)上下載了肉瘤患者的蛋白質(zhì)組表達(dá)譜以及臨床信息,發(fā)現(xiàn)55種蛋白質(zhì)與患者的總生存期(overall survival, OS)相關(guān)?;诘鞍踪|(zhì)組學(xué)特征開(kāi)發(fā)了肉瘤患者的預(yù)后模型,模型包括七種蛋白:AMPKALPHA、CHK1、S6、ARID1A、RBM15、ACETYLATUBULINLYS40和MSH6。再使用TCGA中肉瘤患者的轉(zhuǎn)錄組數(shù)據(jù)集驗(yàn)證預(yù)后模型的性能,證明模型可能是指導(dǎo)臨床實(shí)踐的有效工具。
這些研究表明,多組學(xué)大數(shù)據(jù)的集成為了解跨細(xì)胞組織多個(gè)層面的因果關(guān)系提供了機(jī)會(huì),在醫(yī)學(xué)領(lǐng)域應(yīng)用中具有巨大潛力,可以得到比單組學(xué)分析更全面,更精確的結(jié)果。
2.2.1 人工智能在影像中的應(yīng)用
醫(yī)學(xué)影像主要包括醫(yī)學(xué)影像計(jì)算機(jī)斷層掃描(computer tomography, CT)、磁共振成像(magnetic resonance imaging, MRI)、正電子發(fā)射計(jì)算機(jī)斷層顯像(positron emission tomography-computer tomog-raphy, PET-CT)、X射線、超聲等技術(shù)[10]。人工智能在醫(yī)學(xué)影像上已經(jīng)應(yīng)用到圖像分割、圖像分類、圖像配準(zhǔn)和目標(biāo)檢測(cè)等場(chǎng)景中[11],其可以實(shí)現(xiàn)圖像質(zhì)量的改善提升,且對(duì)于理解圖像信息,輔助診斷分類都起著極大的作用,還可以迅速完成圖像分割配準(zhǔn)等更高級(jí)的操作。
在圖像配準(zhǔn)方面,De Silva等[12]使用了一種可以縱向?qū)R多模態(tài)視網(wǎng)膜圖象的深度學(xué)習(xí)配準(zhǔn)算法。在彩色眼底照相(color fundus photogra-phy, CFP)、眼底自發(fā)熒光(fundus autofluorescence, FAF)和紅外反射(infrared reflectance, IR)三種圖像模式實(shí)驗(yàn)中,單模態(tài)縱向配準(zhǔn)實(shí)驗(yàn)獲得54~59 μm的誤差,相較于傳統(tǒng)的配準(zhǔn)方法(平均誤差在39~53 μm范圍內(nèi)),展示出了更高的準(zhǔn)確性。對(duì)于多模態(tài)橫斷面配準(zhǔn)實(shí)驗(yàn),該方法平均誤差在66~69 μm范圍內(nèi),而傳統(tǒng)方法則錯(cuò)誤頗多。在圖像分類方面,Jiang等[13]對(duì)111例乳房動(dòng)態(tài)對(duì)比材料增強(qiáng)(dynamic contrast material-enhanced, DCE)MRI檢查的圖像分別通過(guò)傳統(tǒng)的計(jì)算機(jī)輔助評(píng)估軟件和AI進(jìn)行分類測(cè)試,發(fā)現(xiàn)使用AI方法圖像分類準(zhǔn)確性更高,平均AUC從0.71提高到0.76。在圖像分割方面,Hoseini等[14]提出了一種大容量深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network, DCNN)的方法,可以更準(zhǔn)確,更快速地分割腦部MRI圖像,在BraTS2016腦腫瘤數(shù)據(jù)集的完整區(qū)域、核心區(qū)域和增強(qiáng)區(qū)域的準(zhǔn)確性分別為0.90、0.85和0.84。
2.2.2 人工智能在癌癥研究中的應(yīng)用
人工智能在腫瘤學(xué)研究的各個(gè)方面的應(yīng)用增長(zhǎng)迅速,應(yīng)用范圍包括癌癥風(fēng)險(xiǎn)預(yù)測(cè)、癌癥檢測(cè)和分類分期、癌癥藥物發(fā)現(xiàn)和再利用、預(yù)后分析等,有助于醫(yī)生為每位患者制定高度個(gè)性化的癌癥預(yù)防和治療計(jì)劃。
對(duì)于癌癥診斷,主要是對(duì)癌癥患者的圖像和非癌性病變的影像學(xué)圖像利用人工智能方法提取差異特征,構(gòu)建診斷模型。Jeyaraj等[15]開(kāi)發(fā)了一種具有兩個(gè)分層的新結(jié)構(gòu)深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN),分析樣本多維高光譜圖像輔助口腔癌診斷,準(zhǔn)確度為94.5%。Luo等[16]利用1 036 496個(gè)內(nèi)窺鏡圖像開(kāi)發(fā)了一種胃腸道人工智能診斷系統(tǒng)(GRAIDS),經(jīng)外部驗(yàn)證和與專業(yè)內(nèi)鏡醫(yī)師的診斷結(jié)果比較,GRAIDS表現(xiàn)出良好的診斷性能,其準(zhǔn)確性為0.915~0.977,靈敏度為0.942,堪比專業(yè)內(nèi)鏡醫(yī)師(0.945)。Li等[17]開(kāi)發(fā)了一個(gè)基于CNN的新模型來(lái)分析窄帶成像放大內(nèi)窺鏡(magnifying endoscopy with narrow band imaging, M-NBI)觀察到的胃粘膜病變圖像,用于胃癌的早期診斷,該模型準(zhǔn)確率、敏感性和特異性分別為90.91%、91.18%和90.64%,其中敏感性顯著高于專家組判定,準(zhǔn)確率和特異性與專家組未有差異。同樣,基于4204張影像利用CNN方法建立的黑色素瘤診斷模型,靈敏度、特異性都超過(guò)了皮膚科醫(yī)生的檢驗(yàn)結(jié)果[18],表明了人工智能在大數(shù)據(jù)時(shí)代的優(yōu)越性。
在風(fēng)險(xiǎn)預(yù)測(cè)方面,人工智能可輔助醫(yī)生決策,降低患者就醫(yī)成本,提高其生活質(zhì)量。Kudo等[19]使用僅接受內(nèi)鏡切除術(shù)或T1 CRC手術(shù)切除術(shù)的入選患者的臨床病理記錄,構(gòu)建了一個(gè)T1大腸癌淋巴結(jié)轉(zhuǎn)移風(fēng)險(xiǎn)的人工智能預(yù)測(cè)模型(artificial neural network, ANN),該模型(AUC=0.84)在識(shí)別初次內(nèi)鏡手術(shù)切除后的轉(zhuǎn)移淋巴結(jié)風(fēng)險(xiǎn)上效果明顯優(yōu)于美國(guó)指南(AUC=0.77),為T(mén)1期大腸癌患者是否進(jìn)行淋巴結(jié)清除手術(shù),提供了輔助預(yù)測(cè)手段。
腫瘤的分級(jí)用于評(píng)價(jià)惡性腫瘤侵襲轉(zhuǎn)移的程度,指導(dǎo)臨床治療和患者預(yù)后管理。Bulten等[20]使用患者穿刺活檢切片和病理報(bào)告開(kāi)發(fā)了一項(xiàng)可根據(jù)Gleason評(píng)分標(biāo)準(zhǔn)對(duì)前列腺活檢樣本分級(jí)評(píng)分的深度學(xué)習(xí)系統(tǒng),這個(gè)系統(tǒng)在診斷和分級(jí)方面性能卓越,區(qū)分惡性腫瘤的AUC為0.990,判斷≥2級(jí)和≥3級(jí)的AUC分別為0.978和0.974,該系統(tǒng)對(duì)100份活檢樣本的分級(jí)結(jié)果(kappa=0.854)優(yōu)于專家判定(kappa= 0.819),可降低人工判定帶來(lái)的主觀性錯(cuò)誤并節(jié)約時(shí)間成本。
在預(yù)后分析方面,人工智能也表現(xiàn)出良好的預(yù)測(cè)效果, Arya等[21]提出了一個(gè)兩階段的人類乳腺癌預(yù)后預(yù)測(cè)多模式模型,即第一階段使用卷積神經(jīng)網(wǎng)絡(luò)提取特征,第二階段輸入提取的特征進(jìn)而在基于堆棧的集成模型中得到分類結(jié)果,該集成模型的結(jié)果比現(xiàn)有的多模式CNN方法更好(AUC=0.93,準(zhǔn)確度為90.2%)。
2.2.3 人工智能在輔助醫(yī)學(xué)上的應(yīng)用
人工智能還能輔助醫(yī)生做一些識(shí)別、監(jiān)控管理疾病的工作,將人工智能的數(shù)據(jù)整合、分析與判斷能力與人類醫(yī)生的診療經(jīng)驗(yàn)相結(jié)合,提供輔助醫(yī)療的處理邏輯,分擔(dān)醫(yī)生壓力、提高工作效率。
對(duì)于術(shù)后分析,F(xiàn)rit等[22]收集了來(lái)自醫(yī)療中心接受氣管插管手術(shù)的患者數(shù)據(jù)構(gòu)建了一個(gè)可以預(yù)測(cè)術(shù)后30天死亡率的多路徑卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)模型,在納入的95,907名患者數(shù)據(jù)中,最終有941名患者在手術(shù)后1個(gè)月內(nèi)死亡。該模型預(yù)測(cè)術(shù)后30天死亡率結(jié)果AUC為0.867, 95%CI為0.835~0.899。
對(duì)于監(jiān)控管理慢性病,以往用于測(cè)量視網(wǎng)膜血管口徑的方法離不開(kāi)人工操作,圖片質(zhì)量好壞直接影響測(cè)定時(shí)間長(zhǎng)短,且人工測(cè)量差異較大。為了提高效率,Cheung等[23]開(kāi)發(fā)了一種深度學(xué)習(xí)CNN模型(SIVA-DLS),可以全自動(dòng)地從視網(wǎng)膜照片中去測(cè)量視網(wǎng)膜血管的口徑,且結(jié)果與人工測(cè)量結(jié)果具有高度的一致性,相關(guān)系數(shù)在0.82~0.95之間。除此之外,該研究還證明了SIVA-DLS測(cè)量的視網(wǎng)膜血管口徑與心血管疾病有關(guān)。
人工智能在醫(yī)學(xué)中的應(yīng)用如表1所示。除此之外,醫(yī)學(xué)領(lǐng)域的康復(fù)護(hù)理機(jī)器人在很大程度上也應(yīng)用了人工智能技術(shù),可以幫助行動(dòng)不便的病人日常生活和術(shù)后康復(fù)[3],也可以輔助醫(yī)生進(jìn)行手術(shù),提高醫(yī)療效率,節(jié)省醫(yī)療資源,應(yīng)用十分廣泛。
組學(xué)大數(shù)據(jù)和人工智能各自在醫(yī)學(xué)領(lǐng)域都發(fā)揮著巨大的潛能與優(yōu)勢(shì),兩者結(jié)合應(yīng)用,即高維數(shù)據(jù)集的可用性加上高性能計(jì)算機(jī)以及創(chuàng)新的機(jī)器學(xué)習(xí)架構(gòu)[24],不僅可以提高數(shù)據(jù)利用率,更能優(yōu)化單組學(xué)或非人工智能研究的結(jié)果。
卵巢癌是女性生殖器官常見(jiàn)的惡性腫瘤之一,初始癥狀不明顯,很難及早發(fā)現(xiàn),復(fù)發(fā)率較高,治愈率較差,死亡率超過(guò)宮頸癌及子宮內(nèi)膜癌之和,高居?jì)D科癌癥首位。Hira等[25]開(kāi)發(fā)了基于可變自動(dòng)編碼器(variational autoencoder, VAE)改進(jìn)的最大平均差異VAE (maximum mean discrepancy-variational autoencoder, MMD-VAE)技術(shù),而后開(kāi)發(fā)了VAE和MMD-VAE的深度學(xué)習(xí)框架。VAE是一種訓(xùn)練被正則化以避免過(guò)度擬合,并確保潛在空間具有良好的特性來(lái)支持生成過(guò)程的自編碼器。MMD-VAE則是將VAE的損失函數(shù)替換成使用最大平均差異。通過(guò)單一組學(xué)(基因組、轉(zhuǎn)錄組、表觀組)、綜合二組學(xué)(基因組+轉(zhuǎn)錄組、表觀組+轉(zhuǎn)錄組、基因組+表觀組)和三組學(xué)(基因組+轉(zhuǎn)錄組+表觀組)的數(shù)據(jù)分析,研究卵巢癌的癌癥樣本識(shí)別、分子亞型聚類和分類以及生存分析。結(jié)果顯示,VAE和MMD-VAE優(yōu)于現(xiàn)有的降維(PCA、t-SNE)技術(shù),且在亞型聚類和分類以及生存分析中,綜合二組學(xué)和三組學(xué)的結(jié)果比基于單組學(xué)更好,且在多組學(xué)數(shù)據(jù)集分析中MMD-VAE性能比VAE更出色。
Zhao等[26]構(gòu)建了一個(gè)可擴(kuò)展且可解釋的深度學(xué)習(xí)框架DeepOmix用來(lái)集成多組學(xué)數(shù)據(jù)和生存預(yù)測(cè),該團(tuán)隊(duì)使用突變、拷貝數(shù)變化、基因表達(dá)和DNA甲基化四種組學(xué)數(shù)據(jù),將DeepOmix應(yīng)用在八個(gè)不同的癌癥(膀胱尿路上皮癌、乳腺浸潤(rùn)癌、頭頸部鱗狀細(xì)胞癌、低級(jí)別膠質(zhì)瘤、腎透明細(xì)胞癌、肺腺癌、卵巢漿液性囊腺癌和胃腺癌)數(shù)據(jù)集的預(yù)后分析,經(jīng)與其他五種最新方法(BLockForest、DeepHit、DeepSurv、glmBoost、IPF_LASSO)比較,在其中的六個(gè)數(shù)據(jù)集中,DeepOmix的預(yù)后預(yù)測(cè)結(jié)果表現(xiàn)均為最佳。文章中還提到DeepOmix除了可以使用四種類型的組學(xué)數(shù)據(jù)之外,還可以集成更復(fù)雜的蛋白質(zhì)數(shù)據(jù)。
表1 人工智能在醫(yī)學(xué)中的應(yīng)用
Xu等[27]提出了一種新的分層集成深度靈活神經(jīng)森林框架(HI-DFNForest),集成多組學(xué)數(shù)據(jù)用于腫瘤亞型分類。文章針對(duì)乳腺浸潤(rùn)性癌、多形性膠質(zhì)母細(xì)胞瘤和卵巢癌三種腫瘤,分別使用 DNA 甲基化數(shù)據(jù)、miRNA表達(dá)數(shù)據(jù)、基因表達(dá)數(shù)據(jù)或者將三類數(shù)據(jù)整合來(lái)進(jìn)行亞型分類。結(jié)果顯示無(wú)論在哪種腫瘤數(shù)據(jù)集中,多組學(xué)整合數(shù)據(jù)分類的準(zhǔn)確性(分別為0.846、0.885、0.840)都高于單組學(xué)(DNA甲基化:0.731、0.596、0.640;miRNA表達(dá):0.769、0.539、0.640;基因表達(dá):0.808、0.865、0.760)。
多組學(xué)分析產(chǎn)生的數(shù)據(jù)較之單一組學(xué)分析更多更復(fù)雜,針對(duì)具體的生物醫(yī)學(xué)科學(xué)問(wèn)題,多組學(xué)也可以憑借多維度多角度的優(yōu)勢(shì)更為全面地解釋該問(wèn)題。所以多組學(xué)相較單組學(xué)更為需要人工智能的輔助。而將人工智能技術(shù)應(yīng)用于多組學(xué)大數(shù)據(jù)上,將會(huì)是實(shí)現(xiàn)精準(zhǔn)醫(yī)療和個(gè)性化醫(yī)療的重要步驟。現(xiàn)有研究表明多組學(xué)數(shù)據(jù)與人工智能結(jié)合應(yīng)用,結(jié)果會(huì)更優(yōu)于單組學(xué)分析。
大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展和人工智能的興起,促進(jìn)了數(shù)據(jù)量的增長(zhǎng)。國(guó)家政策的扶持,為組學(xué)大數(shù)據(jù)和人工智能的發(fā)展帶來(lái)了前所未有的機(jī)遇,同時(shí)也面臨諸多挑戰(zhàn)。
大規(guī)模各種組學(xué)數(shù)據(jù)的產(chǎn)生,為疾病的發(fā)病機(jī)制的研究,提供了豐富的數(shù)據(jù)資源。但是組學(xué)數(shù)據(jù)的分析由于缺乏統(tǒng)一的標(biāo)準(zhǔn),根據(jù)不同流程,產(chǎn)生不同的結(jié)果,導(dǎo)致數(shù)據(jù)整合過(guò)程艱難復(fù)雜;不同種類組學(xué)數(shù)據(jù)質(zhì)量參差不齊,由于某些組學(xué)技術(shù)還處于初步發(fā)展階段,檢測(cè)方法尚不成熟,導(dǎo)致數(shù)據(jù)質(zhì)量差;組學(xué)數(shù)據(jù)種類多,亟需開(kāi)發(fā)相互整合的分析技術(shù);組學(xué)數(shù)據(jù)由于在機(jī)構(gòu)、醫(yī)院之間分散保存,缺乏有效的集成技術(shù),阻礙了利用大批量的數(shù)據(jù)進(jìn)行人工智能的訓(xùn)練測(cè)試。
人工智能應(yīng)用于醫(yī)學(xué)研究同樣面臨多方面的挑戰(zhàn)?,F(xiàn)下研究多為監(jiān)督學(xué)習(xí),但是無(wú)監(jiān)督學(xué)習(xí)更貼近人工智能,大量的數(shù)據(jù)集還需要熟練的醫(yī)生來(lái)進(jìn)行標(biāo)注,此過(guò)程需要耗費(fèi)大量的人力物力精力[28]。人工智能計(jì)算過(guò)程不透明,“黑箱”的可解釋性不強(qiáng)[29],在醫(yī)院層面存在責(zé)任劃分歸屬問(wèn)題。并且各家醫(yī)院之間信息共享率低,開(kāi)發(fā)出來(lái)的人工智能算法不一定具有普遍適應(yīng)性。此外,隨著越來(lái)越多人工智能產(chǎn)品投入臨床使用,數(shù)據(jù)安全形勢(shì)逐漸嚴(yán)峻,病人的隱私保護(hù)問(wèn)題凸顯,要開(kāi)發(fā)相應(yīng)技術(shù)并且具備相應(yīng)的法律法規(guī)和倫理規(guī)范去約束管制[30]。
組學(xué)大數(shù)據(jù)和人工智能相輔相成,組學(xué)大數(shù)據(jù)的增長(zhǎng)與整合使得臨床對(duì)人工智能的需求日益增大,而人工智能的發(fā)展又可以很好地利用組學(xué)大數(shù)據(jù)推動(dòng)醫(yī)療行業(yè)的發(fā)展。雖存在諸多問(wèn)題,但前景一片廣闊,加之機(jī)遇良多,因此,更需要從國(guó)家政府到企業(yè)研究機(jī)構(gòu)再到醫(yī)護(hù)人員與病患的一致合作,為未來(lái)精準(zhǔn)醫(yī)學(xué)和個(gè)性化醫(yī)學(xué)的實(shí)現(xiàn)打下堅(jiān)實(shí)基礎(chǔ)。
[1] 安紹維. 多組學(xué)大數(shù)據(jù)整合分析推動(dòng)人類未來(lái)的健康發(fā)展. 張江科技評(píng)論, 2019, (6): 12–14.
[2] Yu YZ, Shi DJ, Ma JC, Zhou Z. Advances in application of artificial intelligence in medical image analysis., 2019, 35(12): 1808–1812.
俞益洲, 石德君, 馬杰超, 周振. 人工智能在醫(yī)學(xué)影像分析中的應(yīng)用進(jìn)展. 中國(guó)醫(yī)學(xué)影像技術(shù), 2019, 35(12): 1808–1812.
[3] 李賀. 人工智能在醫(yī)學(xué)領(lǐng)域中的應(yīng)用研究. 科技風(fēng), 2020, (17): 7.
[4] Zhao XT, Yang YD, Qu HZ, Fang XD. Applications of machine learning in clinical decision support in the omic era., 2018, 40(9): 693–703.
趙學(xué)彤, 楊亞?wèn)|, 渠鴻竹, 方向東. 組學(xué)時(shí)代下機(jī)器學(xué)習(xí)方法在臨床決策支持中的應(yīng)用. 遺傳, 2018, 40(9): 693–703.
[5] Mens MMJ, Maas SCE, Klap J, Weverling GJ, Klatser P, Brakenhoff JPJ, van Meurs JBJ, Uitterlinden AG, Ikram MA, Kavousi M, Ghanbari M. Multi-omics analysis reveals microRNAs associated with cardiometabolic traits., 2020, 11: 110.
[6] Yuan Y, Bao JD, Chen ZS, Villanueva AD, Wen WQ, Wang FQ, Zhao DJ, Fu XH, Cai QY, Long JR, Shu XO, Zheng DY, Moreno V, Zheng W, Lin WQ, Guo XY. Multi-omics analysis to identify susceptibility genes for colorectal cancer., 2021, 30(5): 321–330.
[7] Cohen JD, Li L, Wang YX, Thoburn C, Afsari B, Danilova L, Douville C, Javed AA, Wong F, Mattox A, Hruban RH, Wolfgang CL, Goggins MG, Molin MD, Wang TL, Roden R, Klein AP, Ptak J, Dobbyn L, Schaefer J, Silliman N, Popoli M, Vogelstein JT, Browne JD, Schoen RE, Brand RE, Tie J, Gibbs P, Wong HL, Mansfield AS, Jen J, Hanash SM, Falconi M, Allen PJ, Zhou SB, Bettegowda C, Diaz LA, Tomasetti C, Kinzler KW, Vogelstein B, Lennon AM, Papadopoulos N. Detection and localization of surgically resectable cancers with a multi-analyte blood test., 2018, 359(6378): 926–930.
[8] Yang W, Shi J, Zhou Y, Liu TJ, Zhan FL, Zhang K, Liu N. Integrating proteomics and transcriptomics for the identification of potential targets in early colorectal cancer., 2019, 55(2): 439–450.
[9] Zhang BY, Yang L, Wang X, Fu DG. Identification of a survival-related signature for sarcoma patients through integrated transcriptomic and proteomic profiling analyses., 2021, 764: 145105.
[10] Han D, Li QH, Cai W, Xia YW, Ning J, Huang F. Research and application of artificial intelligence in medical imaging., 2019, 5(1): 39–67.
韓冬, 李其花, 蔡巍, 夏雨薇, 寧佳, 黃峰. 人工智能在醫(yī)學(xué)影像中的研究與應(yīng)用. 大數(shù)據(jù), 2019, 5(1): 39–67.
[11] Wang Y, Li CF. The new research progress of artificial intelligent methods in medical image processing., 2013, 30(3): 4138–4143.
王弈, 李傳富. 人工智能方法在醫(yī)學(xué)圖像處理中的研究新進(jìn)展. 中國(guó)醫(yī)學(xué)物理學(xué)雜志, 2013, 30(03): 4138–4143.
[12] De Silva T, Chew EY, Hotaling N, Cukras CA. Deep- learning based multi-modal retinal image registration for the longitudinal analysis of patients with age-related macular degeneration., 2020, 12(1): 619–636.
[13] Jiang YL, Edwards AV, Newstead GM. Artificial intelligence applied to breast MRI for improved diagnosis., 2021, 298(1): 38–46.
[14] Hoseini F, Shahbahrami A, Bayat P. An efficient imple-mentation of deep convolutional neural networks for MRI segmentation., 2018, 31(5): 738–747.
[15] Jeyaraj PR, Nadar ERS. Computer-assisted medical image classification for early diagnosis of oral cancer employing deep learning algorithm., 2019, 145(4): 829–837.
[16] Luo HY, Xu GL, Li CF, He LJ, Luo LN, Wang ZX, Jing BZ, Deng YS, Jin Y, Li Y, Li B, Tan WC, He CS, Seeruttun SR, Wu QB, Huang J, Huang DW, Chen B, Lin SB, Chen QM, Yuan CM, Chen HX, Pu HY, Zhou F, He Y, Xu RH. Real-time artificial intelligence for detection of upper gastrointestinal cancer by endoscopy: a multicentre, case-control, diagnostic study., 2019, 20(12): 1645–1654.
[17] Li L, Chen YS, Shen Z, Zhang XQ, Sang JZ, Ding Y, Yang XY, Li J, Chen M, Jin CH, Chen CL, Yu CH. Convolutional neural network for the diagnosis of early gastric cancer based on magnifying narrow band imaging., 2020, 23(1): 126–132.
[18] Brinker TJ, Hekler A, Enk AH, Berking C, Haferkamp S, Hauschild A, Weichenthal M, Klode J, Schadendorf D, Holland-Letz T, von Kalle C, Fr?hling S, Schilling B, Utikal JS. Deep neural networks are superior to derma-tologists in melanoma image classification., 2019, 119: 11–17.
[19] Kudo SE, Ichimasa K, Villard B, Mori Y, Misawa M, Saito S, Hotta K, Saito Y, Matsuda T, Yamada K, Mitani T, Ohtsuka K, Chino A, Ide D, Imai K, Kishida Y, Nakamura K, Saiki Y, Tanaka M, Hoteya S, Yamashita S, Kinugasa Y, Fukuda M, Kudo T, Miyachi H, Ishida F, Itoh H, Oda M, Mori K. Artificial intelligence system to determine risk of T1 colorectal cancer metastasis to lymph node., 2021, 160(4): 1075–1084.e2.
[20] Bulten W, Pinckaers H, van Boven H, Vink R, de Bel T, van Ginneken B, van der Laak J, Hulsbergen-van de Kaa C, Litjens G. Automated deep-learning system for Gleason grading of prostate cancer using biopsies: a diagnostic study., 2020, 21(2): 233–241.
[21] Arya N, Saha S. Multi-modal classification for human breast cancer prognosis prediction: Proposal of deep- learning based stacked ensemble model., 2020, doi: 10.1109/TCBB.2020. 3018467.
[22] Fritz BA, Cui ZC, Zhang MH, He YJ, Chen YX, Kronzer A, Abdallah AB, King CR, Avidan MS. Deep-learning model for predicting 30-day postoperative mortality., 2019, 123(5): 688–695.
[23] Cheung CY, Xu DJ, Cheng CY, Sabanayagam C, Tham YC, Yu M, Rim TH, Chai CY, Gopinath B, Mitchell P, Poulton R, Moffitt TE, Caspi A, Yam JC, Tham CC, Jonas JB, Wang YX, Song SJ, Burrell LM, Farouque O, Li LJ, Tan G, Ting DSW, Hsu W, Lee ML, Wong TY. A deep-learning system for the assessment of cardiovascular disease risk via the measurement of retinal-vessel calibre., 2021, 5(6): 498–508.
[24] Bhinder B, Gilvary C, Madhukar NS, Elemento O. Artificial intelligence in cancer research and precision medicine., 2021, 11(4): 900–915.
[25] Hira MT, Razzaque MA, Angione C, Scrivens J, Sawan S, Sarker M. Integrated multi-omics analysis of ovarian cancer using variational autoencoders., 2021, 11(1): 6265.
[26] Zhao LH, Dong QY, Luo CL, Wu Y, Bu DC, Qi XN, Luo YF, Zhao Y. DeepOmix: A scalable and interpretable multi-omics deep learning framework and application in cancer survival analysis., 2021, 19: 2719–2725.
[27] Xu J, Wu P, Chen YH, Meng QF, Dawood H, Dawood H. A hierarchical integration deep flexible neural forest framework for cancer subtype classification by integrating multi-omics data., 2019, 20(1): 527.
[28] Liu FW, Li HJ, Zhang YH, Li RS, Wang ZS, Tang XY. Application of artificial intelligence in medical imaging diagnosis., 2019, 38(2): 206–211.
劉豐偉, 李漢軍, 張逸鶴, 李若松, 王尊升, 唐曉英. 人工智能在醫(yī)學(xué)影像診斷中的應(yīng)用. 北京生物醫(yī)學(xué)工程, 2019, 38(2): 206–211.
[29] 許家睿. 人工智能在輔助醫(yī)療領(lǐng)域現(xiàn)狀與未來(lái)發(fā)展趨勢(shì)概述. 中國(guó)新通信, 2021, 23(1): 232–234.
[30] Zhou WL. The classification and ethical reflection of artificial intelligence medical application., 2020, 33(7): 826–830.
周琬琳. 人工智能醫(yī)學(xué)應(yīng)用的分類與倫理問(wèn)題反思. 中國(guó)醫(yī)學(xué)倫理學(xué), 2020, 33(7): 826–830.
Omics big data and medical artificial intelligence
Xinyue Wang1,2,3, Hongzhu Qu1,2,3, Xiangdong Fang1,2,3
With the rapid development of high-throughput sequencing technology and computer science, the amount of large omics data has increased exponentially, the advantages of multi-omics analysis have gradually emerged, and the application of artificial intelligence has become more and more extensive. In this review, we introduce the application progress of multi-omics data analysis and artificial intelligence in the medical field in recent years, and also show the cases and advantages of their combined application. Finally, we briefly explain the current challenges of multi-omics analysis and artificial intelligence in order to provide new research ideas for the medical industry and to promote the development and application of precision medicine.
multi-omics; artificial intelligence; medicine; precision medicine
2021-06-18;
2021-08-31
科技部重點(diǎn)研發(fā)計(jì)劃(編號(hào):2020YFC2003405,2016YFC0901700,2018YFC0910700)資助[Supported by the National Key Research and Development Project of the Ministry of Science and Technology of the People’s Republic of China (Nos. 2020YFC2003405, 2016YFC0901700, 2018YFC0910700)]
王昕玥,在讀博士研究生,研究方向:基因組學(xué)。E-mail: wangxinyue2019d@big.ac.cn
渠鴻竹,博士,副研究員,研究方向:基因組學(xué)、精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)。E-mail: quhongzhu@big.ac.cn
方向東,博士,研究員,研究方向:醫(yī)學(xué)遺傳學(xué)、精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)。E-mail: fangxd@big.ac.cn
10.16288/j.yczz.21-215
2021/10/11 09:01:14
URI: https://kns.cnki.net/kcms/detail/11.1913.r.20211009.2351.001.html
(責(zé)任編委: 朱波峰)