向俊,劉朦
1.德陽市人民醫(yī)院 信息網(wǎng)絡(luò)科,四川 德陽 618000;2.德陽市第二人民醫(yī)院 藥劑科,四川 德陽 618000
基于大數(shù)據(jù)分析法的精準醫(yī)療前景
向俊1,劉朦2
1.德陽市人民醫(yī)院 信息網(wǎng)絡(luò)科,四川 德陽 618000;2.德陽市第二人民醫(yī)院 藥劑科,四川 德陽 618000
隨著捕捉分子和醫(yī)療數(shù)據(jù)技術(shù)的發(fā)展,生物學和醫(yī)學開始進入了大數(shù)據(jù)時代,從而推動了精準醫(yī)療的發(fā)展。精準醫(yī)療是利用高性能計算、大數(shù)據(jù)分析和云計算技術(shù)等方法,對基于個體基因、分子、細胞、行為等差異獲取的生物信息學數(shù)據(jù)進行精準分析,提供疾病的精確診斷結(jié)果,并在此基礎(chǔ)上提供個性化治療服務(wù)。本文簡述了大數(shù)據(jù)分析法下精準醫(yī)療和生物信息學的發(fā)展情況,并闡述了精準醫(yī)療發(fā)展面臨的主要挑戰(zhàn)以及大數(shù)據(jù)產(chǎn)生個性化信息的各種分組學研究。同時,鑒于大數(shù)據(jù)日益增長的性質(zhì),本文也將精準醫(yī)療面臨大數(shù)據(jù)集成的一系列關(guān)鍵問題進行了分析。
大數(shù)據(jù);生物信息;精準醫(yī)療;基因測序;生物標志物
精準醫(yī)療,也稱為個性化的、預(yù)測性的、預(yù)防性的、參與式的4P醫(yī)療方式,也是一種新型的個性化醫(yī)療實踐方法[1]。根據(jù)個體差異實施不同的預(yù)防和治療策略并不新鮮,血型分類用于指導輸血已經(jīng)應(yīng)用了一個多世紀,目前國際社會廣泛認可的血型細分為35種[2]。同樣,增加對性別、種族、缺血時間和血清類型等因素的考慮,減少了器官移植排異的風險。然而,精準醫(yī)療概念應(yīng)用于患者臨床大數(shù)據(jù)面臨一些挑戰(zhàn),由于數(shù)據(jù)量巨大而且結(jié)構(gòu)復(fù)雜,醫(yī)務(wù)人員無法直接從中獲取有用的信息。
大數(shù)據(jù)分析為精準醫(yī)療提供了有力的技術(shù)支持,實現(xiàn)了計算機-醫(yī)療跨界協(xié)同發(fā)展。生物大數(shù)據(jù)由患者病歷、診斷信息、生活習慣等多維度生物學數(shù)據(jù)組成,數(shù)據(jù)量大、異構(gòu)性強、價值高是生物大數(shù)據(jù)的特點[3]。精準醫(yī)療是基于大規(guī)模人群的基因數(shù)據(jù)、生物樣本(蛋白質(zhì)、細胞數(shù)量、代謝物、DNA和RNA以及全基因組測序)、日常生活信息等數(shù)據(jù)的整合而發(fā)展起來的,大量的數(shù)據(jù)集合在一起,需要工具發(fā)掘其中的有利價值。大數(shù)據(jù)分析方法能對生物信息大數(shù)據(jù)進行有效的分析和挖掘,有利于對疾病的發(fā)病機制進行深入的研究,推動預(yù)防和治療方法的發(fā)展[4]。
在本文中,我們提出了可用的方法分析多樣的生物醫(yī)學大數(shù)據(jù),介紹數(shù)據(jù)集成的概念和分類,并且詳細說明了大數(shù)據(jù)分析方法在精準醫(yī)學的成果以及局限性。
2015年1月30日,美國總統(tǒng)奧巴馬在國情咨文演講中宣布將啟動“精準醫(yī)療計劃”,“精準醫(yī)療”開始逐漸步入了大眾的視野[5]。由于成本大幅下降,而且測序時間也大幅縮短,基因測序在醫(yī)療中逐漸占據(jù)了一席之地。第二代測序技術(shù)在近幾年取得了重大突破,原本測定一個人基因數(shù)據(jù)的需要上億美元的成本,現(xiàn)在下降到了1000美元左右,測序所需時間也縮短至3 d[6]。在測序技術(shù)的驅(qū)動下,針對一些疾病已經(jīng)開始應(yīng)用基因測序技術(shù)開展治療,從而拉開了精準醫(yī)療的序幕。預(yù)計到2020年,第三代測序技術(shù)大規(guī)模應(yīng)用后,完成一次測序的成本可能降至10美元,測序時間有望縮短為10~15 min[7]。
精準醫(yī)療發(fā)展的最終目標是精準醫(yī)療產(chǎn)業(yè)鏈,環(huán)節(jié)包括上游的醫(yī)療儀器(設(shè)備)研發(fā)生產(chǎn)、醫(yī)用耗材制造、生物樣本數(shù)據(jù)庫建立與維護、前沿醫(yī)療技術(shù)和相關(guān)技術(shù)研發(fā);中游的生物樣本數(shù)據(jù)的檢測、測量和分析診斷;下游的精準醫(yī)療和健康管理[8]。
同患者分類一樣,子類型化的任務(wù)是識別亞型的患者,同一類疾病的亞型患者存在相似的潛在疾病相關(guān)機制,從而指導特定個體適用的治療流程,同時也能預(yù)測治療效果。盡管有不同的定義,子類型化在分類任務(wù)和機器學習研究領(lǐng)域中占據(jù)越來越重要的地位。例如癌癥、自閉癥、自身免疫性疾病、心血管疾病、帕金森病等疾病,都通過子類型化的方法進行了研究。
根據(jù)美國食品及藥物管理局定義,生物標志物是指任何可測量的診斷指標,用于評估風險或檢測疾病。生物標志物主要應(yīng)用在發(fā)現(xiàn)患者的特點,區(qū)分患者的亞型,這樣就能通過生物標志物來決定他/她是否屬于一個特定患者的亞型。目前,生物標志物被認為是提升精準醫(yī)療和降低醫(yī)療成本的關(guān)鍵[9]。
隨著信息化的持續(xù)發(fā)展,生物醫(yī)學數(shù)據(jù)正在迅速的增加。例如,人類可用的基因組與外顯子組的數(shù)量在過去10年幾乎按指數(shù)級增長。2012年,已經(jīng)確認的人類基因組已經(jīng)達到了1092個[10]。2003年,第一個外顯子組被發(fā)現(xiàn),目前,人類已經(jīng)發(fā)現(xiàn)了60706個獨立的人類基因外顯子。最近英國政府宣布,到2017年,繪制100000個人類基因組項目[11],同時,美國也計劃繪制100萬個人類基因組用于精準醫(yī)療[12]。在數(shù)量持續(xù)增長的同時,也需要保證和提升基因組數(shù)據(jù)的采集質(zhì)量,基因組數(shù)據(jù)的質(zhì)量取決于短序列長度總和占目標基因序列的長度比例[13]。在實際情況中,我們通過不同的組織樣本,可以從中獲取更多的基因組數(shù)據(jù)。此外,隨著技術(shù)的發(fā)展,樣本可以更長時間保持其有效性,我們甚至可以評估隨著時間推移,藥物效果與基因組的關(guān)聯(lián)性。
各種不同生物實體(染色體、蛋白質(zhì)、代謝產(chǎn)物等)中可收集的數(shù)據(jù)在持續(xù)增加,數(shù)據(jù)總量變得越來越大,這對存儲和管理數(shù)據(jù)提出了新的要求。2011年,美國已經(jīng)收集了1018字節(jié)的醫(yī)療數(shù)據(jù),預(yù)計到不久的將來,數(shù)據(jù)量將會迅速提升到1024字節(jié)[14]。這些醫(yī)療數(shù)據(jù)具有高度異構(gòu)的特性,就算是同一個數(shù)據(jù)元,通過不同的技術(shù)手段獲取,也存在范圍、精度、時間等差異。此外,由于缺乏統(tǒng)一的標準,許多廠商和研究機構(gòu)都按照自己的方式存儲收集到的數(shù)據(jù)集,造成了大數(shù)據(jù)提取面臨的一系列問題[15]。
醫(yī)療大數(shù)據(jù)具有大規(guī)模、多樣性、復(fù)雜性等特性,因此需要高效的算法對醫(yī)療大數(shù)據(jù)進行分類和挖掘。機器語言或基于網(wǎng)絡(luò)的計算機技術(shù)開始應(yīng)用于大數(shù)據(jù)的分析與統(tǒng)計,這些方法已經(jīng)在大數(shù)據(jù)與精準醫(yī)療之間展現(xiàn)出了巨大的潛力,且仍有很大的改進空間[16-17]。基于機器語言方法在分析大規(guī)模、多樣化、異構(gòu)性的生物醫(yī)學數(shù)據(jù)類型具有明顯的優(yōu)勢,而這是精準醫(yī)療和生物信息學之前面臨最大的問題[18]。因此,下面我們將介紹處理大數(shù)據(jù)的方法。
疾病子類型化是指根據(jù)基因組與臨床數(shù)據(jù)將病人分成具有一定共性的子組。子類型化的主要目標是實現(xiàn)對患者更加精準的治療方案,也可以對治療效果進行更加準確的預(yù)測。目前有許多疾病的治療方案得益于子類型化的實施,比如帕金森、心血管疾病、自身免疫綜合征、癌癥等。
癌癥是子類型化研究最多的疾病之一,癌癥的誘因是一個疾病基因畸變的積累,最終導致細胞系統(tǒng)的失調(diào)[19]。就算是同一部位的癌癥,也會因為基因組的差異而表現(xiàn)出不同的臨床行為。許多癌癥的類型已經(jīng)被大數(shù)據(jù)集分組技術(shù)細分出來,包括結(jié)腸癌、直腸癌、乳腺癌和卵巢癌。
無監(jiān)督的機器學習方法,例如層次聚類算法,K-means聚類算法,非負矩陣分解等,可以應(yīng)用于基因表達數(shù)據(jù)。通過比較不同基因?qū)膊〉挠绊?,從而劃分出有意義的基因表達子組。最近有研究人員通過對腫瘤組織樣本基因表達差異性的對比,將患者劃分為不同的子類型,進行針對型的治療方案?;谒x擇基因組表達的差異,差異越大的基因組在數(shù)據(jù)中的距離越遠,從而對其進行聚類,達到分組的目的[20],K-means方法下的基因分組,見圖1。
圖1 K-means方法下的基因分組
目前我們能夠通過各種渠道和方法整合不同數(shù)據(jù)類型的信息,如藥理、化學、遺傳和臨床資料。同時,由于許多疾病存在許多性質(zhì)不同的子類,同種藥物對于它們不一定有同樣的治療效果。因此,精準醫(yī)療的整體目標是考慮疾病與患者信息多樣性與關(guān)聯(lián)性,有針對性的將藥物分類用于每個患者,而大數(shù)據(jù)分析提供了解決這個問題的方法[21-22]。
首先,從多個不同的藥物和疾病采集數(shù)據(jù)源,用于分別計算它們之間的相似性,分別構(gòu)造成不同的疾病數(shù)據(jù)集與藥物數(shù)據(jù)集,疾病數(shù)據(jù)集與藥物數(shù)據(jù)集,見圖2。
圖2 疾病數(shù)據(jù)集與藥物數(shù)據(jù)集
然后,分別選取相似性較高的疾病數(shù)據(jù)集A與藥物數(shù)據(jù)集B,構(gòu)建一個疾病-藥物整體對應(yīng)集,構(gòu)成新的數(shù)據(jù)集C,構(gòu)造方法,見圖3。
預(yù)計該廠將在2018年完成工業(yè)調(diào)試。從2019年開始,該廠將擁有7500噸的年產(chǎn)能。到2021年全面建成投運后,年產(chǎn)能將達1.5萬噸,占全球總產(chǎn)能的1/4。該廠將成為全球成本最低的鈾轉(zhuǎn)化廠。
圖3 疾病-藥物對應(yīng)集構(gòu)造過程
最后,基于疾病-藥物對應(yīng)集中疾病-藥物元素的相似性,可以通過邏輯回歸訓練樣本加以分類,得到預(yù)期的結(jié)果[23]。在大量數(shù)據(jù)樣本的支持下,經(jīng)過多次訓練,可以提升疾病-藥物組的有效性。通常疾病-藥物對應(yīng)集中的元素存在一對多甚至多對多的關(guān)系,因此在分組和樣本訓練其實要復(fù)雜得多,圖3只是列舉了其中一種情況。此外,這種方法實用性較強,可以用于未來的個性化藥物治療,通過整合患者的基因組數(shù)據(jù)和疾病信息做出相似性和關(guān)聯(lián)性分析。
在現(xiàn)有的研究中,通過對醫(yī)療大數(shù)據(jù)的分析與利用,可以逐步實施個性化醫(yī)療方案[24-25]。比較著名的是德國默克公司正與Regenstrief研究院一起實施的個性化醫(yī)療項目,通過研究對特定疾病的易感性、遺傳變異和對特殊藥物的反應(yīng)這3者之間的聯(lián)系,使得在藥物的研發(fā)和使用中,充分考慮到基因和遺傳變異的因素[26]。通過醫(yī)療大數(shù)據(jù)的支持,針對不同特質(zhì)的患者可以采取相對優(yōu)化的治療方案,甚至可以使用更加合理的藥物劑量,達到提升治療效果,減少副作用的目的。就目前來說,個性化醫(yī)療主要是通過個人基因測序、基于基因的新藥研發(fā)、個人健康信息管理這3個方面實施的。
復(fù)旦大學的智能信息處理實驗室開發(fā)了一種多協(xié)作矩陣分解方法(Many-Sided Coordinate Matrix Factorization,MSCMF)的框架用于藥物預(yù)測[27]。在這個框架中,代表藥物相互作用的矩陣作為輸入值,那么多個矩陣就代表不同類型的相似藥物,共同構(gòu)成了一個數(shù)據(jù)庫。MSCMF項目中,藥物和靶標矩陣在一個共同的低維特征空間分解成兩個低維矩陣,分別表示藥物和靶標的低維特征向量,低維矩陣中藥物和靶標值的計算通過半監(jiān)督學習的方式完成。這種情況下,兩種藥物或者靶標之間的相似性是近似對應(yīng)了它們特征向量的內(nèi)積。作者在數(shù)學上制定分解條件約束在同一目標函數(shù),它們通過應(yīng)用交替最小二乘算法最小化。收斂之后,從獲得的低維矩陣重建藥物-靶標矩陣,以前的記錄則代表預(yù)測藥物-靶標的相互作用。MSCMF表現(xiàn)出比以前更好的執(zhí)行藥物-靶標預(yù)測方法,此外,MSCMF很大的優(yōu)勢是,它可以集成來自多個數(shù)據(jù)源中相同的藥物-靶標組,評估其對藥物-靶標預(yù)測的質(zhì)量。
在基于基因的新藥研發(fā)過程中,大部分藥品都是與其目標蛋白質(zhì)相互作用并調(diào)節(jié)蛋白質(zhì)生物功能的小化合物。因此,分析蛋白質(zhì)與小化合物之間的相互作用機制是新藥研發(fā)的關(guān)鍵步驟。這使得分子大數(shù)據(jù)庫能夠幫助人們分析大量復(fù)合蛋白相互作用的信息,加快新藥研發(fā)的效率[28]。研究人員提出了多種計算方法為藥物再利用,可以根據(jù)不同的標準將藥物分類。從數(shù)據(jù)出發(fā)的觀點中,Dudley[29]提出了基于藥品和疾病的分類方法。第一組使用一些效果相似或者副作用相似的藥物(如化學相似性,藥物引起的相似基因表達式),并利用一種新穎的候選藥物組與其他藥物執(zhí)行相同的動作。將相似藥物作用到目標蛋白質(zhì)中,根據(jù)靶向性相似,即蛋白質(zhì)序列相似,或3D結(jié)構(gòu)相似推斷出新的藥物,也可以同時使用上述3種計算相似性的方法用于分類。他們通常使用機器學習或者神經(jīng)網(wǎng)絡(luò)來推斷藥物分類的過程。
通過分析某種疾病患者人群的組學數(shù)據(jù),能夠迅速識別疾病發(fā)生和疾病治愈的生物標志物。在藥物研發(fā)方面,大數(shù)據(jù)促進人們對病因和疾病發(fā)生機制的理解更加深入,從而有助于識別生物靶點和研發(fā)藥物。同時,充分利用海量組學數(shù)據(jù)、已有藥物的研究數(shù)據(jù)和高通量藥物篩選,能加速藥物篩選過程[30]。
基于基因檢測技術(shù)的發(fā)展,疾病診斷的準確率在逐步提升,致病機理的認識也逐漸深入,即使在這種情況下,想要短期內(nèi)研究出針對性的精準治療方法仍然比較困難,在實際的醫(yī)療環(huán)境中,藥物的臨床副作用仍然不可忽視,需要進行大量的臨床試驗。此外,由基因組突變、缺失引發(fā)的罕見病,由于發(fā)病率低,長期的治療費用極高,且許多患者支付能力較低,無法為相應(yīng)的治療方法提供經(jīng)濟的市場回報,導致基于基因測序的精準醫(yī)療僅僅停留在研究階段,無法吸引醫(yī)藥公司投入?yún)⑴c。
最后,精準醫(yī)療大數(shù)據(jù)的復(fù)雜度遠高于傳統(tǒng)互聯(lián)網(wǎng)大數(shù)據(jù),醫(yī)療數(shù)據(jù)的收集和處理也是一大難題,并且由于數(shù)據(jù)格式并未完全統(tǒng)一,收集的數(shù)據(jù)可用性并不高。腫瘤臨床數(shù)據(jù)需要采集的類型不僅包括傳統(tǒng)的生化指標、影像報告、傳統(tǒng)病理和治療信息,還有通過新的臨床檢測手段產(chǎn)生的基因組信息[35]。對基因突變的正確解析、標記做出臨床意義的注釋,不僅涉及數(shù)百個軟件包的開發(fā)和運用,還依賴于生命科學、臨床醫(yī)學、臨床藥理和生物信息學的科學理解和解讀。
[1] Hood L,Friend SH.Predictive, personalized, preventive, participatory (p4) cancer medicine[J].Nat Rev Clin Oncol, 2011,8(3):184-187.
[2] Mirnezami R,Nicholson J,Darzi A.Preparing for precision medicine[J].N Engl J Med,2012,366:489-491.
[3] McDermott JE,Wang J,Mitchell H,et al.Challenges in biomarker discovery: combining expert insights with statistical analysis of complex omics data[J].Expert Opin Med Diagn, 2013,7(1):37-51.
[4] 邵學杰.醫(yī)療革命:醫(yī)學數(shù)據(jù)挖掘的理論與實踐[M].北京:電子工業(yè)出版社,2016.
[5] The "Precision Medicine" initiative[EB/OL].https://www. whitehouse.gov/precision-medicine.
[6] 于廣軍,楊佳泓.醫(yī)療大數(shù)據(jù)[M].上海:上??茖W技術(shù)出版社,2015.
[7] 鞠躬,陳志南.生命之窗:生命科學前沿縱覽[M].西安:第四軍醫(yī)大學出版社,2014.
[8] 江藝泉,馬晉平.奧巴馬推出精準醫(yī)療計劃倡議[J].世界科學,2015,37(3):4.
[9] 許琛,王麗殊,徐碧華,等.AKI生物學標志物新進展[J].中國醫(yī)學創(chuàng)新,2013,10(28):162-164.
[10] Davis JC,Furstenthal L,Desai A,et al.The microeconomics of personalized medicine: today's chal-lenge and tomorrow's promise[J].Nat Rev Drug Discov,2009,8(1):279-286.
[11] The 1000 Genomes Project Consortium.An integrated map of genetic variation from 1,092 human genomes[J]. Nature,2012,491(7422):56-65.
[12] The project to map 100 000 human genomes by 2017[EB/OL]. https://www.gov.uk/government/news/ human -genome-uk-tobecome-world-number-1-in-dna-testing.
[13] 人類基因組大數(shù)據(jù)[EB/OL].http://ihealthtran.com/big-data-inhealthcare.
[14] Gligorijevi? V,Malod-Dognin N,Pr?ulj N.Integrative methods for analyzing big data in precision medicine[J].Proteomics, 2016,16(5):741-758.
[15] Jagadish HV,Gehrke J,Labrinidis A,et al.Big data and its technical challenges[J].Commun ACM,2014,57(7):86-94.
[16] 朱小兵.醫(yī)療大數(shù)據(jù):從偶然走向必然[J].中國醫(yī)療設(shè)備, 2014,29(3):204-206.
[17] 王甜宇,孫艷秋,燕燕.大數(shù)據(jù)時代云計算在區(qū)域醫(yī)療信息化中的應(yīng)用[J].中國醫(yī)療設(shè)備,2015,30(6):72-74.
[18] 董馨憶.數(shù)據(jù)挖掘在生物醫(yī)學數(shù)據(jù)分析中的應(yīng)用[J].醫(yī)藥衛(wèi)生,2016,(5):226-227.
[19] 謝玲,陳劼,孫怡,等.中國結(jié)直腸癌、肺癌和胃癌患者KRAS基因突變情況分析[J].臨床與實驗病理學雜志,2016,32(2): 210-213.
[20] 李文超,周勇,夏士雄.一種新的基于層次和K-means方法的聚類算法[A].第26屆中國控制會議論文集[C].北京:北京航空航天大學出版社.2007.
[21] 孫可欣,詹思延,胡永華.醫(yī)學大數(shù)據(jù)在藥物基因組學領(lǐng)域中的應(yīng)用與發(fā)展[J].藥物流行病學雜志,2017,26(1):68-73.
[22] 任慧朋.醫(yī)療大數(shù)據(jù)環(huán)境下的健康信息分析方法[J].中國醫(yī)療設(shè)備,2016,31(5):173-177.
[23] 欒曾惠,胡欣,孫雪林.藥物基因組學在藥物劑量調(diào)整中的應(yīng)用[J].中國合理用藥探索,2017,14(1).
[24] 胡燦,鄧官華,藍茂英,等.混合模態(tài)人體個性化組織介電特性電磁模型的建立與應(yīng)用研究[J].中國醫(yī)療設(shè)備,2016,31(5):23-29.
[25] 柯艷,王忠慶.個性化臨床科研隨訪閉環(huán)管理[J].中國醫(yī)療設(shè)備,2016,31(6):152-153.
[26] Duke JD,Morea J,Mamlin B,et al.Regenstrief institute's medical gopher: A next-generation homegrown electronic medical record system[J].Int J Med Inform,2014,83(3):170-179.
[27] Zheng X,Ding H,Mamitsuka.Collaborative matrix factorization with multiple similarities for predicting drug-target interactions[A].Acm Sigkdd International Conference on Knowledge Discovery & Data Mining[C].New York:ACM, 2013:1025-1033.
[28] Dimmer EC,Huntley RP,Alam-Faruque Y,et al.The UniProt-Go annotation database in 2011[J].Nucleic Acids Res,2012,40(2): 565-570.
[29] Dudly JT,Deshpande T,Butte AJ.Exploiting drug-disease relationships computational drug repositioning[J].Brief Bioinform,2011,4:303-311.
[30] Cheng L,Schneider BP,Li L,et al.A bioinformatics approach for precision medicine off-label drug drug selection among triple negative breast cancer patients[J].J Am Med Inform Assoc,2016,23(4):741-749.
[31] 羅麗娜.中國居民EHR系統(tǒng)構(gòu)建研究[J].蘭臺世界,2015,(11):6-7.
[32] 盧云,王丹,翟紅,等.基于電子健康檔案的區(qū)域醫(yī)療實現(xiàn)方式[J].中國醫(yī)療設(shè)備,2012,27(3):54-56.
[33] 王嬰,姚志洪,劉雷.電子健康檔案標準-CDA與openEHR[J].中國醫(yī)療設(shè)備,2010,25(3):11-14.
[34] 王惠來,雷寒,汪洋,等.基于大數(shù)據(jù)的智能健康管理信息模型研究[J].重慶醫(yī)學,2017,46(10):1422-1424.
[35] 段小蕾.健康數(shù)據(jù)計劃催生醫(yī)療創(chuàng)新[J].中國社會組織, 2015,(8):30-31.
本文編輯 王婷
Prospects of Precision Medical Based on Big Data Analysis
XIANG Jun1, LIU Meng2
1.Department of Information Network, People’s Hospital of Deyang City, Deyang Sichuan 618000, China;
2.Department of Pharmacy, the Second People’s Hospital of Deyang City, Deyang Sichuan 618000, China
With the advance in technologies capturing molecular and medical data, we enter the area of "Big Data" in biology and medicine, which offers many opportunities to advance precision medicine. The precise medical treatment can accurately analyze the bioinformatics data that obtained based on individual genes, molecules, cells and behavior differences, provide accurate diagnosis of the disease and personalized treatment services on this basis. In this process, the high performance computing, large data analysis, cloud computing technology and other methods are used. This paper gave a brief account of the development of precision medical and bioinformatics under the big data analysis method. Meanwhile, we outlined the key challenges of precision medicine and the present recent advances in data integration-based methods to uncover personalized information from big data produced by various omics studies. Moreover, in view of the growing nature of big data, a series of key problems, such as big data integration, that precise medical would face in the future were analyzed.
big data; bioinformatics; precision medicine; gene sequencing; biomarker
TP393
A
10.3969/j.issn.1674-1633.2017.08.030
1674-1633(2017)08-0112-04
2017-02-24
2017-05-23
作者郵箱:280620806@qq.com