摘要:目前大數(shù)據(jù)技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用研究受到廣泛關(guān)注。然而目前醫(yī)療大數(shù)據(jù)的討論更多是延續(xù)以往的醫(yī)學(xué)統(tǒng)計,醫(yī)學(xué)數(shù)據(jù)挖掘的思路,并沒有意識到隨著大數(shù)據(jù)技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用,即將對醫(yī)療行業(yè)帶來革命性的變革。介紹醫(yī)療大數(shù)據(jù)的4個組成部分,分析了醫(yī)療大數(shù)據(jù)在各領(lǐng)域的研究現(xiàn)狀,指出生命科學(xué)數(shù)據(jù)是醫(yī)療大數(shù)據(jù)領(lǐng)域的研究核心。通過案例介紹了醫(yī)療大數(shù)據(jù)如何應(yīng)用于科學(xué)研究和臨床治療。總結(jié)了醫(yī)療大數(shù)據(jù)研究中的問題和解決方法。
關(guān)鍵詞:醫(yī)療大數(shù)據(jù);生命科學(xué)數(shù)據(jù);精準(zhǔn)醫(yī)療
Abstract:At present, the application of big data technology in the medical field has received wide attention. However, the discussion of medical data is more a continuation of the previous medicine statistics, medical data mining method, and no consciousness to with big data technology in the medical field of application is for the medical industry bring a revolutionary change. We introduce the four part of the medical data, analysis of the current situation of medical data in various fields of life sciences, point out that Life Sciences data is the core of the medical data. A case study is applied in scientific research and clinical treatment. The problems and solutions in the research of medical big data are summarized.
Key words:Medical big data;Life Sciences data;Precision medical
隨著大數(shù)據(jù)技術(shù)快速發(fā)展,如何利用大數(shù)據(jù)技術(shù)實現(xiàn)醫(yī)療數(shù)據(jù)的存儲,分析,傳輸是醫(yī)學(xué)信息領(lǐng)域研究的熱點[1]。近年來,隨著\"36212工程\"等改革工作的推進(jìn)[2],國內(nèi)醫(yī)療信息化程度不斷提升,區(qū)域醫(yī)療,醫(yī)療集團(tuán)等新興醫(yī)療組織不斷涌現(xiàn),隨之而來的是大量的醫(yī)療數(shù)據(jù),如何利用這些醫(yī)療數(shù)據(jù)是擺在醫(yī)學(xué)信息研究人員面前的難題。
目前關(guān)于醫(yī)療大數(shù)據(jù)的研究更多是延續(xù)以往的醫(yī)學(xué)統(tǒng)計,醫(yī)學(xué)數(shù)據(jù)挖掘的思路,大部分研究人員并沒有意識到隨著大數(shù)據(jù)技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用深化,對醫(yī)療體制改革,打破壟斷機(jī)制重要作用。本研究整理了近年來醫(yī)療大數(shù)據(jù)的研究成果,提出以生物科學(xué)數(shù)據(jù)為主的醫(yī)療大數(shù)據(jù)建設(shè)方案。
1醫(yī)療大數(shù)據(jù)的來源與組成
綜合國內(nèi)外研究的結(jié)果和觀點,我們認(rèn)為現(xiàn)階段醫(yī)療大數(shù)據(jù)主要來自于以下四部分:臨床數(shù)據(jù),醫(yī)療費用數(shù)據(jù),個人行為數(shù)據(jù),生命科學(xué)數(shù)據(jù)。
1.1臨床數(shù)據(jù) 臨床數(shù)據(jù)主要來自于各類現(xiàn)有的臨床信息系統(tǒng)(CIS),電子病歷(EMR),健康檔案(HR)等,主要是在診斷,治療,隨訪過程中產(chǎn)生的血壓,血糖等個人體征信息。此類數(shù)據(jù)可以應(yīng)用于臨床決策支持,臨床數(shù)據(jù)對比,藥品研發(fā),地方病治療,基礎(chǔ)醫(yī)學(xué)等領(lǐng)域的研究[3]。
目前臨床數(shù)據(jù)特點是數(shù)量大,范圍廣,相關(guān)研究較好的一類數(shù)據(jù),被視為主流的醫(yī)療大數(shù)據(jù)構(gòu)成。然而此類數(shù)據(jù)研究主要的挑戰(zhàn)是數(shù)據(jù)的標(biāo)準(zhǔn)化程度不高不易進(jìn)行后期數(shù)據(jù)分析處理,數(shù)據(jù)分散在各類醫(yī)療機(jī)構(gòu)中,難以獲取,數(shù)據(jù)質(zhì)量差,可靠性不高等問題。綜上,除去部分信息化程度高,標(biāo)準(zhǔn)化好的臨床數(shù)據(jù)可以作為醫(yī)療大數(shù)據(jù)的研究對象,大量的臨床數(shù)據(jù)由于自身的局限性短期之內(nèi)難以發(fā)揮自身的價值。
1.2醫(yī)療費用數(shù)據(jù) 醫(yī)療費用增長過快是世界范圍的問題,目前還沒有有效的方法來抑制醫(yī)療費用的增長。隨著老齡化社會的到來,此問題將愈發(fā)嚴(yán)重?,F(xiàn)階段造成醫(yī)療費用增長過快的原因很多,其中醫(yī)院方在以藥養(yǎng)醫(yī)的醫(yī)療體制下激勵醫(yī)護(hù)人員開更多的處方,做更多的檢查來獲得利益,患者方由于現(xiàn)行的醫(yī)療保險體制的不公平性導(dǎo)致部分患者負(fù)擔(dān)的醫(yī)療成本較低刺激了不必要的需求,進(jìn)一步加劇了醫(yī)療費用的不合理增長。
醫(yī)療費用的研究一直是醫(yī)學(xué)信息研究的難點,意義重大困難突出。首先是醫(yī)療費用數(shù)據(jù)不公開,導(dǎo)致相關(guān)的研究只能分析過去幾年甚至十幾年前的醫(yī)療費用數(shù)據(jù),時效性差,無法準(zhǔn)確反映正在出現(xiàn)的問題。其次是方法過于簡單,醫(yī)療保險機(jī)構(gòu)掌握醫(yī)療數(shù)據(jù),但是對過度醫(yī)療行為的識別方法,懲罰機(jī)制等的設(shè)計簡單粗暴,缺乏科學(xué)的論證。醫(yī)學(xué)信息研究人員熟悉方法,但是缺乏開展研究的數(shù)據(jù),只能望而卻步[4,5]。
醫(yī)療大數(shù)據(jù)的特點之一就是實時性,通過實時收集,分析各類醫(yī)療數(shù)據(jù),以及通過應(yīng)用各類方法可以及時發(fā)現(xiàn)過度醫(yī)療行為,以數(shù)據(jù)為證據(jù)配合臨床路徑等相關(guān)醫(yī)療行為監(jiān)督體制,糾正過度醫(yī)療行為。需要指出的是這類研究和應(yīng)用初期會受到來自醫(yī)院,醫(yī)護(hù)人員和患者的抵制,而這也是開展此類研究的難點所在。
1.3個人行為數(shù)據(jù) 個人行為數(shù)據(jù)主要來自于類社交網(wǎng)站,購物信息,WEB點擊等個人在虛擬空間留下的痕跡。結(jié)合健康檔案,臨床數(shù)據(jù),個人行為數(shù)據(jù)可以挖掘特定人群的生活模式和疾病風(fēng)險之間的關(guān)系,從而為地方病,流行病,職業(yè)病預(yù)防和治療,相關(guān)藥品研發(fā),用藥提供指導(dǎo)。
目前個人行為數(shù)據(jù)是一個新興的數(shù)據(jù)源,相關(guān)的研究開展的較少,突破了現(xiàn)有的醫(yī)學(xué)信息研究領(lǐng)域。但是隨著大數(shù)據(jù)研究的深入,此類數(shù)據(jù)的重要性將愈發(fā)明顯。目前電子商務(wù)領(lǐng)域?qū)οM者行為的研究和應(yīng)用開展較好,在消費行為預(yù)測[6],消費模式分析都取得很好的成果[7]。而醫(yī)療大數(shù)據(jù)領(lǐng)域開展個人行為的研究可以借鑒其他領(lǐng)域的經(jīng)驗和方法,這也是互聯(lián)網(wǎng),電子商務(wù)等新興行業(yè)同傳統(tǒng)的醫(yī)療行業(yè)結(jié)合切入點。
1.4生命科學(xué)數(shù)據(jù) 現(xiàn)代生命科學(xué)以中心法則為起點,經(jīng)過基因測序,RNA干擾,基因編輯等幾次大的創(chuàng)新,目前已經(jīng)產(chǎn)生了空前規(guī)模的數(shù)據(jù),發(fā)展一套完備的數(shù)據(jù)分析技術(shù)。生命科學(xué)數(shù)據(jù)具有數(shù)據(jù)量龐大,結(jié)構(gòu)復(fù)雜的特點。現(xiàn)階段的生命科學(xué)數(shù)據(jù)有代表性數(shù)據(jù)庫主要包括生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫Pubmed,基因序列數(shù)據(jù)庫Genebank,蛋白質(zhì)序列數(shù)據(jù)庫PIR,疾病數(shù)據(jù)庫OMIM,藥物數(shù)據(jù)庫Drugbank,通路數(shù)據(jù)庫KEGG等一次數(shù)據(jù)庫以及在此基礎(chǔ)上構(gòu)建的種類繁多的二次數(shù)據(jù)庫。除此之外隨著生命信息研究不斷深入千人基因組計劃,宏基因組,各類組學(xué)的研究都正在產(chǎn)生海量的數(shù)據(jù),如何存儲,處理,分析這些數(shù)據(jù)毫無疑問是大數(shù)據(jù)技術(shù)研究范疇。
利用生命科學(xué)數(shù)據(jù)診斷和治療疾病,已經(jīng)逐漸從實驗室開始走向商業(yè)化,目前已經(jīng)開展了無創(chuàng)產(chǎn)前基因檢測等項目。
1997年香港中文大學(xué)盧煜明團(tuán)隊發(fā)現(xiàn)胎兒脫落的DNA能直接進(jìn)入母體血漿,進(jìn)而可以通過檢測母體外周血中的胎兒DNA的方法檢測胎兒是否患有唐氏綜合征,地中海貧血等遺傳疾病,從而開啟了無創(chuàng)基因檢測在產(chǎn)前篩查中的應(yīng)用[8]。進(jìn)過多年研究,無創(chuàng)產(chǎn)前基因檢測已經(jīng)實現(xiàn)商業(yè)化[9]。如何利用不斷出現(xiàn)的測序數(shù)據(jù)和技術(shù),預(yù)防疾病,完善健康信息管理,實現(xiàn)精準(zhǔn)醫(yī)療等內(nèi)容將是醫(yī)療大數(shù)據(jù)未來研究的主要方向[10]。
2醫(yī)療大數(shù)據(jù)數(shù)據(jù)挖掘平臺設(shè)計
醫(yī)療大數(shù)據(jù)由于自身特點,需要有不同于傳統(tǒng)的技術(shù)。目前主流大數(shù)據(jù)的技術(shù)包括了大規(guī)模并行處理,分布式數(shù)據(jù)庫,NoSQL和可擴(kuò)展的存儲系統(tǒng)等技術(shù)等[11]。醫(yī)療大數(shù)據(jù)的特點決該領(lǐng)域的研究必然是多學(xué)科交叉。
根據(jù)現(xiàn)有的大數(shù)據(jù)技術(shù),結(jié)合醫(yī)療大數(shù)據(jù)的特點我們設(shè)計基于Hadoop的醫(yī)療大數(shù)據(jù)平臺,該平臺采用了目前主流的大數(shù)據(jù)解決方案,其中包括數(shù)據(jù)獲取,數(shù)據(jù)存儲,數(shù)據(jù)導(dǎo)入,數(shù)據(jù)分解等部分,見圖1。
3應(yīng)用案例
隨著高通量的生物分子識別技術(shù)進(jìn)步,為人類研究癌癥提供了大量的多組學(xué)數(shù)據(jù)。原癌基因癌變,抑癌基因和修復(fù)基因發(fā)生突變導(dǎo)致失活是正常細(xì)胞向癌細(xì)胞轉(zhuǎn)化的關(guān)鍵因素。然而癌癥基因中組合遺傳變異的復(fù)雜性導(dǎo)致識別癌癥相關(guān)模塊以及描述其生物學(xué)功能成為很大的挑戰(zhàn)。
研究利用多種遺傳變異因素設(shè)計了多因素介導(dǎo)的功能失調(diào)癌癥網(wǎng)絡(luò)核心模塊識別平臺用于研究多因素對癌癥發(fā)生發(fā)展的影響。平臺采用Hadoop分布式存儲技術(shù)存儲多維基因組數(shù)據(jù)(DNA突變、拷貝數(shù)變異、甲基化、基因表達(dá)和microRNA表達(dá)譜等);利用R語言開發(fā)核心模塊識別程序;采用RHIPE技術(shù)連接數(shù)據(jù)和R程序;采用JAVA實現(xiàn)WEB界面和數(shù)據(jù)可視化。實現(xiàn)癌癥數(shù)據(jù)的存儲,傳輸,識別,可視化等一系列工作,從而為癌癥的診斷,精準(zhǔn)治療提供基礎(chǔ),見圖2。
4展望
現(xiàn)階段國內(nèi)醫(yī)療大數(shù)據(jù)的研究與應(yīng)用已經(jīng)落后于其他行業(yè),既有醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,獲取困難,數(shù)據(jù)質(zhì)量差等客觀因素,而研究人員對醫(yī)學(xué)信息自身的理解,對將醫(yī)學(xué)問題與新興技術(shù)結(jié)合的能力,對學(xué)科交叉的認(rèn)識都存在不足。
解決上述問題,需要以高質(zhì)量的臨床數(shù)據(jù)和生命科學(xué)數(shù)據(jù)為核心,以行為數(shù)據(jù),診療費用數(shù)據(jù)為輔助結(jié)合大數(shù)據(jù)技術(shù)開展部分示范性的工作,引導(dǎo)醫(yī)療大數(shù)據(jù)從科研到應(yīng)用的轉(zhuǎn)變。
參考文獻(xiàn):
[1]汪鵬,吳昊,羅陽,等.醫(yī)療大數(shù)據(jù)應(yīng)用需求分析與平臺建設(shè)構(gòu)想[J].中國醫(yī)院管理,2015,35(6).
[2]尹聰穎.國家衛(wèi)生信息化\"十二五\"規(guī)劃從\"35212\"變成\"36312\"[N].中國數(shù)字醫(yī)療網(wǎng),2013,09,04.
[3]羅旭,劉友江.醫(yī)療大數(shù)據(jù)研究現(xiàn)狀及其臨床應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2015,36(5).
[4]李學(xué)滄,白雪峰,劉躍娟,等.異常醫(yī)療行為識別研究[J].智慧健康,2015,1(2).
[5]樓磊磊.醫(yī)療保險數(shù)據(jù)異常行為檢測算法和系統(tǒng)[D].浙江大學(xué),2015.
[6]樊志文.顧客消費行為預(yù)測--基于RFM與灰色GM(1,1)模型的研究[J].經(jīng)營與管理,2015,2.
[7]杜春娥.O2O模式下餐飲外賣市場大學(xué)生消費群分析--基于河北師范大學(xué)的實證研究[J].新聞知識,2015,04.
[8]張軍,盧煜明.血漿(清)游離核酸的臨床應(yīng)用[J].臨床檢驗雜志,2002(20).
[9]季修慶,林穎,胡平,等.無創(chuàng)產(chǎn)前基因檢測在血清學(xué)篩查結(jié)果為高風(fēng)險的非高齡孕婦中的應(yīng)用[J].臨床檢驗雜志,2015(02).
[10]陳長仁,何發(fā)忠,周宏灝,等.精準(zhǔn)醫(yī)學(xué)的基礎(chǔ)研究與臨床轉(zhuǎn)化[J].中國藥理學(xué)通報,2015(12).
[11]童慶,張敬誼,佘盼,等.基于大數(shù)據(jù)醫(yī)療健康信息化服務(wù)平臺研究[J].計算機(jī)科學(xué),2014,10(10).
編輯/孫杰