王 瀟,張愛迪,嚴 謹
大數(shù)據(jù)在醫(yī)療衛(wèi)生中的應用前景
王 瀟,張愛迪,嚴 謹
大數(shù)據(jù)是近年來的一個技術熱點,隨著衛(wèi)生信息化建設進程的不斷加快,醫(yī)療衛(wèi)生領域也進入了 “大數(shù)據(jù)時代”。本文對最近幾年國內外大數(shù)據(jù)相關的研究成果進行回顧和總結,概述了大數(shù)據(jù)的定義、研究意義,并介紹了大數(shù)據(jù)在醫(yī)療衛(wèi)生領域中的應用前景及面臨的主要挑戰(zhàn),以期為進一步研究提供參考。
大數(shù)據(jù);醫(yī)療衛(wèi)生;應用前景
王瀟,張愛迪,嚴謹 .大數(shù)據(jù)在醫(yī)療衛(wèi)生中的應用前景 [J].中國全科醫(yī)學,2015,18(1):113-115. [www.chinagp.net]
Wang X,Zhang AD,Yan J.Application prospects of big data in healthcare[J].Chinese General Practice,2015,18 (1):113-115.
近年來,大數(shù)據(jù)引起了產(chǎn)業(yè)界、科技界和 政 府 部 門的高度 關注。2008年《Nature》出版專刊 “Big Data”[1],2011年 《Science》也推出關于數(shù)據(jù)處理的專刊 “Dealing with data”[2],2012年 3月奧巴馬宣布美國政府投資 2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”[3]。美國政府認為大數(shù)據(jù)是 “未來的新石油”,必將給未來的科技與經(jīng)濟發(fā)展帶來深遠的影響,并將“大數(shù)據(jù)研究”上升為國家意志。同樣,醫(yī)療衛(wèi)生領域也迎來了自己的“大數(shù)據(jù)時代”,其中重要的發(fā)展包括在藥物研發(fā)中使用基因數(shù)據(jù),臨床實驗數(shù)據(jù)的共享,電子病歷系統(tǒng) (EMRs)的廣泛使用以及醫(yī)療保險、患者登記和社會媒體中的數(shù)據(jù)使用等[4]。人們越來越關注大數(shù)據(jù)在醫(yī)療衛(wèi)生領域的診療、科研、管理和教學等方面的作用。本文將從大數(shù)據(jù)的定義和意義、在醫(yī)療領域的應用前景、現(xiàn)狀及面臨的挑戰(zhàn)等方面,對大數(shù)據(jù)進行綜述。
1.1 大數(shù)據(jù)的定義 目前,對于大數(shù)據(jù)的定義尚未達成共識。李國杰等[3]認為大數(shù)據(jù)是指無法在可容忍的時間內用傳統(tǒng)IT技術和軟硬件工具對其進行感知、獲取、管理、處理和服務的數(shù)據(jù)集合。孟小峰等[5]則認為,不同的定義基本是對大數(shù)據(jù)特征的闡述和歸納,即認為大數(shù)據(jù)滿足3個V的特點:規(guī)模性 (volume)、多樣性 (variety)和高速性 (velocity)[6]。也有一些學者提出將價值性 (value)作為第四個V[7]。因此工程師們必須改進處理數(shù)據(jù)的工具,這導致了新的處理技術的誕生,例如 MapReduce和開源Hadoop平臺。大數(shù)據(jù)也是一次思維上的變革,主要包括:要全體數(shù)據(jù)不要抽樣,要效率不要絕對精確,要相關不要因果[8]。
1.2 大數(shù)據(jù)的意義 大數(shù)據(jù)的核心意義是預測。谷歌對美國人每天頻繁檢索的搜索詞條進行數(shù)據(jù)挖掘,基于其中45個檢索詞組合的一個數(shù)學模型可以準確預測流感,其預測結果與官方數(shù)據(jù)的相關性達到97%[8-9]。Farecast公司開發(fā)出了一個機票價格預測系統(tǒng),其票價預測準確度超過75%[9]。
大數(shù)據(jù)已經(jīng)成為一種新型戰(zhàn)略資源,其潛在價值和增長速度正在改變著人類的工作、生活和思維方式[10]。但是大數(shù)據(jù)并不能主宰一切,大數(shù)據(jù)能夠發(fā)現(xiàn) “是什么”,而不能說明 “為什么”;大數(shù)據(jù)能夠發(fā)現(xiàn)大趨勢和規(guī)律,而不能發(fā)生顛覆性的創(chuàng)新;大數(shù)據(jù)能夠提供貼切的服務,而不能創(chuàng)造新需求[9]。
大數(shù)據(jù)已經(jīng)被成功地應用于天文學(斯隆數(shù)字巡天望遠鏡數(shù)據(jù))、零售行業(yè)(沃爾瑪巨量的交易量)、搜索引擎 (谷歌的個人定制搜索)等領域[11],而在醫(yī)療領域中的應用卻遠遠落后。本文就大數(shù)據(jù)在疾病預防、疾病診療、醫(yī)藥研發(fā)和評價3個方面的應用前景進行論述。
2.1 疾病預防方面 大數(shù)據(jù)可以使研究者比之前任何時候都更加了解健康及其影響因素。據(jù)估計,只有 10%~15%的健康影響因素已被醫(yī)療服務提供者所測定,剩下的85%~90%的影響因素,包括健康行為、遺傳因素、自然和社會經(jīng)濟環(huán)境等均未被測定[12]。大數(shù)據(jù)可以將傳統(tǒng)的健康數(shù)據(jù) (如醫(yī)療記錄、家族史等)與其他來源的個人數(shù)據(jù) (如收入、教育、飲食習慣、娛樂方式等)聯(lián)系起來,利用大數(shù)據(jù)技術對健康危險因素進行比對關聯(lián)分析。通過對不同區(qū)域、人群進行評估,遴選健康相關危險因素,制作健康監(jiān)測評估圖譜和知識庫,并提出有針對性的干預計劃,以促進居民健康水平的提高[13]。利用大數(shù)據(jù)將臨床信息和醫(yī)療系統(tǒng)外的數(shù)據(jù)來源結合,可以顯著提高醫(yī)療和健康服務。而且,利用這種基于社會和醫(yī)療數(shù)據(jù)、直接針對最適宜人群的方式實施的干預措施將會更加直接、有效。
大數(shù)據(jù)還可以連續(xù)整合和分析公共衛(wèi)生數(shù)據(jù),提高疾病預報和預警能力,防止疫情爆發(fā)。在甲型H1N1流感全球航空傳播與早期預警研究中,常超一等[14]結合各地的航空可達性,整合多種來源的數(shù)據(jù),從多角度、多層次、全方位開展分析,對甲型 H1N1流感的流行病學特征、空間分布以及航空旅行擴散進行了探索性的分析、估計和預測。紐約西奈山醫(yī)療中心采用了一種預測模型,能夠有效地針對高風險患者,將其30 d內再入院率從30%降到12%,且急診就診率(3個月以上)也降低了63%[15]。
目前,一些裝置利用大數(shù)據(jù)將疾病的監(jiān)測也提升到了一個新的等級。例如,Asthmapolis公司研發(fā)了一種追蹤器,能夠記錄哮喘患者吸入器的使用,將信息傳輸?shù)街醒霐?shù)據(jù)庫,用來了解個人、團體和人群的流行趨勢。這些數(shù)據(jù)還會與疾病預防控制中心的哮喘危險因素數(shù)據(jù)結合,用以幫助患者制定個性化的預防、治療計 劃[16]。
2.2 疾病診療方面 大數(shù)據(jù)可以幫助醫(yī)生為患者提供高質量、有效而低成本的治療方式。安大略理工大學的卡羅琳·麥格雷戈博士和其研究隊伍與IBM合作,采用軟件來監(jiān)測處理即時的患者信息,實施對早產(chǎn)兒的病情診斷,在明顯感染癥狀出現(xiàn)的24 h之前,系統(tǒng)就能監(jiān)測到早產(chǎn)兒身體發(fā)出的感染信號[8]。凱薩醫(yī)療機構研發(fā) 出一 種新 的信 息系 統(tǒng) (Health Connect),用來確保醫(yī)療設施的數(shù)據(jù)交換和促進電子健康檔案系統(tǒng) (EHRs)的使用。據(jù)估計,這個系統(tǒng)能改善心血管疾病的治療效果,并且節(jié)省大約10億美元的醫(yī)療資源[16]。
大數(shù)據(jù)對循證醫(yī)學也有著巨大的作用。將個人數(shù)據(jù)集加入大數(shù)據(jù)算法能為循證醫(yī)學提供最堅實的證據(jù),發(fā)現(xiàn)小樣本無法發(fā)現(xiàn)的細微差別,為醫(yī)生提供最新的證據(jù),指導臨床實踐。紀念斯隆-凱特琳癌癥中心和沃森超級計算機合作,利用60萬份醫(yī)療證據(jù),150萬條患者記錄以及腫瘤研究領域中42種醫(yī)療雜志和臨床試驗的200萬頁文本數(shù)據(jù),研發(fā)出一種治療決策工具。利用大數(shù)據(jù),沃森可以現(xiàn)場為醫(yī)療工作者提供治療建議,與沃森一起工作的護士,有約90%采納了其建議[17]。
此外,大數(shù)據(jù)的分析能力還能將系統(tǒng)生物學數(shù)據(jù) (如基因、蛋白質、生物小分子的相關數(shù)據(jù))和電子健康病歷數(shù)據(jù)結合,使基因測序、個性化藥物及個人健康管理等個性化醫(yī)療變成臨床實踐[18]。例如,韓國生物醫(yī)學中心就計劃運行國家DNA管理系統(tǒng),將DNA和患者醫(yī)療數(shù)據(jù)結合,為患者提供個性化的診斷和治療[19]。
2.3 醫(yī)藥研發(fā)和評價方面 利用大數(shù)據(jù)改善治療措施的同時,也能提高制藥公司研發(fā)的效率、促進其研發(fā)出能夠獲得更好療效的個性化藥物。醫(yī)藥機構在新藥研發(fā)階段,能夠通過大數(shù)據(jù),分析公眾的藥品需求趨勢,確定更為有效率的投入產(chǎn)出比,合理配置資源[13]。此外,研究者也能夠以一種整體的方式,評估來自基因組學、蛋白質組學、代謝組學與臨床試驗等數(shù)據(jù),從而更快、更準確地研究個性化的治療方法[20]。
大數(shù)據(jù)還能夠縮短藥物的上市時間,增加其臨床試驗的成功率。例如在中藥上市后,可以利用大數(shù)據(jù)整合上市后各研究階段可獲得的所有數(shù)據(jù) (包括Ⅳ期臨床試驗數(shù)據(jù)、被動監(jiān)測數(shù)據(jù)、主動監(jiān)測數(shù)據(jù)、醫(yī)療數(shù)據(jù)和文獻數(shù)據(jù)等),進行多角度、多層次、全方位的分析,更有利于全面把握所上市中藥的安全性、有效性和經(jīng)濟性,從而為臨床合理用藥提供更有價值的參考[21]。美國食品與藥品管理局也計劃使用大數(shù)據(jù)方法,通過綜合和追蹤包括科研人員和消費者、出版物、制造、廣告、藥房、和促銷支出等多種來源的數(shù)據(jù),調查藥品核準標示外的市場銷售[4]。
3.1 技術方面的挑戰(zhàn) 傳統(tǒng)意義上的數(shù)據(jù)分析主要針對結構化數(shù)據(jù)展開,且已經(jīng)形成了一整套行之有效的分析體系,這一套處理流程在處理相對較少的結構化數(shù)據(jù)時極為高效。但是隨著大數(shù)據(jù)時代的到來,半結構化和非結構化數(shù)據(jù)量迅猛增長,給傳統(tǒng)的分析技術帶來了巨大的沖擊和挑戰(zhàn)。此外,一些國家的醫(yī)療系統(tǒng)已經(jīng)通過政府和其他機構,準許使用醫(yī)療系統(tǒng)中的患者數(shù)據(jù)。例如,丹麥的政府準許研究者獲取1970年到現(xiàn)在患者的匿名數(shù)據(jù)(包括健康指標和住院數(shù)據(jù))[4]。為了形成對疾病或患患者群的整體觀,連續(xù)收集同一數(shù)據(jù) (縱向數(shù)據(jù))和結合多種類型的數(shù)據(jù) (如不同患者的EMRs、社會人口學資料、醫(yī)保數(shù)據(jù)等)都是非常必要的。而數(shù)據(jù)的廣泛存在性使得數(shù)據(jù)越來越多地以不同的形式,散布于不同的系統(tǒng)和平臺中。醫(yī)療大數(shù)據(jù)除了大數(shù)據(jù)所具有的“4V”特征外,還具有多態(tài)性、不完整性、時間性及冗余性等特征[22]。為了便于進行數(shù)據(jù)分析,需要解決數(shù)據(jù)的異構性、數(shù)據(jù)的質量問題,各方面產(chǎn)生的大數(shù)據(jù)有待進行有效的整合。
3.2 隱私和權利保護 醫(yī)學數(shù)據(jù)不可避免地會涉及患者的隱私問題,包括病情、個人信息甚至基因、蛋白數(shù)據(jù)等,一旦泄露,可能會使患者的日常生活遭到不可預料的侵擾。美國醫(yī)學會的醫(yī)學倫理原則指出,只有醫(yī)生或為患者提供咨詢、治療、診斷等服務的專業(yè)人員,才能使用患者機密的醫(yī)療信息,其他人必須要在獲得患者明確的同意后才可使用。但研究者都認為這種方法既費時又會增加成本,甚至在基于人口學資料進行分組時,不同分組的數(shù)據(jù)來源會基于患者的傾向,影響研究結果。目前,一些專家認為在將數(shù)據(jù)加入到大數(shù)據(jù)庫之前,通過電腦程序將患者能夠被識別的信息從醫(yī)療記錄中去除可以克服這個問 題[12,17]。然而,由 于 缺乏識 別 信息,其他數(shù)據(jù)將無法和研究樣本整合,不能進行某類人群大范圍的研究。而且去識別化過程本身需要處理可識別的信息,可能使患者信息在沒有經(jīng)過知曉、同意和授權的情況下被其他人使用[23]。此外,在現(xiàn)在的法律框架下,與去識別信息有關的研究也不受人體試驗研究相關規(guī)定約束、不受政府隱私法規(guī)的保護,類似基因信息等一些數(shù)據(jù)也很難做到合適的去識別 化[12]。
大數(shù)據(jù)時代無疑會對醫(yī)療衛(wèi)生領域產(chǎn)生巨大影響和推動,它可以揭露健康的影響因素,將最適合的治療方式提供給個人或群體;能夠促進新的發(fā)現(xiàn),優(yōu)化治療結果和削減開支。大數(shù)據(jù)也會通過數(shù)據(jù)的開放,將醫(yī)療信息直接傳遞給患者,從而改變目前將患者的記錄儲存在醫(yī)療機構,置患者于被動位置的模式??梢灶A見在不久的將來,患者也會越來越多地參與到自己的健康管理中,并在其中占主導地位。然而大數(shù)據(jù)研究是一個近幾年來新興的、正在快速發(fā)展的技術,尤其是在醫(yī)療行業(yè)的應用,將會面臨更多的挑戰(zhàn)。為了實現(xiàn)大數(shù)據(jù)的價值,醫(yī)療行業(yè)需要提高數(shù)據(jù)的標準化和互用性,促進信息的共享,建立有效的數(shù)據(jù)管理方式,改進分析技術和方法,培 養(yǎng)數(shù)據(jù)分 析專業(yè)人 才[12]???之,要解決醫(yī)療大數(shù)據(jù)問題仍有很長的路要走,期望本文的介紹能給研究醫(yī)療大數(shù)據(jù)方面的同行學者提供一些參考。
[1]Lunch C.Big data:How do your data grouw?[J].Nature,2008,455(7209):28-29.
[2]Kum HC,Ahalt S,Carsey TM.Dealing with data: governments records[J]. Science,2011,332(6035):1263.
[3]LiGJ,Cheng XQ.Research status and scientific thinking of big data[J].Bulletin of the Chinese Academy of Sciences,2012,27 (6):647-657.(in Chinese)李國杰,程學旗 .大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領域——大數(shù)據(jù)的研究現(xiàn)狀與科學思考 [J].中國科學院院刊,2012,27(6):647-657.
[4]Szlezak N,Evers M,Wang J,et al.The role of big data and advanced analytics in drug discovery, development, and commercialization [J]. Clin Pharmacol Ther,2014,95(5):492-495.
[5]Meng XF,Ci X.Big data management:concepts,techniques and challenges[J]. Journal of Computer Research and Development,2013,50(1):146-169.(in Chinese)孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術與挑戰(zhàn) [J].計算機研究與發(fā)展,2013,50(1):146-169.
[6]Bryant R,Katz R H,Lazowska E D.Big-Data Computing: Creating Revolutionary Breakthroughs in Commerce[J].Science and Society.2008,(8):1-15
[7]Barwick H.The“four Vs”of Big Data. Implementing Information Infrastructure Symposium[EB/OL].[2012-10-02]. http://www.computerworld.com.au/article/ 396198/iiis_four_vs_big_data.
[8]Schonberger MV,Cukier K.大數(shù)據(jù)時代[M].盛楊燕,周濤,譯.浙江:浙江人民出版社,2013:9.
[9] Chen H,Deng B.Enlightenment and exploration of big data [J]. China Information Security,2013,35(7):48-49.(in Chinese)陳暉,鄧赟.大數(shù)據(jù)的啟示與探討[J].信息安全與通信保密,2013,35(7):48 -49.
[10]Manyika,James,et al.Big data:The next frontier for innovation,competition.and productivity [R ]. Technical report, McKinsey Global Institute,2011.
[11]Murdoch TB,Detsky AS.The inevitable application of big data to health care[J]. JAMA,2013,309(13):1351-1352.
[12]EL-EMAM,Khaled,et al.A Policy Forum on the Use of Big Data in Health Care.Bipartisan Policy Center.[2013-12- 3] .http://bipartisanpolicy.org/ library/research/policy-forum-use-big -data-health-care.
[13]Zhou GH,Xin Y,Zhang YJ,et al. Study on big data′s applications in medical and health field[J].Chinese Journal of Health Informatics and Management,2013,10(4):296-304.(in Chinese)周光華,辛英,張雅潔,等.醫(yī)療衛(wèi)生領域大數(shù)據(jù)應用探討 [J].中國衛(wèi)生信息管理雜志,2013,10(4):296-304.
[14]Chang CY,Cao CX,Wang Q,et al.The novel H1N1 influenza a global airline transmission and early warning without travel containments [J]. Chinese Science Bulletin,2010,61(12):1128-1133. (in Chinese)常超一,曹春香,王橋,等.H1N1甲型流感全球航空傳播與早期預警研究[J].科學通報,2010,61(12):1128 -1133.
[15]Karen Minich-Pourshadi.Predictive Modeling Options to Cut Preventable Admissions.Health Leaders Media.[2012-4-13].http:// www.healthleadersmedia.com/print/MAG -278902/Predictive-Modeling-Options-to-Cut-Preventable-Admissions.
[16]Groves P,Kayyali B,Knott D,et al. The′big data′revolution in healthcare. McKinsey Quarterly[2013-1-15]. http://www. payerfusion. com/wp -content/uploads/2014/02/The_big_data _revolution_in_healthcare-1.pdf.
[17]Ward JC.Oncology Reimbursement in the Era of Personalized Medicine and Big Data [J].Journal of Oncology Practice,2014,10(2):83-86.
[18]Xu DQ,Yang HQ.The application of big data healthcare personalized service[J]. Chinese Journal of Health Informatics and Management,2013,10(4):301-304. (in Chinese)許德泉,楊慧清 .大數(shù)據(jù)在醫(yī)療個性化服務中的應用 [J].中國衛(wèi)生信息管理雜志,2013,10(4):301-304.
[19]Jee K,Kim GH.Potentiality of big data in the medical sector:focus on how to reshape the healthcare system[J].Healthc Inform Res,2013,19(2):79-85.
[20]Deyati A,Younesi E,Hofmann-Apitius M,et al.Challenges and opportunities for oncology biomarker discovery[J].Drug Discov Today,2013,18(13-14):614 -624.
[21]王永炎,謝雁鳴,王志飛.大數(shù)據(jù)時代中藥上市后數(shù)據(jù)的整合與應用 [J].中國中藥雜志,2013,59(18):2917-2918.
[22]Gao HS,Sang ZQ.Big data lifecycle and governance in medical industry [J]. Journal of Medical Informatics,2013(9):7-11.(in Chinese)高漢松,桑梓勤 .醫(yī)療行業(yè)大數(shù)據(jù)生命周期及治理 [J].醫(yī)學信息學雜志,2013,35(9):7-11.
[23]Rothstein MA.Is deidentification sufficient to protect health privacy in research?[J]. Am J Bioeth,2010,10(9):3-11.
Application Prospects of Big Data In Healthcare
WANG Xiao,ZHANG Ai-di,YAN Jin.Nursing School Of Central South University,Changsha 410013,China
Big data is a technical hot point recently.With the rapid development of hygienic information construction,medical health field has already entered into"big data era".This article reviews related research results at home and abroad lately and summarizes the definition and research significance of big data and finally introduces the application prospect and main challenges of the big data in hopes of providing useful references for further research.
Big data;Healthcare;Application prospects
R 197
B
10.3969/j.issn.1007-9572.2015.01.028
2014-06-23;
2014-09-27)
(本文編輯:王鳳微)
410013湖南省長沙市,中南大學護理學院 (王瀟,張愛迪);中南大學湘雅三醫(yī)院護理部 (嚴謹)
嚴謹,410013湖南省長沙市,中南大學湘雅三醫(yī)院護理部;
E-mail:yanjin0163@163.com