健康大數(shù)據(jù)在公共衛(wèi)生領(lǐng)域中的應(yīng)用與挑戰(zhàn)
孟潤(rùn)堂,羅藝,宇傳華,邱杰,周達(dá)
作者單位:430071湖北省武漢市,武漢大學(xué)公共衛(wèi)生學(xué)院(孟潤(rùn)堂,宇傳華);寧波衛(wèi)生職業(yè)技術(shù)學(xué)院護(hù)理學(xué)院(羅藝);武漢大學(xué)全球健康研究中心(宇傳華);湖北省衛(wèi)生計(jì)生信息中心(邱杰,周達(dá))
通信作者:宇傳華,430071湖北省武漢市,武漢大學(xué)公共衛(wèi)生學(xué)院,武漢大學(xué)全球健康研究中心;E-mail:yuchua@163.com
【摘要】隨著衛(wèi)生信息化建設(shè)進(jìn)程的提速,醫(yī)療衛(wèi)生與大數(shù)據(jù)正發(fā)生激烈“碰撞”,交叉形成了健康大數(shù)據(jù)這一新興概念,健康大數(shù)據(jù)必將對(duì)未來(lái)民眾健康產(chǎn)生深遠(yuǎn)影響。本文介紹了健康大數(shù)據(jù)的基本概念和特點(diǎn),簡(jiǎn)要闡明了健康大數(shù)據(jù)的處理相關(guān)技術(shù),重點(diǎn)闡述了健康大數(shù)據(jù)在疾病預(yù)測(cè)與預(yù)防、循證公共衛(wèi)生決策、健康管理、健康監(jiān)測(cè)與個(gè)性化醫(yī)療服務(wù)等方面的應(yīng)用,指出了健康大數(shù)據(jù)當(dāng)前所面臨的諸如醫(yī)學(xué)倫理學(xué)、關(guān)鍵技術(shù)突破、“誤差”甄別等方面的挑戰(zhàn)。以期為更好地推動(dòng)大數(shù)據(jù)在公共衛(wèi)生領(lǐng)域中的應(yīng)用發(fā)揮積極指導(dǎo)作用。
【關(guān)鍵詞】數(shù)據(jù)挖掘;公共衛(wèi)生信息學(xué);健康大數(shù)據(jù)
基金項(xiàng)目:湖北省衛(wèi)計(jì)委2014年“湖北省人口健康信息平臺(tái)相關(guān)管理規(guī)范研究”子課題;湖北省衛(wèi)計(jì)委“衛(wèi)生計(jì)生統(tǒng)計(jì)工作規(guī)范研究”
【中圖分類(lèi)號(hào)】R-056
收稿日期:(2015-06-20;
孟潤(rùn)堂,羅藝,宇傳華,等.健康大數(shù)據(jù)在公共衛(wèi)生領(lǐng)域中的應(yīng)用與挑戰(zhàn)[J].中國(guó)全科醫(yī)學(xué),2015,18(35):4388-4392.[www.chinagp.net]
Meng RT,Luo Y,Yu CH,et al.Application and challenges of healthy big data in the field of public health[J].Chinese General Practice,2015,18(35):4388-4392.
Application and Challenges of Healthy Big Data in the Field of Public HealthMENGRun-tang,LUOYi,YUChuan-hua,etal.SchoolofPublicHealth,WuhanUniversity,Wuhan430071,China
Abstract【】With the speeding process of medical health informatization construction,"Fierce Collision" occurs between public health and big data,forming an emerging concept which is healthy big data.It will produce a profound influence on people′s health in the future.This paper introduced the basic concepts and characteristics of healthy big data,briefly described the correlative technique of processing healthy big data in the area of public health,emphasized on the prediction and prevention of disease,evidence-based decision-making in public health,health management,health monitoring,personalized medical service and other aspects,and pointed out the main challenges,such as medical ethics,key technology breakthroughs,"errors" identification and so on,with a view to better promote big data application to play a positive guiding role in public health.
【Key words】Data mining;Public health informatics;Healthy big data
大數(shù)據(jù)正在改變?nèi)藗兊纳罴袄斫馐澜绲姆绞?,且更多的改變正蓄?shì)待發(fā)[1]。2012-03-22,奧巴馬政府宣布投資2億美元拉動(dòng)大數(shù)據(jù)相關(guān)產(chǎn)業(yè)發(fā)展,將“大數(shù)據(jù)戰(zhàn)略”上升為國(guó)家戰(zhàn)略,認(rèn)為大數(shù)據(jù)為“未來(lái)的新石油”。2014-03-05,“大數(shù)據(jù)”首次進(jìn)入我國(guó)政府工作報(bào)告;2014-11-15,李克強(qiáng)總理提出在疾病防治、災(zāi)害預(yù)防、社會(huì)保障、電子政務(wù)等領(lǐng)域開(kāi)展大數(shù)據(jù)應(yīng)用示范。2015-08-19,國(guó)務(wù)院通過(guò)《關(guān)于促進(jìn)大數(shù)據(jù)發(fā)展的行動(dòng)綱要》(簡(jiǎn)稱(chēng)《綱要》),在全社會(huì)引起廣泛影響?!犊茖W(xué)》雜志于2014年底和2015年初分別刊登了“公共衛(wèi)生遇上了大數(shù)據(jù)”和“將大數(shù)據(jù)納入公共衛(wèi)生系統(tǒng)[2-3]”兩篇文章,指出“強(qiáng)大的流行病學(xué)基礎(chǔ)、穩(wěn)健的知識(shí)整合、循證醫(yī)學(xué)原
圖1 大數(shù)據(jù)的4V特點(diǎn)
注:虛線框表示數(shù)據(jù)搜集過(guò)程可以簡(jiǎn)化省略,如自由自愿貢獻(xiàn)數(shù)據(jù)的眾包(CrowdSouring)搜集形式;SQL=關(guān)系數(shù)據(jù)庫(kù),NoSQL=非關(guān)系數(shù)據(jù)庫(kù),HDFS= Hadoop分布式文件系統(tǒng);HBASE=Hadoop Database,是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng)
圖2大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)
Figure 2Technology framework of big data
則以及拓展的轉(zhuǎn)化研究議程”可以推動(dòng)大數(shù)據(jù)在公共衛(wèi)生方面的應(yīng)用,這些均預(yù)示著公共衛(wèi)生大數(shù)據(jù)研究的春天即將來(lái)臨。大數(shù)據(jù)給人們帶來(lái)的最直接利益就是對(duì)未來(lái)的預(yù)見(jiàn),其可指導(dǎo)民眾規(guī)避健康風(fēng)險(xiǎn)、預(yù)防疾病、提升生命質(zhì)量。我國(guó)作為世界人口基數(shù)最大國(guó),具有其他國(guó)家難以比擬的基礎(chǔ)數(shù)據(jù)優(yōu)勢(shì),海量公共衛(wèi)生大數(shù)據(jù)亟待挖掘、整合、利用。
1概念與特點(diǎn)
“大數(shù)據(jù)”是指成批大規(guī)模的、復(fù)雜的、可鏈接的數(shù)據(jù)信息。除基因組學(xué)信息外,還包括醫(yī)療信息、環(huán)境信息、金融信息、地理信息和社會(huì)媒體信息等[2]。健康大數(shù)據(jù)是與維持機(jī)體健康或引起機(jī)體發(fā)生疾病/亞健康狀態(tài)有關(guān)聯(lián)的生活行為方式、遺傳、社會(huì)環(huán)境因素及醫(yī)療過(guò)程中可以測(cè)量記錄的數(shù)據(jù)信息,涉及某地區(qū)的所有人群。基于健康大數(shù)據(jù)可對(duì)全人群進(jìn)行健康測(cè)量與評(píng)價(jià),以形成正確的干預(yù)措施,促進(jìn)人群健康。
大數(shù)據(jù)的特點(diǎn)可總結(jié)為海量(Volume)、多樣(Variety)、快速(Velocity)、價(jià)值(Value)4個(gè)V[4-5],即大、雜、快、疑等四個(gè)特點(diǎn),具體解釋見(jiàn)圖1。
2相關(guān)技術(shù)
大數(shù)據(jù)作為一種基礎(chǔ)性資源,被處理后才能顯現(xiàn)其潛在價(jià)值,那么如何更好地處理和利用大數(shù)據(jù)就顯得非常重要。傳統(tǒng)數(shù)據(jù)分析包括聚類(lèi)分析、因子分析、相關(guān)分析、回歸分析、數(shù)據(jù)挖掘算法等方法,通過(guò)挖掘、萃取、提煉以及整合數(shù)據(jù),以最大化發(fā)揮數(shù)據(jù)的效用。
在分析大數(shù)據(jù)時(shí)傳統(tǒng)數(shù)據(jù)分析方法依然適用[6],但在處理較大規(guī)模的數(shù)據(jù)集時(shí),效率跟不上用戶預(yù)期,且處理非結(jié)構(gòu)和半結(jié)構(gòu)化復(fù)雜數(shù)據(jù)時(shí)面臨一定困難。為了解決上述大數(shù)據(jù)問(wèn)題,需采用非關(guān)系數(shù)據(jù)庫(kù)(NoSQL)及云計(jì)算、云存儲(chǔ)技術(shù)[7-8]。如果數(shù)據(jù)是財(cái)富,那么大數(shù)據(jù)就是寶藏,而云計(jì)算就是挖掘和利用寶藏的利器。云計(jì)算的模式是業(yè)務(wù)模式,本質(zhì)是數(shù)據(jù)的并行、分布式處理技術(shù)。數(shù)據(jù)是資產(chǎn),云為數(shù)據(jù)資產(chǎn)提供存儲(chǔ)、訪問(wèn)和計(jì)算。
在生物醫(yī)學(xué)與健康研究中,Hadoop是可靠、高效、可伸縮的分布式處理軟件框架,在目前大數(shù)據(jù)挖掘中最受歡迎且應(yīng)用廣泛[9]。Map Reduce則是一種可以用來(lái)并行處理大數(shù)據(jù)的編程模型,同一程序在Hadoop的框架下可以用各種不同語(yǔ)言(Java,Ruby,Python等)按Map Reduce的編程模型進(jìn)行編寫(xiě)和運(yùn)行。
大數(shù)據(jù)是一種新現(xiàn)象和新理念,是近年研究的一個(gè)技術(shù)熱點(diǎn)。大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)別見(jiàn)表1。大數(shù)據(jù)技術(shù)被設(shè)計(jì)用于在成本可承受的條件下,通過(guò)非常快速的搜集、存儲(chǔ)、整理、分析,從海量、多樣的數(shù)據(jù)中提取價(jià)值。其大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)見(jiàn)圖2。
3應(yīng)用領(lǐng)域
目前,大數(shù)據(jù)在若干領(lǐng)域的運(yùn)用中取得了較大成功,如天文學(xué)(斯隆數(shù)字巡天望遠(yuǎn)鏡)、零售業(yè)(沃爾瑪巨額交易量)、搜索引擎(Google基于已有網(wǎng)絡(luò)數(shù)據(jù)的個(gè)人定制搜索),以及政治競(jìng)選(關(guān)
表1大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)特征比較
Table 1Characteristics comparison between big data and traditional data
特征大數(shù)據(jù)傳統(tǒng)數(shù)據(jù)數(shù)據(jù)容量不斷增長(zhǎng)中(TB、PB、ZB……)MB、GB處理時(shí)效非常迅速(以s為單位)較慢(以h或d為單位)數(shù)據(jù)結(jié)構(gòu)半結(jié)構(gòu)或非結(jié)構(gòu)化結(jié)構(gòu)化數(shù)據(jù)來(lái)源完全分布式、云存儲(chǔ)中心式數(shù)據(jù)整合比較困難相對(duì)容易存儲(chǔ)架構(gòu)Hadoop分布式文件系統(tǒng)(HDFS),非關(guān)系數(shù)據(jù)庫(kù)(NoSQL)關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)接入方式批處理或接近實(shí)時(shí)交互式分析對(duì)象全體數(shù)據(jù)樣本數(shù)據(jù)分析方法描述分析為主描述與推斷相結(jié)合分析結(jié)果關(guān)聯(lián)度、模式可信區(qū)間、P值
注競(jìng)選者最有可能基于網(wǎng)絡(luò)搜索他們的支持候選人)等[10],但在公共衛(wèi)生領(lǐng)域的應(yīng)用卻遠(yuǎn)遠(yuǎn)不足,這使得健康大數(shù)據(jù)有非常廣闊的應(yīng)用前景。
3.1疾病預(yù)測(cè)與預(yù)防健康大數(shù)據(jù)可以幫助人們更好地預(yù)測(cè)、預(yù)防疾病。據(jù)估計(jì),目前衛(wèi)生保健工作者能確定的健康影響因素只有10%~15%,剩下85%~90%(包括健康行為、遺傳、自然和社會(huì)經(jīng)濟(jì)環(huán)境因素等)尚未知曉[11]。一直以來(lái)預(yù)測(cè)未來(lái)疾病的發(fā)生極為困難,但利用大數(shù)據(jù)技術(shù),基于處方藥和非處方藥的銷(xiāo)售量、衛(wèi)生服務(wù)咨詢中心接到患者電話的數(shù)量和內(nèi)容、關(guān)鍵詞的點(diǎn)擊量或搜索次數(shù)、社交網(wǎng)絡(luò)瀏覽偏好等,使人群疾病預(yù)測(cè)成為可能。通過(guò)對(duì)全人群全程的信息跟蹤,Google 曾于2008 年底推出了一項(xiàng)大數(shù)據(jù)處理的“流感趨勢(shì)”應(yīng)用服務(wù),該服務(wù)通過(guò)搜索引擎對(duì)關(guān)鍵詞的監(jiān)測(cè),幫助人們了解美國(guó)境內(nèi)不同地區(qū)的流感病例爆發(fā)情況[12]。Gittelman等[13]利用Facebook上的“喜好”數(shù)據(jù),探討了潛在健康結(jié)局的影響因素及其行為原因。通過(guò)主成分分析法和回歸分析,控制年齡、種族、社會(huì)經(jīng)濟(jì)地位等變量后預(yù)測(cè)行為與健康狀況的關(guān)系,顯示“喜好”數(shù)據(jù)能提供更可靠、更及時(shí)和更具有成本-效益比的疾病預(yù)測(cè)結(jié)果,可作為傳統(tǒng)公共衛(wèi)生監(jiān)測(cè)系統(tǒng)的補(bǔ)充。美國(guó)北卡羅萊納州采用大數(shù)據(jù)技術(shù)開(kāi)發(fā)的綜合癌癥信息與監(jiān)測(cè)系統(tǒng)(Integrated Cancer Information and Surveillance System,ICISS),將不同的數(shù)據(jù)、方法和系統(tǒng)有機(jī)結(jié)合起來(lái),可從個(gè)人、健康服務(wù)商和地區(qū)衛(wèi)生服務(wù)機(jī)構(gòu)(如該州癌癥登記處、醫(yī)療保健、醫(yī)療救助、美國(guó)人口普查、疾控中心社區(qū)衛(wèi)生指標(biāo)和私人健康保險(xiǎn)計(jì)劃中心)等不同途徑,有效、及時(shí)、完整、準(zhǔn)確地收集、整合和更新腫瘤相關(guān)資料。該系統(tǒng)不僅促進(jìn)了人群腫瘤登記的發(fā)展,也為不同領(lǐng)域研究人員開(kāi)展基于人群的腫瘤研究提供了可能和便利[14]。通過(guò)人群健康大數(shù)據(jù)資料,可以實(shí)現(xiàn)疾病的預(yù)測(cè)與預(yù)防,減少重大疾病的發(fā)生和診療成本,全方位減緩疾病、促進(jìn)健康。
3.2循證公共衛(wèi)生決策浩如煙海的研究論文與研究報(bào)告蘊(yùn)含著大量數(shù)據(jù)、證據(jù)、評(píng)論和概要,利用大數(shù)據(jù)技術(shù)與方法可為循證公共衛(wèi)生決策提供準(zhǔn)確有效的支持。我國(guó)尚無(wú)獨(dú)立的、專(zhuān)業(yè)的循證公共衛(wèi)生決策數(shù)據(jù)庫(kù),目前主要依靠Cochrane 協(xié)作網(wǎng)的循證決策數(shù)據(jù)庫(kù)進(jìn)行循證決策研究,并于2005年參與了全球第一個(gè)循證衛(wèi)生決策網(wǎng)絡(luò)——亞洲循證衛(wèi)生決策網(wǎng)絡(luò)(EVIPNet-Asia)的建設(shè)[15]。近年來(lái),循證醫(yī)學(xué)的概念已經(jīng)深入人心,其理論和方法已滲透到衛(wèi)生決策和臨床實(shí)踐諸多方面,醫(yī)療衛(wèi)生決策逐漸受到重視,但是國(guó)內(nèi)循證公共衛(wèi)生意識(shí)仍然很微弱,循證公共衛(wèi)生思維難以形成,由于多種因素導(dǎo)致循證公共衛(wèi)生決策的研究非常少?!读~刀》上有文章指出,目前在中國(guó)推動(dòng)循證公共衛(wèi)生政策遇到的最大障礙是研究者和政策制定者之間在許多認(rèn)識(shí)上存在差異[16]。系統(tǒng)評(píng)價(jià)的最大特征就是可重復(fù)性,是通過(guò)系統(tǒng)搜索和整合的方法產(chǎn)生結(jié)果,其中整合的過(guò)程是采用定量整合分析來(lái)進(jìn)行。將個(gè)人數(shù)據(jù)集加入大數(shù)據(jù)能為循證醫(yī)學(xué)提供最堅(jiān)實(shí)的證據(jù),能發(fā)現(xiàn)小樣本無(wú)法發(fā)現(xiàn)的細(xì)微差別,為公共衛(wèi)生決策者提供最新證據(jù),指導(dǎo)衛(wèi)生政策的制定或臨床實(shí)踐。例如,某研究者將飲用咖啡的生活習(xí)慣對(duì)前列腺癌的影響進(jìn)行了劑量反應(yīng)關(guān)系的Meta 分析,結(jié)果表明:每天多飲2杯咖啡者患前列腺癌的風(fēng)險(xiǎn)降低了2.5%〔RR=0.975,95%CI(0.957,0.995)〕[17]。此外,美國(guó)華盛頓大學(xué)健康測(cè)量與評(píng)價(jià)研究所(IHME)進(jìn)行的全球疾病負(fù)擔(dān)(GBD)研究項(xiàng)目,是利用大數(shù)據(jù)對(duì)世界人群進(jìn)行全面健康測(cè)量與評(píng)價(jià)的最好案例,其數(shù)據(jù)庫(kù)來(lái)源廣泛(包括WHO、各國(guó)疾控中心、民政、統(tǒng)計(jì)、公安等部門(mén),醫(yī)療機(jī)構(gòu)以及專(zhuān)項(xiàng)調(diào)查等數(shù)據(jù))[18],可為政府合理分配衛(wèi)生資源、形成正確公共衛(wèi)生決策提供有價(jià)值的信息。但是,循證公共衛(wèi)生決策領(lǐng)域的研究多為觀察性研究或半試驗(yàn)性研究,從干預(yù)到結(jié)果出現(xiàn)的時(shí)間較長(zhǎng),且不可否認(rèn)存在隨機(jī)化不足或者不可行的問(wèn)題[19-20],在決策評(píng)價(jià)中通過(guò)引入工具變量、傾向評(píng)分匹配等方法,或者聯(lián)系相關(guān)領(lǐng)域?qū)<耀@取專(zhuān)業(yè)建議,將定性與定量研究相結(jié)合,可以使研究更為可信、可靠。國(guó)內(nèi)建立完善的、專(zhuān)業(yè)的循證公共衛(wèi)生決策數(shù)據(jù)庫(kù)還有相當(dāng)長(zhǎng)的路要走,不能因?yàn)樽C據(jù)不多或干預(yù)取得效果的時(shí)間長(zhǎng)而不去努力。利用大數(shù)據(jù)技術(shù)與方法無(wú)疑會(huì)加快循證公共衛(wèi)生決策數(shù)據(jù)庫(kù)建設(shè)的進(jìn)程。
3.3健康管理、健康監(jiān)測(cè)與個(gè)性化醫(yī)療服務(wù)利用健康大數(shù)據(jù)可以使研究者比以往任何時(shí)候都更好地對(duì)個(gè)體或人群進(jìn)行健康管理、健康監(jiān)測(cè),并對(duì)不同個(gè)體提供差異化的醫(yī)療服務(wù)。健康管理是對(duì)個(gè)體或群體的健康進(jìn)行全面的監(jiān)測(cè)、分析、評(píng)估,提供健康咨詢和指導(dǎo)以及對(duì)健康危險(xiǎn)因素進(jìn)行干預(yù)的全過(guò)程;健康檔案承載著各種形式的健康大數(shù)據(jù),并針對(duì)個(gè)體提供個(gè)體化健康管理服務(wù)[21]。目前健康大數(shù)據(jù)的重要來(lái)源主要有兩種,即電子健康檔案(Electronic Health Record,EHR)和電子病歷(Electronic Medical Record,EMR)[22-23],但不局限于以上兩種形式[21]。利用健康大數(shù)據(jù)技術(shù)與方法可將傳統(tǒng)的健康數(shù)據(jù)(如電子和紙質(zhì)病歷等)與其他來(lái)源的個(gè)人數(shù)據(jù)(如飲食、睡眠、鍛煉習(xí)慣、生活方式、社交媒體和休閑、收入、教育等)聯(lián)系起來(lái)進(jìn)行健康管理和監(jiān)測(cè)[21,24]。通過(guò)收集人體生理和行為的監(jiān)測(cè)數(shù)據(jù),積累構(gòu)成含有健康狀況和疾病風(fēng)險(xiǎn)重要信息的個(gè)體健康大數(shù)據(jù),上傳至云平臺(tái)。這些數(shù)據(jù)包括智能的生理生化及行為傳感器數(shù)據(jù)、求診咨詢用藥數(shù)據(jù)、瀏覽和討論數(shù)據(jù)、日常生活作息數(shù)據(jù)等。挖掘分析這些數(shù)據(jù)可以得到個(gè)人較為完整的健康狀態(tài)及疾病預(yù)警信息(尤其是針對(duì)個(gè)體在某一時(shí)期可能發(fā)生的重大疾病進(jìn)行預(yù)警),結(jié)合個(gè)人基因譜和完整病史數(shù)據(jù),將健康危險(xiǎn)因素進(jìn)行關(guān)聯(lián)比對(duì)分析,跟蹤病程進(jìn)展、判斷短期風(fēng)險(xiǎn)和長(zhǎng)期預(yù)后,能夠獲得比臨時(shí)求診更準(zhǔn)確的信息,從而進(jìn)行更有效、更個(gè)性化的臨床干預(yù)和健康指導(dǎo)。
健康監(jiān)測(cè)是對(duì)個(gè)人健康進(jìn)行全生命周期的管理,無(wú)論何時(shí)何地都可以訪問(wèn)相關(guān)信息,從而保證健康信息的完整性、連續(xù)性、實(shí)時(shí)性和預(yù)見(jiàn)性。例如微軟開(kāi)發(fā)的HealthVault網(wǎng)絡(luò)平臺(tái)健康云服務(wù)、蘋(píng)果開(kāi)發(fā)的HealthKit平臺(tái)以及內(nèi)置健康監(jiān)測(cè)功能的Apple Watch等。人群健康信息以個(gè)體電子健康檔案為載體轉(zhuǎn)譯進(jìn)入公共衛(wèi)生報(bào)告系統(tǒng)聚合成一定人口規(guī)模的健康大數(shù)據(jù)[25]。
個(gè)性化醫(yī)療服務(wù)的最大特點(diǎn)是在個(gè)人實(shí)施健康管理基礎(chǔ)上,通過(guò)對(duì)個(gè)人健康危險(xiǎn)因素進(jìn)行全面評(píng)估,制定具有差異化的健康促進(jìn)計(jì)劃。Map Reduce和Hadoop分布式系統(tǒng)應(yīng)用于臨床大數(shù)據(jù)處理和分析,給疾病診斷和個(gè)性化治療開(kāi)辟了新的途徑,被認(rèn)為是當(dāng)前醫(yī)學(xué)界的重大進(jìn)展[26]。如在腫瘤個(gè)性化治療方面,美國(guó)臨床腫瘤學(xué)會(huì)的“腫瘤學(xué)快速研究系統(tǒng)的多階段計(jì)劃(Cancer Lin Q)”使用可獲得的開(kāi)源和專(zhuān)有軟件,對(duì)1萬(wàn)例乳腺癌患者的電子病歷進(jìn)行22項(xiàng)專(zhuān)項(xiàng)評(píng)估,內(nèi)容包括10項(xiàng)腫瘤診療質(zhì)量倡議(quality oncology practice initiative,QOPI)及其在治療中應(yīng)用的循證治療方案。評(píng)估完成后,通過(guò)瀏覽和檢索病歷、產(chǎn)生假設(shè)、評(píng)價(jià)質(zhì)量,為臨床醫(yī)生實(shí)時(shí)提供循證信息和治療進(jìn)展,并確定臨床試驗(yàn)的參與資格,針對(duì)不同患者進(jìn)行差異化治療[27]。但是,利用大數(shù)據(jù)不能固定個(gè)性化醫(yī)療服務(wù),不能代替衛(wèi)生保健專(zhuān)業(yè)人員來(lái)解釋甚至簡(jiǎn)化診療程序,必須結(jié)合患者的教育程度、文化背景、社會(huì)支持系統(tǒng)及個(gè)人意愿來(lái)選擇治療方案[28]。醫(yī)務(wù)工作者只是提供個(gè)性化醫(yī)療服務(wù)項(xiàng)目,最終的選擇仍然需要基于患者自身的具體情況。
4面臨的挑戰(zhàn)與展望
Gartner發(fā)布的2014年新興技術(shù)成熟度曲線顯示,未來(lái)5~10年大數(shù)據(jù)技術(shù)將會(huì)成熟應(yīng)用于各個(gè)領(lǐng)域[29],健康大數(shù)據(jù)也將會(huì)快速應(yīng)用到公共衛(wèi)生領(lǐng)域之中,同時(shí)也面臨一些挑戰(zhàn)。
4.1健康大數(shù)據(jù)使用中的安全、保密、共享、開(kāi)放等醫(yī)學(xué)倫理學(xué)問(wèn)題健康大數(shù)據(jù)不可避免地涉及人群的隱私信息,包括身體現(xiàn)況、健康史、個(gè)人信息,甚至基因、蛋白數(shù)據(jù)等,如若泄露,極可能會(huì)使患者個(gè)體的日常生活遭到難以預(yù)料的侵?jǐn)_[30]。個(gè)人隱私易被竊聽(tīng)的問(wèn)題一直未能得到很好解決[24]。若將數(shù)據(jù)加入到大數(shù)據(jù)庫(kù)之前,通過(guò)電腦程序?qū)⒛軌虮蛔R(shí)別的患者個(gè)人信息從醫(yī)療記錄中去除,理論上講可以克服這個(gè)問(wèn)題[11,31]。但由于缺乏個(gè)體的識(shí)別信息,其他數(shù)據(jù)將無(wú)法和研究樣本整合,難以證實(shí)因果行為和健康狀況的關(guān)系,不能進(jìn)行某類(lèi)人群大范圍的研究。通過(guò)特殊處理(如去識(shí)別化、數(shù)字身份加密等)可以較好地解決此問(wèn)題,但仍繞不開(kāi)信息識(shí)別,去識(shí)別化本身也需要處理可識(shí)別的信息,可能造成患者健康信息在不知情、未授權(quán)的情況下被他人盜用[32];同樣,數(shù)字身份加密在解密過(guò)程中也存在泄密盜用的可能。隨著信息時(shí)代的深入,健康大數(shù)據(jù)更為專(zhuān)注于電子數(shù)據(jù)的來(lái)源和信息技術(shù)手段,導(dǎo)致面臨的倫理學(xué)問(wèn)題挑戰(zhàn)更為復(fù)雜多樣[33]。
此外,健康大數(shù)據(jù)的收集、存儲(chǔ)、維護(hù)及使用方面,不僅涉及個(gè)人隱私問(wèn)題,由于國(guó)家人口規(guī)模十分龐大、信息量巨大,還牽涉公眾利益甚至國(guó)家安全?!毒V要》中反復(fù)提及共享和開(kāi)放的戰(zhàn)略,強(qiáng)調(diào)由政府主導(dǎo)共享和開(kāi)放數(shù)據(jù),降低公眾獲取和利用政府?dāng)?shù)據(jù)資源的難度及成本,為公共衛(wèi)生健康大數(shù)據(jù)研究鋪平道路。與此同時(shí),大數(shù)據(jù)意味著大責(zé)任、大倫理,任何單位或個(gè)人使用大規(guī)模健康大數(shù)據(jù)時(shí)均應(yīng)該嚴(yán)格申請(qǐng)審查并備案,在法律允許的框架內(nèi)使用相關(guān)數(shù)據(jù),承擔(dān)風(fēng)險(xiǎn)責(zé)任[34]。健康大數(shù)據(jù)的使用過(guò)程既要破除壁壘,讓信息互聯(lián)互通;又要充分隱私保密,杜絕隱患。
4.2突破大數(shù)據(jù)的關(guān)鍵技術(shù),推動(dòng)其在公共衛(wèi)生中的應(yīng)用半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)量呈幾何級(jí)數(shù)增長(zhǎng),傳統(tǒng)的分析技術(shù)面臨著較大的沖擊和挑戰(zhàn)。數(shù)據(jù)的廣泛存在性使得數(shù)據(jù)越來(lái)越多地以不同的形式散布于不同的系統(tǒng)和平臺(tái)之中[35]。為了便于進(jìn)行健康大數(shù)據(jù)分析,需要解決數(shù)據(jù)的多源異構(gòu)性、數(shù)據(jù)的質(zhì)量問(wèn)題,各方面產(chǎn)生的大數(shù)據(jù)有待進(jìn)行有效的整合。特別需要指出的是,在大數(shù)據(jù)時(shí)代雖然允許不精確的出現(xiàn),但最基本、最重要的任務(wù)還是應(yīng)該盡可能減少錯(cuò)誤,保障質(zhì)量。除上述技術(shù)挑戰(zhàn)外,還有數(shù)據(jù)信息孤島問(wèn)題普遍存在,標(biāo)準(zhǔn)化難以實(shí)施等技術(shù)和非技術(shù)困難尚未得到有效徹底地解決?!毒V要》指出,政府將推動(dòng)公共數(shù)據(jù)互聯(lián)共享、消除信息孤島,避免重復(fù)建設(shè)和數(shù)據(jù)“打架”,整合各級(jí)平臺(tái)。
4.3甄別健康大數(shù)據(jù)使用中的“誤差”,提高精度大數(shù)據(jù)也會(huì)產(chǎn)生“大錯(cuò)誤(Big Error)”[2],流感在2013年最先襲擊美國(guó)且造成十分嚴(yán)重的危害。當(dāng)時(shí)科學(xué)家們先利用大數(shù)據(jù)技術(shù),之后又采用傳統(tǒng)的公共衛(wèi)生監(jiān)測(cè)方法分析流感的影響程度并進(jìn)行估計(jì),結(jié)果顯示前者對(duì)流感的高峰期影響水平明顯高估?!按髷?shù)據(jù)”可以作為有效的工具來(lái)評(píng)估疾病負(fù)擔(dān)和傳播,Google流感趨勢(shì)(Google Flu Trends,GFT)結(jié)合疾控中心的數(shù)據(jù)網(wǎng)絡(luò)可以大幅提高預(yù)測(cè)性能,在流感傳播和流行期間這一改進(jìn)的模型可以更準(zhǔn)確預(yù)測(cè)未來(lái)1周的感染情況[36]。同樣,衛(wèi)生服務(wù)人員需要認(rèn)識(shí)到存在垃圾數(shù)據(jù)以及有責(zé)任維護(hù)數(shù)據(jù)的完整性和準(zhǔn)確性[28]。健康大數(shù)據(jù)使用者應(yīng)認(rèn)識(shí)到大數(shù)據(jù)本身不可能替代其他數(shù)據(jù);雖然其彌補(bǔ)了很多以前數(shù)據(jù)的缺陷,但只是彌補(bǔ)性而不是取代性的功能,在疾病與健康預(yù)測(cè)方面甄別健康大數(shù)據(jù)的“誤差”尤為重要。
一直以來(lái),公共衛(wèi)生與預(yù)防醫(yī)學(xué)學(xué)科強(qiáng)調(diào)“三級(jí)預(yù)防”,但作為政府行為的“零級(jí)預(yù)防”非常關(guān)鍵。從星羅云布的大數(shù)據(jù)中通過(guò)分析快速獲得有效信息,并及時(shí)為公共衛(wèi)生決策提供依據(jù),是一項(xiàng)基礎(chǔ)的、長(zhǎng)遠(yuǎn)的工作,需要政府層面的長(zhǎng)期鼎力支持。健康大數(shù)據(jù)框架需要國(guó)家層次進(jìn)行頂層設(shè)計(jì),擔(dān)負(fù)相應(yīng)責(zé)任。建議政府加以科學(xué)引導(dǎo),開(kāi)放平臺(tái)邀請(qǐng)更多社會(huì)資本參與,整合力量共建國(guó)家健康大數(shù)據(jù)研究中心。
通過(guò)數(shù)據(jù)的開(kāi)放將醫(yī)療信息大數(shù)據(jù)直接傳遞給患者,從而改變目前將患者的記錄存儲(chǔ)在醫(yī)療機(jī)構(gòu),置患者于被動(dòng)位置的模式。可以預(yù)見(jiàn),在不久的將來(lái),患者也會(huì)越來(lái)越多地參與到自己的健康管理之中,且在其中占主導(dǎo)地位。大數(shù)據(jù)無(wú)疑會(huì)對(duì)公共衛(wèi)生領(lǐng)域有革命性的影響,通過(guò)大數(shù)據(jù)來(lái)識(shí)別健康影響因素,并采取相應(yīng)干預(yù)措施促進(jìn)人群健康,為個(gè)人或群體提供最適合的預(yù)防保健和治療方式[37];利用大數(shù)據(jù)能夠促進(jìn)新的發(fā)現(xiàn),優(yōu)化治療效果,減少衛(wèi)生支出。
為了實(shí)現(xiàn)健康大數(shù)據(jù)的巨大價(jià)值,公共衛(wèi)生領(lǐng)域需要全面實(shí)現(xiàn)數(shù)據(jù)信息的標(biāo)準(zhǔn)化,增強(qiáng)數(shù)據(jù)的互用性,促進(jìn)信息的共享,建立有效的數(shù)據(jù)管理方式,改進(jìn)分析技術(shù)和方法,培養(yǎng)擁有公共衛(wèi)生背景的數(shù)據(jù)分析專(zhuān)業(yè)人才。早日突破并解決上述挑戰(zhàn),大力推進(jìn)健康大數(shù)據(jù)在公共衛(wèi)生領(lǐng)域中的應(yīng)用。
參考文獻(xiàn)
[1]Mayer-Schonberger V,Cukier K.Big data:a revolution that will transform how we live,work,and think[M].Boston:Houghton Mifflin Harcourt,2013.
[2]Khoury MJ,Ioannidis JP.Medicine.Big data meets public health[J].Science,2014,346(6213):1054-1055.
[3]Fung IC,Tse ZT,Fu KW.Converting big data into public health[J].Science,2015,347(6222):620.
[4]Luna DR,Mayan JC,García MJ,et al.Challenges and potential solutions for big data implementations in developing countries[J].Yearb Med Inform,2014,9(1):36-41.
[5]Gantz J,Reinsel D.Extracting value from chaos[J].IDC Iview,2011 (1142):9-10.
[6]Chen M,Mao S,Liu Y.Big data:a survey[J].Mobile Netw Appl,2014,19(2):171-209.
[7]Merelli I,Pérez-Sánchez H,Gesing S,et al.Managing,analysing,and integrating big data in medical bioinformatics:open problems and future perspectives[J].Biomed Res Int,2014,2014:134023.doi:10.1155/2014/134023.
[8]Fan JH,Han F,Liu H.Challenges of big data analysis[J].Natl Sci Rev,2014,1(2):293-314.
[9]Peek N,Holmes J,Sun J.Technical challenges for big data in biomedicine and health:data sources,infrastructure,and analytics[J].Yearb Med Inform,2014,9(1):42-47.
[10]Murdoch TB,Detsky AS.The inevitable application of big data to health care[J].JAMA,2013,309(13):1351-1352.
[11]El-Emam K,Gray J,Grealy M,et al.A policy forum on the use of big data in health care[EB/OL].[2013-12-03].http://bipartisanpolicy.org/library/policy-forum-use-big-data-health-care/.
[12]Ginsberg J,Mohebbi MH,Patel RS,et al.Detecting influenza epidemics using search engine query data[J].Nature,2009,457(7232):1012-1014.
[13]Gittelman S,Lange V,Gotway Crawford CA,et al.A new source of data for public health surveillance:facebooklikes[J].J Med Internet Res,2015,17(4):e98.
[14]Meyer AM,Olshan AF,Green L,et al.Big data for population-based cancer research[J].NC Med J,2014,75(4):265-269.
[15]WHO.EVIPNet Asia,Evidence-informedpolicy-making[EB/OL].http://www.who.int/evidence/resources/country_reports/asia/en/.
[16]Jiang F,Zhang J,Shen X.Towards evidence-based public health policy in China[J].Lancet,2013,381(9882):1962-1964.
[17]Liu H,Hu GH,Wang XC,et al.Coffee consumption and prostate cancer risk:a meta-analysis of cohort studies[J].Nutr Cancer,2015,37(3):392-400.
[18]宇傳華,崔芳芳.全球疾病負(fù)擔(dān)研究及其對(duì)我國(guó)的啟示[J].公共衛(wèi)生與預(yù)防醫(yī)學(xué),2014,25(2):1-5.
[19]Brownson RC,Baker EA,Leet TL,et al.Evidence-based public health[M].2nd Revised ed.Oxford:Oxford University Press Inc,2011:10-11.
[20]Tanaka S,Tanaka S,Kawakami K.Methodological issues in observational studies and non-randomized controlled trials in oncology in the era of big data[J].Jpn J Clin Oncol,2015,45(4):323-327.
[21]Kuziemsky CE,Monkman H,Petersen C,et al.Big Data in healthcare-defining the digital persona through user contexts from the micro to the macro:contribution of the IMIA Organizational and Social Issues WG[J].Yearb Med Inform,2014,9(1):82-89.
[22]Ross MK,Wei W,Ohno-Machado L."Big Data" and the electronic health record[J].Yearb Med Inform,2014,9(1):97.
[23]Lissovoy G.Big data meets the electronic medical record:a commentary on "identifying patients at increased risk for unplanned readmission"[J].Med Care,2013,51(9):759-760.
[24]Hill S,Merchant R,Ungar L.Lessons learned about public health from online crowd surveillance[J].Big Data,2013,1(3):160-167.
[25]Chute CG,Ullman-Cullere M,Wood GM,et al.Some experiences and opportunities for big data in translational research[J].Genet Med,2013,15(10):802-809.
[26]Mohammed EA,Far BH,Naugler C.Applications of the MapReduce programming framework to clinical big data analysis:current landscape and future trends[J].Bio Data Mining,2014,7(1):22.
[27]Sledge Jr GW,Miller RS,Hauser R.Cancer Lin Q and the future of cancer care[C]//American Society of Clinical Oncology educational book.American Society of Clinical Oncology,2012:430-434.
[28]Ward JC.Oncology reimbursement in the era of personalized medicine and big data[J].J Oncol Pract,2014,10(2):83-86.
[29]Gartner.Gartner′s 2014 hype cycle for emerging technologies maps the journey to digital business[EB/OL].[2014 -08-11].http://www.gartner.com/newsroom/id/2819918.
[30]Bellazzi R.Big data and biomedical informatics:a challenging opportunity[J].Yearb Med Inform,2014,9(1):8-13.
[31]Ward JC.Oncology reimbursement in the era of personalized medicine and big data[J].J Oncol Pract,2014,10(2):83-86.
[32]Rothstein MA.Is deidentification sufficient to protect health privacy in research?[J].Am J Bioeth,2010,10(9):3-11.
[33]Vayena E,Salathé M,Madoff LC,et al.Ethical challenges of big data in public health[J].PLoS Comput Biol,2015,11(2):e1003904.
[34]Dove ES,?zdemir V.What role for law,human rights,and bioethics in an age of big data,consortia science,and consortia ethics? The Importance of Trustworthiness[J].Laws,2015,4(3):515-540.
[35]Khan N,Yaqoob I,Hashem IAT,et al.Big data:survey,technologies,opportunities,and challenges[J].Scientific World J,2014,2014:712826.
[36]Davidson MW,Haim DA,Radin JM.Using networks to combine "Big Data" and traditional surveillance to improve influenza predictions[J].Sci Rep,2015(5):8154.
[37]Mooney SJ,Westreich DJ,El-Sayed AM.Commentary:epidemiology in the era of big data[J].Epidemiology,2015,26(3):390-394.
修回日期:2015-10-20)
(本文編輯:趙躍翠)