虞銘明,張迺英,李月娥
(同濟(jì)大學(xué)浙江學(xué)院經(jīng)濟(jì)與管理系,浙江 嘉興 314051)
大數(shù)據(jù)分析正在快速推動(dòng)學(xué)術(shù)、產(chǎn)業(yè)和公共治理各個(gè)領(lǐng)域的發(fā)展,在醫(yī)療健康領(lǐng)域也不例外。隨著電子醫(yī)療健康記錄(EHR)、個(gè)人傳感器記錄(各種電子穿戴設(shè)備)的普遍使用,以及眾多網(wǎng)絡(luò)社交媒介資源信息的可獲得,與醫(yī)療健康有關(guān)的大量數(shù)據(jù)隨之產(chǎn)生[1]。只要我們找到適用的方法,PB級(jí)的原始信息可以提供任何方面的線索,無論從預(yù)防結(jié)核到削減醫(yī)療費(fèi)用[2]。美國醫(yī)藥機(jī)構(gòu)的一篇報(bào)道顯示,目前美國花在醫(yī)療護(hù)理費(fèi)上的1/3 (大約7500億美元)是浪費(fèi)的,花錢并不能改善醫(yī)療護(hù)理的結(jié)果[3],而Mckinsey公司估計(jì)通過大數(shù)據(jù)分析,醫(yī)療健康產(chǎn)業(yè)可以省下3000億~4500億美元[4]。除了減少成本外,醫(yī)療健康數(shù)據(jù)的相互連接和利用在其它方面也獲得了顯著收益,包括高效的行政管理、減少的工作負(fù)荷、節(jié)省的咨詢時(shí)間以及在早期識(shí)別疾病、更快更高效的識(shí)別醫(yī)療欺詐、更恰當(dāng)?shù)墓芾韨€(gè)人和人群的健康等[5]。
收益的產(chǎn)生首先需要數(shù)據(jù)的獲得,而數(shù)據(jù)共享與合并是大數(shù)據(jù)獲得的前提。目前,一些國家和機(jī)構(gòu)已經(jīng)開始著手有關(guān)醫(yī)療健康領(lǐng)域宏觀層面大數(shù)據(jù)技術(shù)下的數(shù)據(jù)共享及數(shù)據(jù)統(tǒng)一應(yīng)用平臺(tái)的搭建。美國政府大力提倡大數(shù)據(jù)在醫(yī)療健康上的應(yīng)用,從2009年以后,開放式政府指令和美國衛(wèi)生與人類服務(wù)部(HHS)開始公開醫(yī)療保險(xiǎn)和醫(yī)療補(bǔ)助服務(wù)中心(CMS)、食品和藥物管理局(FDA)及疾病控制中心(CDC)的數(shù)據(jù),更為明顯的是,美國在2010年頒布的患者保護(hù)與可承擔(dān)的醫(yī)療行動(dòng)(ACA)規(guī)定讓HHS的數(shù)據(jù)對(duì)研究機(jī)構(gòu)和公眾開放。隨著國家數(shù)據(jù)的可獲得,各種研究應(yīng)用在美國紛紛開展。其他國家如印度的信息管理及電子病歷系統(tǒng)已經(jīng)被指定的第三級(jí)醫(yī)院合并生成了一個(gè)歷史數(shù)據(jù)的電子倉庫中心,可以利用該中心進(jìn)行數(shù)據(jù)挖掘、研究和分析來提高醫(yī)療質(zhì)量[6]。我國目前越來越多的各種醫(yī)療健康數(shù)據(jù)雖然產(chǎn)生出來,但對(duì)之的利用和分析還處在初步階段。因?yàn)閿?shù)據(jù)的產(chǎn)生和管理分散,很少有真正意義上的國家甚至省級(jí)層面基于醫(yī)療健康數(shù)據(jù)的共享與統(tǒng)一應(yīng)用平臺(tái)的開發(fā)。盡管近幾年國際上發(fā)表了大量中國學(xué)者關(guān)于醫(yī)療健康大數(shù)據(jù)研究的學(xué)術(shù)文章,但研究機(jī)構(gòu)之間合作缺乏,從引用度和學(xué)術(shù)影響力來看質(zhì)量還有待提高[7]。本文正是在這樣的背景下,綜合國內(nèi)外相關(guān)文獻(xiàn),總結(jié)出醫(yī)療健康大數(shù)據(jù)分析面臨的兩大主要問題——關(guān)鍵技術(shù)和決策支持,并分別對(duì)其進(jìn)行論述及分析。
在我國,隨著人們收入水平的增加、人口的老齡化、不斷增長的健康意識(shí)和對(duì)待預(yù)防醫(yī)療態(tài)度的轉(zhuǎn)變已經(jīng)在很大程度上提升了對(duì)于醫(yī)療健康服務(wù)的需求,所以目前即使記錄的數(shù)字化還是處于初級(jí)階段(因?yàn)獒t(yī)療和健康數(shù)據(jù)生長和變動(dòng)的快速使醫(yī)療健康組織以當(dāng)前的水平很難消化),但醫(yī)療健康數(shù)據(jù)卻呈指數(shù)倍的增長,符合大數(shù)據(jù)的4V特征。首先,人類的身體是醫(yī)療健康大數(shù)據(jù)的重要來源,大量的數(shù)據(jù)被各種EHR系統(tǒng)、個(gè)人傳感器記錄和網(wǎng)絡(luò)社交媒介信息產(chǎn)生;此外,醫(yī)療保險(xiǎn)索賠管理系統(tǒng)和醫(yī)療設(shè)備的數(shù)據(jù)在尺寸上比傳統(tǒng)數(shù)據(jù)更大,Galloro稱醫(yī)療健康數(shù)據(jù)大規(guī)模增長的一個(gè)主要原因就是醫(yī)療圖像的增多[8],所以醫(yī)療健康數(shù)據(jù)能滿足大數(shù)據(jù)的第一個(gè)V(Volume體積)特征。其次,在臨床內(nèi)外從患者就診、監(jiān)控及電子穿戴設(shè)備產(chǎn)生和需要處理的醫(yī)療健康數(shù)據(jù)的速度增長很快,視為滿足大數(shù)據(jù)第二個(gè)V(Velocity速率)特征。然后,據(jù)文獻(xiàn)表示超過80%的醫(yī)療數(shù)據(jù)存在于非結(jié)構(gòu)模式里,比如醫(yī)生記錄的病歷、圖像,從監(jiān)控設(shè)備中獲得的圖表,此視為滿足大數(shù)據(jù)第三個(gè)V(Variety多樣化)特征。非結(jié)構(gòu)化的臨床數(shù)據(jù)不容易處理、儲(chǔ)存和分析,研究指出分析非結(jié)構(gòu)化數(shù)據(jù)的能力對(duì)于大數(shù)據(jù)分析在醫(yī)療健康領(lǐng)域的成功扮演著關(guān)鍵性的角色[9]。最后,大數(shù)據(jù)第四個(gè)V(Veracity真實(shí)性)的特征是處理不確定或模糊的數(shù)據(jù),大多數(shù)從臨床或醫(yī)院記錄里獲得的醫(yī)療數(shù)據(jù)有很多錯(cuò)誤,因?yàn)檫M(jìn)入某個(gè)患者數(shù)據(jù)的技術(shù)程序經(jīng)常附著其他患者的記錄信息或拷貝不正確的信息。
醫(yī)療健康大數(shù)據(jù)的體積、速率、多樣化的快速增加,創(chuàng)造出重要的和可分析的見解。許多文獻(xiàn)描述了大規(guī)模量的數(shù)據(jù)支持廣泛的醫(yī)療和健康服務(wù)范圍,包括臨床決策支持、傳感器為基礎(chǔ)的健康狀態(tài)呈現(xiàn)、食品安全監(jiān)督和疾病監(jiān)控、人口健康管理[10]。
上述醫(yī)療健康大數(shù)據(jù)的四個(gè)V特征,使得對(duì)之的數(shù)據(jù)分析、聚合與模型生成成為醫(yī)療健康信息學(xué)研究的瓶頸,數(shù)據(jù)處理的技術(shù)也成為醫(yī)療健康大數(shù)據(jù)研究主要集中的問題,而如何從復(fù)雜的醫(yī)療健康大數(shù)據(jù)中發(fā)展有效的數(shù)據(jù)挖掘模型和工具來快速找到正確的知識(shí)以及支持醫(yī)療健康決策制定,成為醫(yī)療健康大數(shù)據(jù)研究的最大挑戰(zhàn)之一[7]。有證據(jù)表明,盡管在研究及醫(yī)療領(lǐng)域有大幅度的技術(shù)進(jìn)步,癌癥仍然是一個(gè)主要的挑戰(zhàn)。原因是癌癥的分析需要分散在臨床及研究的PB級(jí)數(shù)據(jù)集中,這些數(shù)據(jù)集是有高維的尺度和闡釋度來識(shí)別疾病的狀態(tài)和患者生存可能的[11]。具體挑戰(zhàn)為:①缺少電子化。與電信、金融等行業(yè)相比,醫(yī)療行業(yè)的信息電子化水平相對(duì)較低,不能滿足當(dāng)前衛(wèi)生事業(yè)發(fā)展和深化醫(yī)改工作的需要;同時(shí),衛(wèi)生信息化建設(shè)存在區(qū)域發(fā)展不平衡的特點(diǎn),中西部、農(nóng)村發(fā)展滯后于東部、城市地區(qū),大醫(yī)院信息化水平遠(yuǎn)遠(yuǎn)高于基層醫(yī)院[12]。②異質(zhì)化。從患者復(fù)雜多樣和異質(zhì)化的資源里推斷知識(shí)并利用在縱向記錄中有關(guān)聯(lián)的患者數(shù)據(jù)是一個(gè)巨大的挑戰(zhàn)。其中,面對(duì)大量異質(zhì)的數(shù)據(jù),僅僅記錄數(shù)據(jù)并把它們放到倉庫是遠(yuǎn)遠(yuǎn)不夠的,這個(gè)階段首先需要聚合不同格式的數(shù)據(jù)并最終以一個(gè)共同的格式呈現(xiàn)。③交互操作(分享數(shù)據(jù))。醫(yī)療健康領(lǐng)域另外一個(gè)挑戰(zhàn)就是數(shù)據(jù)的碎片化和分散在不同的所有者中形成自己的數(shù)據(jù)孤島,包括支付者、提供者、實(shí)驗(yàn)室。因?yàn)榭紤]到隱私和財(cái)產(chǎn),所以數(shù)據(jù)很難被合并,很難合并還因?yàn)閿?shù)據(jù)復(fù)雜、碎片化的特性以及數(shù)據(jù)表面下很難統(tǒng)一的格式和標(biāo)準(zhǔn),并且每個(gè)孤島中缺少元數(shù)據(jù)。④高的投資成本和進(jìn)入門檻。需要有IT基礎(chǔ)設(shè)施和專門的技術(shù)水平,而且管理大數(shù)據(jù)是很費(fèi)成本的。在金融和醫(yī)療領(lǐng)域,數(shù)據(jù)經(jīng)常被刪除只是因?yàn)闆]有足夠的空間來儲(chǔ)存它們[5]。⑤建立標(biāo)準(zhǔn)和監(jiān)管。醫(yī)療護(hù)理的數(shù)據(jù)很少被標(biāo)準(zhǔn)化,它經(jīng)常在IT的數(shù)據(jù)源系統(tǒng)中以不可兼容的格式被分割或創(chuàng)造。醫(yī)療健康系統(tǒng)中數(shù)據(jù)的標(biāo)準(zhǔn)化需要被定義及執(zhí)行來促使數(shù)據(jù)的一致性,并消除差異和增加對(duì)它的使用,如交互操作和統(tǒng)一監(jiān)管。EHR的一些標(biāo)準(zhǔn)除非強(qiáng)制,否則是很難關(guān)聯(lián)這些數(shù)據(jù)的。⑥數(shù)據(jù)隱私和安全。目前醫(yī)療健康行業(yè)開始大規(guī)模廣泛應(yīng)用的EHR、臨床數(shù)據(jù)庫、家庭監(jiān)控和遠(yuǎn)程醫(yī)療都有很大的概率發(fā)生數(shù)據(jù)泄露或欺詐、身份盜竊從而造成醫(yī)療欺詐和糾紛案件,從而抬高醫(yī)療總費(fèi)用并產(chǎn)生重大負(fù)面影響;另外網(wǎng)絡(luò)社交媒介(包括醫(yī)患交互信息平臺(tái))的不正當(dāng)運(yùn)用也將增加患者隱私的泄露和安全風(fēng)險(xiǎn)。Gosain等建議使用三個(gè)重要的方法來確保隱私和保證大數(shù)據(jù)的安全:數(shù)據(jù)匿名、告知同意和有差別的隱私[13]。
大數(shù)據(jù)分析結(jié)構(gòu)源于信息生命周期管理的概念:收集、儲(chǔ)存、處理、傳播。經(jīng)過多種領(lǐng)域長期的運(yùn)用和在不斷嘗試、總結(jié)錯(cuò)誤的基礎(chǔ)上,SAS系統(tǒng)提供了包括以下幾個(gè)大數(shù)據(jù)分析的技術(shù)過程和生命周期:①識(shí)別和構(gòu)造問題;②準(zhǔn)備數(shù)據(jù)、定位和數(shù)據(jù)清洗;③數(shù)據(jù)探索(摘要統(tǒng)計(jì)、圖形分析等);④數(shù)據(jù)轉(zhuǎn)換和選擇(挑選范圍和數(shù)據(jù)分組);⑤開發(fā)、校正和運(yùn)行統(tǒng)計(jì)模型;⑥評(píng)價(jià)和監(jiān)控模型結(jié)果,呈現(xiàn)和提煉分析模型。這些步驟需求四個(gè)主要角色,即數(shù)據(jù)管理者、系統(tǒng)管理者、分析者和數(shù)據(jù)挖掘者。雖然以上是大數(shù)據(jù)分析的一般過程,但它高度適用于醫(yī)療健康大數(shù)據(jù)分析領(lǐng)域[14],見圖1。
主要分析過程如下:①需要識(shí)別和構(gòu)造醫(yī)療健康需要解決的問題。不斷進(jìn)行的醫(yī)療健康大數(shù)據(jù)研究主要集中在處理技術(shù)上的問題,然而,除非能在良好的管理下識(shí)別出關(guān)鍵問題,并有效應(yīng)對(duì)管理上的挑戰(zhàn)、謹(jǐn)慎進(jìn)行戰(zhàn)略選擇和資源配置,否則醫(yī)療實(shí)踐者很難集中優(yōu)勢和精力通過大數(shù)據(jù)分析獲得全部利益,并且沒有足夠的證據(jù)表明大數(shù)據(jù)分析的投資成本能夠收回[15-16]。問題有效識(shí)別和構(gòu)造后,數(shù)據(jù)獲取工具需要從外部資源和整個(gè)醫(yī)療健康系統(tǒng)體系中收集和提取數(shù)據(jù),包括病歷、醫(yī)學(xué)影像、基因圖譜、傳感數(shù)據(jù)、網(wǎng)絡(luò)微博等。②數(shù)據(jù)轉(zhuǎn)換工具能夠移動(dòng)、清洗、分割、解釋、聚合、分類與核實(shí)數(shù)據(jù),這些轉(zhuǎn)換工具能使數(shù)據(jù)標(biāo)準(zhǔn)化或一致、看得見和利于分析[17]。③開發(fā)、校正、運(yùn)行適合分析數(shù)據(jù)的軟件和模型工具并評(píng)價(jià)、監(jiān)控和呈現(xiàn)其模型結(jié)果成為大數(shù)據(jù)分析重要的過程。④模型和工具分析完后,數(shù)據(jù)的分析結(jié)果要以可視化的形式呈現(xiàn)出來并傳播。在醫(yī)療領(lǐng)域,實(shí)時(shí)報(bào)告比如像警告和主動(dòng)告知、實(shí)時(shí)數(shù)據(jù)導(dǎo)航和操作的關(guān)鍵績效指標(biāo)(KPIs)可以被送達(dá)感興趣的使用者或者實(shí)時(shí)以儀表盤的形式呈現(xiàn)[18]。
圖1 醫(yī)療健康大數(shù)據(jù)分析的生命周期及四個(gè)角色
醫(yī)療健康大數(shù)據(jù)增長快速、半結(jié)構(gòu)和非結(jié)構(gòu)化,以及來源于多個(gè)位點(diǎn)等這些現(xiàn)狀,使得用傳統(tǒng)的數(shù)據(jù)管理工具(比如RDBMS關(guān)系型數(shù)據(jù)庫管理系統(tǒng))變得非常困難。這些系統(tǒng)首先存儲(chǔ)能力不夠,且一般都是獨(dú)立的,不能分享與合并數(shù)據(jù),而任何集中式的數(shù)據(jù)庫系統(tǒng)仍然要面對(duì)如單一的控制點(diǎn)、瓶頸問題等,但這些問題可以通過使用分布式系統(tǒng)的設(shè)想來解決。云計(jì)算(一種分布式計(jì)算模式)、Hadoop、MapReduce和MongoDB等分布式系統(tǒng)在一些醫(yī)療健康研究單位對(duì)于存儲(chǔ)和計(jì)算大量數(shù)據(jù)的使用已經(jīng)變得很常見。
(1)云計(jì)算。研究者近來在互聯(lián)網(wǎng)為基礎(chǔ)的醫(yī)療健康云上投入了大量關(guān)注。醫(yī)療健康實(shí)踐者為了診斷患者在實(shí)時(shí)時(shí)間分享信息是必要的,但通過集中式的系統(tǒng)不能滿足,因?yàn)樵谶@樣的系統(tǒng)中交互操作和觀點(diǎn)分享很慢。云計(jì)算和服務(wù)技術(shù)對(duì)于解決“數(shù)據(jù)碎片化以致不能分享信息”這個(gè)問題可能有效,它能夠提供使用者以共同的程序使用資源[7]。在技術(shù)上,云有能力儲(chǔ)存大量的數(shù)據(jù),并且它的計(jì)算部分提供一個(gè)IT平臺(tái)來削減電子醫(yī)療系統(tǒng)記錄的成本。另外,云環(huán)境使得患者、醫(yī)療健康計(jì)劃服務(wù)和實(shí)踐者容易進(jìn)入數(shù)據(jù)記錄。Kuo報(bào)道云計(jì)算在信息交流技術(shù)(ICT)領(lǐng)域逐步發(fā)展,已經(jīng)獲得醫(yī)療健康組織持續(xù)的關(guān)注來克服許多互聯(lián)網(wǎng)醫(yī)療障礙[19]。Sultan提出互聯(lián)網(wǎng)醫(yī)療云系統(tǒng)對(duì)于醫(yī)療健康組織來說只需要更少的技術(shù)[20]。Peddi提出了移動(dòng)互聯(lián)網(wǎng)醫(yī)療多媒體運(yùn)用的基于智慧云數(shù)據(jù)處理經(jīng)紀(jì)人的模型。通過設(shè)定動(dòng)態(tài)云分配機(jī)制,該模型在智慧云經(jīng)紀(jì)人上主要關(guān)注單一的、混合的和多個(gè)目標(biāo)食物圖像[21]。
在數(shù)據(jù)信息的安全問題上,醫(yī)療健康信息系統(tǒng)(HIS)中分布式云計(jì)算結(jié)構(gòu)的使用可能會(huì)造成信息的泄露,因?yàn)樵普莆罩颊叩男畔⒉⒛芴峁┎煌姆?wù)給授權(quán)的使用者。所以患者的數(shù)據(jù)(特別是敏感的數(shù)據(jù))應(yīng)當(dāng)通過采用綜合的物理安全、數(shù)據(jù)加密、使用者的真實(shí)驗(yàn)證等來保護(hù)。在HIS中一個(gè)比較簡單和通用的方框圖模式為在安全使用和容易進(jìn)入患者數(shù)據(jù)之間提供連接,模式結(jié)構(gòu)包含了四個(gè)基本的模塊也就是使用者的登錄系統(tǒng)、患者的數(shù)據(jù)庫、醫(yī)生的數(shù)據(jù)庫和醫(yī)院醫(yī)生的登錄系統(tǒng),出于安全的考慮這些模塊可以阻止一些重要和敏感的患者信息進(jìn)入。
(2)其它分布式系統(tǒng)。除了云計(jì)算外,由Hadoop、MongoDB等分布式數(shù)據(jù)庫構(gòu)成的數(shù)據(jù)網(wǎng)絡(luò)可以分享和共用多個(gè)位點(diǎn)和資源的數(shù)據(jù),包括并且不限于已經(jīng)獲得的臨床實(shí)驗(yàn)、基因庫或社交媒體資源,所以其分析的規(guī)模和統(tǒng)計(jì)能力都大大增強(qiáng),又因?yàn)閿?shù)據(jù)合作者始終保持?jǐn)?shù)據(jù)的使用權(quán)所以數(shù)據(jù)隱私和安全可以得到保障[22]。據(jù)大數(shù)據(jù)醫(yī)療公司介紹,目前醫(yī)療健康大數(shù)據(jù)的分析過程面臨最多的問題還是數(shù)據(jù)獲取與聚合,另外如果沒有一個(gè)有效的平臺(tái)集中儲(chǔ)存及處理大規(guī)模多源異構(gòu)的醫(yī)療健康數(shù)據(jù),有價(jià)值的挖掘就仍只能手工作坊式的進(jìn)行[23]。Hadoop分布式系統(tǒng)平臺(tái)在醫(yī)療健康背景下識(shí)別出問題后,可以從EHR等系統(tǒng)中提取數(shù)據(jù),獲取的數(shù)據(jù)再被數(shù)據(jù)轉(zhuǎn)換工具轉(zhuǎn)變?yōu)槿缁颊咝彰?、地址和醫(yī)療歷史記錄等具體準(zhǔn)則的數(shù)據(jù)標(biāo)準(zhǔn)格式;接著,被轉(zhuǎn)換過的數(shù)據(jù)被下載進(jìn)入目標(biāo)數(shù)據(jù)庫,比如Hadoop分布文件系統(tǒng)(HDFS)中存儲(chǔ)或進(jìn)入能進(jìn)一步加工和分析的Hadoop云系統(tǒng),在其數(shù)據(jù)平臺(tái)上進(jìn)行軟件和挖掘模型分析。
美國喬治梅森大學(xué)Feras等[24]就是利用了Hadoop開拓性的進(jìn)行了國家層面醫(yī)療健康大數(shù)據(jù)的研究,他們創(chuàng)建的CHESS(醫(yī)療健康電子軟件綜合系統(tǒng))平臺(tái)可以把用戶上傳的各種數(shù)據(jù)集移到Hadoop開源平臺(tái)上(不需要數(shù)據(jù)清洗和結(jié)構(gòu)化)進(jìn)行工具分析,還可在CHESS上進(jìn)行Tableau、R、Excel和國家層面數(shù)據(jù)的SQL DB分析,見圖2。
圖2 CHESS系統(tǒng)平臺(tái)及其使用者的工具
另外,美國FDA主持的 “哨兵系統(tǒng)”也是一個(gè)Hadoop搭建的分布式數(shù)據(jù)網(wǎng)絡(luò),通過數(shù)據(jù)和分析工具的分享來監(jiān)管醫(yī)藥產(chǎn)品的安全。“哨兵系統(tǒng)”的一般數(shù)據(jù)模型(SCDM)是一套幾個(gè)圖表組成的標(biāo)準(zhǔn)化數(shù)據(jù)格式和圖表,核心圖表存在和位于所有數(shù)據(jù)合作者的位點(diǎn)上,見圖3。此外,“哨兵系統(tǒng)”主要使用SAS作為基礎(chǔ)的分析系統(tǒng),分析SCDM格式化了的數(shù)據(jù),從中抽取想要識(shí)別的患者群,圖4是其中一種圖表分析方法,有分析的一致性、可重復(fù)、靈活性、大規(guī)模、透明化、再生性六種優(yōu)點(diǎn)[25]。
在Hadoop的基礎(chǔ)上,MongoDB(一種能支持NoSQL查詢的基于分布式文件存儲(chǔ)的數(shù)據(jù)庫)的出現(xiàn)增強(qiáng)了分布式系統(tǒng)的功能。以Hadoop為框架,MongoDB可以把不同結(jié)構(gòu)的文件儲(chǔ)存在同一個(gè)數(shù)據(jù)庫里,并通過加強(qiáng)MapReduce來完成復(fù)雜的聚合任務(wù)。Antony[26]選擇糖尿病作為MongoDB分析的對(duì)象,因?yàn)樘悄虿【哂袕?fù)雜龐大的數(shù)據(jù)。他的研究首先把各種資源處實(shí)時(shí)產(chǎn)生的數(shù)據(jù)集收集上來,手工輸入到MongoDB的數(shù)據(jù)庫中。MongoDB可以實(shí)現(xiàn)快速儲(chǔ)存和查詢,輸入結(jié)果由MapReduce程序自動(dòng)產(chǎn)生。Antony首先通過MapReduce得到了糖尿病人信息的詳細(xì)描述,如每個(gè)患者的ID、膽固醇水平等,這些信息片段儲(chǔ)存在MongoDB中,然后再用機(jī)器學(xué)習(xí)中的Naive Bayes(樸素貝葉斯分類器)篩選出信息特征,再對(duì)這些特征進(jìn)行概率分類,最后得出各種特征的風(fēng)險(xiǎn)評(píng)估概率,得出預(yù)測結(jié)果,如年齡46歲發(fā)生糖尿病的風(fēng)險(xiǎn)概率是80%,見圖5。
圖3 “哨兵系統(tǒng)”的六個(gè)核心數(shù)據(jù)模型SCDM
圖4 圖表分析工具方法
圖5 糖尿病風(fēng)險(xiǎn)評(píng)估模型
由前所述,數(shù)據(jù)轉(zhuǎn)換和分析工具瞄準(zhǔn)對(duì)所有種類的醫(yī)療健康數(shù)據(jù)進(jìn)行處理并且進(jìn)行恰當(dāng)?shù)姆治鰜慝@得見解,這對(duì)于把患者的數(shù)據(jù)轉(zhuǎn)化為有意義的信息是特別重要的,這些信息能夠支持以證據(jù)為基礎(chǔ)的決策制定和有價(jià)值的醫(yī)療健康組織活動(dòng)。
Delen[27]進(jìn)一步把其分為三種主要的技術(shù)分析:描述、預(yù)測和規(guī)范分析,屬于哪一種分析依據(jù)于數(shù)據(jù)的種類以及分析的問題或目的。①描述分析提供用總結(jié)的形式探究問題的見解,回答比如說“過去發(fā)生了什么”的問題。在醫(yī)院系統(tǒng)中描述性分析是有用的,因?yàn)樗苁贯t(yī)療實(shí)踐者知道患者過去的行為,以及這些蘊(yùn)藏于EHR數(shù)據(jù)庫中的行為可能怎樣影響了結(jié)果[18]。②預(yù)測分析則幫助使用者根據(jù)可能性估計(jì)來預(yù)測有一定變數(shù)的未來,不僅可以利用大規(guī)模的臨床數(shù)據(jù)從而提供更多關(guān)于臨床決策制定程序的想法,還能幫助醫(yī)療管理者解開臨床成本復(fù)雜的結(jié)構(gòu),以及獲得基于患者生活方式、疾病管理和監(jiān)控知識(shí)對(duì)于未來醫(yī)療健康趨勢更深的理解。雖然預(yù)測分析很有用,但目前在醫(yī)療健康領(lǐng)域預(yù)測分析的應(yīng)用還是處在很初期的地步,很多研究顯露出它的難處[28]。MapReduce可以作為預(yù)測分析的工具之一,它綜合了各種分析的方法例如自然語言處理(NLP)、文本挖掘和在大規(guī)模并行處理計(jì)算機(jī)(MPP)中的自然網(wǎng)絡(luò)[29]。③規(guī)范分析是相對(duì)較新的分析種類,它聯(lián)合了以優(yōu)化、仿真、啟發(fā)為基礎(chǔ)的預(yù)測模型技術(shù),例如商業(yè)規(guī)則、算法、機(jī)器學(xué)習(xí)和計(jì)算模式程序[27]。然而預(yù)測分析如果暗示“今后將要發(fā)生什么”,規(guī)范分析則提供最優(yōu)的解決辦法或者可能的原因或行動(dòng)來幫助使用者理解未來應(yīng)該做什么[17]。規(guī)范分析能夠通過吸收新的數(shù)據(jù)集(聯(lián)合患者結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)以及商業(yè)規(guī)則)不斷的再預(yù)測和自動(dòng)改善預(yù)測的精確性,從而發(fā)展更多完善的與診斷和治療等相關(guān)的決策內(nèi)容[30]。
Feras等[24]應(yīng)用CHESS進(jìn)行了上述三種類型的分析:第一種分析描述了從2005—2015年,美國五大州的患者訪問醫(yī)生的次數(shù)以及各個(gè)州的健康數(shù)據(jù)——用體重指數(shù)和得糖尿病、高血壓的患者數(shù)量來衡量,分析顯示五大州患者訪問醫(yī)生的次數(shù)全部在上升以及各個(gè)州健康狀況的比較;第二種預(yù)測分析是根據(jù)歷史數(shù)據(jù)預(yù)測2015年后美國各州患者訪問醫(yī)生的數(shù)量趨勢及健康狀況的比較,采用了線性回歸預(yù)測;第三種規(guī)范分析揭示了最近的健康趨勢是怎樣影響各州對(duì)于醫(yī)療護(hù)理領(lǐng)域政策的定位。Mohit[31]也對(duì)印度的醫(yī)療健康數(shù)據(jù)進(jìn)行描述性分析,還是利用Hadoop的框架,用Pig Latin工具執(zhí)行一系列MapReduce的操作(該工具無需MapReduce要對(duì)數(shù)據(jù)進(jìn)行很多預(yù)處理、轉(zhuǎn)換及程序的編寫,開發(fā)和測試時(shí)間較短),其中一個(gè)結(jié)果見圖6,具體步驟如下:下載醫(yī)療數(shù)據(jù)集;對(duì)1950—2015年的醫(yī)院數(shù)量進(jìn)行聚合;計(jì)算每個(gè)年度醫(yī)院的總和。
圖6 1950—2015年印度醫(yī)院數(shù)量總和
大數(shù)據(jù)分析可以在大量的數(shù)據(jù)中用文本分析、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)、自語言程序、數(shù)據(jù)挖掘和預(yù)測分析等先進(jìn)的分析技巧來了解個(gè)人當(dāng)前的身體狀況、患者的治療效果以及預(yù)測疾病的發(fā)生發(fā)展等。以此為出發(fā)點(diǎn)可以作為精準(zhǔn)醫(yī)療和預(yù)防決策的依據(jù),可以通過在大量數(shù)據(jù)中尋找有意義的過程模式和未知系統(tǒng)的關(guān)聯(lián)性來支持臨床決策或預(yù)防干預(yù)的制定。Duggal等嘗試研究從不同的系統(tǒng)中匹配患者記錄,并使用大數(shù)據(jù)分析技術(shù)如Fuzzy比較積分和MapReduce做更好的臨床決策支持[32]。
目前我國醫(yī)療機(jī)構(gòu)使用的臨床信息系統(tǒng)有圍繞服務(wù)患者診療的HIS業(yè)務(wù)系統(tǒng)、臨床醫(yī)生的CIS系統(tǒng)、護(hù)士的NIS系統(tǒng)以及醫(yī)技的LIS、RIS、PACS等主要業(yè)務(wù)系統(tǒng),這些不同的系統(tǒng)需要應(yīng)用集成平臺(tái)和數(shù)據(jù)服務(wù)平臺(tái)對(duì)數(shù)據(jù)和服務(wù)進(jìn)行集成及聚合,以此來滿足醫(yī)院業(yè)務(wù)和管理的需求。以臨床決策分析產(chǎn)品為例,為實(shí)現(xiàn)不同臨床信息系統(tǒng)數(shù)據(jù)的共享從而服務(wù)醫(yī)療機(jī)構(gòu),可以在臨床數(shù)據(jù)庫的基礎(chǔ)上構(gòu)建服務(wù)臨床決策的大數(shù)據(jù)平臺(tái),將原來分散在各個(gè)臨床業(yè)務(wù)系統(tǒng)包括患者院內(nèi)全生命周期的數(shù)據(jù)進(jìn)行集中整合,通過一系列的NLP、機(jī)器學(xué)習(xí)、文本挖掘等技術(shù)構(gòu)建大規(guī)?;谂R床大數(shù)據(jù)驅(qū)動(dòng)的知識(shí)圖譜[23],如上海交大-耶魯聯(lián)合生物統(tǒng)計(jì)中心呂暉教授帶領(lǐng)開展的關(guān)于聚合基因公共數(shù)據(jù)集、量化的影像等醫(yī)療數(shù)據(jù)進(jìn)行的肺癌分型、甲狀腺腫瘤識(shí)別等多疾病的組學(xué)數(shù)據(jù)聚合分析[33]。
另外,國外先進(jìn)的研究機(jī)構(gòu)早已進(jìn)入“專家系統(tǒng)”——基于知識(shí)的智能系統(tǒng)的研究。專家系統(tǒng)和傳統(tǒng)的軟件系統(tǒng)和數(shù)據(jù)分析系統(tǒng)不同,因?yàn)樗麄冊卺t(yī)療決策的制定上更多使用啟發(fā)(探索)式手段而不是算法。一般問題解決者(GPS)的思想以后將發(fā)展成制造醫(yī)療專家系統(tǒng)的思想,該系統(tǒng)使用一般的搜索技術(shù)加上啟發(fā)性的知識(shí)來解決問題?!皩<蚁到y(tǒng)”最常用的建模方式包括基于規(guī)則的系統(tǒng)、基于案例的系統(tǒng)、基于邏輯的系統(tǒng)、基于框架的系統(tǒng)、基于目標(biāo)的系統(tǒng)。斯坦福大學(xué)發(fā)展的MYCIN就是一個(gè)基于醫(yī)療規(guī)則的專家系統(tǒng)工具,被用來診斷血液病,被視為第一個(gè)“專家系統(tǒng)”[34]。美國最大的醫(yī)療保險(xiǎn)公司W(wǎng)ellpoint已經(jīng)開始運(yùn)用IBM的超級(jí)計(jì)算機(jī)Watson治療疾病。在現(xiàn)今的癌癥治療領(lǐng)域,往往需要一個(gè)月或更長時(shí)間才能制定出適合的藥物治療方案,而利用Watson的認(rèn)知計(jì)算技術(shù)則可以將周期縮短至一天,極大的提高癌癥患者的治愈率[35]。
隨著醫(yī)療護(hù)理對(duì)患者和國家造成的負(fù)擔(dān)和成本變得難以為繼,預(yù)防醫(yī)療越來越為大家所重視。美國CDC已開始利用大數(shù)據(jù)來預(yù)防流感,其每年奪走數(shù)百萬人的生命。CDC把從全國得到的流感報(bào)告數(shù)據(jù)進(jìn)行特征提取分析后制成清晰的地圖,顯示流感如何以接近實(shí)時(shí)的速度在全國傳播,從而采取有針對(duì)性的預(yù)防決策[36]。另外,社交媒體也能提供追蹤流感病毒的工具,一家醫(yī)藥公司設(shè)計(jì)的“幫助,我有流感”就是利用了社交媒體的優(yōu)點(diǎn)來搜尋傳播病毒的源頭。
公共衛(wèi)生是在一個(gè)地區(qū)甚至全國范圍內(nèi)對(duì)重大疾病尤其是傳染病的預(yù)防、監(jiān)控和醫(yī)治,以及對(duì)醫(yī)藥、食品、公共環(huán)境衛(wèi)生的監(jiān)督管制[37];醫(yī)療管理則是對(duì)醫(yī)療機(jī)構(gòu)或醫(yī)生的質(zhì)量管理和績效管理等[38]。兩者都強(qiáng)調(diào)通過有效率的管理用最低的成本獲得整個(gè)地區(qū)或國家人民滿意的健康水平。目前我國的醫(yī)療健康數(shù)據(jù)雖然不斷產(chǎn)生,但由于數(shù)據(jù)較少公開和分享,要進(jìn)行分析的話從單個(gè)位點(diǎn)來的數(shù)據(jù)資源則受限于它們的范圍、規(guī)模和統(tǒng)計(jì)能力;而如果可以分享和共用多個(gè)位點(diǎn)和資源的話,數(shù)據(jù)又存在行政的、管理的、分析的和患者隱私的挑戰(zhàn)[39],所以大數(shù)據(jù)分析目前難以為整個(gè)地區(qū)甚至全國性的公共衛(wèi)生與醫(yī)療管理決策所利用。美國政府正是看到了這點(diǎn),不僅加大公開發(fā)布醫(yī)療以及業(yè)務(wù)數(shù)據(jù)、醫(yī)療質(zhì)量和績效數(shù)據(jù)的力度[3],而且加大科研力量來攻克技術(shù)上的難題。如Feras[24]通過聚合大數(shù)據(jù)的分析提出美國不同州對(duì)于ACA政策的不同執(zhí)行力度將會(huì)導(dǎo)致州健康的總體水平出現(xiàn)差異,體現(xiàn)了決策效果的精準(zhǔn)。
大數(shù)據(jù)分析在精準(zhǔn)的醫(yī)療管理決策方面也顯露出重要的作用。Yichuan[18]揭示了醫(yī)療健康5種大數(shù)據(jù)的分析能力帶來的5種不同的收益,其中之一就是管理的收益,管理收益指的是醫(yī)療機(jī)構(gòu)從醫(yī)療管理活動(dòng)中獲得的包括分派和處理醫(yī)療機(jī)構(gòu)的資源、操作監(jiān)控和戰(zhàn)略決策制定實(shí)施等帶來的收益。Ghosh等案例研究也顯示退役軍人衛(wèi)生管理局(VHA)的大數(shù)據(jù)分析系統(tǒng)能夠幫助醫(yī)療機(jī)構(gòu)管理者聚合患者的數(shù)據(jù)來實(shí)現(xiàn)可以測量的資源分配的改善,比如說通過決定資源如何利用來支持服務(wù)患者所需要的設(shè)施和地理的分布;以及選擇未來的治療與方案或者評(píng)價(jià)初始治療的效果與改進(jìn)醫(yī)療方案[40]。
在質(zhì)量和績效管理決策方面,針對(duì)醫(yī)療服務(wù)過程中產(chǎn)生的海量醫(yī)療健康數(shù)據(jù),運(yùn)用數(shù)據(jù)挖掘技術(shù)精準(zhǔn)的分析醫(yī)生的診治行為、實(shí)施的臨床路徑以及患者評(píng)分等相關(guān)指標(biāo)是否遵守衛(wèi)生部頒布的臨床指南以及監(jiān)控或比較醫(yī)院、醫(yī)生的質(zhì)量將是今后研究的熱點(diǎn)[41],因?yàn)榉治龅慕Y(jié)果不僅可以幫助患者做出更明智的健康護(hù)理決策,也將幫助醫(yī)療服務(wù)提供方為提高總體績效、增加競爭力提供決策支持。研究表明,對(duì)同一患者來說,醫(yī)療服務(wù)提供方不同,醫(yī)療護(hù)理方法和效果就不同,成本上也存在著很大的差異。
大數(shù)據(jù)分析技術(shù)可以通過檢測醫(yī)療保險(xiǎn)欺詐的行為,為醫(yī)療保險(xiǎn)管理提供精準(zhǔn)決策支持。在印度,假的醫(yī)療保險(xiǎn)索賠大約占了所有醫(yī)療保險(xiǎn)索賠的15%,每年因此損失600千萬~800千萬盧比[42]。如果利用機(jī)器學(xué)習(xí)的預(yù)測模型如決策樹、神經(jīng)網(wǎng)絡(luò)和線性回歸等,能預(yù)測和預(yù)防交易時(shí)刻的欺詐[43]。在實(shí)時(shí)檢測中,模型的自動(dòng)化系統(tǒng)可以在支付發(fā)生前就識(shí)別出欺詐,避免重大損失[44]。
醫(yī)療健康是富含數(shù)據(jù)的一個(gè)領(lǐng)域,當(dāng)越來越多的數(shù)據(jù)被收集,大數(shù)據(jù)分析的需求就增多了,然而醫(yī)療健康大數(shù)據(jù)的4V特征決定了對(duì)之分析面臨著諸多挑戰(zhàn)。分布式數(shù)據(jù)系統(tǒng)和Hadoop平臺(tái)的應(yīng)用可以部分解決該挑戰(zhàn),隨著醫(yī)療健康數(shù)據(jù)進(jìn)一步開放和統(tǒng)一數(shù)據(jù)分析和管理平臺(tái)的搭建,這些新技術(shù)和工具的應(yīng)用可以在儲(chǔ)存大量數(shù)據(jù)的基礎(chǔ)上對(duì)其實(shí)行規(guī)范化和標(biāo)準(zhǔn)化,并對(duì)其實(shí)行統(tǒng)一分析和應(yīng)用。在如何通過數(shù)據(jù)分析獲得見解方面,描述、預(yù)測和規(guī)范分析通過不同的分析方法實(shí)現(xiàn)了因果關(guān)系及解決途徑的探究。