文/姜疆
醫(yī)療大數(shù)據(jù):以“提質(zhì)”促進“增效”
文/姜疆
探索提高醫(yī)療大數(shù)據(jù)的處理與分析質(zhì)量,不僅對于疾病治療、新藥物研發(fā)有重要意義,還將對經(jīng)濟、社會、科技等多方面產(chǎn)生積極影響。
黨的十九大報告明確指出,中國特色社會主義進入新時代,我國社會主要矛盾已經(jīng)轉(zhuǎn)化為人民日益增長的美好生活需要和不平衡不充分的發(fā)展之間的矛盾。
當前,廣大人民群眾在健康方面的需求更加迫切和多元。高效利用大數(shù)據(jù)技術,充分挖掘醫(yī)療和健康大數(shù)據(jù)的價值,無論對于疾病治療、臨床實效研究、新藥物研發(fā),還是對于基礎醫(yī)學、公共醫(yī)藥衛(wèi)生等,都有著至關重要的意義,不僅有利于擴大醫(yī)療資源供給、降低醫(yī)療成本、提升醫(yī)療服務運行效率,也對國家經(jīng)濟、社會、科技等方方面面產(chǎn)生積極而深遠的影響。
和其他領域的大數(shù)據(jù)一樣,醫(yī)療大數(shù)據(jù)的核心問題是數(shù)據(jù)的處理與分析。而如何提高醫(yī)療大數(shù)據(jù)處理的質(zhì)量則是現(xiàn)在和未來我們面臨的一項重大課題。
數(shù)據(jù)每天都在源源不斷地產(chǎn)生,如今,全世界健康醫(yī)療數(shù)據(jù)已經(jīng)達到了150EB,而且每73天就翻一倍。IDC預測,至2020年,醫(yī)療數(shù)據(jù)量將達40萬億GB,是2010年的30倍。同時,數(shù)據(jù)生成和共享的速度迅速增加,數(shù)據(jù)積累加劇。
在我國,隨著經(jīng)濟社會發(fā)展與人民生活水平的提高,居民的就醫(yī)和健康需求不斷增加,同時,信息化建設持續(xù)推進,相關技術創(chuàng)新不斷升級,醫(yī)療衛(wèi)生領域積累了規(guī)模可觀的“大”數(shù)據(jù)。
目前,我國醫(yī)療大數(shù)據(jù)主要由醫(yī)院臨床數(shù)據(jù)、公共衛(wèi)生數(shù)據(jù)和移動醫(yī)療健康數(shù)據(jù)三大部分組成,各數(shù)據(jù)端口呈現(xiàn)出多樣化且快速增長的發(fā)展趨勢。
這首先要歸功于我國的醫(yī)療衛(wèi)生信息化建設,在近幾年里得到了長足的發(fā)展。各醫(yī)院從單純以財務為中心的信息系統(tǒng)發(fā)展到以病人為中心的信息系統(tǒng),各地相繼建設了區(qū)域衛(wèi)生信息平臺,建設了數(shù)據(jù)中心。我國目前擁有了涵蓋90余萬家醫(yī)療機構的信息庫,輻射到了疾病報告與健康監(jiān)測等各個領域。目前全國超過20%的醫(yī)院都擁有病人、電子病歷為核心的一體化管理系統(tǒng)。
如今,醫(yī)院信息系統(tǒng)(HIS)、電子病歷系統(tǒng)(EMR)、影像采集與傳輸系統(tǒng)(PACS)、實驗室檢查信息系統(tǒng)(LIS)、病理系統(tǒng)(PS)等,甚至包括手術管理系統(tǒng)、耗材及物流管理系統(tǒng),等等,每日產(chǎn)生大量的數(shù)據(jù)。
與此同時,各種醫(yī)療穿戴設備企業(yè)、基因檢測機構、體檢單位也都投身于醫(yī)療和健康大數(shù)據(jù)的搜集應用中來,為我國醫(yī)療和健康大數(shù)據(jù)行業(yè)的發(fā)展奠定了基礎。
尤為值得一提的是可穿戴智能設備的普及。2010年我國可穿戴智能設備的市場規(guī)模僅為0.9億元,到2015年市場規(guī)模就迅速增加到了107.9億元,由此可見,可穿戴智能設備的普及速度極為驚人??纱┐髦悄茉O備的普及,可以實現(xiàn)大規(guī)模、實時、持續(xù)收集患者數(shù)據(jù),從而助力醫(yī)療大數(shù)據(jù)的大發(fā)展。
更為重要的是,相關信息技術的進步,不僅使健康醫(yī)療大數(shù)據(jù)的存儲、分析、應用成為可能,并且進一步豐富了健康醫(yī)療大數(shù)據(jù)的內(nèi)容。
支撐健康醫(yī)療大數(shù)據(jù)的IT技術的進步主要為:數(shù)據(jù)融合、數(shù)據(jù)挖掘、圖像處理識別、機器學習、自然語言處理、數(shù)據(jù)可視化、人工智能等技術取得進步。例如,數(shù)據(jù)融合可將多個醫(yī)療子行業(yè)的數(shù)據(jù)整合分析以產(chǎn)生新的更加精確、連續(xù)、有價值的信息。
當前,大數(shù)據(jù)的快速增長已經(jīng)超出了傳統(tǒng)的信息處理能力,因此醫(yī)療大數(shù)據(jù)需要不斷引入新技術、新概念,提升對運行數(shù)據(jù)的分級管理和分析能力,為管理者和臨床醫(yī)務人員做出準確的工作決策提供依據(jù)。
對此,來自國際方面的醫(yī)學專家建言:第一,確保數(shù)據(jù)的質(zhì)量、采集、和諧、處理、可視化和互操作性;第二,利用計算工具來改善數(shù)據(jù)存取,促進數(shù)據(jù)分析;第三,在決策支持上應有容易使用的、直觀的設備與兼容的格式;第四,對于個人醫(yī)療,使用能夠跟蹤患者信息并快速提供反饋的工具;第五,制定并落實隱私保護和數(shù)據(jù)分享政策;最后,健康數(shù)據(jù)很多,但健康數(shù)據(jù)分析人員數(shù)量不足,應加強相關培訓與教育。
醫(yī)療健康大數(shù)據(jù)與其他領域的大數(shù)據(jù)一樣,擁有4個重要特征,即Volume(大容量)、Velocity(快速更新)、Variety(多類型)和Value(高價值)。
除了具備大數(shù)據(jù)“4個V”的特點之外,醫(yī)療大數(shù)據(jù)還有多態(tài)性、時效性、不完整性、冗余性、隱私性等特點。多態(tài)性指醫(yī)師對病人的描述具有主觀性而難以達到標準化;時效性指數(shù)據(jù)僅在一段時間內(nèi)有用;不完整性指醫(yī)療分析對病人的狀態(tài)描述有偏差和缺失;冗余性指醫(yī)療數(shù)據(jù)存在大量重復或無關的信息;隱私性指用戶的醫(yī)療健康數(shù)據(jù)具有高度的隱私性,泄漏信息會造成嚴重后果。
談到大數(shù)據(jù),業(yè)界僅僅關注“4個V”是不夠的,重要的是針對“4個V”后面用什么新技術解決數(shù)據(jù)的處理和分析問題。
當今之所以叫數(shù)據(jù)時代,或許是因為數(shù)據(jù)已經(jīng)夠多了,但是人類的分析數(shù)據(jù)能力還遠遠不夠。美國Gartner公司的研究表明,人類有史以來90%的數(shù)據(jù)是計算機在最近兩年產(chǎn)生的,其中只對1%的數(shù)據(jù)進行了分析。
IBM副總裁兼沃森健康首席創(chuàng)新科學官Shahram Ebadollahi指出,這些數(shù)據(jù)已經(jīng)不能再使用傳統(tǒng)的編程方式進行數(shù)據(jù)分析,我們必須使用更自動化的模型與方式和數(shù)據(jù)進行溝通。
Shahram Ebadollahi認為,眼下,隨著人工智能已進入認知計算時代,通過機器學習等算法,可以使得計算機更加理解各類健康醫(yī)療大數(shù)據(jù),如基因數(shù)據(jù),理解醫(yī)學影像數(shù)據(jù)等,通過不斷加入的數(shù)據(jù)可以學習數(shù)據(jù)發(fā)展和結局之間的關系等,并能使用友好的界面與人進行交互。未來的醫(yī)療會以知識和數(shù)據(jù)同時作為驅(qū)動點,從而達到縮小知識轉(zhuǎn)化的鴻溝,以及利用數(shù)據(jù)和算法提供出真實世界的證據(jù)。
大數(shù)據(jù)除了帶來存儲、管理、處理數(shù)據(jù)的挑戰(zhàn),也帶來了發(fā)掘數(shù)據(jù)中新的價值的機遇。目前已經(jīng)有多個行業(yè)已經(jīng)利用大數(shù)據(jù)改善業(yè)務,例如金融業(yè)、零售業(yè)、生命科學、環(huán)境研究。在醫(yī)療和健康領域,醫(yī)療大數(shù)據(jù)的發(fā)展可以彌補和解決諸多問題(見表)。
高效利用大數(shù)據(jù)技術,充分挖掘醫(yī)療和健康大數(shù)據(jù)的價值,不僅對于疾病治療、臨床實效研究、新藥物研發(fā),等等,有著至關重要的意義,并且還將對整個國家的經(jīng)濟、社會、科技等方方面面產(chǎn)生深遠的積極影響。
我國政府對健康醫(yī)療大數(shù)據(jù)的發(fā)展不斷加大支持力度。2016年6月,國務院辦公廳印發(fā)了《關于促進和規(guī)范健康醫(yī)療大數(shù)據(jù)應用發(fā)展的指導意見》,將健康醫(yī)療大數(shù)據(jù)應用發(fā)展納入國家大數(shù)據(jù)戰(zhàn)略布局,提出到2020年,初步形成健康醫(yī)療大數(shù)據(jù)產(chǎn)業(yè)體系等目標,并從夯實應用基礎、全面深化應用、規(guī)范和推動“互聯(lián)網(wǎng)+健康醫(yī)療”服務、加強保障體系建設等四個方面部署了十多項重點任務和重大工程。
之后,國家衛(wèi)生和計劃生育委員會統(tǒng)一牽頭組織組建了以國有資本為主體的三大健康醫(yī)療大數(shù)據(jù)集團公司。
國家衛(wèi)生和計劃生育委員會副主任金小桃指出,健康醫(yī)療大數(shù)據(jù)是涉及到國家戰(zhàn)略安全、群眾生命安全以及隱私保護安全的重要戰(zhàn)略性資源。健康醫(yī)療大數(shù)據(jù)以其廣泛的應用性和特殊性未來將對經(jīng)濟發(fā)展產(chǎn)生重大貢獻,必將成為我國國民經(jīng)濟的重要支柱產(chǎn)業(yè)。
前瞻產(chǎn)業(yè)研究院發(fā)布的相關報告顯示,我國健康醫(yī)療大數(shù)據(jù)行業(yè)現(xiàn)在尚處于起步階段。根據(jù)行業(yè)生命周期理論,未來我國健康醫(yī)療大數(shù)據(jù)行業(yè)增長空間較大,這一藍海市場有待進一步挖掘。
從市場需求增長率來看,近幾年健康醫(yī)療大數(shù)據(jù)行業(yè)市場增速超過20%,市場增速較快。隨著應用領域的不斷深入與增加,我國健康醫(yī)療大數(shù)據(jù)行業(yè)市場規(guī)模將會實現(xiàn)快速增長,預計到2020年,我國健康醫(yī)療大數(shù)據(jù)行業(yè)市場規(guī)模將突破800億元。另一方面,從市場競爭來看,布局健康醫(yī)療大數(shù)據(jù)的企業(yè)數(shù)量不斷增多,行業(yè)競爭格局初步成型。
同時,從技術變革來看,數(shù)據(jù)融合、數(shù)據(jù)挖掘、生物檢測技術正在發(fā)生快速變化,健康醫(yī)療大數(shù)據(jù)行業(yè)技術更新?lián)Q代速度較快。綜合來看,目前我國健康醫(yī)療大數(shù)據(jù)還屬于比較新穎的概念,仍有一些技術上的難題和障礙。
中國工程院王辰院士指出:開展健康醫(yī)療大數(shù)據(jù)的研究,盡快實現(xiàn)數(shù)據(jù)集成、管理、分析、共享和價值呈現(xiàn),已經(jīng)成為迫在眉睫的首要任務;開發(fā)轉(zhuǎn)化大數(shù)據(jù)的內(nèi)在價值,通過互聯(lián)網(wǎng)合理共享,也成為促進優(yōu)質(zhì)醫(yī)療資源下沉、醫(yī)學智慧輻射到基層,助推分級診療實現(xiàn)新業(yè)態(tài)的重要任務。
發(fā)現(xiàn)蘊含在歷史數(shù)據(jù)中的從前未知的模式,可用來預測一種疾病什么時候可能會突然變得格外地危及生命。通過這些模式的計算,能夠建立可以預測患者何時處于將要轉(zhuǎn)為高風險狀態(tài)的計算機模型。這樣的模型還是初步的,還需要進一步開發(fā)和測試。
獲得當前和以往的患者信息,是用數(shù)據(jù)分析來預測未來醫(yī)治情況的關鍵要求之一。旨在發(fā)現(xiàn)至關重要隱含模式的健康數(shù)據(jù)分析(通過所有的噪聲找準明確的信號)需要盡可能豐富的數(shù)據(jù)資源。
利用先進的數(shù)據(jù)分析可以揭示蘊含在數(shù)據(jù)中的確定模式,以用來發(fā)布危險提示信號。由于最初并不知道哪些危險信號可能出現(xiàn),因此需要看到模式是否會自行出現(xiàn)。這就需要一個全新的數(shù)據(jù)分析能力。
數(shù)據(jù)分析是大數(shù)據(jù)的核心問題,而在數(shù)據(jù)分析之前,要經(jīng)歷數(shù)據(jù)的清洗、標準化、結構化和存儲等環(huán)節(jié)才能達到分析的程度。
與其他醫(yī)學領域的權威和專家一樣,王辰院士非常強調(diào)要注重大數(shù)據(jù)處理的質(zhì)量。王辰院士同時亦指出,為了更好地推動醫(yī)療大數(shù)據(jù)的發(fā)展,首先要注重數(shù)據(jù)的來源和采集的質(zhì)量。
數(shù)據(jù)反映的是“事實”,但是數(shù)據(jù)又不一定是“事實”。數(shù)據(jù)的這個特點,健康醫(yī)療大數(shù)據(jù)體現(xiàn)得尤為顯著。比如,醫(yī)生在給患者診治的時候,醫(yī)生對病的“事實”認識是不一樣的,并且需要記下來。而從“事實”到醫(yī)生做判斷,是需要一個過程的。在這個過程中,有些數(shù)據(jù)可能就丟掉了,有些數(shù)據(jù)可能是誤解。既是事實,又不是事實,這就是大數(shù)據(jù)的特點。
以往,為了某種研究目標,人們?nèi)ナ占恍┯匈|(zhì)量控制的數(shù)據(jù),目標是很準確的。但是到了大數(shù)據(jù)時代,情況就不一樣了。數(shù)據(jù)不是由人來把控的,在不真實數(shù)據(jù)中,即便有再好的模型和算法,也算不出有價值的結果。
大數(shù)據(jù)的來源是多元的,質(zhì)量是不受控制的,有些數(shù)據(jù)是拿來也不可用的,比如:不可及的碎片化數(shù)據(jù),可及但又是錯誤的數(shù)據(jù),可及、正確但是殘缺、無法修補的數(shù)據(jù)。
王辰院士明確指出:數(shù)據(jù)的質(zhì)量建立在源頭的規(guī)范上,因此,如果要對數(shù)據(jù)做分析,來源必須可靠,同時,對數(shù)據(jù)的采集方法也要有講究,大數(shù)據(jù)不是“紊亂”數(shù)據(jù),要建立標準化、規(guī)范化的原則,才能使數(shù)據(jù)變得能夠分析和可用。
實際上,數(shù)據(jù)的采集非常困難。醫(yī)療數(shù)據(jù)通常來自“院內(nèi)”和“院外”,“院外”數(shù)據(jù)包括線上和線下采集。
“院內(nèi)”是“信息孤島”,因為怎么把院內(nèi)數(shù)據(jù)打通,現(xiàn)在沒有明確的解決方案。在“院外”方面,能用什么方法與服務去采集到數(shù)據(jù),也還在艱難的探索當中。
業(yè)內(nèi)人士表示,線上會有掛號需求、陪診需求、問診需求等,但是終究這樣的數(shù)據(jù)采集質(zhì)量,包括采集的維度,都是極為有限的。像電子的健康檔案、體檢報告,這樣級別的數(shù)據(jù),對于線上來說都是極為困難的。
即便是這樣數(shù)據(jù)的質(zhì)量,最終做健康管理質(zhì)量或許是夠的,但是,對于更高一層級的,比如說,做更深度的醫(yī)療服務,再往上說,作為能夠提供給醫(yī)生科研的依據(jù),像這樣的數(shù)據(jù)就達不到要求。
關于數(shù)據(jù)采集,業(yè)內(nèi)人士表示盡管做出了框架,但是沒有人往里面填數(shù)據(jù),也沒有往上上傳數(shù)據(jù)。如果希望用戶自發(fā)上傳,但是用戶有什么動力來上傳他的數(shù)據(jù)呢?嘗試為用戶提供更多的基于數(shù)據(jù)服務來驅(qū)動他上傳數(shù)據(jù),成本非常高。所以數(shù)據(jù)采集是目前一個非常大的難點。
業(yè)內(nèi)人士呼吁,應進一步推動醫(yī)療服務機構信息化建設,為醫(yī)療數(shù)據(jù)的收集提供采集入口。實施健康醫(yī)療中國云服務計劃,促進“互聯(lián)網(wǎng)+健康醫(yī)療”的創(chuàng)新發(fā)展,積極探索開放健康醫(yī)療數(shù)據(jù)資源的途徑和機制。
醫(yī)療大數(shù)據(jù)的發(fā)展可以彌補和解決諸多問題
毫無疑問,數(shù)據(jù)的搜集必須遵循嚴格的規(guī)程,包括傳統(tǒng)的數(shù)據(jù)收集方法和不斷改進的統(tǒng)計分析方法?,F(xiàn)實中,采集的很多數(shù)據(jù),尤其是在線收集的數(shù)據(jù),局限性太大,這樣的數(shù)據(jù)必須按照嚴格的規(guī)定搜集、具有精準性,才能有價值。
行業(yè)專家指出,問題的解決方案是:綜合使用所有數(shù)據(jù)分析方式,包括結合傳統(tǒng)數(shù)據(jù)和統(tǒng)計方法,加入新數(shù)據(jù)輸入結果和新算法。這樣才會獲得最精準的結果。所以,重要的是,在將傳統(tǒng)的醫(yī)療和科研數(shù)據(jù)的存儲和分析處理方法與大數(shù)據(jù)結合使用的同時,不斷引入可用的新數(shù)據(jù),并且,使受眾能夠廣泛共享和瀏覽數(shù)據(jù)。
試想,如果將所有醫(yī)療與患者的數(shù)據(jù)向數(shù)以千計,甚至數(shù)百萬具有創(chuàng)新思維的群體,以及相關人員開放,那樣會呈現(xiàn)出巨大的經(jīng)濟和社會效益??墒?,知易行難,不在于大家看不到數(shù)據(jù)開放共享的好處,而在于以下原因。
一方面,很多業(yè)內(nèi)人士掌握專利信息數(shù)據(jù),極具競爭力,與現(xiàn)有和潛在的競爭對手分享這些信息會令他們極度不安。
另一方面,健康醫(yī)療數(shù)據(jù)大多數(shù)是“能夠識別公民個人身份和涉及公民個人隱私的電子信息”。這樣的數(shù)據(jù)一旦開放共享,必然伴隨著個人身份和隱私信息泄露的風險。大多數(shù)國家的衛(wèi)生保健機構都不公開患者的健康信息,在西方國家,披露這些數(shù)據(jù)可能會觸犯法律法規(guī)。
行業(yè)專家和有關人士長期呼吁推進健康醫(yī)療大數(shù)據(jù)有條件地開放共享,以提升健康醫(yī)療服務效率和質(zhì)量,不斷滿足人民群眾多層次、多樣化的健康需求。
2016年6月,國務院辦公廳印發(fā)的《關于促進和規(guī)范醫(yī)療大數(shù)據(jù)應用發(fā)展的指導意見》提出:到2017年底,實現(xiàn)國家和省級人口健康信息平臺以及全國藥品招標采購業(yè)務應用平臺互聯(lián)互通,基本形成跨部門健康醫(yī)療數(shù)據(jù)資源共享共用格局;到2020年,建成國家醫(yī)療衛(wèi)生信息分級開放應用平臺。
全國政協(xié)委員、復星集團董事長郭廣昌建言,在確保數(shù)據(jù)安全的前提下,加快推進惡性腫瘤、高血壓等領域的健康醫(yī)療大數(shù)據(jù)開放共享,以提升大數(shù)據(jù)的采集和分析挖掘能力,切實發(fā)揮大數(shù)據(jù)在有關疾病精準防治中的作用。
還有業(yè)內(nèi)人士呼吁全面加快醫(yī)療大數(shù)據(jù)聚合平臺的建設:應大力推進健康醫(yī)療數(shù)據(jù)集聚,加快國家人口數(shù)據(jù)庫、電子健康檔案、電子病歷相關健康醫(yī)療服務數(shù)據(jù)整合,形成國家健康醫(yī)療大數(shù)據(jù)中心;建立國家級慢病、傳染病等健康醫(yī)療專項疾病大數(shù)據(jù)中心……
可喜的是,近年來,我國醫(yī)療云平臺建設步伐加快。全國各地各類醫(yī)療云平臺布局全面、層次豐富,在建設主體和運營模式上也形成了政企合建、市場運營的良好局面。我國智慧醫(yī)療云平臺的構建主要是以人口信息數(shù)據(jù)庫、電子病歷數(shù)據(jù)庫和電子健康檔案數(shù)據(jù)庫等三大數(shù)據(jù)庫為支撐,并通過平臺支持公共衛(wèi)生、計劃生育、醫(yī)療服務、醫(yī)療保障、藥品供應和綜合管理等六大類業(yè)務應用,正逐步形成國家、省、地市和縣的四級區(qū)域人口健康信息平臺。
特別需要注意的是,沒有新的數(shù)據(jù)治理方式,解決不了數(shù)據(jù)共享問題。現(xiàn)在是社會化的數(shù)據(jù)采集、分享方式。原有的自給自足的數(shù)據(jù)治理方式,必須采用新的數(shù)據(jù)治理方式。
中國科學院陳潤生院士就指出,個人醫(yī)療健康信息的激增、醫(yī)療數(shù)據(jù)互聯(lián)融合的發(fā)展趨勢,對隱私安全和數(shù)據(jù)質(zhì)量提出新的挑戰(zhàn),對醫(yī)療健康大數(shù)據(jù)進行治理必然引發(fā)醫(yī)療行業(yè)各機構的共鳴。技術的進步與發(fā)展為醫(yī)療健康大數(shù)據(jù)治理提供可能,但治理意識的培育和強化、參與主體的能動性才是實現(xiàn)醫(yī)療健康大數(shù)據(jù)治理的根本保障。