關鍵詞: 數字健康產業(yè); 數據治理; 五要素集成論; 治理體系; 技術架構
DOI:10.3969 / j.issn.1008-0821.2024.09.011
〔中圖分類號〕G256.5 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2024) 09-0131-11
全球數字化革命的加速發(fā)展, 數字技術逐漸賦能醫(yī)療健康服務, 數字化、網絡化、智能化等現(xiàn)代科技手段的應用, 正在逐漸改變傳統(tǒng)線下醫(yī)療的形態(tài), 數字健康應運而生。尤其是新冠肺炎疫情期間,人工智能、物聯(lián)網、云計算等數字信息技術在醫(yī)療健康領域方面更是起到了重要支撐作用。習近平總書記強調“要高度重視新一代信息技術在醫(yī)藥衛(wèi)生領域的應用, 重塑醫(yī)藥衛(wèi)生管理和服務模式, 優(yōu)化資源配置、提升服務效率”。隨著數字健康作為一種新型服務模式的不斷發(fā)展, 它已經成為醫(yī)療健康領域的新生產力和新發(fā)展方向。同時, 數字健康產業(yè)也進入了高速增長階段, 并逐漸成為數字經濟發(fā)展的新動能。在我國積極推進“數字中國” 和“健康中國” 的背景下, 數字健康產業(yè)正處于數字化轉型的關鍵時期。但是目前我國的數字健康產業(yè)市場發(fā)展尚不成熟, 涉及行業(yè)領域較多, 政府精準管理存在困難, 存在著產業(yè)發(fā)展方向不明晰、產業(yè)數據安全系數低、行業(yè)競爭加劇等問題。
隨著產業(yè)數字化改革的持續(xù)進行, 數字健康產業(yè)中的數據也正在以指數級速度增長, 并且數據結構也愈來愈多元化。但是這些海量、多元的數據大多是存儲與管理在不同的組織和部門之中, 面對跨部門、跨區(qū)域、跨層級的數據, 出現(xiàn)了數據孤島、數據共享困難、數據融合困難、數據安全與隱私保護困難、數據賦能率低等問題。為了促進政府數字化產業(yè)治理、提升數字健康產業(yè)的協(xié)同創(chuàng)新、優(yōu)化產業(yè)資源配置和效率, 以及提升數字健康產業(yè)數據價值, 數據治理成為了數字健康產業(yè)高質量發(fā)展與其數字化轉型升級進程中迫切需要解決的問題。因此, 本文擬通過分析目前數字健康產業(yè)數據現(xiàn)狀和數據治理的必要性, 規(guī)劃數字健康產業(yè)數據治理過程, 提出數字健康產業(yè)治理體系邏輯框架以及技術架構, 以期為未來數字健康產業(yè)數據治理實踐提供理論與技術參考。
1相關研究
1.1數字健康相關研究
隨著數字健康理念的興起, 數字健康相關研究也逐漸成為了一個備受學者們關注的領域。目前,國內外對于數字健康的相關研究主要圍繞理論探討與實踐應用兩個方面。在理論探討方面, 其主要圍繞數字健康的定義、發(fā)展階段等方面, 歐盟[1] 將數字健康定義為利用現(xiàn)代通信技術, 滿足普通公民、病人、醫(yī)務工作者和醫(yī)療決策者的需要的一系列活動。國內學者黃如意等[2] 提出了數字健康的含義有狹義與廣義之分。從狹義上講, 數字健康是指通過數字化、網絡化和智能化技術為醫(yī)療衛(wèi)生服務賦能的過程。從廣義上講, 數字健康是將數字化技術和衛(wèi)生管理相結合。秦建友[3] 基于數字經濟與健康產業(yè)發(fā)展現(xiàn)狀探討數字經濟對健康產業(yè)發(fā)展的重要意義。在數字健康實踐應用方面, Maier E 等[4] 認為,當前數字健康實踐應用成果多屬于數字醫(yī)療服務,主要包括電子醫(yī)療服務、移動醫(yī)療服務和遠程醫(yī)療服務等。Zheng Y L 等[5] 認為, 目前存在的數字健康應用程序可以與腕帶傳感器、心率傳感器、皮帶傳感器、鞋子傳感器等可穿戴設備進行無線同步, 從而獲取更精準的健康信息數據, 為個人健康管理和醫(yī)療決策提供支持。Cross S P 等[6] 認為, 數字心理健康技術與面對面臨床護理的整合使用有潛力提高青少年的護理質量, 提高了其心理健康服務質量。
1.2數據治理相關研究
數據治理是以數據為對象, 在保證數據安全的基礎上, 構建完善的規(guī)則體系, 明確各參與方在數據流通過程中的權責關系, 形成多參與方共享、共治的流通模式, 實現(xiàn)數據價值的最大化[7] 。大數據時代背景下, 國內外學者相繼對數據治理展開研究,研究主題主要分布在概念界定、邏輯框架研究、治理工具探究等方面。
數據治理起源于企業(yè)管理、IT 管理, 近年來已逐漸蔓延到政府、科研院所、產業(yè)等較多的機構和應用場景中, 并出現(xiàn)了政府數據治理、科研數據治理、產業(yè)數據治理等概念。在各類研究中, 數據治理概念定義也較為多樣化, 暫未有統(tǒng)一、明確的定義。夏義堃[8] 從數據的發(fā)展過程出發(fā), 把數據治理視為信息管理中不可或缺的組成部分。樊振佳[9]認為, 數據治理是為了提高數據質量而采取的一系列管理控制活動的集合, 包括對數據資源實施計劃、監(jiān)督和執(zhí)行等。根據國際數據管理協(xié)會[10](Interna?tional Data Management Association, DAMA) 的定義, 數據治理是指對數據資源進行規(guī)劃、監(jiān)控和執(zhí)行等方面的權限與控制。數據治理協(xié)會[11] (TheData Governance Institute, DGI)認為數據治理是一個系統(tǒng), 通過一系列信息相關的流程來實現(xiàn)決策權和職責分工。Seiner R S[12] 認為, 數據治理是對數據以及相關資產進行正式管理和權力實施的過程。
在數據治理框架研究方面, 目前較為系統(tǒng)化、具有指導性的框架主要是現(xiàn)存的一些行業(yè)標準, 如DAMA 框架和DGI 框架。我國數據治理相關國家標準《數據治理規(guī)范》(GB/ T 34960.5-2018)和企業(yè)數據治理系統(tǒng)標準也參考了DAMA 框架、DGI 框架、ISO(國際標準化組織)國際標準框架。目前, 各機構對于數據治理的定義和數據治理實施辦法也各有不同, 但其宗旨都是實現(xiàn)數據統(tǒng)一管理、提高數據質量、挖掘數據的潛在價值。其中, DAMA 框架主要介紹了數據治理的功能與環(huán)境要素, 并闡述了功能與環(huán)境要素之間的對應關系。而DGI 架構則將數據治理的十大要素之間的邏輯聯(lián)系以一種“路徑” 的形式呈現(xiàn)出來, 從而構成了一個從方法論到實現(xiàn)的完整體系[13] 。ISO/IEC 38505-1 將數據治理定義為IT 治理的一個子集或領域, 而IT 治理本身是組織治理或企業(yè)治理的一個子集或領域[14] 。
目前, 數據治理工具主要分為技術手段工具和行政手段工具, 在技術手段工具方面[15-16] , 主要是關注數據的集成與處理能力, 如數據標準體系的構建、數據資產管理、數據處理技術、數據的算法模型與可視化工具、云計算平臺、大數據管理平臺等。行政手段方面則側重于政策法規(guī)體系的建設、數據的審計、數據價值評估、數據資產定價等, 通過業(yè)務驅動, 建立數據的流動, 進而達到組織的協(xié)同。
綜上所述, 目前國內外對于數字健康相關的研究主要在理論探討與實踐應用方面, 對于數據健康產業(yè)數據相關的研究較少。對于數據治理的研究主題主要分布在概念界定、邏輯框架研究、治理工具探究、治理實踐和經驗剖析等方面。為了解決數據治理問題, 學術界雖已提出了一些數據治理框架,但目前現(xiàn)有的框架標準均側重于解決政府與企業(yè)的傳統(tǒng)數據問題, 對于涵蓋多個行業(yè)、企業(yè)方面的產業(yè)數據治理涉及較少, 在數字健康產業(yè)方面的數據治理更是存在空白, 尚未形成統(tǒng)一完善的體系, 并且在技術實現(xiàn)上也缺乏相應的理論依據?;诖耍疚臄M通過闡述數字健康產業(yè)數據現(xiàn)狀和數據治理的必要性, 提出產業(yè)數據治理流程, 基于相關理論構建數據治理體系的邏輯框架, 并在此基礎上提出數字健康產業(yè)數據治理體系的技術架構, 以期為未來數字健康產業(yè)數據治理實踐提供研究路線與借鑒。
2數字健康產業(yè)數據現(xiàn)狀
2.1數字健康產業(yè)數據來源
世界衛(wèi)生組織[17] 認為, 數字健康是指在大數據、云計算、人工智能等新興技術的引領下, 對醫(yī)療市場以及健康服務業(yè)務供給產生重大影響的新興業(yè)務模式、新技術應用、新產品服務、新監(jiān)管方式等, 是醫(yī)療衛(wèi)生與人們的日常生活和社會活動緊密結合的結果。健康產業(yè)是指建立在醫(yī)療保健和生物技術、生命科學的基礎上, 旨在維護、改善人們的身體健康狀況, 向社會大眾提供與健康有直接關系或者密切相關的產品(商品和服務)的一種生產活動集合[2] 。
因此, 結合相關學者對于數字健康以及健康產業(yè)的定義, 本文認為數字健康產業(yè)是指在大數據、云計算、人工智能等新型信息技術的引領下, 以生物技術和生命科學為先導, 涵蓋數字醫(yī)療、數字醫(yī)藥、醫(yī)藥電商、數字醫(yī)保、數字醫(yī)養(yǎng)等健康服務功能的健康產業(yè), 旨在通過數字化技術改善健康管理、提高健康服務質量、提升健康資源共享效率, 從而改善人們的健康水平。
數字健康產業(yè)鏈節(jié)點囊括了數字醫(yī)療、醫(yī)藥電商、數字醫(yī)檢、數字健保、數字康養(yǎng)、器械研發(fā)、醫(yī)藥研發(fā)、信息化廠商、醫(yī)療設備經營商、藥店、醫(yī)院、醫(yī)生學術培訓等行業(yè)。數字健康產業(yè)數據的來源則是涵蓋了整個產業(yè)的上、中、下游中的各個企業(yè)和組織。具體從數據內容來看, 數字健康產業(yè)上游數據內容主要包含了醫(yī)療設備制造商、器械研發(fā)機構提供的醫(yī)療設備數據和生產數據等可公開數據, 以及醫(yī)藥研發(fā)機構提供的臨床試驗數據、藥物相互作用數據等可公開數據; 數字健康產業(yè)中游數據內容主要包含了醫(yī)療信息系統(tǒng)、數字醫(yī)療服務商提供的電子病歷、醫(yī)療影像、就診記錄等部分可公開數據, 以及醫(yī)藥電商提供的消費者健康產品購買記錄、用戶健康檔案等可公開數據。數字健康產業(yè)下游數據內容主要為醫(yī)院、藥店等醫(yī)療健康服務機構提供的患者就診、用藥記錄等可公開的醫(yī)療服務數據以及消費者提供的個人健康檔案、健康管理數據、健康需求數據等可公開數據。
2.2數字健康產業(yè)數據特征
隨著技術的進步和政策的推動, 數字健康產業(yè)不斷發(fā)展和完善, 也更好地服務于社會大眾的健康需求。伴隨產生的則是海量的數字健康產業(yè)數據,依據數字健康行業(yè)的特性, 數字健康產業(yè)的數據特征可以從數據體量龐大且不斷增長、數據的多源性和異構性、數據的敏感性和保密性、數據的流動性4 個維度進行闡述。這些數據特征共同定義了數字健康產業(yè)的復雜性和潛力, 為提高數據治理、醫(yī)療質量、促進健康管理提供了強有力的支持。
1) 數據體量龐大且不斷增長
隨著智能設備和健康監(jiān)測工具的普及, 數字健康產業(yè)數據呈現(xiàn)指數級增長。例如, 在健康大數據分析場景中, 通過處理海量的個人健康數據, 可以發(fā)現(xiàn)疾病發(fā)生的模式和趨勢, 為公共衛(wèi)生決策提供科學依據。
2) 數據的多源性和異構性
數字健康產業(yè)領域涉及的數據類型廣泛, 數據來自各種來源, 包括醫(yī)療機構、設備制造商、器械研發(fā)商、醫(yī)藥研發(fā)商和患者等。數據格式和內容可能有所不同, 需要整合和標準化。例如, 在遠程醫(yī)療場景中, 醫(yī)生需要綜合患者的醫(yī)療歷史、實時健康監(jiān)測數據和生活習慣等多源數據, 以做出更全面的診斷。
3) 數據的敏感性和保密性
由于健康涉及個人隱私, 因此數據安全和隱私保護是行業(yè)的關鍵要求。例如, 在健康信息管理系統(tǒng)中, 必須實施嚴格的數據加密和安全措施, 確保數據安全和隱私安全。
4) 數據的流動性
現(xiàn)代數字健康數據需要實現(xiàn)跨平臺、跨系統(tǒng)的流動與共享。例如,在電子健康記錄的應用場景中,通過電子病歷系統(tǒng)的互操作性,可以實現(xiàn)患者信息的無縫轉移。
2.3數字健康產業(yè)數據治理實踐現(xiàn)狀
在政策立法實踐方面,2016年,國務院辦公廳發(fā)布了《關于促進和規(guī)范健康醫(yī)療大數據應用發(fā)展的指導意見》, 其中明確指出健康醫(yī)療大數據是我國重要的基礎性戰(zhàn)略資源, 應依據新興信息技術的發(fā)展趨勢, 規(guī)范推動健康醫(yī)療大數據融合共享、開放應用。2018 年, 國務院辦公廳發(fā)布《關于促進“互聯(lián)網+醫(yī)療健康” 發(fā)展的意見》中提到, 要加快建設基礎資源信息數據庫, 完善全員人口、電子健康檔案、電子病歷等數據庫, 推動建設統(tǒng)一權威、互聯(lián)互通的全民健康信息平臺, 健全全國醫(yī)療健康數據資源的統(tǒng)一規(guī)范目錄和標準體系。2018 年, 國家衛(wèi)生健康委發(fā)布的《國家健康醫(yī)療大數據標準 安全和服務管理辦法(試行)》中對數據的標準管理、安全管理、服務管理、管理監(jiān)督等提出了詳細的管控辦法。除了健康醫(yī)療大數據相關的專門性行政法規(guī)外, 我國在此期間也頒布了《中華人民共和國網絡安全法》《中華人民共和國數據安全法》以及《中華人民共和國個人信息保護法》3 部法律,其中包含了對于數字健康產業(yè)數據的分類分級、安全合規(guī)評估、個人健康醫(yī)療數據保護等制度, 為醫(yī)療健康行業(yè)提供了配套規(guī)則體系, 初步構成了我國數據治理的基礎性法律體系。
在數字健康產業(yè)數據治理實例方面,CHIMA發(fā)布的《2021—2022 年度中國醫(yī)院信息化狀況調查報告》中提到, 醫(yī)院的電子病歷數據庫逐漸形成, 逐漸重視醫(yī)院信息互聯(lián)互通標準化成熟度測評, 醫(yī)院的信息化建設投入金額也普遍增加。魏玖長等[18]從個性化健康管理服務、醫(yī)療衛(wèi)生服務、公共衛(wèi)生服務、醫(yī)藥服務方面描述了健康醫(yī)療大數據的治理如何賦能大健康產業(yè)升級。張振等[19] 從健康醫(yī)療大數據治理的內容、安全、質量、共享等方面提出了相應的對策和建議。
綜上所述, 目前我國雖然提供了相關的技術文件、部門規(guī)范性文件指引數字健康產業(yè)數據治理,但是數據立法的整體框架的呈現(xiàn)比較模糊和抽象,產業(yè)數據權屬、評估、共享、權利保護以及交易規(guī)則等制度供給也不夠全面、均衡、有效。在數字健康產業(yè)數據治理實例方面, 也較多集中在健康醫(yī)療大數據治理方面, 對于整個數字健康產業(yè)數據治理的實踐較為匱乏。
數字健康產業(yè)是典型的數據集中、以數據為核心資產和業(yè)務的大數據行業(yè), 隨著我國產業(yè)數字化的不斷轉型升級, 數字健康產業(yè)數據資源建設已經發(fā)展到了一定階段, 數據積累也達到了相當規(guī)模,產業(yè)數據具有體量大、結構散等特點。因此, 數字健康產業(yè)亟需打造一個新型、有效的產業(yè)數據治理體系, 通過整合與管理產業(yè)鏈上下游的資源與數據,推動數字健康產業(yè)的可持續(xù)發(fā)展, 充分發(fā)揮產業(yè)數據的強大力量, 實現(xiàn)數字健康產業(yè)主體的協(xié)同發(fā)展。
3數字健康產業(yè)數據治理的必要性與治理過程
3.1 數字健康產業(yè)數據治理的必要性
隨著信息技術的飛速發(fā)展和人們對健康的日益關注, 數字健康產業(yè)迅速興起。在這一背景下, 產生了大量的數字健康產業(yè)數據, 這些數據不僅包括醫(yī)療記錄、患者信息等傳統(tǒng)醫(yī)療數據, 還包括基因組學數據、健康管理數據、移動健康應用數據等新興數據類型。如何促進對這類數據的有序、規(guī)范、安全和高效地使用, 保證數據在數源單位、平臺中心和使用單位之間的高效、優(yōu)質的流通, 是充分發(fā)揮數據要素的作用, 持續(xù)推進數字健康產業(yè)數字化發(fā)展的關鍵。本文將從數據安全、數據質量、數據共享、數據隱私保護和合規(guī)性、數據互操作性和集成需求5 個方面對數字健康產業(yè)數據治理的必要性進行詳細分析。
1) 數據安全需求
從數字健康產業(yè)數據來源分析, 可知數字健康產業(yè)數據的來源主體多, 數據多源且繁雜, 其數據主權、數據邊界界定較為困難, 但數據的挖掘價值較大[20] ; 從數字健康產業(yè)數據內容分析, 數字健康產業(yè)數據中涵蓋生產、臨床試驗以及大量敏感的個人健康數據, 數字健康產業(yè)數據具有更高的隱私性與保密性[19] 。因此, 數字健康產業(yè)數據的安全治理顯得尤為重要。在數據治理過程中, 一方面要對數據從數據來源到數據應用的全生命周期進行管理, 保障數據的可用性; 另一方面需要全面對數據從來源到應用和共享等各個環(huán)節(jié)進行數據安全管理,從管理、技術等多個方面實行分級分類的數據安全防控策略, 為數字健康相關企業(yè)提供有效的數據保護, 以保障其數據權利和商業(yè)機密不受侵犯, 切實保護國家數據資源安全。
2) 數據質量需求
隨著互聯(lián)網、人工智能等科學技術的進一步發(fā)展, 數字健康逐漸成為主流, 數字健康產業(yè)也逐步繁榮, 對于主要依托于互聯(lián)網技術的數字健康產業(yè)來說, 其在發(fā)展、經營過程中產生了海量的數據資源, 數據已成為數字健康企業(yè)和政府的一項重要生產要素。然而, 當前數字健康產業(yè)包含主體眾多,來源廣且繁雜, 由于錄入錯誤、數據不一致、缺乏標準化等問題, 數據質量參差不齊[21] 。因此, 數字健康產業(yè)需要建立數據質量監(jiān)控機制, 規(guī)范數據錄入和整合流程, 提升數據的準確性和一致性。
3) 數據共享需求
數字健康產業(yè)數據范圍、標準等方面的不統(tǒng)一, 使政府部門之間、政府與企業(yè)之間、企業(yè)與企業(yè)之間的數據的多向流動和融合存在較多問題, 沒有形成統(tǒng)一聯(lián)動的共享機制, 數據的歸集、整合、清洗、比對等普遍滯后, 在一定程度上阻礙了海量數據資源的共享[2] 。數字健康產業(yè)的數據治理目標之一是要克服制度、標準和技術等多方面的瓶頸,以有效推動政企間的數據共享, 從而激活數據資源的價值。在數據治理過程中, 結合數據共享與交換需求, 健全數據的定義、范圍、質量管理、安全管理等標準規(guī)范, 建立健全數據分級分類制度, 推進數據的標準化建設, 促進數據的高效互通。因此,數字健康產業(yè)需要建立數據共享的標準和政策, 推動數據共享的開放和安全性。
4) 數據隱私保護和合規(guī)性需求
數字健康產業(yè)涉及大量的個人健康數據, 因此隱私保護和合規(guī)性要求是至關重要的。隨著數據治理法規(guī)的不斷完善, 數字健康產業(yè)需要確保數據處理的合規(guī)性, 保護用戶數據隱私和數據所有權[22] 。因此, 數字健康產業(yè)需要建立嚴格的數據合規(guī)性審核機制, 確保數據使用符合法律法規(guī)和倫理規(guī)范,維護數據主體權益。例如, 在云健康管理平臺中,醫(yī)療機構需要確?;颊叩拿舾行畔⒉粫晃词跈嗟娜藛T訪問。此外, 根據不同的法規(guī), 醫(yī)療機構也需要遵守相應的數據保護法規(guī)。
5) 數據互操作性和集成需求
數字健康產業(yè)需要實現(xiàn)不同數據源之間的互操作性和集成。例如, 在電子病歷系統(tǒng)中, 通過采用標準化的數據格式和接口, 不同醫(yī)療機構之間可以共享患者的健康數據, 從而實現(xiàn)更全面的醫(yī)療服務和協(xié)同工作。
3.2數字健康產業(yè)數據治理過程
通過分析數字健康產業(yè)數據現(xiàn)狀與數據治理的必要性可知, 伴隨著科技與信息技術的不斷進步,數據已經變成了日益重要的生產要素和戰(zhàn)略性資產,如何讓數據創(chuàng)造更多的價值, 發(fā)揮數據要素作用,推動數字健康產業(yè)的建設與發(fā)展, 為政府產業(yè)數字化治理與企業(yè)精準決策提供數據輔助, 產業(yè)數據治理已成為當前迫切需要解決的問題。數據治理是組織中涉及數據使用的一整套管理行為, 數字健康產業(yè)數據治理是指各級政府對于產業(yè)數據價值的挖掘與利用, 主要是通過利用云計算、人工智能、物聯(lián)網等智能技術, 對數據使用的過程進行規(guī)劃、指導、執(zhí)行、監(jiān)督和評估等, 不斷挖掘數據潛力, 使得數據不斷地重新賦能數字健康產業(yè)[23] 。PDCA(Plan-Do-Check-Action)是全面質量管理理論的思想基礎和管理依據, 其基本原理是通過反復地循環(huán)執(zhí)行直到問題解決。從數據治理成熟度模型[24] 可知, 數據治理是一個包含管理建構和技術建構雙重屬性的復雜體系, 數字健康產業(yè)數據治理作為數據治理的一個特殊應用場景, 其自身也是一項具有雙重屬性的復雜任務, 借鑒PDCA 循環(huán)理論的方法與迭代思路對其進行持續(xù)性改進具有重要意義。因此, 本文結合PDCA 循環(huán)理論設計了數字健康產業(yè)數據治理過程, 具體數據治理過程如圖1所示。
規(guī)劃階段主要是針對數據治理實施工作進行的前期規(guī)劃和設計, 主要包括分析數字健康產業(yè)多源數據狀態(tài)、制定數字健康產業(yè)數據治理目標、建立數字健康產業(yè)數據治理體系、定義數字健康產業(yè)數據標準等事項; 實施階段是數據治理的具體實踐的操作階段, 其主要是在依據規(guī)劃階段的基礎上進行技術層面的研發(fā)和實施, 主要包含數字健康產業(yè)數據的采集、清洗、存儲、計算、服務等操作; 評估和改進階段主要是通過制定相應的考核標準和制度評價體系對其數據治理效果進行評估, 并在之后進行實時的監(jiān)控, 當數據治理效果不理想或者達不到相應的評價標準時, 即可考慮對數據治理體系進行改進。
4數字健康產業(yè)數據治理體系
4.1數字健康產業(yè)數據治理體系邏輯框架
數字健康產業(yè)數據治理體系的邏輯框架是解決數據治理相關問題的理論研究和技術實踐的基礎,揭示了數據治理問題的分析框架和研究邏輯。自數據治理被提出以來, 國外相繼形成了DAMA 框架、DGI、IBM 等框架, 這些框架在開發(fā)的過程中主要是依據西方特有的場景和標準, 在一定程度上并不適合我國的國情?!缎畔⒓夹g服務_治理第5 部分:數據治理規(guī)范》(GB/ T 34960.5—2018, 簡稱《數據治理規(guī)范》)是由我國頒布的一個數據治理規(guī)范,從信息技術服務視角提供了數據治理通用框架[25] ,但是其缺乏從多維度對數據治理進行梳理。在數據治理理論基礎的選擇上, 當前研究多聚焦于治理主體、客體、活動和目標等關乎體系構成內容的多元理論選擇[26] , 目前基于五要素集成論的理論視角的方法論是構建數據治理體系邏輯框架的主流, 適用于大數據的治理分析[27-28] 。因此, 本文以《數據治理規(guī)范》和五要素集成論為理論基礎, 從治理主體、治理客體、治理活動、治理工具、治理目標5 個維度去分析和構建數字健康產業(yè)數據治理體系邏輯框架, 如圖2 所示, 其邏輯流程主要是治理主體圍繞治理目標, 通過對治理客體利用相應的治理工具, 開展一系列的諸如數據采集、存儲、計算等治理活動, 進而實現(xiàn)一系列的數字健康產業(yè)數據治理目標。
1) 治理主體
數字健康產業(yè)數據的治理主體由政府機構與數字健康相關行業(yè)、企業(yè)以及醫(yī)療機構等組成, 它是一個以政府機構為主導的多層次的多元治理主體。政府主體主要包含數字健康產業(yè)領域的職能管理部門、數據管理機構等。數字健康行業(yè)主體是指旨在統(tǒng)籌、引領和推動整個數字健康產業(yè)發(fā)展的組織。這些組織通常由政府機構、行業(yè)協(xié)會、專業(yè)團體或跨國組織等建立和運營。其職責包括制定行業(yè)標準、促進技術創(chuàng)新、倡導政策制定、協(xié)調各方利益關系、推動行業(yè)合作與發(fā)展等。數字健康企業(yè)主體則主要包含數字醫(yī)療、數字醫(yī)檢、數字健保、數字康養(yǎng)、醫(yī)藥電商、器械研發(fā)、醫(yī)藥研發(fā)、信息化廠商、醫(yī)療設備經營商等企業(yè)。醫(yī)療機構主體則是以醫(yī)院為首, 具備醫(yī)療服務資質和條件, 能夠提供醫(yī)療診療、治療、護理等醫(yī)療服務的實體或組織, 其在數字健康產業(yè)中扮演著至關重要的角色, 是醫(yī)療服務提供的主體單位。
在進行數字健康產業(yè)數據治理時, 要充分發(fā)揮政府主體內部之間、政府與其他治理主體之間的數據共享與協(xié)同, 使得產業(yè)數據支撐起整個數字健康產業(yè)戰(zhàn)略部署, 共同營造內外共治共享的服務狀態(tài)。治理主體的核心內涵即政府主導下的多元主體合作,因而在治理過程中要明確數據權屬關系和各組織在治理過程中的角色與責任, 精確部署機構數據治理行動, 促進數字健康產業(yè)數據的協(xié)同共享。
2) 治理客體
數字健康產業(yè)數據治理客體是指在數字化健康醫(yī)療領域中產生的各類信息和統(tǒng)計資料, 涵蓋了醫(yī)療、健康管理、醫(yī)學研究等方面的數據。這些數據來自數字醫(yī)療、醫(yī)藥電商、數字醫(yī)檢、數字健保、數字康養(yǎng)、器械研發(fā)、醫(yī)藥研發(fā)、信息化廠商、醫(yī)療設備經營商、醫(yī)療機構等多個信息源, 數據資源呈現(xiàn)出數據來源多樣性、數據體量巨大、數據產生速度快等特征。從數字健康產業(yè)數據結構來說, 其主要劃分為結構化數據、半結構化數據以及非結構化數據。從其數據內容來說, 主要包含行業(yè)統(tǒng)計數據、工商注冊數據、政策法規(guī)數據、企業(yè)內部數據、產品數據、外部市場數據、健康醫(yī)療數據等。由于數字健康產業(yè)自身的特征等原因, 其數據涉及治療、研發(fā)、生產、管理、運維、服務等多個環(huán)節(jié), 尤其是涉及的海量健康醫(yī)療數據相較于其他類型的數據,其商業(yè)價值更高, 但同時也導致了網絡勒索、個人健康數據非法交易、侵犯公民隱私等數據安全問題的出現(xiàn)。
3) 治理活動
數字健康產業(yè)數據治理活動覆蓋了數據全生命周期、數據處理和管理的關鍵業(yè)務節(jié)點, 主要包含數據采集、數據存儲、數據計算、數據資產管理、數據服務等環(huán)節(jié), 使得數字健康產業(yè)數據在相關技術的支持下服務于數字健康產業(yè)的發(fā)展以及政府和企業(yè)的戰(zhàn)略決策中。其中, 數據資產管理是數字健康產業(yè)數據治理活動中的核心環(huán)節(jié), 主要有數據標準管理、元數據管理、主數據管理、數據質量管理、數據安全管理、數據生命周期等內容, 通過此范圍進行管理, 可以對數字健康產業(yè)要利用或產生的業(yè)務數據進行準確性、及時性保障。
4) 治理工具
治理工具主要包含行政手段與技術手段, 即管理性工具與技術性工具。管理性工具主要包括數據治理策略、政策、流程和共享模式等。數據治理策略是制定和規(guī)劃數據治理目標、范圍、優(yōu)先級和方法的指導性文件, 包括數據治理的愿景、使命、目標、原則和戰(zhàn)略規(guī)劃; 政策是針對數據管理和使用所制定的規(guī)則和標準, 涉及數據安全、隱私保護、數據共享和合規(guī)性等方面, 數字健康產業(yè)由于涵蓋了醫(yī)院等醫(yī)療機構, 因而其在一定程度上要遵循我國發(fā)布的衛(wèi)生健康等政策; 流程則包括數據采集、存儲、處理、分析、共享和監(jiān)管等環(huán)節(jié)的具體操作流程; 數字健康產業(yè)主體的共享模式旨在通過共享資源、數據和服務, 實現(xiàn)產業(yè)鏈上各個主體之間的協(xié)同合作, 從而促進數字健康產業(yè)的發(fā)展和提升整體效益, 是一種政府主導下的一種行政調節(jié)手段。管理性工具的作用在于為數字健康產業(yè)數據治理提供框架和指導, 確保數據管理和使用符合規(guī)范與戰(zhàn)略目標。
技術工具主要是指從信息技術方面提升數據匯聚與處理的能力, 常用的技術主要有數據采集技術、數據存儲技術、數據集成技術、數據安全技術、大數據處理技術、機器學習技術等, 例如將區(qū)塊鏈技術應用于數字健康產業(yè), 在一定程度上可以很好地解決數據孤島現(xiàn)象, 提升產業(yè)數據要素的數量和質量。技術性工具的作用在于幫助數字健康產業(yè)實現(xiàn)數據安全、高質量和便捷共享, 提升數據管理效率和價值。通過管理性工具與技術性工具的融合使用,來實現(xiàn)數字健康產業(yè)數據治理目標, 進而深度挖掘數據價值。
5) 治理目標
數字健康產業(yè)數據治理是一個長期動態(tài)變化的數據治理過程, 鑒于醫(yī)療健康數據資源的特殊性,其數據治理是在確保數據安全和隱私保護的前提下,促進數字醫(yī)療技術的創(chuàng)新和發(fā)展, 優(yōu)化醫(yī)療資源配置, 促進跨界的合作與互聯(lián)互通, 強調數字化、信息化和跨界合作的特征。結合數字健康產業(yè)數據治理的必要性, 可知其治理目標要圍繞保障數據安全、提升數據質量、促進共享協(xié)同、保證數據合規(guī)4 個方面。從數據角度來看, 通過數據采集、數據集成、數據計算等一系列數據治理活動的開展以及相應的數據治理工具的使用, 在一定程度上提升了數據的質量, 保障了數據安全。從組織層面來看, 開展數據治理活動可以降低各個機構對于數據資源的重復建設, 在此基礎上, 可以在一定程度上減少數據的處理費用, 從而達到收集、共享、協(xié)作和合規(guī)的目標。
4.2數字健康產業(yè)數據治理體系技術架構
4.2.1設計思路
隨著大數據、人工智能技術的發(fā)展, 數據需求也隨之不斷增大, 同時數據資源在不同系統(tǒng)、不同部門之間的數據孤島問題也日益突出。在此背景下,數據中臺的概念被提出并用來解決政府和企業(yè)在數據治理與協(xié)同方面的問題, 提升數據資源的管理效率和價值。數據中臺是一種數據應用機制, 它將數據持續(xù)轉化為資產, 為企業(yè)提供服務, 它擁有聚集整合、提取處理、可視化服務和價值轉化等核心功能[29] 。尤其具有處理多種類數據、架構更具模塊化和開放、數據安全和隱私保護性較高等優(yōu)勢。
目前數據中臺已成為各大企業(yè)進行數智化轉型的關鍵路徑和數據治理方面的重要概念。Gart?ner[30] 在2016 年的“Pace-layered Application Strat?egy” 報告中指出, 應該將企業(yè)的商業(yè)系統(tǒng)分為前臺、中臺、后端3 個層級, 并指出中臺的核心角色是以靈活的方式對前臺的應用需求做出反應。2015年, 阿里巴巴首次在IT 行業(yè)啟動中臺戰(zhàn)略, 其主要核心為構建企業(yè)核心資源和共性技術的可重復使用能力, 避免重復構建, 提高開發(fā)效率, 爭取將數據中臺打造成融合多條業(yè)務系統(tǒng)數據的信息共享和服務發(fā)布平臺[31] 。并且在數據治理的各個環(huán)節(jié)中,Hadoop 大數據技術多用于治理活動過程中的標準化工具組件和功能開發(fā)[32] 。因此, 基于“復用”“共享” 的數據中臺概念內涵, 本文設計了基于數據中臺的數據治理體系技術架構, 為數字健康產業(yè)數據治理指明了技術路線。其基本思路為通過對全域的產業(yè)數據進行匯集, 構建數據中臺, 然后建立可復用的數字健康產業(yè)應用服務, 從而提高業(yè)務需求的響應速度和應用開發(fā)的迭代速度。
4.2.2技術架構搭建
本文在數字健康產業(yè)數據治理體系邏輯框架的基礎上, 并基于數字健康產業(yè)數據治理技術架構設計思路, 采用Hadoop 大數據技術, 搭建了數字健康產業(yè)數據治理技術架構。數字健康產業(yè)數據治理技術架構整體上包括基礎設施、數據源、數據中臺、應用服務四大模塊建設內容, 具體如圖3 所示。
1) 基礎設施
基礎設施主要是由網絡、存儲、計算、安全等軟硬件設施構成, 為數字健康產業(yè)數據中臺提供資源與技術支持, 保障整個技術架構的平穩(wěn)運行。
2) 數據源
數據源是指數字健康產業(yè)鏈上、中、下游的鏈條組織機構中涉及的可公開和可利用的數據。其中,產業(yè)上游數據主要包括醫(yī)療設備制造商端數據、器械研發(fā)機構端數據、醫(yī)藥研發(fā)企業(yè)端數據等, 產業(yè)中游數據主要包括醫(yī)療信息系統(tǒng)數據、數字醫(yī)療服務商數據、醫(yī)療電商數據, 產業(yè)下游數據主要包括醫(yī)院等醫(yī)療機構端數據。
3) 數據中臺
數據中臺是指對數字健康產業(yè)中的數據資源進行整合和共享, 構建一個數據生態(tài)系統(tǒng), 提供數據服務和數據產品, 提高數據質量和效率。其數據治理流程分為數據采集、數據存儲、數據計算、數據資產管理、數據服務5 個模塊。
數據采集模塊是指對數字健康產業(yè)全域相關數據資源進行匯聚融合, 通過爬蟲、填報、對接等操作采集數字健康產業(yè)上、中、下游的數據資源, 實現(xiàn)數據采集、轉換、清洗、脫敏、加載等功能, 打破數據孤島現(xiàn)象, 形成共享數據中心, 為更高層業(yè)務提供數據支撐。其涉及的技術主要包含DataX、Sqoop、Kafka、Storm、Flink、Flume 等。
數據存儲模塊的作用是存儲各種采集到的數據, 并將這些數據經過一定的處理解析成文件數據、結構化數據和半結構化數據等不同類型, 然后分別存儲到相應類型的數據庫中。例如, 文件數據通常被存儲在HDFS 中, 半結構化數據則被存入HBase 等數據庫, 而結構化數據則存儲在MySQL 等數據庫中。本模塊設計的數據庫技術主要有HDFS、Hive、HBase、Impala、Redis、MySQL等。
數據計算模塊的目標是通過相關技術對接入的數據進行清洗、挖掘、分析等處理, 主要包括離線計算(MapReduce)、實時計算(SparkSteaming)、算法計算(TensorFlow); 離線計算適用于對大規(guī)模數據進行批處理分析。在數字健康產業(yè)中, 可以利用離線計算技術對大量的醫(yī)療記錄、生物監(jiān)測等數據進行清洗和分析。實時計算適用于對數據流進行實時處理和分析, 能夠及時發(fā)現(xiàn)并處理數據中的異常情況。在數字健康產業(yè)中, 可以利用SparkStream?ing對醫(yī)療監(jiān)測設備產生的數據流進行實時監(jiān)控和分析。算法計算在數字健康產業(yè)中也扮演著重要角色, 主要是利用機器學習和深度學習算法對醫(yī)療數據進行挖掘和分析。
數據資產管理模塊貫穿于整個數據治理的全生命周期, 其為數據采集、數據存儲、數據計算、數據服務提供統(tǒng)一的制度規(guī)范和標準, 主要包含元數據管理、主數據管理、數據標準、數據質量、數據血緣、數據生命周期、數據安全。
數據服務模塊是對數據、模型和算法進行邏輯封裝, 生成相應的API 服務, 供數字健康產業(yè)應用快速調用, 數字健康產業(yè)的數據服務類型主要包含API 引擎、BI 平臺、統(tǒng)一查詢服務、統(tǒng)一標簽服務、數據共享服務、指標監(jiān)控服務、可視化與報表。
4) 應用服務
應用服務是依據數字健康產業(yè)中的實際業(yè)務需求而建立的, 旨在發(fā)揮數字健康產業(yè)數據的效用價值, 提升政府的數字化產業(yè)治理能力和企業(yè)的數字化服務質量。其涉及的應用服務主要包括數字健康產業(yè)全景、數字健康產業(yè)監(jiān)測與診斷、智能公共衛(wèi)生服務、智能醫(yī)療資源分配、醫(yī)藥研發(fā)預測等。在不同的應用服務中, 不同的服務功能可以通過調用數據中臺的API 服務接口來實現(xiàn)敏捷開發(fā)和迭代。
5 結論與展望
構建數字健康產業(yè)數據治理體系邏輯框架與技術架構是部署數據治理活動、提升政府數字化精準產業(yè)治理與提高企業(yè)數字化能力的基礎。本文在數字健康產業(yè)數據現(xiàn)狀背景下, 分析了數字健康產業(yè)數據治理的必要性, 提出了數字健康產業(yè)數據治理過程, 構建了數字健康產業(yè)數據治理體系邏輯框架和技術架構, 其中得出的主要結論如下: ①結合數字健康相關場景, 從數字健康產業(yè)數據來源、數據特征和數據治理實踐現(xiàn)狀對數字健康產業(yè)數據現(xiàn)狀進行了詳細的分析和概括; ②結合PDCA 循環(huán)理論設計了包含規(guī)劃、實施、評估和改進、處理與反饋的數字健康產業(yè)數據治理流程; ③從治理主體、治理客體、治理活動、治理工具、治理目標5 個維度出發(fā), 構建了數字健康產業(yè)數據治理體系邏輯框架,其主要邏輯為政府機構與數字健康相關行業(yè)、企業(yè)以及醫(yī)療機構圍繞保障數據安全、提升數據質量、促進共享協(xié)同、保證數據合規(guī)等治理目標, 采用管理性工具與技術性工具對數字健康產業(yè)中的海量多源異構數據開展一系列諸如數據采集、數據存儲、數據計算、數據資產管理、數據服務等治理活動;④以Hadoop 大數據技術生態(tài)和數據中臺為基礎,搭建了數字健康產業(yè)數據治理技術架構, 其整體上包括基礎設施、數據源、數據中臺、應用服務四大模塊建設內容。
本文豐富了數字健康產業(yè)數據治理理論體系研究和技術實踐的發(fā)展, 為數字健康產業(yè)數據治理提供了借鑒, 從而充分挖掘產業(yè)數據價值, 推進了數字健康產業(yè)的數字化治理。此外, 本文構建的數字健康產業(yè)數據治理體系邏輯框架與技術架構, 主要是從相關的理論出發(fā)進行搭建, 在實際應用場景中的兼容性與可擴展性仍需進一步檢驗。因此, 后續(xù)的研究中需聚焦于數字健康產業(yè)具體應用情境開展數據治理實踐, 讓數字健康產業(yè)數據治理體系邏輯框架與技術架構在具體的實踐中不斷地細化和完善, 為我國數字健康產業(yè)數據治理打下堅實基礎。