黃壽孟 韓強(qiáng) 馮淑娟
摘? 要:目前健康醫(yī)療大數(shù)據(jù)可應(yīng)用于全民健康管理、互聯(lián)網(wǎng)醫(yī)療、民生衛(wèi)生檢測(cè)與疾病預(yù)警等領(lǐng)域,作為公共衛(wèi)生健康事業(yè)的新資源,可優(yōu)化民生健康事業(yè),提高民生醫(yī)療質(zhì)量。針對(duì)目前健康醫(yī)療大數(shù)據(jù)治理的問題,設(shè)計(jì)出滿足用戶需求的健康醫(yī)療智能數(shù)據(jù)治理系統(tǒng),實(shí)現(xiàn)各個(gè)醫(yī)療機(jī)構(gòu)的醫(yī)療數(shù)據(jù)互聯(lián)互通,利用Spark平臺(tái)實(shí)現(xiàn)大數(shù)據(jù)的高速處理以及采用Hive數(shù)據(jù)庫存儲(chǔ),從而提升醫(yī)療大數(shù)據(jù)的可拓展性及高容錯(cuò)性,方便醫(yī)療數(shù)據(jù)分析工作,促進(jìn)全民健康大數(shù)據(jù)管理的發(fā)展。
關(guān)鍵詞:健康醫(yī)療;大數(shù)據(jù);數(shù)據(jù)治理;智能治理
中圖分類號(hào):TP391? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2023)01-0014-05
An Intelligent Governance System Based on Healthcare Big Data
HUANG Shoumeng1,2, HAN Qiang4, FENG Shujuan1,3
(1.School of Information & Intelligence Engineering, University of Sanya, Sanya? 572022, China; 2.Academician Guoliang Chen Team Innovation Center, University of Sanya, Sanya? 572022, China; 3.Academician Chunming Rong Workstation, University of Sanya, Sanya? 572022, China; 4.College of Information Science and Technology, Qiongtai Normal University, Haikou? 571100, China)
Abstract: At present, healthcare big data can be applied to national health management, Internet medical treatment, people's health detection and disease early warning and other fields. As a new resource of public health, it can optimize people's health and improve the quality of people's medical care. Aiming at the current problems of health and medical big data governance, an intelligent health and medical data governance system is designed to meet the needs of users to realize the interconnection of medical data in various medical institutions. Spark platform is used to realize high-speed processing of big data, Hive database is used for storage. So as to improve the scalability and high fault tolerance of medical big data, facilitate medical data analysis, and promote the development of national health big data management.
Keywords: healthcare; big data; data governance; intelligent governance
0? 引? 言
大數(shù)據(jù)改變了人們生活,也引領(lǐng)了人們生活。對(duì)于醫(yī)學(xué)領(lǐng)域的信息化增長(zhǎng),產(chǎn)生了健康醫(yī)療大數(shù)據(jù),國(guó)家衛(wèi)生健康委員會(huì)和地區(qū)衛(wèi)生醫(yī)療機(jī)構(gòu)正積極推動(dòng)健康醫(yī)療大數(shù)據(jù)的匯集和應(yīng)用試點(diǎn),打造當(dāng)?shù)蒯t(yī)療健康大數(shù)據(jù)治理系統(tǒng),為醫(yī)學(xué)數(shù)據(jù)分析、民生醫(yī)療檔案、疾病檢測(cè)等方面提供數(shù)據(jù)基礎(chǔ)[1]。因此對(duì)于健康醫(yī)療大數(shù)據(jù)的治理可提高醫(yī)療數(shù)據(jù)的利用價(jià)值,增強(qiáng)醫(yī)療資源分配管理能力,方便民生就診體驗(yàn),也提高當(dāng)?shù)蒯t(yī)療服務(wù)水平,降低醫(yī)療成本,同時(shí)治理后的數(shù)據(jù)可為健康保險(xiǎn)行業(yè)、醫(yī)藥產(chǎn)業(yè)提供精準(zhǔn)的投保及生產(chǎn)工作[2]。
1? 相關(guān)研究
1.1? 數(shù)據(jù)融合
數(shù)據(jù)融合是指采用現(xiàn)代技術(shù)手段對(duì)某些大數(shù)據(jù)進(jìn)行科學(xué)處理、精確表述、精準(zhǔn)服務(wù),將多源數(shù)據(jù)之間的互補(bǔ)特點(diǎn)更全描述目標(biāo)。數(shù)據(jù)融合(data fusion)最早被應(yīng)用于軍事領(lǐng)域[3],使原來由人工操作與分析處理的大部分功能改為由計(jì)算機(jī)數(shù)據(jù)處理系統(tǒng)快速、準(zhǔn)確、有效地自動(dòng)完成。目前數(shù)據(jù)融合應(yīng)用廣泛,比如醫(yī)療健康的多源影像復(fù)合[4]、無人機(jī)的多任務(wù)、多場(chǎng)景航跡規(guī)則、機(jī)器人的智能儀器系統(tǒng)、車聯(lián)網(wǎng)的識(shí)別專家系統(tǒng)等領(lǐng)域[5-8]。數(shù)據(jù)融合在多信息源、多平臺(tái)、多系統(tǒng)中影響極大,特別是多源異構(gòu)大數(shù)據(jù),它在數(shù)據(jù)分析過程中能起到協(xié)調(diào)作用,加以智能化合成處理,產(chǎn)生更精確可靠全面的估計(jì)和判斷[9]。其實(shí)人類本身就有著卓越的數(shù)據(jù)融合能力,通過視覺、味覺、觸覺、氣味,人類可以對(duì)食物的喜好做出準(zhǔn)確的判斷:這個(gè)是我愛吃的,那個(gè)我不喜歡吃。但如果僅憑一種感覺,我們則無法對(duì)食物的喜好做出這樣的判斷[10]。同樣地,在軍事上,我們希望在比如空對(duì)空防御和地對(duì)空防御中,綜合地基和飛機(jī)電磁信號(hào)數(shù)據(jù)做出更準(zhǔn)確的預(yù)警;在非軍事領(lǐng)域,比如醫(yī)療領(lǐng)域,我們希望通過X射線、核磁共振、目視檢查等多種數(shù)據(jù)進(jìn)行綜合處理來做出更準(zhǔn)確地疾病診斷。
1.2? 健康醫(yī)療大數(shù)據(jù)
近日,國(guó)家衛(wèi)健委公開大力發(fā)展“互聯(lián)網(wǎng)+醫(yī)療健康”的便民活動(dòng)。健康醫(yī)療的主題活動(dòng)也深入各大社區(qū)、醫(yī)院、醫(yī)療機(jī)構(gòu)等活動(dòng)場(chǎng)所,與此同時(shí)也產(chǎn)生出健康醫(yī)療信息化管理平臺(tái)系統(tǒng),這些系統(tǒng)中的大數(shù)據(jù)通常包含以下內(nèi)容:以健康檢查服務(wù)為主的各種健康數(shù)據(jù)、以醫(yī)療保險(xiǎn)服務(wù)為主的各種保險(xiǎn)數(shù)據(jù)、以藥品治療服務(wù)為主的各種醫(yī)藥數(shù)據(jù)、以病癥監(jiān)管服務(wù)為主的各種公共衛(wèi)生數(shù)據(jù)、以患者治理服務(wù)為主的各種行為與情緒數(shù)據(jù)、以醫(yī)療生育服務(wù)為主的各種統(tǒng)計(jì)數(shù)據(jù)、以家庭婚姻服務(wù)為主的各種人口管理數(shù)據(jù)、以健康生活相關(guān)的各種環(huán)境數(shù)據(jù)。
未來健康醫(yī)療信息化技術(shù)人員通過采集與處理這些大數(shù)據(jù),將實(shí)現(xiàn)真正精準(zhǔn)醫(yī)療和“治未病”理念。目前健康醫(yī)療大數(shù)據(jù)已經(jīng)應(yīng)用于數(shù)據(jù)驅(qū)動(dòng)型臨床和手術(shù)決策、支持精準(zhǔn)醫(yī)療以及降低護(hù)理成本等方面。比如亞馬遜云科技可以為醫(yī)療健康與生命科學(xué)客戶提供成熟且方便易用的云服務(wù),可幫助企業(yè)加快創(chuàng)新速度、發(fā)揮健康數(shù)據(jù)的潛力、開發(fā)更個(gè)性化的治療和探索護(hù)理方法。
1.3? 國(guó)內(nèi)外研究現(xiàn)狀
歐美國(guó)家最先建設(shè)了醫(yī)療數(shù)據(jù)庫,處于實(shí)現(xiàn)精確診治的領(lǐng)先地位。2007年美國(guó)建立了醫(yī)療電子信息化監(jiān)測(cè)系統(tǒng),實(shí)現(xiàn)醫(yī)療數(shù)據(jù)資源整合,構(gòu)建醫(yī)療健康大數(shù)據(jù)庫;英國(guó)收集全民醫(yī)學(xué)信息完成國(guó)家醫(yī)療服務(wù)系統(tǒng);丹麥、日本等國(guó)也正完善健康醫(yī)療大數(shù)據(jù)平臺(tái)[11-15];歐盟各國(guó)的醫(yī)療公司也參與共享戰(zhàn)略衛(wèi)生信息化網(wǎng)絡(luò)工程的醫(yī)療信息。
而我國(guó)醫(yī)療大數(shù)據(jù)起步有點(diǎn)慢,醫(yī)療信息化系統(tǒng)還在探索階段。江蘇、福建正收集各地大醫(yī)院就診數(shù)據(jù),南京完成了本市醫(yī)療數(shù)據(jù)中心的建設(shè);2018年上海成立了醫(yī)院共享數(shù)據(jù)中心,可為500家醫(yī)院共享數(shù)據(jù)。本文結(jié)合健康醫(yī)療大數(shù)據(jù)的特點(diǎn),充分利用數(shù)據(jù)融合技術(shù),設(shè)計(jì)出多源異構(gòu)醫(yī)療數(shù)據(jù)的健康醫(yī)療智能數(shù)據(jù)治理系統(tǒng),發(fā)揮健康醫(yī)療數(shù)據(jù)的價(jià)值,監(jiān)控民生健康質(zhì)量,打通醫(yī)療機(jī)構(gòu)數(shù)據(jù)共享瓶頸。
2? 系統(tǒng)設(shè)計(jì)
2.1? 需求分析
通過調(diào)研了解海南省S市10多家醫(yī)療機(jī)構(gòu)的1 200多萬條健康醫(yī)療大數(shù)據(jù),分析這些數(shù)據(jù)的多樣多源異構(gòu),整合匯總到同一個(gè)數(shù)據(jù)庫中,進(jìn)行數(shù)據(jù)治理工作的前期準(zhǔn)備,建立統(tǒng)一的數(shù)據(jù)存儲(chǔ)模式,轉(zhuǎn)換錯(cuò)誤的數(shù)據(jù),準(zhǔn)備數(shù)據(jù)源用例表,如表1所示,進(jìn)行數(shù)據(jù)源配置處理。
另外為了實(shí)現(xiàn)數(shù)據(jù)共享,需要對(duì)多源醫(yī)療數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,打破各醫(yī)療機(jī)構(gòu)的業(yè)務(wù)信息壁壘,實(shí)現(xiàn)健康信息互通,圖1為醫(yī)療數(shù)據(jù)融合用例圖。
2.2? 系統(tǒng)架構(gòu)設(shè)計(jì)
根據(jù)系統(tǒng)的功能需求分析,設(shè)計(jì)出智能治理系統(tǒng)的整體架構(gòu),如圖2所示,最底層是數(shù)據(jù)源,接著對(duì)數(shù)據(jù)源的各種異構(gòu)數(shù)據(jù)統(tǒng)一編碼匹配后存儲(chǔ)于Hive數(shù)據(jù)庫,中間層為數(shù)據(jù)處理階段,采用Spark平臺(tái)進(jìn)行數(shù)據(jù)集成、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)融合等方面的優(yōu)化處理,最后是用戶應(yīng)用層,屬于系統(tǒng)管理的應(yīng)用界面。
2.3? 詳細(xì)設(shè)計(jì)
醫(yī)療智能治理系統(tǒng)首先在數(shù)據(jù)融合前進(jìn)行數(shù)據(jù)集成,即按照統(tǒng)一編碼匹配各種異構(gòu)數(shù)據(jù)優(yōu)化為標(biāo)準(zhǔn)的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)到Hive數(shù)據(jù)庫,為下階段的數(shù)據(jù)融合處理做準(zhǔn)備工作,數(shù)據(jù)集成的具體工作如圖3所示,從中可見從數(shù)據(jù)源開始檢查配置信息,完成數(shù)據(jù)抽取工作,方便記錄日志、查看任務(wù)的進(jìn)度。
數(shù)據(jù)融合處理是本系統(tǒng)的核心功能之一,它通過患者ID索引患者醫(yī)療信息,但不同醫(yī)療機(jī)構(gòu)ID的信息不統(tǒng)一,因此本系統(tǒng)設(shè)計(jì)了一種采用機(jī)器學(xué)習(xí)的規(guī)則匹配算法,它首先對(duì)源數(shù)據(jù)進(jìn)行預(yù)處理,接著通過匹配算法的處理數(shù)據(jù)歸入索引表,匹配不成功可再進(jìn)行人工審核,詳細(xì)流程如圖4所示。
3? 系統(tǒng)實(shí)現(xiàn)
上節(jié)對(duì)系統(tǒng)需求、功能設(shè)計(jì)、詳細(xì)設(shè)計(jì)等內(nèi)容進(jìn)行了說明,接下來就是系統(tǒng)的實(shí)現(xiàn)展示,本系統(tǒng)的功能架構(gòu)如圖5所示。因系統(tǒng)設(shè)計(jì)功能模塊較多,每個(gè)模塊的子功能內(nèi)容較復(fù)雜,使用代碼編程較煩瑣,因此本文只展示其中關(guān)鍵部分。
3.1? 醫(yī)療數(shù)據(jù)集成
由于醫(yī)療大數(shù)據(jù)的特殊性,需要解決不同醫(yī)療機(jī)構(gòu)的數(shù)據(jù)源類型,本系統(tǒng)支持的數(shù)據(jù)源類型有HDFS、HBase、Hive、SQL Server、MySQL、Kudu、0racle、FTP、Teradata、DB2、SFTP。本系統(tǒng)存儲(chǔ)的數(shù)據(jù)倉(cāng)庫為Hive數(shù)據(jù)倉(cāng)庫。數(shù)據(jù)集成功能主要完成數(shù)據(jù)源的增、刪、改、查等準(zhǔn)備工作,還有醫(yī)療數(shù)據(jù)源特有配置信息在配置成功后還要進(jìn)行數(shù)據(jù)抽取和集成信息的連接測(cè)試。其中配置信息包括電話相似度、姓名相似度、出生日期相似度、籍貫相似度、職業(yè)相似度、民族相似度、性別相似度、地址相似度,每項(xiàng)信息的相似度代碼表示方法:值為“1”則代表一致,“0”為不一致,缺失值為“0.5”。完成此項(xiàng)工作后將進(jìn)行機(jī)器學(xué)習(xí)算法——隨機(jī)森林算法的模型訓(xùn)練。
3.2? 醫(yī)療數(shù)據(jù)融合
數(shù)據(jù)融合方法有基于貝葉斯理論的融合模型,比如卡爾曼濾波模型、馬爾科夫模型等,也有基于知識(shí)理論的融合模型,而這些融合方法也有一些缺點(diǎn),要么對(duì)噪聲數(shù)據(jù)敏感,要么對(duì)高維度數(shù)據(jù)處理不當(dāng),要么對(duì)缺失數(shù)據(jù)處理較難。目前許多基于機(jī)器學(xué)習(xí)的數(shù)據(jù)融合模型,本系統(tǒng)設(shè)計(jì)出一種基于深度學(xué)習(xí)隨機(jī)森林算法的數(shù)據(jù)融合方法,構(gòu)建唯一患者主索引ID進(jìn)行關(guān)聯(lián)數(shù)據(jù)融合,加速模型訓(xùn)練及優(yōu)化,解決不同醫(yī)院的數(shù)據(jù)源問題。將數(shù)據(jù)融合處理后統(tǒng)一儲(chǔ)存在Hive數(shù)據(jù)倉(cāng)庫中,解決多源異構(gòu)數(shù)據(jù)的集成融合,當(dāng)模型的訓(xùn)練值達(dá)到需求分析設(shè)計(jì)時(shí)的標(biāo)準(zhǔn)時(shí),還要進(jìn)行審核匹配處理,具體處理過程如圖4所示。若數(shù)據(jù)有缺失項(xiàng)、重復(fù)值、錯(cuò)誤值、空值等問題時(shí),系統(tǒng)將有相應(yīng)驗(yàn)證審核功能模塊來處理,產(chǎn)生監(jiān)控?cái)?shù)據(jù)的日志報(bào)告或數(shù)據(jù)質(zhì)量報(bào)告,從而提高健康醫(yī)療智能治理的數(shù)據(jù)質(zhì)量。
3.3? 系統(tǒng)管理界面
本文所設(shè)計(jì)出的智能治理系統(tǒng)管理界面如圖6所示,本系統(tǒng)管理界面有相應(yīng)的功能管理模塊:醫(yī)療數(shù)據(jù)集成、醫(yī)療數(shù)據(jù)融合、醫(yī)療數(shù)據(jù)可視化、數(shù)據(jù)質(zhì)量管理、日志管理、用戶管理,其中日志管理是數(shù)據(jù)處理各階段產(chǎn)生的日志報(bào)告表,如數(shù)據(jù)源日志表、數(shù)據(jù)集成日志表、數(shù)據(jù)審核日志表、數(shù)據(jù)質(zhì)量日志表等。
3.4? 系統(tǒng)測(cè)試
為了更好地驗(yàn)證本系統(tǒng)的可用性、穩(wěn)定性、安全可靠性等性能,我們進(jìn)行一系列的測(cè)試,具體情況為:
(1)測(cè)試環(huán)境。2臺(tái)Hadoop服務(wù)器(內(nèi)存:512 GB,CPU:48 Core,資源占有率:35%,數(shù)據(jù)庫:Hive,操作系統(tǒng):Linux);2臺(tái)客戶機(jī)(內(nèi)存:32 GB,硬盤:1 TB,操作系統(tǒng):Win 10,瀏覽器:火狐)。
(2)測(cè)試數(shù)據(jù)。收集10所醫(yī)院的真實(shí)數(shù)據(jù),共有11 243 584條數(shù)據(jù),內(nèi)含身份證號(hào)碼3 256 139個(gè)。
(3)測(cè)試內(nèi)容。數(shù)據(jù)源的連接情況、患者配置信息表、數(shù)據(jù)集成抽取情況、數(shù)據(jù)融合索引表、數(shù)據(jù)審核情況、數(shù)據(jù)可視化、用戶日志報(bào)告情況、系統(tǒng)性能測(cè)試等功能范圍,具體測(cè)試用例情況如表2所示。
4? 結(jié)? 論
本文針對(duì)當(dāng)前健康醫(yī)療大數(shù)據(jù)的智能治理特性,設(shè)計(jì)出一種隨機(jī)森林算法的數(shù)據(jù)融合方法,實(shí)現(xiàn)醫(yī)療大數(shù)據(jù)的特殊特征工程,解決多源異構(gòu)數(shù)據(jù)的集成融合,提高信息匹配的效率,實(shí)現(xiàn)醫(yī)療數(shù)據(jù)質(zhì)量管理的多個(gè)區(qū)域數(shù)據(jù)治理項(xiàng)目。總體而言,本系統(tǒng)對(duì)醫(yī)療數(shù)據(jù)進(jìn)行治理有一定的價(jià)值,也有一定的應(yīng)用場(chǎng)景,希望以后添加更多功能模塊,挖掘健康醫(yī)療大數(shù)據(jù)的背后價(jià)值,更好發(fā)揮數(shù)據(jù)智能治理的作用。
參考文獻(xiàn):
[1] 張行.健康醫(yī)療智能數(shù)據(jù)治理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) [D].濟(jì)南:山東大學(xué),2021.
[2] 舒影嵐,陳艷萍,吉臻宇,等.健康醫(yī)療大數(shù)據(jù)研究進(jìn)展 [J].中國(guó)醫(yī)學(xué)裝備,2019,16(1):143-147.
[3] 閆宣辰,姚進(jìn)文,陳耀龍.甘肅省健康醫(yī)療大數(shù)據(jù)治理的實(shí)踐與探索 [J].甘肅醫(yī)藥,2020,39(11):1026-1030.
[4] 王覓也,鄭濤,李楠,等.醫(yī)療大數(shù)據(jù)集成及應(yīng)用平臺(tái)體系構(gòu)建 [J].醫(yī)學(xué)信息學(xué)雜志,2019,40(8):37-42.
[5] 馮淑娟,黃壽孟.跨源多維政務(wù)數(shù)據(jù)治理綜述 [J].網(wǎng)絡(luò)安全和信息化,2021(11):76-79.
[6] 黃壽孟,夏王霞.基于LBSN中錨鏈接方法的鏈路預(yù)測(cè)模型 [J].海南熱帶海洋學(xué)院學(xué)報(bào),2021,28(5):72-77.
[7] 黃壽孟,夏王霞.一種基于LSH技術(shù)的鏈路預(yù)測(cè)方法 [J].信息記錄材料,2021,22(7):139-142.
[8] 黃壽孟.一種基于監(jiān)督學(xué)習(xí)的異構(gòu)網(wǎng)鏈路預(yù)測(cè)模型 [J].計(jì)算機(jī)科學(xué),2021,48(S2):111-116.
[9] OLNES S. Beyond Bitcoin Enabling Smart Government Using Blockchain Technology [EB/OL].[2022-08-02].https://www.docin.com/p-1843278025.html.
[10] ELISA N,YANG L Z,CHAO F,et al. A framework of blockchain-based secure and privacy-preserving E-government system [J].Wireless Networks,2018:1-11.
[11] RASHIDEH W. Blockchain technology framework:Curent and future perspectives for the tourism industry [J].Tourism Management,2020,80[2022-08-02].https://www.sciencedirect.com/science/article/abs/pii/S0261517720300510?via%3Dihub.
[12] ACQUAH M A,CHEN N,PAN J S,et al. Securing Fingerprint Template Using Blockchain and Distributed Storage System [J].Symmetry,2020,12(6):951.
[13] MORABITO V. Big data and analytics:Strategic and Organizational Impacts [M].[S.I.]:Springer,1980.
[14] KIM H Y,CHO J S. Data Governance Framework for Big data Implementation with a Case of Korea [C]//2017 IEEE International Congress on Big Data(BigData Congress).Honolulu:IEEE,2017:384-391.
[15] FAN W F,GEERTS F. Foundations of data quality management:synthesis lectures on data management [EB/OL].[2022-08-04].http://www.morganclaypool.com/doi/abs/10.2200/S00439ED1V01Y201207DTM030?journalCode=dtm.
作者簡(jiǎn)介:黃壽孟(1975—),男,漢族,廣東湛江人,副教授,碩士,研究方向:信息技術(shù)、現(xiàn)代教育技術(shù)研究;通訊作者:韓強(qiáng)(1982—),男,漢族,海南海口人,講師,碩士,研究方向:軟件應(yīng)用、數(shù)據(jù)安全、人工智能。
收稿日期:2022-08-26
基金項(xiàng)目:海南省哲學(xué)社會(huì)科學(xué)2021年規(guī)劃課題(HNSK(ZC)21-109);海南省自然科學(xué)基金項(xiàng)目(622RC735);三亞學(xué)院重大專項(xiàng)課題(USY22XK-04)