黃玉蕾 孫龍華 常 安 魏云龍(西安培華學(xué)院,陜西 西安710125)
隨著我國Internet 的飛速發(fā)展,諸如“互聯(lián)網(wǎng)+”、大數(shù)據(jù)、數(shù)據(jù)和人工智能(AI)的技術(shù)越來越多地涉及醫(yī)療領(lǐng)域。智慧醫(yī)療的概念,最早是IBM 在2009 年提出的智慧地球中誕生出來的。根據(jù)IBM 的統(tǒng)計(jì)結(jié)果,在上海,每天能產(chǎn)生一百萬條數(shù)據(jù),已經(jīng)建立三千萬的電子檔案,調(diào)閱次數(shù)達(dá)到一億次每天,總的數(shù)據(jù)量達(dá)到了二十億。隨著大數(shù)據(jù)時(shí)代的到來,醫(yī)療行業(yè)也從傳統(tǒng)的醫(yī)療方式進(jìn)入到了智慧醫(yī)療時(shí)代。
在現(xiàn)有的技術(shù)中,騰訊的人工智能實(shí)驗(yàn)室提出了基于AI 來輔助帕金森氏病診斷。其他方面,也有很多在線的診斷服務(wù)。如丁香醫(yī)生、谷歌醫(yī)生,這些平臺(tái)技術(shù)上很專業(yè),具有較高的準(zhǔn)確性,但與此同時(shí),由于其專業(yè)性太強(qiáng),導(dǎo)致受眾面狹窄。并且,即使通過了線上的問診,后續(xù)患者還得到醫(yī)院繼續(xù)進(jìn)行物理治療及手術(shù)輔助治療等。本文設(shè)計(jì)基于數(shù)據(jù)挖掘算法的智能醫(yī)療服務(wù)系統(tǒng),以改善醫(yī)療環(huán)境,并提高治療服務(wù)水平。
整體的系統(tǒng)架構(gòu)如圖1 所示,分為四層:數(shù)據(jù)采集層、數(shù)據(jù)存儲(chǔ)層、信息分析層、應(yīng)用服務(wù)層。數(shù)據(jù)采集層,主要應(yīng)用物聯(lián)網(wǎng)技術(shù)和移動(dòng)無線技術(shù),對(duì)醫(yī)用器械的進(jìn)行信息采集,然后將數(shù)據(jù)傳輸?shù)紿adoop 大數(shù)據(jù)存儲(chǔ)層。在數(shù)據(jù)存儲(chǔ)層,使用HDFS和HBase 完成對(duì)非關(guān)系型的數(shù)據(jù)存儲(chǔ),使用MapReduce 算法,將數(shù)據(jù)處理后,部分?jǐn)?shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù),存儲(chǔ)到Greenplum 分布式數(shù)據(jù)庫中。相關(guān)的數(shù)據(jù),經(jīng)過Datax 數(shù)據(jù)集成服務(wù),將數(shù)據(jù)整合到數(shù)據(jù)倉中,支持上面的數(shù)據(jù)挖掘和數(shù)據(jù)分析,將結(jié)果提供給應(yīng)用服務(wù)。
圖1 系統(tǒng)架構(gòu)圖
標(biāo)簽信息的數(shù)據(jù)采集,主要來自RFID 的標(biāo)簽數(shù)據(jù)采。通過采集RFID 數(shù)據(jù),可以實(shí)現(xiàn)各種醫(yī)療器械的信息采集。醫(yī)療設(shè)備的標(biāo)簽信息采集,在整個(gè)流程上必須嚴(yán)格遵守醫(yī)院的相關(guān)管理規(guī)定。從這些器材的入庫、登記、存儲(chǔ)、到器材的出庫、使用等,都需要完整的跟蹤。
對(duì)標(biāo)簽信息的數(shù)據(jù)存儲(chǔ),主要采用Hadoop 進(jìn)行存儲(chǔ)。采用這種分布式的存儲(chǔ)架構(gòu),可以滿足多個(gè)院室的數(shù)據(jù)存儲(chǔ)需求,并可借助hadoop 的高可用架構(gòu)設(shè)計(jì),為數(shù)據(jù)的安全性提供保證。這些非關(guān)系型的數(shù)據(jù),使用MapReduce 算法處理后,將部分的數(shù)據(jù),轉(zhuǎn)換成關(guān)系型數(shù)據(jù),導(dǎo)入到分布式計(jì)算引擎Greenplum 集群中,以便整合各個(gè)分析主題,構(gòu)建出數(shù)據(jù)倉庫。
整個(gè)信息分析層分為兩個(gè)部分:第一部分是醫(yī)療數(shù)據(jù)倉庫,第二部分是數(shù)據(jù)挖掘和數(shù)據(jù)分析模塊。
本平臺(tái)采用的是星型架構(gòu)設(shè)計(jì)數(shù)據(jù)倉庫,所謂的星型架構(gòu),就是多個(gè)維表圍繞著一個(gè)事實(shí)表來進(jìn)行數(shù)據(jù)查詢的架構(gòu)。在數(shù)據(jù)倉庫中,一個(gè)數(shù)據(jù)集市中,有多個(gè)分析主題。在此,通過績效管理的主題來說明整個(gè)數(shù)據(jù)倉庫集市的構(gòu)建及數(shù)據(jù)組織,以醫(yī)院管理數(shù)據(jù)集市模型的實(shí)例:結(jié)合醫(yī)院信息作為事實(shí)表,與它們關(guān)聯(lián)的有多個(gè)維度,如:科室維度、醫(yī)生維度、時(shí)間維度、費(fèi)用類別等(表1-5)。
表1 費(fèi)用事實(shí)表
表2 成本事實(shí)表
表3 醫(yī)生維度表
表4 時(shí)間維度表
表5 部門維度表
名稱:最近鄰算法 輸入:預(yù)處理后的數(shù)據(jù)集
過程:(1)設(shè)定參數(shù)k。(2)建立用于存儲(chǔ)最近鄰訓(xùn)練元組的隊(duì)列A,其大小為k 順序按距離由大到小排列。(3)從數(shù)據(jù)集中隨機(jī)地選k 個(gè)元組。(4)分別計(jì)算測(cè)試元組到這k 個(gè)元組的距離,將標(biāo)號(hào)和距離存入A。(5)遍歷訓(xùn)練元組集,計(jì)算與測(cè)試元組的距離,若不小于A 中的最大距離,則 舍棄:否則,刪除A 中最大距離的元組,將當(dāng)前訓(xùn)練元組存入A。(6)統(tǒng)計(jì)A 中各個(gè)分類的出現(xiàn)次數(shù)將最為頻繁的分類作為測(cè)試元組的分類。
整個(gè)系統(tǒng)的軟件環(huán)境是采用運(yùn)行在Windows Server Enterprise 上的信息管理系統(tǒng)來支持前端的信息系統(tǒng)展示。智慧醫(yī)療服務(wù)系統(tǒng)測(cè)試所需要的硬件設(shè)備包括運(yùn)行用戶終端的普通PC 機(jī)和運(yùn)行服務(wù)程序的服務(wù)器。其具體配置情況如服務(wù)器:CPU 主頻3.6GHz、內(nèi)存 8GB DDR4、硬盤2TB 7200r/min。用戶終端:CPU 主頻3.6GHz、內(nèi)存4GB、硬盤2TB 7200r/min。在用戶檔案模塊中如圖2 所示,提供了病人的基本信息、健康信息、歷史病歷照片,為后面決策判斷病人病情提供依據(jù)。
圖2 用戶檔案管理模塊
本文設(shè)計(jì)并實(shí)現(xiàn)了基于大數(shù)據(jù)存儲(chǔ)引擎Hadoop 以及分布式計(jì)算引擎Greenplum,由經(jīng)典分類挖掘算法構(gòu)成的智慧醫(yī)療服務(wù)系統(tǒng)。實(shí)現(xiàn)了醫(yī)療數(shù)據(jù)的采集、存儲(chǔ)、計(jì)算、建模、分析、挖掘、前端交互式展示等功能。
科學(xué)技術(shù)創(chuàng)新2021年14期