劉怡
摘 ? 要:本文主要研究數(shù)據(jù)挖掘技術(shù)在電子病歷系統(tǒng)中的應(yīng)用,首先探究數(shù)據(jù)挖掘技術(shù)應(yīng)用的具體規(guī)則,從數(shù)據(jù)信息的目標(biāo)、數(shù)據(jù)預(yù)處理、創(chuàng)建數(shù)據(jù)模型、聚類(lèi)分析、分析關(guān)聯(lián)規(guī)則五個(gè)方面進(jìn)行總結(jié),然后討論數(shù)據(jù)挖掘技術(shù)在電子病歷系統(tǒng)中的應(yīng)用現(xiàn)狀,接著研究基于數(shù)據(jù)挖掘技術(shù)的電子病歷系統(tǒng)數(shù)據(jù)特點(diǎn),最后討論在電子病歷系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘技術(shù)的效果。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù) ?SQL程序代碼 ?電子病歷系統(tǒng)
中圖分類(lèi)號(hào):TP301.6 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào):1674-098X(2019)02(c)-0136-02
現(xiàn)如今中國(guó)的醫(yī)療領(lǐng)域正在致力于數(shù)字化醫(yī)院的建設(shè),不斷引進(jìn)計(jì)算機(jī)技術(shù)。在邁向無(wú)紙化辦公的過(guò)程中,電子病歷系統(tǒng)應(yīng)運(yùn)而生。電子病歷覆蓋豐富的醫(yī)患活動(dòng)數(shù)據(jù)信息,在運(yùn)用數(shù)據(jù)挖掘技術(shù)應(yīng)用病歷中的信息資源時(shí),要提取其中對(duì)醫(yī)療事業(yè)有幫助的信息,也要挖掘其中隱含的醫(yī)學(xué)診斷規(guī)則,輔助疾病診斷,為治療工作提供正確的決策信息。
1 ?數(shù)據(jù)挖掘技術(shù)的應(yīng)用
1.1 數(shù)據(jù)信息的目標(biāo)
以冠心病為例,在研究病人、疾病的相關(guān)指標(biāo)時(shí),需要對(duì)冠心病進(jìn)行分類(lèi)。在此基礎(chǔ)上才能深入研究探討檢查結(jié)果與用藥之間的關(guān)聯(lián)性,總結(jié)檢查結(jié)果與用藥之間的相關(guān)規(guī)律。這些信息能夠在制定冠心病臨床診療方案時(shí)提供價(jià)值的參考意見(jiàn)。在分類(lèi)冠心病時(shí),要收集大量包含冠心病的基本信息,此外還有入院記錄和病程記錄。在《內(nèi)科學(xué)》、《臨床體征診斷學(xué)》中有與冠心病治療有關(guān)的內(nèi)容,除了要查閱這些文獻(xiàn)之外,還要向心血管疾病的專(zhuān)家征求意見(jiàn)。在基本信息中,有價(jià)值的信息包括住院號(hào)、性別、年齡、入院時(shí)間、入院時(shí)的病情、住院的天數(shù)、治療費(fèi)用、出院時(shí)病人的情況、出院時(shí)間,要為這些信息制定相應(yīng)編號(hào)。入院時(shí)的病情要從特定的角度入手進(jìn)行詢問(wèn),除了冠心病的情況之外,還包括既往病史,選取糖尿病史、肝炎病史、結(jié)核病史、高血壓病史[1]。
1.2 數(shù)據(jù)預(yù)處理
在數(shù)據(jù)挖掘的工作中,數(shù)據(jù)預(yù)處理是十分關(guān)鍵的一項(xiàng)工作內(nèi)容,需要經(jīng)過(guò)數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換三個(gè)階段。在gxbxx庫(kù)中還原已經(jīng)完成備份的表格信息,而且還要對(duì)這些表格信息進(jìn)行重新命名的操作。比如將病程記錄命名為bcjl,將藥品醫(yī)囑命名為ypyz,將檢查檢驗(yàn)命名為jcjy。冠心病共有54個(gè)病狀體征和并發(fā)癥,檢查檢驗(yàn)的項(xiàng)目數(shù)量為50個(gè),用來(lái)治療冠心病的藥品共有50種,要將這些信息全部導(dǎo)入至gxbxx數(shù)據(jù)庫(kù)中,并重新命名。通過(guò)重新命名實(shí)現(xiàn)數(shù)據(jù)信息轉(zhuǎn)換環(huán)節(jié)使用。在對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理時(shí)要用到SQL Server2008,并編寫(xiě)SQL程序代碼。在清洗數(shù)據(jù)的工作中,也要用到SQL技術(shù),需要注意的是在編寫(xiě)SQL相關(guān)語(yǔ)句時(shí)要把拼音字段全部轉(zhuǎn)換成相應(yīng)的中文字段,方便用戶使用。此外還要將與研究?jī)?nèi)容無(wú)關(guān)的所有字段刪除。存在一些字段其名下內(nèi)容為空,或者是字段內(nèi)容相當(dāng)于無(wú)記錄,對(duì)于這些字段的處理是全部刪除。除此之外,還要將其中一些重復(fù)的字段內(nèi)容刪除。
1.3 創(chuàng)建數(shù)據(jù)模型
在創(chuàng)建模型的工作中,需要與聚類(lèi)分析和分析數(shù)據(jù)相對(duì)應(yīng),為此要?jiǎng)?chuàng)建聚類(lèi)分析模型和關(guān)聯(lián)規(guī)則挖掘模型。在聚類(lèi)數(shù)據(jù)模型中共存在68個(gè)屬性,在關(guān)聯(lián)規(guī)則數(shù)據(jù)模型中,共有兩個(gè)屬性,分別是住院號(hào)和編號(hào)。在后續(xù)的挖掘過(guò)程中,模型分析有可能會(huì)發(fā)生改變,針對(duì)這一情況,需要返回到數(shù)據(jù)預(yù)處理的環(huán)節(jié)中,對(duì)數(shù)據(jù)模型加以調(diào)整,使得調(diào)整后的數(shù)據(jù)模型能夠適應(yīng)新的分析模型。如表1所示為聚類(lèi)數(shù)據(jù)模型部分。
1.4 聚類(lèi)分析
在聚類(lèi)分析的過(guò)程中,要先按照某種特定的方法將數(shù)據(jù)合理分類(lèi),聚類(lèi)分為3種,分別是系統(tǒng)聚類(lèi)、快速聚類(lèi)、變量聚類(lèi)。在分類(lèi)觀測(cè)值和樣品時(shí)可以使用系統(tǒng)聚類(lèi),在分類(lèi)大樣品時(shí)要使用快速分類(lèi)這種方法,要聚類(lèi)分析變量時(shí)用到的過(guò)程是系統(tǒng)聚類(lèi)。另外K-Means聚類(lèi)、兩步聚類(lèi)、Kohonen網(wǎng)絡(luò)聚類(lèi)是經(jīng)典的聚類(lèi)方法。為了保證獲得準(zhǔn)確的聚類(lèi)結(jié)果,在做聚類(lèi)分析時(shí)向心血管疾病專(zhuān)家咨詢相關(guān)信息,并以數(shù)據(jù)的特征為依據(jù),將體征、交替脈、白細(xì)胞增高、紅細(xì)胞沉降速率增快這些沒(méi)有出現(xiàn)的數(shù)據(jù)信息刪除[2]。
1.5 分析關(guān)聯(lián)規(guī)則
在關(guān)聯(lián)分析的過(guò)程中,涉及到一項(xiàng)關(guān)鍵的技術(shù),就是關(guān)聯(lián)規(guī)則。在判斷規(guī)則有效性的環(huán)節(jié)中,關(guān)聯(lián)規(guī)則的置信度和支持度是十分常用的指標(biāo)。置信度同時(shí)也是概率,比如用來(lái)說(shuō)明患者同時(shí)服用JJJG和藥品Y的概率。如果有著較高的支持度,則說(shuō)明該規(guī)則有較高的普遍性。關(guān)聯(lián)規(guī)則有效性和實(shí)用性強(qiáng)的特點(diǎn)是具有較高的置信度,不僅如此,還具有較高的支持度。在數(shù)據(jù)挖掘關(guān)聯(lián)技術(shù)中Apriori是最為核心的算法,該算法共有兩個(gè)階段,分別是頻繁項(xiàng)集階段和依據(jù)頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則階段。
2 ?數(shù)據(jù)挖掘技術(shù)在電子病歷系統(tǒng)中的應(yīng)用現(xiàn)狀
世界范圍內(nèi)美國(guó)、日本、英國(guó)這些發(fā)達(dá)國(guó)家在電子病歷方面技術(shù)先進(jìn),中國(guó)的技術(shù)水平與之相比仍然有一定差距。《衛(wèi)生部關(guān)于開(kāi)展電子病歷試點(diǎn)工作的通知》于2010年陸續(xù)下發(fā),相關(guān)內(nèi)容奠定中國(guó)電子病歷發(fā)展的基礎(chǔ)。在智慧養(yǎng)老產(chǎn)業(yè)中,開(kāi)始應(yīng)用電子病歷技術(shù)。由于該產(chǎn)業(yè)尚處于起步和發(fā)展階段,能夠提供的服務(wù)功能也比較有限,主要集中在老人需求的被動(dòng)相應(yīng)方面。在管理和挖掘相關(guān)信息的工作中仍有缺陷??梢园l(fā)現(xiàn)在大部分的智慧養(yǎng)老系統(tǒng)中,只記錄了單一的老人健康信息,包括老人的基本信息、用藥記錄、體檢記錄、就診記錄。而且不同系統(tǒng)的記錄方式也各不相同。因此醫(yī)務(wù)人員也不能在智慧養(yǎng)老系統(tǒng)中實(shí)現(xiàn)有效的信息檢索和信息錄入操作。
3 ?基于數(shù)據(jù)挖掘技術(shù)的電子病歷系統(tǒng)數(shù)據(jù)特點(diǎn)
3.1 多樣性
患者病歷記錄患者在醫(yī)院就診的關(guān)鍵事項(xiàng),運(yùn)用電子病歷系統(tǒng)保存這些數(shù)字化信息。數(shù)據(jù)庫(kù)包含豐富的病歷內(nèi)容,不僅有臨床診療記錄,還有各種類(lèi)型的管理數(shù)據(jù),這些數(shù)據(jù)深刻體現(xiàn)醫(yī)學(xué)數(shù)據(jù)的獨(dú)特性。多樣性是其中十分顯著的特征,信息有著不同的表現(xiàn)形式,其中文字包含的內(nèi)容有患者信息、患者病史信息、醫(yī)生的查房記錄、患者的病程記錄。數(shù)字也是一種信息表現(xiàn)形式,涵蓋的內(nèi)容有體溫、血壓、脈搏等等[3]。此外還圖形圖像,比如心電圖、CT圖和DR圖,最后還有音頻,心音就是通過(guò)這種形式來(lái)展現(xiàn)。電子病歷數(shù)據(jù)的多樣性意味著在挖掘信息時(shí)難度較大,不僅要預(yù)處理數(shù)據(jù),還要轉(zhuǎn)換部分?jǐn)?shù)據(jù)的格式。
3.2 動(dòng)態(tài)性
存在一些電子數(shù)據(jù)具有明顯的時(shí)序性特點(diǎn),也就是說(shuō)這些數(shù)據(jù)會(huì)隨著時(shí)間的推移而不斷產(chǎn)生變化,其中心電圖像和24小時(shí)血壓測(cè)量數(shù)據(jù)就屬于這一類(lèi)信息。甚至患者整個(gè)的病情發(fā)展過(guò)程也有時(shí)序性特點(diǎn),在不同的診療階段中,診療的結(jié)果也在不斷發(fā)生變化,病程的記錄信息也會(huì)發(fā)生變化,呈現(xiàn)出明顯的動(dòng)態(tài)性特征。
3.3 隱私性
在電子病歷系統(tǒng)中,病歷記錄著患者在醫(yī)院診療時(shí)的全部信息,在這些信息中有很多都屬于患者的隱私,不僅身份信息是患者的隱私,患者的病情也屬于患者的隱私。隱私信息暴露,會(huì)給患者的生活帶來(lái)很大的困擾,比如引發(fā)一些倫理糾紛,甚至是法律糾紛。所以在應(yīng)用數(shù)據(jù)挖掘技術(shù)時(shí)應(yīng)當(dāng)充分考慮到如何保護(hù)患者的隱私。
3.4 不完整性
電子病歷會(huì)如實(shí)記錄患者的病情,記錄病歷的目的是治愈患者,而不是研究患者。所以在采集病歷數(shù)據(jù)的過(guò)程中,會(huì)使用一些完整性較弱的處理手段,采集的數(shù)據(jù)也不會(huì)完全包含需要研究的信息。此外,對(duì)于患者而言,疾病本身就具有比較強(qiáng)烈的模糊性,患者在描述疾病時(shí)也會(huì)受到其自身表達(dá)能力的影響,而且醫(yī)護(hù)人員的理解能力也會(huì)導(dǎo)致病歷信息不夠完整,在記錄數(shù)據(jù)時(shí)出現(xiàn)偏差,記錄數(shù)據(jù)不夠完整。
4 ?在電子病歷系統(tǒng)中的應(yīng)用數(shù)據(jù)挖掘技術(shù)的成果
4.1 在診療結(jié)果和用藥方面發(fā)揮關(guān)鍵作用
對(duì)構(gòu)建的模型進(jìn)行有針對(duì)性的評(píng)估,發(fā)現(xiàn)建立的模型有著良好的聚類(lèi)效果,而且其中的關(guān)聯(lián)規(guī)則也發(fā)揮了一定的作用,能夠有效指導(dǎo)臨床診療方案的制定。醫(yī)師在為患者診病時(shí)以醫(yī)院的實(shí)際情況為依據(jù),對(duì)患者進(jìn)行分類(lèi)臨床診療,在制定治病方案時(shí),強(qiáng)關(guān)聯(lián)規(guī)則也能在診療結(jié)果和用藥方面發(fā)揮關(guān)鍵作用。專(zhuān)家分析相關(guān)領(lǐng)域發(fā)現(xiàn)的模型,并給出新穎的評(píng)價(jià),有效應(yīng)用給出的模式,優(yōu)化醫(yī)師的診療流程,或者是為醫(yī)師提供有益的決策意見(jiàn),使得診療的效率有所提升。
4.2 數(shù)據(jù)信息的代表性較弱
數(shù)據(jù)挖掘技術(shù)在病歷系統(tǒng)中的應(yīng)用也存在一些不足之處。在應(yīng)用數(shù)據(jù)的過(guò)程中,如果使用了最小的支持度,就會(huì)出現(xiàn)強(qiáng)規(guī)性弱的問(wèn)題,如果設(shè)置了較大的支持度,就會(huì)出現(xiàn)很多實(shí)用性差的規(guī)則。臨床的實(shí)際工作時(shí)間非常緊迫,通常情況下只會(huì)記錄一些關(guān)鍵的屬性信息,導(dǎo)致電子病歷中出現(xiàn)大量空缺值。由于在對(duì)數(shù)據(jù)進(jìn)行預(yù)處理的工作中,存在重復(fù)記錄的情況,使得數(shù)據(jù)挖掘最終出現(xiàn)了很多與病歷無(wú)關(guān)的屬性,使得預(yù)處理的速度明顯降低。另外屬性的涵義難以理解也是應(yīng)用數(shù)據(jù)挖掘技術(shù)體現(xiàn)的不足之處[4]。屬性代碼都是用第一個(gè)字母組合而成,只有內(nèi)部人員和使用這些信息的醫(yī)院工作人員才能理解,對(duì)于其他人來(lái)說(shuō),則完全無(wú)法理解這些特殊符號(hào)的涵義。這意味著數(shù)據(jù)挖掘?qū)ο筮x取受到極大阻礙,也使數(shù)據(jù)挖掘技術(shù)的使用效果受到影響。在應(yīng)用SQL數(shù)據(jù)庫(kù)技術(shù)方面,雖然能夠?qū)崿F(xiàn)高效靈活處理電子病歷數(shù)據(jù),但是由于病歷本身存在缺陷,導(dǎo)致預(yù)處理后的數(shù)據(jù)信息不具備代表性。
5 ?結(jié)語(yǔ)
綜上所述,數(shù)據(jù)挖掘技術(shù)在電子病歷系統(tǒng)中的應(yīng)用能夠助益我國(guó)醫(yī)療衛(wèi)生事業(yè)的發(fā)展,該技術(shù)給出的分析意見(jiàn)具有很高的應(yīng)用價(jià)值,但是其中也存在一些問(wèn)題,就是無(wú)法保證客觀性和普遍性,在實(shí)際應(yīng)用時(shí)還需要仔細(xì)甄別。挖掘電子病歷數(shù)據(jù)工作涉及到很多技術(shù)問(wèn)題,在未來(lái)要致力于有效算法模型的構(gòu)建,提高疾病預(yù)防的有效性,提高醫(yī)療衛(wèi)生專(zhuān)業(yè)水平。
參考文獻(xiàn)
[1] 生慧.大數(shù)據(jù)背景下中醫(yī)電子病歷關(guān)鍵問(wèn)題研究[D].山東中醫(yī)藥大學(xué),2017.
[2] 胡金海,譚欽紅,李晗琳.電子病歷與數(shù)據(jù)挖掘技術(shù)在智慧養(yǎng)老中的應(yīng)用研究[J].廣東通信技術(shù),2016,36(11):72-76.
[3] 王昱.基于電子病歷數(shù)據(jù)的臨床決策支持研究[D].浙江大學(xué),2016.