劉東麗,袁玉妹,王羨欠
(江西省人民醫(yī)院,330006,南昌)
隨著社會的發(fā)展,人們對自身的健康越發(fā)關(guān)注,我國優(yōu)質(zhì)醫(yī)療資源相對集中,醫(yī)院面臨的就診壓力越發(fā)增加,尤其體現(xiàn)在門診就診中。此對門診資源的配置會在很大程度上影響廣大患者的就醫(yī)體驗(yàn)和醫(yī)院的核心競爭力[1-3]。如何科學(xué)、合理并充分地利用門診資源,成為醫(yī)院面臨的一大挑戰(zhàn)[4]。依靠傳統(tǒng)的人工門診資源調(diào)配已經(jīng)無法適應(yīng)新形勢的發(fā)展,隨著信息技術(shù)的發(fā)展,借力于信息化技術(shù)優(yōu)化門診資源配置成為一種新的趨勢[5-8]。
數(shù)據(jù)挖掘(Data mining)又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個(gè)步驟[9]。一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。隨著醫(yī)院信息化的建設(shè)不斷完善,在功能模塊上越來越豐富,數(shù)據(jù)量也越來越大,如何有效利用現(xiàn)有數(shù)據(jù)為醫(yī)療服務(wù)已經(jīng)成為各個(gè)醫(yī)院不得不面臨的問題。為了解決在醫(yī)學(xué)領(lǐng)域具有普遍性的“知識發(fā)現(xiàn)”問題,近幾年來產(chǎn)生了一項(xiàng)從海量數(shù)據(jù)中提取知識的技術(shù)數(shù)據(jù)挖掘[10]。國內(nèi)很多研究嘗試將數(shù)據(jù)挖掘應(yīng)用于醫(yī)院信息系統(tǒng)和統(tǒng)計(jì)分析與決策中[11-14],如何在計(jì)算機(jī)的幫助下,發(fā)現(xiàn)隱藏在這些海量數(shù)據(jù)背后的那些新的有學(xué)術(shù)價(jià)值的醫(yī)學(xué)信息,是系統(tǒng)面臨的重大挑戰(zhàn)[15-20]。
門診輔助知識決策系統(tǒng)是一種利用信息化技術(shù)和數(shù)據(jù)挖掘技術(shù),展示一家醫(yī)院門診量分布、門診病種分布、季節(jié)性疾病規(guī)律、門診醫(yī)療資源配置等綜合指標(biāo)的系統(tǒng)。
本文利用醫(yī)院現(xiàn)有數(shù)據(jù),通過基于數(shù)據(jù)挖掘的門診輔助知識決策系統(tǒng)的建立與應(yīng)用,挖掘門診患者在就診時(shí)間上的分布情況,掌握門診患者量高峰時(shí)間段,為醫(yī)院合理安排醫(yī)護(hù)力量和醫(yī)療設(shè)備提供輔助決策支持,減少患者的等待時(shí)間,避免因?yàn)獒t(yī)療資源緊張導(dǎo)致不必要的醫(yī)療糾紛;挖掘季度性的門診患者量增長及季節(jié)性疾病情況,找出其特定的規(guī)律,為醫(yī)院在次年相應(yīng)季度提前建立應(yīng)對預(yù)案提供輔助決策支持,以優(yōu)化醫(yī)療設(shè)備,增加相應(yīng)疾病藥品的庫存量;挖掘門診醫(yī)療數(shù)據(jù),為醫(yī)院制定最佳的醫(yī)療服務(wù)舉措和最優(yōu)化的醫(yī)療資源配置提供決策支持,增強(qiáng)醫(yī)院對環(huán)境變化的適應(yīng)性,改善患者就醫(yī)體驗(yàn)。
某省級三甲綜合醫(yī)院2016—2021年10月門診醫(yī)療數(shù)據(jù)包含就診、門診診療數(shù)據(jù)、門診人員配備數(shù)據(jù)。就診數(shù)據(jù)包括:就診序號、日期、付費(fèi)方式、患者ID號、就診科室、就診類別;門診診療數(shù)據(jù)包括:患者卡號、性別、出生日期、診斷編碼、診斷名稱、就診日期。核查數(shù)據(jù),剔除性別異常數(shù)據(jù)59條,剔除出生日期異常數(shù)據(jù)257條,共納入數(shù)據(jù)2 830 770例門診就診記錄。分析數(shù)據(jù),對采集的數(shù)據(jù)進(jìn)行分析處理如下(表1)。
表1 研究變量及其量化情況
利用ORACLE數(shù)據(jù)庫存儲原始數(shù)據(jù),Python3.8進(jìn)行數(shù)據(jù)清洗和處理,根據(jù)診斷對性別字段空置進(jìn)行處理。在Python3.8中編寫代碼對診斷數(shù)據(jù)進(jìn)行處理,生成診斷詞云圖。運(yùn)用SPSS25工具對數(shù)據(jù)進(jìn)行分類、估計(jì)、預(yù)測、相關(guān)性分組或關(guān)聯(lián)規(guī)則分析。 運(yùn)用EViews 進(jìn)行預(yù)測模型建立。
對2009—2020年10月門診就診數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析,數(shù)據(jù)近似正態(tài)分布(偏度0.386<1,峰度-0.845<1),可以用t檢驗(yàn)和方差分析,以P<0.05為差異性具有統(tǒng)計(jì)學(xué)意義。
1.3.1 不同年齡就診情況 表2可以看出年齡6歲及以下27 227,中位數(shù)為344;7—17歲81 244,中位數(shù)為993;18—40歲660 726,中位數(shù)為8 056;41—65歲1 161 725,中位數(shù)為15 329。66歲及以上899 848份,中位數(shù)為12 490。采用ANOVA檢驗(yàn),得統(tǒng)計(jì)量:F=393.88,P<0.05,即不同年齡組的就診數(shù)量存在統(tǒng)計(jì)學(xué)差異。
1.3.2 不同性別就診情況 表3可以看出男性就診量1 505 449,女性就診量1 325 321,男:女=1:0.88。男性就診量的就診數(shù)量中位數(shù)為20 341,女性病例為17 483(表3)。通過T檢驗(yàn)得到統(tǒng)計(jì)量T= 2.585,P=0.663,P>0.05,即不同性別的就診數(shù)據(jù)差別沒有統(tǒng)計(jì)學(xué)意義。
表2 不同年齡就診數(shù)量
表3 不同性別就診統(tǒng)計(jì)
1.3.3 診斷分布 診斷數(shù)據(jù)存在較多自用的編碼和名稱,為了統(tǒng)計(jì)診斷數(shù)據(jù)的差異性,根據(jù)國際疾病分類ICD-10標(biāo)準(zhǔn)編碼對診斷數(shù)據(jù)進(jìn)行清洗,通過T檢驗(yàn)得到統(tǒng)計(jì)量T= 5.935,P=0.000,P<0.05,即不同診斷的就診數(shù)量存在統(tǒng)計(jì)學(xué)差異,通過Python生成診斷詞云圖(圖1),排名前10的診斷為高血壓病、糖尿病、腦梗死、心臟病、腹痛、屈光不正、尿毒癥、胃炎、腎移植狀態(tài)、睡眠障礙。
1.3.4 付費(fèi)方式 窗口途徑1 838 029例,自助途徑992 741例,窗口:自助= 1.85:1。窗口途徑的就診數(shù)量中位數(shù)為25 819,自助途徑中位數(shù)為13 743(表4)。通過T檢驗(yàn)得到統(tǒng)計(jì)量T= 7.068,
圖1 診斷詞云圖
P=0.000,P<0.05,即不同途徑的就診數(shù)量存在統(tǒng)計(jì)學(xué)差異。通過分析每年就診途徑數(shù)據(jù)發(fā)現(xiàn)隨著信息技術(shù)發(fā)展自助就診的數(shù)量也在逐年增加。
1.3.5 就診科室 按科室就診數(shù)量排名前10的為心血管內(nèi)科、神經(jīng)內(nèi)科、內(nèi)分泌骨質(zhì)疏松與骨病科、急診科、消化內(nèi)科、眼科、骨科、呼吸與危重癥醫(yī)學(xué)科、腎臟內(nèi)科、婦科,通過T檢驗(yàn)得到統(tǒng)計(jì)量T= 267.315,P=0.000,P<0.05,即不同科室的就診數(shù)量存在統(tǒng)計(jì)學(xué)差異。
1.3.6 就診類別 專家就診579 230例、普通就診1 989 920 例、急診就診169 952例、義診就診79 608例、特需就診12 060例;專家就診數(shù)量中位數(shù)為7 828,普通就診數(shù)量中位數(shù)為25 497,急診就診數(shù)量中位數(shù)為2 286,義診就診數(shù)量中位數(shù)為2 770,特需就診數(shù)量中位數(shù)為102(表5)。采用ANOVA檢驗(yàn),得統(tǒng)計(jì)量:F=140.83,P<0.05,即不同類別的就診數(shù)量存在統(tǒng)計(jì)學(xué)差異。
表4 不同性別就診數(shù)量統(tǒng)計(jì)
表5 不同性別就診數(shù)量統(tǒng)計(jì)
1.3.7 回歸分析 單因素分析結(jié)果顯示,納入變量中有多個(gè)變量在就診數(shù)量組間存在統(tǒng)計(jì)學(xué)差異,因此需進(jìn)行回歸分析,找出主要影響因素。本研究選用能夠反映變量與就診數(shù)量之間直接影響作用的逐步回歸模型。
1)變量納入。因變量為就診數(shù)量,自變量選取影響因素(表1)。通過以上分析可知就診數(shù)量呈偏近似正態(tài)分布,對因變量和自變量進(jìn)行逐步回歸分析。變量入選標(biāo)準(zhǔn)為α=0.05,剔除標(biāo)準(zhǔn)為β=0.10。
2)標(biāo)準(zhǔn)化回歸方程的建立。從圖2中可以看出經(jīng)過回歸后6個(gè)變量中只進(jìn)入了5個(gè)變量即X2、X3、X4、X5、X6。根據(jù)模型的偏回歸系數(shù)、標(biāo)準(zhǔn)回歸系數(shù)、回歸系數(shù)假設(shè)檢驗(yàn)t值、P值。建立逐步回歸方程如下:
Y=-7.535+5.868X2-6.611X3+3.654X4+0.256X5-0.005X6
圖2 回歸分析結(jié)果
3)回歸方程檢驗(yàn)。回歸方式檢驗(yàn)結(jié)果為F=25.254,P<0.05,認(rèn)為回歸方程有統(tǒng)計(jì)學(xué)意義。從標(biāo)準(zhǔn)化回歸方程回歸結(jié)果可以看出,影響就診數(shù)量的主要因素從大到小為:途徑、年齡、就診類別、科室、診斷。在控制其它因素的條件下,就診數(shù)量與年齡、就診類別、科室、診斷呈顯著正相關(guān),就診數(shù)量與途徑呈顯著負(fù)相關(guān)。通過上面分析可以看出,納入的6個(gè)變量中途徑、年齡、就診類別、科室、診斷5個(gè)變量對就診數(shù)量存在一定影響,與單因素分析結(jié)果一致。
1.3.8 預(yù)測模型 選取2016年1月至2021年10月的月門診就診數(shù)量,進(jìn)行統(tǒng)計(jì)預(yù)測建模及分析。共納入70個(gè)月門診就診數(shù)量作為樣本。根據(jù)數(shù)據(jù)特點(diǎn)可進(jìn)行時(shí)間序列建模。
1)平穩(wěn)性時(shí)序圖檢驗(yàn)。將EXCEL中數(shù)據(jù)導(dǎo)入Eviews軟件中生成時(shí)序圖,從圖3中可以看出門診就診數(shù)量(ghcount)序列是平穩(wěn)的。
圖3 時(shí)序和自相關(guān)性檢驗(yàn)圖
樣本自相關(guān)性檢驗(yàn)。從樣本相關(guān)函數(shù)圖(圖3)可以看到月門診就診數(shù)量(ghcount)的樣本相關(guān)函數(shù)是緩慢的遞減趨于零的,且具有一定。所以,通過月門診就診數(shù)量(ghcount)的樣本相關(guān)圖,可初步判定該年門診就診數(shù)量(ghcount)時(shí)間序列是平穩(wěn)。
單位根檢驗(yàn)(ADF-Schwarz Info Criterion檢驗(yàn))。對月門診就診數(shù)量(ghcount)進(jìn)行ADF檢驗(yàn),結(jié)果顯示在1%的顯著性水平下,單位根統(tǒng)計(jì)量ADF=-4.934 538大于Eviews給出的ADF臨界值-3.476 275(圖4)。所以拒絕原假設(shè),即月人均就診數(shù)量(ghcount)序列是平穩(wěn)的。
圖4 月門診就診數(shù)量(ghcount)單位根檢驗(yàn)
2)估計(jì)月門診就診數(shù)量統(tǒng)計(jì)預(yù)測模型。從時(shí)序圖(圖3)可以看出,序列既有長期趨勢又有周期性,季節(jié)性因素會導(dǎo)致統(tǒng)計(jì)數(shù)據(jù)不能客觀反映數(shù)據(jù)變化情況,因此使用Eviews軟件中時(shí)間序列指數(shù)平滑模型exponential smoothing方法對月門診就診數(shù)量進(jìn)行調(diào)整(圖5),除掉季節(jié)波動因素的影響,可初步建立模型ARIMA(1,0,1)×(1,0,1)12和模型ARIMA(1,0,0)×(0,0,1)12。模型檢驗(yàn)結(jié)果顯示:ARIMA(1,0,0)×(0,0,1)12模型的SAR(12)系數(shù)、C值系數(shù)、MA(1)系數(shù)的T檢驗(yàn)P值大于0.05,不滿足參數(shù)有統(tǒng)計(jì)學(xué)意義要求;模型ARIMA(1,0,1)×(1,0,1)12的SMA(12)系數(shù)、AR(1)系數(shù)的T檢驗(yàn)P值均小于0.05(圖6),滿足參數(shù)有統(tǒng)計(jì)學(xué)意義要求。
圖5 月門診就診數(shù)量平滑指數(shù)處理
3)模型檢驗(yàn)。對滿足參數(shù)有統(tǒng)計(jì)學(xué)意義的模型ARIMA(1,0,1)12進(jìn)行殘差檢驗(yàn),根據(jù)殘差相關(guān)圖可以看出,滯后階數(shù)為10時(shí),Q統(tǒng)計(jì)量為10.5,P值為0.389,P>0.05(圖7)。因此,可以確定的預(yù)測模型為ARIMA(1,0,1)12,其表達(dá)式為:
(1-0.966B)▽12▽Xt=(1+0.45B)εt。
圖6 ARIMA(1,0,1)
圖7 ARIMA(1,0,1)殘差檢驗(yàn)
Theil′s inequality coefficients表示Theil不相等系數(shù),介于0~1之間;數(shù)值越小表明擬合值和真實(shí)值之間的差異越小,預(yù)測精度越高。covariance proportion 表示協(xié)方差誤,反映殘存非系統(tǒng)預(yù)測誤差,該誤差占比越大,預(yù)測效果越好。擬合統(tǒng)計(jì)模型ARIMA(1,0,1),結(jié)果顯示Theil不相等系數(shù)為0.05,其中協(xié)方差誤為0.969(圖8、圖9),大于方差誤(0.002 665),說明模型的預(yù)測結(jié)果較理想,擬合效果良好,提取序列的信息充分,模型精簡。
圖8 模型預(yù)測
4)模型預(yù)測。為檢驗(yàn)?zāi)P偷念A(yù)測誤差,現(xiàn)以2016—2020年數(shù)據(jù)為樣本,對2021年1—10月進(jìn)行預(yù)測,并與其真實(shí)值進(jìn)行對比,計(jì)算預(yù)測誤差,誤差均值為5.35%(表6)。
圖9 模型擬合
表6 2021年1—10月門診就診數(shù)量預(yù)測
通過基于數(shù)據(jù)挖掘的門診輔助知識決策系統(tǒng)的建立與應(yīng)用,挖掘門診患者在就診時(shí)間上的分布情況,掌握門診患者量高峰時(shí)間段,為醫(yī)院合理安排醫(yī)護(hù)力量和醫(yī)療設(shè)備提供輔助決策支持,減少患者的等待時(shí)間,避免因?yàn)獒t(yī)療資源緊張導(dǎo)致不必要的醫(yī)療糾紛;挖掘季度性的門診患者量增長及季節(jié)性疾病情況,找出其特定的規(guī)律,為醫(yī)院在次年相應(yīng)季度提前建立應(yīng)對預(yù)案提供輔助決策支持,以優(yōu)化醫(yī)療設(shè)備,增加相應(yīng)疾病藥品的庫存量;挖掘門診醫(yī)療數(shù)據(jù),為醫(yī)院制定最佳的醫(yī)療服務(wù)舉措和最優(yōu)化的醫(yī)療資源配置提供決策支持,改善患者就醫(yī)體驗(yàn)。