楊磊 劉沖 袁斌 蒙永鎮(zhèn) 韋青宇 黃嘉欣
摘要:選取某婦幼??漆t(yī)院門診病人掛號(hào)看診信息為研究對(duì)象,運(yùn)用大數(shù)據(jù)挖掘的思想對(duì)門診數(shù)據(jù)進(jìn)行ETL預(yù)處理,將門診數(shù)據(jù)分為三個(gè)季度表,采用C#編程實(shí)現(xiàn)關(guān)聯(lián)規(guī)則中Apriori算法并挖掘出病人就診科室之間的關(guān)聯(lián)規(guī)則。綜合三個(gè)季度的門診數(shù)據(jù)關(guān)聯(lián)規(guī)則結(jié)果進(jìn)行對(duì)比分析,預(yù)測(cè)患者就診行為,為方便病人看診提供建議,為醫(yī)院門診醫(yī)療管理提供數(shù)據(jù)支持和決策依據(jù)。
關(guān)鍵詞:Apriori算法;關(guān)聯(lián)規(guī)則;就診規(guī)律
中圖分類號(hào):TP399 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)23-0291-03
Abstract: Selecting out-patient information of a doctor-patient in a maternal and child hospital as the research object, using the idea of big data mining to carry out ETL preprocessing outpatient data, dividing the outpatient data into three quarterly tables, using C# programming to realize Apriori algorithm in association rules and mining Outpatient department between the correlation rules. Comprehensive outpatient data association rules for three quarters of the results of the comparative analysis to predict the patient behavior, to facilitate the patient's advice to provide advice for the hospital outpatient medical management to provide data support and decision-making basis.
Key words: Apriori algorithm; Association Rule; Visiting Rules
1 引言
在婦幼保健院門診中,醫(yī)院信息系統(tǒng)積累了大量可供分析的婦幼門診就診數(shù)據(jù),并且這些數(shù)據(jù)具有容量更大、質(zhì)量更優(yōu)、針對(duì)性更強(qiáng)的特點(diǎn)。而關(guān)聯(lián)規(guī)則中Apriori算法具有規(guī)則簡(jiǎn)單、方便實(shí)用的特點(diǎn)[1],將其用于對(duì)醫(yī)院門診數(shù)據(jù)的分析,可以發(fā)現(xiàn)隱藏在數(shù)據(jù)間的就診科室之間的關(guān)聯(lián)規(guī)則及聯(lián)系的緊密程度,找出對(duì)門診管理有幫助的關(guān)鍵因素,從而有針對(duì)性的進(jìn)行相關(guān)的醫(yī)院建設(shè),將有限的醫(yī)療資源向就診量多、與其它門診關(guān)系最密切的科室傾斜,使醫(yī)療資源的配置更加合理,改善醫(yī)院服務(wù)質(zhì)量,使病人能獲得更好的醫(yī)療服務(wù)。
2 資料與方法
2.1 數(shù)據(jù)來(lái)源
本研究數(shù)據(jù)來(lái)源于某婦幼三甲??漆t(yī)院,提取2017前三個(gè)季度的門診就診數(shù)據(jù),包括病人病歷號(hào)、姓名、就診科室、就診時(shí)間,對(duì)門診數(shù)據(jù)進(jìn)行抽取、清洗和轉(zhuǎn)換等預(yù)處理,最終分別得到三個(gè)季度病人門診信息。
2.2 研究方法
(1)數(shù)據(jù)處理
對(duì)原始數(shù)據(jù)進(jìn)行ETL處理,將門診數(shù)據(jù)按就診時(shí)間分為三個(gè)季度,最終得到用于分析的三張數(shù)據(jù)表,每張表格式如表1所示。
(2)Apriori算法基本原理
Apriori算法是一種逐層搜索的迭代式算法,常用于挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集,其算法核心思想就是在滿足一定支持度的情況下用k項(xiàng)集生成(k+1)項(xiàng)集[2],其實(shí)現(xiàn)步驟及算法描述如下:
1)連接步,將頻繁項(xiàng)自己與自己進(jìn)行連接運(yùn)算。
2)剪枝步,去除候選集項(xiàng)中的不符合要求的候選項(xiàng),不符合要求指的是這個(gè)候選項(xiàng)的子集并非都是頻繁項(xiàng),要遵守上文提到的先驗(yàn)性質(zhì)。
3)根據(jù)支持度計(jì)數(shù)篩選掉不滿足最小支持度數(shù)的候選集。
算法:Apriori 算法[2]
輸入:數(shù)據(jù)集D;最小支持度閾值min_sup
輸出:D 中的頻繁項(xiàng)集L
3 結(jié)果分析及討論
設(shè)置最小支持度、最低重要性為0.4,運(yùn)用圖1開發(fā)的Apriori數(shù)據(jù)挖掘工具,對(duì)處理后每季度的數(shù)據(jù)結(jié)果進(jìn)行分析,得到的關(guān)聯(lián)規(guī)則分別如表2、表3、表4所示。
綜合三個(gè)季度的門診數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘的結(jié)果進(jìn)行對(duì)比分析,得到前三個(gè)季度門診就診普遍特征和季節(jié)性波動(dòng)特征,并結(jié)合醫(yī)院實(shí)際情況對(duì)發(fā)現(xiàn)的規(guī)律進(jìn)行分析。
(1)門診綜合手術(shù)室與婦科門診關(guān)聯(lián)的概率基本為1,去門診綜合手術(shù)室看診過(guò)的患者,一定會(huì)看診過(guò)婦科門診;產(chǎn)科住院門診和圍產(chǎn)保健科都看診的概率非常高,即這兩個(gè)科室的關(guān)聯(lián)性非常強(qiáng);就診過(guò)兒童康復(fù)科的患者去過(guò)眼科門診、聽力中心的概率較高;老專家門診與兒科門診、急診關(guān)聯(lián)性較高 [3]。聽力中心,兒童保健科,眼科門診這幾個(gè)科室的關(guān)聯(lián)性較強(qiáng),此規(guī)律從另一個(gè)側(cè)面反應(yīng)醫(yī)院兒童體檢人群及業(yè)務(wù)開展的穩(wěn)定性。
(2)一季度日間手術(shù)室(門診)與乳腺科關(guān)聯(lián)性較高,二季度和三季度新出現(xiàn)麻醉疼痛門診與婦科門診關(guān)聯(lián)性較高。為方便患者就診,醫(yī)院二季度新開設(shè)麻醉疼痛門診,后兩個(gè)季度麻醉疼痛門診看診人次逐漸增加,同一時(shí)間段看診麻醉疼痛門診與婦科門診的人次也相應(yīng)提升。
4 結(jié)語(yǔ)
本研究基于C#編程實(shí)現(xiàn)Apriori算法并對(duì)門診就診科室進(jìn)行關(guān)聯(lián)性挖掘,結(jié)合三個(gè)季度的數(shù)據(jù)和得到的關(guān)聯(lián)規(guī)則與醫(yī)院實(shí)際情況對(duì)比分析,得到的共性規(guī)則均能被證實(shí),并且某些規(guī)則結(jié)合可形成閉合的“就診路徑環(huán)”,其結(jié)果可以反映門診科室業(yè)務(wù)穩(wěn)定性和布局合理性。另外,新發(fā)現(xiàn)的特異性門診就診規(guī)律可提供給管理決策人員,為加強(qiáng)門診醫(yī)療管理和新老院區(qū)科室業(yè)務(wù)交流提供數(shù)據(jù)支持和新思路。
參考文獻(xiàn):
[1] 宋小小,陳曉輝,劉沖.關(guān)聯(lián)規(guī)則中Apriori算法的研究與改進(jìn)[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2012,3(1):23-25.
[2] Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2012.
[3] 李準(zhǔn),嚴(yán)少彪,等.關(guān)聯(lián)規(guī)則在兒童門診信息分析中的應(yīng)用[J].北京:醫(yī)學(xué)信息學(xué)雜志,2016(8):76-78.
【通聯(lián)編輯:王力】