成都市第三人民醫(yī)院信息部(610031)
郭慧敏 杜 軍△ 黃路非
基于R的Apriori算法在高額住院費用中的應用研究
成都市第三人民醫(yī)院信息部(610031)
郭慧敏 杜 軍△黃路非
目的 通過Apriori算法分析高額醫(yī)療費用患者相關指標之間的關系,試圖找到影響醫(yī)療費用的因素,利用R擴展醫(yī)學統(tǒng)計的工作思路。方法 利用R軟件中的arules包對2015年某院出院的高額治療費用患者做關聯規(guī)則分析,探索出院科室、住院天數與總費用,出院科室與性別,出院科室與藥費,出院科室與有無手術的關聯規(guī)則,并分析其原因。結果 某些科室住院天數越多,費用越高;而某些科室的住院天數與費用沒有太大關系;胸外、心內、神外、ICU、心外五個病區(qū)出院的高額費用患者通常為男性;呼吸、ICU、心外、胸外、神外五個病區(qū)出院的高額費用患者的藥費一般大于2萬元;心外、胸外、骨科等病區(qū)的高額醫(yī)療費用的出院患者通常要行手術治療手段。結論 Apriori算法可以挖掘數據間內在的關系,為臨床決策提供一定的理論支持,R語言可以快捷的完成醫(yī)學統(tǒng)計工作。
R語言 關聯規(guī)則 高額住院費用 數據挖掘
目前新一輪醫(yī)療改革正在如火如荼的進行中,各方對醫(yī)療改革保持了非常高的關注度;當下,看病難、看病貴成了醫(yī)患矛盾的主要集中點[1],而看病貴的一個重要構成就是患者住院期間的醫(yī)療費用過高。高額醫(yī)療費用患者往往為危急重癥病人,其主要特點為單次花費巨大,消耗大量的醫(yī)療資源,這極易給家庭和社會造成沉重負擔,部分患者難以承受巨額費用,導致因病致貧、因病返貧[2]。另外,高額的醫(yī)療費用也容易造成醫(yī)患關系緊張,這也是滋生醫(yī)鬧等現象的主要誘因。面對這樣的境況,嚴控醫(yī)療費用不合理的增長成為亟待解決的社會問題[3]。
關聯算法是一種常見的數據挖掘手段,它可以發(fā)現一個事物與其他事物之間的關聯和相關性;在我國,該方法在中醫(yī)學中的應用非常廣泛[4-5],在醫(yī)學其他領域的應用逐漸增加。本文通過整理高額醫(yī)療費用患者的病案首頁信息,利用Apriori算法查找符合條件的關聯規(guī)則[6],以期分析高額費用患者各個指標之間的相互關系[7],通過關聯規(guī)則的關系梳理找到高額費用產生的主要因素[8];同時,開拓傳統(tǒng)病案數據統(tǒng)計的方式,為醫(yī)院數據利用提供新的思路和方向[9]。
1.資料來源
首先在院內邀請多名專家,采用德爾菲法,在參考諸多相關文檔的同時,制定本次研究的高額醫(yī)療費用的起始標準為10萬元人民幣。按照上述標準,在某院病案數據庫檢索2015年1月~2015年12月住院費用超過10萬的患者信息,共獲得613份符合統(tǒng)計條件的病案信息。根據數據挖掘的需要提取患者的基本信息,包括費別、性別、年齡、婚姻狀況等字段以及患者的住院信息,包括出院科室、住院天數、手術名稱、總費用、藥費等字段;由于在數據分析過程中只能對離散變量進行分析,故需將某些字段進行離散化處理,例如數據挖掘需要用到是否手術字段,但是在原始數據中并未提供該字段,需將獲得數據中存在手術名稱的標記為有手術,而無手術名稱的記為無手術。
2.統(tǒng)計學方法
R語言是專門為統(tǒng)計而設計的語言[10],R語言能夠為不同的統(tǒng)計功能提供多種實現途徑,它是一套開源的數據分析解決方案,其完全免費,對于統(tǒng)計工作者非常友好,而且在全球有一個龐大且活躍的研究型社區(qū)維護[11]。本文主要利用R語言中arules包中的apriori()函數進行關聯規(guī)則提取,在規(guī)則提取過程中,設定最小支持度為0.020且最小置信度為0.500為強關聯規(guī)則[12],得到強關聯規(guī)則后,篩選出提升度大于1的強關聯規(guī)則做分析;其中R的版本為3.3.1,arules包的版本為1.4-1。
1.一般資料描述
在獲得的613條有效數據中,男性379例,女性234例,男女比例為1.62:1;最小年齡為0歲,最大年齡為95歲,平均年齡(60.97±19.08)歲。
2.數據離散化
由于Apriori算法只能對離散變量進行關聯規(guī)則分析,因而需要將原始數據按照相應的規(guī)則進行離散化處理,具體整理規(guī)則見表1。
3.關聯規(guī)則結果分析
數據整理后,編寫R程序,共計得到14477條有效的強關聯規(guī)則,眾多的強關聯規(guī)則難以逐一說明,現挑選具有代表性的規(guī)則做大致分析。
根據提取的關聯規(guī)則發(fā)現,心外病區(qū)住院天數為21~30天的患者其費用一般為20萬到30萬,而其住院天數為16天到20天的患者,其總費用一般為10萬到20萬;而骨科病區(qū)住院天數在21天以上的患者其費用一般為10萬到20萬,具體結果見表2。在高額費用患者中,胸外病區(qū)、心內病區(qū)、神外病區(qū)、ICU病區(qū)、心外病區(qū)五個病區(qū)男性患者所占比例較大,具體結果見表3。呼吸病區(qū)、ICU病區(qū)、心外病區(qū)、胸外病區(qū)、神外病區(qū)五個病區(qū)出院的高額費用患者的藥費通常為2萬元以上,具體結果見表4。ICU病區(qū)、呼吸病區(qū)出院的高額費用患者一般不行手術治療;而心外病區(qū)、胸外病區(qū)、骨科病區(qū)出院的高額費用患者通常會進行手術治療,具體結果見表5。
Apriori算法是關聯規(guī)則數據挖掘的常用算法,其廣泛應用于商業(yè)促銷等領域,但是其產生的候選集通常非常龐大,并且需要重復掃描數據庫,這也是Apriori算法的缺點。有醫(yī)學工作者針對以上問題對Apriori算法進行了改進[13],并且取得了非常好的效果。
表1 變量離散化分組表
表2 出院科室、住院天數與總費用的關聯規(guī)則分析表
表3 出院科室與性別的關聯規(guī)則分析表
表4 出院科室與藥費的關聯規(guī)則分析表
表5 出院科室與有無手術的關聯規(guī)則分析表
目前由于醫(yī)療觀念的改變,加之醫(yī)保政策的不斷開放[14],雖然就醫(yī)難的困境得到了緩解,但是許多家庭還是難以負擔高額的住院費用,因病而貧、因病返貧的現象不斷發(fā)生,而且高額醫(yī)療費用的比例不合理,在本研究中平均藥占比為0.28,難以體現醫(yī)療護理水平而且還消耗了大量的醫(yī)療資源[15]。
本研究數據顯示,高額住院患者的醫(yī)療總費用與住院天數有密切的關系。由表2可知,以心外病區(qū)為例,隨住院天數的增長其醫(yī)療總費用增加;同時部分科室當住院天數達到某一極值后,住院天數不再是影響住院費用的主要因素,如表2中的骨科病區(qū)。而根據表3數據顯示某些科室高額費用患者以男性居多,這些科室包括胸外病區(qū)、心內病區(qū)、神外病區(qū)、ICU病區(qū)、心外病區(qū),這些病區(qū)的患者罹患的疾病以呼吸系統(tǒng)疾病、心腦血管疾病為主,而男性的生活習慣以及其生活壓力極容易引起上述疾病,這也是以上病區(qū)出院患者主要為男性的原因。高額住院費用病人其藥費也普遍偏高,一般外科的高額住院費用患者都需要進行手術治療。我們發(fā)現,該院的高額治療費用一般分布在ICU、心內、心外、骨科、胸外等重點科室中,而該院上述科室作為優(yōu)勢臨床科室接診的患者中危急重病人的比例相對其他臨床科室偏高。
本次研究共獲得14477條有效強關聯規(guī)則,這說明數據之間存在大量的有用規(guī)則?,F代統(tǒng)計學面臨的問題不是數據匱乏,而是數據泛濫,如何從紛繁的數據中得到有用的信息將是未來數據統(tǒng)計工作面臨的一個重大課題,這不僅要求具有堅實的衛(wèi)生統(tǒng)計知識、還要具備非常豐富的專業(yè)知識,這也是未來統(tǒng)計學發(fā)展的一個重要分支。未來工作中,應向具備專業(yè)知識的復合型人才發(fā)展,為大數據和知識爆炸打下基礎。
[1]梁子君,吳超,郭洪宇,等.我國暴力傷醫(yī)事件成因的政策分析及應對.中國醫(yī)院管理,2015,35(11):59-60.
[2]張洪成,崔愛東,晏飛,等.徐州市居民醫(yī)?;颊咦≡横t(yī)療費用個人負擔水平研究.中國初級衛(wèi)生保健,2013(7):12-14.
[3]胡洋,張亮,馬敬東,等.醫(yī)療費用控制過程中的政府行為研究.中國醫(yī)院管理,2007(4):7-8.
[4]王可,趙華碩,張虹,等.兩水平兩分類數據的logistic回歸模型對比研究.中國衛(wèi)生統(tǒng)計,2014,31(5):856-859.
[5]吳嘉瑞,張冰,楊冰,等.基于關聯規(guī)則和復雜系統(tǒng)熵聚類的顏正華教授治療風濕痹癥用藥規(guī)律研究.中華中醫(yī)藥雜志,2013,28(11),3416.
[6]Agrawal R,Srikant R.Fast Algorithms for Mining Association Rules.Proc.1994 Int.Confeience.Very Large Databases.Santiago,Chile,1994(9):487-499.
[7]鄭晶晶,朱建平.數據挖掘中關聯規(guī)則的規(guī)范化描述.統(tǒng)計與信息論壇,2006(1):93-96.
[8]羅斌.面向客戶細分的改進關聯規(guī)則算法研究.哈爾濱工業(yè)大學,2006.
[9]胡瑞娟,李巖芳,何昀.基于關聯規(guī)則算法的醫(yī)療數據挖掘.長春理工大學學報(自然科學版),2009,32(2):282-284.
[10]張哲,張豪.淺談R語言在生物統(tǒng)計學教學中的應用.教育教學論壇,2013(27):54-55.
[11]Robert I.Kabacoff 著,高濤,肖楠,陳鋼譯.R語言實戰(zhàn).北京:人民郵電出版社,2013:4-5.
[12]武建虎,賀佳,賀憲民,等.關聯規(guī)則及其在肝癌病人資料分析中的應用.中國衛(wèi)生統(tǒng)計,2002,2(23):34-38.
[13]陳龍,馬利,何文英,等.高血壓住院患者DRGs分組方法研究.中國衛(wèi)生統(tǒng)計,2015,32(1):110-111.
[14]鄭功成.全面建成覆蓋城鄉(xiāng)居民的社會保障體系——展望“十三五”時期的中國社會保障.中國社會保障,2015(1):36-39.
[15]李士同.成都市基本醫(yī)療資源配置問題研究.西南交通大學,2015.
(責任編輯:劉 壯)
△ 通信作者:杜軍