謝筱筱
(廣西大學計算機與電子信息學院,南寧 530004)
基于K-means聚類算法的住院費用數(shù)據(jù)挖掘
謝筱筱
(廣西大學計算機與電子信息學院,南寧 530004)
目前,我國醫(yī)療費用快速增長,人均門診和住院費用的增長幅度遠遠大于人均收入增長幅度,醫(yī)療保險費用支出也大幅度提升。如何實現(xiàn)醫(yī)療保險費用控制是我國社會保險行業(yè)研究的一大熱點問題。運用K-means聚類算法,對醫(yī)保信息系統(tǒng)中記錄的住院病人等信息進行挖掘,研究分析之間存在的內(nèi)在聯(lián)系,為合理控制醫(yī)療費用的過快增長提供參考。
數(shù)據(jù)挖掘;醫(yī)療保險;聚類算法;費用控制
社會醫(yī)療保險是我國社會保障體系的重要組成部分。在我國通過國家立法形式確立了社會醫(yī)療保險制度,并建立起相應(yīng)的保險基金,用以補償參保人因治療疾病所發(fā)生的費用。近年來,我國醫(yī)療費用快速增長,人均門診和住院費用的增長幅度遠遠大于人均收入增長幅度,人均醫(yī)保基金支出費用更呈現(xiàn)出了逐年上升的趨勢。如何將醫(yī)保基金支出費用控制在一個較低水平而又合理的范圍內(nèi),實現(xiàn)醫(yī)保醫(yī)療服務(wù)監(jiān)督管理精細化,是當前社保事業(yè)工作中的一個關(guān)鍵。本文運用K-means聚類算法,對醫(yī)保信息系統(tǒng)中記錄的住院病人年齡、住院時間、住院總費用等關(guān)鍵信息進行挖掘,研究分析三者之間存在的內(nèi)在聯(lián)系,尋找規(guī)律,為合理控制醫(yī)療費用的過快增長提供參考。
數(shù)據(jù)預處理作為數(shù)據(jù)挖掘算法實現(xiàn)和可視化展示的基礎(chǔ),其處理結(jié)果直接影響算法的運行效果,是數(shù)據(jù)挖掘中非常重要的一個環(huán)節(jié)。預處理能剔除大量“臟數(shù)據(jù)”,提供更為干凈、準確、具有針對性的數(shù)據(jù)。本次實例研究以某醫(yī)院2016年住院數(shù)據(jù)為例,在醫(yī)保信息系統(tǒng)中導出包括病人信息表、住院信息表、住院費用明細等大量表格,從中選取對醫(yī)院住院費用影響較大的年齡、住院時間和總費用三個內(nèi)容整合成病人住院信息表,并通過K-means算法進行聚類分析。為了保證結(jié)果的普適性,本次實例剔除了某些費用過高的異常數(shù)據(jù)。最終選取數(shù)據(jù)庫中年齡在80歲以下、總費用在10000元以下的樣本數(shù)據(jù)進行聚類分析。
本次實例研究在SPSS Modeler平臺上通過K-means聚類算法來完成。SPSS Modeler是一個業(yè)界領(lǐng)先的數(shù)據(jù)挖掘平臺,以圖形化的界面、簡單的拖曳方式來快速構(gòu)建數(shù)據(jù)挖掘分析模型著稱,它提供了完整的統(tǒng)計挖掘功能,包括來自于統(tǒng)計學、機器學習、人工智能等方面的分析算法和數(shù)據(jù)模型,包括如關(guān)聯(lián)、分類、預測等完整的全面挖掘分析功能。K-means聚類算法是一種應(yīng)用廣泛的聚類算法,它是以k作為輸入?yún)?shù),把n個對象的集合劃分為k個聚類,相同聚類的對象相似度高,而不同聚類的相似度低。算法的優(yōu)點為:(1)對屬性值有很好的統(tǒng)計和幾何意義;(2)對順序不太敏感。缺點為:(1)聚類結(jié)果依賴于初始聚類中心,對初始聚類中心敏感。(2)容易陷入局部最優(yōu)。本次實例研究將通過K-means聚類算法完成。首先將經(jīng)過預處理的病人住院信息表導入SPSS Mod?eler中,以便于對這些住院病人數(shù)據(jù)進行K-means聚類分析,找出不同年齡的發(fā)生住院行為的病人的行為特征,從而為以后識別出在住院中存在醫(yī)療保險欺詐的行為提供依據(jù)。
由于運用K-means聚類方法時,首先需要確定聚類數(shù)k值,但是k值平時主要還是主要依靠醫(yī)院專家的經(jīng)驗,通常在聚類分析前難以確定,因此選擇自動聚類方法(如圖1所示)進行處理。
圖1 聚類過程示意圖
SPSS Modeler平臺中K-means聚類默認k為5,將聚類結(jié)果導出Excel表格,整理后如表1:
表1 K-means聚類結(jié)果(k=5)
從表1可初步得出:
(1)對于聚類-1,這類人員平均年齡為7.88歲,屬于青少年時期,所占比例20%,平均住院時間為7天,平均費用為363.30元。青少年時期身體素質(zhì)好,恢復較快,符合表格中體現(xiàn)的人數(shù)較少、住院時間偏短、費用中等偏上等特征,但費用較高并不符合醫(yī)保基金費用控制中的要求,這就需要醫(yī)院醫(yī)生配合在開藥中進行適當控制,起到在保證身體恢復健康的基礎(chǔ)上節(jié)約國家醫(yī)保資源的目的。
(2)對于聚類-2,這類人員平均年齡為62歲,屬于中老年時期,所占比例為21%,平均住院時間為19天,平均費用為139.69元。老年時期身體較為虛弱,需要經(jīng)常住院檢查,身體恢復健康需要時間較長,符合表格中體現(xiàn)的住院時間較長、費用中等等特征。
(3)對于聚類-3,這類人員平均年齡為23.18歲,屬于青年時期,所占比例為36%,平均住院時間為5天,平均費用為117.13元。青年時期正是身體最為健壯的時期,經(jīng)過治療恢復健康的時間需要較短,相對來說需要住院費用較低也是顯而易見的。但這類人員住院人次較多,推測可以通過加大日常生活健康知識宣傳、樹立運動員典型和號召全民運動等措施來緩解,此外,造成這情況的另一種可能性為存在通過住院以達到刷醫(yī)??▉眍l繁買藥等醫(yī)保欺詐行為。
(4)對于聚類-4,這類人員平均年齡為63.11歲,屬于中老年時期,所占比例為10%,平均住院時間為11天,平均費用為575.71元。該類人員年紀較大,住院時間較長,平均費用超過500元,可能病人病種復雜、病情重、生命危險,故而必須采用費用高昂但是療效較好的藥物來緩解病情。
(5)對于聚類-5,這類人員平均年齡為27.10歲,屬于中青年時期,所占比例為13%,平均住院時間為24天,平均費用為353.65元。該類人員人數(shù)較少,費用偏高但住院時間較長,推測極為可能為患有慢性病人群,住院主要為起到療養(yǎng)作用,為能讓身體各項指標恢復到正常水平,從而選擇更為高效但價格偏高的藥物。另有一種可能性為存在過量開藥、代他人刷醫(yī)??ㄙI藥等醫(yī)保欺詐行為,這類人群值得重點關(guān)注。
以上分析顯示,需特別關(guān)注處于青壯年時期的病人,謹防出現(xiàn)醫(yī)保欺詐行為。
社會醫(yī)療保險基金的費用控制問題一直是一道世界性難題,同時也是我國醫(yī)療保險研究領(lǐng)域的一大熱點。而運用數(shù)據(jù)挖掘等網(wǎng)絡(luò)信息智能化手段從長期以來積累的大量醫(yī)保數(shù)據(jù)信息中挖掘出門診、住院各個部分中的內(nèi)在聯(lián)系,尋求費用控制方法,遏制醫(yī)保欺詐等不法行為的發(fā)生為解決這一老大難問題提供了一個新思路。
[1]高宇彤.基于離群點檢測的新農(nóng)合醫(yī)保欺詐識別的研究[D].哈爾濱:哈爾濱商業(yè)大學,2015.
[2]樓磊磊.醫(yī)療保險數(shù)據(jù)異常行為檢測算法和系統(tǒng)[D].浙江:浙江大學,2015.
[3]戴子卿,陳俐.基于聚類方法的醫(yī)療費用數(shù)據(jù)挖掘研究[J].中國病案,2014,15(10):66-68.
[4]李如平.數(shù)據(jù)挖掘中決策樹分類算法和研究[J].東華理工大學學報(自然科學版),2010,33(2):192-194.
[5]馮麗蕓.數(shù)據(jù)挖掘在我國醫(yī)保方面應(yīng)用綜述[J].電腦知識與技術(shù),2014,10(5):880-901.
Abstract:At present,the hospitalization expenses in China is increasing rapidly,and the increasing range of per capita outpatient and hospitalization expenses is far greater than the increasing range of per capita income,thus medical insurance expenses is increasing significantly as well.How to realize the medical insurance expense control is a hotspot in the research of social insurance industry in our country.Adopts K-means clustering algorithm to mine information of hospitalized patients recorded in medical insurance system,so as to study and analyze the inner relations and provide reference for rational control of the excessive rapid growth of hospitalization expenses.
Keywords:Data Mining;Medical Insurance;Clustering Algorithm;Expense Control
Data Mining of Hospitalization Expenses Based on K-means Clustering Algorithm
XIE Xiao-xiao
(College of Computer and Electronic Information,Guangxi University,Nanning 530004)
1007-1423(2017)26-0054-03
10.3969/j.issn.1007-1423.2017.26.014
謝筱筱(1988-),女,廣西南寧人,本科,研究方向為數(shù)據(jù)挖掘
2017-07-06
2017-09-10