尹菊芳+韓雪
摘 要 考慮到病人醫(yī)保欺詐的多種可能性,本文采用主成分分析和聚類分析方法建立病人欺詐可疑度評價模型,對病人是否存在欺詐行為作出分析和判別。
關(guān)鍵詞 主成分分析 聚類分析 醫(yī)保欺詐 防范
中圖分類號:TP311 文獻標識碼:A DOI:10.16400/j.cnki.kjdkx.2017.12.069
Abstract Considering the many possibilities of patient's medical insurance and fraud, this paper uses principal component analysis and cluster analysis to establish the evaluation model of suspicious patients fraud, and analyzes and discriminates the patients' fraud.
Keywords principal component analysis; cluster analysis; medicare and fraud; prevent
0 引言
隨著醫(yī)改的不斷深入,醫(yī)療保障體系不斷拓展覆蓋保障人群,做好醫(yī)保欺詐的防范,尤其是在規(guī)范醫(yī)療行為方面顯得尤為重要。在有關(guān)機構(gòu)的調(diào)查中顯示,過度醫(yī)療,分解住院,冒用出借醫(yī)???,虛假收費等為目前欺詐比例最大的幾個手段。本文將針對以深圳某醫(yī)院一個月的35810個患者記錄為例分析醫(yī)保欺詐行為。根據(jù)病人單月內(nèi)消費次數(shù)、消費金額、購藥數(shù)量、購藥種類及病人醫(yī)??ǖ氖褂萌藬?shù)等,采用主成分分析和聚類分析方法,找出可能存在欺詐行為的記錄。
1 數(shù)據(jù)處理
1.1 指標變量的選取
目前社會上醫(yī)保欺詐的手段多種多樣,總體來說可歸結(jié)為6種情況:拿著別人的醫(yī)保卡配藥,即一張醫(yī)??ū欢鄠€人使用;單次消費特別高,一個病人對應(yīng)一個或多個賬單,這些賬單的費用有高有低,選取其中最高的費用作為一個考評指標;一張卡在一定時間內(nèi)反復(fù)多次拿藥;某段時間內(nèi)消費總金額過高;某次購藥數(shù)量很多;某段時間內(nèi)反復(fù)購買大量藥品。
因此我們選取6種評價指標進行主成分分析:對應(yīng)的醫(yī)保卡使用人數(shù)();單次最高消費金額();單月消費次數(shù)();消費總金額();購買藥品總數(shù)量();單次最大購藥數(shù)量()。
1.2評價指標標準化
對每個病人的各個指標進行打分。設(shè)定每個變量的滿分為10分,建立指標評分模型:
病人的指標變量具有不同的分數(shù),分數(shù)越高代表欺詐的可能性越大,分數(shù)越低代表欺詐的可能性越小。例如,病人醫(yī)??ǖ氖褂萌藬?shù)是刻畫病人是否正常使用醫(yī)??ǖ囊粋€重要指標,即病人的醫(yī)??ㄊ褂萌藬?shù)越多,則病人欺詐的可能性越大。對于指標,病人醫(yī)??ǖ氖褂萌藬?shù)可能有三種情況,僅有一人使用,即 = 1;被兩個人使用,即 = 2;被三個人使用,即 = 3。按照上面指標評分模型,可分別計算出相應(yīng)的:
2 主成分分析
2.1 KMO和 Barrtlett的檢驗
使用SPSS軟件對標準化的數(shù)據(jù)進行KMO和Barrtlett的檢驗:
由表1可以看出Barrtlett檢驗統(tǒng)計量為950.662,相應(yīng)的Sig為0.000,相關(guān)系數(shù)矩陣與單位陣有顯著差異,此假設(shè)被拒絕,同時,KMO值為0.792,原有變量適合作主成分分析。
2.2 相關(guān)系數(shù)矩陣
相關(guān)系數(shù)矩陣是6個變量兩兩之間相關(guān)系數(shù)大小的方陣,反映了變量之間的相關(guān)系數(shù)大?。ㄒ姳?)。
2.3 公因子方差
公因子方差給出了主成分從原始變量中提取的信息(表3)。
可見,所有變量的共同方差均較高,各個變量的信息丟失都較少,因此本次主成分分析提取的總體效果較理想。
2.4 解釋的總方差
各因子旋轉(zhuǎn)前和旋轉(zhuǎn)后的特征值、方差貢獻率和累積方差貢獻率的計算結(jié)果如表4:
其中第一列是因子編號,以后三列組成一組,每組中數(shù)據(jù)項的含義依次是特征值,方差貢獻率和累計方差貢獻率。由解釋的總方差及特征值得碎石土圖可以知道第一主成分的方差是2.476,第二主成分的方差是1.434,第三主成分的方差是1.000。根據(jù)累計貢獻率超過80%的一般選取原則,主成分1、主成分2和主成分3的累計貢獻率已達到了81.682%的水平,表明原來6個變量反映的信息可由三個主成分反映81.682%,能夠反映主要信息, 主成分分析效果較理想。
2.5 成份得分系數(shù)矩陣
2.6 成份得分協(xié)方差矩陣
協(xié)方差是反映的變量之間的二階統(tǒng)計特性,如果變量之間的相關(guān)性很小,則所得的協(xié)方差矩陣幾乎是一個對角矩陣。這里得出的主成分的協(xié)方差矩陣是一個對角陣,則說明3個主成分相關(guān)性很小。
提取方法:主成份。構(gòu)成得分。
3 K-means聚類分析
本文中使用SPSS19.0進行K-means聚類分析,將聚類的類別取為4,代表四種可能的欺詐程度。
3.1 初始聚類中心
SPSS軟件會自動選擇初始中心點,從表7得知SPSS自動選擇的第一聚類的初始中心點為12.32,第二聚類的初始中心點為16.51,第三聚類的初始中心點為-0.78, 第三聚類的初始中心點為6.66。
當聚類中心內(nèi)沒有改動或改動較小而達到收斂。本文中當?shù)螖?shù)達到50次時,達到設(shè)定的閾值,聚類中心不再更改。
3.2 最終聚類中心
表8是由綜合得分聚類得來的最終聚類中心,可知第一聚類的中心為1.81,第二聚類的中心為5.32,第三聚類的中心為-0.46,第四聚類的中心為0.36.聚類中心的值,可描述病人欺詐的可能性大小,實際上,最終聚類中心的值越大,欺詐的可能性就越大.因此,可根據(jù)表8中的最終聚類中心的大小來確定最初定義的四類與聚類產(chǎn)生的四類之間的對應(yīng)關(guān)系.
3.3 每個聚類中的案例數(shù)
可見,第一個聚類的最終中心點為1.81,案例數(shù)為3318,即可能存在欺詐的行為的記錄為3318條,第二個聚類的最終中心點為5.32,案例數(shù)為260,即極可能存在欺詐行為的記錄為260條,第三個聚類的最終中心點為-0.46,案例數(shù)為23050,即不存在欺詐行為的記錄為23050條,第四個聚類的最終中心點為0.36,案例數(shù)為9182,即基本不存在欺詐行為的記錄為9182條。
4結(jié)論
由統(tǒng)計得知,未使用醫(yī)??ㄈ藬?shù)所占的比例為38.23%,使用醫(yī)??ǘ淮嬖谄墼p行為的所占的比例為39.73%,基本不存在欺詐行為的所占的比例為15.83%,可能存在欺詐行為的所占的比例為5.72%,極可能存在欺詐行為的所占的比例為0.49%,可能存在欺詐行為的和極可能存在欺詐行為的加起來共占6.21%,通過中華人民共和國人力資源和社會保障部官方網(wǎng)站的數(shù)據(jù)得知,中國的醫(yī)療欺詐比例約為6%,得出的結(jié)果與這個比例十分接近,由此可知的結(jié)果是基本可靠的。
參考文獻
[1] 劉喜化,魏超.我國社會醫(yī)療保險欺詐研究綜述.東方論壇,2013(6).
[2] 何俊華.數(shù)據(jù)挖掘技術(shù)在醫(yī)保領(lǐng)域中的研究與應(yīng)用.計算機軟件與理論,2011.4.20.
[3] 梁欣強.醫(yī)保系統(tǒng)中數(shù)據(jù)挖掘的應(yīng)用.電腦知識與技術(shù),2014(19).endprint