梁 俊 孫聽(tīng)雪 何小軍 李吉輝 邢亞文 辛均益
(浙江大學(xué)醫(yī)學(xué)院附屬第二醫(yī)院杭州 310000) (浙江大學(xué)醫(yī)學(xué)院附屬邵逸夫醫(yī)院杭州 310000) (浙江大學(xué)醫(yī)學(xué)院附屬第二醫(yī)院 杭州310000) (浙江醫(yī)學(xué)高等??茖W(xué)校杭州 310000)
?
?醫(yī)學(xué)信息研究?
基于數(shù)據(jù)挖掘的標(biāo)準(zhǔn)化醫(yī)療保險(xiǎn)監(jiān)控模型構(gòu)建*
梁 俊 孫聽(tīng)雪 何小軍 李吉輝 邢亞文 辛均益
(浙江大學(xué)醫(yī)學(xué)院附屬第二醫(yī)院杭州 310000) (浙江大學(xué)醫(yī)學(xué)院附屬邵逸夫醫(yī)院杭州 310000) (浙江大學(xué)醫(yī)學(xué)院附屬第二醫(yī)院 杭州310000) (浙江醫(yī)學(xué)高等專科學(xué)校杭州 310000)
從數(shù)據(jù)集建立、模型設(shè)計(jì)、醫(yī)保審核模型相關(guān)指標(biāo)建立、原始數(shù)據(jù)集預(yù)處理、基于K-means的聚類(lèi)特征生成、數(shù)據(jù)分類(lèi)、后處理模塊幾方面介紹基于數(shù)據(jù)挖掘的標(biāo)準(zhǔn)化醫(yī)療保險(xiǎn)監(jiān)控模型構(gòu)建,提高醫(yī)療費(fèi)用審核效率,減少醫(yī)療資源浪費(fèi)。
數(shù)據(jù)挖掘; 醫(yī)保費(fèi)用; 異常檢測(cè)
《中共中央關(guān)于全面深化改革若干重大問(wèn)題的決定》明確提出:“要深入改革醫(yī)保支付方式,健全全民醫(yī)保體系”[1],2014年《浙江省人力資源和社會(huì)保障工作要點(diǎn)》進(jìn)一步要求建立健全醫(yī)保監(jiān)管信息平臺(tái),強(qiáng)化對(duì)醫(yī)療費(fèi)用的全面審核和智能監(jiān)管,嚴(yán)格控費(fèi)控藥,全力打造陽(yáng)光醫(yī)保[2],可見(jiàn)醫(yī)療保險(xiǎn)信息化是國(guó)家大力開(kāi)展的建設(shè)項(xiàng)目,人人享有健康是醫(yī)療保障建設(shè)的普遍性目標(biāo)[3]。隨著醫(yī)療保障事業(yè)的發(fā)展,信息化管理改革的深化,信息技術(shù)廣泛應(yīng)用,國(guó)內(nèi)在醫(yī)保支撐信息系統(tǒng)的可用性、安全性、互操作性建設(shè)以及數(shù)據(jù)積累上已經(jīng)獲得了一些階段性成果[4-7],如何有效二次利用這些沉淀數(shù)據(jù),提高醫(yī)保管理效率,降低差錯(cuò)發(fā)生是當(dāng)前醫(yī)學(xué)信息領(lǐng)域的研究熱點(diǎn)之一。數(shù)據(jù)挖掘技術(shù)將數(shù)據(jù)經(jīng)過(guò)標(biāo)準(zhǔn)化處理并轉(zhuǎn)成計(jì)算機(jī)可處理的信息,將這些信息用于決策或驗(yàn)證,然后積累形成知識(shí)。將數(shù)據(jù)挖掘技術(shù)用于醫(yī)療保險(xiǎn)數(shù)據(jù)分析,能有效分析大量的沉淀數(shù)據(jù),找出隱含的規(guī)則和模式,促進(jìn)醫(yī)學(xué)的發(fā)展[8]。因此,醫(yī)療保險(xiǎn)數(shù)據(jù)的信息化、標(biāo)準(zhǔn)化是醫(yī)療保險(xiǎn)制度建設(shè)和管理服務(wù)中兩個(gè)互為依存的重要工作,也是提高醫(yī)療服務(wù)質(zhì)量、構(gòu)建完善的醫(yī)療保險(xiǎn)信息網(wǎng)的基礎(chǔ)和進(jìn)行大數(shù)據(jù)挖掘的前提[9]。本研究利用數(shù)據(jù)挖掘技術(shù),建立一套分類(lèi)模式,以協(xié)助醫(yī)保中心進(jìn)行醫(yī)療費(fèi)用審查的工作,研究的目的如下:(1) 結(jié)合樸素貝葉斯分類(lèi)算法(NB)和K-means聚類(lèi)算法,發(fā)展更有效的數(shù)據(jù)分析模式。(2)找出醫(yī)療費(fèi)用審查的關(guān)鍵因素。(3)利用本研究發(fā)展的數(shù)據(jù)挖掘技術(shù),輔助醫(yī)保中心進(jìn)行醫(yī)療費(fèi)用審查業(yè)務(wù)。
2.1 建立數(shù)據(jù)集
首先創(chuàng)建所需的醫(yī)療費(fèi)用數(shù)據(jù)子集,包含1 000人次就診所產(chǎn)生的相關(guān)費(fèi)用數(shù)據(jù)集,同時(shí)進(jìn)行了標(biāo)準(zhǔn)的匿名化處理,去除患者的病人ID、姓名、性別、年齡、所在病區(qū)、床位號(hào)等識(shí)別信息;然后由專家對(duì)這些費(fèi)用進(jìn)行人工審核,手工分配1個(gè)狀態(tài)
標(biāo)簽,包括“正常”和“異?!睜顟B(tài)。
2.2 模型設(shè)計(jì)
醫(yī)保費(fèi)用審查主要包括兩個(gè)方面:行政審查和專業(yè)審查。專業(yè)審查需要結(jié)合患者病歷對(duì)治療行為及其相關(guān)費(fèi)用的合理性進(jìn)行判斷,但當(dāng)前醫(yī)保費(fèi)用審核并不涉及患者病歷上傳工作,因此本研究主要針對(duì)行政審查,即關(guān)注對(duì)醫(yī)保報(bào)銷(xiāo)醫(yī)療費(fèi)用的整體審查。本研究假設(shè)在一個(gè)醫(yī)療機(jī)構(gòu)中,不同醫(yī)生治療類(lèi)似疾病所產(chǎn)生的醫(yī)療費(fèi)用金額是接近或符合一定規(guī)律的。系統(tǒng)整體架構(gòu),見(jiàn)圖1。
圖1 系統(tǒng)架構(gòu)
2.3 醫(yī)療費(fèi)用醫(yī)保審核模型相關(guān)指標(biāo)的建立
分析醫(yī)療費(fèi)用審核業(yè)務(wù)因素形成分析模型中的各種初步屬性。因?yàn)镹B中假設(shè)各維度互相獨(dú)立,因此需要注意各維度之間的相關(guān)性,利用業(yè)務(wù)規(guī)則刪除相關(guān)性過(guò)高的屬性,避免各個(gè)維度之間的依賴。最終確定的醫(yī)療費(fèi)用審核指標(biāo),見(jiàn)表1。
表1 醫(yī)療費(fèi)用審核指標(biāo)及其數(shù)據(jù)分布(元)
2.4 原始數(shù)據(jù)集預(yù)處理
研究對(duì)象是經(jīng)過(guò)匿名化處理的患者醫(yī)療費(fèi)用匯總數(shù)據(jù)集,采用Yang等[10]提出的標(biāo)準(zhǔn)化數(shù)據(jù)挖掘步驟進(jìn)行研究。需要首先進(jìn)行數(shù)據(jù)的前置處理,包括數(shù)據(jù)清洗、合并、轉(zhuǎn)換(在本研究中對(duì)應(yīng)連續(xù)值屬性的離散化),盡量避免不完整、錯(cuò)誤數(shù)據(jù)對(duì)醫(yī)保審核數(shù)據(jù)模型的影響。數(shù)據(jù)清洗的目的是針對(duì)所收集的數(shù)據(jù)集執(zhí)行初步清理和過(guò)濾動(dòng)作,以獲得有用的信息,確保數(shù)據(jù)質(zhì)量,包括檢查各個(gè)字段是否有不屬于或違反字段約束的數(shù)據(jù);檢查就診科室、診斷、醫(yī)保類(lèi)別等字段是否有Null值;合計(jì)費(fèi)用是否為0等。該過(guò)程將移除從業(yè)務(wù)角度看有問(wèn)題的記錄并檢查數(shù)據(jù)記錄的完整性。數(shù)據(jù)合并則是建立符合之前醫(yī)療費(fèi)用醫(yī)保審核模型相關(guān)指標(biāo)所需的數(shù)據(jù)表。數(shù)據(jù)轉(zhuǎn)換的目的是確保數(shù)據(jù)格式或類(lèi)型符合數(shù)據(jù)挖掘模型和方法的要求。鑒于此,首先進(jìn)行了就診科室、診斷等維度的粗粒度合并,以免這些維度值的過(guò)于分散影響后續(xù)基于K-means的聚類(lèi)特征的生成。另外,在樸素貝葉斯模型中,如果屬性值是連續(xù)性的,數(shù)值的連續(xù)性變化會(huì)對(duì)最終的概率分配產(chǎn)生較大影響,同時(shí)處理連續(xù)性維度的密度函數(shù)定義復(fù)雜,對(duì)數(shù)據(jù)中的連續(xù)性屬性需要首先界定范圍并將連續(xù)性數(shù)值離散化,簡(jiǎn)化計(jì)算過(guò)程,提高計(jì)算精度。在研究中,采用了基于信息增益的離散化方法,通過(guò)迭代比較不同斷點(diǎn)值的信息增益值來(lái)確定最佳斷點(diǎn)集。信息增益(IG)[11]被定義為子集S的信息上與斷點(diǎn)s1針對(duì)集合S的信息熵之差:
IG(s1)=H(S)-H(s1)
(1)
(2)
(3)
基于上述定義,對(duì)診療費(fèi)、檢查費(fèi)、手術(shù)費(fèi)、藥費(fèi)、麻醉費(fèi)、材料費(fèi)、化驗(yàn)費(fèi)、輸血費(fèi)、自費(fèi)金額、報(bào)銷(xiāo)金額等連續(xù)值維度進(jìn)行了離散化處理。經(jīng)過(guò)預(yù)處理后,獲得有效數(shù)據(jù)樣本996份。該數(shù)據(jù)集中的標(biāo)記的分布情況是:對(duì)應(yīng)“正常”標(biāo)記的樣本為807份,對(duì)應(yīng)“異常”標(biāo)記的樣本189份。從兩種樣本中各隨機(jī)抽取了80%作為訓(xùn)練集,20%作為測(cè)試集。
2.5 基于K-means的聚類(lèi)特征生成
K-means[12]是一種被廣泛使用的半監(jiān)督算法,當(dāng)作為有監(jiān)督環(huán)境下的特征時(shí)被證實(shí)很有效,能提高有監(jiān)督學(xué)習(xí)算法的績(jī)效。在訓(xùn)練集{x(1),...x(n)},每個(gè)x(i)∈?n,隨機(jī)選取k個(gè)聚類(lèi)質(zhì)心點(diǎn)為μ1,μ2,μ3,...μk∈?n,重復(fù)迭代下列過(guò)程直到收斂。
對(duì)于每個(gè)樣本i,計(jì)算其應(yīng)該屬于的類(lèi):
(4)
對(duì)于每個(gè)樣本類(lèi)j,重新計(jì)算該樣本類(lèi)的質(zhì)心:
(5)
式中:c(i)表示樣本i與k個(gè)類(lèi)中距離最近的類(lèi)別,c(i)∈{1...k}。k的決定是聚類(lèi)分析中最重要的決策之一,當(dāng)k較大時(shí),所分類(lèi)別中的同質(zhì)性較好,但會(huì)無(wú)法得出有意義的分類(lèi)方法;當(dāng)k較小時(shí),雖然能較好地完成聚類(lèi)工作,但是會(huì)出現(xiàn)同質(zhì)性較差的情況。在本研究中,利用K-means獲得不同時(shí)間段內(nèi),不同就診科室、診斷、醫(yī)生性別的聚類(lèi)特征以供NB使用。綜合考慮先將k∈{2,4}代入K-means進(jìn)行聚類(lèi)分析。評(píng)估所產(chǎn)生各聚類(lèi)群集之間的標(biāo)準(zhǔn)差來(lái)決定最終所使用的k值,標(biāo)準(zhǔn)差結(jié)果,見(jiàn)表2。
表2 數(shù)據(jù)集聚類(lèi)標(biāo)準(zhǔn)差
注:考慮到最終的研究目標(biāo)是二元分類(lèi),綜合考慮選擇k=4。
2.6 使用NB對(duì)數(shù)據(jù)進(jìn)行有監(jiān)督分類(lèi)
在這個(gè)模塊中,使用NB[13]對(duì)剩余的訓(xùn)練集進(jìn)行分類(lèi),區(qū)分出“正?!睒颖竞汀爱惓!睒颖?。NB分類(lèi)器是通過(guò)某對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,即該對(duì)象屬于某一類(lèi)的概率,選擇具有最大后驗(yàn)概率的類(lèi)作為該對(duì)象所屬的類(lèi)。設(shè)C表示類(lèi)別節(jié)點(diǎn)集,cj∈C,[v1,v2,...vn]為n個(gè)特征屬性,且假設(shè)這n個(gè)特征屬性各自條件獨(dú)立則P(cj|v1,v2,...vn)的定義如下:
P(cj|v1,v2...vn)=
(6)
定義:設(shè)Nex為樣本數(shù),Ncl為分類(lèi)節(jié)點(diǎn)數(shù),而N(cj)為屬于分類(lèi)cj的樣本數(shù)。
Laplace校準(zhǔn):
(7)
M估計(jì):
(8)
式中:N(vi)表示滿足vi的樣本數(shù),N(cj&vi)表示屬于cj分類(lèi)且滿足vi的樣本數(shù),而m是修正系數(shù),在本研究中m=2。因此,本研究對(duì)原有的電子健康檔案系統(tǒng)整合分類(lèi)應(yīng)用(EHRS Combined Classification Application,EHRCCA)[14]進(jìn)行了擴(kuò)展,加入了WEKA[15]中的NB實(shí)現(xiàn),同時(shí)計(jì)算了醫(yī)療費(fèi)用審核狀態(tài)二元分類(lèi)各自的事前概率,基于之前模塊產(chǎn)生的特征子集,利用從訓(xùn)練集、離散特征子集和K-means的聚類(lèi)特征子集構(gòu)建出一個(gè)NB分類(lèi)器模型。
2.7 后處理模塊
經(jīng)過(guò)前4個(gè)組件的處理,訓(xùn)練集中的每個(gè)條目均被分配了兩個(gè)概率,分別是屬于‘正?!母怕屎蛯儆凇爱惓!钡母怕?。在本模塊中,使用了基于規(guī)則的方法,計(jì)算出最終樣本條目所述的類(lèi)別狀態(tài)。規(guī)則定義如下:
Max(P(c1|v1,v2...vn),P(c2|v1,v2...vn))?Labela
(9)
式中,c1表示正常分類(lèi),c2表示異常分類(lèi),a表示訓(xùn)練集中的1條數(shù)據(jù)樣本條目。
本研究使用了醫(yī)學(xué)統(tǒng)計(jì)學(xué)領(lǐng)域通用的評(píng)價(jià)指標(biāo)[13]對(duì)系統(tǒng)性能進(jìn)行了評(píng)估并與基線方法的性能-頻率分布法進(jìn)行了對(duì)比,這些指標(biāo)項(xiàng)包括準(zhǔn)確率(Precision)、召回率(Recall)、F1分值(F-score):
(10)
(11)
(12)
式中:TP表示金標(biāo)準(zhǔn)結(jié)果是正常,實(shí)際分類(lèi)結(jié)果也是“正?!钡臉颖緮?shù)量;TN表示金標(biāo)準(zhǔn)結(jié)果是異常,實(shí)際分類(lèi)結(jié)果也是異常的樣本數(shù)量;FP表示金標(biāo)準(zhǔn)結(jié)果是異常,實(shí)際分類(lèi)結(jié)果是正常的樣本數(shù)量;FN表示金標(biāo)準(zhǔn)結(jié)果是正常,實(shí)際分類(lèi)結(jié)果是異常的樣本數(shù)量。表3給出了系統(tǒng)在測(cè)試集上輸出結(jié)果的混淆矩陣,表4給出了相應(yīng)的性能評(píng)估。
表3 系統(tǒng)在測(cè)試集上輸出結(jié)果的混淆矩陣
表4 系統(tǒng)的性能評(píng)估結(jié)果
從測(cè)試集上的評(píng)估結(jié)果來(lái)看,正常分類(lèi)和異常分類(lèi)的F1分?jǐn)?shù)分別達(dá)到了0.919和0.719,可以看出針對(duì)測(cè)試集,模型達(dá)到了設(shè)計(jì)要求。
本文描述了結(jié)合半監(jiān)督K-means聚類(lèi)技術(shù)和樸素貝葉斯分類(lèi)技術(shù),利用費(fèi)用審核中常見(jiàn)的一些關(guān)鍵指標(biāo)構(gòu)建數(shù)據(jù)挖掘系統(tǒng)。通過(guò)對(duì)醫(yī)保費(fèi)用數(shù)據(jù)子集的分析,找出隱含的數(shù)據(jù)模型,形成正確且公平的審核模式,可作為現(xiàn)有依賴基于規(guī)則的費(fèi)用審核和人工抽樣審核混合模式的合理補(bǔ)充。
1 中共中央關(guān)于全面深化改革若干重大問(wèn)題的決定[EBOL].[2014-08-30].http://news.xinhuanet.com/politics/2013-11/15/c_118164235.htm.
2 2014年全省人力資源和社會(huì)保障工作要點(diǎn) [EB/OL].[2014-08-30]. http://www.zjhrss.gov.cn/art/2014/2/27/art_12_57482.html.
3 “三醫(yī)聯(lián)動(dòng)”促進(jìn)醫(yī)改[J] .醫(yī)學(xué)信息學(xué)雜志,2012,33(3):94.
4 劉學(xué)鵬,曾世鴻,曲建明,等.協(xié)調(diào)工作在醫(yī)院數(shù)字化建設(shè)中的作用[J].醫(yī)學(xué)信息學(xué)雜志,2011, 32(4):33-35.
5 楊瑩,李超峰,林達(dá)峻. 遠(yuǎn)程技術(shù)對(duì)醫(yī)保結(jié)算的優(yōu)化 [J] .醫(yī)學(xué)信息學(xué)雜志,2014, 35(3):34-37.
6 李亞子,田丙磊,李艷玲,等.醫(yī)療健康信息二次利用中安全隱私保護(hù)研究[J].醫(yī)學(xué)信息學(xué)雜志,2014, 35(9):1-6.
7 李亞子,尤斌,王暉,等.醫(yī)療保險(xiǎn)信息泄露案例分析及對(duì)我國(guó)安全隱私保護(hù)的借鑒[J].醫(yī)學(xué)信息學(xué)雜志,2014,35(2):6-12.
8 Hripcsak G, Bloomrosen M, Flatelybrennan P, etal. Health Data Use, Stewardship, and Governance: ongoing gaps and challenges: a report from AMIA′s 2012 health policy meeting[J].J Am Med Inform Assoc, 2014, 21(2): 204-211.
9 Rose J S, Fisch B J, Hogan W R, et al. Common Medical Terminology Comes of Age, Part One: standard language improves healthcare quality [J]. J Healthc Inf Manag, 2001, 15(3): 307-318.
10 Yang H, Spasic I, Keane J A, et al. A Text Mining Approach to the Prediction of Disease Status from Clinical Discharge Summaries [J]. J Am Med Inform Assoc, 2009, 16(4): 596-600.
11 Forman G. An Extensive Empirical Study of Feature Selection Metrics for Text Classification [J]. Journal of Machine Learning Research, 2003, 3(3): 1289-1305.
12 Domingos P. A Few Useful Things to Know about Machine Learning [J]. Communications of the Acm, 2012, 55(10): 78-87.
13 Nadkarni P M, Ohno-machado L, Chapman W W. Natural Language Processing: an introduction [J]. Journal of the American Medical Informatics Association, 2011, 18(5): 544-551.
14 Liang J, Zheng X, Xu M, et al. A Combined Classification Model for Chinese Clinical Notes [J]. International Journal of Applied Mathematics and Statistics, 2013, 49(19): 201-209.
15 Hall M, Frank E, Holmes G, et al. The WEKA Data Mining Software: an update [J]. SIGKDD Explor Newsl, 2009, 11(1): 10-18.
2015年《醫(yī)學(xué)信息學(xué)雜志》征訂啟事
《醫(yī)學(xué)信息學(xué)雜志》是國(guó)內(nèi)醫(yī)學(xué)信息領(lǐng)域創(chuàng)刊最早的醫(yī)學(xué)信息學(xué)方面的國(guó)家級(jí)期刊。主管:國(guó)家衛(wèi)生和計(jì)劃生育委員會(huì);主辦:中國(guó)醫(yī)學(xué)科學(xué)院;承辦:中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所。中國(guó)科技核心期刊(中國(guó)科技論文統(tǒng)計(jì)源期刊),RCCSE中國(guó)核心學(xué)術(shù)期刊(武漢大學(xué)中國(guó)科學(xué)評(píng)價(jià)研究中心,Research Center for Chinese Science Evaluation),美國(guó)《化學(xué)文摘》、《烏利希期刊指南》及WHO西太區(qū)醫(yī)學(xué)索引(WPRIM)收錄,并收錄于國(guó)內(nèi)3大數(shù)據(jù)庫(kù)。主要欄目:專論,醫(yī)學(xué)信息技術(shù),醫(yī)學(xué)信息研究,醫(yī)學(xué)信息組織與利用,醫(yī)學(xué)信息教育,動(dòng)態(tài)等。讀者對(duì)象:醫(yī)學(xué)信息領(lǐng)域?qū)<覍W(xué)者、管理者、實(shí)踐者,高等院校相關(guān)專業(yè)的師生及廣大醫(yī)教研人員。
2015年《醫(yī)學(xué)信息學(xué)雜志》國(guó)內(nèi)外公開(kāi)發(fā)行,每?jī)?cè)定價(jià):15元(月刊),全年180元。郵發(fā)代號(hào):2-664,全國(guó)各地郵局均可訂閱。也可到編輯部訂購(gòu):北京市朝陽(yáng)區(qū)雅寶路3號(hào)(100020)醫(yī)科院信息所《醫(yī)學(xué)信息學(xué)雜志》編輯部;電話:010-52328673,52328674,52328671。
《醫(yī)學(xué)信息學(xué)雜志》編輯部
Construction of Standardized Health Insurance Monitoring Model Based on Data Mining
LIANGJun,
SecondAffiliatedHospital,CollegeofMedicine,ZhejiangUniversity,Hangzhou310000,China;
SUNTing-xue,
SirRunRunShawHospital,CollegeofMedicine,ZhejiangUniversity,Hangzhou310000,China;
HEXiao-jun,LIJi-hui,XINGYa-wen,
SecondAffiliatedHospital,CollegeofMedicine,ZhejiangUniversity,Hangzhou310000,China;
XINJun-yi,
ZhejiangMedicalCollege,Hangzhou310000,China
The paper introduces the construction of standardized health insurance monitoring model based on data mining from the following aspects: data set establishment, model design, health insurance audition related indexes construction, original data set preprocessing, clustering feature generation based on K-means, data classification, post-processing model and so on, in order to improve audition efficiency of medical expenses and reduce the waste of medical resources.
Data mining; Health insurance fee; Abnormal detection
2014-12-03
梁俊,碩士,中級(jí)職稱,發(fā)表論文8篇;通訊作者,辛均益。
浙江省人力資源和社會(huì)保障科學(xué)研究課題(項(xiàng)目編號(hào):L2014A002);浙江省醫(yī)藥衛(wèi)生科技基金(項(xiàng)目編號(hào):2013KYB140)。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.03.010