張莎莎 李偉
摘要:隨著國家基本醫(yī)療保險制度的全面覆蓋,社會保障局數(shù)據(jù)庫中數(shù)據(jù)也與日俱增,利用其中的數(shù)據(jù)來做進一步的分析,把大量無序的數(shù)據(jù)變成科學的知識是社會保障系統(tǒng)工作的需求。以貴陽市社會保障局醫(yī)療保險業(yè)務數(shù)據(jù)中城鎮(zhèn)居民統(tǒng)籌基金支付情況為目標,利用聚類分析法,通過搭建oracle數(shù)據(jù)倉庫平臺,并在此平臺上進行主題數(shù)據(jù)倉庫構建與設計,進行聯(lián)機分析得出城鎮(zhèn)居民統(tǒng)籌基金支付情況,為貴陽市城鎮(zhèn)居民統(tǒng)籌基金支付政策的科學制定與調(diào)整具有一定的指導意義。
關鍵詞:城鎮(zhèn)居民;數(shù)據(jù)倉庫;聯(lián)機分析;數(shù)據(jù)挖掘;聚類算法
中圖分類號:TP39 文獻標識碼:A 文章編號:1009-3044(2013)08-1739-04
1 概述
貴陽市社會保障局大力發(fā)展社會保障的信息建設,并按照勞動和社會保障部門制定了《勞動與社會保障信息指標體系》,于2001年6月設計建設了貴陽市社會保障信息體系,在其運行的十幾年中,系統(tǒng)里面的數(shù)據(jù)不斷的增加,以往的軟件技術已經(jīng)不能滿足大量數(shù)據(jù)的分析工作,如何從這些數(shù)據(jù)中挖掘出有用的信息成為一個重要的工作。
常用的數(shù)據(jù)挖掘算法有回歸算法,分割算法,關聯(lián)算法,順序分析算法以及聚類算法等[1]?;貧w算法是基于數(shù)據(jù)集中的其他屬性預測一個活多個連續(xù)變量,如利潤或虧損;分割算法是將數(shù)據(jù)分成組或分類,項具有相似屬性;關聯(lián)算法查找數(shù)據(jù)集中的不同屬性之間的相關性,這類算法最常見的是創(chuàng)建可用于市場藍分析的關聯(lián)準則;順序分析算法是匯總數(shù)據(jù)中常見的順序或時間,如WEB路徑流;聚類算法最初由Cover和Hart于1968年提出的,是一個理論上比較成熟的方法,該算法思路非常簡單直觀,如果一個樣本在特征空間中的k 個最相似的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別,該方法在定類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別[2]。
貴陽市城鎮(zhèn)居民的統(tǒng)籌基金支付情況的數(shù)值是離散的,病分為單病種和非單病種,國家所支付的統(tǒng)籌基金也是不同的,所以采用聚類分析法通過搭建oracle數(shù)據(jù)倉庫平臺,并在此平臺上進行主題數(shù)據(jù)倉庫構建與設計,經(jīng)過進行聯(lián)機分析得出城鎮(zhèn)居民統(tǒng)籌基金支付情況,為貴陽市城鎮(zhèn)居民統(tǒng)籌基金支付政策的科學制定與調(diào)整具有一定的指導意義。
2 總體構架
本研究所用到的數(shù)據(jù)全部來源于貴陽市社會保障信息系統(tǒng)。數(shù)據(jù)主要有業(yè)務數(shù)據(jù)和數(shù)據(jù)字典組成。業(yè)務數(shù)據(jù)包括:居民個人參保基本信息,居民保險清算基本信息;數(shù)據(jù)字典包括:居民保險人員身份代碼表,居民保險人員類別代碼表,居民參保所屬分中心代碼表,服務結構代碼表,醫(yī)療結構代碼表,醫(yī)療機構類別代碼表等。由于社保信息系統(tǒng)在平時的運行中,采用了非常嚴格的數(shù)據(jù)格式控制,所以其內(nèi)部數(shù)據(jù)完整,質(zhì)量較好,為下一步導入數(shù)據(jù)倉庫和數(shù)據(jù)分析奠定了很好的基礎.社會保險中城鎮(zhèn)居民醫(yī)療保險數(shù)據(jù)挖掘與聯(lián)機分析方案的總體架構包含:
數(shù)據(jù)整合:把從貴陽市社會保障局中抽取的數(shù)據(jù)進行清理,轉(zhuǎn)化加載到數(shù)據(jù)倉庫中。
數(shù)據(jù)倉庫:將業(yè)務系統(tǒng)中面對應用的數(shù)據(jù)按照分析主題進行組織,并對數(shù)據(jù)進行存儲。
聯(lián)機分析:應用聯(lián)機分析處理工具,幫助用戶從不同緯度來分析各項數(shù)據(jù),具有復雜決策的功能。
數(shù)據(jù)挖掘:利用數(shù)據(jù)挖掘工具,把其中隱藏的信息挖掘出來,把日常無需的字段變成有用的信息。
2.1軟硬件配置
3 設計
3.1 數(shù)據(jù)倉庫主題域設計
醫(yī)療保險業(yè)務從其面向的對象中分為兩類:城鎮(zhèn)職工基本醫(yī)療保險和城鎮(zhèn)居民基本醫(yī)療保險.選定了城鎮(zhèn)居民基金支付主題,其數(shù)據(jù)設計到原有業(yè)務數(shù)據(jù)表格,如城鎮(zhèn)居民基本信息表,城鎮(zhèn)居民醫(yī)療結算表,以及醫(yī)療機構代碼表等,從城鎮(zhèn)居民參保人員的性別,年齡,個人類型,個人身份,醫(yī)療機構類別,所屬分中心等多個維度來分析基本醫(yī)療保險基金支付的構成情況,分析各類人員在單病種患病的情況下統(tǒng)籌支付金額的情況。
3.2 維度建模
3.3物理模型設計
4 實現(xiàn)過程
4.1建立數(shù)據(jù)倉庫
按照同樣的步驟,我們把本文的維度表及數(shù)據(jù)導入到oracle 數(shù)據(jù)庫中,建立本文需要的數(shù)據(jù)倉庫。
4.2 聯(lián)機分析
4.3數(shù)據(jù)挖掘
根據(jù)統(tǒng)計匯總發(fā)現(xiàn)患者在三級一,三級二就醫(yī),人員類別為普通人員,人員身份為居民且患單病種,年齡在6以下的人數(shù)比較多.,本文選擇滿足此條件的數(shù)據(jù)進行挖掘。
5 結論
對統(tǒng)計數(shù)據(jù)中人數(shù)最多的數(shù)據(jù)進行挖掘得到以下結果:
1)從年齡上看,患單病種的人數(shù)的支付基金年齡在6歲以下的滿意度高,而且統(tǒng)籌基金分布的人數(shù)比較多,說明國家的起付線制定和統(tǒng)籌基金支付具有一定的合理性。
2)從挖掘的結果上看,在年齡上低于6歲患單病種人數(shù)要多,為13619, 說明嬰幼兒應該加強疾病的保健工作,患病的風險也很大,國家應該在基金方面制定相對應的措施來保障嬰幼兒的生活。
參考文獻:
[1] 武森.高學東.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:冶金工業(yè)出版社,2003.
[2] 陳躍新.數(shù)據(jù)挖掘算法在醫(yī)保數(shù)據(jù)上的應用研究[D].北京:國防科學技術大學,2010.
[3] 胡潔.數(shù)據(jù)挖掘技術在設備狀態(tài)檢測的應用研究[D].南京:南京大學.2011.