王為光
(蘇州工業(yè)園區(qū)社會(huì)保險(xiǎn)基金和公積金管理中心,江蘇 蘇州 215000)
隨著信息技術(shù)的發(fā)展,大數(shù)據(jù)已經(jīng)成為新時(shí)代的熱點(diǎn),并被給予“未來新石油”的評(píng)價(jià)[1-3]。對(duì)大數(shù)據(jù)的開發(fā)利用已成為國際競(jìng)爭(zhēng)及國家整體實(shí)力的重要體現(xiàn),世界各國先后制定和實(shí)施了大數(shù)據(jù)相關(guān)的戰(zhàn)略計(jì)劃,我國于2015年提出了大數(shù)據(jù)發(fā)展戰(zhàn)略[4-6],隨著信息技術(shù)的迅速發(fā)展,基于大數(shù)據(jù)技術(shù)的數(shù)據(jù)開發(fā)利用已經(jīng)成為各個(gè)行業(yè)在市場(chǎng)競(jìng)爭(zhēng)中的重要因素,甚至成為國家整體實(shí)力的重要體現(xiàn)。在醫(yī)療領(lǐng)域仍舊如此,各區(qū)域醫(yī)療保險(xiǎn)信息系統(tǒng)內(nèi)存在著大量的數(shù)據(jù),這些龐大的醫(yī)療保險(xiǎn)數(shù)據(jù)在不經(jīng)過梳理、分析、再整理、重構(gòu)等處理的情況下,很難直接用于醫(yī)保管理,加大醫(yī)保工作人員的工作量,造成很大的資源浪費(fèi)[7-10]。依據(jù)國家“大數(shù)據(jù)”發(fā)展戰(zhàn)略要求,利用大數(shù)據(jù)對(duì)醫(yī)?;疬M(jìn)行風(fēng)險(xiǎn)防控已經(jīng)成為目前科技發(fā)展的重點(diǎn),通過將大數(shù)據(jù)分析技術(shù)應(yīng)用到醫(yī)療保險(xiǎn)行業(yè),能夠有效降低醫(yī)?;疬\(yùn)行風(fēng)險(xiǎn),有利于解決醫(yī)保險(xiǎn)欺詐、過度醫(yī)療等問題,最終實(shí)現(xiàn)醫(yī)?;鸬目沙掷m(xù)發(fā)展[5,11-12]。
因此, 如何利用好這些醫(yī)保大數(shù)據(jù)、探究大數(shù)據(jù)在醫(yī)療保險(xiǎn)信息化建設(shè)中的應(yīng)用具有十分重要的意義[13-14]。本研究以蘇州工業(yè)園區(qū)醫(yī)療保險(xiǎn)特病結(jié)算數(shù)據(jù)為基礎(chǔ),對(duì)數(shù)據(jù)進(jìn)行梳理、分析、清洗、重構(gòu),運(yùn)用系統(tǒng)建模大數(shù)據(jù)技術(shù),利用預(yù)測(cè)模型、數(shù)理模型進(jìn)行數(shù)學(xué)建模,分析影響特病支出費(fèi)用的發(fā)展趨勢(shì)以及影響支出的關(guān)鍵因素,提高了數(shù)據(jù)的處理能力。
本研究通過以文蘇州工業(yè)園區(qū)社會(huì)保險(xiǎn)基金和公積金管理中心(以下簡(jiǎn)稱“中心”)醫(yī)療保險(xiǎn)特病支出數(shù)據(jù)為基礎(chǔ),對(duì)大數(shù)據(jù)的應(yīng)用進(jìn)行說明、分析借助于大數(shù)據(jù)分析挖掘技術(shù)助力醫(yī)保平臺(tái)特病數(shù)據(jù)監(jiān)控與費(fèi)用控制,為醫(yī)?;鸬目沙掷m(xù)發(fā)展及醫(yī)療保險(xiǎn)政策的制定、執(zhí)行、完善提供依據(jù)。如圖1所示。
圖1 大數(shù)據(jù)應(yīng)用框架結(jié)構(gòu)示意圖
在本研究設(shè)計(jì)中,其總體思路是:選擇園區(qū)的12種特病樣本數(shù)據(jù),該疾病為尿毒癥、白內(nèi)障、再生障礙性貧血、血友病、惡性腫瘤康復(fù)期、冠心病合并心肌梗死、癲癇、強(qiáng)直性脊柱炎、系統(tǒng)性紅斑狼瘡、類風(fēng)濕性關(guān)節(jié)炎、惡性腫瘤放化療、重癥精神病等。首先將這些數(shù)據(jù)進(jìn)行梳理、分析、清洗等處理,再利用大數(shù)據(jù)分析模型,進(jìn)行數(shù)學(xué)建模,根據(jù)限額、限額以內(nèi)的報(bào)銷比例,超限額報(bào)銷比例,申請(qǐng)人數(shù)四個(gè)影響維度,調(diào)整數(shù)理模型參數(shù),對(duì)下一年度的特病支出費(fèi)用做出預(yù)測(cè)。
通常,醫(yī)療保險(xiǎn)信息化平臺(tái)為分為不同層次的幾個(gè)平臺(tái),比如數(shù)據(jù)庫、數(shù)據(jù)存儲(chǔ)平臺(tái)、大數(shù)據(jù)計(jì)算、處理平臺(tái)、業(yè)務(wù)應(yīng)用平臺(tái)、展示層等。醫(yī)療大數(shù)據(jù)被存儲(chǔ)在數(shù)據(jù)庫中,在信息化平臺(tái)中,數(shù)據(jù)存儲(chǔ)中心為基于Hadoop平臺(tái)的大型Hbase數(shù)據(jù)庫,hadoop分布式大數(shù)據(jù)平臺(tái)能夠提供數(shù)據(jù)提取、存儲(chǔ)和計(jì)算服務(wù),其具有結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù),非結(jié)構(gòu)化的數(shù)據(jù)被存儲(chǔ)在Hadoop平臺(tái)中的HDFS文件系統(tǒng)中。在Hadoop平臺(tái)中的各種大數(shù)據(jù)可以實(shí)現(xiàn)分布式存儲(chǔ)、超融合VS分布式、刪重和壓縮以及整合分析等功能。
在數(shù)據(jù)計(jì)算之前通常要進(jìn)行數(shù)據(jù)預(yù)處理,數(shù)據(jù)預(yù)處理主要包含數(shù)據(jù)梳理、數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)簡(jiǎn)約等。在進(jìn)行數(shù)據(jù)處理中,對(duì)已有的數(shù)據(jù)資源進(jìn)行梳理,確定需要的有效的業(yè)務(wù)數(shù)據(jù)范圍,從核心業(yè)務(wù)數(shù)據(jù)庫oracle中抽取需要的原始目標(biāo)業(yè)務(wù)數(shù)據(jù),然后對(duì)原始數(shù)據(jù)在抽取時(shí)進(jìn)行第一次數(shù)據(jù)粗清洗工作,清洗后的數(shù)據(jù)存入大數(shù)據(jù)平臺(tái)的hive數(shù)據(jù)倉庫中,然后對(duì)hive倉庫中的數(shù)據(jù)進(jìn)行二次清洗,形成滿足要求的有效的高質(zhì)量數(shù)據(jù),二次清理后的數(shù)據(jù)存放在hive數(shù)據(jù)庫中,對(duì)第一次存儲(chǔ)的數(shù)據(jù)進(jìn)行清除整理。數(shù)據(jù)清理之后,采用數(shù)據(jù)挖掘算法或者隨機(jī)矩陣模型對(duì)清洗后的數(shù)據(jù)進(jìn)行計(jì)算、處理,然后通過展示頁面向用戶顯示數(shù)據(jù)。
在諸如尿毒癥、白內(nèi)障、再生障礙性貧血、血友病、惡性腫瘤康復(fù)期、冠心病合并心肌梗死、癲癇、強(qiáng)直性脊柱炎等多種醫(yī)療數(shù)據(jù)被輸入到信息化平臺(tái)時(shí),需要對(duì)大數(shù)據(jù)進(jìn)行預(yù)處理,在本研究設(shè)計(jì)中,采用移動(dòng)平均模型(MA)或者指數(shù)平滑模型進(jìn)行數(shù)據(jù)處理。
移動(dòng)平均(MovingAverage)就是使用前N期的歷史數(shù)據(jù)進(jìn)行序列的預(yù)測(cè),即把前N期的歷史數(shù)據(jù)的平均值作為下一期的預(yù)測(cè)值,其基本原理是通過消除時(shí)間序列中的周期變動(dòng)和不規(guī)則波動(dòng)的影響,以便呈現(xiàn)出時(shí)間序列的總體發(fā)展趨勢(shì)(即趨勢(shì)線),然后根據(jù)趨勢(shì)線分析序列的長(zhǎng)期趨勢(shì),其原理示意圖如圖2所示。
圖2 移動(dòng)平均大數(shù)據(jù)預(yù)處理原理示意圖
上述為一次移動(dòng)平均計(jì)算值,利用上述理論的效果如圖3所示。
圖3 移動(dòng)平均大數(shù)據(jù)預(yù)處理效果示意圖
通過該方法,可操作性、解釋性比較強(qiáng),易于工程化的實(shí)現(xiàn),移動(dòng)平均法能夠有效地消除預(yù)測(cè)中的隨機(jī)噪聲。
在使用指數(shù)平滑模型時(shí),指數(shù)平均(exponential smoothing,也叫exponential weighted moving average),這種平均方法的重要特征就是,Yt與之前產(chǎn)生的所有信號(hào)有關(guān),并且距離越近的信號(hào)所占權(quán)重越大。根據(jù)所選時(shí)間特征分為如下類型:一階指數(shù)平滑、二階指數(shù)平滑、Holt-Winters指數(shù)平滑模型等,采用該模型優(yōu)點(diǎn):精度較高,易于工程化的實(shí)施,python,R均有相關(guān)包實(shí)現(xiàn),調(diào)用接口簡(jiǎn)單易用,由數(shù)據(jù)異常導(dǎo)致的報(bào)錯(cuò)較少。
2.2.1 隨機(jī)矩陣?yán)碚撎幚矸椒?/p>
隨機(jī)矩陣?yán)碚撌峭ㄟ^統(tǒng)計(jì)、分析醫(yī)療數(shù)據(jù)的能譜和本征態(tài),得出實(shí)際測(cè)量中的隨機(jī)程度,進(jìn)而揭示不同醫(yī)療實(shí)際數(shù)據(jù)所蘊(yùn)含的整體關(guān)聯(lián)的事件特征。下面構(gòu)建隨機(jī)矩陣?yán)碚撃P蛯?duì)醫(yī)療數(shù)據(jù)的相關(guān)性進(jìn)行計(jì)算。
假設(shè)醫(yī)療保險(xiǎn)相關(guān)性評(píng)估矩陣模型為:
(1)
其中:
(2)
(3)
在上式中,對(duì)人體的健康造成重大傷害的疾病(諸如尿毒癥、白內(nèi)障、再生障礙性貧血、血友病、惡性腫瘤康復(fù)期、冠心病合并心肌梗死、癲癇、強(qiáng)直性脊柱炎等)有M種,數(shù)據(jù)集合為:{P1,P2,P3……PM},人體疾病的數(shù)據(jù)有N種,數(shù)據(jù)集合為:{Q1,Q2,Q3……QN}, 在評(píng)估時(shí)間窗區(qū)間范圍內(nèi),連續(xù)測(cè)試T次,其中將對(duì)人體健康造成重大傷害的影響的數(shù)據(jù)構(gòu)建為矩陣D1,其中集合數(shù)據(jù)元素Pij為第i個(gè)疾病在j疾病等級(jí)下進(jìn)行測(cè)量的疾病大數(shù)據(jù)。
在運(yùn)算中,為了統(tǒng)一計(jì)算的方便,對(duì)評(píng)估矩陣模型D進(jìn)行標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化公式為:
(4)
定義xi=(xi1,xi2,xi3……xiT), 假設(shè)標(biāo)準(zhǔn)化后的矩陣為D3,則D3=(yij)(M+N)*T,其中:
μ(yi)=0
(5)
σ2(yi)=1
(6)
其中:yi=(yi1,yi2,yi3……yiT)T, 1≤i≤M+N。
再次引入公式:
式(7)
其中:
Dstd=[w1,w1,w1……wM+N]T
(8)
該公式的運(yùn)算過程為基于標(biāo)準(zhǔn)化后的矩陣D3而進(jìn)行的,由于D3矩陣在計(jì)算中為非Hermitian矩陣,該矩陣的奇異值等同矩陣為:
(9)
在式(8)中,U為Haar酉矩陣,在運(yùn)算中容易出現(xiàn)多個(gè)矩陣,假設(shè)有N個(gè)任意的非標(biāo)準(zhǔn)Hermitian矩陣D3,則存在N個(gè)奇異值等同矩陣。為了計(jì)算方便,按1個(gè)奇異值計(jì)算,這時(shí)Du可以表示為:
(10)
基于上述模型的建立,將上述建立的數(shù)據(jù)模型應(yīng)用到引起人體疾病影響因素的評(píng)估上,觀察人體中隱藏的外在參數(shù)對(duì)人體健康影響情況。在本研究設(shè)計(jì)的方案中,忽略數(shù)據(jù)輸入的步驟,直接從醫(yī)療保險(xiǎn)信息化平臺(tái)中的數(shù)據(jù)存儲(chǔ)中心中提取數(shù)據(jù),然后進(jìn)行下一步的操作。即按照標(biāo)準(zhǔn)化后的標(biāo)準(zhǔn)化公式(見式4)來計(jì)算,根據(jù)式(9)求出奇異值等同矩陣,根據(jù)式(10)求出奇異值計(jì)算,最后根據(jù)式(8)求出Dstd的值。公式在此不做重復(fù)描述,根據(jù)上文列出的公式,分別輸入采樣數(shù)據(jù),求出各個(gè)公式的值。
然后利用隨機(jī)矩陣模型分析大數(shù)據(jù),當(dāng)計(jì)算出標(biāo)準(zhǔn)化矩陣積Dstd的特征值分布時(shí),便可評(píng)估疾病對(duì)人體健康造成的影響,Dstd越大,影響量越大。由于D1表示的醫(yī)療疾病數(shù)據(jù)集合為嚴(yán)重影響人體健康,數(shù)據(jù)集合{P1,P2,P3……PM}中表示不同的參數(shù),造成人體健康重大疾病的數(shù)據(jù)集合為{Q1,Q2,Q3……QN}中也表示不同的集合,因此在實(shí)際應(yīng)用時(shí),根據(jù)選擇數(shù)據(jù)類型而構(gòu)建矩陣。
2.2.2 數(shù)據(jù)挖掘算法模型
在對(duì)大數(shù)據(jù)進(jìn)行處理時(shí),首先將數(shù)據(jù)按照一定的屬性分類,本研究基于數(shù)據(jù)挖掘算法實(shí)現(xiàn)智能大數(shù)據(jù)的分類。數(shù)據(jù)挖掘算法包含很多種算法,比如關(guān)聯(lián)算法、回歸分析、聚類算法、異常檢測(cè)等,其中每種算法又包括多個(gè)算法,比如分類算法包括諸如決策樹算法、貝葉斯算法、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等算法,聚類分析算法包括諸如k-means SOM神經(jīng)網(wǎng)絡(luò)、FCM聚類算法等的算法。在本研究設(shè)計(jì)中,選擇使用決策樹算法中的ID3算法構(gòu)建決策樹,實(shí)現(xiàn)對(duì)數(shù)據(jù)的分類。
假設(shè)表1為給定的數(shù)據(jù)集為D,根據(jù)最大信息增益選擇最優(yōu)特征生成極小熵決策樹,計(jì)算各特征A1、A2、A3、A4、A5對(duì)數(shù)據(jù)D的信息增益,如表1所示。表1中的D1和D2,D3分別表示在各個(gè)特征中取值為1、2和3的樣本子集,根據(jù)上文涉及的公式計(jì)算統(tǒng)計(jì)在表1中的數(shù)據(jù)可得:
H(D)=-8/15*log2(8/15)—7/15*log2(7/15)=0.996 8;
g(D,A1)=H(D)-[8/15*H(D1)+7/15*H(D2)]=0.288 0;
g(D,A2)=H(D)-[5/15*H(D1)+4/15*H(D2)+6/15*H(D3)]=0.139 8;
g(D,A3)=H(D)-[3/15*H(D1)+12/15*H(D2)]=0.029 2;
g(D,A4)=H(D)-[7/15*H(D1)+8/15*H(D2)]=0.288 0;
g(D,A5)=H(D)-[6/15*H(D1)+4/15*H(D2)+5/15*H(D3)]=0.413 1;
根據(jù)上面的計(jì)算結(jié)果,特征A5的信息增益最大,所以選擇A5為根節(jié)點(diǎn)。根據(jù)A5的取值將樣本分成3個(gè)結(jié)合,S1={2,3,6,8,12,13},S2={1,5,7,14},S3={4,9,10,11,15},其中集合S2已全部屬于同一個(gè)類,不需要再分,已成為葉子節(jié)點(diǎn)。采用類似的方法可確定其它根節(jié)點(diǎn)和葉子節(jié)點(diǎn)。
表1 樣本數(shù)據(jù)
利用上述數(shù)據(jù)集構(gòu)建決策樹如圖4所示。
圖4 決策樹示意圖
通過數(shù)據(jù)挖掘算法建立分類模型,使得多個(gè)不同類型的醫(yī)療保險(xiǎn)數(shù)據(jù)庫根據(jù)用戶需求輸出不同的目標(biāo)數(shù)據(jù),縮短用戶利用數(shù)據(jù)的時(shí)間,提高了數(shù)據(jù)處理效率。
本研究選擇了蘇州工業(yè)園區(qū)2012年度至2017年度醫(yī)療保險(xiǎn)特病參保人員醫(yī)療結(jié)算數(shù)據(jù)作為研究對(duì)象,涉及12個(gè)病種,約5萬人員,1 400萬人次的結(jié)算數(shù)據(jù)。包括了特病人員的基本信息、就醫(yī)結(jié)算信息等。選取的數(shù)據(jù)樣本為12種特病分別為尿毒癥、白內(nèi)障、再生障礙性貧血、血友病、惡性腫瘤康復(fù)期、冠心病合并心肌梗死、癲癇、強(qiáng)直性脊柱炎、系統(tǒng)性紅斑狼瘡、類風(fēng)濕性關(guān)節(jié)炎、惡性腫瘤放化療、重癥精神病。在試驗(yàn)時(shí),將上述數(shù)據(jù)輸入到基于Matpower的IEEE-118節(jié)點(diǎn)的仿真系統(tǒng)系統(tǒng)中,假設(shè)矩陣D1=80*150,D2=400*500,根據(jù)公式Dstd=[w1,w1,w1……wM+N]T進(jìn)行計(jì)算,其中D1分別為癲癇、強(qiáng)直性脊柱炎、系統(tǒng)性紅斑狼瘡等疾病數(shù)據(jù)構(gòu)成的矩陣。在實(shí)施例時(shí)間,D1構(gòu)成5個(gè)矩陣,D2為影響人體健康的參數(shù),其數(shù)據(jù)樣本見表2所示。
表2 數(shù)據(jù)試驗(yàn)表
在該步驟中,主要將處理后的醫(yī)療數(shù)據(jù)輸入到建立好的數(shù)據(jù)模型中,輸出用戶需要的數(shù)據(jù)。對(duì)處理后的數(shù)據(jù)進(jìn)行T次采樣,構(gòu)建狀態(tài)數(shù)據(jù)矩陣。即構(gòu)建以下數(shù)據(jù)以數(shù)值的方式表示,比如將:
轉(zhuǎn)換成:
同時(shí)將:
轉(zhuǎn)換成:
由于矩陣的規(guī)模和篇幅的限制,在此僅僅做示例性說明,不再將矩陣按其真實(shí)規(guī)模展開。根據(jù)上述數(shù)據(jù),應(yīng)用上文提供的公式,將計(jì)算結(jié)果繪成曲線圖,如下文所述。
在圖5中,以尿毒癥對(duì)人體因素造成重大影響程度進(jìn)行分析、判斷,其影響的曲線圖如圖5所示。
在圖6中,以白內(nèi)障對(duì)人體因素造成重大影響程度進(jìn)行分析、判斷,其影響的曲線圖如圖6所示。
在圖7中,以尿毒癥對(duì)人體因素造成重大影響程度進(jìn)行分析、判斷,其影響的曲線圖如圖7所示。
在圖8中,以惡性腫瘤對(duì)人體因素造成重大影響程度進(jìn)行分析、判斷,其影響的曲線圖如圖8所示。
圖5 影響人體病理參數(shù)為尿毒癥的曲線圖 圖6 影響人體病理參數(shù)為白內(nèi)障的曲線圖
圖7 影響人體病理參數(shù)為血友病的曲線圖 圖8 影響人體病理參數(shù)為惡性腫瘤的曲線圖
因此,通過隨機(jī)矩陣?yán)碚摱伎梢员普娴孬@取醫(yī)療數(shù)據(jù)。通過隨機(jī)矩陣?yán)碚撘部梢詫?duì)醫(yī)療數(shù)據(jù)進(jìn)行關(guān)聯(lián)性評(píng)估。通過上述試驗(yàn),隨機(jī)矩陣?yán)碚撛卺t(yī)療保險(xiǎn)信息化平臺(tái)大數(shù)據(jù)處理方面具有明顯的直觀顯示。
本研究通過在醫(yī)療保險(xiǎn)信息化建設(shè)平臺(tái)中使用大數(shù)據(jù)處理算法,不僅有利于用戶從各種不同的數(shù)據(jù)庫中找到合適的最佳數(shù)據(jù),也將極大地影響醫(yī)療保險(xiǎn)基金的收支平衡和可持續(xù)發(fā)展,大數(shù)據(jù)技術(shù)還可以輔助相關(guān)決策的制定,比如參保險(xiǎn)群體分析、參保對(duì)象年齡分析、醫(yī)?;鹗罩Х治?、大病費(fèi)用補(bǔ)助分析,有效降低醫(yī)療保險(xiǎn)基金風(fēng)險(xiǎn)。大數(shù)據(jù)技術(shù)對(duì)醫(yī)療保險(xiǎn)管理具有決策支持、便民服務(wù)、風(fēng)險(xiǎn)管控、商保拓展等重要意義。