楊婷婷
(如皋市人民醫(yī)院, 江蘇, 如皋 226500)
患者流向監(jiān)測(cè)是實(shí)現(xiàn)分級(jí)診療制度的關(guān)鍵。目前,患者流向監(jiān)測(cè)主要依靠統(tǒng)計(jì)性指標(biāo),但由于醫(yī)療信息化水平的提高,采用該方法進(jìn)行流向監(jiān)測(cè)存在效率低、可靠性差等問(wèn)題。因此,為提高患者流向監(jiān)測(cè)效率和可靠性,研究以數(shù)據(jù)產(chǎn)生源頭為出發(fā)點(diǎn),通過(guò)大數(shù)據(jù)聚類分析和異常檢測(cè),挖掘異常的醫(yī)院患者流向及其異常流向原因。現(xiàn)今,常用的數(shù)據(jù)聚類分析方法包括DBScan、Hierarchical Clusterer、k-means算法等,如武煒杰等[1]、張巧等[2]、李玥等[3]分別采用上述算法,完成了各個(gè)領(lǐng)域海量數(shù)據(jù)的分類,更好地實(shí)現(xiàn)了目標(biāo)跟蹤等目的;異常檢測(cè)方法主要為基于偏差法檢測(cè),如孫宇豪等[4]、秦婉亭等[5]基于偏差法完成了對(duì)微信和颶風(fēng)軌跡異常的檢測(cè)。基于上述研究,綜合考慮醫(yī)院患者流向異常數(shù)量巨大等特殊因素,本文決定首先采用k-means算法對(duì)患者數(shù)據(jù)分類,然后借助偏差法進(jìn)行識(shí)別,實(shí)現(xiàn)患者流向異常檢測(cè)。
k-means算法是一種常見的劃分聚類分析算法,其聚類思想是對(duì)給定的樣本集,按照樣本間的距離大小劃分為k個(gè)類簇,并盡量使每個(gè)類簇間的距離最大。該算法初始k值為隨機(jī)設(shè)置,且通常以所有點(diǎn)平均值作為質(zhì)心,故其對(duì)含有噪聲的數(shù)據(jù)集聚類效果差[6]。本研究中,醫(yī)療患者數(shù)據(jù)復(fù)雜且噪聲明顯,因此為提高聚類效果,提出兩個(gè)階段的k-means改進(jìn)算法。
第一階段,確定聚類個(gè)數(shù)k1和初始質(zhì)心進(jìn)行聚類。研究采用最大最小距離法確定初始質(zhì)心,以保證每次選擇的質(zhì)心均遠(yuǎn)離已經(jīng)選擇的質(zhì)心。最后,根據(jù)確定k1值和質(zhì)心,進(jìn)行聚類,得到聚類結(jié)果。
第二階段,根據(jù)第一階段聚類結(jié)果劃分為常見患者、罕見患者、極罕見患者集合。由于極罕見患者數(shù)量較少,因此研究對(duì)其進(jìn)行刪除處理,并采用k-means算法分別對(duì)常見患者和罕見患者集合進(jìn)行聚類,并輸出結(jié)果。
改進(jìn)的k-means算法流程如圖1所示。
圖1 改進(jìn)k-means算法流程
基于改進(jìn)k-means的醫(yī)院患者流向異常檢測(cè)流程主要分為兩步,具體如下。
(1) 異常聚類。根據(jù)基層患者特征,采用改進(jìn)k-means算法進(jìn)行聚類。首先,對(duì)不同k取值進(jìn)行反復(fù)實(shí)驗(yàn),確定最優(yōu)k值,并將其作為最終聚類簇個(gè)數(shù);然后,采用最大最小距離法選擇初始質(zhì)心;最后,選取最優(yōu)的指標(biāo)進(jìn)行聚類并存儲(chǔ)聚類結(jié)果。
(2) 異常識(shí)別。假設(shè)患者跨級(jí)就診均為合理,則患者靠近特殊簇,遠(yuǎn)離基層患者簇。采用歐氏距離d量化“靠近”和“遠(yuǎn)離”的關(guān)系;采用向量表示跨級(jí)患者x的11維特征[x1,x2,…,x11],標(biāo)記每個(gè)類簇的質(zhì)心c為向量[c1,c2,…,c11],則通過(guò)式(4)可計(jì)算x到每個(gè)類簇質(zhì)心c的距離,標(biāo)記距離最近的類簇i到質(zhì)心c的歐式距離為dxi,
(1)
上述患者流向異常檢測(cè)流程如圖2所示。
圖2 異常識(shí)別流程
研究以2020年住院病案首頁(yè)及人口信息庫(kù)650多萬(wàn)條記錄為原始數(shù)據(jù)集,并從中任意抽取連續(xù)10天的病案數(shù)據(jù)約20萬(wàn)條記錄作為實(shí)驗(yàn)數(shù)據(jù)集。考慮到數(shù)據(jù)集中存在無(wú)關(guān)或冗余或缺失的字段,研究對(duì)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行了數(shù)據(jù)清洗、缺失值填補(bǔ)、標(biāo)準(zhǔn)化預(yù)處理。
對(duì)于格式錯(cuò)誤的數(shù)據(jù),采用正則表達(dá)式進(jìn)行查找并進(jìn)行人工修正;對(duì)于重復(fù)數(shù)據(jù),研究采用刪除保留一條數(shù)據(jù);采用模糊匹配[7]和推理填補(bǔ)[8]的方式對(duì)缺失字段進(jìn)行填補(bǔ);采用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化(z-score)[9]對(duì)所有數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化公式如下:
(2)
式中,μ為均值,σ為標(biāo)準(zhǔn)差。根據(jù)上述標(biāo)準(zhǔn)化處理,得到均值為0,標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)分布數(shù)據(jù)集。
3.1.1 特征選擇
為更好地識(shí)別患者流向異常,根據(jù)患者健康狀況、經(jīng)濟(jì)狀況、社會(huì)因素等關(guān)鍵特征進(jìn)行篩選,最終確定了跨級(jí)流向的患者特征,如表1所示。
表1 跨級(jí)流向患者特征
選取誤差平方和(SSE)、鄧恩指數(shù)(DVI)、戴維森堡丁指數(shù)(DBI)作為評(píng)估基于改進(jìn)k-means算法的醫(yī)院患者流向異常檢測(cè)方法效果,其計(jì)算方法如式(3)~式(5)[10]:
(3)
(4)
(5)
3.3.1 算法驗(yàn)證
為驗(yàn)證本研究改進(jìn)k-means算法的有效性,研究對(duì)比傳統(tǒng)k-means算法,在相同參數(shù)設(shè)置下進(jìn)行了實(shí)驗(yàn),結(jié)果如圖3、圖4所示。
圖3 不同k值下算法性能
圖4 改進(jìn)k-means與傳統(tǒng)k-means聚類結(jié)果統(tǒng)計(jì)
由圖3可知,隨著算法第一階段k值增大,算法運(yùn)行時(shí)間逐漸上升,迭代次數(shù)逐漸增加,誤差平方和逐漸減小。當(dāng)k<200時(shí),誤差平方和下降幅度較大;當(dāng)k>200時(shí),誤差平方和下降幅度逐漸趨于平緩,因此可確定本研究提出的改進(jìn)k-means算法第一階段k=200。由圖4可知,相同聚類個(gè)數(shù)條件下,取任意k值,改進(jìn)k-means算法的誤差平方和均低于傳統(tǒng)k-means算法的誤差平方和,且隨著類簇個(gè)數(shù)的減小,優(yōu)化效果更明顯。
3.3.2 算法比較
為進(jìn)一步驗(yàn)證本研究算法聚類效果的優(yōu)越性,研究對(duì)比cobweb、DBScan、Hierarchical Clusterer算法進(jìn)行聚類實(shí)驗(yàn),結(jié)果如表2所示。由表2可知,不同算法的聚類時(shí)間和聚類結(jié)果不同。其中,Hierarchical Clusterer算法因復(fù)雜度較高,無(wú)法完成建模分類;cobweb、DBScan算法聚類時(shí)間較長(zhǎng),且聚類個(gè)數(shù)較多;傳統(tǒng)k-means算法聚類時(shí)間最短,但其聚類效果最差;改進(jìn)k-means算法建模時(shí)間略長(zhǎng)于傳統(tǒng)k-means算法,但其聚類效果優(yōu)良。因此,綜合考慮算法聚類時(shí)間與聚類效果,本研究提出的改進(jìn)k-means算法性能優(yōu)于cobweb、DBScan、Hierarchical Clusterer和傳統(tǒng)k-means算法。
表2 不同算法結(jié)果對(duì)比
為驗(yàn)證本醫(yī)院患者流向異常檢測(cè)方法的有效性,分別在不同臨界值(dxi)下進(jìn)行實(shí)驗(yàn)。不同臨界值下患者分布如圖5所示。由圖5可知,當(dāng)臨界值dxi≤max(i)時(shí),有59%的患者跨級(jí)異常但不屬于特殊簇,會(huì)被判斷為異常流向;當(dāng)dxi≤max(i)/2時(shí),有18%的患者跨級(jí)異常但不屬于特殊簇,會(huì)被判斷為異常流向。由此說(shuō)明,目前就醫(yī)情況異常跨級(jí)的醫(yī)院患者較多。
(a) dxi≤max(i)條件下患者分布
(b) dxi≤max(i)/2條件下患者分布圖5 不同臨界值下患者分布
選取dxi≤max(i)時(shí),被判斷為異??缂?jí)的醫(yī)院患者與正??缂?jí)的醫(yī)院患者進(jìn)行疾病難度等多維度對(duì)比,結(jié)果如表3所示。由表3可知,在年齡、入院病情、疾病難度等多維度特征分布上,本研究檢測(cè)方法對(duì)異常流向的跨級(jí)醫(yī)院患者的判定結(jié)果與預(yù)期基本相符,說(shuō)明該檢測(cè)方法合理。
表3 正??缂?jí)與異常跨級(jí)患者對(duì)比
為進(jìn)一步評(píng)估本研究提出的醫(yī)院患者流向異常檢測(cè)模型的準(zhǔn)確性,研究抽取400條數(shù)據(jù)進(jìn)行專家審核。根據(jù)專家評(píng)審結(jié)果可知,采用本研究提出方法標(biāo)記的跨級(jí)就診中,被判斷為異常流向的患者均被專家評(píng)審為異常流向,判斷準(zhǔn)確率為100%;有31.83%異常流向的醫(yī)院患者被判斷為正常流向,判斷準(zhǔn)確率為68.17%;有14.73%被判斷為異常流向的患者屬于合理跨級(jí)就診,判斷準(zhǔn)確率為85.27%。由此說(shuō)明,本研究提出的醫(yī)院患者流向異常檢測(cè)模型可有效識(shí)別出政策難以界定的患者流向。
為分析造成醫(yī)院患者流向異常的原因,研究將未納入政策評(píng)判的收入水平、住址與醫(yī)院距離等指標(biāo)加入模型進(jìn)行深入分析。根據(jù)分析結(jié)果可知,85.92%的異??缂?jí)就診患者收入水平高于該省平均收入水平;64%的異??缂?jí)就診患者在距離大型醫(yī)療機(jī)構(gòu)10 km范圍內(nèi)。由此可知,中高等收入或居住地在大型醫(yī)療機(jī)構(gòu)附近的人群很可能選擇越過(guò)基層醫(yī)療機(jī)構(gòu),直接到大型醫(yī)療機(jī)構(gòu)就診。
通過(guò)上述分析可知,本研究提出的基于醫(yī)療大數(shù)據(jù)的醫(yī)院患者流向異常檢測(cè)模型,可根據(jù)正常流向患者聚類結(jié)果,有效識(shí)別出跨級(jí)異常流向的患者,并結(jié)合異常流向患者特征找到造成異常流向的原因,提出改善異常流向的對(duì)策。