曹高芳 胡乃寶 張瑞霄 姜傳麗 劉敏敏
最小支撐樹聚類分析在縣級醫(yī)院信息資源共享分類中的應(yīng)用*
曹高芳1胡乃寶2張瑞霄2姜傳麗3,4劉敏敏3,4
目的 介紹最小支撐樹聚類分析及其在縣級醫(yī)院信息資源共享分類中的應(yīng)用。方法 采用最小支撐樹聚類分析法分析縣級醫(yī)院信息資源共享的數(shù)據(jù)。結(jié)果 利用最小支撐樹聚類分析法可以將15所醫(yī)院按信息系統(tǒng)當(dāng)前狀態(tài)分為5類。結(jié)論 客觀事物性質(zhì)變化沒有明顯標(biāo)志時,最小支撐樹聚類分析法可以構(gòu)造最小支撐樹,確定長邊進(jìn)行分類,與其他聚類分析方法相比,其具有分類結(jié)果直觀形象、結(jié)果容易理解的特點。
最小支撐樹 聚類分析 信息資源
統(tǒng)計分組或者分類可以深化人們對事物的認(rèn)識。對于分組標(biāo)志確定的事物,進(jìn)行統(tǒng)計分組比較容易實現(xiàn)。但是,當(dāng)客觀事物性質(zhì)變化沒有明顯標(biāo)志時,用于確定分組的標(biāo)志和組別就很難確定,聚類分析可以提供一種對于類似復(fù)雜事物如何分組的統(tǒng)計學(xué)方法[1]。最小支撐樹聚類分析法最早是由Zahn提出來的,其基本思想為,一個多變量的樣品可以用多維空間的一個點來代表,在多維空間中,如果樣品點在某些區(qū)域密度很高,而在另一些區(qū)域密度很低,甚至空白,且高密度區(qū)被空白或者低密度區(qū)所分隔,這樣就形成了最自然的、最能體現(xiàn)樣品分布結(jié)構(gòu)的聚類[2]。本文就縣級醫(yī)院信息資源共享分類來介紹最小支撐樹聚類分析法的應(yīng)用。
1.資料來源 隨機(jī)抽取山東省15所縣級醫(yī)院,采用《縣級醫(yī)院多源信息資源共享現(xiàn)狀調(diào)查表》收集信息資源共享數(shù)據(jù),信息資源共享共有5個維度:管理信息系統(tǒng)、臨床信息系統(tǒng)、遠(yuǎn)程醫(yī)療系統(tǒng)、區(qū)域衛(wèi)生信息系統(tǒng)和預(yù)約診療系統(tǒng),每個維度按百分制計分。
2.統(tǒng)計方法
(1)最小支撐樹 對于p維空間,在n個樣品點間形成的一切可能的連接圖中,存在著一個不形成回路且邊長總和為最小的連接圖,稱為最小支撐樹(MST)。最小支撐樹表示了與每個樣品點最近的一些樣品點,反映了樣品點間聯(lián)系的親疏程度。
①最小支撐樹計算 最小支撐樹的算法是從任意選定的一點A1開始,計算A1與其余各點間的距離即邊長,假設(shè)其中D11為最短,其另外一端點為A2;之后再通過A1和A2找出除D11以外的最短邊長,設(shè)為D12,其另外一端點為A3,…,直到n個樣品點全部聯(lián)結(jié)起來,這樣便形成了最小支撐樹。
②最小支撐樹中的“長邊”與分類 在最小支撐樹中,總是可以找到一些“長邊”把最小支撐樹分割成若干個自然類,亦即聚類分析。由此,最小支撐樹聚類法的分類原則在于把各個樣品看成多維空間上的點,如果對樣品進(jìn)行分類比較合理,則同一類樣品點之間在MST上相互以較短的邊長相聯(lián)結(jié),而不同分類之間的樣品在MST上則被較長的邊所分開。
(2)樣品點密度 如果以某個樣品點為中心,以長度d為半徑,落在這個球內(nèi)的樣品數(shù)稱為以該樣品點為球心的空間內(nèi)樣品點密度。很顯然,在一個類的中心部位密度應(yīng)該較高,而其邊緣部位的密度應(yīng)較低。根據(jù)密度可以做出密度等值線,由密度等值線圖可以清晰地反映出分類的概貌。實際應(yīng)用中,半徑d一般以MST的邊長平均數(shù)乘上一個大于1的數(shù)來確定。
計算15所醫(yī)院5個維度得分,依據(jù)各維度得分進(jìn)行最小支撐樹聚類分析。
在確定最小支撐樹的端點樣品序號和距離基礎(chǔ)上,可以計算M維空間球的各樣品點密度值,進(jìn)而得到最小支撐樹的長邊計算結(jié)果,見表1。
由表1,選定確定長邊的T值為0.85,可確定樣品5與11,3與11,7與3,5與9之間的邊為長邊,可以畫出最小支撐樹的長邊示意圖,如圖2。
根據(jù)圖2,可以對15所醫(yī)院的信息資源共享維度得分進(jìn)行分類,第一類:15,7,4,2;第二類:3,14;第三類:11;第四類:10,8,6,5,1;第五類:13,9,12。
通過最小支撐樹聚類分析,將15所醫(yī)院按照信息資源共享各維度得分分為5類:第一類中的4所醫(yī)院至少有3個維度得分優(yōu)秀(>90分),而且另外2個維度或者1個維度接近優(yōu)秀;第二類的2所醫(yī)院都有3個維度優(yōu)秀,且至少有1個維度接近80分;第三類中只有1所醫(yī)院,其特點是5個維度都優(yōu)良(80~89分),且分?jǐn)?shù)較平均;第四類中有5所醫(yī)院,至少4個維度優(yōu)良,若有1個維度優(yōu)秀,則有另外1個維度良好(60~70分);第五類的3所醫(yī)院至少有2個維度在70分以下。
聚類分析是將樣品點或變量按照它們在性質(zhì)上的親疏程度進(jìn)行分類的多元統(tǒng)計分析方法。描述親疏程度通常有兩個途徑,一是把每個樣品或變量看成是多維空間的一個點,在多維坐標(biāo)中,定義點與點、類和類之間的距離,用點與點間距離來描述樣品點或變量之間的親疏程度;二是計算樣品點或變量的相似系數(shù),用相似系數(shù)來描述樣品點或變量之間的親疏程度[3]。最小支撐樹聚類分析使用的是第一種途徑。與其他聚類分析方法相比,最小支撐樹聚類分析方法主要依據(jù)構(gòu)造最小支撐樹,確定長邊并進(jìn)行分類,具有分類結(jié)果直觀形象、結(jié)果容易理解的特點。
最小支撐樹聚類分析法可以按照醫(yī)院各維度得分情況,進(jìn)行合理分類。但是其只適用于小樣本資料,對于大樣本資料,若構(gòu)造最小支撐樹示意圖,則非常麻煩,若不構(gòu)造,則失去其直觀形象的特點,這也是該方法應(yīng)用少的原因之一。另外,長邊標(biāo)準(zhǔn)T的選擇也是一個比較復(fù)雜、帶主觀性的問題,需要根據(jù)研究對象,做具體分析,在多次進(jìn)行聚類分析過程中,逐步總結(jié)經(jīng)驗以選擇合適的距離;在初次進(jìn)行聚類分析時,可以多試探選擇幾個標(biāo)準(zhǔn)進(jìn)行聚類,作對比、分析,以確定合適的長邊標(biāo)準(zhǔn)。
[1]孫振球主編.醫(yī)學(xué)統(tǒng)計學(xué).第2版.北京:人民衛(wèi)生出版社,2006:399-414.
[2]傅德印,張旭東編著.EXCEL與多元統(tǒng)計分析.北京:中國統(tǒng)計出版社,2007:200-206.
[3]金丕煥,陳鋒主編.醫(yī)用統(tǒng)計方法.第3版.上海:復(fù)旦大學(xué)出版社,2009:449-459.
(責(zé)任編輯:郭海強(qiáng))
山東省自然科學(xué)基金(ZR2013FM024)
1.濱州醫(yī)學(xué)院人文與社會科學(xué)學(xué)院(264003)
2.濱州醫(yī)學(xué)院公共衛(wèi)生與管理學(xué)院
3.濟(jì)南大學(xué)/山東省醫(yī)學(xué)科學(xué)院醫(yī)學(xué)與生命科學(xué)學(xué)院
4.山東省醫(yī)藥衛(wèi)生科技信息研究所