張志榮,趙 媛
(武警山西省總隊(duì)醫(yī)院 山西 太原 030006)
數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中通過(guò)算法搜索隱藏于其中的信息的過(guò)程,是人工智能和數(shù)據(jù)庫(kù)領(lǐng)域研究的熱點(diǎn)問(wèn)題。所謂聚類挖掘分析,就是根據(jù)待分類模式特征的相似或相異程度將數(shù)據(jù)樣本進(jìn)行分組,從而使同一組的數(shù)據(jù)盡可能相似,不同組的數(shù)據(jù)盡可能相異。它的目的是用于知識(shí)發(fā)現(xiàn)而不是用于預(yù)測(cè)[1]。評(píng)判聚類結(jié)果的標(biāo)準(zhǔn)就是:組內(nèi)部的數(shù)據(jù)相似度越大,組與組之間的數(shù)據(jù)差異度越大,那么聚類的效果就越好[2]。
醫(yī)院急救管理系統(tǒng)是一種可以滿足普通入院前、院內(nèi)急救和院外救援系統(tǒng)的數(shù)據(jù)存儲(chǔ)和管理等多種需要的軟件,記錄疾病的發(fā)生及病情的變化情況,同時(shí)保存相關(guān)的疾病診療信息,為以后的疾病診療工作提供數(shù)據(jù)支持。在實(shí)際應(yīng)用的過(guò)程當(dāng)中,需要采取有效的數(shù)據(jù)處理手段,針對(duì)數(shù)據(jù)中的各項(xiàng)關(guān)系進(jìn)行全面探究整理,從而形成相應(yīng)的數(shù)據(jù)結(jié)論[3]。本文以醫(yī)院急救管理系統(tǒng)數(shù)據(jù)為基礎(chǔ),進(jìn)行聚類挖掘技術(shù)的應(yīng)用研究。
對(duì)有n個(gè)數(shù)據(jù)元組的數(shù)據(jù)庫(kù),劃分方法是構(gòu)建k個(gè)劃分,k≤n。其中,每個(gè)劃分必須至少包含一個(gè)數(shù)據(jù)元組,每個(gè)數(shù)據(jù)元組必須只屬于一個(gè)劃分,在模糊劃分方法中,數(shù)據(jù)元組不一定只屬于一個(gè)劃分。
層次方法是用層次分解來(lái)創(chuàng)建數(shù)據(jù)集。根據(jù)層次分解的形成方式,又可以分為凝聚和分裂兩種方法。凝聚法將每個(gè)數(shù)據(jù)元組形成單獨(dú)的組,然后逐次合并相近的數(shù)據(jù)元組,直到所有的組合并為一個(gè),或直到滿足某個(gè)條件終止。分裂法開(kāi)始將所有數(shù)據(jù)元組置于一個(gè)簇中,然后分裂為更小的簇,直到最后每個(gè)數(shù)據(jù)對(duì)象都?xì)w屬于在某一個(gè)簇中[4]。
采用基于密度的方法,只要“領(lǐng)域”中數(shù)據(jù)元組的個(gè)數(shù)超過(guò)某個(gè)閾值,就繼續(xù)分離或聚類。這樣可以過(guò)濾離群數(shù)據(jù),發(fā)現(xiàn)相關(guān)數(shù)據(jù)組成任意形狀的簇。
基于網(wǎng)格的方法把數(shù)據(jù)空間量化成網(wǎng)格結(jié)構(gòu),網(wǎng)格的數(shù)目是有限的。在網(wǎng)格結(jié)構(gòu)上進(jìn)行聚類操作。這種方法處理時(shí)間不依賴于整體數(shù)據(jù)量,只與網(wǎng)格結(jié)構(gòu)中每一維的單元數(shù)有關(guān),因此處理速度快。
通過(guò)構(gòu)建密度函數(shù)來(lái)定位簇,密度函數(shù)用來(lái)反映數(shù)據(jù)空間分布,這種方法基于標(biāo)準(zhǔn)統(tǒng)計(jì)量自動(dòng)地確定簇的數(shù)目,考慮離群數(shù)據(jù)的影響,為每簇假定一個(gè)模型,尋找數(shù)據(jù)對(duì)給定模型的最佳擬合,從而產(chǎn)生健壯的聚類方法[5]。
急救管理系統(tǒng)包括急救電子病歷、搶救記錄、生命體征實(shí)時(shí)監(jiān)測(cè)、醫(yī)療設(shè)備物資管理、數(shù)據(jù)安全管理等。通過(guò)對(duì)數(shù)據(jù)的挖掘分析制定救援中常見(jiàn)的傷情或其他突發(fā)性疾病的急救臨床路徑,建立標(biāo)準(zhǔn)化的急救電子病歷。
3.1.1 數(shù)據(jù)量大
聚類挖掘的條件是必須有海量的數(shù)據(jù)。隨著急救管理信息化程度越來(lái)越高,區(qū)域醫(yī)療也不斷在完善,新應(yīng)用不斷出現(xiàn),應(yīng)用之間的不斷整合,所產(chǎn)生的數(shù)據(jù)的數(shù)量和復(fù)雜程度都在快速增加。
3.1.2 動(dòng)態(tài)性
由于急救電子病歷系統(tǒng)的數(shù)據(jù)都是實(shí)時(shí)產(chǎn)生的,實(shí)時(shí)創(chuàng)建各種資源,所以數(shù)據(jù)更新很快,應(yīng)用數(shù)據(jù)挖掘得到的數(shù)據(jù)分析結(jié)果也在動(dòng)態(tài)變化。
3.1.3 服務(wù)的可靠性
在聚類分析的過(guò)程中要對(duì)數(shù)據(jù)集進(jìn)行復(fù)制存儲(chǔ),由于急救管理系統(tǒng)本身具有數(shù)據(jù)存儲(chǔ)功能,可以提供可靠的數(shù)據(jù)備份和容災(zāi)系統(tǒng),使實(shí)時(shí)性和動(dòng)態(tài)性的聚類分析得到保證。
醫(yī)學(xué)信息大都是復(fù)雜或不確定的。因患者有個(gè)體差異,同一病癥可能在不同年齡段人群中發(fā)生,一種病種有多種癥狀,也可能有多種治療方案。因此,劃分方法中模糊劃分的聚類方法是適合應(yīng)用于醫(yī)學(xué)的?;颊叩陌Y狀、生命體征與診斷之間界限往往不是清晰可見(jiàn)的,當(dāng)界限模糊時(shí),模糊聚類按一定的聚類規(guī)則,對(duì)采集的數(shù)據(jù)進(jìn)行分類,包括對(duì)一些相關(guān)性、分離性不是很好的事物,客觀地劃分類型,輔助醫(yī)生對(duì)患者采取相應(yīng)的處置。
在急救電子病歷中提取癥狀為“胸痛”的20例樣本集為X={x1,x2,…,x20},取患者發(fā)作類型、發(fā)作時(shí)ST↓幅度、心肌缺血時(shí)間、肌鈣蛋白、年齡因素為樣本病癥特征參數(shù),設(shè)樣本特征參數(shù)為xk1、xk2、xk3、xk4、xk5,把患者的臨床特征作為模糊屬性值。采用基于密度的模糊聚類算法,根據(jù)事先設(shè)定的數(shù)據(jù)元組的閾值,分析處理數(shù)據(jù),進(jìn)行模糊聚類,本例的聚類結(jié)果是劃分病情的嚴(yán)重程度。見(jiàn)表1。
表1 樣本集的特征參數(shù)值
通過(guò)數(shù)據(jù)初始化、仿真計(jì)算及結(jié)果分析,最終得到聚類結(jié)果,可根據(jù)病情的聚類結(jié)果,為患者選擇治療效果、經(jīng)濟(jì)方面都最優(yōu)的治療方案。見(jiàn)表2。
表2 最終聚類結(jié)果
本實(shí)驗(yàn)為模糊聚類方法在劃分病情方面的應(yīng)用舉例,在實(shí)際應(yīng)用中樣本特征參數(shù)的選取尤為重要,應(yīng)結(jié)合相關(guān)疾病的臨床治療指南、醫(yī)生治療經(jīng)驗(yàn)等選取相關(guān)指標(biāo)作為樣本特征參數(shù),進(jìn)行模糊聚類分析。
隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,聚類以其特有的優(yōu)點(diǎn),成為數(shù)據(jù)挖掘領(lǐng)域重要的研究課題。聚類既可以作為其他算法的預(yù)處理,也可以作為獨(dú)立的算法應(yīng)用??梢杂脕?lái)理解數(shù)據(jù),也可以用來(lái)做數(shù)據(jù)分析的關(guān)鍵步驟。聚類分析數(shù)據(jù)的相似性并對(duì)數(shù)據(jù)進(jìn)行深入分析,獲得其他方法不可能獲得的信息。聚類對(duì)急救管理系統(tǒng)而言具有如下意義。
聚類就是把一組個(gè)體按照相似性歸成若干類別。急救系統(tǒng)數(shù)據(jù)集中的每條數(shù)據(jù)是不同的,但也有其相似性,這些相似性可以體現(xiàn)重要的信息,然而不用模糊聚類方法是無(wú)法找到的,所以聚類方法對(duì)于發(fā)現(xiàn)重要信息,從而進(jìn)行深入分析,有十分重要的作用。
急救管理系統(tǒng)的數(shù)據(jù)集存儲(chǔ)著病人的病歷信息,病人的基本信息、查體及現(xiàn)場(chǎng)處置情況等,都可以聚為幾類,做進(jìn)一步關(guān)聯(lián)分析,或者將其中的孤立點(diǎn)挖掘出來(lái),這樣聚類可以使醫(yī)務(wù)人員的注意力集中在某一類或幾類上,做到對(duì)某些病癥的重點(diǎn)防治。
在急救管理系統(tǒng)的數(shù)據(jù)挖掘模塊中,面臨含有大量數(shù)據(jù)的數(shù)據(jù)庫(kù),數(shù)據(jù)類型、數(shù)據(jù)長(zhǎng)度、存儲(chǔ)形式甚至數(shù)據(jù)質(zhì)量不盡相同,可能會(huì)有多種挖掘方法,用聚類的方法對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,在此基礎(chǔ)上進(jìn)行特征抽取或分類,為其他挖掘如離群點(diǎn)挖掘等方法做準(zhǔn)備,提高挖掘精確度和挖掘效率。
近年來(lái),在國(guó)家大政方針的驅(qū)動(dòng)下,醫(yī)療信息化越來(lái)越受到重視和關(guān)注。醫(yī)療信息化的快速發(fā)展產(chǎn)生大量數(shù)據(jù),這些數(shù)據(jù)一旦被充分利用,將產(chǎn)生極大的價(jià)值。當(dāng)前大數(shù)據(jù)和人工智能技術(shù)在醫(yī)療領(lǐng)域逐步應(yīng)用,數(shù)據(jù)挖掘應(yīng)以此為契機(jī),積極發(fā)揮其作用和意義,從復(fù)雜的醫(yī)學(xué)信息中分離出有助于疾病診療的輔助決策和指導(dǎo)信息。