陳閩韜 匡芳君*
(溫州商學(xué)院信息工程學(xué)院,浙江 溫州 325035)
信息技術(shù)的發(fā)展與進(jìn)步,為醫(yī)療服務(wù)提供了便利,對轉(zhuǎn)變傳統(tǒng)醫(yī)療服務(wù)具有積極的作用與意義。醫(yī)院通過構(gòu)建監(jiān)管系統(tǒng),完成對醫(yī)院異常的數(shù)據(jù)信息進(jìn)行采集。但是,由于醫(yī)療行業(yè)本身特性和復(fù)雜性,造成醫(yī)療大數(shù)據(jù)所包含的數(shù)據(jù)信息駁雜,數(shù)據(jù)信息利用率相對較低,亟需改進(jìn)與完善。本文研究基于遺傳算法的K-means改進(jìn)聚類方法,再結(jié)合實例對數(shù)據(jù)挖掘技術(shù)在醫(yī)療大數(shù)據(jù)中的應(yīng)用進(jìn)行分析。
實際醫(yī)療大數(shù)據(jù)涵蓋患者、費用、藥物以及相關(guān)管理信息等數(shù)據(jù)。但是這些信息中包括作用顯著的信息和作用不夠明顯的信息。為了從這些冗雜的數(shù)據(jù)信息中獲取作用顯著的數(shù)據(jù)信息,如患者的病例信息、費用信息等,則需選擇適宜的技術(shù)類型,完成對這些信息的獲取。數(shù)據(jù)挖掘技術(shù)能夠?qū)⒆饔蔑@著的數(shù)據(jù)信息提取出來,從而滿足醫(yī)療服務(wù)的需求[1,2]。數(shù)據(jù)挖掘技術(shù)可以從存在噪聲、模糊的數(shù)據(jù)中,將目標(biāo)信息進(jìn)行提取。醫(yī)療大數(shù)據(jù)結(jié)合數(shù)據(jù)挖掘技術(shù),能夠?qū)崿F(xiàn)醫(yī)療成本的預(yù)測和控制,明確醫(yī)用藥物的各項信息,統(tǒng)計分析藥物不良反應(yīng)、為醫(yī)療服務(wù)提供基礎(chǔ)幫助,對推動醫(yī)院的綜合服務(wù)水平具有明顯的正向作用。
遺傳算法是一類借鑒生物界的進(jìn)化規(guī)律演化而來的隨機化搜索方法。遺傳算法模擬一個人工種群的進(jìn)化過程,通過選擇、交叉和變異等機制,在每次迭代中都保留一組候選個體,重復(fù)此過程,種群經(jīng)過若干代進(jìn)化后,理想情況下其適應(yīng)度達(dá)到近似最優(yōu)狀態(tài)。自從遺傳算法被提出以來,其得到了廣泛的應(yīng)用[3],特別是在函數(shù)優(yōu)化、模式識別、神經(jīng)網(wǎng)絡(luò)、自適應(yīng)控制等領(lǐng)域,遺傳算法發(fā)揮了很大作用,提高了問題求解的效率。本文選擇基于遺傳算法的數(shù)據(jù)挖掘技術(shù),并運用到醫(yī)療大數(shù)據(jù)中,實現(xiàn)有效的醫(yī)療大數(shù)據(jù)挖掘。
K-means算法是一種聚類算法,其具有較高的應(yīng)用價值。其主要原理是抽取k個數(shù)據(jù)實例,并將其作為聚類中心。聚類中心的選擇,可以選擇隨機的方式,或選擇人為指定或是計算得到。完成后,在聚類中心,遍歷剩余數(shù)據(jù)實例,并取距離聚類中心最近的實例加入到簇中,完成一次迭代。第一次迭代后,可以保證每個簇中,均有≥1個數(shù)據(jù)實例,然后生成新的中心點,將其作為新的聚類中心,重復(fù)第一步。之后不斷對第二步進(jìn)行重復(fù),展開迭代,最終輸出結(jié)果。
但考慮到數(shù)據(jù)挖掘應(yīng)用到醫(yī)療大數(shù)據(jù)中,存在應(yīng)用效果不夠理想、數(shù)據(jù)挖掘效率低下等問題,本文將遺傳算法和K-means算法相結(jié)合,達(dá)到提升數(shù)據(jù)挖掘效率的目的。
將數(shù)據(jù)挖掘技術(shù)應(yīng)用到醫(yī)療大數(shù)據(jù)中,對推動醫(yī)療行業(yè)的服務(wù)水平與質(zhì)量具有積極的作用,在實際的應(yīng)用中,需要對具體數(shù)據(jù)挖掘?qū)ο筮M(jìn)行研究,將應(yīng)用的算法進(jìn)行改進(jìn),以保障數(shù)據(jù)挖掘的整體效果,滿足醫(yī)療服務(wù)的基本需求。
醫(yī)療大數(shù)據(jù)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用,需明確具體數(shù)據(jù)挖掘?qū)ο蟆=Y(jié)合當(dāng)前醫(yī)療行業(yè)的實際情況,可以得到數(shù)據(jù)挖掘的主要對象為互聯(lián)網(wǎng)的相關(guān)醫(yī)療數(shù)據(jù)信息、患者病例、藥物信息和相關(guān)的費用等信息。在明確具體的數(shù)據(jù)挖掘?qū)ο蟮幕A(chǔ)上,再展開對數(shù)據(jù)挖掘技術(shù)的運用。另外,數(shù)據(jù)挖掘技術(shù)應(yīng)用之前,需對數(shù)據(jù)挖掘的基本流程進(jìn)行研究。展開數(shù)據(jù)挖掘的第一步為問題定義與數(shù)據(jù)選擇,這一步是關(guān)系數(shù)據(jù)挖掘的關(guān)鍵。第二步是對數(shù)據(jù)進(jìn)行預(yù)處理,并將一致、完整和正確的數(shù)據(jù)存入到數(shù)據(jù)庫中。第三步為數(shù)據(jù)集成,主要是用于完成對數(shù)據(jù)共享問題的處理。第四步展開數(shù)據(jù)的清理,將錯誤數(shù)據(jù)刪除。第五步是數(shù)據(jù)交換,促使數(shù)據(jù)可以轉(zhuǎn)變?yōu)檫m宜挖掘的形式,確保挖掘的效果。第六步為數(shù)據(jù)規(guī)約,借助刪除行、列等方式,保障挖掘算法的運行量。第七步則是對數(shù)據(jù)挖掘,完成對目標(biāo)信息的采集。最后為結(jié)果評價與展示。具體的數(shù)據(jù)挖掘流程如圖1所示。
圖1 數(shù)據(jù)挖掘基本流程
K-means算法屬于距離聚類迭代的算法,其是將相似性大的數(shù)據(jù)點聚集在一個簇中,將差異較大的數(shù)據(jù)放到其他簇中,借助相關(guān)約束條件,完成具體迭代。為進(jìn)一步發(fā)揮數(shù)據(jù)挖掘在醫(yī)療大數(shù)據(jù)中的應(yīng)用,需對K-means算法進(jìn)行改進(jìn),本文提出基于遺傳算法的K-means改進(jìn)聚類方法。
(1)編碼方案與種群初始化。在具體的改進(jìn)算法中,將遺傳算法與K-means算法相結(jié)合,首先對具體中心坐標(biāo)進(jìn)行定義,設(shè)為d維。再假設(shè)具體簇的染色體長度為k×d。具體的染色體設(shè)置為{P1,P2……Pk},其中 Pi={Pj1,Pj2……Pjd}。編碼方案和種群初始化后,隨機從n個對象中確定k個初始聚類中心坐標(biāo)。
(2)適應(yīng)函數(shù)選擇。適應(yīng)函數(shù)主要是對適應(yīng)度值計算的基礎(chǔ),對迭代和最優(yōu)解獲取具有積極的作用。適應(yīng)函數(shù)如公式(2)所示:
(3)操作選擇。為保障具體算法操作性能,在具體的迭代過程中,將免疫機制引入其中,從而完成操作。改進(jìn)算法的具體流程圖如圖2所示。
圖2 基于遺傳的K-means算法流程圖
結(jié)合上述方法完成對K-means算法的改進(jìn),從而滿足醫(yī)療大數(shù)據(jù)中數(shù)據(jù)挖掘的應(yīng)用需求,并可以減少算法的運算時間,在理想的時間內(nèi),完成對最優(yōu)解的獲取,從而提升數(shù)據(jù)挖掘的效率。
本文結(jié)合實際情況,研究分析數(shù)據(jù)挖掘在醫(yī)療費用數(shù)據(jù)中的應(yīng)用。醫(yī)療費用信息具有真實性、隱私性、多樣性、不完整性和冗雜性等特點。鑒于醫(yī)療費用數(shù)據(jù)的特點,其符合醫(yī)療大數(shù)據(jù)的基本特性。為實現(xiàn)有效的費用結(jié)算和費用查詢,則需借助數(shù)據(jù)挖掘?qū)崿F(xiàn),從而提升醫(yī)療服務(wù)水平的效果。
具體數(shù)據(jù)挖掘過程中,由信息采集系統(tǒng)對患者的基本信息進(jìn)行采集,需對分類算法進(jìn)行選擇。通常選擇易于理解的四分位數(shù)法[4],再由四分位數(shù)法對患者展開分組,具體信息包括年齡、費用、疾病和藥物等。本文主要選擇費用的25%、50%和75%作為分割點,按照這3個分割點,將數(shù)據(jù)展開區(qū)間化,使用傳統(tǒng)四分位分類方法的分類結(jié)果如表1所示。
表1 傳統(tǒng)四分位分類方法分類結(jié)果
采用上文所述的基于遺傳算法K-means方法進(jìn)行數(shù)據(jù)挖掘,分類結(jié)果如表2所示。該算法對數(shù)據(jù)分類的效果顯著,能夠?qū)⒉煌垲愔行倪M(jìn)行表述,并得到詳細(xì)費用情況及例數(shù)。
表2 基于遺傳算法的K-means改進(jìn)后的聚類方法分類結(jié)果
對上述的兩種算法運用C4.5決策樹[5]模型對影響因素進(jìn)行分析,基于傳統(tǒng)四分位分類方法和基于遺傳算法的K-means改進(jìn)聚類方法生成的決策樹分布分別如圖3和圖4所示,從圖3、圖4可知,采用傳統(tǒng)四分位分類方法分類過程中,分類項目相對較多,且涉及內(nèi)容較為廣泛,在具體的分類過程中,過程較為繁瑣,且易造成數(shù)據(jù)誤差的情況,影響效果,且其預(yù)測的精度約為80.26%;采用基于遺傳算法的K-means改進(jìn)后的聚類方法的分類方法,在提升效率的同時,且能夠綜合提升預(yù)測精度,其具體預(yù)測精度約為93.08%,比較上一分類方法,差異明顯。
圖3 傳統(tǒng)四分位分類方法生成的決策樹
圖4 采用基于遺傳算法的K-means改進(jìn)后的聚類方法生成的決策樹
隨著醫(yī)療行業(yè)的不斷發(fā)展,大數(shù)據(jù)技術(shù)在醫(yī)療行業(yè)中的運用更為普遍,借助有效的信息采集技術(shù),對醫(yī)療服務(wù)及相關(guān)內(nèi)容的數(shù)據(jù)信息進(jìn)行采集,并展開管理與服務(wù)等內(nèi)容,是影響信息利用效率和服務(wù)質(zhì)量的關(guān)鍵。但受海量數(shù)據(jù)特性影響,造成數(shù)據(jù)信息冗雜和相關(guān)重點信息不能獲取與運用。因此,本文研究數(shù)據(jù)挖掘在醫(yī)療大數(shù)據(jù)中的應(yīng)用分析,包括具體流程、數(shù)據(jù)挖掘算法等,最后以醫(yī)療費用數(shù)據(jù)為例,利用基于遺傳算法的K-means聚類方法進(jìn)行分析,為提高醫(yī)療服務(wù)質(zhì)量提供有效數(shù)據(jù)信息。
[1]朱欣欣.?dāng)?shù)據(jù)挖掘技術(shù)在醫(yī)療大數(shù)據(jù)中的應(yīng)用研究[J].醫(yī)藥衛(wèi)生:文摘版,2016(10):00102-00102.
[2]羅堃,代冕.?dāng)?shù)據(jù)挖掘技術(shù)在醫(yī)療大數(shù)據(jù)中的應(yīng)用研究[J].信息與電腦:理論版,2016(6):45-47.
[3]呂峰,楊宏,普奕,等.遺傳算法的數(shù)據(jù)挖掘技術(shù)在醫(yī)療大數(shù)據(jù)中的應(yīng)用[J].電子技術(shù)與軟件工程,2017(5):203-203.
[4]李梅.大數(shù)據(jù)時代中如何進(jìn)行醫(yī)療數(shù)據(jù)挖掘與利用[J].?dāng)?shù)字通信世界,2016(1):23-24.
[5]李楠,段隆振,陳萌.決策樹C 4.5算法在數(shù)據(jù)挖掘中的分析及其應(yīng)用[J].計算機與現(xiàn)代化,2009(12):160-163.