戴炳榮 王曉麗 李 超 陳 潔 施天行
1(上海計(jì)算機(jī)軟件技術(shù)開發(fā)中心 上海 201112)2(上海市浦東衛(wèi)生發(fā)展研究院 上海 200129)
?
一種基于PCA-SVM的醫(yī)療衛(wèi)生數(shù)據(jù)挖掘分類方法
戴炳榮1王曉麗2*李超1陳潔2施天行2
1(上海計(jì)算機(jī)軟件技術(shù)開發(fā)中心上海 201112)2(上海市浦東衛(wèi)生發(fā)展研究院上海 200129)
當(dāng)前醫(yī)療衛(wèi)生數(shù)據(jù)呈現(xiàn)量大、種類多、特征混雜等特點(diǎn),為數(shù)據(jù)挖掘分類帶來一定的挑戰(zhàn)。針對(duì)醫(yī)療衛(wèi)生數(shù)據(jù)的這些特點(diǎn),提出一種基于主成分分析和支持向量機(jī)相結(jié)合的數(shù)據(jù)挖掘分類方法,重點(diǎn)研究該方法的算法模型,以及在醫(yī)療衛(wèi)生領(lǐng)域的具體實(shí)現(xiàn),并在MATLAB環(huán)境下利用Cardiotocography數(shù)據(jù)集和Breast Cancer數(shù)據(jù)集進(jìn)行了仿真實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該方法的分類效果較好,為當(dāng)前醫(yī)療數(shù)據(jù)挖掘分類提供了一種可行的思路。
醫(yī)療衛(wèi)生數(shù)據(jù)數(shù)據(jù)挖掘主成分分析支持向量機(jī)
隨著醫(yī)療衛(wèi)生信息化建設(shè)的快速發(fā)展,數(shù)字化的醫(yī)療儀器及設(shè)備越來越多地投入使用。信息化建設(shè)的系統(tǒng)在各級(jí)醫(yī)院、社區(qū)衛(wèi)生服務(wù)中心以及其他各類醫(yī)療衛(wèi)生服務(wù)機(jī)構(gòu)鋪展開來,使得醫(yī)療機(jī)構(gòu)累積了大量的病人信息、治療檢驗(yàn)、病史等數(shù)據(jù)。這些混雜的海量醫(yī)療衛(wèi)生數(shù)據(jù)中蘊(yùn)含著許多有價(jià)值的信息,亟需挖掘和提取。如何從這些醫(yī)療衛(wèi)生數(shù)據(jù)中挖掘出有價(jià)值的信息,成為了當(dāng)前醫(yī)療衛(wèi)生領(lǐng)域的研究熱點(diǎn)[1]。
目前,數(shù)據(jù)挖掘在醫(yī)療衛(wèi)生領(lǐng)域建立了較多應(yīng)用,主要集中在醫(yī)學(xué)質(zhì)量管理、藥物的研發(fā)以及輔助診斷等方面。研究者從整個(gè)流程的不同階段及角度分別進(jìn)行了相應(yīng)研究,如數(shù)據(jù)挖掘過程中的預(yù)處理、分類和分析等。文獻(xiàn)[2]研究了數(shù)據(jù)挖掘過程中的預(yù)處理技術(shù),其有助于識(shí)別及篩選出較為可靠的數(shù)據(jù),根據(jù)這些預(yù)處理后的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,從而得到的結(jié)果較為真實(shí)和準(zhǔn)確。文獻(xiàn)[3]利用K-means算法,從醫(yī)院病案庫(kù)信息系統(tǒng)中挖掘病人住院醫(yī)療費(fèi)用、年齡和住院時(shí)間的相互內(nèi)在聯(lián)系,進(jìn)而尋找其中的規(guī)律知識(shí)。文獻(xiàn)[4]建立了基于SPRINT算法的疾病復(fù)發(fā)危險(xiǎn)因素分析模型,通過該模型運(yùn)算及分析,尋找和得出疾病的臨床診斷、治療和預(yù)后之間的關(guān)系。但是,從醫(yī)療衛(wèi)生數(shù)據(jù)分析挖掘過程來看,這些研究分別聚焦在數(shù)據(jù)噪聲的預(yù)處理和后續(xù)的挖掘分析算法等方面,未能從分析挖掘模型的整體結(jié)構(gòu)和流程上進(jìn)行梳理、研究、應(yīng)用。
如何在面向醫(yī)療衛(wèi)生領(lǐng)域數(shù)據(jù)挖掘的整個(gè)過程中,對(duì)數(shù)據(jù)集進(jìn)行特征降維,減少醫(yī)療衛(wèi)生數(shù)據(jù)本身的噪聲、去除數(shù)據(jù)集中冗余信息,同時(shí)結(jié)合有效的數(shù)據(jù)挖掘方法進(jìn)行分類分析是值得研究的問題。
面向醫(yī)療領(lǐng)域的數(shù)據(jù)挖掘分為醫(yī)療衛(wèi)生數(shù)據(jù)采集匯聚、醫(yī)療衛(wèi)生數(shù)據(jù)抽取、醫(yī)療衛(wèi)生數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析處理以及結(jié)果分析展示等過程,如圖1所示。
圖1 面向醫(yī)療衛(wèi)生領(lǐng)域的數(shù)據(jù)挖掘流程圖
醫(yī)療衛(wèi)生數(shù)據(jù)來源是各醫(yī)療衛(wèi)生服務(wù)機(jī)構(gòu)建設(shè)的信息化系統(tǒng),主要有HIS(醫(yī)院信息系統(tǒng))、LIS(實(shí)驗(yàn)室信息系統(tǒng))、PACS(醫(yī)學(xué)影像存檔與通信系統(tǒng))等。這些系統(tǒng)收集和記錄著詳細(xì)的病人信息、疾病診斷治療等數(shù)據(jù),是醫(yī)療衛(wèi)生信息化建設(shè)的重要成果。
經(jīng)過數(shù)據(jù)的采集匯聚,各信息化系統(tǒng)的醫(yī)療衛(wèi)生數(shù)據(jù)匯聚到一系列醫(yī)療衛(wèi)生數(shù)據(jù)庫(kù)中。這些數(shù)據(jù)按照業(yè)務(wù)在同一邏輯架構(gòu)下進(jìn)行管理,包括病人信息、疾病診斷說明、檢驗(yàn)檢測(cè)數(shù)據(jù)等,需要進(jìn)行降噪等預(yù)處理以及后續(xù)的分類分析后才能得到更有用的信息。
數(shù)據(jù)抽取轉(zhuǎn)換是醫(yī)療衛(wèi)生數(shù)據(jù)分析挖掘的重要基礎(chǔ)。醫(yī)療衛(wèi)生機(jī)構(gòu)各個(gè)子系統(tǒng)匯聚了各種各樣的數(shù)據(jù),針對(duì)特定的醫(yī)療問題分析或挖掘場(chǎng)景,需要抽取相關(guān)的數(shù)據(jù)信息,這些數(shù)據(jù)來自于各個(gè)子系統(tǒng)匯聚到的醫(yī)療衛(wèi)生數(shù)據(jù)庫(kù)。經(jīng)過對(duì)匯聚的醫(yī)療衛(wèi)生數(shù)據(jù)進(jìn)行抽取,形成面向主題的醫(yī)療衛(wèi)生主題數(shù)據(jù)庫(kù)。這些數(shù)據(jù)按照主題進(jìn)行存儲(chǔ)和管理,能夠更好更方便地支持分析挖掘應(yīng)用。
數(shù)據(jù)預(yù)處理是決定整個(gè)醫(yī)療衛(wèi)生知識(shí)探求成功與否的重要一步。醫(yī)療衛(wèi)生數(shù)據(jù)庫(kù)數(shù)據(jù)量較大,結(jié)構(gòu)多樣化,有結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù),且經(jīng)常不完整,有數(shù)據(jù)缺失,還包含有冗余信息,所以在進(jìn)行數(shù)據(jù)挖掘工作前,需要數(shù)據(jù)的預(yù)處理操作。數(shù)據(jù)預(yù)處理的方法主要有數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換以及數(shù)據(jù)特征降維等操作。
數(shù)據(jù)分析處理是醫(yī)療衛(wèi)生數(shù)據(jù)挖掘的關(guān)鍵步驟。數(shù)據(jù)分析處理的核心是數(shù)據(jù)挖掘算法模型的建立,常用的數(shù)據(jù)挖掘算法有神經(jīng)網(wǎng)絡(luò)、決策樹、邏輯回歸、K-means聚類算法、SVM等[5]。K-means、決策樹、BP神經(jīng)網(wǎng)絡(luò)理論等算法在醫(yī)療衛(wèi)生數(shù)據(jù)挖掘中已有較多應(yīng)用,文獻(xiàn)[6-8]分別對(duì)這三種算法在醫(yī)療衛(wèi)生領(lǐng)域的應(yīng)用開展了相關(guān)研究并取得了一定成果。
醫(yī)療衛(wèi)生數(shù)據(jù)挖掘過程的核心步驟是數(shù)據(jù)挖掘算法模型。數(shù)據(jù)挖掘算法在醫(yī)療衛(wèi)生領(lǐng)域已有較多的應(yīng)用,較為常見的有神經(jīng)網(wǎng)絡(luò)算法、決策樹算法以及SVM算法等。如何找出相對(duì)最優(yōu)數(shù)據(jù)域處理與挖掘算法模型是本文關(guān)注的重點(diǎn)。本節(jié)將結(jié)合醫(yī)療衛(wèi)生數(shù)據(jù)的特點(diǎn),重點(diǎn)分析在數(shù)據(jù)預(yù)處理階段的PCA算法以及面向數(shù)據(jù)分析處理階段的SVM算法,并結(jié)合這兩種方法提出了一種面向醫(yī)療衛(wèi)生領(lǐng)域的PCA-SVM算法模型。
2.1PCA算法簡(jiǎn)介
主成分分析PCA是一種對(duì)數(shù)據(jù)樣本中的信息進(jìn)行處理、壓縮和抽提的方法。PCA的思想是將原始數(shù)據(jù)樣本的n維特征映射到k維上(k 通過主成分分析,原先高維的醫(yī)療衛(wèi)生數(shù)據(jù)集可以根據(jù)需要進(jìn)行降維,提取數(shù)據(jù)中相對(duì)影響較大的主要的那部分特征,有利于提高后續(xù)數(shù)據(jù)挖掘的質(zhì)量。 2.2SVM算法簡(jiǎn)介 支持向量機(jī)SVM是一個(gè)有監(jiān)督的學(xué)習(xí)模型,主要應(yīng)用在模式識(shí)別、分類以及回歸分析等領(lǐng)域。它的建立基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,基礎(chǔ)則是統(tǒng)計(jì)學(xué)習(xí)理論。支持向量機(jī)在樣本信息有限的情況下,在模型的復(fù)雜性和學(xué)習(xí)能力之間尋找最佳折中,從而獲得最優(yōu)的推廣性能[10]。支持向量機(jī)建立一個(gè)決策曲面,該決策曲面即為分類超平面,進(jìn)而最大化正例和反例之間的隔離邊緣,實(shí)現(xiàn)決策效果。 學(xué)習(xí)機(jī)器在測(cè)試數(shù)據(jù)上的誤差率是以兩個(gè)參數(shù)的和為界。這兩個(gè)參數(shù)一個(gè)稱為訓(xùn)練誤差率,另一個(gè)為依賴項(xiàng),該項(xiàng)依賴于VC維數(shù)。在數(shù)據(jù)可分的情況下,對(duì)于前一項(xiàng),支持向量機(jī)把它置為零,后一項(xiàng)則被最小化。支持向量機(jī)泛化能力較好,這個(gè)特性使得其在模式分類的問題上更有競(jìng)爭(zhēng)力,是當(dāng)前應(yīng)用較多的數(shù)據(jù)挖掘分類方法。 2.3PCA-SVM模型概述 醫(yī)療衛(wèi)生數(shù)據(jù)不僅量大,而且有些維數(shù)較高,直接進(jìn)行處理不僅較為不便,而且有些數(shù)據(jù)特征并不會(huì)對(duì)數(shù)據(jù)挖掘的結(jié)果起到積極的作用。PCA方法可以很好地起到數(shù)據(jù)降維等作用,去除這些影響小的特征有利于更好地進(jìn)行數(shù)據(jù)挖掘工作,提高數(shù)據(jù)挖掘質(zhì)量和效率。SVM算法根據(jù)預(yù)處理后的訓(xùn)練樣本訓(xùn)練得到數(shù)據(jù)挖掘模型,在此過程中,通過參數(shù)的調(diào)節(jié)等得到最優(yōu)算法模型。然后可以利用此模型進(jìn)行數(shù)據(jù)挖掘工作,進(jìn)行結(jié)果評(píng)估和展示。 本文結(jié)合這兩種算法的特點(diǎn),在醫(yī)療衛(wèi)生數(shù)據(jù)的調(diào)研分析基礎(chǔ)上,提出了一種基于PCA-SVM的算法模型。首先利用PCA算法對(duì)樣本數(shù)據(jù)集進(jìn)行降維處理,選取合適的樣本特征得到新的樣本數(shù)據(jù)集;然后使用SVM算法進(jìn)行分類分析。整個(gè)流程如圖2所示。 圖2 基于PCA-SVM的分類方法流程圖 由圖2可知,原始數(shù)據(jù)的p維特征經(jīng)PCA算法預(yù)處理后降為k維特征,得到維數(shù)低、數(shù)據(jù)量小的新數(shù)據(jù)集。新數(shù)據(jù)集通過SVM分類器的處理后得出最終的分類計(jì)算結(jié)果。SVM分類器的分類模型具有學(xué)習(xí)機(jī)制,在啟動(dòng)分類分析前需要使用一定量的樣本數(shù)據(jù)對(duì)SVM分類器進(jìn)行訓(xùn)練,從而得到最優(yōu)SVM分類器。 3.1采用PCA進(jìn)行醫(yī)療衛(wèi)生數(shù)據(jù)預(yù)處理操作 我們采集n個(gè)病人的某種疾病數(shù)據(jù)樣本,每個(gè)樣本有p項(xiàng)診斷或檢查指標(biāo)。這些指標(biāo)數(shù)量較多,需要進(jìn)行預(yù)處理,降低數(shù)據(jù)冗余,同時(shí)可以降低數(shù)據(jù)計(jì)算量,提高數(shù)據(jù)處理效率。通過主成分分析進(jìn)行降維的步驟如下: (1) 原始指標(biāo)數(shù)據(jù)的標(biāo)準(zhǔn)化 現(xiàn)有采集到的n個(gè)某種疾病的病人診斷或檢查樣本,每個(gè)樣本有p項(xiàng)疾病指標(biāo),可得原始數(shù)據(jù)矩陣X=(Xij)n×p,i=1,2,…,n表示n個(gè)病人樣本,j=1,2,…,p表示p個(gè)疾病指標(biāo)項(xiàng),xij是具體的值,它表示的是第i個(gè)病人樣本的第j項(xiàng)疾病指標(biāo)值。 對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化變換,這里我們采用Z-score法,變換公式如下: (2) 求指標(biāo)數(shù)據(jù)的相關(guān)矩陣 R=(rjk)p×p,j=1,2,…,p;k=1,2,…,p,rjk是一個(gè)相關(guān)系數(shù),表示的是疾病指標(biāo)j與疾病指標(biāo)k的相關(guān)系數(shù)。 其中: (2) (3) (4) (5) 有rii=1,rjk=rkj,i=1,2,…,n;j=1,2,…,p;k=1,2,…,p。 (3) 根據(jù)相關(guān)矩陣,確定各個(gè)主成分 由特征方程式|λIp-R|=0,可知其p個(gè)特征根。這p個(gè)特征根為λg(g=1,2,…,p),將這些特征根按遞減的順序排列為λ1≥λ2≥…≥λp≥0,它表示的是主成分的方差,它的大小表示的是這些主成分在描述被評(píng)價(jià)對(duì)象上所起作用的大小。由特征方程式可得,每一個(gè)特征根相對(duì)應(yīng)一個(gè)特征向量Lg(Lg=lg1,lg2,…,lgp),g=1,2,…,p。 這里我們得到主成分由標(biāo)準(zhǔn)化之后的指標(biāo)變量得來:Fg=lg1Z1+lg2Z2+…+lgpZp(g=1,2,…,p) ,這里F1、F2、Fp分別稱為第一、第二、第p主成分。 (4) 主成分個(gè)數(shù)的確定 (5) 綜合評(píng)價(jià)k個(gè)主成分 我們首先求出每一個(gè)主成分的線性加權(quán)值,如下所示: Fg=lg1Z1+lg2Z2+…+lgpZp (6) 3.2利用SVM算法實(shí)現(xiàn)分類 假設(shè)X為預(yù)處理后的醫(yī)療衛(wèi)生數(shù)據(jù)集,也稱為輸入向量,xi為支持向量,K為核函數(shù)。構(gòu)造SVM學(xué)習(xí)算法的關(guān)鍵是支持向量和輸入向量的內(nèi)積核。SVM是由小的子集構(gòu)成,這些子集由算法從訓(xùn)練數(shù)據(jù)中來抽取。SVM算法步驟為: (1) 數(shù)據(jù)集的準(zhǔn)備 首先按照其軟件包所要求的格式準(zhǔn)備好數(shù)據(jù)集,把樣本數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集以及訓(xùn)練集標(biāo)簽和測(cè)試集標(biāo)簽。 (2) 數(shù)據(jù)預(yù)處理,對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的縮放操作 為提高分類準(zhǔn)確度,需要對(duì)訓(xùn)練集和測(cè)試集進(jìn)行數(shù)據(jù)歸一化預(yù)處理,采用如下公式所示的歸一化映射: (7) 式中,x,y∈Rn,xmin=min(x),xmax=max(x)。這一步使得原始數(shù)據(jù)被規(guī)整到[0,1]范圍內(nèi),即y∈[0,1],這種歸一化方式稱之為[0,1]區(qū)間歸一化。 (3) 考慮選用核函數(shù)類型 SVM的核函數(shù)有多種,這里我們選擇RBF(徑向基)核函數(shù)。函數(shù)公式如下: K(x,xi)=exp(-γ‖x-xi‖2)γ>0 (8) (4) 選擇分類器的最佳參數(shù)c和g 我們?cè)贙-CV情況下獲得c和g的最佳參數(shù),這里K取5,就是嘗試各種可能的(c,g)組合值,然后進(jìn)行交叉驗(yàn)證,找出使交叉驗(yàn)證精讀最高的(c,g)組合。 (5) 帶入訓(xùn)練樣本集獲取SVM模型 參數(shù)c和g得到后,帶入到軟件包中,便可以訓(xùn)練出SVM模型。 (6) 利用獲取的模型進(jìn)行挖掘分析,得到結(jié)果 利用訓(xùn)練好的最優(yōu)算法模型,對(duì)PCA處理后的數(shù)據(jù)集進(jìn)行挖掘分析,并對(duì)結(jié)果進(jìn)行評(píng)估和展示。 4.1實(shí)驗(yàn)環(huán)境及數(shù)據(jù) 本文實(shí)驗(yàn)環(huán)境采用Windows操作系統(tǒng),在Matlab 2010b環(huán)境下使用LIBSVM軟件包進(jìn)行仿真實(shí)驗(yàn)。數(shù)據(jù)集采用了Cardiotocography數(shù)據(jù)集和Breast Cancer 數(shù)據(jù)集,可在http://archive.ics.uci.edu/ml/datasets.html上獲取。兩個(gè)數(shù)據(jù)集的說明如下: Cardiotocography數(shù)據(jù)集來自波爾圖醫(yī)學(xué)院,共有2126個(gè)樣本數(shù)據(jù),每個(gè)數(shù)據(jù)集有23個(gè)特征。取1600個(gè)樣本作為訓(xùn)練數(shù)據(jù)集,其余的作為測(cè)試集,測(cè)試分類效果。數(shù)據(jù)集中的數(shù)據(jù)是測(cè)量胎心產(chǎn)力圖的胎心率和宮縮得到的,由專業(yè)的產(chǎn)科醫(yī)師對(duì)其進(jìn)行了分類。最終根據(jù)胎兒的情況這些樣本數(shù)據(jù)被分成了3類,分別為normal(正常的)、suspect(疑似的)、pathologic(病態(tài)的)。Cardiotocography數(shù)據(jù)集可視化如圖3所示。 圖3 Cardiotocography 數(shù)據(jù)集可視化圖 Breast Cancer數(shù)據(jù)集來自威斯康星大學(xué),共有569個(gè)樣本。其中取469個(gè)樣本作為訓(xùn)練樣本,訓(xùn)練SVM分類器,其余100個(gè)樣本作為測(cè)試樣本,測(cè)試分類效果。該數(shù)據(jù)集的每個(gè)樣本代表一個(gè)乳腺癌病例的隨訪數(shù)據(jù),這些病例數(shù)據(jù)分為malignant(惡性)、benign(良性)兩種。Breast Cancer數(shù)據(jù)集可視化如圖4所示。 圖4 Breast Cancer數(shù)據(jù)集可視化圖 4.2實(shí)驗(yàn)過程及結(jié)果 針對(duì)兩個(gè)數(shù)據(jù)集,利用主成分分析法分別對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理。每個(gè)數(shù)據(jù)集上選取k個(gè)主成分,k值由方差貢獻(xiàn)率來確定,這里我們選取方差貢獻(xiàn)率不小于85%的k個(gè)指標(biāo),完成了主成分分析,得到兩個(gè)新的數(shù)據(jù)集。接下來分別對(duì)兩個(gè)數(shù)據(jù)集進(jìn)行劃分,分別拆分為訓(xùn)練集和測(cè)試集。為提高效率,首先要對(duì)訓(xùn)練集和測(cè)試集統(tǒng)一進(jìn)行歸一化處理,之后就是用訓(xùn)練集對(duì)SVM分類器進(jìn)行訓(xùn)練,用得到的SVM模型對(duì)測(cè)試集進(jìn)行標(biāo)簽測(cè)試。最后對(duì)Cardiotocography 數(shù)據(jù)集和Breast Cancer數(shù)據(jù)集進(jìn)行分類。 在進(jìn)行1000次循環(huán)實(shí)驗(yàn)的情況下,Cardiotocography 數(shù)據(jù)集和Breast Cancer數(shù)據(jù)集分類的平均準(zhǔn)確率分別為91.5%和97.8%。每個(gè)數(shù)據(jù)集的詳細(xì)分類信息如表1和表2所示。 表1 Cardiotocography data set詳細(xì)分類信息 表2 Breast Cancer data set詳細(xì)分類信息 表1中每個(gè)值代表該數(shù)據(jù)集中的三類數(shù)據(jù)(正常、疑似、病態(tài))經(jīng)過上述1000次循環(huán)實(shí)驗(yàn)后被分到相應(yīng)類別數(shù)據(jù)中的概率。例如:“正常”類別的數(shù)據(jù)被成功識(shí)別分到“正?!鳖悇e的概率為99.2%,錯(cuò)分到“疑似”類別的概率為0.6%,錯(cuò)分到“病態(tài)”類別的概率為0.1%。通過表1可知,在本文仿真實(shí)驗(yàn)循環(huán)1000次的測(cè)試下,Cardiotocography data set中樣本類別為正常的數(shù)據(jù)樣本分類正確率為99.2%,類別為疑似的數(shù)據(jù)樣本分類正確率為90.3%,而類別為病態(tài)的數(shù)據(jù)樣本分類正確率為88%。 表2中每個(gè)值代表該數(shù)據(jù)集中的兩類數(shù)據(jù)(惡性、良性)經(jīng)過上述1000次循環(huán)實(shí)驗(yàn)后被分到相應(yīng)類別數(shù)據(jù)中的概率。例如:“惡性”類別的數(shù)據(jù)被成功識(shí)別分到“惡性”類別的概率為95.5%,錯(cuò)分到“良性”類別的概率為4.5%。通過表2可知,在本文仿真實(shí)驗(yàn)循環(huán)1000次的測(cè)試下,Breast Cancer dataset中乳腺病例類別為惡性的數(shù)據(jù)樣本分類正確率為95.5%,而類別為良性的數(shù)據(jù)樣本分類正確率為99.1%。 本文基于醫(yī)療衛(wèi)生數(shù)據(jù)的數(shù)據(jù)量大、特征復(fù)雜、維數(shù)高等特點(diǎn),提出了一種基于PCA-SVM的數(shù)據(jù)挖掘分類方法。該方法從數(shù)據(jù)分析挖掘的整個(gè)過程進(jìn)行了分析,首先對(duì)數(shù)據(jù)進(jìn)行主成分分析,選取具有代表性的特征,其次利用SVM算法對(duì)數(shù)據(jù)集進(jìn)行建模,利用分類模型獲得最后的分類計(jì)算結(jié)果。通過對(duì)Cardiotocography數(shù)據(jù)集和Breast Cancer數(shù)據(jù)集的分類仿真實(shí)驗(yàn)表明,本方法分類準(zhǔn)確率較高,為醫(yī)療數(shù)據(jù)挖掘分類研究提供了一種新的思路和方法。 [1] 王學(xué)松,郭強(qiáng).醫(yī)療數(shù)據(jù)分析及數(shù)據(jù)挖掘方法的應(yīng)用[J].電子技術(shù)與軟件工程,2014,21(2):218-219. [2] 陳霞,邱桃榮,魏玲玲,等.基于數(shù)據(jù)挖掘的病例數(shù)據(jù)預(yù)處理[J].計(jì)算機(jī)與現(xiàn)代化,2007,32(5):23-24. [3] 戴子卿,陳俐,鄒郢,等.基于聚類方法的醫(yī)療費(fèi)用數(shù)據(jù)挖掘研究[J].中國(guó)病案,2014,15(10):66-68. [4] 鄭丹青.基于SPRINT算法的胃癌臨床醫(yī)療數(shù)據(jù)挖掘研究[J].吉林師范大學(xué)學(xué)報(bào):自然科學(xué)版,2012,5(2):121-124. [5] 鄒志文,朱金偉.數(shù)據(jù)挖掘算法研究與綜述[J].計(jì)算機(jī)工程與設(shè)計(jì),2005,26(9):2304-2307. [6] 韓紅霞. 醫(yī)療費(fèi)用支付影響因素差異性研究[D].吉林:吉林大學(xué),2014. [7] 劉昆,劉業(yè)政.基于決策樹的醫(yī)療數(shù)據(jù)分析[J].計(jì)算機(jī)工程,2002,28(2):41-43. [8] 楊超.基于BP神經(jīng)網(wǎng)絡(luò)的健康保險(xiǎn)欺詐識(shí)別研究[D].青島:青島大學(xué),2014. [9] Sch?lkopf B, Smola A, Müller K R. Nonlinear component analysis as a kernel eigenvalue problem[J].Neural Computation, 1998,10(5):1299-1319. [10] Graziella Orrù, PetterssonYeo W, Marquand A F, et al. Using Support Vector Machine to identify imaging biomarkers of neurological and psychiatric disease: A critical review[J].Neuroscience & Biobehavioral Reviews,2012,36(4):1140-1152. A MINING AND CLASSIFICATION METHOD FOR MEDICAL DATA BASED ON PCA-SVM Dai Bingrong1Wang Xiaoli2*Li Chao1Chen Jie2Shi Tianxing2 1(ShanghaiDevelopmentCenterofComputerSoftwareTechnology,Shanghai201112,China)2(ShanghaiPudongResearchInstituteofHeathDevelopment,Shanghai200129,China) Current medical data presents the characteristics of large amount, various categories and complicated features, which bring certain challenge to data mining. According to these characteristics of medical data, we propose a data mining and classification method which is based on principal component analysis (PCA) and support vector machine (SVM), and elaborately study the algorithm model of this method and its specific implementation in medical and health sector. In the MATLAB environment we use two datasets of Cardiotocography dataset and Breast Cancer dataset to carry out simulation experiments. It is indicated by experimental results that the method has good classification effect provides a feasible thought for current medical data mining and classification. Medical dataData miningPrincipal component analysisSupport vector machine 2015-03-04。浦東新區(qū)衛(wèi)生系統(tǒng)學(xué)科帶頭培養(yǎng)計(jì)劃(PWRd2014-12);上海市科技創(chuàng)新行動(dòng)計(jì)劃項(xiàng)目(13dz1508500);院地合作專項(xiàng)(13DZ1512103,13DZ1512101);上海市軟科學(xué)研究計(jì)劃項(xiàng)目(14692103000)。戴炳榮,碩士,主研領(lǐng)域:云計(jì)算,大數(shù)據(jù),數(shù)據(jù)中心自動(dòng)化。王曉麗,高工。李超,助理工程師。陳潔,助理工程師。施天行,助理工程師。 TP3 A 10.3969/j.issn.1000-386x.2016.08.0153 PCA-SVM算法在醫(yī)療衛(wèi)生領(lǐng)域的應(yīng)用分析
4 實(shí)驗(yàn)結(jié)果及結(jié)論
5 結(jié) 語(yǔ)