吳辰文,鄭 恒,張 燁,朱建東
(蘭州交通大學(xué)電子與信息工程學(xué)院,甘肅蘭州730070)
?
醫(yī)療數(shù)據(jù)的清洗以及知識(shí)挖掘
吳辰文,鄭恒,張燁,朱建東
(蘭州交通大學(xué)電子與信息工程學(xué)院,甘肅蘭州730070)
摘 要:數(shù)據(jù)挖掘或數(shù)據(jù)分析在生物醫(yī)學(xué)中與其他調(diào)查領(lǐng)域不同,因?yàn)樵谏镝t(yī)學(xué)領(lǐng)域這些數(shù)據(jù)很復(fù)雜,他們資源不同,且每一個(gè)醫(yī)師對(duì)同一個(gè)診斷記錄都有他們自己的解釋.分析醫(yī)療數(shù)據(jù)的特征,研究數(shù)據(jù)的清洗,目的是為了挖掘有價(jià)值的知識(shí).實(shí)驗(yàn)顯示,所提出的方法比樸素貝葉斯網(wǎng)絡(luò)模式更有效.
關(guān)鍵詞:數(shù)據(jù)清理;醫(yī)療數(shù)據(jù);知識(shí)挖掘;貝葉斯網(wǎng)絡(luò)
由于醫(yī)療機(jī)制的改革,醫(yī)療記錄存在的一些問題如病人隱私信息的泄露,已經(jīng)不能滿足醫(yī)療事業(yè)的需求了.醫(yī)療機(jī)構(gòu)應(yīng)該想出一個(gè)隱私保護(hù)措施來保護(hù)病人的隱私,再研究基于法律和規(guī)則的相關(guān)技術(shù)[1-2].
論文提出一種新的數(shù)據(jù)挖掘方法,其安全性和可行性都很高.有越多的數(shù)據(jù),就會(huì)有越多的有效知識(shí).數(shù)據(jù)挖掘是信息化的過程,是在海量數(shù)據(jù)源中提取可信和有效知識(shí)的形式,其目的是從大量的、隨機(jī)的數(shù)據(jù)中提取未知的但有用的知識(shí),并解決傳統(tǒng)的統(tǒng)計(jì)方法無法處理的效率問題.數(shù)據(jù)挖掘的方法主要包括關(guān)聯(lián)分析、分類分析、聚類分析、統(tǒng)計(jì)分析、時(shí)間序列模式和偏差分析.經(jīng)典的數(shù)據(jù)挖掘過程包括了解業(yè)務(wù)、理解數(shù)據(jù)、準(zhǔn)備數(shù)據(jù)、建模和分析、模型評(píng)估和模型部署.
1.1 知識(shí)管理
MYCIN[3]系統(tǒng)開發(fā)于20世紀(jì)70年代,可以用來支持咨詢或決策.在生物醫(yī)學(xué)領(lǐng)域,許多人工智能的方法已被應(yīng)用于數(shù)據(jù)挖掘.在生物醫(yī)學(xué)方面,相關(guān)研究者采用了基于人工智能的專家知識(shí)推理規(guī)則,并提供了醫(yī)療知識(shí)管理,這就要求在生物醫(yī)學(xué)領(lǐng)域出現(xiàn)新的方法或技術(shù).這些系統(tǒng)不僅可以代替人類診斷,而且還可以輔助生物醫(yī)學(xué)決策.在醫(yī)療領(lǐng)域,病人管理系統(tǒng)正在高速的發(fā)展[4].這些對(duì)于醫(yī)生來說是一個(gè)重要的信息[5],可以掌握非常龐大的數(shù)據(jù)[6],同時(shí)把它們分為兩大類,即病人的健康信息和從海量信息中統(tǒng)計(jì)的信息.這種分類法已被大多數(shù)研究人員接受.另外,隨著信息技術(shù)的不斷進(jìn)步和發(fā)展,這兩種信息也正在快速地發(fā)展.在醫(yī)療數(shù)據(jù)集成中,由于生物現(xiàn)象非常復(fù)雜,整合這些數(shù)據(jù)要面對(duì)許多種挑戰(zhàn)[7].Chen等[8]提出一種應(yīng)用于生物醫(yī)學(xué)領(lǐng)域中的異構(gòu)數(shù)據(jù)庫集成框架,該框架采用查詢翻譯技術(shù)為醫(yī)療數(shù)據(jù)集成一個(gè)統(tǒng)一的概念模式.MedBlast[9]系統(tǒng)是根據(jù)給定的關(guān)鍵字序列,讓研究人員能夠找到相關(guān)的文章.
1.2 數(shù)據(jù)和文本挖掘
經(jīng)典的數(shù)據(jù)挖掘技術(shù)已經(jīng)被廣泛應(yīng)用,研究人員用其來發(fā)現(xiàn)在生物醫(yī)學(xué)衛(wèi)生領(lǐng)域中的新模式或者是新知識(shí).數(shù)據(jù)挖掘技術(shù)可以用來從醫(yī)療保健數(shù)據(jù)和臨床診斷中提取生產(chǎn)規(guī)則.研究人員已經(jīng)在生存數(shù)據(jù)中運(yùn)用數(shù)據(jù)挖掘技術(shù)提取出了診斷規(guī)則[10].運(yùn)用數(shù)據(jù)挖掘的技術(shù)提取的有關(guān)規(guī)則與那些由專家手工生成的規(guī)則很是類似.因此,數(shù)據(jù)挖掘的結(jié)果可以很容易地由該領(lǐng)域的專家驗(yàn)證.另外,數(shù)據(jù)挖掘技術(shù)也可以應(yīng)用在醫(yī)療數(shù)據(jù)庫中,目的是尋找新的醫(yī)療知識(shí)[11].在生物醫(yī)學(xué)領(lǐng)域中分類算法用的是最普遍的數(shù)據(jù)挖掘技術(shù).Chen等[8]應(yīng)用SVM(support vevtor machine)插入模型來自動(dòng)檢測(cè)峰值信號(hào),并且其結(jié)果可以應(yīng)用在與癲癇有關(guān)的神經(jīng)性疾病中.Hpipcsak等[12]使用模糊C-均值算法來分割乳房和腦部磁共振圖像,并且他們的方法是有效的和自動(dòng)的.
低成本的存儲(chǔ)和相應(yīng)的測(cè)序技術(shù)使其非常易于保存生物醫(yī)學(xué)數(shù)據(jù),根據(jù)發(fā)達(dá)的互聯(lián)網(wǎng),這些生物醫(yī)學(xué)數(shù)據(jù)可以很容易地被研究者訪問.因?yàn)檫@些數(shù)據(jù)有大量的注釋和數(shù)據(jù)架構(gòu).因此,在這種類型的數(shù)據(jù)中,數(shù)據(jù)挖掘是必要的.在各種數(shù)據(jù)挖掘算法中,聚類[13]和分類[14]算法被廣泛地用于生物醫(yī)學(xué)數(shù)據(jù).
1.3 機(jī)器學(xué)習(xí)和數(shù)據(jù)分析的范式
原始數(shù)據(jù)的分析和挖掘技術(shù)如概率和統(tǒng)計(jì)分析,它們有很長的歷史[15-18].在所有這些概率分析模型中,貝葉斯模型是最流行的,它是用于分析海量數(shù)據(jù)的強(qiáng)有力的理論依據(jù)[19].考慮到一個(gè)新進(jìn)的實(shí)例,根據(jù)預(yù)先計(jì)算的概率,運(yùn)用貝葉斯模型將它分類[20].在原有貝葉斯模型的基礎(chǔ)上,研究人員提出了樸素貝葉斯模型.樸素貝葉斯模型的主要思路是:假設(shè)一個(gè)類有許多功能,但這些功能是相互獨(dú)立的.樸素貝葉斯模型簡化了原有的貝葉斯模型,并已在許多研究領(lǐng)域中得到應(yīng)用[21].近年來,在機(jī)器學(xué)習(xí)研究中,SVM模式得到了越來越多的認(rèn)可.SVM模型也是根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論得到的,其目的是要找到一個(gè)超平面,使得該超平面能夠把數(shù)據(jù)空間劃分成若干類.SVM模型也已應(yīng)用在許多醫(yī)療分類設(shè)置中,如醫(yī)生根據(jù)臨床記錄診斷和根據(jù)基因數(shù)據(jù)疾病特征進(jìn)行分類[21].
2.1 數(shù)據(jù)清洗的框架
數(shù)據(jù)清洗對(duì)于數(shù)據(jù)分析很重要,并且它是使用數(shù)據(jù)挖掘算法之前對(duì)數(shù)據(jù)集的預(yù)處理.目前,對(duì)數(shù)據(jù)清洗并沒有一個(gè)共同的協(xié)議,因?yàn)椴煌臄?shù)據(jù)清洗可能有不同的要求.具體數(shù)據(jù)清洗過程是從領(lǐng)域到領(lǐng)域、主題到主題、項(xiàng)目到項(xiàng)目.然而,數(shù)據(jù)清洗的共同理解是處理不合理、不完整、不準(zhǔn)確數(shù)據(jù)的過程.在數(shù)據(jù)清洗的過程中,要能夠正確地檢測(cè)到錯(cuò)誤,并對(duì)缺少的特征添加默認(rèn)值,以提高數(shù)據(jù)質(zhì)量.
圖1給出了對(duì)數(shù)據(jù)清洗的框架,這是適合于不同用途的框架.該框架不包含任何數(shù)據(jù)挖掘算法,并給出了規(guī)劃整個(gè)數(shù)據(jù)挖掘過程的數(shù)據(jù)挖掘研究的指南.一些數(shù)據(jù)清理算法將適用于數(shù)據(jù)清洗處理的具體工作.此框架允許用戶與通過選擇合適的算法框架,但是它要求用戶必須清楚地知道數(shù)據(jù)清洗的每個(gè)步驟,因此這在處理噪聲數(shù)據(jù)將是有效的.
數(shù)據(jù)挖掘框架的基本原則如下:
(1)從原始數(shù)據(jù)中,使用預(yù)加工技術(shù)來選擇合適的屬性的過程;
(2)基于聚類的關(guān)鍵,通過選擇合適的聚類算法或分類的方法來分組記錄;
(3)利用數(shù)據(jù)挖掘技術(shù),如聚類算法和關(guān)聯(lián)規(guī)則,通過相似度計(jì)算來挖掘有價(jià)值的知識(shí).
圖1 數(shù)據(jù)清理框架Fig.1 Framework for data cleaning
2.2 數(shù)據(jù)清洗
在數(shù)據(jù)清理過程中檢測(cè)出的不一致和錯(cuò)誤,要手動(dòng)或自動(dòng)校正它們,以提高數(shù)據(jù)的質(zhì)量.一些商業(yè)工具已經(jīng)提供了一些數(shù)據(jù)清洗的功能,但它們是不完全的.根據(jù)以上的情況,一些研究者提出了數(shù)據(jù)清洗的系統(tǒng)框架.數(shù)據(jù)清洗的目的是為數(shù)據(jù)倉庫或數(shù)據(jù)挖掘提供工具,然后運(yùn)用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù),可以發(fā)現(xiàn)在數(shù)據(jù)集中的模式或映射.
然而,為了自動(dòng)地處理數(shù)據(jù)清洗和解決數(shù)據(jù)記錄的復(fù)制問題,作者提供了一種無監(jiān)督步進(jìn)式的學(xué)習(xí)算法.在無監(jiān)督步進(jìn)式的學(xué)習(xí)方法中可以自動(dòng)進(jìn)行聚類數(shù)據(jù)記錄,以及處理大量的和未被標(biāo)記的數(shù)據(jù)記錄.聚類算法的目的是生成一些集群,并在相同簇中的記錄是盡可能相似的,在不同的簇中盡可能是不同的.
2.3 一種基于無監(jiān)督的步進(jìn)式的學(xué)習(xí)方法
在無監(jiān)督學(xué)習(xí)的過程中沒有外部教師或評(píng)論者去監(jiān)視學(xué)習(xí)的過程,如圖2所示.
圖2 無監(jiān)督學(xué)習(xí)的塊圖表Fig.2 Block of diagram of supervised learning
無監(jiān)督機(jī)器學(xué)習(xí)包括兩種學(xué)習(xí)方法:強(qiáng)化學(xué)習(xí)和競(jìng)爭學(xué)習(xí).強(qiáng)化學(xué)習(xí)方法是基于評(píng)估的,并增強(qiáng)外部環(huán)境的學(xué)習(xí)能力.競(jìng)爭學(xué)習(xí)是由彼此相互競(jìng)爭的中性細(xì)胞組成的,并且這些競(jìng)爭的中性細(xì)胞可以從輸入的數(shù)據(jù)中得到知識(shí).作者基于經(jīng)典的無監(jiān)督的機(jī)器學(xué)習(xí)算法,提高了Hebbian規(guī)則,并根據(jù)記錄提出了競(jìng)爭學(xué)習(xí)算法,目的就是為了解決該問題.
根據(jù)Hebbian等人的假設(shè),可以用一個(gè)函數(shù)來表示中性細(xì)胞的規(guī)則
其中:w是權(quán)重向量參數(shù),x是輸入樣本向量參數(shù),Φ(·)是可微函數(shù),a≥0是遺忘系數(shù).
中性細(xì)胞的輸出為
其中:u>0是一種學(xué)習(xí)速度系數(shù),因此梯度是
可以得到中性細(xì)胞的學(xué)習(xí)規(guī)則為
離散的學(xué)習(xí)規(guī)則為
如果遺忘系數(shù)是a=1,并且獎(jiǎng)懲系數(shù)是Y,那么當(dāng)中性細(xì)胞被激活,i-th中性細(xì)胞的學(xué)習(xí)規(guī)則為
其中
其中:β是一種懲罰系數(shù),θ表示的是一種相似度的門檻,di是i-th中性細(xì)胞的相似值,并且
其中:xi和yi是向量x和y的i-th元素,i=1,…,l;wi是權(quán)重系數(shù).
根據(jù)上文的描述,總結(jié)出以下學(xué)習(xí)算法:
(1)初始的學(xué)習(xí)速度系數(shù)u,懲罰系數(shù)β,和相似度門檻θ;
(2)接受第一個(gè)樣本向量x,添加第一個(gè)中性細(xì)胞w0,并且初始化為x;
(3)判斷學(xué)習(xí)是否結(jié)束,如果是,轉(zhuǎn)到第(5)步,否則,從樣本空間接受樣本向量,并且根據(jù)等式(9)計(jì)算相似度的值;
(4)根據(jù)競(jìng)爭力的能力,判斷出勝利的中性細(xì)胞,如果di>θ,添加一個(gè)新的中性細(xì)胞并設(shè)置為x,然后返回第(3)步;
(5)根據(jù)等式(8)計(jì)算懲罰系數(shù);
(6)根據(jù)等式(7)更新權(quán)重,然后返回第(3)步.
2.4 歸一化式的距離壓縮(normalized compression distance,簡稱NCD)
NCD是使用K(y)近似法使兩個(gè)數(shù)據(jù)之間的距離度量的,其中C(y)=K(y)+k .通過無損壓縮機(jī)C加上未知常量k可以獲得壓縮版本的長度.NCD的計(jì)算方法為
其中:C(y,x)表示通過y和x串聯(lián)獲得被壓縮文件的大小.NCD代表了不同的兩個(gè)文件,便于利用這一結(jié)果為各種應(yīng)用注入無參數(shù)的方法,隨著程序的修補(bǔ),使用NCD能夠計(jì)算它們之間的距離矩陣.
根據(jù)合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集,評(píng)估所提出的數(shù)據(jù)清洗算法的質(zhì)量和準(zhǔn)確度.
3.1 基準(zhǔn)模型
首先,把實(shí)驗(yàn)提出的算法與正確的貝葉斯網(wǎng)絡(luò)模型相比較.在實(shí)驗(yàn)中,提出的方法包含兩個(gè)條件概率分布(conditional probability distribution,簡稱CPDs),分別是P(I.b|M.b,F(xiàn).b)和P(I.d|I.b).編碼這兩個(gè)CPDs中,為每個(gè)變量(I.d和I.b)的數(shù)據(jù)集的概率值都能夠產(chǎn)生一個(gè)后驗(yàn)概率分布(M.b,F(xiàn).b和I.b).同時(shí),根據(jù)從數(shù)據(jù)中收集的案例,創(chuàng)建了兩個(gè)CPDs.例如,通過下面的SQL語句查詢,可以得到P(I.d|I.b):
SELECT death,birth,count(*)
FROM person
GROUP BY death,birth;
由于同樣的原因,可以根據(jù)相同的SQL查詢構(gòu)建先驗(yàn)分布P(I.b).對(duì)于每一個(gè)構(gòu)建的CPDs,都可以標(biāo)準(zhǔn)化原始計(jì)數(shù),以便通過返回的結(jié)果得到概率密度.
3.2 結(jié) 果
首先,對(duì)于每個(gè)實(shí)驗(yàn),通過復(fù)制和改變?cè)紨?shù)據(jù)集(合成的或真實(shí)的數(shù)據(jù)集)構(gòu)造原始數(shù)據(jù)庫的子集.然后隨機(jī)注入一些錯(cuò)誤的信息進(jìn)入數(shù)據(jù)庫的子集,并刪除了一些有價(jià)值的數(shù)據(jù),產(chǎn)生了一些缺失的信息,并在完成這些之后,試圖找到所有缺失值,使它們變成馬爾科夫毛毯模型.其原因是,未被觀察到的所有的相關(guān)的項(xiàng)目將結(jié)束在相同的毛毯模型上.根據(jù)底層的圖形模型的性質(zhì),很容易解決這些馬爾可夫毛毯.例如,馬爾科夫毛毯的每個(gè)產(chǎn)品上可能都有出生年份,但其每年的死亡年份可能會(huì)丟失.在實(shí)驗(yàn)中,只考慮使用不少于5種未被觀察到的值的毛毯.此外,為了盡量減少在邊界情況下推出的偏見,刪除在1850—2013年之外的未被觀測(cè)到的一些毛毯.
接下來,學(xué)習(xí)從每一個(gè)數(shù)據(jù)集中推理出算法的參數(shù).這可以通過樸素貝葉斯模型的“count group by”SQL語句查詢和在模型中的“histogram scan”SQL語句查詢來實(shí)現(xiàn).因?yàn)檎撐乃岢龅姆椒ㄊ且环N數(shù)據(jù)驅(qū)動(dòng)的算法,這一步返回的是一個(gè)新的數(shù)據(jù)集而不是從原始數(shù)據(jù)集中構(gòu)建的子數(shù)據(jù)集.
為了公平,在對(duì)損壞的數(shù)據(jù)集的實(shí)驗(yàn)中,當(dāng)為兩個(gè)算法構(gòu)造模型的時(shí)候,運(yùn)用的是粗糙的清洗方法.即限制數(shù)據(jù)的值包括最大值之和最小值,也即CPDs,min(DA)<I.d-I.b<max(DA).對(duì)于生活中的人的定義,用介于0~95歲的年齡來表示;對(duì)于這個(gè)區(qū)間之外的任何值,假設(shè)他或她已經(jīng)死了.此外,假定父母的年齡從18~50歲.精確的推理應(yīng)用主要領(lǐng)域的知識(shí),這需要CPDs跨越一定范圍的值.然而,近似推理方法不是基于有限的實(shí)際值,因此具有更好的推理能力.
3.21 丟失的數(shù)據(jù)
由于預(yù)計(jì)CPDs的值I.b,M.b,F(xiàn).b都是非常稀疏的,通過比較,BayesNet算法比ERACER算法有兩倍以上的誤差.至于這兩種算法的準(zhǔn)確度的比較,通過實(shí)現(xiàn)BayesNet收縮擴(kuò)展.在實(shí)驗(yàn)設(shè)置中,使用實(shí)施收縮技術(shù)來仿真基于年齡的ERACER算法.
在BayesNet模型,CPDs的每個(gè)毛毯,選擇與同年齡差異的所有記錄,并且將它們計(jì)數(shù)在一起,而不是通過計(jì)算特定出生/死亡年,如
該實(shí)驗(yàn)的結(jié)果如圖3所示.圖中(a),(b),(c)是精確度對(duì)比;(d),(e),(f)是質(zhì)量對(duì)比.圖3中(a)、(d)說明了這兩個(gè)數(shù)據(jù)清洗的算法,這里的貝葉斯網(wǎng)絡(luò)模型使用上述熱收縮技術(shù)的準(zhǔn)確度(頂部)和質(zhì)量(底部).這兩種算法可以與實(shí)際值進(jìn)行比較,有三至七年的錯(cuò)誤缺失值.從圖文可以看到,提出ERACER算法比BayesNet算法更準(zhǔn)確,原因是在算法中和模型中的數(shù)據(jù)與網(wǎng)絡(luò)具有依賴性,并且該網(wǎng)絡(luò)可以增加彈性以此來增加算法的準(zhǔn)確性.然而,BayesNet算法與ERACER算法在質(zhì)量上較為一致. 在BayesNet算法,隨著邊緣不確定性增加,數(shù)據(jù)的丟失量也在增加.然而,ERACER算法依賴于所提出的參數(shù)模型,并且在該實(shí)驗(yàn)中使用卷積,提高個(gè)實(shí)驗(yàn)的準(zhǔn)確性.
3.22 損壞的數(shù)據(jù)
圖3(b)、(e)中顯示出的精確度(頂部)和質(zhì)量(底部)包含了兩種算法.
從圖中可以看到,BayesNet算法對(duì)被破壞的數(shù)據(jù)值更有抵抗力.其原因在于,BayesNet算法推斷自始至終與馬爾可夫毛毯是聯(lián)合的.然而,BayesNet算法推斷方差的方法比ERACER算法更高,但是這些都是不確定的,因?yàn)樵跀?shù)據(jù)集中有相互矛盾的證據(jù).論文提出的算法與BayesNet算法在損壞的數(shù)據(jù)的較低水平幾乎是一樣的,但是對(duì)總體誤差更敏感.
以上的結(jié)果與預(yù)期是一樣的,對(duì)于每個(gè)邊緣都是獨(dú)立的,并且它依賴于大多數(shù)實(shí)例的投票.在該數(shù)據(jù)集中,當(dāng)大多數(shù)相關(guān)的數(shù)據(jù)是錯(cuò)誤的,該錯(cuò)誤可以傳播到馬爾可夫毛毯,而這將會(huì)導(dǎo)致與推斷的正確的數(shù)據(jù)不同.然而,論文所提出的方法是在許多應(yīng)用中都是有效的,因?yàn)檫@些應(yīng)用程序沒有這么多的錯(cuò)誤,并且這個(gè)方法可以很容易地處理它們.論文提出的算法完成了95%,這比樸素貝葉斯網(wǎng)絡(luò)模型更好,其精度只有77%.總之,在數(shù)據(jù)清洗的過程中,論文提出的算法比貝葉斯模型更好.
3.23 PRF數(shù)據(jù)
在PRF數(shù)據(jù)集的實(shí)驗(yàn)中,因?yàn)槊}沖重復(fù)頻率數(shù)據(jù)集是一個(gè)真正的數(shù)據(jù)集(沒有在此數(shù)據(jù)集中注射錯(cuò)誤),并且錯(cuò)誤出現(xiàn)在那里,因此實(shí)驗(yàn)評(píng)價(jià)有點(diǎn)復(fù)雜.對(duì)這個(gè)數(shù)據(jù)集運(yùn)用的數(shù)據(jù)清洗算法,并嘗試識(shí)別個(gè)人的出生年份和死亡年份.算法完成五輪之后,確定了錯(cuò)誤的個(gè)人出生年份和死亡年份.在圖3(b)、(e)中,顯示了兩種算法的準(zhǔn)確性(頂部)和質(zhì)量(底部).從這兩個(gè)數(shù)字可以看出,論文實(shí)驗(yàn)所提出的數(shù)據(jù)清洗算法比貝葉斯網(wǎng)絡(luò)模型更加有效.
圖3 ERACER算法與BayesNet算法的對(duì)比Fig.3 The comparison of ERACE algorithm and BayesNet algorithm
在生物醫(yī)學(xué)數(shù)據(jù)分析領(lǐng)域,醫(yī)療數(shù)據(jù)來自不同的數(shù)據(jù)資源,因此它們將具有不同的數(shù)據(jù)結(jié)構(gòu)或數(shù)據(jù)模式.此外,不同的醫(yī)生對(duì)相同的臨床記錄的解釋可以得出不同結(jié)論.此外,為了保護(hù)患者隱私,許多個(gè)人的一些特征被省略.為了挖掘這些龐大的生物醫(yī)學(xué)數(shù)據(jù),使用之前一定要清洗它們,并將它們整合在一起,以獲得具有精確特征的結(jié)構(gòu)化的數(shù)據(jù)集.在論文中,分析醫(yī)療數(shù)據(jù)的特征,并對(duì)這些數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,來挖掘出有價(jià)值的知識(shí).根據(jù)實(shí)驗(yàn)的結(jié)果以及對(duì)結(jié)果的分析可以知道,該實(shí)驗(yàn)提出的方法比樸素貝葉斯網(wǎng)絡(luò)模型更加有效.
參考文獻(xiàn):
[1] WEIKUN G.Foundations of statistical natural language processing[J].Acm Sigmod Record,2002,31(3):37-38.
[2] CEUSTERS W.Medical natural language understanding as a supporting technology for data mining in healthcare[J].Studies in Fuzziness and Soft Computing,2001,14(5):41-71.
[3] NARAIN S.Mycin:implement the expert system in loglisp[J].Software,IEEE,1985,1(2):83-89.
[4] GUPTILLl J.Knowledge management in health care[J].Health Care Finance,2005,31(3):10-14.
[5] DAWES M,SAMPSON U.Knowledge management in clinical practice:a systematic review of information seeking behavior in physicians[J].International Journal of Medical Informatics,2003,71(1):9-15.
[6] SUNDARAM A.Information retrieval:a health care perspective[J].Bulletin of the Medical Library Association,1996,84(4):59-61.
[7] FULLER S S,REVERE D,BUGNI P F,et al.A knowledgebase system to enhance scientific discovery:telemakus[J].Biome Dical Digital Libraries,2004(1):2-10.
[8] CHEN H,LALLY A M,ZHU B,et al.HelpfulMed:intelligent searching for medical information over the internet[J].Journal of the American Society for Information Science and Technology,2003,54(7):683-694.
[9] BARRERA J,CESAR-JR R M,F(xiàn)ERREIRA J A,et al.An environment for knowledge discovery in biology [J].Computers in Biology and Medicine,2004,34(5):427-447.
[10] TU H Q,DING D.MedBlast:searching articles related to abological sequence[J].Bioinformatics,2004,20 (1):75-77.
[11] JANUROV A,BRIV S A.Nonparametric approach to medical survival data:Uncertainty in the context of risk in mortality analysis[J].Reliability Engineering &System Safety,2013,125:145-152.
[12] HRIPCSAK G,AUSTIN J H,ALDERSON P O,et al.Use of natural language processing to translate clinical information from a database of 889,921chest radiographic reports1[J].Radiology,2002,224(1):157-163.
[13] KANNAN S R,RAMATHILAGAM S,DEVI R,et al.Strong fuzzy c-means in medical image data analysis [J].Journal of Systems and Software,2012,85(11):2425-2438.
[14] WOOTEN E C,HUGGINS G S.Mind the dbgap:The application of data mining to identify biological mechanisms[J].Molecular Interventions,2011,11(2):95-102.
[15] HASAN M,HUAN J,CHEN J,et al.Biological knowledge discovery and data mining[J].Scientific Programming,2012,20(1):1-2.
[16] RAZA K.Application of data mining in bioinformatics[J].Indian Journal of Computer Science and Engineering,2010,1(2):114-118.
[17] ANANIADOU S,PYYSALO S,TSUJII J,et al.Event extraction for systems biology by text mining the literature[J].Trends in Biotechnology,2010,28(7):381-390.
[18] CHIEN Y.Pattern classification and scene analysis[J].Automatic Control,IEEE Transactions,1974,19 (4):462-463.
[19] MANTEL N,HAENSZEL W.Statistical aspects of the analysis of data from retrospective studies of disease [J].The Challenge of Epidemiology:Issues and Selected Readings,2004:533-553.
[20] WEBB G I,BOUGHTON J R,ZHENG F,et al.Learning by extrapolation from marginal to full-multivariate probability distributions:decreasingly na¨ive Bayesian classification[J].Machine Learning,2012,86(2):233-272.
[21] BHAVSAR H,PPNCHAL M H.A review on support vector machine for data classification[J]. International Journal of Advanced Research in Computer Engineering &Technology,2012,10(1):185-189.
(責(zé)任編輯 朱夜明)
Data cleaning of medical data and knowledge mining
WU Chenwen,ZHENG Heng,ZHANG Ye,ZHU Jiandong
(School of Electronic and Information Engineering,Lanzhou Jiaotong University,Lanzhou 730070,China)
Abstract:Data mining or data analysis in biomedicine is different from other research fields,because the data in biomedical are heterogeneous,and they are from different sources. Moreover,each physician might have his own interpretation with the same clinical records. In this paper,we analyzed the features of medical data,and studied data cleaning for medical data in order to mine valuable knowledge.Experiments showed that the proposed method was more efficient than the baseline Bayesian network model.
Key words:data cleaning;medical data;knowledge mining;Bayesian network
doi:10.3969/j.issn.1000-2162.2016.01.005
作者簡介:吳辰文(1964-),男,甘肅靖遠(yuǎn)人,蘭州交通大學(xué)教授,碩士生導(dǎo)師.
基金項(xiàng)目:蘭州市科技計(jì)劃基金資助項(xiàng)目(2009-1-5);甘肅省自然科學(xué)基金資助項(xiàng)目(1308RJZA111)
收稿日期:2015-03-13
中圖分類號(hào):U416
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1000-2162(2016)01-0023-07