王逸夫 李川
(四川大學(xué)計(jì)算機(jī)學(xué)院,四川 成都 610065)
?
基于數(shù)據(jù)挖掘的臨床醫(yī)學(xué)研究系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
王逸夫李川△
(四川大學(xué)計(jì)算機(jī)學(xué)院,四川 成都610065)
摘要目的:通過分析傳統(tǒng)臨床醫(yī)學(xué)研究方法的現(xiàn)狀與問題,理解臨床醫(yī)學(xué)研究對數(shù)據(jù)挖掘的需求,進(jìn)而提出基于數(shù)據(jù)挖掘的臨床醫(yī)學(xué)研究系統(tǒng)的設(shè)計(jì)思想,并提出系統(tǒng)的評估方法,最后總結(jié)了基于數(shù)據(jù)挖掘的臨床醫(yī)學(xué)研究系統(tǒng)的應(yīng)用價(jià)值。
關(guān)鍵詞:數(shù)據(jù)挖掘;臨床醫(yī)學(xué);醫(yī)學(xué)研究系統(tǒng)
在臨床醫(yī)學(xué)研究上,傳統(tǒng)的研究命題與假說主要來源于工作實(shí)踐和相關(guān)科研文獻(xiàn)[1]。一方面,醫(yī)學(xué)工作者每天接待、診治大量病人,從這些醫(yī)療活動(dòng)中總結(jié)、推理、歸納逐步形成經(jīng)過驗(yàn)證的知識;另一方面,醫(yī)學(xué)工作者需要通過大量閱讀相關(guān)醫(yī)學(xué)文獻(xiàn),進(jìn)一步提煉成新的研究命題與假設(shè)。無論采用哪種方式,都會產(chǎn)生、使用到大量的研究數(shù)據(jù),而在數(shù)據(jù)應(yīng)用方面,尤其是復(fù)雜嚴(yán)謹(jǐn)?shù)臄?shù)理統(tǒng)計(jì)設(shè)計(jì),由于很多醫(yī)學(xué)工作者沒有專業(yè)的統(tǒng)計(jì)學(xué)背景,造成統(tǒng)計(jì)設(shè)計(jì)不嚴(yán)謹(jǐn)甚至錯(cuò)誤,將導(dǎo)致整個(gè)研究成果的可信度下降,影響成果發(fā)表的水平和檔次。隨著醫(yī)療信息化的進(jìn)一步完善,國內(nèi)現(xiàn)在各大醫(yī)療機(jī)構(gòu)、科研單位存在海量電子化臨床數(shù)據(jù),由于缺乏專業(yè)的數(shù)據(jù)挖掘和數(shù)據(jù)分析的知識與技術(shù),且受到傳統(tǒng)研究思維所局限,很多醫(yī)學(xué)研究者沒有意識到這些海量臨床數(shù)據(jù)的潛在價(jià)值。本文基于以上臨床醫(yī)學(xué)研究存在的問題和需求分析,設(shè)計(jì)了一個(gè)面向各類醫(yī)療機(jī)構(gòu)、醫(yī)學(xué)科研單位的基于數(shù)據(jù)挖掘的臨床醫(yī)學(xué)研究系統(tǒng)。通過該系統(tǒng),能夠?yàn)椴皇煜?fù)雜統(tǒng)計(jì)知識和數(shù)據(jù)挖掘技術(shù)的醫(yī)學(xué)工作者帶來了更多的研究線索與思路,同時(shí)也能夠加快實(shí)驗(yàn)設(shè)計(jì)與分析,高質(zhì)量的利用各類海量的研究數(shù)據(jù),進(jìn)而節(jié)省下大量研究成本,預(yù)期有良好的應(yīng)用前景。
1實(shí)驗(yàn)系統(tǒng)設(shè)計(jì)
臨床醫(yī)學(xué)研究的基本方法是“三要素”、“四原則”[3]?!叭亍笔侵秆芯咳巳?、處理因素和觀察結(jié)果,“四原則”是指要求研究設(shè)計(jì)滿足隨機(jī)、對照、重復(fù)和均衡的原則?;谏衔膶Ξ?dāng)前臨床醫(yī)學(xué)研究存在問題和需求的分析,本文設(shè)計(jì)了如圖1所示的系統(tǒng)框架。
圖1 基于數(shù)據(jù)挖掘的臨床醫(yī)學(xué)研究系統(tǒng)功能框架
按照臨床科學(xué)研究的普遍需求,系統(tǒng)的功能劃分為五個(gè)模塊:①分布研究,即研究臨床數(shù)據(jù)的客觀分布。主要使用的數(shù)據(jù)挖掘技術(shù)是聚類分析,具體設(shè)計(jì)為:聚類檢驗(yàn)和聚類疾病。②關(guān)系研究,即研究事物之間的關(guān)聯(lián)關(guān)系,以及變量之間的影響關(guān)系。主要使用的數(shù)據(jù)挖掘技術(shù)是關(guān)聯(lián)規(guī)則挖掘,具體設(shè)計(jì)為:合并癥關(guān)聯(lián)規(guī)則、檢驗(yàn)因子權(quán)重及疾病因子權(quán)重。③預(yù)測研究,即根據(jù)有限的數(shù)據(jù)集推測目標(biāo)變量的未知值。主要使用的數(shù)據(jù)挖掘技術(shù)是分類預(yù)測和回歸預(yù)測,具體設(shè)計(jì)為:指標(biāo)預(yù)測及疾病預(yù)測。④異常研究,即研究由高維變量表達(dá)的事物的離群個(gè)案。主要使用的數(shù)據(jù)挖掘技術(shù)是異常偵測,具體設(shè)計(jì)為:多維指標(biāo)負(fù)向異常點(diǎn)偵測和多維指標(biāo)正向異常點(diǎn)偵測。⑤特征研究,即研究由高維變量表達(dá)的事物的主題特征。主要使用的數(shù)據(jù)挖掘技術(shù)是特征抽取,具體設(shè)計(jì)為:合并癥特征抽取。
2系統(tǒng)應(yīng)用及結(jié)果
2.1基于數(shù)據(jù)挖掘技術(shù)的應(yīng)用
2.1.1疾病聚類分析
主要用于對各類疾病/慢病在年齡、性別和其他一些常見個(gè)體屬性特征上的聚類分析,發(fā)現(xiàn)各種疾病不同的年齡、性別和其他一些常見個(gè)體屬性特征;用于對各類疾病/慢病在其相關(guān)的各種生理指標(biāo)上進(jìn)行聚類分析,研究各種疾病相關(guān)生理指標(biāo)的分布。
2.1.2疾病關(guān)聯(lián)分析
用于對各類疾病在各種合并癥上進(jìn)行關(guān)聯(lián)規(guī)則分析,分析發(fā)生某一合并癥的條件下發(fā)生另一種合并癥的概率;用于對各類慢病在各種風(fēng)險(xiǎn)因素上進(jìn)行關(guān)聯(lián)規(guī)則分析,探索慢病危險(xiǎn)因素的關(guān)聯(lián)關(guān)系和因果關(guān)系。
2.1.3疾病分類/回歸預(yù)測分析
用于挖掘疾病中多變量的高維數(shù)學(xué)模型,探索疾病的顯示或非顯示回歸模型,并進(jìn)行驗(yàn)證與評估,從而揭示疾病內(nèi)在規(guī)律;用于訓(xùn)練慢病分類預(yù)測模型,從數(shù)據(jù)挖掘角度完成先預(yù)測,再探索內(nèi)在規(guī)律的臨床醫(yī)學(xué)研究新思路。
2.1.4疾病異常偵測分析
用于在各類疾病高維變量中挖掘離群點(diǎn),探索疾病特殊病例的特征和規(guī)律等。
2.1.5疾病特征抽取分析
用于對各類疾病最可能發(fā)生的多種合并癥模型進(jìn)行特征提取分析,研究模型中各種合并癥分量間的權(quán)重和關(guān)系,抽取特征。
2.2系統(tǒng)評價(jià)方法
為了保證數(shù)據(jù)挖掘系統(tǒng)的可用性,對其進(jìn)行評價(jià)非常重要,其中運(yùn)用統(tǒng)計(jì)學(xué)進(jìn)行驗(yàn)證是一個(gè)實(shí)踐證明很有效的方法。針對不同的數(shù)據(jù)挖掘技術(shù),有相應(yīng)的評價(jià)方法[4]。
關(guān)聯(lián)規(guī)則是形如X->Y的蘊(yùn)涵表達(dá)式,其中X和Y是不相交的項(xiàng)集,即X∩Y=?。支持度(s)確定規(guī)則可以用于給定數(shù)據(jù)集的頻繁程度,置信度(c)確定Y在包含X的事務(wù)中出現(xiàn)的頻繁程度,提升度(lift)是為了解決置信度度量忽略了規(guī)則后件中出現(xiàn)的項(xiàng)集的支持度而在某些高置信度下產(chǎn)生的誤導(dǎo)。定義形式如下:
s(X->Y)=σ(X∪Y)/N
c(X->Y)=σ(X∪Y)/σ(X)
lift(X->Y)=c(X->Y)/s(Y)
其中,σ(X)表示項(xiàng)集X的支持度計(jì)數(shù)。
在評價(jià)關(guān)聯(lián)規(guī)則是否有價(jià)值時(shí),我們通??紤]以下幾種統(tǒng)計(jì)指標(biāo):①具有高支持度、高置信度、高提升度的規(guī)則:高支持度說明關(guān)聯(lián)規(guī)則的前后件的相關(guān)現(xiàn)象很普遍,高置信度表示規(guī)則的可信度高,是強(qiáng)關(guān)聯(lián)規(guī)則,高提升度是大量事件隨機(jī)產(chǎn)生的強(qiáng)規(guī)則。②具有低支持度、高置信度、高提升度的規(guī)則:低支持度表示發(fā)生這種現(xiàn)象的實(shí)例數(shù)量少,高置信度表示規(guī)則有高可信度,該情況說明挖掘到的關(guān)聯(lián)規(guī)則可能是某種平時(shí)靠小數(shù)據(jù)樣本和個(gè)人醫(yī)學(xué)工作者無法察覺的現(xiàn)象。這種情況下需要根據(jù)專業(yè)知識和經(jīng)驗(yàn)設(shè)置一個(gè)可接受的最低支持度閾值。
2.3疾病關(guān)聯(lián)規(guī)則應(yīng)用實(shí)現(xiàn)結(jié)果
在臨床醫(yī)學(xué)研究中,很多情況下需要做有關(guān)病因?qū)W方面的研究,如某種合并癥是否是導(dǎo)致另一種合并癥的誘因。數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則挖掘技術(shù)正好適合這類研究需求。關(guān)聯(lián)規(guī)則技術(shù)最大特點(diǎn)就是,從大量的隨機(jī)并發(fā)事件中,找到強(qiáng)關(guān)聯(lián)的規(guī)則,即在某件事發(fā)生的前提下,另一件事發(fā)生具有很高的概率。例如通過來源于四川某三甲醫(yī)院的數(shù)據(jù),在系統(tǒng)中設(shè)置數(shù)據(jù)預(yù)處理?xiàng)l件,如性別、年齡和疾病名稱等,篩選出一組心絞痛病人共1908例。采用關(guān)聯(lián)規(guī)則的挖掘方法,判定這1908例病患不同合并癥之間的聯(lián)系,結(jié)果如表1所示。
表1中的關(guān)聯(lián)規(guī)則挖掘結(jié)果只選取了提升度大于1的前10個(gè),并且按置信度降序排列。其中,支持度表示事件發(fā)生的概率,置信度表示前件發(fā)生時(shí),后件發(fā)生的概率,提升度大于1的規(guī)則能更好預(yù)測結(jié)果,而不是基于數(shù)據(jù)中的頻繁程度猜測結(jié)果項(xiàng)是否會出現(xiàn)。第1條規(guī)則說明,患有不穩(wěn)定心絞痛的病人,在出現(xiàn)非胰島素依賴型糖尿病的情況下,發(fā)生冠狀動(dòng)脈粥樣硬化性心臟病的概率為0.9201。通常,支持度在0.1至0.2之間比較有參考意義,表中大部分支持度小于0.1,是因?yàn)樾慕g痛病的合并癥維度非常大,造成數(shù)據(jù)矩陣稀疏。因此,要挖掘出更有研究價(jià)值的關(guān)聯(lián)規(guī)則,需要由醫(yī)學(xué)專業(yè)的研究人員根據(jù)專業(yè)知識,制訂一些規(guī)則對數(shù)據(jù)進(jìn)行預(yù)處理,包括但不限于降維等操作。
從表1中可以看出,第1條規(guī)則的置信度為0.9201,說明這條規(guī)則的可信度較高。支持度為0.1106,說明在出現(xiàn)非胰島素依賴型糖尿病的情況下,發(fā)生冠狀動(dòng)脈粥樣硬化性心臟病的案例較為普遍。提升度為1.7764,說明此規(guī)則具有較好的實(shí)際意義。
表1 某三甲醫(yī)院按條件篩選后心絞痛病人關(guān)聯(lián)分析結(jié)果
通過對基于數(shù)據(jù)挖掘的臨床醫(yī)學(xué)研究系統(tǒng)在實(shí)際應(yīng)用中的觀察和總結(jié),我們得出如下結(jié)論:①更多的研究工作收益。通過基于數(shù)據(jù)挖掘的大數(shù)據(jù)分析探索工具,帶來了更多的研究線索與思路,科研立題更加廣泛和新穎,并且提供了更多的分析手段?;谏鲜鰞?yōu)點(diǎn),醫(yī)學(xué)工作者可以申請到更多的國家級和省市級課題,最終獲得的成果和論文也將成倍增長。②更快的研究工作進(jìn)程。由于系統(tǒng)提供了試驗(yàn)數(shù)據(jù)與數(shù)據(jù)挖掘統(tǒng)計(jì)分析工具的高度集成,因此,各種預(yù)實(shí)驗(yàn)可以隨時(shí)、大量、反復(fù)地進(jìn)行,進(jìn)而各類研究試驗(yàn)工作可以更快、更好地完成。③更好的研究質(zhì)量和研究水平。該系統(tǒng)是基于當(dāng)今熱門的大數(shù)據(jù)領(lǐng)域——數(shù)據(jù)挖掘技術(shù)設(shè)計(jì)開發(fā),突破了傳統(tǒng)醫(yī)學(xué)研究手段,使高層次的臨床醫(yī)學(xué)研究更易于普及,也大大增加了醫(yī)學(xué)工作者重大科研發(fā)現(xiàn)的可能性。④更省研究成本。實(shí)踐表明,一個(gè)完善的基于數(shù)據(jù)挖掘的臨床醫(yī)學(xué)研究系統(tǒng),能為醫(yī)院等科研機(jī)構(gòu)節(jié)約很大一部分研究成本。這是因?yàn)橥晟频南到y(tǒng)功能以及強(qiáng)大的數(shù)據(jù)處理能力,首先從人力成本上就省下不少一筆開支。
本研究還需充分考慮臨床數(shù)據(jù)高緯度特性可能會導(dǎo)致部分?jǐn)?shù)據(jù)挖掘算法效率較低,從而限制數(shù)據(jù)挖掘技術(shù)和算法在醫(yī)學(xué)研究領(lǐng)域的實(shí)用性,今后將在此方面進(jìn)行深入研究,更好地為醫(yī)務(wù)工作者的臨床和研究工作提供服務(wù)。
參考文獻(xiàn)
1熊國強(qiáng),鄧瑞姣. 醫(yī)學(xué)科研中假設(shè)的形成及其檢驗(yàn)[J]. 醫(yī)學(xué)臨床研究, 2000, 17(1): 47-50.
2周達(dá)生. 臨床醫(yī)學(xué)科研中數(shù)學(xué)模型的應(yīng)用[J]. 現(xiàn)代醫(yī)學(xué), 1983, (6): 7-11.
3胡良平. 實(shí)驗(yàn)設(shè)計(jì)的三要素和四原則[J]. 中華醫(yī)學(xué)信息導(dǎo)報(bào), 2003, 18(8): 18-18.
4Pang-Ning Tan, Michael Steinbach and Vipin Kumar.數(shù)據(jù)挖掘?qū)д揫M]. 北京: 人民郵電出版社, 2011, 228-230.
Design and implementation of clinical medical research system based on data mining
Wang Yi-fu, Li Chuan△
(College of Computer Science, Sichuan University, Sichuan Chengdu 610065)
Abstract:Through the analysis of the present situation and problems of the traditional clinical research methods, we understand the requirements of the clinical research of data mining, and then propose the design of the clinical medical research system based on data mining. Next in this paper, we propose the evaluation method for the system, finally, summarize the application value of the clinical medical research system based on data mining.
Key Words:Data Mining; Clinical Medicine; Medical Research System
作者簡介:王逸夫,男,碩士研究生,主要從事數(shù)據(jù)挖掘應(yīng)用,醫(yī)療大數(shù)據(jù),Email:JonathanWang@163.com。 △通信作者:李川,男,副教授,主要從事信息網(wǎng)絡(luò),圖數(shù)據(jù)挖掘,Email:lcharles@scu.edu.cn。
(收稿日期:2016-3-25)