• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于數(shù)據(jù)挖掘的疾病分類預(yù)測模型的構(gòu)建

    2019-05-24 14:13:16李榮華張燕黃俊黃程成莫盡友
    電腦知識與技術(shù) 2019年11期
    關(guān)鍵詞:數(shù)據(jù)挖掘

    李榮華 張燕 黃俊 黃程成 莫盡友

    摘要:隨著醫(yī)院信息系統(tǒng)(HIS)在全國各大醫(yī)院的推廣和應(yīng)用,會有大量和病人相關(guān)的臨床數(shù)據(jù)每天在醫(yī)院中記錄,而這些真實的數(shù)據(jù)隨著規(guī)模積累的增加,存在著對病人和醫(yī)生來說潛在、有價值的信息作用也會越來越大。本文會根據(jù)醫(yī)院信息系統(tǒng)(HIS),通過決策樹算法,針對疾病診斷的影響因子進行預(yù)測分析,得出一個有效幫助診斷的分析模型,通過一段時間論證分析,該模型會在臨床應(yīng)用中有一定的指導作用。

    關(guān)鍵詞:數(shù)據(jù)挖掘;疾病分類;醫(yī)療大數(shù)據(jù);決策樹算法

    中圖分類號:TP391.5 文獻標識碼:A

    文章編號:1009-3044(2019)011-0004-02

    1 引言

    在醫(yī)療行業(yè),隨著醫(yī)院信息系統(tǒng) (HIS) 在全國各大醫(yī)院的逐步推廣和應(yīng)用,醫(yī)院每天產(chǎn)生大量與患者相關(guān)的臨床數(shù)據(jù), 這些數(shù)據(jù)的規(guī)模越來越大[1],而在這些真實的數(shù)據(jù)中有很多潛在的和有價值的信息,為患者和醫(yī)生。

    有效利用這些真實的臨床數(shù)據(jù),尋找一些有價值的規(guī)律和信息,對于患者的治療和醫(yī)生的診斷是非常重要的。它不僅可以有效地輔助醫(yī)生的診斷、決策和治療,而且可以提高醫(yī)生的工作效率,從而提高醫(yī)院醫(yī)療服務(wù)的質(zhì)量和競爭。個人健康數(shù)據(jù)、醫(yī)療數(shù)據(jù)、人口健康數(shù)據(jù)。在個人健康數(shù)據(jù)方面,數(shù)據(jù)源主要是傳感器信息和在線信息。使用個人疾病數(shù)據(jù)可以幫助用戶更容易地實現(xiàn)健康管理和疾病管理。處理個人飲食和運動數(shù)據(jù)可以幫助用戶直觀地了解他們的身體狀況,并幫助他們保持健康。在醫(yī)學數(shù)據(jù)方面,數(shù)據(jù)源主要是醫(yī)學研究數(shù)據(jù)和電子案例數(shù)據(jù)。醫(yī)生無法跟上從這些數(shù)據(jù)中發(fā)現(xiàn)新的醫(yī)學知識并將其用于治療病人的速度, 而醫(yī)學可視化將為醫(yī)生提供直觀地理解新知識的機會。人口健康數(shù)據(jù)和疾病監(jiān)測數(shù)據(jù)可以幫助用戶了解人口的健康狀況和疾病爆發(fā)狀態(tài)通過可視化技術(shù) 。

    總之,如何有效地利用這些真實的臨床數(shù)據(jù),并從中發(fā)現(xiàn)一些對病人治療和醫(yī)生診斷有價值的規(guī)律和信息十分關(guān)鍵,也是當前醫(yī)學信息處理研究中一個亟待解決的難題。上述問題的解決不僅能有效地輔助醫(yī)生診斷、決策和治療,提高醫(yī)生的工作效率,進而提高醫(yī)院的醫(yī)療服務(wù)質(zhì)量和競爭力。

    2 相關(guān)內(nèi)容簡介

    2.1研究背景

    傳統(tǒng)醫(yī)生在診斷疾病預(yù)先通過對病人的基本情況的了解,包括病人年齡、狀態(tài)及一些基本的身體數(shù)據(jù)。然后根據(jù)以往的經(jīng)驗對病人的病況進行分析并得出病人所患病型,然后對病人進行治療。若根據(jù)這些醫(yī)生仍然不能得出病況,或者病人在醫(yī)生初步治療后仍無明顯好轉(zhuǎn),則需要讓病人借助各種醫(yī)學儀器及影像檢驗從而產(chǎn)生跟家準確詳細的數(shù)據(jù)然后醫(yī)生利用這些數(shù)據(jù)并根據(jù)自己的經(jīng)驗及醫(yī)學知識診斷出病人的病情并開出相應(yīng)的藥物。在這個工作過程的中,醫(yī)生的大腦就相當于一個計算機,而醫(yī)生做出的判斷則相當于一系列算法及數(shù)據(jù)挖掘得出的結(jié)論。然而人腦的工作效率遠不能和計算機相比,且只要計算機采用的算法足夠好,人腦的計算準確率也不遠低于計算機處理的準確率。因此,傳統(tǒng)醫(yī)生的診斷方法在現(xiàn)在看來已經(jīng)具有一定的局限性,若能將這些病人的數(shù)據(jù)都交由計算機處理并結(jié)合醫(yī)生的醫(yī)學知識得出最后的病人的病情,這樣便大大增加了醫(yī)生的工作效率及診斷準確率。

    若醫(yī)院已經(jīng)建立并投入使用醫(yī)療大數(shù)據(jù)挖掘分析系統(tǒng),將患者的所有數(shù)據(jù)錄入大數(shù)據(jù)系統(tǒng),醫(yī)生在診斷疾病和給出治療方案時,因為大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)來自各種各樣,成千上萬或上百萬上千萬的病人,醫(yī)生即可以通過決策樹、K-鄰近等數(shù)據(jù)挖掘分析算法,獲得類似癥狀或疾病機理,病因以及治療方法,醫(yī)生就可以有更好更高的把握將疾病診斷和治療。

    2.2決策樹算法簡介

    決策樹算法是數(shù)據(jù)挖掘技術(shù)中一種常用的分類預(yù)測方法 .該算法以研究對象的屬性為基礎(chǔ),根據(jù)信息論的原理,通過多次遞歸的方式選擇信息增益量最大的屬性來作為決策樹的當前節(jié)點(即最佳節(jié)點),在決策樹的構(gòu)建中,已經(jīng)使用過的屬性在決策樹不能再作為節(jié)點來使用,即研究對象的每個屬性在決策樹種當且僅當出現(xiàn)有一次。在構(gòu)建決議計劃樹的進程中,遞歸進程有三種終止情形[2]:

    當前節(jié)點對應(yīng)的所有研究對象都屬于同一類別。

    沒有剩余屬性被用來進一步對當前研究對象進行分類。

    對應(yīng)于當前節(jié)點的屬性值的研究對象數(shù)為 0。

    目前建立決策樹的主要算法有 ID3 、 C4.5/car 等方法。ID3 學習算法是基于信息熵的下降和熟悉度 (也稱為信息不確定性) 作為選擇測試的標準 。C4.5 算法是由昆蘭自己提出的擴大算法[3],是對算法的改良。C4.5 算法在收到新的訓練示例后更新決策樹。分類回歸樹車是典型的二叉樹,主要用于分類研究。連續(xù)變量和分類變量可以同時處理 。

    2.3研究方法

    2.3.1 研究過程

    構(gòu)建一個分類預(yù)測模型來解決實際的胸痛待診問題。該模型由三個子模塊組成:第一個子模塊主要作用是收集患者的基本信息數(shù)據(jù)(包括人口學資料、臨床發(fā)病癥狀、危險因素、既往病史)。第二個子模塊是分類算法-K 近鄰和決策樹兩種常用的數(shù)據(jù)挖掘。通過算法進行比較而得出適合與某一疾病的最優(yōu)算法,從而提高模型的整體性能。通過病人在醫(yī)院的醫(yī)治方案、并發(fā)癥、用藥得到的數(shù)據(jù)來預(yù)測病人出院后會不會發(fā)生嚴重的不良反應(yīng)。模型預(yù)測流程圖如圖1所示。

    1) 預(yù)處理數(shù)據(jù),如清洗、校正和缺失值填充;

    2) 根據(jù)病人信息建筑決策樹。添加病人檢驗檢測數(shù)據(jù),用LASSO(Least absolute shrinkage and selection operator, LASSO)算法篩選特征向量為接下來建模做準備[4];3) 構(gòu)建了主動脈夾層分類的子模型 (包括 K 近鄰、決策樹兩種分類算法);

    4)比較兩種分類算法,得到最適合主動脈夾層分類的算法模型;

    5)在醫(yī)院添加治療數(shù)據(jù)后,采用 LASSO 算法對特征向量進行篩選,建立患者出院恢復(fù)狀態(tài)的子模型。

    2.3.1數(shù)據(jù)準備

    本文所使用的數(shù)據(jù)來自醫(yī)院體檢系統(tǒng)的經(jīng)驗報告數(shù)據(jù)。在對疾病診斷數(shù)據(jù)進行匯總和數(shù)據(jù)泛化分析后,將疾病診斷數(shù)據(jù)進行匯總,并采用概念層次結(jié)構(gòu)將低級 “原始” 數(shù)據(jù)替換為高級概念。分析處理后數(shù)據(jù)主要包含15共15種疾病診斷,總共有6131個體檢報告實例,我們把每個實例的體檢項目作為這些實例的屬性,共有261個檢查項目如表1所示。

    2.3.2分類方法

    根據(jù)每個屬性的不同值的數(shù)量,屬性按降序排列。其結(jié)果如下(每個屬性的不同值數(shù)目在括號中):疾病診斷分類(17)、檢查項目(261)、檢查項目明細(3602)。根據(jù)排列順序,層從上到下生成,第一個是熟悉頂層 ,最后一個屬性是在底層[5]。結(jié)果分析如圖2所示。最后,用戶可以檢查結(jié)果分層,如果需要,修改它以反映所需屬性滿足的連接。在這個例子中,顯然不需要修改產(chǎn)生的分層。

    對于單列屬性的二進制拆分,選擇最小的 gtil 作為屬性列的合理劃分。而選擇作為節(jié)點的屬性列也要根據(jù)最小的Gini指標判斷,其中Gini指標是一種不等性的度量,可以用來度量任何不均勻分布,是介于0-1之間的數(shù);下面的算法根據(jù) Gini 指標實現(xiàn)二進制拆分時,選擇屬性項的真正子集。通過系統(tǒng)計算出各個屬性值分布和總樣本中各個屬性取值分,得出相應(yīng)的治療意見,如針對本肥胖病人的治療選擇,根據(jù)訓練樣本中肥胖病人的檢查情況,發(fā)現(xiàn)需要治療的數(shù)量小于不需要治療的數(shù)量;需要進一步檢查的數(shù)量大于不應(yīng)進一步檢查的數(shù)量。經(jīng)計算機預(yù)測的結(jié)果由總督察協(xié)助提供更合理的治療意見 。

    3 總結(jié)

    3.1要解決的主要問題

    3.1.1如何從大量的積累數(shù)據(jù)中得到有意義的信息

    醫(yī)院電子病歷 EMRs (電子病歷) 有更多的數(shù)據(jù)類型 ,免費文本記錄從病人測試報告到電子病程[7], 這些數(shù)據(jù)構(gòu)成了構(gòu)建分類預(yù)測模型所需的變量。病人住院期間所積累的數(shù)據(jù)信息量大,需要從大量的積累數(shù)據(jù)中去除噪聲數(shù)據(jù)[8]以及對缺失值進行適當?shù)奶幚?,得到有意義的信息。

    3.1.2如何選擇許多特征變量

    由于不同的疾病對應(yīng)的危險因素不同,所以不能對整體數(shù)據(jù)集應(yīng)用特征變量選擇方法來篩選特征向量,而是選擇出具體某一種疾病的對應(yīng)的重要特征來建立針對該疾病的分類模型。

    對特征變量進行降維的方法有很多。其中嶺回歸和LASSO分析是最可用的。

    3.1.2如何處理樣本不均衡問題

    例如,對于非創(chuàng)傷性胸痛疾病,主要類別是急性心肌梗死、心絞痛、主動脈夾層等。不同類別的樣本量存在較大差異,數(shù)據(jù)不平衡導致模型分類預(yù)測的偏差。

    針對具體疾病,如何對多種分類算法進行比較并選出合適的算法 。

    數(shù)據(jù)挖掘技術(shù)中的分類算法有 K 近鄰、樸素貝葉斯、支持向量機、決策樹、隨機森林等。每種分類算法的優(yōu)缺點不同,適應(yīng)的數(shù)據(jù)類型也不同。針對具體疾病,每種分類算法表現(xiàn)各不相同。分類猜測模子評價指數(shù)成果的優(yōu)勢直接影響算法的選擇。

    3.2結(jié)論與展望

    本文根據(jù)醫(yī)院HIS數(shù)據(jù),通過決策樹算法,針對疾病診斷的影響因子進行分析預(yù)測,提出一個有效的輔助診斷分析模型,經(jīng)過時間論證分析,該模型在臨床應(yīng)用上有一定的指導作用。今后,有必要對 HIS 中包含的醫(yī)學數(shù)據(jù)進行深入的研究, 并應(yīng)用決議計劃樹剖析算法構(gòu)建醫(yī)學數(shù)據(jù)卷的聯(lián)系關(guān)系規(guī)矩,樹立了完美的數(shù)據(jù)剖析平臺。

    參考文獻:

    [1]李奮華, 趙潤林. 基于數(shù)據(jù)挖掘的疾病預(yù)測模型的構(gòu)建與分析[J]. 現(xiàn)代計算機, 2016(18):14-17.

    [2] 滕皓, 趙國毅, 韓保勝. 改進決策樹的研究[J]. 濟南大學學報(自然科學版), 2002, 16(3):231-233.

    [3] 劉承啟, 黃學堅, 徐健鋒,等. 基于決策樹和粗糙集的高分辨率短時臨近雷電預(yù)報模型[J]. 南昌大學學報(理科版), 2014(6):559-563.

    [4] 趙紫奉, 李韶斌, 孔抗美. 基于決策樹算法的疾病診斷分析[J]. 中國衛(wèi)生信息管理雜志, 2011, 08(5):67-69.

    [5] 萬曉莉. 數(shù)據(jù)挖掘中的分類和預(yù)測及其在決策支持系統(tǒng)中的應(yīng)用研究[D]. 西南交通大學, 2003.

    [6] 馬麗, 陳桂芬. 基于數(shù)據(jù)挖掘的決策樹算法應(yīng)用研究[J]. 農(nóng)業(yè)網(wǎng)絡(luò)信息, 2008(11):45-47.

    [7] 鄭西川, 孫宇, 陳霆,等. 基于醫(yī)療大數(shù)據(jù)分析的臨床電子病歷智能化研究[J]. 中國數(shù)字醫(yī)學, 2016, 11(11):61-64.

    [8] 馬秀紅, 宋建社, 董晟飛. 數(shù)據(jù)挖掘中決策樹的探討[J]. 計算機工程與應(yīng)用, 2004, 40(1):185-185.

    【通聯(lián)編輯:聞翔軍】

    猜你喜歡
    數(shù)據(jù)挖掘
    基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
    探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
    數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
    基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
    電力與能源(2017年6期)2017-05-14 06:19:37
    數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
    一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
    數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
    數(shù)據(jù)挖掘的分析與探索
    河南科技(2014年23期)2014-02-27 14:18:43
    基于GPGPU的離散數(shù)據(jù)挖掘研究
    利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
    邹平县| 黄骅市| 浦北县| 龙口市| 霍林郭勒市| 克拉玛依市| 桃源县| 博乐市| 青州市| 鹤庆县| 古丈县| 上犹县| 无为县| 太原市| 乌海市| 元阳县| 武胜县| 桓台县| 通化县| 潞西市| 星座| 鹿邑县| 铁岭市| 道孚县| 广水市| 铁岭县| 凉城县| 河源市| 南京市| 平罗县| 长垣县| 长武县| 嘉祥县| 商洛市| 临湘市| 昆明市| 会泽县| 武威市| 龙游县| 胶南市| 页游|