葉章輝
關(guān)鍵詞:醫(yī)療數(shù)據(jù)挖掘;數(shù)據(jù)加工;缺失值;異常值;非量化數(shù)值
1醫(yī)療數(shù)據(jù)挖掘的意義和價值
隨著信息技術(shù)的高速發(fā)展,醫(yī)學(xué)領(lǐng)域信息化越來越受到重視。如何利用信息技術(shù)更好地為醫(yī)學(xué)實踐和醫(yī)學(xué)研究服務(wù),受到越來越廣泛的關(guān)注。醫(yī)學(xué)信息以數(shù)據(jù)的形式存儲,如基因序列、電子病歷、臨床用藥、醫(yī)學(xué)影像以及臨床檢查檢驗等每天都產(chǎn)生海量的數(shù)據(jù)信息[1-2]。有人將大數(shù)據(jù)比作“原油”,而數(shù)據(jù)挖掘則是大數(shù)據(jù)應(yīng)用的核心。安全合理地利用醫(yī)學(xué)大數(shù)據(jù)資源,可以為臨床提供輔助診斷,拓展科研思路,提高科研效率和強化醫(yī)院數(shù)據(jù)治理能力,甚至能夠提高人類的健康水平[3-4]。然而,醫(yī)療數(shù)據(jù)的來源多樣,從而導(dǎo)致對數(shù)據(jù)進行加工和處理的需求存在差異。如何基于業(yè)務(wù)需求,拆解問題,發(fā)現(xiàn)問題本質(zhì),選擇合適的數(shù)據(jù)加工處理方法,需要不斷積累經(jīng)驗。將醫(yī)學(xué)問題轉(zhuǎn)化為數(shù)學(xué)問題,利用數(shù)據(jù)模型來解決醫(yī)療數(shù)據(jù)挖掘的需求,是一項重要的工作[5]。
2醫(yī)療數(shù)據(jù)類型的定義和常見數(shù)據(jù)質(zhì)量問題
本文采用中國真實世界數(shù)據(jù)與研究聯(lián)盟(China?REAL)[6]制定的既有健康醫(yī)療數(shù)據(jù)的定義,對醫(yī)療數(shù)據(jù)進行了劃分。既有健康醫(yī)療數(shù)據(jù)是指基于醫(yī)療管理決策和醫(yī)院各科室正常運行而收集的醫(yī)療數(shù)據(jù),與針對特定研究目標(biāo)而收集的醫(yī)療數(shù)據(jù)不同。這類數(shù)據(jù)包括醫(yī)院的實驗室信息系統(tǒng)數(shù)據(jù)、電子病例數(shù)據(jù)、體檢中心數(shù)據(jù)和醫(yī)保理賠數(shù)據(jù)等,通常由醫(yī)療機構(gòu)在日常運營過程中積累而來。而基于特定研究目的而設(shè)計的實驗數(shù)據(jù),則遵循預(yù)先設(shè)定的方案,這些數(shù)據(jù)與既有健康醫(yī)療數(shù)據(jù)有所不同,因為這些數(shù)據(jù)的收集過程通常受到研究目標(biāo)所指導(dǎo),被劃分為非既有健康醫(yī)療數(shù)據(jù)。
從既有健康醫(yī)療數(shù)據(jù)的定義可以看出,該類數(shù)據(jù)在收集過程中缺乏明確的數(shù)據(jù)收集規(guī)則,因此其數(shù)據(jù)質(zhì)量和可用性難以得到保證。在使用過程中會面臨諸多問題和挑戰(zhàn)。
1)異構(gòu)性和多樣性:不同醫(yī)療機構(gòu)積累的數(shù)據(jù)可能具有不同的格式、結(jié)構(gòu)和標(biāo)準(zhǔn),這使得數(shù)據(jù)的整合和分析變得復(fù)雜。醫(yī)療數(shù)據(jù)的異構(gòu)性和多樣性需要采用適當(dāng)?shù)臄?shù)據(jù)標(biāo)準(zhǔn)化和清洗方法進行處理。
2)非結(jié)構(gòu)化的數(shù)據(jù):一些重要的醫(yī)療數(shù)據(jù),如醫(yī)療影像數(shù)據(jù)通常以非結(jié)構(gòu)化形式保存,這增加了數(shù)據(jù)加工處理和分析的復(fù)雜性。例如,心電圖、CT掃描圖像和核磁共振圖像等需要圖像處理技術(shù)。
3)數(shù)據(jù)的缺失:原始數(shù)據(jù)在收集和存儲過程中未設(shè)定明確的收集規(guī)則,因此在既有健康數(shù)據(jù)集中容易出現(xiàn)數(shù)據(jù)缺失情況。例如,患者未提供個人信息、技術(shù)故障導(dǎo)致信息丟失、樣本的損失導(dǎo)致數(shù)據(jù)缺失。
4)噪聲異常數(shù)據(jù):在數(shù)據(jù)采集和記錄過程中可能受到干擾或誤差,導(dǎo)致生成噪聲異常數(shù)據(jù)。例如,儀器故障導(dǎo)致誤差、環(huán)境干擾或人為失誤產(chǎn)生的異常數(shù)據(jù)。
對既有健康醫(yī)療數(shù)據(jù)進行挖掘分析存在諸多挑戰(zhàn)。為了有效地研究這些數(shù)據(jù),通常需要建立專業(yè)的研究團隊,明確定研究目標(biāo),并最終以符合臨床研究需求的方式進行醫(yī)學(xué)數(shù)據(jù)挖掘[7]。數(shù)據(jù)工程師負(fù)責(zé)數(shù)據(jù)的收集和處理,合理高效的數(shù)據(jù)加工處理方法將對研究結(jié)果的可靠性和準(zhǔn)確性產(chǎn)生重大影響。本文接下來主要介紹醫(yī)療數(shù)據(jù)挖掘場景下的數(shù)據(jù)加工處理方法。
3數(shù)據(jù)加工處理方法
基于既有健康醫(yī)療數(shù)據(jù)進行研究時,數(shù)據(jù)質(zhì)量難以得到保證,可能存在數(shù)據(jù)缺失和錯誤等情況。因此,在進行數(shù)據(jù)分析之前,需要對原始數(shù)據(jù)進行加工處理。本文主要介紹了3種主要數(shù)據(jù)加工處理方法,包括缺失值處理、異常值識別和非量化數(shù)值處理。
3.1缺失值處理
從數(shù)據(jù)庫中提取原始數(shù)據(jù)時,由于數(shù)據(jù)為既有醫(yī)療數(shù)據(jù),數(shù)據(jù)記錄時并沒有確切的規(guī)劃,記錄過程中可能存在數(shù)據(jù)信息缺失的情況。例如在對糖耐量異常人群進行血糖分析時,可能存在部分患者的餐后血糖數(shù)據(jù)缺失。樣本數(shù)據(jù)的缺失可能導(dǎo)致數(shù)據(jù)統(tǒng)計分析結(jié)果存在偏差,所以在對數(shù)據(jù)進行分析時,需要對缺失的數(shù)據(jù)進行處理。以下介紹常規(guī)的缺失數(shù)據(jù)加工處理方法:
1)直接剔除。在研究項目中,如果樣本所缺失的數(shù)據(jù)為該研究中極為關(guān)鍵的研究變量數(shù)據(jù),則應(yīng)該直接對該樣本進行剔除處理。例如研究糖尿病患者出現(xiàn)動脈粥樣硬化性心血管疾病的演變過程,若一個樣本缺少患者的降壓藥使用情況,且患者的用藥情況直接影響研究的決定性變量分析,則該樣本不能滿足研究基本要求,需要從數(shù)據(jù)集中剔除。
2)用統(tǒng)計學(xué)指標(biāo)填補缺失值。在收集的樣本集中,每個指標(biāo)可能存在一定缺失率,但臨床研究經(jīng)驗表明,存在適度缺失是允許的,并且有可以容忍的缺失率閾值。如果指標(biāo)數(shù)據(jù)的缺失比例在設(shè)定閾值以內(nèi),可以結(jié)合臨床研究經(jīng)驗,采用統(tǒng)計學(xué)上的均值、中位數(shù)、極大值、極小值或者眾數(shù)中的一種取值來填補缺失值,該方案是一種被普遍采用的方法,常見于醫(yī)學(xué)研究。
3)用算法填補缺失值。通過算法實現(xiàn)缺失值的填充是一種相對復(fù)雜的方法,以協(xié)同過濾算法為例進行介紹。協(xié)同過濾算法[8]是一種常用于推薦領(lǐng)域的算法,該算法將個體的特征信息用向量形式表示,通過計算不同個體間的距離來評估相似度。定義越相似的個體,他們的指標(biāo)值也越相近。在進行缺失值填充時,可以通過計算識別出與存在缺失值的個體最相似的樣本集(該樣本集的指標(biāo)信息是完整的),然后通過取均值或最相似個體的相應(yīng)指標(biāo)值來替換缺失值。
4)直接不做處理。在臨床研究中,缺失值處理通常是必不可少的步驟,以便達(dá)到較好的分析效果。但在某些特殊情況下,即便不對缺失數(shù)據(jù)進行處理,對建模的效果也不會產(chǎn)生影響。例如在構(gòu)建隨機森林算法的疾病預(yù)測模型時,由于隨機森林算法的原理特性,其對特征數(shù)據(jù)的缺失值并不敏感,所以在建模過程中可以不進行缺失值處理。這種情況較為特殊,僅在特定條件下可作為可選的處理方案。
3.2異常值識別
異常值是指樣本中個別數(shù)值明顯偏離其所屬樣本的其余觀測值,也稱為異常數(shù)據(jù)或離群值。在統(tǒng)計分析和機器學(xué)習(xí)應(yīng)用中,異常值的檢測是非常重要的步驟。異常值如果不做處理,會導(dǎo)致該屬性的分布特性發(fā)生偏斜。同時異常值會嚴(yán)重影響數(shù)據(jù)集的均值和標(biāo)準(zhǔn)差,從而可能導(dǎo)致統(tǒng)計分析結(jié)果存在偏差或影響估計。本文主要介紹5種常用的異常值檢測方法:
1)領(lǐng)域經(jīng)驗?;趯I(yè)人員對樣本特征數(shù)據(jù)屬性的了解來判斷數(shù)據(jù)是否為異常值。例如分析正常人群的餐后血糖變化趨勢信息時,正常人的餐后兩小時血糖在3.9~7.8mmol/L范圍內(nèi),如果出現(xiàn)餐后兩小時血糖為22mmol/L,則可以通過經(jīng)驗判斷該患者屬于糖尿病患者的血糖數(shù)據(jù),不屬于正常人群,可認(rèn)定該數(shù)據(jù)為異常數(shù)據(jù)。
2)3σ(三西格瑪)準(zhǔn)則。3σ準(zhǔn)則又稱拉伊達(dá)準(zhǔn)則,在統(tǒng)計學(xué)中,標(biāo)準(zhǔn)差是衡量一組值變化量或離散度的度量,低標(biāo)準(zhǔn)差表示數(shù)據(jù)趨向于接近集合的平均值。在分析過程中,假設(shè)實驗數(shù)據(jù)總體服從正態(tài)分布,設(shè)μ表示該數(shù)據(jù)集的平均值,σ表示該數(shù)據(jù)集的標(biāo)準(zhǔn)差。
數(shù)值分布在(μ-σ,μ+σ)中的概率為0.6827;
數(shù)值分布在(μ-2σ,μ+2σ)中的概率為0.9545;
數(shù)值分布在(μ-3σ,μ+3σ)中的概率為0.9973。
在實際數(shù)據(jù)中出現(xiàn)大于μ+3σ或小于μ-3σ的數(shù)據(jù)概率是很小的,所以3σ準(zhǔn)則將超出該范圍的數(shù)據(jù)定義為異常值。
3)Z-Score(標(biāo)準(zhǔn)化數(shù)值法)。Z-Score是通過實測值與平均值的差再除以標(biāo)準(zhǔn)差的計算方式,如式(1)。
其中x為實測值,μ為平均值,σ為標(biāo)準(zhǔn)差。
Z值代表實測值與總體平均值之間的距離。該方法可以將兩組或多組數(shù)據(jù)轉(zhuǎn)化為無量綱的Z-score分值,提高數(shù)據(jù)的可比性,避免量綱差異對數(shù)據(jù)可比性的影響。例如在分析人群血糖數(shù)據(jù)時,既有空腹血糖數(shù)據(jù),也有餐后兩小時血糖數(shù)據(jù),要判斷某患者的空腹血糖和餐后兩小時血糖是否異常,由于兩個指標(biāo)的參考范圍不一致,無法直接對比,可通過計算兩個指標(biāo)對應(yīng)的Z-score數(shù)據(jù)來判斷這兩個樣本的異常程度。
4)三分之一極值判別法。文獻(xiàn)[9]中提到,異常值判斷基于樣本點之間的距離。參考公式(2),其中X(n)為數(shù)據(jù)集中最大值,X(n-1)為第二大值,X(1)為最小值。X(n)-X(1)表示數(shù)據(jù)集的最大間隔,如果最大值與其最近節(jié)點的間隔大于最大間隔的三分之一,則認(rèn)為這個最大值為異常值。
5)箱型圖異常值。箱型圖可展示樣本數(shù)據(jù)分布情況,包含數(shù)據(jù)集的四分位數(shù),基于四分位數(shù)可計算出異常取值的閾值信息。
計算方法:獲取數(shù)據(jù)集的四分位數(shù),得到Q1(25%分位數(shù)),Median(中位數(shù)),Q3(75%)分位數(shù)??缍热≈禐镼D=Q3-Q1。
lower則表示閾值下限,upper表示閾值上限。在異常值識別中,數(shù)據(jù)集中大于upper的和小于lower的數(shù)據(jù)被判定為異常值,如圖2所示。圖中最上方和最下方兩個節(jié)點為異常值節(jié)點,正T和倒T的橫線取值對應(yīng)閾值上限和下限,中間方框上中下三條橫線取值分別為Q3、Median和Q1。
3.3非量化數(shù)值處理
在基于既有健康醫(yī)療數(shù)據(jù)進行數(shù)據(jù)分析時,除了文本類型和圖像類型的數(shù)據(jù)外,大部分?jǐn)?shù)據(jù)都是數(shù)值型的,例如年齡、身高、體重等。這些量化數(shù)值可以方便直接進行統(tǒng)計分析和建模。而對于性別、尿蛋白、尿潛血、尿液顏色等指標(biāo),則采用非數(shù)值型的格式進行存儲。針對這類非數(shù)值型數(shù)據(jù),在進行處理時可以將其劃分為有量級區(qū)別和無量級區(qū)別兩種情況:
1)無量級區(qū)別的非量化數(shù)據(jù)。例如性別、尿液顏色、糞便顏色等,不同取值間只有類別的區(qū)別,沒有量級屬性。對于此類非量化數(shù)據(jù),可以采用獨熱碼(One-HotEncoding)的方式進行數(shù)值化處理。如在性別收集的數(shù)據(jù)中只有一個維度,可能在數(shù)據(jù)集中用1表示男性,2表示女性。如果不做處理直接進行均值計算,所得到的均值并無實際統(tǒng)計意義。所以在統(tǒng)計分析和建模時應(yīng)避免因賦值而對模型系數(shù)產(chǎn)生影響,通過獨熱碼處理,可以將性別數(shù)據(jù)轉(zhuǎn)化為兩個維度,如圖3所示。這樣可以避免特征標(biāo)簽數(shù)值對分析和建模產(chǎn)生影響。
2)有量級區(qū)別的非量化數(shù)據(jù)。以尿液檢查報告中的尿蛋白為例,在報告中以符號形式進行表征[-、±、+、++、+++],無法直接進行數(shù)值型分析和建模。此時可以依據(jù)臨床經(jīng)驗,對不同標(biāo)志進行相應(yīng)的數(shù)值轉(zhuǎn)化。尿蛋白的不同表征符號存在量級區(qū)別,[-]表示正常,未檢查到尿蛋白,后面依次表示所檢查的尿蛋白含量逐級增加。因此,可以通過設(shè)定合適的數(shù)值來替換對應(yīng)的符號信息。
4結(jié)束語
隨著數(shù)據(jù)挖掘技術(shù)在醫(yī)療研究領(lǐng)域中的應(yīng)用越來越普及,醫(yī)療數(shù)據(jù)加工處理在醫(yī)療研究中扮演著愈發(fā)重要的角色。通過數(shù)據(jù)加工處理和分析,可以幫助研究人員合理利用既往患者的大量醫(yī)療數(shù)據(jù),建立疾病預(yù)測模型,從而為臨床醫(yī)生提供更準(zhǔn)確的診斷支持。此外,結(jié)合患者檢查檢驗結(jié)果數(shù)據(jù),還可為臨床治療決策提供依據(jù),為醫(yī)生制定更適合患者的治療方案提供幫助,并為促進醫(yī)學(xué)科研創(chuàng)新提供支持。
最重要的是,在醫(yī)療資源管理層面,充分利用醫(yī)療數(shù)據(jù)加工處理技術(shù),可為醫(yī)院管理者提供更加細(xì)致、全面和有價值的信息,有助于合理分配醫(yī)療資源,提高醫(yī)療效率和質(zhì)量??傊?,醫(yī)療數(shù)據(jù)加工處理在提高醫(yī)療質(zhì)量、推動醫(yī)學(xué)研究,以及優(yōu)化醫(yī)療資源管理等方面發(fā)揮著重要作用。