張力戈,陳芋文,秦小林,易 斌,李雨捷
1.中國(guó)科學(xué)院 成都計(jì)算機(jī)應(yīng)用研究所,成都 610041
2.中國(guó)科學(xué)院大學(xué),北京 100049
3.中國(guó)科學(xué)院 重慶綠色智能技術(shù)研究院,重慶 400714
4.陸軍軍醫(yī)大學(xué) 第一附屬醫(yī)院,重慶 400038
圍術(shù)期患者出現(xiàn)危重癥,不僅會(huì)增加患者的醫(yī)療費(fèi)用,影響患者的康復(fù)結(jié)果[1-2],甚至?xí)?dǎo)致患者死亡。Khuri等[3]研究表明術(shù)后30天內(nèi)發(fā)生嚴(yán)重不良事件的患者中位生存時(shí)間減少69%。短期手術(shù)并發(fā)癥的長(zhǎng)期后果對(duì)患者生命健康和生活質(zhì)量有深遠(yuǎn)的影響[4]。有效預(yù)測(cè)危重癥風(fēng)險(xiǎn)有助于醫(yī)生及時(shí)診斷和治療患者,避免藥物過(guò)度使用,有利于醫(yī)院資源的合理配置,同時(shí)降低患者的痛苦和死亡率?;颊叩母鞣N監(jiān)測(cè)指標(biāo)在危重癥預(yù)測(cè)中起著重要作用,結(jié)合這些指標(biāo)對(duì)患者圍術(shù)期危重癥的預(yù)測(cè)更具有實(shí)用性和針對(duì)性。
目前,機(jī)器學(xué)習(xí)在醫(yī)學(xué)領(lǐng)域得到了廣泛的應(yīng)用。Ramana等[5]利用支持向量機(jī)、C4.5決策樹(shù)、BP神經(jīng)網(wǎng)絡(luò)等完成基于肝臟文本數(shù)據(jù)集的診斷分類。Patricio 等[6]使用Logistic 回歸、支持向量機(jī)和隨機(jī)森林分類算法基于血液樣本數(shù)據(jù)預(yù)測(cè)乳腺癌。Aljaaf等[7]提出了一種基于C4.5決策樹(shù)的心力衰竭多層次風(fēng)險(xiǎn)評(píng)估方法。Otoom等[8]提出了分析監(jiān)測(cè)冠狀動(dòng)脈的系統(tǒng),他們的數(shù)據(jù)集有76 個(gè)特征,只有13 個(gè)特征被使用。Demsar 等[9]證明少量的特征可以攜帶足夠的信息來(lái)建立合理準(zhǔn)確的預(yù)測(cè)模型。Sharma 等[10]使用改進(jìn)的灰狼算法進(jìn)行特征選擇和預(yù)測(cè)患者帕金森風(fēng)險(xiǎn),估計(jì)準(zhǔn)確率達(dá)到94.83%。Lucini等[11]使用數(shù)據(jù)挖掘方法結(jié)合機(jī)器學(xué)習(xí)算法來(lái)預(yù)測(cè)患者未來(lái)的住院和出院情況。由于單一分類器不能對(duì)所有疾病進(jìn)行診斷,Nallur等[12]基于三種進(jìn)化算法、支持向量機(jī)和多層感知器,提出了混合分類參數(shù)優(yōu)化診斷系統(tǒng),實(shí)現(xiàn)了對(duì)混合疾病的診斷。以上研究表明,在不降低預(yù)測(cè)精度的前提下,可以減少用于預(yù)測(cè)的特征數(shù)量。然而,上述選擇特征的方法多為針對(duì)特定疾病設(shè)計(jì)或者依賴醫(yī)生經(jīng)驗(yàn)直接選擇,通用性較低。對(duì)于一系列危重癥,仍然需要一種通用的方法來(lái)分析它們與患者術(shù)前和術(shù)中檢測(cè)指標(biāo)的潛在關(guān)聯(lián)。
針對(duì)上述問(wèn)題,本文提出基于機(jī)器學(xué)習(xí)的危重癥指標(biāo)分析模型。模型采用統(tǒng)計(jì)方法與斯皮爾曼等級(jí)相關(guān)系數(shù)去除冗余指標(biāo),基于XGBoost[13]分析指標(biāo)與危重癥之間的相關(guān)性,并提取危重癥對(duì)應(yīng)的核心指標(biāo)。
用于危重癥指標(biāo)選擇的方法可以分為嵌入法與過(guò)濾法兩類。嵌入法依賴特定的機(jī)器學(xué)習(xí)模型,使用不同的指標(biāo)子集訓(xùn)練模型,選擇預(yù)測(cè)性能較高的子集作為最優(yōu)指標(biāo)子集。過(guò)濾法通過(guò)預(yù)定義的性能度量來(lái)選擇指標(biāo),這些方法獨(dú)立于后續(xù)的分類器。過(guò)濾法具有較少的計(jì)算量,使用更為廣泛。Yu等[14]提出了一種基于條件互信息的特征選擇方法,為后續(xù)的支持向量機(jī)分類器選擇最有效的心率變化特征。采用該方法選取15個(gè)特征的準(zhǔn)確率比全部50個(gè)特征的準(zhǔn)確率高1.21%。Lee等[15]提出了一種基于支持向量機(jī)誤差界準(zhǔn)則的特征選擇方法提高充血性心力衰竭的識(shí)別效率,采用該方法選取17個(gè)特征的準(zhǔn)確率高于遺傳算法所選特征。Wang等[16]提出了一種改進(jìn)的信息增益方法來(lái)選擇肝硬化特征,該方法結(jié)合信息增益和典型分類器來(lái)生成最優(yōu)特征子集。
以上研究重點(diǎn)在最優(yōu)指標(biāo)子集的選擇上。Sanchez-Pinto 等[17]分析了目前臨床診斷中使用的8 種不同特征選擇方法。他們的研究結(jié)果表明,基于回歸的特征選擇方法在較小的數(shù)據(jù)集上可以得到更好的臨床預(yù)測(cè),而基于樹(shù)的方法在較大的數(shù)據(jù)集上表現(xiàn)更好。Sanchez-Pinto等[17]分析了兩類特征提取算法在臨床預(yù)測(cè)中的有效性,其工作具有指導(dǎo)意義。與上述研究不同,本文著重分析患者術(shù)前術(shù)中檢測(cè)指標(biāo)與危重癥的相關(guān)性。指標(biāo)與危重癥的相關(guān)性揭示了指標(biāo)對(duì)危重癥預(yù)測(cè)的影響,本文模型利用指標(biāo)對(duì)危重癥預(yù)測(cè)的貢獻(xiàn)來(lái)衡量二者之間的相關(guān)性,并選取貢獻(xiàn)較大的指標(biāo)作為危重癥對(duì)應(yīng)的關(guān)鍵指標(biāo)。
本文模型由數(shù)據(jù)預(yù)處理、指標(biāo)相關(guān)性分析、指標(biāo)重要性分析與核心指標(biāo)選擇四部分組成,整體流程如圖1所示。
圖1 模型流程圖Fig.1 Flow chart of model
2.1.1 數(shù)據(jù)提取與合并
為同時(shí)分析患者術(shù)前術(shù)中指標(biāo),本文模型將患者術(shù)前檢測(cè)指標(biāo)與檢測(cè)指標(biāo)進(jìn)行提取與合并。對(duì)于患者術(shù)前檢測(cè)指標(biāo)數(shù)據(jù),由于不同患者每次進(jìn)行術(shù)前檢查的指標(biāo)不同,因此術(shù)前檢測(cè)指標(biāo)數(shù)據(jù)集中存在一定的缺失值。模型以14天為閾值,通過(guò)公式(1)填充每個(gè)患者的指標(biāo)缺失值,式中ei,j、ek,j表示第i和k時(shí)刻指標(biāo)j的檢測(cè)值,閾值設(shè)定為14 天是與醫(yī)生討論后的結(jié)果。然后,根據(jù)患者的病歷號(hào)與手術(shù)時(shí)間,合并患者各類術(shù)前檢測(cè)指標(biāo)。患者術(shù)中檢測(cè)指標(biāo)數(shù)據(jù)為時(shí)序類型,為將這些指標(biāo)與術(shù)前檢測(cè)指標(biāo)合并,模型計(jì)算患者術(shù)中各類監(jiān)測(cè)指標(biāo)的均值(mean)、方差(variance,var)、標(biāo)準(zhǔn)差(standard deviation,std)、最大值(max)、最小值(min)、峰度(kurtosis,kurt)、偏度(skewness,skew),統(tǒng)計(jì)各類指標(biāo)術(shù)中異常時(shí)間,并以這些統(tǒng)計(jì)值代表術(shù)中各類監(jiān)測(cè)指標(biāo)。
提取術(shù)前和術(shù)中檢測(cè)指標(biāo)數(shù)據(jù)后,模型結(jié)合病歷號(hào)和患者手術(shù)時(shí)間,將兩種指標(biāo)數(shù)據(jù)合并生成術(shù)前術(shù)中指標(biāo)數(shù)據(jù)集。
2.1.2 指標(biāo)缺失值與單一值處理
雖然模型在提取指標(biāo)數(shù)據(jù)集時(shí)已填充了術(shù)前檢驗(yàn)指標(biāo)的缺失值,但是由于指標(biāo)記錄不完整以及患者之間的檢測(cè)指標(biāo)存在差異,數(shù)據(jù)集中仍存在大量缺失值,含缺失值較多的指標(biāo)在危重癥預(yù)測(cè)中無(wú)實(shí)際作用,屬于冗余指標(biāo)。本文模型首先通過(guò)公式(2)計(jì)算每個(gè)指標(biāo)所含缺失值比例,式中l(wèi)i表示指標(biāo)i所含缺失值比例,ui為指標(biāo)i中缺失值的數(shù)量,n表示指標(biāo)i整體維度,即所提數(shù)據(jù)集的樣本量,圖2 展示了肝衰樣本缺失值統(tǒng)計(jì)結(jié)果。然后設(shè)置閾值MT,將缺失值比例高于MT的指標(biāo)作為冗余指標(biāo)并移除。
圖2 指標(biāo)缺失值統(tǒng)計(jì)結(jié)果Fig.2 Statistical results for missing values of indicators
除缺失值外,指標(biāo)數(shù)據(jù)集中存在單一值現(xiàn)象,即數(shù)據(jù)集中某些指標(biāo)僅包含一種值。造成這一問(wèn)題的原因是數(shù)據(jù)集中所有患者的一些指標(biāo)檢測(cè)值相同,例如數(shù)據(jù)集中所有患者均沒(méi)有使用過(guò)某種藥物。無(wú)論患者是發(fā)生危重癥,這些指標(biāo)的檢測(cè)值都相同。因此,這些指標(biāo)對(duì)危重癥預(yù)測(cè)無(wú)實(shí)際意義,屬于冗余指標(biāo)。本文模型通過(guò)統(tǒng)計(jì)數(shù)據(jù)集中各類指標(biāo)不同檢測(cè)值的數(shù)量確定單一值指標(biāo),并將這些指標(biāo)移除。
由于數(shù)據(jù)集中指標(biāo)種類繁多,不同指標(biāo)之間可能存在一定的相關(guān)性。同時(shí),具有高共線性的指標(biāo)在危重癥預(yù)測(cè)中的作用相同。為進(jìn)一步提升危重癥的預(yù)測(cè)效率,本文模型通過(guò)斯皮爾曼等級(jí)相關(guān)系數(shù)分析患者檢測(cè)指標(biāo)間的相關(guān)性,并移除相關(guān)性高的指標(biāo)。
首先將選中的兩個(gè)指標(biāo)a、b的檢測(cè)值分別排序,記a、b中檢測(cè)值的排名向量為ra、rb,根據(jù)公式(3)計(jì)算ra、rb的插值da,b,式中rai、rbi為ra、rb在位置i處的值,n表示指標(biāo)維度,即指標(biāo)數(shù)據(jù)集的樣本量。然后,通過(guò)公式(4)得到a、b間的相關(guān)性ρa(bǔ),b。
基于上述步驟,根據(jù)公式(5)構(gòu)造數(shù)據(jù)集中所有指標(biāo)的相關(guān)性矩陣T并提取其上三角矩陣U,式中ρi,j表示第i個(gè)指標(biāo)與第j個(gè)指標(biāo)間的相關(guān)性,ti,j與ui,j分別為T與U在位置(i,j)處的值。圖3展示了肝衰樣本指標(biāo)相關(guān)性矩陣部分結(jié)果,圖中色彩深度代表了相關(guān)性高低。最后設(shè)置相關(guān)性閾值CT并逐列與U中元素比較,若U中第i列存在大于CT的元素,則將第i個(gè)指標(biāo)作為冗余指標(biāo)并移除。
圖3 指標(biāo)相關(guān)性分析部分結(jié)果Fig.3 Collinear processing results of indicators
分析指標(biāo)與危重癥相關(guān)性的關(guān)鍵部分是估計(jì)各指標(biāo)在危重癥預(yù)測(cè)中的重要性,指標(biāo)的重要性代表了該指標(biāo)對(duì)危重癥預(yù)測(cè)的貢獻(xiàn)程度。
盡管模型已經(jīng)在前期預(yù)處理中填充了部分空值并移除了含有大量空值的指標(biāo),但指標(biāo)數(shù)據(jù)集中仍存在缺失值。為更好地處理缺失值,本文模型采用基于分類與回歸樹(shù)(Classification and Regression Trees,CART)結(jié)構(gòu)的XGBoost算法作為危重癥預(yù)測(cè)分類器,分析各類指標(biāo)對(duì)危重癥預(yù)測(cè)的貢獻(xiàn)度。XGBoost 是梯度提升決策樹(shù)(Gradient Boosting Decision Tree,GBDT)的一種改進(jìn)算法,通過(guò)結(jié)合二階導(dǎo)數(shù)并加入正則項(xiàng)來(lái)優(yōu)化目標(biāo)函數(shù),同時(shí)在訓(xùn)練過(guò)程中加入樣本抽樣與特征抽樣來(lái)降低算法過(guò)擬合風(fēng)險(xiǎn),提升算法的泛化能力。模型通過(guò)公式(6)進(jìn)行危重癥預(yù)測(cè),式中xi為患者i的檢測(cè)指標(biāo)向量,表示患者i危重癥預(yù)測(cè)值,F(xiàn)為針對(duì)患者危重癥風(fēng)險(xiǎn)預(yù)測(cè)的CART決策樹(shù)空間,fk為第k次迭代的CART決策樹(shù),k表示模型最終迭代次數(shù)。模型針對(duì)危重癥預(yù)測(cè)的目標(biāo)函數(shù)如公式(7)所示,yi為患者i的真實(shí)標(biāo)簽,L()為損失函數(shù),∑kΩ(fk)為正則化項(xiàng)。
完成訓(xùn)練后,本文模型采用指標(biāo)在XGBoost 分類器中的平均信息增益表示指標(biāo)對(duì)危重癥預(yù)測(cè)的貢獻(xiàn)程度,即指標(biāo)的重要性。通過(guò)公式(8)進(jìn)行計(jì)算,式中vj為指標(biāo)j的平均信息增益,Gj、Tj分別表示指標(biāo)j在XGBoost 分類器所有CART 決策樹(shù)中的信息增益和以及作為分裂節(jié)點(diǎn)出現(xiàn)的總次數(shù)。為提升分析穩(wěn)定性,本文模型以10次隨機(jī)采樣分析結(jié)果均值作為最終指標(biāo)與危重癥的相關(guān)性。
核心指標(biāo)的選擇基于上一步得到的各指標(biāo)對(duì)危重癥預(yù)測(cè)的重要性。首先對(duì)指標(biāo)重要性進(jìn)行降序排列。其次,通過(guò)公式(9)對(duì)指標(biāo)重要性進(jìn)行歸一化,式中sj為第j個(gè)指標(biāo)的歸一化重要性,m為數(shù)據(jù)集中指標(biāo)數(shù)量。然后通過(guò)公式(10)計(jì)算指標(biāo)重要性累加和,式中cj表示第j個(gè)指標(biāo)的重要性累加和。最后設(shè)置閾值KT,選擇重要性累加和低于KT的指標(biāo)作為核心指標(biāo)。
為驗(yàn)證本文模型有效性,實(shí)驗(yàn)部分采用肝衰與腎衰患者數(shù)據(jù)進(jìn)行分析,數(shù)據(jù)均采集自合作單位真實(shí)患者檢測(cè)數(shù)據(jù)。肝衰與腎衰樣本量與原始檢驗(yàn)指標(biāo)量如表1所示,兩種危重癥陽(yáng)性樣本數(shù)量明顯少于陰性樣本數(shù)量。針對(duì)此問(wèn)題,為保證患者數(shù)據(jù)的真實(shí)有效性,本文模型采用降采樣方法將陰性樣本數(shù)量減少至與陽(yáng)性樣本量一致。
表1 危重癥樣本量Table 1 Number of samples for critical illnesses
本文實(shí)驗(yàn)在Python 3.5環(huán)境下完成,實(shí)驗(yàn)平臺(tái)CPU為Inter Core i5 2.9 GHz,16 GB RAM。實(shí)驗(yàn)中XGBoost分類器與LightGBM[18]分類器參數(shù)如表2、表3所示,訓(xùn)練時(shí)以每個(gè)患者的術(shù)前術(shù)中檢驗(yàn)指標(biāo)作為樣本的特征。實(shí)驗(yàn)中采用準(zhǔn)確率(Accuracy)、F1 值(F1_score)、AUC(Area Under Curve)、敏感性(Sensitivity)與特異性(Specificity)評(píng)價(jià)分類結(jié)果。
表2 XGBoost參數(shù)Table 2 Parameters of XGBoost
表3 LightGBM參數(shù)Table 3 Parameters of LightGBM
模型在缺失值處理與指標(biāo)相關(guān)性分析中,采用的閾值MT與CT分別為0.90與0.98。肝衰與腎衰樣本初始指標(biāo)數(shù)量為192 與193,經(jīng)過(guò)模型數(shù)據(jù)預(yù)處理以及指標(biāo)相關(guān)性分析,剩余指標(biāo)數(shù)量為119與73。
圖4 為肝衰與腎衰樣本前20 指標(biāo)的歸一化重要性。從中可看出,肝衰每個(gè)指標(biāo)的重要性略低于腎衰指標(biāo)。肝衰與腎衰前20 指標(biāo)歸一化重要性累加和分別為0.450 與0.498,表明腎衰指標(biāo)重要性累加和增長(zhǎng)快于肝衰,即按照同樣的閾值進(jìn)行核心指標(biāo)選擇時(shí),腎衰樣本核心指標(biāo)數(shù)量明顯少于肝衰樣本。因此,實(shí)驗(yàn)中設(shè)置腎衰樣本核心指標(biāo)選擇閾值高于肝衰樣本核心指標(biāo)選擇閾值,確保腎衰樣本與肝衰樣本選擇的核心指標(biāo)數(shù)量相差不大,分別設(shè)置為0.70 與0.55,實(shí)際應(yīng)用中可根據(jù)需要設(shè)置與
圖4 指標(biāo)歸一化重要性Fig.4 Normalized importance of indicators
圖5 為肝衰與腎衰樣本的歸一化重要性累加和結(jié)果,圖中豎線以為界限,將指標(biāo)分為兩部分,左邊部分即所選的核心指標(biāo)。從圖5可看出,肝衰與腎衰樣本所選的核心指標(biāo)數(shù)量分別為31 與36,所選核心指標(biāo)如表4所示。
表4 兩種危重癥核心指標(biāo)Table 4 Key indicators of two critical illnesses
圖5 指標(biāo)重要性累加和Fig.5 Cumsum for the importance of indicators
目前基于支持向量機(jī)、Logistic 回歸、隨機(jī)森林、XGBoost與LightGBM等機(jī)器學(xué)習(xí)算法的預(yù)測(cè)模型已經(jīng)應(yīng)用在各類疾病的風(fēng)險(xiǎn)預(yù)測(cè)中[5-6,19-21]。相對(duì)于上述預(yù)測(cè)模型,本文模型的重點(diǎn)在于分析患者各類檢測(cè)指標(biāo)與危重癥之間的相關(guān)性,并提取相關(guān)性高的指標(biāo)輔助醫(yī)師診療患者。為驗(yàn)證模型指標(biāo)分析結(jié)果有效性,本文基于上述預(yù)測(cè)模型,對(duì)比了全部指標(biāo)與核心指標(biāo)在肝衰與腎衰預(yù)測(cè)中的效果,預(yù)測(cè)模型采用XGBoost 與LightGBM 分類器。預(yù)測(cè)結(jié)果ROC曲線與P-R如圖6、7所示,其中虛線表示使用核心指標(biāo)的結(jié)果,實(shí)線表示使用全部指標(biāo)的結(jié)果,紅色表示XGBoost分類器結(jié)果,綠色表示LightGBM分類器結(jié)果。從圖6、7 可看出,XGBoost 與LightGBM使用腎衰核心指標(biāo)的ROC 曲線與P-R 曲線與使用全部指標(biāo)的ROC 曲線與P-R 曲線基本一致,XGBoost 與LightGBM 使用肝衰核心指標(biāo)的ROC 曲線與P-R 曲線線下面積略大于與使用全部指標(biāo)的線下面積,即本文所提核心指標(biāo)的腎衰預(yù)測(cè)效果與使用全部指標(biāo)相近,肝衰預(yù)測(cè)效果略高于全部指標(biāo)。
圖6 兩種危重癥預(yù)測(cè)ROC曲線Fig.6 ROC curves of two critical illnesses
圖7 兩種危重癥預(yù)測(cè)P-R曲線Fig.7 P-R curves of two critical illnesses
進(jìn)一步驗(yàn)證模型有效性,本文采用10 折交叉驗(yàn)證對(duì)比了全部指標(biāo)與核心指標(biāo)在肝衰與腎衰預(yù)測(cè)中的效果。將肝衰數(shù)據(jù)集與腎衰數(shù)據(jù)集分成10 個(gè)不同的子集,子集的樣本量分別為(35,35,34,34,34,34,34,34,34,34)與(51,51,51,51,51,51,50,50,50,50),每次使用其中1 個(gè)子集作為測(cè)試集,剩余9 個(gè)子集作為訓(xùn)練集,交叉驗(yàn)證重復(fù)10 次。表5 與表6 中預(yù)測(cè)結(jié)果均為10 折交叉驗(yàn)證均值,采用的分類器分別為XGBoost 與LightGBM。從表5 可看出,肝衰核心指標(biāo)在XGBoost分類器上的準(zhǔn)確率、AUC、F1 值與特異性,較所有指標(biāo)分別提高了0.011、0.013、0.009 與0.030,敏感性略低于所有指標(biāo)。腎衰核心指標(biāo)在XGBoost 分類器上的準(zhǔn)確率、F1 值、敏感性與特異性,較所有指標(biāo)分別提高了0.012、0.012、0.003 與0.019,AUC 略低于所有指標(biāo)。從表6 可看出,肝衰核心指標(biāo)在LightGBM 分類器上的準(zhǔn)確率、AUC、F1值、敏感性與特異性,較所有指標(biāo)分別提高了0.021、0.022、0.019、0.001 與0.038。腎衰核心指標(biāo)在LightGBM 分類器上的準(zhǔn)確率、F1 值與敏感性,較所有指標(biāo)分別提高了0.018、0.022與0.039,AUC與所有指標(biāo)相等,特異性略低于所有指標(biāo)。由表5 與表6 結(jié)果可知,本文所提核心指標(biāo)在腎衰與肝衰中的預(yù)測(cè)效果略高于所有指標(biāo),即本文模型提取的核心指標(biāo)有效。
表5 XGBoost預(yù)測(cè)結(jié)果Table 5 Predictive results of XGBoost
表6 LightGBM預(yù)測(cè)結(jié)果Table 6 Predictive results of LightGBM
由于患者術(shù)前術(shù)中檢測(cè)指標(biāo)數(shù)據(jù)存在缺失值情況,實(shí)驗(yàn)中采用了XGBoost 分類器與LightGBM 分類器對(duì)所提模型進(jìn)行驗(yàn)證。從上述實(shí)驗(yàn)結(jié)果可看出,本文模型所提關(guān)鍵指標(biāo)在危重癥預(yù)測(cè)中可以替代所有指標(biāo)。對(duì)比其他預(yù)測(cè)模型,周杰斌等[20]使用Logistic 回歸模型預(yù)測(cè)藥物性肝衰的AUC 與準(zhǔn)確率分別為0.917 與0.867,略低于本文模型提取的核心指標(biāo)在LightGBM 模型中的肝衰預(yù)測(cè)效果;Vijayarani等[22]使用人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)包括腎衰在內(nèi)的腎臟疾病的準(zhǔn)確率為0.877,與本文模型提取的核心指標(biāo)在XGBoost 模型中的腎衰預(yù)測(cè)結(jié)果相似。這些結(jié)果表明本文模型有效地移除了冗余指標(biāo),避免了這些冗余指標(biāo)對(duì)危重癥預(yù)測(cè)的影響,提取的核心指標(biāo)能夠有效地用于危重癥風(fēng)險(xiǎn)的預(yù)測(cè),即模型能有效分析指標(biāo)與危重癥之間的相關(guān)性。
然而,本文模型仍存在一些不足:為了保證患者樣本的有效性,模型沒(méi)有填充患者檢驗(yàn)指標(biāo)的缺失值。雖然模型分析了指標(biāo)缺失值并設(shè)置閾值移除了部分缺失值比例較高的指標(biāo),但數(shù)據(jù)集中仍然存在部分缺失值。由于數(shù)據(jù)缺失等因素影響,一些根據(jù)醫(yī)生經(jīng)驗(yàn)對(duì)危重癥應(yīng)具有重要意義的指標(biāo)在模型中可能沒(méi)有得到應(yīng)有的重要性。因此,本文模型仍需結(jié)合醫(yī)生經(jīng)驗(yàn)等因素進(jìn)一步改進(jìn),使分析結(jié)果更接近指標(biāo)與危重癥之間的真實(shí)相關(guān)性。
本文提出了基于XGboost 的危重癥指標(biāo)分析模型。該模型包括數(shù)據(jù)預(yù)處理、相關(guān)性分析、重要性分析和關(guān)鍵指標(biāo)選擇四部分,對(duì)指標(biāo)的缺失值、單值、相關(guān)性以及與危重癥之間重要性進(jìn)行統(tǒng)計(jì)與分析,并根據(jù)重要性結(jié)果選取危重癥對(duì)應(yīng)的核心指標(biāo)。實(shí)驗(yàn)采用肝衰與腎衰兩種危重癥樣本對(duì)模型進(jìn)行驗(yàn)證,結(jié)果表明本文模型能夠有效地分析患者檢測(cè)指標(biāo)與危重癥之間的相關(guān)性。