康文博,趙靜雅,呂雪峰,陳 勇,韓雪琳,田曙光,陳芳艷,蘇雪婷,王洪源,韓 黎
(1. 北京大學公共衛(wèi)生學院,北京 100191; 2. 中國人民解放軍疾病預(yù)防控制中心醫(yī)院感染監(jiān)控中心,北京 100071; 3. 中央軍委后勤保障部信息中心,北京 100842)
據(jù)世界衛(wèi)生組織(WHO)2011年估計,世界范圍內(nèi)每年有上億人受到醫(yī)院感染的影響,醫(yī)院感染已經(jīng)成為一個嚴重的全球公共衛(wèi)生問題,中低收入水平國家的醫(yī)院感染負擔遠高于高收入水平國家(醫(yī)院感染現(xiàn)患率分別為15.5% 和7.6%)[1]。2008—2014年全國醫(yī)院感染監(jiān)測網(wǎng)橫斷面調(diào)查結(jié)果顯示,我國醫(yī)院感染現(xiàn)患率逐漸下降,感染類型以下呼吸道感染為主[2-5]。準確的臨床預(yù)測模型可以幫助篩選醫(yī)院感染的高危對象,提高醫(yī)院感染防控措施的針對性和效率。Chen等[6]利用2014年一項多所醫(yī)院醫(yī)院感染橫斷面調(diào)查數(shù)據(jù),構(gòu)建了醫(yī)院下呼吸道感染風險評分方法(以下稱為原始評分方法),共包括70個條目,訓(xùn)練集回代預(yù)測效果較好,但相對復(fù)雜的預(yù)測方法可能不利于臨床日常使用[7]。Tibshirani[8]在1996年提出了Lasso(Least absolute shrinkage and selection operator),通過L1懲罰對自變量回歸系數(shù)進行壓縮,可以將對模型影響較小的變量系數(shù)壓縮為0,篩選出相對重要的變量。使用Lasso方法的logistic回歸又叫做Lasso-logistic回歸,已有研究者將其應(yīng)用于出生缺陷[9]、老年癡呆[10]等醫(yī)學研究領(lǐng)域,其中李敏捷[9]建立的Lasso-logistic回歸出生缺陷預(yù)測模型效果好于逐步法得到的logistic回歸模型。本文以2014年調(diào)查數(shù)據(jù)為訓(xùn)練集,建立精簡的醫(yī)院下呼吸道感染Lasso-logistic回歸預(yù)測模型,構(gòu)建新的風險評分方法,并以2015、2016年調(diào)查數(shù)據(jù)為驗證數(shù)據(jù),與原始評分方法進行比較。
1.1 數(shù)據(jù)來源 研究數(shù)據(jù)來源于一項多所醫(yī)院醫(yī)院感染聯(lián)網(wǎng)監(jiān)測橫斷面調(diào)查,2014—2016年每年調(diào)查一次,其中2014年調(diào)查患者52 561例, 2015年30 313例,2016年26 320例。調(diào)查內(nèi)容包括住院患者的一般情況、基礎(chǔ)疾病狀況、住院期間治療和醫(yī)院感染發(fā)生情況。
1.2 醫(yī)院感染診斷標準 依據(jù)衛(wèi)生部《醫(yī)院感染診斷標準(試行)》(衛(wèi)醫(yī)發(fā)[2001]2號)[11]進行醫(yī)院感染診斷。
1.3 研究對象特征描述 描述訓(xùn)練集與驗證集納入研究對象的一般特征、變量賦值見表1。
表1 研究對象特征描述變量賦值表
Table 1 Variable assignments of characteristic description of research objects
分類變量賦值情況性別0=女 ,1=男泌尿道插管0=否,1=是中央或周圍動靜脈置管0=否,1=是使用呼吸機0=否,1=是氣管切開0=否,1=是血液透析0=否,1=是使用抗菌藥物0=否,1=是手術(shù)切口類型未手術(shù)=0 ,Ⅰ類切口=1,Ⅱ類切口=2,Ⅲ類切口=3,Ⅳ類切口=4患有ICD10類目對應(yīng)疾病0=否,1=是醫(yī)院下呼吸道感染0=否,1=是
1.4 Lasso-logistic回歸預(yù)測模型的建立 以醫(yī)院下呼吸道感染診斷情況為結(jié)局變量,共納入自變量247個,根據(jù)貝葉斯信息準則(Bayesian information criterion,BIC)選擇合適的正則化參數(shù)λ,回歸系數(shù)非0的變量納入最終模型。Lasso的L1正則化路徑估計使用預(yù)測-校正法(predictor-corrector method),各變量回歸系數(shù)擴大相同的倍數(shù)后四舍五入取整,作為新的住院患者醫(yī)院下呼吸道感染風險評分的風險指數(shù)。
1.5 預(yù)測效果評價 訓(xùn)練集的預(yù)測效果評價使用回代法。預(yù)測效果的評價采用受試者工作特征(receiver operating characteristic, ROC)曲線,靈敏度和特異度、陽性似然比和陰性似然比,以及凈重新分類指數(shù)(net reclassification index, NRI)、整體鑒別指數(shù)(integrated discrimination index, IDI)和決策曲線(decision curve analysis, DCA)。
1.6 統(tǒng)計學處理 主要應(yīng)用R(3.4.0)和SAS(9.4)軟件進行統(tǒng)計分析,其中Lasso-logistic回歸模型的建立使用R軟件的glmpath包。不同ROC曲線間的比較常用的指標為ROC曲線下面積(area under curve, AUC)[12],對于配對ROC曲線,很小的AUC差別也可能是有統(tǒng)計學意義的[13],采用DeLong’s檢驗比較不同評分方法在驗證集的預(yù)測AUC,檢驗水準取α=0.05。
2.1 一般特征 訓(xùn)練集共納入研究對象49 328例,其中839例發(fā)生醫(yī)院下呼吸道感染,發(fā)病率為1.7%;驗證集納入研究對象50 997例,其中783例發(fā)生醫(yī)院下呼吸道感染,發(fā)病率為1.5%。驗證集人群男性比例、住院期間接受各種侵入性操作的比例均高于訓(xùn)練集,使用抗菌藥物的比例低于訓(xùn)練集,其他特征相近。見表2。
表2 訓(xùn)練集與驗證集研究對象的一般特征[例(%)]
Table 2 General characteristics of research objects of trai-ning dataset and validation dataset (No. of cases[%])
變量訓(xùn)練集(n=49 328)驗證集(n=50 997)年齡[歲,中位數(shù)(P25,P75)]52.0 (35.0,66.0)53.3 (36.0,67.3)住院周數(shù)[中位數(shù)(P25,P75)]1.14 (0.57,2.14)1.14 (0.57,2.00)性別 男性21 173(42.9)30 933(60.7) 女性28 155(57.1)20 064(39.3)泌尿道插管 6 801(13.8)8 249(16.2)動靜脈插管4 239(8.6)6 319(12.4)使用呼吸機2 272(4.6)2 929(5.7)氣管切開814(1.7)922(1.8)血液透析615(1.2)910(1.8)使用抗菌藥物7 191(14.6)6 903(13.5)手術(shù)10 518(21.3)13 457(26.4)醫(yī)院下呼吸道感染 839(1.7)783(1.5)
2.2 Lasso-logistic回歸與簡單評分 Lasso過程共進行了360步,初始正則化參數(shù)λmax為1 335.6。第24步時BIC達到最小值6 690.4,λ=130.8,模型中非0回歸系數(shù)有17個,參數(shù)估計結(jié)果見表3。
使用抗菌藥物、手術(shù)切口清潔度高的患者醫(yī)院下呼吸道感染風險降低,其他變量均為患者醫(yī)院下呼吸道感染的危險因素。最先“進入”模型(回歸系數(shù)在某步后變?yōu)榉?)的變量依次是氣管切開和動靜脈置管。年齡和住院時間對患者醫(yī)院下呼吸道感染風險影響明顯高于其他變量,見圖1。以年齡回歸系數(shù)的絕對值為1個單位,各回歸系數(shù)除以該值后四舍五入成整數(shù)作為風險指數(shù),構(gòu)建風險評分方法(見表4),如性別的回歸系數(shù)為0.463, 0.463/0.142≈3,則風險指數(shù)為3。簡單評分的訓(xùn)練集AUC為0.883 [95%CI(0.872,0.895)],推薦以14分為預(yù)測分割點,靈敏度和特異度分別為0.84、0.76,陽性似然比和陰性似然比分別為3.54、0.21。
表3 Lasso-logistic回歸最終模型參數(shù)估計
Table 3 Estimated parameters of final Lasso-logistic regre-ssion model
變量回歸系數(shù)標準化系數(shù)年齡*0.142 0.441性別0.463 0.229住院周數(shù)*0.400 0.493動靜脈置管0.860 0.241泌尿道插管0.570 0.197氣管切開1.207 0.154手術(shù)切口類型-0.020 -0.016使用呼吸機0.462 0.097使用抗菌藥物-0.171 -0.061ICD10疾病類目 支氣管和肺惡性腫瘤(C34)0.171 0.029 髓樣白血病(C92)0.211 0.014 顱內(nèi)出血(I61)0.684 0.078 大腦動脈閉塞和狹窄無腦梗死(I66)1.655 0.047 氣管和支氣管先天畸形(Q32)3.480 0.016 其他協(xié)調(diào)缺乏(R27)1.319 0.017 其他的一般癥狀和體征(R68)0.129 0.003 器官和組織移植狀態(tài)(Z94)0.391 0.029
*:模型中使用的年齡和住院時間變量非原始變量,均根據(jù)由限制性立方樣條(restricted cubic spline,RCS)得到的非線性相關(guān)關(guān)系進行了重新賦值,年齡(歲)賦值規(guī)則如下:[0,5]=2,(5,15]=1, (15,35] =0, (35,40)=1, 40歲以上每5歲一個組(含下限不含上限)依次加1;住院時間(周)的賦值規(guī)則如下:[0,1)=0, [1,2)=1,[2,3)=2,[3,4)=3,≥4 =4,重新賦值后的變量均作為連續(xù)變量納入模型
*:標準化回歸系數(shù)絕對值較小的變量,從上至下依次為Z94、C34、R27、Q32、C92、R68、手術(shù)切口類型
圖1 最終模型內(nèi)變量0~24步標準化回歸系數(shù)路徑圖
Figure 1 Standardized regression coefficient path of step 0-24 for variables included in final model
表4 醫(yī)院下呼吸道感染患者風險簡單評分表
Table 4 Simple risk scoring system for healthcare-associated lower respiratory tract infection
項目風險指數(shù)*接受Ⅳ類切口手術(shù)的患者-1使用抗菌藥物-1年齡(歲):[0,5]得2,1 (5,15]得1, (15,35]得0 (35,40)得1 ≥40 每5歲一個組(含下限不含上限),依次加1 患有C34、C92、R68疾病1男性3使用呼吸機3住院時間每滿一周加3,最多加123患有Z94病癥3泌尿道插管4患有I61疾病5動靜脈置管6氣管切開9患有R27疾病9患有I66疾病12患有Q32疾病25
*:研究對象風險得分左側(cè)項目對應(yīng)風險指數(shù)值總和值
2.3 預(yù)測效果比較 簡單評分與原始評分方法評分的驗證集ROC曲線幾乎重合,DeLong’s檢驗顯示AUC差異無統(tǒng)計學意義(Z=0.371,P=0.710),見圖2。在推薦分割點14分處,簡單評分的靈敏度和特異度分別為0.84、0.76,陽性似然比和陰性似然比分別為3.54、0.21。兩評分的決策曲線幾乎重合,見圖3。閾概率在[0, 0.2]時,兩種評分的凈收益均明顯高于None模型;當閾概率大于0.2時,與None模型無明顯差別,無應(yīng)用價值。依據(jù)推薦預(yù)測分值為閾值(原始評分方法及本研究提出的簡單評分中均推薦14分為預(yù)測分割點)建立預(yù)測結(jié)果的重分類表(見表5),計算簡單評分相比于原始評分方法的NRI值為-0.0149,說明凈重新分類收益無統(tǒng)計學意義(Z=-1.301,P=0.193),IDI值0.006,95%CI為(0.001, 0.010) ,說明整體鑒別的改善有統(tǒng)計學意義(P=0.014)。
圖2 簡單評分與原始評分方法的驗證集ROC曲線
Figure 2 ROC curves of simple and original scoring methods in validation dataset
圖3 簡單評分與原始評分方法的決策曲線
Figure 3 Decision curves of simple and original scoring methods
表5 原始評分與簡單評分方法的預(yù)測結(jié)果重分類表
Table 5 Reclassification of predicative result of original and simple scoring methods
原始評分方法簡單評分患者組陰性陽性合計非患者組陰性陽性合計陰性 89 5314234 0354 21338 248陽性26615641 1 73210 23411 966合計11566878335 76714 44750 214
Lasso-logistic回歸預(yù)測模型顯示,住院患者醫(yī)院下呼吸道感染的發(fā)生受人口學特征、基礎(chǔ)疾病特征及住院時間和接受治療情況的影響,與以往研究[14-15]結(jié)果較一致,其中患者的住院日數(shù)、年齡對醫(yī)院下呼吸道感染的影響較大,性別、侵入性操作、使用抗菌藥物的影響屬于中等水平,手術(shù)切口類型及各類基礎(chǔ)疾病的影響相對較小,說明在醫(yī)院下呼吸道感染的防控工作中,應(yīng)重點關(guān)注住院時間較長的高齡、男性患者,規(guī)范侵入性操作前、中、后的感染預(yù)防措施。
Chen等[6]構(gòu)建的住院患者醫(yī)院下呼吸道感染的風險評分方法包括70個條目。本研究建立的簡單評分方法僅包含17個條目,數(shù)量上減少>3/4,且驗證集的預(yù)測效果相近,是對原始評分方法的一次成功簡化。評分條目的減少主要表現(xiàn)在基礎(chǔ)疾病方面,原始評分方法中包括了61個ICD10類目,簡單評分中僅包含8個ICD10類目,其中風險指數(shù)較高的疾病類目包括顱內(nèi)出血(I61)、大腦動脈閉塞和狹窄無腦梗死(I66)、氣管和支氣管先天畸形(Q32)、其他協(xié)調(diào)缺乏(R27),對患有以上疾病類目對應(yīng)疾病的住院患者護理工作應(yīng)該得到加強。原始評分方法中,結(jié)腸惡性腫瘤(ICD10類目為C18)、前列腺增生(ICD10類目為N40)的風險指數(shù)為-8,說明患有這些疾病的患者醫(yī)院下呼吸道感染的風險低于非此類疾病的患者,通常疾病會使機體免疫力下降,簡化后評分中各類基礎(chǔ)疾病的風險指數(shù)均為正值,從免疫學角度上可能更合理,說明Lasso過程確實剔除了一些噪聲變量。
簡單評分的訓(xùn)練集AUC為0.883,驗證集AUC為0.866,優(yōu)于其他醫(yī)院感染預(yù)測研究[16-20],判別能力良好,與訓(xùn)練集相比驗證集AUC僅下降了0.017,與其他驗證研究相比下降幅度較小[18-19],預(yù)測效果穩(wěn)定。
Lasso的變量壓縮程度及預(yù)測效果依賴于正則化參數(shù)的選擇。國內(nèi)研究者[9,21-23]將Lasso應(yīng)用于健康領(lǐng)域相關(guān)研究時,多使用交叉驗證選擇最終模型。實際上,使用BIC選擇正則化參數(shù) ,可以得到與真實模型高度一致的變量選擇結(jié)果,當自變量中的噪聲變量較多時,BIC能夠在預(yù)測誤差相對小的前提下,選擇出更為簡練的模型[24-25]。本研究首次將Lasso-logistic回歸模型應(yīng)用于醫(yī)院感染研究中,根據(jù)BIC準則選擇正則化參數(shù)達到了預(yù)期效果,在挑選出更少、更重要自變量的同時保證了預(yù)測的準確性,可以為研究者使用Lasso方法選擇合適的正則化參數(shù)選擇策略提供經(jīng)驗。
本研究可能存在以下局限性:醫(yī)院感染的發(fā)生除與住院患者自身情況、醫(yī)療干預(yù)有關(guān)外,還可能受到醫(yī)院的微生物環(huán)境等因素的影響,如某科室病房內(nèi)有患者近期發(fā)生過醫(yī)院感染,則提示環(huán)境中可能存在某種易感微生物,此時住院患者感染的風險可能會增加。本研究使用的調(diào)查數(shù)據(jù)不包含醫(yī)院微生物環(huán)境方面的信息,如果納入相關(guān)的變量,預(yù)測效果可能會進一步提高。