王梅英,楊 敏,劉佳微,張慧琳
(1. 青海省人民醫(yī)院感染管理科,青海 西寧 810007; 2. 青海省人民醫(yī)院腫瘤內(nèi)科,青海 西寧 810007; 3. 青海大學(xué)附屬醫(yī)院感染科,青海 西寧 810007)
臨床上,化學(xué)治療(化療)作為治療腫瘤的重要手段之一,能有效遏制癌癥發(fā)展,提高患者生存質(zhì)量[1],但大多數(shù)化療腫瘤患者容易出現(xiàn)下呼吸道感染,影響患者康復(fù)及肺功能恢復(fù)[2],嚴(yán)重感染可能導(dǎo)致患者死亡。因此,建立感染預(yù)警模型對預(yù)防化療腫瘤患者下呼吸道感染具有重要意義。有研究[3-4]指出,化療腫瘤患者下呼吸道感染主要受到年齡、合并基礎(chǔ)疾病、營養(yǎng)狀況和使用抗菌藥物影響,由于其呼吸道感染發(fā)病率低于8%~13%,造成感染和非感染病例數(shù)據(jù)之間的不平衡。傳統(tǒng)統(tǒng)計分析方法對不平衡數(shù)據(jù)處理效果欠佳[5],對多數(shù)類預(yù)測效果高,而對少數(shù)類預(yù)測效果較差,不適合喉癌患者術(shù)后下呼吸道感染預(yù)警模型構(gòu)建。為解決數(shù)量不平衡數(shù)據(jù)分類問題,有研究者引入重采樣技術(shù)重建數(shù)據(jù)平衡少數(shù)類與多數(shù)類的數(shù)據(jù)數(shù)量。少數(shù)類樣本合成過抽樣技術(shù)(synthetic minority over-sampling technique,SMOTE)由Chawla等[6]于2011年提出,其根據(jù)少數(shù)類屬性特征隨機產(chǎn)生相似樣本,有效平衡少數(shù)類與多數(shù)類之間數(shù)量,減少數(shù)據(jù)集過度傾斜。相關(guān)研究已經(jīng)通過SMOTE算法成功建立腦損傷繼發(fā)精神障礙[7]、絕經(jīng)后骨質(zhì)疏松性骨折[8]和癲癇發(fā)作[9]等少數(shù)類預(yù)警模型。本研究調(diào)查2019年1月—2021年6月西寧市4所三級醫(yī)院收治的接受化療的腫瘤患者臨床資料,構(gòu)建基于SMOTE算法的感染預(yù)警模型,為預(yù)防化療腫瘤患者下呼吸道感染提供指導(dǎo)。
1.1 臨床資料 本文選取2019年1月—2021年6月西寧市4所三級醫(yī)院收治的接受化療的腫瘤患者臨床資料,數(shù)據(jù)納入標(biāo)準(zhǔn):①經(jīng)病理學(xué)和影像診斷確診為惡性腫瘤;②年齡≥18歲,臨床資料完整;③行腫瘤化療;④患者對本研究知情同意。排除標(biāo)準(zhǔn):①合并呼吸系統(tǒng)疾病者,先天性免疫系統(tǒng)缺陷和未接受化療的惡性腫瘤患者;②轉(zhuǎn)入重癥監(jiān)護病房(ICU)的昏迷、病?;虿⊥稣?;③轉(zhuǎn)院或臨床資料不完整者。
1.2 下呼吸道感染診斷 根據(jù)相關(guān)資料確定下呼吸道感染診斷標(biāo)準(zhǔn)[10],包括:①胸部X線檢出支氣管或肺部炎癥改變;②靜脈血檢出白細胞數(shù)和(或)嗜中性粒細胞比例上升;③下呼吸道分泌物培養(yǎng)檢出病原菌,腫瘤患者化療開始后出現(xiàn)同時滿足①②、①③或①②③項均可判斷為下呼吸道感染?;熎陂g,由其主管醫(yī)生和研究者每周通過微信或電話詢問患者是否出現(xiàn)劇烈咳嗽、多痰、發(fā)熱、胸痛、打噴嚏、流鼻涕、咽痛、低熱、喘、呼吸困難等癥狀,若出現(xiàn)以上癥狀由主管醫(yī)生、醫(yī)院感染專家和研究者共同確診是否為下呼吸道感染。
1.3 研究方法
1.3.1 數(shù)據(jù)分組 將所收集病例(2 384例)按照7∶3的比例隨機分為建模組1 668例和驗證組716例(隨機種子為20190820),建模組數(shù)據(jù)用來建立模型,驗證組數(shù)據(jù)對所建立的模型進行驗證。將建模組根據(jù)是否發(fā)生下呼吸道感染分為感染組99例和非下呼吸道感染組1 569例(包括非感染患者和其他部位感染患者),基于SMOTE算法建立模型,具體實施步驟為:設(shè)少數(shù)類樣本數(shù)=下呼吸道感染組,增加樣本數(shù)n=1 569/99≈16,最近鄰點數(shù)k=16,實施算法處理步驟如下[9]:第1步,計算數(shù)據(jù)集內(nèi)各少數(shù)類樣本的 k個最近鄰點,近鄰選擇為距離或相似系數(shù);第2步,隨機取少數(shù)類樣本點i的k個最近鄰點中1個樣本 j;第3步,計算樣本i和樣本j全部屬性的差值Q;第4步,產(chǎn)生一個區(qū)間為[0,1]的隨機數(shù)R;第5步,產(chǎn)生少數(shù)類的合成樣本:Samplenew=Samplei+R×Q;第6步,重復(fù)第1步到第5步,直到少數(shù)類樣本i增加n倍并達到要求后停止;第7步,重復(fù)第1步到第6步,直到B個少數(shù)類樣本全部被處理完后停止。通過對類樣本點與其最近鄰樣本點間進行隨機插值,得實際抽為非下呼吸道感染組=1 569例,感染組=1 584例,下呼吸道感染組和非下呼吸道感染組比例近1.01。
1.3.2 資料收集內(nèi)容 使用自制量表收集患者基線資料(姓名、性別、年齡、學(xué)歷、居住地、婚姻狀態(tài)),生理狀況[身體質(zhì)量指數(shù)(BMI)值是否正常、吸煙史、飲酒史、有無合并高血壓、糖尿病、肺部疾病],惡性腫瘤病情(惡性腫瘤分期、是否遠處轉(zhuǎn)移、是否接受腫瘤根治術(shù)),化療情況(化療時間),發(fā)生下呼吸道感染情況(是否發(fā)生感染、感染病原體類型)。
1.4 模型構(gòu)建 應(yīng)用SPSS 25.0和R 3.5.2進行模型構(gòu)建,計數(shù)資料選擇例數(shù)或百分比表示,組間比較選擇卡方檢驗或Fisher’s確切概率法檢驗,在建模組中,將單因素分析有意義的變量(P<0.05)納入多因素logistic 回歸中分析下呼吸道感染的危險因素,選擇SMOTE算法進行過抽樣插值后構(gòu)建下呼吸道感染預(yù)警模型,P≤0.05為差異具有統(tǒng)計學(xué)意義。
1.5 模型驗證 利用構(gòu)建的風(fēng)險預(yù)測評分模型對建模組和驗證組患者進行評分,以患者是否發(fā)生下呼吸道感染為狀態(tài)變量,以各患者的總風(fēng)險評分值為檢驗變量,繪制受試者工作特征曲線(ROC曲線)評價模型的區(qū)分度,采用Hosmer-Lemeshow(H-L)檢驗評價模型的校準(zhǔn)度,使用真正類率(TPR)、陽性預(yù)測值(PPV)、F分數(shù)(F-score)和ROC曲線下面積(AUC)驗證預(yù)測模型對驗證組數(shù)據(jù)預(yù)測準(zhǔn)確性,用以評估模型的臨床應(yīng)用價值。
2.1 調(diào)查對象的基本特征 共收集2019年1月—2021年6月2 488例行化療的腫瘤患者資料,依據(jù)納入排除標(biāo)準(zhǔn),剔除病歷缺失或不完整病例,得到有效數(shù)據(jù)2 384例,其中發(fā)生下呼吸道感染者152 例(6.38%),152例下呼吸道感染患者未合并其他部位感染,共檢出菌株256株,革蘭陰性菌176株(68.75%),包括銅綠假單胞菌96株(37.50%)、肺炎克雷伯菌40株(15.63%)、大腸埃希菌16株(6.25%)、陰溝腸桿菌12株(4.69%)、鮑曼不動桿菌12株(4.69%);革蘭陽性菌80株(31.25%),包括金黃色葡萄球菌52株(20.31%)和凝固酶陰性葡萄球菌28株(10.94%)。將所收集病例按照7∶3的比例隨機分為建模組1 668例和驗證組716例(隨機種子為20190820),將建模組根據(jù)是否發(fā)生下呼吸道感染分為下呼吸道感染組99例(5.94%)和非下呼吸道感染組1 569例(94.06%),99例感染患者檢出菌株162株,革蘭陰性菌108株(66.67%), 包括銅綠假單胞菌61株(37.65%)、肺炎克雷伯菌22株(13.58%)、大腸埃希菌11株(6.79%)、陰溝腸桿菌7株(4.32%)、鮑曼不動桿菌7株(4.32%);革蘭陽性菌54株(33.33%),包括金黃色葡萄球菌38株(23.45%)和凝固酶陰性葡萄球菌16株(9.88%)。
2.2 化療腫瘤患者下呼吸道感染單因素分析 單因素比較,兩組化療腫瘤患者不同年齡、BMI值是否正常、惡性腫瘤分期、吸煙史、合并糖尿病、合并肺部疾病、化療時間比較,差異均有統(tǒng)計學(xué)意義(均P<0.05)。見表 1。
表1 建模組化療腫瘤患者下呼吸道感染單因素分析[例(%)]
續(xù)表1 (Table 1, Continued)
2.3 化療腫瘤患者下呼吸道感染的多因素分析 以是否有下呼吸道感染為因變量(否=0,是=1),選擇單因素分析有統(tǒng)計學(xué)意義的變量為自變量引入多因素logistic 回歸分析,設(shè)置ɑ入=0.05,ɑ出=0.10,可獲得年齡、BMI值是否正常、惡性腫瘤分期、吸煙史、合并糖尿病、合并肺部疾病均是化療腫瘤患者下呼吸道感染的獨立危險因素(均P<0.05),見表 2。
表2 建模組化療腫瘤患者下呼吸道感染logistic回歸分析
2.4 基于SMOTE算法的化療腫瘤患者下呼吸道感染多因素分析 選擇多因素logistic 回歸分析結(jié)果獲得化療腫瘤患者下呼吸道感染的影響因素, 利用 SMOTE算法對感染組原樣本進行16倍過抽樣,獲得感染和非感染比例近似為 1(實際抽樣為非感染1 569例,感染1 584例,感染/非感染=1.01),然后對過抽樣后數(shù)據(jù)進行多因素logistic回歸,設(shè)置ɑ入=0.05,ɑ出=0.10,見表3。
表3 建模組化療腫瘤患者基于SMOTE算法的下呼吸道感染多因素分析
2.5 基于SMOTE算法風(fēng)險預(yù)測評分模型的構(gòu)建 以化療腫瘤患者是否下呼吸道感染為因變量y(y=1為感染,y=0為非感染),年齡(x1)、BMI值是否正常(x2)、惡性腫瘤分期(x3)、吸煙史(x4)、合并糖尿病(x5)、合并肺部疾病(x6)為自變量,通過原始數(shù)據(jù)多因素logistic回歸和基于SMOTE算法下重建數(shù)據(jù)多因素logistic回歸分析,可獲得原始數(shù)據(jù)預(yù)警模型:Logit(P)=0.055x1+0.967x2-0.195x3+1.383x4+0.968x5+0.939x6-14.073和基于SMOTE算法的預(yù)警模型:Logit(P)=0.090x1+1.092x2-0.249x3+1.724x4+1.136x5+1.344x6-14.859。分別以2個模型的預(yù)警概率P為診斷變量,以化療腫瘤患者是否感染為金標(biāo)準(zhǔn),對模型預(yù)警效應(yīng)進行ROC曲線分析,獲得基于SMOTE算法的預(yù)警模型對原始數(shù)據(jù)的AUC為0.949(95%CI:0.937~0.961),高于原始數(shù)據(jù)預(yù)警模型的AUC 0.780(95%CI:0.734~0.846),基于SMOTE算法的預(yù)警模型H-L檢驗P值(P=0.594)也高于原始數(shù)據(jù)預(yù)警模型(P=0.301),見表4。
表4 預(yù)警模型ROC曲線的預(yù)測效應(yīng)比較
利用構(gòu)建化療患者下呼吸道風(fēng)險預(yù)測評分模型對驗證組患者進行驗證,獲得原始數(shù)據(jù)預(yù)警模型AUC為0.757(95%CI:0.708~0.805),基于SMOTE算法的預(yù)警模型AUC為0.908(95%CI:0.855~0.961),基于SMOTE算法的預(yù)警模型對驗證組患者預(yù)測TPR值低于原始數(shù)據(jù)預(yù)警模型,而PPV、F-score均高于原始數(shù)據(jù)預(yù)警模型,見表5、圖1~2。
表5 預(yù)警模型對驗證組患者預(yù)測概率驗證
建模組 驗證組
建模組 驗證組
本研究調(diào)查結(jié)果顯示,2 384例化療腫瘤患者發(fā)生下呼吸道感染率為6.38%,低于毛振宇等[11]研究中喉癌患者術(shù)后化療期下呼吸道感染率 8.75%,表明該院對化療腫瘤患者下呼吸道感染預(yù)防重視程度較高,使超過50%的患者接受相應(yīng)的抗菌藥物治療,有效降低下呼吸道感染率。152例下呼吸道感染化療腫瘤患者檢出菌株256株,主要為革蘭陰性菌156株,占68.75%,與其他研究[12]結(jié)果相符。整體檢出菌類型集中于銅綠假單胞菌(37.50%)和金黃色葡萄球菌(20.31%),其能破壞化療腫瘤患者機體,阻礙其代謝功能,從而降低其免疫功能,成為化療腫瘤患者下呼吸道的主要感染菌種。
本研究結(jié)果表明,年齡、BMI值是否正常、惡性腫瘤分期、吸煙史、合并肺部疾病、合并糖尿病均是化療腫瘤患者下呼吸道感染的影響因素,與其他研究[13-15]結(jié)論相符,表現(xiàn)為高齡、BMI值異常、有吸煙史、合并肺部疾病及糖尿病患者下呼吸道感染風(fēng)險更高,這是因為:①化療腫瘤患者年齡越大,其自身免疫功能下降程度和生理健康惡化程度越高,導(dǎo)致其身體抵御病原體侵襲的能力下降,從而增加了其感染風(fēng)險;②若腫瘤患者BMI值過低,其身體營養(yǎng)狀況不良程度越明顯,從而自身免疫功能抗感染效率越被限制,研究[16-17]顯示,過低BMI值甚至可降低惡性腫瘤患者生命質(zhì)量,增加其病死率,而腫瘤患者BMI值過高,其存在肥胖及代謝功能疾病,合并糖尿病、冠心病及神經(jīng)系統(tǒng)疾病概率較高,可造成免疫功能受到限制,增加下呼吸道感染率。③患者惡性腫瘤分期越高,其身體受到腫瘤侵襲程度及損傷越重,導(dǎo)致其身體免疫功能越差,造成其下呼吸道感染風(fēng)險越高。④長期吸煙能損傷支氣管黏膜,導(dǎo)致呼吸道纖毛變短、斷裂和運動功能下降,降低支氣管清除感染病原體的能力,且吸煙也能增加呼吸道內(nèi)誘導(dǎo)痰內(nèi)炎性因子表達,惡化感染程度。⑤肺部疾病如慢性肺炎、支氣管炎、慢性阻塞性肺疾病等可致呼吸系統(tǒng)組織及器官長期受到炎性環(huán)境的刺激,導(dǎo)致支氣管黏膜腺體增生,刺激其分泌大量黏液,堵塞細支氣管形成易感染菌定植環(huán)境,增加下呼吸道感染率。⑥糖尿病患者本身就屬于醫(yī)院感染高危人群,其身體在強刺激源如傷害或惡性腫瘤作用下因激素調(diào)節(jié)和細胞因子分泌異常出現(xiàn)應(yīng)激性高血糖,高糖環(huán)境能增高機體內(nèi)反應(yīng)性氧化物(ROS)表達,ROS 可誘導(dǎo)各種促炎因子表達上升,產(chǎn)生炎性級聯(lián)反應(yīng)誘發(fā)和惡化感染,因此合并糖尿病能進一步增加化療腫瘤患者下呼吸道感染風(fēng)險。因此,對有吸煙史、伴有慢性阻塞性肺疾病、慢性氣管炎、慢性支氣管炎和慢性肺炎等肺部疾病或炎癥的腫瘤患者,監(jiān)督其遵醫(yī)囑按時服藥治療肺部病癥,術(shù)前指導(dǎo)其進行相應(yīng)的呼吸功能訓(xùn)練,指導(dǎo)家屬正確給患者翻身和叩背,鼓勵患者進行深呼吸訓(xùn)練提升肺活量;整個化療期為伴有高血壓及糖尿病患者制定降血壓及血糖控制的干預(yù)方案;指導(dǎo)家屬為其準(zhǔn)備富含蛋白質(zhì)、維生素及低糖、低脂肪、低鹽的食譜,給其補充足夠營養(yǎng),加快其損傷身體恢復(fù);觀察患者心理狀態(tài),視情況進行心理干預(yù),降低其焦慮及抑郁心理。
本研究中化療腫瘤患者發(fā)生下呼吸道感染者占6.38%,非下呼吸道感染者占93.62%,可獲得感染和非下呼吸道感染患者數(shù)據(jù)數(shù)量存在明顯不平衡。傳統(tǒng)統(tǒng)計學(xué)預(yù)警模型對多數(shù)類如非感染人數(shù)預(yù)測效果高,而對少數(shù)類如感染人數(shù)預(yù)測效果較差[18],是因為當(dāng)統(tǒng)計數(shù)據(jù)高度不平衡時,篩查特異度能顯著影響模型預(yù)測精度,導(dǎo)致其對陽性個體預(yù)測結(jié)果誤差較高,因此,需要解決本研究中感染與非下呼吸道感染患者數(shù)量不平衡數(shù)據(jù)分類問題,本文引入過抽樣方法即SMOTE算法對原始數(shù)據(jù)進行重采樣技術(shù)重建,獲得感染和非感染比例近似為1新樣本數(shù)據(jù),結(jié)合多因素logistic回歸分析結(jié)果,得到基于SMOTE算法的預(yù)警模型。以預(yù)警概率P為診斷變量和化療腫瘤患者是否感染為金標(biāo)準(zhǔn),對模型預(yù)警效應(yīng)進行 ROC曲線分析,結(jié)果顯示SMOTE算法預(yù)警模型對原始數(shù)據(jù)預(yù)警效率AUC為0.949(95%CI:0.937~0.961),高于原始數(shù)據(jù)預(yù)警模型AUC面積0.780(95%CI:0.734~0.846),利用構(gòu)建化療患者下呼吸道風(fēng)險預(yù)測評分模型對驗證組患者進行驗證,獲得原始數(shù)據(jù)預(yù)警模型AUC為0.757(95%CI:0.708~0.805),基于SMOTE算法的預(yù)警模型AUC為0.908(95%CI:0.855~0.961),基于SMOTE算法的預(yù)警模型對驗證組患者預(yù)測TPR值低于原始數(shù)據(jù)預(yù)警模型,而PPV、F-score均高于原始數(shù)據(jù)預(yù)警模型,說明使用SMOTE算法對本研究下呼吸道感染與非下呼吸道感染患者不平衡數(shù)據(jù)進行重建,使用重建數(shù)據(jù)擬合logistic預(yù)測模型,獲得新預(yù)警模型預(yù)測準(zhǔn)確率相對更高。
由本研究結(jié)果可知,化療腫瘤患者發(fā)生下呼吸道感染受年齡、BMI值是否正常、惡性腫瘤分期、吸煙史、是否合并肺部疾病、糖尿病的影響,結(jié)合上述影響因素基于SMOTE 算法對數(shù)據(jù)進行重采樣技術(shù)重建,獲得的預(yù)警模型比傳統(tǒng)logistic回歸建立的模型預(yù)測效應(yīng)更優(yōu)。由于本研究因時間和環(huán)境所限,本研究僅收集了4所醫(yī)院化療腫瘤患者為研究對象,導(dǎo)致所選樣本量選擇較少,且未對其他不同感染部位患者的混雜因素進行比較分析,導(dǎo)致研究結(jié)果不完善,需要進一步擴大研究對象范圍及納入更多可能的影響因素,從而使研究結(jié)論更完善。