樊 浩 ,劉 幸 ,張 樂(lè) ,李畏嫻 ,吳雪嬌 ,韓 祎 ,姚曉蝶
(1)大理大學(xué)藥學(xué)院,云南 大理 671000;2)云南省傳染病臨床醫(yī)學(xué)中心/昆明市第三人民醫(yī)院藥學(xué)部,云南 昆明 650041)
結(jié)核病死亡人數(shù)在傳染性疾病領(lǐng)域位列第一,也是全球第十三大死亡原因之一,2022 年WHO全球結(jié)核病報(bào)告中提到,全球結(jié)核病每日死亡人數(shù)已超過(guò)新型冠狀病毒感染死亡的人數(shù)[1],預(yù)計(jì)2023 年結(jié)核病將取代新型冠狀病毒再次成為全球單一傳染源的主要死亡原因[2]。其中結(jié)核病患者病原體檢測(cè)的全球平均陽(yáng)性率為57%,在貧困的農(nóng)村地區(qū),這一比例更低[3]。因此,發(fā)展中國(guó)家的結(jié)核病控制組織和患者(特別是痰呈陰性的患者)迫切需要快速、準(zhǔn)確、簡(jiǎn)單和廉價(jià)的活動(dòng)性肺結(jié)核(active tuberculosis,ATB)檢測(cè)方法。
痰涂片檢查是診斷活動(dòng)性結(jié)核病最常用的細(xì)菌學(xué)方法,同時(shí)也是檢測(cè)結(jié)核分枝桿菌(mycobacterium tuberculosis,MTB)的金標(biāo)準(zhǔn),但該方法靈敏度較低,且需要4~6 周才能得到結(jié)果,這不適用于快速檢測(cè)MTB[4]。與之相比,核酸檢測(cè)技術(shù)的優(yōu)勢(shì)在于其表現(xiàn)出較高的靈敏度,特別是在提高速度的同時(shí),還能保持結(jié)核確診的準(zhǔn)確性。但核酸檢測(cè)的診斷方法所需的設(shè)備、設(shè)施和試劑成本較高,一定程度上限制了它們的廣泛應(yīng)用[5]。
血液的異常結(jié)果可以預(yù)示患者存在血液疾病和結(jié)核分枝桿菌感染。常規(guī)血檢可廣泛用于活動(dòng)性肺結(jié)核的檢測(cè)。然而,常規(guī)血液檢測(cè)結(jié)果的使用可能需要不斷的完善才能有效地幫助ATB 的診斷。既往研究表明,炎性蛋白、細(xì)胞因子、淋巴細(xì)胞等單一常規(guī)血液標(biāo)志物可能有助于識(shí)別ATB[6-7],但這些標(biāo)志物作為診斷標(biāo)志物時(shí)的敏感性和特異性相對(duì)較低,假陽(yáng)性率較高,不適用于快速、準(zhǔn)確的診斷。本研究旨在利用廣泛可用的生物標(biāo)志物組合構(gòu)建決策樹(shù)和Logistic 回歸預(yù)測(cè)模型,并評(píng)估這些模型的預(yù)測(cè)價(jià)值,為ATB 的防治提供參考依據(jù)。
實(shí)驗(yàn)組:以2021 年3 月至2023 年3 月期間昆明市第三人民醫(yī)院收治的活動(dòng)性肺結(jié)核患者200 例,男性113 例,女性87 例,平均年齡(48.94±18.20)歲。對(duì)照組:以同期健康體檢者200 例,男性105 例,女性95 例,平均年齡(45.83±15.50)歲。
全部ATB 患者按照《肺結(jié)核診斷標(biāo)準(zhǔn)》(WS288-2017)[8]:痰MTB 培養(yǎng)陽(yáng)性、MTB 核酸檢測(cè)陽(yáng)性、胸部影像學(xué)檢查、病理學(xué)檢查等確診為活動(dòng)性肺結(jié)核的患者,排除標(biāo)準(zhǔn)[9]:(1)患有心臟、肝臟、腎臟等重要臟器性疾??;(2)合并HIV 和細(xì)胞免疫缺陷;(3)合并其他細(xì)菌感染;(5)合并嚴(yán)重循環(huán)功能障礙。
使用昆明市第三人民醫(yī)院信息管理系統(tǒng)進(jìn)行電子查閱,收集患者的臨床資料,具體包括年齡、性別、免疫球蛋白A(IgA)、免疫球蛋白M(IgM)、免疫球蛋白G(IgG)、觸珠蛋白(HAP)、α1 抗胰蛋白酶(AAT)、α1 酸性糖蛋白(AGP)、干擾素γ(IFN-γ)、腫瘤壞死因子α(TNF-α)、干擾素α(IFN-α)、白介素-1(IL-1)、白介素-2(IL-2)、白介素-4(IL-4)、白介素-5(IL-5)、白介素-6(IL-6)、白介素-8(IL-8)、白介素-10(IL-10)、白介素-12p70(IL-12p70)、白介素-17(IL-17)、CD+3 淋巴細(xì)胞絕對(duì)數(shù)(CD+3)、CD+4 淋巴細(xì)胞絕對(duì)數(shù)(CD+4)、CD+8 淋巴細(xì)胞絕對(duì) 數(shù)(CD+8)、CD+4 淋巴細(xì)胞與CD+8 淋巴細(xì)胞的比值(CD+4/CD+8)、C 反應(yīng)蛋白(CRP),并完成錄入、建立數(shù)據(jù)庫(kù)和統(tǒng)計(jì)分析等工作。
分別在是否根據(jù)二元Logistic 回歸結(jié)果的條件下建立決策樹(shù)模型。決策樹(shù)1 納入單因素分析中有統(tǒng)計(jì)學(xué)意義的因子,根據(jù)Logistics 回歸結(jié)果建立的決策樹(shù)模型命名為決策樹(shù)2,采用SPSS 27.0 軟件建立樹(shù)模型。條件設(shè)定選項(xiàng)中父節(jié)點(diǎn)最小個(gè)案數(shù)為20,子節(jié)點(diǎn)最小個(gè)案數(shù)為5。
數(shù)據(jù)處理軟件為SPSS Statistics 27.0 統(tǒng)計(jì)軟件。計(jì)數(shù)資料用“比值比[n(%)]”描述,計(jì)量資料以“中位數(shù)(四分位數(shù))[M(P25,P75)]”表示,選擇秩和檢驗(yàn)。以P< 0.05 為差異有統(tǒng)計(jì)學(xué)意義。單因素中具有統(tǒng)計(jì)學(xué)意義的因子納入二元Logistic回歸,建立L ogistic 回歸模型,并使用MedCalc19.8統(tǒng)計(jì)軟件比較3 組ROC 曲線下面積。
本實(shí)驗(yàn)數(shù)據(jù)皆為偏態(tài)分布,選用秩和檢驗(yàn),分析結(jié)果顯示,各組間年齡、男女構(gòu)成比情況比較,差異均無(wú)統(tǒng)計(jì)學(xué)意義(P> 0.05)。2 組間CRP、TNF-α、AGP、AAT、HAP、IgM、CD+3、CD+4、CD+8、IL-1、IL-2、IFN-γ、IL-4、IL-5、IL-6、IL-10、IL-17,差異具有統(tǒng)計(jì)學(xué)意義(P< 0.05),見(jiàn)表1。
表1 實(shí)驗(yàn)組與對(duì)照組單因素分析結(jié)果[n(%)/M(P25,P75)]Tab.1 Results of one-way analysis of variance between experimental and control groups [n(%)/M(P25,P75)]
根據(jù)單因素分析結(jié)果,將P <0.05 的變量納入二元Logistic 回歸分析。結(jié)果顯示,共篩選出6 個(gè)獨(dú)立影響因素AAT、IL-4、IL-6、IL-17、IFN-γ、CD+4,見(jiàn)表2。
表2 活動(dòng)性肺結(jié)核影響因素的二元Logistics 回歸分析Tab.2 Binary Logistic regression analysis of factors influencing ATB
根據(jù)單因素分析結(jié)果中有統(tǒng)計(jì)學(xué)差異的變量建立決策樹(shù),結(jié)果顯示決策樹(shù)1 分為3 層,見(jiàn)圖1。與活動(dòng)性肺結(jié)核相關(guān)的危險(xiǎn)因素依次為CRP、IL-1、IL-6、CD+4、IL-17、AGP、IFN-γ。樹(shù)狀結(jié)構(gòu)的第一層為CRP,CRP > 24.2 mg/L 的人群活動(dòng)性肺結(jié)核患病率較高為94.3%。CRP 值在3.1 mg/L < CRP < 24.2 mg/L 的人群中IL-6 對(duì)活動(dòng)性肺結(jié)核的影響有統(tǒng)計(jì)學(xué)意義(P< 0.01),IL-6 絕對(duì)值 > 12.25 Pg/mL 的人群活動(dòng)性肺結(jié)核患病率達(dá)100%。將Logistic 回歸分析結(jié)果中P< 0.05 的變量AAT、IL-4、IL-6、IL-17、IFN-γ、CD+4納入決策樹(shù)分析(決策樹(shù)2),結(jié)果顯示,決策樹(shù)模型2 以IL-6 作為根節(jié)點(diǎn),其后是AAT、IL-4、IL-17 作為子節(jié)點(diǎn),見(jiàn)圖2。
Logistic 回歸模型 AUC 為 0.887(95%CI:0.852~0.917),預(yù)測(cè)準(zhǔn)確度為84.1%。模型集決策樹(shù)分析結(jié)果顯示,決策樹(shù)1 的AUC 為0.900(95%CI:0.867~0.928),預(yù)測(cè)準(zhǔn)確度為85.2%;決策樹(shù)2 的AUC 為0.957(95%CI:0.819~0.890),預(yù)測(cè)準(zhǔn)確度為83.8%,見(jiàn)圖3 和表3。結(jié)果顯示:3 組模型對(duì)活動(dòng)性肺結(jié)核均有一定的預(yù)測(cè)價(jià)值。
圖3 3 組模型ROC 曲線下面積比較Fig.3 Comparison of the area under the ROC curve for the three model groups
表3 3 組模型ROC 曲線下面積Tab.3 the area under the ROC curve for the three groups of models
3 組模型的AUC 比較結(jié)果顯示,決策樹(shù)1 的AUC 優(yōu)于決策樹(shù)2(95%CI:0.001 9~0.084 1,P<0.05),但決策樹(shù)1 的AUC 與Logistic 模型AUC比較差異無(wú)統(tǒng)計(jì)學(xué)意義(95%CI:0.026~0.052,P=0.526),見(jiàn)表4。
表4 3 組模型ROC 曲線下面積比較結(jié)果Tab.4 Comparison of the results of the area under the ROC curve for the three groups of models
雖然新型冠狀病毒的管控措施有效控制了結(jié)核病的傳播,但新冠肺炎疫情導(dǎo)致的ATB 基本服務(wù)的中斷、MTB 檢測(cè)的暫停、更廣泛的ATB 預(yù)測(cè)因素(例如營(yíng)養(yǎng)不良、貧困和人均收入)等,嚴(yán)重影響著結(jié)核病的發(fā)病率和死亡率[10]。2020 年和2021 年我國(guó)新發(fā)結(jié)核病報(bào)告中病例的減少也預(yù)示著未診斷和治療的結(jié)核患者例數(shù)將有所增加,將直接導(dǎo)致結(jié)核病死亡病例數(shù)增加和更多的社區(qū)傳染傳播。因此,明確ATB 的主要危險(xiǎn)因素,對(duì)其防控有著重要的價(jià)值。
本研究建立了ATB 的風(fēng)險(xiǎn)預(yù)測(cè)模型(決策樹(shù)模型和Logistic 回歸模型)并進(jìn)行了對(duì)比,旨在為ATB 早期診斷提供參考。決策樹(shù)模型與Logistic回歸模型都突出了CD+4、IL-6、IL-17、IFN-γ等對(duì)ATB 的影響,而在Logistic 回歸模型中有意義的變量AAT 和IL-4,并未進(jìn)入決策樹(shù)的節(jié)點(diǎn)。考慮受決策樹(shù)深度值設(shè)置的限制,這些變量可能在更深的節(jié)點(diǎn)才會(huì)顯示。此外有研究者明確指出Logistic 回歸與決策樹(shù)模型在算法上有明顯差異[11],主要體現(xiàn)在Logistic 回歸擅長(zhǎng)分析線性關(guān)系,專(zhuān)注于擬合整體關(guān)系,比決策樹(shù)能更好的分析數(shù)據(jù)的整體結(jié)構(gòu),但對(duì)極端值更加敏感,容易受到極端值的影響。另一方面,由于決策樹(shù)使用的是分割的方法,因此能更深入地了解數(shù)據(jù)的細(xì)節(jié)[12],但同時(shí)失去了對(duì)全局的把握,對(duì)多變量同時(shí)檢驗(yàn)的能力明顯低于Logistic。
本研究表明,在決策樹(shù)模型中CRP 是ATB的最強(qiáng)預(yù)測(cè)因子。CRP 是臨床研究中最常見(jiàn)的炎性標(biāo)志物,當(dāng)MTB 入侵機(jī)體時(shí),由肝臟產(chǎn)生大量的反應(yīng)蛋白用于激活補(bǔ)體、調(diào)節(jié)吞噬細(xì)胞功能等[13],表明CRP 可作為ATB 的敏感指標(biāo),這與Rohini K 研究結(jié)果相符[14]。本研究也顯示IL-4、IL-6、IL-17 是ATB 的危險(xiǎn)因素。在CRP 及刺激信號(hào)影響下,機(jī)體特定細(xì)胞被激活,釋放TNFα,繼而激活其他炎性因子,引發(fā)瀑布效應(yīng),通過(guò)局部應(yīng)激細(xì)胞聚集,促進(jìn)巨噬細(xì)胞活化,提高吞噬能力[15],當(dāng)巨噬細(xì)胞被激活后釋放TNF-α,機(jī)體IL-1、IL-6 水平升高,促進(jìn)肉芽腫組織形成,并有助于控制MTB 感染[16]。CD+4 細(xì)胞在結(jié)核病免疫進(jìn)程中發(fā)揮主導(dǎo)作用,當(dāng)ATB 患者的CD+4細(xì)胞水平明顯降低時(shí),大大降低了對(duì)結(jié)核桿菌的殺傷力,使結(jié)核分枝桿菌得以增殖,使?jié)摲慕Y(jié)核病患者進(jìn)入活動(dòng)階段。Logistic 回歸及決策樹(shù)模型分析中均表明CD+4 細(xì)胞為ATB 的保護(hù)因素(OR< 1)。這與文獻(xiàn)[17]報(bào)道結(jié)果一致。
ATB 影響因素的分析現(xiàn)如今大部分還停留在單因素分析上,然而單一指標(biāo)用于預(yù)測(cè)疾病的能力有限,很難做出準(zhǔn)確的判斷[18]。本研究基于Logistic 回歸算法和決策樹(shù)算法建立了ATB 的風(fēng)險(xiǎn)預(yù)測(cè)模型,為ATB 的早期診斷提供思路。經(jīng)檢驗(yàn)Logistic 回歸和決策樹(shù)1 的預(yù)測(cè)效果無(wú)統(tǒng)計(jì)學(xué)差異,雖然決策樹(shù)1 模型的準(zhǔn)確度優(yōu)于Logistic回歸模型,但敏感度卻低于Logistic 回歸模型。相較于決策樹(shù)模型,當(dāng)存在混雜變量的情況時(shí),Logistic 回歸可準(zhǔn)確反應(yīng)自變量對(duì)因變量的作用,對(duì)于全局的掌控性更強(qiáng),比決策樹(shù)更能體現(xiàn)自變量與因變量的線性關(guān)系,并能通過(guò)OR 值量化兩個(gè)變量之間的效應(yīng)[19]。決策樹(shù)模型與Logistic 回歸模型相比,雖然對(duì)全局的控制較差,但它不受極端值的影響,也可以分析非線性和高度相關(guān)的數(shù)據(jù)[20]。此外決策樹(shù)模型能形象的在樹(shù)狀圖中將各危險(xiǎn)因素呈現(xiàn)出來(lái),以百分比的方式呈現(xiàn)各危險(xiǎn)因素的特征,將不同特征的危險(xiǎn)因素分開(kāi),便于醫(yī)護(hù)人員識(shí)別高危人群[21]。
本研究為ATB 危險(xiǎn)因素的研究提供新的研究方向,Logistic 回歸模型與決策樹(shù)模型在ATB 危險(xiǎn)因素評(píng)估方面都具有重要的應(yīng)用價(jià)值,可互為補(bǔ)充。ATB 影響因素眾多,不同危險(xiǎn)因素間會(huì)相互干擾,考慮到對(duì)Logistic 的影響,本課題組將利用決策樹(shù)模型的分析在各種檢查中找出數(shù)據(jù)的局部結(jié)構(gòu),作為L(zhǎng)ogistic 中構(gòu)建因變量的依據(jù)。從不同層面分析ATB 的危險(xiǎn)因素及作用,同時(shí)將納入潛伏性肺結(jié)核患者臨床資料進(jìn)行系統(tǒng)分析,從不同方向完善預(yù)測(cè)模型,為ATB 的預(yù)防與控制提供有價(jià)值的參考。