朱碧云 王妮 陳卉 應(yīng)曉飛 康娜 張淳
2019年新型冠狀病毒肺炎(corona virus disease 2019,COVID-19)在全球范圍內(nèi)廣泛傳播,截至2021年5月7日,全球確診病例超過(guò)1.5億例,其中死亡病例超過(guò)326萬(wàn)例[1]。目前,新型冠狀病毒肺炎(以下簡(jiǎn)稱(chēng)新冠肺炎)在全世界范圍內(nèi)廣泛傳播,已經(jīng)成為當(dāng)前乃至未來(lái)幾年最嚴(yán)峻的全球性公共衛(wèi)生事件。冬春季節(jié),也是流感病毒性肺炎爆發(fā)流行的時(shí)間,快速、準(zhǔn)確地鑒別新冠肺炎與流感病毒性肺炎至關(guān)重要,有利于開(kāi)展針對(duì)性的治療,避免醫(yī)療資源浪費(fèi)。
新冠肺炎與普通流感性肺炎在病原學(xué)、流行病學(xué)以及發(fā)病癥狀方面具有一定的相似性,均以發(fā)熱為主要癥狀,且新冠肺炎臨床癥狀不典型或者無(wú)臨床癥狀,單純依靠臨床癥狀無(wú)法將其與普通流感性肺炎區(qū)分[2-3]。目前兩者確診的金標(biāo)準(zhǔn)均為核酸檢測(cè),但是核酸檢測(cè)受控因素較多,容易出現(xiàn)假陰性。另一種鑒別手段是通過(guò)CT檢查,但是早期癥狀相似、檢測(cè)成本高、檢測(cè)結(jié)果滯后及臨床醫(yī)生主觀判斷失誤等均會(huì)為結(jié)果造成差異。
臨床研究[4-5]及《新型冠狀病毒肺炎診療方案》均指出,新冠肺炎患者外周白細(xì)胞總數(shù)、淋巴細(xì)胞計(jì)數(shù)、C反應(yīng)蛋白等多項(xiàng)指標(biāo)均會(huì)有所變化,為開(kāi)展基于實(shí)驗(yàn)室指標(biāo)的診斷和鑒別診斷模型研究提供了依據(jù)。近年來(lái),機(jī)器學(xué)習(xí)已逐漸應(yīng)用于醫(yī)學(xué)領(lǐng)域,通過(guò)對(duì)樣本集進(jìn)行學(xué)習(xí),發(fā)現(xiàn)其中隱含的規(guī)律,對(duì)疾病的早期診斷及預(yù)后具有重要的臨床指導(dǎo)意義[6-8]。由于流感病毒性肺炎和新冠肺炎均可以通過(guò)呼吸道傳播,臨床癥狀與新冠肺炎相似,容易造成誤診與漏診,為此,進(jìn)行兩者的鑒別診斷模型的研究具有重要意義。本研究回顧性收集新冠肺炎及流感病毒性肺炎患者的七大類(lèi)84項(xiàng)實(shí)驗(yàn)室檢測(cè)指標(biāo),采用決策樹(shù)及其集成學(xué)習(xí)算法建立兩類(lèi)肺炎的鑒別診斷模型,并篩選影響診斷結(jié)果的重要實(shí)驗(yàn)室指標(biāo),為醫(yī)生診斷提供參考依據(jù)。
回顧性收集首都醫(yī)科大學(xué)附屬北京地壇醫(yī)院2020年1月至6月收治的327名新冠肺炎患者入院后的首次實(shí)驗(yàn)室數(shù)據(jù),由于其中152名患者在醫(yī)院信息系統(tǒng)中記錄的實(shí)驗(yàn)室項(xiàng)目過(guò)少,被直接剔除,最后剩余有效數(shù)據(jù)175例。以相同方式選取2019年同期收治的157名流感病毒性肺炎患者的實(shí)驗(yàn)室數(shù)據(jù)。提取全血細(xì)胞分析、電解質(zhì)系列、降鈣素原檢測(cè)、尿液分析、急診肝功、心肌酶譜、凝血組合七項(xiàng),共計(jì)84個(gè)指標(biāo)。尿液相關(guān)指標(biāo)中,有17%左右數(shù)值缺失,其余指標(biāo)的缺失值不足10%或更少,這部分缺失值利用所有樣本的眾數(shù)進(jìn)行插補(bǔ)。另外,尿液檢查的8個(gè)指標(biāo)均有超過(guò)95%的患者結(jié)果為陰性,故將其剔除,最終剩余76個(gè)特征。
由于特征較多,特征之間可能具有一定的相關(guān)性及存在噪聲特征,影響診斷分類(lèi)的效果。因此,在建立診斷模型之前,利用單因素Logistic回歸分析進(jìn)行特征篩選,保留P<0.05的特征用于下一步建模。
本研究采用CART決策樹(shù)以及基于決策樹(shù)的集成算法建立分類(lèi)(診斷)模型。相對(duì)其他算法,決策樹(shù)算法相對(duì)簡(jiǎn)單,計(jì)算復(fù)雜度不高,模型輸出結(jié)果直觀,易于理解和實(shí)現(xiàn)。
但是決策樹(shù)的構(gòu)建主要依賴(lài)于訓(xùn)練集,其預(yù)測(cè)結(jié)果的準(zhǔn)確率往往不高,可擴(kuò)展性也不是很好[9],因此,本研究除了構(gòu)建單棵決策樹(shù)模型外,還采用了兩種以單棵決策樹(shù)為弱分類(lèi)器的集成模型,即隨機(jī)森林分類(lèi)器和極端梯度提升(eXtreme gradient boosting,XGBoost)分類(lèi)器。在本研究中,這兩個(gè)集成模型均分別包含200棵決策樹(shù)。此外,在構(gòu)建決策樹(shù)模型時(shí)通常使用基尼系數(shù)或信息增益選擇樹(shù)的分支節(jié)點(diǎn),因此本文利用CART決策樹(shù)和隨機(jī)森林提供的特征基尼系數(shù)以及XGBoost提供的特征平均增益來(lái)評(píng)價(jià)特征的重要性[10-11]。
考慮到樣本例數(shù)較少以及運(yùn)算耗時(shí),采用5折交叉驗(yàn)證法計(jì)算準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)。利用接受者操作特征(receiver operating characteristic,ROC)曲線下面積(area under curve,AUC)綜合評(píng)價(jià)預(yù)測(cè)模型的性能,并對(duì)各折返回的特征重要性求均值,篩選出影響分類(lèi)結(jié)果的重要因素。
將76個(gè)特征逐一進(jìn)行單因素Logistic回歸分析,保留46個(gè)P值小于0.05的特征,涵蓋14個(gè)全血細(xì)胞分析指標(biāo)、7個(gè)電解質(zhì)系列指標(biāo)、降鈣素原檢測(cè)、9個(gè)尿液分析指標(biāo)、6個(gè)急診肝功指標(biāo)、4個(gè)心肌酶譜指標(biāo)、6個(gè)凝血相關(guān)指標(biāo)。具體結(jié)果見(jiàn)表1。其中,優(yōu)勢(shì)比(odds ratio,OR)值大于1的指標(biāo),表示其為確診新冠的危險(xiǎn)因素,需引起注意。
表1 經(jīng)單因素Logistic回歸分析后部分特征初篩結(jié)果
各模型預(yù)測(cè)結(jié)果見(jiàn)表2及圖1。結(jié)果顯示,單棵CART決策樹(shù)模型的整體表現(xiàn)最差;隨機(jī)森林模型的召回率優(yōu)于其他模型;XGBoost的準(zhǔn)確率、精確率、F1分?jǐn)?shù)和AUC值最高,整體表現(xiàn)最好。
表2 決策樹(shù)、隨機(jī)森林以及XGBoost模型預(yù)測(cè)結(jié)果
圖1 決策樹(shù)、隨機(jī)森林以及XGBoost模型分類(lèi)性能(ROC曲線及混淆矩陣)
對(duì)決策樹(shù)、隨機(jī)森林和XGBoost各折返回的特征重要性求均值,排名前10的指標(biāo)及其平均重要性如表3所示。三種模型中,降鈣素原重要性均排在第一位,說(shuō)明此指標(biāo)在三種模型預(yù)測(cè)新冠肺炎中具有重要作用。排名靠前的10個(gè)指標(biāo)中,淋巴細(xì)胞計(jì)數(shù)、淋巴細(xì)胞百分比,白蛋白、總蛋白,C反應(yīng)蛋白和纖維蛋白原定量測(cè)定6個(gè)指標(biāo)均涵蓋在其中,提示這些指標(biāo)或有臨床意義。
表3 不同預(yù)測(cè)模型提供的特征重要性
新冠肺炎的臨床癥狀主要是發(fā)熱、干咳、乏力,這與流感病毒性肺炎很相似。另外新型冠狀病毒感染后臨床癥狀多樣性及不典型性給診斷帶來(lái)很大的困難[12-13]。目前兩種疾病確診均依靠病毒核酸檢測(cè),但是核酸檢測(cè)受控因素較多,特別是COVID-19流行高峰期時(shí),其敏感度僅為59%[14]。本研究對(duì)患者的實(shí)驗(yàn)室檢測(cè)指標(biāo)進(jìn)行清理、挖掘,利用機(jī)器學(xué)習(xí)模型對(duì)兩種病毒性肺炎進(jìn)行鑒別預(yù)測(cè),并從中找出對(duì)兩種疾病診斷影響較大的因素,以期為兩種病毒性肺炎的鑒別診斷提供參考意見(jiàn)。
目前,隨著海量醫(yī)療健康大數(shù)據(jù)的產(chǎn)生,傳統(tǒng)的統(tǒng)計(jì)學(xué)方法已經(jīng)無(wú)法滿足數(shù)據(jù)分析需求,越來(lái)越多的研究學(xué)者開(kāi)始嘗試?yán)脵C(jī)器學(xué)習(xí)方法,如決策樹(shù)及其集成學(xué)習(xí)算法,建立診斷模型。曾雪元等[6]利用決策樹(shù)算法構(gòu)建缺血性卒中復(fù)發(fā)的預(yù)測(cè)模型,模型精確度為81%。楊青等[7]采用決策樹(shù)算法構(gòu)建腫瘤患者難免性壓瘡風(fēng)險(xiǎn)預(yù)測(cè)模型, ROC曲線下面積為0.84。隨機(jī)森林和XGBoost是基于決策樹(shù)的集成學(xué)習(xí)算法,有研究表明,其性能通常要優(yōu)于單棵決策樹(shù)。于大海等[8]將Logistic回歸方法篩選出的與并發(fā)上消化道出血有關(guān)聯(lián)的變量作為輸入變量,建立隨機(jī)森林和決策樹(shù)模型,決策樹(shù)的準(zhǔn)確率(75.1%)和ROC曲線下面積(0.72)均低于隨機(jī)森林(88.9%和0.909)。本研究的結(jié)果也顯示,隨機(jī)森林和XGBoost模型的綜合預(yù)測(cè)性能要優(yōu)于單一決策樹(shù)模型,ROC曲線下面積高達(dá)0.958和0.963,證實(shí)了基于決策樹(shù)的集成模型在進(jìn)行新冠肺炎鑒別診斷時(shí)具有優(yōu)越的性能。高瞻等[15]以患者生化檢驗(yàn)數(shù)據(jù)為特征,借助XGBoost模型建立新冠肺炎智能檢測(cè)系統(tǒng),雖然可以達(dá)到94.3%的準(zhǔn)確率,但敏感度低于本研究的結(jié)果(83.3%與90.8%),容易造成新冠肺炎患者漏診,說(shuō)明僅使用生化指標(biāo)進(jìn)行診斷預(yù)測(cè)仍有一定的局限性。
利用決策樹(shù)及其集成算法建立預(yù)測(cè)模型得到的另一個(gè)有意義的結(jié)果是篩選出了影響預(yù)測(cè)結(jié)果的重要因素。白歡等[4]分析新冠肺炎患者早期外周血實(shí)驗(yàn)室檢查結(jié)果,發(fā)現(xiàn)白細(xì)胞、淋巴細(xì)胞、血小板、血清鈣顯著降低,C反應(yīng)蛋白顯著升高。劉子硯等[5]對(duì)347例新冠肺炎患者的實(shí)驗(yàn)室檢查結(jié)果進(jìn)行分析,顯示白細(xì)胞計(jì)數(shù)、淋巴細(xì)胞計(jì)數(shù)等指標(biāo)有明顯異常?;跀?shù)據(jù)挖掘方法,本研究也發(fā)現(xiàn),淋巴細(xì)胞計(jì)數(shù)、淋巴細(xì)胞百分比、白蛋白、總蛋白、C反應(yīng)蛋白和纖維蛋白原定量測(cè)定均是鑒別診斷新冠肺炎的重要因素,提示除核酸檢測(cè)和影像學(xué)檢查外,血常規(guī)、生化指標(biāo)及凝血機(jī)制結(jié)果可輔助臨床醫(yī)生進(jìn)行診療。
在醫(yī)療資源緊張和核酸檢測(cè)準(zhǔn)確率有待改進(jìn)的情況下,本研究基于決策樹(shù)的集成算法在利用實(shí)驗(yàn)室指標(biāo)進(jìn)行流感病毒性肺炎與新冠肺炎的鑒別診斷時(shí)具有一定的參考意義。本研究也存在一定的局限性。本研究?jī)H限于普通流感病毒性肺炎與新冠肺炎的鑒別診斷,尚不適用于一般的新冠肺炎診斷。此外,由于疾病的特殊性,本研究的病例樣本量較少,一些患者還可能同時(shí)伴有其他疾病,這些都可能對(duì)研究結(jié)果產(chǎn)生影響。今后將在進(jìn)一步擴(kuò)大樣本量的基礎(chǔ)上增加鑒別診斷疾病的種類(lèi),為新冠肺炎的臨床診斷提供更多參考依據(jù)。