田斌, 余暉, 任基剛, 汪漢林, 徐井旭, 黃陳翠
目前新型冠狀病毒肺炎(corona virus disease 2019,COVID-19)仍在全球廣泛傳播,COVID-19的篩查和確診主要依靠核酸檢測(cè),胸部CT作為一種重要的診斷手段不容忽視,已成為篩選、診斷和評(píng)估新型冠狀病毒肺炎嚴(yán)重程度的重要工具[1]。因?yàn)镃OVID-19患者首次聚合酶鏈?zhǔn)椒磻?yīng)(reverse transcription poly-merase chain reaction,RT-PCR)檢查的平均時(shí)間為(30±13)h[2],因此,胸部CT檢查不僅對(duì)COVID-19的診斷起到預(yù)警作用[3,4],還可以在等待RT-PCR結(jié)果時(shí)將可疑患者分流、隔離,為疫情的防控爭(zhēng)取時(shí)間。
因此,COVID-19患者的診斷與鑒別診斷非常重要,其早期診斷可避免在等待核酸檢測(cè)結(jié)果的過(guò)程中造成進(jìn)一步的蔓延和播散。由于傳統(tǒng)的人工閱片方法鑒別診斷COVID-19與社區(qū)獲得性肺炎(community acquired pneumonia,CAP)具有局限性,所以將人工智能(artificial intelligence,AI)技術(shù)用于COVID-19與CAP的鑒別診斷成為當(dāng)下研究的熱點(diǎn)。部分學(xué)者運(yùn)用線性支持向量機(jī)模型(linearSVM)鑒別診斷COVID-19與CAP,結(jié)果表明linearSVM模型可以有效鑒別COVID-19與CAP[5]。然而,機(jī)器學(xué)習(xí)的分類(lèi)模型種類(lèi)繁多,給應(yīng)用的選擇帶來(lái)一定困難。此外,目前并不清楚其它分類(lèi)模型是否也能有效鑒別COVID-19與CAP。因此,本研究通過(guò)應(yīng)用14種常用的機(jī)器學(xué)習(xí)分類(lèi)模型鑒別COVID-19和CAP,旨在探討鑒別COVID-19與CAP效能最高的機(jī)器學(xué)習(xí)分類(lèi)模型,為臨床醫(yī)師的早期干預(yù)提供更充分的影像學(xué)依據(jù)。
搜集經(jīng)臨床確診的COVID-19患者86例和CAP患者100例,包括其胸部CT圖像及臨床資料。
COVID-19患者納入標(biāo)準(zhǔn):①至少兩次核酸檢測(cè)陽(yáng)性的新型冠狀病毒肺炎患者;②患病期間有至少一次胸部CT掃描,圖像含有薄層圖像(層厚≤3 mm),且肺部有炎性CT表現(xiàn)。CAP患者納入標(biāo)準(zhǔn):①至少兩次核酸檢測(cè)為陰性的肺炎患者;②患病期間至少有一次胸部CT檢查,圖像含有薄層圖像(層厚≤3 mm),且肺部有炎性CT表現(xiàn)。排除標(biāo)準(zhǔn):①胸部CT圖像中有運(yùn)動(dòng)偽影致病灶顯示不清;②CT圖像中病灶太小不能識(shí)別或肺部無(wú)炎性CT征象;③胸部CT無(wú)薄層圖像(層厚≤3 mm);④臨床資料、核酸檢測(cè)資料丟失者。
研究的機(jī)器分類(lèi)學(xué)習(xí)流程包括回顧性數(shù)據(jù)采集、圖像預(yù)處理、肺部病變分割、特征提取、特征選擇和特征構(gòu)建、性能評(píng)價(jià),流程見(jiàn)圖1。對(duì)患者進(jìn)行胸部CT檢查,按照胸部CT標(biāo)準(zhǔn)的成像方案進(jìn)行掃描及重建。
圖1 利用14種機(jī)器學(xué)習(xí)模型對(duì)COVID-19與CAP的鑒別診斷流程。
將所有病例的胸部CT圖像以DICOM格式導(dǎo)入深??蒲衅脚_(tái)(https://research.deepwise.com)進(jìn)行自動(dòng)分割,分別由兩位經(jīng)驗(yàn)豐富的放射科醫(yī)生對(duì)自動(dòng)分割的病灶進(jìn)行修改、確認(rèn)后提交,以避開(kāi)血管及肋骨等非病灶區(qū)域(圖2~7)。
圖2 經(jīng)臨床確診的COVID-19病例,藍(lán)色線條表示邊界。a~c) 病灶被準(zhǔn)確分割,避開(kāi)了肋骨。 圖3 經(jīng)臨床確診的COVID-19病例,藍(lán)色線條表示邊界。a~c) 密度不均勻的層面被準(zhǔn)確分割。 圖4 經(jīng)臨床確診的COVID-19病例,藍(lán)色線條表示邊界。a~c) 密度淺淡的層面被準(zhǔn)確分割。 圖5 經(jīng)臨床確診的CAP病例,藍(lán)色線條表示邊界。a~c) 病灶被準(zhǔn)確分割,避開(kāi)了肋骨和胸膜。 圖6 經(jīng)臨床確診的CAP病例,藍(lán)色線條表示邊界。a~c) 病灶被準(zhǔn)確分割,避開(kāi)了血管及支氣管。 圖7 經(jīng)臨床確診的CAP病例,藍(lán)色線條表示邊界。a~c) 密度不均勻的層面被準(zhǔn)確分割,并避開(kāi)了降主動(dòng)脈。
14種分類(lèi)模型采用同樣的圖像預(yù)處理方式。在本研究中,采用了B樣條插值采樣技術(shù)(B-spline interpolation resampling techniques)進(jìn)行圖像預(yù)處理,即將原始薄層圖像重新采樣到1 mm×1 mm×1 mm的分辨率,應(yīng)用高通或低通小波濾波器(wavelet filter)和拉普拉斯高斯濾波器(laplacian of gaussian filter)對(duì)原始圖像進(jìn)行預(yù)處理及圖像變換。
提取原始圖像和預(yù)處理后圖像的影像組學(xué)特征,包括基于原始圖像或預(yù)處理后圖像像素值的一階特征、描述腫瘤形態(tài)的形態(tài)特征及描述腫瘤內(nèi)部和表面紋理的灰度共生矩陣(gray level co-occurrence matrix,GLCM)、灰度游程矩陣(gray level run length matrix,GLRLM)、灰度區(qū)域大小矩陣(gray level size zone matrix,GLSZM)和灰度相依矩陣(gray level dependence matrix,GLDM)紋理特征。為了消除病變標(biāo)注所帶來(lái)的影響,對(duì)組間進(jìn)行一致性分析,刪除一致性小于0.75的特征,然后對(duì)特征進(jìn)行相關(guān)性分析,隨機(jī)剔除相關(guān)性大于0.9的特征,最后采用Lasso算法用于特征降維和篩選,找出系數(shù)不為零的最重要特征用于建模,提升模型表現(xiàn)。
利用線性支持向量機(jī)(linear SVM)分類(lèi)器[6]、增強(qiáng)學(xué)習(xí)分類(lèi)器(Ada Boost)[7]、邏輯回歸分類(lèi)器(logistic Regression)[7-10]、線性支持向量分類(lèi)器(LinearSVC)[11]、決策樹(shù)分類(lèi)分類(lèi)器(Decision Tree)[12]、隨機(jī)森林分類(lèi)器(Random Forest)[9,13]、梯度推進(jìn)分類(lèi)器(Gradient Boosting)[14,15]、極端梯度增加算法分類(lèi)器(XGBoost)[16]、伯努利貝葉斯分類(lèi)器(BernoulliNB)[17]、高斯貝葉斯分類(lèi)器(GaussianNB)[18]、最臨近規(guī)則分類(lèi)器(K Nearest Neighbors)[19,20]、線性判別分析分類(lèi)器(LinearDiscriminant Analysis)[9,21]、隨機(jī)梯度下降分類(lèi)器(stochastic gradient descent,SGD)[22]、多層感知機(jī)分類(lèi)器(Multilayer Perceptron)[23]等14種分類(lèi)器分別建立模型,以上模型均采用5折交叉驗(yàn)證訓(xùn)練方法,即將所有數(shù)據(jù)分為5部分,其中4部分用于模型訓(xùn)練,1部分用于評(píng)估模型的有效性,最后將所有數(shù)據(jù)用于訓(xùn)練集和驗(yàn)證集。完成所有的訓(xùn)練和驗(yàn)證之后,用5個(gè)測(cè)試的平均值來(lái)評(píng)價(jià)模型的性能。為了評(píng)估預(yù)測(cè)模型在訓(xùn)練集和驗(yàn)證集中的性能,繪制了受試者工作特征(receiver operating characteristic curve,ROC)曲線,并計(jì)算出曲線下面積(area under curve,AUC),以評(píng)估分類(lèi)模型的性能,并將AUC作為評(píng)價(jià)模型性能的指標(biāo)。
采用SPSS 16.0軟件分析樣本的人口統(tǒng)計(jì)學(xué)數(shù)據(jù),運(yùn)用秩和檢驗(yàn)和χ2檢驗(yàn)分別評(píng)估COVID-19與CAP患者之間的年齡、性別差異。利用Scikit學(xué)習(xí)軟件包(0.20.3版)建立分類(lèi)模型,采用Matplotlib(版本3.1.0)繪制ROC曲線。采用SPSS 16.0軟件對(duì)一般數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)分析,對(duì)于分類(lèi)數(shù)據(jù),采用χ2檢驗(yàn)比較組間差異;對(duì)于定量數(shù)據(jù),采用獨(dú)立樣本t檢驗(yàn)比較組間差異。為了評(píng)價(jià)預(yù)測(cè)模型在訓(xùn)練集和驗(yàn)證集上的性能,繪制ROC曲線,在訓(xùn)練集和驗(yàn)證集上顯示分類(lèi)性能。以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
本研究共納入86例COVID-19患者,其中男34例,女52例,平均年齡(中位數(shù)±四分位間距)為(49.00±27.00)歲;同時(shí)納入100例CAP患者,其中男52例,女48例,平均年齡(中位數(shù)±四分位間距)為(38.00±31.75)歲。COVID-19與CAP兩組患者的性別差異無(wú)統(tǒng)計(jì)學(xué)意義(χ2=2.89,P=0.089),COVID-19組患者的平均年齡大于CAP組(Z=-3.546,P=0.000)。
本研究使用14種機(jī)器學(xué)習(xí)分類(lèi)模型,所有模型的AUC均大于0.9(表1),Random Forest模型的AUC最高(0.9406,圖8a),GaussianNB模型的AUC最低(0.9037,圖8b)。
圖8 機(jī)器學(xué)習(xí)分類(lèi)模型的診斷效能。a) Random Forest模型的ROC曲線,其AUC最高(0.9406); b) GaussianNB模型的ROC曲線,其AUC最低(0.9037)。
表1 經(jīng)科研平臺(tái)計(jì)算出的14種機(jī)器學(xué)習(xí)模型的AUC
核酸檢測(cè)是診斷新冠肺炎的金標(biāo)準(zhǔn)[24],但肺部炎癥不明顯的輕癥患者,核酸檢測(cè)往往呈陰性[25,26]。胸部CT作為診斷COVID-19的一種重要補(bǔ)充檢測(cè)手段,其可靠性得到廣泛認(rèn)可[27-31]。由于各種病毒性肺炎的CT表現(xiàn)具有相似性,為了鑒別診斷COVID-19與CAP,國(guó)內(nèi)外學(xué)者提出了許多可供鑒別的征象,如磨玻璃影、肺內(nèi)實(shí)變、光暈征、氣泡征、小葉間隔增厚、支氣管充氣征、胸膜下線、條索影、血管增粗、胸腔積液等[25,32-35]。然而有學(xué)者研究發(fā)現(xiàn),甲型(H1N1)流感病毒感染引起的肺炎表現(xiàn)類(lèi)似于COVID-19的胸部CT表現(xiàn),如外周分布、磨玻璃影、實(shí)變、胸膜下線、支氣管充氣征等征象在兩種病變間差異無(wú)統(tǒng)計(jì)學(xué)意義[36]。另外有報(bào)道指出,單純的肺部CT篩查可能導(dǎo)致COVID-19誤診為柯薩奇病毒肺炎[37]。傳統(tǒng)的人工閱片方式受閱片者工作經(jīng)驗(yàn)和工作年限等因素的影響,不可避免地帶有閱片者的主觀性。相關(guān)文獻(xiàn)報(bào)道,4位美國(guó)放射科醫(yī)生鑒別診斷219例COVID-19與205例CAP的敏感度分別為93%、83%、73%和73%,3位中國(guó)放射科醫(yī)生鑒別診斷219例COVID-19與205例CAP的敏感度分別為72%、72%和94%,特異度分別為94%、88%、24%[38],這說(shuō)明傳統(tǒng)的人工閱片方法具有局限性。
因此,有學(xué)者使用人工智能(AI)的方法鑒別診斷COVID-19與CAP,結(jié)果表明AI可有效鑒別COVID-19與CAP[39,40]。還有學(xué)者使用COVNet模型(一種深度學(xué)習(xí)模型)鑒別診斷COVID-19與CAP[3],結(jié)果表明深度學(xué)習(xí)技術(shù)可有效鑒別COVID-19與CAP,但深度學(xué)習(xí)需要大量的樣本數(shù)據(jù)來(lái)進(jìn)行模型訓(xùn)練,大量的數(shù)據(jù)不容易獲得,而且比較費(fèi)時(shí)。所以本研究采用對(duì)數(shù)據(jù)量要求較小的傳統(tǒng)機(jī)器學(xué)習(xí)方法,以胸部CT圖像的影像組學(xué)信息為特征的分類(lèi)模型來(lái)識(shí)別和鑒別COVID-19與CAP。目前,基于機(jī)器學(xué)習(xí)的肺部CT作為鑒別COVID-19與CAP的一種可靠方法和工具,已得到許多學(xué)者的研究證實(shí)[3,4,41]。
然而,以往研究多使用LinearSVM或單一的分類(lèi)模型來(lái)鑒別COVID-19與CAP,雖然表現(xiàn)出了優(yōu)越的效能[25],但沒(méi)有提出效能最優(yōu)的分類(lèi)模型。因?yàn)闄C(jī)器學(xué)習(xí)的分類(lèi)模型有許多種,因此本研究基于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,利用14種機(jī)器學(xué)習(xí)分類(lèi)模型鑒別COVID-19與CAP,通過(guò)AUC來(lái)評(píng)估分類(lèi)模型的診斷效能,并取得了很好的結(jié)果(AUC均大于0.9)。通過(guò)對(duì)14種機(jī)器學(xué)習(xí)分類(lèi)模型的橫向?qū)Ρ妊芯堪l(fā)現(xiàn),在鑒別診斷COVID-19與CAP方面,Random Forest分類(lèi)模型的性能最優(yōu)(AUC=0.9406)。研究表明,組合分類(lèi)器比單一分類(lèi)器的分類(lèi)效果更好,Random Forest是一種利用多個(gè)分類(lèi)樹(shù)對(duì)數(shù)據(jù)進(jìn)行判別與分類(lèi)的組合分類(lèi)方法,該分類(lèi)模型可用于判斷特征的重要程度以及他們之間是否會(huì)相互影響,適用于數(shù)據(jù)集較多的情況,相對(duì)于其他算法有較大的優(yōu)勢(shì)。Random Forest還具有數(shù)據(jù)的隨機(jī)性和特征選取的隨機(jī)性,使得隨機(jī)森林不容易陷入過(guò)度擬合,同時(shí)也使得隨機(jī)森林具有很好的抗噪聲能力[42],這可能是該模型在本研究中表現(xiàn)出優(yōu)越效能的原因。
本研究中COVID-19組患者的年齡大于CAP組,兩組之間差異有統(tǒng)計(jì)學(xué)意義,這可能是因?yàn)镃OVID-19好發(fā)于中老年人,尤其是患有慢性病的老年人[43,44]。
本研究存在以下局限性:①手動(dòng)修改科研平臺(tái)自動(dòng)分割的病灶,存在一定的不穩(wěn)定因素,但本研究通過(guò)組間一致性分析剔除了不穩(wěn)定的特征,盡量避免了不穩(wěn)定特征對(duì)結(jié)果的影響;②本研究?jī)H使用14種分類(lèi)模型,而其他機(jī)器學(xué)習(xí)分類(lèi)模型是否能夠有效鑒別COVID-19與CAP,有待進(jìn)一步研究與開(kāi)發(fā)。因此需要更多大樣本、多中心的研究為鑒別診斷COVID-19與CAP提供依據(jù)。
綜上所述,14種機(jī)器學(xué)習(xí)分類(lèi)模型均可有效鑒別COVID-19與CAP,具有較高的鑒別診斷效能(AUC值均>0.9),效能最高的模型是Random Forest(AUC=0.9406),能夠在早期診斷COVID-19方面發(fā)揮優(yōu)勢(shì)。