樊夢思,趙 紅*,曹捍波,余業(yè)洲,鄒立巍,段紹峰
(1.安徽醫(yī)科大學(xué)第二附屬醫(yī)院放射科,安徽 合肥 230601;2.浙江大學(xué)舟山醫(yī)院放射診斷中心,浙江 舟山 316000;3.GE醫(yī)療,上海 210000)
肺隱球菌病(pulmonary cryptococcosis, PC)是由新型隱球菌和格特(Gattii)隱球菌等引起的亞急性/慢性肺部真菌感染性疾病,主要發(fā)生于免疫功能受損者,也可見于免疫正常人群[1-2],后者常表現(xiàn)為單發(fā)或多發(fā)腫塊或結(jié)節(jié)[3]。PC患者臨床癥狀缺乏特異性,血清隱球菌莢膜多糖抗原(cryptococcal capsular polysaccharide antigen, CrAg) 檢測對血清HIV檢測陰性的PC患者敏感性不高[4]。影像學(xué)上結(jié)節(jié)/腫塊型PC與周圍型肺癌、肺結(jié)核(tuberculosis, TB)存在部分重疊,臨床易發(fā)生誤診。隱球菌對腦膜及神經(jīng)組織有明顯親和性,可透過血腦屏障造成嚴重中樞神經(jīng)系統(tǒng)感染,因此及早確診非常重要。影像組學(xué)采用人工智能提取數(shù)據(jù)特征化算法,將包含反映潛在病理生理特征的圖像轉(zhuǎn)變?yōu)楦呔S度數(shù)據(jù),之后對數(shù)據(jù)進行分析,以尋找能綜合評價腫瘤表型的相關(guān)特征信息[5-6],已廣泛用于腫瘤診斷、分級、預(yù)后評估及預(yù)測復(fù)發(fā)等[7-10]。本研究觀察以影像組學(xué)預(yù)測模型鑒別診斷結(jié)節(jié)/腫塊型PC與肺腺癌、肺TB的可行性。
1.1 一般資料 回顧性分析2016年10月—2019年5月28例經(jīng)病理證實的結(jié)節(jié)/腫塊型PC(PC組)、30例病理確診肺腺癌(肺腺癌組)及26例肺TB(TB組)患者的胸部CT平掃資料。PC組男18例,女10例,年齡15~81歲,中位年齡53歲;血清HIV均為陰性。肺腺癌組男14例,女16例,年齡31~82歲,平均(61.9±12.7)歲。肺TB組男20例,女6例,年齡20~71歲,中位年齡52.5歲;經(jīng)穿刺活檢病理證實為肉芽腫性病變,結(jié)合抗酸染色、實驗室檢查及臨床資料確診為肺TB。所有患者接受胸部CT檢查前均未經(jīng)任何治療。
1.2 儀器與方法 采用GE LightSpeed 64排VCT掃描儀,管電壓120 kV,管電流164~320 mA,采用螺旋掃描模式,螺距1.2,準直128×0.625 mm;重建層厚5 mm,層間隔5 mm,行胸部CT平掃。
1.3 特征提取 將CT平掃軟組織窗(窗寬350 HU,窗位50 HU)圖像導(dǎo)入ITK-SNAP(www.itk-snap.org)軟件,于病變較大層面手動勾畫ROI,面積1.0~2.5 cm2,盡量避免鈣化、空洞、壞死區(qū)域(圖1~3)。將原始圖像及ROI導(dǎo)入A.K(Artificial Intelligence Kitl Version V3.2.0.R)后處理軟件,調(diào)整體素為1 mm×1 mm×1 mm,之后采用線性插值法對其重采樣,以高斯濾波函數(shù)去噪、灰度離散化,對原始圖像進行標準化重建及融合。計算病灶ROI的紋理特征,提取包括灰度直方圖(Histogram)、灰度共生矩陣(gray level co-occurrence matrix, GLCM)、游程矩陣(run length matrix, RLM)、灰度區(qū)域大小矩陣(gray level size zone matrix, GLSZM)及Haralick特征在內(nèi)的共386個特征。
圖1 患者女,53歲,PC 軸位平掃CT圖(紅色為ROI) 圖2 患者女,40歲,肺腺癌 軸位平掃CT圖(紅色為ROI) 圖3 患者女,54歲,肺TB 軸位平掃CT圖(紅色為ROI)
1.4 圖像和統(tǒng)計學(xué)分析 采用R軟件3.5.1版(www.r-project.org)歸納上述數(shù)據(jù),刪除異常值所在列。按7∶3比例將所有樣本分為訓(xùn)練集和測試集,訓(xùn)練集中含19例PC、21例肺腺癌、18例肺TB,測試集分別為9、9、8例。以單因素方差分析和秩和檢驗(ANOVA+MW)、Spearman相關(guān)系數(shù)、最小絕對收縮和選擇算子(least absolute shrinkage and selection operator, Lasso)回歸3種方法聯(lián)合進行特征選擇和降維,2特征的Spearman相關(guān)系數(shù)設(shè)為0.9,獲得PC組與肺腺癌組、PC組與肺TB組之間存在顯著差異的較優(yōu)特征參數(shù)。采用隨機森林法分別建立基于影像組學(xué)特征的預(yù)測模型,并以訓(xùn)練集進行評估,之后于測試集進行驗證;繪制相應(yīng)的ROC曲線,以AUC、敏感度、特異度及準確率評價其鑒別效能。
本組實性病變直徑約1~5 cm,圖像均無明顯呼吸及光束硬化偽影干擾。
經(jīng)特征選擇獲得針對PC與肺腺癌的7個較優(yōu)特征,分別為Histogram的第10百分位數(shù)(Percentile10)、GLCM的逆差距(inverse difference moment)、逆差距_所有方向_步長1_標準差(inverse difference moment all direction_offset1_SD)、熵_所有方向_步長7(entropy_all direction_offset7)、熵_所有方向_步長7_標準差(entropy_all direction_offset7_SD)、集群陰影_角度135_步長1(cluster shade_angle135_offset1)及RLM的長行程優(yōu)勢_角度135_步長7(long run emphasis_angle135_offset7)。采用隨機森林法建立預(yù)測模型,并進行評估和驗證,ROC曲線(圖4A)示AUC為0.96[95%CI(0.87,1.00)],截斷值0.97,鑒別PC與肺腺癌的敏感度1.00、特異度0.78、準確率0.89(表1)。隨機森林模型自變量重要性排序見圖5A。
圖4 預(yù)測模型鑒別PC與肺腺癌(A)及PC與肺TB(B)測試集的ROC曲線
經(jīng)特征選擇,針對PC與肺TB獲得4個較優(yōu)特征參數(shù),即Histogram的第10百分位數(shù),GLCM的相關(guān)性_角度90_步長4(correlation_angle90_offset4),RLM的長行程優(yōu)勢_所有方向_步長1(long run emphasis_all direction_offset1),長行程優(yōu)勢_角度0_步長1(long run emphasis_angle0_offset1)。隨機森林建模后于訓(xùn)練集進行評估,于測試集進行驗證, ROC曲線(圖4B)示AUC為0.99[95%CI(0.93,1.00)],截斷值0.57,鑒別PC與肺TB的敏感度0.88、特異度0.89、準確率0.88(表1)。隨機森林模型自變量重要性排序見圖5B。
圖5 隨機森林模型自變量重要性示意圖 A.PC組與肺腺癌組; B.PC組與肺TB組
表1 測試集中隨機森林模型鑒別診斷PC與肺腺癌及PC與肺TB的效能
PC主要為通過呼吸道吸入隱球菌孢子至肺泡后引起,易感人群多為獲得性免疫缺陷綜合癥(acquired immune deficiency syndrome, AIDS)、器官移植術(shù)、長期服用廣譜抗生素及免疫力低下者等,也可發(fā)生于免疫功能正常人群,近年來發(fā)病率呈上升趨勢,尤其在無免疫功能缺陷或基礎(chǔ)疾病人群中[1-2]。血清CrAg檢測對于HIV陰性PC患者的敏感度僅為25%~56%[4],導(dǎo)致診斷困難。PC臨床癥狀及影像學(xué)表現(xiàn)均缺乏特異性,免疫功能正常者多以結(jié)節(jié)或腫塊為主,多發(fā)于兩肺下葉外周帶,易誤診為肺腺癌。PC早期病理學(xué)表現(xiàn)為膠樣病變,免疫功能正常者后期進一步形成肉芽腫性病變,易誤診為TB性肉芽腫[11]。對于肺腺癌,治療方式主要包括手術(shù)、放射及化學(xué)治療,而肺TB一般需6~8個月抗結(jié)核治療,對免疫功能正常PC患者則需要應(yīng)用氟康唑或伊曲康唑進行3~12個月的長效治療[12],且隱球菌易侵入中樞神經(jīng)系統(tǒng),導(dǎo)致隱球菌性腦膜炎,病程長,預(yù)后差。
目前用于建立基于影像組學(xué)特征的預(yù)測模型的常用機器學(xué)習方法有隨機森林、logistic回歸模型、支持向量機、人工神經(jīng)網(wǎng)絡(luò)、聚類分析及“l(fā)eave-one out”交叉驗證等。隨機森林是機器學(xué)習中的一個決策樹概念,表示假設(shè)為連續(xù)的“if-than”,訓(xùn)練時生成大量決策樹,結(jié)合每棵樹的個體決策獲得最優(yōu)分類,具有相對較低的過度擬合傾向,在影像組學(xué)機器模型中的穩(wěn)定性和預(yù)測性較高[13-14]。
本研究采用隨機森林法以較優(yōu)特征參數(shù)分別建立預(yù)測模型并于訓(xùn)練集數(shù)據(jù)進行訓(xùn)練,再于測試集數(shù)據(jù)進行驗證,結(jié)果示模型鑒別PC與肺腺癌的AUC、敏感度、特異度、準確率分別為0.96、1.00、0.78及0.89,鑒別PC與肺TB時分別為0.99、0.88、0.89及0.88,表明基于隨機森林的CT平掃圖像影像組學(xué)可用于鑒別結(jié)節(jié)/腫塊型PC與肺腺癌、肺TB性肉芽腫,并具有較好的診斷性能。經(jīng)篩選可用于鑒別PC與肺腺癌、肺TB的7個較優(yōu)特征包括Histogram的第10百分位數(shù),GLCM的熵、逆差距、集群陰影、相關(guān)性以及RLM的長行程優(yōu)勢。第10百分位數(shù)指樣本觀測灰度列中有10%的灰度值小于或等于該值。熵描述共生矩陣的復(fù)雜性,其值越大表示共生矩陣越復(fù)雜,提示病灶越復(fù)雜、異質(zhì)性越大。逆差矩指病灶的同質(zhì)性,其值越大則變化越小、局部越均勻。集群陰影與GLCM的一致性和偏度有關(guān),其值越小,偏度越小,即差異性較小。相關(guān)性度量GLCM元素的線性依賴關(guān)系,若矩陣元素值相差很大,則相關(guān)性值小。長行程優(yōu)勢描述圖像粗糙度或平滑度,在光滑圖像上其值較大。本研究PC組第10百分位數(shù)高于肺腺癌組及肺TB組,意味著CT圖像中表現(xiàn)為低灰度值的病灶炎性壞死區(qū)域相對較少,即低值區(qū)灰度值對PC有一定提示作用。PC組逆差距、長行程優(yōu)勢高于肺腺癌組,而熵、集群陰影低于肺腺癌組,提示肺腺癌圖像灰度不均勻。PC組相關(guān)性、長行程優(yōu)勢高于TB組,說明PC密度較TB病變更均勻,其局部像素灰度級相差小。本研究結(jié)果示PC病灶實性部分的圖像灰度較肺腺癌和肺TB更均勻、集中,可能與PC肉芽腫病灶內(nèi)細胞呈彌漫性分布、很少形成結(jié)節(jié),且壞死不徹底、存在網(wǎng)狀纖維支架有關(guān)[15]。本研究基于CT平掃圖像,未采集CT增強圖像紋理特征,結(jié)果顯示基于隨機森林的影像組學(xué)方法具有較好的鑒別診斷效能,有利于患者免于接受增強CT,從而減低輻射劑量。
綜上所述,基于隨機森林的影像組學(xué)方法可用于鑒別診斷結(jié)節(jié)/腫塊型PC與肺腺癌、肺TB,為臨床準確診斷和個體化治療提供依據(jù)。本研究尚存不足:①樣本量少;②僅采集平掃軟組織窗單層局部病變圖像,難以提取病變?nèi)啃畔ⅲ虎廴コ卣魅哂鄷r僅選擇組間差異最大的特征,可能遺漏有潛在價值的特征參數(shù)。