楊柳瓊,鄭建軍,向 遙(通信作者)
(1 寧波大學(xué)醫(yī)學(xué)院 浙江 寧波 315211)
(2 中國科學(xué)院大學(xué)寧波華美醫(yī)院放射科 浙江 寧波 315010)
塵肺病指職業(yè)活動中長期吸入不同致病性的生產(chǎn)性粉塵潴留于肺內(nèi)而引起的以肺組織彌漫性纖維化為主的一組職業(yè)性肺部疾病的統(tǒng)稱[1-2],其包括矽肺、煤工塵肺、石墨塵肺等共13 種類別,其中矽肺是我國發(fā)病率最高、死亡率最高的病種。目前矽肺病的診斷[3]需由3 名以上取得塵肺病診斷資質(zhì)的專家評判,面臨耗時費力、可重復(fù)性較差等局限性問題[4]。近年來影像組學(xué)作為一種新興方法[5],被廣泛應(yīng)用于各種腫瘤、非腫瘤的臨床問題,但沒有關(guān)于其在矽肺診斷及分期方面的潛在應(yīng)用的研究。本文旨在通過機器學(xué)習(xí)方法分析基于CT 圖像影像組學(xué)的多分類機器學(xué)習(xí)模型用于矽肺病分期預(yù)測的可行性,希望能為醫(yī)生提供參考。
選取2016 年1 月—2020 年12 月在中國科學(xué)院大學(xué)寧波華美醫(yī)院接受職業(yè)病檢查患者245 例的基本臨床信息、職業(yè)史及影像資料。納入標準:①在DR 檢查前、后1 個月內(nèi)接受CT 檢查者;②有明確的矽塵接觸史者;③有明確的專家小組鑒定的分期結(jié)果。排除標準:①圖像質(zhì)量不能滿足診斷要求者;②合并其他病變者,如肺炎、慢性阻塞性肺疾病、肺結(jié)核等?;颊呔橥獗狙芯?。
CT 掃描設(shè)備為Siemens Somatom Definition Flash 及AS 64 排螺旋CT 機,掃描時患者取仰臥位,掃描范圍從胸廓入口至后肋膈角的水平。圖像采集參數(shù):管電壓120 kV,自適應(yīng)電流,視野342 mm×267 mm,采集矩陣512×512,重建層厚10 mm,重建間隔10 mm。
參照GBZ 70-2015《職業(yè)性塵肺病的診斷》[3],根據(jù)3 名以上取得塵肺病診斷資質(zhì)的職業(yè)醫(yī)生組成的專家小組的分期結(jié)果分為四類,即0 期(n=104)、Ⅰ期(n=77)、Ⅱ期(n=30)、Ⅲ期(n=24);并按照7:3 的比例,由計算機隨機選取病例作為訓(xùn)練組及測試組。
(1)感興趣區(qū)域分割:從PACS 系統(tǒng)上提取圖像,選擇重建層厚10 mm、無間隔的CT 圖像導(dǎo)入3D-slicer 軟件(version 4.11.0,http://www.slicer.org),先由1 名有豐富經(jīng)驗的放射科醫(yī)生在對分期結(jié)果不知情的情況下進行圖像分割。由于矽肺病變是彌漫性的,很難準確勾畫出異常的區(qū)域,因此我們選擇病變加正常肺紋理區(qū)域的3D 容積作為感興趣區(qū)(ROI)。采用的是半自動圖像分割方法,具體的分割步驟如下:先使用套索工具自動勾勒肺區(qū)域的輪廓并選中,過程中將葉以上支氣管及血管排除在選中范圍內(nèi)以減少干擾,然后根據(jù)正常肺實質(zhì)的CT 值范圍[-∞~(-750)HU]減去正常肺組織區(qū)域,得到病灶加肺紋理區(qū)域,再手動調(diào)整ROI 范圍,逐層進行勾畫,最終得到三維的ROI。之后由另1 名醫(yī)師對其分割的ROI 進行審核確定,以保證準確性。圖像分割示例(圖1)。
圖1 1 例Ⅱ期矽肺CT 圖像的ROI 勾畫示意圖
(2)特征提?。涸谔卣魈崛∏八杏跋駭?shù)據(jù)被重新采樣至1 mm×1 mm×1 mm 的體素大小。將處理后的圖像及對應(yīng)的感興趣區(qū)域掩模圖像同時導(dǎo)入Artificial Intelligence Kit(V3.3.0.R,GE Healtheare)軟件進行計算,共包括18 個一階特征、14 個形態(tài)學(xué)特征及75 個紋理特征共107 個影像組學(xué)特征。
(3)特征篩選及組學(xué)標簽建立:先采用標準化對數(shù)據(jù)集進行預(yù)處理,并對缺失值進行填充,對異常值進行平衡。特征提取分2 步進行,首先利用相關(guān)性分析(Correlation_xx)去除冗余特征,再采用GBDT 分析,保留對分類貢獻大的自變量;最終選取出7 個最優(yōu)特征,形成與其相應(yīng)加權(quán)系數(shù)乘積的線性組合。
(4)影像組學(xué)模型構(gòu)建及驗證:在本研究中,我們采用Logistic 回歸分類器,利用One-vs-all 的分類思想,分別訓(xùn)練了4 個二分類Logistic 回歸模型,計算為矽肺0 期、Ⅰ期、Ⅱ期、Ⅲ期的概率,最后選擇概率最大的為最終的輸出結(jié)果;根據(jù)結(jié)果得到一個4×4 的混淆矩陣來評估模型效能。
采用R 3.5.1 軟件進行數(shù)據(jù)處理及統(tǒng)計分析。符合正態(tài)分布的計量資料以均數(shù)±標準差(± s)表示,采用單因素方差分析;計數(shù)資料以頻數(shù)(n)、百分率(%)表示,采用χ2或Fisher's 精確檢驗。繪制受試者工作特征(ROC)曲線,以曲線下面積(AUC)并結(jié)合準確率、特異度、靈敏度和Kappa系數(shù)來評估這個多分類模型的性能。P<0.05 表示差異有統(tǒng)計學(xué)意義。
245 例患者中男性241 例,女性4 例;年齡22 ~77 歲,平均(48.73±7.41)歲;工齡0.1 ~42.0 年,平均(12.56±7.27)年。不同期別矽肺病患者的性別、年齡和工齡差異無統(tǒng)計學(xué)意義(P>0.05),見表1。
表1 各期矽肺患者臨床資料比較
利用相關(guān)性分析(Correlation_xx),r截斷值為0.7,對107 個影像特征進行相關(guān)性檢驗,剔除89 個高度相關(guān)的特征(剩18 個特征)。采用GBDT 分析,選取對分類貢獻最大的特征子集,最終選取7 個特征。其中一階特征1 個,為偏度(skewness);形狀特征2 個,分別為伸長率(elongation)和球度(sphericity);灰度相關(guān)矩陣特征1 個,為依賴熵(dependence entropy);灰度共生矩陣特征2 個,分別為集群趨勢(cluster tendency)和聯(lián)合能量(joint energy);鄰域灰度差矩陣特征1 個,為強度(strength)。
根據(jù)上述7 個放射組特征建立Logistic 回歸模型,采用5 折交叉驗證法訓(xùn)練模型,計算平均AUC;基于不同期別矽肺病建立的4 個二分類器的ROC 曲線分析如圖 2 所示。表2 為模型組在驗證集中的分類預(yù)測結(jié)果;表3 總結(jié)了該模型在訓(xùn)練集及驗證集中的診斷性能。綜上所述,影像組學(xué)模型在訓(xùn)練組和驗證組中,對各期矽肺病具有較好的鑒別性能。
表2 模型對驗證集的預(yù)測分類結(jié)果與真實分類構(gòu)成的混淆矩陣
表3 在訓(xùn)練組和驗證組中模型鑒別各期矽肺病的診斷較能
圖2 影像組學(xué)模型預(yù)測各期矽肺的訓(xùn)練組和驗證組ROC 曲線
在臨床實踐中,胸片表現(xiàn)仍是塵肺病診斷的主要依據(jù),但其存在不同組織相互重疊、部分遮蓋及密度分辨率不高等缺陷,即使是有資質(zhì)的放射科醫(yī)生在解讀塵肺診斷的X 線片圖像時也存在顯著差異[6],在實際診斷工作中面臨著巨大的挑戰(zhàn)。而多位學(xué)者證明與X 線胸片相比,CT 檢查在矽肺患者中的診斷中具有多方面的顯著優(yōu)勢[7-9]。2020 年中國中華預(yù)防醫(yī)學(xué)會職業(yè)病分會塵肺病影像學(xué)組發(fā)布了《塵肺病胸部CT 規(guī)范化檢查技術(shù)專家共識》(2020 版)[10],旨在從技術(shù)上規(guī)范CT 用于塵肺病的輔助檢查和鑒別診斷;因此本研究采用10 mm 層厚、無間隔的CT 重建圖像,以更加清晰地顯示矽肺小結(jié)節(jié)病變。
隨著影像組學(xué)的快速發(fā)展,越來越多的學(xué)者嘗試將這種技術(shù)應(yīng)用于非腫瘤性疾病的研究,例如COPD、肺氣腫、肺特發(fā)性纖維化等疾?。籐i 等[11]證明將放射組學(xué)方法用于COPD 的識別和嚴重度分期;Kloth 等[12]證明影像組學(xué)方法可用于區(qū)分卡氏肺孢子蟲肺炎和彌漫性肺泡出血,克服了由于患者在早期階段的影像學(xué)表現(xiàn)相似而僅通過視覺評估帶來的診斷挑戰(zhàn)。
本文提出的影像組學(xué)模型能比較明顯地區(qū)分出正常對象及Ⅲ期矽肺患者,但對Ⅰ期及Ⅱ期矽肺患者較難區(qū)分。這與臨床實踐中的結(jié)果也較相符,放射科醫(yī)生往往對Ⅲ期塵肺病進行診斷相對來說并不太難;而早期患者影像上均表現(xiàn)為較規(guī)則的小結(jié)節(jié),由此難以區(qū)別,特別是Ⅱ期矽肺患者。另外也可能與該組的病例數(shù)過少相關(guān)?;赬 胸片的診斷標準,矽肺病的分期與小陰影密集度及分布范圍密切相關(guān);在這項研究中,我們提取得到的與分類貢獻最大的7 個組學(xué)特征中,集群趨勢、偏度、伸長率、球度和聯(lián)合能量都在一定程度上反映了感興趣區(qū)域即病灶的密集度。
本研究的局限性:①本研究為回顧性分析,由放射科醫(yī)師手動分割圖像,存在一定的主觀傾向;②本研究的數(shù)據(jù)源于同一家醫(yī)院且各分期的樣本量不均衡,后期會嘗試進行多中心研究,擴大各期的樣本量,進一步評估驗證模型性能。
綜上所述,本文結(jié)果表明,CT 放射組學(xué)應(yīng)用于矽肺的分期取得了良好的分類效能,希望能進一步研究胸片與CT 影像之間病灶的關(guān)聯(lián),設(shè)計和實現(xiàn)適用于矽肺分期深度學(xué)習(xí)的分類模型,實現(xiàn)矽肺的精準分期,更好地指導(dǎo)患者的個體化治療。