馬亞楠 宋玥 郝天宇
摘? 要:目前關(guān)于非小細(xì)胞肺癌(NSCLC)患者生存分析的研究已經(jīng)有很多,但是大多數(shù)都是在醫(yī)生勾畫出腫瘤的基礎(chǔ)上進(jìn)行影像組學(xué)特征提取,其次結(jié)合臨床以及治療前患者的腫瘤PET/CT圖像特征進(jìn)行生存分析的研究。在無醫(yī)生勾畫腫瘤的基礎(chǔ)上,采用深度學(xué)習(xí)的方法,基于患者治療前后FDG-PET是否可以對局部晚期NSCLC患者進(jìn)行生存分析。在采用治療前和治療后FDG-PET時,基于3D卷積神經(jīng)網(wǎng)絡(luò)(3D CNN)的深度生存模型的一致性指數(shù)(C-index)為0.67。研究表明,同時使用治療前后PDG-PET進(jìn)行閱片可以預(yù)測出患者的風(fēng)險概率。
關(guān)鍵詞:非小細(xì)胞肺癌;治療前后PDG-PET;3D卷積神經(jīng)網(wǎng)絡(luò);生存分析
中圖分類號:TP391? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2023)04-0109-05
Survival Prediction of Patients with Locally Advanced NSCLC Based on 3D CNN
MA Ya'nan, SONG Yue, HAO Tianyu
(Lanzhou University of Finance and Economics, Lanzhou? 730020, China)
Abstract: There have been many studies on the survival analysis of patients with non-small cell lung cancer (NSCLC). However, most of the studies are based on the extraction of tumor radiomics features based on the tumour label outlined by the physician, followed by a combination of clinical and pre-treatment PET/CT image features of the patient for survival analysis. Survival analysis of patients with locally advanced NSCLC based on whether pre-treatment and post-treatment FDG-PET can be performed by using a deep learning approach without the basis of tumors label of the physician. The consistency index (C-index) of the deep survival model based on 3D CNN is 0.67 when using pre-treatment and post-treatment FDG-PET. The study shows that simultaneous reading with pre-treatment and post-treatment PDG-PET can predict the risk probability of patient.
Keywords: non-small cell lung cancer; pre-treatment and post-treatment PDG-PET; 3D CNN; survival analysis
0? 引? 言
癌癥是世界范圍內(nèi)的主要公共衛(wèi)生問題。肺癌是世界范圍內(nèi)最常見的癌癥類型,也是導(dǎo)致癌癥死亡的主要原因[1]。肺癌可以大致分為小細(xì)胞肺癌(Small Cell Lung Cancer, SCLC, 15%)和非小細(xì)胞肺癌(Non-small cell lung cancer, NSCLC, 85%)。其中NSCLC患者中超過三分之一(33%~50%)的患者表現(xiàn)為局部晚期疾病[2]。局部晚期NSCLC通常是指Ⅲ期的NSCLC[3]。
PET對NSCLC分期有效,與常規(guī)分期相比,對局部或遠(yuǎn)端轉(zhuǎn)移疾病的敏感性和特異性更高[4];并且已經(jīng)有研究證明,放化療后相對較快獲得的18-氟脫氧葡萄糖(FDG)PET可以預(yù)測長期預(yù)后。但是由于PET/CT檢查非常昂貴,極少有病人會在治療后再次進(jìn)行PET/CT篩查,導(dǎo)致治療后圖像數(shù)據(jù)非常稀缺。并且腫瘤金標(biāo)準(zhǔn)勾畫非常昂貴和耗時,如果可以在不勾畫腫瘤金標(biāo)準(zhǔn)的基礎(chǔ)上,對PET圖像進(jìn)行閱片來對患者進(jìn)行生存分析可以節(jié)省極大的人力和時間。
Cox比例風(fēng)險模型可以對比與事件和事件發(fā)生時間相關(guān)的變量,是醫(yī)學(xué)研究[5]中常用的分析方法。該方法不僅提供了結(jié)果(即是否死亡),還提供了事件發(fā)生的時間,這對臨床實(shí)踐更有模型幫助。Cox比例風(fēng)險模型表現(xiàn)出較高的性能,但也有局限性。它假設(shè)是線性分析,而不是進(jìn)行非線性分析。非線性分析可以更好地反映實(shí)際的特征與患者預(yù)后之間的相關(guān)性[5]。
在過去的幾年里,深度學(xué)習(xí)已經(jīng)成為一個跨越廣泛的成像領(lǐng)域的強(qiáng)大工具,如分類、預(yù)測、檢測、分割、診斷、解釋、重建等。雖然深度神經(jīng)網(wǎng)絡(luò)最初在計(jì)算機(jī)視覺社區(qū)中發(fā)現(xiàn),但它們很快傳播到醫(yī)學(xué)成像應(yīng)用。
深度學(xué)習(xí)在診斷疾病方面的加速力量將使醫(yī)生在臨床環(huán)境中加快決策。近年來,現(xiàn)代醫(yī)療器械的應(yīng)用和醫(yī)療保健的數(shù)字化產(chǎn)生了大量的醫(yī)學(xué)圖像。在這個大數(shù)據(jù)領(lǐng)域,用于高效數(shù)據(jù)處理、分析和生成數(shù)據(jù)建模的新深度學(xué)習(xí)方法和計(jì)算模型對于臨床應(yīng)用和理解潛在的生物過程至關(guān)重要。
近年來,深度學(xué)習(xí)在醫(yī)學(xué)領(lǐng)域引起了關(guān)注[6,7]。通過深度學(xué)習(xí),有可能提取出特征與個體預(yù)后之間復(fù)雜的線性和非線性關(guān)系。將深度學(xué)習(xí)集成到Cox比例風(fēng)險模型中,導(dǎo)致了深度學(xué)習(xí)生存神經(jīng)網(wǎng)絡(luò)(DeepSurv)的發(fā)展[8]。在具有線性和非線性協(xié)變量的生存數(shù)據(jù)上,這已被證明與其他生存分析方法一樣好或更好。死亡時間估計(jì)的優(yōu)點(diǎn)是它比傳統(tǒng)的二值分類任務(wù)能提供更多的信息。傳統(tǒng)的二元分類并不估計(jì)患者在死亡風(fēng)險增加之前的多少天。另一方面,死亡時間模型可以從一個固定時間點(diǎn)(在該模型中的入院時)的數(shù)據(jù)中估計(jì)隨時間變化的死亡風(fēng)險。
假設(shè)可以通過使用FDG-PET建立一個可以直接從醫(yī)學(xué)影像中提取圖像特征的預(yù)后模型。由于DeepSurv沒有處理圖像的機(jī)制,整合了卷積神經(jīng)網(wǎng)絡(luò)(CNN),這是DeepSurv的深度學(xué)習(xí)領(lǐng)域之一??梢杂枚说蕉说男问街苯邮褂煤吞幚韴D像,以評估預(yù)后。
本文的研究重點(diǎn)是基于患者治療前和治療后的FDG-PET圖像,并采用深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型對NSCLC患者進(jìn)行生存分析。
1? 相關(guān)知識
1.1? 生存分析
生存數(shù)據(jù)由三個要素組成:患者的基線數(shù)據(jù)x、事件發(fā)生的時間間隔T和事件指示器E。如果觀察到事件(例如死亡),時間間隔T對應(yīng)于收集基線數(shù)據(jù)的時間和事件發(fā)生的時間之間的時間,并且事件指示器為E=1。如果沒有觀察到一個事件,時間間隔T對應(yīng)于收集基線數(shù)據(jù)到與患者最后一次接觸(如研究結(jié)束)之間經(jīng)過的時間,事件指標(biāo)為E=0。在這種情況下,病人被認(rèn)為是正確審查的。如果選擇使用標(biāo)準(zhǔn)回歸方法,右截尾數(shù)據(jù)被認(rèn)為是一種缺失數(shù)據(jù)。這通常會被丟棄,這可能會在模型中引入偏差。因此,對右截尾數(shù)據(jù)進(jìn)行建模需要特別考慮或使用生存模型。
生存和風(fēng)險函數(shù)是生存分析中的兩個基本功能。生存函數(shù)用S(t)=Pr(T>t)表示,它表示一個個體在時間t后“存活”的概率。風(fēng)險函數(shù)λ(t)的定義為:
風(fēng)險函數(shù)是一個人不能存活額外的時間δ的概率,假設(shè)他們已經(jīng)存活到時間t。因此,危險越大,死亡的風(fēng)險就越大。
生存分析模型包括兩個部分,包括線性分析模型以及非線性分析模型。常用的線性生存分析模型指的是Cox比例風(fēng)險回歸模型,用來處理特征與生存時間以及生存狀態(tài)之間的線性關(guān)系。但是通常得到的特征,其與患者生存狀態(tài)以及時間之間的關(guān)系并非是線性關(guān)系,因此會采用深度學(xué)習(xí)生存神經(jīng)網(wǎng)絡(luò)來處理特征進(jìn)行生存分析,并且深度學(xué)習(xí)可以直接用來處理圖像,為使用深度學(xué)習(xí)進(jìn)行生存分析提供了一種端到端的方式。
1.2? CNN
在深度學(xué)習(xí)和醫(yī)學(xué)圖像處理領(lǐng)域,CNN是最常用的神經(jīng)網(wǎng)絡(luò)。CNN結(jié)構(gòu)由三層類型組成:(a)卷積,(b)池化層和(c)全連接層,分層有序,堆疊在多層中。除了這些層之外,還有一個輸入層和一個輸出層。每一層的功能都是學(xué)習(xí)圖像[9]的具體特征。
CNN模型的性能會在很大程度上受到數(shù)據(jù)的影響。此外,它可能對結(jié)果產(chǎn)生誤導(dǎo),以及模糊圖像特征從而影響到CNN最終的預(yù)測結(jié)果,因?yàn)橐阎派鋱D像有噪聲、人工制品和其他因素,可能影響醫(yī)療和計(jì)算機(jī)應(yīng)用程序的感知[10]。因此,醫(yī)學(xué)圖像分析的第一步通常是圖像預(yù)處理,以改善圖像的質(zhì)量、對比度、噪聲去除等特征[11]。
2? 實(shí)驗(yàn)數(shù)據(jù)
2.1? 數(shù)據(jù)來源
本文所采用的數(shù)據(jù)為公開數(shù)據(jù)集,患者數(shù)據(jù)來自美國放射影像網(wǎng)絡(luò)(ACRIN)6668/放射治療腫瘤組(RTOG)/0235。該數(shù)據(jù)集總共有250名患者,共有242名非小細(xì)胞肺癌患者的影像數(shù)據(jù)。其中239名患者有PDG-PET圖像數(shù)據(jù),180名患者有治療前和治療后的FDG-PET圖像,156名患者有治療前和治療后的FDG-PET/CT圖像。
2.2? 數(shù)據(jù)預(yù)處理
所采用的數(shù)據(jù)中每名患者都有治療前和治療后的FDG-PET/CT圖像,首先,將患者的FDG-PET/CT圖像經(jīng)過3DSlicer醫(yī)學(xué)圖像處理軟件得到其PET圖像對應(yīng)的SUV圖像;然后,去除處理異常和SUV圖像異常的數(shù)據(jù)以及臨床分期非、、的患者,然后將所有的患者切片進(jìn)行重采樣到相同的層厚,最后手動挑選出所有病人肩膀以下、膀胱以上的部分,最終納入144名患者。并將圖像進(jìn)行了歸一化,剔除圖像中可能存在的一些噪聲以及干擾信息。從中隨機(jī)選取80%的數(shù)據(jù)作為訓(xùn)練集,其余20%的數(shù)據(jù)為測試集。本實(shí)驗(yàn)采用的數(shù)據(jù)情況如表1所示。
3? 實(shí)驗(yàn)方法
3.1? 模型結(jié)構(gòu)
本文采用的生存分析模型如圖1所示。將同一名患者治療前后的FDG-PET同時輸入到由3D卷積神經(jīng)網(wǎng)絡(luò)組成的特征提取器中,用來進(jìn)行圖像特征提取;然后將提取到的特征通過通道數(shù)疊加到一起,最后經(jīng)過全連接層預(yù)測患者的風(fēng)險概率。
具體來說就是將一個CNN合并到DeepSurv[8]中:將CNN的輸出連接到DeepSurv的全連接層,以創(chuàng)建一個端到端深度學(xué)習(xí)模型。該模型同時由CNN和MLP結(jié)構(gòu)組成。在正向傳播過程中,將從影像中提取到的CNN的特征傳遞給MLP。損失根據(jù)MLP的輸出值計(jì)算。然后,CNN和MLP中的權(quán)重將同時進(jìn)行更新。在每個訓(xùn)練過程中,模型將圖像和臨床數(shù)據(jù)作為輸入,預(yù)測結(jié)果(死亡或出院),然后通過反向傳播對DeepSurv和CNN進(jìn)行訓(xùn)練。
3.2? 特征提取模塊
所采用的特征提取模塊如圖2所示。特征提取模塊的基本框架是3D-VGG16,與VGG16不同的是,只采用的VGG16網(wǎng)絡(luò)的前三個卷積塊來進(jìn)行圖像特征提取,并分別在第一和最后一個卷積塊后加入了卷積注意力(Convolutional Block Attention Module, CBAM)[12]模塊,如圖3所示。
本實(shí)驗(yàn)采用的三個卷積塊中,前兩個卷積塊由兩個3×3×3的卷積組成,最后一個卷積塊由三個3×3×3的卷積組成。每個3×3×3的卷積后都跟了一個批量歸一化(即BatchNorm)和Relu激活層。在每個卷積塊的最后都有一個最大池化層用來進(jìn)行下采樣,核大小為2×2×2,步幅為2。
CBAM模塊由兩個部分組成,分別是通道注意力模塊和空間注意力模塊。通道注意力模塊是將從卷積塊得到的特征先分別經(jīng)過全局平均池化和全局最大池化層,然后分別通過共享參數(shù)的MLP層后相加,最后經(jīng)過Softmax激活后和最初的特征相乘得到通道注意力特征。通道注意力模塊中的MLP層是由兩個1×1×1的卷積組成,兩個卷積層中間加了一個Relu激活層。空間注意力模塊是將從經(jīng)過通道注意力模塊得到的特征分別經(jīng)過最大和平均池化層后,得到兩個不同的特征圖,然后經(jīng)過通道數(shù)堆疊,通過一個1×1×1的卷積層以及Softmax激活層,將得到的概率圖和通道注意力特征相乘得到最后的卷積注意力特征。最后在特征提取器后面加了一個全局平均池化層,將卷積神經(jīng)網(wǎng)絡(luò)提取到的三維特征映射到一維層面,并進(jìn)行患者的生存預(yù)測。
4? 實(shí)驗(yàn)與結(jié)果
4.1? 損失函數(shù)
卷積神經(jīng)網(wǎng)絡(luò)的輸出是具有線性激活的單個節(jié)點(diǎn),估計(jì)的是Cox模型中的對數(shù)風(fēng)險函數(shù)[8],因此本文采用的損失函數(shù)是平均負(fù)對數(shù)似然損失函數(shù):
其中,NE=1為患有可觀察事件的患者數(shù)量。
模型訓(xùn)練過程中的損失如圖4所示,訓(xùn)練過程中訓(xùn)練集的損失隨著epoch的增加,是成波動變化的,但整體上呈下降趨勢。
4.2? 實(shí)驗(yàn)參數(shù)設(shè)置
由于實(shí)驗(yàn)設(shè)備的局限,為了保證實(shí)驗(yàn)的順利進(jìn)行,本實(shí)驗(yàn)的特征提取模塊中的卷積塊通道數(shù)分別為16、32、32。用于治療前和治療后FDG-PET的特征提取器的參數(shù)是共享的。優(yōu)化器選擇的是Adam優(yōu)化器與權(quán)重衰減為0.000 5,學(xué)習(xí)率設(shè)置為0.001,并選擇使損失函數(shù)最小的權(quán)重用于測試。
4.3? 評價指標(biāo)
C-index,C指數(shù),即一致性指數(shù)(index of concordance),用來評價模型的預(yù)測能力。它估計(jì)了預(yù)測結(jié)果與實(shí)際觀察到的結(jié)果相一致的概率,取值范圍在[0, 1],計(jì)算方法為:
其中,n是可比較對的數(shù)量, 是指示函數(shù),t是實(shí)際的時間觀測值,f表示預(yù)測的風(fēng)險概率。C-index數(shù)值越大,模型的預(yù)測結(jié)果就越好[13]。
4.4? 特征提取可視化
在特征提取模塊,卷積神經(jīng)網(wǎng)絡(luò)提取到的特征圖可視化如圖5所示,圖5(a)至圖5(d)為治療前患者的FDG-PET所提取到的特征圖,圖5(e)至圖5(f)為治療后患者的FDG-PET所提取到的特征圖。圖中第一行圖片是特征提取模塊提取的患者治療前FDG-PET的圖像特征,第二行圖片是特征提取模塊提取的患者治療后FDG-PET的圖像特征。第一列圖像是輸入的圖像經(jīng)過特征提取模塊的第一個卷積塊時候所提取到的淺層圖像特征,第二列圖像是圖像經(jīng)過特征提取模塊的第二個卷積塊后所提取到的圖像特征,第三列是圖像經(jīng)過特征提取模塊的第三個卷積塊后所提取到的深層圖像特征,最后一列是第三列圖像經(jīng)過CBAM后得到的最終的圖像特征。圖像在經(jīng)過每個卷積塊后,圖像的大小以及像素值都會發(fā)生改變,為了觀察方便,手動把它調(diào)整為同樣大小,特征圖的像素值也經(jīng)過了歸一化擴(kuò)展到了[0, 255]。
4.5? 實(shí)驗(yàn)結(jié)果與分析
為了驗(yàn)證僅使用治療前或治療后的FDG-PET圖像對生存分析是否有幫助,進(jìn)行了對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2所示。實(shí)驗(yàn)結(jié)果表明在單獨(dú)使用治療前或治療后患者的PDG-PET圖像進(jìn)行生存分析時,是可以提取到與患者生存分析有關(guān)的一些圖像特征的,雖然生存分析結(jié)果的C-index偏低,但是還是對患者生存分析有一定的幫助。模型在同時使用治療前和治療后患者的FDG-PET圖像時,生存分析效果最好,這表明網(wǎng)絡(luò)同時學(xué)到了治療前和治療后患者的FDG-PET的一些特征,并可能學(xué)到了它們之中的不同之處用來進(jìn)行最后的生存分析,才會使在同時使用治療前和治療后的圖像時,生存分析結(jié)果有所提升。其中3D CNN with CBAM表示本文所采用的模型,3D CNN without CBAM表示的是在本文所采用模型的基礎(chǔ)上去掉CBAM模塊,實(shí)驗(yàn)結(jié)果的目的是為了驗(yàn)證網(wǎng)絡(luò)加入CBAM模塊后效果是否有提升,驗(yàn)證CBAM模塊的有效性。最終實(shí)驗(yàn)結(jié)果表明,在加入CBAM模塊后,模型的效果得到了提升,這表明卷積神經(jīng)網(wǎng)絡(luò)在加入注意力模塊時,模型學(xué)到了一些與生存分析有關(guān)的特征,尤其是在同時使用治療前和治療后的FDG-PET時,生存分析的效果最好,C-index達(dá)到了0.67。
5? 結(jié)? 論
本文的實(shí)驗(yàn)表明,在沒有醫(yī)生勾畫腫瘤金標(biāo)準(zhǔn)的情況下,采用閱片的形式對患者進(jìn)行生存分析是可行的,并且在同時使用治療前和治療后的FDG-PET時效果最好,C-index達(dá)到了0.67。
參考文獻(xiàn):
[1] SIEGEL R L,MILLER K D,F(xiàn)UCHS H E,et al. Cancer Statistics [J].CA:A Cancer Journal for Clinicians.2022,72(1):7–33.
[2] 中華醫(yī)學(xué)會腫瘤學(xué)分會,中華醫(yī)學(xué)會雜志社.中華醫(yī)學(xué)會腫瘤學(xué)分會肺癌臨床診療指南:2021版 [J].中華腫瘤雜志,2021,43(6):591-621.
[3] SHIARLI A-M,PATEL P,MCDONALD F. Management of Locally Advanced Non-Small Cell Lung Cancer [M]//JANES S M. Encyclopedia of Respiratory Medicine:Second Edition.Pittsburgh:Academic Press,2022:810-824.
[4] TRUONG M T,VISWANATHAN C,ERASMUS J J. Positron Emission Tomography/Computed Tomography in Lung Cancer Staging,Prognosis,and Assessment of Therapeutic Response [J].Journal of Thoracic Imaging,2011,26(2):132-46.
[5] COX D R. Regression Models and Life-Tables [M]//KOTZ S,JOHNSON N L. Breakthroughs in Statistics Volume II Methodology and Diitribution.Berlin:Springer,1992:527-541.
[6] HINTON G. Deep Learning—a Technology with the Potential to Transform Health Care [J].JAMA,2018,320(11):1101-1102.
[7] LECUN Y,BENGIO Y,HINTON G. Deep learning [J].Nature,2015,521(28):436-444.
[8] KATZMAN J L,SHAHAM U,CLONINGER A,et al. Deepsurv:Personalized Treatment Recommender System Using a Cox Proportional Hazards Deep Neural Network [J/OL].arXiv:1606.00931 [stat.ML].[2022-08-03].https://arxiv.org/abs/1606.00931.
[9] VIZCARRA J,PLACE R,TONG L,et al. Fusion in Breast Cancer Histology Classification [C]//the 10th ACM International Conference on Bioinformatics,Computational Biology and Health Informatics.Niagara Falls:ACM,2019:485-493.
[10] NISHIKAWA R M,GIGER M L,DOI K,et al. Effect of Case Selection on the Performance of Computer-Aided Detection Schemes [J].Medical physics,1994,21(2):265-269.
[11] RODRIGUEZ-RUIZ A,TEUWEN J,CHUNG K,et al. Pectoral Muscle Segmentation in Breast Tomosynthesis with Deep Learning [C]//Medical Imaging 2018:Computer-Aided Diagnosis.Houston:SPIE,2018:10575.
[12] WOO S,PARK J,LEE J-Y,et al. CBAM:Convolutional Block Attention Module [J/OL].arXiv:1807.06521 [cs.CV].[2022-08-06].https://arxiv.org/abs/1807.06521v2.
[13] YAO J W,ZHU X L,JONNAGADDALA J,et al. Whole Slide Images Based Cancer Survival Prediction Using Attention Guided Deep Multiple Instance Learning Networks [J/OL].arXiv:2009.11169 [eess.IV].[2022-08-09].https://arxiv.org/abs/2009.11169.
作者簡介:馬亞楠(1996—),女,漢族,河南鄭州人,碩士在讀,研究方向:信息管理與信息系統(tǒng);宋玥(1997—),女,漢族,山西呂梁人,碩士在讀,研究方向:信息管理與信息系統(tǒng);郝天宇(2001—),男,漢族,湖北荊門人,本科在讀,研究方向:信息管理與信息系統(tǒng)。
收稿日期:2022-09-30