盧孔堯,黃鋼,左艷
1.上海理工大學醫(yī)療器械與食品學院,上海 200093;2.上海健康醫(yī)學院附屬嘉定中心醫(yī)院上海市分子影像學重點實驗室,上海 201318
肺癌依然是全世界癌癥相關死亡的主要原因[1]。腫瘤的早期發(fā)現(xiàn)和分期對肺癌的治療非常重要[2]。而非小細胞肺癌(Non-Small Cell Lung Cancer,NSCLC)患者約占所有肺癌患者的80%~85%,其治療方式主要根據(jù)TNM(Tumor, Lymph Node, Metastasis)期系統(tǒng)確定[3]。國家綜合癌癥網(wǎng)絡指南(2018)指出,早期NSCLC患者應首選手術,晚期NSCLC 患者應首選放療和化療[4]。而淋巴結(jié)轉(zhuǎn)移是肺癌最常見的轉(zhuǎn)移途徑。決定肺癌分期、治療方案和預后的關鍵因素之一是淋巴結(jié)轉(zhuǎn)移(Lymph Node Metastasis,LNM)。術前對腫瘤轉(zhuǎn)移的了解可以為選擇輔助治療或手術切除方案提供有價值的信息,從而幫助臨床醫(yī)生做出正確的決定[5]。為了保護肺功能,對于沒有淋巴結(jié)轉(zhuǎn)移的患者,應行有限切除,如楔形切除或節(jié)段切除[6]。已有調(diào)查研究表明,肺癌患者的5年生存率與淋巴結(jié)轉(zhuǎn)移相關,無淋巴結(jié)轉(zhuǎn)移患者的5年生存率約為56%,而有淋巴結(jié)轉(zhuǎn)移僅為38%[7]。因此,術前確定NSCLC 患者的淋巴結(jié)轉(zhuǎn)移情況非常重要。目前,評價NSCLC 淋巴結(jié)是否有轉(zhuǎn)移的方法有很多,這些方法包括計算機斷層掃描(Computed Tomography,CT)、正電子發(fā)射斷層掃描(Positron Emission Tomography-CT,PET-CT)、超聲引導活檢、胸腔鏡等[8-9]。PET-CT 檢查可以較好地評估淋巴結(jié)轉(zhuǎn)移狀態(tài),對肺癌患者的淋巴結(jié)分期具有較高的特異性。然而,PET-CT 檢查方式存在的誤診[10]和假陰性率[11]仍然是一個值得關注的問題。此外,發(fā)展中國家的許多患者負擔不起PET-CT 掃描的較高費用[12]。而胸腔鏡檢查和活檢等病理檢查方式也能對NSCLC 的淋巴結(jié)狀態(tài)進行評估,但是其有創(chuàng)性的操作會給無淋巴結(jié)轉(zhuǎn)移的患者帶來負面影響。因此,找到非侵入性的方法來預測患者淋巴結(jié)轉(zhuǎn)移情況對后續(xù)的臨床治療尤為重要[13-15]。
近年來,影像組學作為一種新興的方法,受到了越來越多學者和專家的關注.影像組學在癌癥患者的個體化治療中顯得越來越重要。有研究表明,影像組學方法可以從數(shù)字醫(yī)學圖像中提取定量特征,使在圖像上挖掘出的高維數(shù)據(jù)能夠應用于臨床決策支持,從而提高診斷、預后和預測的準確性[16-17]。本研究的目標是開發(fā)和驗證一個基于影像組學的模型,用于術前預測NSCLC患者的淋巴結(jié)轉(zhuǎn)移情況。
本研究的病人數(shù)據(jù)一部分來自癌癥影像檔案(The Cancer Imaging Archive,TCIA)中 的NSCLC Radiogenomics 公共數(shù)據(jù)集[18],使用數(shù)據(jù)庫中的134例NSCLC 患者的臨床和CT 影像數(shù)據(jù)。另一部分數(shù)據(jù)來自上海市胸科醫(yī)院經(jīng)病理證實的44 例NSCLC患者的臨床和CT 影像數(shù)據(jù)。患者的影像數(shù)據(jù)包括178 組CT 圖像序列,每幅圖像的尺寸大小為512 像素×512 像素,所選病例的納入標準為:(1)年齡均大于18 周歲,肺已發(fā)育完全,可以避免其他因素干擾;(2)病理診斷為NSCLC且已確定其LNM情況;(3)有完整的CT 圖像和個人的基本信息。排除標準為:(1)術前接受過放療或化療等治療;(2)沒有明確的病理分期。為了保證試驗本身的客觀和可靠性,并且能更有價值地預測淋巴結(jié)轉(zhuǎn)移狀況,在數(shù)據(jù)集的分配上,以公共數(shù)據(jù)集作為訓練集,總共134例樣本,其中109例無淋巴結(jié)轉(zhuǎn)移,25例有淋巴結(jié)轉(zhuǎn)移。從上海胸科醫(yī)院采集的數(shù)據(jù)作為測試集,總共44例樣本,其中17 例無淋巴結(jié)轉(zhuǎn)移,27 例有淋巴結(jié)轉(zhuǎn)移。兩部分患者的臨床信息如表1所示。
表1 兩中心納入病例的臨床信息(n=178)Table 1 Clinical information of the enrolled cases from two centers(n=178)
首先,由經(jīng)驗豐富的放射科醫(yī)生通過開源軟件ITK-SNAP[19](3.6.0 版本,www.itksnap.org)手工勾畫感興趣區(qū)域(Region of Interest,ROI)。兩個病例樣本最大直徑處勾畫的腫瘤標記CT 切片圖和最終經(jīng)三維重建得到的三維腫瘤圖見圖1。然后,再從中提取形態(tài)學特征、一階統(tǒng)計學特征和紋理特征。接著采用綜合采樣人工合成數(shù)據(jù)算法(Synthetic Minority Over-sampling Technique, SMOTE)對訓練集數(shù)據(jù)做平衡化處理,再用主成分分析(Principal Component Analysis,PCA)方法進行特征降維,而后用Relief、方差分析(Analysis of Variance,ANOVA)和遞歸特征消除(Recursive Feature Elimination, RFE)算法進行特征選擇,最后將預處理后的數(shù)據(jù)對5種分類器進行訓練,并經(jīng)過5 折交叉驗證,建立NSCLC 淋巴結(jié)轉(zhuǎn)移預測模型,然后進行外部驗證。工作流程如圖2所示。
圖1 兩個病例腫瘤切片標記圖(上)和三維重建圖(下)Figure 1 Tumor slice labeled images(up)and three-dimensional reconstruction images(down)of 2 cases
圖2 本文工作流程Figure 2 Workflow of the proposed method
1.2.1 特征提取特征提取是影像組學中非常關鍵的一步,通過此步驟可以從醫(yī)學影像中獲取有用的信息和數(shù)據(jù),以便于后續(xù)對腫瘤異質(zhì)性的定量分析和描述。為了使CT 影像組學特征更準確地分析并預測NSCLC淋巴結(jié)轉(zhuǎn)移狀況,應該多角度、多種類地提取相關的定量指標特征。本研究使用python 中的開源軟件包Pyradiomics[20](https://github. com/Radiomics/pyra-diomics)從分割的腫瘤區(qū)域中自動提取出1 648 個影像組學特征,其中包括形態(tài)學、紋理、一階統(tǒng)計學特征,具體的特征類型及名稱如表2所示。
表2 所提取的特征Table 2 Extracted features
1.2.2 數(shù)據(jù)平衡在試驗中,由于訓練集的樣本中有109例無淋巴結(jié)轉(zhuǎn)移,25例淋巴結(jié)轉(zhuǎn)移,兩者在數(shù)量上的比例不均衡。而這種樣本類別之間的比例失調(diào),往往會導致預測得出的結(jié)果出現(xiàn)很大的偏倚,即預測分類結(jié)果會更偏向于多數(shù)類樣本,致使分類結(jié)果不準確。因此,為了解決數(shù)據(jù)不平衡問題,采用SMOTE算法對訓練集數(shù)據(jù)做平衡化處理。SMOTE算法是2002年Chawla等[21]提出的一種技術,這種技術可以用過采樣方法合成少數(shù)類樣本的數(shù)量,以達到類別數(shù)量之間趨于均衡的效果。算法的具體流程如下所示。
(1)在特征數(shù)據(jù)空間中,取每一個少數(shù)類的樣本m,找到該樣本的k個最近的相鄰樣本,一般k值取5。(2)根據(jù)自身試驗所需樣本的過采樣量,確定過采樣倍率,然后從k個最近的相鄰樣本中隨機選擇n個樣本(n<k)。(3)先算出某一少數(shù)樣本與其最近鄰樣本的差值,然后將該差值乘以0 和1 之間的一個隨機數(shù),最后將其加入原來的少數(shù)樣本中,從而合成新的樣本。(4)本文采用SMOTE 算法,使訓練集數(shù)據(jù)的無淋巴結(jié)轉(zhuǎn)移樣本擴充到109 例。由于使用該算法得到的樣本并不是真實樣本數(shù)據(jù),所以該部分樣本只參與分類器模型的訓練過程,而不參與模型的測試過程,測試過程選用的是44 例外部數(shù)據(jù)集作為測試集進行模型驗證。
1.2.3 特征優(yōu)化通過影像組學的方法可以從腫瘤區(qū)域中提取出大量的定量特征,但是由于提取的特征中包含一些噪聲和冗余的特征,會使后續(xù)的計算變得更加復雜,甚至會導致預測模型出現(xiàn)過擬合現(xiàn)象。因此,特征優(yōu)化是一種非常有必要的方法,借助此方法可以選到一些對提高模型預測性能和數(shù)據(jù)處理速度真正重要的特征子集。試驗中首先通過PCA 方法壓縮和簡化提取到的高維特征數(shù)據(jù),去除無關和冗余信息對預測模型的干擾。然后再使用Relief、ANOVA 和RFE 算法進行特征選擇,最終達到特征優(yōu)化的目的。
本文采用PCA 算法進行特征降維,PCA 可以將多個變量轉(zhuǎn)化為重要的幾個綜合主成分,而忽略掉其中不重要的成分,這些主成分是通過原始數(shù)據(jù)的變量特征經(jīng)過線性變換轉(zhuǎn)化而來的組合,組合之間是互不相關的,但是能反映原始數(shù)據(jù)的大量信息,從而實現(xiàn)高維特征向量向低維特征向量的轉(zhuǎn)換。其具體的算法流程如下。
假設有一個特征數(shù)據(jù)集,其樣本數(shù)量為n,特征數(shù)量為p,將其組合成一個大小為n×p矩陣x,如公式(1)所示:
由于每個特征的度量單位不一致的情況容易影響后續(xù)的的特征降維,所以先對數(shù)據(jù)集中的每一個特征進行標準化處理,即按列計算出每個特征的均值和標準差,然后通過計算得到標準化數(shù)據(jù),使標準化數(shù)據(jù)的每一個特征減去對應該列特征的平均值,得到新的矩陣X,如公式(2)所示:
然后計算標準化樣本的協(xié)方差矩陣R,如公式(3)所示:
一般來說,貢獻率越大,表明該成分綜合的信息越多。而為了達到降維又盡可能地保證原數(shù)據(jù)信息的完整性,保留累計貢獻率達到較高值的k個特征向量作為主成分。本試驗選取累計貢獻率超過80%的前幾個特征作為主成分,在保證原數(shù)據(jù)信息完整的條件下,去除噪聲和冗余信息,達到特征降維并優(yōu)化的效果。在試驗中,將原來提取的1 648個影像組學特征通過PCA方法降維到60個更具代表性的主成分特征,既達到了特征壓縮的目的,又能充分代表原數(shù)據(jù)的信息,為后續(xù)分類預測模型的建立奠定了良好的基礎。
經(jīng)過PCA 特征降維之后,再使用Relief、ANOVA和RFE 算法進行特征選擇,最后得到特征冗余量小并與淋巴結(jié)轉(zhuǎn)移更顯著相關的特征子集。
1.2.4 預測分類模型的建立和驗證為了得到最優(yōu)的預測分類模型,進行了大量的試驗研究和測試,最終采用了5種泛化性強、適合小樣本數(shù)據(jù)的代表性分類算法,包括樸素貝葉斯(Na?ve Bayes,NB),線性判別分析(Linear Discriminant Analysis, LDA)、邏輯回歸(Logistic Regression,LR)、支持向量機(Support Vector Machine, SVM)和高斯過程(Gaussian Process, GP),再用優(yōu)化后的訓練集數(shù)據(jù)訓練分類器,接著用測試集數(shù)據(jù)進行分類預測研究。此外,在試驗中還引入了5折交叉驗證的方法,該方法既能提升模型的可靠性,還能在很大程度上提高現(xiàn)有數(shù)據(jù)的利用率。
使用基于5 種不同的機器學習分類算法和5 折交叉驗證的方法進行分類試驗和模型評估,并使用準確率(Accuracy, ACC)、受試者操作特征曲線(Receiver Operative Characteristic Curve, ROC)的曲線下面積(Area Under Curve, AUC)、敏感性(Sensitivity, SEN)及特異性(Specificity, SPE)這些指標評價分類結(jié)果的好壞。在訓練集和測試集上的評價結(jié)果如表3所示,5 種分類器模型最優(yōu)子類型的ROC曲線如圖3所示。
圖3 5種模型的最優(yōu)子類型ROC曲線圖Figure 3 ROC curves of the optimal subtypes of 5 models
表3 5種分類器的分類結(jié)果Table 3 Classification results of 5 classifiers
為了得到一個穩(wěn)定有效的模型,并且保證該模型在訓練時不會出現(xiàn)過擬合現(xiàn)象。于是對多個分類器進行訓練,在保證較高的準確率和AUC 值的情況下,還要使模型的敏感性和特異性保持在一種較為均衡的狀態(tài)。如上面試驗結(jié)果所示,用不同模型進行訓練和預測時,采用Relief 特征選擇方法下的NB預測模型為本試驗中最好的模型,在所有模型中,此模型下測試集的準確率和AUC 的值均為最高,分別為0.795 和0.810,敏感性和特異性也處于較高水平,分別為0.725和0.869,表明通過該影像組學模型能較準確地對NSCLC患者的淋巴結(jié)轉(zhuǎn)移情況進行預測。
本研究基于影像組學的方法,通過高通量計算,從CT圖像中提取定量特征,將數(shù)字醫(yī)學圖像轉(zhuǎn)換為可挖掘分析的高維特征數(shù)據(jù),然后通過數(shù)據(jù)統(tǒng)計分析探究CT圖像的影像組學特征與NSCLC患者淋巴結(jié)轉(zhuǎn)移的相關聯(lián)系,并以多中心實驗數(shù)據(jù)開發(fā)并驗證一個穩(wěn)健有效的影像組學預測模型,進一步實現(xiàn)對NSCLC患者淋巴結(jié)轉(zhuǎn)移狀況無創(chuàng)準確的預測。其中所創(chuàng)建的最優(yōu)影像組學模型在測試集上(AUC=0.810)具有良好的鑒別分類能力,并且其預測NSCLC患者LNM的有效性顯著高于CT報告中淋巴結(jié)狀態(tài)模型和形態(tài)學模型[22-23]。結(jié)果表明,影像組學特征可以為我們提供更豐富的信息,以其為基礎建立的模型在很大程度上提高NSCLC患者LNM的預測準確率,從而輔助醫(yī)生做出更精準的決策,因此在臨床應用上具有重要的指導意義。本研究有如下創(chuàng)新點,第一,我們所開發(fā)的影像組學預測模型是基于多個中心獲得的數(shù)據(jù)建立的,因此可以從外部數(shù)據(jù)驗證預測模型的穩(wěn)健性和可重復性。第二,從CT醫(yī)學影像提取1 648個定量影像組學特征,并進行有效的統(tǒng)計分析,更全面準確地反映CT圖像中的腫瘤信息,大大提高了影像組學模型的預測準確性。第三,采用了SMOTE算法,解決了模型訓練過程中的數(shù)據(jù)不平衡問題,使試驗得到的預測模型更加穩(wěn)定和準確。第四,采用PCA特征降維和Relief、ANOVA和RFE特征選擇方法做特征優(yōu)化處理,最后獲得相關性最高的最優(yōu)特征,為建立更準確的預測模型奠定良好的基礎。最后,通過5折交叉驗證的方法對NB,LDA,LR,SVM和GP 5種泛化性強、適合小樣本數(shù)據(jù)的代表性分類算法進行分類訓練,再用外部數(shù)據(jù)評估驗證模型的準確性和穩(wěn)定性,這些方法既能降低數(shù)據(jù)集產(chǎn)生的偶然性,提高模型的泛化能力,還能高效地利用現(xiàn)有數(shù)據(jù),并通過試驗結(jié)果對比得到性能最優(yōu)的預測模型。
目前已有學者開發(fā)相似的基于影像組學的預測模型用于預測NSCLC患者的LNM狀態(tài),Cong等[24]從411例NSCLC患者的CT圖像中提取影像組學特征,然后使用ANOVA和最小絕對收縮和選擇運算(LASSO)方法選擇最優(yōu)的10個影像組學特征,并使用LR算法建立預測模型。朱靜等[25]從200例樣本中提取影像組學特征,使用LASSO和LR方法建立預測模型。然后將文獻[24-25]中用到的方法建立的預測模型結(jié)果與本文相比,以預測模型的AUC值作為評估指標進行對比,其對比結(jié)果如表4所示。從結(jié)果上看,本文采用的算法所開發(fā)的預測模型的AUC值比其他兩者都高,說明本文提出的預測模型分類性能更好,準確度更高。
表4 不同方法的預測模型結(jié)果比較Table 4 Comparison of results of prediction models with different methods
雖然本文開發(fā)的預測模型分類鑒別效果良好,但是還是存在一些不足之處。一、本試驗研究所用到的數(shù)據(jù)樣本量比較少,今后需要獲取更多的試驗數(shù)據(jù)進行下一步測試和驗證。二、僅基于影像組學特征建立預測模型,沒有將患者的臨床和基因組學特征納入試驗研究中??傊?,我們開發(fā)并驗證了一種基于影像組學的淋巴結(jié)預測模型,可以對NACLC患者的淋巴結(jié)狀態(tài)進行無創(chuàng)并有效地評估,并輔助臨床決策。