成都大學(xué)附屬醫(yī)院放射科(610081)
王 娜 肖建明Δ 羅 鈦 李春燕 呂賽群
【提 要】 目的 對(duì)比R語(yǔ)言中LASSO與經(jīng)典特征選擇方法在前列腺紋理分析診斷高級(jí)別前列腺癌中的效果。方法 回顧分析臨床懷疑高級(jí)別前列腺癌,進(jìn)行多參數(shù)磁共振檢查的患者,所有患者均在磁共振檢查后一個(gè)月內(nèi)進(jìn)行經(jīng)直腸超聲引導(dǎo)穿刺活檢獲得病理結(jié)果。提取T2WI、ADC、T1WI-DCE序列的紋理特征及T1WI-DCE的定量特征,分別應(yīng)用LASSO和經(jīng)典方法進(jìn)行紋理特征選擇,再對(duì)經(jīng)特征選擇后的數(shù)據(jù)分別通過(guò)多元logistic回歸(LR)建立高級(jí)別前列腺癌的預(yù)測(cè)模型,最后采用受試者工作特征曲線(xiàn)(ROC)分別評(píng)價(jià)模型效能。結(jié)果 LASSO+LR驗(yàn)證集敏感度為0.8261,特異度為0.9444,準(zhǔn)確度為0.8983;經(jīng)典法+LR驗(yàn)證集敏感度為0.9130,特異度為0.9167,準(zhǔn)確度為0.9153;兩個(gè)模型驗(yàn)證組AUC之間無(wú)統(tǒng)計(jì)學(xué)差異(P=0.3630)。結(jié)論 LASSO和經(jīng)典方法在用于前列腺紋理分析診斷高級(jí)別前列腺癌的特征選擇時(shí),均表現(xiàn)出良好效能,且差異無(wú)統(tǒng)計(jì)學(xué)意義,兩者均可應(yīng)用磁共振紋理分析鑒別高級(jí)別前列腺癌與良性前列腺增生。
前列腺癌是男性常見(jiàn)的惡性腫瘤,其發(fā)病率居全世界男性癌癥發(fā)病率的第二位[1]。磁共振多參數(shù)成像因組織分辨率高、可清晰顯示前列腺的解剖及病變、在前列腺疾病的診斷中具有特異性和準(zhǔn)確性高的特點(diǎn)而被臨床廣泛應(yīng)用[2-3]。近年來(lái)采用高通量數(shù)據(jù)的紋理分析鑒別前列腺癌與良性增生取得良好的效能被較多報(bào)道[4-5],本文旨在對(duì)比紋理分析過(guò)程中基于R語(yǔ)言L(fǎng)ASSO與經(jīng)典特征選擇方法在高級(jí)別前列腺癌與良性前列腺增生的鑒別診斷的價(jià)值。
1.一般資料
收集本院2014年1月至2017年12月前列腺疾病患的磁共振檢查資料和病理結(jié)果。本研究屬回顧性分析,均已簽署磁共振檢查知情同意書(shū)。納入標(biāo)準(zhǔn)為:①磁共振檢查前未進(jìn)行任何前列腺手術(shù)或藥物治療;②磁共振常規(guī)平掃和動(dòng)態(tài)增強(qiáng)掃描序列的圖像完整且質(zhì)量都達(dá)到了診斷所需的要求;③在磁共振檢查結(jié)束后一個(gè)月內(nèi)完成經(jīng)超聲引導(dǎo)穿刺活檢并獲得前列腺良惡性信息的病理結(jié)果。最后進(jìn)入研究的有:高級(jí)別前列腺癌患者共74例(Gleason評(píng)分≥7),年齡56~93(77.03±7.69)歲;良性前列腺增生患者120例,年齡50~93(73.29±8.81)歲。
2.檢查方法
檢查方法:采用德國(guó)Siemens公司Avanto1.5T超導(dǎo)型磁共振儀。檢查前空腹4小時(shí)以上,使用腹部+脊椎相控陣線(xiàn)圈,取平臥位,頭先進(jìn),掃描范圍為包括前列腺全部層面。常規(guī)掃描橫軸位、冠狀位及矢狀位T2WI,參數(shù)設(shè)置如下:FOV 20cm×20cm,TR 4000ms,TE 101ms,層厚 0.3cm,層間隔 0.06cm,NEX 1,矩陣256×205。橫軸位T1WI參數(shù)設(shè)置如下:FOV 20cm×20cm,TR 500ms,TE 9ms,層厚 0.3cm,層間隔 0.06 cm,NEX:1,矩陣256×205:DWI掃描采用自旋回波-平面回波序列,參數(shù)設(shè)置如下:b值分布為0s/mm2、100s/mm2、800s/mm2,F(xiàn)OV 26cm×22cm,TR 3700ms,TE 80ms,層厚 0.36cm,層間隔 0,NEX 6,矩陣160×95。動(dòng)態(tài)增強(qiáng)掃描采用T1高分辨力各向同性容積激發(fā)序列行多期動(dòng)態(tài)掃描,參數(shù)設(shè)置如下:FOV 26cm×26cm,TR 5ms,TE 1.69ms,層厚 3.6mm,層間隔 0.6,NEX:1,矩陣192×138。先掃描平掃兩期后在第三期掃描同時(shí)以2ml/s,總量0.2mmol/kg注射對(duì)比劑,接著以同樣的速率和總量注射生理鹽水,動(dòng)態(tài)增強(qiáng)序列每期掃描時(shí)間為10s。
3.圖像及數(shù)據(jù)分析
(1)圖像處理
將原始DICOM圖像數(shù)據(jù)導(dǎo)出,通過(guò)Omni-Kinetics 軟件,分別在T2WI、ADC、T1WI-DCE序列中勾畫(huà)所有層面所有病灶區(qū)為興趣區(qū)(ROI),每一個(gè)序列的ROI勾畫(huà)完成后,計(jì)算并提取出該序列的紋理特征67個(gè),T1WI-DCE另提取定量特征99個(gè)。
(2)數(shù)據(jù)分析
將紋理和定量數(shù)據(jù)共300個(gè)特征載入R語(yǔ)言軟件(版本:3.3.3),分別經(jīng)過(guò)LASSO和經(jīng)典方法進(jìn)行紋理特征選擇。LASSO降維過(guò)程:①使用函數(shù)cv.glmnet,并設(shè)置family=“binomial”和type.measure = “deviance”及默認(rèn)10折交叉驗(yàn)證計(jì)算變異系數(shù);②使用函數(shù)coef.lambda.1se提取出非0系數(shù)的特征變量。經(jīng)典方法采用caret軟件包,caret軟件包依次執(zhí)行:①函數(shù)nearZeroVar剔除常數(shù)變量、剔除方差極小自變量;②函數(shù)findCorrelation剔除相關(guān)性大于90%變量;③函數(shù)findLinearCombos剔除多重共線(xiàn)性變量;④函數(shù)createDataPartition將剩下的特征分成75%的訓(xùn)練樣本和25%檢驗(yàn)樣本;⑤使用函數(shù)rfeControl進(jìn)行特征選擇,并設(shè)置抽樣方法使用交叉驗(yàn)證,模型為隨機(jī)森林;⑥使用函數(shù)ref提取出特征變量。對(duì)經(jīng)LASSO和經(jīng)典方法進(jìn)行特征選擇后的紋理及定量數(shù)據(jù)分別隨機(jī)取70%作為訓(xùn)練組(高級(jí)別前列腺癌52例,前列腺良性增生83例),剩下的30%(高級(jí)別前列腺癌22例,前列腺良性增生37例)為驗(yàn)證組分別建立多元logistic回歸預(yù)測(cè)模型。采用受試者工作特征曲線(xiàn)評(píng)價(jià)模型的效能。
經(jīng)LASSO進(jìn)行特征選擇后,最優(yōu)λ值篩選出11個(gè)紋理及定量特征,包括:T2.Quantile10、T2.Quantile95、ADC.MinIntensity、ADC.Quantile75、ADC.sumAverage、DCE.uniformity、DCE.Energy、ImageStd、Ve0.1、Vp0.75、Vp0.9;經(jīng)caret包的經(jīng)典方法進(jìn)行特征選擇后篩選出10個(gè)自變量:T2.Quantile5、T2.RelativeDeviation、T2.Variance、ADC.MinIntensity、ADC.Quantile95、ADC.sumAverage、ADC.uniformity、Vp0.1、Vp0.9、VpMedian。兩個(gè)模型驗(yàn)證集預(yù)測(cè)結(jié)果見(jiàn)表1。
表1 驗(yàn)證集預(yù)測(cè)結(jié)果
四組模型訓(xùn)練集和驗(yàn)證集ROC曲線(xiàn)見(jiàn)圖1、圖2。
圖1 LASSO+LR ROC曲線(xiàn)
圖2 經(jīng)典法+LR ROC曲線(xiàn)
圖1、圖2分別給出了LASSO+LR與經(jīng)典法+LR訓(xùn)練組和驗(yàn)證組的ROC曲線(xiàn)。LASSO+LR與經(jīng)典法+LR之間AUC無(wú)統(tǒng)計(jì)學(xué)差異(P= 0.3630)。
高維數(shù)據(jù)在建模前通常需要對(duì)數(shù)據(jù)進(jìn)行降維處理,既可以降低模型過(guò)擬合的風(fēng)險(xiǎn),又能減少計(jì)算量和提高模型的可解釋性。LASSO算法可以在高維數(shù)據(jù)中快速有效地提取出重要變量[6-7],簡(jiǎn)化模型,對(duì)于最后得到的回歸方程,在估計(jì)出每一個(gè)放入模型的自變量的系數(shù)后,能夠更好地解釋它。LASSO的估計(jì)過(guò)程中加上了限制條件,這個(gè)限制條件的值越小,對(duì)估計(jì)參數(shù)的壓縮作用就越強(qiáng)。當(dāng)我們對(duì)這個(gè)目標(biāo)函數(shù)求最小時(shí),一些不重要的自變量的系數(shù)將被壓縮為0,從而達(dá)到篩選變量的作用;再通過(guò)10折或5折交叉驗(yàn)證,得出平均誤差最小的那個(gè)lambda值和平均誤差在一個(gè)標(biāo)準(zhǔn)差以?xún)?nèi)的最大的lambda值,然后根據(jù)需要選擇精簡(jiǎn)的模型或標(biāo)準(zhǔn)模型,得出篩選后的變量用于建模。本研究選擇的10折交叉驗(yàn)證,并選取標(biāo)準(zhǔn)模型,獲得11個(gè)紋理+定量特征用于建立邏輯回歸預(yù)測(cè)模型。R語(yǔ)言的caret包可完整實(shí)現(xiàn)經(jīng)典降維方法中對(duì)常數(shù)自變量、零方差或者近零方差的自變量、相關(guān)性較高自變量、多重共線(xiàn)性自變量的剔除[8];之后為防止部分自變量的權(quán)重過(guò)高對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,再通過(guò)logistic回歸、決策樹(shù)、隨機(jī)森林等方法實(shí)現(xiàn)對(duì)高維數(shù)據(jù)的降維。LASSO計(jì)算了每一個(gè)變量的系數(shù),而經(jīng)典降維方法在刪除相關(guān)性較高或多重共線(xiàn)性自變量時(shí)并未計(jì)算和驗(yàn)證其系數(shù),保留了其中的一個(gè),這種算法的不同或執(zhí)行順序的不同導(dǎo)致了這兩種特征選擇方法所得出的自變量不完全相同。當(dāng)通過(guò)一系列連續(xù)型和/或類(lèi)別型預(yù)測(cè)變量來(lái)預(yù)測(cè)二值型結(jié)果變量時(shí),logistic回歸是一個(gè)非常成熟且有用的工具,已廣泛應(yīng)用于各領(lǐng)域。紋理特征對(duì)病灶的信號(hào)強(qiáng)度、分布、形態(tài)等進(jìn)行量化,用以客觀反映病變特征,相比于傳統(tǒng)的肉眼觀察獲得的病變信息更客觀穩(wěn)定。目前已應(yīng)用于全身各部位的影像分析。
本研究的LASSO方法與經(jīng)典方法篩選出的T2WI紋理特征和T1WI_DCE紋理及定量特征不完全相同,但ADC序列的紋理特征基本一致,說(shuō)明ADC序列的紋理特征在診斷高級(jí)別前列腺癌的性能佳且穩(wěn)定,是診斷前列腺疾病十分重要的序列,與文獻(xiàn)報(bào)道一致[9-10]。ADC.MinIntensity是ADC的最低信號(hào)強(qiáng)度,ADC值越低,表示病灶區(qū)水分子擴(kuò)散受限程度越高;ADC.Quantile95是ADC信號(hào)強(qiáng)度95%分位值,與ADC.MinIntensity相對(duì)應(yīng),其值越大,表示病灶區(qū)水分子擴(kuò)散受限程度越低。ADC這兩個(gè)特征參數(shù)代表了典型的前列腺癌的特征,與文獻(xiàn)報(bào)道的前列腺癌病灶區(qū)ADC呈低信號(hào)的結(jié)果[11-12]相符。而T2WI在不同的降維方法中被篩選出不同特征可能是因?yàn)門(mén)2WI的信息受到的干擾較多,炎癥、出血、增生等情況可具有相似的紋理特征[13],還需要更多的數(shù)據(jù)證實(shí)。
LASSO和經(jīng)典方法在用于前列腺紋理分析的特征選擇時(shí),均表現(xiàn)出良好效能,且無(wú)顯著差異,兩者均可應(yīng)用臨床紋理分析的高級(jí)別前列腺癌與良性前列腺增生的鑒別診斷。
中國(guó)衛(wèi)生統(tǒng)計(jì)2022年4期